訂閱
糾錯
加入自媒體

金融大模型,能讓普通人成為“投資之王”嗎?

最新的實(shí)驗(yàn)表明,人工智能選出的股票組合漲幅約為2%,基本與大盤持平,離所謂的“AI索羅斯”相去甚遠(yuǎn)。

自從ChatGPT問世后,人類就想到了用它來分析預(yù)測各種走勢。

天氣、流行病、股價走勢,都在被給予厚望的清單里……

上月,一個名為The GPT Portfolio的賬號在推特迅速走紅。該賬號此前宣布,將借助ChatGPT進(jìn)行實(shí)盤投資。

根據(jù)他們的研究,ChatGPT 不僅能夠預(yù)測股市價格走勢,還能產(chǎn)生超過 500% 的回報(bào)!

而在5月26日,摩根大通也宣布正在研發(fā)名為“IndexGPT”的金融服務(wù)工具,利用云計(jì)算和人工智能進(jìn)行證券的分析和選擇,為客戶提供智能化和個性化的投資建議。

一時間,似乎所有人都嗅到了GPT所散發(fā)出的財(cái)富的味道……

那么,AI+金融的組合,真有那么強(qiáng)大么?

今天,讓我們不妨先將目光聚焦回國內(nèi),分析度小滿最近發(fā)布的金融大模型——軒轅,看看是否能在該大模型身上,找到這些問題的答案。

01 數(shù)據(jù)越大越好?

上月月底,度小滿正式發(fā)布基于BLOOM-176B研發(fā)的軒轅大模型,是一個通用+金融領(lǐng)域的千億級參數(shù)大模型。其數(shù)據(jù)集不但包含了各種通用內(nèi)容,還包含了諸如金融研報(bào)、股票、基金、銀行、保險等方向的專業(yè)知識。

在金融場景中的任務(wù)評測中,效果相較于通用大模型大幅提升,表現(xiàn)出金融領(lǐng)域的獨(dú)特優(yōu)勢。

在這里,我們就試著從金融數(shù)據(jù)、金融新聞理解、市場輿情分析這三個方面,對軒轅大模型在金融領(lǐng)域的表現(xiàn),進(jìn)行一番剖析。

首先來看金融數(shù)據(jù)方面。

眾所周知,對于垂直領(lǐng)域來說,大模型所具有的專業(yè)數(shù)據(jù)越多、質(zhì)量越高,其模型表現(xiàn)就越好。

那么在這方面,軒轅是否積累了足夠的金融數(shù)據(jù)呢?

一個不可否認(rèn)的事實(shí)是:盡管百度這些年一直在盡力在金融領(lǐng)域布局,其麾下的度小滿涵蓋了消費(fèi)金融、支付、互聯(lián)網(wǎng)理財(cái)、互聯(lián)網(wǎng)保險、互聯(lián)網(wǎng)證券等多個板塊,但從體量上來說,其掌握的金融數(shù)據(jù),仍舊很難以與國內(nèi)的一些龐大的金融集團(tuán),例如中投相比。

中投在國內(nèi)控參股10多家金融機(jī)構(gòu),掌控萬億資產(chǎn),其投資和涉及的行業(yè)包括了信息科技、金融、彈性消費(fèi)品、醫(yī)療健康等領(lǐng)域,其中信息科技占比最高,為22.76%。此外,在工業(yè)、通訊服務(wù)、非彈性消費(fèi)品、原材料等領(lǐng)域也有一定分布。

而相較之下,度小滿的金融服務(wù),則更多地集中于互聯(lián)網(wǎng)金融領(lǐng)域。

既然沒有數(shù)據(jù)方面的絕對優(yōu)勢,度小滿又怎么有信心問鼎國內(nèi)首個金融大模型呢?

原因就在于,在垂直領(lǐng)域,專有數(shù)據(jù)的運(yùn)用,其實(shí)遠(yuǎn)比追求“絕對數(shù)據(jù)”的優(yōu)勢要重要。

ARK(方舟基金)創(chuàng)投聯(lián)合負(fù)責(zé)人及分析師Will Summerlin在談到這點(diǎn)時,曾說到:“對于想抓住這次AI革命的公司來說,運(yùn)用好自身的專有數(shù)據(jù)集,能讓他們快速針對自己的領(lǐng)域來訓(xùn)練或微調(diào)模型。”

在此前百度搭建的金融生態(tài)中,出現(xiàn)了面向大眾的消費(fèi)信貸服務(wù)品牌---有錢花、理財(cái)平臺--度小滿理財(cái),以及支付平臺——度小滿錢包。

這些APP中積累的信息,構(gòu)成了百度用來訓(xùn)練或調(diào)整模型的大量數(shù)據(jù),基于這些數(shù)據(jù),百度可以形成一套自身專有的反饋循環(huán)系統(tǒng),進(jìn)而逐漸形成對產(chǎn)品的洞察力。從而使其能不斷針對客戶數(shù)據(jù)優(yōu)化模型,讓模型隨著時間推移越來越好。

更重要的是,除了擁有數(shù)據(jù)之外,將數(shù)據(jù)與AI相結(jié)合的能力,也是構(gòu)建金融大模型不可或缺的一步。

早在2018年,創(chuàng)立之初,度小滿就看到了“NLP+金融”的潛力,開始進(jìn)行相應(yīng)的產(chǎn)業(yè)布局。

而當(dāng)時不僅全世界專注做NLP公司很少,成立專門的金融科技NLP團(tuán)隊(duì)的更是鮮見。

經(jīng)過數(shù)年的鉆研,2021年,在微軟舉辦的MS MARCO 比賽中的文檔排序Document Ranking(文檔排序)任務(wù)中,度小滿的AI-NLP團(tuán)隊(duì)排名第一并刷新紀(jì)錄。

2022年,軒轅 (XuanYuan) 預(yù)訓(xùn)練模型,也在中文語言理解領(lǐng)域最具權(quán)威性的測評基準(zhǔn)之一CLUE分類任務(wù)中排名第一。

于是,放眼國內(nèi),在金融領(lǐng)域擁有龐大數(shù)據(jù)的,在NLP上卻比不過度小滿;而在NPL上有所建樹的,卻又很少能搭建出度小滿那樣專有的金融生態(tài)。

如此一來,軒轅便確立了自身在“金融大模型”這一生態(tài)位中的獨(dú)特優(yōu)勢。

02 AI“索羅斯”?

除了金融數(shù)據(jù)外,軒轅大模型的另一個重要的能力,就是其對金融事件、新聞的解讀能力。

很多投資者,都希望借助大模型的能力,來分析金融時事背后的原因。

畢竟,索羅斯這樣的金融大鱷,90年代正是憑借對歐洲輿情、時局的準(zhǔn)確判斷,做出了做空英鎊,做多馬克的決定,并一舉戰(zhàn)勝了英格蘭銀行。

而這種閱讀并理解時事,乃至解讀市場輿情的能力,則主要是由大模型的自然語言處理能力(NLP)決定的。因?yàn)闀r事解讀,輿情分析的主要任務(wù),是對大量的文本數(shù)據(jù)進(jìn)行語義分析和情感分析。

在NPL方面,軒轅大模型的一個最大特點(diǎn),就是“化大為小”,“化通為專”。

具體來說,軒轅通過將開放領(lǐng)域?qū)W到的知識遷移到下游任務(wù),不僅改善了低資源任務(wù)數(shù)據(jù)相對不足的問題,也提高了自身的泛化能力和魯棒性。從而更好地適應(yīng)不同領(lǐng)域和場景的閱讀和分析需求。

然而,這種用大量通用數(shù)據(jù)預(yù)訓(xùn)練一個基礎(chǔ)模型,再用特定任務(wù)數(shù)據(jù)微調(diào)一個下游模型的做法,以往存在兩個缺點(diǎn):

一是預(yù)訓(xùn)練和微調(diào)的數(shù)據(jù)可能存在不一致或不匹配的問題,導(dǎo)致模型難以適應(yīng)新任務(wù);

二是微調(diào)的數(shù)據(jù)可能存在不足或不平衡的問題,導(dǎo)致模型難以學(xué)習(xí)到有效的特征。

對此,軒轅大模型在引入金融任務(wù)數(shù)據(jù)訓(xùn)練的同時,還融合了不同粒度不同層級的交互信息,從而改進(jìn)了傳統(tǒng)訓(xùn)練模式。

具體來說,軒轅采用了多階段的訓(xùn)練策略,先從通用大規(guī)模的數(shù)據(jù)逐漸遷移到小規(guī)模的特定業(yè)務(wù)以及特定任務(wù),然后通過不同的階段逐漸訓(xùn)練,直到滿足目標(biāo)任務(wù)。

這樣可以緩解預(yù)訓(xùn)練和微調(diào)之間的數(shù)據(jù)不一致或不匹配的問題,提高模型的遷移能力和泛化能力。

同時,在預(yù)訓(xùn)練階段,軒轅還使用了多種自監(jiān)督學(xué)習(xí)任務(wù),如掩碼語言模型、語句順序預(yù)測、語句內(nèi)部結(jié)構(gòu)預(yù)測,這樣可以從不同角度和層次學(xué)習(xí)語言知識和語義信息,提高模型的表達(dá)能力和理解能力。

基于這樣的能力,我們也不難理解,為何軒轅大模型曾在2022年,在中文語言理解領(lǐng)域的CLUE分類任務(wù)中排名第一。并且距離人類“表現(xiàn)”僅差3.38分。

實(shí)際上,金融行業(yè)因其與數(shù)據(jù)的高度相關(guān)性,成為了NLP最早賦能的行業(yè)之一。

通過NLP,人們可以在證券投資中為量化投資貢獻(xiàn)因子,如熱點(diǎn)挖掘、輿情分析、事件驅(qū)動分析,或是在大數(shù)據(jù)風(fēng)控中,用Tag抽取技術(shù)為構(gòu)建用戶畫像提供技術(shù)支持。

例如事件驅(qū)動分析這一功能,在應(yīng)用NLP技術(shù)前,很多金融從業(yè)人員真的是靠人盯新聞、公告,來獲取相關(guān)信息,然而,從一篇長篇累牘的新聞或公告中,找出一些風(fēng)險信號或營銷機(jī)會真的是費(fèi)時費(fèi)力。

而NLP的應(yīng)用,無疑極大地提升了金融領(lǐng)域的工作效率。

那么,在具備了準(zhǔn)確識別和分析金融事件、市場輿情的能力后,金融大模型是否真的能帶眾多投資者一飛沖天,成為AI加持下的新一批“索羅斯”呢?

03 AI+投資,神話or噱頭?

還記得開頭提到的那個借助ChatGPT進(jìn)行實(shí)盤投資,并聲稱收益率超過500%的例子嗎?

截至5月底,已有2.5萬名投資者被吸引,總共約押注1000多萬美元的資金在ChatGPT選出的投資組合上。

然而,經(jīng)過近兩周的實(shí)踐后,人們發(fā)現(xiàn)這個“AI分析師”似乎并沒有像傳說中的那么“神”。

人工智能選出的股票組合漲幅約為2%,基本與大盤持平,且按百分比計(jì)算,該組合中后五名股票的下跌幅度超過了前五名的漲幅。

針對這種情況,有文章分析稱,這是因?yàn)锳utopilot實(shí)驗(yàn)項(xiàng)目中的投資組合,是命令ChatGPT分析1萬條以上的新聞,并得到得分最高的前100只股票,再結(jié)合公司財(cái)報(bào)數(shù)據(jù)得到綜合打分,最終買入的前20只股票。

在失去空頭部分收益的情況下,實(shí)際的投資表現(xiàn)自然會與論文中的回測結(jié)果產(chǎn)生較大差異。

等一下,不是說AI已經(jīng)可以通過NLP,準(zhǔn)確地識別并分析金融事件、市場輿情了嗎?那為什么在結(jié)合了1萬條以上的新聞+公司財(cái)報(bào)的情況下,“AI分析師”的表現(xiàn)仍然不佳呢?

可能的原因之一,就在于AI也許很客觀,但人類卻不總是如此。

在人類構(gòu)筑的媒體世界里,雖然各類的網(wǎng)站、平臺或社交媒體數(shù)不勝數(shù),但在信息的傳播過程中,大部分普通人,卻往往會受到少數(shù)幾家頭部權(quán)威媒體的影響。

這些權(quán)威媒體、人士的傾向和態(tài)度,帶動并影響了更多的網(wǎng)站、平臺。

于是在處理某些類型的金融產(chǎn)品或市場時,大模型的數(shù)據(jù)源,可能會更偏向某些特定的網(wǎng)站或平臺,而忽略了其他來源的信息,進(jìn)而產(chǎn)生了“數(shù)據(jù)偏見”。

此外,在處理自然語言時,大模型可能會遇到一些語義歧義的情況,如果某些詞匯有多種含義,AI在處理時可能會選擇錯誤的含義,導(dǎo)致信息的偏差和誤導(dǎo)。

這些部分,都是現(xiàn)階段AI無法獨(dú)自糾偏的。

不過,如果因?yàn)锳I不能讓人實(shí)現(xiàn)夢想中的“投資神話”,就認(rèn)為金融大模型的存在,是一種錦上添花的技術(shù),也未免太淺薄了。

因?yàn)樵诳深A(yù)見的未來,傳統(tǒng)風(fēng)控模式面臨效率低下、容易出錯、難以面對大規(guī)模數(shù)據(jù)處理等挑戰(zhàn)。

類似度小滿在內(nèi)的企業(yè),通過大模型技術(shù)探索,讓企業(yè)可以自動化地處理大量數(shù)據(jù),快速、精準(zhǔn)、全面地分析和識別貸款潛在風(fēng)險,進(jìn)而優(yōu)化風(fēng)險模型,提高風(fēng)險控制的準(zhǔn)確性和效率。

此外,軒轅大模型不僅能夠解釋授信額度、計(jì)算收益率、決策參考等金融專業(yè)問題,還能夠結(jié)合資產(chǎn)狀況、收益目標(biāo)和風(fēng)險偏好,以及外部的市場動態(tài),給出更符合用戶需求的答案和建議。

由此可見,在拋下了“通過AI投資暴富”的狂想后,金融大模型仍舊可以在風(fēng)險防范、金融知識普及方面,讓更多群體受益。

而這種更務(wù)實(shí)的方向,才是AI+金融正確的打開方式。

       原文標(biāo)題 : 金融大模型,能讓普通人成為“投資之王”嗎?

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號