訂閱
糾錯(cuò)
加入自媒體

大模型落地金融業(yè),想象力在哪?

金融大模型的難點(diǎn)在于,能否在產(chǎn)業(yè)中扎得更深;其顛覆性也更建立在,縱深到產(chǎn)業(yè)中去,賦能金融行業(yè)的長尾場(chǎng)景發(fā)展,以及重拾“金融信任”。?

作者|思杭?

編輯|皮爺?

出品|產(chǎn)業(yè)家?

“從經(jīng)濟(jì)角度講,整個(gè)金融業(yè)的數(shù)字化進(jìn)程并非勻速;從技術(shù)角度講,催化劑的出現(xiàn)會(huì)加速行業(yè)駛向數(shù)字化深水區(qū)。而大模型正是過去十年最強(qiáng)的‘催化劑’!焙闵娮邮紫茖W(xué)家白碩告訴我們。

大模型正在成為推進(jìn)金融業(yè)數(shù)字化的第二波浪潮。

2013年,互聯(lián)網(wǎng)金融騰空出世。此后十年,金融產(chǎn)業(yè)共經(jīng)歷過兩次由AI帶來的革命。

第一場(chǎng)革命的主角是辨別式AI,比如幫助金融機(jī)構(gòu)更好地進(jìn)行智能分析與決策。在當(dāng)時(shí),互聯(lián)網(wǎng)金融正處于浪潮之巔,金融無紙化、在線化、移動(dòng)化、遠(yuǎn)程化,都促進(jìn)了金融產(chǎn)業(yè)鏈的變革與創(chuàng)新。

在第一波AI浪潮中,最為顯著的改變是,以銀行為代表的金融產(chǎn)業(yè)經(jīng)歷了新舊范式的轉(zhuǎn)變。

然而,這一波金融產(chǎn)業(yè)革命進(jìn)行得并不徹底。雖然“金融信任”的號(hào)角早已吹響,但在金融業(yè),數(shù)字化接受程度不高。人工智能的利好,也并未充分得利用在金融業(yè)。

這其中,有技術(shù)問題,也有合規(guī)因素,更有行業(yè)壁壘等種種原因,都阻礙著金融產(chǎn)業(yè)革命的到來。直到2023年,大模型讓局面發(fā)生了些許變化。

客觀來看,生成式AI的到來,讓行業(yè)正在重拾“金融信任”。

一、大模型在金融業(yè)是剛需嗎?

當(dāng)下,金融機(jī)構(gòu)對(duì)數(shù)字化的接受程度普遍較低,全面實(shí)現(xiàn)數(shù)字化的難度也較大。但全流程的數(shù)字化,正是金融機(jī)構(gòu)引入大模型的前提。如果仍僅停留在工具層應(yīng)用,大模型無法更好地賦能產(chǎn)業(yè)發(fā)展,其顛覆性不大。

恒生電子告訴我們,“如果將金融機(jī)構(gòu)的數(shù)字化轉(zhuǎn)型成熟度分為0到5級(jí),其中0級(jí)代表剛起步階段,而5級(jí)表示完全以數(shù)據(jù)驅(qū)動(dòng)的商業(yè)模式。目前大多數(shù)金融機(jī)構(gòu)處于2級(jí)和3級(jí)的水平,少量機(jī)構(gòu)已經(jīng)達(dá)到4級(jí),甚至有一些局部達(dá)到5級(jí)!

在所有金融機(jī)構(gòu)中,“數(shù)字化轉(zhuǎn)型表現(xiàn)最優(yōu)異的是銀行,尤其是頭部銀行,其次是券商。”

之所以銀行的數(shù)字化接受程度最高,是因?yàn)殂y行涉及到很多客戶服務(wù)和風(fēng)險(xiǎn)監(jiān)控的場(chǎng)景。券商則不同,其更多的應(yīng)用場(chǎng)景在智能決策方面。這兩類不同的場(chǎng)景恰恰是辨別式AI與生成式AI各自擅長的領(lǐng)域。

具體來看,辨別式AI是直接將輸入映射到輸出上,通過學(xué)習(xí)輸入數(shù)據(jù)的特征來預(yù)測(cè)輸出標(biāo)簽,而在輸入與輸出之間,并沒有生成式AI的增強(qiáng)學(xué)習(xí)的過程中。因此,辨別式AI更多用于分類、回歸等任務(wù),比如圖像識(shí)別和語音識(shí)別。

生成式AI則有所不同。其最大的優(yōu)勢(shì)就在于增強(qiáng)學(xué)習(xí)的過程。生成式AI可以從已有數(shù)據(jù)中學(xué)習(xí)樣本的統(tǒng)計(jì)特征,并在此基礎(chǔ)上生成新的數(shù)據(jù)。因此,在金融場(chǎng)景下,更適合進(jìn)行智能決策,通過大模型中輸入的金融知識(shí)和新聞等知識(shí),從而給出業(yè)務(wù)營銷、風(fēng)險(xiǎn)投資等建議。

這意味著,在AI大模型的加持下,在金融行業(yè)里會(huì)出現(xiàn)一些之前沒有的變化。

正如白碩所言,大模型是多年來對(duì)金融業(yè)影響最為直觀的“催化劑”,相比于元宇宙、區(qū)塊鏈等技術(shù),大模型更能深入到垂直領(lǐng)域,顛覆產(chǎn)業(yè),帶來實(shí)際價(jià)值。其中,最為直觀的影響是給原有的崗位帶來全新的工作方式。

“比如像數(shù)據(jù)分析師崗位的變化就很突出。在投資研究領(lǐng)域,數(shù)據(jù)分析師需要根據(jù)財(cái)務(wù)報(bào)表、公開資訊、研報(bào)等公開數(shù)據(jù)進(jìn)行數(shù)據(jù)分析形成內(nèi)容。大模型在這樣的數(shù)據(jù)處理能力上表現(xiàn)很好,可以替代一部分的崗位工作。”白碩這樣告訴產(chǎn)業(yè)家。

然而,由于大模型在精度、時(shí)效性、專業(yè)性等方面還有明顯缺陷,當(dāng)前在金融業(yè)還很難實(shí)現(xiàn)更深的價(jià)值。目前,大模型更多能起到的還是提供一個(gè)人機(jī)非常友好的交互能力,在金融專業(yè)工作中還是需要專業(yè)人力完成。

可以說,想象力豐富之余,就當(dāng)下而言,大模型對(duì)金融行業(yè)帶來的更為實(shí)際價(jià)值,更多體現(xiàn)在一些交互性更強(qiáng)的場(chǎng)景。

已經(jīng)有銀行開始行動(dòng)。今年3月,工商銀行基于昇騰AI,發(fā)布了首個(gè)金融行業(yè)通用模型。在發(fā)布會(huì)上,工行宣布該模型已應(yīng)用在客戶服務(wù)、風(fēng)險(xiǎn)防控、運(yùn)營管理領(lǐng)域。比如,工行應(yīng)用該模型支撐智能客服接聽客戶來電;再比如,利用金融大模型,對(duì)工業(yè)工程融資項(xiàng)目建設(shè)進(jìn)行進(jìn)度監(jiān)測(cè)。

或者也可以說,大模型對(duì)金融行業(yè)的意義,在加速數(shù)智化和重拾“金融信任”之前,更鮮明的變化是長尾場(chǎng)景落地。

二、金融大模型走到哪了?

半年時(shí)間,互聯(lián)網(wǎng)大廠已全部入局;銀行、券商等金融機(jī)構(gòu)也紛紛下場(chǎng)。

金融大模型之所以被稱為“塔尖技術(shù)”,其難點(diǎn)不僅在于技術(shù)和合規(guī),更在于數(shù)據(jù)和領(lǐng)域經(jīng)驗(yàn)。也就是說,金融大模型的搭建并非可以一蹴而就,而需要具備一定的條件。

以互聯(lián)網(wǎng)大廠為例,百度、騰訊、阿里和360憑借其多年對(duì)抗黑灰產(chǎn)的經(jīng)驗(yàn)和在AI領(lǐng)域的深耕,可以算得上最有條件做金融大模型的佼佼者。

最先有所動(dòng)作的是度小滿。5月26日,度小滿正式開源中文金融大模型“軒轅”。與文心一言不同的是,軒轅大模型是度小滿在金融領(lǐng)域長期深耕的結(jié)果,并擁有更多高質(zhì)量的可訓(xùn)練數(shù)據(jù)。對(duì)金融大模型而言,金融領(lǐng)域的數(shù)據(jù)質(zhì)量直接決定了軒轅大模型的各方面表現(xiàn)。

另外,從參數(shù)量來看,據(jù)官方介紹,軒轅大模型是在1760億參數(shù)的Bloom大模型基礎(chǔ)上訓(xùn)練而來,且軒轅還融合了金融名詞理解、金融市場(chǎng)評(píng)論、金融數(shù)據(jù)分析和金融新聞理解等數(shù)據(jù)。

其次傳出風(fēng)聲的是螞蟻集團(tuán)。6月21日有消息稱,螞蟻集團(tuán)的技術(shù)研發(fā)團(tuán)隊(duì)正在自研語言和多模態(tài)大模型,內(nèi)部命名為“貞儀”。對(duì)此,螞蟻集團(tuán)的回應(yīng)是“消息屬實(shí)”。

螞蟻集團(tuán)的底氣一方面來源于支付寶在金融領(lǐng)域的多年行業(yè)經(jīng)驗(yàn);另一方面來源于從2015年螞蟻集團(tuán)在可信AI技術(shù)研究的投入。2016年,螞蟻集團(tuán)全面啟動(dòng)AI智能風(fēng)控防御戰(zhàn)略,目前已在反欺詐、反洗錢、反盜用、企業(yè)聯(lián)合風(fēng)控、數(shù)據(jù)隱私保護(hù)等多場(chǎng)景落地。近兩年,螞蟻集團(tuán)更是加緊AI領(lǐng)域的布局。

早在2019年清華AI研究院基礎(chǔ)理論研究中心成立,該中心首席科學(xué)家朱軍及其團(tuán)隊(duì)同期發(fā)布了第三代人工智能平臺(tái)RealAI,并與金融、工業(yè)制造等行業(yè)應(yīng)用深度結(jié)合。而就在螞蟻集團(tuán)傳出自研“貞儀”的前兩日,由朱軍帶領(lǐng)的新團(tuán)隊(duì)完成了近億級(jí)天使輪融資,由螞蟻集團(tuán)領(lǐng)投。

最后,騰訊和360也在近日聯(lián)合信通院編制國內(nèi)金融大模型標(biāo)準(zhǔn)。對(duì)于騰訊而言,過去20多年黑灰產(chǎn)對(duì)抗經(jīng)驗(yàn)加上上千個(gè)真實(shí)業(yè)務(wù)場(chǎng)景,這些都讓騰訊具備了最真實(shí)的行業(yè)數(shù)據(jù)。而向來有著“安全衛(wèi)士”稱號(hào)的360也不例外。

除了互聯(lián)網(wǎng)廠商,在金融領(lǐng)域大模型方向布局的還有數(shù)據(jù)庫廠商,比如星環(huán)科技。

對(duì)于金融大模型的搭建,數(shù)據(jù)庫廠商與互聯(lián)網(wǎng)廠商走的是兩條完全不同的路線。星環(huán)科技的優(yōu)勢(shì)有兩方面。

第一是工藝,即在模型訓(xùn)練過程中涉及到的數(shù)據(jù)“清洗”等加工處理。作為數(shù)據(jù)庫廠商,星環(huán)科技對(duì)于數(shù)據(jù)處理有著一套嚴(yán)密的方法論,尤其是針對(duì)金融領(lǐng)域特有的異構(gòu)數(shù)據(jù)。

對(duì)此,星環(huán)科技在自研金融大模型“無涯Infinity”的同時(shí),還提供了一站式的企業(yè)自建大語言模型工具鏈。該工具鏈了包含了與大語言模型應(yīng)用落地緊密相連的向量數(shù)據(jù)庫Hippo,以及一系列針對(duì)數(shù)據(jù)庫底層處理技術(shù)。其中,最值得注意的是向量數(shù)據(jù)庫Hippo。

在金融領(lǐng)域,數(shù)據(jù)時(shí)效性是大模型落地挑戰(zhàn)之一。如何將突發(fā)事件和金融資訊等實(shí)時(shí)數(shù)據(jù)輸入到大模型中,直接關(guān)乎著金融大模型能否準(zhǔn)確地進(jìn)行分析決策。而向量數(shù)據(jù)庫正是解決該問題的關(guān)鍵。

星環(huán)科技的第二大優(yōu)勢(shì)則是其長期深耕于金融領(lǐng)域沉淀下來的領(lǐng)域數(shù)據(jù)和行業(yè)know-how。

盡管互聯(lián)網(wǎng)廠商與數(shù)據(jù)庫廠商各占據(jù)行業(yè)經(jīng)驗(yàn)和模型工藝的優(yōu)勢(shì),但最具備搭建金融大模型的應(yīng)該非垂直類廠商莫屬。因?yàn)檫@類廠商有著較高的訓(xùn)練模型的數(shù)據(jù),比如致力于提供金融數(shù)字化解決方案的廠商「恒生電子」。

6月28日,恒生電子對(duì)外發(fā)布金融行業(yè)大模型LightGPT。據(jù)了解,該模型使用了超4000億tokens的金融領(lǐng)域數(shù)據(jù)(包括資訊、公告、研報(bào)、結(jié)構(gòu)化數(shù)據(jù)等)和超過400億tokens的語種強(qiáng)化數(shù)據(jù)(包括金融教材、金融百科、政府報(bào)告、法規(guī)條例等),并支持超過80+金融專屬任務(wù)指令微調(diào),從而加強(qiáng)LightGPT在專業(yè)領(lǐng)域的理解能力。

白碩表示,對(duì)于金融大模型,最為重要的是數(shù)據(jù)質(zhì)量,即大模型訓(xùn)練的數(shù)據(jù)量大小和數(shù)據(jù)質(zhì)量,因?yàn)檫@關(guān)系到大模型能夠輸出什么。在底層技術(shù)相差無幾的情況下,數(shù)據(jù)質(zhì)量才是關(guān)鍵。其次是工程化能力和行業(yè)經(jīng)驗(yàn)。其中,工程化能力包括對(duì)數(shù)據(jù)的選擇、清洗和改造等工作,比如當(dāng)大模型表現(xiàn)不盡如人意或出現(xiàn)問題時(shí),廠商知道如何判斷缺哪些數(shù)據(jù),需要補(bǔ)充哪些數(shù)據(jù),從而提高大模型數(shù)據(jù)質(zhì)量。

然而,在金融大模型落地過程中,最不容忽視的挑戰(zhàn)是安全問題,即公有云與本地部署之間取舍。

在金融領(lǐng)域,很多數(shù)據(jù)涉及合規(guī)、隱私安全,甚至監(jiān)管問題,無法公開,因此很難上云。比如工商銀行、農(nóng)業(yè)銀行、郵儲(chǔ)銀行、中信銀行、興業(yè)銀行、江蘇銀行、蘇州銀行等多家銀行和券商都已選擇接入通用大模型,即以本地部署方式構(gòu)建專屬領(lǐng)域的大模型。

既選擇了本地部署的方式,就必然會(huì)面臨一些難點(diǎn),如算力挑戰(zhàn)、參數(shù)量問題等。選擇本地部署的金融機(jī)構(gòu)是否有足夠的算力是一方面,另一方面是參數(shù)量是否夠大,如果參數(shù)量不夠,即使輸入高質(zhì)量數(shù)據(jù),大模型也無法“涌現(xiàn)”。

種種原因,讓入局金融大模型的廠商面臨重重阻礙。

三、向產(chǎn)業(yè)縱深處探尋價(jià)值

但問題仍然很多,即使在金融業(yè)較為發(fā)達(dá)的海外,大模型的落地仍是一大挑戰(zhàn)。

來源:Atom Capital

從上圖不難看出,創(chuàng)業(yè)公司融資金額普遍較;且除了較為知名的YC,明星資本不多。

在國內(nèi),至少目前來看,精準(zhǔn)度、時(shí)效性和安全性是金融大模型在落地過程中面臨的三大挑戰(zhàn)。

從精準(zhǔn)度來講,大模型在專業(yè)領(lǐng)域,尤其涉及到民生經(jīng)濟(jì)的問題時(shí),還無法給出專家級(jí)的答案。白碩向產(chǎn)業(yè)家說道,“從技術(shù)原理上,我們不認(rèn)為AGI能長出某個(gè)領(lǐng)域的專業(yè)能力,專業(yè)的事情還需要交給專家。但大模型能提供的是人機(jī)對(duì)接能力,如果兩者相結(jié)合就可以發(fā)揮出更大的作用。”

另一大挑戰(zhàn)在時(shí)效性上。數(shù)據(jù)產(chǎn)生的過程本身是流動(dòng)的,市場(chǎng)上的數(shù)據(jù)講精準(zhǔn)、講質(zhì)量,也講時(shí)效。“從數(shù)據(jù)時(shí)效性方面來講,大模型的訓(xùn)練周期本身就決定了不可能具有時(shí)效性,所以補(bǔ)充時(shí)效性很強(qiáng)的數(shù)據(jù)則是金融大模型的必備條件。”現(xiàn)在很多自研金融大模型的廠商都使用了向量數(shù)據(jù)庫的手段來實(shí)現(xiàn)這一難題。

最后,也是當(dāng)前領(lǐng)域大模型所面臨的最重要的挑戰(zhàn),即數(shù)據(jù)安全問題。由于大模型所收集的數(shù)據(jù)來源于公開數(shù)據(jù),行業(yè)大模型需要的是領(lǐng)域數(shù)據(jù),甚至是一些不在公開渠道上的研究報(bào)告、論文等專有數(shù)據(jù)。

對(duì)此,部分企業(yè)、機(jī)構(gòu)的做法是將數(shù)據(jù)選擇公開出來,但更多的則是選擇將大模型部署在本地。而這就引出了另一個(gè)問題,算力挑戰(zhàn)、參數(shù)量問題、工程算法等方面的技術(shù)問題能否得到解決。

在白碩的觀察中,一些語言能力的差距,在2~3年內(nèi)可以得到解決,不同大模型能力之間的差距也可以拉齊。剩下的問題則要看大模型能否扎在更深的產(chǎn)業(yè)中去提供價(jià)值。

從當(dāng)前金融大模型的應(yīng)用場(chǎng)景來看,提供的價(jià)值更多停留在工具層。具體而言,金融大模型在傳統(tǒng)AI模型的基礎(chǔ)上更進(jìn)一步,利用高質(zhì)量的知識(shí)數(shù)據(jù)和智能屬性,應(yīng)用于交互性強(qiáng)的場(chǎng)景。

但從更大的視角來看,隨著金融大模型標(biāo)準(zhǔn)的落地,數(shù)據(jù)合規(guī)、隱私安全和訓(xùn)練工藝等問題一一得到解決,金融大模型會(huì)撬動(dòng)更多的崗位,也會(huì)提升人的價(jià)值。在精準(zhǔn)度、時(shí)效性和安全性等挑戰(zhàn)被消除后,金融大模型會(huì)與“專家”一起,解決當(dāng)下無法解決的問題,帶來更大的產(chǎn)業(yè)價(jià)值。

金融大模型的難點(diǎn)在于,能否在產(chǎn)業(yè)中扎得更深;其顛覆性也更建立在,縱深到產(chǎn)業(yè)中去,賦能金融行業(yè)的數(shù)字化發(fā)展。

       原文標(biāo)題 : 大模型落地金融業(yè),想象力在哪?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)