訂閱
糾錯(cuò)
加入自媒體

從星火看大模型中場(chǎng):祛魅與拷問

撰文 | 吳坤諺  

編輯 | 王   潘

厄爾尼諾指數(shù)快速增加,史上最熱夏天即將到來,但比氣候更“火熱”的是科技互聯(lián)網(wǎng)行業(yè)的大模型淘金潮。

今年年初,各方大佬下場(chǎng)創(chuàng)業(yè)打響了淘金熱的第一槍,緊接著的是3月開始的大廠扎堆布局,連高校與國(guó)家隊(duì)都爭(zhēng)取跑步入場(chǎng),淘金熱愈演愈烈。5月6日,我們又迎來了一位玩家入場(chǎng),科大訊飛發(fā)布旗下認(rèn)知大模型星火。

興許是大眾與業(yè)界對(duì)于密集發(fā)布的大模型有些“脫敏”,訊飛星火發(fā)布的消息未能引起行業(yè)的熱烈反響。如今的局面其實(shí)并不意外,因?yàn)樯虡I(yè)社會(huì)的發(fā)展總是需要新的故事。早在今年2月,ChatGPT的出圈就為AI板塊的科大訊飛狠狠地拉了一波股價(jià),GPT概念股至今仍廣為投資者所關(guān)注。

據(jù)了解,“星火認(rèn)知大模型”是純文本模型,僅支持文本內(nèi)容的輸入和輸出,多模態(tài)交互需要自升級(jí)產(chǎn)品星火Pro獲取。而通過TTS(從文本到語(yǔ)音)實(shí)現(xiàn)語(yǔ)音提問功能可以說是意外之喜,也是科大訊飛有別于一眾大廠的特點(diǎn)之一。

此外,本次發(fā)布會(huì)與此前各家大模型發(fā)布會(huì)最大的不同在于,科大訊飛CEO劉慶峰為大家“畫了一張帶有時(shí)間線的大餅”:6月9日前,訊飛星火大模型將突破開放式問答,實(shí)現(xiàn)對(duì)話能力和數(shù)學(xué)能力的再升級(jí);8月15日前代碼能力會(huì)上大臺(tái)階,多模態(tài)交互能力再升級(jí),在10月24日前,星火大模型將對(duì)標(biāo)ChatGPT,在中文能力上超過ChatGPT,在英文能力上與ChatGPT相當(dāng)。

這是一個(gè)管理預(yù)期的故事。

回顧近十年的商業(yè)新故事,其中既有智能手機(jī)、新能源、云計(jì)算等光環(huán)(aura)加身的神話,也不乏元宇宙、NFT這類被祛魅后步入暗夜的案例。每一個(gè)故事在開始之時(shí)都宣稱將開啟一個(gè)新時(shí)代、新紀(jì)元,宏大的敘事為其披上克里斯瑪?shù)耐庖,等待其進(jìn)入商業(yè)場(chǎng)景后被市場(chǎng)驗(yàn)證。

反觀科大訊飛,大模型是它不得不抓住的光環(huán)。

大模型是AI賽道重新洗牌的機(jī)會(huì)已是共識(shí)。而且自科大訊飛近年來的業(yè)務(wù)發(fā)展路線看,其引以為傲的語(yǔ)音識(shí)別賽道受困于創(chuàng)新者窘境,視覺領(lǐng)域也有AI四小龍后來居上,嘗試拓展的智慧醫(yī)療、智慧金融業(yè)務(wù)的表現(xiàn)也只是不夠出彩,在2022年整體營(yíng)收中占比均不足3%。

回歸大模型本身,隨著迄今為止人類歷史上用戶增長(zhǎng)速度最快的ChatGPT不得不關(guān)閉付費(fèi)渠道,一場(chǎng)屬于科技互聯(lián)網(wǎng)的“西進(jìn)運(yùn)動(dòng)”儼然開始進(jìn)入中場(chǎng)。

現(xiàn)在我們離GPT還有多遠(yuǎn)?

LLM(大語(yǔ)言模型)、Token(文本單位)、參數(shù),為4月內(nèi)幾乎未曾間斷的大模型發(fā)布會(huì)所吸引的VC們一面接收這場(chǎng)寶貴的知識(shí)爆炸,一面搖身一變成為AI領(lǐng)域的深耕者。按本山大叔的話來說,就是“聰明的智商又占領(lǐng)高地了”。

先行的創(chuàng)業(yè)者們?cè)缭缤ㄟ^自身過硬的攢局能力拉來了數(shù)輪融資,后來的創(chuàng)業(yè)者們也在抓緊忽悠風(fēng)投上車,勇立時(shí)代潮頭一起吃肉喝湯。

只是直到目前,無論是最早發(fā)布的大模型文心一言還是后續(xù)開放測(cè)試或在發(fā)布會(huì)上實(shí)機(jī)演示的大模型都距離ChatGPT存在一定距離,包括5月6日發(fā)布的科大訊飛星火。

星火發(fā)布會(huì)上,劉慶峰現(xiàn)場(chǎng)演示星火的能力并提出了評(píng)測(cè)大模型的覆蓋7大類481個(gè)細(xì)分任務(wù)類型。盡管真機(jī)實(shí)測(cè)勇氣可嘉,測(cè)試內(nèi)容出錯(cuò)較少且響應(yīng)快速,整體的情感理解與邏輯線也都在線,但整體測(cè)試類別還是以簡(jiǎn)單的文字生成為主。這一塊基本屬于科大訊飛的傳統(tǒng)藝能,并不能看出自去年12月起至今近6個(gè)月的數(shù)據(jù)投喂成果。

換句話說,目前的生成內(nèi)容還無法看出星火達(dá)到了智能涌現(xiàn)的標(biāo)準(zhǔn)。不過考慮到科大訊飛的數(shù)據(jù)要素來源主要在于教育、醫(yī)療、汽車等細(xì)分領(lǐng)域,目前的表現(xiàn)也就不難理解了。

本次發(fā)布會(huì)上科大訊飛還展示了星火搭載下的學(xué)習(xí)機(jī)、虛擬人、汽車座艙域智能辦公演示,這既是亮點(diǎn)也是槽點(diǎn)。亮點(diǎn)在于星火大模型在誕生之初就已經(jīng)找到了明確的商業(yè)化落地路徑,其中教育硬件與辦公硬件也是科大訊飛過去兩年內(nèi)的營(yíng)收主力;槽點(diǎn)在于這幾條路徑相對(duì)于大模型而言顯得過于狹窄,可能是星火在測(cè)試時(shí)所表現(xiàn)出的能力還尚未達(dá)到賦能千行百業(yè)的水平。

不過,學(xué)霸未嘗就是未來混得最好的。在大模型競(jìng)爭(zhēng)劇烈的當(dāng)下,率先占領(lǐng)垂直領(lǐng)域應(yīng)用的高地并進(jìn)入自我造血反哺大模型訓(xùn)練的良性循環(huán),未嘗不是一條可行的路徑。

更值得注意的是,劉慶峰在發(fā)布會(huì)結(jié)束后透露,星火大模型的算力硬件主要由華為提供,當(dāng)前并未受到限制。

由此我們也不難看出,一是自身是否有算力儲(chǔ)備在大模型訓(xùn)練中也許沒那么重要,尤其是并不是所有人都將大模型定位于“通用”級(jí)別的時(shí)候。相反,數(shù)據(jù)要素的重要性更加凸顯,這在當(dāng)初百度、阿里等坐擁多領(lǐng)域高質(zhì)量語(yǔ)料的頭部大廠發(fā)布大模型時(shí)尚不明顯,如今科大訊飛在教育領(lǐng)域的演示成果與泛領(lǐng)域演示成果的鮮明對(duì)比足以說明數(shù)據(jù)的重要性。

二是“送水人”式的“技術(shù)商人”路徑在大模型井噴的當(dāng)下切實(shí)可行。一方面送水人可以通過租售算力甚至訓(xùn)練方法,在獲利的同時(shí)解決算力冗余,另一方面收水人也可以節(jié)約大模型訓(xùn)練的成本,杜絕內(nèi)卷和重復(fù)基礎(chǔ)設(shè)施建設(shè),讓大模型相對(duì)不再那么“重資產(chǎn)”。

在劉慶峰的規(guī)劃中,星火將在10月24日達(dá)到中文能力超越ChatGPT,英文語(yǔ)料能力相當(dāng)。且不論對(duì)標(biāo)的是GPT3.5還是GPT4,我們不妨以此時(shí)間為節(jié)點(diǎn),到時(shí)候再審視國(guó)內(nèi)大模型與OpenAI的差距,是越來越小還是越來越大。

祛魅大模型

訊飛星火的發(fā)布從一方面也可以看做是從李開復(fù)理解的AI 1.0演進(jìn)為AI 2.0,是從NPL(自然語(yǔ)言處理)、CV(計(jì)算機(jī)視覺)到海量數(shù)據(jù)喂養(yǎng)下具備跨領(lǐng)域知識(shí)與智能交互能力的大模型。這是在李開復(fù)萬字演講中廣為流傳的"AI 2.0"范式。

有能力者做通用大模型,稍有欠缺者如科大訊飛,也要根據(jù)自有業(yè)務(wù)線如醫(yī)療、教育等場(chǎng)景做規(guī)模稍小的大模型。這是一個(gè)足夠宏大的敘事,尤其是在國(guó)內(nèi)多位大佬呼吁將所有應(yīng)用接入大模型重做一遍的話術(shù),充滿了即刻為一項(xiàng)技術(shù)突破迅速找到場(chǎng)景進(jìn)行商業(yè)化落地的渴望。

如今的火熱場(chǎng)景我們并不陌生,近年來,我們?yōu)榱吮阌趥鞑ヅc理解,往往會(huì)以序列號(hào)化的話術(shù)來形容技術(shù)范式的迭代演進(jìn)。意義建構(gòu)理論的學(xué)者認(rèn)為,這是將信息的尋求與使用視作一種溝通實(shí)踐模型,幫助人進(jìn)行信息接收的做法。

從互聯(lián)網(wǎng)泡沫后提出的Web1.0和Web2.0到通信領(lǐng)域的4G和5G,以及AI領(lǐng)域,序列號(hào)給人以最直白的觀感,為我們帶來無限的想象空間,這個(gè)視角下的技術(shù)可以在草蛇灰線之中無限升維演進(jìn)。越是這樣帶有技術(shù)革命色彩的故事,越是能吸引關(guān)注與投資,越具備商業(yè)化落地的可能性。

只是能否落地卻是未知數(shù),就像大模型涌現(xiàn)現(xiàn)象的發(fā)生概率只有0%和100%。

在資深機(jī)器學(xué)習(xí)與應(yīng)用開發(fā)者楊軍看來,市場(chǎng)上的“百模大戰(zhàn)”與投資圈的狂熱是在巨量資源投入后,廣譜性質(zhì)的壓強(qiáng)效應(yīng)所致,但是在這之中不可避免泡沫的存在。“我不太認(rèn)可在介紹ChatGPT相關(guān)技術(shù)時(shí)引入的春秋筆法或過于PR的味道,總覺得這會(huì)把一個(gè)原本正常該由技術(shù)驅(qū)動(dòng)的事物的演進(jìn)節(jié)奏變得混亂了。關(guān)鍵的技術(shù)需要回歸到客觀層面理解,才更有利于這個(gè)方向的健康發(fā)展。”

春秋筆法對(duì)新生事物的揠苗助長(zhǎng)在AIGC前一輪Web3風(fēng)口中隨處可見,尤其是結(jié)合了VR、AR后誕生的元宇宙賽道?萍蓟ヂ(lián)網(wǎng)從業(yè)者必須銘記的案例是Facebook更名Meta,梭哈元宇宙后的窘境。反觀國(guó)內(nèi),一直以來商業(yè)化都是我們的強(qiáng)項(xiàng),反之也遭到不少缺乏研發(fā)耐心、忽略底層技術(shù)的詬病。

楊軍透露:“我知道的一些這個(gè)行業(yè)里比較資深的模型從業(yè)人士,似乎很多都因?yàn)楸池?fù)了投資方的壓力,更多考慮的是商業(yè)變現(xiàn),而不是底層技術(shù)的創(chuàng)新和突破。”

在商業(yè)化變現(xiàn)前,大模型需要填滿的洞有多深?

由英偉達(dá)給出的GPT3訓(xùn)練數(shù)據(jù),參數(shù)規(guī)模為1750億,訓(xùn)練語(yǔ)料為30億 tokens,那么訓(xùn)練一個(gè)周期需要26天,采用租賃方式以8卡A100訓(xùn)練的成本超256萬美元/月,即使忽略人力成本,硬件成本最低也需要大約2億人民幣一年。楊軍稱,這已經(jīng)是很保守的估計(jì),系統(tǒng)故障、策略調(diào)整等因素也未曾考慮,人力成本更是在技術(shù)創(chuàng)新領(lǐng)域的大頭,如果希望提高效率,以并行方式實(shí)驗(yàn)探索,那么硬件成本還需追加一倍。

5年時(shí)間,25~30億不計(jì)回報(bào)的總投入,這是客觀技術(shù)視角下做好一個(gè)GPT4前兩代的大模型所需要的準(zhǔn)備。這筆研發(fā)投入已經(jīng)接近于半導(dǎo)體了。

楊軍對(duì)此憂慮頗多,尤其是在風(fēng)投方面。“在我有限的閱歷里,看到了不少風(fēng)投一開始說支持情懷,隨著時(shí)間推移,會(huì)對(duì)變現(xiàn)和尋求接盤退出越來越饑渴,最終以各種方式干預(yù)到項(xiàng)目執(zhí)行層面。不確定性較強(qiáng)的技術(shù)攻關(guān)遭遇的問題,需要行業(yè)層面來克服”。

在技術(shù)革命后的第一次格局重構(gòu)中,狂熱者往往被浪潮無情裹挾,重重拍在淺灘上。好比去年吸收了數(shù)千億美元的Web3,其大本營(yíng)新加坡如今已有不少?gòu)臉I(yè)者租不起房,吃不起飯。

我們對(duì)大模型的暢想究竟是像APUS李濤所言“爭(zhēng)奪下一代操作系統(tǒng)的話語(yǔ)權(quán)”,還是針對(duì)某個(gè)具體場(chǎng)景和領(lǐng)域的賦能,亦或是在浪潮之中尋求資金、博取熱度,無論哪種都需要讓大模型褪去克里斯瑪,客觀地看待與探求。

大模型也可以小而美

在眾人一擁而上的時(shí)候,相對(duì)冷清的路徑反而更有可能成功。

比如在星火上被驗(yàn)證的“送水人”路徑,除華為外,字節(jié)旗下火山引擎、騰訊云等玩家已在4月這個(gè)節(jié)點(diǎn)對(duì)外明確了自身“送水人”的角色,通過提供算法優(yōu)化、算力、數(shù)據(jù)飛輪等技術(shù)棧服務(wù)來做淘金熱中的服務(wù)商。路徑明晰競(jìng)對(duì)少的同時(shí)還可以一定程度上“分?jǐn)?rdquo;大模型的訓(xùn)練成本。

這條商業(yè)路徑早在淘金運(yùn)動(dòng)中便已驗(yàn)證,但成功故事的背后是淘金運(yùn)動(dòng)的“內(nèi)卷”特性,才會(huì)誕生服務(wù)的需求空間,同時(shí)“送水人”還需要在這種上游配套式或衍生周邊式服務(wù)中占據(jù)壟斷地位。“送水人”亞默爾原本只是平平無奇的淘金者之一,直到他第一時(shí)間抓住了淘金者對(duì)水的需求并通過開挖水渠的方式打造了一個(gè)專屬于他自己的飲用水生產(chǎn)線。

在如今的大模型中局,時(shí)間問題無需考慮,也不存在有誰(shuí)能在某項(xiàng)服務(wù)中能占據(jù)壟斷地位。那么討論的重點(diǎn)便在于其提供的服務(wù)。

大模型的服務(wù)需求則可以用AI三要素來概括,分別是算力、算法與數(shù)據(jù),其中算力是相對(duì)最缺乏競(jìng)爭(zhēng)力的領(lǐng)域。因?yàn)樗懔υ谔越鹫叩囊暯窍聝H僅只是成本,而在送水人的視角下卻是商品,單純提供算力難免會(huì)陷入價(jià)格戰(zhàn)的怪圈,反過來掣肘自己的大模型訓(xùn)練。

算法與數(shù)據(jù)則與此相反,兩者均可以提高大模型的訓(xùn)練效率,甚至直接影響訓(xùn)練成果。只是長(zhǎng)遠(yuǎn)看來,這兩項(xiàng)服務(wù)的前景也不甚樂觀。

算法方面,OpenAI就是最好的例子,被開發(fā)者戲稱為“CloseAI”的原因之一便是其堅(jiān)持閉源。大模型訓(xùn)練中的策略、算法是可以作為企業(yè)護(hù)城河的核心資產(chǎn),“送水人”開放給外界使用的程度將直接關(guān)聯(lián)自家大模型的競(jìng)爭(zhēng)強(qiáng)度,數(shù)據(jù)方面也是如此。反之,購(gòu)買大模型服務(wù)的企業(yè)也會(huì)要求算法與數(shù)據(jù)的安全,爭(zhēng)取在“安全線”之下有限的互幫互助。

目前看來,“送水人”們除非退出通用大模型的競(jìng)爭(zhēng),否則送水的動(dòng)作也很可能只是在成本控制上的錦上添花,真正的“送水人”還得是英偉達(dá)。這也意味著,我們需要另尋更切實(shí)的路徑。

日前,OpenAI關(guān)閉付費(fèi)渠道已在業(yè)內(nèi)引起不小的討論,最有可能的原因是GPT4在接入微軟全棧應(yīng)用后算力吃緊,只能暫時(shí)放棄C端增長(zhǎng)來穩(wěn)住大金主。而OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman更是公開表示OpenAI已接近LLM的極限,認(rèn)為L(zhǎng)LM的規(guī)模不再是衡量模型質(zhì)量的重要指標(biāo),未來將有更多的方式來提升模型的能力和效用。

換句話說,大模型中場(chǎng)之際,OpenAI在否決了一昧追求規(guī)模的路徑同時(shí)為行業(yè)指出了大模型的迭代新路,即通過優(yōu)化訓(xùn)練策略、全局調(diào)度以減少投入成本,同時(shí)將笨重的大模型轉(zhuǎn)向小而美的方向發(fā)展。

楊軍對(duì)此頗有研究,并對(duì)此介紹了部分海外已經(jīng)開始的創(chuàng)新案例。

關(guān)注系統(tǒng)優(yōu)化并結(jié)合模型訓(xùn)練策略進(jìn)行全鏈路訓(xùn)練優(yōu)化的公司MosaicML提出,通過將參數(shù)降低至300億同時(shí)將Token數(shù)提升至61億,以256張40GB的A100為資源訓(xùn)練一個(gè)周期,只需要36天即可得到與GPT3相同質(zhì)量的訓(xùn)練結(jié)果,而成本僅需要88萬美元,幾乎是GPT3原始訓(xùn)練成本的三分之一。除了訓(xùn)練策略的優(yōu)化外,通過對(duì)CPU主存+磁盤外存+GPU顯存的使用進(jìn)行全局調(diào)度優(yōu)化,讓低端顯卡serve大模型成為可能。

“一款A(yù)I框架解決的其實(shí)是上層的業(yè)務(wù)模型需求到底層計(jì)算硬件執(zhí)行的映射問題,在性能足夠的情況下,僅拼性能就可能陷入了‘技術(shù)有深度但競(jìng)爭(zhēng)呈紅海’的戰(zhàn)場(chǎng)。”

為了避免這樣的競(jìng)爭(zhēng),不少大模型在推出時(shí)便在宣傳上做了一定的區(qū)分,關(guān)鍵在于是否存在“通用”二字。這其中有源自NPL基底并在數(shù)個(gè)領(lǐng)域直接落地的星火、根植辦公場(chǎng)景的金山“WPS AI”、立足于問答社區(qū)生態(tài)的知乎“知海圖AI”等,其共同點(diǎn)在于針對(duì)具體場(chǎng)景,以對(duì)行業(yè)的縱深理解與數(shù)據(jù)支撐為基礎(chǔ),以大模型的“涌現(xiàn)”能力為跳板,實(shí)際上卻是披著通用大模型外衣的中小模型。

送水人也可以參考這樣的“技術(shù)商人“的思維。在楊軍看來,與其參與無謂的hardcore“內(nèi)卷”,不如去思考自己的技術(shù)點(diǎn)在可以在完整商業(yè)鏈中發(fā)揮什么功能,完成什么閉環(huán),通過能力與方向的差異化發(fā)掘更多價(jià)值。

保持一個(gè)啃硬骨頭的決心,開闊技術(shù)商業(yè)化的視野,是大模型玩家們的必修課。相對(duì)追求規(guī)模,我們與海外在小而美方向上的研究反而在時(shí)間節(jié)點(diǎn)上更相近,這也意味著更大的機(jī)會(huì)。無論是預(yù)算與資源相對(duì)緊張的創(chuàng)業(yè)公司還是有底氣隨時(shí)掏出數(shù)千張A卡的大廠,都需要認(rèn)識(shí)到這點(diǎn)。

       原文標(biāo)題 : 從星火看大模型中場(chǎng):祛魅與拷問

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)