久章草在线影院中文字幕,久久国产精品99久久久久久老狼

從星火看大模型中場(chǎng)：祛魅與拷問

2023-05-08 11:38

撰文 | 吳坤諺

編輯 | 王潘

厄爾尼諾指數(shù)快速增加，史上最熱夏天即將到來，但比氣候更“火熱”的是科技互聯(lián)網(wǎng)行業(yè)的大模型淘金潮。

今年年初，各方大佬下場(chǎng)創(chuàng)業(yè)打響了淘金熱的第一槍，緊接著的是3月開始的大廠扎堆布局，連高校與國(guó)家隊(duì)都爭(zhēng)取跑步入場(chǎng)，淘金熱愈演愈烈。5月6日，我們又迎來了一位玩家入場(chǎng)，科大訊飛發(fā)布旗下認(rèn)知大模型星火。

興許是大眾與業(yè)界對(duì)于密集發(fā)布的大模型有些“脫敏”，訊飛星火發(fā)布的消息未能引起行業(yè)的熱烈反響。如今的局面其實(shí)并不意外，因?yàn)樯虡I(yè)社會(huì)的發(fā)展總是需要新的故事。早在今年2月，ChatGPT的出圈就為AI板塊的科大訊飛狠狠地拉了一波股價(jià)，GPT概念股至今仍廣為投資者所關(guān)注。

據(jù)了解，“星火認(rèn)知大模型”是純文本模型，僅支持文本內(nèi)容的輸入和輸出，多模態(tài)交互需要自升級(jí)產(chǎn)品星火Pro獲取。而通過TTS（從文本到語(yǔ)音）實(shí)現(xiàn)語(yǔ)音提問功能可以說是意外之喜，也是科大訊飛有別于一眾大廠的特點(diǎn)之一。

此外，本次發(fā)布會(huì)與此前各家大模型發(fā)布會(huì)最大的不同在于，科大訊飛CEO劉慶峰為大家“畫了一張帶有時(shí)間線的大餅”：6月9日前，訊飛星火大模型將突破開放式問答，實(shí)現(xiàn)對(duì)話能力和數(shù)學(xué)能力的再升級(jí)；8月15日前代碼能力會(huì)上大臺(tái)階，多模態(tài)交互能力再升級(jí)，在10月24日前，星火大模型將對(duì)標(biāo)ChatGPT，在中文能力上超過ChatGPT，在英文能力上與ChatGPT相當(dāng)。

這是一個(gè)管理預(yù)期的故事。

回顧近十年的商業(yè)新故事，其中既有智能手機(jī)、新能源、云計(jì)算等光環(huán)（aura）加身的神話，也不乏元宇宙、NFT這類被祛魅后步入暗夜的案例。每一個(gè)故事在開始之時(shí)都宣稱將開啟一個(gè)新時(shí)代、新紀(jì)元，宏大的敘事為其披上克里斯瑪?shù)耐庖�，等待其進(jìn)入商業(yè)場(chǎng)景后被市場(chǎng)驗(yàn)證。

反觀科大訊飛，大模型是它不得不抓住的光環(huán)。

大模型是AI賽道重新洗牌的機(jī)會(huì)已是共識(shí)。而且自科大訊飛近年來的業(yè)務(wù)發(fā)展路線看，其引以為傲的語(yǔ)音識(shí)別賽道受困于創(chuàng)新者窘境，視覺領(lǐng)域也有AI四小龍后來居上，嘗試拓展的智慧醫(yī)療、智慧金融業(yè)務(wù)的表現(xiàn)也只是不夠出彩，在2022年整體營(yíng)收中占比均不足3%。

回歸大模型本身，隨著迄今為止人類歷史上用戶增長(zhǎng)速度最快的ChatGPT不得不關(guān)閉付費(fèi)渠道，一場(chǎng)屬于科技互聯(lián)網(wǎng)的“西進(jìn)運(yùn)動(dòng)”儼然開始進(jìn)入中場(chǎng)。

現(xiàn)在我們離GPT還有多遠(yuǎn)？

LLM（大語(yǔ)言模型）、Token(文本單位)、參數(shù)，為4月內(nèi)幾乎未曾間斷的大模型發(fā)布會(huì)所吸引的VC們一面接收這場(chǎng)寶貴的知識(shí)爆炸，一面搖身一變成為AI領(lǐng)域的深耕者。按本山大叔的話來說，就是“聰明的智商又占領(lǐng)高地了”。

先行的創(chuàng)業(yè)者們?cè)缭缤ㄟ^自身過硬的攢局能力拉來了數(shù)輪融資，后來的創(chuàng)業(yè)者們也在抓緊忽悠風(fēng)投上車，勇立時(shí)代潮頭一起吃肉喝湯。

只是直到目前，無論是最早發(fā)布的大模型文心一言還是后續(xù)開放測(cè)試或在發(fā)布會(huì)上實(shí)機(jī)演示的大模型都距離ChatGPT存在一定距離，包括5月6日發(fā)布的科大訊飛星火。

星火發(fā)布會(huì)上，劉慶峰現(xiàn)場(chǎng)演示星火的能力并提出了評(píng)測(cè)大模型的覆蓋7大類481個(gè)細(xì)分任務(wù)類型。盡管真機(jī)實(shí)測(cè)勇氣可嘉，測(cè)試內(nèi)容出錯(cuò)較少且響應(yīng)快速，整體的情感理解與邏輯線也都在線，但整體測(cè)試類別還是以簡(jiǎn)單的文字生成為主。這一塊基本屬于科大訊飛的傳統(tǒng)藝能，并不能看出自去年12月起至今近6個(gè)月的數(shù)據(jù)投喂成果。

換句話說，目前的生成內(nèi)容還無法看出星火達(dá)到了智能涌現(xiàn)的標(biāo)準(zhǔn)。不過考慮到科大訊飛的數(shù)據(jù)要素來源主要在于教育、醫(yī)療、汽車等細(xì)分領(lǐng)域，目前的表現(xiàn)也就不難理解了。

本次發(fā)布會(huì)上科大訊飛還展示了星火搭載下的學(xué)習(xí)機(jī)、虛擬人、汽車座艙域智能辦公演示，這既是亮點(diǎn)也是槽點(diǎn)。亮點(diǎn)在于星火大模型在誕生之初就已經(jīng)找到了明確的商業(yè)化落地路徑，其中教育硬件與辦公硬件也是科大訊飛過去兩年內(nèi)的營(yíng)收主力；槽點(diǎn)在于這幾條路徑相對(duì)于大模型而言顯得過于狹窄，可能是星火在測(cè)試時(shí)所表現(xiàn)出的能力還尚未達(dá)到賦能千行百業(yè)的水平。

不過，學(xué)霸未嘗就是未來混得最好的。在大模型競(jìng)爭(zhēng)劇烈的當(dāng)下，率先占領(lǐng)垂直領(lǐng)域應(yīng)用的高地并進(jìn)入自我造血反哺大模型訓(xùn)練的良性循環(huán)，未嘗不是一條可行的路徑。

更值得注意的是，劉慶峰在發(fā)布會(huì)結(jié)束后透露，星火大模型的算力硬件主要由華為提供，當(dāng)前并未受到限制。

由此我們也不難看出，一是自身是否有算力儲(chǔ)備在大模型訓(xùn)練中也許沒那么重要，尤其是并不是所有人都將大模型定位于“通用”級(jí)別的時(shí)候。相反，數(shù)據(jù)要素的重要性更加凸顯，這在當(dāng)初百度、阿里等坐擁多領(lǐng)域高質(zhì)量語(yǔ)料的頭部大廠發(fā)布大模型時(shí)尚不明顯，如今科大訊飛在教育領(lǐng)域的演示成果與泛領(lǐng)域演示成果的鮮明對(duì)比足以說明數(shù)據(jù)的重要性。

二是“送水人”式的“技術(shù)商人”路徑在大模型井噴的當(dāng)下切實(shí)可行。一方面送水人可以通過租售算力甚至訓(xùn)練方法，在獲利的同時(shí)解決算力冗余，另一方面收水人也可以節(jié)約大模型訓(xùn)練的成本，杜絕內(nèi)卷和重復(fù)基礎(chǔ)設(shè)施建設(shè)，讓大模型相對(duì)不再那么“重資產(chǎn)”。

在劉慶峰的規(guī)劃中，星火將在10月24日達(dá)到中文能力超越ChatGPT，英文語(yǔ)料能力相當(dāng)。且不論對(duì)標(biāo)的是GPT3.5還是GPT4，我們不妨以此時(shí)間為節(jié)點(diǎn)，到時(shí)候再審視國(guó)內(nèi)大模型與OpenAI的差距，是越來越小還是越來越大。

祛魅大模型

訊飛星火的發(fā)布從一方面也可以看做是從李開復(fù)理解的AI 1.0演進(jìn)為AI 2.0，是從NPL（自然語(yǔ)言處理）、CV（計(jì)算機(jī)視覺）到海量數(shù)據(jù)喂養(yǎng)下具備跨領(lǐng)域知識(shí)與智能交互能力的大模型。這是在李開復(fù)萬字演講中廣為流傳的"AI 2.0"范式。

有能力者做通用大模型，稍有欠缺者如科大訊飛，也要根據(jù)自有業(yè)務(wù)線如醫(yī)療、教育等場(chǎng)景做規(guī)模稍小的大模型。這是一個(gè)足夠宏大的敘事，尤其是在國(guó)內(nèi)多位大佬呼吁將所有應(yīng)用接入大模型重做一遍的話術(shù)，充滿了即刻為一項(xiàng)技術(shù)突破迅速找到場(chǎng)景進(jìn)行商業(yè)化落地的渴望。

如今的火熱場(chǎng)景我們并不陌生，近年來，我們?yōu)榱吮阌趥鞑ヅc理解，往往會(huì)以序列號(hào)化的話術(shù)來形容技術(shù)范式的迭代演進(jìn)。意義建構(gòu)理論的學(xué)者認(rèn)為，這是將信息的尋求與使用視作一種溝通實(shí)踐模型，幫助人進(jìn)行信息接收的做法。

從互聯(lián)網(wǎng)泡沫后提出的Web1.0和Web2.0到通信領(lǐng)域的4G和5G，以及AI領(lǐng)域，序列號(hào)給人以最直白的觀感，為我們帶來無限的想象空間，這個(gè)視角下的技術(shù)可以在草蛇灰線之中無限升維演進(jìn)。越是這樣帶有技術(shù)革命色彩的故事，越是能吸引關(guān)注與投資，越具備商業(yè)化落地的可能性。

只是能否落地卻是未知數(shù)，就像大模型涌現(xiàn)現(xiàn)象的發(fā)生概率只有0%和100%。

在資深機(jī)器學(xué)習(xí)與應(yīng)用開發(fā)者楊軍看來，市場(chǎng)上的“百模大戰(zhàn)”與投資圈的狂熱是在巨量資源投入后，廣譜性質(zhì)的壓強(qiáng)效應(yīng)所致，但是在這之中不可避免泡沫的存在。“我不太認(rèn)可在介紹ChatGPT相關(guān)技術(shù)時(shí)引入的春秋筆法或過于PR的味道，總覺得這會(huì)把一個(gè)原本正常該由技術(shù)驅(qū)動(dòng)的事物的演進(jìn)節(jié)奏變得混亂了。關(guān)鍵的技術(shù)需要回歸到客觀層面理解，才更有利于這個(gè)方向的健康發(fā)展。”

春秋筆法對(duì)新生事物的揠苗助長(zhǎng)在AIGC前一輪Web3風(fēng)口中隨處可見，尤其是結(jié)合了VR、AR后誕生的元宇宙賽道�？萍蓟ヂ�(lián)網(wǎng)從業(yè)者必須銘記的案例是Facebook更名Meta，梭哈元宇宙后的窘境。反觀國(guó)內(nèi)，一直以來商業(yè)化都是我們的強(qiáng)項(xiàng)，反之也遭到不少缺乏研發(fā)耐心、忽略底層技術(shù)的詬病。

楊軍透露：“我知道的一些這個(gè)行業(yè)里比較資深的模型從業(yè)人士，似乎很多都因?yàn)楸池?fù)了投資方的壓力，更多考慮的是商業(yè)變現(xiàn)，而不是底層技術(shù)的創(chuàng)新和突破。”

在商業(yè)化變現(xiàn)前，大模型需要填滿的洞有多深？

由英偉達(dá)給出的GPT3訓(xùn)練數(shù)據(jù)，參數(shù)規(guī)模為1750億，訓(xùn)練語(yǔ)料為30億 tokens，那么訓(xùn)練一個(gè)周期需要26天，采用租賃方式以8卡A100訓(xùn)練的成本超256萬美元/月，即使忽略人力成本，硬件成本最低也需要大約2億人民幣一年。楊軍稱，這已經(jīng)是很保守的估計(jì)，系統(tǒng)故障、策略調(diào)整等因素也未曾考慮，人力成本更是在技術(shù)創(chuàng)新領(lǐng)域的大頭，如果希望提高效率，以并行方式實(shí)驗(yàn)探索，那么硬件成本還需追加一倍。

5年時(shí)間，25~30億不計(jì)回報(bào)的總投入，這是客觀技術(shù)視角下做好一個(gè)GPT4前兩代的大模型所需要的準(zhǔn)備。這筆研發(fā)投入已經(jīng)接近于半導(dǎo)體了。

楊軍對(duì)此憂慮頗多，尤其是在風(fēng)投方面。“在我有限的閱歷里，看到了不少風(fēng)投一開始說支持情懷，隨著時(shí)間推移，會(huì)對(duì)變現(xiàn)和尋求接盤退出越來越饑渴，最終以各種方式干預(yù)到項(xiàng)目執(zhí)行層面。不確定性較強(qiáng)的技術(shù)攻關(guān)遭遇的問題，需要行業(yè)層面來克服”。

在技術(shù)革命后的第一次格局重構(gòu)中，狂熱者往往被浪潮無情裹挾，重重拍在淺灘上。好比去年吸收了數(shù)千億美元的Web3，其大本營(yíng)新加坡如今已有不少?gòu)臉I(yè)者租不起房，吃不起飯。

我們對(duì)大模型的暢想究竟是像APUS李濤所言“爭(zhēng)奪下一代操作系統(tǒng)的話語(yǔ)權(quán)”，還是針對(duì)某個(gè)具體場(chǎng)景和領(lǐng)域的賦能，亦或是在浪潮之中尋求資金、博取熱度，無論哪種都需要讓大模型褪去克里斯瑪，客觀地看待與探求。

大模型也可以小而美

在眾人一擁而上的時(shí)候，相對(duì)冷清的路徑反而更有可能成功。

比如在星火上被驗(yàn)證的“送水人”路徑，除華為外，字節(jié)旗下火山引擎、騰訊云等玩家已在4月這個(gè)節(jié)點(diǎn)對(duì)外明確了自身“送水人”的角色，通過提供算法優(yōu)化、算力、數(shù)據(jù)飛輪等技術(shù)棧服務(wù)來做淘金熱中的服務(wù)商。路徑明晰競(jìng)對(duì)少的同時(shí)還可以一定程度上“分?jǐn)?rdquo;大模型的訓(xùn)練成本。

這條商業(yè)路徑早在淘金運(yùn)動(dòng)中便已驗(yàn)證，但成功故事的背后是淘金運(yùn)動(dòng)的“內(nèi)卷”特性，才會(huì)誕生服務(wù)的需求空間，同時(shí)“送水人”還需要在這種上游配套式或衍生周邊式服務(wù)中占據(jù)壟斷地位。“送水人”亞默爾原本只是平平無奇的淘金者之一，直到他第一時(shí)間抓住了淘金者對(duì)水的需求并通過開挖水渠的方式打造了一個(gè)專屬于他自己的飲用水生產(chǎn)線。

在如今的大模型中局，時(shí)間問題無需考慮，也不存在有誰(shuí)能在某項(xiàng)服務(wù)中能占據(jù)壟斷地位。那么討論的重點(diǎn)便在于其提供的服務(wù)。

大模型的服務(wù)需求則可以用AI三要素來概括，分別是算力、算法與數(shù)據(jù)，其中算力是相對(duì)最缺乏競(jìng)爭(zhēng)力的領(lǐng)域。因?yàn)樗懔υ谔越鹫叩囊暯窍聝H僅只是成本，而在送水人的視角下卻是商品，單純提供算力難免會(huì)陷入價(jià)格戰(zhàn)的怪圈，反過來掣肘自己的大模型訓(xùn)練。

算法與數(shù)據(jù)則與此相反，兩者均可以提高大模型的訓(xùn)練效率，甚至直接影響訓(xùn)練成果。只是長(zhǎng)遠(yuǎn)看來，這兩項(xiàng)服務(wù)的前景也不甚樂觀。

算法方面，OpenAI就是最好的例子，被開發(fā)者戲稱為“CloseAI”的原因之一便是其堅(jiān)持閉源。大模型訓(xùn)練中的策略、算法是可以作為企業(yè)護(hù)城河的核心資產(chǎn)，“送水人”開放給外界使用的程度將直接關(guān)聯(lián)自家大模型的競(jìng)爭(zhēng)強(qiáng)度，數(shù)據(jù)方面也是如此。反之，購(gòu)買大模型服務(wù)的企業(yè)也會(huì)要求算法與數(shù)據(jù)的安全，爭(zhēng)取在“安全線”之下有限的互幫互助。

目前看來，“送水人”們除非退出通用大模型的競(jìng)爭(zhēng)，否則送水的動(dòng)作也很可能只是在成本控制上的錦上添花，真正的“送水人”還得是英偉達(dá)。這也意味著，我們需要另尋更切實(shí)的路徑。

日前，OpenAI關(guān)閉付費(fèi)渠道已在業(yè)內(nèi)引起不小的討論，最有可能的原因是GPT4在接入微軟全棧應(yīng)用后算力吃緊，只能暫時(shí)放棄C端增長(zhǎng)來穩(wěn)住大金主。而OpenAI聯(lián)合創(chuàng)始人兼CEO Sam Altman更是公開表示OpenAI已接近LLM的極限，認(rèn)為L(zhǎng)LM的規(guī)模不再是衡量模型質(zhì)量的重要指標(biāo)，未來將有更多的方式來提升模型的能力和效用。

換句話說，大模型中場(chǎng)之際，OpenAI在否決了一昧追求規(guī)模的路徑同時(shí)為行業(yè)指出了大模型的迭代新路，即通過優(yōu)化訓(xùn)練策略、全局調(diào)度以減少投入成本，同時(shí)將笨重的大模型轉(zhuǎn)向小而美的方向發(fā)展。

楊軍對(duì)此頗有研究，并對(duì)此介紹了部分海外已經(jīng)開始的創(chuàng)新案例。

關(guān)注系統(tǒng)優(yōu)化并結(jié)合模型訓(xùn)練策略進(jìn)行全鏈路訓(xùn)練優(yōu)化的公司MosaicML提出，通過將參數(shù)降低至300億同時(shí)將Token數(shù)提升至61億，以256張40GB的A100為資源訓(xùn)練一個(gè)周期，只需要36天即可得到與GPT3相同質(zhì)量的訓(xùn)練結(jié)果，而成本僅需要88萬美元，幾乎是GPT3原始訓(xùn)練成本的三分之一。除了訓(xùn)練策略的優(yōu)化外，通過對(duì)CPU主存+磁盤外存+GPU顯存的使用進(jìn)行全局調(diào)度優(yōu)化，讓低端顯卡serve大模型成為可能。

“一款A(yù)I框架解決的其實(shí)是上層的業(yè)務(wù)模型需求到底層計(jì)算硬件執(zhí)行的映射問題，在性能足夠的情況下，僅拼性能就可能陷入了‘技術(shù)有深度但競(jìng)爭(zhēng)呈紅海’的戰(zhàn)場(chǎng)。”

為了避免這樣的競(jìng)爭(zhēng)，不少大模型在推出時(shí)便在宣傳上做了一定的區(qū)分，關(guān)鍵在于是否存在“通用”二字。這其中有源自NPL基底并在數(shù)個(gè)領(lǐng)域直接落地的星火、根植辦公場(chǎng)景的金山“WPS AI”、立足于問答社區(qū)生態(tài)的知乎“知海圖AI”等，其共同點(diǎn)在于針對(duì)具體場(chǎng)景，以對(duì)行業(yè)的縱深理解與數(shù)據(jù)支撐為基礎(chǔ)，以大模型的“涌現(xiàn)”能力為跳板，實(shí)際上卻是披著通用大模型外衣的中小模型。

送水人也可以參考這樣的“技術(shù)商人“的思維。在楊軍看來，與其參與無謂的hardcore“內(nèi)卷”，不如去思考自己的技術(shù)點(diǎn)在可以在完整商業(yè)鏈中發(fā)揮什么功能，完成什么閉環(huán)，通過能力與方向的差異化發(fā)掘更多價(jià)值。

保持一個(gè)啃硬骨頭的決心，開闊技術(shù)商業(yè)化的視野，是大模型玩家們的必修課。相對(duì)追求規(guī)模，我們與海外在小而美方向上的研究反而在時(shí)間節(jié)點(diǎn)上更相近，這也意味著更大的機(jī)會(huì)。無論是預(yù)算與資源相對(duì)緊張的創(chuàng)業(yè)公司還是有底氣隨時(shí)掏出數(shù)千張A卡的大廠，都需要認(rèn)識(shí)到這點(diǎn)。

原文標(biāo)題 : 從星火看大模型中場(chǎng)：祛魅與拷問