訂閱
糾錯
加入自媒體

谷歌Gemini自爆“我是文心”,大模型研發(fā)要“站在巨人肩上”?

2023-12-26 09:28
羅超Pro
關(guān)注

12月谷歌的大語言模型Gemini一經(jīng)發(fā)布就引發(fā)行業(yè)熱議。在多個大模型評測榜單中,谷歌Gemini Ultra版本超過了GPT-4,已有成為大模型“新王”的勢頭,這并不讓人意外。2016年Google旗下的AlphaGo戰(zhàn)勝李世石讓全世界關(guān)注到深度學(xué)習(xí)的魅力,在大模型這波新浪潮中Google被OpenAI先聲奪人,Gemini的問世讓業(yè)界期待Google這一AI領(lǐng)軍者能否“王者歸來”,Google在發(fā)布Gemini時也高調(diào)宣稱這是迄今為止“規(guī)模最大、能力最強”的大語言模型。

圖片

然而隨后發(fā)生的一件事卻讓人大跌眼鏡:據(jù)“量子位”等多家媒體測試,谷歌Gemini涉嫌“套殼”百度文心。在中文對話時,谷歌Gemini竟坦言自己就是百度文心大模型、創(chuàng)始人是李彥宏。

圖片

當(dāng)測試者進(jìn)一步問Gemini到底是Gemini-Pro還是文心一言時,Gemini回答:“我不是Gemini-Pro,也不是文心一言,我是百度文心大模型……你也可以叫我小度……我的底層是百度自研的深度學(xué)習(xí)平臺飛槳(PaddlePaddle)。”

圖片

這番答案著實有些出人意料,也讓人忍俊不禁。

為何谷歌Gemini堅稱自己是文心大模型?

Gemini堅稱自己是文心大模型不能用“大模型幻覺”來解釋。使用中文互聯(lián)網(wǎng)上的語料,抑或是已發(fā)布的AIGC內(nèi)容,它不至于連“我是誰”“我的創(chuàng)始人”這樣的基礎(chǔ)問題都回答錯誤。強如谷歌,其算法代碼一定是自主研發(fā)的,Gemini不大可能是直接“套殼”百度文心大模型,

據(jù)一位大模型技術(shù)專家分析,Gemini出現(xiàn)這樣的系統(tǒng)性的錯誤,最大可能性是其在中文領(lǐng)域的“監(jiān)督精調(diào)”環(huán)節(jié)應(yīng)用了百度大模型輸出的內(nèi)容。

其實深度學(xué)習(xí)與大模型的本質(zhì)都是“機器學(xué)習(xí)”,即給機器投喂大量數(shù)據(jù)讓算法學(xué)習(xí)并積累經(jīng)驗,不斷變得更聰明。但“學(xué)習(xí)模式”一直在進(jìn)化。

最初,深度學(xué)習(xí)普遍采用的是監(jiān)督學(xué)習(xí)模式,開發(fā)者使用標(biāo)記數(shù)據(jù)集來訓(xùn)練算法,以便訓(xùn)練后的算法可對數(shù)據(jù)進(jìn)行分類或準(zhǔn)確預(yù)測結(jié)果。在監(jiān)督學(xué)習(xí)中,每個樣本數(shù)據(jù)都被正確地標(biāo)記過。算法模型在訓(xùn)練過程中,被一系列 “監(jiān)督”誤差的程序、回饋、校正模型,以便達(dá)到在輸入給模型為標(biāo)記輸入數(shù)據(jù)時,輸出則十分接近標(biāo)記的輸出數(shù)據(jù),即適當(dāng)?shù)臄M合。因此得名為“監(jiān)督”學(xué)習(xí)。

圖片

2017年前后,深度學(xué)習(xí)重心逐步轉(zhuǎn)移到預(yù)訓(xùn)練模型上,隨之演化出了大語言預(yù)訓(xùn)練模型技術(shù)。2018年OpenAI發(fā)布GPT-1,GPT橫空出世。GPT-1模型訓(xùn)練使用了BooksCorpus數(shù)據(jù)集,其訓(xùn)練主要包含兩個階段:第一個階段,先利用大量無標(biāo)注的語料預(yù)訓(xùn)練一個語言模型,這一部分是無監(jiān)督訓(xùn)練,直接用算法來分析并聚類未標(biāo)記的數(shù)據(jù)集,以便發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和規(guī)律,全程不需人工干預(yù);第二階段再對預(yù)訓(xùn)練好的語言模型根據(jù)下游任務(wù)進(jìn)行精調(diào),將其遷移到各種NLP任務(wù)中,既利用了預(yù)訓(xùn)練模型學(xué)習(xí)到的特征和知識,也融入了特定任務(wù)的標(biāo)注數(shù)據(jù),等于說是用監(jiān)督學(xué)習(xí)的方式進(jìn)一步提高大模型的泛化能力和對特定任務(wù)的適應(yīng)能力。

GPT的“預(yù)訓(xùn)練(Pre-train)和精調(diào)(Supervised Fine-tuning,SFT)”兩部曲,也是大語言模型普遍采取的步驟。預(yù)訓(xùn)練的價值在于海量數(shù)據(jù)“博覽全書”,但記住了海量知識要更好地應(yīng)用則需要進(jìn)一步指導(dǎo),這就是精調(diào)的價值,這一過程本質(zhì)就是“老師教學(xué)生”。

圖片

谷歌Gemini堅稱自己是百度文心大模型,極有可能是它在中文的監(jiān)督精調(diào)階段,直接應(yīng)用了大量百度文心一言的答案,因此會在中文對話時直接使用百度文心一言的回復(fù),出現(xiàn)“我的創(chuàng)始人是李彥宏”“我是文心大模型不是文心一言也不是Gemini-Pro”“我的底層是飛槳”這樣的答案——這些對文心大模型來說都是正確答案。

當(dāng)測試者用英文跟谷歌Gemini對話,或者與基于Gemini的Google Bard對話并拋出同樣問題時,谷歌Gemini可給出正確答案。這也說明,谷歌Gemini為了更好地完成中文對話等NLP任務(wù),在精調(diào)階段應(yīng)用了大量的百度文心大模型的答案,在事實上將文心一言當(dāng)成了自己的“老師”。

圖片

(圖源:新智元)

百度文心大模型憑什么教Gemini學(xué)習(xí)?

在發(fā)布Gemini前,谷歌已在大模型技術(shù)上布局多時。早在2018年谷歌就發(fā)布了擁有3億參數(shù)的BERT預(yù)訓(xùn)練模型,成為緊隨OpenAI的大模型玩家。2019年OpenAI推出擁有15億參數(shù)的GPT-2,英偉達(dá)發(fā)布83億參數(shù)的威震天(Megatron-LM),谷歌發(fā)布110億參數(shù)的T5讓大模型參數(shù)進(jìn)入百億級。2022年,谷歌公布的PaLM 語言大模型擁有的參數(shù)已達(dá)到驚人的5400 億。

圖片

在大模型上,谷歌有足夠強的實力,這跟一些初創(chuàng)公司或者“湊熱鬧、蹭熱點、炒股價”的大公司截然不同。既然谷歌大模型技術(shù)如此強大,為什么Gemini還要師從百度文心大模型呢?核心還是因為百度文心大模型在中文領(lǐng)域特別是中文NLP(自然語言處理)任務(wù)上有著顯著優(yōu)勢。

首先,在數(shù)據(jù)集層面,百度有大量中文標(biāo)注數(shù)據(jù)。

網(wǎng)絡(luò)上的海量數(shù)據(jù)對所有大模型玩家都是公開的,在“預(yù)訓(xùn)練”環(huán)節(jié),只要大模型玩家不“偷懶”或者“省算力”基本可各憑本身獲取數(shù)據(jù)進(jìn)行無監(jiān)督訓(xùn)練。然而這只能讓大模型“記住”海量知識,真正決定大模型智能程度的環(huán)節(jié)在于“精調(diào)”,這一環(huán)節(jié)是離不來標(biāo)注數(shù)據(jù)的有監(jiān)督學(xué)習(xí)。

百度自2013年布局深度學(xué)習(xí)技術(shù)以來,就在積累中文標(biāo)注數(shù)據(jù)——前面提到,深度學(xué)習(xí)在2017年前重心是有監(jiān)督學(xué)習(xí),離不開標(biāo)注數(shù)據(jù),百度一直在布局,在全國投資建設(shè)和運營大量的數(shù)據(jù)標(biāo)注基地,其中一個在我的家鄉(xiāng)重慶奉節(jié)。在數(shù)據(jù)標(biāo)注基地,有大量的人在對數(shù)據(jù)進(jìn)行標(biāo)注,比如標(biāo)記一張圖片中的水果是蘋果。

(百度山西數(shù)據(jù)標(biāo)注基地辦公室之一)

大模型預(yù)訓(xùn)練不需要標(biāo)注數(shù)據(jù),但精調(diào)階段則依賴標(biāo)注數(shù)據(jù)。今年8月百度智能云在?趩舆\營國內(nèi)首個大模型數(shù)據(jù)標(biāo)注基地,當(dāng)時其透露其已在全國與各地政府合作,共建了10多個數(shù)據(jù)標(biāo)注基地,累計為當(dāng)?shù)靥峁┏^1.1萬個穩(wěn)定就業(yè)崗位,間接帶動5萬人就業(yè)。

圖片

在3月16日百度文心一言的新聞發(fā)布會上,百度就曾透露其基于對中國語言文化和中國應(yīng)用場景的理解,篩選了特定的數(shù)據(jù)來訓(xùn)練模型。

谷歌Gemini要進(jìn)行中文數(shù)據(jù)精調(diào),沒有標(biāo)注數(shù)據(jù)也不可能投入上萬人去做標(biāo)注,用百度文心大模型的答案無疑是“捷徑”。

其次,在技術(shù)層面,百度文心大模型厚積薄發(fā)。

在中國的大模型玩家中,像百度一樣投入人力進(jìn)行中文數(shù)據(jù)標(biāo)注的還有不少。不過,大模型的能力不只是取決于數(shù)據(jù),還依賴算法與訓(xùn)練能力。大模型不是平地起高樓,作為深度學(xué)習(xí)的全新突破,大模型讓AI技術(shù)的通用性大幅提升,成為AI從作坊式應(yīng)用邁向工業(yè)化生產(chǎn)的關(guān)鍵。未來,大模型將與深度學(xué)習(xí)一起驅(qū)動著智能經(jīng)濟(jì)的爆發(fā)。

2012 年,深度學(xué)習(xí)技術(shù)嶄露頭角,百度就已在語音、語義和 OCR 文字識別等領(lǐng)域探索深度學(xué)習(xí)技術(shù)應(yīng)用。2013年百度成立深度學(xué)習(xí)研究院,開始研發(fā)深度學(xué)習(xí)框架(飛槳PaddlePaddle前身),深耕NLP(自研語言處理)、知識圖譜、機器視覺等AI技術(shù)。

在大模型技術(shù)方興未艾的2019年,百度就已在積累AI預(yù)訓(xùn)練模型技術(shù)并上線文心大模型,當(dāng)年7月文心大模型升級至2.0,2021年12月正式發(fā)布全球首個知識增強千億大模型鵬城-百度·文心,參數(shù)規(guī)模2600億。深度學(xué)習(xí)多年的布局讓百度文心大模型可厚積薄發(fā)。百度財報顯示從2012年到2022年的十年間其在AI上已投資超過千億,自上而下構(gòu)建出覆蓋芯片、云計算平臺、飛槳深度學(xué)習(xí)平臺、大模型以及上層垂直AI技術(shù)應(yīng)用在內(nèi)的全棧AI架構(gòu)。在AI技術(shù)上多年持之以恒的投資,“文心+飛槳”這樣的CP式AI組合,讓文心大模型具備顯著技術(shù)優(yōu)勢,在中文領(lǐng)域表現(xiàn)尤為突出。

清華大學(xué)新聞與傳播學(xué)院沈陽團(tuán)隊發(fā)布的《大語言模型綜合性能評估報告》顯示,文心一言在三大維度20項指標(biāo)中綜合評分國內(nèi)第一,超越ChatGPT,其中中文語義理解排名第一,部分中文能力超越GPT-4。IDC的評測報告則顯示,文心大模型3.5在其大模型技術(shù)評估中拿下7項測試滿分(總共12個測試項目)和綜合評分第一。

最后,在應(yīng)用層面,百度文心大模型熟悉中文場景。

正如第一部分分析,大模型“監(jiān)督精調(diào)”的目的是為了更好地適應(yīng)特定任務(wù)、更好地應(yīng)用預(yù)訓(xùn)練階段掌握的知識。跟OpenAI這樣的研究型機構(gòu)不同,百度AI技術(shù)一直都是與業(yè)務(wù)互相驅(qū)動的,擁有業(yè)務(wù)場景、理解垂直產(chǎn)業(yè)、具備應(yīng)用經(jīng)驗。

就大模型而言,百度文心大模型很早就堅持“不卷參數(shù)卷落地”,2022年就已在業(yè)內(nèi)首發(fā)行業(yè)大模型,如聯(lián)合國家電網(wǎng)研發(fā)知識增強的電力行業(yè)NLP大模型國網(wǎng)-百度·文心,聯(lián)合浦發(fā)銀行研發(fā)了知識增強的金融行業(yè)NLP大模型浦發(fā)-百度·文心。

2023年,文心大模型在應(yīng)用落地上持續(xù)走在行業(yè)前列。面向C端用戶,今年8月文心一言率先對外開放體驗,上線獨立APP并于百度搜索等國民級應(yīng)用融合,極大地降低了大模型應(yīng)用的使用門檻。百度搜索、地圖、網(wǎng)盤、文庫等自有業(yè)務(wù)也已在大模型驅(qū)動下進(jìn)行升級;面向B端客戶,今年9月百度智能云發(fā)布千帆大模型平臺2.0,覆蓋互聯(lián)網(wǎng)、政務(wù)、制造、能源、金融、游戲等主流行業(yè)的400多個應(yīng)用場景。百度執(zhí)行副總裁、智能云事業(yè)群總裁沈抖在宣布啟動“云智一體”戰(zhàn)略的時候介紹道,千帆大模型平臺服務(wù)的企業(yè)客戶已超1.7萬家。年底,李彥宏提出了大模型落地到“終極解法”:AI原生應(yīng)用,其將扮演App在移動互聯(lián)網(wǎng)技術(shù)落地中的角色,推動大模型技術(shù)在千行百業(yè)落地。

從基礎(chǔ)技術(shù)水平、技術(shù)產(chǎn)品化與產(chǎn)業(yè)化進(jìn)程,以及開發(fā)者生態(tài)繁榮度來看,百度文心都堪稱國內(nèi)AI大模型的絕對領(lǐng)先者。在中文領(lǐng)域,百度文心大模型擁有數(shù)據(jù)、技術(shù)和應(yīng)用優(yōu)勢,這足以讓其成為世界大模型舞臺上的中國力量,也確實“有資格”做谷歌Gemini的老師。谷歌Gemini實力不俗,確實可以跟GPT掰手腕,然而在中文領(lǐng)域谷歌并無優(yōu)勢,畢竟其已退出中國市場10多年了。“師從”百度文心大模型,是谷歌Gemini提升在中文領(lǐng)域表現(xiàn)的最佳捷徑。

(圖源:微博)

大模型研究站在巨人肩上無可厚非

“谷歌Gemini堅稱自己是文心大模型”這樣的事情,在大模型行業(yè)不是第一次出現(xiàn),也不會是最后一次。因為大模型研究一定要站在巨人肩上才能做得更好。

前幾天,隸屬于字節(jié)跳動公司名下的部分GPT使用權(quán)限被OpenAI全面封禁。The Verge爆料稱字節(jié)跳動正秘密研發(fā)一個被稱為“種子計劃”(Project Seed)的AI大模型項目。據(jù)稱該項目在訓(xùn)練和評估模型等多個研發(fā)階段調(diào)用了OpenAI的應(yīng)用程序接口(API),并使用ChatGPT輸出的數(shù)據(jù)進(jìn)行模型訓(xùn)練。但OpenAI的使用協(xié)議在API調(diào)用和對輸出內(nèi)容的使用方面已明確規(guī)定:禁止用于輸出開發(fā)競爭模型。

11月,李開復(fù)創(chuàng)辦的零一萬物也曾因“套殼事件”而鬧得沸沸揚揚。事情源起是一位國外開發(fā)者在Hugging Face開源主頁上評論稱,零一萬物的開源大模型Yi-34B,完全使用Meta研發(fā)的LIama開源模型架構(gòu),而只對兩個張量(Tensor)名稱進(jìn)行修改。對此零一萬物的解釋是:

“GPT是一個業(yè)內(nèi)公認(rèn)的成熟架構(gòu),Llama在GPT上做了總結(jié)。零一萬物研發(fā)大模型的結(jié)構(gòu)設(shè)計基于GPT成熟結(jié)構(gòu),借鑒了行業(yè)頂尖水平的公開成果,由于大模型技術(shù)發(fā)展還在非常初期,與行業(yè)主流保持一致的結(jié)構(gòu),更有利于整體的適配與未來的迭代。同時基于零一萬物團(tuán)隊對模型和訓(xùn)練的理解做了大量工作,也在持續(xù)探索模型結(jié)構(gòu)層面本質(zhì)上的突破。”

飛槳作為底座支持了文心大模型的訓(xùn)練、推理與部署。在萬卡算力上運行的飛槳平臺,通過集群基礎(chǔ)設(shè)施和調(diào)度系統(tǒng)、飛槳框架的軟硬協(xié)同優(yōu)化,支持了大模型的穩(wěn)定高效訓(xùn)練。正是通過飛槳與文心的協(xié)同優(yōu)化,文心大模型周均訓(xùn)練有效率超過98%,訓(xùn)練算法效率提升到3月發(fā)布時的3.6倍,推理性能提升50倍。如果沒有百度在深度學(xué)習(xí)技術(shù)上的多年積累,文心大模型不可能在短短三年時間取得如此耀眼的成就。

基于市面上的頂尖大模型以及AI技術(shù)成果進(jìn)行創(chuàng)新研發(fā),似乎已成行業(yè)慣例。一方面,市面上不少頂尖大模型是開源的,就算不開源結(jié)果被扒走也不難,這給后來者“借鑒”提供了便利;另一方面,大模型技術(shù)的本質(zhì)就是讓機器擁有并應(yīng)用知識的過程,而知識與經(jīng)驗是可以傳承的,就像人類一直在基于前人的知識、智慧、經(jīng)驗向前一樣,大模型開發(fā)者基于領(lǐng)先的大模型再創(chuàng)新,比一切從0開始更有機會做出更智能的大模型。

“如果說我比別人看得略遠(yuǎn)些,那是因為我站在巨人的肩膀上。”這句話是偉大科學(xué)家牛頓說的。1686年,牛頓將專著《自然哲學(xué)的數(shù)學(xué)原理》交給皇家學(xué)會審議,在這次會議上,牛頓的學(xué)術(shù)前輩胡克提出引力反比定律這一公式是自己告訴牛頓的,牛頓應(yīng)該在專著的前言指出自己的貢獻(xiàn)。不過,這次會議牛頓并未參加,后來牛頓也沒有同意胡克的要求,在他看來,自己1666年就發(fā)現(xiàn)了引力的平方反比定律且寫信告訴了他人,因此自己才是這一定律的發(fā)現(xiàn)者。后來牛頓發(fā)了一封公開信說了這句話,意思是他的成就是在總結(jié)之前很多偉大科學(xué)家的杰出成果上形成的,沒有那些科學(xué)家所做的學(xué)術(shù)積累,他是不會成功的,所以他說自己是站在巨人的肩膀上。

圖片

今天的大模型“套殼”爭議跟牛頓當(dāng)年面臨的情況有些類似:大模型研究都難免會以各種方式對市面上的頂尖成果進(jìn)行借鑒,比如輸出結(jié)果,訓(xùn)練方法,數(shù)據(jù)集、技術(shù)架構(gòu)甚至算法代碼。不過,只要大模型研究者遵守使用協(xié)議,“站在巨人肩上”也就無可厚非。

話說回來,谷歌Gemini師從文心大模型也足以表明,在大模型技術(shù)上,我們國家還是有能跟國際巨頭掰手腕的玩家的,這足以扭轉(zhuǎn)很多人對中國大模型只有跟隨者的刻板印象。至少在中文領(lǐng)域,我們國家是有世界頂尖的大模型玩家的。長期來看,大模型作為AI關(guān)鍵技術(shù)關(guān)系到國家核心競爭力,影響經(jīng)濟(jì)、文化、社會、科技、軍事等方方面面,在可見的未來將是大國角力的一大技術(shù)高地。百度文心大模型以及底層的飛槳深度學(xué)習(xí)平臺,是自主自研的“純血”版本,可確保我國大模型以及AI技術(shù)自立自強,在新一輪AI技術(shù)競爭中擁有足夠的話語權(quán)。

       原文標(biāo)題 : 谷歌Gemini自爆“我是文心”,大模型研發(fā)要“站在巨人肩上”?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號