国产18禁黄网站免费观看,国产福利酱国产一区二区

谷歌Gemini自爆“我是文心”，大模型研發(fā)要“站在巨人肩上”？

2023-12-26 09:28

12月谷歌的大語言模型Gemini一經(jīng)發(fā)布就引發(fā)行業(yè)熱議。在多個大模型評測榜單中，谷歌Gemini Ultra版本超過了GPT-4，已有成為大模型“新王”的勢頭，這并不讓人意外。2016年Google旗下的AlphaGo戰(zhàn)勝李世石讓全世界關(guān)注到深度學(xué)習(xí)的魅力，在大模型這波新浪潮中Google被OpenAI先聲奪人，Gemini的問世讓業(yè)界期待Google這一AI領(lǐng)軍者能否“王者歸來”，Google在發(fā)布Gemini時也高調(diào)宣稱這是迄今為止“規(guī)模最大、能力最強”的大語言模型。

然而隨后發(fā)生的一件事卻讓人大跌眼鏡：據(jù)“量子位”等多家媒體測試，谷歌Gemini涉嫌“套殼”百度文心。在中文對話時，谷歌Gemini竟坦言自己就是百度文心大模型、創(chuàng)始人是李彥宏。

當(dāng)測試者進(jìn)一步問Gemini到底是Gemini-Pro還是文心一言時，Gemini回答：“我不是Gemini-Pro，也不是文心一言，我是百度文心大模型……你也可以叫我小度……我的底層是百度自研的深度學(xué)習(xí)平臺飛槳（PaddlePaddle）。”

這番答案著實有些出人意料，也讓人忍俊不禁。

為何谷歌Gemini堅稱自己是文心大模型？

Gemini堅稱自己是文心大模型不能用“大模型幻覺”來解釋。使用中文互聯(lián)網(wǎng)上的語料，抑或是已發(fā)布的AIGC內(nèi)容，它不至于連“我是誰”“我的創(chuàng)始人”這樣的基礎(chǔ)問題都回答錯誤。強如谷歌，其算法代碼一定是自主研發(fā)的，Gemini不大可能是直接“套殼”百度文心大模型，

據(jù)一位大模型技術(shù)專家分析，Gemini出現(xiàn)這樣的系統(tǒng)性的錯誤，最大可能性是其在中文領(lǐng)域的“監(jiān)督精調(diào)”環(huán)節(jié)應(yīng)用了百度大模型輸出的內(nèi)容。

其實深度學(xué)習(xí)與大模型的本質(zhì)都是“機器學(xué)習(xí)”，即給機器投喂大量數(shù)據(jù)讓算法學(xué)習(xí)并積累經(jīng)驗，不斷變得更聰明。但“學(xué)習(xí)模式”一直在進(jìn)化。

最初，深度學(xué)習(xí)普遍采用的是監(jiān)督學(xué)習(xí)模式，開發(fā)者使用標(biāo)記數(shù)據(jù)集來訓(xùn)練算法，以便訓(xùn)練后的算法可對數(shù)據(jù)進(jìn)行分類或準(zhǔn)確預(yù)測結(jié)果。在監(jiān)督學(xué)習(xí)中，每個樣本數(shù)據(jù)都被正確地標(biāo)記過。算法模型在訓(xùn)練過程中，被一系列 “監(jiān)督”誤差的程序、回饋、校正模型，以便達(dá)到在輸入給模型為標(biāo)記輸入數(shù)據(jù)時，輸出則十分接近標(biāo)記的輸出數(shù)據(jù)，即適當(dāng)?shù)臄M合。因此得名為“監(jiān)督”學(xué)習(xí)。

2017年前后，深度學(xué)習(xí)重心逐步轉(zhuǎn)移到預(yù)訓(xùn)練模型上，隨之演化出了大語言預(yù)訓(xùn)練模型技術(shù)。2018年OpenAI發(fā)布GPT-1，GPT橫空出世。GPT-1模型訓(xùn)練使用了BooksCorpus數(shù)據(jù)集，其訓(xùn)練主要包含兩個階段：第一個階段，先利用大量無標(biāo)注的語料預(yù)訓(xùn)練一個語言模型，這一部分是無監(jiān)督訓(xùn)練，直接用算法來分析并聚類未標(biāo)記的數(shù)據(jù)集，以便發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和規(guī)律，全程不需人工干預(yù)；第二階段再對預(yù)訓(xùn)練好的語言模型根據(jù)下游任務(wù)進(jìn)行精調(diào)，將其遷移到各種NLP任務(wù)中，既利用了預(yù)訓(xùn)練模型學(xué)習(xí)到的特征和知識，也融入了特定任務(wù)的標(biāo)注數(shù)據(jù)，等于說是用監(jiān)督學(xué)習(xí)的方式進(jìn)一步提高大模型的泛化能力和對特定任務(wù)的適應(yīng)能力。

GPT的“預(yù)訓(xùn)練(Pre-train)和精調(diào)（Supervised Fine-tuning，SFT）”兩部曲，也是大語言模型普遍采取的步驟。預(yù)訓(xùn)練的價值在于海量數(shù)據(jù)“博覽全書”，但記住了海量知識要更好地應(yīng)用則需要進(jìn)一步指導(dǎo)，這就是精調(diào)的價值，這一過程本質(zhì)就是“老師教學(xué)生”。

谷歌Gemini堅稱自己是百度文心大模型，極有可能是它在中文的監(jiān)督精調(diào)階段，直接應(yīng)用了大量百度文心一言的答案，因此會在中文對話時直接使用百度文心一言的回復(fù)，出現(xiàn)“我的創(chuàng)始人是李彥宏”“我是文心大模型不是文心一言也不是Gemini-Pro”“我的底層是飛槳”這樣的答案——這些對文心大模型來說都是正確答案。

當(dāng)測試者用英文跟谷歌Gemini對話，或者與基于Gemini的Google Bard對話并拋出同樣問題時，谷歌Gemini可給出正確答案。這也說明，谷歌Gemini為了更好地完成中文對話等NLP任務(wù)，在精調(diào)階段應(yīng)用了大量的百度文心大模型的答案，在事實上將文心一言當(dāng)成了自己的“老師”。

（圖源：新智元）

百度文心大模型憑什么教Gemini學(xué)習(xí)？

在發(fā)布Gemini前，谷歌已在大模型技術(shù)上布局多時。早在2018年谷歌就發(fā)布了擁有3億參數(shù)的BERT預(yù)訓(xùn)練模型，成為緊隨OpenAI的大模型玩家。2019年OpenAI推出擁有15億參數(shù)的GPT-2，英偉達(dá)發(fā)布83億參數(shù)的威震天（Megatron-LM），谷歌發(fā)布110億參數(shù)的T5讓大模型參數(shù)進(jìn)入百億級。2022年，谷歌公布的PaLM 語言大模型擁有的參數(shù)已達(dá)到驚人的5400 億。

在大模型上，谷歌有足夠強的實力，這跟一些初創(chuàng)公司或者“湊熱鬧、蹭熱點、炒股價”的大公司截然不同。既然谷歌大模型技術(shù)如此強大，為什么Gemini還要師從百度文心大模型呢？核心還是因為百度文心大模型在中文領(lǐng)域特別是中文NLP（自然語言處理）任務(wù)上有著顯著優(yōu)勢。

首先，在數(shù)據(jù)集層面，百度有大量中文標(biāo)注數(shù)據(jù)。

網(wǎng)絡(luò)上的海量數(shù)據(jù)對所有大模型玩家都是公開的，在“預(yù)訓(xùn)練”環(huán)節(jié)，只要大模型玩家不“偷懶”或者“省算力”基本可各憑本身獲取數(shù)據(jù)進(jìn)行無監(jiān)督訓(xùn)練。然而這只能讓大模型“記住”海量知識，真正決定大模型智能程度的環(huán)節(jié)在于“精調(diào)”，這一環(huán)節(jié)是離不來標(biāo)注數(shù)據(jù)的有監(jiān)督學(xué)習(xí)。

百度自2013年布局深度學(xué)習(xí)技術(shù)以來，就在積累中文標(biāo)注數(shù)據(jù)——前面提到，深度學(xué)習(xí)在2017年前重心是有監(jiān)督學(xué)習(xí)，離不開標(biāo)注數(shù)據(jù)，百度一直在布局，在全國投資建設(shè)和運營大量的數(shù)據(jù)標(biāo)注基地，其中一個在我的家鄉(xiāng)重慶奉節(jié)。在數(shù)據(jù)標(biāo)注基地，有大量的人在對數(shù)據(jù)進(jìn)行標(biāo)注，比如標(biāo)記一張圖片中的水果是蘋果。

（百度山西數(shù)據(jù)標(biāo)注基地辦公室之一）

大模型預(yù)訓(xùn)練不需要標(biāo)注數(shù)據(jù)，但精調(diào)階段則依賴標(biāo)注數(shù)據(jù)。今年8月百度智能云在�？趩舆\營國內(nèi)首個大模型數(shù)據(jù)標(biāo)注基地，當(dāng)時其透露其已在全國與各地政府合作，共建了10多個數(shù)據(jù)標(biāo)注基地，累計為當(dāng)?shù)靥峁┏^1.1萬個穩(wěn)定就業(yè)崗位，間接帶動5萬人就業(yè)。

在3月16日百度文心一言的新聞發(fā)布會上，百度就曾透露其基于對中國語言文化和中國應(yīng)用場景的理解，篩選了特定的數(shù)據(jù)來訓(xùn)練模型。

谷歌Gemini要進(jìn)行中文數(shù)據(jù)精調(diào)，沒有標(biāo)注數(shù)據(jù)也不可能投入上萬人去做標(biāo)注，用百度文心大模型的答案無疑是“捷徑”。

其次，在技術(shù)層面，百度文心大模型厚積薄發(fā)。

在中國的大模型玩家中，像百度一樣投入人力進(jìn)行中文數(shù)據(jù)標(biāo)注的還有不少。不過，大模型的能力不只是取決于數(shù)據(jù)，還依賴算法與訓(xùn)練能力。大模型不是平地起高樓，作為深度學(xué)習(xí)的全新突破，大模型讓AI技術(shù)的通用性大幅提升，成為AI從作坊式應(yīng)用邁向工業(yè)化生產(chǎn)的關(guān)鍵。未來，大模型將與深度學(xué)習(xí)一起驅(qū)動著智能經(jīng)濟(jì)的爆發(fā)。

2012 年，深度學(xué)習(xí)技術(shù)嶄露頭角，百度就已在語音、語義和 OCR 文字識別等領(lǐng)域探索深度學(xué)習(xí)技術(shù)應(yīng)用。2013年百度成立深度學(xué)習(xí)研究院，開始研發(fā)深度學(xué)習(xí)框架（飛槳PaddlePaddle前身），深耕NLP（自研語言處理）、知識圖譜、機器視覺等AI技術(shù)。

在大模型技術(shù)方興未艾的2019年，百度就已在積累AI預(yù)訓(xùn)練模型技術(shù)并上線文心大模型，當(dāng)年7月文心大模型升級至2.0，2021年12月正式發(fā)布全球首個知識增強千億大模型鵬城-百度·文心，參數(shù)規(guī)模2600億。深度學(xué)習(xí)多年的布局讓百度文心大模型可厚積薄發(fā)。百度財報顯示從2012年到2022年的十年間其在AI上已投資超過千億，自上而下構(gòu)建出覆蓋芯片、云計算平臺、飛槳深度學(xué)習(xí)平臺、大模型以及上層垂直AI技術(shù)應(yīng)用在內(nèi)的全棧AI架構(gòu)。在AI技術(shù)上多年持之以恒的投資，“文心+飛槳”這樣的CP式AI組合，讓文心大模型具備顯著技術(shù)優(yōu)勢，在中文領(lǐng)域表現(xiàn)尤為突出。

清華大學(xué)新聞與傳播學(xué)院沈陽團(tuán)隊發(fā)布的《大語言模型綜合性能評估報告》顯示，文心一言在三大維度20項指標(biāo)中綜合評分國內(nèi)第一，超越ChatGPT，其中中文語義理解排名第一，部分中文能力超越GPT-4。IDC的評測報告則顯示，文心大模型3.5在其大模型技術(shù)評估中拿下7項測試滿分（總共12個測試項目）和綜合評分第一。

最后，在應(yīng)用層面，百度文心大模型熟悉中文場景。

正如第一部分分析，大模型“監(jiān)督精調(diào)”的目的是為了更好地適應(yīng)特定任務(wù)、更好地應(yīng)用預(yù)訓(xùn)練階段掌握的知識。跟OpenAI這樣的研究型機構(gòu)不同，百度AI技術(shù)一直都是與業(yè)務(wù)互相驅(qū)動的，擁有業(yè)務(wù)場景、理解垂直產(chǎn)業(yè)、具備應(yīng)用經(jīng)驗。

就大模型而言，百度文心大模型很早就堅持“不卷參數(shù)卷落地”，2022年就已在業(yè)內(nèi)首發(fā)行業(yè)大模型，如聯(lián)合國家電網(wǎng)研發(fā)知識增強的電力行業(yè)NLP大模型國網(wǎng)-百度·文心，聯(lián)合浦發(fā)銀行研發(fā)了知識增強的金融行業(yè)NLP大模型浦發(fā)-百度·文心。

2023年，文心大模型在應(yīng)用落地上持續(xù)走在行業(yè)前列。面向C端用戶，今年8月文心一言率先對外開放體驗，上線獨立APP并于百度搜索等國民級應(yīng)用融合，極大地降低了大模型應(yīng)用的使用門檻。百度搜索、地圖、網(wǎng)盤、文庫等自有業(yè)務(wù)也已在大模型驅(qū)動下進(jìn)行升級；面向B端客戶，今年9月百度智能云發(fā)布千帆大模型平臺2.0，覆蓋互聯(lián)網(wǎng)、政務(wù)、制造、能源、金融、游戲等主流行業(yè)的400多個應(yīng)用場景。百度執(zhí)行副總裁、智能云事業(yè)群總裁沈抖在宣布啟動“云智一體”戰(zhàn)略的時候介紹道，千帆大模型平臺服務(wù)的企業(yè)客戶已超1.7萬家。年底，李彥宏提出了大模型落地到“終極解法”：AI原生應(yīng)用，其將扮演App在移動互聯(lián)網(wǎng)技術(shù)落地中的角色，推動大模型技術(shù)在千行百業(yè)落地。

從基礎(chǔ)技術(shù)水平、技術(shù)產(chǎn)品化與產(chǎn)業(yè)化進(jìn)程，以及開發(fā)者生態(tài)繁榮度來看，百度文心都堪稱國內(nèi)AI大模型的絕對領(lǐng)先者。在中文領(lǐng)域，百度文心大模型擁有數(shù)據(jù)、技術(shù)和應(yīng)用優(yōu)勢，這足以讓其成為世界大模型舞臺上的中國力量，也確實“有資格”做谷歌Gemini的老師。谷歌Gemini實力不俗，確實可以跟GPT掰手腕，然而在中文領(lǐng)域谷歌并無優(yōu)勢，畢竟其已退出中國市場10多年了。“師從”百度文心大模型，是谷歌Gemini提升在中文領(lǐng)域表現(xiàn)的最佳捷徑。

（圖源：微博）

大模型研究站在巨人肩上無可厚非

“谷歌Gemini堅稱自己是文心大模型”這樣的事情，在大模型行業(yè)不是第一次出現(xiàn)，也不會是最后一次。因為大模型研究一定要站在巨人肩上才能做得更好。

前幾天，隸屬于字節(jié)跳動公司名下的部分GPT使用權(quán)限被OpenAI全面封禁。The Verge爆料稱字節(jié)跳動正秘密研發(fā)一個被稱為“種子計劃”（Project Seed）的AI大模型項目。據(jù)稱該項目在訓(xùn)練和評估模型等多個研發(fā)階段調(diào)用了OpenAI的應(yīng)用程序接口（API），并使用ChatGPT輸出的數(shù)據(jù)進(jìn)行模型訓(xùn)練。但OpenAI的使用協(xié)議在API調(diào)用和對輸出內(nèi)容的使用方面已明確規(guī)定：禁止用于輸出開發(fā)競爭模型。

11月，李開復(fù)創(chuàng)辦的零一萬物也曾因“套殼事件”而鬧得沸沸揚揚。事情源起是一位國外開發(fā)者在Hugging Face開源主頁上評論稱，零一萬物的開源大模型Yi-34B，完全使用Meta研發(fā)的LIama開源模型架構(gòu)，而只對兩個張量(Tensor）名稱進(jìn)行修改。對此零一萬物的解釋是：

“GPT是一個業(yè)內(nèi)公認(rèn)的成熟架構(gòu)，Llama在GPT上做了總結(jié)。零一萬物研發(fā)大模型的結(jié)構(gòu)設(shè)計基于GPT成熟結(jié)構(gòu)，借鑒了行業(yè)頂尖水平的公開成果，由于大模型技術(shù)發(fā)展還在非常初期，與行業(yè)主流保持一致的結(jié)構(gòu)，更有利于整體的適配與未來的迭代。同時基于零一萬物團(tuán)隊對模型和訓(xùn)練的理解做了大量工作，也在持續(xù)探索模型結(jié)構(gòu)層面本質(zhì)上的突破。”

飛槳作為底座支持了文心大模型的訓(xùn)練、推理與部署。在萬卡算力上運行的飛槳平臺，通過集群基礎(chǔ)設(shè)施和調(diào)度系統(tǒng)、飛槳框架的軟硬協(xié)同優(yōu)化，支持了大模型的穩(wěn)定高效訓(xùn)練。正是通過飛槳與文心的協(xié)同優(yōu)化，文心大模型周均訓(xùn)練有效率超過98%，訓(xùn)練算法效率提升到3月發(fā)布時的3.6倍，推理性能提升50倍。如果沒有百度在深度學(xué)習(xí)技術(shù)上的多年積累，文心大模型不可能在短短三年時間取得如此耀眼的成就。

基于市面上的頂尖大模型以及AI技術(shù)成果進(jìn)行創(chuàng)新研發(fā)，似乎已成行業(yè)慣例。一方面，市面上不少頂尖大模型是開源的，就算不開源結(jié)果被扒走也不難，這給后來者“借鑒”提供了便利；另一方面，大模型技術(shù)的本質(zhì)就是讓機器擁有并應(yīng)用知識的過程，而知識與經(jīng)驗是可以傳承的，就像人類一直在基于前人的知識、智慧、經(jīng)驗向前一樣，大模型開發(fā)者基于領(lǐng)先的大模型再創(chuàng)新，比一切從0開始更有機會做出更智能的大模型。

“如果說我比別人看得略遠(yuǎn)些，那是因為我站在巨人的肩膀上。”這句話是偉大科學(xué)家牛頓說的。1686年，牛頓將專著《自然哲學(xué)的數(shù)學(xué)原理》交給皇家學(xué)會審議，在這次會議上，牛頓的學(xué)術(shù)前輩胡克提出引力反比定律這一公式是自己告訴牛頓的，牛頓應(yīng)該在專著的前言指出自己的貢獻(xiàn)。不過，這次會議牛頓并未參加，后來牛頓也沒有同意胡克的要求，在他看來，自己1666年就發(fā)現(xiàn)了引力的平方反比定律且寫信告訴了他人，因此自己才是這一定律的發(fā)現(xiàn)者。后來牛頓發(fā)了一封公開信說了這句話，意思是他的成就是在總結(jié)之前很多偉大科學(xué)家的杰出成果上形成的，沒有那些科學(xué)家所做的學(xué)術(shù)積累，他是不會成功的，所以他說自己是站在巨人的肩膀上。

今天的大模型“套殼”爭議跟牛頓當(dāng)年面臨的情況有些類似：大模型研究都難免會以各種方式對市面上的頂尖成果進(jìn)行借鑒，比如輸出結(jié)果，訓(xùn)練方法，數(shù)據(jù)集、技術(shù)架構(gòu)甚至算法代碼。不過，只要大模型研究者遵守使用協(xié)議，“站在巨人肩上”也就無可厚非。

話說回來，谷歌Gemini師從文心大模型也足以表明，在大模型技術(shù)上，我們國家還是有能跟國際巨頭掰手腕的玩家的，這足以扭轉(zhuǎn)很多人對中國大模型只有跟隨者的刻板印象。至少在中文領(lǐng)域，我們國家是有世界頂尖的大模型玩家的。長期來看，大模型作為AI關(guān)鍵技術(shù)關(guān)系到國家核心競爭力，影響經(jīng)濟(jì)、文化、社會、科技、軍事等方方面面，在可見的未來將是大國角力的一大技術(shù)高地。百度文心大模型以及底層的飛槳深度學(xué)習(xí)平臺，是自主自研的“純血”版本，可確保我國大模型以及AI技術(shù)自立自強，在新一輪AI技術(shù)競爭中擁有足夠的話語權(quán)。

原文標(biāo)題 : 谷歌Gemini自爆“我是文心”，大模型研發(fā)要“站在巨人肩上”？