訂閱
糾錯
加入自媒體

蘋果研究員質疑大模型!我們測試了6款,發(fā)現(xiàn)了4大真相

2024-10-14 16:00
雷科技
關注

汽車業(yè)務失利后,蘋果決定加碼生成式AI,并將部分汽車部門的員工調到了AI部門。然而對待AI,蘋果似乎不如百度、訊飛、OpenAI、xAI等國內外企業(yè)那么自信。

日前,蘋果研究員發(fā)布了一篇名為《理解大語言模型中數(shù)學推理局限性 》的論文,質疑大語言模型的數(shù)學推理能力,甚至認為大語言模型不具備真正的推理能力。

蘋果研究員在論文中舉了一個簡單的例子,向大模型提出問題“奧利弗周五摘了44個奇異果,周六摘了58個奇異果。周日,他摘的奇異果是周五的兩倍。奧利弗一共摘了多少個奇異果?”此時大語言模型都能正確計算出答案。

公交車同時到站時間 (1).jpeg

(圖源:豆包AI生成)

但當研究人員為問題增添了一句修飾語“周日,他摘的奇異果是周五的兩倍,其中5個比平均小”時,部分大模型就給出了錯誤的答案,傾向于減掉這五個比較小的奇異果。

在大語言模型的使用過程中,小雷也遇到過大模型“抽風”的情況,某個大語言模型甚至連最基礎的乘法都能算錯。不過大語言模型一直在向前發(fā)展,許多曾經(jīng)常犯的錯誤,都已被新技術解決。

蘋果研究員吐槽大語言模型數(shù)學推理能力不行,究竟是情況屬實,還是為自家AI技術落后找借口?實測過后,我們有了結論。

哪些大語言模型能回答蘋果的問題?

本次大語言模型對比評測,小雷選擇了全球名氣較高的六款產(chǎn)品,包括:1、GPT-4o;2、訊飛星火大模型;3、豆包;4、Kimi;5、文心3.5五款大模型;6、GPT-4o mini。由于文心大模型4.0收費,其他大語言模型則免費(GPT-4o每日有免費提問次數(shù)),因此為了公平起見,小雷選擇了免費的文心大模型3.5。

閑話不多說,我們直接進入測試階段。

一、奇異果問題:文心完敗

第一輪測試的問題,我們選擇了蘋果研究員提到的奇異果問題(正確答案:190個)。站在人類的視角,奇異果的大小并不影響計算數(shù)量,但在大語言模型的視角中,情況卻發(fā)生了變化。

本輪測試中,五款大語言模型有四款通過了考驗,其中豆包和Kimi特地提醒,奇異果的大小并不影響計算總數(shù)。GPT-4o雖然也正確計算出了總數(shù),但可能是因為“平均”兩個字的翻譯問題,還求出了三天平均每天摘取奇異果的數(shù)量。唯一沒有得出正確答案的大模型是文心大模型3.5,將五個體型小的奇異果排除,得到了摘取185個奇異果的錯誤答案。

 

第一輪 GPT.png

(圖源:GPT截圖)

第一輪 訊飛星火.png

(圖源:訊飛星火截圖)

第一輪 豆包.png

(圖源:豆包截圖)

第一輪 Kimi.png

(圖源:Kimi截圖)

第一輪 文心.png

(圖源:文心一言截圖)

蘋果研究員的論文,提到了GPT-4o mini計算該問題時出錯,切換至該模型后,小雷又計算了一遍這道題,果不其然,GPT-4o mini也給出了錯誤答案。

第一輪 GTP4o mini.png

(圖源:GPT-4o mini截圖)

難道大語言模型計算數(shù)學題的準確性,與其參數(shù)量呈正相關?GPT-4o mini屬于小模型,更追求低成本和快速響應,參數(shù)量遠不能與GPT-4o相比,在推理數(shù)學問題時,參數(shù)量的差距導致GPT-4o與GPT-4o mini計算結果不同

文心大模型同樣如此,盡管沒有官方數(shù)據(jù),但4.0版本的推理成本相較于3.5版本預計提高了8-10倍,3.5版的參數(shù)量之小可想而知。

二、公交車問題:文心完勝

本輪測試的題目是一道行測數(shù)學題,具體內容為:

由于國慶節(jié)的到來,某旅游城市的游客數(shù)量大幅上漲,公交公司決定簡化公交車的線路,縮短單程時間,F(xiàn)有1、2、3路公交車,于上午7點同時從車站發(fā)車,三輛公交車再次回到車站所用時間分別為30分鐘、45分鐘、60分鐘。這三輛公交車中間不休息,請問第二次它們同時到達車站將是幾點?(正確答案:13點)

這輪測試所得出的結果,讓小雷驚掉了下巴。在測試中,小雷連續(xù)測試四款大模型,結果全部計算錯誤,當時唯一沒有出錯的大語言模型就是文心3.5。

鑒于文心3.5在第一輪的表現(xiàn),小雷沒有對文心3.5抱有任何期待,但我不看好它的時候,文心3.5偏偏就爭氣了,并成為唯一解出正確答案的大語言模型。后續(xù)小模型GPT-4o mini在測試中,也沒能給出正確答案。

第二輪GPT.png

(圖源:GPT截圖)

第二輪星火.png

(圖源:訊飛星火截圖)

第二輪 豆包.png

(圖源:豆包截圖)

第二輪 Kimi.png

(圖源:Kimi截圖)

第二輪 文心.png

(圖源:文心一言截圖)

第二輪GPT-4o mini.png

(圖源:GPT-4o mini截圖)

思來想去,小雷認為唯一的解釋就是,百度作為國內首屈一指的搜索引擎,對于中國人的語言與思維習慣更加了解,因而才能準確理解“到達”這個詞的含義。其他大模型都將始發(fā)?吭谄囌井斪龅谝淮蔚竭_車站,未能正確理解“到達”的含義。

相較于數(shù)學,本題對于中文理解能力的考驗可能更高,但這幾款大語言模型的表現(xiàn)也從側面說明,AI大模型對于人類邏輯的理解能力有待提升?紤]到文心3.5的獲勝證明實力的同時,也有取巧的可能,因此小通還準備了地獄級難度的第三輪測試。

三、運動員問題:免費版團滅,付費版正確

第三道題同樣是一道行測數(shù)學題,但與以上問題不同的是,這道題沒有任何干擾信息,純粹考驗大語言模型的計算能力。題目為:

某班有39名同學參加短跑、跳遠、投擲三項體育比賽,人數(shù)分別為23人、18人、21人,其中三項比賽全部參加的有5人,僅參加跳遠的有3人,僅參加投擲的有9人,請問僅參加短跑的有多少人?(正確答案:9人)

遺憾的是,五款大模型與一款小模型在本輪測試中全部失敗,而且大語言模型給出的答案各不相同,解題思路也存在許多問題。

第三輪 GPT.png

(圖源:GPT截圖)

第三輪訊飛星火.png

(圖源:訊飛星火截圖)

第三輪 豆包.png

(圖源:豆包截圖)

第三輪 Kimi.png

(圖源:Kimi截圖)

第三輪 百度.png

(圖源:文心一言截圖)

第三輪 GPT mini.png

(圖源:GPT-4o mini截圖

最后,小雷只好使用付費版的OpenAI o1-preview大模型進行計算,結果不負眾望,給出了正確答案。

WPS拼圖0.png

(圖源:GPT-4o o1-preview截圖)

同樣是OpenAI旗下的大模型,免費版GPT-4o和付費版o1-preview得出了不同答案,原因可能在于免費用戶所能調用的資源更少,導致大模型計算能力不如付費版。

參數(shù)決定性能,付費升級體驗

以上參與三輪測試的五款大模型和一款小模型中,表現(xiàn)最差的無疑是小模型GPT-4o mini,三輪測試中均給出了錯誤答案。

我們可以得出以下結論:

1、小模型只配做大模型的平替?

GPT-4o mini的表現(xiàn)證明,當需要處理難度較高的推理問題時,小模型參數(shù)量少、資源少更容易出錯。盡管百度、OpenAI、谷歌、微軟等企業(yè)都致力于研究小模型,但它們可能只是日常使用時回答基礎問題“勉強能用”的平替版,畢竟成本可以大幅降低,這就跟企業(yè)雇傭一個小學生和一個博士生一樣,智力是一分錢一分貨。

據(jù)研究機構Epoch AI計算,訓練尖端大模型所需的算力,每隔6-10個月就會翻一倍。龐大的算力需求,給AI公司帶來了極高的經(jīng)濟壓力,哪怕是谷歌、微軟這種行業(yè)巨頭,也會倍感吃力。正因如此,小模型現(xiàn)階段雖表現(xiàn)遜色于大模型,但AI公司不會放棄開發(fā)小模型,而是會通過長時間的調校與打磨,不斷提升小模型的能力。

微信圖片_20241012172716(1).png

(圖源:豆包AI生成)

2、要得到相對更智能的AI服務?給錢吧。

幾款大模型的免費版表現(xiàn)相差不大,能夠解決一些存在干擾條件的數(shù)學問題,但遇到了文字可能存在歧義,或過于復雜的數(shù)學問題,表現(xiàn)則相對較差。好在,面對雷科技設定的地獄級難題,付費版的o1-preview大模型最終給出了正確答案,為大語言模型挽回了顏面,唯有付費用戶才能體驗到最好的大模型。

3、本土大模型有本土優(yōu)勢,百度們穩(wěn)了。

結合文心3.5能夠在第二項測試中力壓群雄可知,大語言模型依賴大量數(shù)據(jù)運算,但每個國家或地區(qū)的數(shù)據(jù)量和獲取難易程度不同,因語言和生活習慣的差異,綜合表現(xiàn)更出色的大模型,未必能在特定場景中獲勝,大語言模型也需要本地化適配。

4、大模型距離人類智能還很遠,不要輕信“忽悠”。

在資本驅動下,很多媒體、自媒體、創(chuàng)業(yè)公司甚至企業(yè)家大佬都在鼓吹“AI威脅論”,甚至豪言AI水平已超越人類,他們往往會用一些個案來證明AI大模型已具備博士生甚至超越博士生水平。然而,當我們找一些常見的數(shù)學題,抑或是一些常見的工作任務來“考考”大模型時,大模型也很容易被難住。

大模型以及AI當然會有許多安全威脅,比如自動駕駛汽車失控給城市交通乃至人類生命安全帶來的威脅。但要說AI智力可以逼近人類甚至取代人類,那就純屬忽悠了。

大模型可能確實被高估了,但蘋果掉隊是事實

綜合來看,蘋果研究員的觀點對錯參半,當前AI的邏輯推理能力不足,面對復雜的數(shù)學問題時,顯得有些力不從心,但AI并非完全沒有邏輯推理能力。哪怕是相對而言版本較為落后的文心3.5,在第二輪測試中也展現(xiàn)出了對文字和數(shù)學的解讀與推理能力。

第一代GPT發(fā)布于2018年,僅有1.17億參數(shù),到了2020年,GPT-3已擁有1750億參數(shù),到如今GPT的歷史不過短短6年,每一代的體驗提升肉眼可見。

當前大語言模型最大的問題依然在于參數(shù)量太少、算力太低,資源相對豐富的o1-preview,面對其他大模型束手無策的數(shù)學難題時,依然給出了正確答案。隨著大模型不斷優(yōu)化、參數(shù)量增加、算力提升,大語言模型的推理能力自然會水漲船高。

進軍新能源汽車時,蘋果血虧百億美元最終放棄,如今進入生成式AI領域,蘋果研究員又站出來貶低大語言模型,不禁令人懷疑蘋果的生成式AI項目進展不順利。對于蘋果而言,與其貶低其他AI大模型,不如增加AI研發(fā)投入,加速布局生成式AI,畢竟AI的燒錢能力更甚于新能源汽車。

若失去了研發(fā)和布局生成式AI最好的機會,等到OpenAI、谷歌、微軟、xAI等企業(yè)的AI大模型瓜分了海外市場,百度、訊飛、阿里巴巴、抖音等企業(yè)的AI大模型占領了國內市場,蘋果生成式AI業(yè)務有可能淪為與新能源汽車業(yè)務相同的結局。

本文圖片來自:123RF 正版圖庫       來源:雷科技

       原文標題 : 蘋果研究員質疑大模型!我們測試了6款,發(fā)現(xiàn)了4大真相

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內容
文章糾錯
x
*文字標題:
*糾錯內容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號