訂閱
糾錯(cuò)
加入自媒體

ChatGPT笨了,還是老了?

 

“過(guò)去的表現(xiàn)并不能保證將來(lái)的結(jié)果。”這是大多數(shù)金融理財(cái)模型的小字。

在產(chǎn)品業(yè)務(wù)內(nèi)部,這被稱之為模型漂移、衰退或過(guò)時(shí)。事情會(huì)發(fā)生變化,模型性能會(huì)隨著時(shí)間的推移而下降。最終的衡量標(biāo)準(zhǔn)是模型質(zhì)量指標(biāo),可以是準(zhǔn)確率、平均錯(cuò)誤率,也可以是一些下游業(yè)務(wù)的KPI,比如點(diǎn)擊率。

沒(méi)有任何模型可以永遠(yuǎn)有效,但衰退的速度各不相同。‍有些產(chǎn)品可以使用多年而無(wú)需更新,例如某些計(jì)算機(jī)視覺(jué)或語(yǔ)言模型,或者是在隔離、穩(wěn)定環(huán)境中的任何決策系統(tǒng),比如常見的實(shí)驗(yàn)條件下。

想要保證模型精度,就需要每天對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練,這是機(jī)器學(xué)習(xí)模型的范式缺陷,也使得人工智能部署,不能像軟件部署一樣可以一勞永逸。后者被創(chuàng)造了幾十年,目前最先進(jìn)的AI產(chǎn)品,依然使用著早年的軟件技術(shù)。只要仍然有用,即時(shí)技術(shù)已經(jīng)過(guò)時(shí),它們依然可以長(zhǎng)存于每一個(gè)字節(jié)中。

不過(guò)被稱為人工智能最前沿的產(chǎn)品,以ChatGPT為代表的大模型,在遭遇人氣衰減后,迎來(lái)是否正在過(guò)時(shí)和衰老的質(zhì)疑。

無(wú)風(fēng)不起浪。用戶在ChatGPT上花費(fèi)的時(shí)間越來(lái)越少,從3月份的8.7分鐘降至8月份的7分鐘。側(cè)面反映出,當(dāng)大模型工具的供給側(cè)迅猛增長(zhǎng),僅僅只是生產(chǎn)力工具的ChatGPT似乎并不足以成為主流使用人群Z世代的心頭好。

一時(shí)的人氣不足以動(dòng)搖致力于成為AI時(shí)代應(yīng)用商店的OpenAI霸主地位。更核心的問(wèn)題是,ChatGPT生產(chǎn)力的老化,才是不少老用戶信任度下降的主因。自5月份開始,OpenAI論壇里討論GPT-4性能不如以前的帖子,就一直在發(fā)酵。

那么ChatGPT過(guò)時(shí)了嗎?以ChatGPT為代表的大模型會(huì)像過(guò)去的機(jī)器學(xué)習(xí)模型一樣衰老嗎?不理解這些問(wèn)題,就不能在層出不窮的大模型熱潮之下,找到人與機(jī)器的可持續(xù)發(fā)展之道。

ChatGPT過(guò)時(shí)了嗎?

來(lái)自Salesforce AI軟件服務(wù)商最新的一份數(shù)據(jù)顯示,有67%的大模型使用者是Z世代或者千禧一代;很少使用生成AI或在這方面落伍的人群中,68%以上的人是X一代或嬰兒潮一代。

代際差異說(shuō)明Z世代正在成為擁抱大模型的主流人群。Salesforce產(chǎn)品營(yíng)銷人員Kelly Eliyahu表示:“Z世代實(shí)際上是AI一代,他們構(gòu)成了超級(jí)用戶群體。70%的Z世代正在使用生成式AI,至少有一半的人每周或更長(zhǎng)時(shí)間使用它。”

不過(guò)作為大模型產(chǎn)品的領(lǐng)軍者,ChatGPT在Z世代人群中的表現(xiàn)并不出色。 

 

根據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Similarweb 7月份的數(shù)據(jù)顯示,ChatGPT在Z世代人群中的使用占比為27%,低于4月份的30%。作為對(duì)比,另外一款可以讓用戶自己設(shè)計(jì)人工智能角色的大模型產(chǎn)品,Character.ai在18-24歲年齡段的人群中滲透率為60%。

得益于Z世代的追捧,Character.ai的iOS和Android應(yīng)用程序目前在美國(guó)的月活躍用戶數(shù)為420萬(wàn),距離移動(dòng)端ChatGPT的600萬(wàn)月活,日益接近。

和ChatGPT的對(duì)話式AI不一樣,Character.AI在此基礎(chǔ)上加入個(gè)性化、UGC兩大核心功能,使其有了比前者更豐富的使用場(chǎng)景。

一方面,用戶可以根據(jù)個(gè)人需求自定義AI角色,滿足Z世代個(gè)性化定制的需求。同時(shí)這些用戶自主創(chuàng)建的AI角色,也可以被平臺(tái)所有用戶使用,構(gòu)建AI社區(qū)氛圍。比如此前在社交媒體平臺(tái)傳播出圈的蘇格拉底、God等虛擬人物,以及官方自主創(chuàng)建的馬斯克等商業(yè)名人的AI形象。

另一方面,個(gè)性化的深度定制+群聊功能,也使得用戶對(duì)于平臺(tái)產(chǎn)生情感智能依賴。很多社交媒體平臺(tái)的用戶公開評(píng)價(jià)顯示,因?yàn)榱奶祗w驗(yàn)過(guò)于逼真,就像“自己創(chuàng)作的角色擁有生命,就像在與真人交談”,“是迄今為止最接近假想朋友、守護(hù)天使的東西”。

可能是來(lái)自Character.AI的壓力,2023年8月16日OpenAI在官網(wǎng)發(fā)布了一則簡(jiǎn)短聲明,宣布收購(gòu)美國(guó)初創(chuàng)企業(yè)Global Illumination,并將整個(gè)團(tuán)隊(duì)納入麾下。這家僅有兩年歷史八位員工的小公司,主營(yíng)業(yè)務(wù)是利用人工智能創(chuàng)建巧妙工具、數(shù)字基建和數(shù)字體驗(yàn)。

收購(gòu)行為的背后,很可能意味著OpenAI將致力以豐富的方式,改善目前的大模型數(shù)字體驗(yàn)。

人工智能的衰老化

ChatGPT在大模型數(shù)字體驗(yàn)層面的老化,影響了其殺時(shí)間的效果。作為生產(chǎn)力工具,其生成結(jié)果準(zhǔn)確性的飄忽不定,也正在影響其用戶黏性。

此前根據(jù)Salesforce的調(diào)查顯示,有近六成的大模型使用者認(rèn)為,他們正在通過(guò)累計(jì)時(shí)間的訓(xùn)練掌握這項(xiàng)技術(shù)。不過(guò)目前這種技術(shù)的掌握,正在隨著時(shí)間的遷移發(fā)生變化。 

 

早在5月份,就有大模型老用戶在OpenAI論壇上開始抱怨GPT-4,“在以前表現(xiàn)良好的事物上表現(xiàn)出困難”。據(jù)《Business Insider》7月份報(bào)道稱,很多老用戶將GPT-4與其以前的推理能力和其他輸出相比,形容為“懶惰”和“愚笨”。

由于官方并未對(duì)此作出回應(yīng),人們開始對(duì)GPT-4性能下降的原因進(jìn)行推測(cè),會(huì)不會(huì)是因?yàn)榇饲癘penAI的現(xiàn)金流問(wèn)題?主流猜測(cè)集中在成本優(yōu)化導(dǎo)致的性能下降方面。一些研究者稱,OpenAI可能在API后面使用了規(guī)模較小的模型,以降低運(yùn)行ChatGPT的成本。

不過(guò)這個(gè)可能性隨后被OpenAI的產(chǎn)品副總裁Peter Welinder否認(rèn)。他在社交媒體上表示:“我們沒(méi)有讓GPT-4變得更笨,目前的一個(gè)假設(shè)是,當(dāng)你更加頻繁地使用它時(shí),會(huì)開始注意到之前沒(méi)有注意到的問(wèn)題。”

更多的人、更長(zhǎng)時(shí)間的使用,暴露了ChatGPT的局限性。對(duì)于這種假設(shè),研究者試圖通過(guò)更嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)呈現(xiàn)“ChatGPT性能和時(shí)間關(guān)系的變化”。 

來(lái)自斯坦福大學(xué)和加州大學(xué)伯克利分校在7月份提交的一篇題為《How is ChatGPT's behavior changing over time?》的研究論文顯示:同一個(gè)版本的大模型,確實(shí)可以在相對(duì)較短的時(shí)間內(nèi)發(fā)生巨大變化。

從3月份到6月份,研究者測(cè)試了GPT-3.5和GPT-4兩個(gè)版本,采集了四個(gè)常見的基準(zhǔn)任務(wù)數(shù)學(xué)問(wèn)題、回答敏感問(wèn)題、代碼生成和視覺(jué)推理的生成結(jié)果,并進(jìn)行評(píng)估。結(jié)果顯示,無(wú)論是GPT-3.5還是GPT-4,二者的性能和生成結(jié)果,都有可能隨時(shí)間而變化。

數(shù)學(xué)能力方面,GPT-4(2023年3月)在識(shí)別質(zhì)數(shù)與合數(shù)方面表現(xiàn)得相當(dāng)不錯(cuò)(84%準(zhǔn)確率),但是GPT-4(2023年6月)在相同問(wèn)題上的表現(xiàn)不佳(51%準(zhǔn)確率)。有趣的是,CPT-3.5在這個(gè)任務(wù)上6月份的表現(xiàn)要比3月份好得多。

不過(guò)在敏感問(wèn)題方面,GPT-4在6月份回答敏感性問(wèn)題的意愿較3月份下降;代碼能力方面,GPT-4和GPT-3.5,都在6月份表現(xiàn)出比3月份更多的錯(cuò)誤。研究者認(rèn)為,雖然ChatGPT的性能和時(shí)間沒(méi)有明顯的線性關(guān)系,但是準(zhǔn)確性確實(shí)會(huì)飄忽不定。 

 

這不僅是ChatGPT自己的問(wèn)題,也是此前所有AI模型的通病。根據(jù)麻省理工學(xué)院、哈佛大學(xué)、蒙特雷大學(xué)和劍橋大學(xué)2022年的一項(xiàng)研究表明,91%的機(jī)器學(xué)習(xí)模型都會(huì)隨著時(shí)間的推移而退化,研究者將這種現(xiàn)象稱為“人工智能老化”。

例如,Google Health曾經(jīng)開發(fā)了一種深度學(xué)習(xí)模型,可以通過(guò)患者的眼睛掃描來(lái)檢測(cè)視網(wǎng)膜疾病。該模型在訓(xùn)練階段的準(zhǔn)確率達(dá)到90%,但在現(xiàn)實(shí)生活中卻無(wú)法提供準(zhǔn)確的結(jié)果。主要是因?yàn)樵趯?shí)驗(yàn)室,采用高質(zhì)量的訓(xùn)練數(shù)據(jù),但是現(xiàn)實(shí)世界的眼睛掃描質(zhì)量較低。

受制于機(jī)器學(xué)習(xí)模型老化的情況,過(guò)去走出實(shí)驗(yàn)室的AI技術(shù),以單一的語(yǔ)音識(shí)別技術(shù)為主,智能音箱等產(chǎn)品因此最先普及。根據(jù)美國(guó)人口普查局2018年對(duì)58.3萬(wàn)家美國(guó)公司的調(diào)查,只有2.8%使用機(jī)器學(xué)習(xí)模型來(lái)為其運(yùn)營(yíng)帶來(lái)優(yōu)勢(shì)。

不過(guò)伴隨著大模型智能涌現(xiàn)能力的突破,機(jī)器學(xué)習(xí)模型的老化速度明顯減弱,逐漸走出實(shí)驗(yàn)室面向更廣泛的受眾。不過(guò),涌現(xiàn)能力的黑盒下仍有不可預(yù)測(cè)性,讓不少人對(duì)于ChatGPT能否長(zhǎng)期保持AI性能的不斷提升提出質(zhì)疑。

黑盒下的抗衰老性

人工智能老化的本質(zhì),其實(shí)是機(jī)器學(xué)習(xí)模型的范式缺陷。

過(guò)往,機(jī)器學(xué)習(xí)模型是按照具體任務(wù)和具體數(shù)據(jù)的對(duì)應(yīng)關(guān)系進(jìn)行訓(xùn)練。通過(guò)大量的例子,先教給模型,那個(gè)領(lǐng)域中什么是好,什么是壞,再調(diào)節(jié)一下模型的權(quán)重,從而輸出恰當(dāng)?shù)慕Y(jié)果。這種思路下,每做一些新的事情,或者數(shù)據(jù)分布有明顯變化,都要重新訓(xùn)練一遍模型。

新事情和新數(shù)據(jù)無(wú)窮無(wú)盡,模型就只能刷新。但是模型的刷新也會(huì)導(dǎo)致過(guò)去做得好的事情突然做不好了,進(jìn)一步限制應(yīng)用?偨Y(jié)來(lái)看,傳統(tǒng)的機(jī)器學(xué)習(xí)模型中,數(shù)據(jù)飛輪本質(zhì)是為了迭代模型,用新模型解決新問(wèn)題的范式。

不過(guò)以ChatGPT為代表的大模型,涌現(xiàn)出自主學(xué)習(xí)能力,突破了這種范式。過(guò)往的機(jī)器學(xué)習(xí),是先“吃”數(shù)據(jù),之后“模仿”,基于的是對(duì)應(yīng)關(guān)系;ChatGPT類的大模型,是“教”數(shù)據(jù),之后“理解”,基于的是“內(nèi)在邏輯”。

這種情況下,大模型本身不發(fā)生變化,理論上可以永葆青春。不過(guò)也有從業(yè)人士表示,正如大模型的智能涌現(xiàn)一樣,是非線性發(fā)展、不可預(yù)測(cè)的,是突然就有的。對(duì)于大模型是否會(huì)隨著時(shí)間發(fā)生衰老,涌現(xiàn)出難以預(yù)測(cè)的不可確定性也是未知的。

換句話說(shuō),ChatGPT在涌現(xiàn)出難以理論化推導(dǎo)的智能性能后,也開始涌現(xiàn)出難以預(yù)測(cè)的不可確定性。

對(duì)于“涌現(xiàn)”的黑盒性,9月6日在百川智能Baichuan2開源大模型發(fā)布會(huì)上,中國(guó)科學(xué)院院士、清華大學(xué)人工智能研究院名譽(yù)院長(zhǎng)張鈸表示:“到現(xiàn)在為止,全世界對(duì)大模型的理論工作原理、所產(chǎn)生的現(xiàn)象都是一頭霧水,所有的結(jié)論都推導(dǎo)產(chǎn)生了涌現(xiàn)現(xiàn)象。所謂涌現(xiàn)就是給自己一個(gè)退路,解釋不清楚的情況下就說(shuō)它是涌現(xiàn)。實(shí)際上反映了我們對(duì)它一點(diǎn)不清楚。”

在其看來(lái),大模型為什么會(huì)產(chǎn)生幻覺(jué)這個(gè)問(wèn)題,涉及到ChatGPT跟人類自然語(yǔ)言生成原理的不一樣。最根本的區(qū)別在于,ChatGPT生成的語(yǔ)言是外部驅(qū)動(dòng)的,而人類的語(yǔ)言是在自己意圖的情況下驅(qū)動(dòng)的,所以ChatGPT內(nèi)容的正確性和合理性不能保證。

在經(jīng)歷過(guò)一系列概念炒作跟風(fēng)上車之后,對(duì)于致力于開發(fā)生產(chǎn)力基礎(chǔ)模型的人來(lái)說(shuō),面臨的挑戰(zhàn)將是如何確保其產(chǎn)品持續(xù)輸出結(jié)果的可靠性和準(zhǔn)確性。

不過(guò)對(duì)于大模型相關(guān)的娛樂(lè)產(chǎn)品而言,正如Character.AI 聯(lián)合創(chuàng)始人Noam Shazeer在《紐約時(shí)報(bào)》上所說(shuō):“這些系統(tǒng)并不是為真相而設(shè)計(jì)的。它們是為合理的對(duì)話而設(shè)計(jì)的。”換句話說(shuō),它們是自信的廢話藝術(shù)家。大模型的巨浪已然開始分流。

參考資料:

Gizmodo-Is ChatGPT Getting Worse?

TechCrunch-AlappCharacter.aiiscatchinguptoChatGPTintheUS

Machine Learning Monitoring- Why You Should Care About Data and Concept Drift

M小姐沿習(xí)錄-關(guān)于ChatGPT的五個(gè)最重要問(wèn)題

清華大學(xué)人工智能國(guó)際治理研究院-對(duì)大模型的研究很迫切,不能解釋不清楚就說(shuō)“涌現(xiàn)” 

“過(guò)去的表現(xiàn)并不能保證將來(lái)的結(jié)果。”這是大多數(shù)金融理財(cái)模型的小字。

在產(chǎn)品業(yè)務(wù)內(nèi)部,這被稱之為模型漂移、衰退或過(guò)時(shí)。事情會(huì)發(fā)生變化,模型性能會(huì)隨著時(shí)間的推移而下降。最終的衡量標(biāo)準(zhǔn)是模型質(zhì)量指標(biāo),可以是準(zhǔn)確率、平均錯(cuò)誤率,也可以是一些下游業(yè)務(wù)的KPI,比如點(diǎn)擊率。

沒(méi)有任何模型可以永遠(yuǎn)有效,但衰退的速度各不相同。‍有些產(chǎn)品可以使用多年而無(wú)需更新,例如某些計(jì)算機(jī)視覺(jué)或語(yǔ)言模型,或者是在隔離、穩(wěn)定環(huán)境中的任何決策系統(tǒng),比如常見的實(shí)驗(yàn)條件下。

想要保證模型精度,就需要每天對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練,這是機(jī)器學(xué)習(xí)模型的范式缺陷,也使得人工智能部署,不能像軟件部署一樣可以一勞永逸。后者被創(chuàng)造了幾十年,目前最先進(jìn)的AI產(chǎn)品,依然使用著早年的軟件技術(shù)。只要仍然有用,即時(shí)技術(shù)已經(jīng)過(guò)時(shí),它們依然可以長(zhǎng)存于每一個(gè)字節(jié)中。

不過(guò)被稱為人工智能最前沿的產(chǎn)品,以ChatGPT為代表的大模型,在遭遇人氣衰減后,迎來(lái)是否正在過(guò)時(shí)和衰老的質(zhì)疑。

無(wú)風(fēng)不起浪。用戶在ChatGPT上花費(fèi)的時(shí)間越來(lái)越少,從3月份的8.7分鐘降至8月份的7分鐘。側(cè)面反映出,當(dāng)大模型工具的供給側(cè)迅猛增長(zhǎng),僅僅只是生產(chǎn)力工具的ChatGPT似乎并不足以成為主流使用人群Z世代的心頭好。

一時(shí)的人氣不足以動(dòng)搖致力于成為AI時(shí)代應(yīng)用商店的OpenAI霸主地位。更核心的問(wèn)題是,ChatGPT生產(chǎn)力的老化,才是不少老用戶信任度下降的主因。自5月份開始,OpenAI論壇里討論GPT-4性能不如以前的帖子,就一直在發(fā)酵。

那么ChatGPT過(guò)時(shí)了嗎?以ChatGPT為代表的大模型會(huì)像過(guò)去的機(jī)器學(xué)習(xí)模型一樣衰老嗎?不理解這些問(wèn)題,就不能在層出不窮的大模型熱潮之下,找到人與機(jī)器的可持續(xù)發(fā)展之道。

ChatGPT過(guò)時(shí)了嗎?

來(lái)自Salesforce AI軟件服務(wù)商最新的一份數(shù)據(jù)顯示,有67%的大模型使用者是Z世代或者千禧一代;很少使用生成AI或在這方面落伍的人群中,68%以上的人是X一代或嬰兒潮一代。

代際差異說(shuō)明Z世代正在成為擁抱大模型的主流人群。Salesforce產(chǎn)品營(yíng)銷人員Kelly Eliyahu表示:“Z世代實(shí)際上是AI一代,他們構(gòu)成了超級(jí)用戶群體。70%的Z世代正在使用生成式AI,至少有一半的人每周或更長(zhǎng)時(shí)間使用它。”

不過(guò)作為大模型產(chǎn)品的領(lǐng)軍者,ChatGPT在Z世代人群中的表現(xiàn)并不出色。 

 

根據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Similarweb 7月份的數(shù)據(jù)顯示,ChatGPT在Z世代人群中的使用占比為27%,低于4月份的30%。作為對(duì)比,另外一款可以讓用戶自己設(shè)計(jì)人工智能角色的大模型產(chǎn)品,Character.ai在18-24歲年齡段的人群中滲透率為60%。

得益于Z世代的追捧,Character.ai的iOS和Android應(yīng)用程序目前在美國(guó)的月活躍用戶數(shù)為420萬(wàn),距離移動(dòng)端ChatGPT的600萬(wàn)月活,日益接近。

和ChatGPT的對(duì)話式AI不一樣,Character.AI在此基礎(chǔ)上加入個(gè)性化、UGC兩大核心功能,使其有了比前者更豐富的使用場(chǎng)景。

一方面,用戶可以根據(jù)個(gè)人需求自定義AI角色,滿足Z世代個(gè)性化定制的需求。同時(shí)這些用戶自主創(chuàng)建的AI角色,也可以被平臺(tái)所有用戶使用,構(gòu)建AI社區(qū)氛圍。比如此前在社交媒體平臺(tái)傳播出圈的蘇格拉底、God等虛擬人物,以及官方自主創(chuàng)建的馬斯克等商業(yè)名人的AI形象。

另一方面,個(gè)性化的深度定制+群聊功能,也使得用戶對(duì)于平臺(tái)產(chǎn)生情感智能依賴。很多社交媒體平臺(tái)的用戶公開評(píng)價(jià)顯示,因?yàn)榱奶祗w驗(yàn)過(guò)于逼真,就像“自己創(chuàng)作的角色擁有生命,就像在與真人交談”,“是迄今為止最接近假想朋友、守護(hù)天使的東西”。

可能是來(lái)自Character.AI的壓力,2023年8月16日OpenAI在官網(wǎng)發(fā)布了一則簡(jiǎn)短聲明,宣布收購(gòu)美國(guó)初創(chuàng)企業(yè)Global Illumination,并將整個(gè)團(tuán)隊(duì)納入麾下。這家僅有兩年歷史八位員工的小公司,主營(yíng)業(yè)務(wù)是利用人工智能創(chuàng)建巧妙工具、數(shù)字基建和數(shù)字體驗(yàn)。

收購(gòu)行為的背后,很可能意味著OpenAI將致力以豐富的方式,改善目前的大模型數(shù)字體驗(yàn)。

人工智能的衰老化

ChatGPT在大模型數(shù)字體驗(yàn)層面的老化,影響了其殺時(shí)間的效果。作為生產(chǎn)力工具,其生成結(jié)果準(zhǔn)確性的飄忽不定,也正在影響其用戶黏性。

此前根據(jù)Salesforce的調(diào)查顯示,有近六成的大模型使用者認(rèn)為,他們正在通過(guò)累計(jì)時(shí)間的訓(xùn)練掌握這項(xiàng)技術(shù)。不過(guò)目前這種技術(shù)的掌握,正在隨著時(shí)間的遷移發(fā)生變化。 

 

早在5月份,就有大模型老用戶在OpenAI論壇上開始抱怨GPT-4,“在以前表現(xiàn)良好的事物上表現(xiàn)出困難”。據(jù)《Business Insider》7月份報(bào)道稱,很多老用戶將GPT-4與其以前的推理能力和其他輸出相比,形容為“懶惰”和“愚笨”。

由于官方并未對(duì)此作出回應(yīng),人們開始對(duì)GPT-4性能下降的原因進(jìn)行推測(cè),會(huì)不會(huì)是因?yàn)榇饲癘penAI的現(xiàn)金流問(wèn)題?主流猜測(cè)集中在成本優(yōu)化導(dǎo)致的性能下降方面。一些研究者稱,OpenAI可能在API后面使用了規(guī)模較小的模型,以降低運(yùn)行ChatGPT的成本。

不過(guò)這個(gè)可能性隨后被OpenAI的產(chǎn)品副總裁Peter Welinder否認(rèn)。他在社交媒體上表示:“我們沒(méi)有讓GPT-4變得更笨,目前的一個(gè)假設(shè)是,當(dāng)你更加頻繁地使用它時(shí),會(huì)開始注意到之前沒(méi)有注意到的問(wèn)題。”

更多的人、更長(zhǎng)時(shí)間的使用,暴露了ChatGPT的局限性。對(duì)于這種假設(shè),研究者試圖通過(guò)更嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)呈現(xiàn)“ChatGPT性能和時(shí)間關(guān)系的變化”。 

來(lái)自斯坦福大學(xué)和加州大學(xué)伯克利分校在7月份提交的一篇題為《How is ChatGPT's behavior changing over time?》的研究論文顯示:同一個(gè)版本的大模型,確實(shí)可以在相對(duì)較短的時(shí)間內(nèi)發(fā)生巨大變化。

從3月份到6月份,研究者測(cè)試了GPT-3.5和GPT-4兩個(gè)版本,采集了四個(gè)常見的基準(zhǔn)任務(wù)數(shù)學(xué)問(wèn)題、回答敏感問(wèn)題、代碼生成和視覺(jué)推理的生成結(jié)果,并進(jìn)行評(píng)估。結(jié)果顯示,無(wú)論是GPT-3.5還是GPT-4,二者的性能和生成結(jié)果,都有可能隨時(shí)間而變化。

數(shù)學(xué)能力方面,GPT-4(2023年3月)在識(shí)別質(zhì)數(shù)與合數(shù)方面表現(xiàn)得相當(dāng)不錯(cuò)(84%準(zhǔn)確率),但是GPT-4(2023年6月)在相同問(wèn)題上的表現(xiàn)不佳(51%準(zhǔn)確率)。有趣的是,CPT-3.5在這個(gè)任務(wù)上6月份的表現(xiàn)要比3月份好得多。

不過(guò)在敏感問(wèn)題方面,GPT-4在6月份回答敏感性問(wèn)題的意愿較3月份下降;代碼能力方面,GPT-4和GPT-3.5,都在6月份表現(xiàn)出比3月份更多的錯(cuò)誤。研究者認(rèn)為,雖然ChatGPT的性能和時(shí)間沒(méi)有明顯的線性關(guān)系,但是準(zhǔn)確性確實(shí)會(huì)飄忽不定。 

 

這不僅是ChatGPT自己的問(wèn)題,也是此前所有AI模型的通病。根據(jù)麻省理工學(xué)院、哈佛大學(xué)、蒙特雷大學(xué)和劍橋大學(xué)2022年的一項(xiàng)研究表明,91%的機(jī)器學(xué)習(xí)模型都會(huì)隨著時(shí)間的推移而退化,研究者將這種現(xiàn)象稱為“人工智能老化”。

例如,Google Health曾經(jīng)開發(fā)了一種深度學(xué)習(xí)模型,可以通過(guò)患者的眼睛掃描來(lái)檢測(cè)視網(wǎng)膜疾病。該模型在訓(xùn)練階段的準(zhǔn)確率達(dá)到90%,但在現(xiàn)實(shí)生活中卻無(wú)法提供準(zhǔn)確的結(jié)果。主要是因?yàn)樵趯?shí)驗(yàn)室,采用高質(zhì)量的訓(xùn)練數(shù)據(jù),但是現(xiàn)實(shí)世界的眼睛掃描質(zhì)量較低。

受制于機(jī)器學(xué)習(xí)模型老化的情況,過(guò)去走出實(shí)驗(yàn)室的AI技術(shù),以單一的語(yǔ)音識(shí)別技術(shù)為主,智能音箱等產(chǎn)品因此最先普及。根據(jù)美國(guó)人口普查局2018年對(duì)58.3萬(wàn)家美國(guó)公司的調(diào)查,只有2.8%使用機(jī)器學(xué)習(xí)模型來(lái)為其運(yùn)營(yíng)帶來(lái)優(yōu)勢(shì)。

不過(guò)伴隨著大模型智能涌現(xiàn)能力的突破,機(jī)器學(xué)習(xí)模型的老化速度明顯減弱,逐漸走出實(shí)驗(yàn)室面向更廣泛的受眾。不過(guò),涌現(xiàn)能力的黑盒下仍有不可預(yù)測(cè)性,讓不少人對(duì)于ChatGPT能否長(zhǎng)期保持AI性能的不斷提升提出質(zhì)疑。

黑盒下的抗衰老性

人工智能老化的本質(zhì),其實(shí)是機(jī)器學(xué)習(xí)模型的范式缺陷。 

過(guò)往,機(jī)器學(xué)習(xí)模型是按照具體任務(wù)和具體數(shù)據(jù)的對(duì)應(yīng)關(guān)系進(jìn)行訓(xùn)練。通過(guò)大量的例子,先教給模型,那個(gè)領(lǐng)域中什么是好,什么是壞,再調(diào)節(jié)一下模型的權(quán)重,從而輸出恰當(dāng)?shù)慕Y(jié)果。這種思路下,每做一些新的事情,或者數(shù)據(jù)分布有明顯變化,都要重新訓(xùn)練一遍模型。

新事情和新數(shù)據(jù)無(wú)窮無(wú)盡,模型就只能刷新。但是模型的刷新也會(huì)導(dǎo)致過(guò)去做得好的事情突然做不好了,進(jìn)一步限制應(yīng)用?偨Y(jié)來(lái)看,傳統(tǒng)的機(jī)器學(xué)習(xí)模型中,數(shù)據(jù)飛輪本質(zhì)是為了迭代模型,用新模型解決新問(wèn)題的范式。

不過(guò)以ChatGPT為代表的大模型,涌現(xiàn)出自主學(xué)習(xí)能力,突破了這種范式。過(guò)往的機(jī)器學(xué)習(xí),是先“吃”數(shù)據(jù),之后“模仿”,基于的是對(duì)應(yīng)關(guān)系;ChatGPT類的大模型,是“教”數(shù)據(jù),之后“理解”,基于的是“內(nèi)在邏輯”。

這種情況下,大模型本身不發(fā)生變化,理論上可以永葆青春。不過(guò)也有從業(yè)人士表示,正如大模型的智能涌現(xiàn)一樣,是非線性發(fā)展、不可預(yù)測(cè)的,是突然就有的。對(duì)于大模型是否會(huì)隨著時(shí)間發(fā)生衰老,涌現(xiàn)出難以預(yù)測(cè)的不可確定性也是未知的。

換句話說(shuō),ChatGPT在涌現(xiàn)出難以理論化推導(dǎo)的智能性能后,也開始涌現(xiàn)出難以預(yù)測(cè)的不可確定性。

對(duì)于“涌現(xiàn)”的黑盒性,9月6日在百川智能Baichuan2開源大模型發(fā)布會(huì)上,中國(guó)科學(xué)院院士、清華大學(xué)人工智能研究院名譽(yù)院長(zhǎng)張鈸表示:“到現(xiàn)在為止,全世界對(duì)大模型的理論工作原理、所產(chǎn)生的現(xiàn)象都是一頭霧水,所有的結(jié)論都推導(dǎo)產(chǎn)生了涌現(xiàn)現(xiàn)象。所謂涌現(xiàn)就是給自己一個(gè)退路,解釋不清楚的情況下就說(shuō)它是涌現(xiàn)。實(shí)際上反映了我們對(duì)它一點(diǎn)不清楚。”

在其看來(lái),大模型為什么會(huì)產(chǎn)生幻覺(jué)這個(gè)問(wèn)題,涉及到ChatGPT跟人類自然語(yǔ)言生成原理的不一樣。最根本的區(qū)別在于,ChatGPT生成的語(yǔ)言是外部驅(qū)動(dòng)的,而人類的語(yǔ)言是在自己意圖的情況下驅(qū)動(dòng)的,所以ChatGPT內(nèi)容的正確性和合理性不能保證。

在經(jīng)歷過(guò)一系列概念炒作跟風(fēng)上車之后,對(duì)于致力于開發(fā)生產(chǎn)力基礎(chǔ)模型的人來(lái)說(shuō),面臨的挑戰(zhàn)將是如何確保其產(chǎn)品持續(xù)輸出結(jié)果的可靠性和準(zhǔn)確性。

不過(guò)對(duì)于大模型相關(guān)的娛樂(lè)產(chǎn)品而言,正如Character.AI 聯(lián)合創(chuàng)始人Noam Shazeer在《紐約時(shí)報(bào)》上所說(shuō):“這些系統(tǒng)并不是為真相而設(shè)計(jì)的。它們是為合理的對(duì)話而設(shè)計(jì)的。”換句話說(shuō),它們是自信的廢話藝術(shù)家。大模型的巨浪已然開始分流。

參考資料:

Gizmodo-Is ChatGPT Getting Worse?

TechCrunch-AlappCharacter.aiiscatchinguptoChatGPTintheUS

Machine Learning Monitoring- Why You Should Care About Data and Concept Drift

M小姐沿習(xí)錄-關(guān)于ChatGPT的五個(gè)最重要問(wèn)題

清華大學(xué)人工智能國(guó)際治理研究院-對(duì)大模型的研究很迫切,不能解釋不清楚就說(shuō)“涌現(xiàn)”

       原文標(biāo)題 : ChatGPT笨了,還是老了?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)