夜夜爽77777妓女免费看,无码熟妇人妻AV在线影片

ChatGPT笨了，還是老了？

2023-09-15 17:18

“過(guò)去的表現(xiàn)并不能保證將來(lái)的結(jié)果。”這是大多數(shù)金融理財(cái)模型的小字。

在產(chǎn)品業(yè)務(wù)內(nèi)部，這被稱之為模型漂移、衰退或過(guò)時(shí)。事情會(huì)發(fā)生變化，模型性能會(huì)隨著時(shí)間的推移而下降。最終的衡量標(biāo)準(zhǔn)是模型質(zhì)量指標(biāo)，可以是準(zhǔn)確率、平均錯(cuò)誤率，也可以是一些下游業(yè)務(wù)的KPI，比如點(diǎn)擊率。

沒(méi)有任何模型可以永遠(yuǎn)有效，但衰退的速度各不相同。‍有些產(chǎn)品可以使用多年而無(wú)需更新，例如某些計(jì)算機(jī)視覺(jué)或語(yǔ)言模型，或者是在隔離、穩(wěn)定環(huán)境中的任何決策系統(tǒng)，比如常見的實(shí)驗(yàn)條件下。

想要保證模型精度，就需要每天對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練，這是機(jī)器學(xué)習(xí)模型的范式缺陷，也使得人工智能部署，不能像軟件部署一樣可以一勞永逸。后者被創(chuàng)造了幾十年，目前最先進(jìn)的AI產(chǎn)品，依然使用著早年的軟件技術(shù)。只要仍然有用，即時(shí)技術(shù)已經(jīng)過(guò)時(shí)，它們依然可以長(zhǎng)存于每一個(gè)字節(jié)中。

不過(guò)被稱為人工智能最前沿的產(chǎn)品，以ChatGPT為代表的大模型，在遭遇人氣衰減后，迎來(lái)是否正在過(guò)時(shí)和衰老的質(zhì)疑。

無(wú)風(fēng)不起浪。用戶在ChatGPT上花費(fèi)的時(shí)間越來(lái)越少，從3月份的8.7分鐘降至8月份的7分鐘。側(cè)面反映出，當(dāng)大模型工具的供給側(cè)迅猛增長(zhǎng)，僅僅只是生產(chǎn)力工具的ChatGPT似乎并不足以成為主流使用人群Z世代的心頭好。

一時(shí)的人氣不足以動(dòng)搖致力于成為AI時(shí)代應(yīng)用商店的OpenAI霸主地位。更核心的問(wèn)題是，ChatGPT生產(chǎn)力的老化，才是不少老用戶信任度下降的主因。自5月份開始，OpenAI論壇里討論GPT-4性能不如以前的帖子，就一直在發(fā)酵。

那么ChatGPT過(guò)時(shí)了嗎？以ChatGPT為代表的大模型會(huì)像過(guò)去的機(jī)器學(xué)習(xí)模型一樣衰老嗎？不理解這些問(wèn)題，就不能在層出不窮的大模型熱潮之下，找到人與機(jī)器的可持續(xù)發(fā)展之道。

ChatGPT過(guò)時(shí)了嗎？

來(lái)自Salesforce AI軟件服務(wù)商最新的一份數(shù)據(jù)顯示，有67%的大模型使用者是Z世代或者千禧一代；很少使用生成AI或在這方面落伍的人群中，68%以上的人是X一代或嬰兒潮一代。

代際差異說(shuō)明Z世代正在成為擁抱大模型的主流人群。Salesforce產(chǎn)品營(yíng)銷人員Kelly Eliyahu表示：“Z世代實(shí)際上是AI一代，他們構(gòu)成了超級(jí)用戶群體。70%的Z世代正在使用生成式AI，至少有一半的人每周或更長(zhǎng)時(shí)間使用它。”

不過(guò)作為大模型產(chǎn)品的領(lǐng)軍者，ChatGPT在Z世代人群中的表現(xiàn)并不出色。

根據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)Similarweb 7月份的數(shù)據(jù)顯示，ChatGPT在Z世代人群中的使用占比為27%，低于4月份的30%。作為對(duì)比，另外一款可以讓用戶自己設(shè)計(jì)人工智能角色的大模型產(chǎn)品，Character.ai在18-24歲年齡段的人群中滲透率為60%。

得益于Z世代的追捧，Character.ai的iOS和Android應(yīng)用程序目前在美國(guó)的月活躍用戶數(shù)為420萬(wàn)，距離移動(dòng)端ChatGPT的600萬(wàn)月活，日益接近。

和ChatGPT的對(duì)話式AI不一樣，Character.AI在此基礎(chǔ)上加入個(gè)性化、UGC兩大核心功能，使其有了比前者更豐富的使用場(chǎng)景。

一方面，用戶可以根據(jù)個(gè)人需求自定義AI角色，滿足Z世代個(gè)性化定制的需求。同時(shí)這些用戶自主創(chuàng)建的AI角色，也可以被平臺(tái)所有用戶使用，構(gòu)建AI社區(qū)氛圍。比如此前在社交媒體平臺(tái)傳播出圈的蘇格拉底、God等虛擬人物，以及官方自主創(chuàng)建的馬斯克等商業(yè)名人的AI形象。

另一方面，個(gè)性化的深度定制＋群聊功能，也使得用戶對(duì)于平臺(tái)產(chǎn)生情感智能依賴。很多社交媒體平臺(tái)的用戶公開評(píng)價(jià)顯示，因?yàn)榱奶祗w驗(yàn)過(guò)于逼真，就像“自己創(chuàng)作的角色擁有生命，就像在與真人交談”，“是迄今為止最接近假想朋友、守護(hù)天使的東西”。

可能是來(lái)自Character.AI的壓力，2023年8月16日OpenAI在官網(wǎng)發(fā)布了一則簡(jiǎn)短聲明，宣布收購(gòu)美國(guó)初創(chuàng)企業(yè)Global Illumination，并將整個(gè)團(tuán)隊(duì)納入麾下。這家僅有兩年歷史八位員工的小公司，主營(yíng)業(yè)務(wù)是利用人工智能創(chuàng)建巧妙工具、數(shù)字基建和數(shù)字體驗(yàn)。

收購(gòu)行為的背后，很可能意味著OpenAI將致力以豐富的方式，改善目前的大模型數(shù)字體驗(yàn)。

人工智能的衰老化

ChatGPT在大模型數(shù)字體驗(yàn)層面的老化，影響了其殺時(shí)間的效果。作為生產(chǎn)力工具，其生成結(jié)果準(zhǔn)確性的飄忽不定，也正在影響其用戶黏性。

此前根據(jù)Salesforce的調(diào)查顯示，有近六成的大模型使用者認(rèn)為，他們正在通過(guò)累計(jì)時(shí)間的訓(xùn)練掌握這項(xiàng)技術(shù)。不過(guò)目前這種技術(shù)的掌握，正在隨著時(shí)間的遷移發(fā)生變化。

早在5月份，就有大模型老用戶在OpenAI論壇上開始抱怨GPT-4，“在以前表現(xiàn)良好的事物上表現(xiàn)出困難”。據(jù)《Business Insider》7月份報(bào)道稱，很多老用戶將GPT-4與其以前的推理能力和其他輸出相比，形容為“懶惰”和“愚笨”。

由于官方并未對(duì)此作出回應(yīng)，人們開始對(duì)GPT-4性能下降的原因進(jìn)行推測(cè)，會(huì)不會(huì)是因?yàn)榇饲癘penAI的現(xiàn)金流問(wèn)題？主流猜測(cè)集中在成本優(yōu)化導(dǎo)致的性能下降方面。一些研究者稱，OpenAI可能在API后面使用了規(guī)模較小的模型，以降低運(yùn)行ChatGPT的成本。

不過(guò)這個(gè)可能性隨后被OpenAI的產(chǎn)品副總裁Peter Welinder否認(rèn)。他在社交媒體上表示：“我們沒(méi)有讓GPT-4變得更笨，目前的一個(gè)假設(shè)是，當(dāng)你更加頻繁地使用它時(shí)，會(huì)開始注意到之前沒(méi)有注意到的問(wèn)題。”

更多的人、更長(zhǎng)時(shí)間的使用，暴露了ChatGPT的局限性。對(duì)于這種假設(shè)，研究者試圖通過(guò)更嚴(yán)謹(jǐn)?shù)膶?shí)驗(yàn)呈現(xiàn)“ChatGPT性能和時(shí)間關(guān)系的變化”。

來(lái)自斯坦福大學(xué)和加州大學(xué)伯克利分校在7月份提交的一篇題為《How is ChatGPT's behavior changing over time?》的研究論文顯示：同一個(gè)版本的大模型，確實(shí)可以在相對(duì)較短的時(shí)間內(nèi)發(fā)生巨大變化。

從3月份到6月份，研究者測(cè)試了GPT-3.5和GPT-4兩個(gè)版本，采集了四個(gè)常見的基準(zhǔn)任務(wù)數(shù)學(xué)問(wèn)題、回答敏感問(wèn)題、代碼生成和視覺(jué)推理的生成結(jié)果，并進(jìn)行評(píng)估。結(jié)果顯示，無(wú)論是GPT-3.5還是GPT-4，二者的性能和生成結(jié)果，都有可能隨時(shí)間而變化。

數(shù)學(xué)能力方面，GPT-4（2023年3月）在識(shí)別質(zhì)數(shù)與合數(shù)方面表現(xiàn)得相當(dāng)不錯(cuò)（84%準(zhǔn)確率），但是GPT-4（2023年6月）在相同問(wèn)題上的表現(xiàn)不佳（51%準(zhǔn)確率）。有趣的是，CPT-3.5在這個(gè)任務(wù)上6月份的表現(xiàn)要比3月份好得多。

不過(guò)在敏感問(wèn)題方面，GPT-4在6月份回答敏感性問(wèn)題的意愿較3月份下降；代碼能力方面，GPT-4和GPT-3.5，都在6月份表現(xiàn)出比3月份更多的錯(cuò)誤。研究者認(rèn)為，雖然ChatGPT的性能和時(shí)間沒(méi)有明顯的線性關(guān)系，但是準(zhǔn)確性確實(shí)會(huì)飄忽不定。

這不僅是ChatGPT自己的問(wèn)題，也是此前所有AI模型的通病。根據(jù)麻省理工學(xué)院、哈佛大學(xué)、蒙特雷大學(xué)和劍橋大學(xué)2022年的一項(xiàng)研究表明，91%的機(jī)器學(xué)習(xí)模型都會(huì)隨著時(shí)間的推移而退化，研究者將這種現(xiàn)象稱為“人工智能老化”。

例如，Google Health曾經(jīng)開發(fā)了一種深度學(xué)習(xí)模型，可以通過(guò)患者的眼睛掃描來(lái)檢測(cè)視網(wǎng)膜疾病。該模型在訓(xùn)練階段的準(zhǔn)確率達(dá)到90%，但在現(xiàn)實(shí)生活中卻無(wú)法提供準(zhǔn)確的結(jié)果。主要是因?yàn)樵趯?shí)驗(yàn)室，采用高質(zhì)量的訓(xùn)練數(shù)據(jù)，但是現(xiàn)實(shí)世界的眼睛掃描質(zhì)量較低。

受制于機(jī)器學(xué)習(xí)模型老化的情況，過(guò)去走出實(shí)驗(yàn)室的AI技術(shù)，以單一的語(yǔ)音識(shí)別技術(shù)為主，智能音箱等產(chǎn)品因此最先普及。根據(jù)美國(guó)人口普查局2018年對(duì)58.3萬(wàn)家美國(guó)公司的調(diào)查，只有2.8%使用機(jī)器學(xué)習(xí)模型來(lái)為其運(yùn)營(yíng)帶來(lái)優(yōu)勢(shì)。

不過(guò)伴隨著大模型智能涌現(xiàn)能力的突破，機(jī)器學(xué)習(xí)模型的老化速度明顯減弱，逐漸走出實(shí)驗(yàn)室面向更廣泛的受眾。不過(guò)，涌現(xiàn)能力的黑盒下仍有不可預(yù)測(cè)性，讓不少人對(duì)于ChatGPT能否長(zhǎng)期保持AI性能的不斷提升提出質(zhì)疑。

黑盒下的抗衰老性

人工智能老化的本質(zhì)，其實(shí)是機(jī)器學(xué)習(xí)模型的范式缺陷。

過(guò)往，機(jī)器學(xué)習(xí)模型是按照具體任務(wù)和具體數(shù)據(jù)的對(duì)應(yīng)關(guān)系進(jìn)行訓(xùn)練。通過(guò)大量的例子，先教給模型，那個(gè)領(lǐng)域中什么是好，什么是壞，再調(diào)節(jié)一下模型的權(quán)重，從而輸出恰當(dāng)?shù)慕Y(jié)果。這種思路下，每做一些新的事情，或者數(shù)據(jù)分布有明顯變化，都要重新訓(xùn)練一遍模型。

新事情和新數(shù)據(jù)無(wú)窮無(wú)盡，模型就只能刷新。但是模型的刷新也會(huì)導(dǎo)致過(guò)去做得好的事情突然做不好了，進(jìn)一步限制應(yīng)用�？偨Y(jié)來(lái)看，傳統(tǒng)的機(jī)器學(xué)習(xí)模型中，數(shù)據(jù)飛輪本質(zhì)是為了迭代模型，用新模型解決新問(wèn)題的范式。

不過(guò)以ChatGPT為代表的大模型，涌現(xiàn)出自主學(xué)習(xí)能力，突破了這種范式。過(guò)往的機(jī)器學(xué)習(xí)，是先“吃”數(shù)據(jù)，之后“模仿”，基于的是對(duì)應(yīng)關(guān)系；ChatGPT類的大模型，是“教”數(shù)據(jù)，之后“理解”，基于的是“內(nèi)在邏輯”。

這種情況下，大模型本身不發(fā)生變化，理論上可以永葆青春。不過(guò)也有從業(yè)人士表示，正如大模型的智能涌現(xiàn)一樣，是非線性發(fā)展、不可預(yù)測(cè)的，是突然就有的。對(duì)于大模型是否會(huì)隨著時(shí)間發(fā)生衰老，涌現(xiàn)出難以預(yù)測(cè)的不可確定性也是未知的。

換句話說(shuō)，ChatGPT在涌現(xiàn)出難以理論化推導(dǎo)的智能性能后，也開始涌現(xiàn)出難以預(yù)測(cè)的不可確定性。

對(duì)于“涌現(xiàn)”的黑盒性，9月6日在百川智能Baichuan2開源大模型發(fā)布會(huì)上，中國(guó)科學(xué)院院士、清華大學(xué)人工智能研究院名譽(yù)院長(zhǎng)張鈸表示：“到現(xiàn)在為止，全世界對(duì)大模型的理論工作原理、所產(chǎn)生的現(xiàn)象都是一頭霧水，所有的結(jié)論都推導(dǎo)產(chǎn)生了涌現(xiàn)現(xiàn)象。所謂涌現(xiàn)就是給自己一個(gè)退路，解釋不清楚的情況下就說(shuō)它是涌現(xiàn)。實(shí)際上反映了我們對(duì)它一點(diǎn)不清楚。”

在其看來(lái)，大模型為什么會(huì)產(chǎn)生幻覺(jué)這個(gè)問(wèn)題，涉及到ChatGPT跟人類自然語(yǔ)言生成原理的不一樣。最根本的區(qū)別在于，ChatGPT生成的語(yǔ)言是外部驅(qū)動(dòng)的，而人類的語(yǔ)言是在自己意圖的情況下驅(qū)動(dòng)的，所以ChatGPT內(nèi)容的正確性和合理性不能保證。

在經(jīng)歷過(guò)一系列概念炒作跟風(fēng)上車之后，對(duì)于致力于開發(fā)生產(chǎn)力基礎(chǔ)模型的人來(lái)說(shuō)，面臨的挑戰(zhàn)將是如何確保其產(chǎn)品持續(xù)輸出結(jié)果的可靠性和準(zhǔn)確性。

不過(guò)對(duì)于大模型相關(guān)的娛樂(lè)產(chǎn)品而言，正如Character.AI 聯(lián)合創(chuàng)始人Noam Shazeer在《紐約時(shí)報(bào)》上所說(shuō)：“這些系統(tǒng)并不是為真相而設(shè)計(jì)的。它們是為合理的對(duì)話而設(shè)計(jì)的。”換句話說(shuō)，它們是自信的廢話藝術(shù)家。大模型的巨浪已然開始分流。

參考資料：

Gizmodo-Is ChatGPT Getting Worse?

TechCrunch-AlappCharacter.aiiscatchinguptoChatGPTintheUS

Machine Learning Monitoring- Why You Should Care About Data and Concept Drift

M小姐沿習(xí)錄-關(guān)于ChatGPT的五個(gè)最重要問(wèn)題

清華大學(xué)人工智能國(guó)際治理研究院-對(duì)大模型的研究很迫切，不能解釋不清楚就說(shuō)“涌現(xiàn)”

“過(guò)去的表現(xiàn)并不能保證將來(lái)的結(jié)果。”這是大多數(shù)金融理財(cái)模型的小字。