AI大模型的轉(zhuǎn)折點(diǎn),關(guān)注哪些機(jī)遇?
近期,人工智能領(lǐng)域取得又一突破性進(jìn)展,OpenAI官方隆重推出了其最新力作——模型o1。這款模型的最大亮點(diǎn)在于,它融合了強(qiáng)化學(xué)習(xí)(RL)的訓(xùn)練方法,并在模型推理過程中采用了更為深入的內(nèi)部思維鏈(chain of thought,簡稱CoT)技術(shù)。這一創(chuàng)新性的結(jié)合,使得o1在物理、化學(xué)、數(shù)學(xué)等需要強(qiáng)大邏輯推理能力的學(xué)科領(lǐng)域內(nèi),實(shí)現(xiàn)了性能的顯著提升。
OpenAI的這一成果,無疑為人工智能領(lǐng)域樹立了新的標(biāo)桿。RL+CoT的范式,不僅在效果上顯著增強(qiáng)了模型的強(qiáng)邏輯推理能力,更為后續(xù)國內(nèi)外大模型廠商的研發(fā)方向提供了新的思路?梢灶A(yù)見,在未來的日子里,沿著RL+CoT這一新路線,各大廠商將持續(xù)迭代模型,推動(dòng)人工智能技術(shù)邁向新的高度。
01. 重心由預(yù)訓(xùn)練轉(zhuǎn)移到后訓(xùn)練和推理
2020年,OpenAI提出的Scaling Law為大模型的迭代奠定了重要的理論基礎(chǔ)。在o1模型發(fā)布之前,Scaling Law主要聚焦于預(yù)訓(xùn)練階段,通過增加模型的參數(shù)數(shù)量、擴(kuò)大訓(xùn)練數(shù)據(jù)集以及提升算力,來增強(qiáng)模型的智能表現(xiàn)。然而,隨著o1模型的推出,OpenAI揭示了在預(yù)訓(xùn)練Scaling Law的基礎(chǔ)上,通過在后訓(xùn)練階段引入強(qiáng)化學(xué)習(xí)(RL)并在推理過程中增加長內(nèi)部思維鏈(CoT,意味著更多的計(jì)算步驟),同樣能夠顯著提升模型的性能。這表明,Scaling Law不僅適用于預(yù)訓(xùn)練階段,還能在大模型的后訓(xùn)練和推理階段持續(xù)發(fā)揮作用。
具體來說,o1模型在編程、數(shù)學(xué)和科學(xué)領(lǐng)域的能力都得到了大幅提升。在Codeforces編程競賽中,o1模型的表現(xiàn)超過了83%的專業(yè)人員;在數(shù)學(xué)競賽方面,以AIME 2024為例,GPT-4o平均只能解決12%的問題,而o1模型平均能解決74%的問題,若采用64個(gè)樣本的共識(shí),解決率更是能達(dá)到83%;在科學(xué)能力方面,對(duì)于博士級(jí)的科學(xué)問題(GPQA Diamond),GPT-4o的精確度為56.1%,人類專家水平為69.7%,而o1模型則達(dá)到了78%,超越了人類專家的能力。
o1模型的問世,為下一步大模型的訓(xùn)練和迭代提供了新的參考范式——即RL+CoT。從定性角度看,RL+CoT需要更多的訓(xùn)練和推理算力。在o1模型之前,如GPT-4o等模型主要經(jīng)歷了預(yù)訓(xùn)練和后訓(xùn)練(基于人類反饋的強(qiáng)化學(xué)習(xí)RLHF)兩個(gè)階段,推理則采用單次推理或短CoT。然而,o1模型在預(yù)訓(xùn)練階段的算力變化可能并不大,主要目的是保證模型具有較好的通用能力。在后訓(xùn)練階段,由于采用了RL,模型需要通過不斷搜索的方式來迭代優(yōu)化輸出結(jié)果,因此算力消耗有望上升。在推理階段,o1模型在RL訓(xùn)練下學(xué)會(huì)了內(nèi)部長CoT,推理所需的token數(shù)量明顯增長,因此推理算力相比之前的單次推理或短CoT也顯著上升。
綜上所述,在新的大模型訓(xùn)練范式下,從定性角度看,模型需要更多的訓(xùn)練和推理算力來支持其性能的提升。
02. 算力和應(yīng)用端或值得關(guān)注
目前升級(jí)版的AI大模型主要聚焦于強(qiáng)化邏輯推理能力,通過實(shí)現(xiàn)完整的分步驟推理過程,可以顯著提升回復(fù)的邏輯性和條理性。這一升級(jí)預(yù)示著Agent Network的初步框架即將形成,對(duì)于那些需要更嚴(yán)密邏輯處理的B端用戶,有望率先從中受益。同時(shí),隨著系統(tǒng)對(duì)復(fù)雜實(shí)際環(huán)境中邊緣場景的處理能力得到增強(qiáng),其應(yīng)用范圍和效果也將得到進(jìn)一步提升。
華泰證券分析指出,RL+CoT的訓(xùn)練范式不僅延續(xù)了預(yù)訓(xùn)練階段的Scaling Law,還進(jìn)一步將其擴(kuò)展到了后訓(xùn)練和推理階段。在預(yù)訓(xùn)練算力保持相對(duì)穩(wěn)定的情況下,RL后訓(xùn)練和CoT推理將催生新的算力需求。這些需求的具體規(guī)模將取決于RL搜索的深度、CoT的內(nèi)在長度以及推理效果之間的平衡。由于RL+CoT實(shí)際上為行業(yè)內(nèi)的其他模型開發(fā)商設(shè)定了下一代模型迭代的基本框架,預(yù)計(jì)這一范式將被廣泛采納,從而帶動(dòng)訓(xùn)練算力需求的顯著提升。在此背景下,建議投資者關(guān)注與算力相關(guān)的企業(yè),如博通、滬電股份、工業(yè)富聯(lián)等。
此外,盡管o1模型目前主要解決的是數(shù)學(xué)、代碼和科學(xué)領(lǐng)域的推理問題,但其核心在于構(gòu)建模型的CoT能力。CoT作為推理的重要手段,有望在端側(cè)結(jié)合用戶的更多私有數(shù)據(jù)進(jìn)行應(yīng)用。蘋果AI Agent被視為實(shí)現(xiàn)CoT能力的理想計(jì)算平臺(tái)。因此,建議投資者關(guān)注與蘋果產(chǎn)業(yè)鏈相關(guān)的企業(yè),包括立訊精密、鵬鼎控股、水晶光電、歌爾股份、藍(lán)思科技、東山精密、長電科技等。
最后,o1模型展現(xiàn)出的強(qiáng)邏輯推理能力有望擴(kuò)展到更廣泛和通用的領(lǐng)域,并且在推理性能上相較于前代模型有顯著提升。這意味著基于o1及后續(xù)大模型的AI應(yīng)用和Agent有望在能力上實(shí)現(xiàn)本質(zhì)性的超越。因此,建議投資者關(guān)注核心的AI應(yīng)用企業(yè),如微軟、奧多比、金山辦公、泛微網(wǎng)絡(luò)、螢石網(wǎng)絡(luò)等。
原文標(biāo)題 : AI大模型的轉(zhuǎn)折點(diǎn),關(guān)注哪些機(jī)遇?
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場仿真助跑新能源汽車
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會(huì)
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市