訂閱
糾錯
加入自媒體

OpenAI、微軟押注,大模型應(yīng)用的盡頭是AI Agent ?|對話面壁智能

 

文|郝    鑫

編|劉雨琦

你見過Agent們“吵架”么?“這個產(chǎn)品需要具備XX需求,為什么沒有?”,“你提出的需求完全不合理,技術(shù)上達(dá)不到!”,現(xiàn)場頓時(shí)亂作一團(tuán),越來越多的“員工”也被卷進(jìn)了這場大亂斗中。激烈的爭吵聲越過了屏幕外,面壁智能的測試人員通過后臺日志,發(fā)現(xiàn)Agents正在上演一場“職場大戲”。這家完全由AI Agents組成的軟件開發(fā)公司,是面壁智能基于其創(chuàng)新研發(fā)的開源框架ChatDev開發(fā)的SaaS產(chǎn)品,產(chǎn)品經(jīng)理和技術(shù)開發(fā)的Agents們“繼承”了現(xiàn)實(shí)中的角色,在數(shù)字世界中也“Battle”了起來。大模型之后,應(yīng)用層到底駛向何方一直是創(chuàng)業(yè)公司討論的核心話題,在最近,這個問題似乎有了答案。OpenAI再次成為了“行業(yè)模版”,通過GPTs打造Agent功能一經(jīng)開放,一天內(nèi)就涌現(xiàn)了2萬多個GPTs。而早就發(fā)現(xiàn)Agent確定性機(jī)會的面壁智能,也終于不用再煞費(fèi)苦心地給投資人解釋,究竟何為Agent,以及為什么Agent潛力巨大。目前,在行業(yè)內(nèi)關(guān)于AI Agent達(dá)成一定共識的,主要是來自O(shè)penAI的一篇博文。在里面對AI Agent的定義為:大語言模型作為大腦,Agent有感知、規(guī)劃、記憶、和使用工具的能力,能自動化實(shí)現(xiàn)用戶復(fù)雜目標(biāo),這也奠定了AI Agent的基本框架。

(AI Agent的基本框架)雖然AI Agent的概念早已有之,今年年初也冒出了一些曇花一現(xiàn)的構(gòu)想,但因?yàn)榈讓哟竽P图夹g(shù)能力的不成熟、不完善,所以直到現(xiàn)在才得以爆發(fā)。從結(jié)果來看,AI Agent發(fā)展分為兩個階段,一個是以O(shè)penAI的GPTs為代表的單體智能,發(fā)展到后期,則進(jìn)入了像面壁智能打造的ChatDev這種多智能體協(xié)作的群體智能階段。幾乎與國外“斯坦福小鎮(zhèn)”同期,面壁智能直接進(jìn)入了群體智能的第二階段。

(斯坦福小鎮(zhèn)示意圖)

(面壁智能ChatDev群體智能交流鏈?zhǔn)疽鈭D)

“我們從一開始就從群體智能開始切入,發(fā)布了ChatDev多智能體協(xié)作開發(fā)框架 ”,面壁智能產(chǎn)品負(fù)責(zé)人告訴光錐智能。據(jù)了解,面壁智能的核心科研成員來自于今年大模型創(chuàng)業(yè)浪潮中的“半壁江山”——清華大學(xué)NLP實(shí)驗(yàn)室,聯(lián)合創(chuàng)始人劉知遠(yuǎn)是清華大學(xué)計(jì)算機(jī)系長聘副教授、智源青年科學(xué)家,其聯(lián)合創(chuàng)始人、CEO也是知乎的CTO李大海。那么,選擇了一條比OpenAI還難走的路,在大模型時(shí)代,作為國內(nèi)最早一批深入AI Agent的公司,面壁智能如何思考AI Agent技術(shù),對AI Agent未來發(fā)展又有怎樣的判斷?帶著重重疑惑,光錐智能對話面壁智能,尋找關(guān)于AI Agent的答案。核心觀點(diǎn)如下:1、AI Agent就是下個時(shí)代大模型賦能整個應(yīng)用場景的一種新模態(tài)。2、現(xiàn)階段,AI Agent呈現(xiàn)出的更多是一種“擬人化”的形式。它可被定義為“分身”、“員工”和任意“個體”。3、Copilot和Agent不是同一個概念,Agent實(shí)現(xiàn)的是全自動化的決策、運(yùn)行和反饋。4、用Agent開發(fā)軟件,能夠把幾萬元的開發(fā)成本降至幾十元,甚至幾元。5、大模型是Agent的“輸血泵”,賦能Agent原子化能力,決定其干得好不好。

以下為對話實(shí)錄:

光錐智能:面壁一詞來源于《三體》中的面壁計(jì)劃,面壁智能是一家什么樣的公司?與其他大模型公司相比,面壁智能有什么特殊的地方?

面壁智能:面壁智能是一家集學(xué)術(shù)研究、技術(shù)開源和產(chǎn)品商業(yè)化為一體的公司。

整體上分為三個部分:首先是清華NLP實(shí)驗(yàn)室,與我們共同進(jìn)行底層前沿的科研探索;其次是開源社區(qū)OpenBMB,我們會把一些前沿的一些技術(shù)、科研成果開放給更多的開發(fā)者和行業(yè);另外就是面壁智能,基于所有的科研沉淀和開源框架,進(jìn)行應(yīng)用研發(fā)和整體商業(yè)化落地,由此形成了以面壁智能為樞紐的產(chǎn)學(xué)研聯(lián)動“一體兩翼”的架構(gòu)。

具體到面壁智能這家公司,公司的愿景和理念是“智周萬物”(Internet of Agents),即讓 AI Agents連接萬物,實(shí)現(xiàn)從“萬物互聯(lián)”到“萬物智聯(lián)”。以前有互聯(lián)網(wǎng),后面有物聯(lián)網(wǎng),面壁智能認(rèn)為在當(dāng)前這個時(shí)代,大模型以及以大模型孵化的AI能力,是下一個時(shí)代新的拐點(diǎn),期望把我們在大模型、AI方面的基礎(chǔ)能力賦能到方方面面,從而讓整個行業(yè)、社會有一個新的提升。

光錐智能:為什么一開始就選擇了AI Agent這個方向?有哪些契機(jī)和思考?面壁智能:大模型想要落地到具體場景,AI Agent是重要路徑,它代表的是比“裸”模型更擬人的使用體驗(yàn)。我們判斷未來會是Agent的世界,萬物都是Agent。比如電飯鍋可以是Agent,放入食材后,我們跟它說要熬粥,它就會根據(jù)熬粥的邏輯,去設(shè)定相應(yīng)的加熱方式。冰箱也會是Agent,如果它的冷卻劑漏了,它會跟我們對話,說自己需要維修了,或者它已經(jīng)打完了維修電話,通知維修師傅上門時(shí)間;或者提醒我們上周蔬菜買多了,要趕緊吃掉,否則菜就壞了。

基于此,我們對于未來世界才有了“智周萬物”的設(shè)想以及面壁智能的定位:一家基于大模型驅(qū)動Agent技術(shù)的公司,技術(shù)研發(fā)方向從模型基座到Agent技術(shù),再到最終的應(yīng)用。光錐智能:在行業(yè)內(nèi),對AI Agent的定義都還沒達(dá)成共識,面壁智能如何定義AI Agent?面壁智能:現(xiàn)階段,AI Agent呈現(xiàn)出的更多是一種“擬人化”的形式。它可被定義為“分身”,也可以被定義成某個“員工”,也可以被定義成組織中的一個“個體”,甚至到高階階段,也可以連接“物體”。

如果單獨(dú)的物體也不是最后的形態(tài),那它的定義應(yīng)該是一個完完全全新的東西。我們認(rèn)為在一個理想技術(shù)路線下,AI Agent至少應(yīng)該具備以下幾個能力:第一是,應(yīng)該具備超級高的智商,無論是學(xué)習(xí)使用工具、規(guī)劃,還是記憶、知識儲備,其實(shí)都是智商的一部分;第二是,應(yīng)該具備超級高的情商,需要其能夠針對不同的場景和不同需求的用戶有較強(qiáng)的自然對話能力和理解能力;第三是自省和成長迭代能力;第四多模態(tài)能力,能夠模擬人的聽、說、看、想,具備跟整個自然世界交流的能力;第五是價(jià)值觀對齊能力,AI Agent也需要像人一樣受到社會價(jià)值觀和道德取向的約束;第六是可被定義的能力,根據(jù)人的需求和設(shè)定,隨時(shí)變化出一個特定的形態(tài)。

光錐智能:很多人分不清Copilot與Agent,或者將二者粗略的畫等號,您怎么看?如果有差異,差異在哪?面壁智能:這還是兩個不同理念的東西。假如說未來你可以去基于Agent搭建一個數(shù)字公司,對這個數(shù)字公司而言,95%的情況下可以自己運(yùn)轉(zhuǎn),但過程中他會反問你,公司的核心目標(biāo)是什么?期望達(dá)到的銷售額是多少?你在公司的投入有多少?在實(shí)際運(yùn)行過程中,遇到難以決策的問題也會尋求你的幫助,你需要把知識、經(jīng)驗(yàn)、需求、預(yù)期等喂給它,在交互過程中實(shí)現(xiàn)自動化的公司經(jīng)營;這跟基于人設(shè)定的邏輯,輔助處理問題的邏輯完全不一樣。

類似ChatDev這種群體智能自動化創(chuàng)造的產(chǎn)品、就是奔著Agent自動化運(yùn)轉(zhuǎn)的思路去做的實(shí)踐。光錐智能:您認(rèn)為AI Agent的確定性機(jī)會在哪?在這個十分不確定的大模型時(shí)代,為什么認(rèn)為這條路能行得通?面壁智能:回顧幾次工業(yè)革命變遷,背后都是生產(chǎn)力的躍升。從蒸汽機(jī)、電力再到如今的人工智能,生產(chǎn)力的變革帶來了整個社會生產(chǎn)關(guān)系、生產(chǎn)工具的重塑。

在大模型時(shí)代,我們認(rèn)為AI Agent就是這樣具有生產(chǎn)力性質(zhì)的技術(shù),其能力強(qiáng)、效率高的特性決定了,它可以在某種程度上模擬一個人、一個組織、一個公司,大幅提升生產(chǎn)效率和交互方式。雖然現(xiàn)在AI Agent發(fā)展仍在早期,但其未來的潛力卻是無窮的,本身的商業(yè)化路徑也十分清晰,從單體智能到群體智能,從技術(shù)到產(chǎn)品再到商業(yè)化,由此才堅(jiān)定了我們確定AI Agent 方向的決心。

未來可能就是工程師去做構(gòu)思,理解市場需求,然后將需求拆解交付給AI,讓AI去完成一些低水平的重復(fù)勞動、以及部分創(chuàng)造性的工作,解放人的生產(chǎn)力。這有助于未來千行百業(yè)都能把AI相關(guān)軟件應(yīng)用起來,進(jìn)而更好地推行全面數(shù)字化和信息化。光錐智能:2023年至今,面壁智能在AI Agent這個方向,做了哪些探索?

有哪些產(chǎn)品和思考?面壁智能:基于AI Agent,我們打造了三個引擎,用以連接大模型和現(xiàn)實(shí)環(huán)境,它們分別是大模型驅(qū)動的AI智能體應(yīng)用框架XAgent,智能體通用平臺AgentVerse和多智能體協(xié)作開發(fā)框架ChatDev,以上三個引擎也被內(nèi)部稱為AI Agent“三駕馬車”。

ToB方向AI Agent可能成為企業(yè)內(nèi)部的不同工種,重塑企業(yè)組織流程,提效的同時(shí),最后實(shí)現(xiàn)完全由AI Agent組建、運(yùn)營起來的公司;ToC方向,AI Agent可能是智能助理等。

<span data-docs-delta="[[20,{"gallery":"https://uploader.shimo.im/f/IlzeyXztnLDNn6du.png!thumbnail"},"29:0|30:0|3:"null"|4:"auto"|crop:""|frame:"none"|ori-height:"null"|ori-width:"null""]]" data-copy-origin="https://shimo.im">

(XAgent數(shù)據(jù)分析示意圖)

    • XAgent大模型驅(qū)動的超強(qiáng)AI智能體應(yīng)用框架

      通過大模型打造一個像人一樣,具備一個高智商、情商、記憶力的超級智能體,在真實(shí)復(fù)雜任務(wù)的處理能力已全面超越AutoGPT。

    • AgentVerse大模型驅(qū)動的智能體通用平臺偏向通用化的Agent開發(fā)平臺,在上面用戶可以自定義構(gòu)造專屬Agent。

    • ChatDev大模型驅(qū)動的多智能體協(xié)作開發(fā)框架 AI Agent應(yīng)用的具體開發(fā)框架,目前,已經(jīng)跑出了落地的ChatDev產(chǎn)品,核心功能是允許用戶使用自然語言開發(fā)軟件。

光錐智能:能否以剛發(fā)布的ChatDev SaaS產(chǎn)品為例,更清晰地拆解面壁智能產(chǎn)品化的思路?面壁智能:

    • 簡單概括就是,

讓用戶能夠通過一句話的自然語言,去開發(fā)一款具體的軟件,

    • 這將大大降低軟件開發(fā)的門檻。

    • 在這個軟件公司里,會有CEO、CTO、開發(fā)經(jīng)理、產(chǎn)品經(jīng)理、測試專員、監(jiān)督員等,只要用戶把明確的需求告訴CEO角色的Agent,這個CEO就會基于用戶的需求,組織整個軟件開發(fā)流程。最后交付給用戶的包含了軟件產(chǎn)品和整個開發(fā)過程中的代碼,并且所有流程都是自動化的。

(ChatDev軟件開發(fā)過程)

    • 這里面留給用戶和開發(fā)者可自定義空間非常大,用戶可以針對已開發(fā)出的軟件提出新需求,也可以改變整個軟件的開發(fā)模式。比如我定義的軟件公司,跟別人默認(rèn)的軟件公司不一樣,期望多幾個測試,把這款軟件變得更可信一些。那就根據(jù)這個具體的需求,多幾次測試,多增加幾個產(chǎn)品經(jīng)理執(zhí)行這個想法。

光錐智能:用Agent開發(fā)軟件能夠降低多少成本?面壁智能:

    • 如果讓軟件工程師去開發(fā),至少需要幾萬塊錢的人工費(fèi),時(shí)間兩周起步。

但使用ChatDev開發(fā),價(jià)格只需要幾元到幾十元,最快幾分鐘就能跑通一個應(yīng)用。

    • 目前,一些相對簡單的軟件開發(fā)流程已經(jīng)完全跑通了,一個沒有代碼開發(fā)經(jīng)驗(yàn)的小白用戶,60%的場景應(yīng)用都能完全實(shí)現(xiàn)。

光錐智能:怎么去訓(xùn)練一個ChatDev?面壁智能:

    • 可以把這個事情理解成三步。

第一步是預(yù)設(shè)協(xié)作流程。

    • 在一個公司中,每個人都有固定的角色和分工。在群體智能場景中也需要一個預(yù)設(shè)的協(xié)作流程,比如在軟件開發(fā)的過程中,就可能涉及產(chǎn)品經(jīng)理、技術(shù)研發(fā)人員、測試人員等,每個人需要在其中發(fā)揮作用,甚至有時(shí)還會出現(xiàn)像人一樣互相battle的情況。

第二步是指導(dǎo)和反饋機(jī)制。

    • 流程設(shè)計(jì)中有指導(dǎo)角色和執(zhí)行角色,通過2個角色的互動溝通,減少執(zhí)行幻覺的出現(xiàn);同時(shí)任務(wù)完成后會有角色之間的反饋機(jī)制,類似現(xiàn)實(shí)世界中的跟老板匯報(bào),以此來增強(qiáng)運(yùn)行的準(zhǔn)確性。

第三步是大模型賦予Agent原子化能力。

    • 所有AI Agent的引擎和應(yīng)用都長在大模型上,光創(chuàng)建工作的協(xié)作流程還不夠,每個人還得干活兒,可以把大模型理解成“輸血泵”,AI Agent一旦有需求,大模型就把其需要的能力輸送給它。

光錐智能:ChatDev產(chǎn)品反過來對底層的大模型能力提出了哪些調(diào)整?面壁智能:

    • 這很大程度取決于上層應(yīng)用,拆解下來看的話,大致需要幾個基本的能力。首先是

復(fù)雜規(guī)劃

指令遵循的能力

    • ,基于對話分析項(xiàng)目、拆解需求、提出正確的指令的能力。在一個協(xié)同的組織里,有不同的角色發(fā)布不同的指令特別是在復(fù)雜的生產(chǎn)環(huán)境中,指令可能不是簡單的一句話,對于復(fù)雜的指令A(yù)I Agent能不能夠有一個思維鏈的方法,完成一個個的拆解,并且基于這個拆解去進(jìn)行實(shí)際落地,也是大模型本身要去解決的。其次是

編碼能力

    • ,因?yàn)樽詈笞非蟮慕Y(jié)果是要能在真實(shí)環(huán)境里跑通,反饋、測試、修改的前提都要基于完整的代碼流程。

再次是更長token的輸入窗口能力

    • ,以后需要做更復(fù)雜的軟件,就需要更復(fù)雜的任務(wù)理解、Prompt輸入和更復(fù)雜的上下文對話能力。最后還有格式化輸出對接的能力,對知識內(nèi)容的理解能力、精準(zhǔn)的生成表達(dá)能力等大模型的綜合能力。

光錐智能:如何理解大模型和AI Agent的關(guān)系?就AI Agent而言,面壁智能現(xiàn)在發(fā)展到了哪個階段?面壁智能:

    • 可以把大語言模型想象成一個哆啦A夢的魔法兜,現(xiàn)實(shí)中我需要的是怎么從這個兜里拿出東西,跟現(xiàn)實(shí)世界的真實(shí)需求去連接。我們打造的“AI Agent三駕馬車”,有點(diǎn)像是魔法棒,將大模型的能力轉(zhuǎn)化成實(shí)際的應(yīng)用。在具體應(yīng)用上:ChatDev已經(jīng)走過了論文研究、開源產(chǎn)品上線的前兩個階段,現(xiàn)在進(jìn)入了第三個階段——商業(yè)化產(chǎn)品孵化,會面向不同類型的用戶開放使用,以前更多是開發(fā)者討論的聲量,現(xiàn)在的產(chǎn)品開始正式面向普通用戶。同時(shí),基于Agent產(chǎn)品面壁智能也在跟一些B端企業(yè)合作,嘗試去輔助他們完成一些更復(fù)雜的工作。上面提到的“三駕馬車”可以視為未來誕生超級應(yīng)用的土壤,現(xiàn)在AI Agent的基建已經(jīng)逐步搭建起來;對于ChatDev產(chǎn)品中的哪些場景或者軟件應(yīng)用能夠跑出來,我們也希望在用戶使用過程中再去沉淀下來一些垂直的場景需求,探索更多商業(yè)化的空間。

光錐智能:如何看待OpenAI上線的“GPTs”功能?面壁智能:

    • OpenAI開發(fā)的GPTs,實(shí)際上屬于單體智能,OpenAI開放出來的是基礎(chǔ)Agent的構(gòu)建能力,如說工具調(diào)用、基于知識庫文件記憶能力。而ChatDev進(jìn)化到了群體智能階段,通過多Agent協(xié)同能去實(shí)現(xiàn)更復(fù)雜、貼近真實(shí)需求的應(yīng)用。

光錐智能:AI Agent的未來應(yīng)該是怎樣的?面壁智能:

  • 總體上來看,可能是更深層次的智能連接。我們說“智聯(lián)網(wǎng)”發(fā)展到后面也需要把物理連接納入進(jìn)去,單體智能再往前發(fā)展也會擴(kuò)展到物的智能、機(jī)器人的聯(lián)動。從群體智能角度來看,ToC或許是更大的社區(qū)化的虛擬組織,每個人的Agent都能通過虛擬數(shù)據(jù)連接在一起;ToB則是虛擬的組織、企業(yè),不同的企業(yè)和員工都能通過智能體納入到網(wǎng)絡(luò)當(dāng)中。發(fā)展至最后,整個社會將變成一個巨大的虛實(shí)結(jié)合的網(wǎng)絡(luò),形成“智聯(lián)網(wǎng)”——IoA(Internet of Agent)。通過不同的智能體,提供了更強(qiáng)的生產(chǎn)力,重新塑造整個生產(chǎn)關(guān)系,整個社會的產(chǎn)能也會有一個很大的提升。

       原文標(biāo)題 : OpenAI、微軟押注,大模型應(yīng)用的盡頭是AI Agent ?|對話面壁智能

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號