機(jī)器人賽道有多火?
資料來(lái)源:voxposer.github.io等
作者:Alex
物聯(lián)網(wǎng)智庫(kù) 整理發(fā)布
導(dǎo)讀
近期,由知名美籍華裔人工智能學(xué)者李飛飛帶隊(duì)的項(xiàng)目組,發(fā)布了一項(xiàng)最新的“具身智能”成果——VoxPoser。
你的童年里是否也有一段關(guān)于機(jī)器人的記憶——來(lái)自于阿諾德·施瓦辛格飾演的T-800終結(jié)者。
1984年,這部由好萊塢鬼才導(dǎo)演詹姆斯·卡梅隆執(zhí)導(dǎo)的科幻電影《終結(jié)者》上映即獲得無(wú)數(shù)影迷追捧,原因無(wú)他,除了一眾影星的傾情演繹之外,導(dǎo)演天馬行空的想象著實(shí)讓當(dāng)時(shí)的人為之著迷。
如今距離電影上映已過(guò)去將近40年時(shí)間,而電影中具有獨(dú)立行動(dòng)能力的機(jī)器人也被科學(xué)家們真真實(shí)實(shí)地搬進(jìn)了現(xiàn)實(shí)當(dāng)中。
就在近期,由知名美籍華裔人工智能學(xué)者李飛飛帶隊(duì)的項(xiàng)目組,發(fā)布了一項(xiàng)最新的“具身智能”成果——VoxPoser。
該項(xiàng)目主要研究目標(biāo)是——在給定開(kāi)放式指令集和對(duì)象集的情況下,為各種操作任務(wù)合成機(jī)器人軌跡,即密集的六個(gè)自由度末端執(zhí)行器航點(diǎn)序列。
該項(xiàng)目通過(guò)從大語(yǔ)言模型和視覺(jué)-語(yǔ)言模型中提取機(jī)會(huì)和約束,構(gòu)建3D值地圖,可以讓機(jī)器人在零樣本學(xué)習(xí)的情況下,理解指令,分解任務(wù),規(guī)劃路徑,并最終實(shí)現(xiàn)操作任務(wù)。
值得一提的是,在該方法下進(jìn)行機(jī)器人操控時(shí),是不需要做數(shù)據(jù)投喂和預(yù)訓(xùn)練的。
目前,關(guān)于該項(xiàng)成果的項(xiàng)目主頁(yè)和相關(guān)論文都已經(jīng)上線,對(duì)應(yīng)的代碼也即將推出。
關(guān)于VoxPoser
關(guān)于VoxPoser這項(xiàng)成果,可以說(shuō)又是人工智能領(lǐng)域和機(jī)器人領(lǐng)域融合的一個(gè)新的里程碑。
它正在讓抽象的AI通過(guò)機(jī)器人變得具象化,未來(lái),或許你期望的就不再是童年的那個(gè)“T-800終結(jié)者”玩具,而可能是真正的具備具身智能的機(jī)器人。
具體來(lái)說(shuō),VoxPoser的原理解釋起來(lái)還是相對(duì)簡(jiǎn)單的。
就是使用者給定執(zhí)行具體需求的自然語(yǔ)言指令,以及環(huán)境信息(通過(guò)相機(jī)采集的RGB-D的圖像)。
然后,LLM(Large Language Model,大語(yǔ)言模型)將根據(jù)以上信息生成與VLM(Visual Language Model,視覺(jué)-語(yǔ)言模型)交互的代碼。
基于這一系列操作,系統(tǒng)會(huì)自動(dòng)生成相應(yīng)的供機(jī)器人進(jìn)行空間感知的“3D Value Map”(3D值圖)。它會(huì)“告訴”機(jī)器人自己在哪里、目標(biāo)在哪里。
之后進(jìn)入下一個(gè)階段,將生成的3D值圖用作機(jī)器人運(yùn)動(dòng)規(guī)劃的目標(biāo)函數(shù),便能夠合成最終要進(jìn)行的操作軌跡了。
這一成果的最大亮點(diǎn)在于——整個(gè)機(jī)器人訓(xùn)練過(guò)程是不需要進(jìn)行任何額外的數(shù)據(jù)投喂和預(yù)訓(xùn)練的。換而言之,目前機(jī)器人訓(xùn)練所需要進(jìn)行的預(yù)定義訓(xùn)練、大規(guī)模數(shù)據(jù)缺失等問(wèn)題,在這里統(tǒng)統(tǒng)不存在。
正是因?yàn)榫邆渖鲜瞿芰,機(jī)器人只要符合相關(guān)流程,也基本能夠完成任何給定任務(wù)。
基于此,項(xiàng)目團(tuán)隊(duì)按照該方法進(jìn)行了大量的實(shí)驗(yàn),通過(guò)下達(dá)日常操作任務(wù),比如,“把毛巾掛在架子上”、“把最上面的抽屜關(guān)上”、“把面包片從面包機(jī)中取出來(lái),放到木板上”等,對(duì)VoxPoser進(jìn)行驗(yàn)證。
在實(shí)驗(yàn)過(guò)程中,項(xiàng)目團(tuán)隊(duì)還故意了打斷任務(wù)執(zhí)行,展示了該成果在動(dòng)態(tài)擾動(dòng)下的魯棒性。
由于語(yǔ)言模型輸出在整個(gè)任務(wù)中保持不變,因此VoPoser可以緩存其輸出,并使用閉環(huán)視覺(jué)反饋重新評(píng)估生成的代碼,從而可以使用MPC快速重新規(guī)劃。
比如當(dāng)對(duì)機(jī)器人發(fā)出“把垃圾紙分類(lèi)到藍(lán)色托盤(pán)里”,可以看到無(wú)論怎樣對(duì)機(jī)器人進(jìn)行干擾,包括阻止機(jī)器人行動(dòng)、調(diào)整物品擺放,它都可以順利執(zhí)行任務(wù)。
論文指出,無(wú)論是在真實(shí)領(lǐng)域,還是模擬領(lǐng)域,VoPoser的實(shí)驗(yàn)結(jié)果要顯著優(yōu)于基于基線任務(wù)。
在真實(shí)領(lǐng)域,VoPoser表現(xiàn)的會(huì)更加靈活、更加穩(wěn)健,尤其在外部干擾的情況下。
另外,模擬領(lǐng)域中,VoPoser在兩個(gè)類(lèi)別(總共13個(gè)任務(wù))上的表現(xiàn)也更好。
VoPoser在零樣本下的學(xué)習(xí)能力和出錯(cuò)情況也更優(yōu)。
另外,論文闡述了VoPoser所涌現(xiàn)的四個(gè)新能力:
估算物理屬性:給定兩個(gè)未知質(zhì)量的方塊,機(jī)器人被要求使用現(xiàn)有工具進(jìn)行物理實(shí)驗(yàn),確定哪個(gè)方塊更重。
常識(shí)性行為推理:在擺桌子的任務(wù)中,用戶可以指定行為偏好,比如“我是左撇子”,這要求機(jī)器人在任務(wù)環(huán)境中理解其含義。
細(xì)粒度語(yǔ)言校正:對(duì)于需要高精度的任務(wù),比如“用蓋子蓋住茶壺”,用戶可以給機(jī)器人提供精確的指令,比如“你離目標(biāo)有1厘米的偏差”。
多步驟視覺(jué)操作:在任務(wù)“精確地將抽屜打開(kāi)一半”的情況下,由于物體模型不可用,信息不足,機(jī)器人可以根據(jù)視覺(jué)反饋提出多步驟的操縱策略。首先完全打開(kāi)抽屜并記錄把手的位移,然后將其關(guān)閉到中間位置以滿足要求。
機(jī)器人開(kāi)啟AI的下一個(gè)浪潮
VoPoser的誕生并非偶然。去年年中,李飛飛曾在一篇文章中指出,計(jì)算機(jī)視覺(jué)未來(lái)發(fā)展的幾個(gè)重要方向,其中最重要的一個(gè)就是具身智能。
所謂具身智能,就是Embodied Intelligence,簡(jiǎn)稱(chēng)EI,圖靈于1950年在論文《Computing Machinery and Intelligence》中第一次提出這一概念。具身智能可以讓機(jī)器像人一樣能和環(huán)境交互感知,自主規(guī)劃、決策、行動(dòng),并具備執(zhí)行能力,也被認(rèn)為是AI的終極形態(tài)。
李飛飛直言,具身智能將會(huì)成為AI領(lǐng)域的下一個(gè)“北極星問(wèn)題”之一。而在不久前的ITF World 2023半導(dǎo)體大會(huì)上,英偉達(dá)首席執(zhí)行官黃仁勛也表達(dá)了類(lèi)似的觀點(diǎn),稱(chēng)“AI的下一個(gè)浪潮將是具身智能”。
無(wú)獨(dú)有偶,對(duì)于具身智能引發(fā)的AI與機(jī)器人融合所形成的巨大想象空間,李飛飛也并不是唯一的“追光者”。
因ChatGPT有“老樹(shù)逢春”感覺(jué)的微軟也沒(méi)閑著,他們此前也發(fā)布了一篇論文,探索大模型與機(jī)器人的結(jié)合。
論文提到,將把ChatGPT的功能擴(kuò)展到機(jī)器人領(lǐng)域,從而可以讓使用者用自然語(yǔ)言去控制如機(jī)械臂、無(wú)人機(jī)、家庭輔助機(jī)器人等“智能體”。
除了微軟之外,在今年年初,谷歌盡管在ChatGPT上栽了跟頭,但在具身智能領(lǐng)域卻并未遲疑。比起論文來(lái),谷歌反倒直接“甩”出了一個(gè)參數(shù)達(dá)5620億的具身多模態(tài)語(yǔ)言模型——PaLM-E,其最亮眼的能力就是可以讓機(jī)器人具備“聽(tīng)懂人話”的能力。
據(jù)了解,PaLM-E-562B集成了參數(shù)量540B的PaLM和參數(shù)量22B的視覺(jué) Transformer(ViT),是目前已知的最大的視覺(jué)-語(yǔ)言模型。
而在國(guó)內(nèi),剛剛過(guò)去的“2023世界人工智能大會(huì)上”(WAIC),智能機(jī)器人簡(jiǎn)直成了除AIGC之外的另一大亮點(diǎn)。會(huì)上,數(shù)百家國(guó)內(nèi)外企業(yè)集結(jié),各家智能機(jī)器人同臺(tái)競(jìng)技。
比如智能機(jī)器人企業(yè)達(dá)闥,全方位展示了具身智能服務(wù)機(jī)器人解決方案。據(jù)了解,達(dá)闥此次亮相的多臺(tái)機(jī)器人,全部接入和升級(jí)了達(dá)闥最新發(fā)布的RobotGPT、海睿AGI和海睿OS 5.1。
其中,達(dá)闥人形機(jī)器人小姜下一代Cloud Ginger 2.0全身采用了新一代智能柔性關(guān)節(jié)SCA2.0和多種傳感器,同時(shí)具備視覺(jué)和激光定位導(dǎo)航能力,可以包攬迎賓接待、商務(wù)導(dǎo)覽、沖泡咖啡、物品遞送、節(jié)目表演、教育科研、陪護(hù)照看等多種任務(wù)。
另?yè)?jù)市場(chǎng)消息,達(dá)闥機(jī)器人已獲超10億人民幣C輪融資。此前,達(dá)闥機(jī)器人完成5輪融資,赴美上市失敗后有消息稱(chēng)其今年將赴港上市。
云深處科技則在本屆大會(huì)上亮相了四足機(jī)器人絕影Lite3和工業(yè)級(jí)絕影X20多傳感融合版。尤其值得一提的是,絕影X20面向工業(yè)垂類(lèi)賽道,具備AI智能識(shí)別和自主任務(wù)規(guī)劃功能,可以為電力、建筑等專(zhuān)業(yè)行業(yè)提供解決方案。
而除了機(jī)器人本賽道的玩家“樂(lè)此不疲”的追逐具身智能的風(fēng)口之外,還有越來(lái)越多的“跨界選手”加入其中。
互聯(lián)網(wǎng)科技企業(yè)代表:網(wǎng)易、字節(jié)跳動(dòng)、京東、美團(tuán)等巨頭均沒(méi)閑著,紛紛投資成立了專(zhuān)業(yè)機(jī)器人業(yè)務(wù)公司。
據(jù)公開(kāi)消息顯示,6月28日,杭州網(wǎng)易軒之轅智能科技有限公司、網(wǎng)易牽波智能科技(杭州)有限公司同時(shí)成立,經(jīng)營(yíng)范圍包括了智能機(jī)器人的研發(fā)和人工智能應(yīng)用軟件的開(kāi)發(fā)。而需要指出的是,事實(shí)上早在2017年,網(wǎng)易就成立了網(wǎng)易伏羲,并且網(wǎng)易伏羲具身智能工程機(jī)器人也在本屆WAIC上驚艷亮相。
緊隨網(wǎng)易的是字節(jié)跳動(dòng),7月4日,該公司傳出也將要造機(jī)器人。并且消息透露,其機(jī)器人團(tuán)隊(duì)目前已經(jīng)集合50人,年底將擴(kuò)充至百人以上。成立后,字節(jié)機(jī)器人團(tuán)隊(duì)將隸屬于字節(jié)AI Lab,由現(xiàn)任總監(jiān)李航領(lǐng)導(dǎo)。
京東雖然暫時(shí)沒(méi)有關(guān)于新的機(jī)器人公司成立的消息爆出,但據(jù)6月初的消息顯示,京東集團(tuán)旗下全平臺(tái)云計(jì)算綜合服務(wù)提供商京東云計(jì)算有限公司也進(jìn)行了工商變更, 經(jīng)營(yíng)范圍新增了智能機(jī)器人研發(fā)、電池零配件生產(chǎn)等。
傳統(tǒng)行業(yè)玩家中,碧桂園、中國(guó)石化等躬親入局。其中,碧桂園較早就入局機(jī)器人賽道,而中國(guó)石化銷(xiāo)售股份有限公司聯(lián)合航天云機(jī)(北京)科技有限公司則在今年初成立的易嘉油智能機(jī)器人有限公司,主要做服務(wù)消費(fèi)機(jī)器人制造、服務(wù)消費(fèi)機(jī)器人銷(xiāo)售、智能機(jī)器人的研發(fā)等。
寫(xiě)在最后
作為從科幻電影中走進(jìn)現(xiàn)實(shí)的一個(gè)典型應(yīng)用,人們對(duì)于機(jī)器人的向往絕不是說(shuō)說(shuō)而已。
值得一提的是,受到WAIC影響,機(jī)器人賽道的持續(xù)火爆引起了資本領(lǐng)域的極大興趣,期間機(jī)器人相關(guān)板塊備受關(guān)注,企業(yè)股票也是順勢(shì)上漲。
另?yè)?jù)中國(guó)電子學(xué)會(huì)在《中國(guó)機(jī)器人產(chǎn)業(yè)發(fā)展報(bào)告(2022年)》中的預(yù)測(cè),到2024年,全球機(jī)器人市場(chǎng)規(guī)模將有望突破650億美元。
真金白銀的投入,往往說(shuō)明了問(wèn)題——隨著AI大模型和機(jī)器人的深度融合,更智能、更聰明的機(jī)器人勢(shì)必將成為新一輪的創(chuàng)新風(fēng)口。
參考資料:
1.https://voxposer.github.io/
2.https://voxposer.github.io/voxposer.pdf
3.https://www.youtube.com/watch?v=Yvn4eR05A3M
4.https://mp.weixin.qq.com/s/eaZtaYMJYe0oCLq1h0fPiw
5.https://mp.weixin.qq.com/s/XleXS_5shzZNiOSxUFZfgQ
6.https://mp.weixin.qq.com/s/s0YEUCHlix-AVQAU_gtlZA
7.https://www.thepaper.cn/newsDetail_forward_18791323
8.https://www.zhihu.com/question/540675571
原文標(biāo)題 : 機(jī)器人賽道有多火?有人剛?cè)?0億,字節(jié)美團(tuán)布局,還有AI科學(xué)家曬成果
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專(zhuān)題
- 1 Intel宣布40年來(lái)最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣(mài)
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來(lái)
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市