春江水暖鴨先知。NVIDIA當(dāng)下的動作正在透露出一些新的風(fēng)向。
文|周路平 趙艷秋
編|;
不久前,NVIDIA(英偉達(dá))發(fā)布了一個面向3D建模的生成式AI服務(wù),引起了業(yè)內(nèi)的廣泛矚目。如果說之前的生成式AI更多是在生成文字、圖片、視頻等二維世界的內(nèi)容。那么,這次NVIDIA正在通過生成式AI去幫助企業(yè)構(gòu)建3D資產(chǎn),加速數(shù)字孿生和仿真產(chǎn)業(yè)的發(fā)展,同時也加速AI在物理世界的應(yīng)用落地。
01
“CUDA原生”瞄準(zhǔn)了工業(yè)
春江水暖鴨先知。作為全球加速計算的領(lǐng)導(dǎo)者,NVIDIA的動作正在透露出一些新的風(fēng)向。
NVIDIA創(chuàng)始人兼CEO黃仁勛,在2024年SIGGRAPH上的兩場圍爐談話中,將其對AI的最新洞察,放在了生成式AI和加速計算,如何通過可視化,來改變制造業(yè)等行業(yè)上。NVIDIA也在會議期間推出了一套全新的NIM微服務(wù)。
SIGGRAPH大會是討論計算機(jī)圖形學(xué)最新創(chuàng)新的場所。NVIDIA發(fā)布了適用于OpenUSD、幾何體、物理學(xué)、材質(zhì)等的生成式AI模型與NIM微服務(wù)。OpenUSD是三維場景內(nèi)部數(shù)據(jù)交換的開源軟件,已逐漸成為三維視覺、建筑、設(shè)計、制造等眾多行業(yè)的標(biāo)準(zhǔn)。
借助這些模型和服務(wù),開發(fā)者能加速制造業(yè)、汽車、機(jī)器人等行業(yè)應(yīng)用的開發(fā)。
在兩場圍爐談話中,黃仁勛探討了構(gòu)建數(shù)字孿生、虛擬世界的重要性。他說,行業(yè)通過構(gòu)建城市規(guī)模的大規(guī)模數(shù)字孿生,來提高效率并降低成本。“比如,在部署到下一代人形機(jī)器人之前,AI可以在這種虛擬世界中進(jìn)行訓(xùn)練。”
為什么黃仁勛會重點討論工業(yè)可視化、虛擬世界或數(shù)字孿生?NVIDIA又為何在此時在CUDA生態(tài)中,推出全新的NIM微服務(wù)?
圖片來自NVIDIA官網(wǎng)
就如NVIDIA Omniverse與仿真技術(shù)副總裁Rev Lebaredian所表示的——重工業(yè)的生成式AI潮已經(jīng)到來。數(shù)智前線也獲悉,生成式AI正在從一些簡單場景,走入復(fù)雜的生產(chǎn)環(huán)節(jié)。而上述技術(shù)生態(tài),可加速這一進(jìn)程。
“直到最近,數(shù)字世界的主要用戶還是創(chuàng)意行業(yè);而現(xiàn)在,借助NVIDIA NIM微服務(wù)為OpenUSD帶來的增強(qiáng)功能和可訪問性,各個行業(yè)都可以創(chuàng)建基于物理學(xué)的虛擬世界和數(shù)字孿生,為這次新一輪AI技術(shù)熱潮做好準(zhǔn)備。”Rev Lebaredian說。
在汽車行業(yè),國內(nèi)車企都在“卷”數(shù)字孿生。“最近特斯拉即將發(fā)布FSD12.5版本,也在積極推動FSD在中國的落地。”一家中國大型車企人工智能人士告訴數(shù)智前線,“特斯拉把仿真作為戰(zhàn)略級目標(biāo),我們也在做元宇宙,解決自動駕駛數(shù)據(jù)閉環(huán)問題。”此前,車企采集“鬼探頭”數(shù)據(jù)難度大、成本高,F(xiàn)在,車企可以在元宇宙仿真環(huán)境中,解決長尾場景的訓(xùn)練。
在機(jī)器人行業(yè),一家電力巡檢機(jī)器人公司正在通過仿真環(huán)境訓(xùn)練AI,讓機(jī)器人能實時感知到電廠內(nèi)復(fù)雜的環(huán)境和物理空間,規(guī)劃移動路線,并可以查看沿路數(shù)千個在不同設(shè)備上的表計。
建筑設(shè)計是一項復(fù)雜耗時的工作,建筑設(shè)計中的3D模型是個必不可少的交付件。而對于一些復(fù)雜幾何形狀和異形結(jié)構(gòu),3D模型的重建工作難度較大,F(xiàn)在,一些設(shè)計企業(yè)與AI企業(yè)一起,嘗試只需要一些圖片、草圖和文字,就可以生成模型。還可以賦予建筑設(shè)計不同的材質(zhì),來完善設(shè)計。
在鋼鐵行業(yè),金相分析是通過顯微鏡查看材料切片內(nèi)部的缺陷和結(jié)構(gòu)等的一種方法,來了解基礎(chǔ)材料的整體性能。傳統(tǒng)人工的效率較低,還要嚴(yán)重依賴人的經(jīng)驗,F(xiàn)在,不少鋼鐵企業(yè)的一個共同的訴求是,期望利用以往的知識庫,通過訓(xùn)練專業(yè)的AI,來對材料進(jìn)行全方位的解析。
而NVIDIA通過全新的NIM微服務(wù),讓應(yīng)用企業(yè)不用從零開始,直接去調(diào)用服務(wù),再結(jié)合自己的數(shù)據(jù),快速實現(xiàn)一個應(yīng)用。因此,一些企業(yè)將此形容為“CUDA原生”。
伴隨生成式AI從一些邊緣場景到更深層次場景的落地,黃仁勛稱,“每個人都將擁有AI助手”。同時,AI與圖像技術(shù)等的融合正在深化,“幾乎每個行業(yè)都將受到這項技術(shù)的影響,無論是科學(xué)計算以更少的能源更好地預(yù)測天氣,還是與創(chuàng)作者合作生成圖像,或為工業(yè)可視化創(chuàng)建虛擬場景,”黃仁勛表示,“生成式AI還將徹底改變機(jī)器人自動駕駛汽車領(lǐng)域。”
02
新NIM微服務(wù),帶來哪些想象
上述這些行業(yè)應(yīng)用背后,都依賴3D建模和仿真技術(shù)的應(yīng)用。
而3D內(nèi)容和場景的構(gòu)建在過去一直是令人頭疼的事情,它涉及的鏈條和流程很復(fù)雜,比如建模、著色、動畫、照明、渲染等。
在過去數(shù)十年,動畫、視覺特效和游戲工作室一直在努力提升流程中各種工具之間的互操作性,但收效甚微。將數(shù)據(jù)從一個位置遷移到另一個位置非常棘手,因此工作室構(gòu)建了復(fù)雜的工作流程來管理數(shù)據(jù)互操作性。
而且,除了系統(tǒng)和工具的割裂,傳統(tǒng)的3D制作流程是線性協(xié)作,涉及多部門多人員的格式轉(zhuǎn)換和修改,費(fèi)時費(fèi)力。
OpenUSD是一個開源的通用3D數(shù)據(jù)交換框架,它在2023年由NVIDIA、皮克斯、蘋果等廠商牽頭成立,可通過軟件工具與數(shù)據(jù)類型之間的互通構(gòu)建虛擬世界,具有極高的互操作性和兼容性,解決創(chuàng)建三維場景時工作流和復(fù)雜性方面的多項挑戰(zhàn)。
OpenUSD也是NVIDIA Omniverse平臺的基礎(chǔ)。在與《連線》雜志資深撰稿人的對談中,黃仁勛曾如此表示:OpenUSD是第一種幾乎將所有工具的多模態(tài)表達(dá)融合在一起的格式。理想情況下,隨著時間的推移,人們可以將幾乎任何格式引入其中,讓每個人都能進(jìn)行協(xié)作并使內(nèi)容永遠(yuǎn)留存。而生成式AI,一定能夠助力Omniverse產(chǎn)生更好的仿真效果。
而NVIDIA這次推出的針對OpenUSD開發(fā)的NIM微服務(wù),也是全球首個用于OpenUSD開發(fā)的生成式AI模型。它將生成式AI的能力以NIM微服務(wù)的形式,整合進(jìn)USD工作流中,大幅降低了用戶運(yùn)用OpenUSD的門檻。同時,NVIDIA也發(fā)布了多款適用于機(jī)器人數(shù)據(jù)格式和Apple Vision Pro流式傳輸?shù)娜耈SD連接器。
圖片來自NVIDIA官網(wǎng)
目前,已經(jīng)發(fā)布的NIM微服務(wù)有三項:一是USD Code NIM微服務(wù),可以回答常識性O(shè)penUSD問題,并基于文本提示自動生成Python代碼。
二是USD Search NIM微服務(wù),使開發(fā)者能夠使用自然語言或圖像輸入,在海量OpenUSD、3D和圖像數(shù)據(jù)庫中進(jìn)行搜索,大大提高企業(yè)流程化檢索并處理材料的速度。
三是USD Validate NIM微服務(wù),可以檢查上傳文件與OpenUSD發(fā)布版本的兼容性,并生成完全由NVIDIA Omniverse Cloud API驅(qū)動的RTX渲染路徑追蹤圖像。
除了NVIDIA提供的原生NIM微服務(wù),生態(tài)伙伴也正在基于這些微服務(wù),創(chuàng)建了多個熱門的AI模型,提供給用戶進(jìn)行推理優(yōu)化。
全球知名的創(chuàng)意內(nèi)容平臺Shutterstock基于NVIDIA最新版本的Edify視覺生成模型,推出了文本轉(zhuǎn)3D的全新服務(wù),包括制作3D原型或填充虛擬環(huán)境等。
比如為虛擬場景創(chuàng)建能夠準(zhǔn)確反射的照明是一項復(fù)雜的任務(wù)。以前,創(chuàng)作者需要操作昂貴的360度攝像機(jī)裝備,親身到拍攝現(xiàn)場從頭開始創(chuàng)建背景,或者在龐大的資料庫中搜索近似的內(nèi)容。
但現(xiàn)在,通過3D生成服務(wù),用戶只需用文字或圖片描述他們所需要的具體環(huán)境,就能得到最大分辨率為16K的高動態(tài)范圍全景圖像 (360 HDRi)。而且,這些場景和組件可以快速切換,比如讓跑車出現(xiàn)在沙漠、熱帶海灘或者蜿蜒的山路上。
除了創(chuàng)建照明,創(chuàng)作者也可以快速添加各種渲染材質(zhì),如混凝土、木材或皮革等,從而構(gòu)建自己的3D資產(chǎn)。而且,在AI幫助下生成的3D資產(chǎn)也可以隨時進(jìn)行編輯并以各種流行的文件格式提供。
而NVIDIA的Edify AI模型,也在幫助Getty Images讓藝術(shù)家實現(xiàn)任意控制圖像的構(gòu)圖和風(fēng)格。比如在一張完美的珊瑚礁照片上漂浮一個紅色沙灘球。而且,創(chuàng)作者也可以用企業(yè)的數(shù)據(jù),在基礎(chǔ)模型上進(jìn)行微調(diào),生成符合特定品牌創(chuàng)意風(fēng)格的圖像。
這些模型微服務(wù)和工具正在極大地加速品牌方在3D資產(chǎn)上的創(chuàng)建,將使數(shù)字孿生的開發(fā)變得更加普及和便捷。
03
先發(fā)企業(yè)已開始嘗試
正是隨著3D內(nèi)容和資產(chǎn)創(chuàng)建變得更加便捷和準(zhǔn)確,工業(yè)、自動駕駛、工程、機(jī)器人等行業(yè)正在享受到生成式AI帶來的技術(shù)紅利。尤其在制造業(yè)和廣告創(chuàng)意行業(yè),一批先發(fā)企業(yè)正在積極通過NVIDIA Omniverse平臺加速數(shù)字孿生和仿真的落地應(yīng)用。
可口可樂是首個將Omniverse和NIM微服務(wù)所提供的生成式AI用于營銷場景的品牌。在其演示的一段視頻中,只需要在系統(tǒng)中用自然語言輸入“給我建一張桌子,上面放著塔可和莎莎醬,沐浴在晨光中”。
很快,USD Search NIM微服務(wù)能在龐大的3D資產(chǎn)庫中搜索出對應(yīng)的3D資產(chǎn),通過API的方式快速調(diào)用,而USD Code NIM則可以將這些模型組合成場景,開發(fā)人員輸入提示就可以獲得用于創(chuàng)造新穎3D世界的Python代碼,大大增強(qiáng)了他們的創(chuàng)作能力。可口可樂通過生成式AI,可以在全球100多個市場定制個性化的形象,實現(xiàn)本地化營銷。
圖片來自NVIDIA官網(wǎng)
而作為可口可樂背后的廣告服務(wù)商,WPP專門推出了智能營銷操作系統(tǒng)。該系統(tǒng)利用了Omniverse開發(fā)平臺和OpenUSD,能夠非常精簡且自動化地實現(xiàn)多語言文本、圖像和視頻的創(chuàng)建,簡化了廣告主和營銷人員的內(nèi)容創(chuàng)建過程。通過生成式AI服務(wù)于客戶,WPP將一個個瘋狂的創(chuàng)意搬到了現(xiàn)實。
正如WPP首席技術(shù)官所言,“這些創(chuàng)新的美妙之處在于它與我們的工作方式高度兼容,并充分利用了開放標(biāo)準(zhǔn)。這不僅加速了未來的工作,而且使我們能夠繼續(xù)鞏固和擴(kuò)展我們之前在OpenUSD等標(biāo)準(zhǔn)上的所有投資。通過使用NVIDIA NIM微服務(wù)與NVIDIA Omniverse,我們能夠以前所未有的速度與可口可樂公司等企業(yè)聯(lián)合推出創(chuàng)新的新生產(chǎn)工具。”
作為全球最大的消費(fèi)電子代工企業(yè),富士康專門為墨西哥的一家新工廠構(gòu)建了虛擬的數(shù)字孿生工廠,工程師可以在虛擬環(huán)境中定義流程和訓(xùn)練機(jī)器人,從而提高工廠的自動化水平和生產(chǎn)效率,節(jié)約時間、成本和能源。
富士康在背后也用到了Omniverse平臺來構(gòu)建其數(shù)字孿生,將所有3D CAD元素整合到同一個虛擬工廠中,并在那里使用Omniverse和OpenUSD上開發(fā)的可擴(kuò)展機(jī)器人仿真平臺NVIDIA Isaac Sim對機(jī)器人進(jìn)行訓(xùn)練,為其數(shù)字孿生帶來物理級精確和逼真的視覺呈現(xiàn)。
除了富士康,包括臺達(dá)電子、聯(lián)發(fā)科、和碩等電子制造企業(yè),都在使用NVIDIA AI和Omniverse構(gòu)建工廠數(shù)字孿生。
而小鵬汽車MPV車型小鵬X9在設(shè)計過程中則使用Omniverse平臺,通過將車型開發(fā)工作流引入虛擬世界,讓小鵬汽車在新車設(shè)計時規(guī)避傳統(tǒng)工作流存在的瓶頸。
比如,Omniverse平臺一方面擁有強(qiáng)大的互操作性,使得用于工業(yè)建模、渲染和3D特效的文件和數(shù)據(jù)不再需要繁復(fù)的轉(zhuǎn)換,加速了小鵬汽車設(shè)計團(tuán)隊之間的溝通協(xié)作;另一方面,小鵬汽車借助Omniverse的實時渲染與光線追蹤等功能,實現(xiàn)了汽車顏色和內(nèi)飾變化的即時可視化,讓虛擬效果更加真實,幫助承接用戶需求,進(jìn)而改進(jìn)產(chǎn)品體驗。
過去兩年,生成式AI的爆火讓外界的目光更多在一些ToC和協(xié)同辦公領(lǐng)域的應(yīng)用上,但現(xiàn)在,物理世界也將迎來一波新的爆發(fā)和機(jī)遇。