注入AI的靈魂后,數(shù)字人將成為所有人的“門戶”
PC時代,門戶是一個個網(wǎng)頁;移動互聯(lián)網(wǎng)時代,變成了一個個APP、公眾號、短視頻;在AI時代,則是經(jīng)過大模型強化后的數(shù)字人。
自古以來,人類就有著對自我影像的追求和渴望。影像是人類的延伸、記憶,也是人類的表達。
過去的兩百多年里,人類為了留住自我的影像,創(chuàng)造了各種手段和工具。從最初的畫像,到后來的攝像機,再到今天的數(shù)字人,都是人類為了留住畫像,解放人類的軀體,而進行一次次技術革新。
盡管數(shù)字人從誕生那天起,就一直在試圖模仿和復制真實的人類,但由于時代的局限,以往的數(shù)字人,離人們想象中那栩栩如生的形象,總是差了點氣候,
其在商業(yè)上的應用,也總是難免被人視作“雞肋”。
然而,AI時代的到來,似乎為這一曾經(jīng)“聊勝于無”的技術,注入了新的靈魂。憑借愈發(fā)逼真的形象,數(shù)字人開始在更多的場景、行業(yè)中進行賦能。
01 “前浪”艱難探索
很多人在談到數(shù)字人的過去時,往往都會陷入一個誤區(qū),認為最初的數(shù)字人僅僅是個被炒起來的概念,是個像VR那樣,看似潛力無限,實則可有可無的“雞肋”。
實際上,這樣的看法,忽略了一個重要的現(xiàn)實,那就是:
在數(shù)字人誕生的早期,不是人們沒有對數(shù)字人的需求,而是當時的技術、成本,根本滿足不了這樣的需求。
具體來說,早期的數(shù)字人,主要存在著成本高昂、技術標準不統(tǒng)一、形象難以與真人媲美等缺陷。
據(jù)國內(nèi)領先的數(shù)字人企業(yè)風平智能介紹,在數(shù)字人處于2D卡通時代時,雖然也有部分企業(yè),出于營銷時增加新奇感的需要,訂購了一些數(shù)字人,但其中99%的數(shù)字人,在訂購之后半年就再無人問津。
究其原因,是當時數(shù)字人的成本太高,而應用場景卻又太窄了。
試想一下,花費數(shù)十萬制作出來的卡通數(shù)字人,除了在部分需要增加“新奇感”的應用場景外,還能用在什么地方呢?
你不能指望人們在上課、開會或講座這些嚴肅的場景里,看著一個卡通形象滔滔不絕吧?
后來,雖然隨著技術的進步,數(shù)字人的形象開始逐漸朝著寫實、3D的方向發(fā)展,可居高不下的成本,仍然讓許多企業(yè)望而卻步。
一般來說,數(shù)字人的制作主要包括了數(shù)據(jù)采集、處理和應用等方面,而根據(jù)數(shù)據(jù)處理的復雜度和效率,以及數(shù)據(jù)應用的規(guī)模和質(zhì)量的不同,一個3D化的寫實數(shù)字人,成本可達到數(shù)十萬到百萬元不等。
這還是剔除了后期運營成本的情況下。
以抖音美妝達人“柳夜熙”為例,其制作企業(yè)創(chuàng)壹科技CEO梁子康曾對媒體表示,“柳夜熙”僅制作投入就在百萬元級別,而第一條“柳夜熙”的短視頻成本約幾十萬元。超寫實虛擬人視頻每秒的成本都在萬元區(qū)間。
因為想要讓數(shù)字人“動”起來,就需要讓AI驅(qū)動數(shù)字人的語音表達、 面部表情、動作生成等等,這都是巨大的投入。
而花費了如此巨大的數(shù)字人,最后還是只能局限在娛樂、直播、內(nèi)容IP等領域;
這是因為,當時的數(shù)字人,交互能力還不夠強大和智能,無法理解復雜語境、也無法處理多輪對話,導致用戶的溝通和服務效率很低。
即便有的數(shù)字人,可以通過真人的方式驅(qū)動,可這類數(shù)字人的交互能力,也要受限于真人操作者的水平和風格,這使其很難滿足不同用戶和場景的多元化需求。
因此,只有在娛樂、直播等更加看重“門面”和“顏值”的場景中,數(shù)字人才能占據(jù)一席之地。
然而,所有這一切的限制,都隨著當今AI革命的到來,而被紛紛打破了。
02 成本暴降、井噴來臨
2020年,隨著元宇宙概念的火熱,市場對于提高數(shù)字人生產(chǎn)效率和提升商業(yè)化的訴求日益高漲。同時,5G、AI等新技術更新?lián)Q代,也讓數(shù)字人得到了煥發(fā)新生的機會。
其中幾項關鍵的技術,讓數(shù)字人極大地提升了與真人的接近度。
例如,人像驅(qū)動引擎,可以通過4D掃描、智能綁定等AI技術,實現(xiàn)數(shù)字人的唇形驅(qū)動、肢體驅(qū)動、表情驅(qū)動、手勢感知等,同時減少動作捕捉、CG合成的制作流程,大幅降低了成本。
而智能對話引擎,通過自然語言處理技術,為數(shù)字人快速定制對話能力、持續(xù)提升對話效果。
這些技術,讓數(shù)字人在表現(xiàn)力、智慧度、交互能力上都得到了大幅提升。
也就是在這一階段,包括百度、騰訊在內(nèi)的國內(nèi)各大企業(yè),開始在數(shù)字人領域八仙過海,各顯神通。
例如,百度推出的曦靈數(shù)字人平臺,通過自然語言處理、語音識別、計算機視覺等技術的提升,讓數(shù)字人在視覺表現(xiàn)力上有了顯著提升。
雖然形象仍然是3D人物,但從五官細節(jié),神態(tài)動作等方面,都明顯在朝著更寫實的方向進行發(fā)展。
以前需要兩三個月時間做出來的3D數(shù)字人,現(xiàn)在可以壓縮到小時級。
同時,通過在線語音交互注意力模型,數(shù)字人也終于變得“音畫同步”了,逐字口型準確率達到了98.5%。
而得益于新一代數(shù)字更生動的表現(xiàn)力,曦靈平臺推出的數(shù)字人,也從單一的娛樂領域,擴展到了更多元的行業(yè)。例如在2B端擔任數(shù)字理財專員、數(shù)字客服、虛擬培訓師等角色,或是新聞播報員等。
騰訊在數(shù)字人方面,也發(fā)布了智能小樣本數(shù)智人生產(chǎn)平臺。
騰訊方面稱,該平臺可實現(xiàn)“自助式”數(shù)智人生產(chǎn)制作,只需經(jīng)過3分鐘真人口播視頻、100句語音素材的訓練,便可在輸入音頻、文本等多模態(tài)數(shù)據(jù)后,實時建模并生成高清人像,在24小時內(nèi)制作出與真人近似的“數(shù)智人”,其使用成本也將被降至千元級別。
可以說是BAT三巨頭中,最早實現(xiàn)真人級數(shù)字人的企業(yè)。
小樣本“數(shù)智人”從直觀上感受是2D視頻,但背后其實是3D人像技術在支撐。通過3D人臉結構的先驗信息引入,使數(shù)智人口型、表情更到位,讓小樣本“數(shù)智人”形象實現(xiàn)“皺紋級”還原。
除了百度、騰訊這些大廠外,一些默默耕耘于數(shù)字人垂直賽道的企業(yè),也憑借日益精湛的技術,打造出了更逼真和生動的數(shù)字人。
在數(shù)字人領域鉆研已久的風平智能,就是一個這樣的代表。
其獨特的XGen智造系統(tǒng),和豐富、可定制的知識庫,在低成本高質(zhì)量生產(chǎn)數(shù)字人的同時,還能使每一個數(shù)字人都擁有獨一無二的“智能大腦”。從而擴展了其多元化的場景應用能力。
同時,通過深度學習技術建模,風平智能的數(shù)字人還能支持129種語種,實現(xiàn)了跨國互動無障礙的交流。其制造的數(shù)字人,已應用在了新東方的課堂直播中。
在這一階段,數(shù)字人所呈現(xiàn)出的總體趨勢,是制作成本的大幅度下降,以及表現(xiàn)力的突飛猛進。
而這些技術進步,所帶來的直接的后果,就是數(shù)字人技術的不斷下沉和趨同。
03 當AI的靈魂注入數(shù)字人
從概念提出到場景落地,AIGC加持下的數(shù)字人,已經(jīng)從原先幾十萬、上百萬的制作成本,數(shù)個月的制作周期,降低到了現(xiàn)在數(shù)千元,十幾個小時的制作門檻。
數(shù)字人的應用場景,早已從單一的B端逐漸向C端擴散。而這樣的擴散,必將會重塑人類信息的輸出端口。
縱觀數(shù)字時代的每一次變革,人類信息的輸出端口,一直在不停變化。
在傳統(tǒng)的PC時代,這樣的端口是屏幕上的一個個網(wǎng)頁;
到了移動互聯(lián)網(wǎng)時代,這樣的端口則變成了一個個APP;
自媒體興起后,這樣的端口又變成了一個個公眾號、短視頻;
而在AIGC時代,經(jīng)過AI大模型強化后的數(shù)字人,則注定會擁有以往各類端口所不具備的知識量和交互能力。
到了那一天,也許人類真的會像比爾蓋茨所說的那樣:“再也不會去使用搜索引擎,不會去生產(chǎn)力網(wǎng)站,也不會再去使用亞馬遜。”
在蓋茨的設想中,這個“AI助理”將有能力理解人類的需求和習慣,同時會幫助人類“讀他們沒有時間讀的書。”
如此一來,AI加持下的數(shù)字人,就成為了人類更終極、更先進的輸出端口。
此外,在每一具數(shù)字生成的皮囊下,人們?nèi)阅芸吹讲灰粯拥撵`魂。
這也是今天GPT-4等先進的大模型,與數(shù)字人進行結合的最大意義。
通過大模型豐富的知識,純熟的語義理解和交互能力,和相應行業(yè)、個人不同的需求,每一個數(shù)字人,都可以“因地制宜”、“因人制宜”地幻化出各種不同性格、思想和技能,進而真正做到了“千人千面”的效果。
由此可見,在必將到來的AGI時代,真正決定數(shù)字人高下的,就是其獨一無二的靈魂。
原文標題 : 注入AI的靈魂后,數(shù)字人將成為所有人的“門戶”
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-10.29立即報名>> 2024德州儀器嵌入式技術創(chuàng)新發(fā)展研討會
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月14日立即報名>> 2024工程師系列—工業(yè)電子技術在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價拍賣
- 5 具身智能火了,但規(guī)模落地還需時間
- 6 國產(chǎn)英偉達們,抓緊沖刺A股
- 7 三次錯失風口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實力拉滿
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市