當(dāng)聽障人士實(shí)現(xiàn)手語自由:手語AI平臺(tái)的產(chǎn)業(yè)狂想
盼望著,盼望著,春天的腳步近了,雪容融也終于正式上崗,迎來了自己的主場(chǎng)——2022北京冬殘奧會(huì)。
本屆冬奧會(huì)不僅是運(yùn)動(dòng)員們的競(jìng)技舞臺(tái),更是科技公司“秀肌肉”的絕佳舞臺(tái)。諸多科技亮點(diǎn)之中,大家可能都注意到了,冰墩墩和雪容融有一位共同的“同事”——手語數(shù)字人。
2月4日晚開幕的冬奧會(huì)上,央視新聞AI手語主播正式上崗,陪伴聽障人士見證了一場(chǎng)場(chǎng)精彩絕倫的比賽。即將開幕的冬殘奧會(huì),這位手語數(shù)字人也義不容辭,將披掛上陣,讓聽障人士實(shí)時(shí)感受冰雪運(yùn)動(dòng)的魅力。
創(chuàng)造豐厚的冬奧遺產(chǎn),為國(guó)家、主辦城市、人民群眾帶來長(zhǎng)期的、積極的收益,也是成功辦奧的重要標(biāo)志之一。在日常生活中,手語數(shù)字人能不能繼續(xù)發(fā)光發(fā)熱,為聽障人士提供服務(wù)呢?
我們關(guān)注到,3月3日,央視新聞AI手語主播的制作者——百度智能云曦,又推出“AI手語平臺(tái)”,通過分鐘級(jí)生成手語合成視頻、手語主播實(shí)時(shí)直播等能力,為手語服務(wù)的普及難題,提出了科技平臺(tái)化的新解法。
同時(shí),百度智能云曦靈還發(fā)布了“AI手語平臺(tái)一體機(jī)”,讓一些需要硬件交互的場(chǎng)景,比如醫(yī)院、銀行、車站等公共場(chǎng)合,插電即可提供手語服務(wù),快速部署無障礙窗口。
平臺(tái)化和軟硬協(xié)作的革新,正在讓手語數(shù)字人走上一條與社會(huì)價(jià)值長(zhǎng)期對(duì)接、一同成長(zhǎng)的進(jìn)化之路。
科技巨頭們都在積極打造手語數(shù)字人,反映出哪些潮水的方向?數(shù)字生命與智能技術(shù)的溫情加速照進(jìn)現(xiàn)實(shí),這究竟意味著什么?
數(shù)字生命覺醒時(shí):手語數(shù)字人的能力體系
百度智能云曦靈平臺(tái)賦予手語數(shù)字人哪些特殊能力?我們不妨以人類手語老師的標(biāo)準(zhǔn)來審視一下。
有一種“難”,叫朱廣權(quán)的手語老師,想要實(shí)時(shí)且準(zhǔn)確地翻譯出朱廣權(quán)的妙語連珠,千挑萬選的央視手語老師有時(shí)也難免手忙腳亂。而在此前與朱廣權(quán)的在線pk中,這位由“百度智能云曦靈”打造的首個(gè)AI手語主播,面對(duì)朱廣權(quán)不斷拋出的超高速順口溜,立馬就能做出反應(yīng),表現(xiàn)出流暢、精準(zhǔn)的業(yè)務(wù)能力。
綜合來看,手語主播的華麗炫技,以及冬奧會(huì)上的扎實(shí)服務(wù),來自百度智能云曦靈平臺(tái)提供的三個(gè)方面的基礎(chǔ)能力:
1.理解能力。
真實(shí)世界中,很容易受到噪音干擾,人類手語老師必須聽清、聽懂新聞內(nèi)容,不然翻譯出來也可能是錯(cuò)誤的,一通比劃猛如虎,但無法真正投入使用。
想要聽清,需要領(lǐng)先的語音識(shí)別能力。百度智能云曦靈平臺(tái)融合了百度自然語言處理技術(shù),成熟領(lǐng)先的全雙工ASR(Automatic Speech Recognition)語音識(shí)別模型,近場(chǎng)中文普通話的識(shí)別準(zhǔn)確率,能夠達(dá)到98%以上。
輕松搞定各種語音內(nèi)容,即使段子手朱廣權(quán)的神級(jí)語速也不在話下,這為后續(xù)數(shù)字人的手語翻譯打下了堅(jiān)實(shí)的基礎(chǔ),使得AI手語平臺(tái)一體機(jī)更好地應(yīng)用于不同場(chǎng)景中。
2.翻譯能力。
感知之外,手語老師要分析、歸納重要信息,根據(jù)語句整體意思進(jìn)行精煉和語序調(diào)整,將其轉(zhuǎn)換成手語語言。
一些廠商研發(fā)的手語數(shù)字人直接采用“手勢(shì)漢語語料”,好處是無需重新標(biāo)注,節(jié)省時(shí)間,問題是生硬地按照說話順序?qū)⑹终Z手勢(shì)連接起來,并不能算是“人類高質(zhì)量手語”。
舉個(gè)例子,“我想回家”并不是將這四個(gè)漢字依次比劃出來,而是按照“家”、“回”、“我想”的順序來表達(dá)。
因此,想要翻得準(zhǔn),手語數(shù)字人必須學(xué)會(huì)自然手語語序。百度智能云曦靈平臺(tái)就基于“國(guó)家手語語法規(guī)則”,聯(lián)合手語語言學(xué)專家,特殊教育專家、天津理工大學(xué)等,邀請(qǐng)上百位聽障學(xué)生做數(shù)據(jù)標(biāo)注,形成了近千萬的高質(zhì)量訓(xùn)練數(shù)據(jù)。
有了數(shù)據(jù),接下來就是模型設(shè)定與訓(xùn)練。基于百度多年積累的神經(jīng)網(wǎng)絡(luò)翻譯技術(shù),設(shè)計(jì)了從中文文本到手語符號(hào)的翻譯方法,打造出了業(yè)內(nèi)首個(gè)基于神經(jīng)網(wǎng)絡(luò)的精煉度可控手語翻譯模型,讓手語數(shù)字人的翻譯可懂度達(dá)到85%以上,媲美主流的中英,中日等方向的機(jī)器翻譯結(jié)果。
3.表達(dá)能力。
手語中,手勢(shì)必不可少,還需要表情、口型、動(dòng)作等肢體語言的配合,幫助聽障人士更好地理解。比如疑問句“吃飯了嗎“,不僅要做出吃飯的手勢(shì),還要配上疑惑的表情,眉頭皺起、眼睛睜大。
要讓手語數(shù)字人聲情并茂、手舞足蹈地表達(dá),尤其是3D人像,有著不小的技術(shù)難度。一些手語數(shù)字人動(dòng)作過快,有時(shí)又存在卡頓不連貫的情況。為了訓(xùn)練手語數(shù)字人的“聲臺(tái)形表“,百度智能云曦靈平臺(tái)也是煞費(fèi)苦心:
表情上,百度智能云用4D掃描數(shù)據(jù),積累了超1萬個(gè)臉部面4D數(shù)據(jù),借助高精數(shù)字人“文字到形狀的跨模態(tài)面部表情生成技術(shù)”,能夠準(zhǔn)確生成微笑、開心笑、wink、吹泡泡、白眼、思考等表情。口型合成準(zhǔn)確性達(dá)98.5%,a和e這樣發(fā)音時(shí)表情接近的字母,都可以細(xì)致的區(qū)分。
驅(qū)動(dòng)時(shí),通過個(gè)性化TTS,根據(jù)輸入的文本/語音信息來進(jìn)行自適應(yīng),結(jié)合多種預(yù)置動(dòng)作,驅(qū)動(dòng)數(shù)字人的唇形、肢體、表情、手勢(shì)等自動(dòng)生成。多模態(tài)的手語表達(dá),能夠傳遞出更豐富、準(zhǔn)確、易于理解的信息。
同時(shí),百度智能云曦靈平臺(tái)搭載的開放域?qū)υ捚脚_(tái)PLATO-XL,是百度基于百億級(jí)訓(xùn)練參數(shù)、多年搜索及知識(shí)圖譜積累而訓(xùn)練出來的,被認(rèn)為是當(dāng)前最大規(guī)模的中英文對(duì)話模型。通過它可以快速驅(qū)動(dòng)數(shù)字人實(shí)現(xiàn)直播、動(dòng)畫等內(nèi)容,達(dá)到多場(chǎng)景下的實(shí)時(shí)溝通。
縱觀手語數(shù)字人的能力體系,不難發(fā)現(xiàn),頭部科技公司相繼推出了自己的手語機(jī)器人,除了體現(xiàn)科技的人文關(guān)懷之外,還隱藏著技術(shù)發(fā)展的必然。
必須在算力、數(shù)據(jù)、算法三方面都有強(qiáng)大的能力,在語音、視覺、NLP、知識(shí)圖譜等領(lǐng)域都有領(lǐng)先優(yōu)勢(shì),才能讓手語數(shù)字人真正覺醒在屏幕前、生活中。
百度作為國(guó)內(nèi)AI 技術(shù)布局更完整的公司,能最快地實(shí)現(xiàn)手語數(shù)字人的大規(guī)模應(yīng)用,原因正在于此。
數(shù)字生命的平臺(tái)化復(fù)制:手語數(shù)字人插上產(chǎn)業(yè)之翼
在冬奧會(huì)和即將到來的冬殘奧會(huì)上的大規(guī)模應(yīng)用,幾乎代表了現(xiàn)階段數(shù)字虛擬人的最高水平,是典型的數(shù)字生命:具備完成復(fù)雜目標(biāo)的能力(通過手語翻譯傳遞賽事信息),以及實(shí)時(shí)學(xué)習(xí)進(jìn)化的能力(收集信息、實(shí)時(shí)互動(dòng)、做出回應(yīng),而非提前錄制)。
正如未來生命研究所的創(chuàng)始人:邁克斯·泰格馬克所說,數(shù)字生命是一種能夠自我復(fù)制的信息處理系統(tǒng),物理結(jié)構(gòu)是其硬件,行為和“算法”是其軟件。這決定了,手語數(shù)字人必須向軟硬協(xié)作、規(guī)模復(fù)制的方向發(fā)展。
3月3日,百度智能云曦靈發(fā)布AI手語平臺(tái)和“AI手語平臺(tái)一體機(jī)”,或許正在為手語數(shù)字人插上產(chǎn)業(yè)騰飛的翅膀。
為什么這么說?手語數(shù)字人雖好,卻不能低估技術(shù)產(chǎn)業(yè)化的難度,至少有幾座大山橫亙?cè)谇懊妫?/p>
第一座大山,是效率之謎。
對(duì)于新興的手語數(shù)字人領(lǐng)域,制作難度大、周期長(zhǎng)、技術(shù)門檻高,服務(wù)的群體相對(duì)較小,很多行業(yè)和企業(yè)在引入之前都會(huì)顧慮,會(huì)不會(huì)需要大量的人力財(cái)力成本,會(huì)不會(huì)效果不好沒人用,思前想后就是等等再說。要讓全社會(huì)聽障人士都享受到技術(shù)紅利,還是要尊重產(chǎn)業(yè)規(guī)律,降低新技術(shù)的應(yīng)用門檻,真正讓手語數(shù)字人的制作“降本增效”。
百度智能云曦靈的手語數(shù)字人平臺(tái),出現(xiàn)得恰逢其時(shí)。“AI手語平臺(tái)”具備“視頻手語合成”“直播手語合成”“文本轉(zhuǎn)手語”“語音轉(zhuǎn)手語”四大功能,可實(shí)現(xiàn)普通視頻合成為手語視頻、實(shí)時(shí)直播中增加手語畫面、文字翻譯為手語、語音實(shí)時(shí)翻譯為手語等多種效果。AI手語平臺(tái)可搭載在各類APP、網(wǎng)站、小程序中,讓聽障人士也能輕松實(shí)現(xiàn)線上社交、娛樂休閑、課程學(xué)習(xí)等各類需求。
同時(shí),百度智能云曦靈還設(shè)置了三大平臺(tái),讓手語數(shù)字人可以被快速、標(biāo)準(zhǔn)化、高效地生產(chǎn)和交付。比如在人設(shè)管理平臺(tái)上,根據(jù)不同的場(chǎng)景搭配設(shè)置不同的人設(shè),比如銀行中引入的手語數(shù)字人可以專業(yè)、嚴(yán)謹(jǐn),景區(qū)中使用的手語數(shù)字人則親和、活潑等,適應(yīng)千行百業(yè)的需求。
平臺(tái)化、標(biāo)準(zhǔn)化、體系化的能力,使得AI驅(qū)動(dòng)的2D數(shù)字人,生產(chǎn)周期只需要幾個(gè)小時(shí),3D虛擬偶像一兩個(gè)星期就能開發(fā)出來,輕松飛越效率這座大山。
第二座大山,是體驗(yàn)之困。
大家可能注意到了,在百度智能云曦靈發(fā)布 “AI手語平臺(tái)一體機(jī)”之前,幾乎所有的手語數(shù)字人都是以軟件形式存在的。專門打造一款手語數(shù)字人硬件,真的有必要嗎?
從根本上來說,我們所知的所有生命形式都有著生物“硬件”的載體,有技術(shù)人員認(rèn)為,“生命3.0”階段的數(shù)字生命,不僅要具備設(shè)計(jì)自身軟件的進(jìn)化能力,還能設(shè)計(jì)自身硬件。
很多銀行、醫(yī)院等都在引入人形智能機(jī)器人,來增加用戶的體驗(yàn)感。具體到手語數(shù)字人,作為未來在社交、電商、直播、客服、導(dǎo)游等領(lǐng)域的服務(wù)載體,企業(yè)與聽障用戶交互的關(guān)鍵入口,如果只能通過軟件來互動(dòng),顯然是不夠方便。
但是,開發(fā)一個(gè)人形手語機(jī)器人又涉及到一個(gè)相當(dāng)漫長(zhǎng)且復(fù)雜的產(chǎn)業(yè)鏈,很容易讓企業(yè)望而卻步。
百度智能云曦靈此次發(fā)布的全離線一體機(jī)V3以及端云結(jié)合一體機(jī)P3,搭載了“AI手語平臺(tái)”的核心功能, AI手語數(shù)字人可以像手機(jī)、電腦一樣被快速、批量生產(chǎn),到線下生活的各個(gè)角落中服務(wù)聽障人群。
其中本地全離線一體機(jī),在一些網(wǎng)絡(luò)情況不佳的區(qū)域,比如偏遠(yuǎn)的山村、景區(qū)等地,依然能夠進(jìn)行手語翻譯、人像渲染等操作,提供文本轉(zhuǎn)手語、語音轉(zhuǎn)手語等服務(wù)。
端云結(jié)合一體機(jī),則通過云端計(jì)算+本地渲染的形式,也能靈活地實(shí)現(xiàn)手語服務(wù)。
第三座大山,則是進(jìn)化之難。
衡量一個(gè)數(shù)字生命的標(biāo)準(zhǔn)之一,就是具備自主學(xué)習(xí)、自主適應(yīng)、自我進(jìn)化的能力,這需要全面的AI能力支撐。目前,整個(gè)手語機(jī)器人的產(chǎn)業(yè)鏈還沒有被完全打通,盡管一些企業(yè)打出了“手語數(shù)字人“的概念,但只能在部分場(chǎng)合、部分視頻中露臉。
推動(dòng)手語數(shù)字人在真實(shí)的產(chǎn)業(yè)場(chǎng)景之中不斷升級(jí),是AI產(chǎn)業(yè)化中必不可少的一種能力。在中國(guó)的AI科技企業(yè)當(dāng)中,像百度這樣具備從底層算力、開發(fā)框架到產(chǎn)業(yè)解決方案的全棧AI能力的公司,并不多見。
目前看來,百度的全棧AI能力融入到百度智能云曦靈當(dāng)中,給數(shù)字人升級(jí)能力帶來了無限潛力,也將加速手語數(shù)字人這一“新物種“的全場(chǎng)景覆蓋。
通過與產(chǎn)業(yè)的深度融合,手語數(shù)字人也將變得越來越復(fù)雜和聰明,進(jìn)化成為真正的數(shù)字生命。
目前,我國(guó)有近2780萬聽障人士,而手語翻譯老師只有1萬人左右,許多場(chǎng)景中無法快速跟上手語服務(wù),在飛速發(fā)展變化的社會(huì)中,很容易造成新的不公平。
而百度智能云曦靈的AI手語平臺(tái),讓手語數(shù)字人的規(guī);瘡(fù)制變得更加可行;“AI手語平臺(tái)一體機(jī)”,讓數(shù)字人技術(shù)帶來的體驗(yàn)更加豐富和多元。
數(shù)字生命的平臺(tái)化復(fù)制,是社會(huì)責(zé)任不會(huì)變成空談的前提,意味著商業(yè)價(jià)值與技術(shù)普惠的一次和解,也預(yù)示著手語數(shù)字人市場(chǎng)的快速打開。
AI產(chǎn)業(yè)的無形之變:手語數(shù)字人帶來的連鎖反應(yīng)
平臺(tái)化和軟硬一體,規(guī)模復(fù)制的產(chǎn)業(yè)落地效率與直觀的體驗(yàn)價(jià)值,讓百度智能云曦靈在手語數(shù)字人的競(jìng)爭(zhēng)中,已經(jīng)獲得了先發(fā)優(yōu)勢(shì)。
技術(shù)無障礙除了讓殘障群體受益,還將給企業(yè)自身和整個(gè)產(chǎn)業(yè)帶來意想不到的收獲。手語數(shù)字人的普及,換來的是AI受眾的擴(kuò)大和手語服務(wù)的延展,會(huì)讓許多我們習(xí)以為常的場(chǎng)景出現(xiàn)明顯的擴(kuò)容與創(chuàng)新,并引發(fā)一系列連鎖反應(yīng)。
首先,AI手語解決方案不斷復(fù)制到各行各業(yè),讓聽障人士樂于去用,企業(yè)和機(jī)構(gòu)樂于引入手語服務(wù),讓手語數(shù)字人的落地場(chǎng)景會(huì)愈加豐富,在公益屬性、社交、傳播營(yíng)銷等領(lǐng)域的價(jià)值將一一顯現(xiàn)。
其次,數(shù)字人作為公認(rèn)的虛擬世界入口,帶來巨大的商業(yè)空間,已經(jīng)成為互聯(lián)網(wǎng)科技企業(yè)的下一幕競(jìng)爭(zhēng)焦點(diǎn)。搶占數(shù)字人規(guī);a(chǎn)的機(jī)遇,培養(yǎng)B端市場(chǎng)的信任感與忠誠(chéng)度,有助于在接下來的市場(chǎng)競(jìng)爭(zhēng)中占據(jù)優(yōu)勢(shì)。
更進(jìn)一步,百度智能云曦靈在技術(shù)的領(lǐng)先性和全面性,決定了其有資格參與甚至主導(dǎo)數(shù)字人行業(yè)標(biāo)準(zhǔn)的建立,將吸引大量開發(fā)者和產(chǎn)業(yè)鏈上下游加速匯聚到生態(tài)體系內(nèi),推動(dòng)技術(shù)不斷迭代和應(yīng)用持續(xù)創(chuàng)新,預(yù)先探索數(shù)字人的商業(yè)模式,帶動(dòng)云計(jì)算、AIoT等領(lǐng)域的增長(zhǎng),對(duì)于中國(guó)數(shù)字經(jīng)濟(jì)的發(fā)展有著重要作用。
以前提到智能科技,大家可能更多地關(guān)注獨(dú)角獸、投融資、數(shù)字經(jīng)濟(jì)等宏大概念,而現(xiàn)在,手語數(shù)字人這樣的智能新物種,正在給殘障群體日常生活中的“小事”帶來便利。
從冬奧主播到AI手語平臺(tái),百度智能云曦靈向世界證明,只需要打開一個(gè)通道、接通一座橋梁,技術(shù)紅利就可以源源不斷地匯聚到那些需要它的人群當(dāng)中。
許人類一個(gè)更美好的未來,這或許是AI故事里,最溫暖人心的章節(jié)。
原文標(biāo)題 : 當(dāng)聽障人士實(shí)現(xiàn)手語自由:手語AI平臺(tái)的產(chǎn)業(yè)狂想
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市