訂閱
糾錯(cuò)
加入自媒體

陳偉:AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

前言:

想要實(shí)現(xiàn)全人類之間的順暢交流,一直都是一個(gè)遙不可及的美好期望,而人工智能的飛速發(fā)展,讓我們看到了這一希望。

國(guó)內(nèi)剛需明顯提升

在中國(guó),從事同傳工作的,大多數(shù)是英語(yǔ)專業(yè)背景,精通全領(lǐng)域是充分而非必要條件。而面對(duì)涉及醫(yī)療、數(shù)學(xué)和物理等領(lǐng)域的會(huì)議時(shí),同傳人員并不能很好地將這些相關(guān)術(shù)語(yǔ)準(zhǔn)地翻譯。

當(dāng)學(xué)術(shù)盲點(diǎn)變成了行業(yè)痛點(diǎn),以語(yǔ)音智能見(jiàn)長(zhǎng)的科技公司便主動(dòng)出擊,抓住了同聲傳譯這一細(xì)分市場(chǎng)的機(jī)遇,迭代到3.0版本的搜狗同傳便是向這一細(xì)分市場(chǎng)布局的開端。

機(jī)器同傳的產(chǎn)品價(jià)值,主要體現(xiàn)在其致力于解決跨語(yǔ)言交流、跨語(yǔ)言信息獲取和語(yǔ)言表達(dá)的電子化記錄等障礙。若要真正實(shí)現(xiàn)這三點(diǎn),不能單純地把語(yǔ)音識(shí)別和機(jī)器翻譯做嫁接,而需要一套完整的有機(jī)系統(tǒng)。

Ai芯天下丨觀點(diǎn)丨陳偉:AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

語(yǔ)境引擎=多模態(tài)+知識(shí)圖譜

去年12月,基于語(yǔ)境引擎的搜狗同傳3.0以多模態(tài)和自主學(xué)習(xí)為核心,加入視覺(jué)和思維能力,這是AI同傳在加入諸如視覺(jué)AI、知識(shí)圖譜等能力后的再度進(jìn)化。

最新發(fā)布的搜狗同傳3.0,內(nèi)核進(jìn)化成為了語(yǔ)境引擎。除了“語(yǔ)音信息+OCR”的結(jié)合方式,升級(jí)后的產(chǎn)品,最大亮點(diǎn)是在“能聽(tīng)會(huì)看”的多模態(tài)基礎(chǔ)上,注入了思考和推理能力,背后靠的是知識(shí)圖譜的加持。

多模態(tài)同傳,即AI獲取信息的渠道不再是語(yǔ)音,還包含圖像等其他內(nèi)容。這種多模態(tài)的交互方式是搜狗一直堅(jiān)信的趨勢(shì),也是與人最自然的一種交流方式。

“會(huì)看”,意味著同傳首次具備了視覺(jué)能力!澳芾斫鈺(huì)推理”,則意味著同傳具備了與人“共情”的能力。

Ai芯天下丨觀點(diǎn)丨陳偉:AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

基于語(yǔ)境引擎開發(fā)的搜狗同傳3.0為演講者構(gòu)建了個(gè)性化的認(rèn)知語(yǔ)境,能夠跟隨演講者一起“思考”,無(wú)疑是AI同傳領(lǐng)域的又一大技術(shù)創(chuàng)新。

可以像人類一樣,從語(yǔ)音和圖像中獲取信息,不僅會(huì)聽(tīng),還能同時(shí)看圖、查資料,從而提高了同聲傳譯的準(zhǔn)確性,在AI同傳落地應(yīng)用中屬首創(chuàng)。

尤其是面對(duì)專有名詞、專業(yè)術(shù)語(yǔ)較多的場(chǎng)景,相比傳統(tǒng)只依賴語(yǔ)音的技術(shù),針對(duì)PPT內(nèi)容將翻譯的正確率提升了40.3%。

Ai芯天下丨觀點(diǎn)丨陳偉:AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

陳偉認(rèn)為,多模態(tài)技術(shù)是未來(lái)人機(jī)交互的發(fā)展方向。從搜狗同傳的技術(shù)升級(jí)之路中,我們也可以看出搜狗下一步的計(jì)劃。

據(jù)陳偉介紹,搜狗同傳3.0相對(duì)于上一代產(chǎn)品主要有三方面能力的提升:

更加接近自然,從單純的語(yǔ)音識(shí)別到語(yǔ)音+圖像,新的方法模擬了人工同傳的工作方式,增加視覺(jué)和大腦擴(kuò)散知識(shí)點(diǎn)的功能,擁有更為復(fù)雜的感知系統(tǒng)。

更加專業(yè),此前的AI同傳模型使用通用數(shù)據(jù),新的模型通過(guò)實(shí)時(shí)定制知識(shí)增強(qiáng)能力,能夠捕捉現(xiàn)場(chǎng)PPT內(nèi)容補(bǔ)充演講相關(guān)的專業(yè)領(lǐng)域的知識(shí),并針對(duì)每一個(gè)演講進(jìn)行模型定制,提升同傳效果。

Ai芯天下丨觀點(diǎn)丨陳偉:AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

搜狗同傳的技術(shù)迭代之路

2016年11月推出的搜狗同傳1.0通用語(yǔ)音同傳是首個(gè)商用機(jī)器同傳產(chǎn)品,實(shí)現(xiàn)了語(yǔ)音同傳的功能。

2018年,搜狗同傳2.0集成TTS,首次實(shí)現(xiàn)語(yǔ)音到語(yǔ)音同傳,并可根據(jù)用戶語(yǔ)料實(shí)時(shí)定制,同時(shí)它還用上了首個(gè)英譯中同傳引擎。

到3.0,搜狗同傳已經(jīng)是一款業(yè)內(nèi)首創(chuàng)的多模態(tài)+自主學(xué)習(xí)的同傳產(chǎn)品,能聽(tīng)、會(huì)看,能理解、會(huì)推理是它的特點(diǎn),同時(shí)增加了實(shí)時(shí)捕捉PPT內(nèi)容的功能。

搜狗1.0時(shí),輸入僅是語(yǔ)音,2.0開始做語(yǔ)音+個(gè)性化,以及說(shuō)話人的語(yǔ)境背景輸入;3.0加入了知識(shí)圖譜,把語(yǔ)音、視覺(jué)等信息作為語(yǔ)音識(shí)別的輸入,F(xiàn)在,業(yè)內(nèi)技術(shù)普遍介于1.0和2.0之間,而搜狗依靠圖譜方式,已經(jīng)率先進(jìn)入3.0時(shí)代。

2.0時(shí)代,搜狗同傳會(huì)首先對(duì)文本進(jìn)行規(guī)則化,讓文本變得流利,丟棄一些語(yǔ)義詞和停頓詞等,但會(huì)遇到延時(shí)很大的問(wèn)題。

在3.0時(shí)代,搜狗同傳加入了語(yǔ)義單元,識(shí)別判斷一句話為獨(dú)立的一個(gè)單元,系統(tǒng)可以在講話者說(shuō)話的同時(shí)可以立即上屏,降低同傳系統(tǒng)的延遲。

Ai芯天下丨觀點(diǎn)丨陳偉:AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

機(jī)器翻譯與人工之間的差距在拉近

機(jī)器翻譯的歷史可能比大多數(shù)人想象中都要久遠(yuǎn),1954年初,喬治城大學(xué)的實(shí)驗(yàn)的一臺(tái)電腦成功將四十多條俄文句子自動(dòng)翻譯成英文,這一事件成為機(jī)器翻譯史中的一個(gè)里程碑,標(biāo)志著現(xiàn)代機(jī)器翻譯的開端。

60多年過(guò)去了,機(jī)器翻譯產(chǎn)品已經(jīng)走進(jìn)每個(gè)人的日常生活,在大型會(huì)議等場(chǎng)景下被廣泛采用。

雖然翻譯效果仍有待提高,但機(jī)器翻譯已經(jīng)成為提高翻譯效率不可或缺的工具,并催生了一大批從事AI翻譯研究的企業(yè),國(guó)內(nèi)有搜狗、騰訊、科大訊飛等,國(guó)外有谷歌、微軟等。

翻譯領(lǐng)域有些工作是有重復(fù)性的,包括同傳領(lǐng)域,機(jī)器在某些方面會(huì)優(yōu)于人工,比如知識(shí)面、領(lǐng)域知識(shí)的拓展性上,機(jī)器比真人的知識(shí)面更廣闊,并能夠快速查詢背后海量的知識(shí)體系,這比真人在某些領(lǐng)域的翻譯上的準(zhǔn)確率更高。

在支持了上千場(chǎng)會(huì)議之后,他們發(fā)現(xiàn)從成本上來(lái)看,機(jī)器翻譯的成本一定是低于人工的,且邊際成本會(huì)隨著使用量增加越來(lái)越低。

與人相比,機(jī)器翻譯成本更低,需要支持的設(shè)備也更少,一臺(tái)筆記本,一條視頻線、一條音頻線,連上就可以工作。

機(jī)器同傳在未來(lái)的地位

從機(jī)器同傳的流程來(lái)看,當(dāng)機(jī)器視覺(jué)捕捉到核心關(guān)鍵詞之后,會(huì)根據(jù)搜狗的知識(shí)圖譜技術(shù),把相關(guān)的詞匯以及專業(yè)領(lǐng)域相關(guān)的詞語(yǔ)拓展出來(lái),作為語(yǔ)音識(shí)別和翻譯的加強(qiáng)。

未來(lái),機(jī)器同傳可向記者采訪、跨國(guó)辦公會(huì)議、中英文視頻直播、字幕翻譯等場(chǎng)景延展。這些應(yīng)用場(chǎng)景最主要的挑戰(zhàn),是怎么保證機(jī)器同傳的穩(wěn)定效果,考驗(yàn)的是采集設(shè)備、網(wǎng)絡(luò)環(huán)境、識(shí)別能力等。

未來(lái)面向人和機(jī)器交互過(guò)程中,一定是多模態(tài)的,搜狗提倡的技術(shù)主張,使機(jī)器同傳和同類產(chǎn)品拉開了一代之差。他們還是以同傳為主,搜狗已經(jīng)從語(yǔ)音跨到了多模態(tài),并把對(duì)于知識(shí)和語(yǔ)音的理解放進(jìn)去,使同傳開始具備一定的認(rèn)知能力。

而搜狗在AI語(yǔ)音商業(yè)化的進(jìn)程,最終的指向還是消費(fèi)者端。未來(lái)各種各樣的場(chǎng)合都可能用到搜狗同傳的技術(shù),通過(guò)同傳打磨的能力也可以反向用于C端產(chǎn)品。

一直以來(lái),人工智能技術(shù)只能在展示在實(shí)驗(yàn)室中,隨著深度學(xué)習(xí)等技術(shù)的研究成熟,人工智能技術(shù)加持的產(chǎn)品也逐漸開始落地。

多模態(tài)技術(shù)未來(lái)發(fā)展

很多公司都意識(shí)到多模態(tài)技術(shù)重要性,并將研究成果落地到各種應(yīng)用中,比如騰訊、優(yōu)酷等視頻網(wǎng)站平臺(tái),快手等短視頻平臺(tái)都將多模態(tài)技術(shù)應(yīng)用于內(nèi)容理解上,在獲取用戶和加強(qiáng)與用戶的互動(dòng)交流上起到了重要作用。

目前關(guān)于多模態(tài)的研究課題還是要從產(chǎn)品和實(shí)際需求倒推功能,這涉及到異構(gòu)數(shù)據(jù)融合的問(wèn)題。

多模態(tài)表達(dá),在語(yǔ)義上如何進(jìn)行對(duì)齊,提取同一需求的多模態(tài)特征,如何更好地跨越語(yǔ)義的鴻溝,異構(gòu)數(shù)據(jù)如何融合,都是多模態(tài)技術(shù)會(huì)遇到的問(wèn)題。

隨著精度的逐步提高,搜狗同傳所采用的AI技術(shù),未來(lái)還將有更廣闊的的應(yīng)用空間,賦予我們更多的可能性。比如,實(shí)時(shí)私人翻譯乃至文學(xué)作品的譯制,可以讓我們足不出戶,享受第一手國(guó)際作品的字幕體驗(yàn)。

而在跨國(guó)界、跨領(lǐng)域等項(xiàng)目合作方面,逐漸實(shí)現(xiàn)無(wú)縫對(duì)接,能夠顯著提高整體的工程協(xié)作效率。

結(jié)尾:

當(dāng)然必須要承認(rèn),無(wú)論是搜狗同傳還是其他玩家,大家目前距離頂級(jí)同傳的水準(zhǔn)還有很長(zhǎng)的路要走,目前的機(jī)器同傳能力和頂級(jí)人工同傳相比,仍存在不小的差距。

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)