久久久久精品国产免费观看,正在播放酒店精品少妇约,国产成人手机在线观看

陳偉：AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

2020-01-18 09:11

前言：

想要實(shí)現(xiàn)全人類之間的順暢交流，一直都是一個(gè)遙不可及的美好期望，而人工智能的飛速發(fā)展，讓我們看到了這一希望。

國(guó)內(nèi)剛需明顯提升

在中國(guó)，從事同傳工作的，大多數(shù)是英語(yǔ)專業(yè)背景，精通全領(lǐng)域是充分而非必要條件。而面對(duì)涉及醫(yī)療、數(shù)學(xué)和物理等領(lǐng)域的會(huì)議時(shí)，同傳人員并不能很好地將這些相關(guān)術(shù)語(yǔ)準(zhǔn)地翻譯。

當(dāng)學(xué)術(shù)盲點(diǎn)變成了行業(yè)痛點(diǎn)，以語(yǔ)音智能見(jiàn)長(zhǎng)的科技公司便主動(dòng)出擊，抓住了同聲傳譯這一細(xì)分市場(chǎng)的機(jī)遇，迭代到3．0版本的搜狗同傳便是向這一細(xì)分市場(chǎng)布局的開端。

機(jī)器同傳的產(chǎn)品價(jià)值，主要體現(xiàn)在其致力于解決跨語(yǔ)言交流、跨語(yǔ)言信息獲取和語(yǔ)言表達(dá)的電子化記錄等障礙。若要真正實(shí)現(xiàn)這三點(diǎn)，不能單純地把語(yǔ)音識(shí)別和機(jī)器翻譯做嫁接，而需要一套完整的有機(jī)系統(tǒng)。

Ai芯天下丨觀點(diǎn)丨陳偉：AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

語(yǔ)境引擎＝多模態(tài)＋知識(shí)圖譜

去年12月，基于語(yǔ)境引擎的搜狗同傳3．0以多模態(tài)和自主學(xué)習(xí)為核心，加入視覺(jué)和思維能力，這是AI同傳在加入諸如視覺(jué)AI、知識(shí)圖譜等能力后的再度進(jìn)化。

最新發(fā)布的搜狗同傳3．0，內(nèi)核進(jìn)化成為了語(yǔ)境引擎。除了“語(yǔ)音信息＋OCR”的結(jié)合方式，升級(jí)后的產(chǎn)品，最大亮點(diǎn)是在“能聽(tīng)會(huì)看”的多模態(tài)基礎(chǔ)上，注入了思考和推理能力，背后靠的是知識(shí)圖譜的加持。

多模態(tài)同傳，即AI獲取信息的渠道不再是語(yǔ)音，還包含圖像等其他內(nèi)容。這種多模態(tài)的交互方式是搜狗一直堅(jiān)信的趨勢(shì)，也是與人最自然的一種交流方式。

“會(huì)看”，意味著同傳首次具備了視覺(jué)能力�！澳芾斫鈺�(huì)推理”，則意味著同傳具備了與人“共情”的能力。

Ai芯天下丨觀點(diǎn)丨陳偉：AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

基于語(yǔ)境引擎開發(fā)的搜狗同傳3．0為演講者構(gòu)建了個(gè)性化的認(rèn)知語(yǔ)境，能夠跟隨演講者一起“思考”，無(wú)疑是AI同傳領(lǐng)域的又一大技術(shù)創(chuàng)新。

可以像人類一樣，從語(yǔ)音和圖像中獲取信息，不僅會(huì)聽(tīng)，還能同時(shí)看圖、查資料，從而提高了同聲傳譯的準(zhǔn)確性，在AI同傳落地應(yīng)用中屬首創(chuàng)。

尤其是面對(duì)專有名詞、專業(yè)術(shù)語(yǔ)較多的場(chǎng)景，相比傳統(tǒng)只依賴語(yǔ)音的技術(shù)，針對(duì)PPT內(nèi)容將翻譯的正確率提升了40．3％。

Ai芯天下丨觀點(diǎn)丨陳偉：AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

陳偉認(rèn)為，多模態(tài)技術(shù)是未來(lái)人機(jī)交互的發(fā)展方向。從搜狗同傳的技術(shù)升級(jí)之路中，我們也可以看出搜狗下一步的計(jì)劃。

據(jù)陳偉介紹，搜狗同傳3．0相對(duì)于上一代產(chǎn)品主要有三方面能力的提升：

更加接近自然，從單純的語(yǔ)音識(shí)別到語(yǔ)音＋圖像，新的方法模擬了人工同傳的工作方式，增加視覺(jué)和大腦擴(kuò)散知識(shí)點(diǎn)的功能，擁有更為復(fù)雜的感知系統(tǒng)。

更加專業(yè)，此前的AI同傳模型使用通用數(shù)據(jù)，新的模型通過(guò)實(shí)時(shí)定制知識(shí)增強(qiáng)能力，能夠捕捉現(xiàn)場(chǎng)PPT內(nèi)容補(bǔ)充演講相關(guān)的專業(yè)領(lǐng)域的知識(shí)，并針對(duì)每一個(gè)演講進(jìn)行模型定制，提升同傳效果。

Ai芯天下丨觀點(diǎn)丨陳偉：AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

搜狗同傳的技術(shù)迭代之路

2016年11月推出的搜狗同傳1．0通用語(yǔ)音同傳是首個(gè)商用機(jī)器同傳產(chǎn)品，實(shí)現(xiàn)了語(yǔ)音同傳的功能。

2018年，搜狗同傳2．0集成TTS，首次實(shí)現(xiàn)語(yǔ)音到語(yǔ)音同傳，并可根據(jù)用戶語(yǔ)料實(shí)時(shí)定制，同時(shí)它還用上了首個(gè)英譯中同傳引擎。

到3．0，搜狗同傳已經(jīng)是一款業(yè)內(nèi)首創(chuàng)的多模態(tài)＋自主學(xué)習(xí)的同傳產(chǎn)品，能聽(tīng)、會(huì)看，能理解、會(huì)推理是它的特點(diǎn)，同時(shí)增加了實(shí)時(shí)捕捉PPT內(nèi)容的功能。

搜狗1．0時(shí)，輸入僅是語(yǔ)音，2．0開始做語(yǔ)音＋個(gè)性化，以及說(shuō)話人的語(yǔ)境背景輸入；3．0加入了知識(shí)圖譜，把語(yǔ)音、視覺(jué)等信息作為語(yǔ)音識(shí)別的輸入�，F(xiàn)在，業(yè)內(nèi)技術(shù)普遍介于1．0和2．0之間，而搜狗依靠圖譜方式，已經(jīng)率先進(jìn)入3．0時(shí)代。

2．0時(shí)代，搜狗同傳會(huì)首先對(duì)文本進(jìn)行規(guī)則化，讓文本變得流利，丟棄一些語(yǔ)義詞和停頓詞等，但會(huì)遇到延時(shí)很大的問(wèn)題。

在3．0時(shí)代，搜狗同傳加入了語(yǔ)義單元，識(shí)別判斷一句話為獨(dú)立的一個(gè)單元，系統(tǒng)可以在講話者說(shuō)話的同時(shí)可以立即上屏，降低同傳系統(tǒng)的延遲。

Ai芯天下丨觀點(diǎn)丨陳偉：AI語(yǔ)音市場(chǎng)要靠3.0技術(shù)撬動(dòng)

機(jī)器翻譯與人工之間的差距在拉近

機(jī)器翻譯的歷史可能比大多數(shù)人想象中都要久遠(yuǎn)，1954年初，喬治城大學(xué)的實(shí)驗(yàn)的一臺(tái)電腦成功將四十多條俄文句子自動(dòng)翻譯成英文，這一事件成為機(jī)器翻譯史中的一個(gè)里程碑，標(biāo)志著現(xiàn)代機(jī)器翻譯的開端。

60多年過(guò)去了，機(jī)器翻譯產(chǎn)品已經(jīng)走進(jìn)每個(gè)人的日常生活，在大型會(huì)議等場(chǎng)景下被廣泛采用。

雖然翻譯效果仍有待提高，但機(jī)器翻譯已經(jīng)成為提高翻譯效率不可或缺的工具，并催生了一大批從事AI翻譯研究的企業(yè)，國(guó)內(nèi)有搜狗、騰訊、科大訊飛等，國(guó)外有谷歌、微軟等。

翻譯領(lǐng)域有些工作是有重復(fù)性的，包括同傳領(lǐng)域，機(jī)器在某些方面會(huì)優(yōu)于人工，比如知識(shí)面、領(lǐng)域知識(shí)的拓展性上，機(jī)器比真人的知識(shí)面更廣闊，并能夠快速查詢背后海量的知識(shí)體系，這比真人在某些領(lǐng)域的翻譯上的準(zhǔn)確率更高。

在支持了上千場(chǎng)會(huì)議之后，他們發(fā)現(xiàn)從成本上來(lái)看，機(jī)器翻譯的成本一定是低于人工的，且邊際成本會(huì)隨著使用量增加越來(lái)越低。

與人相比，機(jī)器翻譯成本更低，需要支持的設(shè)備也更少，一臺(tái)筆記本，一條視頻線、一條音頻線，連上就可以工作。

機(jī)器同傳在未來(lái)的地位

從機(jī)器同傳的流程來(lái)看，當(dāng)機(jī)器視覺(jué)捕捉到核心關(guān)鍵詞之后，會(huì)根據(jù)搜狗的知識(shí)圖譜技術(shù)，把相關(guān)的詞匯以及專業(yè)領(lǐng)域相關(guān)的詞語(yǔ)拓展出來(lái)，作為語(yǔ)音識(shí)別和翻譯的加強(qiáng)。

未來(lái)，機(jī)器同傳可向記者采訪、跨國(guó)辦公會(huì)議、中英文視頻直播、字幕翻譯等場(chǎng)景延展。這些應(yīng)用場(chǎng)景最主要的挑戰(zhàn)，是怎么保證機(jī)器同傳的穩(wěn)定效果，考驗(yàn)的是采集設(shè)備、網(wǎng)絡(luò)環(huán)境、識(shí)別能力等。

未來(lái)面向人和機(jī)器交互過(guò)程中，一定是多模態(tài)的，搜狗提倡的技術(shù)主張，使機(jī)器同傳和同類產(chǎn)品拉開了一代之差。他們還是以同傳為主，搜狗已經(jīng)從語(yǔ)音跨到了多模態(tài)，并把對(duì)于知識(shí)和語(yǔ)音的理解放進(jìn)去，使同傳開始具備一定的認(rèn)知能力。

而搜狗在AI語(yǔ)音商業(yè)化的進(jìn)程，最終的指向還是消費(fèi)者端。未來(lái)各種各樣的場(chǎng)合都可能用到搜狗同傳的技術(shù)，通過(guò)同傳打磨的能力也可以反向用于C端產(chǎn)品。

一直以來(lái)，人工智能技術(shù)只能在展示在實(shí)驗(yàn)室中，隨著深度學(xué)習(xí)等技術(shù)的研究成熟，人工智能技術(shù)加持的產(chǎn)品也逐漸開始落地。

多模態(tài)技術(shù)未來(lái)發(fā)展

很多公司都意識(shí)到多模態(tài)技術(shù)重要性，并將研究成果落地到各種應(yīng)用中，比如騰訊、優(yōu)酷等視頻網(wǎng)站平臺(tái)，快手等短視頻平臺(tái)都將多模態(tài)技術(shù)應(yīng)用于內(nèi)容理解上，在獲取用戶和加強(qiáng)與用戶的互動(dòng)交流上起到了重要作用。

目前關(guān)于多模態(tài)的研究課題還是要從產(chǎn)品和實(shí)際需求倒推功能，這涉及到異構(gòu)數(shù)據(jù)融合的問(wèn)題。

多模態(tài)表達(dá)，在語(yǔ)義上如何進(jìn)行對(duì)齊，提取同一需求的多模態(tài)特征，如何更好地跨越語(yǔ)義的鴻溝，異構(gòu)數(shù)據(jù)如何融合，都是多模態(tài)技術(shù)會(huì)遇到的問(wèn)題。

隨著精度的逐步提高，搜狗同傳所采用的AI技術(shù)，未來(lái)還將有更廣闊的的應(yīng)用空間，賦予我們更多的可能性。比如，實(shí)時(shí)私人翻譯乃至文學(xué)作品的譯制，可以讓我們足不出戶，享受第一手國(guó)際作品的字幕體驗(yàn)。

而在跨國(guó)界、跨領(lǐng)域等項(xiàng)目合作方面，逐漸實(shí)現(xiàn)無(wú)縫對(duì)接，能夠顯著提高整體的工程協(xié)作效率。

結(jié)尾：

當(dāng)然必須要承認(rèn)，無(wú)論是搜狗同傳還是其他玩家，大家目前距離頂級(jí)同傳的水準(zhǔn)還有很長(zhǎng)的路要走，目前的機(jī)器同傳能力和頂級(jí)人工同傳相比，仍存在不小的差距。

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問(wèn)所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

圖片新聞