AI同傳PK人類同傳,這或許是兩個(gè)職業(yè)
圖片來自“123rf.com.cn”
人工智能又又又摔了個(gè)跟頭。
今年的博鰲亞洲論壇上,第一次出現(xiàn)了AI同傳。值得注意的是,這是博鰲論壇創(chuàng)辦17年首次采用人工智能同傳技術(shù)。然而,在如此重要的場合,現(xiàn)場配備的騰訊AI同傳卻掉了鏈子。詞匯翻譯不準(zhǔn)確、重復(fù)、短語誤用等“烏龍”引來各方“嘲笑”。
人們總是把AI跟人類職位對立起來,各種“取代論”層出不窮。博鰲論壇會議前,就出現(xiàn)了許許多多的“取代論新聞”引起了各界關(guān)注。最終,AI同傳“翻車”,引來外界一片唏噓。
然而,就目前來看,AI同傳前路未明,太早將其與人類同傳對立起來實(shí)在是“杞人憂天”。除了取代,AI同傳其實(shí)有更好的路。
圖為AI同傳內(nèi)容
AI同傳進(jìn)階之路:變智能問題為數(shù)據(jù)問題
很多人都覺得人工智能如果要處理自然語言,就必須理解自然語言。實(shí)質(zhì)上,AI翻譯靠的是數(shù)字,更準(zhǔn)確地來說,是統(tǒng)計(jì)。AI同傳出錯(cuò),并不是“智能”不夠,實(shí)質(zhì)上,是數(shù)據(jù)和模型出了問題。
AI同傳還需要理解力
首先,AI同傳要去理解場景。在博鰲論壇上,會議現(xiàn)場專業(yè)度高、覆蓋度廣,AI對特殊場景的理解還不夠。場景對于語義具有至關(guān)重要的影響,相同的一句話在不同的場景里有不同的意思。舉個(gè)例子,“好”這個(gè)字在百度漢語顯示有多種語義,既可以表示稱贊,也可以表示狀態(tài),還可以表達(dá)問好……諸如此類,語義的表達(dá)和理解都要結(jié)合具體的場景。在具體的句子中,這種語義與情景的結(jié)合就更為緊密,更需要機(jī)器理解學(xué)習(xí)。
其次,AI要理解口語的模糊邏輯。口語翻譯是不會百分百傳譯的,根據(jù)AIIC(國際會議口譯員協(xié)會)的規(guī)定,同傳譯員只要翻譯出演講者內(nèi)容的80%就已經(jīng)算是合格了(90%~100%的“同傳”幾乎是不可能的)。這意味著AI工作量減少嗎?當(dāng)然不,正是這種模糊的東西使得AI同傳更加困難,除此之外,口語沒有標(biāo)點(diǎn)符號來標(biāo)志句子,缺少了必要的聲調(diào)和停頓,就很容易造成句子的歧義。而模糊的指令極有可能出現(xiàn)的是滿屏的錯(cuò)碼。
隱馬爾可夫模型(HMM)解決統(tǒng)計(jì)數(shù)據(jù)之外的語言問題
然而,在參考騰訊AI同傳的失誤后,我們發(fā)現(xiàn),僅僅增加數(shù)據(jù)量還是不夠的,在現(xiàn)實(shí)生活中,我們也會遇到零概率或者統(tǒng)計(jì)量不足的問題。
比如一個(gè)漢語的語言模型,就足足達(dá)到20萬這個(gè)量級。曾有人做過這樣一個(gè)假設(shè),如果刨掉互聯(lián)網(wǎng)上的垃圾數(shù)據(jù),互聯(lián)網(wǎng)中將會有100億個(gè)有意義的中文網(wǎng)頁,這還是相當(dāng)高估的一個(gè)數(shù)據(jù),每個(gè)網(wǎng)頁平均1000詞,那么,即使將互聯(lián)網(wǎng)上上所有中文內(nèi)容用作訓(xùn)練,依然只有1013。
為了解決數(shù)據(jù)量的問題,我們提出了隱馬爾可夫模型(HMM)。實(shí)際應(yīng)用中,我們可以把HMM看作一個(gè)黑箱子,這個(gè)黑箱子可以利用比較簡潔的數(shù)據(jù),處理后得出:
1.每個(gè)時(shí)刻對應(yīng)的狀態(tài)序列;
2.混合分布的均值和方差矩陣;
3.混合分布的權(quán)重矩陣;
4.狀態(tài)間轉(zhuǎn)移概率矩陣。
看起來可能比較復(fù)雜,簡單點(diǎn)說,這個(gè)模型可以通過可觀察的數(shù)據(jù)而發(fā)現(xiàn)這個(gè)數(shù)據(jù)域外的狀態(tài),即隱含狀態(tài)。也就是說,我們可以憑借一句話,來探索出這句話后的隱含的意思,從而解決一些微妙的語義問題。
如上圖所示,這個(gè)模型能夠通過你提供的可以明顯觀察的句子,推斷出一個(gè)人隱含的心情狀態(tài)(開心OR難過),并得到最后的行為判斷(宅、購物、社交),即通過已知推斷出未知。
而如何優(yōu)化這個(gè)模型,得到最優(yōu)隱含狀態(tài)?人們提出了許多解決問題的算法,包括前向算法、Viterbi算法和Baum-Welch算法。此中奧妙,難以盡述。但不能否認(rèn)的是,在深度學(xué)習(xí)的基礎(chǔ)上,數(shù)據(jù)+模型就能很好地打造出一款A(yù)I同傳翻譯,數(shù)據(jù)越大,神經(jīng)網(wǎng)絡(luò)更好。即使翻譯結(jié)果不盡如人意,但只要建設(shè)足夠大的數(shù)據(jù)庫,建立更好的模型,打磨算法,AI同傳很快就會有更大的提升。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個(gè)字
最新活動更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報(bào)名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報(bào)名中>> OFweek2024中國智造CIO在線峰會
推薦專題
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市