久久久久久久精品免费观看,大伊香蕉在线观看视频

文｜光錐智能周文斌

“風(fēng)雪夜歸人”，憑這樣一句話，畫一幅水彩或者油畫，需要多長時間？

熟練的畫手可能需要幾個小時，但AI只需要幾分鐘，甚至幾十秒。

將一篇3000字左右的文章錄制成音頻需要多長時間？

經(jīng)驗豐富的播音員一次過大概需要15分鐘，但通過AI文字轉(zhuǎn)語音只需要一分鐘，而且情感充沛。

近期，AI繪畫再次爆火，其快速的成長速度，超高的“工作效率”都令人吃驚。而以AI繪畫為代表，如今也確實有越來越多的行業(yè)開始通過技術(shù)手段來改變傳統(tǒng)的生產(chǎn)結(jié)構(gòu)和商業(yè)模式。

圖：ChatGPT編寫的代碼

比如在音頻創(chuàng)作領(lǐng)域，喜馬拉雅近期公布的一則數(shù)據(jù)顯示，其用單田芳AI合成音制作的TTS（語音合成）專輯總播放量已經(jīng)破億。這一數(shù)據(jù)，喻示著在喜馬拉雅“UGC＋PGC＋PUGC”內(nèi)容生態(tài)之外，又多了一個AIGC的內(nèi)容生態(tài)。

事實上，音頻行業(yè)其實一直存在著許多問題，比如單個創(chuàng)作者創(chuàng)作形式單一、生產(chǎn)周期長、內(nèi)容成本高等等。而為了突破這些問題，音頻行業(yè)一直也都在做各種嘗試。

比如，喜馬拉雅最近上線了喜韻音坊創(chuàng)作者平臺，試圖用AI為創(chuàng)作者賦能的方式，以技術(shù)手段來解決行業(yè)沉疴。恰好也是今年，喜馬拉雅的兩項智能語音技術(shù)相關(guān)論文被2022年國際音頻、語音與信號處理會議（ICASSP）收錄。

喜馬拉雅創(chuàng)始人兼CEO余建軍之前也提過，喜馬拉雅是一家科技驅(qū)動的內(nèi)容公司，科技是手段，文化是目的。

那么，在這次喜馬拉雅以通過科技賦能文化的過程中，又是如何改變音頻行業(yè)的呢？

01 配音小說用AI工具一天更新上百集

“以前從來沒有想過，音頻節(jié)目可以一天更新上百集。”這是喜馬拉雅的音頻主播“CV千索”用過喜韻音坊之后的感嘆。

喜韻音坊，喜馬拉雅近期上的一個創(chuàng)作者平臺，它通過TTS技術(shù)幫助主播實現(xiàn)與AI共同創(chuàng)作音頻節(jié)目�！癈V千索”就是通過這項技術(shù)在喜馬拉雅上創(chuàng)作了有聲書《史上最強撿漏王》，上線一個多月，播放量已經(jīng)超過300萬。

工欲善其事必先利其器，創(chuàng)作者有了AI工具，就可以大幅提升創(chuàng)作效率，進(jìn)而提升收益。

但要打造一個好工具也并非易事，喜韻音坊對于喜馬拉雅來說，就如同剪映之于抖音，但音頻制作本身又有不同的技術(shù)難點。

“TTS”是將輸入的文本轉(zhuǎn)換為語音的技術(shù)統(tǒng)稱，在許多場景中都有應(yīng)用。但在不少場景中，比如在電話客服、機器人等身上，經(jīng)常會有冷冰冰的“機器音”讓人非�！俺鰬颉薄�

但在音頻節(jié)目中，我們需要聲音有情緒、有溫度：聽童話故事的時候，聲音俏皮可愛；講軍旅故事的聲音，鏗鏘有力；聽歷史故事，又需要它深沉雄渾。

“TTS音色演繹小說非常難，需要學(xué)習(xí)小說中的抑揚頓挫、情感表達(dá)、上下文關(guān)系，區(qū)分旁白和對白，并最終將作品完美演繹出來�！毕柴R拉雅智能語音實驗室的盧恒博士表示。

因此，如何讓AI理解文本的語境，然后選擇適合的音色，甚至根據(jù)文本的情緒隨時轉(zhuǎn)換聲音，就是TTS針對特定場景進(jìn)行應(yīng)用時遇到的最大難點。

比如以喜馬拉雅復(fù)刻的單田芳先生的聲音為例，評書通常韻律起伏變化大，再加許多發(fā)音有自己獨特的特點，比如“這個”中的“這”字，普通話發(fā)音“zhè”，但在評書中通常讀為“zhèi”。

這種情況，如果僅靠當(dāng)前主流的TTS框架模型做提取和合成，合成評書最終的整體感情和情緒都會很平淡，沒有了原作的跌宕起伏。

為此，喜馬拉雅智能語音實驗室自主設(shè)計了單獨的韻律提取模塊，并將其融入到HiTTS技術(shù)框架中。而針對單老評書中區(qū)別于標(biāo)準(zhǔn)普通話的發(fā)音，團(tuán)隊還設(shè)計了口音模塊對這些特殊發(fā)音進(jìn)行標(biāo)注，使得AI合成音能夠原汁原味地還原出老味道。

由于技術(shù)上的創(chuàng)新，喜馬拉雅用TTS合成語音所制作的AIGC專輯幾乎能夠以假亂真。已經(jīng)在使用喜馬拉雅TTS錄制節(jié)目的《厲少的重生小甜妻》主播清月古箏表示：“最終的效果不錯，有人甚至沒聽出來是AI演播的，還有人問男主的配音是誰�！�

如今，喜馬拉雅多情感、多風(fēng)格、多語種聲音的TTS技術(shù)模型已經(jīng)廣泛被運用于評書、新聞、小說、財經(jīng)等多種類型AIGC內(nèi)容的制作中。

除了HiTTS技術(shù)在聲音韻律上的優(yōu)化之外，跨語言語音合成在TTS中也非常重要，畢竟僅在中國境內(nèi)就有129種語言，七大方言。

跨語言語音合成技術(shù)就是讓一種聲音能夠說兩種不同的語言（方言）。比如用迪麗熱巴的聲音講四川話，或者用李現(xiàn)的聲音講山東話。這項技術(shù)的難點在于，我們很多時候可能只有李現(xiàn)和迪麗熱巴講普通話的聲音，這個時候就需要讓AI學(xué)會說方言（或其他語言）。

但在傳統(tǒng)的訓(xùn)練方式中，這一過程其實存在一些bug，比如方言學(xué)不好或者沒學(xué)會，還連累原來的普通話也講不好了，變成了“邯鄲學(xué)步”。

為了解決這一問題，喜馬拉雅自研了一套新的訓(xùn)練方法，讓模型能夠接受所有音色和語言的組合的訓(xùn)練，就是跨語言語音合成技術(shù)，其研究論文也被2022年國際音頻、語音與信號處理會議（ICASSP）收錄。

除了用TTS實現(xiàn)文字轉(zhuǎn)語音，音頻中也少不了語音轉(zhuǎn)文字的技術(shù)——ASR。

此前，許多音頻節(jié)目并不會匹配文本，就像聽歌沒有歌詞，如果聽不清，你就真不知道它講的啥。

為了解決這一問題，喜馬拉雅以ASR和另一項可以將超長音頻與文本進(jìn)行對齊的算法為核心，推出了AI文稿功能。它能夠識別無文稿聲音的內(nèi)容，為其自動生成文稿，從而便于聽眾更好地理解聲音內(nèi)容。

而對于已經(jīng)有文稿的聲音內(nèi)容，AI文稿又能夠?qū)⒙曇襞c文稿進(jìn)行時間戳對軌，在聲音播放的同時，對相應(yīng)文字進(jìn)行同步高亮，讓用戶能更便捷地享受邊聽邊看的內(nèi)容消費體驗。

近期，喜馬拉雅的ASR技術(shù)（自動語音識別技術(shù)）也在國內(nèi)權(quán)威行業(yè)公開評測項目Speec

hIO TIOBE第三季度的評測中以2．16％的超低錯誤率榮獲冠軍。

總之，隨著AI技術(shù)對特定場景理解的不斷加深，喜馬拉雅將帶動音頻行業(yè)的生產(chǎn)方式、內(nèi)容結(jié)構(gòu)和商業(yè)效率產(chǎn)生質(zhì)的變化。

02 再做一遍音頻生意

傳統(tǒng)的音頻行業(yè)，并不是一門好生意。中國并沒有誕生如播客一樣的付費潮，于是各個玩家都在尋找利潤更高的“好生意”。

比如之前同樣做音頻的荔枝FM，現(xiàn)在的重心就已經(jīng)轉(zhuǎn)到了更容易盈利的直播業(yè)務(wù)上。今年二季度，其營收中虛擬禮物即相關(guān)的收入占比已經(jīng)超過了99％。除此之外，幾乎所有在線音頻玩家，都曾嘗試Clubhouse的聊天室模式。甚至從2017年開始，喜馬拉雅還在智能家居、智能音箱、汽車座艙等多種生態(tài)渠道布局，試圖擴大渠道來打開更多的市場。

對于音頻行業(yè)來說，這些探索固然不錯，但在線音頻本質(zhì)上仍然是內(nèi)容行業(yè)，真正吸引用戶使用、付費，甚至吸引廣告主的，最終還是基于內(nèi)容的體驗。

正如信息流技術(shù)改變了圖文、視頻的新媒體傳播邏輯，誕生了字節(jié)跳動這樣的新巨頭，進(jìn)而在電商、本地生活上都展現(xiàn)出巨大的顛覆式玩法。

AIGC、TTS、ASR等AI技術(shù)在音頻行業(yè)的突破式進(jìn)展，也將讓這個行業(yè)迸發(fā)出一種新活力。

在傳統(tǒng)在線音頻行業(yè)中，內(nèi)容結(jié)構(gòu)以及隨之而來的內(nèi)容成本一直是阻礙平臺盈利的一個重要原因。

經(jīng)過這么多年的發(fā)展，目前在線音頻行業(yè)已經(jīng)有了非常穩(wěn)定的內(nèi)容生產(chǎn)結(jié)構(gòu)。以喜馬拉雅為例，其采用的“PGC＋PUGC＋UGC”的內(nèi)容結(jié)構(gòu)像金字塔一樣搭建而成，其中UGC作為金字塔的底座，是用戶消費最多的部分，其收聽時長在2021年整個平臺收聽時長中占了45．3％。

圖：招股書中喜馬拉雅PGC、PUGC、UGC內(nèi)容占比

但同時，喜馬拉雅與生產(chǎn)內(nèi)容的創(chuàng)作者之間采用的收入分成的利潤分配方式，這直接導(dǎo)致了這些年來喜馬拉雅的內(nèi)容成本一直居高不下。比如2020年和2021年，喜馬拉雅給內(nèi)容創(chuàng)作者的分成分別是13億和16億，占總營收比例分別為31．9％與27．3％。

但在內(nèi)容創(chuàng)作中引進(jìn)AI技術(shù)之后，這一狀態(tài)有望改變。

首先，通過AI技術(shù)，創(chuàng)作者將大幅提升內(nèi)容的生產(chǎn)效率，從而讓內(nèi)容規(guī)模也獲得指數(shù)級增長。

以音頻里的新聞播報為例，通過TTS，新京報、環(huán)球時報、時代周報等為代表的數(shù)十家主流媒體就在喜馬拉雅上線了超過40張AIGC音頻專輯，他們?nèi)站a(chǎn)約500條聲音。

據(jù)介紹，目前喜馬拉雅新聞TTS每分鐘內(nèi)能轉(zhuǎn)化約3000字左右，這種效率是人類主播不敢想象的�！秴柹俚闹厣√鹌蕖分鞑デ逶鹿殴~就表示，喜韻音坊節(jié)省了她的錄制成本，讓她可以在同樣的時間里大大提高出音量。

圖：AI電子書《厲少的重生小甜妻》收聽27．4W

其次，平臺也會通過AIGC大量生成內(nèi)容。目前，喜馬拉雅“單田芳聲音重現(xiàn)”等賬號下上線的運用單田芳AI合成音所制作的專輯數(shù)量已經(jīng)有100多張，總播放量超過1億。除此之外，喜馬拉雅還與近百家網(wǎng)絡(luò)平臺和出版機構(gòu)合作，上線了近6萬本電子書，然后通過TTS技術(shù)為這些電子書實時生成TTS聲音。

今年7月，百度創(chuàng)始人李彥宏認(rèn)為，“未來十年，AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式。可以實現(xiàn)以十分之一的成本，以百倍千倍的生產(chǎn)速度，去生成AI原創(chuàng)內(nèi)容。”

招股書顯示，從2019年到2021年，喜馬拉雅的毛利率已經(jīng)從44．5％提高到了54％。

可以預(yù)見，隨著AIGC內(nèi)容規(guī)模的不斷擴大，也將再大幅降低音頻平臺的平均內(nèi)容成本。

除此之外，技術(shù)的引入還將豐富音頻內(nèi)容的質(zhì)量。

音頻行業(yè)里，除了少部分專業(yè)團(tuán)隊之外，大部分內(nèi)容創(chuàng)作者都是“單兵作戰(zhàn)”，一個人、一支麥。這也導(dǎo)致他們在內(nèi)容創(chuàng)作的時候只能選擇演繹單播作品，這極大的限制了聲音內(nèi)容的變現(xiàn)力。

而在喜馬拉雅喜韻音坊基于TTS技術(shù)開發(fā)的AIGC多播功能上線之后，主播可以與AI合作，輕易實現(xiàn)不同聲音與不同角色、情感的匹配，讓單個主播也能演繹多播作品。

“現(xiàn)在喜韻音坊已經(jīng)有公子音、御姐音、師傅音、媽媽音等各種音色，而且它還賦予了這些人物不同的情緒，能夠自如表達(dá)悲傷、憤怒、厭惡、欽佩等等各種復(fù)雜的人類情感，可以滿足小說中各個角色的切換�！薄段以谙山缣詮U品》的主播“DJ老趙”表示：“借助這個功能，可以快速實現(xiàn)由單播到多播”。

之前聽眾在聽書的時候只能聽到一個人一種聲音，如今聽書的時候，有幾個角色就有幾種不同的聲音，讓聲音內(nèi)容更有張力，可以吸引更多聽眾，也能讓更多用戶愿意為之付費。

從數(shù)據(jù)上看，2020年喜馬拉雅移動端每名活躍用戶的日均在線音頻收聽時長為117．4分鐘，到2021年，這一數(shù)據(jù)增長到144分鐘。同時，2021年，喜馬拉雅月活躍付費會員數(shù)量為1440萬，同比增長52％。

整體上，AI技術(shù)不僅在重構(gòu)音頻行業(yè)的生產(chǎn)方式，也在從根本上改變著這個行業(yè)的商業(yè)邏輯。

原文標(biāo)題 : 當(dāng)喜馬拉雅裝上AI引擎，音頻行業(yè)還有機會嗎？