百度地圖語音定制功能:百度正在用AI改變一切
美國鬼才科普作家詹姆斯·弗拉霍斯用《智能語音時代》這樣一個標題形容了如今語音科技對人們的影響。他的副標題很有趣——商業(yè)競爭、技術創(chuàng)新與虛擬永生。
在他看來,每十年左右,人與技術的互動方式就會有一個根本性的轉變。數十億美元的財富會“恭候”那些定義了新的時代范式的公司,而落伍者將破產倒閉。
語音正在變成影響現實的通用遙控器,成為幾乎能控制任何一種技術裝置的手段。語音打破了世界上一些最有價值的公司的商業(yè)模式,為新的應用創(chuàng)造了機會。
這一次,百度地圖用語音定制功能同時展現了品牌營銷和技術積淀的雙重能力。其中的語音技術未來的ToB、ToC領域也都有寬闊的運用空間。
一
品牌營銷的創(chuàng)新
過去地圖行業(yè)常常找來明星站臺,通過明星語音包的方式展開品牌活動。
這種策略的確卓有成效,事實上,不管是湯唯、林志玲語音都很受用戶的歡迎。但是要知道,明星的粉絲畢竟圈層有限,明星語音可能僅僅只能吸引一部分粉絲用戶,想要真正擴大圈層,實現營銷破圈,可能要采取一些別的策略。
不過有趣的是,9月19日,百度地圖發(fā)布語音定制功能,直接推出了用戶定制專屬語音包。
定制方式很簡單,打開百度地圖App,喚醒“小度小度”后說“錄制我的語音”,或點擊百度地圖首頁的“出行助手”后進入“語音定制”,便可開啟語音定制之旅。在安靜的環(huán)境中,跟著百度地圖指引,念出卡通和影視臺詞等充滿趣味性的錄制文本,等待大約20分鐘,就能擁有一個自己專屬的語音包。
百度地圖事業(yè)部總經理李瑩
最后你就可以用自己的語音包替換掉其他明星語音包,可以在百度地圖的景區(qū)智能語音導覽、智能語音交互、導航等全部場景使用。
讓用戶使用地圖時聽著自己的語音,這或許是一個對所有人來說,都是個饒有趣味的嘗試,這種嘗試的有趣之處在于:
1、滿足新鮮感;明星語音已經是市面上大部分手機地圖的常規(guī)操作,由于傳導機制的不同,人們聽自己聲音與自己聲音的錄音往往不同,這種“奇妙而羞恥”的感受往往比明星語音來得更有趣。
2、打破了圈層;明星語音畢竟只是一部分粉絲群體會選擇使用,但是自己的語音卻是所有人都感興趣的,不花一分錢請明星做代言,不針對少部分粉絲用戶群體,直接用技術手段覆蓋所有用戶群體,這種策略可謂是四兩撥千斤。
可以說,這既是一次營銷活動,也是一次技術展示。而且兩者有著很好的結合,
已經很少有品牌營銷能夠真正讓技術能力得到釋放,但是百度地圖這次做到了。它讓技術和營銷軟硬兼?zhèn)洹?/p>
二
語音技術的躍進
這個功能主要應用了百度獨創(chuàng)的風格遷移技術Meitron模型。
所謂風格遷移這個概念最早來源于圖像領域的概念,簡單說就是:將一張圖片的藝術風格應用到另外一張圖片上。
語音的風格遷移其實也被稱作是“語音克隆”(voice clone)、“多說話人風格遷移”(multi-speaker)、“風格遷移”(style transfer)、“語音轉換”(voice conversion)。
要知道語音的風格遷移非常困難。
因為深度網絡對于語音處理困難。一來不如圖像和文本領域研究火熱,二來語音所具有的信息,難以編碼到高維隱空間。一段語音時間序列中,混雜著以下方面的信息:說話人特征(如一個人的音色,音調等);語言學內容(語音表述的內容);副語言特征(如情感等)。
2017年,美國曾有一篇名為《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》的學術論文講述風格遷移的問題。
百度地圖這次采用的Meitron模型其特點主要體現在發(fā)音人音色轉換,多情感朗讀和韻律風格遷移三個方面,從而讓個性化語音合成的定制門檻大大降低。
要知道,過去明星地圖語音的錄制非常麻煩。以高德地圖的林志玲語音為例,它的制作分成兩塊。
一塊是按照錄音稿錄制出來的語音內容。另一塊則是高德當時找專人,跟了林志玲幾個月,貼身錄音,把原始聲音文件處理提取出數字特征。再采用通用的、很完善波型合成技術,將元音、輔音及音調等采樣,通過算法實現文語轉換。
這是2014年明星語音生成的處理方案——看完你大概會想,錄個音實在太難了。
但是在Meitron模型下情況就不一樣了,這個模型背后的技術支撐是百度大腦語音技術的賦能。AI的加持讓地圖語音包生產實現了從月級別到分鐘級別的突破性進展。
百度語音首席架構師賈磊
該模型是目前行業(yè)領先的語音合成技術。用手機即可完美復刻說話者的音色,風格,情緒等。
關鍵是,僅僅只需要20分鐘就能全部生成。也就是說,未來不管是什么明星,他們的語音只需要在Meitron模型里跑20分鐘,基本就能生成一個完整的導航語音包。
語音合成能力越強,其實也說明未來人機交互、語義理解的可能性越大,機器閱讀的能力越強。
短短5年時間,AI加持下的語音技術可謂突飛猛進。百度大腦的實力可見一斑。
三
未來商業(yè)的結合點
這次品牌營銷其實也是百度語音技術的一次能力展示,它未來在ToB側、ToC側都可以有更多結合之處。
比如深度神經網絡技術,提供高度擬人、流暢自然的語音合成服務,讓客戶的應用、設備開口說話,更具個性。
1、教育和閱讀類產品:讓課程和講解變得更生動
通過閱讀類APP閱讀小說或新聞時,如果使用語音合成技術為用戶提供多種發(fā)音人的朗讀功能,釋放雙手和雙眼,獲得更極致的閱讀體驗。
2、生活和服務類產品:讓服務交互效率得以提升
語音合成還可應用于打車軟件、餐飲叫號、排隊軟件等場景,通過語音合成進行訂單播報,讓用戶便捷獲得通知信息。面部識別則是可以展開顧客識別、訂單校對。
3、智能硬件類產品:讓人機活動變得更鮮活有趣
可集成到兒童故事機、智能機器人、平板設備等智能硬件設備,使用戶與設備的交互更自然、更親切。
當然,對百度地圖自身而言,這次語音合成技術的使用使其人工智能地圖的稱謂名副其實——所謂人工智能地圖指的是,在AI賦能下,地圖在交互體驗、位置信息、出行服務以及出行決策等方面產生了重大變革。
對ToC用戶來說,未來的百度地圖會具備更多AI能力和語音交互能力,它在使用過程中會變得更便捷、更智能,比如說,結合用戶的使用習慣和當前的場景,通過用戶畫像、深度學習等能力,給每個用戶帶來個性化信息和服務推薦。
對ToB用戶而言,未來的百度地圖同樣可以運用AI能力和語音交互能力,為客戶和商家基于語音的地理位置服務,結合人口分布、客流分析、設施分布等多項大數據分析服務;面向規(guī)劃、房產、商業(yè)、零售等行業(yè)提供解決方案。
當“你應我答”的模式出現,在人與人之間、人與機器之間,交談就絕不只是一種純粹依靠邏輯展開的過程。語言永遠不是脫離內容的外殼,人都會被語言影響或打動。
未來,我們與無處不在的機器構成的世界,將是一個前所未見的更加豐富多彩的感性世界。
詹姆斯· 弗拉霍斯有這樣一個設想:
在云時代,“只要簡單地加上一個麥克風和一個Wi-Fi芯片,任何裝置都能實現語音驅動。從浴室的水龍頭到孩子玩的布娃娃,任何裝置都能利用分布在全球的幾千臺計算機所提供的計算能力!边@幾乎意味著“萬物能言”的童話世界真的實現了。
在這樣的世界之中,商業(yè)邏輯和產品邏輯也將有著更多改變。語音可能真的要成為地圖等產品的入口之一。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-10.29立即報名>> 2024德州儀器嵌入式技術創(chuàng)新發(fā)展研討會
-
10月31日立即下載>> 【限時免費下載】TE暖通空調系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月14日立即報名>> 2024工程師系列—工業(yè)電子技術在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯網產業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
推薦專題
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結構工程師 廣東省/深圳市