極鏈科技張奕:消費(fèi)級(jí)視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用
近幾年,視頻行業(yè)迎來(lái)了井噴式爆發(fā),隨著人工智能技術(shù)的逐漸成熟,用戶(hù)體驗(yàn)不斷升級(jí)。
在觀看影視劇、綜藝等視頻時(shí),我們總能在畫(huà)面中看到跟視頻場(chǎng)景相關(guān)的廣告,比如當(dāng)出現(xiàn)地標(biāo)性建筑時(shí),會(huì)出現(xiàn)旅游相關(guān)廣告;當(dāng)觀看明星真人秀節(jié)目,會(huì)有同款服飾的購(gòu)物鏈接。在這背后,是智能視頻識(shí)別技術(shù)發(fā)展的成果。
近期,極鏈科技AI研究院資深研究員張奕在公開(kāi)課上進(jìn)行了主題為《消費(fèi)級(jí)視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用》的講解,從視聯(lián)網(wǎng)產(chǎn)業(yè)簡(jiǎn)介、智能視頻技術(shù)應(yīng)用于消費(fèi)級(jí)視頻的挑戰(zhàn)、數(shù)據(jù)的重要性與VideoNet視頻數(shù)據(jù)集、視頻內(nèi)容識(shí)別的算法設(shè)計(jì)與應(yīng)用四大模塊進(jìn)行了分享。
以下為分享實(shí)錄:
在5G和AI的加持下,互聯(lián)網(wǎng)演進(jìn)出三大形態(tài),物聯(lián)網(wǎng),視聯(lián)網(wǎng)和車(chē)聯(lián)網(wǎng)。目前視頻占據(jù)了全網(wǎng)數(shù)據(jù)的80%,且仍在不斷提高。視頻將成為互聯(lián)網(wǎng)最重要的入口,承擔(dān)起信息傳遞介質(zhì)和互聯(lián)網(wǎng)功能載體的作用,進(jìn)而形成以視頻作為主要信息傳遞介質(zhì)和功能載體的互聯(lián)網(wǎng)形態(tài),視聯(lián)網(wǎng)。龐大的消費(fèi)級(jí)視頻是視聯(lián)網(wǎng)的首個(gè)落地場(chǎng)景。
作為「AI+視頻」行業(yè)獨(dú)角獸企業(yè),全球視聯(lián)網(wǎng)開(kāi)源操作系統(tǒng)構(gòu)建者,極鏈科技專(zhuān)注于消費(fèi)級(jí)視頻AI技術(shù)研發(fā)和商業(yè)應(yīng)用,聚焦以視頻作為信息和功能核心載體的新互聯(lián)網(wǎng)形態(tài)——視聯(lián)網(wǎng)。以AI技術(shù)賦能視頻中的信息,鏈接互聯(lián)網(wǎng)信息、服務(wù)、購(gòu)物、社交、游戲五大模式,實(shí)現(xiàn)基于視頻的新互聯(lián)網(wǎng)經(jīng)濟(jì)體。極鏈科技自主研發(fā)的VideoAI是視聯(lián)網(wǎng)整個(gè)生態(tài)的底層引擎,VideoOS為視聯(lián)網(wǎng)底層操作系統(tǒng),是繼PC時(shí)代Linux系統(tǒng)和移動(dòng)互聯(lián)網(wǎng)時(shí)代安卓系統(tǒng)之后的第三大操作系統(tǒng)。以VideoAI、VideoOS為基礎(chǔ),開(kāi)發(fā)出廣告、電商等各類(lèi)視聯(lián)網(wǎng)應(yīng)用。
視聯(lián)網(wǎng)的基礎(chǔ)數(shù)據(jù)即視頻,尤其是消費(fèi)級(jí)視頻。區(qū)別于工業(yè)級(jí)視頻是利用專(zhuān)業(yè)設(shè)備在固定條件、固定場(chǎng)景下拍攝的視頻,如監(jiān)控視頻。消費(fèi)級(jí)視頻是指用戶(hù)用手機(jī)等便攜式圖像采集設(shè)備生成的視頻。消費(fèi)級(jí)視頻有三大特點(diǎn)。一,消費(fèi)級(jí)視頻數(shù)據(jù)體量巨大;二,消費(fèi)級(jí)視頻的類(lèi)別多樣,如電影、綜藝、體育、短視頻等;三,消費(fèi)級(jí)視頻場(chǎng)景復(fù)雜,如場(chǎng)景內(nèi)的特效、切換、淡入淡出和字幕,都會(huì)對(duì)整體或局部產(chǎn)生模糊。以上特點(diǎn)對(duì)視頻識(shí)別算法提出了更高的挑戰(zhàn)。
視頻識(shí)別算法本身有較長(zhǎng)的歷史,然而受到計(jì)算能力的限制,算法各項(xiàng)性能與產(chǎn)品商業(yè)化要求間還存在較大的差距。直到2012年,深度學(xué)習(xí)技術(shù)、大數(shù)據(jù)及GPU算力的結(jié)合極大提升了算法準(zhǔn)確率和運(yùn)算效率,拉低了與產(chǎn)品商業(yè)化要求的差距。
眾所周知,深度學(xué)習(xí)的成功建立在大規(guī)模數(shù)據(jù)集的基礎(chǔ)上,F(xiàn)有視頻數(shù)據(jù)集從規(guī)模、維度和標(biāo)注方式上都與深度學(xué)習(xí)算法的要求存在很大差距。今年,極鏈科技與復(fù)旦大學(xué)聯(lián)合推出了全新的VideoNet視頻數(shù)據(jù)集,具備規(guī)模大、多維度標(biāo)注、標(biāo)注細(xì)三大特點(diǎn)。
第一,規(guī)模大。VideoNet數(shù)據(jù)集包含逾9萬(wàn)段視頻,總時(shí)長(zhǎng)達(dá)4000余小時(shí)。
第二,多維度標(biāo)注。視頻中存在著大量的物體、場(chǎng)景等多維度內(nèi)容信息,這些維度內(nèi)容之間又存在著廣泛的語(yǔ)義聯(lián)系。近年來(lái)涌現(xiàn)出大量針對(duì)物體、場(chǎng)景、人臉等維度的識(shí)別技術(shù),在各自的目標(biāo)維度上取得了明顯的進(jìn)步。但各視頻識(shí)別算法基本針對(duì)單一維度來(lái)設(shè)計(jì)的,無(wú)法利用各維度之間存在的豐富的語(yǔ)義關(guān)聯(lián)建立模型,提高識(shí)別準(zhǔn)確度。VideoNet數(shù)據(jù)集從事件、物體、場(chǎng)景三個(gè)維度進(jìn)行了聯(lián)合標(biāo)注,為多維度視頻識(shí)別算法研提供支持。
第三,標(biāo)注細(xì)。視頻標(biāo)注工作量非常巨大,當(dāng)前大部分視頻僅針對(duì)整段視頻打標(biāo)簽。而VideoNet數(shù)據(jù)集對(duì)視頻進(jìn)行了事件分類(lèi)標(biāo)注,并針對(duì)每個(gè)鏡頭的關(guān)鍵幀進(jìn)行了場(chǎng)景和物體兩個(gè)維度的共同標(biāo)注,充分體現(xiàn)了多維度內(nèi)容之間的語(yǔ)義聯(lián)系。
那么,VideoNet數(shù)據(jù)集是如何進(jìn)行標(biāo)注的?首先,對(duì)視頻數(shù)據(jù)進(jìn)行預(yù)處理,即鏡頭分割,并根據(jù)清晰度對(duì)鏡頭單元進(jìn)行關(guān)鍵幀提取。之后從三個(gè)維度進(jìn)行視頻標(biāo)注,事件維度上對(duì)整個(gè)視頻標(biāo)注類(lèi)別標(biāo)簽,物體維度上對(duì)鏡頭關(guān)鍵幀標(biāo)注類(lèi)別和位置框,場(chǎng)景維度上對(duì)鏡頭關(guān)鍵幀標(biāo)注類(lèi)別標(biāo)簽。目前,VideoNet數(shù)據(jù)集包含353類(lèi)事件,超過(guò)200類(lèi)場(chǎng)景和200類(lèi)物體,總視頻數(shù)達(dá)到9萬(wàn)。其中60%作為訓(xùn)練集,20%作為驗(yàn)證集,20%作為測(cè)試集。
自6月18日「VideoNet視頻內(nèi)容識(shí)別挑戰(zhàn)賽」公布訓(xùn)練和驗(yàn)證數(shù)據(jù)集以來(lái),截止到8月12日,注冊(cè)報(bào)名的隊(duì)伍已超過(guò)360支,其中參賽隊(duì)伍當(dāng)中有來(lái)自中科院、北京大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)等頂尖高校隊(duì)伍以及來(lái)自阿里巴巴、京東、華為、騰訊、大華等眾多知名企業(yè)隊(duì)伍。預(yù)計(jì)明年,極鏈科技將會(huì)繼續(xù)增加VideoNet數(shù)據(jù)集的規(guī)模和標(biāo)注維度。
消費(fèi)級(jí)視頻的數(shù)據(jù)特點(diǎn),對(duì)算法系統(tǒng)的處理速度、效率和準(zhǔn)確率提出了較高的要求。消費(fèi)級(jí)視頻算法的總體框架分為五層:1、視頻輸入層進(jìn)行視頻源的管理;2、視頻處理層進(jìn)行鏡頭分割、采樣、增強(qiáng)和去噪等工作;3、內(nèi)容提取層主要分析視頻中內(nèi)容、語(yǔ)義等信息,進(jìn)行目標(biāo)檢測(cè)、跟蹤和識(shí)別等來(lái)檢測(cè)目標(biāo)在視頻中的時(shí)間、空間、位置等維度;4、語(yǔ)義融合層進(jìn)行目標(biāo)軌跡融合、識(shí)別結(jié)果融合、特征表示融合、高層語(yǔ)義融合等;5、在數(shù)據(jù)輸出層,進(jìn)行結(jié)構(gòu)化數(shù)據(jù)管理,方便后續(xù)數(shù)據(jù)檢索與應(yīng)用。
視頻內(nèi)容識(shí)別維度多樣,包括場(chǎng)景、物體、人臉、地標(biāo)、Logo、情緒、動(dòng)作、聲音等。不同維度的算法結(jié)構(gòu)有所區(qū)別。人臉識(shí)別算法結(jié)構(gòu)為:輸入視頻后進(jìn)行鏡頭分割,在進(jìn)行人臉檢測(cè)、跟蹤、人臉對(duì)齊,根據(jù)質(zhì)量評(píng)估過(guò)濾,進(jìn)行特征提取和特征比對(duì)識(shí)別,最后進(jìn)行識(shí)別結(jié)果融合,輸入最終識(shí)別結(jié)果。
在場(chǎng)景識(shí)別算法結(jié)構(gòu)中,首先對(duì)輸入視頻進(jìn)行鏡頭分割采樣,有所不同的是只需進(jìn)行時(shí)間間隔分割的采樣,再對(duì)視頻進(jìn)行場(chǎng)景類(lèi)別的初分類(lèi),預(yù)處理之后進(jìn)入卷積神經(jīng)網(wǎng)合階段,卷積神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)不同的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,得到不同的特征和描述,將這些特征進(jìn)行融合、降維處理得到特征表示后,對(duì)不同場(chǎng)景如高頻場(chǎng)景、次級(jí)場(chǎng)景和新增場(chǎng)景,進(jìn)行分類(lèi)處理,最終對(duì)識(shí)別結(jié)果進(jìn)行融合。
在物體、Logo識(shí)別算法結(jié)構(gòu)中,有所不同的是需要多尺度提取特征,跟蹤識(shí)別物體軌跡,并關(guān)注物體類(lèi)別,對(duì)結(jié)果進(jìn)行優(yōu)化。
在地標(biāo)識(shí)別算法結(jié)構(gòu)中,分為三步,第一,通過(guò)基礎(chǔ)網(wǎng)絡(luò)(VGG,ResNet等)獲得特征圖(一般為最后一層卷積或池化層);第二,從特征圖中提取特征(例如R-Mac,SPoC,CroW,GeM等)并用ROI Pooling,PCA 白化,L2-歸一化等方式處理,一般最終維度為256,512,1024,或2048;用kNN,MR,DBA,QE,Diffusion等方式將得到的特征對(duì)數(shù)據(jù)庫(kù)內(nèi)的特征進(jìn)行后處理獲得最終特征;訓(xùn)練模型一般損失函數(shù)采用contrastive loss或triplet loss,最終比對(duì)一般采用余弦或歐式距離。
我們自主研發(fā)的算法主要做了以下優(yōu)化:1. 對(duì)基礎(chǔ)網(wǎng)絡(luò)進(jìn)行多層的特征提。ǘ痪窒抻谌B接的前一層)并融合,降維等。2. 采用CroW算法的核心思想對(duì)特征圖的不同空間點(diǎn)以及channel增加權(quán)重,不同于CroW算法,我們的權(quán)重是通過(guò)端到端方式學(xué)習(xí)所獲得。在2018、2019年Google地標(biāo)識(shí)別挑戰(zhàn)賽中,極鏈科技AI研究院蟬聯(lián)了兩屆全球冠軍。
下面,介紹一下視頻檢索,也就是以圖搜視頻的流程。以圖搜視頻可以分為兩部分,一部分是通過(guò)視頻深度圖像檢索構(gòu)建視頻數(shù)據(jù)庫(kù),另一部分是用戶(hù)檢索時(shí),輸入圖像到第一部分的視頻庫(kù)中進(jìn)行檢索。
具體來(lái)看,首先通過(guò)視頻下載、視頻數(shù)據(jù)庫(kù)檢索、特征提取、特征排序等生成一個(gè)特征表述數(shù)據(jù)庫(kù),當(dāng)用戶(hù)需求輸入后進(jìn)行特征提取、比對(duì)、排序和結(jié)構(gòu)展示。這是標(biāo)準(zhǔn)的檢索流程。在算法結(jié)構(gòu)方面,用戶(hù)輸入后會(huì)經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)和索引得出粗檢索結(jié)果,再通過(guò)細(xì)檢索進(jìn)行排序、查詢(xún),最后輸出鏡頭信息,另外也可以通過(guò)劇目信息進(jìn)行子部檢索減少搜索任務(wù)的壓力,同時(shí)提高算法的準(zhǔn)確率。
以圖搜視頻的核心在于我們自研的深度圖像檢索模型VDIR,由視頻任務(wù)調(diào)度系統(tǒng)派發(fā)的視頻分片,經(jīng)過(guò)鏡頭檢測(cè)分割成片段,片段信息經(jīng)過(guò)VDIR會(huì)生成視頻信息庫(kù)、視頻特征庫(kù)以及哈希索引庫(kù)。用戶(hù)輸入一張或者多張圖像,同時(shí)可以指定劇目信息,比如古裝劇、玄幻劇等,輸入的圖像經(jīng)過(guò)VDIR算法提取到哈希編碼和特征,首先會(huì)去歷史檢索庫(kù)中查找是否有相似的檢索,如果有直接使用特征即進(jìn)行細(xì)匹配,沒(méi)有就會(huì)先通過(guò)哈希編碼到哈希索引庫(kù)中檢索,然后進(jìn)行細(xì)匹配,根據(jù)匹配相似度進(jìn)行排序后,從視頻信息庫(kù)中查詢(xún)到視頻片段信息,配合截圖輸出到界面。
深度圖像檢索模型VDIR會(huì)輸出兩部分內(nèi)容,分別是用于快速檢索的哈希編碼以及用來(lái)細(xì)匹配的特征,一個(gè)片段的幾個(gè)幀特征或者相鄰片段的幀特征并不是都需要,因?yàn)槲覀冊(cè)O(shè)計(jì)關(guān)鍵幀篩選邏輯,只保留關(guān)鍵幀特征。
為了將以上算法實(shí)際落地,還需要進(jìn)行工程化的工作。在工程化工作中,需要解決以下幾個(gè)問(wèn)題:1、算法進(jìn)行并行化加速其運(yùn)營(yíng);2、面對(duì)高并發(fā)狀態(tài)解決分布式系統(tǒng)和多任務(wù)調(diào)度的問(wèn)題;3、對(duì)資源調(diào)度進(jìn)行算法分割與CPU+GPU配比;4、對(duì)高優(yōu)先級(jí)任務(wù)規(guī)劃處理策略。
最后,向大家介紹一下三個(gè)算法實(shí)際產(chǎn)業(yè)化應(yīng)用的案例。
VideoAI視頻智能識(shí)別和大數(shù)據(jù)運(yùn)營(yíng)系統(tǒng),實(shí)現(xiàn)視頻輸入、識(shí)別、結(jié)構(gòu)化數(shù)據(jù)管理和多維度檢索全流程技術(shù)。極鏈科技獨(dú)創(chuàng)獨(dú)創(chuàng)全序列采樣識(shí)別,對(duì)視頻內(nèi)的場(chǎng)景、物體、人臉、品牌、表情、動(dòng)作、地標(biāo)、事件8大維度進(jìn)行數(shù)據(jù)結(jié)構(gòu)化,32軌跡流同時(shí)追蹤,通過(guò)復(fù)合推薦算法將內(nèi)容元素信息升級(jí)為情景信息,直接賦能各種視聯(lián)網(wǎng)商業(yè)化場(chǎng)景。
靈悅AI廣告平臺(tái),通過(guò)VideoAI將全網(wǎng)海量視頻進(jìn)行結(jié)構(gòu)化分析,對(duì)消費(fèi)場(chǎng)景標(biāo)簽化,結(jié)合品牌投放需求,提供智能化投放策略和批量化投放,讓用戶(hù)在觀看視頻時(shí)有效獲取相關(guān)品牌信息及購(gòu)買(mǎi),實(shí)現(xiàn)廣告主精準(zhǔn)投放的營(yíng)銷(xiāo)目的和效果。目前通過(guò)VideoAI技術(shù)的賦能,靈悅AI廣告平臺(tái)已完成2012年至今全網(wǎng)熱門(mén)視頻,實(shí)現(xiàn)掃描累計(jì)時(shí)長(zhǎng)達(dá)15,600,000+分鐘劇目復(fù)合雙向匹配。開(kāi)發(fā)了965類(lèi)成熟商業(yè)化可投放情景,服務(wù)300+百家一線品牌,并與全網(wǎng)頭部流量視頻平臺(tái)簽訂深度投放合作,實(shí)現(xiàn)廣告創(chuàng)新?tīng)I(yíng)銷(xiāo)的新動(dòng)能。
神眼系統(tǒng),廣電級(jí)內(nèi)容安全多模AI審核系統(tǒng),可實(shí)現(xiàn)本地部署的高可用技術(shù)解決方案,提供長(zhǎng)視頻、直播、短視頻的敏感、政治、色情、暴恐審核服務(wù)。產(chǎn)品核心功能包括:智能鑒黃(識(shí)別視頻和圖片中的色情、裸露、性感等畫(huà)面);智能鑒暴(識(shí)別視頻和圖片中的血腥、暴力、槍支等畫(huà)面);政治敏感人物識(shí)別(基于政治人物庫(kù),識(shí)別視頻和圖片中的國(guó)家領(lǐng)導(dǎo)人物或者落馬官員等);涉毒/涉政明星識(shí)別(基于明星庫(kù),結(jié)合黑名單,識(shí)別視頻和圖片中的涉毒、涉政等明星)。
最后,想和大家強(qiáng)調(diào)一下數(shù)據(jù)對(duì)于人工智能發(fā)展的重要性。目前半監(jiān)督、無(wú)監(jiān)督算法還處于研究階段,性能差距較大,我們所用AI算法大多基于監(jiān)督學(xué)習(xí),因此數(shù)據(jù)的體量和質(zhì)量非常重要。我們要學(xué)會(huì)思考更多問(wèn)題,例如采集數(shù)據(jù)與實(shí)際應(yīng)用間的相關(guān)度,常規(guī)數(shù)據(jù)操作有哪些,如何獲取“高效”的數(shù)據(jù),如何應(yīng)用數(shù)據(jù)管理工具讓我們更好的管理、應(yīng)用數(shù)據(jù)等等。謝謝大家!
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
即日-10.29立即報(bào)名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會(huì)
-
10月31日立即下載>> 【限時(shí)免費(fèi)下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報(bào)名>>> 【在線會(huì)議】多物理場(chǎng)仿真助跑新能源汽車(chē)
-
11月14日立即報(bào)名>> 2024工程師系列—工業(yè)電子技術(shù)在線會(huì)議
-
12月19日立即報(bào)名>> 【線下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
即日-12.26火熱報(bào)名中>> OFweek2024中國(guó)智造CIO在線峰會(huì)
推薦專(zhuān)題
- 1 Intel宣布40年來(lái)最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價(jià)骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國(guó)產(chǎn)AI芯片公司破產(chǎn)!白菜價(jià)拍賣(mài)
- 5 具身智能火了,但規(guī)模落地還需時(shí)間
- 6 國(guó)產(chǎn)英偉達(dá)們,抓緊沖刺A股
- 7 三次錯(cuò)失風(fēng)口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來(lái)
- 9 英偉達(dá)的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實(shí)力拉滿(mǎn)
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市