訂閱
糾錯
加入自媒體

數(shù)據(jù)標(biāo)注,從藍領(lǐng)到白領(lǐng)

自動駕駛和大模型極大激發(fā)了數(shù)據(jù)標(biāo)注的需求,但這個行業(yè)也從之前的純?nèi)斯?biāo)準(zhǔn),開始向自動化標(biāo)注和更智能的數(shù)據(jù)工程平臺過渡。

文|徐鑫

編|任曉漁

AI應(yīng)用落地?zé)岢闭苿訑?shù)據(jù)標(biāo)注市場進入新一輪洗牌期。

大模型和自動駕駛領(lǐng)域的AI需求攪動了數(shù)據(jù)服務(wù)市場,數(shù)據(jù)標(biāo)注服務(wù)商整數(shù)智能CEO林群書告訴數(shù)智前線,今年以來他們接到了非常多基于大模型訓(xùn)練場景的訂單,市場需求量呈現(xiàn)出了一條比較陡峭的增長曲線。

新的應(yīng)用場景對服務(wù)商的能力提出了新要求。一方面,不同于傳統(tǒng)深度學(xué)習(xí)算法,大模型場景下數(shù)據(jù)處理流程中,在數(shù)據(jù)需求量最大的預(yù)訓(xùn)練環(huán)節(jié),使用的多是無標(biāo)注或弱監(jiān)督標(biāo)注數(shù)據(jù)。更多的人工標(biāo)注需求出現(xiàn)在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)(SFT)以及基于人類反饋的強化學(xué)習(xí)(RLHF)階段。微調(diào)和對齊時,人工標(biāo)注的質(zhì)量會極大影響模型在生成內(nèi)容時的智能水平,這對人工標(biāo)注的數(shù)據(jù)質(zhì)量提出了更高的要求。

另一方面,AI技術(shù)的進步正推動行業(yè)從人力密集型向自動化標(biāo)注轉(zhuǎn)變。

新一代數(shù)據(jù)標(biāo)注服務(wù)商已經(jīng)基于機器學(xué)習(xí)算法,探索構(gòu)建更智能的數(shù)據(jù)工程平臺,提升數(shù)據(jù)標(biāo)注的自動化水平。而原本處于數(shù)據(jù)服務(wù)下游的算法研發(fā)平臺及科技企業(yè)自身也在嘗試把大模型技術(shù)用到了自身的數(shù)據(jù)標(biāo)注場景,例如商湯科技在自動駕駛場景基于視覺大模型技術(shù),降低了人工數(shù)據(jù)標(biāo)注的數(shù)量,大幅提升了數(shù)據(jù)標(biāo)注效率。

大廠也加速進入這一市場。由于看中了大模型訓(xùn)練的算力市場,不少模型提供商提供了AI訓(xùn)練全家桶,數(shù)據(jù)標(biāo)注被納入了大廠的服務(wù)范圍,這可能正加劇行業(yè)的競爭。

數(shù)據(jù)標(biāo)注自動化水平提升,拉高了服務(wù)標(biāo)準(zhǔn),同時還在釋放行業(yè)的降價空間。一位資深人士稱,今年數(shù)據(jù)標(biāo)注市場或許會加速向技術(shù)型玩家集中,單純依靠人工標(biāo)注的企業(yè)生存更為艱難,市場正開啟淘汰賽。

01

AI落地潮催熟數(shù)據(jù)標(biāo)注市場

數(shù)據(jù)被認(rèn)為是人工智能智能化水平提升的燃料。過去兩年里大模型和自動駕駛等領(lǐng)域里的AI落地?zé)岢闭诖邿釘?shù)據(jù)標(biāo)注市場。

據(jù)信通院數(shù)據(jù),OpenAI 2020 年推出 GPT-3 以來,超大預(yù)訓(xùn)練模型參數(shù)數(shù)量、訓(xùn)練數(shù)據(jù)規(guī)模按照 300 倍/年的趨勢增長。大模型熱潮使得國內(nèi)的數(shù)據(jù)標(biāo)注公司也受到了不小關(guān)注。今年以來,國內(nèi)的老牌數(shù)據(jù)標(biāo)注企業(yè)海天瑞聲備受矚目,該公司高管在接受采訪時稱收到了大量問詢。

今年2月,海天瑞聲還專門發(fā)布了公告,稱公司尚未與OpenAI開展合作,收入結(jié)構(gòu)中有大約90%的貢獻來自于智能語音和計算機視覺業(yè)務(wù)領(lǐng)域,自然語言業(yè)務(wù)對公司整體貢獻大約在10%左右。

雖然與大語言模型直接相關(guān)的訓(xùn)練需求,在這家老牌數(shù)據(jù)標(biāo)注服務(wù)商的業(yè)務(wù)占比不大,但市場對數(shù)據(jù)標(biāo)注廠商的熱情依然迅猛。海天瑞聲今年股價實現(xiàn)了大幅上漲,波動范圍從31.28 元最高到過192.69元,雖然目前股價已回落到百元以內(nèi)區(qū)間,但仍較年初水平翻倍。

除了老牌數(shù)據(jù)標(biāo)注商的股價飆漲,新興的數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司也明顯感知到了這股趨勢。 整數(shù)智能CEO林群書告訴數(shù)智前線,今年他們能看到兩個領(lǐng)域的數(shù)據(jù)標(biāo)注需求非常明顯,一個是自動駕駛場景,另外一個就是大模型,這也是他們重點布局的兩大領(lǐng)域。

業(yè)界觀察,大模型的訓(xùn)練方式與此前的深度學(xué)習(xí)算法的開發(fā)范式并不一樣:大模型的預(yù)訓(xùn)練環(huán)節(jié)需要的數(shù)據(jù)量比較大,但這一環(huán)節(jié)通常會采用弱監(jiān)督或無監(jiān)督數(shù)據(jù),對數(shù)據(jù)標(biāo)注的需求增加并不明顯。而在預(yù)訓(xùn)練環(huán)節(jié)之后的微調(diào)和基于人類反饋的強化學(xué)習(xí)階段,則需要高質(zhì)量的人工標(biāo)注數(shù)據(jù)。比如,此前工行的技術(shù)專家在華為云論壇上分享訓(xùn)練自己的大模型應(yīng)用時提到,在微調(diào)階段需要體系內(nèi)的業(yè)務(wù)專家們?nèi)?biāo)注金融相關(guān)的數(shù)據(jù),這已不是普通數(shù)據(jù)標(biāo)注員能完成的作業(yè)。

林群書介紹,目前他所在的整數(shù)智能已經(jīng)針對大模型不同階段的數(shù)據(jù)需求向企業(yè)提供不同的數(shù)據(jù)服務(wù)。比如針對需要做模型訓(xùn)練但自身沒有專業(yè)獲取數(shù)據(jù)來源的團隊,提供從數(shù)據(jù)標(biāo)注工具到定制數(shù)據(jù)集的整套服務(wù)。

自動駕駛也是近年來另一個對數(shù)據(jù)標(biāo)注服務(wù)有大量需求的場景。根據(jù)德勤今年3月份的一份報告顯示,2022年自動駕駛領(lǐng)域在人工智能基礎(chǔ)數(shù)據(jù)服務(wù)的整個下游應(yīng)用占比約為38%,到2027年這個比例將增長到52%。

這一場景的數(shù)據(jù)需求暴增與自動駕駛場景特性有關(guān)。車企對數(shù)據(jù)標(biāo)注的要求相比其他行業(yè)更高。林群書告訴數(shù)智前線,目前國內(nèi)車企也在對標(biāo)特斯拉的數(shù)據(jù)閉環(huán)方案,能服務(wù)這個場景的數(shù)據(jù)服務(wù)商需要有專門的自動化標(biāo)注平臺與專業(yè)的標(biāo)注工具,例如4D標(biāo)注工具,同時需要一整套完整的解決方案。

另外,出于對安全考量,車企對數(shù)據(jù)標(biāo)注的準(zhǔn)確度要求通常在99%以上,這實際上也大幅提高了對數(shù)據(jù)服務(wù)商的要求門檻。

整體而言,數(shù)據(jù)標(biāo)注市場需求在大量釋放的同時,門檻也進一步拉高。

02

從“靠人工實現(xiàn)智能”到智能化工程平臺

過去十年,深度學(xué)習(xí)和人工智能技術(shù),基于標(biāo)注好的數(shù)據(jù),智能水平有了巨大的突破。

張宏江院士今年年初在一場有關(guān)大模型的演講中提及,伴隨算法的進步實際上數(shù)據(jù)層面發(fā)生的變化也非常明顯,從最開始人工的標(biāo)注,到開放的數(shù)據(jù)集分享,現(xiàn)在發(fā)展到數(shù)據(jù)自動標(biāo)注和深層研究。這也是國內(nèi)數(shù)據(jù)標(biāo)注領(lǐng)域里正在發(fā)生的現(xiàn)實。

行業(yè)內(nèi)最經(jīng)典的人工數(shù)據(jù)標(biāo)注工作,當(dāng)屬 ImageNet數(shù)據(jù)集。2007年開始,人工智能學(xué)者李飛飛在美國普林斯頓大學(xué)任教期間,啟動了 ImageNet的標(biāo)注工作。通過亞馬遜 Mechanical Turk 在線眾包,李飛飛團隊利用了67 個國家的 49000 人次,花費兩年半的時間,最終標(biāo)注了1500 萬張圖片。這個龐大數(shù)據(jù)集為后來深度學(xué)習(xí)算法的良好表現(xiàn)打下了基礎(chǔ),無怪乎有人稱李飛飛為深度學(xué)習(xí)之母。

而數(shù)據(jù)標(biāo)注作業(yè)能從純手工標(biāo)注逐漸往自動化標(biāo)注及更智能的數(shù)據(jù)工程平臺過渡,實際上與這個細分行業(yè)的特性有關(guān)。

一位業(yè)界人士告訴數(shù)智前線,數(shù)據(jù)標(biāo)注工作本質(zhì)是要把日常生活中這些非結(jié)構(gòu)化數(shù)據(jù)翻譯成機器能理解的結(jié)構(gòu)化數(shù)據(jù)。而無論是結(jié)構(gòu)化還是非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)的模態(tài)是有限的,包含圖像、音頻、視頻、文本、點云等有限種類。另外,在實現(xiàn)人工智能的數(shù)據(jù)工程任務(wù)時,不同模態(tài)數(shù)據(jù)要完成的是有限個子任務(wù)。以圖像領(lǐng)域為例,要識別圖像信息,共包含了目標(biāo)檢測、語義分割、目標(biāo)跟蹤等十個以內(nèi)的子任務(wù)。

專業(yè)的數(shù)據(jù)服務(wù)商可以針對所有模態(tài)數(shù)據(jù)的子任務(wù),做出針對性的數(shù)據(jù)標(biāo)注工具,并從中提煉出標(biāo)準(zhǔn)化流程,更高效完成數(shù)據(jù)的采集和標(biāo)注,從而服務(wù)和滿足人工智能應(yīng)用和不同場景的需求。

過去十余年,國內(nèi)數(shù)據(jù)標(biāo)注最初是純?nèi)斯ね瓿桑S著人工智能算法發(fā)展帶來的數(shù)據(jù)標(biāo)注任務(wù)增加,一些軟件公司開始開發(fā)眾包的數(shù)據(jù)標(biāo)注平臺,從而更高效組織和管理人工標(biāo)注任務(wù)的分發(fā),控制流程,推動人工數(shù)據(jù)標(biāo)注及質(zhì)檢工作的流程標(biāo)準(zhǔn)。

數(shù)據(jù)標(biāo)注作業(yè)朝向自動化邁開步伐,時間節(jié)點在2017年~2018年。當(dāng)時行業(yè)里發(fā)現(xiàn),隨著自動駕駛這樣需要處理海量數(shù)據(jù)的場景出現(xiàn),一個場景要標(biāo)注的數(shù)據(jù)體量可能達到幾千萬張圖片規(guī)模。在這樣體量的需求前,人工完成數(shù)據(jù)標(biāo)注任務(wù),一致性管理和進度追蹤變得極為困難。

一方面人工要完成千萬張圖片級別的數(shù)據(jù)標(biāo)注,通常需要幾百人團隊花費大半年以上的周期。同時,眾包平臺的人工標(biāo)注作業(yè)可能會因為一致性管理難,而出現(xiàn)準(zhǔn)確率不達標(biāo)等情況,需要返工,這可能進一步拉長作業(yè)周期。

業(yè)界開始探討用人工智能來減少標(biāo)注工作量。比如訓(xùn)練一個人工智能算法,對標(biāo)注任務(wù)進行預(yù)標(biāo)注,再由人工去做精加工。預(yù)標(biāo)注過程能大幅減少人工標(biāo)注數(shù)量,同時由于篩選標(biāo)準(zhǔn)統(tǒng)一,結(jié)果的一致性更高,數(shù)據(jù)標(biāo)注的質(zhì)量也能提升。

目前,國內(nèi)已經(jīng)有不少企業(yè)把大模型技術(shù)應(yīng)用到了數(shù)據(jù)標(biāo)注場景。商湯科技聯(lián)合創(chuàng)始人、大裝置事業(yè)群副總裁陳宇恒此前接受數(shù)智前線采訪時提到,在自動駕駛場景里,商湯正通過大模型去對自動駕駛的路測回流數(shù)據(jù)做挖掘、自動標(biāo)注、泛化與重建,大幅提升了自動駕駛算法迭代所需的高質(zhì)量數(shù)據(jù)規(guī)模化生成效率。

商湯絕影產(chǎn)品總監(jiān)Larry方面還透露,目前商湯絕影智能駕駛主要模型訓(xùn)練所依賴的標(biāo)注已經(jīng)大部分采用大模型自動標(biāo)注技術(shù),全自動標(biāo)注和半自動標(biāo)注(采用人工抽樣質(zhì)檢)基本已經(jīng)代替了人工標(biāo)注,成本和時間周期均大幅下降。

今年4月,海康威視在一季度的財報電話會上向投資者答疑時也提到,他們也在將自研AI技術(shù)用到自動化標(biāo)注場景,“用同樣的人力投入, 數(shù)據(jù)標(biāo)注的數(shù)量可以提升 10 倍”。數(shù)智前線獲悉,網(wǎng)易旗下的伏羲有靈眾包平臺已經(jīng)在控制成本、縮短任務(wù)周期、保證質(zhì)量等方面融入了一系列的前沿算法,將人工標(biāo)注數(shù)據(jù)反哺 AI算法,實現(xiàn)人機協(xié)作任務(wù)處理。

一些新興的數(shù)據(jù)標(biāo)注服務(wù)商們試圖再往前一步,建設(shè)更通用的數(shù)據(jù)工程平臺,在一些跨行業(yè)或跨場景的算法自動化標(biāo)注減少工程師需要額外調(diào)試的時間。老牌廠商海天瑞聲就計劃啟動領(lǐng)域里的垂直大模型研發(fā),把大模型的泛化能力應(yīng)用到數(shù)據(jù)標(biāo)注領(lǐng)域。

整數(shù)智能則開發(fā)了智能數(shù)據(jù)工程平臺(ABAVA Platform),希望適用所有的模態(tài)數(shù)據(jù)及更普遍的行業(yè)場景,他們還將MLOps模塊集成在數(shù)據(jù)工程平臺上,使得平臺可以以插件的形式使用內(nèi)外部的算法模型,用于提升數(shù)據(jù)標(biāo)注以及智能審核的效率。林群書介紹,“通過把一套Machine Learning Ops的系統(tǒng)集成到了整個數(shù)據(jù)工程平臺,每次完成的數(shù)據(jù)都可以用來迭代自動標(biāo)注算法,使得自動標(biāo)注算法不斷學(xué)習(xí)垂直場景數(shù)據(jù),變得更加聰明。數(shù)據(jù)標(biāo)注也能形成數(shù)據(jù)應(yīng)用的閉環(huán)和飛輪。”

在數(shù)據(jù)標(biāo)注的智能化演進路徑里,也有觀察人士評價,人工標(biāo)注師們的努力正推動算法進步,最終使得自身被算法汰換。

03

淘汰賽開啟

對投資人工智能的企業(yè)而言,數(shù)據(jù)標(biāo)注是項長期成本,只要企業(yè)還期望提升算法的智能程度,每年對數(shù)據(jù)標(biāo)注的需求和投入就穩(wěn)定存在。

也有應(yīng)用開發(fā)方在訓(xùn)練算法時會干脆不靠外部標(biāo)注商,自己投入力量來標(biāo)注數(shù)據(jù)。例如不少互聯(lián)網(wǎng)平臺就建設(shè)了數(shù)據(jù)標(biāo)注眾包平臺,這些企業(yè)有大量的人工智能算法及AI應(yīng)用開發(fā)需求,自建團隊對這些企業(yè)而言能更方便滿足業(yè)務(wù)的數(shù)據(jù)需求。

但這個行當(dāng)?shù)倪M入門檻相對不高。據(jù)了解,前些年在一些人力資源充足地區(qū)如山東、山西、河南、貴州等地,出現(xiàn)了不少數(shù)據(jù)標(biāo)注基地,大量廉價的勞動力資源是這些標(biāo)注基地生存發(fā)展的重要原因。

大模型時代到來后,數(shù)據(jù)需求方對人工標(biāo)注的數(shù)據(jù)要求在提升。例如,業(yè)界發(fā)現(xiàn)微調(diào)環(huán)節(jié)的反饋和數(shù)據(jù)質(zhì)量正大大影響模型的智能度,在一些前沿的研究論文里就已經(jīng)在指出,擴大數(shù)據(jù)量而不同時擴大提示多樣性時,收益會大大減少,而在優(yōu)化數(shù)據(jù)質(zhì)量時,收益會大大增加。為了提升模型表現(xiàn),數(shù)智前線了解到,今年4月國內(nèi)某頭部大模型提供商就專門組建了更專業(yè)的標(biāo)注團隊,標(biāo)注員要求本科以上學(xué)歷。

算法類企業(yè)自身離數(shù)據(jù)和人工智能算法近,他們也在用大模型來提升自身的數(shù)據(jù)處理能力,比如?低、商湯科技,此前被行業(yè)里劃為應(yīng)用開發(fā)或算法研發(fā)環(huán)節(jié),現(xiàn)在他們也有一些智能化工具和應(yīng)用來提升數(shù)據(jù)標(biāo)注效率。

大廠內(nèi)部的數(shù)據(jù)標(biāo)注平臺的服務(wù)方式也在發(fā)生變化。由于看中了大模型帶來的算力市場,大廠正在提供一站式服務(wù),其中包含了AI訓(xùn)練的工具鏈、數(shù)據(jù)標(biāo)注的工具等。數(shù)據(jù)標(biāo)注被納入AI訓(xùn)練全家桶,統(tǒng)一對外服務(wù)。一些分析人士認(rèn)為,這種模式下,大廠的數(shù)據(jù)標(biāo)注服務(wù)可能變得比以前更有吸引力,可能會擠占第三方標(biāo)注服務(wù)商的生意。

不過也有業(yè)內(nèi)人士認(rèn)為,大廠內(nèi)部建的數(shù)據(jù)標(biāo)注平臺有一些局限。這些基于內(nèi)部數(shù)據(jù)需求和業(yè)務(wù)場景出發(fā)來建的平臺,通常很難應(yīng)對市場多樣化的數(shù)據(jù)標(biāo)注任務(wù)需求。另外該資深人士也認(rèn)為,一些企業(yè)還有私有化部署的需求,從合規(guī)角度需要把訓(xùn)練任務(wù)放在本地,專業(yè)的數(shù)據(jù)標(biāo)注服務(wù)商更擅長滿足這部分需求。

林群書也提及,醫(yī)療行業(yè)就更傾向用私有化部署去保護數(shù)據(jù)安全。醫(yī)療行業(yè)里的客戶會從標(biāo)注環(huán)節(jié)開始,整套系統(tǒng)和標(biāo)注平臺做私有化部署,整個平臺放內(nèi)網(wǎng),然后這些機構(gòu)會自己安排一些醫(yī)生上來做數(shù)據(jù)標(biāo)注。

同時,新興的AI場景也對數(shù)據(jù)標(biāo)注服務(wù)商提出了更高要求。例如自動駕駛領(lǐng)域,如果一家數(shù)據(jù)標(biāo)注服務(wù)商沒有4D標(biāo)注工具和能力,現(xiàn)在可能沒有辦法跟主機廠合作。

總之,市場開始變得更卷。更多類的參與主體,行業(yè)里的智能化、自動化趨勢使得從前單純疊人力、沒有技術(shù)含量的數(shù)據(jù)標(biāo)注范式逐漸在喪失生存空間。

林群書透露,由于智能化工具減少了人工標(biāo)注的工作量,同樣的數(shù)據(jù)標(biāo)注任務(wù)他們可以用更少的成本達到更高質(zhì)量的標(biāo)注。由于有了技術(shù)紅利,他們還能釋放一部分成本優(yōu)勢給客戶,降低單位數(shù)據(jù)標(biāo)注任務(wù)的價格。

這是一個持續(xù)有需求的市場。2019年艾瑞咨詢的報告中評估,市場在2025年將達到百億規(guī)模,但實際上,業(yè)界人士評估目前國內(nèi)市場整體規(guī)?赡茉诮衲昃鸵呀(jīng)達到了百億水準(zhǔn)。市場需求正在加速釋放,行業(yè)正在從勞動密集型向技術(shù)密集型轉(zhuǎn)變。

一位業(yè)界人士稱,一場淘汰賽已經(jīng)開啟,行業(yè)內(nèi)競爭加劇,今年剩者為王更為明顯。

       原文標(biāo)題 : 數(shù)據(jù)標(biāo)注,從藍領(lǐng)到白領(lǐng)

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標(biāo)題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號