訂閱
糾錯(cuò)
加入自媒體

月薪兩萬(wàn),大廠(chǎng)瘋搶AI數(shù)據(jù)標(biāo)注員

2023-11-30 09:15
自象限
關(guān)注

圖片|電影《正義聯(lián)盟》劇照

©自象限原創(chuàng)

作者|蘇奕

編輯|程心

“人均月薪兩萬(wàn)、本科以上學(xué)歷、直通百度字節(jié)。”

有些許荒涼的年底招聘市場(chǎng),在最近的短短一周之內(nèi),突然冒出了一大批“AI數(shù)據(jù)標(biāo)注員”的崗位,正在火熱招聘中。

據(jù)「自象限」搜索,這些崗位不僅有百度、字節(jié)、京東、滴滴、美團(tuán)等“夢(mèng)中情廠(chǎng)”,工資月薪十分亮眼,都在1萬(wàn)到2萬(wàn)元之間,且發(fā)布時(shí)間很短,都在1周到1個(gè)月之間。

除了新以外,崗位招聘顯然非常急迫。據(jù)招聘軟件顯示,HR們都異;钴S,一天24小時(shí)幾乎全程在線(xiàn),日均回復(fù)次數(shù)在十次以上,隔幾分鐘就回復(fù)一次。

“最近只要一上線(xiàn),有關(guān)AI數(shù)據(jù)標(biāo)注員的招聘消息就瘋狂彈,重復(fù)地彈。”不少正在求職的人向【自象限】反映,“上次這么瘋狂的打招呼,感覺(jué)還是主播招聘。”

▲圖源Boss直聘截圖

招聘的火熱,很難不讓人想到大廠(chǎng)的大模型之戰(zhàn)。

不過(guò),據(jù)「自象限」觀(guān)察,“AI數(shù)據(jù)標(biāo)注員”招聘不是由這些大廠(chǎng)直接操辦,而是通過(guò)獵頭公司來(lái)負(fù)責(zé)招聘。崗位的名字也是五花八門(mén),有“數(shù)據(jù)標(biāo)注”、“AI話(huà)術(shù)編輯”、“數(shù)據(jù)標(biāo)注分析師”、“標(biāo)注員”、“AI訓(xùn)練師”等等。

雖然叫法不同,但關(guān)于這些崗位的職能描述卻大差不差,據(jù)招聘軟件信息顯示,其中很大一部分崗位跟現(xiàn)下大熱的大模型有關(guān),入職的數(shù)據(jù)標(biāo)注員們的日常工作包含,大模型的編輯校對(duì)、大模型的數(shù)據(jù)標(biāo)注管理、大模型的內(nèi)容質(zhì)量評(píng)估等。

▲圖源Boss直聘截圖

「自象限」向多位招聘HR進(jìn)行了咨詢(xún),“工作的主要內(nèi)容是對(duì)文心一言大模型回答結(jié)果的分析和判斷,工作的地點(diǎn)在百度科技園。”有獵頭回復(fù)道。

高薪資待遇、掛鉤大模型、大廠(chǎng)哄搶……有求職者看到了機(jī)會(huì),“大模型的風(fēng),要帶動(dòng)新一批大廠(chǎng)人扎根了,普通人的機(jī)會(huì)來(lái)了嗎?”

但事實(shí)上,時(shí)間緊、任務(wù)重的崗位招聘,要求卻并不算低,基本學(xué)歷要求本科起步,985、211優(yōu)先本科和碩士?jī)?yōu)先,在具備語(yǔ)言學(xué)、中文信息處理、計(jì)算語(yǔ)言學(xué)、文學(xué)等相關(guān)專(zhuān)業(yè)背景的同時(shí),還得對(duì)一些AI技術(shù)的原理有了解。

花椒科技告訴我們,面試的基本流程是,“簡(jiǎn)歷初篩-發(fā)筆試題-筆試題通過(guò)一輪面試-直接發(fā)offer-培訓(xùn)”,在學(xué)歷方面,獵頭強(qiáng)調(diào)“必須得是一本才行,211/985優(yōu)先”。

嚴(yán)格準(zhǔn)入門(mén)檻,招聘軟件上神秘的“AI數(shù)據(jù)標(biāo)注員”背后,藏著大廠(chǎng)的大模型棋局。

我,給大模型當(dāng)“考官”月薪兩萬(wàn)

歷時(shí)一個(gè)多月的面試,中文系畢業(yè)的羅文(化名)最終敲定了自己的offer——百度文心一言的AI數(shù)據(jù)標(biāo)注員。連她自己都不敢相信,一個(gè)純技術(shù)小白現(xiàn)在的日常竟然是給大模型當(dāng)“考官”。

“畢業(yè)三年,沒(méi)有任何AI經(jīng)驗(yàn),轉(zhuǎn)行漲薪,幅度近50%,月薪在9k-15k左右”,羅文告訴我們。

坐在兩臺(tái)電腦前,羅文每天的主要工作有兩項(xiàng):一是做題,直接給大模型進(jìn)行“填鴨式”教育;二是給文心一言當(dāng)“判官”,評(píng)判給出的答案對(duì)不對(duì)、好不好。

所謂“填鴨”就是強(qiáng)行把寫(xiě)好的答案喂給大模型,這樣的好處就是從數(shù)據(jù)源上不會(huì)出錯(cuò),以此來(lái)提升大模型的訓(xùn)練效果。羅文告訴「自象限」,數(shù)學(xué)題、常識(shí)題、作文題她都做過(guò),但這還遠(yuǎn)遠(yuǎn)不夠,“理論上,越專(zhuān)業(yè)越好,比如我擅長(zhǎng)文學(xué)領(lǐng)域,那就專(zhuān)攻文學(xué)題,有的同事專(zhuān)業(yè)是醫(yī)學(xué),那就做醫(yī)學(xué)問(wèn)答題”,羅文道。

羅文的話(huà)已經(jīng)在一些社交平臺(tái)得到驗(yàn)證,有人曾發(fā)布帖稱(chēng),“急需招募金融專(zhuān)業(yè)人員,有償給文心一言答題,一天30多道,每道題價(jià)格在1.5-2.4元。”

▲圖源社交媒體平臺(tái)小紅書(shū)截圖

另一項(xiàng)工作就是給大模型當(dāng)“判卷老師”,就像學(xué)生考試一樣,每天大模型會(huì)生成各種問(wèn)題的答案,羅文就需要承擔(dān)老師的角色,判斷其生成的答案與題目是否一致,答案是否正確。

若遇到諸如作文一類(lèi)沒(méi)有標(biāo)準(zhǔn)化答案且開(kāi)放性的問(wèn)題時(shí),則需要評(píng)判答案的好壞,比如,系統(tǒng)會(huì)隨機(jī)給一組數(shù)據(jù),包含1個(gè)問(wèn)題和3個(gè)回答。羅文需要先標(biāo)注出這個(gè)問(wèn)題屬于什么類(lèi)型,隨后給3個(gè)回答分別打分并排序。分?jǐn)?shù)區(qū)間為0-5分,如果打分低于3分,還要標(biāo)注出具體原因,例如“答非所問(wèn)(0分)”、“嚴(yán)重跑題(1分)”、“存在邏輯問(wèn)題,存在事實(shí)性錯(cuò)誤,比例較小給2分”等。

這個(gè)工作雖然看上去并不難,但卻異常重要,甚至可以從外包直通大廠(chǎng)的機(jī)會(huì)。據(jù)上述獵頭告訴我們,“雖然合同跟我們獵頭公司簽,但是還是有六分之一的幾率轉(zhuǎn)正,進(jìn)入百度集團(tuán)”。這或許也是嚴(yán)格控制學(xué)歷的原因。

▲圖源Boss直聘截圖

為此,「自象限」也了解到,由于百度地圖的數(shù)據(jù)標(biāo)注,有穩(wěn)定的地圖業(yè)務(wù)需求及自動(dòng)駕駛模型、算法模型的訓(xùn)練需求,所以對(duì)數(shù)據(jù)標(biāo)注的質(zhì)量要求更高,的確搭建了專(zhuān)門(mén)的數(shù)據(jù)標(biāo)注團(tuán)隊(duì)。

市場(chǎng)上對(duì)“羅文”的需求,不止大模型公司。據(jù)「自象限」統(tǒng)計(jì),目前,市面上的數(shù)據(jù)標(biāo)注崗位大致分為兩種。

一種以NLP(自然語(yǔ)言)為主要方向,百度、字節(jié)、京東、美團(tuán)等一批大模型科技公司一擁而上,給自家大模型找人工數(shù)據(jù)訓(xùn)練師。這其中又分為幾個(gè)細(xì)分的方向,譬如數(shù)據(jù)分析、大模型生成結(jié)果判定、輔助大模型邏輯推理等等。

另一個(gè)方向則是CV(圖像),存在已久,人們更加耳熟能詳?shù)氖?ldquo;2D拉框”和“3D拉框”,主要是滿(mǎn)足滴滴、毫末、輕舟智航等這類(lèi)車(chē)企,為其智能駕駛業(yè)務(wù)提供圖像數(shù)據(jù)質(zhì)檢和標(biāo)注幫助。

▲圖源Boss直聘截圖

「自象限」觀(guān)察發(fā)現(xiàn),十一月是NLP方向數(shù)據(jù)標(biāo)注的轉(zhuǎn)折點(diǎn),此前,百度、京東等大廠(chǎng)無(wú)論是校招還是社招,都僅開(kāi)設(shè)了很少或壓根沒(méi)有AI數(shù)據(jù)標(biāo)注崗位,招聘軟件上也只是零星地開(kāi)放了實(shí)習(xí)生的崗位,通常不設(shè)學(xué)歷上限,大專(zhuān)學(xué)歷封頂。

毫無(wú)征兆地突然冒出一批崗位需求,這背后或許與大模型廠(chǎng)商的研發(fā)受阻有關(guān)。多位行業(yè)人士曾向「自象限」透露,截至目前,國(guó)內(nèi)的大模型水平或許僅能達(dá)到GPT-3.5水平,發(fā)展的核心還是數(shù)據(jù)質(zhì)量問(wèn)題。

一邊是國(guó)外OpenAI連放猛招,直逼GPT-5,一邊是國(guó)內(nèi)企業(yè)喊著“要落地”、“要用上大模型”,雙重壓力下,又用起了“人海戰(zhàn)術(shù)”。

技術(shù)研發(fā)水平不夠,人工能力來(lái)補(bǔ)齊,國(guó)內(nèi)大模型廠(chǎng)商開(kāi)始瘋卷“AI數(shù)據(jù)標(biāo)注員”,為大模型能力“飛升”再加一把燃料。

大廠(chǎng)卷精標(biāo),粗標(biāo)“割韭菜”

事實(shí)上,數(shù)據(jù)標(biāo)注并不是新鮮事兒,早已有之。以前的形式是粗標(biāo),主要表現(xiàn)為“拉框”,但現(xiàn)在粗標(biāo)發(fā)展得亂了套:一是此前大廠(chǎng)粗標(biāo)多為眾包標(biāo)注平臺(tái),工單分散,人員不專(zhuān)業(yè),導(dǎo)致標(biāo)注質(zhì)量不行;二是隨著大模型的精進(jìn),粗標(biāo)變得越來(lái)越不夠用,精標(biāo)的地位由此直線(xiàn)上升。

針對(duì)粗標(biāo)和精標(biāo)的差異,某大廠(chǎng)員工解釋道:“一般廠(chǎng)商的外包團(tuán)隊(duì),能做標(biāo)注,但他們就是按照框定的規(guī)則標(biāo)注,如果出現(xiàn)規(guī)則之外的數(shù)據(jù),標(biāo)注就會(huì)存在通過(guò)率不高的情況來(lái)回反復(fù),但是由工程師團(tuán)隊(duì)來(lái)做,特別是針對(duì)自動(dòng)駕駛輔助駕駛等回傳的數(shù)據(jù),他們知道背后的原理,可能不會(huì)按照常規(guī)的思路標(biāo)注,會(huì)帶解決問(wèn)題的思路來(lái)標(biāo)注,可能需要跳出之前制定的標(biāo)注規(guī)則,這樣標(biāo)注數(shù)據(jù)的質(zhì)量會(huì)更高。”

大模型爆火,也為粗標(biāo)刮起了一陣“新錢(qián)風(fēng)”。

目前,粗標(biāo)求職陣地已經(jīng)從招聘軟件轉(zhuǎn)移到了快手等短視頻平臺(tái)。以快手為例,粗標(biāo)求職熱度與快遞員并列,大量數(shù)據(jù)標(biāo)注公司入駐快手,覆蓋京津冀、長(zhǎng)三角和珠三角地區(qū)。

▲圖源快手截圖

據(jù)「自象限」了解,快手的直播招聘業(yè)務(wù)“快聘”曾在發(fā)布會(huì)中特別提到:“要解決數(shù)據(jù)標(biāo)注職類(lèi)線(xiàn)下招聘難,應(yīng)聘者少的核心訴求問(wèn)題 。”

落實(shí)到實(shí)處,快手從公司資質(zhì)審核、流量扶持、公司推薦到數(shù)據(jù)標(biāo)注職業(yè)推廣都給予了支持,「自象限」注意到在快手官方招聘直播間中,有時(shí)也在全天無(wú)間斷地滾動(dòng)地播報(bào)有關(guān)數(shù)據(jù)標(biāo)注求職信息。

這一定程度上也成為了某些數(shù)據(jù)標(biāo)注公司的“尚方寶劍”。在招聘時(shí)候,宣傳之詞毫無(wú)遮攔,“無(wú)需學(xué)歷,上手即會(huì),小學(xué)生都能做”,“拉一個(gè)框,打一個(gè)標(biāo)簽,就是半個(gè)毛”,“拉3000個(gè)150元,6000個(gè)300元,月入7000-8000灑灑水,只要手速夠快”,極盡夸張之詞。

但事實(shí)究竟如何呢?一萬(wàn)塊錢(qián)能拿得如此輕松嗎?

為探究真假,「自象限」在快手報(bào)名聯(lián)系上了一家熱門(mén)數(shù)據(jù)標(biāo)注公司。該公司聲稱(chēng)與比亞迪、理想、小鵬、特斯拉等車(chē)企直接簽單獲得一手?jǐn)?shù)據(jù)任務(wù),且出示了大量的證書(shū)、憑證強(qiáng)調(diào)其正規(guī)性。入職后的主要任務(wù)就是接任務(wù)包,在圖片上拉框、標(biāo)注和打標(biāo)簽。

▲圖源微信截圖

總結(jié)下來(lái),有幾個(gè)基本點(diǎn):打框按計(jì)件算錢(qián),一個(gè)框價(jià)格在一毛到一毛五;薪資首月按周結(jié),第二個(gè)月以后按月結(jié)算;新手小白需要先繳納2580元培訓(xùn)費(fèi)用,一年內(nèi)工資累計(jì)達(dá)到1萬(wàn),才能退還;平均七天左右學(xué)習(xí)培訓(xùn)時(shí)間就能上手做任務(wù);分兼職和全職,兼職按框計(jì)算,全職線(xiàn)下坐班,另免費(fèi)提供住宿;在其展示的員工工資截圖中,月工資在5000-6000元不等。

但在黑貓投訴平臺(tái)上,上述公司成為了數(shù)據(jù)標(biāo)注投訴的重災(zāi)區(qū)。

一些投訴用戶(hù)的經(jīng)歷與我們相吻合。綜合用戶(hù)的反饋,投訴主要集中在以下幾個(gè)問(wèn)題:第一,不會(huì)拉框需要先繳納2580元費(fèi)用,一年做拉框任務(wù)滿(mǎn)一萬(wàn)元,但是出現(xiàn)了拒不退款的問(wèn)題;第二,培訓(xùn)內(nèi)容非常簡(jiǎn)單,且耗時(shí)長(zhǎng),耽誤用戶(hù)上崗;第三,不給通過(guò)和達(dá)標(biāo),總是卡拉框的合格率,最終影響收入;第四,態(tài)度豪橫,無(wú)視用戶(hù)的訴求,不處理、不退款。

▲圖源黑貓投訴平臺(tái)截圖

以上的問(wèn)題也只是冰山一角,「自象限」雖然沒(méi)有繳費(fèi)報(bào)名成功,但在咨詢(xún)后的一段時(shí)間內(nèi),也頻繁地收到電話(huà)、微信的輪番轟炸,從早安到晚安,問(wèn)候從未落下,還時(shí)不時(shí)地用其他員工的工資表進(jìn)行挑逗、刺激。

▲圖源微信截圖

一次嚴(yán)肅的數(shù)據(jù)標(biāo)注求職,儼然淪為了一場(chǎng)“割韭菜”游戲,老老實(shí)實(shí)拉框的員工顆粒無(wú)收,反而是收培訓(xùn)費(fèi)的數(shù)據(jù)標(biāo)注公司賺得盆滿(mǎn)缽滿(mǎn)。

數(shù)據(jù)質(zhì)量決定了大模型走得速度,即使是OpenAI也不例外。外媒報(bào)道稱(chēng),OpenAI一方面找了多家知名的數(shù)據(jù)公司來(lái)數(shù)據(jù)標(biāo)注,一方面也自己組建了一個(gè)幾十名哲學(xué)博士團(tuán)隊(duì)來(lái)做數(shù)據(jù)質(zhì)檢。

大模型的根基在數(shù)據(jù),數(shù)據(jù)質(zhì)量直接決定了大模型進(jìn)化的速度,從數(shù)據(jù)標(biāo)注的亂象中,我們或許能一窺為什么中國(guó)大模型發(fā)展進(jìn)度慢的原因,但既然大模型廠(chǎng)商們也意識(shí)到了數(shù)據(jù)標(biāo)注的源頭問(wèn)題,離我們真正突破到GPT-4,或許也就不遠(yuǎn)了。

       原文標(biāo)題 : 月薪兩萬(wàn),大廠(chǎng)瘋搶AI數(shù)據(jù)標(biāo)注員

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀(guān)點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

人工智能 獵頭職位 更多
掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)