盧銘
全世界都在談?wù)揅 h a t G P T將帶來(lái)顛覆性的技術(shù)革命,但人工智能訓(xùn)練師李杰卻一點(diǎn)也激動(dòng)不起來(lái)。
為了完成單價(jià)4分錢(qián)的計(jì)件工作,李杰和幾十個(gè)人坐在一間擺設(shè)如同初代網(wǎng)吧的屋子里,每天對(duì)著電腦劃拉鼠標(biāo)幾千次。
他的職責(zé)是為訓(xùn)練人工智能模型準(zhǔn)備“飼料”,將大量的文字、語(yǔ)音、圖像打上標(biāo)記——“眼珠”“四川話”“綠化帶”……只有被標(biāo)注過(guò)的數(shù)據(jù),才能被人工智能模型識(shí)別,訓(xùn)練出它的分辨能力。
李杰做得最多的是道路圖片標(biāo)注,亦即給道路圖片上的物體標(biāo)注好名稱、顏色等詳細(xì)信息,業(yè)內(nèi)俗稱“拉框”。效率高的時(shí)候,他一天可以拉2000~3000個(gè)框,按照一個(gè)框4分錢(qián)計(jì)算,他一個(gè)月能賺3000塊左右。對(duì)于職校畢業(yè)、身在西北縣城的青年來(lái)說(shuō),這份收入還過(guò)得去。
同樣的場(chǎng)景也出現(xiàn)在非洲的肯尼亞。該國(guó)首都內(nèi)羅畢有30多名工人,成為C h a t G P T的數(shù)據(jù)標(biāo)注員,他們每天工作9小時(shí),閱讀150~200段文字,并標(biāo)注出其中包含性、暴力與仇恨言論的內(nèi)容。由于每天閱讀大量極具沖擊力的文字,有人會(huì)因?yàn)橐欢蚊鑼?xiě)而做一周噩夢(mèng)。這些工人能獲得每小時(shí)1.32美元的稅后收入,比當(dāng)?shù)匾话闼{(lán)領(lǐng)工作強(qiáng)些。
在人工智能產(chǎn)品卷起巨浪的時(shí)候,從肯尼亞、烏干達(dá)再到印度、中國(guó),巨浪下還有一群不被看見(jiàn)的“人工智能訓(xùn)練師”,在簡(jiǎn)陋的工作環(huán)境下,以最簡(jiǎn)單的技能,與最前沿的技術(shù)產(chǎn)生了聯(lián)系。
李杰對(duì)人工智能的理解,是手機(jī)上的智能語(yǔ)音助手,“就好像蘋(píng)果的Siri”。
他在職校念電子商務(wù),同學(xué)大多去了電商公司當(dāng)客服,他時(shí)常聽(tīng)到同學(xué)對(duì)工作的抱怨。相較之下,數(shù)據(jù)標(biāo)注的工作枯燥,卻也純粹,他只需要按部就班地完成任務(wù),“可以在辦公室吹空調(diào),也沒(méi)什么難度,就是有點(diǎn)費(fèi)眼睛”。
在2021年版的《人工智能訓(xùn)練師國(guó)家職業(yè)技能標(biāo)準(zhǔn)》中,對(duì)該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達(dá)能力、計(jì)算能力;空間感、色覺(jué)正?!?,普遍受教育程度寫(xiě)的是“初中畢業(yè)”。言外之意,這是一份幾乎零門(mén)檻的職業(yè)。
除了“拉框”,李杰也會(huì)接到語(yǔ)音標(biāo)注的項(xiàng)目。一天下來(lái),他要聽(tīng)來(lái)自幾百個(gè)陌生人在不同場(chǎng)景下的發(fā)言,可能是伴隨著車流聲、喇叭聲的中年男人在馬路上大聲質(zhì)問(wèn),可能是講著廣東普通話的阿姨對(duì)著麥克風(fēng)發(fā)出指令,有時(shí)候,他甚至?xí)?tīng)到臟話。
這些聲音被李杰一一轉(zhuǎn)錄成準(zhǔn)確的文字,有時(shí)還需要打上說(shuō)話人的性別、情緒等更細(xì)分的標(biāo)簽,最后教會(huì)人工智能模型理解人類的語(yǔ)言,用于智能客服、智能音箱、地圖導(dǎo)航等產(chǎn)品中。
人工智能的三大基石是數(shù)據(jù)、算力與算法,數(shù)量越多、質(zhì)量越高的數(shù)據(jù),往往越能夠訓(xùn)練出更“聰明”的模型。
人工智能的主流方向是深度學(xué)習(xí)。在過(guò)去,由人來(lái)告訴機(jī)器,貓身上都有哪些特征,機(jī)器根據(jù)這些特征判斷一個(gè)物體是不是貓;深度學(xué)習(xí)則是通過(guò)“喂養(yǎng)”大量不同貓的圖片,機(jī)器就能自行歸納出貓的特征。這就需要大量經(jīng)人工標(biāo)注的圖片。俗話說(shuō),有多少智能,就得付出多少人工。
數(shù)據(jù)標(biāo)注領(lǐng)域有過(guò)一個(gè)神話——I m a g e N e t項(xiàng)目。這個(gè)項(xiàng)目數(shù)據(jù)庫(kù)擁有超過(guò)1400萬(wàn)張已被標(biāo)注的圖片,其中識(shí)別出的物體種類超過(guò)2萬(wàn)種——包括120個(gè)不同品種的狗。而在I m a g e N e t項(xiàng)目背后,是來(lái)自167個(gè)國(guó)家的5萬(wàn)名數(shù)據(jù)標(biāo)注員,他們足足花了3年時(shí)間才完成了全部圖片的標(biāo)注。
貴陽(yáng),大數(shù)據(jù)之城。在距離貴陽(yáng)市中心約70公里的惠水縣百鳥(niǎo)河數(shù)字小鎮(zhèn),有一家擁有超過(guò)500名數(shù)據(jù)標(biāo)注員的公司夢(mèng)動(dòng)科技——其中的一半人,是附近盛華職業(yè)學(xué)院的學(xué)生。
大三學(xué)生鄭成安在夢(mèng)動(dòng)科技實(shí)習(xí),公司里的全職員工只有十來(lái)個(gè)人,管理層也是學(xué)校里的老師,“上課就是上班,老師就是經(jīng)理”。他很熱愛(ài)這份工作,他在上高職之前甚至沒(méi)碰過(guò)電腦,現(xiàn)在卻可以憑借一份電腦前的兼職,一個(gè)月能拿到1500元以上的收入,當(dāng)?shù)剞r(nóng)村常住居民人均可支配收入每月才1000元出頭。
有時(shí)候?yàn)榱硕鄴暌恍┥钯M(fèi),碰上緊急的項(xiàng)目,鄭成安會(huì)主動(dòng)加班。他清楚地知道,標(biāo)注員的工作很難一直做下去,他暗自制定目標(biāo),要成為管理標(biāo)注員的人。
像貴陽(yáng)這樣的城市,中國(guó)不止一個(gè)。作為勞動(dòng)密集型產(chǎn)業(yè),數(shù)據(jù)標(biāo)注企業(yè)更多地選在三四線城市落地,地方政府無(wú)論是為了扶貧或是搭上互聯(lián)網(wǎng)的順風(fēng)車,都能與互聯(lián)網(wǎng)公司一拍即合。數(shù)據(jù)標(biāo)注員身上的標(biāo)簽是“互聯(lián)網(wǎng)民工”“賽博流水線”。而對(duì)于絕大多數(shù)身在其中的人而言,一個(gè)互聯(lián)網(wǎng)版的富士康,已經(jīng)是當(dāng)下不可多得的選擇。
隨著G P T-4和文心一言的陸續(xù)出場(chǎng),人工智能正“升級(jí)換代”,數(shù)據(jù)標(biāo)注行業(yè)也伴隨著新的變化。
人工智能研究者已經(jīng)開(kāi)始嘗試向機(jī)器“喂養(yǎng)”未標(biāo)注的數(shù)據(jù)與部分標(biāo)注數(shù)據(jù),而不依賴于人工標(biāo)注的自監(jiān)督學(xué)習(xí)與數(shù)據(jù)標(biāo)注。特斯拉目前正在開(kāi)發(fā)的計(jì)算機(jī)Dojo,就采用自監(jiān)督學(xué)習(xí)技術(shù),用于訓(xùn)練人工智能模型,對(duì)數(shù)據(jù)標(biāo)注的需求正越來(lái)越低。
騰訊、阿里、字節(jié)跳動(dòng)等一眾大廠,也都在研發(fā)自監(jiān)督學(xué)習(xí)的算法,甚至有些數(shù)據(jù)標(biāo)注公司已經(jīng)有60%內(nèi)容來(lái)自機(jī)器的自動(dòng)化標(biāo)注。
李杰聽(tīng)過(guò)一個(gè)說(shuō)法,數(shù)據(jù)標(biāo)注員是“人工智能的老師”,是他和同事們?nèi)諒?fù)一日地拉框,教會(huì)了人工智能理解人類世界。但他從沒(méi)想過(guò),當(dāng)人工智能時(shí)代真正到來(lái)的那一天,取代他們的,恰恰會(huì)是自己曾經(jīng)的學(xué)生。
小黑//摘自藍(lán)字計(jì)劃微信公眾號(hào),原文編輯鄒蔚,本刊有刪節(jié),與魚(yú)/圖