去年的某一天,小袁被理發(fā)店老板開除了,原因是聽力有限,耽誤了工作得罪了客戶……
這是“90后”小袁的第39次失業(yè)。在此之前,他在飯店做過傳菜工、在工廠做過皮鞋、在廣告公司做過牌匾、在奶粉廠裝過箱子,卻總是因為無法避險、難以溝通被辭退?!拔沂菭C手的小袁,因為我是聾啞人,所以我總是會燙到身邊的人,被扔出很遠很遠?!彼萌绱吮瘋奈淖置枋鲎约簝?nèi)心世界。
終于,小袁在第40份工作,等到了他心中的渴望——掙錢不僅僅混口飯吃,還有做人的基本尊嚴。
他用一個月的時間,刻苦訓(xùn)練學(xué)會了用模板做數(shù)據(jù)標注,成了人工智能革命浪潮背后的一位“數(shù)據(jù)標注員”,為企業(yè)提供圖像、語音、文本等的數(shù)據(jù)標注服務(wù)?!拔液軕c幸,也能成為一個在人工智能產(chǎn)業(yè)中有用的人。”
在人工智能全面影響社會和應(yīng)用越來越普及, “人臉識別”、“自動駕駛”、“語音識別”等產(chǎn)業(yè)狂潮的背后,最重要的核心就是越來越龐大、越來越精準的數(shù)據(jù)——離開數(shù)據(jù),談人工智能應(yīng)用無異于“無米之炊”。
“數(shù)據(jù)標注”,是將最原始數(shù)據(jù)變成算法可用數(shù)據(jù)的關(guān)鍵過程,是整個 AI 產(chǎn)業(yè)的基礎(chǔ),是機器感知現(xiàn)實世界的原點。而“數(shù)據(jù)標注員”,正是一個人工智能產(chǎn)業(yè)未被寫出的幕后隱形故事:在中國,有10萬的全職數(shù)據(jù)標注員,以及100萬的兼職數(shù)據(jù)標注員,每天源源不斷地用人工,為人工智能的發(fā)展供應(yīng)最重要的“數(shù)據(jù)燃料”——在現(xiàn)有技術(shù)框架下,數(shù)據(jù)量越大,質(zhì)量越好,算法模型就表現(xiàn)越好。
這100多萬個標注數(shù)據(jù)的人,很多學(xué)歷不高,卻決定著中國整個人工智能行業(yè)的發(fā)展態(tài)勢:他們之間,既有小袁這樣生理缺陷者,找不到理想工作的職高學(xué)生,從工地輾轉(zhuǎn)而來的新生代農(nóng)民工,還有原來淘寶刷單的,賦閑在家的中年婦女……
流水線上加工數(shù)據(jù)
25歲的羅雪嬌,正把手寫體的古德文轉(zhuǎn)錄為印刷體字母,然后把轉(zhuǎn)錄出的這些文字發(fā)給OCR(光學(xué)字符識別)公司——這些被羅雪嬌一個個標注出來的字母,將作為機器訓(xùn)練的數(shù)據(jù)材料。
這個工作并不容易,要知道,即便在德國,認識這種古老字體的人也寥寥無幾,但羅雪嬌卻如同流水線上的機器人,需要每秒鐘準確輸入1個字母。
在羅雪嬌的旁邊,另一位同事正為路況圖片中的各種機動車、非機動車、自行車和行人打標簽、做標記,并標注行進方向和是否有遮擋——這將用于安防系統(tǒng),甚至成為中國天網(wǎng)系統(tǒng)能2秒過濾全球所有人口的基礎(chǔ)。
另一位同事,則在標記圖片中汽車的可行駛區(qū)域,之后會用于無人駕駛場景的訓(xùn)練。他需要分毫不差地描繪建筑物的邊緣,將靜止畫面中鱗次櫛比的大樓一一分割,標注成不同的色塊。
還有的正將雷達掃描出的障礙物3D線條一一還原成實物,長方體是建筑、綠色的是樹木,這些內(nèi)容會被用來訓(xùn)練雷達數(shù)據(jù)和真實世界的關(guān)聯(lián)性。
他們這種介于手寫錄入和圖像標記之間的工作,共同的行業(yè)學(xué)名叫做“人工智能數(shù)據(jù)標注”——盡管數(shù)據(jù)標注并不算一個完全新興的產(chǎn)業(yè),早在1998年“海天瑞聲”就已成立,但彼時人工智能尚未興起,數(shù)據(jù)應(yīng)用也相對較少。
“2011年針對AI的數(shù)據(jù)標注開始出現(xiàn),2015年真正開始,2017年有了大爆發(fā)。”一家數(shù)據(jù)標注外包公司的主管說。
人工智能浪潮催生了這一切,相關(guān)數(shù)據(jù)顯示,2017年,僅北京中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)規(guī)模就超過700億元,貴陽則超過了1500億元。聯(lián)合國教科文組織信息與傳播知識社會局主任英德拉吉特·班納吉也認為,到 2030 年,人工智能將向世界經(jīng)濟貢獻 16 萬億美元。
對于AI而言,優(yōu)質(zhì)數(shù)據(jù)必不可少,需要標注的領(lǐng)域也越來越多:自動翻譯的語音識別、機場安檢時的人臉識別、識別選取商品的無人商店、安全行駛的無人駕駛等等。
所以,就像傳統(tǒng)工廠一樣,一個叫“數(shù)據(jù)標注”的隱形產(chǎn)業(yè)正在迅速擴大,數(shù)據(jù)正在流水線上處理,被分塊加工,然后應(yīng)用到不同領(lǐng)域。
這是整個 AI 產(chǎn)業(yè)的基礎(chǔ),是機器感知現(xiàn)實世界的原點。京東眾智一位高層人士對記者說,一張圖片識別系統(tǒng)能瞬間認出某個物品,一套語音識別系統(tǒng)能瞬間讀懂你說的話,其實也是一張張圖片、一段段語音素材后天訓(xùn)練出來的結(jié)果。
“對圖片標注仍然需要依靠人力?!鄙鲜龈邔尤耸勘硎?,盡管互聯(lián)網(wǎng)催生了浩如煙海的內(nèi)容,但標注這件需要耐心和專注的“小事”,暫且還需要大量人力?!皥D片包含的特性太多,比如在不同光線下的拍攝,模糊、清晰等等。即便在對5000萬張圖片進行歸類之后,也只有幾種特性被準確地標注出來了?!?/p>
關(guān)于“數(shù)據(jù)標注”,上述京東眾智高層人士打了一個形象比喻:和小孩一樣,要認識一個足球,你不能告訴它是“圓形的”、“用腳踢的”、“黑白相間網(wǎng)格的”,最簡單最常用的辦法是,找來一個真實足球擺在小孩面前,告訴他“這就是足球”,沒有真球,用圖片或視頻也行。試過幾遍就會發(fā)現(xiàn),孩子就能“自然而然”地認出足球。
機器也一樣,工程師想讓 AI 準確識別出足球,最好的辦法不是用代碼來描述足球,而是直接找來很多張帶有足球的圖片,用 AI 能讀取的方式把圖片、視頻里的足球“標注”出來,扔進 AI 模型訓(xùn)練,之后它“自然而然”就獲得了識別足球的能力。
和小孩不同的是,機器需要在不同場景、不同角度下反復(fù)學(xué)習(xí),這個漫長的教授過程就是羅雪嬌們在 AI 產(chǎn)業(yè)中的位置——標注大量用于訓(xùn)練機器學(xué)習(xí)模型的數(shù)據(jù),讓機器越來越像人。
一個讓人崩潰的“辛苦活”
通常而言,數(shù)據(jù)標注得越準確、數(shù)量越多,模型效果就越好。自然,產(chǎn)品的效果就會更好。
對羅雪嬌而言,她必須保證給機器的標注數(shù)據(jù)達到 90% 以上精度(即是指標注的正確率),否則最直接的后果是機器也會跟著犯錯,這對于機器學(xué)習(xí)將毫無意義。
90%的精度,意味著100 個點里有兩個點錯誤,就會被打回。羅雪嬌遇到過一次“讓人崩潰”的經(jīng)歷,那是一張人物群體站立圖,只要露出了頭、脖子、胸口,羅雪嬌就要從圖片的左上角開始畫矩形,框住這些動作、著裝完全一致的人。重復(fù)拖動50個框后,要再放大這些帶有藍色陰影的矩形框,從頭到四肢標注完每個人的骨骼點。最后,600多個點密密麻麻地落在了那張圖里。
這個項目讓她不記得重復(fù)了多少次,“拉框要求十分精細,偏差絲毫都不行。最后無論是滴眼藥水,還是冷水洗臉,拍打臉部、揉眼睛,都沒有任何作用,只剩下流眼淚了?!绷_雪嬌說。
“有些任務(wù)圖上密密麻麻的點,看兩個小時以上眼睛絕對會花掉了,只有要求員工不斷克服人本身的一些‘消極因素’,才能避免標錯數(shù)據(jù)。”數(shù)據(jù)標注公司、BasicFinder創(chuàng)始人杜霖說。
其實,看似簡單的操作,要達到 90% 的精度對大多數(shù)標注者來講卻是天方夜譚。據(jù)了解,很多兼職標注團隊最高精度只能達到 70%,即便是在全職、全把控情況下,很多項目只能達到50% 的精度,基本上承接的每個項目都需要重復(fù)三次以上才能達到 90% 的精度。
但現(xiàn)在,越來越多的客戶要求達到95%甚至97%的精細化標注?!?5% 以上的準確率是理想情況,但從 95% 提到 97% 所花的成本就不再是一兩倍了,可能是100 倍?!倍帕卣f。
每個行業(yè)人士都認為這是一個讓人崩潰的“辛苦活”。提起“數(shù)據(jù)標注”四個字,2002年成立,來自上海的華院數(shù)據(jù)的首席科學(xué)家尹相志不禁苦笑:幾個月前,華院數(shù)據(jù)舉辦過一次大數(shù)據(jù)應(yīng)用比賽,在“通過賣場貨架圖片自動計算產(chǎn)品的貨架占有率”這項測試中,她們拍攝了1600多張真實的貨架圖片作為原始數(shù)據(jù),為了讓比賽的難度不那么“變態(tài)”,她們還為選手們提供了“精細化標注”后的貨架圖片——也就是貨架上每一包緊挨著的零食、泡面,都要沿邊緣仔細劃分。
最終,這一千多張圖片的標注耗費了12個人大半個月時間,負責(zé)標注工作的組員“幾近崩潰”。
另一個例子是,李飛飛創(chuàng)辦的Image
Net,是目前世界上圖像識別最大的數(shù)據(jù)庫,擁有1500萬張標注圖片,不過大部分人不知道,這是來自167個國家的48940名工作者,花費了2年時間,清理、分類、標記了近十億張通過互聯(lián)網(wǎng)搜集到的圖片,才得到這個有1500萬張圖片的數(shù)據(jù)集。
“無論國內(nèi)外,情況都差不多。一旦要求質(zhì)量,每個人的產(chǎn)出量就不會太多。熟練者平均一天可以標注40張圖片,前提是只需要為圖片中的物體打框、標注類別和前后關(guān)系。如果涉及刻畫建筑物邊緣等復(fù)雜細節(jié),一天標注10張已是極限?!币晃粩?shù)據(jù)標注行業(yè)人士說,看似簡單的數(shù)據(jù)標注背后,其所耗費的時間與人力,遠非一般項目可比。
在高質(zhì)量數(shù)據(jù)標注不容易,同時又決定了一家人工智能公司競爭力的情況下,國內(nèi)外大大小小的科技公司都開始用另一種方式,來完成這樣細碎的任務(wù),以獲得更細致、更準確的數(shù)據(jù)。
AI時代的“富士康”
這種方式,就是外包。
實際上,無論是Google Open Image
Datasets中的900萬張圖片,還是YouTube-8M中800萬段被標記的視頻,這些精心標記的數(shù)據(jù),大部分是由亞馬遜勞務(wù)外包平臺“Amazon Mechanical Turk”(以下簡稱AMT)上數(shù)十萬名注冊用戶花費2年時間完成的。
科技網(wǎng)站TechRepublic的一篇文章描述稱:這些分布在全球各地的50萬名工人,晝夜交替、時常待命,對數(shù)據(jù)進行手工輸入、分類,區(qū)分出下一張照片中是否有“狗”,語句中的“bass”到底是低音還是鱸魚。
文章評價稱,人類變成投喂機器的流水線工人,亞馬遜AMT也順勢成為AI時代的富士康。
在國內(nèi),人工智能創(chuàng)業(yè)公司、BAT同樣采用了目前數(shù)據(jù)標注行業(yè)的主流模式——“外包”。某數(shù)據(jù)標注公司負責(zé)人就透露,BAT、商湯、曠視、云從科技這類大的人工智能公司,一年在數(shù)據(jù)上的外包支出高達數(shù)千萬元。此外,學(xué)術(shù)團體、政府、銀行等傳統(tǒng)機構(gòu)的需求相對較小但有不斷增長的趨勢。
“按照人員規(guī)模劃分,現(xiàn)在的數(shù)據(jù)標注行業(yè)分為小型工作室(20 人左右)、中型公司以及巨頭企業(yè)?!本〇|金融眾智平臺項目負責(zé)人對記者表示,而從外包方式來看,也分為“眾包”和“工廠”兩種模式。
眾包(Crowdsourcing)平臺是《連線》(Wired)雜志2006年發(fā)明的一個專業(yè)術(shù)語,用來描述一種新的商業(yè)模式,即企業(yè)利用互聯(lián)網(wǎng)來將工作分配出去、發(fā)現(xiàn)創(chuàng)意或解決技術(shù)問題。
京東金融方面提供給本報的數(shù)據(jù)顯示,2018年1月,京東金融發(fā)布國內(nèi)首個聚焦人工智能領(lǐng)域的數(shù)據(jù)眾包平臺——京東眾智,通過聚合擁有碎片化時間和閑暇時間的普通人,為企業(yè)提供圖像、語音、文本、視頻的數(shù)據(jù)標注等服務(wù)。
“百度眾包”、“龍貓數(shù)據(jù)”、數(shù)據(jù)堂等同樣是這個模式。去年11月,龍貓數(shù)據(jù)宣布獲得3370萬元A輪融資,且用戶量達到百萬級,為百度、騰訊、小米等數(shù)十家科技公司提供數(shù)據(jù)標注業(yè)務(wù)。數(shù)據(jù)堂則成立于2011年,并在2014年12月10日成為第一家在新三板上市的數(shù)據(jù)標注企業(yè)。
記者觀察發(fā)現(xiàn),無論是百度眾包,還是京東眾智、龍貓數(shù)據(jù)、數(shù)據(jù)堂,其官網(wǎng)首頁都有明顯的 “任務(wù)簡單、輕松賺錢”廣告,其實質(zhì)都是把任務(wù)轉(zhuǎn)嫁給網(wǎng)民——某知名數(shù)據(jù)眾包平臺就稱,其擁有超過5000名數(shù)據(jù)標注專員,上十萬數(shù)據(jù)標注兼職人員,單日可處理超過200萬條數(shù)據(jù),能穩(wěn)定提供數(shù)據(jù)標注服務(wù)。
“亞馬遜AMT也是如此,每天會發(fā)布任務(wù)給墨西哥以及印度兼職人員,但很多高精度工作是不適合眾包的?!痹诙帕乜磥恚捎趨⑴c眾包標注的工作者數(shù)量很多,專業(yè)背景和工作能力參差不齊,其標注質(zhì)量也并非所說的那么可靠,一些任務(wù)收集到的標注內(nèi)容中存在噪聲甚至錯誤,不能直接作為正確的標注使用。
以定制為主的數(shù)據(jù)標注“工廠”模式應(yīng)運而生——也就是自己經(jīng)營團隊,成為一個上游,對整個流程進行控制。
BasicFinder采用的正是“工廠”模式,其注冊成立于2015年, 2017年3月份完成了一千多萬元pre-A輪融資。目前與二十來家“數(shù)據(jù)工廠”有長期業(yè)務(wù)合作,這些數(shù)據(jù)工廠有些是參與投資,有些是深度合作,少則幾十人,多則二三百人。
而具體到標記過程,杜霖表示都是流水線式的,從最前端的任務(wù)定義、采集數(shù)據(jù),到中間的清洗、加工,以及后端的質(zhì)量檢測、訓(xùn)練迭代等全部環(huán)節(jié)分開作業(yè),并開發(fā)了一套系統(tǒng)輔助人工提高效率。
算上合作的周邊工廠,杜霖的公司已經(jīng)有 2000 多人,他們可以同時進行 20 多個不同項目的標注。在“工廠”內(nèi)部,如同傳統(tǒng)制造加工業(yè)一樣,這里的各個小組都有自己的管理者。管理者之上是項目經(jīng)理、高層管理者。員工“生產(chǎn)”的內(nèi)容會經(jīng)過質(zhì)檢人員的核驗,全部合格后才會最終交付項目方,以便保證穩(wěn)定的標注效率和質(zhì)量。
同樣,受困于人力成本,“工廠”很多時候不得不把一些業(yè)務(wù)外包給小團隊,因此在這些相對規(guī)范的機構(gòu)之外,還游離著眾多規(guī)模不等的“小作坊”——在京東眾智負責(zé)人看來,這同樣是一個短板:“小作坊沒有標注工具,而工廠更多是流程化操作,缺乏合理的運營模式。”
搖身一變都做AI數(shù)據(jù)標注
外包的興起,讓數(shù)據(jù)標注員成為一個熱門行業(yè)——相關(guān)數(shù)據(jù)顯示,截至2018年1月,目前中國有10萬的全職數(shù)據(jù)標注員,以及100萬的兼職數(shù)據(jù)標注員。
“在提供無差別人力勞動這件事上,大家都沒有門檻。原來干淘寶刷單的、送快遞的、賦閑在家的大媽,現(xiàn)在也能搖身一變做AI數(shù)據(jù)標注。” 杜霖說。
無從統(tǒng)計那100萬兼職數(shù)據(jù)標注員都來自何方,但數(shù)據(jù)標注工廠,目前多集中在貴州、河北、河南、山東、山西等地區(qū),這和傳統(tǒng)制造企業(yè)富士康契合——算法公司和人才多集中在北深杭等科技核心區(qū)域,而作為一個“勞動密集型”的中低收入行業(yè),數(shù)據(jù)標注人員散落于三四線城市。
在距離“大數(shù)據(jù)之都”貴陽市中心50公里的惠水縣百鳥河數(shù)字小鎮(zhèn),有一個規(guī)模500人的“數(shù)據(jù)工場”,合作對象包括百度等AI巨頭,500名數(shù)據(jù)標注員中,近一半是隔壁一所扶貧高職“盛華職業(yè)學(xué)院”的學(xué)生。
除上課外,這些不懂AI的學(xué)生每天有大約6個小時可以工作,“易于管理、盡職盡責(zé)”是該數(shù)據(jù)工場負責(zé)人給這些學(xué)生的評價。對于當?shù)卣蛯W(xué)生而言,這是一件雙贏的事:學(xué)生們大多來自貧困山區(qū),在數(shù)據(jù)加工公司兼職賺來的錢不僅足夠生活,有些學(xué)生還會拿出一部分補貼家用。當?shù)孛襟w《貴州日報》稱,未來三年百度將在百鳥河基地完成2萬小時的數(shù)據(jù)加工,直接解決1000人就業(yè),促進惠水縣每年近5000余名大學(xué)生優(yōu)質(zhì)就業(yè)。
作為一個勞動密集型行業(yè),門檻并不高,幾萬元啟動資金,就可以在四五線小城組起一個“工作室”。在河北衡水,原來在化工廠上班的小蘇,帶著原先 30 多人的銷售團隊轉(zhuǎn)行數(shù)據(jù)標注,隊員小的 20歲不到,老的超過40歲,共同點是都不明白什么是AI。
高中學(xué)歷是小蘇在招人時的最高期望——在行業(yè)中,這個招聘標準已經(jīng)算是較高水平,在某些眾包平臺上,有的標注者只有小學(xué)文憑,在北京的全職工廠中,最高學(xué)歷是大?;蛘咧袑!6诰〇|眾智平臺上,則重點強調(diào)在眾智工作的殘疾人士比例,截至目前,在京東眾智平臺上從事數(shù)據(jù)標注工作的總?cè)藬?shù)已達到30000人,其中殘疾人士1000人左右。
在這個行業(yè),理想標注精度和學(xué)歷沒什么關(guān)系,而且操作非常簡單,經(jīng)過培訓(xùn),誰都能做——一家數(shù)據(jù)標注公司的高層人員就表示,一個農(nóng)民在標注方言語音時,可能會比不懂這種語言的大學(xué)生還好。
事實上,對發(fā)布任務(wù)的甲方公司來講,誰來標注、學(xué)歷高低、如何管理這些都不是他們需要擔心的問題,成本和按時保質(zhì)交付才是核心。
某數(shù)據(jù)公司的主管說,通常數(shù)據(jù)工廠需要處理的客戶訂單往往以萬為單位。比如客戶要求 6 萬張圖片,7 天內(nèi)完成標注,理論上這個訂單需要 200人左右,共同機械般工作 7 天才能完成。
但部分AI公司卻過分壓低預(yù)算,把項目外包給一些不靠譜的團隊,工期又很短;這些團隊做不完、做不了,又會把任務(wù)轉(zhuǎn)包給另一些小團隊,或重新找到大的數(shù)據(jù)標注公司,使質(zhì)量和交期都無法保證。
這種情況下,層層外包也就出現(xiàn)了,“小團隊只能接二手甚至是好幾手的項目,一手項目就像江湖傳說,聽過沒見過?!痹鍪覂?nèi)裝修,現(xiàn)在轉(zhuǎn)行做AI數(shù)據(jù)標注的小何說,他們的項目都是從小公司手里接的,連發(fā)包方的名字都不知道。
“數(shù)據(jù)標注行業(yè)比較混亂,沒有一個標準,低價競爭和行業(yè)不規(guī)范,導(dǎo)致層層外包是行業(yè)的噩夢。”京東眾智平臺的負責(zé)人李工說。
甚至,這還可能涉及欺詐?!拔覀冞@邊剛收到的上家發(fā)來的一個數(shù)據(jù)標注任務(wù),到公司應(yīng)該是四五手資源了。公司為了節(jié)約成本讓我們在網(wǎng)上發(fā)帖招收大量任務(wù)標注員,然后剩下的就能想象到了?!?月4日,某數(shù)據(jù)標注公司一位內(nèi)部人士老柳對記者稱,公司以試題的形式要求兼職人員完成,第一次給你打回去,然后讓你反復(fù)的試題,最后合格了,我們再以各種理由推托拒絕付酬。
“甚至,人們不會想到的是,兼職人員做過的題,我們自己改動下也能節(jié)省很多時間?!崩狭f。
他們也有自己的無奈,一手的項目在誰手上,價格多高,會經(jīng)歷多少層級,每層有多少利潤,都是謎。對小團隊來說,層層外包下來,其實沒什么利潤了,“比如,一個拉框平均4分,一個人一天最多能做4000個,一共160元。過關(guān)率90%,再除去審核成本,再給每個標注員每天發(fā)100元左右的工資,平均下來工作室每天也就從每個人身上賺20元,公司都虧損了,還拿什么去付給兼職的呢?”