朱秋雨
2023年4月底,一個(gè)亞洲面孔登上了著名雜志《福布斯》的封面。這是一位年僅26歲的華裔企業(yè)家,名叫Alexandr Wang。
他手握最高估值73億美元的科技公司。
2017年,Alexandr創(chuàng)立了一家名叫Scale AI的公司,走的是最熱的AI賽道。7年后,他做的東西已經(jīng)無可替代。據(jù)《福布斯》報(bào)道,Scale AI如今包攬了多家頭部自動(dòng)駕駛車企的服務(wù),谷歌的Waymo、豐田汽車是它的擁躉。2020年起,它還從美國國防部處拿下了多個(gè)天價(jià)訂單。
2022年,美國國防部已經(jīng)在用該公司的技術(shù)分析烏克蘭衛(wèi)星圖。
Scale AI走的路子,是常被頭部大廠和AI創(chuàng)業(yè)者忽略的方向,叫AI的標(biāo)注數(shù)據(jù)集。
這是AI領(lǐng)域里的石油,有數(shù)據(jù)才能源源不斷給深度學(xué)習(xí)提供燃料。一項(xiàng)數(shù)據(jù)顯示,截至2021年,全球排名前1000萬的網(wǎng)站中,英文內(nèi)容占比為60.4%,中文內(nèi)容占比僅1.4%。中國AI需要依賴大量英文數(shù)據(jù)集訓(xùn)練。
實(shí)際上,國內(nèi)不乏做AI數(shù)據(jù)集和數(shù)據(jù)標(biāo)注的公司。上市公司海天瑞聲、頭部創(chuàng)業(yè)公司云測(cè)數(shù)據(jù)、數(shù)據(jù)堂等等,是業(yè)內(nèi)佼佼者。
比起人工智能產(chǎn)業(yè)給人“高大上”的直覺,數(shù)據(jù)工作面臨繁瑣的清洗、標(biāo)注、處理等過程。業(yè)內(nèi)因此盛傳一句話,“人工有多強(qiáng)大,智能才有多強(qiáng)大”。
AI分析公司Cognilytica數(shù)據(jù)顯示,在AI項(xiàng)目中,數(shù)據(jù)相關(guān)的處理過程占據(jù)超過80%的時(shí)間。
云測(cè)數(shù)據(jù)總經(jīng)理賈宇航對(duì)南風(fēng)窗總結(jié),互聯(lián)網(wǎng)大廠、創(chuàng)業(yè)公司更多在研究算法,AI數(shù)據(jù)服務(wù)公司在做工程的事情。
在各家巨頭猛追Open AI的當(dāng)下,是時(shí)候關(guān)注支持AI深度學(xué)習(xí)的第一步—數(shù)據(jù)了。
不管業(yè)務(wù)是否與大模型掛鉤,國內(nèi)AI數(shù)據(jù)服務(wù)公司近日受到了一大波關(guān)注。
數(shù)據(jù)集上市公司海天瑞聲在3月底只用了3個(gè)交易日,累計(jì)漲幅近33%。股價(jià)創(chuàng)歷史新高,比年初翻了三倍多,盡管該公司早已貼出風(fēng)險(xiǎn)提示:“自然語言業(yè)務(wù)對(duì)公司整體貢獻(xiàn)大約在10%?!薄肮旧形磁cOpenAI開展合作,其ChatGPT的產(chǎn)品和服務(wù)尚未給公司帶來業(yè)務(wù)收入?!?/p>
因?yàn)镃hatGPT,云測(cè)數(shù)據(jù)總經(jīng)理賈宇航也在2023年收到了來自各行各業(yè)對(duì)大模型和數(shù)據(jù)集的關(guān)注和問詢?!懊總€(gè)人都對(duì)大模型各有各的看法,我們相互學(xué)習(xí)?!彼嬖V南風(fēng)窗。
單論技術(shù)角度而言,ChatGPT代表的大模型,采用了與過往AI數(shù)據(jù)標(biāo)注不同的技術(shù)路徑。在過去,機(jī)器學(xué)習(xí)的主流依賴于human-in-the-loop,即有監(jiān)督的學(xué)習(xí)。
有監(jiān)督學(xué)習(xí)依賴大量人工對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、標(biāo)注。例如,貓的圖片,需要人類事先標(biāo)注,用機(jī)器聽得懂的語言告訴它只是一只貓。行內(nèi)公認(rèn)的規(guī)則是,人類上傳的標(biāo)注數(shù)據(jù)越多、越準(zhǔn)確,機(jī)器學(xué)習(xí)的效果越好。
而ChatGPT代表的大模型,采用的是自監(jiān)督學(xué)習(xí)模式。簡(jiǎn)單來說,考驗(yàn)的是機(jī)器自我學(xué)習(xí)能力。
清華大學(xué)計(jì)算機(jī)系自然語言處理實(shí)驗(yàn)室副教授劉知遠(yuǎn)告訴南風(fēng)窗:“大模型的不同之處在于,不事先假定到底需要完成哪些任務(wù)或者特定能力。它窮盡互聯(lián)網(wǎng)盡可能獲取多的數(shù)據(jù),讓模型自動(dòng)地從這些數(shù)據(jù)里面學(xué)習(xí)知識(shí)?!?/p>
OpenAI曾披露,訓(xùn)練GPT的模型是基于公開網(wǎng)站的數(shù)據(jù),包括維基百科、專業(yè)論壇、電子書網(wǎng)站和媒體報(bào)道等各類高質(zhì)量文本。
據(jù)美媒報(bào)道,擁有發(fā)達(dá)智能水平的ChatGPT,背后還有一群來自非洲肯尼亞的數(shù)據(jù)標(biāo)注員。他們每天工作9個(gè)小時(shí),最終,一個(gè)月獲得約合2500~3000元人民幣的報(bào)酬。
盡管對(duì)數(shù)據(jù)標(biāo)注的需求減少,ChatGPT的成功,卻給了眾人更有用的啟示:高質(zhì)量數(shù)據(jù)集對(duì)訓(xùn)練AI大模型至關(guān)重要?;贕PT-3.5的ChatGPT使用強(qiáng)化學(xué)習(xí)和人類反饋(RLHF),也涉及了大量數(shù)據(jù)標(biāo)注工作。
據(jù)披露,ChatGPT的RLHF標(biāo)注,需要大量專業(yè)的人才。為此,Open AI特地招了幾十名博士生做標(biāo)注,針對(duì)機(jī)器的回答和指令進(jìn)行基于人類邏輯的反饋。據(jù)《福布斯》報(bào)道,Open AI同時(shí)使用了外包服務(wù),Alexandr Wang的Scale AI也參與了訓(xùn)練ChatGPT。
背靠清華大學(xué)的AI初創(chuàng)企業(yè)—聆心智能的聯(lián)合創(chuàng)始人鄭叔亮告訴南風(fēng)窗,以ChatGPT為代表的生成式AI,對(duì)數(shù)據(jù)質(zhì)量提出了更高要求。
“AI生成的每一個(gè)文字,每一個(gè)對(duì)話,都是根據(jù)此前一個(gè)字的生成情況,或者問題本身,通過概率的推導(dǎo)所產(chǎn)生。”鄭叔亮說。
這種模式下,一旦數(shù)據(jù)質(zhì)量不高,生成的效果便是胡說八道、毫無可信度的AI。鄭叔亮表示:“因此,一方面我們要搜集更多更精準(zhǔn)的語料庫,另一方面,還要加強(qiáng)對(duì)這些語料進(jìn)行清洗、標(biāo)注?!?/p>
據(jù)美媒報(bào)道,擁有發(fā)達(dá)智能水平的ChatGPT,背后還有一群來自非洲肯尼亞的數(shù)據(jù)標(biāo)注員。他們每天工作9個(gè)小時(shí),閱讀150—200段文字,標(biāo)注帶有性、暴力與仇恨言論的內(nèi)容,最終,一個(gè)月獲得約合2500~3000元人民幣的報(bào)酬。
人工智能的背后仍是人工的努力。賈宇航分析,長(zhǎng)期來看,靠人力的堆積支撐的AI數(shù)據(jù)服務(wù)產(chǎn)業(yè),并不會(huì)有太大改變。
“大模型來了以后,很多人認(rèn)為今后AI數(shù)據(jù)服務(wù)的環(huán)節(jié)之一—數(shù)據(jù)標(biāo)注工作會(huì)減少?!彼硎?,“但其實(shí)忽略了一點(diǎn),隨著AI功能越來越多,很多時(shí)候到了未涉足領(lǐng)域的時(shí)候,可能還需要人工處理?!?/p>
他認(rèn)為,數(shù)據(jù)標(biāo)注不會(huì)隨著生成式大模型的誕生而減少,“反而有可能會(huì)更多”。
ChatGPT的出圈,帶給國內(nèi)數(shù)據(jù)集公司的不是猛火,而是久旱后的甘霖。
中國數(shù)據(jù)集公司興起時(shí)間與Scale AI相似,都在2016—2017年。這類公司的核心目標(biāo),是幫助AI企業(yè)最大限度地減少劣質(zhì)數(shù)據(jù)帶來的影響。
不過,數(shù)據(jù)公司以銷售數(shù)據(jù)集為生的少之又少。中國AI數(shù)據(jù)的頭部公司中,明確在官網(wǎng)提及數(shù)據(jù)集業(yè)務(wù)的只有科創(chuàng)板上市公司海天瑞聲。據(jù)該公司披露,基于多年語音識(shí)別及合成領(lǐng)域的技術(shù)積累,其在多語種領(lǐng)域構(gòu)筑深厚技術(shù)壁壘。截至2022第一季度,海天瑞聲覆蓋190個(gè)語種,累積詞條數(shù)超過1000萬,客戶包括阿里巴巴、騰訊、百度、微軟等大廠。
比起銷售數(shù)據(jù)集,更多公司在做的是數(shù)據(jù)的下一環(huán),數(shù)據(jù)標(biāo)注。
賈宇航對(duì)南風(fēng)窗介紹,數(shù)據(jù)集業(yè)務(wù)占云測(cè)數(shù)據(jù)中很小的部分。這一業(yè)務(wù)主要的運(yùn)用場(chǎng)景在人工智能產(chǎn)品剛立項(xiàng)的階段。“項(xiàng)目剛立項(xiàng)或進(jìn)行預(yù)演時(shí),需要一些開源,或者行業(yè)的基礎(chǔ)數(shù)據(jù)集,以快速完成對(duì)算法的驗(yàn)證?!?/p>
而更多企業(yè)的需求,會(huì)在后面的階段爆發(fā),即當(dāng)AI產(chǎn)品進(jìn)入正式的研發(fā)和持續(xù)迭代時(shí)。
“這時(shí)候,對(duì)應(yīng)的傳感器或者場(chǎng)景明確,需要基于特定的場(chǎng)景完成數(shù)據(jù)的采集、清洗和標(biāo)注。我們因此提供高質(zhì)量、場(chǎng)景化的數(shù)據(jù)標(biāo)注等服務(wù)。”賈宇航說。
“公會(huì)”沒能推動(dòng)數(shù)據(jù)標(biāo)注業(yè)愈加繁榮。相反,越來越低的標(biāo)注價(jià)格讓行業(yè)內(nèi)部競(jìng)爭(zhēng)加劇。
據(jù)前瞻產(chǎn)業(yè)研究院統(tǒng)計(jì),中國數(shù)據(jù)標(biāo)注公司從 2014年興起,發(fā)展到2017年達(dá)到高峰。2017年,數(shù)據(jù)標(biāo)注相關(guān)融資事件達(dá)到9起。
這個(gè)數(shù)字,也是接下來多年的高峰。
勞動(dòng)密集是這一階段數(shù)據(jù)標(biāo)注業(yè)的特點(diǎn)。據(jù)36氪報(bào)道,一家資深數(shù)據(jù)標(biāo)注公司透露,行業(yè)內(nèi)平均每家數(shù)據(jù)眾包平臺(tái)都有上萬人。因此,有人比喻,數(shù)據(jù)標(biāo)注業(yè)就像“人工智能背后的富士康”。
2018年,位于太原的山西轉(zhuǎn)型綜合改革示范區(qū)與百度達(dá)成合作,打造了號(hào)稱“全國范圍內(nèi)人員和產(chǎn)值規(guī)模最大的單體數(shù)據(jù)標(biāo)注基地”。據(jù)百度披露,該基地占地面積超1萬平米,帶動(dòng)了至少200家從事數(shù)據(jù)服務(wù)的公司。
而相對(duì)較低的技術(shù)門檻,使得數(shù)據(jù)標(biāo)注公司多分布于中小城市。以百度為例,該公司披露,旗下數(shù)據(jù)眾包平臺(tái)百度眾測(cè)除了安在太原,還在山西臨汾、重慶奉節(jié)、四川達(dá)州、甘肅酒泉、江西新余、浙江麗水、廣東清遠(yuǎn)、湖南郴州、黑龍江哈爾濱等地設(shè)點(diǎn)。
勞動(dòng)密集的另一面意味著低門檻。在2021年版的《人工智能訓(xùn)練師國家職業(yè)技能標(biāo)準(zhǔn)》中,對(duì)該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達(dá)能力、計(jì)算能力”,普遍受教育程度寫的是“初中畢業(yè)”。根據(jù)媒體報(bào)道的數(shù)據(jù)標(biāo)注師群體,許多都是中專、大專畢業(yè)生,也容納寶媽、退役軍人等各類群體。
低門檻的同時(shí),數(shù)據(jù)標(biāo)注行業(yè)的小作坊遍地開花。
比起已經(jīng)進(jìn)入E輪融資、占據(jù)海外市場(chǎng)的Scale AI,占據(jù)我國數(shù)據(jù)標(biāo)注市場(chǎng)主要份額的,反而是以工作室形態(tài)存在的小公司。
他們被稱為“公會(huì)”“團(tuán)隊(duì)”,通常在眾包平臺(tái)上接單,或者接第三方中介公司轉(zhuǎn)過來分包的訂單。
“公會(huì)”沒能推動(dòng)數(shù)據(jù)標(biāo)注業(yè)愈加繁榮。相反,越來越低的標(biāo)注價(jià)格讓行業(yè)內(nèi)部競(jìng)爭(zhēng)加劇。
2017年開始,AI數(shù)據(jù)公司融資的量開始下滑。2018年,AI數(shù)據(jù)公司相關(guān)融資只有5筆,平均每筆只有千萬級(jí)。到了2021年,相關(guān)融資只剩下一年兩筆。
贏識(shí)科技首席執(zhí)行官楚汝峰曾在受訪時(shí)表示,我國數(shù)據(jù)標(biāo)注的競(jìng)爭(zhēng)激烈,沒能出現(xiàn)像Scale AI獨(dú)角獸巨頭主要是因?yàn)?,“國?nèi)做標(biāo)注的小作坊太多了,市場(chǎng)不集中”。
數(shù)據(jù)集公司隨著AI行業(yè)的興衰而變化。與Scale AI相似,給中國數(shù)據(jù)標(biāo)注公司帶來轉(zhuǎn)機(jī)的,是大量涌現(xiàn)的自動(dòng)駕駛企業(yè)。
中國工程院院士鄔賀銓曾分析:“智能駕駛需要讓汽車自動(dòng)識(shí)別馬路。但如果只是將視頻單純傳給計(jì)算機(jī),計(jì)算機(jī)無法識(shí)別,需要人工在視頻中將道路框出。計(jì)算機(jī)多次接收信息后,才逐漸學(xué)會(huì)在視頻和照片中識(shí)別道路?!?/p>
智能駕駛帶來了大量的需求。國內(nèi)頭部數(shù)據(jù)企業(yè),例如云測(cè)數(shù)據(jù)、數(shù)據(jù)堂、龍貓數(shù)據(jù)等,紛紛轉(zhuǎn)向?yàn)檐嚻筇峁┓?wù)。
據(jù)報(bào)道,國內(nèi)一批主流的主機(jī)廠,如吉利、上汽、廣汽等,從2021年始加強(qiáng)了自動(dòng)駕駛數(shù)據(jù)標(biāo)注方面的投入。到2022年,上述車企的投入預(yù)算已經(jīng)在幾十萬元的基礎(chǔ)上翻了十余倍。
數(shù)據(jù)堂公司相關(guān)負(fù)責(zé)人也曾在2022年受訪時(shí)說:“(車企)數(shù)據(jù)需求缺口仍在,市場(chǎng)遠(yuǎn)未飽和。這對(duì)于真正優(yōu)質(zhì)的數(shù)據(jù)供應(yīng)商來說,正是搶占市場(chǎng)高地的絕佳時(shí)機(jī)?!?p>
愈加激烈的競(jìng)爭(zhēng),對(duì)數(shù)據(jù)標(biāo)注行業(yè)提出了現(xiàn)實(shí)的挑戰(zhàn)。數(shù)據(jù)標(biāo)注公司普遍開始轉(zhuǎn)型。
一個(gè)業(yè)內(nèi)公認(rèn)的方向是,從勞動(dòng)密集型走向AI輔助標(biāo)注。
“人機(jī)交互式?!辟Z宇航總結(jié)。
他解釋,隨著這幾年的發(fā)展,數(shù)據(jù)標(biāo)注的類型和內(nèi)容越來越復(fù)雜?!白钤绲娜四樧R(shí)別,只需要在人臉上做一個(gè)拉框的標(biāo)注,就可以完成對(duì)應(yīng)需要的訓(xùn)練。而現(xiàn)在,還要求對(duì)人臉的關(guān)鍵點(diǎn)、表情或者一些人臉的屬性或者姿態(tài),例如半張臉被遮擋時(shí)等情況,進(jìn)行標(biāo)注。”
與Scale AI相似,給中國數(shù)據(jù)標(biāo)注公司帶來轉(zhuǎn)機(jī)的,是大量涌現(xiàn)的自動(dòng)駕駛企業(yè)。
市場(chǎng)的變化要求更高水準(zhǔn)的數(shù)據(jù)處理能力。包括Scale AI、Appen等在內(nèi)的國際數(shù)據(jù)公司,將目光鎖定在數(shù)據(jù)標(biāo)注的平臺(tái)以及工具化上。杭州數(shù)據(jù)標(biāo)注公司曼孚科技曾對(duì)媒體總結(jié):“Scale AI的平臺(tái)工具已經(jīng)在很大限度上淡化了人在其中的決定性作用,這成為企業(yè)競(jìng)爭(zhēng)力的關(guān)鍵?!?/p>
賈宇航告訴南風(fēng)窗,在強(qiáng)調(diào)質(zhì)量和效率的當(dāng)下,數(shù)據(jù)標(biāo)注AI工程化的趨勢(shì)愈加明顯。
也就是說,如何把人組織起來,與機(jī)器交互,高效運(yùn)轉(zhuǎn)AI數(shù)據(jù)處理的過程,成為各家公司競(jìng)相“卷”的方向。
需要適應(yīng)變化的除了給AI數(shù)據(jù)服務(wù)的AI,還有人才。賈宇航告訴南風(fēng)窗:“現(xiàn)在,對(duì)于標(biāo)注人員的要求肯定是越來越高?!?/p>
如今缺失的,他說,是理解各個(gè)垂直領(lǐng)域的專業(yè)人才。比如,為了提高時(shí)效性,降低錯(cuò)誤率,醫(yī)療數(shù)據(jù)需要專業(yè)的醫(yī)學(xué)生。但往往,這類人才極少從事數(shù)據(jù)業(yè)。
2019年,數(shù)據(jù)服務(wù)平臺(tái)CrowdFlower也曾做過一組研究。
它對(duì)大約80名數(shù)據(jù)科學(xué)家進(jìn)行了一項(xiàng)調(diào)查,發(fā)現(xiàn)數(shù)據(jù)科學(xué)家花費(fèi)了:
60%的時(shí)間用于組織和清理數(shù)據(jù);
19%的時(shí)間花在收集數(shù)據(jù)集上;
9%的時(shí)間用于挖掘數(shù)據(jù);
5%的時(shí)間花在其他任務(wù)上。
數(shù)據(jù)科學(xué)家的大部分時(shí)間都花在數(shù)據(jù)準(zhǔn)備,即收集、清理和標(biāo)注數(shù)據(jù)上。這其中,57%的人表示,清理和處理數(shù)據(jù),是最無聊、最不愉快的任務(wù)。
而如今,隨著ChatGPT帶來的AI熱潮,“最無聊、最不愉快”的行業(yè)也正在起飛。