韓昱
大數(shù)據(jù)的流水線徹夜未停。
2016年11月12日,周六,數(shù)據(jù)工程師關(guān)錚錚通宵之后仍未合眼。并非“雙十一”剁手,而是在調(diào)取整個“雙十一”的銷售數(shù)據(jù)。
他要趕出一篇數(shù)據(jù)報告。
關(guān)錚錚所在環(huán)節(jié)之前,數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)建模,每一步都有所謂的數(shù)據(jù)工程師坐在電腦前復(fù)制粘貼,或是敲著代碼。一秒鐘17萬個電商訂單在線上堆積,就像一團(tuán)亂麻,他們將這些麻線搬運、篩選、橫豎擺置,織成一張張PPT畫布。
亂麻需快刀斬。在整個大數(shù)據(jù)流水線中,AI扮演著快刀角色,它以更高的效率輔助數(shù)據(jù)工程師;也在飛速的成長中,慢慢“侵襲”這群人。
云端機會
數(shù)據(jù)即資產(chǎn),這已是共識。到2020年,我國大數(shù)據(jù)相關(guān)產(chǎn)品和服務(wù)業(yè)務(wù)收入將突破10 000億元,年復(fù)合增長率保持在30%左右。
數(shù)據(jù)工程師稀缺性凸顯。
關(guān)錚錚負(fù)責(zé)數(shù)據(jù)鏈條最后一個環(huán)節(jié),從數(shù)據(jù)的變化得出結(jié)論。由于客戶都是企業(yè),所以得有專業(yè)的觀點。“跟我原來的工作很像,都是整合數(shù)據(jù)和已有經(jīng)驗提出結(jié)論和建議”。2015年,他踩著大數(shù)據(jù)風(fēng)口,從咨詢公司跳槽而來。
AI打敗了咨詢公司里關(guān)錚錚的上游,填單子、做調(diào)研等工作已不需要投入大量人力。大數(shù)據(jù)公司里,關(guān)錚錚的上游是誰?數(shù)據(jù)清理工程師、數(shù)據(jù)架構(gòu)師、算法工程師……
“工程師”的名號似乎很有優(yōu)越感,實際上他們就像銷售公司里的“經(jīng)理”。Jawbone數(shù)據(jù)科學(xué)副總裁Monica Rogati曾介紹,大部分?jǐn)?shù)據(jù)工程師的工作極其枯燥乏味,他們80%的時間都是大數(shù)據(jù)苦工。
初始數(shù)據(jù)庫的生成,就像把原材料篩選出來,拼裝成了一個個零部組件,這由數(shù)據(jù)清理工程師完成;挖掘數(shù)據(jù)的規(guī)律、價值,讓數(shù)據(jù)按照既有的邏輯得出想要的結(jié)果,由數(shù)據(jù)架構(gòu)師和算法工程師操作;得出數(shù)據(jù)產(chǎn)品,分析背后的原因,關(guān)錚錚便屬于這個工種。這部分直接用到的數(shù)據(jù)部分不多,但要依托于數(shù)據(jù)呈現(xiàn)的結(jié)果。
簡單重復(fù)、機械乏味,數(shù)據(jù)工程師就像富士康工人各司其職。但他們清楚,每一個環(huán)節(jié)里,人成為了領(lǐng)導(dǎo),AI還不能夠自主做事。
因此他們依舊稀缺。關(guān)錚錚的領(lǐng)導(dǎo)每年畢業(yè)季都要跑到北京、上海、西安等高校聚集的城市,市面上成熟的數(shù)據(jù)工程師奇缺,他只能把手伸到上游生源。
清華大數(shù)據(jù)產(chǎn)業(yè)聯(lián)合會的秘書長王霞曾講到,清華大數(shù)據(jù)相關(guān)專業(yè)的畢業(yè)生供不應(yīng)求,還沒畢業(yè)都已被企業(yè)預(yù)定完畢。
身價背后
大華,是這一個行業(yè)崛起的受益者。
從最開始月薪7 000元的畢業(yè)生,到現(xiàn)在月薪超過20 000元的算法工程師,他只用了兩年?!拔磥硪欢〞絹碓胶茫惴俣?、今日頭條這些公司的招聘,大數(shù)據(jù)相關(guān)的工程師起薪至少50 000元,這還只是一線工作人員?!绷钠鹱约哼@部分工作,大華充滿信心。
雖然對收入沒有這么大的預(yù)期,但關(guān)錚錚同樣很滿意現(xiàn)在的狀態(tài)。他很愿意接納現(xiàn)有的AI輔助,為了時效趕報告,AI幫他省去了不少簡單卻繁多的工作。
關(guān)錚錚入行快10年,最初做咨詢研究時,支撐分析的數(shù)據(jù)報表需要研究員用Excel去刷,“Excel已經(jīng)是相對很智能的工具了,那個時候Excel最多可以處理65 536條數(shù)據(jù),后來可以升級到10萬條,但都不及現(xiàn)在?!?/p>
那時,關(guān)錚錚為了得出一個數(shù)據(jù)報表,需要在Excel里填寫不同的公式。簡單報表得要一天才能完成,復(fù)雜些的就要耗上好幾天。而今,這些數(shù)據(jù)報表都是前端的IT人員做出來的,跑報表也不用手動操作,“機器自動完成,原來辛苦一天才能做出一個報表,現(xiàn)在機器一天就可以完成幾千份。”
但欣喜背后同樣有不為人知的辛苦。
數(shù)據(jù)清理師王姐頭痛的是,沒完沒了地給數(shù)據(jù)補屬性。
王姐主要負(fù)責(zé)商品數(shù)據(jù)的清洗工作,原始數(shù)據(jù)都需要包含商品的品牌、價格,以及相關(guān)的性能等標(biāo)簽。少一個標(biāo)簽都有可能在入庫以后出錯,嚴(yán)重時會影響產(chǎn)品的最終呈現(xiàn)。
最開始,這些補碼的工作完全是由人工完成的,每個人從早到晚盯著拉不到底的Excel填空,時間稍長特別容易看串行,所以數(shù)據(jù)的初審復(fù)審等質(zhì)檢工作非常重要。
隨著非結(jié)構(gòu)化數(shù)據(jù)類型的增加、數(shù)據(jù)量幾何型增長以及數(shù)據(jù)計算邏輯越發(fā)復(fù)雜,在原有IT系統(tǒng)里,要完成全部數(shù)據(jù)處理工作幾乎是不可能完成的。
現(xiàn)在,初級的補碼工作開始由AI來代替,但是人工還是不能省掉。“機器畢竟還比較機械化,它只會在固定的位置補標(biāo)簽,如果原始數(shù)據(jù)串行,機器同樣會發(fā)生錯誤,人工就會比機器考慮得更為全面些。”
他們習(xí)慣于將我們認(rèn)為的AI,稱為“機器”。
誰占上風(fēng)
雖然會嘗試引入AI替代人工,但在王姐看來,現(xiàn)在的AI還太初級,數(shù)據(jù)的清洗不只是補補碼,貼貼漏掉的標(biāo)簽?zāi)敲春唵?。生成原始的?shù)據(jù)庫需要一定的邏輯在里邊:哪些標(biāo)簽需要加進(jìn)來?哪些標(biāo)簽的權(quán)重更高?根據(jù)市場的變化,標(biāo)簽的性質(zhì)、權(quán)重又都需要調(diào)整,即便有被AI替代的可能,也是重復(fù)、機械性的那部分,完全替代還需要時間。
“AI還太初級”,王姐道出了真諦。弱AI只能執(zhí)行簡單任務(wù),強AI才能夠達(dá)到與人類持平的智能水平。但王姐沒有想到,強AI會在未來20~30年實現(xiàn),已經(jīng)成為行業(yè)的共識。
目前來看,大華最不容易被替代。
數(shù)據(jù)工程師進(jìn)到算法和建模階段,幾乎都需要與具體業(yè)務(wù)場景關(guān)的,然后通過算法模型和編程,完成數(shù)據(jù)產(chǎn)品從初級階段到成品的加工。
大華對于“AI能替代他”的觀點感到驚訝。大華認(rèn)為,大數(shù)據(jù)就是通過算法和模型,在多源多維的數(shù)據(jù)中建立關(guān)聯(lián)并挖掘其中的規(guī)律,并通過分布式技術(shù),讓系統(tǒng)的數(shù)據(jù)存儲和計算能力大幅提高。目前公司的AI程序編寫,大華也有參與,“你說我編出來的一個程序,回頭把我替代了?”
人們在誤解AI。科大訊飛的語音識別系統(tǒng)是AI,載著李彥宏闖入五環(huán)的無人駕駛汽車是AI,海爾在AWE上推出的物聯(lián)網(wǎng)是AI,那么富士康的機械手是AI嗎?
都是。通過大量數(shù)據(jù)輸入,不停息的機器學(xué)習(xí),AI正在變得越來越智能。數(shù)據(jù)是AI的營養(yǎng)池,所以在互聯(lián)網(wǎng)、金融等產(chǎn)生海量數(shù)據(jù)的行業(yè)里,AI吸食數(shù)據(jù),并搶奪工作機會。
關(guān)錚錚組裝數(shù)據(jù),并將之形成產(chǎn)品。AI可以比他做更好看的PPT,可以比他懂更多的行業(yè)知識,更可以神速般分析數(shù)據(jù)。AI可能取代他嗎?他同樣自信地覺得能常駐與此。
取代或是不取代,我們不得而知。AI正在以每天學(xué)習(xí)30 000套棋譜的速度追趕人類,我們以怎樣的心態(tài)與行動去迎接,才是最有意義的話題。
北京東四環(huán),華燈初上。往北30公里,富士康工人已做好交接班,開始2元/次的KTV,4元/次的電影,或是10元/次的按摩。關(guān)錚錚所在大數(shù)據(jù)公司燈火通明,外賣和泡面的味道在樓層亂竄。
鍵盤噠噠響動。endprint