網(wǎng)易杭研院汪源:十余年大數(shù)據(jù)凝結(jié)成“網(wǎng)易云”
作為國(guó)內(nèi)最早誕生的互聯(lián)網(wǎng)公司之一,網(wǎng)易在過(guò)去十余年的產(chǎn)品研發(fā)、孵化和運(yùn)維過(guò)程中,各個(gè)部門(mén)對(duì)數(shù)據(jù)有著不同且繁雜的需求。為了把這些繁雜的需求用統(tǒng)一的手段來(lái)解決,網(wǎng)易在大數(shù)據(jù)分析方面進(jìn)行了十余年的探索,并自2015年開(kāi)始通過(guò)“網(wǎng)易云”推出了一系列面向B端企業(yè)客戶的云服務(wù)產(chǎn)品。
“如何梳理數(shù)據(jù)、處理數(shù)據(jù)、提高數(shù)據(jù)分析的效率,這是網(wǎng)易一直思考的問(wèn)題?!睘榇?,汪源將網(wǎng)易大數(shù)據(jù)分析之路劃分為初步階段、起步階段和整合階段。
在2008年以前的初步階段中,網(wǎng)易和國(guó)內(nèi)的大部分公司一樣,使用傳統(tǒng)的方法進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。2009和2010這兩年,可以說(shuō)是網(wǎng)易在大數(shù)據(jù)分析上的“初體驗(yàn)”年,當(dāng)然,這也與網(wǎng)易及國(guó)內(nèi)整體互聯(lián)網(wǎng)行業(yè)的快速發(fā)展密切相關(guān)。汪源介紹,正是因?yàn)闊o(wú)法簡(jiǎn)單面對(duì)海量的業(yè)務(wù)數(shù)據(jù),網(wǎng)易開(kāi)始嘗試引入Hadoop等成熟的開(kāi)源技術(shù)來(lái)解決數(shù)據(jù)存儲(chǔ)和計(jì)算的瓶頸。
從2011年開(kāi)始,針對(duì)在前一階段中數(shù)據(jù)格式不規(guī)范、產(chǎn)品接入成本高、計(jì)算任務(wù)不穩(wěn)定等突出問(wèn)題,網(wǎng)易開(kāi)始走上大數(shù)據(jù)分析的整合階段,其中最顯著的變化便是整合、規(guī)范各類(lèi)采集機(jī)制、指標(biāo)體系等,將數(shù)據(jù)分析“工具化”,以適應(yīng)產(chǎn)品、設(shè)計(jì)、運(yùn)營(yíng)和市場(chǎng)等不同場(chǎng)景。
在經(jīng)歷全面整合的階段之后,“盡管已經(jīng)將數(shù)據(jù)分析進(jìn)行‘工具化’應(yīng)用,網(wǎng)易的問(wèn)題依舊無(wú)法全部解決,公司對(duì)于個(gè)性化的數(shù)據(jù)需求以及靈活的多維分析需求難以完全滿足,數(shù)據(jù)分析的‘平臺(tái)化’開(kāi)始被提出,網(wǎng)易的大數(shù)據(jù)分析進(jìn)入了全新的階段?!蓖粼凑f(shuō)。
2014年以來(lái),網(wǎng)易開(kāi)始加速大數(shù)據(jù)分析的平臺(tái)化發(fā)展,以提高數(shù)據(jù)獲取速度,提升數(shù)據(jù)分析效率,更快發(fā)揮數(shù)據(jù)價(jià)值?!熬W(wǎng)易猛犸”與“網(wǎng)易有數(shù)”兩大數(shù)據(jù)分析平臺(tái)就是在這個(gè)階段逐漸成型的。
對(duì)于很多企業(yè)而言,大數(shù)據(jù)雖然看起來(lái)很美,卻又面臨著數(shù)據(jù)孤立,需求反饋周期長(zhǎng)的問(wèn)題。網(wǎng)易猛犸大數(shù)據(jù)平臺(tái)可以實(shí)現(xiàn)從各種不同數(shù)據(jù)源提取數(shù)據(jù),同步到內(nèi)核存儲(chǔ)系統(tǒng),同時(shí)對(duì)外提供便捷的操作體驗(yàn)。據(jù)悉,現(xiàn)在每天約有130億條數(shù)據(jù)進(jìn)入網(wǎng)易猛犸平臺(tái),經(jīng)過(guò)數(shù)據(jù)建模和清洗,進(jìn)行數(shù)據(jù)分析預(yù)測(cè)。
網(wǎng)易的另一大數(shù)據(jù)分析平臺(tái)“網(wǎng)易有數(shù)”則可以極大地簡(jiǎn)化數(shù)據(jù)探索,提高數(shù)據(jù)可視化方面的效率,提供靈活報(bào)表制作等,幫助分析師專(zhuān)注于自己的工作內(nèi)容。此外,網(wǎng)易有數(shù)在二維空間通過(guò)綜合運(yùn)用分區(qū)塊、顏色、大小等標(biāo)識(shí),展示多維數(shù)據(jù),推動(dòng)數(shù)據(jù)文化落地,有
利于管理層和業(yè)務(wù)人員的自助分析。
汪源對(duì)網(wǎng)易未來(lái)大數(shù)據(jù)平臺(tái)進(jìn)行了展望。他認(rèn)為,從網(wǎng)易大數(shù)據(jù)分析發(fā)展歷程的第三階段開(kāi)始,抽象數(shù)據(jù)的層次已經(jīng)很高。進(jìn)入第四個(gè)階段,網(wǎng)易希望能夠開(kāi)發(fā)出更基礎(chǔ)的大數(shù)據(jù)處理平臺(tái)。
大數(shù)據(jù)分析面臨著各種挑戰(zhàn),既有集成、計(jì)算和分析等老問(wèn)題,同時(shí)也有新的挑戰(zhàn),諸如數(shù)據(jù)量多樣性、數(shù)據(jù)類(lèi)型多樣性、需求多樣性等。面對(duì)這些問(wèn)題,汪源對(duì)網(wǎng)易大數(shù)據(jù)分析平臺(tái)未來(lái)的解決方案做了設(shè)想:“回歸到計(jì)算機(jī)軟硬件設(shè)計(jì)的基礎(chǔ),各類(lèi)計(jì)算機(jī)應(yīng)用場(chǎng)景,總線和組件的標(biāo)準(zhǔn)是統(tǒng)一的。從底層基礎(chǔ)開(kāi)始,設(shè)計(jì)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)集成、計(jì)算和分析,開(kāi)發(fā)出融合大數(shù)據(jù)處理平臺(tái),從而滿足未來(lái)遇到的各種個(gè)性化的數(shù)據(jù)分析需求?!?/p>
從網(wǎng)易大數(shù)據(jù)發(fā)展的歷程來(lái)看,基于杭州研究院10年的技術(shù)積累,網(wǎng)易已經(jīng)具備了成熟的互聯(lián)網(wǎng)產(chǎn)品技術(shù)體系,并且有力地支撐了網(wǎng)易云音樂(lè)、云課堂、易信、LOFTER、公開(kāi)課等產(chǎn)品的發(fā)展。
汪源表示,網(wǎng)易云將會(huì)把這些能力開(kāi)放出來(lái),提供給更多的用戶使用。比如網(wǎng)易易盾作為網(wǎng)易云推出的極速智能反垃圾云服務(wù),其依托的便是網(wǎng)易的大數(shù)據(jù)和云計(jì)算服務(wù),提供文本過(guò)濾、圖片識(shí)別、語(yǔ)音分析、視頻檢測(cè)等服務(wù),幫助企業(yè)和開(kāi)發(fā)者實(shí)現(xiàn)對(duì)垃圾有害信息的實(shí)時(shí)過(guò)濾、精準(zhǔn)攔截。
除了網(wǎng)易易盾,從去年開(kāi)始,以網(wǎng)易技術(shù)服務(wù)能力的全面開(kāi)放為初衷,網(wǎng)易云還陸續(xù)發(fā)布了網(wǎng)易云信(即時(shí)通訊云服務(wù))、網(wǎng)易七魚(yú)(全智能云客服)、網(wǎng)易視頻云、網(wǎng)易蜂巢(容器云)、網(wǎng)易云捕(質(zhì)量跟蹤平臺(tái))一系列產(chǎn)品,并從研發(fā)云、運(yùn)營(yíng)云、運(yùn)作云的角度對(duì)云服務(wù)進(jìn)行了重新的劃分。不難想象,隨著網(wǎng)易在云計(jì)算、大數(shù)據(jù)等方面的研發(fā)積累日漸成熟,將會(huì)有更多樣的云服務(wù)出現(xiàn)。