■ 采訪/王彥文 受訪/陳運文
大數(shù)據(jù)領(lǐng)域的技術(shù)已經(jīng)非常成熟了,但應(yīng)用還處在初級探索階段。
隨著社交網(wǎng)絡(luò)、電子商務(wù)和移動互聯(lián)網(wǎng)的發(fā)展,人類每時每刻都有大量的數(shù)據(jù)產(chǎn)生:我們?yōu)g覽過的網(wǎng)頁、訪問過的店鋪、發(fā)過的朋友圈等,可以說,“你輕輕走過,到處都留下了你的痕跡”。在公共領(lǐng)域,交通系統(tǒng)每天產(chǎn)生大量的視頻數(shù)據(jù),醫(yī)院有大量的醫(yī)療信息……所有這些就構(gòu)成了“大數(shù)據(jù)”。大數(shù)據(jù)之大,不僅指數(shù)據(jù)量,更在于其價值。
2017年中國大數(shù)據(jù)發(fā)展調(diào)查報告顯示,2016年,中國大數(shù)據(jù)的市場規(guī)模為168億元,增速達到45%,預(yù)計2017—2020年,大數(shù)據(jù)市場的增速會保持在30%以上。大數(shù)據(jù)產(chǎn)業(yè)的飛速發(fā)展,帶動了一批提供大數(shù)據(jù)技術(shù)服務(wù)的高科技創(chuàng)業(yè)公司的出現(xiàn)。位于上海張江高科技園區(qū)浦東軟件園的達觀數(shù)據(jù)就是這樣一家為企業(yè)提供大數(shù)據(jù)服務(wù)的公司。
全球知名咨詢公司麥肯錫稱:今天的數(shù)據(jù),已經(jīng)滲透到當(dāng)今每個行業(yè)和業(yè)務(wù)功能區(qū)域,成為一個重要的生產(chǎn)要素。人們對大量數(shù)據(jù)的挖掘和利用,預(yù)示著新的生產(chǎn)力增長和消費者剩余影響的到來。
達觀數(shù)據(jù)致力于數(shù)據(jù)的挖掘和處理,公司運用人工智能中的自然語言處理技術(shù)和應(yīng)用系統(tǒng)為企業(yè)提供個性化推薦和搜索系統(tǒng)。與其說達觀數(shù)據(jù)是一家大數(shù)據(jù)公司,毋寧說是一家人工智能公司,大數(shù)據(jù)是公司的處理對象,而處理方法則是人工智能。達觀數(shù)據(jù)的CEO陳運文先生認(rèn)為,針對大量數(shù)據(jù)的處理工作,例如大量的文字性工作,計算機不僅可以做,而且可以比人做得更好,這是大數(shù)據(jù)在人工智能行業(yè)落地的可能。
陳運文發(fā)現(xiàn),盡管大數(shù)據(jù)的概念已經(jīng)非常普及,大家也意識到了大數(shù)據(jù)的重要性,但是,如何經(jīng)營數(shù)據(jù),如何利用數(shù)據(jù)為自己服務(wù),很多人卻并不見得了解。他認(rèn)為,大數(shù)據(jù)行業(yè)有著巨大的需求。中國有很多大中型企業(yè),企業(yè)里面大量的數(shù)據(jù)、資料和內(nèi)容性信息散落于計算機的各個硬盤或者在柜子里堆積如山,很多有意義的數(shù)據(jù)就這樣淹沒其中得不到利用。利用計算機對這些文檔材料進行自動分類、歸檔,提取出有用信息,就能幫助企業(yè)實現(xiàn)基于大數(shù)據(jù)的精準(zhǔn)營銷,降低企業(yè)成本、提高經(jīng)濟效益。陳運文說:“幫助傳統(tǒng)企業(yè)適應(yīng)科技化、適應(yīng)時代的需要,是一件非常有意義的事。例如,像華為這樣的大公司,做好數(shù)據(jù)管理是非常重要的,華為采用了達觀數(shù)據(jù)提供的知識管理和個性化推薦服務(wù),將文本挖掘技術(shù)應(yīng)用到企業(yè)內(nèi)部,可以實現(xiàn)數(shù)據(jù)的自動管理和分析。”
對于新媒體行業(yè)來說,尤其是一些粉絲數(shù)量較大的媒體,媒體的粉絲都是什么樣的群體,有什么樣的偏好,對內(nèi)容的反饋是什么,這些都很難單靠人工來分析。利用計算機對大數(shù)據(jù)進行分析就可以對粉絲進行“畫像”,從而分析每一個用戶的興趣愛好,做到個性化推薦。
陳運文調(diào)侃自己的大數(shù)據(jù)處理工作就像“來料加工”,“其實這個世界不缺數(shù)據(jù),缺的是對數(shù)據(jù)精加工的能力,原始的數(shù)據(jù)如果不做處理,價值很小?!彼f,“我們做的事情是對原始數(shù)據(jù)進行處理,使之成為有意義的數(shù)據(jù)?!比绾巫層嬎銠C更好地管理這些文本,是一件非常重要的事情。
“大數(shù)據(jù)的概念很火,但真正落地的很少?!碧岬酱髷?shù)據(jù)在現(xiàn)階段的發(fā)展情況,陳運文這樣說。大數(shù)據(jù)的概念曾經(jīng)非常火熱,《紐約時報》曾經(jīng)發(fā)表過一篇題為《大數(shù)據(jù)時代》的文章,預(yù)言大數(shù)據(jù)時代的到來,文章說大數(shù)據(jù)將會改變?nèi)祟惖纳?。然而,這么多年過去,大數(shù)據(jù)產(chǎn)業(yè)并沒有像預(yù)想中的那樣普及。對此,陳運文評價說:“人工智能=數(shù)據(jù)+算法,算法的進步很快,而數(shù)據(jù)卻沒有同步跟上。大數(shù)據(jù)領(lǐng)域的技術(shù)已經(jīng)非常成熟了,但應(yīng)用還處在初級探索階段。”大數(shù)據(jù)的應(yīng)用分為幾個階段:數(shù)據(jù)采集、數(shù)據(jù)挖掘和數(shù)據(jù)應(yīng)用。數(shù)據(jù)的采集在國內(nèi)才剛剛開始,還有大量的有用數(shù)據(jù)沒有得到關(guān)注。比如交通數(shù)據(jù),在上海這樣的大城市交通數(shù)據(jù)得到了越來越多的重視,然而,很多小城市沒有采集的意識。大數(shù)據(jù)技術(shù)在互聯(lián)網(wǎng)行業(yè)的應(yīng)用較多,比如百度、阿里巴巴擁有大量的數(shù)據(jù),這些公司也在將這些數(shù)據(jù)轉(zhuǎn)化為生產(chǎn)力。但是,國內(nèi)大量的傳統(tǒng)企業(yè),對數(shù)據(jù)的商業(yè)應(yīng)用敏感度低,沒有意識到看似煩冗的數(shù)據(jù)經(jīng)過處理后會產(chǎn)生巨大的價值。經(jīng)過媒體幾年來的啟蒙教育,國內(nèi)傳統(tǒng)企業(yè)也逐漸開始重視數(shù)據(jù)的采集與整理,意識到大數(shù)據(jù)、人工智能的重要性。但是,很多企業(yè)對于如何使自己的企業(yè)和人工智能相融合,讓大數(shù)據(jù)和人工智能為企業(yè)服務(wù)并沒有清晰的概念。陳運文表示,這些企業(yè)需要像達觀數(shù)據(jù)這樣的公司使大數(shù)據(jù)和人工智能在這些企業(yè)落地。因此,數(shù)據(jù)的采集、處理領(lǐng)域未來發(fā)展前景廣闊,市場巨大。
“在很多行業(yè)中,我們?nèi)狈τ匈|(zhì)量的數(shù)據(jù),很多行業(yè)的數(shù)據(jù)信息還停留在紙面上,沒有數(shù)字化或者說文檔沒有做到很好的標(biāo)注,無法讓計算機進行高效處理。近幾年,很多企業(yè)開始重視數(shù)據(jù)的采集和整理,這是一個很好的趨勢,也將在很大程度上促進大數(shù)據(jù)的發(fā)展。”陳運文說。
對于大數(shù)據(jù)領(lǐng)域的發(fā)展來說,只有數(shù)據(jù)足夠多,行業(yè)才能發(fā)揮應(yīng)有的作用。比如,AlphaGo學(xué)習(xí)了30萬盤棋譜,在這個基礎(chǔ)上,才打敗了人類。陳運文說:“中國有句古話:熟讀唐詩三百首,不會作詩也會吟。要寫出優(yōu)美的詩篇,我們需要讀很多的唐詩,如果讓計算機閱讀成千上萬篇文章,它也可以從中總結(jié)規(guī)律。計算機擁有強大的運算和存儲能力,可以比人做得更好?!标愡\文介紹說,達觀數(shù)據(jù)有個專利,當(dāng)計算機讀完一篇文章后,可以判斷出文章中哪些字是人名。對于人類來說,這是一件非常簡單的事,而計算機完成這個判斷則需要非常復(fù)雜的算法。通過大量的文本閱讀和訓(xùn)練后,計算機就能像人腦一樣運算。今天,數(shù)據(jù)挖掘在很多行業(yè)中的應(yīng)用還處在一個非常早期的狀態(tài)。未來,房地產(chǎn)、汽車、零售、法律等行業(yè)都可以引入人工智能。
例如,司法領(lǐng)域是一個文本使用特別集中的行業(yè),律師需要處理大量的文本資料。中國平均每18天誕生一部法律,這也就要求律師不斷學(xué)習(xí)、記憶,隨時掌握新的法律知識。人類并不善于大量的記憶,但這是計算機的強項。Ross Intelligence就是一款用于法律行業(yè)的人工智能APP,2016年法律事務(wù)所BakerHostetler宣布雇傭Ross Intelligence來處理破產(chǎn)訴訟實務(wù)。也許10年以后,人工智能輔助人類來處理案件會變得非常普遍。
醫(yī)療領(lǐng)域也是一個文本密集的行業(yè)。IBM公司的Watson醫(yī)療可以在短時間內(nèi)記憶大量的信息,它通讀了200多份醫(yī)學(xué)期刊,200余種教材以及大量的病例,可以為疾病確診以及藥物選擇提供建議。
美國政府認(rèn)為大數(shù)據(jù)是“未來的新石油”,將給未來的科技與經(jīng)濟發(fā)展帶來深遠影響。大數(shù)據(jù)技術(shù)的飛速發(fā)展離不開一系列硬件和軟件設(shè)施的支持。云計算、云存儲等技術(shù)使大規(guī)模數(shù)據(jù)的存儲與運算成為可能,這也進一步促進了大數(shù)據(jù)領(lǐng)域的創(chuàng)業(yè)。陳運文介紹說,之前,互聯(lián)網(wǎng)企業(yè)的軟硬件維護成本非常高,創(chuàng)業(yè)企業(yè)需要投入大量的資金到軟件和硬件維護上,而云技術(shù)、云存儲技術(shù)可以減輕大數(shù)據(jù)領(lǐng)域創(chuàng)業(yè)者的資金壓力,大大降低創(chuàng)業(yè)的門檻?,F(xiàn)在,1T字節(jié)的數(shù)據(jù)一年的存儲成本只需要幾百元。之前,由于數(shù)據(jù)的存儲成本較高,一些電商網(wǎng)站只記載交易數(shù)據(jù),交易之前的瀏覽數(shù)據(jù)是不保存的?,F(xiàn)在,隨著存儲成本的降低,很多這樣的數(shù)據(jù)被保留了下來,這些數(shù)據(jù)對商品的精準(zhǔn)營銷非常重要。
達觀數(shù)據(jù)的發(fā)展很快,上線3個月后,公司已經(jīng)與15家企業(yè)展開合作;成立1年之際,就獲得了國內(nèi)多家知名投資機構(gòu)的千萬級天使投資。2017年4月,達觀數(shù)據(jù)宣布完成了5 000萬元A輪融資。提到達觀數(shù)據(jù)為什么會有這么快的發(fā)展,陳運文表示,大數(shù)據(jù)領(lǐng)域的創(chuàng)業(yè),人才和技術(shù)是最重要的。一定要找到合適的人才,如果找不到,陳運文就選擇有潛力的員工用心培養(yǎng)。達觀數(shù)據(jù)的新員工一入職,陳運文都會要求他們參加算法競賽,在比賽中打磨算法能力,增強自信同時養(yǎng)成思考的習(xí)慣。
陳運文說:“中國現(xiàn)在有良好的創(chuàng)業(yè)氛圍,機會也很多,只要找到創(chuàng)新的大數(shù)據(jù)商業(yè)模式,創(chuàng)業(yè)公司發(fā)展前景非常廣闊。在一個領(lǐng)域要有所成就,其實只需要做好兩件事,一件是技術(shù),一件是服務(wù)。我國的很多企業(yè)缺少的不是技術(shù),而是針對每個用戶定制的、滿足需求的服務(wù)?!?/p>