大數(shù)據(jù)有大價(jià)值,但誰能把金子從數(shù)據(jù)金沙中淘出來?
1998年初,時(shí)任美國副總統(tǒng)戈?duì)柊l(fā)表了《數(shù)字地球——認(rèn)識二十一世紀(jì)的地球》,文中指出大量的數(shù)據(jù)并沒有得到充分處理,更沒有得到充分的使用?!拔覀冃枰粋€(gè)‘?dāng)?shù)字地球’,這是一個(gè)高分辨率三維空間的數(shù)據(jù)星球,與地球有關(guān)的龐大數(shù)據(jù)(幾十億億字節(jié))都可以存儲(chǔ)在里面”。
在文中,戈?duì)栔赋?,建造?shù)字地球需要大量的技術(shù)配合,如計(jì)算機(jī)科學(xué)、大容量儲(chǔ)存技術(shù)、衛(wèi)星遙測技術(shù)、寬頻帶網(wǎng)絡(luò)技術(shù)、網(wǎng)絡(luò)的可兼容性、超數(shù)據(jù)技術(shù)等。現(xiàn)在看來這位向來為美國信息工程搖旗吶喊的領(lǐng)頭羊,開始讓自己的“數(shù)字地球夢想成真。與之并肩的是,以美國為首的互聯(lián)網(wǎng)革命興起,帶來了全球互聯(lián)網(wǎng)經(jīng)濟(jì)的熱潮,21世紀(jì)第一個(gè)十年屬于互聯(lián)網(wǎng)。這樣的局面似乎有點(diǎn)出乎戈?duì)柕囊饬希?4年前的他大概也想象不到幾十億億字節(jié)(相當(dāng)于幾十億GB)的數(shù)據(jù)在今天已經(jīng)不是最大的數(shù)據(jù)極值。
時(shí)過境遷,“數(shù)字地球”的概念再度來到臺前。一篇名為《新一代數(shù)字地球》的文章發(fā)表在6月21日出版的《美國國家科學(xué)院院刊》上。由中國科學(xué)院遙感學(xué)家郭華東等共同撰寫的這篇論文對數(shù)字地球科學(xué)領(lǐng)域取得的進(jìn)展與數(shù)字地球內(nèi)涵進(jìn)行了解釋,并分析數(shù)字地球未來的前景。學(xué)界普遍認(rèn)為這是1998年以來數(shù)字地球發(fā)展的里程碑式論文,與戈?duì)柕奈恼逻b相呼應(yīng),跨域十年而形成對話關(guān)系。而這一概念的重提,則基于信息技術(shù)與信息需求的雙重推動(dòng),是大數(shù)據(jù)和數(shù)據(jù)密集型科學(xué)的問世加速了數(shù)字地球進(jìn)程。如今,數(shù)字地理信息領(lǐng)域已發(fā)生了深刻變化,技術(shù)進(jìn)步使得數(shù)字地球可視化及可操作化成為可能,但同時(shí)對數(shù)據(jù)的高效利用、信息的準(zhǔn)確表達(dá)、預(yù)測模型的發(fā)展、多種“可視”技術(shù)的應(yīng)用都提出新的要求。
數(shù)據(jù)之“大”
2011年10月咨詢公司麥肯錫發(fā)布題為《大數(shù)據(jù)的下一個(gè)前沿:創(chuàng)新、競爭和生產(chǎn)力》的報(bào)告,指出數(shù)據(jù)已經(jīng)滲透到每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運(yùn)用將預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來。
社交媒體的興起、數(shù)字傳感器的應(yīng)用以及移動(dòng)設(shè)備終端的普及,帶來了各種數(shù)據(jù)海量般快速產(chǎn)生,也使大數(shù)據(jù)時(shí)代從理論快速走向現(xiàn)實(shí)。目前,全球企業(yè)的數(shù)據(jù)量每年以55%的速度增長,現(xiàn)在只需兩天的時(shí)間就能產(chǎn)生過去有人類文明以來的所有數(shù)據(jù)總量。
數(shù)據(jù)量的爆炸式增長,已成共識,而如何才是大數(shù)據(jù),怎樣定義大數(shù)據(jù),業(yè)界并無統(tǒng)一看法。中國軟件網(wǎng)總經(jīng)理曹開彬此前對新浪科技表示,大數(shù)據(jù)其實(shí)是一種在互聯(lián)網(wǎng)時(shí)代或信息時(shí)代的企業(yè)現(xiàn)象,在這樣的時(shí)代,任何一個(gè)企業(yè),尤其是大型企業(yè)和互聯(lián)網(wǎng)企業(yè),會(huì)在經(jīng)營過程中產(chǎn)生大量的、各種各樣的數(shù)據(jù)。它有幾個(gè)典型特征:數(shù)據(jù)量大、數(shù)據(jù)類型復(fù)雜、處理速度要快。
維基百科上有人對大數(shù)據(jù)的獲取與處理方式提出了更高的標(biāo)準(zhǔn):“數(shù)據(jù)增長如此之快,以至于難以使用現(xiàn)有的數(shù)據(jù)庫管理工具來駕馭?!?/p>
大數(shù)據(jù)的特征可以歸納為4個(gè)V——Volume,Variety,Value,Velocity,即體量巨大,類型繁多,價(jià)值密度低,處理速度快。
IBM全球副總裁兼大中華區(qū)軟件集團(tuán)總經(jīng)理胡世忠向媒體表示,現(xiàn)在談大數(shù)據(jù)和當(dāng)初談云計(jì)算的時(shí)候差不多,很多人在關(guān)注、在探討,雖然對大數(shù)據(jù)時(shí)代的特點(diǎn)和發(fā)展走向看法不一,但沒有人否認(rèn)大數(shù)據(jù)時(shí)代已經(jīng)到來。
IBM全球CEO弗吉尼亞?羅睿蘭說,數(shù)據(jù)將是下一個(gè)大的自然資源,將會(huì)區(qū)分每個(gè)行業(yè)的勝者與輸家。
數(shù)據(jù)≠信息
Facebook這個(gè)擁有龐大網(wǎng)絡(luò)用戶數(shù)據(jù)的新公司,在5月18日的IPO卻被“數(shù)據(jù)”了一把。在上市當(dāng)天,全球機(jī)構(gòu)頻繁更改Facebook走勢的預(yù)測結(jié)果,卻最終敵不過Twitter的準(zhǔn)確率。
數(shù)據(jù)分析領(lǐng)域新星DataSift監(jiān)測了社交媒體平臺Twitter在5月18日的情緒變化與Facebook股價(jià)波動(dòng),并發(fā)現(xiàn)了兩者之間的關(guān)聯(lián)性。在Facebook開盤前,Twitter上網(wǎng)民的情緒逐漸轉(zhuǎn)向負(fù)面,25分鐘之后,F(xiàn)acebook的股價(jià)出現(xiàn)下跌;而當(dāng)Twitter上的情感轉(zhuǎn)向正面時(shí),8分鐘之后,F(xiàn)acebook股價(jià)開始反彈。最終,當(dāng)股市接近收盤時(shí),Twitter上的情感轉(zhuǎn)向負(fù)面,F(xiàn)acebook的股價(jià)又開始下跌。
這并不是DataSift的首創(chuàng),此前已有根據(jù)網(wǎng)民意愿監(jiān)測結(jié)果選擇股票買賣的案例。在海量數(shù)據(jù)中發(fā)掘有效信息,將成為企業(yè)競爭力的關(guān)鍵。
索尼公司的教訓(xùn)似乎也能反證出數(shù)據(jù)的重要性。根據(jù)索尼的公告,2011財(cái)年(截至2012年3月31日)預(yù)計(jì)凈虧損5200億日元(約合64億美元),創(chuàng)公司成立以來最高虧損紀(jì)錄。索尼公司前首席執(zhí)行官出井伸之說,新一代基于互聯(lián)網(wǎng)基因的企業(yè)的核心能力,是利用新模式和新技術(shù),更貼近消費(fèi)者,更深刻理解需求,高效分析信息并作出判斷,而像索尼這樣傳統(tǒng)的產(chǎn)品公司,僅僅只是在自己營造的理想國里造產(chǎn)品,無視用戶數(shù)據(jù)的反饋和分析,最終只能淪為二三流公司。
更多的公司和機(jī)構(gòu)已經(jīng)意識到大數(shù)據(jù)的重要性。華大基因研究院是一家致力于生命科學(xué)研究的生物科技公司,曾經(jīng)承擔(dān)過國際人類單體型圖計(jì)劃(10%)、水稻基因組計(jì)劃、家蠶基因組計(jì)劃、家雞基因組計(jì)劃、抗SARS研究等重大科研課題。華大基因研究院院長汪建向本刊記者透露,華大有一支專業(yè)的團(tuán)隊(duì)致力于數(shù)據(jù)庫建設(shè)和基于Web應(yīng)用開發(fā)。最早人類基因測序需要一年的時(shí)間,費(fèi)用也以百萬美元計(jì)。汪建的目標(biāo)是讓越來越多的人有能力為基因測序付費(fèi),從而將疾病的隱患發(fā)現(xiàn)在根源,提高生命的質(zhì)量。而費(fèi)用降低的前提是基因測序的計(jì)算水平的提升與數(shù)據(jù)分析能力的完善。
深圳光啟高等理工研究院院長劉若鵬告訴本刊記者,2012年光啟開啟了超材料產(chǎn)業(yè)元年。光啟的首款超材料產(chǎn)品——衛(wèi)星接收薄膜板的中試線已經(jīng)投產(chǎn)。超材料從十年前的科學(xué)理論概念到初步應(yīng)用,依靠的是以億為單位的大規(guī)模的數(shù)據(jù)計(jì)算與分析能力。
麥肯錫全球研究機(jī)構(gòu)在2011年5月發(fā)布的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》中提出,充分利用大數(shù)據(jù)可幫助全球個(gè)人定位服務(wù)提供商增加1000億美元的收入、幫助歐洲公共部門的管理每年提升2500億美元產(chǎn)值、幫助美國醫(yī)療保健行業(yè)每年提升3000億美元產(chǎn)值,并可幫助美國零售業(yè)獲得60%以上的凈利潤增長。
不僅僅是商業(yè)機(jī)構(gòu)發(fā)現(xiàn)大數(shù)據(jù)中的大生意,政府部門同樣需要大數(shù)據(jù)來完善公共服務(wù)。美國最大的數(shù)據(jù)庫之一——NOAA海嘯研究中心,曾經(jīng)在日本311之后公開表態(tài):“雖然預(yù)警系統(tǒng)發(fā)揮了很大價(jià)值,但是還沒有快到足以幫助到日本仙臺沿海的居民及時(shí)躲避海嘯”。如果更夠獲得更多的數(shù)據(jù)和更強(qiáng)的分析能力,海嘯的預(yù)警可以在更短的時(shí)間內(nèi)發(fā)現(xiàn)并發(fā)出,避免人員傷亡。
IT業(yè)的機(jī)會(huì)
寶德科技集團(tuán)副總裁丘文桂在接受本刊記者采訪時(shí)表示,“大數(shù)據(jù)時(shí)代已經(jīng)以不可阻擋之勢到來,未來的十年將是一個(gè)‘大數(shù)據(jù)’引領(lǐng)的智慧科技的時(shí)代。在Web2.0時(shí)代,大數(shù)據(jù)應(yīng)該是以個(gè)人為核心,圍繞人的關(guān)系生產(chǎn)、交換信息,從而產(chǎn)生的巨大信息爆炸,數(shù)據(jù)不再以幾個(gè)GB或幾個(gè)TB為單位來衡量,而是以PB(1000個(gè)T)、EB(一百萬個(gè)T)或ZB(10億個(gè)T)為計(jì)量單位,也非以前的結(jié)構(gòu)化數(shù)據(jù),而是以文本、圖片、音頻/視頻等非結(jié)構(gòu)化數(shù)據(jù)為主?!?/p>
IT界的大佬已經(jīng)意識到大數(shù)據(jù)是未來世界的新藍(lán)海。
2010年,EMC收購大數(shù)據(jù)公司Greenplum,并推出“數(shù)據(jù)星球”戰(zhàn)略。
2011年,惠普耗費(fèi)104億美元收購英國軟件公司Automony,專注從事語義分析,意在擴(kuò)大商業(yè)分析軟件的市場份額。Autonomy也不負(fù)眾望,擁有通過獨(dú)有的算法提取出非結(jié)構(gòu)化信息中含義的技術(shù)。
2011年,Teradata先后收購了云計(jì)算軟件公司Aprimo及高級分析和管理各種非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域的AsterData公司。
5月8日,Aprimo收購了基于云的數(shù)字營銷歐洲廠商eCircle。
率先從PC中脫身轉(zhuǎn)而專注企業(yè)級用戶市場的IBM,過去五年中完成了20多筆與數(shù)據(jù)分析相關(guān)的收購業(yè)務(wù)。就在2010年,這個(gè)藍(lán)巨人先后收購了從事數(shù)據(jù)庫分析的Netezza公司和提供網(wǎng)絡(luò)分析軟件的Coremetrics。
胡世忠透露,從2005年至今,IBM已收購了28家公司,并不斷拓展其生態(tài)系統(tǒng)。生態(tài)系統(tǒng)的逐步完善,帶來了商務(wù)分析業(yè)務(wù)的快速增長。據(jù)IBM預(yù)計(jì),到2015年,IBM商務(wù)分析業(yè)務(wù)的收入有望達(dá)到160億美元。
國外打得熱鬧,國內(nèi)的IT企業(yè)不甘示弱。寶德科技集團(tuán)副總裁丘文桂說:“近兩年來,包括存儲(chǔ)廠商和軟件廠商,在追捧‘大數(shù)據(jù)’的概念。寶德一直在關(guān)注業(yè)界的發(fā)展動(dòng)態(tài)。為了應(yīng)對“大數(shù)據(jù)”的到來,寶德在云存儲(chǔ)管理系統(tǒng)和BI數(shù)據(jù)挖掘與優(yōu)化和大數(shù)據(jù)塊存儲(chǔ)等方面下了打功夫。寶德旗下寶軟與華東理工大學(xué)在云存儲(chǔ)平臺和物聯(lián)網(wǎng)技術(shù)方面結(jié)成產(chǎn)學(xué)研聯(lián)盟,針對相關(guān)技術(shù)難點(diǎn)課題,利用高校雄厚的研究人才儲(chǔ)備,開展緊密合作,建立寶德特有的數(shù)據(jù)管理技術(shù)優(yōu)勢。同時(shí)寶德也在尋找市場上大數(shù)據(jù)分析領(lǐng)域的優(yōu)秀公司和團(tuán)隊(duì),準(zhǔn)備開展投資合作甚至是產(chǎn)業(yè)收購,進(jìn)一步加強(qiáng)并拓展寶德在大數(shù)據(jù)市場的能力。”
對善于發(fā)現(xiàn)市場機(jī)遇和開拓企業(yè)市場的IT企業(yè)來說,大數(shù)據(jù)是一座新的待挖“金礦”,也許,是一個(gè)新時(shí)代。
營銷魔法
凡客誠品僅用了4年時(shí)間便站在行業(yè)的金字塔尖。它的迅速崛起被電商同行與媒體做出了各種解讀,病毒式營銷、廣告轟炸、29塊錢純棉T恤,也有人將其稱為一次攪混水的胡來。不過,凡客誠品更重要的一次舉措是2011年提出實(shí)現(xiàn)互聯(lián)網(wǎng)的系統(tǒng)化和數(shù)字化的管理,成立數(shù)據(jù)中心。CEO陳年對《商業(yè)價(jià)值》雜志記者表示,“現(xiàn)在的凡客是一家數(shù)據(jù)公司?!?/p>
數(shù)據(jù)中心從最簡單的庫存數(shù)量監(jiān)控到流程管理,再到數(shù)據(jù)之間的配合與管理,從數(shù)據(jù)關(guān)聯(lián)研究中發(fā)掘用戶需求與偏好,實(shí)現(xiàn)數(shù)字營銷。
寶德科技集團(tuán)副總裁丘文桂告訴本刊記者:“大數(shù)據(jù)本身并沒有什么價(jià)值,基于大數(shù)據(jù)的處理和分析才能為企業(yè)帶來巨大的商業(yè)附加值。面對激烈的市場競爭,越來越多的企業(yè)逐漸意識到數(shù)據(jù)已經(jīng)成為新的生產(chǎn)資料,擁有數(shù)據(jù)并正確使用數(shù)據(jù)將會(huì)成為企業(yè)成功的核心競爭力,大數(shù)據(jù)如何轉(zhuǎn)化為財(cái)富將成為大數(shù)據(jù)時(shí)代一個(gè)持久的研究課題,成為一種基本上與資本及勞動(dòng)力一樣重要的經(jīng)濟(jì)投入。”
耐克的數(shù)字營銷比陳年更多了幾分時(shí)尚氣息。SOHO中國董事長潘石屹每天跑步之后,將自己的公里數(shù)與熱量值發(fā)在微博上與粉絲分享。這個(gè)計(jì)算軟件就是nike+。這僅僅是耐克數(shù)字營銷的案例之一。NikeID業(yè)務(wù)允許消費(fèi)者基于耐克的一些已有產(chǎn)品進(jìn)行個(gè)性化的改造,選擇自己喜歡的顏色搭配、面料,甚至繡上自己的名字縮寫等,完成自己的設(shè)計(jì)后,Nike就能為消費(fèi)者量身打造一款獨(dú)一無二的運(yùn)動(dòng)鞋。在此過程中,數(shù)據(jù)的搜集、整理又為下一雙運(yùn)動(dòng)鞋提供了參考。
種種跡象表明,消費(fèi)品公司的營銷方式在發(fā)生劇烈的改變。它們已經(jīng)利用數(shù)據(jù)和顧客直接發(fā)生關(guān)系,掌握客戶數(shù)據(jù),準(zhǔn)確把握消費(fèi)者的需求,更有效地黏住他們。
制約因素
世界生產(chǎn)力的發(fā)展史就是一部科學(xué)發(fā)現(xiàn)、技術(shù)進(jìn)步和產(chǎn)業(yè)突破的相互作用史。
非結(jié)構(gòu)化數(shù)據(jù)的涌現(xiàn)與數(shù)據(jù)分析需求,將是大數(shù)據(jù)的重要契機(jī)。數(shù)據(jù)的體量與結(jié)構(gòu)的改變,也意味著分析處理方式與技術(shù)的更張,采用傳統(tǒng)的數(shù)據(jù)管理方式將被不會(huì)被市場認(rèn)可。
寶德科技集團(tuán)副總裁丘文桂表示,“大數(shù)據(jù)有大價(jià)值,但能否把金子從數(shù)據(jù)金沙中淘出來,有兩點(diǎn)最關(guān)鍵:一是深刻的洞察力,對行業(yè)需求的理解,對行業(yè)發(fā)展趨勢的預(yù)判;二是大數(shù)據(jù)挖掘技術(shù)與云計(jì)算平臺上的實(shí)現(xiàn)?!?/p>
日立數(shù)據(jù)系統(tǒng)副總裁莊國光預(yù)計(jì),5年以后大數(shù)據(jù)的發(fā)展趨勢可能才會(huì)越來越利害。制約大數(shù)據(jù)發(fā)展的因素主要有兩個(gè):第一,能夠發(fā)掘大數(shù)據(jù)的技術(shù)還沒有成熟;第二,成本太高,做大數(shù)據(jù)的時(shí)候,存儲(chǔ)應(yīng)該非常便宜,雖然存儲(chǔ)比很多年前便宜很多,但還是很高。
值得關(guān)注的是,奧巴馬政府已經(jīng)把“大數(shù)據(jù)”上升到了國家戰(zhàn)略的層面。根據(jù)美國白宮今年3月29日新聞,奧巴馬政府宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”。希望增強(qiáng)收集海量數(shù)據(jù)、分析萃取信息的能力。這是1993年時(shí)任美國副總統(tǒng)戈?duì)栃嫉摹靶畔⒏咚俟贰庇?jì)劃后美國政府政策層面的一次“狂飆突進(jìn)”,將“大數(shù)據(jù)”上升到國家意志,給下一個(gè)十年帶來深遠(yuǎn)影響。
據(jù)麥肯錫旗下研究部門麥肯錫全球?qū)W會(huì)去年發(fā)布的一份報(bào)告顯示,預(yù)計(jì)美國需要14萬名到19萬名擁有“深度分析”專長的工作者,以及150萬名更加精通數(shù)據(jù)的經(jīng)理人。
相比之下,中國政府的扶持政策顯得更加曖昧。我國“十二五”長遠(yuǎn)規(guī)劃中提出重點(diǎn)培育物聯(lián)網(wǎng)產(chǎn)業(yè),并設(shè)立了首批智慧城市,但并未提出大數(shù)據(jù)概念。不過,在物聯(lián)網(wǎng)發(fā)展規(guī)劃中提出“重點(diǎn)支持適用于物聯(lián)網(wǎng)的海量信息存儲(chǔ)和處理,以及數(shù)據(jù)挖掘、圖像視頻智能分析等技術(shù)的研究”,也算是對“大數(shù)據(jù)”的補(bǔ)充說明。