大數(shù)據(jù)以其“淺顯易懂”的概念和巨大的應用前景,正成為繼云計算、物聯(lián)網(wǎng)之后信息技術(shù)領域的又一熱點。為把握大數(shù)據(jù)帶來的新機遇,需要全面深入地理解大數(shù)據(jù),并在此基礎上推動大數(shù)據(jù)發(fā)展與應用。
大數(shù)據(jù)在當前為何受到前所未有的重視
大數(shù)據(jù)的概念并非近期才出現(xiàn)。20世紀90年代初,數(shù)據(jù)倉庫之父比爾·恩門就對此津津樂道。2005年,約翰·韋伯斯特和克里斯·斯塔庫提斯聯(lián)合撰寫的書籍《無所不包的數(shù)據(jù)》中,講述了大規(guī)模收集數(shù)據(jù)如何改變企業(yè)的業(yè)務和人們的生活。但受限于當時的信息技術(shù)水平,大數(shù)據(jù)的理念未能真正落地。之所以大數(shù)據(jù)在當前受到前所未有的重視,歸納起來有三方面原因。
首先,大數(shù)據(jù)已成為一種普遍現(xiàn)象。全球的數(shù)據(jù)總量正呈指數(shù)增長,過去3年間產(chǎn)生的數(shù)據(jù)量超過以往總和。2011年,全球被創(chuàng)建和被復制的數(shù)據(jù)總量達1.8ZB;預計2020年將增至35.2ZB。同時,企業(yè)級用戶的數(shù)據(jù)擁有量快速增長,搜索引擎企業(yè)百度擁有的數(shù)據(jù)總量已達到100PB,每天要處理30PB的數(shù)據(jù)量;電子商務網(wǎng)站淘寶每天的活躍數(shù)據(jù)量已經(jīng)超過50TB。隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等的迅速發(fā)展,新的數(shù)據(jù)源將不斷出現(xiàn),GPS、傳感器等數(shù)據(jù)會持續(xù)、大量產(chǎn)生。而數(shù)據(jù)產(chǎn)生成本、獲取成本、存儲成本和處理成本的下降,也推動了數(shù)據(jù)體量的膨脹。
其次,發(fā)展大數(shù)據(jù)已成為經(jīng)濟增長的重要途徑。麥肯錫全球研究院于2011年6月發(fā)布題為《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》的研究報告,提出“大數(shù)據(jù)時代已經(jīng)到來”,并指出,數(shù)據(jù)正成為與物質(zhì)資產(chǎn)和人力資本相提并論的重要生產(chǎn)要素,大數(shù)據(jù)的使用將成為未來提高競爭力、生產(chǎn)力、創(chuàng)新能力以及創(chuàng)造消費者盈余的關(guān)鍵要素,成為領軍企業(yè)與其他企業(yè)之間最顯著的差別。與之相呼應,各類企業(yè)也越來越重視對規(guī)?;瘮?shù)據(jù)的分析和使用。電信、金融等行業(yè)已經(jīng)達到“數(shù)據(jù)就是業(yè)務本身”的發(fā)展階段;社交媒體、電子商務、云計算、物聯(lián)網(wǎng)等新應用的興起,要求企業(yè)不能再僅對價值鏈單個環(huán)節(jié)的數(shù)據(jù)進行分析。這種情況下,企業(yè)用戶迫切需要借助大數(shù)據(jù)戰(zhàn)略,更為全面地了解運營情況及運營環(huán)境,獲得更多經(jīng)濟價值。
第三,發(fā)展大數(shù)據(jù)已成為國家發(fā)展的重要戰(zhàn)略。2012年3月,美國奧巴馬政府宣布“大數(shù)據(jù)的研究和發(fā)展計劃”,涉及6個聯(lián)邦政府部門,承諾投資超過2億美元。如此興師動眾,是因為美國政府認為大數(shù)據(jù)技術(shù)事關(guān)美國國家安全、科學和研究的步伐。美國對大數(shù)據(jù)的重視引發(fā)了世界各國的廣泛關(guān)注,各國均認為,未來國家層面的競爭力將部分體現(xiàn)為一國擁有數(shù)據(jù)的規(guī)模、活性以及解釋、運用的能力,數(shù)字主權(quán)將成為繼邊防、海防、空防之后另一個大國博弈的空間。美國奧巴馬政府宣布投資大數(shù)據(jù)領域,是大數(shù)據(jù)從商業(yè)行為上升到國家戰(zhàn)略的分水嶺,表明大數(shù)據(jù)正式提升到戰(zhàn)略層面,大數(shù)據(jù)在經(jīng)濟社會各個層面、各個領域都開始受到重視。
大數(shù)據(jù)的內(nèi)涵應當是數(shù)據(jù)、技術(shù)與應用三者的統(tǒng)一
盡管“大數(shù)據(jù)”一詞已被廣泛使用和討論,但目前尚無統(tǒng)一的定義,不同廠商、不同用戶,所處角度不同,對大數(shù)據(jù)的理解也不一樣。全面來看,大數(shù)據(jù)應當是數(shù)據(jù)、技術(shù)與應用三者的統(tǒng)一。
其一,從對象角度看,大數(shù)據(jù)是大小超出傳統(tǒng)軟硬件采集、儲存、管理和分析等能力的數(shù)據(jù)集合。大規(guī)模的數(shù)據(jù)集合是大數(shù)據(jù)分析的對象和基礎,正是由于使用常規(guī)的軟硬件技術(shù)和產(chǎn)品無法對大數(shù)據(jù)進行全面處理,所以必須采用新技術(shù)。但同時,大數(shù)據(jù)也是一個相對的概念,沒有一個嚴格的標準限定多大規(guī)模的數(shù)據(jù)集合才稱得上是大數(shù)據(jù)。事實上,隨著時間推移和數(shù)據(jù)管理與處理技術(shù)的進步,符合大數(shù)據(jù)標準的數(shù)據(jù)集合的規(guī)模也在并將繼續(xù)增長。而對于不同行業(yè)領域和不同應用而言,“大數(shù)據(jù)”的規(guī)模也不統(tǒng)一。這就要求不能簡單地用PB、EB等規(guī)模標準去衡量大數(shù)據(jù)。
其二,從技術(shù)角度看,大數(shù)據(jù)技術(shù)是從各種各樣類型的大數(shù)據(jù)中,快速獲得有價值信息的技術(shù)及其集成。“大數(shù)據(jù)”與“大規(guī)模數(shù)據(jù)”、“海量數(shù)據(jù)”等類似概念間的重要區(qū)別之一,就在于“大數(shù)據(jù)”這一概念中包含著對數(shù)據(jù)對象的處理行為。為能從大數(shù)據(jù)對象中快速挖掘更多有價值的信息,使大數(shù)據(jù)對象“活起來”,就需要綜合運用先進的、多學科的技術(shù)方法,包括數(shù)據(jù)分析、數(shù)據(jù)挖掘、分布式處理等,而這就需要擁有對各類技術(shù)、各類軟硬件的集成應用能力。可見,大數(shù)據(jù)技術(shù)是使大數(shù)據(jù)中所蘊含的價值得以發(fā)掘和展現(xiàn)的重要工具。
其三,從應用角度看,大數(shù)據(jù)是對特定的大數(shù)據(jù)集合,集成應用大數(shù)據(jù)技術(shù),獲得有價值信息的行為。一方面,“大數(shù)據(jù)”本身和“數(shù)據(jù)挖掘”、“智能分析”等技術(shù)都已存在較長時間,所以大數(shù)據(jù)成為當前熱點,就在于各個行業(yè)領域具有了對大數(shù)據(jù)分析和利用的巨大現(xiàn)實需求和具體應用需求。如果不與具體應用相聯(lián)系,大數(shù)據(jù)的作用和價值就無從談起。另一方面,由于業(yè)務需求存在差異,對于不同領域、不同業(yè)務,甚至同一領域不同企業(yè)的相同業(yè)務來說,由于數(shù)據(jù)集合和分析挖掘目標存在差異,所運用的大數(shù)據(jù)技術(shù)和大數(shù)據(jù)分析處理系統(tǒng)也可能存在相當大不同。正由于與具體應用緊密聯(lián)系,甚至是一對一的聯(lián)系,才使“應用”成為大數(shù)據(jù)不可或缺的內(nèi)涵之一。
可見,對象、技術(shù)與應用是相互關(guān)聯(lián)、互為支撐的,忽視了任何一個,大數(shù)據(jù)的價值就無法充分發(fā)揮。
國內(nèi)大數(shù)據(jù)領域已顯示出或多或少的“泡沫”
在各界的加倍關(guān)注中,國內(nèi)大數(shù)據(jù)領域的明顯進展未現(xiàn),卻已經(jīng)顯示出或多或少的“泡沫”。借大數(shù)據(jù)之名圈錢、圈地或進行重復建設的苗頭已然出現(xiàn)。這種情況下,需要清醒認識大數(shù)據(jù)發(fā)展與應用的重點。
第一,大數(shù)據(jù)發(fā)展的重點在于對數(shù)據(jù)對象的分析與應用。有專家建言,建設大規(guī)模數(shù)據(jù)中心,開展數(shù)據(jù)存儲業(yè)務,就是發(fā)展大數(shù)據(jù)產(chǎn)業(yè);也有機構(gòu)提出發(fā)展大數(shù)據(jù)必須重點加強基礎設施建設。這些觀點都偏離了大數(shù)據(jù)的本意。
從根本上看,“大數(shù)據(jù)”并非一個科學、嚴格的概念,它來自于對數(shù)據(jù)規(guī)模的爆炸性增長這一現(xiàn)象的歸納。但在“海量數(shù)據(jù)”、“大規(guī)模數(shù)據(jù)”等概念已經(jīng)存在的前提下,之所以還要提出新的概念,就是因為需要將對數(shù)據(jù)對象的處理和應用包含進來。再者,就數(shù)據(jù)的整個生命周期看,大數(shù)據(jù)的重點不在于對數(shù)據(jù)的傳輸、收集、存儲,而是重在對數(shù)據(jù)的分析挖掘,并由此獲得憑直覺難以發(fā)現(xiàn)的有用信息。可見,不盲目追求數(shù)據(jù)掌握量,而是將重點放在數(shù)據(jù)的分析挖掘與應用上,才能最大程度地實現(xiàn)大數(shù)據(jù)的真正價值。
第二,大數(shù)據(jù)對象的重點在于獲取與使用。若僅就大數(shù)據(jù)對象而言,有專業(yè)機構(gòu)提出,應做好源數(shù)據(jù)集合的建設。這種觀點有一定道理,但也不完全正確。例如,要想運用大數(shù)據(jù)手段實現(xiàn)智能交通,需要有城市的道路規(guī)劃、車輛、停車場等數(shù)據(jù),這些數(shù)據(jù)多由政府部門所掌握,對相應數(shù)據(jù)庫確實需要加強建設。但是,要想根據(jù)實際情況實時、靈活地管理交通,還必須隨時跟蹤和整理道路流量數(shù)據(jù)、停車場容量數(shù)據(jù)、天氣數(shù)據(jù)、道路事故信息等,而這些數(shù)據(jù),不僅可以來自于交管等政府部門,還能夠通過微博、微信等渠道獲取,甚至很多時候從微博上獲取信息要比從管理部門更加迅速。而眾所周知,微博等信息源是開放式的,任何部門都無法“擁有”這些數(shù)據(jù),惟一能做的就是盡力抓取,盡快收集整理。
通過類似的事例可以發(fā)現(xiàn),由微博、社交網(wǎng)絡、搜索引擎等公開來源動態(tài)、實時獲取的“外部數(shù)據(jù)”能夠讓數(shù)據(jù)使用部門所掌握的內(nèi)部數(shù)據(jù)發(fā)揮更大價值。因此,對于大數(shù)據(jù)所涉及的數(shù)據(jù)對象,必須分類對待。對政府部門、公共服務機構(gòu)、企業(yè)等所掌握和持續(xù)更新的數(shù)據(jù),需要加強建設,作為大數(shù)據(jù)應用的基礎。但同時,必須重視微博、微信、社交網(wǎng)絡、搜索引擎等新興數(shù)據(jù)源,做好對相關(guān)數(shù)據(jù)的跟蹤、抓取、整理和應用。
第三,大數(shù)據(jù)作用的重點在于啟發(fā)與輔助決策。社會關(guān)注大數(shù)據(jù),是期望能夠由其帶來經(jīng)濟社會方面的收益,但同時,不應也不能苛求大數(shù)據(jù)分析結(jié)果的完全準確,更不能因為其不完全準確而否定其重要作用。
從數(shù)據(jù)對象看,大數(shù)據(jù)涉及微博數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、搜索引擎數(shù)據(jù)等,其中不可避免地包括錯誤數(shù)據(jù)和無用數(shù)據(jù)。雖然能夠通過一定的數(shù)據(jù)清洗、數(shù)據(jù)過濾手段去篩選,但也無法完全確保其真實性和準確性。這是客觀存在的事實。
從分析結(jié)果看,大數(shù)據(jù)所完成的是數(shù)據(jù)與數(shù)據(jù)之間關(guān)聯(lián)規(guī)則的發(fā)現(xiàn),而非對規(guī)則的論證,它對研究人員、對決策者的價值,在于能夠引導和啟發(fā)大數(shù)據(jù)應用者的創(chuàng)新思維,輔助決策。簡單點說,若是處理一個問題,通常人能夠想到一種方法,而大數(shù)據(jù)能夠提供十種參考方法,哪怕其中只有三種可行,也將解決問題的思路拓展了三倍。正如淘寶網(wǎng)給用戶提供的產(chǎn)品推薦,不一定完全準確,但可以幫助用戶更方便地選擇商品一樣。
大數(shù)據(jù)發(fā)展的策略
大數(shù)據(jù)領域的革新,標志著國家、行業(yè)、企業(yè)對于數(shù)據(jù)的應用需求和應用水平都在進入新的發(fā)展階段。面對我國“大國、大市場”所天然具有的對大數(shù)據(jù)的分析應用需求,我們需要將大數(shù)據(jù)作為新一輪科技競爭和產(chǎn)業(yè)競爭的戰(zhàn)略重點和制高點,順應社會應用需求和產(chǎn)業(yè)發(fā)展趨勢,加快大數(shù)據(jù)應用示范,推動經(jīng)濟社會各領域的大數(shù)據(jù)開發(fā)與利用。
一是選擇百度、阿里巴巴、騰訊等擁有豐富數(shù)據(jù)資源和技術(shù)優(yōu)勢的互聯(lián)網(wǎng)信息服務企業(yè),開展大數(shù)據(jù)挖掘、分析、應用,并以之為基礎面向公眾提供各種類型的信息服務。支持互聯(lián)網(wǎng)信息服務企業(yè)與專門的數(shù)據(jù)服務機構(gòu)、企業(yè)合作,開展對互聯(lián)網(wǎng)上的公開源數(shù)據(jù)的初步分析整理,開放數(shù)據(jù)整理與數(shù)據(jù)初步挖掘成果,促進各領域大數(shù)據(jù)的應用。
二是結(jié)合智慧城市建設,以政府和醫(yī)療衛(wèi)生、文化教育、交通運輸、公共安全等社會服務機構(gòu)為切入點,加速各部門、各領域信息資源的融合共享,并接入微博、微信、社交網(wǎng)絡等公開信息,為智慧城市各個領域提供強大決策支持,強化社會管理與服務的科學性和前瞻性。例如,通過對城市地理信息和經(jīng)濟、社會、文化、人口等人文社會信息的挖掘,為城市規(guī)劃提供輔助;通過對城市道路、車輛信息和實時道路交通信息的挖掘,支持交通管理,緩解交通擁堵;通過對自然災害歷史信息和實時天氣信息的挖掘,提高對自然災害的安全防范能力和應急處理能力。
三是選擇能源、金融、電信、交通、商業(yè)零售、工業(yè)制造、現(xiàn)代農(nóng)業(yè)等領域的重點企業(yè)或機構(gòu),鼓勵其基于企業(yè)積累的數(shù)據(jù)進行挖掘,為企業(yè)戰(zhàn)略制定提供幫助,提高經(jīng)營決策水平和業(yè)務效率,提升創(chuàng)新能力和服務質(zhì)量,降低運營成本。例如,零售企業(yè)可通過對數(shù)據(jù)的實時分析掌握市場動態(tài)并迅速做出應對,通過精準營銷增加營業(yè)收入;工業(yè)制造企業(yè)可通過整合來自研發(fā)、工程和制造部門的數(shù)據(jù),實行并行工程,顯著縮短產(chǎn)品上市時間并提高質(zhì)量。各類企業(yè)還可從產(chǎn)品開發(fā)、生產(chǎn)和銷售的歷史大數(shù)據(jù)中找到創(chuàng)新的源泉,從客戶和消費者的大數(shù)據(jù)中尋找新的合作伙伴,以及從售后反饋大數(shù)據(jù)中發(fā)現(xiàn)額外的增值服務,從而改善現(xiàn)有產(chǎn)品和服務,創(chuàng)新業(yè)務模式。
(作者為工業(yè)和信息化部賽迪智庫軟件與信息服務業(yè)研究所所長)
責編/袁靜 美編/李祥峰