鄔賀銓
關(guān)于大數(shù)據(jù)的定義有很多提法,維基百科給出的定義是:“大數(shù)據(jù)是指無法在容許的時(shí)間內(nèi)用常規(guī)軟件工具對(duì)其內(nèi)容進(jìn)行抓取、處理和管理的數(shù)據(jù)集合。大數(shù)據(jù)規(guī)模的標(biāo)準(zhǔn)是持續(xù)變化的,當(dāng)前泛指單一數(shù)據(jù)集的大小在幾十TB和數(shù)PB之間”。這是一個(gè)大眾化的定義。這可能收到了大數(shù)據(jù)英文詞“Big Data”中的“Big”的誤導(dǎo)。
作者認(rèn)為,大數(shù)據(jù)的價(jià)值不僅僅在于數(shù)據(jù)大,不是說數(shù)據(jù)量越大越好,數(shù)據(jù)大與價(jià)值大未必成正比。例如將一個(gè)人每分鐘的身體數(shù)據(jù)記錄下來,對(duì)了解該人的身體狀況是有用的,但如果將他的每毫秒的身體數(shù)據(jù)都記錄下來,數(shù)據(jù)量將較前者高6萬倍,與按分鐘記錄的數(shù)據(jù)相比,其價(jià)值并不一定增加。另外,大數(shù)據(jù)的價(jià)值在于樣本數(shù)的普遍性,如果統(tǒng)計(jì)一個(gè)人每分鐘的身體狀況數(shù)據(jù)與統(tǒng)計(jì)60個(gè)人每小時(shí)的身體狀況數(shù)據(jù)相比,數(shù)據(jù)量是相等的,但后者在統(tǒng)計(jì)上更有意義。
其次,大數(shù)據(jù)往往是低價(jià)值密度,大數(shù)據(jù)的價(jià)值絕對(duì)值可能是大的,可是相對(duì)值是低的,大數(shù)據(jù)中多數(shù)數(shù)據(jù)可能是重復(fù)的或?qū)ξ覀冴P(guān)注的問題沒有意義,忽略其中一些數(shù)據(jù)并不影響對(duì)其挖掘的結(jié)果。因此可以說大數(shù)據(jù)的價(jià)值挖掘是從沙里淘金和海里撈針。
值得關(guān)注的是,實(shí)際上對(duì)中小數(shù)據(jù)的挖掘同樣值得重視。北京公交一卡通每天刷卡四千萬次,地鐵一千萬人次,這在全世界都是最多的了,這些數(shù)據(jù)累計(jì)一年下來也不到TB,它的級(jí)別充其量就是中數(shù)據(jù)。但是它對(duì)優(yōu)化北京公交線路的設(shè)置有足夠的價(jià)值。微軟的研究發(fā)現(xiàn),F(xiàn)acebook 中90%的Hadoop任務(wù)數(shù)據(jù)集在100GB以下,Yahoo的任務(wù)數(shù)據(jù)集平均為12.5GB,它們都?jí)虿簧洗髷?shù)據(jù)的規(guī)模。事實(shí)上小數(shù)據(jù)也值得重視,對(duì)未到TB級(jí)規(guī)模的數(shù)據(jù)的挖掘也有價(jià)值,因此,研究大數(shù)據(jù)不要被“Big”這個(gè)詞誤導(dǎo)。
大數(shù)據(jù)這個(gè)詞現(xiàn)在過分突出“大”了,“大”僅僅是大數(shù)據(jù)的四個(gè)特征之一,它另外的三個(gè)特征是變化快、類型多、蘊(yùn)含的價(jià)值高。
數(shù)據(jù)大并非大數(shù)據(jù)的主要挑戰(zhàn)。大數(shù)據(jù)的量越大,處理難度越大,但僅僅是量的變化,只是需要更多的服務(wù)器,或者說需要更高速的服務(wù)器。大數(shù)據(jù)挖掘的難處在于其變化快、類型多,其價(jià)值不容易挖掘才顯得其珍貴。
大數(shù)據(jù)挖掘的挑戰(zhàn)之一是實(shí)時(shí)性,實(shí)時(shí)性的數(shù)據(jù)變化很快,而且不斷地產(chǎn)生新的數(shù)據(jù),源源不絕。對(duì)于靜態(tài)的數(shù)據(jù)可以將數(shù)據(jù)帶進(jìn)程序來處理,對(duì)于動(dòng)態(tài)數(shù)據(jù)則要將程序帶進(jìn)數(shù)據(jù)來處理。
大數(shù)據(jù)挖掘的另一挑戰(zhàn)是結(jié)構(gòu)多樣性,特別是非結(jié)構(gòu)化。大數(shù)據(jù)分結(jié)構(gòu)性、半結(jié)構(gòu)性和非結(jié)構(gòu)性,文本數(shù)據(jù)是結(jié)構(gòu)性的,可以用關(guān)系數(shù)據(jù)庫來表示,圖片、視頻是非結(jié)構(gòu)性數(shù)據(jù)。目前大量的數(shù)據(jù)文件是文本數(shù)據(jù),但從數(shù)據(jù)量來看,非結(jié)構(gòu)數(shù)據(jù)占總量90%以上。針對(duì)結(jié)構(gòu)化數(shù)據(jù)的虛擬存儲(chǔ)平臺(tái)采用了動(dòng)態(tài)分層技術(shù),根據(jù)數(shù)據(jù)被調(diào)用的頻率,自動(dòng)將常用的數(shù)據(jù)搬到最高層。針對(duì)非結(jié)構(gòu)化數(shù)據(jù)使用內(nèi)容歸檔平臺(tái),把結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)集成到一個(gè)單一的動(dòng)態(tài)歸檔架構(gòu)中,設(shè)計(jì)了一套軟件和元數(shù)據(jù)建庫規(guī)則,通過給數(shù)據(jù)加標(biāo)簽的方式,建立不同維度,從而具有模糊查詢功能。對(duì)于數(shù)據(jù)結(jié)構(gòu)能很好定義而且問題已知的數(shù)據(jù),容易提出預(yù)測(cè)報(bào)告,對(duì)于問題未知的數(shù)據(jù)也可以用多維分析方法來處理,對(duì)于問題已知但結(jié)構(gòu)可變的數(shù)據(jù),需要用統(tǒng)計(jì)分析,對(duì)于問題未知且結(jié)構(gòu)可變的數(shù)據(jù),用常規(guī)的軟件在容許的時(shí)間內(nèi)就難分析了,需要用到大數(shù)據(jù)分析技術(shù)。
傳統(tǒng)的數(shù)據(jù)平臺(tái)在大數(shù)據(jù)分析中仍有使用價(jià)值,但傳統(tǒng)數(shù)據(jù)平臺(tái)是不夠的。在傳統(tǒng)的集中式存儲(chǔ)基礎(chǔ)上還要增加分布式存儲(chǔ),此外還有Map/Reduce功能(即映射與歸類簡(jiǎn)化)、實(shí)時(shí)任務(wù)調(diào)度功能、分布式工作流管理功能等,以及機(jī)器學(xué)習(xí)和可視化功能等。大數(shù)據(jù)需要用到一些云計(jì)算的平臺(tái)。另外,文本雖然是結(jié)構(gòu)化,但計(jì)算機(jī)需要有語義能力才能代替人的理解,通過收集. 歸類、組織所有有關(guān)的文本,解釋詞匯、編輯、通過上下文關(guān)聯(lián)增進(jìn)理解,對(duì)于非結(jié)構(gòu)化的數(shù)據(jù)例如照片和視頻,需要使用可視化分析工具和技術(shù),從大量動(dòng)態(tài)可能是模棱兩可甚至是矛盾的數(shù)據(jù)中綜合信息并導(dǎo)出可理解的內(nèi)容,更需要有機(jī)器學(xué)習(xí)能力才能挖掘出其含義。
目前國(guó)內(nèi)外都有很多大數(shù)據(jù)應(yīng)用的成功例子,但基本上還是結(jié)構(gòu)性數(shù)據(jù),很少涉及到非結(jié)構(gòu)化。2012年斯坦福大學(xué)與Google合作建立深度學(xué)習(xí)網(wǎng)絡(luò),對(duì)來自YouTube的上千萬幅視頻幀自主學(xué)習(xí),用10天學(xué)會(huì)了識(shí)別貓的臉孔,然后從2萬張未見過的照片中找貓,準(zhǔn)確率達(dá)到15.8%??梢姺墙Y(jié)構(gòu)性數(shù)據(jù)的挖掘技術(shù)到實(shí)用還有相當(dāng)距離。雖然非結(jié)構(gòu)性數(shù)據(jù)的量占大數(shù)據(jù)的90%以上,但對(duì)結(jié)構(gòu)性數(shù)據(jù)的挖掘是大數(shù)據(jù)應(yīng)用的切入點(diǎn)。從結(jié)構(gòu)化數(shù)據(jù)入手開展數(shù)據(jù)挖掘仍然有重要的意義。
我們可以用多種類型的傳感器檢測(cè)環(huán)境污染,雖然各類傳感器都是有用的,但不是同等重要的,需要依據(jù)檢測(cè)不同的指標(biāo)來對(duì)不同類型的傳感器結(jié)果加權(quán)處理。例如太湖藍(lán)藻的監(jiān)測(cè)使用了溶解氧、水、電導(dǎo)率、氨氮、硝酸鹽、PH值六種傳感器,但它們與藍(lán)藻爆發(fā)強(qiáng)度的相關(guān)程度不同,溶解氧、水溫和電導(dǎo)率與藍(lán)藻爆發(fā)的相關(guān)性在0.4以上,而氨氮、硝酸鹽和PH值與藍(lán)藻爆發(fā)的相關(guān)性低于0.2,因此對(duì)不同的傳感器的數(shù)據(jù)需要不同的加權(quán)。另外,每類數(shù)據(jù)的重要性會(huì)隨關(guān)注點(diǎn)不同而改變。例如一個(gè)人的身體狀況可以用多種指標(biāo)來衡量,顯然所關(guān)心的疾病不同,與不同指標(biāo)對(duì)應(yīng)的數(shù)據(jù)其重要性也不同。另外,同一類型的數(shù)據(jù)也因?yàn)闀r(shí)空不同而價(jià)值不同,同一類型的傳感器在不同位置收集到的數(shù)據(jù)其重要性也不同。以城市交通監(jiān)控?cái)z像頭為例,在交叉路口的攝像頭其作用就比非路口的重要。同一個(gè)傳感器在不同時(shí)間段收集的數(shù)據(jù)其作用也不同。仍以交通監(jiān)控?cái)z像頭為例,在沒有車輛和行人的深夜,其收集的數(shù)據(jù)幾乎沒有價(jià)值。同一類型的數(shù)據(jù)其價(jià)值也因收藏時(shí)間的長(zhǎng)短而異。一般而言,時(shí)間間隔越長(zhǎng),其價(jià)值下降。
因此存儲(chǔ)的數(shù)據(jù)需要壓縮以節(jié)省成本。IDC公司發(fā)布“數(shù)字世界2020”,指出在2020年視頻監(jiān)控?cái)?shù)據(jù)將占到被標(biāo)注和分析的數(shù)據(jù)42%。一個(gè)二線城市通常有上百條街道,每街道按50個(gè)路口計(jì)算,若每個(gè)路口裝16路攝像頭,就共有8萬個(gè)攝像頭,如采用8Mbps攝像頭,而且存三個(gè)月,就需要72萬個(gè)2T的硬盤。事實(shí)上沒有感興趣信息的攝像數(shù)據(jù)沒有保留價(jià)值,在存儲(chǔ)前甚至在拍攝時(shí)就要有所舍棄?;蛘邔?duì)每一幀感興趣的區(qū)域增加分辨率,而其他區(qū)域降低比特率。對(duì)有用的視頻信息也需要壓縮,對(duì)于存儲(chǔ)時(shí)間較長(zhǎng)而且很少調(diào)用的視頻數(shù)據(jù)可以壓縮以降低清晰度,節(jié)約存儲(chǔ)資源。
另外,數(shù)據(jù)需要過濾,傳感器收集的數(shù)據(jù)并非都是可信的,特別是歷史上該傳感器的數(shù)據(jù)與在同一環(huán)境下應(yīng)用的同類其他傳感器報(bào)出的數(shù)據(jù)差異很大時(shí),該數(shù)據(jù)就應(yīng)棄用,否則把它放到大數(shù)據(jù)里面,會(huì)導(dǎo)致數(shù)據(jù)的信息失真。既然數(shù)據(jù)會(huì)有重復(fù)而且并非都是全部有用的,因此需要進(jìn)行數(shù)據(jù)過濾,這對(duì)簡(jiǎn)化存儲(chǔ)和提高可信性都是有意義的。數(shù)據(jù)需要過濾,引入必要的認(rèn)證和信譽(yù)管理。
我們需要應(yīng)用異構(gòu)多元的數(shù)據(jù)來提高可信性。不是所有數(shù)據(jù)都是可信的,要通過多元,特別是異構(gòu)的數(shù)據(jù)來保證數(shù)據(jù)的可信。收集多元異構(gòu)的數(shù)據(jù)有利于對(duì)數(shù)據(jù)的理解,例如通過城市交通監(jiān)控系統(tǒng),可以掌握交通流量,可以知道哪一段馬路擁堵,但不知道是什么原因,如果把這組數(shù)據(jù)和政府發(fā)布的數(shù)據(jù)以及網(wǎng)民上載的數(shù)據(jù)收集起來,你可能知道這個(gè)地方發(fā)生車禍了,這個(gè)地方臨時(shí)交通管制了,就可以知道交通擁堵的原因。通過歷史數(shù)據(jù)的對(duì)比可以推斷數(shù)據(jù)的可信性,通過用數(shù)學(xué)模型來檢驗(yàn),驗(yàn)證數(shù)據(jù)的可信性??傊占瘮?shù)據(jù)盡可能異構(gòu)多元。
關(guān)于異源數(shù)據(jù)的協(xié)同處理,以無錫監(jiān)控太湖污染為例,除了使用傳感器外,還利用環(huán)保衛(wèi)星的遙感監(jiān)測(cè)數(shù)據(jù),還收集人工巡湖獲得的數(shù)據(jù),把多種異源的數(shù)據(jù)綜合,調(diào)出歷史的數(shù)據(jù)來對(duì)比,基于數(shù)字湖泊模型進(jìn)行數(shù)據(jù)挖掘,后臺(tái)可能還要調(diào)用3S系統(tǒng)、云計(jì)算、數(shù)據(jù)中心等。很多情況下的大數(shù)據(jù)涉及網(wǎng)絡(luò)數(shù)據(jù)、物理數(shù)據(jù)(例如物聯(lián)網(wǎng)收集的數(shù)據(jù))和社會(huì)數(shù)據(jù)(或稱為人本數(shù)據(jù),例如政府掌握的法人與居民的數(shù)據(jù)),要把三元數(shù)據(jù)結(jié)合來分析。通過對(duì)異源數(shù)據(jù)的協(xié)同處理可以提升數(shù)據(jù)挖掘結(jié)果的可信性。
網(wǎng)絡(luò)數(shù)據(jù)的可信性問題需要特別注意。網(wǎng)絡(luò)數(shù)據(jù)并不都是可信的,特別是微博傳播,不實(shí)的消息散布很快,而微信圈子里的消息是不容易監(jiān)控的,因此消息的準(zhǔn)確性有問題。過去往往認(rèn)為“有圖有真相”,事實(shí)上圖片可以移花接木、張冠李戴、時(shí)空錯(cuò)亂,或者照片是對(duì)的,可是文字解釋是捏造的,這樣的事情已屢見不鮮。最近最高人民法院宣布,網(wǎng)上謠言轉(zhuǎn)發(fā)500次就是傳謠,一些網(wǎng)站不去甄別內(nèi)容是否真實(shí),而是對(duì)所有帖子轉(zhuǎn)發(fā)499次就封頂,就屏蔽,就不讓轉(zhuǎn)了,這樣得出來的結(jié)果不能反映出哪些是最熱的帖子,從輿情收集效果看,人為的截尾導(dǎo)致失去了真實(shí)性。
另外,搜索引擎上某些詞匯的出現(xiàn)頻度也會(huì)受到一些因素的影響,即基于搜索詞頻的判斷不完全是獨(dú)立隨機(jī)的。當(dāng)某地發(fā)生流感,搜索引擎上面的與流感有關(guān)的搜索關(guān)鍵詞頻率突然提高,谷歌將這一現(xiàn)象與歷年來美國(guó)疾控中心(CDC)公布的流感發(fā)生狀況對(duì)比,得出一定的規(guī)律。
2008年H7N1流感爆發(fā)時(shí)谷歌的流感指數(shù)給出的預(yù)測(cè)比中國(guó)疾控中心(CDC)早一周發(fā)布,與CDC數(shù)據(jù)相似度0.9。美國(guó)紐約州政府在2013年初發(fā)布了“公共健康緊急狀態(tài)”的通告,大眾媒體的廣泛報(bào)道,引起網(wǎng)民的關(guān)注和討論,隨后 1 月流感流行狀況十分嚴(yán)峻,沒有患流感的人在網(wǎng)上議論流感問題影響了谷歌對(duì)流感用戶搜索行為的判斷,導(dǎo)致谷歌流感指數(shù)估值出現(xiàn)了假陽性,遠(yuǎn)高于 CDC 的統(tǒng)計(jì)數(shù)值。另外,基于微博的判斷不能代表所有年齡段的人群。在谷歌流感指數(shù)啟發(fā)之下,紐約羅切斯特大學(xué)利用推特的微博數(shù)據(jù)進(jìn)行了嘗試,可以提前 8 天預(yù)報(bào)流感對(duì)個(gè)體的侵襲狀況,而且準(zhǔn)確率高達(dá)90%。不過推特的使用者大部分是年輕人,而季節(jié)性流感的襲擾對(duì)象多為抵抗力較弱的老年人和兒童,因此基于推特的微博判斷流感有片面性。此外,重要的大數(shù)據(jù)決策是需要人介入的。比如基于醫(yī)療專家系統(tǒng)的計(jì)算機(jī)可以給人看病,但主要還是輔助診斷,最后還得靠醫(yī)生來決策。
大數(shù)據(jù)的挖掘可分為準(zhǔn)備階段、發(fā)現(xiàn)階段和解釋階段。在準(zhǔn)備階段要進(jìn)行合并壓縮、清洗過濾和格式轉(zhuǎn)換。在發(fā)現(xiàn)階段尋找規(guī)律以建立模型,將用到統(tǒng)計(jì)分析、知識(shí)發(fā)現(xiàn)和可視化技術(shù)。在解釋階段通過關(guān)聯(lián)規(guī)則、分類、聚類、序列和路徑等操作,揭示數(shù)據(jù)間的內(nèi)在聯(lián)系,利用歷史數(shù)據(jù)來推導(dǎo)和預(yù)測(cè),挖掘出數(shù)據(jù)的前后時(shí)間順序關(guān)系,聚焦到感興趣的內(nèi)容上。Map/Reduce技術(shù)可用于數(shù)據(jù)清洗、去重、過濾和合并。Map把海量數(shù)據(jù)分割為若干部分,加入標(biāo)簽然后分給多臺(tái)處理器并行處理,Reduce歸并某一個(gè)標(biāo)簽的所有值,合并、匯總和過濾并進(jìn)行計(jì)算,輸出計(jì)算結(jié)果。Map/Reduce一方面是節(jié)約存儲(chǔ)空間,另一方面是為后續(xù)的數(shù)據(jù)的挖掘提供方便。數(shù)據(jù)分析需要有合適的模型,數(shù)據(jù)的表示需要用到可視化和增強(qiáng)現(xiàn)實(shí),數(shù)據(jù)的發(fā)布也需要預(yù)見到對(duì)社會(huì)的影響。
大數(shù)據(jù)是復(fù)雜的,但其結(jié)果應(yīng)該是簡(jiǎn)潔明了的,通常需要將大數(shù)據(jù)的結(jié)果可視化。從可視化的效果可有助于判斷大數(shù)據(jù)挖掘的可信性。數(shù)據(jù)的可視化將用到信息融合技術(shù),數(shù)據(jù)的可視化可能用到虛擬現(xiàn)實(shí)的結(jié)合或增強(qiáng)現(xiàn)實(shí)技術(shù)。比如拿照相機(jī)拍了不同位置的街景,即孤立的一幅一幅照片,通過信息融合技術(shù)可拼成一個(gè)三維的圖像甚至是視頻,合成的效果是一個(gè)全景的還原。例如一個(gè)城市有很多交通監(jiān)視用攝像頭,每一個(gè)攝像頭都可以連接一個(gè)電視屏,這些電視屏集中到城市的交通監(jiān)控中心,實(shí)際上往往是多個(gè)攝像頭分時(shí)共享同一個(gè)顯示屏,例如每十秒顯示一條馬路的攝像頭,即便這樣監(jiān)控人員看起來還是很困難。如果把一條馬路的攝像頭拍下的信息組合成一個(gè)視頻,這樣看起來就方便。如果把整個(gè)城市的所有馬路的交通監(jiān)控視頻組合成一張三維動(dòng)態(tài)的圖,可以很直觀發(fā)現(xiàn)哪個(gè)時(shí)間點(diǎn)哪個(gè)位置交通流量最高,這就是利用信息融合技術(shù)實(shí)現(xiàn)可視化和虛擬化。美國(guó)統(tǒng)計(jì)參加NBA的球隊(duì)的比賽情況,發(fā)現(xiàn)投籃概率與投籃命中率與投籃的位置有一定規(guī)律性,用這種方式可以訓(xùn)練球隊(duì)。NBA從80年代開始將球員在賽場(chǎng)上的表現(xiàn)數(shù)據(jù)化,經(jīng)過30多年的積累已達(dá)到可辨別每一個(gè)球員在場(chǎng)上的弱點(diǎn),方便教練進(jìn)行針對(duì)性戰(zhàn)術(shù)安排。目前30家NBA球隊(duì)俱樂部已有半數(shù)聘請(qǐng)了數(shù)據(jù)分析師,他們的平均勝率達(dá)到59.3%,而沒有進(jìn)行數(shù)據(jù)分析的球隊(duì)僅有平均40.7%的勝率。
中國(guó)人口居世界首位,但2010年中國(guó)新存儲(chǔ)的數(shù)據(jù)為250PB,僅為日本的60%和北美的7%。我國(guó)一些部門和機(jī)構(gòu)擁有大量數(shù)據(jù)但以鄰為壑,寧愿自己不用也不愿提供與有關(guān)部門共享,導(dǎo)致信息不完整或重復(fù)投資。2012年中國(guó)的數(shù)據(jù)存儲(chǔ)量達(dá)到364EB,其中55%(200EB)的數(shù)據(jù)需要一定程度的保護(hù),然而目前只有不到一半(44%,即96EB)的數(shù)據(jù)得到保護(hù)。我國(guó)在自主可控的大數(shù)據(jù)分析技術(shù)與產(chǎn)品方面與發(fā)達(dá)國(guó)家相比有不少差距,國(guó)內(nèi)企業(yè)在數(shù)據(jù)庫、數(shù)據(jù)倉庫、商業(yè)智能分析軟件等領(lǐng)域基礎(chǔ)薄弱,尤其是大數(shù)據(jù)方面已經(jīng)遠(yuǎn)遠(yuǎn)落后于國(guó)外先進(jìn)企業(yè)。另外,需要重視人才問題。500年前達(dá)芬奇可以同時(shí)是畫家、音樂家、工程師、科學(xué)家,100年前的醫(yī)生可以了解醫(yī)學(xué)領(lǐng)域的所有分支。今天一名初級(jí)醫(yī)生必須同時(shí)了解大約一萬種疾病和綜合癥、3000種藥物和1100種檢驗(yàn)方法。估計(jì)一個(gè)專業(yè)的醫(yī)生也需要每天學(xué)習(xí)21小時(shí)才能跟得上學(xué)科的發(fā)展。Gartner咨詢公司預(yù)測(cè)大數(shù)據(jù)將為全球帶來440萬個(gè)IT新崗位和上千萬個(gè)非IT崗位。麥肯錫公司預(yù)測(cè)美國(guó)到2018年深度數(shù)據(jù)分析人才缺口14~19萬人,還需既熟悉需求也熟悉技術(shù)及應(yīng)用的管理者150萬。中國(guó)能理解與應(yīng)用大數(shù)據(jù)的創(chuàng)新人才更是稀缺資源。
大數(shù)據(jù)的利用首先要求政府?dāng)?shù)據(jù)原則上該公開的必須公開。大數(shù)據(jù)的挖掘與利用需要有法可依。我國(guó)需要盡快制定“信息保護(hù)法”與“信息公開法”,既要鼓勵(lì)面向群體而且服務(wù)于社會(huì)的數(shù)據(jù)挖掘,又要防止針對(duì)個(gè)體侵犯隱私的行為,提倡數(shù)據(jù)共享又要防止數(shù)據(jù)被濫用。重要的數(shù)據(jù)存儲(chǔ)和應(yīng)用不能過分依賴大數(shù)據(jù)分析技術(shù)與平臺(tái),尤其是對(duì)我們目前還無法掌控的國(guó)外信息產(chǎn)品,需要重視信息泄密的風(fēng)險(xiǎn)。
信息化要從重視硬件到重視軟件,再到重視數(shù)據(jù)的利用,不僅大數(shù)據(jù),中小數(shù)據(jù)的挖掘也有重要意義。需要制定國(guó)家大數(shù)據(jù)發(fā)展戰(zhàn)略。大數(shù)據(jù)是一個(gè)應(yīng)用驅(qū)動(dòng)性很強(qiáng)的服務(wù),其標(biāo)準(zhǔn)和產(chǎn)業(yè)格局尚未形成,這是我國(guó)跨越發(fā)展的機(jī)會(huì),但切忌一哄而起在目的不明情況下到處建設(shè)大數(shù)據(jù)中心,需要從戰(zhàn)略上重視大數(shù)據(jù)的開發(fā)利用,將它作為轉(zhuǎn)變經(jīng)濟(jì)增長(zhǎng)方式的有效抓手。
大數(shù)據(jù)的挖掘深化了信息技術(shù)的應(yīng)用,催生新的應(yīng)用和新業(yè)態(tài)出現(xiàn),大數(shù)據(jù)提升了管理和決策的智能化水平。需要重視數(shù)據(jù)的挖掘利用,不僅僅是大數(shù)據(jù),中小數(shù)據(jù)的挖掘也有意義;不僅是非結(jié)構(gòu)數(shù)據(jù),即便對(duì)相對(duì)簡(jiǎn)單的結(jié)構(gòu)性數(shù)據(jù)的挖掘也能有大的價(jià)值。對(duì)數(shù)據(jù)要進(jìn)行可信性分析,重視數(shù)據(jù)的安全域隱私保護(hù)。大數(shù)據(jù)挖掘技術(shù)是大數(shù)據(jù)時(shí)代競(jìng)爭(zhēng)的焦點(diǎn),自主掌握大數(shù)據(jù)開發(fā)技術(shù)是對(duì)我國(guó)創(chuàng)新能力的考驗(yàn)。推動(dòng)大數(shù)據(jù)技術(shù)應(yīng)用和產(chǎn)業(yè)發(fā)展,我國(guó)需要盡快明確國(guó)家大數(shù)據(jù)戰(zhàn)略,做好頂層設(shè)計(jì),把握好大數(shù)據(jù)的關(guān)鍵,促使大數(shù)據(jù)產(chǎn)業(yè)贏得健康發(fā)展。
(本文是鄔賀銓院士在國(guó)家信息化論壇上的主題演講內(nèi)容,根據(jù)現(xiàn)場(chǎng)錄音整理)