大數(shù)據(jù)代表了一種將世界數(shù)據(jù)化的思路
大數(shù)據(jù)代表了一種將世界數(shù)據(jù)化的思路?;\統(tǒng)地說,人類所有的歷史、社會、知識、行為、態(tài)度等等,所有的一切都可以被看作是有待數(shù)字化的數(shù)據(jù)。這些數(shù)據(jù)由來已久,只是沒有方法將其整合到一個統(tǒng)一的框架下進行分析。進入到互聯(lián)網(wǎng)時代,各種數(shù)據(jù)更是以每年50%的速度增長,每兩年便會翻一番。麥肯錫的研究認為,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)要素。預計到2015年,全世界的數(shù)據(jù)總量將達到7.9ZB。這些數(shù)量龐大、種類繁雜并且仍在不斷累積的數(shù)據(jù)在政府機構、企業(yè)組織甚至是公民的日常生活中沉睡,以往分析小數(shù)據(jù)的方法顯然捉襟見肘,但是如果沒有方法來喚醒它們,這些就只能是“數(shù)據(jù)垃圾”。
隨著專門處理大規(guī)模數(shù)據(jù)的算法、非關系型數(shù)據(jù)庫以及多類型大數(shù)據(jù)管理開源框架的研發(fā),這些大規(guī)模的數(shù)據(jù)終于可以被利用起來。維克多·邁爾-舍恩伯格在《大數(shù)據(jù)時代》一書中對大數(shù)據(jù)提出了三組命題:要全體不要抽樣,要效率不要絕對精確,要相關不要因果。這種論斷似乎想說明大數(shù)據(jù)更注重“量”而不追求“質”。但實際上,大數(shù)據(jù)雖然相比較傳統(tǒng)的數(shù)據(jù)處理理念確實出現(xiàn)了轉變,但是并非如此截然相反。這三組命題對應到數(shù)據(jù)處理過程中分別是指處理器密度型還是數(shù)據(jù)密度型,數(shù)據(jù)量與模型復雜度關系以及算法邏輯。一般情況下,我們認為,因果性分析也是相關性分析的一種,當數(shù)據(jù)與算法日趨成熟之后,相關性分析必然會走向更為“直接”的因果分析。另一方面,根據(jù)相關研究發(fā)現(xiàn),數(shù)據(jù)越大,精度越高,不同數(shù)據(jù)的精度分類會趨同,從而使得對于小數(shù)據(jù)至關重要的算法趨同,同時模型的復雜度越高,對于事物的預測情況也就越準確。
因此,大數(shù)據(jù)技術的戰(zhàn)略意義是通過對大規(guī)模的數(shù)據(jù)進行專業(yè)化的處理,實現(xiàn)數(shù)據(jù)的“增值”。而所謂的“增值”,就是指可以通過大數(shù)據(jù)分析,找到事物內部或者事物之間潛在的關系形態(tài)。雖然大數(shù)據(jù)分析現(xiàn)在還只是剛剛起步,但一些研究成果已經(jīng)足以讓人驚訝不已。2010年美國東北大學的Alan Mislove博士領導的國家脈動(Pulse of the Nation)項目,通過對3億條Twitter中的關鍵詞進行追蹤與分析,繪制了一幅反映美國各地區(qū)人們一天當中不同時段情緒波動的實時色彩圖,研究清晰地顯示出佛羅里達州確實是美國“最幸?!钡牡胤健6?012年美國的總統(tǒng)大選,奧巴馬的競選團隊在華盛頓數(shù)據(jù)極客的幫助下,通過集群分析的方法處理社交數(shù)據(jù),從而建立起了更加準確的選民模型和競選計劃,再次成功地把握了選民的意愿,并最終贏得大選。
大數(shù)據(jù)運用的“深度”與“廣度”
大數(shù)據(jù)的成功基于大規(guī)模的數(shù)據(jù)覆蓋和深度的分析挖掘,數(shù)據(jù)的規(guī)?!皬V度”與分析的程度——“深度”,兩者是相輔相成的。建立在這兩個基礎上的大數(shù)據(jù)應用,對于國家和社會而言,具有深遠的意義。
首先,大數(shù)據(jù)為國家的政策決策、宏觀調控提供了詳細的動態(tài)資料,具有重要的參考價值。比如相比較國家的消費指數(shù)CPI,中國同時也是亞太地區(qū)最大的網(wǎng)絡零售商淘寶網(wǎng)還有一個自己的“淘寶消費者價格指數(shù)”(TCPI)。用淘寶網(wǎng)商業(yè)智能部報告中的話來說,這一指數(shù)“比國家CPI更加敏感,TCPI的漲跌趨勢比國家CPI超前,是‘春江水暖鴨先知’?!币虼嗽诠俜綄τ谏鐣l(fā)展各項指標的監(jiān)測追蹤與分析的渠道之外,補充以大數(shù)據(jù)為基礎的信息數(shù)據(jù),可以更加準確地把握社會的現(xiàn)實情況。
第二,大數(shù)據(jù)在商業(yè)價值鏈中將發(fā)揮重要的調節(jié)作用。相關研究表明,大數(shù)據(jù)的應用可使美國制造業(yè)的產(chǎn)品開發(fā)和組裝成本降低50%,使零售業(yè)凈利潤增長60%。這對于制造業(yè)和零售業(yè)來說,影響和變化堪稱是革命性的。此外,一些圍繞數(shù)據(jù)分析的業(yè)務也將興起:眾包式的數(shù)據(jù)分析服務,包括可視化、關系型數(shù)據(jù)庫供應,非關系型數(shù)據(jù)庫(NoSQL)市場重組等都將成為新的經(jīng)濟增長點。
第三,大數(shù)據(jù)還可以在政府公共服務、民生醫(yī)療服務、維護社會安定、動態(tài)安全監(jiān)管等領域發(fā)揮巨大作用。2011年美國麻省理工大學SENSEable City Lab開發(fā)的實時新加坡(LIVE Singapore?。╉椖浚ㄟ^建立一個收集、細化、分布式的反映城市活動的實時數(shù)據(jù)開放平臺,將公眾自主生成的數(shù)據(jù)即時反饋顯現(xiàn)出來,方便他們獲得城市的實時信息,比如回家時間掌控、雨天打車信息、突發(fā)事件脫險、航班信息查詢等等,以便公眾及時作出應變,優(yōu)化決策。
另外,未來大數(shù)據(jù)將成為下一輪的信息資源競賽的核心。據(jù)悉,2011年美軍加緊推進大數(shù)據(jù)研發(fā)計劃,確定了“從數(shù)據(jù)到?jīng)Q策、網(wǎng)絡科技、電子戰(zhàn)與電子防護、工程化彈性系統(tǒng)、大規(guī)模殺傷性武器防御、自主系統(tǒng)和人機互動”等7個重點研究領域。2012年3月,奧巴馬政府投資2億美元運作“大數(shù)據(jù)研究與開發(fā)計劃”以搶占數(shù)據(jù)資源開發(fā)利用的制高點。2012年5月,聯(lián)合國“全球脈動”計劃發(fā)布了《大數(shù)據(jù)開發(fā):機遇與挑戰(zhàn)》報告,英、德、法、日、加等發(fā)達國家都積極響應。我國也于2012年10月成立了首個專門研究大數(shù)據(jù)應用與發(fā)展的學術咨詢組織——中國通信學會大數(shù)據(jù)專家委員會。
“數(shù)據(jù)權”:下一個公民應有且必需的權力
但不管大數(shù)據(jù)如何神奇,我們都要保持清醒的頭腦,明確大數(shù)據(jù)的限度所在。一方面,大數(shù)據(jù)確實可以為我們的政治決策、經(jīng)濟調控、社會服務、個人生活提供高效的參考,但卻并非可以一勞永逸地解決所有問題。而且在人類建構外部世界和尋求自身發(fā)展的過程中,大數(shù)據(jù)也只是提供了一種解決問題的方案,而并非永久性地消除了問題。尤其是在社會科學領域,社會問題的產(chǎn)生關涉到歷史、社會結構與社會權力等方方面面,是很難僅僅通過“數(shù)據(jù)分析”就能解決的。
另一方面,大數(shù)據(jù)的分析基礎是對個體和群體,歷史和現(xiàn)狀,行為和態(tài)度進行搜集和監(jiān)測的數(shù)據(jù),而且從理論上說,數(shù)據(jù)越詳細、越豐富、覆蓋面越廣,結合深度的分析挖掘,就越能夠精確地把握和預測個體和集體的實際情況與行為態(tài)勢。換句話說,如果可以全方位地獲得某一個體或群體的所有數(shù)據(jù),基本上就可以以“全息”的方式模擬再現(xiàn)本體。但是,是否可以沒有限度地任意搜集個體的信息?對于搜集到的信息,如何保證這些數(shù)據(jù)的安全?由誰來守護這些數(shù)據(jù)?如何能夠保證對于這些數(shù)據(jù)的分析和挖掘不會侵害個體與社會的安全?這些問題作為大數(shù)據(jù)美妙的應用前景的暗面,時時提醒我們這一“魔法”既有可能造福眾生,也有可能危及個人與國家的安全??梢哉f,這在世界范圍內都是一個難題。
隨著全球資本與信息的互聯(lián),大型網(wǎng)絡公司對于歷史文獻資料的數(shù)據(jù)化,商業(yè)集團對于客戶資料的搜集,政府部門對于個人信息的調查與掌握,社會化媒體對于社會交往的滲透與呈現(xiàn),大數(shù)據(jù)的生成與流動已經(jīng)成為必然。那么下一步,更需要考慮的就是如何來保證這些數(shù)據(jù)的安全。這不僅涉及到國家層面的主權維護、領土安全、軍事機密等,也涉及商業(yè)集團的商業(yè)機密、專利權利,還切實地涉及到個體的隱私保護、人身安全等。同時也要盡量避免數(shù)據(jù)的人為壟斷,形成信息孤島。由于現(xiàn)今互聯(lián)網(wǎng)技術高度發(fā)達,理論上任何在互聯(lián)網(wǎng)或電子設備上的文字、圖片、地理信息等都可以被第三方獲取,除了在技術上采用對數(shù)據(jù)加密、物理刪除等方式外,通過法律的形式保護個體和集體的數(shù)據(jù)安全更成為關鍵?!皵?shù)據(jù)權”有望成為下一個公民應有且必需的權力。如何高效、適度地開發(fā)和使用大數(shù)據(jù),不僅僅是一個技術問題,也是一個社會問題。
(作者為復旦大學新聞學院教授、博導)
責編/袁靜 美編/李祥峰