◆陽 超
21世紀信息技術日新月異,全球信息化已經(jīng)成為不可阻擋的趨勢,大數(shù)據(jù)無疑成為了時下最炙手可熱的研究話題之一。隨著大數(shù)據(jù)時代的來臨,我們的生產(chǎn)、生活、工作和思維方式諸多方面都將進行大變革,我們將一改往日的小數(shù)據(jù)思維和眼光,以大數(shù)據(jù)思維和視角來看待和理解世界。
大數(shù)據(jù)(Big Data),又稱巨量數(shù)據(jù)、海量數(shù)據(jù),其所涉及的數(shù)據(jù)規(guī)模巨大到無法在合理時間內,通過目前主流軟件工具,進行截取、管理和處理。麥肯錫(McKinsey Company)認為:大數(shù)據(jù)是指無法在一定時間內用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內容進行采集、存儲、管理和分析的數(shù)據(jù)集合。我所理解的大數(shù)據(jù)具有以下特征。
第一,數(shù)據(jù)樣本的容量空前擴大。數(shù)據(jù)總量巨大,從TB級別,躍升到PB級別。數(shù)據(jù)類型繁多,除了標準的結構化編碼數(shù)據(jù)之外,還包括網(wǎng)絡日志、視頻、圖片、地理位置信息等非結構化或無結構數(shù)據(jù)。
第二,數(shù)據(jù)呈現(xiàn)的平臺愈發(fā)寬廣。伴隨著傳統(tǒng)媒體的改革和新媒體的興起,數(shù)據(jù)的動態(tài)變化快速復雜,數(shù)據(jù)的來源渠道五花八門,呈現(xiàn)的方式也多種多樣??梢哉f,有人類生活生產(chǎn)活動的地方就有數(shù)據(jù),就能做數(shù)據(jù)分析。
第三,數(shù)據(jù)價值的體現(xiàn)日益突出。數(shù)據(jù)本身作為描述事物的特征和邏輯關系的指標,因信息技術發(fā)展而與商業(yè)金融、電子科技、醫(yī)療衛(wèi)生、文化教育的生產(chǎn)生活實踐聯(lián)系在一起,產(chǎn)生了巨大的包括經(jīng)濟增長在內的價值。盡管巨量數(shù)據(jù)中的有用消息比例有限,但總體來說,數(shù)據(jù)價值的挖掘成了大數(shù)據(jù)時代的重要特征之一。
所謂思維方式,就是我們大腦活動的內在程序,是一種習慣性的思考問題和處理問題的模式,它涉及我們看待事物的角度、方式和方法,并由此對我們的行為方式產(chǎn)生直接的影響。正如恩格斯所說:“每一個時代的理論思維,從而我們時代的理論思維,都是一種歷史的產(chǎn)物,它在不同時代具有完全不同的形式,同時具有完全不同的內容。”(《馬克思恩格斯選集第4卷,人民出版社1995年版,第284頁》)
人類的思維活動可以影響生產(chǎn)生活活動,思維自身的發(fā)展也必然受到自然界和整個社會環(huán)境的不斷影響。正所謂:窮則變,變則通,通則久。計算機技術的更迭創(chuàng)新,無聲宣告了小數(shù)據(jù)已走到窮途末路,大數(shù)據(jù)時代的大容量、廣平臺、高價值的特征給人類帶來了巨大的機遇和挑戰(zhàn)。要把握機遇、迎接挑戰(zhàn)、創(chuàng)新發(fā)展,我們就不可避免地要了解大數(shù)據(jù)思維,適應大數(shù)據(jù)思維方式。其主要有四大思維。
(一)系統(tǒng)性思維。所謂系統(tǒng)性思維方式,就是指人們在思考和處理問題時,著眼于系統(tǒng)整體,側重解決系統(tǒng)與子系統(tǒng),系統(tǒng)與環(huán)境以及各子系統(tǒng)間的結構與層次等方面的線性和非線性關系,從而揭示出系統(tǒng)的運動變化規(guī)律,最終實現(xiàn)系統(tǒng)整體目標優(yōu)化的一種現(xiàn)代思維方式。
系統(tǒng)性思維方式強調總體,而非局部。在大數(shù)據(jù)時代,隨著數(shù)據(jù)收集、存儲、分析技術的突破性發(fā)展,我們可以更加方便、快捷、動態(tài)地獲得與研究對象有關的所有數(shù)據(jù),不再因技術的諸多限制而采用樣本研究方法。相應地,這也為思維方式從樣本思維轉向總體思維提供了技術保障。
系統(tǒng)性思維強調相互關聯(lián),而非靜止孤立。在大數(shù)據(jù)時代,人們可以通過大數(shù)據(jù)技術挖掘出事物之間隱蔽的相關關系,獲得更多的認知與洞見。通過關注線性的相關關系,以及復雜的非線性相關關系,可以幫助人們看到很多以前不曾注意的內在聯(lián)系,還可以掌握以前無法理解的復雜技術和社會動態(tài)。這對于我們理解復雜事件的發(fā)展和復雜事物之間的關系裨益良多。
系統(tǒng)性思維強調動態(tài)發(fā)展,而非一層不變。在大數(shù)據(jù)時代,大量的傳感器將我們身邊的一切納入物聯(lián)網(wǎng),使一切事物的動態(tài)、變化變成數(shù)據(jù)流,不斷進入負責監(jiān)控的計算機。云計算技術的強大數(shù)據(jù)分析能力將幫助人們對這些數(shù)據(jù)進行分析和處理。這些隨時間流不斷更新的數(shù)據(jù)正好反映了數(shù)據(jù)隨時間的動態(tài)演化過程,構成了一幅動態(tài)演化的全景圖,而建立在數(shù)據(jù)的動態(tài)發(fā)展分析基礎上的對未來的預測正是大數(shù)據(jù)的核心議題。
(二)數(shù)據(jù)化思維?!皵?shù)據(jù)”一詞來源已久,在拉丁文中它被賦予了“已知的事實”的意思。數(shù)據(jù)化是指一種把現(xiàn)象轉變?yōu)榭芍票矸治龅牧炕问降倪^程。數(shù)字化是指為方便計算機的運算,把模擬數(shù)據(jù)轉換成用0和1表示的二進制碼。
數(shù)據(jù)化思維的核心就是量化一切。從世界古文明的結繩計數(shù)、甲骨圖文;到公元1世紀到12世紀阿拉伯數(shù)字,先在印度的緣起,隨后在歐洲的傳播和應用;再到14世紀意大利會計手稿和復式記賬法,推動了近代會計和金融行業(yè)的興起;新工具的產(chǎn)生和使用既促進了測量和記錄數(shù)據(jù)的繁榮,也孕育了大數(shù)據(jù)時代數(shù)據(jù)化思維。
互聯(lián)網(wǎng)技術和其他科學技術的成熟,使文字、方位、溝通這些非具象的概念實現(xiàn)了數(shù)據(jù)化。Google的數(shù)字圖書館是很好的例證。2004年,Google開始啟動數(shù)字圖書字符識別軟件來識別文本的字詞,完成了文字數(shù)字化到文字數(shù)據(jù)化的轉換。這不僅為全世界的讀者提供了免費閱讀的平臺,還可以供計算機進行二次分析,在一定程度上有效約束了學術作品的抄襲剽竊行為。
數(shù)據(jù)化思維使我們意識到世界的本質即是信息。我們所處的大數(shù)據(jù)時代,就是一個在急速信息技術革命中,關注“信息”多過關注“技術”的時代。這一點,不管是在商業(yè)金融、公共衛(wèi)生、教育人文、天文科技還是政府工作上,都可以得到驗證。如通過GPS地理定位推薦最佳行程路徑和通過夜間腦電波分析失眠患者的睡眠模式,通過量化在鍛煉中身體各個部位失去的能量和進食不同的食物單位內所帶來的卡路里來制定健康計劃。
(三)容錯性思維。容錯性思維是大數(shù)據(jù)時代與小數(shù)據(jù)區(qū)分最大的思維方式。在小數(shù)據(jù)思維中,精確無疑是第一核心要義。當樣本數(shù)量有限時,我們只能通過關注最重要的內容,獲取最精確的結果,提高我們預測事物的能力。在大數(shù)據(jù)時代下,我們所觀察的是總體樣本,而非抽樣樣本。為適應大數(shù)據(jù)技術,思維方式要從精確思維轉向容錯思維,即當擁有海量即時數(shù)據(jù)時,絕對的精準不再是追求的主要目標,適當忽略微觀層面上的精確度,容許一定程度的錯誤與混雜,以一個比從前更大更全面的角度來理解事物的發(fā)展。
一方面,數(shù)據(jù)規(guī)模的指數(shù)爆炸式增長不可避免地造成數(shù)據(jù)的混亂。從數(shù)據(jù)結構上來說,5%的數(shù)字數(shù)據(jù)是結構化可適用于傳統(tǒng)數(shù)據(jù)庫的,我們只有通過接受混亂和不精確,才能利用剩下的95%的非結構化數(shù)據(jù)。面對參差不齊的海量數(shù)據(jù),我們無法竭力避免混亂,而是試圖尋找標準途徑。以內容分類為例,小數(shù)據(jù)時代的圖書館或儲藏室用分類法和索引法存儲和檢索資源足以應付。當互聯(lián)網(wǎng)平臺幫助數(shù)據(jù)規(guī)模飛躍幾個數(shù)量級之后,仍沿用原來精確的分類法,反而會造成更大范圍的混亂。Facebook、新浪微博和其他圖像、視頻、音樂分享平臺鍵入多個搜索標簽體現(xiàn)的就是一種與傳統(tǒng)精確性分類不同的分類思維。
另一方面,大數(shù)據(jù)的信息紛繁復雜,魚龍混雜,為了把握和分析事物的本質,我們對精確度的沉迷程度不斷減弱。因為容錯思維認為,不精確的數(shù)值體現(xiàn)的大概輪廓和發(fā)展趨勢已足夠幫助我們認識問題。Facebook、新浪微博上分享的內容可以用“喜歡”和“贊”來描述受歡迎程度。數(shù)量不多時,精確的數(shù)字將會顯示其上,如137。數(shù)量很大時,則會顯示一個近似值,如4萬。Google的Gmail郵箱會標注如“7分鐘之前”,“3個小時之前”或者“兩個星期之前”。這時候精確的重要性變得不那么突出,大致的數(shù)值描述已足夠說明問題。
(四)開放性思維。大數(shù)據(jù)時代的開放性思維相對于傳統(tǒng)時代的封閉的思維,更具主動性、透明性、互動性的特征。該思維方式形成和表現(xiàn)于四個方面。
一是社會環(huán)境的開放性,即現(xiàn)代社會環(huán)境的多元化、個性化發(fā)展趨勢。全球化的發(fā)展孕育了開放與包容的時代特征。不同社會制度、不同經(jīng)濟結構、不同意識形態(tài)和不同宗教信仰的國家、民族相互聯(lián)系,多元復雜的社會背景下,每個人的自我認識更多元更深刻,個人的主體意識不斷增加。
二是認識主體的開放性,即認識活動中的主觀能動性的極大提高。大數(shù)據(jù)發(fā)展的動力來源于人類測量、記錄和分析世界的渴望。正是源自人類認識世界和改造世界的原始本能,人們才通過語言、繪畫、文本、攝影、膠片、磁帶等分享方式來延伸記憶。大數(shù)據(jù)的數(shù)據(jù)記憶特征極大激發(fā)了人們的主觀能動性。
三是展呈方式的開放性,即互聯(lián)網(wǎng)環(huán)境下表達平臺的開放性。在大數(shù)據(jù)時代,互聯(lián)網(wǎng)、云計算技術等信息技術為我們提供了便捷的共享手段?;ヂ?lián)網(wǎng)的全球化覆蓋消除了地理距離的限制,從根本上改變了搜索和提取的經(jīng)濟成本,去資料庫獲取信息的時間和成本被低廉的網(wǎng)絡通信費用所取代。低廉的數(shù)字存儲器、易于提取的數(shù)字加工工具,剝離了原始的背景信息,加速了抽象排列向分類系統(tǒng)過渡、提煉有效信息的進程。遍地可見的電腦、智能手機、攝像頭以及其他諸多的信息采集設備和存儲設備將海量數(shù)據(jù)置于公共空間,為公眾共享信息提供了基礎。
四是認識對象的開放性,即活動主體對問題觀察的開放性:不再純粹只關注因果關系,也開始深入相關關系;不再只單純利用某次數(shù)據(jù),更多的關注數(shù)據(jù)的再利用和挖掘。一方面,通過探求相關關系的“是什么”而不是因果關系的“為什么”,能提供更好的視角來理解世界。大數(shù)據(jù)時代,相關關系的驗證實驗耗資少、周期短,數(shù)學方法、統(tǒng)計方法及數(shù)據(jù)工具方法眾多,使相關關系的探究更為準確。如經(jīng)濟學中收入與幸福的正比關系到非線性關系的轉變。另一方面,不同于物質性實體,數(shù)據(jù)的價值可以多次被處理以發(fā)掘潛在的價值,并不會隨著重復使用而減損。如:移動電話運營商收集用戶的位置信息來傳輸電話號碼、利用機票銷售數(shù)據(jù)來預測未來機票價格、搜索引擎公司通過搜索關鍵詞來監(jiān)測流感的傳播、麥格雷戈博士以嬰兒的生命體征來預測傳染病的發(fā)生。
總之,大數(shù)據(jù)以磅礴之勢席卷而來,開啟了人類歷史上的重大時代轉型,它改變了人們的生活模式和理解世界的方式,成為新發(fā)明和新服務的源泉。這些思維的轉變,將改變我們理解和組建當下社會的方法。不管我們承認與否,它帶給當今全球的益處是方方面面的。不論變化如何,我堅信正如維克托所說,最終將在大數(shù)據(jù)價值鏈中獲益的是擁有大數(shù)據(jù)思維的人。