孫蕊
(中國(guó)財(cái)政雜志社)
隨著云時(shí)代的到來,大數(shù)據(jù)(Big Data)成為越來越多被提及的“熱詞”,被用來描述和定義今天如爆炸裂變般產(chǎn)生的海量信息以及與此次相關(guān)的技術(shù)等。這一“熱詞”占據(jù)了各類媒體的搶眼位置,風(fēng)光地登上了《紐約時(shí)報(bào)》、《華爾街日?qǐng)?bào)》的專欄封面,甚至被嗅覺靈敏的券商寫進(jìn)投資推薦報(bào)告。面對(duì)如此火爆的場(chǎng)面,筆者不禁想問:大數(shù)據(jù)究竟指的是什么?如此炙手可熱的大數(shù)據(jù)又會(huì)給我們的思維方式帶來哪些變化?
大數(shù)據(jù)從何而來?隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸由量變到質(zhì)變,不僅信息總量增加,而且引起信息形態(tài)變化。最先經(jīng)歷信息爆炸的天文學(xué)和基因?qū)W等學(xué)科,創(chuàng)造了“大數(shù)據(jù)”這一概念。如今,這一概念幾乎用在了所有領(lǐng)域中,大數(shù)據(jù)已經(jīng)全方位地融入了我們的生活,不論你愿不愿意,不論你有沒有察覺,有沒有感覺到,大數(shù)據(jù)的性格就是這樣難以低調(diào),讓你無法回避、不可無視!
那么大數(shù)據(jù)究竟是什么?是否有清晰明確的定義?關(guān)于大數(shù)據(jù)的定義,筆者簡(jiǎn)單歸納了一下,比較常見的有這樣幾類描述:第一類是直接將大數(shù)據(jù)定義為信息或信息資產(chǎn),比如:大數(shù)據(jù)是需要借助于新的處理技術(shù)或模式,才能具有更強(qiáng)的決策力、洞察力和流程優(yōu)化能力的,海量的、高速增長(zhǎng)的和多樣化的信息資產(chǎn)。無獨(dú)有偶,類似的理解還有諸如:從數(shù)據(jù)的類別上看,“大數(shù)據(jù)”指的是無法依靠傳統(tǒng)流程或工具進(jìn)行分析和處理的信息。相比第一類直接定義為信息或信息資產(chǎn)的說法,第二類是突出大數(shù)據(jù)的特點(diǎn)來理解其內(nèi)涵。比如有人把大數(shù)據(jù)顧名思義籠統(tǒng)地解釋為“巨量資料”,強(qiáng)調(diào)其涉及的資料量規(guī)模極其巨大,究竟巨大到何種程度呢?具體來說,就是巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到獲取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。實(shí)質(zhì)上,這個(gè)定義只強(qiáng)調(diào)了資料規(guī)模巨大的程度,并未真正解釋大數(shù)據(jù)為何物。亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)、大數(shù)據(jù)科學(xué)家JohnRauser給出的簡(jiǎn)單說法似乎更為直觀,他認(rèn)為大數(shù)據(jù)就是任何“超過了一臺(tái)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量”,這一說法雖然算不上定義,但也突出了大數(shù)據(jù)最顯著的特征——“大”。還有將大數(shù)據(jù)理解為“最大的宣傳技術(shù)”、“最時(shí)髦的技術(shù)”等說法。相比前兩類中這些含混晦澀的說法,在被譽(yù)為“大數(shù)據(jù)預(yù)言專家”的牛津大學(xué)網(wǎng)絡(luò)學(xué)院教授維克托·邁爾和《經(jīng)濟(jì)學(xué)人》數(shù)據(jù)編輯肯尼思·庫克耶合著的《大數(shù)據(jù)時(shí)代》中,作者卻給出了更為坦誠的回答:“大數(shù)據(jù)并非一個(gè)確切的概念”,一語道破天機(jī),這個(gè)沒有確切答案的回答反而讓我們對(duì)大數(shù)據(jù)的認(rèn)識(shí)更清楚了一些。接著,作者又繼續(xù)闡釋,大數(shù)據(jù)概念的產(chǎn)生最初是由于信息量過大,超出了電腦的內(nèi)存,從而催生了新的處理技術(shù),例如谷歌的MapReduce和開源 Hadoop平臺(tái)(Hadoop最初源于雅虎,旨在通過一個(gè)高度可擴(kuò)展的分布式批量處理系統(tǒng),對(duì)大型數(shù)據(jù)集進(jìn)行掃描,以獲取結(jié)果)。
綜合上述幾類理解不難發(fā)現(xiàn),大數(shù)據(jù)可以說涵蓋了人類在大規(guī)模數(shù)據(jù)的基礎(chǔ)上能夠做到的所有事情,而這些事情是在小規(guī)模數(shù)據(jù)基礎(chǔ)上所無法完成的。從而我們可以得出結(jié)論:“大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價(jià)值的源泉;大數(shù)據(jù)還是改變市場(chǎng)、組織機(jī)構(gòu)以及政府與公民關(guān)系的方法”。由此,離大數(shù)據(jù)的真面目,我們又近了一步,簡(jiǎn)單來看,大數(shù)據(jù)并不只是數(shù)據(jù),還包括“事情”、“技術(shù)”、“方法”等。雖然沒有明確界定,但我們是否也理解了“并非一個(gè)確切的概念”的涵義?
換句話說,大數(shù)據(jù)時(shí)代給我們帶來了前所未有的方式,讓我們可以通過對(duì)海量數(shù)據(jù)的分析,從中獲得有巨大價(jià)值的產(chǎn)品和服務(wù)或者深刻的洞見,最終產(chǎn)生推動(dòng)變革的力量。
盡管沒有明確嚴(yán)格的定義,也不妨礙我們進(jìn)一步了解大數(shù)據(jù)的特點(diǎn)。綜合前述各類關(guān)于大數(shù)據(jù)的說法,不難發(fā)現(xiàn),它們都強(qiáng)調(diào)了一個(gè)共同點(diǎn),那就是大數(shù)據(jù)之“大”,具體體現(xiàn)在大數(shù)據(jù)是一個(gè)體量特別巨大、數(shù)據(jù)類別極其繁多,數(shù)據(jù)來源非常廣泛、處理速度要求極高的數(shù)據(jù)集,因此無法用傳統(tǒng)的數(shù)據(jù)處理技術(shù)和數(shù)據(jù)庫管理工具(如目前企業(yè)普遍使用的關(guān)系型數(shù)據(jù)庫管理系統(tǒng))對(duì)其內(nèi)容進(jìn)行及時(shí)、有效的提取、管理和處理。業(yè)界把大數(shù)據(jù)的特點(diǎn)概括為4V,即Volume、Variety、Velocity、Veracity。特點(diǎn)之一,Volume指的是數(shù)據(jù)體量巨大,指的是一般規(guī)模達(dá)到10TB左右的大型數(shù)據(jù)集,但在企業(yè)的實(shí)際應(yīng)用中,許多企業(yè)用戶通常把很多個(gè)數(shù)據(jù)集放在一起,從而躍升至PB級(jí)的數(shù)據(jù)量;特點(diǎn)之二,Variety指的是數(shù)據(jù)類別繁多,由于數(shù)據(jù)源多種多樣,使得數(shù)據(jù)的種類和格式也越來越豐富,已經(jīng)突破了以往限定的結(jié)構(gòu)化數(shù)據(jù)的范疇,從而將半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)也囊括其中;特點(diǎn)之三,Velocity指的是數(shù)據(jù)處理速度極快,如前所述,數(shù)據(jù)量的異常龐大超出了傳統(tǒng)處理技術(shù)和模式所能,從而要求并且能夠做到數(shù)據(jù)的實(shí)時(shí)處理;特點(diǎn)之四,Veracity指的是數(shù)據(jù)真實(shí)性強(qiáng),隨著社交數(shù)據(jù)、企業(yè)交易與應(yīng)用數(shù)據(jù)等新型數(shù)據(jù)源的產(chǎn)生和發(fā)展,突破了傳統(tǒng)數(shù)據(jù)源的局限,因而企業(yè)更加需要借助于準(zhǔn)確有效的信息來確保數(shù)據(jù)的真實(shí)性和安全性。例如,亞馬遜建立的大數(shù)據(jù)系統(tǒng),每天可以處理幾百萬的后臺(tái)業(yè)務(wù)操作和超過50萬次的第三方賣家查詢,其中包括三個(gè)基于Linux的數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)容量分別達(dá)到7.8TB、18.5TB和24.7TB。再如國(guó)際零售業(yè)巨頭沃爾瑪,其建立的大數(shù)據(jù)系統(tǒng)每小時(shí)可處理超過100萬次的客戶交易,存儲(chǔ)的數(shù)據(jù)量已經(jīng)達(dá)到2560TB。
大數(shù)據(jù)起源于數(shù)據(jù)的充裕,大數(shù)據(jù)時(shí)代需要人們的思維發(fā)生三個(gè)重大的轉(zhuǎn)變,這三個(gè)轉(zhuǎn)變是相互聯(lián)系、相互作用的。
一是利用所有數(shù)據(jù),而不是隨機(jī)樣本。過去,由于技術(shù)手段的局限,只能隨機(jī)抽取樣本,而且代價(jià)很高,費(fèi)時(shí)費(fèi)力。如今,云計(jì)算和數(shù)據(jù)庫的廣泛應(yīng)用使得獲取和利用全部數(shù)據(jù)成為可能。
二是從精確到混雜。數(shù)據(jù)量的大幅增加導(dǎo)致結(jié)果的不準(zhǔn)確性,同時(shí),一些錯(cuò)誤數(shù)據(jù)也會(huì)魚目混珠進(jìn)入數(shù)據(jù)庫。小數(shù)據(jù)時(shí)代,我們要盡可能追求精確,而大數(shù)據(jù)時(shí)代,則要允許不精確,大數(shù)據(jù)通常用概率說話,而不是板著一副“確鑿無疑”的面孔。正如谷歌人工智能專家諾維格所說,大數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效。這一點(diǎn)無疑對(duì)人類固有的傳統(tǒng)思維提出了嚴(yán)峻的挑戰(zhàn),因?yàn)樵谶^去的很多年里,“精確性”一直是我們深信不疑的標(biāo)準(zhǔn),也是追求的目標(biāo),我們通常習(xí)慣于“釘是釘,鉚是鉚”的理念,仿佛只有如此才能帶給我們安全感。然而大數(shù)據(jù)時(shí)代要求我們必須做出改變,接受混亂、接受錯(cuò)誤、接受不確定性。的確,很多問題不止有一種答案,只有認(rèn)識(shí)到差異的存在、接受異己之見,人類才能真正進(jìn)步,從而更加接近我們想要探索和尋求的真相。
三是尋求相關(guān)關(guān)系,而不是因果關(guān)系。這一認(rèn)識(shí)可謂顛覆了千百年來人類的思維慣例,對(duì)人們的認(rèn)知和與世界交流的方式提出了全新的挑戰(zhàn)。
這一點(diǎn)《大數(shù)據(jù)時(shí)代》的譯者并不贊同其作者的看法,我們且不去論誰是誰非,只去理解這一觀點(diǎn)想表達(dá)的意思。之所以強(qiáng)調(diào)相關(guān)關(guān)系,主要原因之一是“相關(guān)關(guān)系分析法更準(zhǔn)確、更快,而且不易受偏見的影響”;更重要的是,這一觀點(diǎn)的提出是從大數(shù)據(jù)的核心價(jià)值出發(fā),指出“建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心”。明白了這一點(diǎn),就不難理解維克托·邁爾為何反復(fù)強(qiáng)調(diào)不去問“為什么”、而要探究“是什么”了。例如,亞馬遜著名的推薦算法,能根據(jù)消費(fèi)記錄來判斷用戶可能會(huì)喜歡什么,這些消費(fèi)記錄有可能是別人的,也有可能是該用戶歷史上的,但不能說出用戶為什么會(huì)喜歡這些產(chǎn)品的原因。不能不承認(rèn),相關(guān)性的確很重要、很有用,但是否就意味著因果關(guān)系就毫無價(jià)值可言了呢?事實(shí)并非如此,維克托·邁爾也承認(rèn):“因果關(guān)系還是有用的,但是它將不再被看成是意義來源的基礎(chǔ)?!庇纱丝磥?,之所以強(qiáng)調(diào)相關(guān)關(guān)系分析是指其對(duì)于達(dá)到預(yù)測(cè)這一目的至關(guān)重要。
由上可見,大數(shù)據(jù)帶來的信息風(fēng)暴可以說是為人類開啟了一次重大的時(shí)代轉(zhuǎn)型,不僅改變著人類的思維方式、行為方式,而且將給商業(yè)模式和管理模式帶來巨大的變革,如亞馬遜、蘋果、谷歌、微軟、Facebook、Twitter、IBM等這些大數(shù)據(jù)的先行者已經(jīng)形成了許多頗具價(jià)值的應(yīng)用案例,等待我們進(jìn)一步研究、挖掘。大數(shù)據(jù)時(shí)代充滿挑戰(zhàn),也帶來更多的機(jī)遇,誰能掌握海量的數(shù)據(jù)以及數(shù)據(jù)分析方法,誰就將在大數(shù)據(jù)時(shí)代勝出。因此,唯有認(rèn)識(shí)大數(shù)據(jù),了解大數(shù)據(jù),適應(yīng)大數(shù)據(jù),才能掌控大數(shù)據(jù),使大數(shù)據(jù)更好地為我們所用,我們也才能學(xué)會(huì)“用數(shù)據(jù)說話”!
國(guó)際商務(wù)財(cái)會(huì)2015年10期