放眼望去,大數(shù)據(jù)時代已經(jīng)撼動了美國社會的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟(jì)、人文以及社會的其他各個領(lǐng)域,并催生了了各行各業(yè)的變革力量。
大數(shù)據(jù)在美國已經(jīng)發(fā)展到如火如荼的地步。政府部門、IT企業(yè)、零售、醫(yī)療等傳統(tǒng)行業(yè)以及互聯(lián)網(wǎng)、軟硬件公司將大數(shù)據(jù)能夠帶來的方方面面都展示在人們面前——盡管這些在美國還被認(rèn)為是“初級階段”——放眼望去,大數(shù)據(jù)時代已經(jīng)撼動了美國社會的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟(jì)、人文以及社會的其他各個領(lǐng)域。
因?yàn)槠浔澈蟮难爻泻捅l(fā)的背景如此重要,目前科技界和學(xué)術(shù)界的人士甚至預(yù)測,大數(shù)據(jù)作為一項(xiàng)技術(shù)和理念本身,很有可能避免成為一下硅谷臭名昭著的“技術(shù)成熟度曲線”的受害者。這個曲線曾經(jīng)昭示,一個新技術(shù)誕生后,經(jīng)過新聞媒體和學(xué)術(shù)會議的大肆宣傳,該趨勢將一下子跌到谷底,許多創(chuàng)業(yè)公司變得岌岌可危,直到發(fā)展到一定階段再重新爆發(fā)——這個曲線云計算曾經(jīng)且正在經(jīng)歷,但大數(shù)據(jù)很有可能“幸免”。
一個說得通的原因是,在目前的美國,“大數(shù)據(jù)”的概念遠(yuǎn)不止大量的數(shù)據(jù)(TB)和處理大量數(shù)據(jù)的技術(shù),或者所謂的“4個V”之類的簡單概念,而是涵蓋了人們在大規(guī)模數(shù)據(jù)的基礎(chǔ)上可以做到的事情,而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)上是無法實(shí)現(xiàn)的。
所以變革將無法避免。而對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟(jì)價值的來源。
《大數(shù)據(jù)時代》一書的作者,維克托·邁爾·舍恩伯格上月底來到中國時,向一眾業(yè)內(nèi)和媒體人士著重介紹了其對大數(shù)據(jù)時代可能產(chǎn)生的價值變革的判斷依據(jù)和論斷結(jié)果。在回答記者的現(xiàn)場提問時,維克托表示,我們現(xiàn)在討論的商業(yè)公司的形式是前大數(shù)據(jù)時代的模式,那么在大數(shù)據(jù)時代,從現(xiàn)有的模式中找模式是非常有問題的。我們要用新思維來衡量一切,包括新的企業(yè)模式,企業(yè)間關(guān)系以及社會、政府、商業(yè)等的關(guān)系。
大數(shù)據(jù)的科學(xué)價值和社會價值正是體現(xiàn)在這里。
被改變的政治與政府
一個略有被媒體夸大但基本屬實(shí)的案例是,奧巴馬今年成功連任美國總統(tǒng),其背后那個幾十人構(gòu)成的數(shù)據(jù)分析與挖掘團(tuán)隊至關(guān)重要。
這支團(tuán)隊在2008年奧巴馬競選時就已存在并發(fā)揮作用。而這次,他們更動用了5倍于上屆的人員規(guī)模,且進(jìn)行了更大規(guī)模與深入的數(shù)據(jù)挖掘。它幫助奧巴馬在獲取有效選民、投放廣告、募集資金方面起到一定作用。事實(shí)證明,奧巴馬募集到的資金盡管與對手羅姆尼募集的資金規(guī)模不相上下,但前者從普通民眾直接募集到的資金是后者的近兩倍。據(jù)一項(xiàng)調(diào)查顯示,奧巴馬團(tuán)隊籌得的第一個1億美金中,98%來自于小于250美金的小額捐款,而羅姆尼團(tuán)隊在籌得相同數(shù)額捐款的情況下,這一比例僅為31%。
以競選工作組發(fā)言ABen LaBolt的話來形容:奧巴馬團(tuán)隊擁有“核代碼”——數(shù)據(jù)是能夠擊敗羅姆尼的最根本優(yōu)勢。更“極端”的說法是,奧巴馬勝選的原因不在于經(jīng)濟(jì)、外交政策或是婦女問題,而是贏在大數(shù)據(jù)!
當(dāng)然,這個說法難免牽強(qiáng),但仍可以看做美國政治或者說政界人士受到科技的影響越來越大——據(jù)《大數(shù)據(jù):正在到來的數(shù)據(jù)革命》一書作者徐子沛在不久前的一次沙龍上透露,目前美國許多政界人士都十分重視社交網(wǎng)絡(luò),并期冀通過數(shù)據(jù)挖掘和數(shù)據(jù)分析從中獲益。而數(shù)據(jù)創(chuàng)新給公民、政府、社會帶來的種種挑戰(zhàn)和變革,已經(jīng)深入人心。
但社交媒體分析,僅僅是大數(shù)據(jù)“冰山一角”的部分。
在目前已被認(rèn)可的范疇中,大數(shù)據(jù)的價值鏈中,數(shù)據(jù)本身、技能以及思維三個層面是核心競爭領(lǐng)域,社交媒體分析可以看做是數(shù)據(jù)分析技能層面的細(xì)分領(lǐng)域,也是傳統(tǒng)數(shù)據(jù)挖掘范疇下的新變種。
在數(shù)據(jù)領(lǐng)域占據(jù)領(lǐng)先地位的美國,已經(jīng)在這三個層面都取得了長足發(fā)展,其中,政府層面的變化極為明顯,甚至將數(shù)據(jù)價值提升到了國家戰(zhàn)略層面——2012年3月,奧巴馬政府宣布“大數(shù)據(jù)的研究和發(fā)展計劃?!卑讓m聲明公開稱:“通過提高代們從大型復(fù)雜的數(shù)字?jǐn)?shù)據(jù)集中提取知識和觀點(diǎn)的能力,承諾幫助加快在科學(xué)與工程中的步伐,加強(qiáng)國家安全,并改變教學(xué)研究?!?/p>
在這個計劃里,美國國家科學(xué)基金、國家衛(wèi)生研究院、能源部、國防部、國防部高級研究計劃局、地質(zhì)勘探局等6個聯(lián)邦政府部門,宣布將啟動2億美元的投資計劃,提高從大量數(shù)字?jǐn)?shù)據(jù)中訪問、組織、收集發(fā)現(xiàn)信息的工具和技術(shù)水平,從而了解更多正在進(jìn)行的聯(lián)邦政府的計劃,解決所大數(shù)據(jù)所帶來的機(jī)遇和挑戰(zhàn),并計劃與工業(yè)界、大學(xué)研究界、非營利性機(jī)構(gòu)與管理者一起利用大數(shù)據(jù)所創(chuàng)造的機(jī)會。
其中,美國國家衛(wèi)生研究院開展的免費(fèi)開放由國際千人基因組計劃,它將創(chuàng)建的人類遺傳變異研究數(shù)據(jù)集,供研究人員自由訪問和使用;美國國家科學(xué)基金會和美國國家衛(wèi)生研究院將對大數(shù)據(jù)進(jìn)行聯(lián)合招標(biāo),改進(jìn)核心科學(xué)與技術(shù)手段,提高從各種大型數(shù)據(jù)集中提取重要信息并對其進(jìn)行有效管理、分析和可視化的能力;美國國防部則計劃每年投資2.5億美元左右,在各個軍事部門開展一系列研究計劃,旨在以創(chuàng)新方式使用海量數(shù)據(jù),通過感知、認(rèn)知和決策支持的結(jié)合,加強(qiáng)大數(shù)據(jù)決策力;美國能源部則將斥資2500萬美元建立可擴(kuò)展數(shù)據(jù)管理與可視化研究所(SDAV),幫助科學(xué)家對數(shù)據(jù)進(jìn)行有效管理,促進(jìn)其生物和環(huán)境研究計劃、美國核數(shù)據(jù)計劃等的研究成果……
而作為奧巴馬開放政府承諾的產(chǎn)物,2009年至今Data.gov全面開放了40萬聯(lián)邦政府原始數(shù)據(jù)集。目前Data.gov宣布采用新“開源政府平臺”管理數(shù)據(jù),代碼將向各國開發(fā)者開放。從這個角度看,大數(shù)據(jù)已成為美國國家創(chuàng)新戰(zhàn)略、國家安全戰(zhàn)略、國家ICT產(chǎn)業(yè)發(fā)展戰(zhàn)略以及國家信息網(wǎng)絡(luò)安全戰(zhàn)略的交叉領(lǐng)域、核心領(lǐng)域。
當(dāng)然從現(xiàn)在來看,說大數(shù)據(jù)改變美國政治或政府的確有些夸張,但從另一層面看,美國政府的開放性數(shù)據(jù)服務(wù)轉(zhuǎn)型正走在世界前列。
被變革的行業(yè)與產(chǎn)業(yè)
大數(shù)據(jù)價值本身的被認(rèn)知與被挖掘,建立在一個前提下——數(shù)據(jù)化。我們不能將數(shù)據(jù)化等同為數(shù)字化,后者不過是將模擬數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制碼方便計算機(jī)存儲和分析,而前者則是把日常生活、生產(chǎn)、商業(yè)等方方面面的現(xiàn)象轉(zhuǎn)化為可制表分析的量化形式的過程。
正是這個過程,形成了各行各業(yè)的變革力量——因?yàn)檫@是大數(shù)據(jù)時代所獨(dú)有的一種新型能力:以一種前所未有的方式,通過對海量數(shù)據(jù)進(jìn)行分析,獲得有巨大價值的產(chǎn)品和服務(wù),或深刻的洞見。
中科院計算所所長孫凝暉對此表示,“大數(shù)據(jù)在未來很可能會成為一個新的行業(yè),而且大數(shù)據(jù)本身也超越了互聯(lián)網(wǎng)行業(yè),不僅僅是在網(wǎng)絡(luò),生物基因本身也是大數(shù)據(jù),各個物種的基因數(shù)據(jù)產(chǎn)生以后也會產(chǎn)生很多的學(xué)術(shù)價值。商業(yè)價值?!边@種說法并非沒有依據(jù)。
從美國市場上已經(jīng)發(fā)生的案例來看,互聯(lián)網(wǎng)行業(yè)、商業(yè)智能與咨詢服務(wù)領(lǐng)域、零售行業(yè)受益最大,但醫(yī)療、衛(wèi)生、交通、物流甚至生物科技、天文等領(lǐng)域,都開始“承認(rèn)”大數(shù)據(jù)的價值。事實(shí)上在美國各個行業(yè)和應(yīng)用領(lǐng)域,大數(shù)據(jù)的應(yīng)用已經(jīng)遍地開花。
互聯(lián)網(wǎng)行業(yè),雅虎于2008年初便開始啟用大數(shù)據(jù)技術(shù),每天分析超過200PB的數(shù)據(jù),使得雅虎的服務(wù)變得更人性化,更貼近用戶和客戶。它與雅虎IT系統(tǒng)的方方面面進(jìn)行協(xié)作,包括搜索、廣告、用戶體驗(yàn)和欺詐發(fā)現(xiàn)等;為了更深入的了解每一個用戶,亞馬遜不僅從每個用戶的購買行為中獲得信息,還將每個用戶在其網(wǎng)站上的所有行為都記錄下來,這些數(shù)據(jù)的有效分析使得亞馬遜對于客戶的購買行為和喜好有了全方位了解,對于其貨品種類、庫存、倉儲、物流、及廣告業(yè)務(wù)上都有著極大的效益回饋。
醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用也正在爆發(fā)——喬布斯通過大數(shù)據(jù)輔助癌癥治療,通過智能手機(jī)上的應(yīng)用程序來監(jiān)測病人的身體顫動,甚至如丹麥癌癥協(xié)會通過大數(shù)據(jù)來研究手機(jī)使用是否致癌,還有微軟這樣的公司來分析病患的再入住率等。最著名的案例來自谷歌——在2009年,甲型H1N1流感爆發(fā)的幾周前,互聯(lián)網(wǎng)巨頭谷歌公司的工程師們在《自然》雜志上發(fā)表了一篇引人注目的論文。它令公共衛(wèi)生官員們和計算機(jī)科學(xué)家們感到震驚——文中表示,和疾控中心一樣,谷歌也能判斷出流感是從哪里傳播出來的,而且他們的判斷非常及時,不會像疾控中心一樣要在流感爆發(fā)一兩周之后才可以做到。谷歌公司發(fā)現(xiàn)能夠通過人們在網(wǎng)上檢索的詞條辨別出其是否感染了流感后,把5 000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進(jìn)行了比較。而通過一個數(shù)學(xué)模型處理后,他們的預(yù)測與官方數(shù)據(jù)的相關(guān)性高達(dá)97%。所以,2009年甲型H1NI流感爆發(fā)的時候,與習(xí)慣性滯后的官方數(shù)據(jù)相比,谷歌成為了一個更有效、更及時的指示標(biāo)。公共衛(wèi)生機(jī)構(gòu)的官員獲得了非常有價值的數(shù)據(jù)信息。
不得不提的還有零售行業(yè)。實(shí)際上,諸如沃爾瑪、Tesco(英國零售巨頭)等巨頭已從數(shù)據(jù)中獲得了巨大的利益,也因此鞏固了自己在業(yè)界的長盛不衰。以曾經(jīng)因“少女懷孕事件”而成為大數(shù)據(jù)典型案例的Tesco公司為例,這家全球利潤第二大的零售商從其會員卡的用戶購買記錄中,充分了解一個用戶是什么“類別”的客人,如速食者、單身、有上學(xué)孩子的家庭等等,并基于這些分類進(jìn)行一系列的業(yè)務(wù)活動,比如,通過郵件或信件寄給用戶的促銷可以變得十分個性化,店內(nèi)的上架商品及促銷也可以根據(jù)周圍人群的喜好、消費(fèi)的時段來更加有針對性,從而提高貨品的流通。這樣的做法為Tesco獲得了豐厚的回報,僅在市場宣傳一項(xiàng),就能幫助Tesco每年節(jié)省3.5億英鎊的費(fèi)用。
此外在能源行業(yè),Saas型軟件公司Opower使用數(shù)據(jù)來提高消費(fèi)用電的能效,并取得了顯著的成功一Opower與多家電力公司合作,分析美國家庭用電費(fèi)用并將之與周圍的鄰居用電情況進(jìn)行對比,被服務(wù)的家庭每個月都會收到一份對比的報告,顯示自家用電在整個區(qū)域或全美類似家庭所處水平,以鼓勵節(jié)約用電。據(jù)報道,Opower的服務(wù)已覆蓋了美國幾百萬戶居民家庭,預(yù)計為美國消費(fèi)用電每年節(jié)省5億美元。
最值得一提的是生物信息行業(yè)。生物信息是繼互聯(lián)網(wǎng)行業(yè)之后數(shù)據(jù)進(jìn)發(fā)最迅速的行業(yè),并將遠(yuǎn)遠(yuǎn)超過互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù):人類用0和1創(chuàng)造了虛擬世界,而造物主用A/C/T/G四種元素創(chuàng)造了萬物生靈,生命的產(chǎn)生、發(fā)展、消亡的奧秘盡在其中。隨著測序技術(shù)的發(fā)展,金基因組的測序價格由十年前的上億美元降至今天的數(shù)千美元,這使得更多人、物種的DNA信息的獲取成為可能。個體全基因組信息的獲取,使得個性化診療服務(wù)成為可能。大數(shù)據(jù)時代,一切的一切都存在著可能,而這一切的改變我們也正在體驗(yàn)之中。
被重塑的價值與思維
事實(shí)上,自20世紀(jì)末以來,信息變革一直在發(fā)生,但此前都集中在技術(shù)上,而大數(shù)據(jù)時代的到了讓我們開始關(guān)注信息本身。
數(shù)據(jù)一貫被我們冠以“精確”的標(biāo)簽,但維克托·邁爾·舍恩伯格認(rèn)為,“執(zhí)迷于精確性是信息缺乏時代和模擬時代的產(chǎn)物,只有5%的數(shù)據(jù)時有框架且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不接受模糊,那么9%的非框架數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶?!?/p>
換句話說,全樣本時代的大數(shù)據(jù)的簡單算法,比小數(shù)據(jù)的復(fù)雜算法更有效。Google的翻譯系統(tǒng)備受好評,但它不需要像IBM曾重金打造的Candide系統(tǒng)一樣精確的翻譯300萬句話,而是靠掌握的不同語言翻譯的質(zhì)量參差不齊的數(shù)百億頁文檔——它把語言看做是可以判別可能性的數(shù)據(jù),而不是語言本身。這個例子意味著,我們不再需要擔(dān)心某個數(shù)據(jù)點(diǎn)對整套分析的不利影響,而是要接受這些紛繁的數(shù)據(jù)并從中收益,而不是以高昂的代價消除所有的不確定性。
大數(shù)據(jù)的科學(xué)價值和社會價值正是體現(xiàn)在這里。一方面,對大數(shù)據(jù)的掌握程度可以轉(zhuǎn)化為經(jīng)濟(jì)價值的來源。不過一個問題是,另一方面,大數(shù)據(jù)時代已經(jīng)撼動了世界的方方面面,從商業(yè)科技到醫(yī)療、政府、教育、經(jīng)濟(jì)、人文以及社會的其他各個領(lǐng)域——最簡單的,亞馬遜可以幫我們推薦想要的書,谷歌可以為關(guān)聯(lián)網(wǎng)站排序,facebook知道我們的喜好,而Linkedln可以猜出我們認(rèn)識誰。當(dāng)然,同樣的技術(shù)也可以運(yùn)用到疾病診斷、推薦治療措施,甚至是識別潛在犯罪分子上。
一個更美好的比喻是:“如果說20世紀(jì)是一個石油為王的時代,21世紀(jì)就是一個數(shù)據(jù)為王的時代,21世紀(jì)數(shù)據(jù)的價值有可能等同于20世紀(jì)的石油。”值得注意的是,目前互聯(lián)網(wǎng)為主的技術(shù)和服務(wù)能力對大數(shù)據(jù)的處理和挖掘還遠(yuǎn)遠(yuǎn)不夠,未來會有更多的有價值的數(shù)據(jù)從海量的大數(shù)據(jù)里發(fā)掘出來,產(chǎn)生很多新的商業(yè)形態(tài)、新的企業(yè)和新的服務(wù)。
但大數(shù)據(jù)的變革力量還不止于此——最核心的論題是,大數(shù)據(jù)只提供參考答案,不是最終答案。因?yàn)樗艞壛藢σ蚬P(guān)系的渴求,而只關(guān)注相關(guān)關(guān)系——只需要知道是什么,而不需知道為什么——這徹底推翻了自古以來的慣例,所以我們理解現(xiàn)實(shí)和做決定的基礎(chǔ)也將受到根本性挑戰(zhàn)。在這種情況下,大數(shù)據(jù)將與互聯(lián)網(wǎng)的發(fā)明一樣,這絕不僅僅是信息技術(shù)領(lǐng)域的革命,更是在全球范圍啟動透明政府、加速行業(yè)企業(yè)創(chuàng)新、引領(lǐng)社會變革的利器。
從這個角度出發(fā),技術(shù)革新之外,思維模式的革新和管理變革不可避免,數(shù)據(jù)驅(qū)動型的企業(yè)和政府正在變得可能。
透視美國大數(shù)據(jù)爆發(fā)全景,一場生活、工作與思維的大變革正在發(fā)生。