阿西莫夫的小說《基地》,建立在一個奇特的理論基礎(chǔ)上。這種叫做“心理史學”的學說認為,雖然個體是模糊而不可描述,但是大量人口的行動是可以精確預(yù)測的。它有點像是熱力學的擴展版,認為當人口達到某個統(tǒng)計學量級的時候,就可以精確預(yù)測世界的未來。
以巨大的數(shù)量來彌合個體之間的差異,是人們一直在做的事情。如果心理史學的設(shè)想真的可行,必然需要建立關(guān)于人們思想、行為、喜好等等數(shù)據(jù)網(wǎng)絡(luò);然而如何收集這些數(shù)據(jù)、如何處理這些量級驚人的數(shù)據(jù),阿西莫夫并沒有提及。
當然,《基地》只是一本科幻小說,而且寫于1942年。當時電子計算機尚未誕生,即使是超前如阿西莫夫者,也不會預(yù)見到數(shù)據(jù)收集能力和計算能力會達到怎樣的程度。
現(xiàn)在,心理史學的技術(shù)基礎(chǔ)似乎已逐步發(fā)展成熟。也許有一天,我們可以收集人類所有的行為數(shù)據(jù),并像預(yù)測社會性昆蟲的活動那樣,預(yù)測我們自身。乍看之下有點難以接受,但這正是大數(shù)據(jù)研究者們夢想的未來。
時代巨變
今天的企業(yè)已經(jīng)快要被數(shù)據(jù)淹沒了。Google每天處理的數(shù)據(jù)量,是世界上最大圖書館所有存書數(shù)據(jù)量的上千倍,F(xiàn)acebook每天都會更新數(shù)千萬張照片以及數(shù)十億條新條目,而世界上最大的視頻分享網(wǎng)站每秒鐘上傳的視頻長度都超過一小時。這些數(shù)據(jù)價值巨大,因為每一個片段背后都有一個活生生的人。
但是如何從數(shù)據(jù)中精準地挖掘出人們真正想要的東西,則成了前所未見的巨大挑戰(zhàn)。
這正是“大數(shù)據(jù)”這個新興領(lǐng)域所研究的問題。雖然計算機芯片的發(fā)展速度讓我們擁有了之前無法想象的計算能力,但是面對這種量級的數(shù)據(jù),依然需要探索。
2008年9月,世界上最著名的學術(shù)期刊之一《自然》做了一期大數(shù)據(jù)的??蟾趴梢砸曌鞔髷?shù)據(jù)閃亮登場的標志。然而和諸多新技術(shù)一樣,大數(shù)據(jù)也經(jīng)歷了學界的熱捧、質(zhì)疑之后,才在業(yè)界慢慢發(fā)展起來,最終成為用戶耳熟能詳、風險投資趨之若鶩的名詞。
它的動力在于人類測量、記錄和分析世界的渴望,在于人類發(fā)現(xiàn)一切的雄心:希望以一種前所未有的方式,從海量數(shù)據(jù)中挖掘出人們自己都不會意識到的需求,提供無處不在的幫助,讓這個世界變得更好。
當我們開始更多地借助計算機來探索世界的時候,也就自然而然地引發(fā)了數(shù)據(jù)爆炸。今天地球上數(shù)據(jù)產(chǎn)生的速度已經(jīng)超過了數(shù)據(jù)存儲設(shè)備生產(chǎn)的速度,而且增速沒有絲毫放緩的跡象。
當技術(shù)成熟到我們可以獲得和使用所有數(shù)據(jù),且無需在其中抽樣的時候,當我們可以借由互聯(lián)網(wǎng)訪問所有數(shù)據(jù)的時候,量變便引發(fā)了質(zhì)變。
發(fā)現(xiàn)更多的細節(jié)
從上世紀50年代開始,人們就邁開了探索機器翻譯的腳步。人們開發(fā)了各種各樣的算法,以語料庫來為機器翻譯軟件提供養(yǎng)料,希望讓計算機可以像人們一樣,學習人類的語言,最終讓語言之間的隔閡消失不見。但是,即使到了今天,機器翻譯依然遠不完美。語言的模糊性讓擅長精確的計算機一籌莫展;雖然人們已經(jīng)盡力讓計算機學會接受模糊,但是成效不彰。
2006年,Google推出了機器翻譯系統(tǒng)。它的思路完全不同:以海量的語料庫作為備選,選擇所有可能的翻譯,然后在其中選擇可能性最高的那個。它不大在意輸入的語料庫質(zhì)量,而只在乎數(shù)量。Google用一貫的思路來看待這個問題:即足夠的數(shù)量可以彌補質(zhì)量的不足- - -知道得越多,就會猜得越準。Google的科學家認為,大數(shù)據(jù)基礎(chǔ)上的簡單算法,會比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效。
維基百科也是這樣。似乎只要找對了方法,大數(shù)據(jù)就會具有某種自我清潔的能力,會更可能給出正確答案。
大數(shù)據(jù)為機器學習帶來了全新的思路,也會改變我們與這個世界交互的方式,許多過去依賴于人類判斷力的領(lǐng)域都會面臨革命。不僅僅是機器翻譯或者機器自動駕駛汽車;網(wǎng)站將會向我們推薦更適合我們的產(chǎn)品,搜索引擎將會根據(jù)我們的喜好而重排搜索結(jié)果,社交網(wǎng)站會向我們推薦我們更有興趣結(jié)識的朋友,銀行會在發(fā)現(xiàn)賬戶出現(xiàn)不合常理的支出時提出警告。
在計算能力和算法的幫助下,我們將可以分析更多的數(shù)據(jù),而不像過去那樣只依賴于抽樣分析。這將會帶來更準確的結(jié)果,并且發(fā)現(xiàn)那些傳統(tǒng)分析方式無法發(fā)現(xiàn)的細節(jié)- - -而這些細節(jié),往往會打開一扇新的大門。
改變?nèi)藗兛创龁栴}的方式
大數(shù)據(jù)讓人們擁有了全新看待問題的方式。傳統(tǒng)上,人們更熱衷于分析因果關(guān)系,例如購買婚禮用品的年輕人,往往會在之后的一年之內(nèi)購買嬰兒用品;但是在大數(shù)據(jù)領(lǐng)域,人們不這樣看問題。在海量數(shù)據(jù)面前,相關(guān)性的重要性超過了因果性。不必關(guān)心原因;只需要找到那些彼此相關(guān)的需求即可。
今年,Netflix公司開發(fā)的一部新劇成了意料之外的大熱門。這個擁有3300萬以上用戶的在線視頻租賃企業(yè)擁有海量的用戶數(shù)據(jù),不僅知道每一位用戶曾經(jīng)租過、看過什么片子,還知道他們在觀看過程中快進、回退、暫停的具體時間。根據(jù)這些數(shù)據(jù),Netflix幾乎可以描述出每位觀眾在看電影時的具體動作。
對這些數(shù)據(jù)的分析,讓這家公司發(fā)現(xiàn)了一些有趣的關(guān)聯(lián)。有些用戶喜歡同一位導(dǎo)演、同一位演員與同一部劇目。于是,他們翻拍了這部劇,請了這些受歡迎的導(dǎo)演和演員來參與,并且大手筆地砸下一億美元,拍攝了兩季26集,并且在一天內(nèi)全部上映完第一季。
這種打破了無數(shù)電視業(yè)傳統(tǒng)模式的劇目就是《紙牌屋》。Netflix完全沒有像傳統(tǒng)電視劇那樣拍出試拍集,以試探觀眾的反應(yīng);這完全是算法的勝利?!都埮莆荨返某晒Ρ灰暈榇髷?shù)據(jù)在流行文化領(lǐng)域的勝利:只要有足夠的數(shù)據(jù),我們可以計算出目標觀眾最可能最買賬的文化產(chǎn)品,對其節(jié)奏的控制甚至可以精確到每一頁或者每一分鐘。
也許對于崇尚風格和挑戰(zhàn)的文化產(chǎn)業(yè)來說,計算機的介入會設(shè)下一道電網(wǎng),讓人們唯唯諾諾于計算結(jié)果之前,不敢越雷池一步;但是,至少就目前來說,像《紙牌屋》這樣的成功,只不過是孤例而已,擔心還為時尚早。
反思和擔憂
如今連接在網(wǎng)絡(luò)上的移動設(shè)備,已經(jīng)多過了固定設(shè)備。用智能手機或者平板訪問網(wǎng)絡(luò)的用戶隨處可見,他們讓那些端坐在自家書房訪問網(wǎng)絡(luò)的人,看起來像是老古董。而可穿戴設(shè)備和更多的傳感器可能會把這一情形繼續(xù)向前推進,直到把一切我們可以想象到的事物和人都化成數(shù)據(jù)為止。
大數(shù)據(jù)時代要求我們找到方法來量化所有過去看來微不足道的小事,把所有數(shù)據(jù)都保存在永遠在線的互聯(lián)網(wǎng)上,并以此為基礎(chǔ)挖掘出前所未見的潛在價值。云計算和物聯(lián)網(wǎng)是大數(shù)據(jù)時代的基礎(chǔ),而這兩者都在逐漸成形。機器將會感測一切、計算一切,然后幫我們作出最好的選擇- - -人類的生活也許從來沒有如此安全和方便。
不過,這種設(shè)想將會導(dǎo)致對隱私的擔憂,甚至會引發(fā)憤怒情緒- - -人們不愿意承認自己的一切都可以量化,不愿意接受計算機的引導(dǎo)和建議,認為這樣喪失了人之所以為人的基礎(chǔ):模糊,不確定,隨機。美和愛這樣的感覺,該如何量化呢?
科幻作家劉慈欣的《詩云》曾經(jīng)講過一個類似的故事。外星智慧生物體會到了古詩之美,于是窮盡所有可能組合,把所有可能的詩句都記錄了下來。這些詩記錄在微小的卡片上,而制造這些卡片耗盡了地球上的大部分物質(zhì),讓地球外面圍起了一圈詩歌之云。但是,這些外星人也沒有辦法挑選出那些好詩- - -好詩,并不是可以靠算法來分析的。
這可以算是對技術(shù)發(fā)展的恒久反思。每一次革命性新技術(shù)的出現(xiàn),必然都伴隨著對人類本質(zhì)的拷問。然而,我們總是在漫長的磨合之后,才會坦然接受技術(shù)帶來的方便,同時接受與新技術(shù)共生的事實。
大數(shù)據(jù)同樣如此。每個人依然是獨一無二的個體,計算機永遠無法真正理解人類的需求;大數(shù)據(jù)只不過是一種技術(shù)手段而已,和語言、文字、印刷術(shù)、互聯(lián)網(wǎng)的作用一樣:消除真實世界中的種種限制,讓人類自己在智力發(fā)展的路徑上走得更遠。
(作者系科技專欄作者,關(guān)注IT技術(shù)、技術(shù)史和技術(shù)對社會的影響。曾出版《未來在現(xiàn)實的第幾層》等作品)