坦白地講,我并不喜歡“大數(shù)據(jù)(Big Data)”這個詞,聽起來太過技術(shù)化,又有些空洞,但大數(shù)據(jù)的威力卻是我們無論如何都無法忽視的,并將深刻地影響我們每個人的生活。
我們所做的任何一件事都會(將會)留下一條可追蹤的數(shù)字軌跡(或稱數(shù)據(jù)),而這條軌跡能夠被我們或他人利用和分析,這便是大數(shù)據(jù)存在的前提。通過捕獲和分析大數(shù)據(jù),我們能夠在短短幾分鐘內(nèi)解密人類的DNA,找到治愈癌癥的良藥,精確預(yù)測人類行為,于無聲中挫敗恐怖襲擊,進行精準(zhǔn)營銷,預(yù)防流行性疾病的發(fā)生等。當(dāng)然,正如多數(shù)新生事物一樣,大數(shù)據(jù)也具有兩面性,既能造福于全人類,也能帶來災(zāi)難性的后果。
大數(shù)據(jù)的應(yīng)用與我們抓取分析當(dāng)下產(chǎn)生的數(shù)據(jù)的能力息息相關(guān)。若能全面利用這些龐雜的數(shù)據(jù),我們便可以理解周圍的世界,以及存在于其中的萬事萬物。你可能質(zhì)疑:這些內(nèi)容有什么新鮮的嗎?一些公司和機構(gòu)不是一直在抓取和分析數(shù)據(jù)嗎?的確如此,但有兩個因素正發(fā)生著質(zhì)的變化,這也是“大數(shù)據(jù)”之所以成為大數(shù)據(jù)的根本原因:
我們生成的新數(shù)據(jù)的體量變得空前龐大——我將其稱之為世界的“數(shù)據(jù)化”。
我們分析大量數(shù)據(jù),處理多種復(fù)雜數(shù)據(jù)的能力在近年來獲得了突飛猛進的發(fā)展。
世界的全面數(shù)據(jù)化
所有活動和行為(人類行為或其他行為)都將會留下可追蹤的數(shù)字軌跡(這一想法讓人瞬間感到后背發(fā)涼,有種深深的不安):
人與人之間的信息交流越來越多地留下數(shù)字記錄:我們的郵件存儲在公司的系統(tǒng)中,我們在社交媒體的狀態(tài)更新被備份存檔,我們的通話被轉(zhuǎn)換成數(shù)據(jù)信息保存起來。
我們參加的活動正越來越多地被數(shù)據(jù)歸檔:在數(shù)據(jù)化的世界里,我們所做的任何事情幾乎都會留下一條數(shù)字尾巴。例如,瀏覽器會記錄我們的搜索和訪問歷史,網(wǎng)站會記錄我們的每一次鼠標(biāo)點擊行為,以及我們何時購買了哪種商品和服務(wù),分享了哪張圖片和文章,對哪則笑話或視頻點了贊。當(dāng)我們閱讀電子書,聽音樂時,設(shè)備會記錄我們所閱讀的書籍,所聽的音樂,以及相應(yīng)的頻次,除了收集這些信息,廠商甚至還會將其共享。當(dāng)我們使用信用卡或儲蓄卡進行支付轉(zhuǎn)賬時,這些信息也會被記錄下來。
現(xiàn)在,絕大多數(shù)照片和視頻的拍攝和存儲都是數(shù)字化的。想想世界上每天數(shù)以百萬小時計的監(jiān)控錄像你就會發(fā)現(xiàn)這個世界有多么的可怕。此外,我們更加依賴用手機和數(shù)碼相機拍攝視頻和照片,這也就直接導(dǎo)致了Youtube每分鐘上傳的視頻時長多大100小時,而Facebook上每分鐘上傳的照片多達(dá)20萬張。
智能設(shè)備和各類傳感器正在變得無孔不入,何時產(chǎn)生了大量的數(shù)據(jù):智能手機跟蹤監(jiān)測我們的位置和移動的速度,研究人員在海洋中投放傳感器監(jiān)測溫度和洋流,汽車內(nèi)有傳感器監(jiān)控我們的駕駛行為,貨物的包裝上也配置了傳感器,用以監(jiān)測貨物在供應(yīng)鏈中的運輸狀態(tài)。智能手表、Google Glass以及電子計步器都在記錄和收集數(shù)據(jù)。越來越多的設(shè)備開始接入互聯(lián)網(wǎng),從而進行數(shù)據(jù)的收集和共享。智能電視和各類電視盒子能夠跟蹤監(jiān)測你正在觀看的節(jié)目,觀看的時長,甚至監(jiān)測電視前坐了幾個觀眾。
讀到這里,你可能已經(jīng)大致明白什么是大數(shù)據(jù)了。而對于呈指數(shù)級增長的數(shù)據(jù)量,Google的CEO施密特給出了形象具體的說明:“從人類文明的產(chǎn)生到2003年,人類產(chǎn)生的總的數(shù)據(jù)量為50億GB,而現(xiàn)在,人類兩天便能夠產(chǎn)生這么多的數(shù)據(jù)此外,數(shù)據(jù)的生產(chǎn)速度還在不斷加快?!?/p>
由此可見,人類所產(chǎn)生的數(shù)據(jù)量已非常人所能想象。另外一件發(fā)生變革的事情是,人類已有足夠的技術(shù)能力分析信息多種復(fù)雜的數(shù)據(jù),如通話記錄,視頻和照片信息,以及聊天記錄。這也就是人們常說的“大數(shù)據(jù)”的4V:
Volume-數(shù)據(jù)體量巨大。
Velocity-數(shù)據(jù)的產(chǎn)生和傳輸速速極快(信用卡詐騙交易的監(jiān)測便是一個很好的例證:銀行等機構(gòu)實時監(jiān)測數(shù)以百萬計的交易信息,并辨別其中的非常規(guī)交易)。
Variety-數(shù)據(jù)類型繁多(金融數(shù)據(jù)、網(wǎng)絡(luò)日志、音頻、視頻、圖片、傳感數(shù)據(jù)、地理位置信息等等)。
Veracity-數(shù)據(jù)的真實性,價值密度低如,連續(xù)不間斷視頻監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒)。
人類當(dāng)前所擁有的數(shù)據(jù)量遠(yuǎn)多于任何時代,數(shù)據(jù)的形式也愈發(fā)復(fù)雜多樣,傳播速度更快,數(shù)據(jù)的質(zhì)量和價值也是參差不齊——這又將對我們的世界產(chǎn)生怎樣的影響?好在,人類已經(jīng)開發(fā)出了相應(yīng)的工具,將大體量的數(shù)據(jù)分解成更小的數(shù)據(jù)組,從而運用計算機集群去分析和處理。下面是一些大數(shù)據(jù)分析的應(yīng)用案例:
FBI正在通過社交網(wǎng)絡(luò)、攝像探頭、通話和短信記錄追蹤監(jiān)控罪犯,并預(yù)測下一次恐怖襲擊。
大型超市則將顧客的購物卡數(shù)據(jù)和社交網(wǎng)絡(luò)信息相關(guān)聯(lián),進而監(jiān)測和改變用戶的購物模式。例如,零售商可以通過檢測女性的購物模式,輕易地推測出她是否懷孕,從而能夠有針對性地推銷嬰幼兒用品。
Facebook則通過面部識別技術(shù),將你上傳的照片和其他人的進行比對,辨別出哪些人可能是你的朋友。
政客們通過對社交媒體的數(shù)據(jù)進行分析,確定自己需要在哪些地區(qū)加強宣傳拉票力度,以贏得下次選舉。
通過對棒球和足球比賽視頻和傳感器數(shù)據(jù)的分析,改進訓(xùn)練方式和技術(shù),提高運動員的成績。例如,你可以購買一個內(nèi)置多達(dá)200個傳感器的棒球,之后你便能夠好的詳細(xì)的反饋數(shù)據(jù),告訴你該如何提高比賽成績。
像Lady Gaga等歌手通過收集用戶的音樂偏好和播放列表,從而確定演唱會的演唱曲目和演唱順序。
Google的無人駕駛汽車正是通過實時收集大量的傳感器和攝像頭數(shù)據(jù),確保汽車的行駛安全。
我們手機的GPS信息,包括位置和移動速度則被用來實時監(jiān)測交通狀況。
一些公司則通過監(jiān)測Facebook和Twitter的用戶狀態(tài)更新數(shù)據(jù),對其進行情感性分析,進而評估和預(yù)測產(chǎn)品銷量和品牌價值。
醫(yī)院的兒科收治了大量的早產(chǎn)兒和嬰幼兒患者,這便會產(chǎn)生與之相關(guān)的實時數(shù)據(jù)信息。通過對這些數(shù)據(jù)進行分析,辨識其中的模式和動態(tài),我們能夠在患兒表現(xiàn)出任何癥狀前的24小時確定感染情況,及早采取預(yù)防和救治措施。
繞不開的隱私問題
在討論大數(shù)據(jù)時,如果對隱私問題只字不提,那么便是在掩耳盜鈴,自欺欺人。對于零售商、信用卡公司、搜索服務(wù)提供商、郵件或社交媒體公司在用戶隱私數(shù)據(jù)的使用上,人們已經(jīng)進行了多方探討。此外,隨著棱鏡門的發(fā)酵和傳播,人們對于大數(shù)據(jù)愈發(fā)謹(jǐn)慎,關(guān)于隱私問題的討論甚囂塵上。這仍然是一個問題,縈繞在每個人的心頭,就像大數(shù)據(jù)一樣,無處不在,卻又仿佛無所在。我們在享受大數(shù)據(jù)所帶來的便利的同時,亦須承受其副作用,或許可以用一句流行語來概括:痛并快樂著。