周自恒
熟悉網(wǎng)上購物的網(wǎng)購黨可能都會有這樣的體驗(yàn),當(dāng)你在網(wǎng)上購買一支筆時(shí),網(wǎng)頁上很可能會出現(xiàn)這樣的提示:
“購買這支筆的顧客,同時(shí)還選購了以下筆記本……”
在不經(jīng)意間,系統(tǒng)竟然洞察了你的潛在需求。
這背后隱藏著的是對無數(shù)消費(fèi)者購買記錄的分析和挖掘,而這正是“大數(shù)據(jù)”的力量。。
最熟悉的陌生人
數(shù)據(jù)一直在我們身邊,古人很早就開始觀測并記錄日月星辰的運(yùn)動,指導(dǎo)農(nóng)業(yè)生產(chǎn)。自人類步入信息時(shí)代,在數(shù)據(jù)量呈井噴式爆發(fā)性增長的同時(shí),計(jì)算機(jī)的數(shù)據(jù)處理速度也同步跟進(jìn)。即便遇到大量復(fù)雜的計(jì)算,只要交給由上萬臺計(jì)算機(jī)組成的數(shù)據(jù)計(jì)算中心便可輕松應(yīng)付,這就是大數(shù)據(jù)在云端實(shí)現(xiàn)的“變身”——云計(jì)算。
技術(shù)的進(jìn)步讓人類能夠駕馭更多的數(shù)據(jù),而真正讓數(shù)據(jù)變“大”的主動力還是互聯(lián)網(wǎng)。有了互聯(lián)網(wǎng),網(wǎng)站的訪問記錄變成了數(shù)據(jù),微博上的發(fā)言變成了數(shù)據(jù),百度中搜索的關(guān)鍵詞、分享的視頻、淘寶的購買記錄也都變成了數(shù)據(jù)?;ヂ?lián)網(wǎng)不僅催生出了各類數(shù)據(jù),還將原本分散的數(shù)據(jù)孤島連接起來,讓原本靜止的數(shù)據(jù)流動起來,并實(shí)現(xiàn)了“數(shù)據(jù)”到“大數(shù)據(jù)”的變身。
直擊大數(shù)據(jù)
2011年,著名咨詢公司麥肯錫提出了“大數(shù)據(jù)(Big Data)”,之后這一概念便迅速席卷全世界。
字節(jié)(Byte)是計(jì)算機(jī)的基本存儲單位,但僅Google一天的數(shù)據(jù)處理量就有100PB之多。100PB有多大?它相當(dāng)于10萬個(gè)容量為1TB(1TB=1012字節(jié))的計(jì)算機(jī)硬盤的容量!如果你認(rèn)為PB已經(jīng)是大數(shù)據(jù)的極限,那你就大錯(cuò)特錯(cuò)了,事實(shí)上PB之上還有EB(1018字節(jié))和ZB(1021字節(jié))這些“度量大”的單位。有了它們,再龐大的數(shù)據(jù)也能對付。
在大數(shù)據(jù)時(shí)代之前,我們所需要處理的大多是電話、交易記錄等“有條理”的數(shù)據(jù),但現(xiàn)代社會郵件、微博、朋友圈等各類人與人溝通產(chǎn)生的數(shù)據(jù)、人與機(jī)器溝通產(chǎn)生的數(shù)據(jù)、甚至機(jī)器與機(jī)器之間交流產(chǎn)生的數(shù)據(jù)逐步將我們拉入大數(shù)據(jù)時(shí)代,但要想發(fā)現(xiàn)這些“雜亂無章”的大數(shù)據(jù)背后的價(jià)值并非易事。
新浪微博上每天會發(fā)出大約1億條微博,相當(dāng)于平均每分鐘發(fā)送7萬多條。有統(tǒng)計(jì)表明,2013年中,機(jī)器所產(chǎn)生的互聯(lián)網(wǎng)流量已經(jīng)首次超過了人類,搜索引擎的爬蟲程序則是最大的貢獻(xiàn)者。爬蟲程序連續(xù)不停地在互聯(lián)網(wǎng)上抓取網(wǎng)頁上的信息并制作成索引,讓我們能瞬間在網(wǎng)絡(luò)上找到我們需要的內(nèi)容。
容量(Volume)、多樣性(Variety)和速度(Velocity)是描述大數(shù)據(jù)特點(diǎn)的“3V”模型,伴隨著信息技術(shù)的發(fā)展,各種數(shù)據(jù)如雨后春筍般涌現(xiàn)。
數(shù)據(jù)記錄下的生活“痕跡”
講了這么多,你一定很想知道生活中到底哪里有大數(shù)據(jù)的影子,其實(shí)大數(shù)據(jù)早已在不知不覺中深入到生活的各個(gè)方面。
每天早上出門之前,小明都要打開手機(jī)App,查看一下當(dāng)天的天氣狀況。今天App告訴他,空氣質(zhì)量狀況良,適宜戶外活動,實(shí)時(shí)天氣情況為陰天,多云,可能伴有小雨。
天氣預(yù)報(bào)依賴的就是對大量氣象觀測數(shù)據(jù)的處理、建模和計(jì)算。在大數(shù)據(jù)時(shí)代,得益于數(shù)據(jù)分析處理水平的提升,天氣預(yù)報(bào)也越來越準(zhǔn)確,甚至還能夠提供精確到小時(shí)的天氣信息以及穿衣、防曬等建議,讓我們更合理地安排生活。
下午放學(xué),果然下起了小雨,小明打算打車回家,為了更快捷地打到車,小明想起了手機(jī)里的打車App,很快打到了車。
打車App依賴的就是對大量數(shù)據(jù)的實(shí)時(shí)處理,它將數(shù)十萬的乘客和司機(jī)通過位置信息實(shí)時(shí)匹配起來,哪里打車的人多,系統(tǒng)就引導(dǎo)司機(jī)去哪里接客,大大提高了城市的交通效率。
晚飯后,小明最近正在學(xué)習(xí)《粒子世界探秘》的在線課程,這個(gè)課程可不一般,是一個(gè)有幾百個(gè)人的教學(xué)大課堂。完成學(xué)習(xí)后,他上交了自己的作業(yè),不一會兒,他收到了請他為其他幾個(gè)同學(xué)作業(yè)評分的郵件,他知道,自己的作業(yè)也會被分配給另外幾個(gè)同學(xué)評分。
慕課(MOOC,Massive Open Online Courses)是一種大規(guī)模的在線學(xué)習(xí)模式,在虛擬課堂上,數(shù)百萬個(gè)學(xué)生可以同時(shí)上課和互動。此外,課程組織者還可以根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度和掌握情況等這些大數(shù)據(jù)對課程進(jìn)行調(diào)整和優(yōu)化,這一切都比傳統(tǒng)教育來得更精準(zhǔn)、快速,并且更具針對性。
20多年來,各個(gè)領(lǐng)域的數(shù)據(jù)量加速增長,大數(shù)據(jù)在不知不覺中已經(jīng)全面“入侵”我們的生活,改變我們的生活,也難怪會有“數(shù)據(jù)就是第二石油”的說法。
你的隱私安全嗎
2013年,棱鏡門事件引發(fā)了人們對數(shù)據(jù)安全問題的熱議。大數(shù)據(jù)時(shí)代,上網(wǎng)瀏覽、郵件、信息、信用卡消費(fèi)、網(wǎng)上購物、交通出行等這些所有的行為都包含了很多敏感的個(gè)人信息。隱私安全是大數(shù)據(jù)時(shí)代不可回避的問題之一,而大數(shù)據(jù)時(shí)代的很多應(yīng)用正是建立在匯聚和共享個(gè)人數(shù)據(jù)的基礎(chǔ)之上的,例如你在選購時(shí)可以參考別人的購物記錄和評價(jià),商家甚至可以依據(jù)你的瀏覽記錄推薦更為符合你個(gè)人喜好的商品。換句話說,大數(shù)據(jù)時(shí)代也有自己的等價(jià)交換法則——付出了隱私,相反你卻可能享受到更貼心、更方便的服務(wù)。
在隱私保護(hù)上,美國、歐盟等發(fā)達(dá)國家都已經(jīng)在積極制定相關(guān)的法律。我國也于2012年10月成立了中國通信學(xué)會大數(shù)據(jù)專家委員會。相信隨著法律體系的不斷完善,大數(shù)據(jù)潛力的挖掘與個(gè)人隱私之間的平衡一定能夠?qū)崿F(xiàn)。
大數(shù)據(jù)未來式
2014年巴西世界杯,當(dāng)你坐在電視機(jī)前看球時(shí),Google和微軟的技術(shù)團(tuán)隊(duì)卻在背后開展了一場利用大數(shù)據(jù)來預(yù)測比賽結(jié)果的較量。在淘汰賽階段總共16場比賽中,微軟預(yù)測正確率達(dá)15場,Google預(yù)測正確率達(dá)14場,兩家的成績可以說是旗鼓相當(dāng),而這正是大數(shù)據(jù)為人工智能發(fā)展注入的新動力。
在自然語言處理領(lǐng)域,現(xiàn)在計(jì)算機(jī)可以通過對互聯(lián)網(wǎng)上海量語言數(shù)據(jù)的分析和學(xué)習(xí),在一瞬間將一篇文章翻譯成幾十種語言,并且大數(shù)據(jù)和機(jī)器語言的運(yùn)用還讓語音識別變得更加準(zhǔn)確和高效。在Skype軟件中,實(shí)時(shí)對話翻譯這一技術(shù)已經(jīng)初具雛形,相信在不久的將來,我們就可以和老外無障礙地打電話聊天了。
隨著地理、交通、能源等基礎(chǔ)信息的完善,大數(shù)據(jù)也讓城市變得更加智能。交通數(shù)據(jù)的實(shí)時(shí)處理和共享不僅能夠幫助管理部門更好地進(jìn)行調(diào)度,大大緩解交通擁堵,便捷出行,還能夠在未來幫助汽車實(shí)現(xiàn)無人自動駕駛。
數(shù)據(jù)是人類的寶貴財(cái)富,通過分析和學(xué)習(xí)大數(shù)據(jù),計(jì)算機(jī)會變得更“聰明”。2015年2月,國家工信部正式批準(zhǔn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展集聚區(qū)落戶貴州,也由此正式拉開了大數(shù)據(jù)應(yīng)用的序幕。未來,相信大數(shù)據(jù)會為我們在通向智能生活的道路上帶來更大的變革。
TIPS 1
大數(shù)據(jù)時(shí)代的領(lǐng)軍人才
——數(shù)據(jù)科學(xué)家
數(shù)據(jù)科學(xué)家是大數(shù)據(jù)時(shí)代的魔術(shù)師,他們能夠從看似雜亂無章的數(shù)據(jù)中發(fā)現(xiàn)價(jià)值。打車App如何才能為乘客匹配到更多的車,網(wǎng)上商城如何才能為顧客做出更準(zhǔn)確的推薦,要解決這些問題都需要數(shù)據(jù)科學(xué)家探索數(shù)據(jù)中的規(guī)律。要成為數(shù)據(jù)科學(xué)家,你需要在數(shù)學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等多個(gè)領(lǐng)域小有所成,你要做得了科研、編得了程序、畫得了圖表、寫得了報(bào)告。當(dāng)然,數(shù)據(jù)科學(xué)家的身價(jià)自然也不菲,現(xiàn)在全球市場上的數(shù)據(jù)科學(xué)家十分搶手,對大數(shù)據(jù)感興趣的同學(xué)們,現(xiàn)在就要開始努力了哦。
TIPS 2
大數(shù)據(jù)還能預(yù)測什么?
美國總統(tǒng)大選!
2012年美國總統(tǒng)大選,一位年輕的統(tǒng)計(jì)學(xué)家奈特·希爾福運(yùn)用統(tǒng)計(jì)學(xué)和大數(shù)據(jù)預(yù)測了美國各州的選舉結(jié)果,并給出了“奧巴馬獲勝的概率為90.9%”的論斷。事實(shí)證明,他的預(yù)測完全正確,而這不僅是奈特的勝利,也是大數(shù)據(jù)的勝利。2016年又是美國大選年,據(jù)報(bào)道稱Google的預(yù)測認(rèn)為希拉里將當(dāng)選,大數(shù)據(jù)到底能不能繼續(xù)發(fā)威,讓我們拭目以待。