■段鵬松
當前,大數(shù)據(jù)是個很熱的詞,各種大數(shù)據(jù)分析工具也時常出現(xiàn),讓人感覺非常時髦。那么,大數(shù)據(jù)究竟是什么?目前的研究進展如何?對普通人的生活有何影響?本文將圍繞這些問題展開介紹。
人類的一切語言文字、圖形圖畫、音像記錄等,所有感官可以察覺到的事物,只要能被記下來,能夠查詢到,都可以稱為數(shù)據(jù)(data)。大數(shù)據(jù)也是數(shù)據(jù),但又不同于一般的數(shù)據(jù)。一般來說,大數(shù)據(jù)除了一般數(shù)據(jù)的特征,還具有體量巨大、處理速度快、數(shù)據(jù)類型多樣和潛在價值高這四個特征。
1.體量巨大。體量巨大指的是大數(shù)據(jù)包含的數(shù)據(jù)數(shù)量非常多,占用的存儲空間較大。以平時接觸較多的手機流量來說,常見統(tǒng)計單位為kB、MB和GB等。這些統(tǒng)計單位之間的關(guān)系為1GB=1024MB,1MB=1024kB。就目前的技術(shù)而言,要成為大數(shù)據(jù),存儲至少達到TB級別以上,而1TB=1024GB。但要注意,如果只是體量巨大,而結(jié)構(gòu)單一,也不能稱為大數(shù)據(jù)。
2.處理速度快。實際生活中,數(shù)據(jù)量可能會隨著時間的積累而不斷增長,也可能隨著空間的變化而不斷變化。數(shù)據(jù)都具有一定的時效性,如果采集到的數(shù)據(jù)不能得到及時處理,最終會過期作廢,失去應(yīng)用的價值。對于海量的數(shù)據(jù),如果能在有效時間內(nèi)完成處理,則可以稱為大數(shù)據(jù);反之,則不能稱之為大數(shù)據(jù)。
3.數(shù)據(jù)類型多樣。作為大數(shù)據(jù),其包含的數(shù)據(jù)類型可能是多種多樣的,并不僅僅局限于一種數(shù)據(jù)類型。目前,文字、圖片、語音、圖像,一切在網(wǎng)絡(luò)上可以傳輸和顯示的信息,都可以屬于大數(shù)據(jù)的范疇。從結(jié)構(gòu)上來說,當前的大數(shù)據(jù)主要指半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息,如網(wǎng)站的各種日志文件、發(fā)布的音視頻文件等。
4.潛在價值高。大數(shù)據(jù)應(yīng)用的最終目的是通過挖掘和分析,發(fā)現(xiàn)趨勢或規(guī)律,進而指導(dǎo)實際工作。如果數(shù)據(jù)本身是毫無規(guī)律的,不能對實際工作行程進行指導(dǎo),則不能稱為大數(shù)據(jù)。盡管大數(shù)據(jù)的潛在價值高,但由于數(shù)據(jù)量巨大,所以價值密度低,要通過大量分析才能實現(xiàn)從數(shù)據(jù)到價值的轉(zhuǎn)變。
迄今為止,已經(jīng)有不少的大數(shù)據(jù)應(yīng)用經(jīng)典案例,這些案例的出現(xiàn),使人們真正認識了大數(shù)據(jù)的威力。
1.啤酒與尿布。20世紀90年代,全球零售業(yè)巨頭沃爾瑪在對消費者購物行為分析時發(fā)現(xiàn),男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來搞勞自己,于是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了,取得了較好的經(jīng)濟效益。如今,“啤酒+尿布”的例子早已成了大數(shù)據(jù)技術(shù)應(yīng)用的經(jīng)典案例,被人們津津樂道。
2.Google成功預(yù)測冬季流感。2009年,Google通過分析5000萬條美國人最頻繁檢索的詞匯,將之和美國疾病中心在2003年到2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進行比較,并建立一個特定的數(shù)學模型。通過該模型,最終成功預(yù)測了2009年冬季流感的傳播,甚至可以具體到特定的地區(qū)和州。
3.大數(shù)據(jù)與喬布斯癌癥治療。喬布斯是蘋果手機的創(chuàng)始人,也是世界上第一個對自身所有DNA和腫瘤DNA進行排序的人。他支付了高達幾百萬美元的費用,得到包括整個基因的數(shù)據(jù)文檔。醫(yī)生根據(jù)分析結(jié)果按需下藥,最終這種方式幫助喬布斯延長了好幾年的生命。
除此之外,還有其他很多的大數(shù)據(jù)應(yīng)用案例,如淘寶平臺對用戶的精準畫像、“互聯(lián)網(wǎng)+”思維下的平臺優(yōu)勢,以及近年來頻頻爆出的演唱會上利用AI技術(shù)和人臉大數(shù)據(jù)抓捕逃犯等。隨著技術(shù)的不斷發(fā)展,未來會有更多的大數(shù)據(jù)應(yīng)用出現(xiàn)。
目前,IT界普遍認為當前大數(shù)據(jù)技術(shù)主要起源于谷歌。谷歌工程師在2003至2006年先后公開發(fā)表了關(guān)于MapReduce、GFS和BigTable等核心技術(shù)的學術(shù)論文,這一系列技術(shù)迅速引起巨大反響,吸引了雅虎、Facebook等互聯(lián)網(wǎng)公司的注意,直接導(dǎo)致了目前應(yīng)用最為廣泛的開源大數(shù)據(jù)框架ApacheHadoop的誕生。
隨著人們對數(shù)據(jù)科學的深入認識,發(fā)達國家都意識到數(shù)據(jù)作為國家戰(zhàn)略資產(chǎn)的重要性,以美國為首的多個國家先后發(fā)布了大數(shù)據(jù)的國家發(fā)展戰(zhàn)略,聯(lián)合國也發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》白皮書。報告中總結(jié)了各國政府如何利用大數(shù)據(jù)更好地服務(wù)和保護人民,指出了大數(shù)據(jù)的到來對于聯(lián)合國和各國政府是個歷史性機遇。
在國內(nèi),大數(shù)據(jù)技術(shù)也提上了國家的戰(zhàn)略發(fā)展日程。2013年,我國多位院士聯(lián)合上書國務(wù)院,建議設(shè)立國家專項開展大數(shù)據(jù)技術(shù)研究,將大數(shù)據(jù)上升為國家戰(zhàn)略。在2014年的兩會上包括金山和小米公司董事長雷軍在內(nèi)的多位代表提出加快實施大數(shù)據(jù)國家戰(zhàn)略的建議。2016年,工業(yè)和信息化部正式印發(fā)了《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》,全面部署“十三五”時期大數(shù)據(jù)產(chǎn)業(yè)發(fā)展工作,加快建設(shè)數(shù)據(jù)強國,為實現(xiàn)制造強國和網(wǎng)絡(luò)強國提供強大的產(chǎn)業(yè)支撐。
由上可見,大數(shù)據(jù)技術(shù)及應(yīng)用已經(jīng)成為一項新的戰(zhàn)略,受到政府部門的高度重視。未來,大數(shù)據(jù)技術(shù)作為一個成熟的技術(shù),將應(yīng)用到國計民生的各個領(lǐng)域,對各個領(lǐng)域帶來巨大的沖擊和變革,以及前所未有的發(fā)展機遇。
未來,大大數(shù)據(jù)技術(shù)發(fā)展將呈現(xiàn)以下幾個趨勢。
1.可視化推動大數(shù)據(jù)發(fā)展平民化。大數(shù)據(jù)可視化技術(shù)從存儲空間中將這些關(guān)鍵信息進行提取,通過圖像、圖形的形式將這些信息更直觀地表達出來,并運用多種不同的分析手段來提取位置信息,將這些潛在信息通過圖形、圖像等直觀方式展示出來,從而幫助人們更好地理解、挖掘大數(shù)據(jù)下隱藏的信息??梢暬夹g(shù)將使得普通人群也可以直觀看出大數(shù)據(jù)的價值,推動大數(shù)據(jù)應(yīng)用的平民化。
2.與云計算關(guān)系越來越密切。大數(shù)據(jù)的未來正朝著智能化的方向發(fā)展,涉及讓機器用人的思維去思考,理解人類的行為模式,并對未來進行預(yù)測,這些智能化的實現(xiàn)都離不開云計算。云計算是一種基于互聯(lián)網(wǎng)的計算方式,其計算效率高、速度快、成本低,不需要人們掌握專業(yè)的技術(shù)知識就可以使用,具有很強的靈活性。目前,很多大數(shù)據(jù)技術(shù)都已和云計算緊密結(jié)合。
3.與物聯(lián)網(wǎng)緊密結(jié)合。隨著智能交通、智能家居、智能物流、智慧景區(qū)等應(yīng)用的興起,物聯(lián)網(wǎng)已成為未來經(jīng)濟的新增長點。物聯(lián)網(wǎng)是指把所有物品通過信息傳感設(shè)備與互聯(lián)網(wǎng)連接起來,實現(xiàn)智能化識別和管理。物聯(lián)網(wǎng)應(yīng)用中會有海量的數(shù)據(jù)需要處理,和大數(shù)據(jù)結(jié)合是必然的趨勢。
如今,大數(shù)據(jù)產(chǎn)業(yè)發(fā)展如日中天,各大高校的大數(shù)據(jù)專業(yè)建設(shè)也是如火如荼。2016年初,教育部公布的《2015年度普通高等學校本科專業(yè)備案和審批結(jié)果》中共有3所高校(分別是北京大學、對外經(jīng)濟貿(mào)易大學和中南大學)獲批開辦“數(shù)據(jù)科學與大數(shù)據(jù)技術(shù)”專業(yè)。2017年和2018年,教育部又進行了兩次該專業(yè)的申請批準,分別通過了32所高校和248所高校的大數(shù)據(jù)專業(yè)申請。
總體來說,各大高校的大數(shù)據(jù)技術(shù)專業(yè)學制均為四年,旨在培養(yǎng)具有大數(shù)據(jù)思維、運用大數(shù)據(jù)思維及分析應(yīng)用技術(shù)的高層次大數(shù)據(jù)人才。在培養(yǎng)過程中,要求學生掌握計算機理論和大數(shù)據(jù)處理技術(shù),從大數(shù)據(jù)應(yīng)用的三個主要層面系統(tǒng)地培養(yǎng)學生掌握大數(shù)據(jù)應(yīng)用中的各種典型問題的解決辦法,實際提升學生解決實際問題的能力。
大數(shù)據(jù)專業(yè)畢業(yè)生能夠從事大數(shù)據(jù)研究和開發(fā)應(yīng)用的高層次人才。畢業(yè)生能在政府機構(gòu)、企業(yè)、公司等從事大數(shù)據(jù)管理、研究、應(yīng)用開發(fā)等方面的工作。同時,也可以考取軟件工程、計算機科學與技術(shù)、應(yīng)用統(tǒng)計學等專業(yè)的研究生或出國深造。