摘要:大數(shù)據(jù)處理流程包括:數(shù)據(jù)獲取、數(shù)據(jù)集成、數(shù)據(jù)分析和解釋3個(gè)階段。大數(shù)據(jù)應(yīng)用的技術(shù)和系統(tǒng)包括:云計(jì)算及其編程模型MapReduce、大數(shù)據(jù)獲取技術(shù)、面向大數(shù)據(jù)處理的文件系統(tǒng)、數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)分析技術(shù)。大數(shù)據(jù)應(yīng)用所面臨的問(wèn)題包括:人力和財(cái)力問(wèn)題、安全和隱私問(wèn)題、生態(tài)環(huán)境和產(chǎn)業(yè)鏈的變革問(wèn)題。
關(guān)鍵詞:大數(shù)據(jù);云計(jì)算;MapReduce技術(shù)
Abstract: There are three steps in processing big data: data acquisition, data integration, data analysis and interpretation. In these steps, cloud computing, MapReduce, data acquisition techniques, data processing systems, database systems, and data analysis techniques may be used. In big-data applications, there are human and financial issues, security and privacy issues, environment and industrial chain issues, and transformation issues.
Key words: big data; cloud computing; MapReduce
中圖分類號(hào):TN915.03; TP393.03 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1009-6868 (2013) 04-0008-009
隨著智能手機(jī)等移動(dòng)設(shè)備的普及以及無(wú)線網(wǎng)與Web2.0接口技術(shù)等方面的發(fā)展,網(wǎng)絡(luò)用戶的數(shù)量正迅猛增長(zhǎng),隨之而來(lái)的是社交網(wǎng)絡(luò)活動(dòng)的日益頻繁和數(shù)據(jù)服務(wù)需求的逐漸增多。據(jù)統(tǒng)計(jì),2010年的手機(jī)用戶已達(dá)40億,占全球人口的60%,其中智能手機(jī)占了12%,用戶年增長(zhǎng)率達(dá)到了20%[1]。
眾所周知,物聯(lián)網(wǎng)近年來(lái)已成為普遍關(guān)注話題,實(shí)現(xiàn)物聯(lián)網(wǎng)的宗旨就是讓所有能被獨(dú)立尋址的普通物理對(duì)象實(shí)現(xiàn)互聯(lián)互通的網(wǎng)絡(luò),由此傳感器與射頻識(shí)別(RFID)等相關(guān)無(wú)線技術(shù)得到了迅速發(fā)展,調(diào)查顯示,2011年已經(jīng)有3 000多萬(wàn)的傳感器節(jié)點(diǎn)遍布在交通運(yùn)輸業(yè)、工業(yè)以及零售業(yè)等場(chǎng)所,并且這個(gè)數(shù)值以每年30%的增長(zhǎng)率提升中。而RFID由于其強(qiáng)大的無(wú)線傳輸和處理能力,也使得其遍布在各領(lǐng)域,用來(lái)實(shí)現(xiàn)清單管理的自動(dòng)化[2]。這些傳感器和RFID無(wú)時(shí)無(wú)刻不產(chǎn)生著大量的數(shù)據(jù)。具體地,谷歌在2008年的日均處理數(shù)據(jù)量已達(dá)20 PB;亞馬遜在2010年11月29日這天的峰值交易數(shù)是158筆每秒;一架波音737飛機(jī)飛行6小時(shí)所產(chǎn)生的傳感器數(shù)據(jù)達(dá)到240 TB[3]。IBM估計(jì),每天由人類和機(jī)器產(chǎn)生的初始數(shù)據(jù)竟然達(dá)到了2.5×1 019字節(jié)[4]。這一切都為大數(shù)據(jù)時(shí)代的到來(lái)醞釀了潛在的應(yīng)用需求。
面對(duì)大數(shù)據(jù)時(shí)代的到來(lái),各國(guó)各組織都在積極著手準(zhǔn)備應(yīng)對(duì)策略。繼Nature在2008年推出大數(shù)據(jù)??骩5],2011年瑞士達(dá)沃斯世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)成為重要主題,論壇中的一份“大數(shù)據(jù),大影響”的報(bào)告指出了大數(shù)據(jù)如今已成為了像黃金和外匯一樣的一種新型的經(jīng)濟(jì)資產(chǎn)。在美國(guó),奧巴馬政府于2012年3月公布了“大數(shù)據(jù)研究和發(fā)展的倡議”[6],投資2億多美元開(kāi)啟大數(shù)據(jù)研發(fā)計(jì)劃;緊接著,中國(guó)在2012年5月召開(kāi)的第424次香山科學(xué)會(huì)議,是中國(guó)第一個(gè)以大數(shù)據(jù)為主題的重大科學(xué)工作會(huì)議,隨后中國(guó)計(jì)算機(jī)學(xué)會(huì)、通信學(xué)會(huì)也隨即分別成立了大數(shù)據(jù)專家委員會(huì);2013初,澳大利亞政府也在堪培拉的信息行業(yè)協(xié)會(huì)峰會(huì)上表示,將于5月出臺(tái)大數(shù)據(jù)戰(zhàn)略草案。上述學(xué)術(shù)與社會(huì)活動(dòng)表明,大數(shù)據(jù)已然成為了學(xué)術(shù)界和工業(yè)界等各界關(guān)注的重要課題,并且已經(jīng)悄然影響到當(dāng)今人們的日常生活。
大數(shù)據(jù)時(shí)代的到來(lái),挑戰(zhàn)與機(jī)遇并存。當(dāng)傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)管理技術(shù)由于自身的擴(kuò)展性限制,已無(wú)法繼續(xù)很好地適用于大數(shù)據(jù)處理的時(shí)候,云計(jì)算應(yīng)運(yùn)而生,并迅速成為熱門話題,2004年谷歌提出的MapReduce作為面向大數(shù)據(jù)處理的計(jì)算模型[7],更是倍受學(xué)術(shù)界和工業(yè)界的青睞。為此,本文首先對(duì)大數(shù)據(jù)的基本概念進(jìn)行了闡述,討論了大數(shù)據(jù)處理的流程、云計(jì)算和MapReduce等相關(guān)技術(shù),然后分析了大數(shù)據(jù)帶來(lái)的問(wèn)題,最后總結(jié)全文并對(duì)大數(shù)據(jù)處理進(jìn)行了展望。
1 大數(shù)據(jù)概述
1.1 大數(shù)據(jù)的定義
維基百科對(duì)大數(shù)據(jù)的定義是,所涉及的資料量的規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的各種資訊。
大數(shù)據(jù)目前主流的對(duì)大數(shù)據(jù)的定義為3V,即規(guī)模性(Volume),多樣性(Variety)和高速性(Velocity)。所謂規(guī)模性,就是數(shù)據(jù)的量達(dá)到了一定的高度,無(wú)法通過(guò)當(dāng)前主流工具來(lái)及時(shí)處理;多樣性指的是對(duì)于即將要處理的數(shù)據(jù)類型,除了有結(jié)構(gòu)化的以外,還有半結(jié)構(gòu)化和非結(jié)構(gòu)化的,增加了操作的復(fù)雜性;高速性是指數(shù)據(jù)的到達(dá)與處理必須及時(shí)高效,不允許較長(zhǎng)的延遲[8]。除此之外,一般也認(rèn)為,隱私性與有價(jià)值型同樣是大數(shù)據(jù)的主要特征[9]。
1.2 大數(shù)據(jù)的帶來(lái)的機(jī)遇與挑戰(zhàn)
隨著大數(shù)據(jù)時(shí)代的到來(lái),其中隱藏的商機(jī)也被各路商家發(fā)現(xiàn)和利用。美國(guó)Target百貨公司通過(guò)一套客戶分析工具,可以對(duì)顧客的購(gòu)買記錄進(jìn)行分析,并隨后通過(guò)購(gòu)物手冊(cè)的形式向顧客推薦一系列可能需要的商品;“阿里云”通過(guò)對(duì)其云平臺(tái)上海量的交易和數(shù)據(jù)進(jìn)行分析,從而知道哪些商戶可能存在資金問(wèn)題,隨后“阿里云”貸款平臺(tái)便出馬同潛在的貸款對(duì)象進(jìn)行溝通;“京東”、“天貓”和“易購(gòu)”等購(gòu)物網(wǎng)站將其海量商品按照各種方式進(jìn)行分類和推薦,大大增強(qiáng)了網(wǎng)站的可用性。
國(guó)際著名的市場(chǎng)調(diào)研公司“高德納”公司的一份分析報(bào)告指出,到2015年,使用先進(jìn)數(shù)據(jù)管理系統(tǒng)的企業(yè)將比未使用的企業(yè)盈利能力高出20%。咨詢公司“益百利”集團(tuán)的研究也表明,2012年全球?qū)Υ髷?shù)據(jù)項(xiàng)目的投資總額大約達(dá)45億歐元,預(yù)計(jì)后兩個(gè)年度均將保持大約40%的增長(zhǎng)速度。
不單是商家,大數(shù)據(jù)處理技術(shù)也給普通用戶的日常生活帶來(lái)了方便性和可靠性。購(gòu)物網(wǎng)站可以使用戶足不出戶便可購(gòu)買到廉價(jià)優(yōu)質(zhì)的商品,地圖軟件讓人們出門再也不用擔(dān)心迷路的問(wèn)題,“微信”、“微博”使得人們隨時(shí)隨地能夠跟親人、朋友聯(lián)絡(luò)交流,各種互動(dòng)娛樂(lè)軟件幫助人們打發(fā)無(wú)聊地時(shí)光等等。
1.3 大數(shù)據(jù)處理流程
大數(shù)據(jù)帶來(lái)的利益不可小覷,由于大數(shù)據(jù)的規(guī)模性、高速性、多樣性等本質(zhì)決定了其處理過(guò)程的復(fù)雜性,而如何處理大數(shù)據(jù)卻成為一道難題擺在了人們面前。圖1所示為大數(shù)據(jù)處理的一般流程。
大數(shù)據(jù)處理流程一般可分為數(shù)據(jù)獲取階段、數(shù)據(jù)集成階段以及數(shù)據(jù)分析解釋階段。
1.3.1 數(shù)據(jù)獲取階段
數(shù)據(jù)獲取階段主要是完成對(duì)外界數(shù)據(jù)源的接收和記錄操作。其中對(duì)大數(shù)據(jù)的接收方式主要有傳感器獲取、網(wǎng)頁(yè)點(diǎn)擊獲取、移動(dòng)設(shè)備上應(yīng)用服務(wù)的獲取以及RFID獲取等;對(duì)大數(shù)據(jù)的記錄主要完成對(duì)元數(shù)據(jù)的選擇,以便構(gòu)建所需要的數(shù)據(jù)結(jié)構(gòu)。
1.3.2 數(shù)據(jù)集成階段
大數(shù)據(jù)的集成階段主要完成對(duì)已接收數(shù)據(jù)的抽取、清洗和貯存等操作。
(1)抽取
由大數(shù)據(jù)的定義可知,獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類型,數(shù)據(jù)抽取過(guò)程可以幫助我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達(dá)到快速分析處理的目的。例如,對(duì)于一起交通事故的發(fā)生,目擊者的口述表達(dá)與監(jiān)控?cái)z像頭的拍攝顯示雖然都是在一定程度上反映了事故的經(jīng)過(guò),但由于數(shù)據(jù)格式的不同,不方便對(duì)此類問(wèn)題做大規(guī)模的統(tǒng)計(jì)分析,將這些數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為標(biāo)準(zhǔn)的表示格式將會(huì)大大地方便后期的分析工作。
(2)清洗
對(duì)于大數(shù)據(jù),并不全是有價(jià)值的,有些數(shù)據(jù)并不是我們所關(guān)心的內(nèi)容,而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),如何“去噪”從而提取出有效數(shù)據(jù)對(duì)我們來(lái)說(shuō)是個(gè)巨大挑戰(zhàn)。其中一種做法是設(shè)計(jì)一些過(guò)濾器,通過(guò)某些規(guī)則將那些無(wú)用錯(cuò)誤的數(shù)據(jù)過(guò)濾出去,防止對(duì)最后的分析工作產(chǎn)生影響。例如,對(duì)于交通事故的描述,有些目擊者或者當(dāng)事人出于某些主觀或者客觀原因,提供了一些模糊或者虛假的信息,對(duì)這些信息的過(guò)濾操作非常重要。
(3)貯存
將初步處理過(guò)得數(shù)據(jù)進(jìn)行有效的存儲(chǔ)至關(guān)重要,若是僅僅將這些記錄隨便地放入一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中,將會(huì)造成其訪問(wèn)性受到障礙,從而可能導(dǎo)致了數(shù)據(jù)的難以復(fù)用。設(shè)計(jì)一個(gè)合適的數(shù)據(jù)庫(kù),可以有效地解決難以復(fù)用問(wèn)題。
數(shù)據(jù)庫(kù)的選擇可以多種多樣,針對(duì)特定數(shù)據(jù)設(shè)計(jì)的特定數(shù)據(jù)庫(kù)將會(huì)更加高效、適用。
1.3.3 數(shù)據(jù)分析和解釋階段
當(dāng)用戶提出查詢請(qǐng)求時(shí),我們需要做的就是進(jìn)行及時(shí)地分析與建模,并將結(jié)果以用戶可接受的方式返回給用戶。這一階段的用戶查詢可以是多種多樣的,不同的查詢輸入應(yīng)該得到對(duì)應(yīng)的結(jié)果,即使面對(duì)用戶的錯(cuò)誤查詢也應(yīng)該給出相應(yīng)的錯(cuò)誤友好處理。
分析、建模的過(guò)程多種多樣,統(tǒng)計(jì)學(xué)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等各類方法相互結(jié)合可以產(chǎn)生各種智能推薦系統(tǒng)以滿足用戶的查詢請(qǐng)求。龐大的數(shù)據(jù)量雖然處理起來(lái)比較麻煩,但往往能讓我們從中發(fā)現(xiàn)更有價(jià)值的信息。
當(dāng)然,用戶并不是專業(yè)的技術(shù)人員,如何將查詢結(jié)果解釋給用戶至關(guān)重要。一個(gè)良好的系統(tǒng),應(yīng)該不僅僅告訴用戶不同輸入對(duì)應(yīng)的不同結(jié)果,更要以通俗易懂的方式告知用戶相應(yīng)地結(jié)果是如何產(chǎn)生的,從而讓用戶有更可信的感覺(jué)。對(duì)于那些模糊甚至錯(cuò)誤的查詢請(qǐng)求,應(yīng)該能夠通過(guò)大數(shù)據(jù)的海量聯(lián)系發(fā)掘并糾正這類請(qǐng)求,從而更加人性化。當(dāng)然,大數(shù)據(jù)處理的及時(shí)性要求我們應(yīng)當(dāng)更快更及時(shí)的處理用戶查詢,決不允許較大的處理延遲。
總之,大數(shù)據(jù)的本質(zhì)決定了大數(shù)據(jù)的分析處理具有復(fù)雜性與獨(dú)特性,同時(shí)也帶來(lái)了相對(duì)于普通數(shù)據(jù)處理所沒(méi)有的可靠性與可用性。
2 大數(shù)據(jù)應(yīng)用的技術(shù)體系
2.1 云計(jì)算及其編程模型MapReduce
2.1.1 云計(jì)算簡(jiǎn)述
大約從2007年下半年開(kāi)始,云計(jì)算由于其能提供靈活動(dòng)態(tài)的IT平臺(tái),服務(wù)質(zhì)量保證的計(jì)算環(huán)境以及可配置的軟件服務(wù)而成為熱門話題[10]。文獻(xiàn)[11]中給出了云計(jì)算的比較完整的定義:云計(jì)算一個(gè)大規(guī)模的由規(guī)模經(jīng)濟(jì)驅(qū)動(dòng)的分布式模型,位于其中的抽象的、虛擬的、動(dòng)態(tài)可擴(kuò)展的、可管理的計(jì)算能源、存儲(chǔ)、平臺(tái)、服務(wù)等通過(guò)因特網(wǎng)交付給外圍客戶。
由上述云計(jì)算的定義我們知道,云計(jì)算首先得是大規(guī)模的、分布式的,少量的計(jì)算處理用不著云計(jì)算;其次,它是跟規(guī)模經(jīng)濟(jì)相關(guān)聯(lián)的,比較形象的說(shuō)法是,云計(jì)算資源跟“電”和“水”一樣,是按需收費(fèi)的,并且是大規(guī)模式銷售的,通常在建立數(shù)據(jù)中心時(shí)會(huì)考慮成本因素;最后,它從廣義上說(shuō)是給客戶的一種服務(wù),可以包括提供存儲(chǔ)、計(jì)算等資源。云計(jì)算可以按服務(wù)的內(nèi)容和交付形式分為基礎(chǔ)設(shè)施即服務(wù)(IaaS)、平臺(tái)即服務(wù)(PaaS)、軟件即服務(wù)(SaaS)等。
在單機(jī)芯片集成度已進(jìn)入極小尺度級(jí)別,指令級(jí)并行度提升也已接近極限的今天,縱向擴(kuò)展似乎已經(jīng)不夠現(xiàn)實(shí),這也遠(yuǎn)遠(yuǎn)不能滿足大數(shù)據(jù)處理的要求,而云計(jì)算的要求比較寬松的允許異構(gòu)網(wǎng)絡(luò)的橫向擴(kuò)展,無(wú)疑給大數(shù)據(jù)處理帶來(lái)了方便。云計(jì)算能為大數(shù)據(jù)提供強(qiáng)大的存儲(chǔ)和計(jì)算能力,可以迅速、方便地為大數(shù)據(jù)提供服務(wù),另一方面,大數(shù)據(jù)的處理需求也為云計(jì)算提供了更多更好地應(yīng)用場(chǎng)景。由此,云計(jì)算作為大數(shù)據(jù)的支撐技術(shù)而倍受業(yè)界關(guān)注。
2.1.2 MapReduce簡(jiǎn)述
關(guān)系數(shù)據(jù)庫(kù)作為一門發(fā)展了近40年的主流數(shù)據(jù)管理技術(shù),主要用于聯(lián)機(jī)事務(wù)處理(OLTP)應(yīng)用、聯(lián)機(jī)分析處理(OLAP)應(yīng)用和數(shù)據(jù)倉(cāng)庫(kù)等,然而擴(kuò)展性方面的局限使得其在大數(shù)據(jù)時(shí)代遇到了極大障礙。2004年,谷歌公司提出的MapReduce技術(shù),以其利用大規(guī)模廉價(jià)服務(wù)器以達(dá)到并行處理大數(shù)據(jù)的目的而倍受學(xué)術(shù)界和工業(yè)界的關(guān)注,廣泛應(yīng)用于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等諸多領(lǐng)域?;贛apReduce的大數(shù)據(jù)分析處理研究也在不斷深入,MapReduce作為一種非關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)管理工具代表,克服了關(guān)系數(shù)據(jù)庫(kù)擴(kuò)展性方面的不足,將計(jì)算推向數(shù)據(jù)也迎合了大數(shù)據(jù)時(shí)代的內(nèi)在需要,成為大數(shù)據(jù)處理的基本工具。
Hadoop作為模仿谷歌公司提出的MapReduce而實(shí)現(xiàn)的一個(gè)云計(jì)算開(kāi)源平臺(tái),目前已成為最為流行的大數(shù)據(jù)處理平臺(tái)。
MapReduce對(duì)于大數(shù)據(jù)處理的基本構(gòu)思是分而治之,將大數(shù)據(jù)任務(wù)分解為多個(gè)子任務(wù),將得到的各個(gè)子結(jié)果組合并成為最終結(jié)果。
MapReduce對(duì)大數(shù)據(jù)的處理可抽象為兩個(gè)主要階段,Map階段先對(duì)初始的鍵-值(Key/Value)對(duì)進(jìn)行處理,產(chǎn)生一系列的中間結(jié)果Key/Value對(duì),然后再通過(guò)Reduce階段合并所有具有相同Key值的Key/Value對(duì),得到最終結(jié)果。
MapReduce對(duì)數(shù)據(jù)進(jìn)行處理的應(yīng)用思路如圖2所示。
MapReduce并行處理流程(待處理的大數(shù)據(jù)被分為大小相同的塊)主要步驟為:
·用戶作業(yè)程序提交給主節(jié)點(diǎn)
·主節(jié)點(diǎn)為作業(yè)程序?qū)ふ液团鋫淇捎玫腗ap節(jié)點(diǎn)和Reduce節(jié)點(diǎn)
·主節(jié)點(diǎn)啟動(dòng)Map節(jié)點(diǎn)執(zhí)行程序,讀取本地?cái)?shù)據(jù)
·每個(gè)Map節(jié)點(diǎn)處理讀取的數(shù)據(jù)塊,將中間結(jié)果放在本地并通知主節(jié)點(diǎn)計(jì)算完成及結(jié)果數(shù)據(jù)存儲(chǔ)位置
·主節(jié)點(diǎn)啟動(dòng)Reduce節(jié)點(diǎn)運(yùn)行,遠(yuǎn)程讀取中間結(jié)果并處理
2.2 大數(shù)據(jù)獲取技術(shù)
每天都有大量數(shù)據(jù)產(chǎn)生,并且這些數(shù)據(jù)通過(guò)不同的途徑,以不同的形式被接收和記錄。本節(jié)將簡(jiǎn)單介紹幾種常見(jiàn)的大數(shù)據(jù)獲取途徑。
(1)傳感器技術(shù)
近年來(lái),傳感器技術(shù)蓬勃發(fā)展,無(wú)論是道路交通方面,還是醫(yī)療機(jī)構(gòu)方面甚至是個(gè)人工作和生活場(chǎng)所,傳感器無(wú)處不在,大量的數(shù)據(jù)源源不斷地被傳感器所接收。可以說(shuō),傳感器的迅速普及,為大數(shù)據(jù)的獲取提供了有力地保障。
傳感器技術(shù)的快速發(fā)展,也促進(jìn)了傳感器網(wǎng)絡(luò)的逐步完善。由于構(gòu)建傳感器網(wǎng)絡(luò)的設(shè)備、數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)等方面的差異性,網(wǎng)絡(luò)孤島普遍存在,如何解決異構(gòu)網(wǎng)絡(luò)所帶來(lái)的數(shù)據(jù)共享問(wèn)題一度成為研究者們面臨的極大挑戰(zhàn)。不過(guò)隨后美國(guó)國(guó)家技術(shù)標(biāo)準(zhǔn)局(NIST)和IEEE共同組織了關(guān)于制訂智能傳感器接口和連接網(wǎng)絡(luò)通用標(biāo)準(zhǔn)的研討會(huì),產(chǎn)生了IEEE1451傳感器/執(zhí)行器、智能變送器接口標(biāo)準(zhǔn)協(xié)議族,試圖解決傳感器市場(chǎng)上總線不兼容的問(wèn)題。2005年,開(kāi)放地理空間聯(lián)盟(OGC)提出了一種新型的傳感器Web整合框架標(biāo)準(zhǔn),讓用戶能透過(guò)Web的界面來(lái)進(jìn)行節(jié)點(diǎn)搜尋、數(shù)據(jù)獲取及節(jié)點(diǎn)控制功能。
文獻(xiàn)[12]對(duì)無(wú)線傳感器網(wǎng)路的路由協(xié)議進(jìn)行了研究,指出多路徑路由發(fā)展的趨勢(shì)和挑戰(zhàn),而文獻(xiàn)[13]則從生物學(xué)、商業(yè)、環(huán)境、醫(yī)療、工業(yè)以及軍事等領(lǐng)域探討無(wú)線傳感器的重要用途。
(2)Web2.0技術(shù)
“Web 2.0”的概念2004年始于出版社經(jīng)營(yíng)者O'Reilly和MediaLive International之間的一場(chǎng)頭腦風(fēng)暴論壇,所謂的Web2.0是指互聯(lián)網(wǎng)上的每一個(gè)用戶的身份由單純的“讀者”進(jìn)化為了“作者”以及“共同建設(shè)人員”,由被動(dòng)地接收互聯(lián)網(wǎng)信息向主動(dòng)創(chuàng)造互聯(lián)網(wǎng)信息發(fā)展。Web2.0伴隨著博客、百科全書以及社交網(wǎng)絡(luò)等多種應(yīng)用技術(shù)的發(fā)展,大量的網(wǎng)頁(yè)點(diǎn)擊與交流促使了大數(shù)據(jù)的形成,給人類日常生活方式帶來(lái)了極大的變革。
(3)條形碼技術(shù)
條形碼的使用給零售業(yè)帶來(lái)了革命性的改變,通過(guò)內(nèi)嵌ID等信息,條形碼在被掃描之后,快速在數(shù)據(jù)庫(kù)中進(jìn)行ID匹配,便很快就獲知該產(chǎn)品的價(jià)格、性能、產(chǎn)商等具體信息,條形碼被廣泛應(yīng)用于零售商店的收銀以及車站售票等業(yè)務(wù)中,每天大量的商品銷售記錄通過(guò)掃描條形碼而產(chǎn)生。近年來(lái)的智能手機(jī)的盛行,手機(jī)應(yīng)用如微信中的二維條形碼也隨處可見(jiàn),文獻(xiàn)[14]中設(shè)計(jì)了一種應(yīng)用于手機(jī)應(yīng)用的彩色二維條形碼,改善了用戶對(duì)應(yīng)用程序的感受。
(4)RFID技術(shù)
RFID與條形碼相比,擴(kuò)展了操作距離,且標(biāo)簽的使用比條形碼容易,攜帶一個(gè)可移動(dòng)的閱讀器便可收集到標(biāo)簽的信息,被廣泛應(yīng)用于倉(cāng)庫(kù)管理和清單控制方面。RFID標(biāo)簽可以分為兩類,一類是被動(dòng)的,如今被廣泛使用,其造價(jià)便宜,但是沒(méi)有內(nèi)部電源,依靠閱讀器的射頻波產(chǎn)生能量,操作距離也很近,因而其適用性也受到了制約;另一類是主動(dòng)的,其擁有內(nèi)部電源,因此造價(jià)較貴,但是操作距離遠(yuǎn),存儲(chǔ)能力強(qiáng),因而適用范圍廣,在未來(lái)這種標(biāo)簽會(huì)受到普遍歡迎的。
學(xué)術(shù)界在RFID技術(shù)的研究上已經(jīng)取得巨大的進(jìn)步。較早的工作重心大多集中在對(duì)標(biāo)簽進(jìn)行搜集的問(wèn)題上,即盡可能快地在大量標(biāo)簽中搜集他們的ID,而這方面最大的挑戰(zhàn)是解決多標(biāo)簽同時(shí)競(jìng)爭(zhēng)較窄的信道引起沖突的問(wèn)題。研究者們提出了兩類解決思路,即基于ALOHA的協(xié)議[15-17]和基于樹(shù)的協(xié)議[18-20]。而其他的工作專注于標(biāo)簽評(píng)估問(wèn)題,即使用統(tǒng)計(jì)學(xué)的方法來(lái)評(píng)估一個(gè)龐大系統(tǒng)中的標(biāo)簽數(shù)目[21-23]??傊?,RFID由于具有操作范圍廣泛、性能穩(wěn)定以及高存儲(chǔ)能力等特性,在工業(yè)界中將具有巨大的潛力。
(5)移動(dòng)終端技術(shù)
隨著科學(xué)技術(shù)的發(fā)展,移動(dòng)終端諸如手機(jī)、筆記本、平板電腦等隨處可見(jiàn),加上網(wǎng)絡(luò)的寬帶化發(fā)展以及集成電路的升級(jí),人類已經(jīng)步入了真正的移動(dòng)信息時(shí)代。
如今的移動(dòng)終端已經(jīng)擁有極強(qiáng)的處理能力,通信、定位以及掃描功能應(yīng)有盡有,大量的移動(dòng)軟件程序被開(kāi)發(fā)并應(yīng)用,人們無(wú)時(shí)無(wú)刻不在接收和發(fā)送信息。
目前,智能手機(jī)等移動(dòng)設(shè)備的數(shù)量仍然在迅猛增長(zhǎng)中,移動(dòng)社交網(wǎng)絡(luò)也會(huì)日益龐大和復(fù)雜,海量的數(shù)據(jù)穿梭其中,針對(duì)移動(dòng)數(shù)據(jù)的處理也將越來(lái)越復(fù)雜。
2.3 文件系統(tǒng)
文件系統(tǒng)是支撐上層應(yīng)用的基礎(chǔ),本小節(jié)將簡(jiǎn)要介紹面向大數(shù)據(jù)處理的文件系統(tǒng)如谷歌分布式文件系統(tǒng)(GFS),以及一些其他的分布式文件系統(tǒng)。
2.3.1 分布式文件系統(tǒng)GFS
谷歌開(kāi)發(fā)的文件系統(tǒng)GFS[24],是一個(gè)基于分布式集群的大型的分布式文件系統(tǒng),它為MapReduce計(jì)算框架提供底層數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)可靠性。GFS采用廉價(jià)普通磁盤,并把磁盤數(shù)據(jù)出錯(cuò)視為常態(tài),其自動(dòng)多數(shù)據(jù)備份存儲(chǔ)也增加了可靠性。
GFS基本構(gòu)架中,GFS Master保存了GFS文件系統(tǒng)的3種元數(shù)據(jù):命名空間、Chunk與文件名的映射表、Chunk副本的位置信息,前兩個(gè)數(shù)據(jù)通過(guò)操作日志提供容錯(cuò)處理能力,第3個(gè)數(shù)據(jù)存儲(chǔ)在Chunk Server上,可在Master失效時(shí)快速恢復(fù)Master上的元數(shù)據(jù);GFS ChunkServer是用來(lái)保存大量實(shí)際數(shù)據(jù)的數(shù)據(jù)服務(wù)器。
GFS基本工作過(guò)程如下:
(1)在程序運(yùn)行前,數(shù)據(jù)已經(jīng)存儲(chǔ)在GFS文件系統(tǒng)中,程序執(zhí)行時(shí)應(yīng)用程序會(huì)告訴GFS Server所要訪問(wèn)的文件名或者數(shù)據(jù)塊索引是什么。
(2)GFS Server根據(jù)文件名和數(shù)據(jù)塊索引在其文件目錄空間中查找和定位該文件或數(shù)據(jù)塊,并將這些位置信息回送給應(yīng)用程序。
(3)應(yīng)用程序根據(jù)GFSServer返回的具體Chunk數(shù)據(jù)塊位置信息,直接訪問(wèn)相應(yīng)的Chunk Server。
(4)應(yīng)用程序直接讀取指定位置的數(shù)據(jù)進(jìn)行計(jì)算處理。
后來(lái)谷歌對(duì)GFS進(jìn)行了改進(jìn),并對(duì)新版本命名為Colosuss,主要對(duì)原有的單點(diǎn)故障、海量小文件存儲(chǔ)等諸多問(wèn)題進(jìn)行了修正和改進(jìn),使得系統(tǒng)更加安全和健壯。
2.3.2 其他文件系統(tǒng)
除了谷歌的GFS,業(yè)界其他針對(duì)大數(shù)據(jù)存儲(chǔ)需求的文件系統(tǒng)也層出不窮。
Hadoop的文件系統(tǒng)HDFS[25]作為模仿GFS的開(kāi)源實(shí)現(xiàn),同樣也為Hadoop的底層數(shù)據(jù)存儲(chǔ)支撐,提供數(shù)據(jù)的高可靠性和容錯(cuò)能力,擁有良好的擴(kuò)展性和高速數(shù)據(jù)訪問(wèn)性。
SUN公司開(kāi)發(fā)的Lustre[26]是一個(gè)大規(guī)模的、安全可靠的、具備高可用性的開(kāi)源集群文件系統(tǒng),美國(guó)能源部在此基礎(chǔ)上實(shí)現(xiàn)了新一代的集群系統(tǒng),顯著提高了輸入輸出速度,已在高校、國(guó)家實(shí)驗(yàn)室和超級(jí)計(jì)算研究中心產(chǎn)生了深遠(yuǎn)影響。
Facebook推出的針對(duì)海量小文件的文件系統(tǒng)Haystack[27]有效地解決了海量圖片存儲(chǔ)問(wèn)題,它實(shí)現(xiàn)多個(gè)邏輯文件共享一個(gè)物理文件功能,并且增加緩存層,部分元數(shù)據(jù)直接被加載到了內(nèi)存。
2.4 數(shù)據(jù)庫(kù)系統(tǒng)
2.4.1 并行數(shù)據(jù)庫(kù)
并行數(shù)據(jù)庫(kù)起源于20世紀(jì)80年代,并且在不斷發(fā)展和創(chuàng)新,高性能和高可用性是其最終的目標(biāo)和優(yōu)勢(shì)。
并行數(shù)據(jù)庫(kù)通過(guò)簡(jiǎn)單易用的結(jié)構(gòu)化查詢語(yǔ)言(SQL)向外提供數(shù)據(jù)訪問(wèn)服務(wù),加上在索引、數(shù)據(jù)壓縮、可視化等技術(shù)方面的不斷擴(kuò)展,使其具有了高性能的優(yōu)勢(shì)。但是諸多因素導(dǎo)致了其擴(kuò)展性面臨嚴(yán)峻的挑戰(zhàn),主要體現(xiàn)在:
(1)單機(jī)方面,并行數(shù)據(jù)庫(kù)基于高端硬件設(shè)計(jì),認(rèn)為查詢失敗是特例且糾錯(cuò)復(fù)雜,不符合大規(guī)模集群失效常態(tài)的特性。
(2)集群方面,并行數(shù)據(jù)庫(kù)對(duì)異構(gòu)網(wǎng)絡(luò)支持有限,各節(jié)點(diǎn)性能不均,容易引起“木桶效應(yīng)”。
總之,并行數(shù)據(jù)庫(kù)的擴(kuò)展性方面的缺陷使其面臨大數(shù)據(jù)的處理往往力不從心。
2.4.2 MapReduce分布式數(shù)據(jù)庫(kù)
BigTable
由前述知,并行數(shù)據(jù)庫(kù)由于擴(kuò)展性方面的缺陷無(wú)法勝任大數(shù)據(jù)的處理工作,以谷歌公司推出的BigTable為代表的未采用關(guān)系模型的NoSQL(Not only SQL)數(shù)據(jù)庫(kù)由此誕生,NoSQL數(shù)據(jù)庫(kù)具有模式自由、備份簡(jiǎn)易、接口簡(jiǎn)單和支持海量數(shù)據(jù)等特性,對(duì)于實(shí)現(xiàn)大數(shù)據(jù)的存儲(chǔ)和處理十分有效。
谷歌在其文件系統(tǒng)之上又設(shè)計(jì)了MapReduce的分布式數(shù)據(jù)庫(kù)BigTable[28],為應(yīng)用程序提供了比單純地文件系統(tǒng)更方便、更高層的數(shù)據(jù)操作能力,BigTable提供了一定粒度的結(jié)構(gòu)化數(shù)據(jù)操作能力,主要解決一些大型媒體數(shù)據(jù)(Web文檔、圖片等)的結(jié)構(gòu)化存儲(chǔ)問(wèn)題。
BigTable主要是一個(gè)分布式多維表,表中數(shù)據(jù)通過(guò)行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳來(lái)進(jìn)行索引和查詢定位,并且BigTable對(duì)存儲(chǔ)在表中的數(shù)據(jù)不做任何解釋,一律視為字串,具體數(shù)據(jù)結(jié)構(gòu)的實(shí)現(xiàn)由用戶自行定義。
BigTable的基本構(gòu)架如圖3所示,BigTable中的數(shù)據(jù)均以子表形式保存在子表服務(wù)器上,最終以GFS文件形式存儲(chǔ)在文件系統(tǒng)中。客戶端程序直接和子表服務(wù)器通信,Chubby服務(wù)器完成對(duì)子表服務(wù)器的狀態(tài)監(jiān)控,主服務(wù)器通過(guò)查看Chubby服務(wù)器目錄來(lái)終止出現(xiàn)故障的子服務(wù)器并將其數(shù)據(jù)轉(zhuǎn)移至其他子服務(wù)器。另外,主服務(wù)器還完成子表的創(chuàng)建和負(fù)載均衡等操作。
當(dāng)然,由于MapReduce將本來(lái)應(yīng)由數(shù)據(jù)庫(kù)管理系統(tǒng)完成的諸如文件存儲(chǔ)格式的設(shè)計(jì)、模式信息的記錄、數(shù)據(jù)處理算法的實(shí)現(xiàn)等工作轉(zhuǎn)移給了程序員,從而導(dǎo)致程序員負(fù)擔(dān)過(guò)重。另外,MapReduce是面向非結(jié)構(gòu)化的大規(guī)模數(shù)據(jù)處理的,往往是一次處理,因而同等硬件條件下的性能也比并行數(shù)據(jù)庫(kù)低[29]。
2.4.3 數(shù)據(jù)庫(kù)的深層探討
并行數(shù)據(jù)庫(kù)具有高性能的優(yōu)勢(shì),但擴(kuò)展性問(wèn)題阻礙了其在大數(shù)據(jù)處理上的進(jìn)一步發(fā)展,而MapReduce性能和易用性上提升空間較大,因此目前兩種方案均不理想。業(yè)界經(jīng)過(guò)長(zhǎng)時(shí)間的探討,基本一致認(rèn)為并行數(shù)據(jù)庫(kù)和MapReduce各取其長(zhǎng),相互融合,也許是一種不錯(cuò)的道路[30]。由此誕生了并行數(shù)據(jù)庫(kù)主導(dǎo)型、MapReduce主導(dǎo)型以及并行數(shù)據(jù)庫(kù)與MapReduce集成型3類大數(shù)據(jù)處理數(shù)據(jù)庫(kù)。
(1)并行數(shù)據(jù)庫(kù)主導(dǎo)型
這類數(shù)據(jù)庫(kù)的基本思路是在并行數(shù)據(jù)庫(kù)上增加MapReduce的大數(shù)據(jù)處理能力,將數(shù)據(jù)分析過(guò)程轉(zhuǎn)移到數(shù)據(jù)庫(kù)內(nèi)進(jìn)行,使得原系統(tǒng)同時(shí)獲得SQL的易用性與MapReduce的開(kāi)放性。但是,并行數(shù)據(jù)庫(kù)的擴(kuò)展能力與容錯(cuò)能力并未得到改善,典型的系統(tǒng)如Greenplum[31]、Asterdata[32]等。
(2)MapReduce主導(dǎo)型
這類數(shù)據(jù)庫(kù)的基本思路是利用關(guān)系數(shù)據(jù)庫(kù)的SQL接口和模式支持技術(shù)改善MapReduce的易用性。通過(guò)SQL接口,可以很簡(jiǎn)便的完成查詢分析等操作,大大減輕了程序員的負(fù)擔(dān),但MapReduce的性能方面仍有待提升,比較典型的系統(tǒng)如Facebook的Hive[33]和Yahoo!的Pig Latin[34]等。
(3)并行數(shù)據(jù)庫(kù)與MapReduce集成型
這類數(shù)據(jù)庫(kù)兼顧并行數(shù)據(jù)庫(kù)與MapReduce的長(zhǎng)處,主要分兩種思路:按功能將并行數(shù)據(jù)庫(kù)與MapReduce分別設(shè)計(jì)到相應(yīng)的部位以形成一個(gè)完整系統(tǒng),以及整合并行數(shù)據(jù)庫(kù)和MapReduce這兩套完整的系統(tǒng)以構(gòu)成一個(gè)混合系統(tǒng)。
第一種思路典型代表是耶魯大學(xué)提出的HadoopDB[35],它將Hadoop作為調(diào)度層和網(wǎng)絡(luò)溝通層,關(guān)系數(shù)據(jù)庫(kù)作為執(zhí)行引擎,盡可能地將查詢壓入數(shù)據(jù)庫(kù)層處理,Hadoop框架的應(yīng)用可以獲得較好的容錯(cuò)性和對(duì)異構(gòu)環(huán)境的支持,庫(kù)內(nèi)數(shù)據(jù)查詢的使用則可獲得關(guān)系數(shù)據(jù)庫(kù)的高性能優(yōu)勢(shì)。
第二種思路的代表是Vertica數(shù)據(jù)庫(kù)[36],它擁有兩套獨(dú)立完整的系統(tǒng),Hadoop負(fù)責(zé)非結(jié)構(gòu)化數(shù)據(jù)和耗時(shí)的批量復(fù)雜數(shù)據(jù)的處理,Vertica負(fù)責(zé)結(jié)構(gòu)化數(shù)據(jù)的處理以及高性能的交互式查詢。
當(dāng)然,這些思路仍非理想的方案,例如,HadoopDB喪失了MapReduce較低的預(yù)處理和維護(hù)代價(jià)等,Vertica則依舊存在Vertica擴(kuò)展性問(wèn)題和Hadoop的性能問(wèn)題。因此,在大數(shù)據(jù)面前,數(shù)據(jù)庫(kù)系統(tǒng)的研究還有很長(zhǎng)的路要走,我們?cè)诳偨Y(jié)傳統(tǒng)的數(shù)據(jù)庫(kù)經(jīng)驗(yàn)的同時(shí),還要積極了解新興的數(shù)據(jù)庫(kù)系統(tǒng),才能更好地促進(jìn)適應(yīng)現(xiàn)今大數(shù)據(jù)發(fā)展的性能優(yōu)良數(shù)據(jù)庫(kù)的面世。
2.5 大數(shù)據(jù)分析技術(shù)
用于大數(shù)據(jù)集的分析方法很多,包括統(tǒng)計(jì)學(xué)、計(jì)算機(jī)科學(xué)等各個(gè)領(lǐng)域的技術(shù)。本小節(jié)將簡(jiǎn)要介紹其中幾種典型的大數(shù)據(jù)分析技術(shù),當(dāng)然,這些技術(shù)同樣適用于少量數(shù)據(jù)集的分析,但大數(shù)據(jù)集環(huán)境下的應(yīng)用無(wú)疑會(huì)發(fā)揮更加明顯的作用。
(1)A/B測(cè)試
傳統(tǒng)的A/B測(cè)試,是一種把各組變量隨機(jī)分配到特定的單變量處理水平,把一個(gè)或多個(gè)測(cè)試組的表現(xiàn)與控制組相比較,進(jìn)行測(cè)試的方式?,F(xiàn)在的A/B測(cè)試主要用于在Web分析方面,例如通過(guò)對(duì)比統(tǒng)計(jì)新舊網(wǎng)頁(yè)的用戶轉(zhuǎn)化率,來(lái)掌握兩種設(shè)計(jì)的優(yōu)劣等。大數(shù)據(jù)時(shí)代的到來(lái)為大規(guī)模的測(cè)試提供了便利,提高了A/B測(cè)試的準(zhǔn)確性。由于移動(dòng)設(shè)備及技術(shù)的迅猛發(fā)展,移動(dòng)分析也逐漸成為A/B測(cè)試增長(zhǎng)最快的一個(gè)領(lǐng)域。
(2)聚類分析
聚類分析指將物理或抽象的集合分組成為由類似的對(duì)象組成的多個(gè)類的分析過(guò)程。聚類分析是一種探索性的數(shù)據(jù)挖掘分析方法,不需事先給出劃分的類的具體情況,主要用在商業(yè)、生物學(xué)、因特網(wǎng)等多個(gè)領(lǐng)域中。對(duì)于大數(shù)據(jù)的分析處理,通過(guò)聚類可以簡(jiǎn)化后續(xù)處理過(guò)程,并且可以發(fā)現(xiàn)其中隱藏的某些規(guī)則,充分發(fā)揮了大數(shù)據(jù)的作用。
(3)集成學(xué)習(xí)
集成學(xué)習(xí)指的是使用一系列“學(xué)習(xí)器”進(jìn)行學(xué)習(xí),并使用某種規(guī)則把各學(xué)習(xí)結(jié)果進(jìn)行整合從而獲得比單個(gè)“學(xué)習(xí)器”更好的學(xué)習(xí)效果的一種機(jī)器學(xué)習(xí)方法。對(duì)于大數(shù)據(jù)的集成學(xué)習(xí),可以更好地提煉和把握其中的本質(zhì)屬性。
(4)神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型,它依靠系統(tǒng)的復(fù)雜程度,通過(guò)調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,來(lái)達(dá)到處理信息的目的。
神經(jīng)網(wǎng)絡(luò)作為一門新興的交叉學(xué)科,是人類智能研究的重要組成部分,已成為腦科學(xué)、神經(jīng)科學(xué)、認(rèn)知科學(xué)、心理學(xué)等共同關(guān)注的焦點(diǎn)。神經(jīng)網(wǎng)絡(luò)對(duì)于大數(shù)據(jù)的并行處理,無(wú)疑也是一種比較可行的方式。
(5)自然語(yǔ)言處理
自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。
人與計(jì)算機(jī)的通信交流往往存在很多歧義,如何消除這些歧義,將帶有潛在歧義的自然語(yǔ)言輸入轉(zhuǎn)換成某種無(wú)歧義的計(jì)算機(jī)內(nèi)部表示,是自然語(yǔ)言處理的主要問(wèn)題。大數(shù)據(jù)時(shí)代意味著有大量的知識(shí)和推理來(lái)完成消除歧義現(xiàn)象的可能,這也給自然語(yǔ)言處理帶來(lái)了一些新的挑戰(zhàn)和機(jī)遇。
大數(shù)據(jù)分析技術(shù)還有很多,例如模式識(shí)別、空間分析、遺傳算法等等,并且研究者們還在不斷地尋找新的更有效地分析方法,另外通過(guò)結(jié)合多個(gè)方法來(lái)實(shí)現(xiàn)數(shù)據(jù)分析往往也能達(dá)到非常明顯的效果。
2.6 大數(shù)據(jù)的可視化
面對(duì)海量的數(shù)據(jù),如何將其清晰明朗地展現(xiàn)給用戶是大數(shù)據(jù)處理所面臨的巨大挑戰(zhàn)。無(wú)論是學(xué)術(shù)界還是工業(yè)界,對(duì)大數(shù)據(jù)進(jìn)行可視化的研究從未停止。通過(guò)將大數(shù)據(jù)圖形化、圖像化以及動(dòng)畫化等展示出來(lái)的技術(shù)和方法不斷出現(xiàn),本節(jié)將介紹幾種典型的案例。
(1)宇宙星球圖
俄羅斯工程師Ruslan Enikeev根據(jù)2011年底的互聯(lián)網(wǎng)數(shù)據(jù),將196個(gè)國(guó)家的35萬(wàn)個(gè)網(wǎng)站數(shù)據(jù)整合起來(lái),并根據(jù)200多萬(wàn)個(gè)網(wǎng)站鏈接將這些“星球”通過(guò)“關(guān)系鏈”聯(lián)系起來(lái)組成了因特網(wǎng)的“宇宙星球圖”[37]。不同顏色代表不同的國(guó)家,每個(gè)“星球”的大小根據(jù)其網(wǎng)站流量來(lái)決定,而“星球”距離遠(yuǎn)近根據(jù)鏈接出現(xiàn)的頻率、強(qiáng)度等決定。類似地,對(duì)于具有復(fù)雜結(jié)構(gòu)的社交網(wǎng)絡(luò),“宇宙星球圖”同樣也十分適用,可以根據(jù)個(gè)人的知名度、人與人之間的聯(lián)系等進(jìn)行繪畫星球圖。
(2)標(biāo)簽云
“標(biāo)簽云”的設(shè)計(jì)思路主要是,對(duì)于不同的對(duì)象用標(biāo)簽來(lái)表示,標(biāo)簽的排列順序一般依照字典排序,按照熱門程度確定字體的大小和顏色。例如對(duì)于某個(gè)文檔,出現(xiàn)頻度越高的單詞將會(huì)越大,反之越小。這樣,便可以根據(jù)字母表順序和字體的大小來(lái)對(duì)各單詞的具體情況一目了然。文獻(xiàn)[38]通過(guò)將地圖上的各個(gè)物理位置根據(jù)描述的具體程度用“標(biāo)簽云”表示,使得用戶對(duì)各個(gè)場(chǎng)所的知名程度有個(gè)清晰的認(rèn)識(shí)。
(3)歷史流圖
文獻(xiàn)[39]提出了一種用于可視化文檔編輯歷史的“歷史流圖”,對(duì)于一個(gè)面向大眾的開(kāi)放文檔,編輯和查閱都是自由的,用戶可以隨時(shí)自由的對(duì)文檔進(jìn)行增加或刪除操作?!皻v史流圖”中,橫坐標(biāo)軸表示時(shí)間,縱坐標(biāo)軸表示作者,不同作者的不同內(nèi)容對(duì)應(yīng)中間部分不同顏色和長(zhǎng)度,隨著時(shí)間的推移,文檔的內(nèi)容不斷變化,作者也在不斷增加中。通過(guò)對(duì)“歷史流圖”的觀察,很容易看出各人對(duì)該文檔的貢獻(xiàn),當(dāng)然,除了發(fā)現(xiàn)有人對(duì)文檔給出有益的編輯外,也存在著一些破壞文檔、刪除內(nèi)容的人,但總有逐漸被修復(fù)回去的規(guī)律。像維基百科等的詞條注釋文檔,“歷史流圖”的可視化效果十分明顯。
關(guān)于大數(shù)據(jù)可視化的方面努力還有很多,不同的“源數(shù)據(jù)”有不同的可視化策略,大數(shù)據(jù)可視化的研究工作仍有待進(jìn)行下去。
3 大數(shù)據(jù)應(yīng)用所面臨的問(wèn)題
大數(shù)據(jù)時(shí)代面臨的首要問(wèn)題是人力和財(cái)力問(wèn)題,IDC分析稱,大數(shù)據(jù)相關(guān)人才的欠缺將會(huì)成為影響大數(shù)據(jù)市場(chǎng)發(fā)展的一個(gè)重要因素。據(jù)調(diào)查,僅美國(guó)就缺少大約14萬(wàn)到19萬(wàn)的具有深層次數(shù)據(jù)分析技巧的專業(yè)技術(shù)人員以及150萬(wàn)針對(duì)大數(shù)據(jù)的經(jīng)理人。據(jù)阿里巴巴稱,雖然其各類業(yè)務(wù)產(chǎn)生的數(shù)據(jù)為數(shù)據(jù)分析創(chuàng)造了非常好的基礎(chǔ)條件,然而卻招聘不到合適的數(shù)據(jù)科學(xué)家而影響了研發(fā)進(jìn)展。
高德納公司預(yù)測(cè),到2015年,全球?qū)⑿略?40萬(wàn)個(gè)與大數(shù)據(jù)相關(guān)的工作崗位,且會(huì)有25%的組織設(shè)立首席數(shù)據(jù)官職位。其中有190萬(wàn)個(gè)工作崗位將在美國(guó),每一個(gè)與大數(shù)據(jù)有關(guān)的IT工作,都將在技術(shù)行業(yè)外部再建3個(gè)工作崗位,這將在美國(guó)再創(chuàng)建將近600萬(wàn)個(gè)工作崗位。數(shù)據(jù)科學(xué)家是復(fù)合型人才,是對(duì)數(shù)學(xué)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等多方面知識(shí)的綜合掌控,能對(duì)數(shù)據(jù)做出預(yù)測(cè)性的、有價(jià)值的分析。因此,各國(guó)對(duì)大數(shù)據(jù)人才的培養(yǎng)工作應(yīng)當(dāng)快速有效地著手執(zhí)行。大數(shù)據(jù)的接收和管理也需要大量的基礎(chǔ)設(shè)施和能源,無(wú)論是傳感器還是數(shù)據(jù)中心的服務(wù)器,都需要大量的硬件投入和能源消耗,這也就意味著大數(shù)據(jù)處理的財(cái)力需求極為可觀。如何處理好大數(shù)據(jù)產(chǎn)生的資金投入比例,也成為了各國(guó)和各企業(yè)決策者面臨的難題。
另外,大數(shù)據(jù)還將面臨嚴(yán)重的安全和隱私問(wèn)題。首先,隨處可見(jiàn)的傳感器和攝像頭等設(shè)備,會(huì)監(jiān)視并記錄人們位置等信息,通過(guò)海量數(shù)據(jù)的分析,便可輕易了解人們的行蹤規(guī)律,從而可能給人們帶來(lái)生命和財(cái)產(chǎn)安全;其次,“云設(shè)施”的經(jīng)濟(jì)劃算,推動(dòng)了僵尸網(wǎng)絡(luò)的發(fā)展及海量并行處理破解密碼系統(tǒng)的可能性;最后,由于云計(jì)算要求我們放棄自主計(jì)算能力,當(dāng)整個(gè)社會(huì)的信息,包括個(gè)人信息、商業(yè)信息都存儲(chǔ)在巨頭們提供的“云”上時(shí),我們只能寄希望于這些巨頭們都是道德高尚的圣人,否則我們將面臨災(zāi)難性損失。面對(duì)這些安全威脅,學(xué)術(shù)界和工業(yè)界也都紛紛提出自己策略。
針對(duì)基于位置服務(wù)的安全性問(wèn)題,文獻(xiàn)[40]提出了一種k -匿名方法,即將自己與周圍k -1個(gè)用戶組成一個(gè)范圍集合性對(duì)象來(lái)請(qǐng)求位置服務(wù),從而模糊了自己的準(zhǔn)確位置。文獻(xiàn)[41]提出的策略是,搜集周圍的k -1個(gè)用戶的位置信息,并以其中的某一個(gè)的名義發(fā)送位置服務(wù)請(qǐng)求,從而也達(dá)到隱藏準(zhǔn)確坐標(biāo)的目的。Roy等人將集中信息流控制和差分隱私保護(hù)等技術(shù)融入云中的數(shù)據(jù)生成與計(jì)算階段,提出了一種隱私保護(hù)系統(tǒng)Airavat[42],防止MapReduce 計(jì)算過(guò)程中將非授權(quán)的隱私數(shù)據(jù)泄露出去,并且支持對(duì)計(jì)算結(jié)果的自動(dòng)除密。Mowbray等人在數(shù)據(jù)存儲(chǔ)和使用階段使用一種基于客戶端的隱私管理工具[43],提供以用戶為中心的信任模型,幫助用戶控制自己的敏感信息在云端的存儲(chǔ)和使用。
蘋果最近申請(qǐng)了一項(xiàng)專利,叫做電子分析污染技術(shù),能夠?qū)⒂脩粼谔O果產(chǎn)品上產(chǎn)生的行為數(shù)據(jù)進(jìn)行污染和混淆,讓其他廠商獲取不到真正的用戶數(shù)據(jù)。這類信息安全保護(hù)的思路是:當(dāng)各種加密措施無(wú)法徹底保護(hù)個(gè)人信息時(shí),不如將大量的垃圾信息、錯(cuò)誤信息充斥在真實(shí)有效的信息之中,讓竊取者不得不耗費(fèi)巨大的成本從中分析。高德納公司分析指出,大數(shù)據(jù)安全是一場(chǎng)必要的斗爭(zhēng),并且大數(shù)據(jù)本身更可用來(lái)提高企業(yè)安全。因?yàn)榻鉀Q安全問(wèn)題的前提是,企業(yè)必須先確定正常、非惡意活動(dòng)是啥樣子的,然后查找與之不同的活動(dòng);從而,發(fā)現(xiàn)惡意活動(dòng),基于大數(shù)據(jù)來(lái)建立一個(gè)基線標(biāo)準(zhǔn)就很好地達(dá)到了這個(gè)目的。
最后,大數(shù)據(jù)的出現(xiàn)會(huì)促使IT相關(guān)行業(yè)的生態(tài)環(huán)境和產(chǎn)業(yè)鏈的變革。傳統(tǒng)的網(wǎng)絡(luò)公司運(yùn)營(yíng)模式是在自己的服務(wù)器上來(lái)管理若干產(chǎn)品和服務(wù),并通過(guò)網(wǎng)絡(luò)連線提供給用戶終端,產(chǎn)生的數(shù)據(jù)歸公司獨(dú)有。然而,在大數(shù)據(jù)時(shí)代,這種模式已經(jīng)難以勝任,服務(wù)公司往往會(huì)選擇租賃第三方的開(kāi)放平臺(tái)來(lái)運(yùn)營(yíng)自己的業(yè)務(wù)。這樣,用戶提供數(shù)據(jù),服務(wù)方處理數(shù)據(jù),但數(shù)據(jù)的實(shí)際存儲(chǔ)地卻在第三方。大數(shù)據(jù)影響的IT產(chǎn)業(yè)鏈大致包括數(shù)據(jù)資源、應(yīng)用軟件、基礎(chǔ)設(shè)施三大部分。數(shù)據(jù)資源方面,各大信息中心、通信運(yùn)營(yíng)商等積極研制和引用大數(shù)據(jù)技術(shù),挖掘大量數(shù)據(jù)分析相關(guān)人才,數(shù)據(jù)資源的收集和開(kāi)發(fā)產(chǎn)業(yè)逐步完善;應(yīng)用軟件方面,隨著高性能云平臺(tái)的出現(xiàn),云應(yīng)用軟件也不斷被開(kāi)發(fā)出來(lái),用戶再也不必?zé)缽?fù)雜的軟件安裝和配置過(guò)程,便可以輕松享受各種網(wǎng)絡(luò)應(yīng)用服務(wù);基礎(chǔ)設(shè)施方面,大數(shù)據(jù)對(duì)硬件的依賴,迫使高性能硬盤、低能耗服務(wù)器、小巧化個(gè)人終端等行業(yè)的快速發(fā)展。另外,大數(shù)據(jù)技術(shù)的日益成熟也會(huì)促使跨行業(yè)經(jīng)營(yíng)模式的發(fā)展。第三方可以將用戶的各種服務(wù)請(qǐng)求進(jìn)行打包,然后利用大數(shù)據(jù)分析來(lái)尋求最好的服務(wù)商的組合以反饋給用戶。對(duì)服務(wù)提供方來(lái)說(shuō),借助第三方可以更好地推銷自己的服務(wù)。而對(duì)第三方而言,可以獲得大量的分析數(shù)據(jù),其中的利益也是可觀的,真正的實(shí)現(xiàn)了“雙贏”,同時(shí)也使得用戶獲得更好的服務(wù)體驗(yàn)。
4 結(jié)束語(yǔ)
大數(shù)據(jù)時(shí)代挑戰(zhàn)與機(jī)遇并存,正確處理好大數(shù)據(jù),不僅符合企業(yè)的利益,也給人們?nèi)粘I顜?lái)極大的便利。本文對(duì)大數(shù)據(jù)的基本概念、處理流程以及相關(guān)技術(shù)進(jìn)行了簡(jiǎn)要的探討,并分析了大數(shù)據(jù)可能帶來(lái)的一些問(wèn)題及應(yīng)對(duì)策略。云計(jì)算目前是處理大數(shù)據(jù)的基礎(chǔ)技術(shù),但其在安全和隱私方面的保障工作仍讓不少人感到懷疑,根本原因還是個(gè)人和商業(yè)的信息都存放在遠(yuǎn)端的巨頭們提供的看不見(jiàn)的“云”上。大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),但是,相應(yīng)的技術(shù)體系和社會(huì)保障仍是亟需研究的應(yīng)用課題。
參考文獻(xiàn)
[1] MANYIKA J. Big data: The next frontier for innovation, competition, and productivity [R]. Executive Summary, McKinsey Global Institute, 2011.
[2] LI T, CHEN S, LING Y. Identifying the missing tags in a large RFID system [C]//Proceedings of the 11th ACM International Symposium on Mobile Ad Hoc Networking and Computing (MobiHoc’10),Sept 20-24, 2010, Chicago, IL,USA. New York, NY, USA: ACM, 2010:10p.
[3] BOHLOULI M, SCHULZ F, ANGELIS L, et al. Towards an integrated platform for big data analysis [C]//Proceedings of the International Conference of Integrated Systems Design and Technology (ISDT’12), May 16-18,2012, Mallorca, Spain. Berlin, Germany: Springer-Verlag, 2013:47-56.
[4] IBM. bringing big data to the enterprise [EB/OL]. [2013-02-05]. http://www-01.ibm.com/software/data/bigdata/.
[5] Nature. BigData [EB/OL]. [2012-10-02]. http://www.nature.com/news/specials/bigdata/index.html.
[6] Big Data Across the Federal Government [EB/OL]. [2012-10-02], http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final_1.pdf.
[7] DEAN J, GHEMAWAT S. MapReduce: Simplified data processing on large clusters [C]//Proceedings of the 6th USENIX Symposium on Operating System Design and Implementation (OSDI’04), Dec 6-8,2004,San Francisco, CA,USA. Berkeley, CA, USA: USENIX Association, 2004:137-150.
[8] GENOVESE Y, PRENTICE S. Pattern-based strategy: Getting value from big data [R]. Gartner Inc, 2011.
[9] LABRINIDIS A, JAGADISH H V. Challenges and opportunities with big data [J]. Proceedings of the VLDB Endowment(PVLDB), 2012,5(12):2032-2033.
[10] WANG L, TAO J, KUNZE M. Scientific cloud computing: early definition and experience [C]//Proceedings of the 10th IEEE International Conference on High Performance Computing and Communications(HPCC’08), Sept 25-27, 2008, Dalian, China. Piscataway, NJ,USA: IEEE, 2008:825-830.
[11] FOSTER I, ZHAO Y, RAICU I, et al. Cloud computing and grid computing 360-degree compared [C]//Proceedings of the Grid Computing Environments Workshop(GCE’08), Nov 12-16,2008, Austin, TX,USA. Piscataway, NJ,USA: IEEE, 2008:10p.
[12] RADI M, DEZFOULI B, BAKAR K A. Multipath routing in wireless sensor networks: Survey and research challenges [J]. Sensors, 2012, 12(1):650-685.
[13] GILBERT E P K, KALIAPERUMA B L. Research issues in wireless sensor network applications: A survey [J]. International Journal of Information and Electronics Engineering, 2012,2(5):702-706.
[14] ZHAI J, WANG G N. An anti-collision algorithm using two-functioned estimation for RFID tags [C]//Proceedings of the International Conference on Computational Science and Its Applications (ICCSA’05):Vol 4, May 9-12,2005, Singapore. LNCS 3480. Berlin, Germany: Springer-Verlag, 2005:702-711.
[15] CHA J, KIM J. Novel anti-collision algorithms for fast object identification in RFID system [C]//Proceedings of the 11th International Conference on Parallel and Distributed Systems (ICPADS’05):Vol 2,Jul 20-22,2005, Fuduoka, Japan . Los Alamitos, CA,USA: IEEE Computer Society, 2005:63-67.
[16] VOGT H. Efficient object identification with passive RFID tags [C]//Proceedings of the 1st International Conference on Pervasive Computing(Pervasive’02), Aug 26-28, 2002,Zurich, Switzerland. Berlin, Germany: Springer-Verlag, 2002:98-113.
[17] HUSH D, WOOD C. Analysis of tree algorithm for RFID arbitration [C]//Proceedings of the 1998 IEEE International Symposium on Information Theory(ISIT’98),Aug 16-21,1998, Cambridge, MA, USA .Piscataway, NJ,USA: IEEE, 1998.
[18] MYUNG J, LEE W. An adaptive memoryless tag anti-collision protocol for RFID networks [C]//Proceedings of the 24th Annual Joint Conference of the IEEE Computer and Communications Societies (INFOCOM’05):Vol 3, Mar 13-17, 2005, Miami, FL, USA. Piscataway, NJ,USA: IEEE, 2005.
[19] CHOI H, CHA J, KIM J. Fast wireless anti-collision algorithm in ubiquitous ID system [C]//Proceedings of the 60th Vehicular Technology Conference (VTC-Fall’04): Vol 6, Sep 26-29,2004, Los Angeles, CA,USA. Piscataway, NJ, USA: IEEE, 2004:4589-4592 .
[20] KODIALAM M, NANDAGOPAL T. Fast and reliable estimation schemes in RFID systems [C]//Proceedings of the 12th Annual International Conference on Mobile Computing and Networking (MOBICOM'06), Sept 24-29,2006, Los Alamitos, CA,USA. New York, NY,USA: ACM, 2006:322-333.
[21] KODIALAM M, NANDAGOPAL T, LAU W. Anonymous tracking using RFID tags [C]//Proceedings of the 26th Annual Joint Conference of the IEEE Computer and Communications (INFOCOM’07), May 6-12,2007, Anchorage, AK,USA. Piscataway, NJ,USA: IEEE, 2007:1217-1225.
[22] QIAN C, NGAN H, LIU Y. Cardinality estimation for large-scale RFID systems [C]//Proceedings of the 6th Annual IEEE International Conference on Pervasive Computing and Communications (PerCom’08), Mar17-21, 2008, Hong Kong, China. Piscataway, NJ,USA: IEEE, 2008:30-39.
[23] GHEMAWAT S, GOBIOFF H, LEUNG S T. The Google file system [C]//Proceedings of the 19th ACM SIGOPS Symposium on Operating Systems Principles (SOSP’03), Oct 19-22, 2003, Bolton Landing, NY, USA. New York, NY, USA: ACM, 2003:29-43.
[24] HDFS Architecture Guide [EB/OL]. [2013-01-08]. http://archive.cloudera.com/cdh4/cdh/4/mr1/hdfs_design.pdf.
[25] Lustre [EB/OL]. [2013-02-12]. http://www.lustre.org.
[26] BEAVER D, KUMAR S, LI H C, et al. Finding a needle in haystack: Facebook’s photo storage [C]//Proceedings of the 9th USENIX Symposium on Operating System Design and Implementation (OSDI’10),Oct 4-6, 2010, Vancouver, Canada. Berkeley, CA, USA: USENIX Association,2010:47-60.
[27] CHANG F, DEAN J, GHEMAWAT S, et al. Bigtable: A distributed storage system for structured data. [C]//Proceedings of the 7th USENIX Symposium on Operation Systems Design and Implementation (OSDI’06), Nov 6-8,2006, Seattle, WA, USA. Berkeley, CA, USA: USENIX Association, 2006:205-218.
[28] PAVLO A, RASIN A, MADDEN S, et al. A comparison of Approaches to large scale data analysis [C]//Proceedings of the 35th ACM SIGMOD International Conference on Management of Data(SIGMOD’09), Jun 29-Jul 2, 2009,Providence, Rhode Island.New York, NY, USA:ACM, 2009:165-178.
[29] STONEBRAKER M, ABADI D , DEWITT D J, et al. MapReduce and parallel DBMSs: Friends or foes? [J]. Communications of the ACM, 2010,53(1):64-71.
[30] Greenplum MapReduce [EB/OL]. [2012-12-21]. http://www.greenplum.com/technology/MapReduce.
[31] Asterdata MapReduce [EB/OL]. [2012-12-21]. http://www.asterdata.com/resources/MapReduce.php.
[32] Hive[EB/OL]. [2012-12-21]. http://hive.apache.org/.
[33] OLSTON C, REED B, SRIVASTAVA U, et al. Pig Latin: A not-so-foreign language for data processing [C]//Proceedings of the 34th ACM SIGMOD International Conference on Management of Data(SIGMOD’08), Jun 9-12, 2008, Vancouver, Canada. New York, NY, USA:ACM, 2008: 1099-1110.
[34] ABOUZEID A, BAJDA-PAWLIKOWSKI K, ABADI D J, et al. HadoopDB: An architectural hybrid of MapReduce and DBMS technologies for analytical workloads [C]//Proceedings of the 35th International Conference on Very Large Data Bases (VLDB’09), Aug 24-28, 2009, Lyon, France. New York, NY,USA:ACM, 2009: 922-933.
[35] Vertica [EB/OL]. [2012-11-03]. http://www.vertica.com/the-analytics-platform/native-bi-etl-and-hadoop-MapReduce-
integration/.
[36] The Internet Map [EB/OL]. [2012-12-18]. http://internet-Map.net/.
[37] PAELKE V, DAHINDEN T, EGGERT D, et al. Location based context awareness through tag-cloud visualizations [C]//Proceedings of the Joint International Conference on Theory, Data Handling and Modelling in GeoSpatial Information Science(ISGIS’10), May 26-28,2010, Hong Kong, China. New York, NY, USA:ACM, 2010 290-295.
[38] VIéGAS F B, WATTENBERG M, DAVE K. Studying cooperation and conflict between authors with history flowvisualizations [C]//Proceedings of the ACM Conference on Human Factors in Computing Systems(CHI’04), Apr 24-29, 2004, Vienna, Austria. New York, NY, USA:ACM, 2004:575-582.
[39] SWEENEY L. k-anonimity: A model for protecting privacy [J]. International Journal of Uncertainty, Fuzziness and Knowledge- based Systems, 2002, 10(5): 557-570.
[40] DOMINGO-FERRER J. Micro aggregation for database and location privacy [C]//Next Generation Information Technologies and Systems: Proceedings of the 6th International Workshop on Next Generation Information Technologies and Systems(NGITS’06), Jul 4-6,2006,Kibbutz Shefayim, Israel. LNCS 4032. Berlin, Germany: Springer-Verlag, 2006:106-116.
[41] ROY I, RAMADAN H E, SETTY S T V, et al. Airavat: Security and privacy for MapReduce [C]//Proceedings of the 9th USENIX Symposium on Operation Systems Design and Implementation (OSDI’10), Oct 4-6, 2010, Vancouver, Canada. Berkeley, CA, USA: USENIX Association, 2010.297-312.
[42] BOWERS K D, JUELS A, OPREA A. Proofs of retrievability: Theory and implementation [C]//Proceedings of the 1st ACM Workshop on Cloud Computing Security Workshop(CCSW’09), Nov 13,2009, Chicago, IL,USA. New York, NY,USA: ACM, 2009:43-54.
[43] CHEN Z J, ZHAO Y, LIN C, et al. Accelerating large-scale data distribution in booming Internet: Effectiveness, bottlenecks and practices [J]. IEEE Transactions on Consumer Electronics, 2009,55(2):518-526.
作者簡(jiǎn)介
竇萬(wàn)春,南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系、南京大學(xué)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室教授、博士生導(dǎo)師;主要從事云計(jì)算、服務(wù)計(jì)算等方面的研究工作;已主持或參與完成基金項(xiàng)目8項(xiàng)已發(fā)表學(xué)術(shù)論文60余篇。
江澄,南京大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系在讀碩士研究生;研究方向?yàn)榉?wù)計(jì)算、云計(jì)算等。