張羿九
(西安市西光中學(xué),西安 710043)
大數(shù)據(jù)三個(gè)字從字面上看很容易想到海量、大規(guī)模等詞語(yǔ)。不過(guò)大數(shù)據(jù)不僅僅是表面上看的龐大,其還滿足其余幾個(gè)特點(diǎn)。首先通過(guò)大數(shù)據(jù)這個(gè)名詞我們就能首先看到,大數(shù)據(jù)大在數(shù)據(jù)量的龐大,以至于使用常用的計(jì)算工具處理所需的時(shí)間完全超過(guò)可容忍和要求的時(shí)間。同時(shí)不僅數(shù)據(jù)量大,數(shù)據(jù)的類(lèi)型也多種多樣,大部分?jǐn)?shù)據(jù)是以半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)為主,沒(méi)用統(tǒng)一的模型,這就為數(shù)據(jù)的預(yù)處理增加了難點(diǎn)。
完成了數(shù)據(jù)的處理后,新的數(shù)據(jù)又會(huì)不斷涌入。在短時(shí)間會(huì)有大量的數(shù)據(jù)生成或舊數(shù)據(jù)的更新,同時(shí)伴隨著智能設(shè)備的不斷普及,在這個(gè)趨勢(shì)下數(shù)據(jù)的生成速度將會(huì)越來(lái)越快,怎么去處理這些高速更新并且因處在不同維度而導(dǎo)致雜亂無(wú)章的數(shù)據(jù)將會(huì)是這個(gè)領(lǐng)域發(fā)展的方向。
正是因?yàn)檫@些困難的出現(xiàn),使得這個(gè)數(shù)據(jù)處理領(lǐng)域有很多的數(shù)據(jù)處理工具出現(xiàn),同時(shí)不斷數(shù)據(jù)的變化也使得一些處理工具脫穎而出能夠在這個(gè)領(lǐng)域占有一席之地。但是有了數(shù)據(jù)處理的工具和方法還不夠完成相應(yīng)的科研,因?yàn)楹枚嗟臄?shù)據(jù)是無(wú)價(jià)值的數(shù)據(jù),我們只能在很多無(wú)價(jià)值的數(shù)據(jù)樣本后,來(lái)挖掘有用的數(shù)據(jù)。
大數(shù)據(jù)是從2007年才興起的一個(gè)詞語(yǔ),而究其根源還是一種數(shù)據(jù),只是隨著時(shí)代發(fā)展,硬件不斷升級(jí),人們也意識(shí)到了數(shù)據(jù)的重要而開(kāi)始不斷存儲(chǔ)各種數(shù)據(jù),最終推動(dòng)社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代。隨著硬件的更新發(fā)展,可存儲(chǔ)的空間越來(lái)越多,隨著人們漸漸認(rèn)識(shí)到了數(shù)據(jù)中蘊(yùn)含的大量?jī)r(jià)值,以前大量被丟棄的數(shù)據(jù)現(xiàn)在都被原原本本記錄了下來(lái)。智能設(shè)備普及,互聯(lián)網(wǎng)覆蓋率越來(lái)越高,網(wǎng)民數(shù)量不斷增加,導(dǎo)致數(shù)據(jù)量飛快的積累,一時(shí)間,數(shù)據(jù)處理手段的發(fā)展完全跟不上數(shù)據(jù)量的爆炸式增長(zhǎng)。后來(lái),隨著Google、微軟和Twitter等多家互聯(lián)網(wǎng)公司研發(fā)出了較為有效的大數(shù)據(jù)處理方式,而且與大數(shù)據(jù)有關(guān)的理論如神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)等愈加完善,大數(shù)據(jù)才真正被人提了出來(lái)并得以發(fā)展。
海量數(shù)據(jù)對(duì)現(xiàn)在的數(shù)據(jù)處理技術(shù)提出了極大的挑戰(zhàn),目前,人們對(duì)處理的大數(shù)據(jù)形式主要分成靜態(tài)和動(dòng)態(tài)兩種。
2.1.1 靜態(tài)數(shù)據(jù)
靜態(tài)數(shù)據(jù)主要是一些歷史數(shù)據(jù),長(zhǎng)久的保存在硬盤(pán)中,更新頻率低,其體量龐大體現(xiàn)在積累時(shí)間長(zhǎng),維度多,導(dǎo)致對(duì)其進(jìn)行移動(dòng)和備份的成本很高。由于這些數(shù)據(jù)是慢慢沉淀下來(lái)的,所以虛假信息較少,數(shù)據(jù)的結(jié)構(gòu)較為清楚,但處理時(shí)卻往往需要更加的精確和全面。從如此龐大的數(shù)據(jù)集中抽取有價(jià)值的數(shù)據(jù)需要通過(guò)合理的算法來(lái)實(shí)現(xiàn)。處理靜態(tài)數(shù)據(jù)耗時(shí)很長(zhǎng),稍有差池就會(huì)白白浪費(fèi)大量資源,因此更適合一些很成熟的作業(yè)流程。
2.1.2 動(dòng)態(tài)數(shù)據(jù)
動(dòng)態(tài)數(shù)據(jù)主要是實(shí)時(shí)產(chǎn)生的數(shù)據(jù),其變化速度很快,更新頻率高,其體量大體現(xiàn)在產(chǎn)生渠道多,輸入端用戶多,導(dǎo)致不能及時(shí)存儲(chǔ)下來(lái)處理。然而這些數(shù)據(jù)的價(jià)值具有很強(qiáng)的時(shí)效性,價(jià)值隨著時(shí)間推移是快速流失的。數(shù)據(jù)的數(shù)目龐大,意味著不會(huì)有永久的存儲(chǔ)空間來(lái)存儲(chǔ)這些數(shù)據(jù),所以這些數(shù)據(jù)往往無(wú)法永久保存,同時(shí)因?yàn)閿?shù)據(jù)不斷的更新,也使得用戶很難得到數(shù)據(jù)的全局特征。因此如何在短時(shí)間內(nèi)清除垃圾數(shù)據(jù)并處理出有價(jià)值的信息,對(duì)于內(nèi)存的安排,算法的優(yōu)化和系統(tǒng)的可伸縮性都有著極大的挑戰(zhàn)。
(1)內(nèi)容信息。語(yǔ)言是社會(huì)媒體最重要的表現(xiàn)形式,文本是社會(huì)媒體中用戶表達(dá)信息的最重要的方式[1]。想從數(shù)據(jù)中挖掘信息,尤其是文本數(shù)據(jù),就必須要將其和實(shí)體物質(zhì)關(guān)聯(lián)在一起。社交媒體的出現(xiàn),使得短文本成為人們文本輸出的主要方式,搜索時(shí)人們也大都使用簡(jiǎn)短關(guān)鍵詞。傳統(tǒng)的計(jì)算難以全部理解這些短文本。而大數(shù)據(jù)通過(guò)人們?yōu)g覽的歷史記錄,可以發(fā)現(xiàn)這些發(fā)送某一類(lèi)簡(jiǎn)短文字的人,與某些特定網(wǎng)頁(yè)或信息有很大的聯(lián)系,通過(guò)不斷的交集就可以找出與實(shí)體之間的關(guān)聯(lián)。掌握用戶的真實(shí)意圖。
(2)社區(qū)關(guān)系。社會(huì)媒體的強(qiáng)交互性、時(shí)效性等特點(diǎn)使其在信息的產(chǎn)生、消費(fèi)和傳播過(guò)程中發(fā)揮著越來(lái)越重要的作用[2]。而社交網(wǎng)絡(luò)中一個(gè)重要的部分就是人與人之間的關(guān)系。通過(guò)數(shù)據(jù)挖掘,我們可以發(fā)現(xiàn),一些人之間的聯(lián)系很緊密,這些人與外界聯(lián)系比較少,自己形成了一個(gè)圈子,仿佛就是一個(gè)小社區(qū)。社區(qū)的規(guī)模處于數(shù)據(jù)網(wǎng)絡(luò)中觀結(jié)構(gòu),對(duì)上方的宏觀網(wǎng)絡(luò)而言,小社區(qū)的不斷演化,就促使了大規(guī)模信息網(wǎng)絡(luò)的內(nèi)容與結(jié)構(gòu)的改變,對(duì)下方的個(gè)體用戶而言,社區(qū)結(jié)構(gòu)的研究有利于發(fā)現(xiàn)新的個(gè)體關(guān)系。
大數(shù)據(jù)的應(yīng)用可以說(shuō)是滲透到了現(xiàn)代社會(huì)的每個(gè)角落,無(wú)論是尖端科技還是日常生活,大數(shù)據(jù)都發(fā)揮著巨大作用,這里大致選出幾個(gè)主要和典型的做以分析。
(1)科技方面。駕駛在以前被看作一個(gè)不確定問(wèn)題,故很多人認(rèn)為短時(shí)間內(nèi)司機(jī)被代替的可能很低。可是在2010年,在自動(dòng)駕駛研究方面晚起步了幾十年的Google開(kāi)發(fā)出了自己的自動(dòng)駕駛汽車(chē)?;谒呀?jīng)非常成熟的地圖系統(tǒng),Google把這個(gè)事情當(dāng)成了一個(gè)大數(shù)據(jù)問(wèn)題,提前準(zhǔn)備的交通情況(長(zhǎng)久以來(lái)的收集的信息),十幾個(gè)傳感器的數(shù)據(jù),從谷歌數(shù)據(jù)中心傳來(lái)的信息進(jìn)行每秒鐘幾十次的處理。行駛接近百萬(wàn)英里后還沒(méi)有出過(guò)一次主動(dòng)造成的事故,比人駕駛安全得多。
(2)醫(yī)療方面。我們都知道看病要去找一些經(jīng)驗(yàn)豐富的醫(yī)生,這些醫(yī)生看過(guò)太多的病,學(xué)習(xí)過(guò)太多的病例??墒遣±e累到了今天這個(gè)地步,有無(wú)數(shù)的醫(yī)學(xué)影像可用來(lái)學(xué)習(xí),正常人盡其一生可能都看不完,但機(jī)器人卻可以。有了這些影像,通過(guò)學(xué)習(xí)后的機(jī)器人可以做出比醫(yī)生更準(zhǔn)確的判斷。如今全世界的醫(yī)療資源都十分不均衡,看病貴可謂是常態(tài)。而大數(shù)據(jù)應(yīng)用到醫(yī)療方面后,必將影響這種現(xiàn)狀。
(3)工業(yè)方面。全自動(dòng)化無(wú)人碼頭:2017年5月,從歐洲而來(lái)的大型集裝箱班輪??吭谥袊?guó)青島港首次開(kāi)放的全自動(dòng)化碼頭,一共需要卸載4500個(gè)集裝箱,在船舶靠泊前,全自動(dòng)化碼頭操作系統(tǒng)就依據(jù)船舶信息,自動(dòng)生成作業(yè)計(jì)劃并下達(dá)指令,整個(gè)碼頭一個(gè)人都不需要。機(jī)器人自己開(kāi)鎖,然后放到自動(dòng)引導(dǎo)車(chē)上。之后,整個(gè)碼頭就由幾十輛自動(dòng)引導(dǎo)車(chē)在轉(zhuǎn)運(yùn)平臺(tái)和堆場(chǎng)之間來(lái)回搬運(yùn)集裝箱,每條路線都經(jīng)過(guò)了大量運(yùn)算的優(yōu)化,保證了效率和安全。這其實(shí)就是傳統(tǒng)業(yè)與大數(shù)據(jù)平臺(tái)的結(jié)合,既提高了效率,又節(jié)省了人工。
大數(shù)據(jù)目前還處于起步階段,還有大量的技術(shù)、法律、道德倫理上的問(wèn)題需要面對(duì)和解決,在此對(duì)幾個(gè)主要的進(jìn)行分析。
數(shù)據(jù)收集的困難主要體現(xiàn)在兩方面:一是收集途徑:數(shù)據(jù)來(lái)源廣,各式各樣的移動(dòng)終端都是數(shù)據(jù)源,導(dǎo)致很多數(shù)據(jù)掌握在其他互聯(lián)網(wǎng)公司手里無(wú)法直接獲得,只能想辦法通過(guò)相關(guān)性,繞個(gè)圈子,間接地獲得數(shù)據(jù)。如何想出數(shù)據(jù)與數(shù)據(jù)間的相關(guān)性就是需要認(rèn)真思考的。二是數(shù)據(jù)本身:數(shù)據(jù)類(lèi)型復(fù)雜,以半結(jié)構(gòu)化和非結(jié)構(gòu)化為主,收集以后進(jìn)行整理存儲(chǔ)就非常復(fù)雜和難以統(tǒng)一處理。并且數(shù)據(jù)質(zhì)量好壞不一,需要進(jìn)行清理,如何清理的干凈又盡可能少的損毀有用的數(shù)據(jù)也是需要考慮的。
數(shù)據(jù)處理是大數(shù)據(jù)最核心的部分,有著承上啟下的關(guān)鍵作用。是需要不斷更新處理技術(shù)的一個(gè)環(huán)節(jié)。無(wú)論什么數(shù)據(jù)處理都有兩個(gè)核心思想:一是把計(jì)算推到數(shù)據(jù)。過(guò)于龐大的數(shù)據(jù)在來(lái)回傳遞和通信時(shí)會(huì)產(chǎn)生大量不必要的開(kāi)銷(xiāo),數(shù)據(jù)越多消耗的越多,所以只能把計(jì)算推到數(shù)據(jù)面前,避免這些消耗。二是并行處理:一個(gè)明顯的事實(shí)是,數(shù)據(jù)庫(kù)不能通過(guò)縱向發(fā)展,只依靠一臺(tái)或少數(shù)幾臺(tái)機(jī)器的升級(jí)來(lái)滿足數(shù)據(jù)量的爆炸增長(zhǎng),而是希望能方便的通過(guò)橫向并行來(lái)實(shí)現(xiàn)此目標(biāo)[3]。那么如何合理分配任務(wù)就非常的關(guān)鍵了,因?yàn)槎鄠€(gè)任務(wù)并行時(shí)很容易出現(xiàn) 木桶效應(yīng) ,即最慢節(jié)點(diǎn)性能決定整個(gè)及其性能。然而圖數(shù)據(jù)越來(lái)越被廣泛應(yīng)用的當(dāng)下,圖數(shù)據(jù)非常難以分割成多個(gè)獨(dú)立的子圖來(lái)用以并行處理。這些問(wèn)題都需要有了合適的圖分割和圖計(jì)算模型才能解決好。
大數(shù)據(jù)帶來(lái)的爭(zhēng)議首當(dāng)其沖就是個(gè)人隱私問(wèn)題。在大數(shù)據(jù)時(shí)代,我們?cè)诟鞣N網(wǎng)站用自己的個(gè)人信息注冊(cè)虛擬賬號(hào);使用打車(chē)軟件,地圖軟件;隨時(shí)隨地在網(wǎng)上瀏覽感興趣的信息,購(gòu)買(mǎi)喜歡的物品,與好友聊天;在網(wǎng)上查病情,建立自己的病史 我們一舉一動(dòng)都和網(wǎng)絡(luò)與軟件息息相關(guān),這些所有信息都可以很輕易的通過(guò)直接或間接的方式被互聯(lián)網(wǎng)公司獲取。可以說(shuō),在這個(gè)時(shí)代,我們是真正 赤裸 的走在街上。通常情況下,大多數(shù)人都不喜歡被他人看到自己所有隱私,一方面,畢竟我們不是完人,總有這樣那樣的錯(cuò)誤,有些甚至都不想讓親人知道;另一方面,就算像購(gòu)物記錄這種公布了也不會(huì)對(duì)我們?cè)斐芍苯游:Φ男畔?,在?jīng)過(guò)一些別有用心的人處理后可以很輕易的總結(jié)出一個(gè)個(gè)人的習(xí)慣,喜好甚至日常安排等極其重要信息。這些信息在正常的互聯(lián)網(wǎng)公司都能起到大作用,在黑客、不法分子手里一樣有非常大的作用。人們對(duì)個(gè)人隱私問(wèn)題缺乏深刻認(rèn)識(shí),尤其不了解大數(shù)據(jù)的威力,不知道多維度的數(shù)據(jù)湊到一起可以組成一個(gè)完整的人,有時(shí)數(shù)據(jù)比你自己都更了解你自己。
有很多人也把數(shù)據(jù)革命叫作第四次工業(yè)革命,而數(shù)據(jù)就是一種新的能源。隨著人們處理的數(shù)據(jù)越來(lái)越多,人類(lèi)的各種各樣的行為都可以用被大量數(shù)據(jù)訓(xùn)練過(guò)的機(jī)器所替代。盡管之前的每一次工業(yè)革命都有這樣的成果,但前三次大都只是解放人的雙手,并沒(méi)有直接危及到人類(lèi)最驕傲的 大腦 。而數(shù)據(jù)革命恰好能夠完成之前由人腦負(fù)責(zé)的問(wèn)題。如前文所說(shuō)的較為復(fù)雜的產(chǎn)品裝配,語(yǔ)音識(shí)別等問(wèn)題,計(jì)算機(jī)完成的越來(lái)越好,有時(shí)甚至能超過(guò)人類(lèi)。之前的每一次工業(yè)革命都讓一部分人丟了飯碗,導(dǎo)致了貧富差距越發(fā)懸殊,人們需要通過(guò)很長(zhǎng)的時(shí)間來(lái)消化這種負(fù)面影響。然而,這次數(shù)據(jù)革命與信息革命相差時(shí)間太短,其變革又十分深刻,舊的還沒(méi)處理掉,新的更加艱巨的挑戰(zhàn)就到來(lái)了,這對(duì)社會(huì)的沖擊必然是巨大的。社會(huì)對(duì)各個(gè)方面的勞動(dòng)力需求減少,以廉價(jià)勞動(dòng)力作為資本的國(guó)家如何及時(shí)轉(zhuǎn)型,政府如何安排大量被剩余出來(lái)的勞動(dòng)力,這些都是需要結(jié)合各方面進(jìn)一步思考。
正如前文所說(shuō),我們身處在一個(gè)數(shù)據(jù)化的時(shí)代之中,大數(shù)據(jù)分析的出現(xiàn)為我們處理后續(xù)類(lèi)似問(wèn)題提供了最優(yōu)的解決方案,無(wú)論是在圖數(shù)據(jù)方面還是在分析人日常行為方面都有不錯(cuò)的表現(xiàn)。但是大數(shù)據(jù)依然存在一定的挑戰(zhàn),雖然科學(xué)社會(huì)的不斷進(jìn)步,數(shù)據(jù)的多樣性和數(shù)量級(jí)將不斷變大,如何去應(yīng)對(duì)這種變化將成為大數(shù)據(jù)研究方面的挑戰(zhàn)。在未來(lái),大數(shù)據(jù)處理的技術(shù)方面,并行化的處理技術(shù)來(lái)實(shí)現(xiàn)對(duì)未來(lái)多樣性數(shù)據(jù)的處理將成為我們研究的熱點(diǎn)。在大數(shù)據(jù)應(yīng)用方面,未來(lái)應(yīng)對(duì)不同用戶的需求,大數(shù)據(jù)面向的對(duì)象由整體分散成個(gè)體,更加具有個(gè)性化的特征。
[1] 程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國(guó)杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào),2014,25(09):1889-1908.
[2] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013,36(06):1125-1138.
[3] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(01):146-169.
[4] 王珊,王會(huì)舉,覃雄派,周烜.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1741-1752.