張科星
(太原學(xué)院,山西 太原 030012)
大數(shù)據(jù)的研究現(xiàn)狀與展望
張科星
(太原學(xué)院,山西 太原 030012)
人類生產(chǎn)生活和科學(xué)研究產(chǎn)生的數(shù)據(jù)信息飛速增長,開啟了大數(shù)據(jù)時(shí)代.大數(shù)據(jù)不僅指數(shù)據(jù)本身,還包含了對(duì)其進(jìn)行分析處理的理論、技術(shù)和方法.大數(shù)據(jù)涵蓋的內(nèi)容包括信息的采集、管理、分析和做出決策,其出現(xiàn)后首先應(yīng)用于商業(yè)和金融,后來逐漸擴(kuò)展到能源、科研、醫(yī)療和經(jīng)濟(jì)等領(lǐng)域.但是,大數(shù)據(jù)目前還面臨數(shù)據(jù)管理、干擾信息清除和個(gè)人隱私安全等方面的挑戰(zhàn).解決了上述問題后,大數(shù)據(jù)在科學(xué)研究中的應(yīng)用將日益廣泛,也會(huì)對(duì)人類社會(huì)產(chǎn)生更加深遠(yuǎn)的影響.
大數(shù)據(jù);現(xiàn)狀;應(yīng)用;展望
隨著社會(huì)的發(fā)展和技術(shù)的進(jìn)步,進(jìn)入21世紀(jì)后,大數(shù)據(jù)開始引起各行業(yè)的密切關(guān)注,自然科學(xué)的頂級(jí)雜志《Nature》和《Science》都推出??瘜?duì)科學(xué)研究中的大數(shù)據(jù)問題進(jìn)行討論,美國政府最先啟動(dòng)了涵蓋大數(shù)據(jù)的研究發(fā)展計(jì)劃,并賦予其與信息高速公里計(jì)劃同等的地位[1].隨后經(jīng)過主流媒體的科普宣傳,社會(huì)大眾開始接觸和理解大數(shù)據(jù)的概念,并認(rèn)識(shí)到其對(duì)日常生產(chǎn)生活所產(chǎn)生的深遠(yuǎn)影響.
本文從大數(shù)據(jù)的基本概念出發(fā),簡(jiǎn)述了大數(shù)據(jù)相關(guān)的技術(shù)支持,并對(duì)其研究現(xiàn)狀和在各領(lǐng)域的應(yīng)用做了闡述.然后介紹了大數(shù)據(jù)在實(shí)際應(yīng)用中所面臨的挑戰(zhàn),最后對(duì)其未來的發(fā)展進(jìn)行了展望.
大數(shù)據(jù)包括規(guī)模龐大的數(shù)據(jù),但是又不同于以往的海量數(shù)據(jù)和超大規(guī)模數(shù)據(jù)概念.目前,根據(jù)大數(shù)據(jù)在不同領(lǐng)域的應(yīng)用特征,對(duì)其有多種定義.為了便于理解和記憶,這里引用百度百科對(duì)大數(shù)據(jù)進(jìn)行定義,即指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn).由此可見,大數(shù)據(jù)的概念涵蓋豐富的內(nèi)容,包括信息的采集、管理、分析直至做出決策.
大數(shù)據(jù)所處理的數(shù)據(jù)規(guī)模通常以我們極少涉及到的TB、PB為基本單位,數(shù)據(jù)類型可以是數(shù)字、符號(hào),也可能實(shí)音頻、視頻等,并且有從結(jié)構(gòu)化向半結(jié)構(gòu)化和非結(jié)構(gòu)化轉(zhuǎn)變的趨勢(shì).同時(shí),在大數(shù)據(jù)分析過程中,分析模式不是一成不變的,而是隨著數(shù)據(jù)規(guī)模和類型的增長而不斷地演化,從而具有更強(qiáng)的適應(yīng)性.大數(shù)據(jù)不僅僅是數(shù)據(jù)本身,還包含了對(duì)其進(jìn)行分析處理的理論、技術(shù)和方法.因此,我們?cè)趯?shí)踐中無須過分地注重大數(shù)據(jù)的具體定義,而應(yīng)該把握其核心內(nèi)容和主要特性,利用大數(shù)據(jù)解決實(shí)際問題.
人類社會(huì)發(fā)展到今天,各種科學(xué)知識(shí)和數(shù)據(jù)信息都呈現(xiàn)爆發(fā)式的增長,例如科學(xué)研究中的天文觀測(cè)、基因測(cè)序以及社會(huì)生活中的天網(wǎng)監(jiān)測(cè)、居民消費(fèi)等.數(shù)據(jù)和信息的采集在時(shí)空上是實(shí)時(shí)的,全方位的.采集的方式也是復(fù)雜多樣,從最初的運(yùn)營式階段,經(jīng)過用戶原創(chuàng)階段,進(jìn)化至現(xiàn)在的感知式階段.在科技進(jìn)步的支撐下,極微小的傳感器和大型的天文望遠(yuǎn)鏡日臻完善,使人類的感知能力同時(shí)向微觀和宏觀世界拓展.同時(shí),收集信息的觸角逐漸遍布世界各個(gè)角落,海量的數(shù)據(jù)被不斷的產(chǎn)生和匯集.
數(shù)據(jù)和信息本身并沒有價(jià)值,只有通過處理分析,從中提煉出社會(huì)和自然界運(yùn)行的規(guī)律,或者得到解決實(shí)際問題的方法,才能體現(xiàn)出它們的意義.大數(shù)據(jù)的規(guī)模不同于以往,因此有其獨(dú)特的處理分析工具和技術(shù).對(duì)大數(shù)據(jù)的分析處理模式主要有流處理和批處理兩種.流處理是針對(duì)價(jià)值實(shí)效性較強(qiáng)的數(shù)據(jù),如網(wǎng)頁點(diǎn)擊統(tǒng)計(jì)、金融交易等,在數(shù)據(jù)產(chǎn)生的第一時(shí)間進(jìn)行分析并得到結(jié)果.這種模式以實(shí)時(shí)數(shù)據(jù)為流,數(shù)據(jù)流入處理器,很快便以結(jié)果的形式流出處理器.批處理是把數(shù)據(jù)先存儲(chǔ)再處理,這一模式的代表是Google公司設(shè)計(jì)的MapReduce模型.MapReduce模型根據(jù)不同類型將數(shù)據(jù)分成若干Map任務(wù)區(qū)進(jìn)行處理,通過自定義的Map函數(shù)計(jì)算出初步結(jié)果存入本地硬盤.Reduce任務(wù)負(fù)責(zé)從硬盤上提取結(jié)果,根據(jù)Key值進(jìn)行排序和組織.然后上述數(shù)列在Reduce函數(shù)的作用下形成最終的結(jié)果被導(dǎo)出.MapReduce模型將海量數(shù)據(jù)進(jìn)行了分解,較流處理方法簡(jiǎn)單易行,通用性好,在財(cái)務(wù)分析、營銷分析和生物信息學(xué)方面用途廣泛.
云計(jì)算是大數(shù)據(jù)存儲(chǔ)、管理和分析的支撐技術(shù).大數(shù)據(jù)的流處理要求數(shù)據(jù)的處理即時(shí)完成,其中按照概要數(shù)據(jù)結(jié)構(gòu)而設(shè)計(jì)的用于云計(jì)算的內(nèi)存必不可少,它突破了容量對(duì)流處理模型的限制這一瓶頸.以相變存儲(chǔ)器為代表的儲(chǔ)存級(jí)內(nèi)存可以徹底解決內(nèi)存對(duì)流處理的制約,是未來流處理內(nèi)存的發(fā)展方向.流處理廣泛應(yīng)用的同時(shí),與其相適應(yīng)的開源系統(tǒng)也得到了開發(fā),如Twitter的Storm和Yahoo的S4等.
大數(shù)據(jù)是在人類的需求下誕生的,出現(xiàn)后首先應(yīng)用于商業(yè)和金融,后來逐漸擴(kuò)展到能源、科研、醫(yī)療和經(jīng)濟(jì)等領(lǐng)域,并且其適用范圍還在不斷地增加.這里以其在地球空間信息學(xué)、物流服務(wù)、經(jīng)濟(jì)發(fā)展?fàn)顩r和智能電網(wǎng)等方面的應(yīng)用作為代表分別進(jìn)行介紹.
地球空間信息學(xué)產(chǎn)生于上世紀(jì)90年代,是測(cè)繪遙感和信息科學(xué)的交叉學(xué)科,通過多個(gè)平臺(tái),從多個(gè)角度和分辨率上對(duì)空、天、地進(jìn)行實(shí)時(shí)觀測(cè).依托大數(shù)據(jù),地球空間信息學(xué)的數(shù)據(jù)獲取從以前的專業(yè)傳感器擴(kuò)展到了數(shù)以億計(jì)的非專業(yè)傳感器,如智能手機(jī)、監(jiān)控視頻等,極大地提升了地球空間信息學(xué)的信息采集能力.大數(shù)據(jù)時(shí)代傳感器的信息采集速度和精度是前所未有的,可以實(shí)現(xiàn)對(duì)地球的多維動(dòng)態(tài)描述,建立高精度的時(shí)空動(dòng)態(tài)模型.在大數(shù)據(jù)和相關(guān)技術(shù)的支持下,地球空間信息研究形成了多顆衛(wèi)星組成的集遙感、導(dǎo)航和通訊功能于一體的天基網(wǎng)絡(luò),并與地面網(wǎng)絡(luò)互聯(lián)互通,組成信息實(shí)時(shí)服務(wù)系統(tǒng)[2].
近些年來,物流服務(wù)業(yè)蓬勃興起,促進(jìn)各種商品和資源在社會(huì)的不同角落合理分配.隨著生活水平的提高,人們對(duì)物流服務(wù)的要求也越來越高.訂單任務(wù)分配是物流服務(wù)供應(yīng)鏈中的重要環(huán)節(jié),對(duì)物流服務(wù)水平、成本乃至競(jìng)爭(zhēng)力有著決定性的影響.大數(shù)據(jù)能夠用于對(duì)物流客戶信息的分析,根據(jù)分析結(jié)果合理地分配訂單任務(wù).劉艷秋等利用大數(shù)據(jù)分析客戶的瀏覽記錄,預(yù)測(cè)客戶的固定需求和行為規(guī)律,從而確定了最佳的配送貨方案.研究結(jié)果表明物流服務(wù)供應(yīng)鏈得到優(yōu)化后,在降低運(yùn)行成本的同時(shí),服務(wù)水平和競(jìng)爭(zhēng)力都得到了提高[3].
大數(shù)據(jù)的信息采集設(shè)備遍及社會(huì)的各個(gè)角落,能夠忠實(shí)地記錄社會(huì)的經(jīng)濟(jì)活動(dòng)和交易行為,作為研究和評(píng)價(jià)經(jīng)濟(jì)發(fā)展?fàn)顩r的第一手資料.其中的國際貿(mào)易、商品生產(chǎn)、銷售記錄和銀行轉(zhuǎn)賬記錄等都是反映某一區(qū)域經(jīng)濟(jì)的重要參考指標(biāo),可以進(jìn)行大數(shù)據(jù)分析.相比傳統(tǒng)的經(jīng)濟(jì)普查,大數(shù)據(jù)對(duì)社會(huì)經(jīng)濟(jì)的覆蓋范圍更廣,效率更高,極大的節(jié)省了時(shí)間和人力成本,更突顯出支撐經(jīng)濟(jì)決策的及時(shí)性.大數(shù)據(jù)的優(yōu)勢(shì)具體體現(xiàn)在:首先大數(shù)據(jù)采集設(shè)備所獲取的信息能夠及時(shí)并持續(xù)更新,準(zhǔn)確反映當(dāng)下經(jīng)濟(jì)運(yùn)行的情況,如互聯(lián)網(wǎng)檢索對(duì)通貨膨脹的實(shí)時(shí)預(yù)測(cè).其次大數(shù)據(jù)涵蓋的信息類型全面,很多經(jīng)濟(jì)指標(biāo)在以往的技術(shù)條件下無法采集,但確是反映經(jīng)濟(jì)狀況的重要依據(jù).例如,個(gè)人通訊和社會(huì)網(wǎng)絡(luò)數(shù)據(jù)會(huì)被采集分析,在經(jīng)濟(jì)狀況預(yù)測(cè)中發(fā)揮作用[4].
能源輸送中的智能電網(wǎng)集成了多種先進(jìn)技術(shù),是未來電力工業(yè)發(fā)展的方向.智能電網(wǎng)的建立需要對(duì)電力系統(tǒng)的整個(gè)環(huán)節(jié)進(jìn)行實(shí)時(shí)的全景監(jiān)控.智能電網(wǎng)的運(yùn)行過程離不開實(shí)時(shí)數(shù)據(jù)采集、傳輸、存儲(chǔ)以及大數(shù)據(jù)分析的技術(shù)支持,因此成為大數(shù)據(jù)應(yīng)用的一個(gè)重要的技術(shù)領(lǐng)域.電力屬于傳統(tǒng)行業(yè),新型的大數(shù)據(jù)概念和技術(shù)還沒有被完全認(rèn)同,其應(yīng)用的價(jià)值得到充分體現(xiàn)需要一個(gè)長期的過程.另外,與公民個(gè)人隱私應(yīng)該得到保護(hù)一樣,大數(shù)據(jù)中的電力公司核心數(shù)據(jù)也只能在特定范圍內(nèi)使用,其隱私保護(hù)和數(shù)據(jù)安全問題也有待徹底解決[6].
大數(shù)據(jù)的應(yīng)用領(lǐng)域越來越廣泛,這給數(shù)據(jù)的集成和分析提出了新的要求.部分大數(shù)據(jù)的類型由結(jié)構(gòu)化向半結(jié)構(gòu)化和非結(jié)構(gòu)化演變,數(shù)據(jù)源日益復(fù)雜,數(shù)據(jù)的時(shí)空特性迅速增強(qiáng),都極大的增加了大數(shù)據(jù)集成、轉(zhuǎn)換和管理的難度,創(chuàng)新升級(jí)相關(guān)設(shè)備的存儲(chǔ)和分析功能已經(jīng)勢(shì)在必行.
大數(shù)據(jù)所包含的內(nèi)容廣泛全面,其中公民個(gè)人信息的采集和傳播都很容易,產(chǎn)生了一系列的隱私安全問題.大數(shù)據(jù)的信息采集點(diǎn)遍及社會(huì)的各個(gè)角落,人們?cè)诟鱾€(gè)地點(diǎn)活動(dòng)的數(shù)據(jù)足跡,特別是上網(wǎng)記錄會(huì)被收集并保存起來.這些數(shù)據(jù)經(jīng)過積累和關(guān)聯(lián)分析后,可以得到個(gè)人的詳細(xì)信息,其隱私便有泄露的危險(xiǎn).現(xiàn)實(shí)社會(huì)中,從技術(shù)層面上利用大數(shù)據(jù)對(duì)公眾人物或焦點(diǎn)人物進(jìn)行“人肉搜索”的例子不在少數(shù),侵犯了公民的權(quán)利,也給大數(shù)據(jù)時(shí)代的隱私保護(hù)帶來挑戰(zhàn)[7].
在科技發(fā)展日新月異的今天,大數(shù)據(jù)的如火如荼并不等于人們已經(jīng)對(duì)其深刻理解.和其它新興的概念一樣,大數(shù)據(jù)過度炒作的風(fēng)險(xiǎn)也是存在的.各個(gè)行業(yè)在對(duì)大數(shù)據(jù)的核心定義、關(guān)鍵技術(shù)和應(yīng)用方式上仍然存在一定的分歧和爭(zhēng)議,這些因素都不利于大數(shù)據(jù)的進(jìn)一步發(fā)展和廣泛應(yīng)用.
大數(shù)據(jù)具有劃時(shí)代的意義,在此之前都是技術(shù)進(jìn)步推動(dòng)信息發(fā)展,大數(shù)據(jù)出現(xiàn)以后,則是由信息推動(dòng)技術(shù)進(jìn)步.大數(shù)據(jù)不僅促進(jìn)了社會(huì)進(jìn)步,更推動(dòng)了科學(xué)研究向更廣的領(lǐng)域和更深的層次邁進(jìn).相比整個(gè)信息科學(xué)的發(fā)展歷史,大數(shù)據(jù)成長的時(shí)間還很短,因此具有廣闊的拓展空間和潛力[8].首先,為了應(yīng)對(duì)未來規(guī)模日益龐大,類型愈加復(fù)雜的數(shù)據(jù)存儲(chǔ)和分析要求,須要構(gòu)建分布式數(shù)據(jù)庫的存儲(chǔ)技術(shù)以及高效的操作系統(tǒng).大數(shù)據(jù)的核心資源就是數(shù)據(jù),其價(jià)值也來自數(shù)據(jù)本身,只有重視對(duì)數(shù)據(jù)的整合和分析,才能讓大數(shù)據(jù)體現(xiàn)出更大的價(jià)值.其次,大數(shù)據(jù)的發(fā)展,既要以現(xiàn)有的學(xué)科和技術(shù)為基礎(chǔ),也應(yīng)該促進(jìn)云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)網(wǎng)絡(luò)等技術(shù)的融合,為現(xiàn)代科學(xué)研究和社會(huì)運(yùn)行管理注入新的活力.最后,即建立以人為本的大數(shù)據(jù)體系,人類因?yàn)樾枨蟛艑⒖萍己蜕鐣?huì)發(fā)展不斷地推向高峰.所以,大數(shù)據(jù)的分析結(jié)果應(yīng)該以直觀友好的形式展現(xiàn),如報(bào)表、柱狀圖和曲線等,以便于被用戶接受和理解.隨著數(shù)據(jù)采集、集成、分析和處理技術(shù)的進(jìn)步,大數(shù)據(jù)在科學(xué)研究中的應(yīng)用將日益廣泛,對(duì)人類社會(huì)的影響也會(huì)愈加深遠(yuǎn).
〔1〕孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(1):146-169.
〔2〕李德仁.展望大數(shù)據(jù)時(shí)代的地球空間信息學(xué)[J].測(cè)繪學(xué)報(bào),2016(4):379-384.
〔3〕劉艷秋,王浩,張穎,蔡超.大數(shù)據(jù)背景下物流服務(wù)訂單分配[J].沈陽工業(yè)大學(xué)學(xué)報(bào),2016(2):190-195.
〔4〕高見,周濤.大數(shù)據(jù)揭示經(jīng)濟(jì)發(fā)展?fàn)顩r[J].電子科技大學(xué)學(xué)報(bào),2016(4):625-633.
〔5〕劉強(qiáng),秦泗釗.過程工業(yè)大數(shù)據(jù)建模研究展望[J].自動(dòng)化學(xué)報(bào),2016(2):161-171.
〔6〕張東霞,苗新,劉麗平,張焰,劉科研.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國電機(jī)工程學(xué)報(bào),2015(1):2-12.
〔7〕劉雅輝,張鐵贏,靳小龍,程學(xué)旗.大數(shù)據(jù)時(shí)代的個(gè)人隱私保護(hù)[J].計(jì)算機(jī)研究與發(fā)展,2015(1):229-247.
〔8〕張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計(jì)算機(jī)研究與發(fā)展,2013(S1):216-233.
TP311
A
1673-260X(2017)02-0029-02
2016-11-10