常李艷
摘要:大數(shù)據(jù)技術(shù)已經(jīng)成為信息社會(huì)最重要的技術(shù)之一。為了深入了解我國(guó)近年大數(shù)據(jù)技術(shù)主要的研究現(xiàn)狀和發(fā)展趨勢(shì),文章對(duì)我國(guó)最近五年大數(shù)據(jù)技術(shù)的研究文獻(xiàn)進(jìn)行了總結(jié),概括了大數(shù)據(jù)技術(shù)涉及的大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)存儲(chǔ)和管理技術(shù)、大數(shù)據(jù)安全和隱私保護(hù)技術(shù)以及大數(shù)據(jù)技術(shù)在不同領(lǐng)域的應(yīng)用5個(gè)方面,并對(duì)這五方面的研究現(xiàn)狀和發(fā)展趨勢(shì)進(jìn)行分析,并介紹了大數(shù)據(jù)在能源、教育、居民健康檔案建設(shè)方面的應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù);社會(huì)網(wǎng)絡(luò)分析;大數(shù)據(jù)分析;MapReduce;Hadoop
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)02-0002-03
Research trend of China's big data technology
CHANG Li-yan
(Nanjing University, Nanjing 210023, China)
Abstract: BIG DATA technology has become one of the most important technologies in the information society.In order to understand the research status and development trend of chinas BIG DATA technology in recent years,the article analyzed research literature of BIG DATA technology in recent five years in China and summed up five aspects of BIG DATA technology:acquisition techniques, BIG DATA analysis technique, management and storage techniques, data security and privacy preserving techniques and application of big data technology in different areas.Paper analyzed the research status and development trend of the five aspects.
Key words: BIG DATA; Social network analysis; BIG DATA analysis techniques; MapReduce; Hadoop
1 引言
隨著互聯(lián)網(wǎng)的發(fā)展,web2.0、web3.0的興起,以及物聯(lián)網(wǎng)的出現(xiàn),人類(lèi)的信息量急劇膨脹。根據(jù)IDC(國(guó)際數(shù) 據(jù)公司)的監(jiān)測(cè)統(tǒng)計(jì),2011年全球數(shù)據(jù) 總量已經(jīng)達(dá)到1.8ZB,而這個(gè)數(shù)值還在 以每2年翻一番的速度增長(zhǎng),預(yù)計(jì)到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù) 量,比2011年增長(zhǎng)了近20倍。換句話說(shuō),近2年產(chǎn)生的數(shù)據(jù)總量相當(dāng)于人類(lèi)有史以來(lái)數(shù)據(jù)量的總和[1,2]。從大量數(shù)據(jù)中獲取有用信息成為人們的迫切需求,在此背景下“大數(shù)據(jù)(big data)”的概念受到社會(huì)各領(lǐng)域的重視。
2 大數(shù)據(jù)的概念及特征
2.1 大數(shù)據(jù)的概念
“大數(shù)據(jù)”至今沒(méi)有公認(rèn)的定義,2011全球知名咨詢(xún)公司麥肯錫在《大數(shù)據(jù): 創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》報(bào)告中給出的定義是:大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫(kù)工具獲取、存儲(chǔ)、管理和分析能力的數(shù)據(jù)集。同時(shí)強(qiáng)調(diào),并不是說(shuō)一定要超過(guò)特定TB級(jí)的數(shù)據(jù)集才能算是大數(shù)據(jù)。國(guó)際數(shù)據(jù)公司(IDC)用四個(gè)維度的特征來(lái)定義大數(shù)據(jù),即數(shù)據(jù)集的規(guī)模(Volume)、數(shù)據(jù)流動(dòng)的速度(Velocity)、數(shù)據(jù)類(lèi)型的多少(Variety)和數(shù)據(jù)價(jià)值的大小(Value)[3]。基百科上的大數(shù)據(jù)定義:“大數(shù)據(jù)指的是數(shù)據(jù)規(guī)模龐大和復(fù)雜到難以通過(guò)現(xiàn)有的數(shù)據(jù)庫(kù)管理工具或者傳統(tǒng)的數(shù)據(jù)處理應(yīng)用程序進(jìn)行處理的數(shù)據(jù)集合”。以上的定義雖然不盡相同,但均突出了數(shù)據(jù)的“大”。從數(shù)據(jù)到大數(shù)據(jù)量再到最后的大數(shù)據(jù),不僅僅體現(xiàn)在量上的變化,而且是數(shù)據(jù)質(zhì)量的提升,大數(shù)據(jù)的技術(shù)、平臺(tái)、數(shù)據(jù)分析方法等均與從前小數(shù)據(jù)時(shí)代不同,大數(shù)據(jù)的核心是從海量無(wú)序信息中獲取有用信息。
2.2 大數(shù)據(jù)的特征
盡管不同領(lǐng)域的人員對(duì)大數(shù)據(jù)的概念有不同見(jiàn)解,但是普遍認(rèn)為大數(shù)據(jù)具備如下的4V特征:⑴ 體量Volume,是指數(shù)據(jù)存儲(chǔ)量大,計(jì)算量大;⑵ 多樣Variety,是指大數(shù)據(jù)的異構(gòu)和多樣性;⑶ 價(jià)值Value,是指大數(shù)據(jù)價(jià)值密度相對(duì)較低,信息海量,挖掘出真正有價(jià)值的數(shù)據(jù)難度較大;⑷ 速度Velocity,是指數(shù)據(jù)增長(zhǎng)速度快。
3 近年我國(guó)大數(shù)據(jù)技術(shù)研究熱點(diǎn)
通過(guò)對(duì)2012年至2016年CNKI數(shù)據(jù)庫(kù)中涉及大數(shù)據(jù)技術(shù)的文獻(xiàn)資料進(jìn)行整理分析,抽取大數(shù)據(jù)技術(shù)相關(guān)文獻(xiàn)總大于10的68個(gè)關(guān)鍵詞作為高頻關(guān)鍵詞,并構(gòu)建高頻關(guān)鍵詞共現(xiàn)矩陣,利用社會(huì)網(wǎng)絡(luò)分析軟件Ucinet建立關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)圖譜,顯示我國(guó)最近5年在大數(shù)據(jù)分析領(lǐng)域的主要研究熱點(diǎn)和趨勢(shì)(圖1)。通過(guò)分析將我國(guó)的大數(shù)據(jù)技術(shù)分為大數(shù)據(jù)采集技術(shù)、大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)存儲(chǔ)和處理技術(shù)、大數(shù)據(jù)安全與隱私保護(hù)技術(shù)、大數(shù)據(jù)應(yīng)用5個(gè)方面。
3.1 大數(shù)據(jù)采集技術(shù)
數(shù)據(jù)集是大數(shù)據(jù)挖掘和分析的基礎(chǔ)。因此一個(gè)有效的數(shù)據(jù)采集方案對(duì)大數(shù)據(jù)挖掘研究具有重要意義。目前常用的采集技術(shù)有形碼技術(shù)、射頻識(shí)別技術(shù)(RFID) 、視頻監(jiān)控技術(shù)、智能錄播技術(shù)與情感識(shí)別技術(shù)、點(diǎn)陣數(shù)碼筆技術(shù)、移動(dòng) APP 技術(shù)與網(wǎng)絡(luò)爬 蟲(chóng)采集技術(shù)等。由于各個(gè)領(lǐng)域數(shù)據(jù)源各不相同,我國(guó)學(xué)者對(duì)不同領(lǐng)域不同結(jié)構(gòu)數(shù)據(jù)的采集技術(shù)和方法進(jìn)行了研究。主要研究云環(huán)境下大數(shù)據(jù)的采集、分布式大數(shù)據(jù)的采集技術(shù)以及各領(lǐng)域大數(shù)據(jù)采集。如,方暉提出了一種基于相干功率譜密度估計(jì)的大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)下云信息采集方法[4]。付華崢在系統(tǒng)的解析模塊中提出了一種通用有效的基于標(biāo)簽樹(shù)節(jié)點(diǎn)權(quán)重的正文提取算法的高效的分布式大數(shù)據(jù)采集系統(tǒng),同時(shí)引入IP代理池技術(shù)來(lái)保證系統(tǒng)的持續(xù)性。實(shí)驗(yàn)證明,本系統(tǒng)能夠高效快速地獲取大量的網(wǎng)絡(luò)數(shù)據(jù)[5]。劉寧從數(shù)據(jù)采集內(nèi)容、數(shù)據(jù)采集規(guī)劃、采集接口的網(wǎng)絡(luò)部署和采集客戶端的工作方式4個(gè)方面提出居民電子健康檔案的數(shù)據(jù)采集方案(圖2為劉寧設(shè)計(jì)的居民電子健康檔案數(shù)據(jù)采集接口的客戶端工作方式)[6]。
圖2 居民電子健康檔案數(shù)據(jù)采集接口的客戶端工作方式
3.2 大數(shù)據(jù)分析技術(shù)
數(shù)據(jù)采集的主要作用是為了進(jìn)行數(shù)據(jù)分析,獲得有價(jià)值的信息。傳統(tǒng)數(shù)據(jù)處理技術(shù)有對(duì)關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘技術(shù)、智能分析、統(tǒng)計(jì)分析等,但這些技術(shù)已經(jīng)不能滿足大數(shù)據(jù)環(huán)境下對(duì)數(shù)據(jù)進(jìn)行有效分析的需要。大數(shù)據(jù)環(huán)境下數(shù)據(jù)的分析主要集中與云計(jì)算、分布式數(shù)據(jù)庫(kù)、MapReduce、大數(shù)據(jù)挖掘、基于機(jī)器學(xué)習(xí)的大數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)分析系統(tǒng)的設(shè)計(jì)、可視化技術(shù)等技術(shù)。云計(jì)算是大數(shù)據(jù)分析處理技術(shù)的核心原理,也是大數(shù)據(jù)分析應(yīng)用的基礎(chǔ)平臺(tái)[7]。它是一種新型超級(jí)計(jì)算,云計(jì)算的技術(shù)實(shí)際上是實(shí)現(xiàn)計(jì)算、服務(wù)、存儲(chǔ)、應(yīng)用軟件等硬件資源的虛擬化。云計(jì)算主要是對(duì)數(shù)據(jù)進(jìn)行分布式的處理以及分析來(lái)實(shí)現(xiàn)數(shù)據(jù)管理技術(shù)。針對(duì)大數(shù)據(jù)環(huán)境非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)挖掘問(wèn)題,Kang U等提出針對(duì)圖片文件的挖掘技術(shù)[8],提出一種大規(guī)模文本文件的檢索與挖掘技術(shù)[9]。 Google公司于2004年提MapReduce技術(shù)作為一種典型的數(shù)據(jù)批處理技 術(shù)被廣泛地應(yīng)用于數(shù)據(jù)挖掘、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等 領(lǐng)域,并且因?yàn)樗⑿惺綌?shù)據(jù)處理的方式已經(jīng)成為大數(shù)據(jù)處理的關(guān)鍵技術(shù)[10]。 李晨暉等提出大數(shù)據(jù)分析的九層架構(gòu),認(rèn)為復(fù)雜結(jié)構(gòu) 處理技術(shù)、大數(shù)據(jù)智能識(shí)別與傳感技術(shù)、大數(shù)據(jù)平臺(tái)標(biāo)準(zhǔn)規(guī)范、虛擬化接入技術(shù)、知識(shí)服務(wù)交易模型、知識(shí)服務(wù)全生命周期管理技術(shù)、大數(shù)據(jù)知識(shí)服務(wù)質(zhì)量評(píng)價(jià)體系、支持可視化大數(shù)據(jù)服務(wù)終端交互技術(shù)等共同構(gòu)成了大數(shù)據(jù)分析和服務(wù)的關(guān)鍵技術(shù)體系[11]。
3.3 大數(shù)據(jù)存儲(chǔ)和管理
傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和管理以結(jié)構(gòu)化數(shù)據(jù)為主,主要使用關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)(RDBMS)。大數(shù)據(jù)的4V特征表明,其主要以非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)為主,而且數(shù)據(jù)常常為異構(gòu)數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)很難完成對(duì)大數(shù)據(jù)的存儲(chǔ)、檢索和管理工作?,F(xiàn)在對(duì)大數(shù)據(jù)存儲(chǔ)和管理的研究主要涉及分布式并行數(shù)據(jù)集群技術(shù)的研究、面向大數(shù)據(jù)處理的MapReduce模型、NoSQL存儲(chǔ)方案、分布式文件系統(tǒng)以及基于Hadoop開(kāi)源體系的系統(tǒng)平臺(tái)等方面。 程學(xué)旗等將大數(shù)據(jù)分為3類(lèi),認(rèn)為結(jié)構(gòu)化的大數(shù)據(jù),通常采用新型數(shù)據(jù)庫(kù)集群。它們通過(guò)列存儲(chǔ)或行列混合存儲(chǔ)以及粗粒度索引等技術(shù),結(jié)合MPP(Massive Parallel Processing)架構(gòu)高效的分布式計(jì)算模式,實(shí)現(xiàn)對(duì) PB 量級(jí)數(shù)據(jù)的存儲(chǔ)和管理。這類(lèi)集群具有高性能和高擴(kuò)展性特點(diǎn),在企業(yè)分析類(lèi)應(yīng)用領(lǐng)域已獲得廣泛應(yīng)用[12]。Hadoop 分布式文件系統(tǒng) HDFS 是建立在大型集群上可靠存儲(chǔ)大數(shù)據(jù)的文件系統(tǒng)[13],基于HFDS的Hive和HBase能夠很好地支持大數(shù)據(jù)的存儲(chǔ)。將Hive與HBase進(jìn)行整合,共同用于大數(shù)據(jù)的處理,可以減少開(kāi)發(fā)過(guò)程,提高開(kāi)發(fā)效率。使用 HBase存儲(chǔ)大數(shù)據(jù),使用Hive提供的SQL查詢(xún)語(yǔ)言,可以十分方便地實(shí)現(xiàn)大數(shù)據(jù)的存儲(chǔ)和分析。非關(guān)系型數(shù)據(jù)庫(kù)( NoSQL) 以鍵值對(duì)存儲(chǔ),它的結(jié)構(gòu)不固定,每一個(gè)元組可以有不一樣的字段,每個(gè)元組可以根據(jù)需要增加一些自己的鍵值對(duì),這樣就不會(huì)局限于固定的結(jié)構(gòu),可以減少一些時(shí)間和空間的開(kāi)銷(xiāo)[14]。Google的BigTable就是典型的NoSQL實(shí)現(xiàn)。申德榮等針對(duì)基于key-value數(shù)據(jù)模型的NoSQL數(shù)據(jù)庫(kù)的相關(guān)研究進(jìn)行綜述。
3.4 大數(shù)據(jù)的安全和隱私保護(hù)
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)分析方法的進(jìn)步使人們可以從海量無(wú)序數(shù)據(jù)中發(fā)現(xiàn)規(guī)律性的有用的信息,從而使信息安全和個(gè)人隱私保護(hù)受到更大的威脅。一方面的企業(yè)或個(gè)人可以通過(guò)用戶行為歷史記錄,可以預(yù)測(cè)用戶的政治傾向、消費(fèi)習(xí)慣等敏感信息,同時(shí)事實(shí)證明企業(yè)使用的匿名保護(hù)的方法,無(wú)法滿足對(duì)用戶隱私保護(hù)的需求,最后,現(xiàn)在沒(méi)有相關(guān)的法律法規(guī)來(lái)規(guī)范企業(yè)對(duì)用戶信息的采集、存儲(chǔ)、傳播和使用?,F(xiàn)在的大數(shù)據(jù)安全與隱私保護(hù)技術(shù)主要涉及數(shù)據(jù)加密算法、隱私保護(hù)的立法、位置大數(shù)據(jù)的隱私保護(hù)、隱私保護(hù)的技術(shù)架構(gòu)研究等方面。數(shù)據(jù)加密算法包括對(duì)稱(chēng)加密算法和非對(duì)稱(chēng)加密算法,Rivest在1989年開(kāi)發(fā)出MD2算法,不需要密鑰,引發(fā)了雜湊算法(也稱(chēng)Hash函數(shù))的研究[15]。persona通過(guò)基于屬性加密和傳統(tǒng)公鑰加密技術(shù)的組合,提供靈活的細(xì)粒度的訪問(wèn)控制,通過(guò)加密技術(shù)確保數(shù)據(jù)的保密性和隱私。許杰等從數(shù)據(jù)源的角度出發(fā),使用幾何變形的方法對(duì)數(shù)據(jù)進(jìn)行干擾,使得數(shù)據(jù)聚類(lèi)算法失效或分析得出錯(cuò)誤的結(jié)果,從而達(dá)到大數(shù)據(jù)安全隱私保護(hù)的目的[16]。位置大數(shù)據(jù)的隱私保護(hù)技術(shù)主要有基于啟發(fā)式隱私度量的位置大數(shù)據(jù)隱私保護(hù)技術(shù)、 基于概率推測(cè)的位置大數(shù)據(jù)隱私保護(hù)技術(shù)、基于隱私信息檢索的位置大數(shù)據(jù)隱私保護(hù)技術(shù)等[17]。
3.5 大數(shù)據(jù)應(yīng)用
大數(shù)據(jù)作為信息技術(shù)發(fā)展的新趨勢(shì),其技術(shù)已經(jīng)應(yīng)用到各行各業(yè)。大數(shù)據(jù)技術(shù)在能源、教育、科研、制造、金融、電子政務(wù)、企業(yè)經(jīng)營(yíng)管理、信息管理等領(lǐng)域的應(yīng)用,為這些領(lǐng)域帶來(lái)了革命性的影響。曹軍威等認(rèn)為在能源互聯(lián)網(wǎng)中不僅信息的種類(lèi)和數(shù)量巨大,而且對(duì)信息的實(shí)時(shí)性要求也越來(lái)越高,因此大數(shù)據(jù)分析技術(shù)在能源互聯(lián)網(wǎng)中具有廣泛的應(yīng)用前景。文中分析了能源互聯(lián)網(wǎng)大數(shù)據(jù)分析應(yīng)用,能源互聯(lián)網(wǎng)側(cè)重分布式能源和可再生能源的接入和互聯(lián),大數(shù)據(jù)分析在能源互聯(lián)網(wǎng)中的應(yīng)用包括負(fù)荷建模、負(fù)荷預(yù)測(cè)、狀態(tài)評(píng)估、電能質(zhì)量監(jiān)測(cè)與控制、需求側(cè)管理與響應(yīng)、分布式能源接入、多能調(diào)度規(guī)劃、自動(dòng)故障定位、系統(tǒng)安全與態(tài)勢(shì)感知等[18]。張金磊提出在大數(shù)據(jù)時(shí)代,企業(yè)管理者應(yīng)該深入剖析企業(yè)戰(zhàn)略管理過(guò)程,并結(jié)合現(xiàn)有大數(shù)據(jù)技術(shù)在企業(yè)戰(zhàn)略管理中的應(yīng)用,提出如何利用大數(shù)據(jù)技術(shù)搭建企業(yè)數(shù)據(jù)分析平臺(tái),最終實(shí)現(xiàn)提升企業(yè)整體核心實(shí)力與環(huán)境應(yīng)變能力[19]。劉寧等對(duì)對(duì)了大數(shù)據(jù)環(huán)境下,國(guó)內(nèi)外健康檔案數(shù)據(jù)采集現(xiàn)狀,從數(shù)據(jù)采集內(nèi)容、數(shù)據(jù)采集規(guī)劃、采集接口的網(wǎng)絡(luò)部署和采集客戶端的工作方式4個(gè)方面提出我國(guó)居民電子健康檔案的數(shù)據(jù)采集方案[7]。胡水星教育領(lǐng)域同樣蘊(yùn)藏著具有廣泛應(yīng)用價(jià)值的海量數(shù)據(jù),在探討教育大數(shù)據(jù)關(guān)鍵技術(shù)分析的基礎(chǔ)上,結(jié)合共詞分析和教育博客等社會(huì)化網(wǎng)絡(luò)教育數(shù)據(jù),構(gòu)建教育領(lǐng)域的相關(guān)學(xué)習(xí)分析和數(shù)據(jù)挖掘模型,探索教育變量之間的相關(guān)關(guān)系,實(shí)踐大數(shù)據(jù)的教育應(yīng)用[20]。
4 總結(jié)
大數(shù)據(jù)技術(shù)已經(jīng)成為信息社會(huì)的最重要技術(shù)之一,各國(guó)對(duì)大數(shù)據(jù)技術(shù)均十分重視。2012年3月,美國(guó)白宮科技政策辦公室發(fā)布《大數(shù)據(jù)研究和發(fā)展計(jì)劃》,成立“大數(shù)據(jù)高級(jí)指導(dǎo)小組”。2014 年 5月,美國(guó)發(fā)布《大數(shù)據(jù):把握機(jī)遇,守護(hù)價(jià)值》白皮書(shū),對(duì)美國(guó)大數(shù)據(jù)應(yīng)用與管理的現(xiàn)狀,政策框架和改進(jìn)建議進(jìn)行集中闡述[13]。本文通過(guò)對(duì)最近5年發(fā)表的關(guān)于大數(shù)據(jù)的文獻(xiàn)資料進(jìn)行分析,總結(jié)了我國(guó)大數(shù)據(jù)在大數(shù)據(jù)采集、大數(shù)據(jù)分析、大數(shù)據(jù)存儲(chǔ)和管理、大數(shù)據(jù)安全和隱私保護(hù)以及大數(shù)據(jù)應(yīng)用5各方面技術(shù)現(xiàn)狀和研究熱點(diǎn),分析顯示大數(shù)據(jù)技術(shù)已經(jīng)帶來(lái)社會(huì)各領(lǐng)域的變革,例如其在電力、能源、醫(yī)療、教育、企業(yè)管理、工業(yè)制造、智慧城市等方面均有較為深入的研究和應(yīng)用。然而大數(shù)據(jù)技術(shù)剛剛起步,還存在數(shù)據(jù)獲取、隱私保護(hù)等方面的問(wèn)題,有待研究者進(jìn)一步的研究和分析。
參考文獻(xiàn):
[1]李國(guó)杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(9):8-15.
[2] 李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域[J].中國(guó)科學(xué)院院刊,2012,27(6):647-657.
[3] 麥肯錫公司的報(bào)告《大數(shù)據(jù): 創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》,http://taidupa.com/taxonomy/term/998,[2016-11-1].
[4] 方暉.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)下云信息采集方法的改進(jìn)與研究[J].電子技術(shù)與軟件工程,2016(21).
[5] 付華崢,陳翀,向勇,等. 分布式大數(shù)據(jù)采集關(guān)鍵技術(shù)研究與實(shí)現(xiàn)[J]. 廣東通信技術(shù),2015(10):7-10+79.
[6]劉寧,鄭曦,宋春雷,翟敏. 大數(shù)據(jù)時(shí)代居民電子健康檔案數(shù)據(jù)采集設(shè)計(jì)[J]. 醫(yī)學(xué)信息學(xué)雜志,2014(11):8-12+21.
[7]陳康, 鄭緯民. 云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J]. 軟件學(xué)報(bào),2009,20(5):1337-1348.
[8] Kang U,Chau D H,F(xiàn)aloutsos C. PEGASUS: Mining billion-scale graphs in the cloud[C].IEEE International Conference on Acoustics,Speech,and SignalProcessing ( ICASSP ),2012: 5341-5344.
[9] Gubanov M,Pyayt A. MEDREADFAST: A structural in-formation retrieval engine for big clinical text[C]∥Proceedings of the 13th International Conference on Information Reuse and Integration( IRI) , 2012: 371-376
[10] 李成華,張新訪,金海,等.MapReducec:新型的分布式并行計(jì)算編程模型[J].計(jì)算機(jī)工程與科學(xué),2011,33 (3):129-135.
[11] 李晨暉,崔建明,陳超泉. 大數(shù)據(jù)知識(shí)服務(wù)平臺(tái)構(gòu)建關(guān)鍵技術(shù)研究[J].情報(bào)資料工作,2013(2): 29-34.
[12] 程學(xué)旗,靳小龍,楊婧等. 大數(shù)據(jù)技術(shù)進(jìn)展與發(fā)展趨勢(shì)[J].科技導(dǎo)報(bào), 2016, 34(14):51-61.
[13] 李國(guó)杰. 大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J]. 中國(guó)科學(xué)院院刊, 2013,4(4).
[14] 張濱,陳吉榮,樂(lè)嘉錦.大數(shù)據(jù)管理技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(11):7-11,16.
[15] 劉黃生, 田苗苗, 黃河.大數(shù)據(jù)隱私保護(hù)密碼技術(shù)研究綜述[J].軟件學(xué)院,2015 (4):229-247
[16] 許杰, 聶大成, 李明桂等.基于幾何變形的大數(shù)據(jù)安全隱私保護(hù)方法[J].通信技術(shù),2015,48(5):602-606.
[17] 王璐, 孟小峰. 位置大數(shù)據(jù)隱私保護(hù)研究綜述[J]. 軟件學(xué)報(bào), 2014,25(4):693-712.
[18] 曹軍威,袁仲達(dá),明陽(yáng)陽(yáng)等.能源互聯(lián)網(wǎng)大數(shù)據(jù)分析技術(shù)綜述[J].南方電網(wǎng)技術(shù), 2015, 9(11): 9-20.
[19] 張金磊. 淺析大數(shù)據(jù)技術(shù)在企業(yè)戰(zhàn)略管理中的應(yīng)用[J]. 電腦知識(shí)與技術(shù), 2016, 12(20): 23-26.
[20] 胡水星. 大數(shù)據(jù)及其關(guān)鍵技術(shù)的教育應(yīng)用實(shí)證分析[J]. 遠(yuǎn)程教育雜志, 2015: 48-55.