蔡江輝,楊雨晴
(太原科技大學計算機科學與技術學院,太原 030024)
2008年9月,《大數(shù)據(jù):PB時代的科學》一文在《nature》雜志上發(fā)表,大數(shù)據(jù)開始慢慢進入人們的社會生活。如今,“大數(shù)據(jù)”不僅僅是網(wǎng)絡熱詞,其相關技術已經(jīng)滲透到各行各業(yè)。賽迪顧問分析顯示,中國大數(shù)據(jù)產(chǎn)業(yè)規(guī)模從2015年的2 231.6億元增長至2019年的5 386.2億元,年復合增長率達24.6%[1];互聯(lián)網(wǎng)數(shù)據(jù)中心和IBM的研究數(shù)據(jù)表明,信息將以每年50%的速度快速的增長,每兩年會增加一倍[2]。2008年全球數(shù)據(jù)總量僅為 0.49 ZB,2012年已達到 2.8 ZB,2020年有望達到40 ZB[3].上述數(shù)據(jù)充分表明,當今世界已經(jīng)處于數(shù)據(jù)爆炸式增長的“大數(shù)據(jù)”時代。
數(shù)據(jù)爆炸式增長給大數(shù)據(jù)的分析和處理帶來了巨大挑戰(zhàn)。比如說,來自不同地點的數(shù)據(jù)規(guī)模增速驚人,這些數(shù)據(jù)如何才能以可伸縮的方式收集并集成;如何在大數(shù)據(jù)處理的諸多環(huán)節(jié)(預處理、建模、分析、預測、優(yōu)化、可視化等)提高決策效率。針對上述挑戰(zhàn),Google,Facebook,Microsoft,amazon,Alibaba 等互聯(lián)網(wǎng)企業(yè)在大數(shù)據(jù)領域積極探索不斷尋求技術創(chuàng)新,極大促進了大數(shù)據(jù)行業(yè)和相關技術的發(fā)展。本文從大數(shù)據(jù)分析及處理出發(fā),簡述了大數(shù)據(jù)的概念及特性,重點分析了大數(shù)據(jù)領域的發(fā)展現(xiàn)狀;最后總結了目前大數(shù)據(jù)分析和處理存在的問題并對相關問題進行了簡單分析。
什么是“大數(shù)據(jù)”?這個問題一直以來都是業(yè)界爭論的焦點,學者和從事大數(shù)據(jù)有關研究的專家們對大數(shù)據(jù)的定義都有其自己的見解。維基百科中將大數(shù)據(jù)界定為:常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間限制的數(shù)據(jù)集[4]。徐宗本院士對大數(shù)據(jù)的描述為“不能夠集中存儲、并且難以在可接受時間內(nèi)分析處理,其中個體或部分數(shù)據(jù)呈現(xiàn)低價值性而數(shù)據(jù)整體呈現(xiàn)高價值的海量復雜數(shù)據(jù)集[5]”。從上述定義可以看出,大數(shù)據(jù)是一個與傳統(tǒng)數(shù)據(jù)集相對的概念,為了區(qū)分大數(shù)據(jù)還得拿它和傳統(tǒng)數(shù)據(jù)做一番比較。
大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)差異首先不得不說的就是數(shù)據(jù)量,它是區(qū)分大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的關鍵因素。傳統(tǒng)數(shù)據(jù)集一般僅僅達到GB,而大數(shù)據(jù)則已經(jīng)達到PB、EB甚至ZB.其次,傳統(tǒng)數(shù)據(jù)通常是結構化的關系型數(shù)據(jù),對傳統(tǒng)關系型數(shù)據(jù)進行標注和存儲一般來說相對容易。而大數(shù)據(jù)則大部分都是半結構和非結構化的,比如文本、圖像、音頻、視頻文件等。對大數(shù)據(jù)進行標注和存儲是相當困難的,大數(shù)據(jù)的標注任務在大多數(shù)情況下都是無法完成的。從對數(shù)據(jù)處理速率的要求上看,大數(shù)據(jù)的產(chǎn)生速率是極快的,大數(shù)據(jù)對處理速度的要求更高(大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)集的比較如圖1所示)。此外,從產(chǎn)生機制上來說,大數(shù)據(jù)已經(jīng)突破了傳統(tǒng)數(shù)據(jù)產(chǎn)生的時空概念,是“人”“機”“物”三者高度融合,相互協(xié)同作用的結果[6]。
表1 大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的比較Tab.1 Comparison between big data and traditional data
大數(shù)據(jù)的復雜產(chǎn)生機制讓大數(shù)據(jù)具有了多種復雜特性,其中業(yè)界廣泛認可的是META集團分析師在2001年提出的3V特性,包括規(guī)模性(Volume),多樣性(Variety),高速性(Velocity)。此后,數(shù)據(jù)的價值性(Value)也被提出,由此發(fā)展成了4V特性。2012年,IBM又加入了真實性(Veracity),大數(shù)據(jù)特性由4V發(fā)展到了5V,即規(guī)模性(Volume)、多模態(tài)(Variety),高速性(Velocity)、價值密度低(Value)和真實性(Veracity).截止目前,大數(shù)據(jù)特性已經(jīng)由5V發(fā)展到了7V(如圖1所示)。
圖1 大數(shù)據(jù)的特性Fig.1 Characteristics of big data
信息技術的飛速發(fā)展讓數(shù)據(jù)的獲取變得容易快捷,數(shù)據(jù)量在短時間內(nèi)迅速膨脹,數(shù)據(jù)的存儲、查詢、索引等都面臨著前所未有的挑戰(zhàn)。要在短時間內(nèi)響應用戶的需求,準確完成數(shù)據(jù)分析任務并將結果可視化呈現(xiàn)給用戶是傳統(tǒng)數(shù)據(jù)分析與處理中沒有遇到的。目前,大量研究旨在解決大數(shù)據(jù)在產(chǎn)生、收集、存儲、分析與挖掘、可視化等各階段中所面臨的問題。經(jīng)過分析綜合,本文將大數(shù)據(jù)的分析與處理體系概括為大數(shù)據(jù)采集、大數(shù)據(jù)存儲、大數(shù)據(jù)預處理、大數(shù)據(jù)分析及挖掘、可視化呈現(xiàn)5個部分(如圖2所示)。
圖2 大數(shù)據(jù)分析與處理體系Fig.2 The framework for big data analysis and processing
(1)大數(shù)據(jù)采集:數(shù)據(jù)無處不在,其來源涵蓋了金融、醫(yī)療、互聯(lián)網(wǎng)、交通、通信、教育、科研等領域。上述領域的大數(shù)據(jù)在規(guī)模、數(shù)據(jù)特性上存在很大差異,選擇什么樣的數(shù)據(jù)采集方法既要考慮數(shù)據(jù)源的物理性質(zhì),又要考慮數(shù)據(jù)分析的目標。常用的數(shù)據(jù)采集設備主要有傳感器、移動終端、日志文件、web爬蟲[7]等。
(2)大數(shù)據(jù)存儲[8]:數(shù)據(jù)的類型可以分為結構化、半結構化和非結構化數(shù)據(jù)3類。相較于傳統(tǒng)數(shù)據(jù),大數(shù)據(jù)多是半結構化和非結構化的。以往關系型的輕型數(shù)據(jù)庫只能完成某些簡單的查詢和處理請求,當數(shù)據(jù)存儲和處理任務超過輕型數(shù)據(jù)庫能力范圍時需要對其做出一定改進,或者借助于大型分布式數(shù)據(jù)庫或集群或云儲存平臺。
(3)大數(shù)據(jù)預處理[9]:數(shù)據(jù)源的多樣性以及數(shù)據(jù)傳輸中的某些因素使得大數(shù)據(jù)質(zhì)量具有了不確定性,噪聲、冗余、缺失、數(shù)據(jù)不一致等問題嚴重影響了大數(shù)據(jù)的質(zhì)量。為了獲得可靠的數(shù)據(jù)分析和挖掘結果必須利用預處理手段提高大數(shù)據(jù)的質(zhì)量。數(shù)據(jù)清洗[10-11]可以發(fā)現(xiàn)大數(shù)據(jù)中不準確、不完整或不合理的數(shù)據(jù)并對其進行修補或移除;冗余檢測和數(shù)據(jù)壓縮[12]可以消除數(shù)據(jù)不一致并降低存儲開銷。
(4)大數(shù)據(jù)分析與挖掘[13]:大數(shù)據(jù)分析與挖掘是大數(shù)據(jù)處理體系的核心,其目標是通過一定的分析和挖掘技術發(fā)現(xiàn)大數(shù)據(jù)中隱藏的有價值的信息或知識從而輔助決策。大數(shù)據(jù)分析和挖掘涵蓋了統(tǒng)計分析、機器學習、數(shù)據(jù)挖掘、模式識別等多個領域的技術和方法,比如說通過數(shù)據(jù)挖掘的方法發(fā)現(xiàn)人類的移動模式[14-16]。
(5)可視化呈現(xiàn)[17]:為了讓用戶更好地理解數(shù)據(jù)分析和挖掘的結果,需要將挖掘到的知識或者模式在終端以友好、易于理解的方式直觀展示給用戶,為用戶決策提供意見或支持。
大數(shù)據(jù)分析與挖掘是將海量、復雜、高速、低密度的大數(shù)據(jù)轉化成為人類生產(chǎn)生活服務的知識或模式的重要技術。為了實現(xiàn)上述目標國內(nèi)外專家和學者們開展了大量研究工作。本文剩余部分將從數(shù)據(jù)分析及挖掘的相關技術和方法著手簡單敘述數(shù)據(jù)分析和挖掘的國內(nèi)外研究現(xiàn)狀。
2012年11月6日,美國時任總統(tǒng)、民主黨候選人奧巴馬擊敗共和黨挑戰(zhàn)者羅姆尼成功連任。據(jù)《時代》雜志透露奧巴馬成功連任得益于其在過去兩年時間內(nèi)對其國家網(wǎng)絡大數(shù)據(jù)的分析和挖掘。通過分析用戶的消費、搜索和游覽習慣等數(shù)據(jù),馬云旗下的淘寶和天貓網(wǎng)站每年雙十一的銷售額達到了幾百億人民幣,堪稱互聯(lián)網(wǎng)行業(yè)規(guī)模最大最成功的商業(yè)活動。上述大數(shù)據(jù)分析和挖掘的成功經(jīng)驗讓各行各業(yè)的大數(shù)據(jù)生產(chǎn)者和消費者們都看到了大數(shù)據(jù)的價值,同時也激發(fā)著各行各業(yè)的專家和學者們投身于大數(shù)據(jù)分析與挖掘的宏偉事業(yè)。目前,國內(nèi)外出現(xiàn)了眾多大數(shù)據(jù)分析和挖掘的技術,本小節(jié)從大數(shù)據(jù)分類上分析了文本大數(shù)據(jù)分析與挖掘、網(wǎng)絡大數(shù)據(jù)分析與挖掘、多媒體大數(shù)據(jù)分析與挖掘、移動大數(shù)據(jù)分析與挖掘的國內(nèi)外研究現(xiàn)狀。
伴隨著各種社交媒體的廣泛應用,文本數(shù)據(jù)量劇增。文本作為數(shù)據(jù)存儲的最常見的形式,既不是完全無結構也不是完全結構化的。常見的文本數(shù)據(jù)包括電子郵件、文檔、網(wǎng)頁和社交媒體內(nèi)容等。文本大數(shù)據(jù)的分析和挖掘能夠從無結構或者半結構化的文本中獲取由價值的信息或知識。
為了描述長文檔的主體結構,文獻[18]中建立了一個新的主題超圖模型,在處理長文檔上獲得了很好的分析結果。文獻[19]中提出了用于提取多元文檔摘要一種演化網(wǎng)絡,該演化網(wǎng)絡能夠?qū)⒃嘉臋n中重要的語句或者字段連接在一起形成文檔摘要。除此以外,文本分類和文本聚類也是文本大數(shù)據(jù)挖掘研究的熱點。文本分類技術多用于識別文檔主題,將主題相同的文檔分類到預先定義的主題下或在眾多的主題集合中找到目標文檔所對應的主題集合;而文檔聚類則是將相似度高的文檔劃為一類,并沒有預先定義的主題作為先驗知識。
同一個詞匯在不同領域中可能具有不同含義,某些用來對文檔進行分類的關鍵和重點詞匯也可能存在上述情況,阻礙了高效的檢索。為了解決上述問題,文獻[20]提出了一種基于模糊邏輯的文檔分類方法,該方法建立了一個模糊規(guī)則推理系統(tǒng),能夠利用統(tǒng)計特征來分離多個或未定義類別的文檔,實現(xiàn)大數(shù)據(jù)環(huán)境下的文檔高效檢索。文獻[21]針對海量網(wǎng)絡文檔中涵蓋的廣泛主題和類別,利用模糊規(guī)則的分類器,提出一種增強型網(wǎng)絡文檔分類模型,該模型將網(wǎng)絡文檔歸到不同類別(領域)中,并利用進化模糊算法依據(jù)文檔內(nèi)容的變化實現(xiàn)文檔分類的動態(tài)實時更新。
大數(shù)據(jù)背景下文本數(shù)據(jù)的大量、高維、稀疏的特性給聚類這種無監(jiān)督的學習任務增加了難點?,F(xiàn)有很多文本的聚類算法在精度和實時性上并不能滿足實際應用的需求。著眼于上述問題,文獻[22]中提出了一種針對高維稀疏文本數(shù)據(jù)聚類的并行pkmeans算法,該算法包含數(shù)據(jù)降維、聚類以及并行設計三個模塊。降維模塊利用自編碼網(wǎng)絡的降維模型進行文檔特征選擇;其次,聚類算法模塊以密度k-means++算法為基礎選擇初始聚類中心;最后,利用CUDA架構和MPI消息傳遞接口實現(xiàn)算法并行性,降低了算法的時間開銷。文獻[23]將文本大數(shù)據(jù)的研究集中在了大數(shù)據(jù)的語義上,給出了一種基于臨床文檔標準和用戶用例一致性的約束模型,解決了傳統(tǒng)醫(yī)療大數(shù)據(jù)文檔劃分過程中的語義丟失問題。
互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算、三網(wǎng)融合、新媒體等技術的飛速發(fā)展,網(wǎng)絡大數(shù)據(jù)規(guī)??涨埃瑢ζ溥M行分析與挖掘成了許多行業(yè)共同面的的嚴峻挑戰(zhàn)和寶貴機遇。網(wǎng)絡大數(shù)據(jù)分析與挖掘早期的研究主要集中在文獻計量學分析[24]和社會學網(wǎng)絡分析[25]上,隨著社交網(wǎng)絡的興起,社交網(wǎng)絡分析與挖掘成了新一輪研究的熱點。
為了發(fā)現(xiàn)社交網(wǎng)絡中的社區(qū)結構[26],文獻[27]提出了基于拓撲的檢測方法,該方法依據(jù)一個目標函數(shù)來反映社區(qū)的結構。Du 等[28]基于真現(xiàn)實世界中社區(qū)存在重疊的特性,提出了大規(guī)模社交網(wǎng)絡中的社區(qū)發(fā)現(xiàn)算法。Palla等人也致力于重疊社區(qū)結構的研究,他們在文獻[29]中基于完全子圖滲流來發(fā)現(xiàn)社區(qū)結構,并在生物、信息、社會等網(wǎng)絡中得到了成功應用;進一步,Shen等[30]人利用聚合式的層次聚類技術,提出了一種新的社區(qū)發(fā)現(xiàn)方法,該方法既能揭示網(wǎng)絡層次又能發(fā)現(xiàn)重疊社區(qū)結構。近幾年,文獻[31]提出了用于檢測復雜網(wǎng)絡大數(shù)據(jù)中重疊社區(qū)的DOC算法。同樣針對復雜網(wǎng)絡的社區(qū)重疊問題,文獻[32]提出了一種基于群體智能思想的并行自組織重疊社區(qū)檢測算法,該算法不僅能很好地處理重疊的社區(qū)檢測問題,還具有分析大規(guī)模網(wǎng)絡的能力。同樣基于群體智能思想,文獻[33]重新定義了PSO算法中的粒子編碼、粒子速度、粒子位置和進化操作,提出了基于離散粒子群算法的復雜網(wǎng)絡社區(qū)檢測方法。
為了自適應地發(fā)現(xiàn)復雜網(wǎng)絡的動態(tài)社區(qū),文獻[34]提出了一種線性譜聚類算法發(fā)現(xiàn)靜態(tài)網(wǎng)絡社區(qū),然后在此基礎上引入卡普拉斯矩陣、拉普拉斯本征映射相關方法提出了一種增量式譜聚類自適應地發(fā)現(xiàn)動態(tài)網(wǎng)絡社區(qū)。文獻[35]以AP(Affinity Propagation )算法為基礎結合t分布提出了APT算法從多尺度、高維的網(wǎng)絡中檢測社區(qū)。
通常情況下多媒體數(shù)據(jù)比文本數(shù)據(jù)包含的信息更豐富,因此,多媒體數(shù)據(jù)研究的復雜度更高且涵蓋范圍更廣,包含多媒體摘要、多媒體標注、多媒體索引和檢索、多媒體推薦等。
多媒體摘要[36]和文本摘要任務類似,主要從原始數(shù)據(jù)文件中提取重要的詞句或者視頻、音頻片段。文獻[37]中選擇一系列重要的視頻片段表示原視頻,然后利用原視頻的特征平滑視頻片段得到更加平滑的視頻摘要。文獻[38]中構造了一個視頻超圖模型,并在此基礎上利用超圖排序?qū)⒁曨l按照不同內(nèi)容分類,最后通過函數(shù)優(yōu)化的方式生成視頻摘要。
為了實現(xiàn)多媒體數(shù)據(jù)的管理和檢索等任務需要對不同的多媒體數(shù)據(jù)進行標注。多媒體標注存在人工標注和自動標注兩種,早期的多媒體標注主要采用了人工和計算機自動標注兩種方式結合的混合標注方法[39],目前則以自動標注和混合式標注方法居多。為了改善多媒體地理位置標注中信息標注不完備以及標注精度不高的問題,文獻[40]中提出了一種基于視覺定位技術的圖像地理位置標注方法。
多媒體索引和檢索[41]通過對多媒體信息的描述、存儲和組織讓用戶快速準確地獲取其所需的多媒體信息。Shao 等[42]提出一種基于視頻內(nèi)容的視頻檢索技術,該技術利用時空定位手段能夠從數(shù)據(jù)庫中準確檢索出符合時空約束的視頻。針對某些算法時間復雜度高,對亮度和尺寸變化敏感等不足,文獻[43]提出一種基于圖像灰度值的編碼表示方法。Yang等[44]提出了一種基于深度神經(jīng)網(wǎng)絡的圖像檢索方法,有效地保留了顯著區(qū)域之間的空間結構。
多媒體推薦能依據(jù)用戶的偏好為用戶推薦其可能感興趣的多媒體內(nèi)容,主要包含基于內(nèi)容、基于協(xié)助過濾[45]以及二者混合[46]的多媒體推薦方法。基于內(nèi)容的方法依賴于內(nèi)容相似性度量的選擇,受內(nèi)容分析結果的影響很大?;趨f(xié)作過濾的方法先將用戶按照興趣分組,通過監(jiān)控其他組內(nèi)成員的行為未用戶進行多媒體推薦。上述二者混合的方法能夠在一定程度上減輕對分析內(nèi)容的依賴并吸收了協(xié)作過濾的優(yōu)點,二者混合方法的多媒體推薦質(zhì)量更高。
移動終端,如移動手機、傳感器[47]和RFID[48]等的普及產(chǎn)生了巨量的移動數(shù)據(jù)[49-50]。這些數(shù)據(jù)中普遍存在著的噪聲、冗余和數(shù)據(jù)不一致等問題給移動大數(shù)據(jù)分析提出了更高的要求。
本文從以生態(tài)文明的發(fā)展為根本目的,保證生態(tài)信息資源關注度的提高,空間型高校教育資源的開發(fā)、整合以及利用等幾個方面闡述了高校教育資源體系構建的生態(tài)化方向。然后從重視高校教育資源自然性特征的開發(fā)、注重教育資源能量與信息的交換、控制高校教育資源能量出入的平衡等幾個方面提出了體現(xiàn)生態(tài)能量資源體系構建的側重點。
為了分析移動數(shù)據(jù)的語義從而發(fā)現(xiàn)移動對象活動的異常情況,文獻[11]對移動對象軌跡數(shù)據(jù)開展了時間和空間兩方面的研究。針對移動數(shù)據(jù)中的移動性預測問題,文獻[12]中提出了一種新的演化算法,該算法通過移動模式挖掘、移動規(guī)則提取以及移動性預測三個階段來預測移動用戶在個人通訊系統(tǒng)中的下一次移動。為了提高移動數(shù)據(jù)的安全性,文獻[51]提出了一種收集實時信息并實時報警的框架。為了挖掘游客的行為模式,文獻[52]結合地理信息和移動網(wǎng)絡數(shù)據(jù)在游客分類和游客團體識別方面做了大量工作,其行為分析結果為旅游行業(yè)意義重大。為了挖掘移動對象的周期模式,文獻[53]提出了閉包多限制條件樹算法,解決了周期模式挖掘中的模式支持度和周期距離難獲取的問題。
RFID是一種產(chǎn)品電子標簽能夠在一定范圍內(nèi)追蹤、定位和監(jiān)控標識對象,其在倉庫和固定資產(chǎn)管理、商品信息管理、物流運輸、門禁考勤、公共交通安檢、醫(yī)療信息追蹤、國防和軍事等領域均得到了廣泛應用。文獻[54]對RFID數(shù)據(jù)的位置、時間和聚集簇等信息推斷追蹤目標和監(jiān)控系統(tǒng)所處的狀態(tài)。針對傳統(tǒng)序列式的RFID數(shù)據(jù)挖掘方法不考慮RFID數(shù)據(jù)的特性,將數(shù)據(jù)看成整體來對待使得挖掘效果不理想的情況,文獻[55]提出一種RFID移動數(shù)據(jù)挖掘算法,該算法首先利用序列模式挖掘方法挖掘位置信息,然后在此基礎上進一步開展時間序列挖掘,獲得了較為理想的挖掘結果。
大數(shù)據(jù)行業(yè)的飛速發(fā)展既帶來了機遇也帶來了前所未有的挑戰(zhàn),本小節(jié)通過對大數(shù)據(jù)分析與處理體系中各過程的分析綜合,總結出來一下幾點挑戰(zhàn)(如表2所示)。
表2 大數(shù)據(jù)發(fā)展的挑戰(zhàn)Tab.2 Challenges of big data development
存儲問題是大數(shù)據(jù)分析和處理過程中首先面臨的一個重要問題。談及大數(shù)據(jù)人們對其的第一反應就是數(shù)據(jù)量大,而數(shù)據(jù)量其實是一個相對來說好解決的問題,隱藏在海量數(shù)據(jù)背后的復雜關系以及復雜數(shù)據(jù)類型才是大數(shù)據(jù)存儲中面臨的真正挑戰(zhàn)。數(shù)據(jù)存儲并不是簡單的將數(shù)據(jù)保存在存儲設備或介質(zhì)中,存儲作為數(shù)據(jù)生命周期中的一個環(huán)節(jié),需要考慮的是在整個生命周期中數(shù)據(jù)上可能發(fā)生哪些操作,如何存儲才能方便對數(shù)據(jù)進行存取和調(diào)度。大數(shù)據(jù)的特性及需求要求大數(shù)據(jù)存儲是必須具備可擴展性、高的容錯機制、低數(shù)據(jù)分析延遲以及低成本的,針對上述挑戰(zhàn)開展更加深入的研究將極大推動大數(shù)據(jù)分析和處理的發(fā)展。
大數(shù)據(jù)預處理和集成是大數(shù)據(jù)分析和處理的關鍵環(huán)節(jié),考慮數(shù)據(jù)的異構性和時空特性,提升數(shù)據(jù)的質(zhì)量是預處理和數(shù)據(jù)集成成功的關鍵。大數(shù)據(jù)的數(shù)據(jù)量是巨大的,由于先驗知識的匱乏使得數(shù)據(jù)分析的難度大大加大;此外,大數(shù)據(jù)突破了傳統(tǒng)的時空界限,其隨著時間發(fā)生相應變化,這就要求能夠?qū)崟r增量式地開展分析任務以適應大數(shù)據(jù)的動態(tài)變化特性。
大數(shù)據(jù)建模是發(fā)現(xiàn)大數(shù)據(jù)中有價值知識或模式的重要手段,大數(shù)據(jù)模型不僅靠考慮數(shù)據(jù)的動態(tài)性也要兼顧大數(shù)據(jù)的統(tǒng)計和語義特性,然而做到上述這點也具有一定的挑戰(zhàn);一個可以解決的方法就是多模型融合,然而多模型融合本身也是一個復雜而艱巨的任務。
對于開發(fā)大數(shù)據(jù)系統(tǒng)來說,系統(tǒng)必須可用易用、具備人機交互的能力,同時系統(tǒng)的計算效率和吞吐量要高,為了適應大數(shù)據(jù)隨時間變化的特性系統(tǒng)也需要具備演化能力,上述這些需求均對大數(shù)據(jù)處理系統(tǒng)的設計和開發(fā)帶來了不小的挑戰(zhàn)。
為了讓大數(shù)據(jù)的分析和處理結果真正被用戶理解從而為決策提供支持,對結果的解釋是必須的。在結果解釋方面,數(shù)據(jù)復雜性、語義復雜性、參數(shù)及假設復雜性、分析驗證步驟的復雜性以及模型復雜性等都給恰當而準確的結果解釋設置了障礙,尋求合適的結果解釋或者表示方法對大數(shù)據(jù)發(fā)展來說意義重大。
大數(shù)據(jù)隱私保護也是目前大數(shù)據(jù)行業(yè)關注的話題,隱私保護的主要障礙來自于數(shù)據(jù)的暴露和數(shù)據(jù)的動態(tài)特性,而大數(shù)據(jù)的規(guī)模又在一定程度上限制了隱私保護機制的復雜性,太復雜的安全保護機制開銷太大,在大數(shù)據(jù)上適用性和實用性不強,因此,大數(shù)據(jù)隱私保護中普遍使用的是相對簡單的保護機制。上述簡單的隱私保護機制使得大數(shù)據(jù)中存在較大的信息安全隱患,如何才能突破這一限制,設計出更加符合大數(shù)據(jù)要求的隱私保護機制也是目前亟待解決的挑戰(zhàn)。
我們正生活在大數(shù)據(jù)的浪潮中,空前的大數(shù)據(jù)資源既是機遇又是挑戰(zhàn)。迄今為止,大數(shù)據(jù)分析與挖掘作方面所在的工作還很有限,要克服大數(shù)據(jù)領域的上述挑戰(zhàn),還需要開展大量的工作。本文從大數(shù)據(jù)的內(nèi)涵和特性出發(fā),簡單介紹了大數(shù)據(jù)分析與處理的技術體系;從文本大數(shù)據(jù)分析與挖掘、網(wǎng)路大數(shù)據(jù)分析與挖掘、多媒體大數(shù)據(jù)分析與挖掘以及移動大數(shù)據(jù)分析與挖掘四個方面重點概述了國內(nèi)外大數(shù)據(jù)分析與處理的研究現(xiàn)狀;最后對大數(shù)據(jù)分析與處理領域面臨的挑戰(zhàn)進行了簡單概括,并對其中的主要挑戰(zhàn)進行了簡單分析。