黃穎 中國電子科技集團公司第二十八研究所 唐皋 南京萊斯信息技術(shù)股份有限公司 林浩坤 華中科技大學(xué)
大數(shù)據(jù)是自云計算應(yīng)用后最廣泛的計算機技術(shù)語言的應(yīng)用,大數(shù)據(jù)的應(yīng)用對于思維模式、商業(yè)的運行模式、科研成果以及醫(yī)療診斷方面帶來了巨大的影響。隨著大數(shù)據(jù)的廣泛應(yīng)用和深入研究,大數(shù)據(jù)的關(guān)鍵特征現(xiàn)已總結(jié)為體量、速度、多樣化、質(zhì)量以及價值的全新5V概論。對大數(shù)據(jù)進行信息分析,可以發(fā)現(xiàn)其蘊藏的規(guī)律、知識及價值。
大數(shù)據(jù)分析是隨著數(shù)據(jù)量急劇膨脹而產(chǎn)生的對海量數(shù)據(jù)使用和提取有效信息的一種方法,一般會利用大數(shù)據(jù)的時間屬性,照相對應(yīng)的時間間隔記錄發(fā)生的重要變化,通過疊加每次變化的內(nèi)容,提取其中共性特征數(shù)據(jù),揭示隱藏在數(shù)據(jù)集合中的規(guī)律,發(fā)現(xiàn)出有價值的知識的過程。數(shù)據(jù)分析以發(fā)現(xiàn)有用知識為目的,主要包括清洗、集成、轉(zhuǎn)換、建模以及模型評估等過程,最終得到?jīng)Q策知識。這一過程通常會根據(jù)分析目標進行反復(fù)迭代,逐步求精。
大數(shù)據(jù)技術(shù)的發(fā)展與云計算、物聯(lián)網(wǎng)等新技術(shù)發(fā)展密切相關(guān)。云計算是以虛擬化技術(shù)為基礎(chǔ),以網(wǎng)絡(luò)為載體提供基礎(chǔ)架構(gòu)、平臺、軟件等服務(wù)的形式,整合大規(guī)??蓴U展的計算、存儲、數(shù)據(jù)、應(yīng)用等分布式計算資源進行協(xié)同運作的超級計算模式,云計算在大數(shù)據(jù)存儲和計算方面助力大數(shù)據(jù)的落地。而物聯(lián)網(wǎng)是指通過信息傳感設(shè)備,按照約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接起來,進行信息交換和通信,以實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò),是在互聯(lián)網(wǎng)基礎(chǔ)上延伸和擴展的網(wǎng)絡(luò),是大數(shù)據(jù)的重要來源。
大數(shù)據(jù)分析關(guān)鍵技術(shù)包括數(shù)據(jù)清洗、數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)可視化和價值評估等幾方面。
大數(shù)據(jù)一般都具有不完整的、有噪聲和不一致等特點,數(shù)據(jù)清洗技術(shù)是將異構(gòu)多源數(shù)據(jù)進行加工,糾正數(shù)據(jù)中可識別的錯誤,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值;另外還包括一些簡單的語義層的映射技術(shù)。
數(shù)據(jù)處理技術(shù)是要解決大數(shù)據(jù)分布式并行處理問題,包含Map Reduce批量處理框架、流式計算框架、圖計算等相關(guān)技術(shù)。Map Reduce批量處理框架將待處理任務(wù)劃分為若干子任務(wù),將其分配到不同節(jié)點上,實現(xiàn)了利用多個網(wǎng)絡(luò)節(jié)點對任務(wù)的協(xié)同計算,時延較大;流式計算框架對數(shù)據(jù)存儲并不關(guān)注,對流式數(shù)據(jù)的計算具有即時性、單遍處理、近似性的特點;圖計算具有多迭代、稀疏結(jié)構(gòu)和細粒度等特點,一般針對存儲在圖數(shù)據(jù)庫中的數(shù)據(jù)進行計算處理。
數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中發(fā)現(xiàn)有趣模式的過程。數(shù)據(jù)挖掘是植根于場景的,應(yīng)用領(lǐng)域不同,應(yīng)用問題不同,采取的挖掘技術(shù)也不同,一般包括模式識別、統(tǒng)計學(xué)、機器學(xué)習(xí)、關(guān)聯(lián)規(guī)則挖掘等技術(shù)。
數(shù)據(jù)可視化是一門用形和色表達數(shù)據(jù)的藝術(shù),在大數(shù)據(jù)時代,龐大的數(shù)據(jù)量已遠遠超出人們的觀察、理解和處理數(shù)據(jù)的能力,因此“讓數(shù)據(jù)說話”,數(shù)據(jù)可視化對大數(shù)據(jù)分析越來越重要。最初可視化主要是使用統(tǒng)計圖標,后來隨著地理信息系統(tǒng)、時間線展示工具等發(fā)展,數(shù)據(jù)可視化呈現(xiàn)更加生動、高效的形式。
價值評估是對大數(shù)據(jù)分析算法的評估,包括效果評估和性能評價,效果評估是針對數(shù)據(jù)處理質(zhì)量的測量,性能評估主要是針對數(shù)據(jù)處理速度和穩(wěn)定性的測量。
隨著人工智能技術(shù)的發(fā)展,大數(shù)據(jù)分析技術(shù)也不斷發(fā)展。人工智能技術(shù)立足于神經(jīng)網(wǎng)絡(luò),同時發(fā)展出多層神經(jīng)網(wǎng)絡(luò),從而可以進行深度機器學(xué)習(xí),與傳統(tǒng)的統(tǒng)計學(xué)等算法相比,這一算法并無多余的假設(shè)前提(比如線性建模需要假設(shè)數(shù)據(jù)之間的線性關(guān)系),而是完全利用輸入的數(shù)據(jù)自行模擬和構(gòu)建相應(yīng)的模型結(jié)構(gòu),這使基于機器學(xué)習(xí)建立的大數(shù)據(jù)分析算法更加靈活的、且可以根據(jù)不同的訓(xùn)練數(shù)據(jù)而擁有自優(yōu)化的能力。
目前基于人工智能的分析技術(shù)主要是從機器學(xué)習(xí)方面開展的大數(shù)據(jù)分析技術(shù)研究,分為大數(shù)據(jù)聚類、大數(shù)據(jù)關(guān)聯(lián)分析、大數(shù)據(jù)分類和大數(shù)據(jù)預(yù)測幾類技術(shù)。通過大量數(shù)據(jù)的訓(xùn)練,機器學(xué)習(xí)能夠總結(jié)出事件之間的相關(guān)性,可以提高大數(shù)據(jù)分析的精準性。
雖然人工智能技術(shù)是大數(shù)據(jù)分析的利器,但面臨大數(shù)據(jù)問題時,現(xiàn)有的機器學(xué)習(xí)、深度學(xué)習(xí)、計算智能等人工智能分析技術(shù)都存在許多不足,難以有效解決大數(shù)據(jù)的諸多問題,還需要在分布式深度學(xué)習(xí)算法、分布式優(yōu)化算法、機器學(xué)習(xí)模型并行策略、深度神經(jīng)網(wǎng)絡(luò)并行訓(xùn)練等方面進行進一步研究。