吳卉男
(貴州師范大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院 貴州 貴陽 550001)
大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述
吳卉男
(貴州師范大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院 貴州 貴陽 550001)
本文以大數(shù)據(jù)時代為背景,對大數(shù)據(jù)處理系統(tǒng)與大數(shù)據(jù)分析進(jìn)行了有效闡述,并在此基礎(chǔ)上梳理了當(dāng)前大數(shù)據(jù)計算面臨的問題,最后提出了相應(yīng)的解決對策,旨在為提升大數(shù)據(jù)計算效率,增強(qiáng)系統(tǒng)有效性提供相應(yīng)地借鑒與參考。
大數(shù)據(jù);數(shù)據(jù)分析;深度學(xué)習(xí)
1.1 批量數(shù)據(jù)處理系統(tǒng)
大數(shù)據(jù)處理系統(tǒng)的最主要的任務(wù)就是根據(jù)大批數(shù)據(jù)分析適合的模式,并得出相關(guān)的明確含義,制定相應(yīng)的策略,最后制定出科學(xué)有效的應(yīng)對措施,實現(xiàn)特定的業(yè)務(wù)目標(biāo)。大數(shù)據(jù)通常來源于互聯(lián)網(wǎng)、云計算等網(wǎng)絡(luò)平臺,可以有效解決上述平臺中出現(xiàn)的若干問題,并提出新的問題。對于企業(yè)來說,他們可以通過處理過程中所產(chǎn)生的數(shù)據(jù)進(jìn)行惡意軟件或者是網(wǎng)絡(luò)攻擊的識別,進(jìn)而可以有效判斷某些外來的信息是否為安全產(chǎn)品。
1.2 交互式數(shù)據(jù)處理系統(tǒng)
同非交互式的數(shù)據(jù)處理相比較而言,交互式數(shù)據(jù)處理具有更為靈活和直觀的特點,該系統(tǒng)與相關(guān)的工作人員可以通過人機(jī)對話的方式進(jìn)行輸入,系統(tǒng)便可以自動進(jìn)行數(shù)據(jù)或者信息的提示,并指導(dǎo)操作人員按照要求一步一步進(jìn)行操作,直至最終獲得有效的處理結(jié)果。這種處理方式的使用可以方便系統(tǒng)中的應(yīng)用信息進(jìn)行有效及時的處理,便于交互方式的繼續(xù)進(jìn)行。
2.1 深度學(xué)習(xí)
在大數(shù)據(jù)分析過程中,最為關(guān)鍵的問題就是如何有效地表達(dá)、解釋以及學(xué)習(xí)數(shù)據(jù),無論何種形式的數(shù)據(jù)都具有很多種數(shù)據(jù)的表達(dá)方式,最為主要的方式就是相對比較簡單的模型,這種模型還處在低級階段,不能有效地帶來良好的學(xué)習(xí)效果。為此,深度學(xué)習(xí)應(yīng)運(yùn)而生。深度學(xué)習(xí)就是根據(jù)層次的構(gòu)架中針對對象在不同階層上的表達(dá)來解決相對較為抽象的問題。深度學(xué)習(xí)起源于20世紀(jì)80年代,近幾年來深度學(xué)習(xí)無論是在圖像、語音還是在語言的理解等應(yīng)用領(lǐng)域中均取得了許多有效的進(jìn)展。2009年,微軟研究院的Dahl等人首次在關(guān)于語音的處理中使用了這一深度神經(jīng)網(wǎng)絡(luò),這一網(wǎng)絡(luò)使得語音在被識別過程中的正確率明顯提升,這便使語音的處理成為了在深度學(xué)習(xí)的相關(guān)應(yīng)用中最為成熟的一個應(yīng)用。
2.2 知識計算
以大數(shù)據(jù)為基礎(chǔ)的知識計算是進(jìn)行大數(shù)據(jù)分析的一個基礎(chǔ)環(huán)節(jié)。知識計算在世界范圍內(nèi)的工業(yè)界來說是一個十分關(guān)鍵的研究熱點。從目前來看,國內(nèi)外共建立起了50多種相關(guān)的知識庫,有效的應(yīng)用系統(tǒng)更是建立了上百種,其中,代表性的知識庫或應(yīng)用系統(tǒng)有KnowItAll,TextRunner,NELL,Probase,Satori以及一些基于維基百科等在線百科知識構(gòu)建的知識庫,如DBpedia。隨著大數(shù)據(jù)信息的逐步發(fā)展,針對較大規(guī)模網(wǎng)頁信息中所包括的知識,自動地構(gòu)建知識庫這種方式已經(jīng)得到越來越多人的重視與認(rèn)可。面對海量知識建庫,需要根據(jù)不同信息領(lǐng)域及其不同需要建立各種知識間的相互融合,這是當(dāng)親應(yīng)該解決的主要問題之一。
3.1 數(shù)據(jù)復(fù)雜性挑戰(zhàn)
隨著大數(shù)據(jù)的不斷涌現(xiàn),人們在計算過程中遇到了以往所不曾出現(xiàn)的問題,即大規(guī)模樣本的出現(xiàn),這一現(xiàn)象的出現(xiàn)導(dǎo)致人民也面臨越來越復(fù)雜的數(shù)據(jù)對象。正如前所述,大數(shù)據(jù)的重要特征就是數(shù)據(jù)的類型和模式具有更多的多樣性,聯(lián)系也較為復(fù)雜,數(shù)據(jù)的質(zhì)量顯得良莠不齊,這便造成數(shù)據(jù)在理解、計算與表達(dá)上面臨了相當(dāng)大的困難,傳統(tǒng)的全量數(shù)據(jù)模式下計算的復(fù)雜性與難度增大,語義的分析與情感的體會也變得非常復(fù)雜。然而,目前人們對于數(shù)據(jù)中所蘊(yùn)含的物理意義相對缺乏,加上相關(guān)知識的匱乏,這在一定程度上影響了計算機(jī)模型的設(shè)計與制作。
因此,將大數(shù)據(jù)的復(fù)雜本性定量化,有效研究數(shù)據(jù)所包含的內(nèi)在問題是當(dāng)前我們在計算機(jī)模型的設(shè)計上應(yīng)該著重解決的重要問題。通過這一問題的有效解決可以在一定程度上幫助人們理解復(fù)雜的大數(shù)據(jù)模型,了解其所具有的本質(zhì)特征,進(jìn)而更好的獲得抽象化的知識信息。由此可見,我們應(yīng)該不斷完善多模式關(guān)聯(lián)之下的數(shù)據(jù)分析理論與模型,梳理好各個數(shù)據(jù)之間存在的內(nèi)部聯(lián)系,對復(fù)雜的模型系統(tǒng)進(jìn)行有效的解析,有效降低其原理的復(fù)雜程度,使之逐漸轉(zhuǎn)變?yōu)榇髷?shù)據(jù)的堅實基礎(chǔ)。
3.2 計算復(fù)雜性的挑戰(zhàn)
眾所周知,大數(shù)據(jù)具有規(guī)模大、速度快、結(jié)構(gòu)多樣等特點,這一特點使得以往的機(jī)器學(xué)習(xí)、信息搜索以及數(shù)據(jù)收集得不到當(dāng)前大數(shù)據(jù)的有效支持,尤其是大數(shù)據(jù)在面對小樣本的數(shù)據(jù)處理時,不能夠進(jìn)行全局式的數(shù)據(jù)分析與計算,因而需要在計算時適時脫離傳統(tǒng)計算的束縛。在進(jìn)行大數(shù)據(jù)的求解過程中,要求我們對它的可計算性進(jìn)行有效的評估,對計算方法進(jìn)行有效的確認(rèn),并對價值驅(qū)動在特定領(lǐng)域的應(yīng)用給予一定支持,這是當(dāng)前的核心問題。但當(dāng)前大數(shù)據(jù)的樣本較多、結(jié)構(gòu)較為復(fù)雜、分布極不均衡,這在為大數(shù)據(jù)的研究工作提供了機(jī)遇的同時也帶來了一定的挑戰(zhàn)。
因此,應(yīng)將目光放眼于大數(shù)據(jù)的生命周期,在大數(shù)據(jù)自身的復(fù)雜性特征的基礎(chǔ)之上,對以數(shù)據(jù)為中心的相關(guān)的計算模式進(jìn)行有效的探究,合理改善守舊得數(shù)據(jù)計算模式,建立起更為規(guī)范化的推送式的數(shù)據(jù)模式,對大數(shù)據(jù)的相關(guān)理論進(jìn)行深入研究,摒棄傳統(tǒng)計算理念,不斷探索充足的數(shù)據(jù),按簡約的方式研究局部計算的相近辦法,建立起牢固的不依賴于全量數(shù)據(jù)的較為新式的數(shù)據(jù)計算理論基礎(chǔ)。
3.3 系統(tǒng)復(fù)雜性的挑戰(zhàn)
當(dāng)前,有效支持大數(shù)據(jù)研究的平臺是針對不同數(shù)據(jù)類型的大數(shù)據(jù)的處理系統(tǒng)。這一數(shù)據(jù)處理的大平臺在面臨數(shù)據(jù)較大、結(jié)構(gòu)較為復(fù)雜的情況下也會存在計算周期長、難度較高的問題。這一問題不僅給大數(shù)據(jù)處理系統(tǒng)的整體結(jié)構(gòu)、計算機(jī)構(gòu)以及計算方式提供更加嚴(yán)峻的挑戰(zhàn),同時也在數(shù)據(jù)處理系統(tǒng)的運(yùn)行速度及其耗能方面都造成了巨大的挑戰(zhàn),對其處理系統(tǒng)的要求也更為苛刻,這些問題是解決大數(shù)據(jù)處理應(yīng)面臨的重要問題,也是該系統(tǒng)進(jìn)行設(shè)計與優(yōu)化的最根本的準(zhǔn)則,更是系統(tǒng)進(jìn)行優(yōu)化與處理的有效基礎(chǔ),因而,這是大數(shù)據(jù)處理中必須解決的關(guān)鍵性問題。
因此,必要充分了解大數(shù)據(jù)處理系統(tǒng)存在的復(fù)雜性難題,針對大數(shù)據(jù)在價值上的洗屬性以及局面訪問較弱這一特點的基礎(chǔ)之上,有效整合大數(shù)據(jù)的處理與存儲系統(tǒng)構(gòu)架,嚴(yán)格執(zhí)行大數(shù)據(jù)的感知與計算準(zhǔn)則,在其系統(tǒng)機(jī)構(gòu)方面、性能評估方面以及數(shù)據(jù)的處理方面開展具有針對性的深入研究,以便形成高效率、低能耗的大數(shù)據(jù)處理系統(tǒng)。
[1]程學(xué)旗,靳小龍,王元卓,郭嘉豐,張鐵贏,李國杰.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報,2014,09:1889-1908.
[2]曹軍威,袁仲達(dá),明陽陽,張華贏. 能源互聯(lián)網(wǎng)大數(shù)據(jù)分析技術(shù)綜述[J]. 南方電網(wǎng)技術(shù),2015,11:1-12.
Review of big data system and analysis technology
WU Hui-nan. Guizhou Normal University Institute of Science in Mathematics with Computer Science, Guizhou Province, Guiyang 550001, China
This paper with big data era as the background, the big data processing system and data analysis techniques and effectively, and on the basis of combing the current big data calculation problems, and puts forward the corresponding countermeasures, so as to improve the data offer reference for computational efficiency and enhance the system effectiveness.
Large data; Data analysis; Deep learning
G250.74
A
1009-5624-(2016)03-0002-03