金宗澤 馮亞麗 文必龍 楊正男 張希東北石油大學(xué)計算機與信息技術(shù)學(xué)院
大數(shù)據(jù)分析流程框架的研究
金宗澤 馮亞麗 文必龍 楊正男 張希
東北石油大學(xué)計算機與信息技術(shù)學(xué)院
隨著信息技術(shù)的不斷創(chuàng)新,信息量的不斷擴大,大數(shù)據(jù)已經(jīng)成為了與日常生活息息相關(guān)的話題。挖掘大數(shù)據(jù)的價值已經(jīng)炙手可熱,如何能夠更高效、更快速地分析大數(shù)據(jù)已經(jīng)成為大數(shù)據(jù)發(fā)展的重要挑戰(zhàn)之一。近年來,學(xué)術(shù)界與工業(yè)界就大數(shù)據(jù)的分析進行了研究,取得了一些研究成果,但針對大數(shù)據(jù)分析的研究還是非常有限。文中首先從傳統(tǒng)數(shù)據(jù)倉庫與大數(shù)據(jù)時代數(shù)據(jù)倉庫作了對比,引入了大數(shù)據(jù)的分析流程框架,對分析流程框架的各個部分做了一一闡述,并通過實驗驗證分析了流程框架的可行性。
大數(shù)據(jù) 分析 數(shù)據(jù)倉庫
當今時代不僅是一個數(shù)據(jù)爆炸的時代,更是一個大數(shù)據(jù)爆發(fā)的時代。面對大數(shù)據(jù)的激流,多元化數(shù)據(jù)的大量涌現(xiàn),大數(shù)據(jù)已經(jīng)影響了社會生活的各個角落。大數(shù)據(jù)的“大”并不僅僅指容量,同傳統(tǒng)數(shù)據(jù)源比較,大數(shù)據(jù)的速度(數(shù)據(jù)傳輸和接收的速度)、復(fù)雜度以及多樣性都有明顯的增加。文獻提出了大數(shù)據(jù)的主要4V 特性:數(shù)據(jù)量( Volume) 、多樣性( Variety) 、處理速度( Velocity)及數(shù)據(jù)價值(Value)。由于數(shù)據(jù)量從TB級向PB級躍遷,對于數(shù)據(jù)的分析要從常規(guī)的分析轉(zhuǎn)入深入的分析,同時要實現(xiàn)對于從高成本的硬件平臺向低成本的硬件平臺進行過渡,這一系列變化都為大數(shù)據(jù)的分析帶來了挑戰(zhàn)。
傳統(tǒng)的數(shù)據(jù)倉庫將整個數(shù)據(jù)分析的層次劃分為4層。傳統(tǒng)的數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過ETL工具對其進行相應(yīng)的抽取,并將其在數(shù)據(jù)倉庫中進行集中存儲和管理。再通過經(jīng)典模型(如星型模型)組織數(shù)據(jù),之后使用OLAP工具從數(shù)據(jù)倉庫中對其進行讀取,生成數(shù)據(jù)立方體(MOLAP)或者是直接訪問數(shù)據(jù)倉庫進行數(shù)據(jù)分析(R OLAP)。
相較于傳統(tǒng)的數(shù)據(jù)倉庫,為大數(shù)據(jù)的變化帶來了諸多問題:
3.1 數(shù)據(jù)的成本問題
數(shù)據(jù)在通過復(fù)雜的ETL過程后,存儲到數(shù)據(jù)倉庫中,在OLAP服務(wù)器中轉(zhuǎn)換為經(jīng)典模型。并且在執(zhí)行分析時,在連接數(shù)據(jù)庫將其數(shù)據(jù)取出,這些代價在TB級時尚可接受,當面對呈指數(shù)級別增長的大數(shù)據(jù)時,會帶來很高的移動數(shù)據(jù)的成本。因此傳統(tǒng)的方式不可取。
3.2 數(shù)據(jù)的變化性
傳統(tǒng)的數(shù)據(jù)倉庫主題是變化較少,在傳統(tǒng)數(shù)據(jù)庫中解決變化的方式對數(shù)據(jù)源到前端展現(xiàn)的整個流程中的每個部分進行更改,然后再重新加載數(shù)據(jù)。甚至有可能重新計算數(shù)據(jù),導(dǎo)致其適應(yīng)變化的周期較長。此模式適應(yīng)的場合,是數(shù)據(jù)質(zhì)量較高、查詢性能高及不是十分計較預(yù)處理代價。而在大數(shù)據(jù)的時代,數(shù)據(jù)富于變化和多樣,因此這種模式不適應(yīng)新的需求。
3.3 數(shù)據(jù)集的處理
傳統(tǒng)的數(shù)據(jù)集都是在數(shù)據(jù)庫外進行創(chuàng)建,每個分析專家都會獨立創(chuàng)建自己的分析數(shù)據(jù)集,并且,每個分析工作都是由這些專家獨立完成的,這表明了可能會有更多的人同時在創(chuàng)建不同的企業(yè)數(shù)據(jù)視圖。一個ADS(Analytic Data Sets)通常只會服務(wù)一個項目,每個專家都會擁有自己的生產(chǎn)數(shù)據(jù)樣本。這些獨立的數(shù)據(jù)集都會導(dǎo)致每個項目最終產(chǎn)生大量的數(shù)據(jù),而在大數(shù)據(jù)的環(huán)境下,首先數(shù)據(jù)量就很大,數(shù)據(jù)本身占用空間。其次是對于數(shù)據(jù)的價值的重復(fù)利用,微小差別而不同的結(jié)果集的取舍。再次是對資源和精力的節(jié)約,以降低成本。
在文獻中提到了采用Map R educe及并行式數(shù)據(jù)庫的混合架構(gòu)型的解決方案同時與Map R educe主導(dǎo)型和并行式數(shù)據(jù)庫主導(dǎo)型作了對比分析,文中在采用Map R educe及并行式數(shù)據(jù)庫集成型的數(shù)據(jù)庫的基礎(chǔ)上提出一個大數(shù)據(jù)分析的流程框架。系統(tǒng)地闡述了大數(shù)據(jù)分析的整個過程。其流程分為6個重要的階段。在現(xiàn)代的庫內(nèi)分析框架下,通過對于大數(shù)據(jù)的使用和研究,做出了一個大數(shù)據(jù)分析的初步流程:大數(shù)據(jù)的預(yù)處理階段、大數(shù)據(jù)的輸入接口、分析沙箱、大數(shù)據(jù)的輸出接口、大數(shù)據(jù)的展示以及大數(shù)據(jù)的價值評價。
3.3.1 大數(shù)據(jù)的預(yù)處理階段
大數(shù)據(jù)的預(yù)處理過程即一個數(shù)據(jù)的清洗過程,從字面上理解是將以存儲好的數(shù)據(jù)進行一個去“臟”的過程。更確切的說法是將存儲數(shù)據(jù)中可識別的錯誤去除。在數(shù)據(jù)倉庫中和數(shù)據(jù)挖掘過程中,數(shù)據(jù)清洗是使得數(shù)據(jù)在一致性(Consistency)、正確性(Correctness)、完整性(Completeness)和最小性(Minimality)四個指標滿足上達到最優(yōu)。
數(shù)據(jù)的預(yù)處理過程是對大數(shù)據(jù)進行正式使用和分析的最后一道門檻,在大數(shù)據(jù)的背景之下,在來源不一的海量數(shù)據(jù)中,存儲了冗余、復(fù)雜及錯誤的數(shù)據(jù),之后的“去粗存精”、“去偽存真”的過程交給了數(shù)據(jù)的預(yù)處理階段,能夠在極短的時間內(nèi),抽取出高質(zhì)量的數(shù)據(jù),形成統(tǒng)一的規(guī)范,滿足接下來的數(shù)據(jù)的接口,將是大數(shù)據(jù)研究的熱點。
在Map R educe中,一次性的分析操作居多。對于多維數(shù)據(jù)的預(yù)計算,大數(shù)據(jù)上的分析操作雖然難以預(yù)測,但傳統(tǒng)的分析,如基于報表和多維數(shù)據(jù)的分析仍占多數(shù)。因此,在Map R educe與并行數(shù)據(jù)庫框架下的大數(shù)據(jù)分析平臺應(yīng)該利用預(yù)計算等手段加快數(shù)據(jù)分析的速度。出于對運算的存儲空間的考慮,MOLAP顯然不可取,試想在數(shù)據(jù)量爆棚的時候計算數(shù)據(jù)立方體是多么可怕的事情,因此優(yōu)先考慮HOLAP的實現(xiàn)方案。在此階段,采用Map R educe的分布式預(yù)處理的策略,能一定程度上減少大數(shù)據(jù)移動所帶來的成本消耗。
3.3.2 大數(shù)據(jù)的輸入接口
在大數(shù)據(jù)的預(yù)處理階段完成后,對其滿足輸入規(guī)范的數(shù)據(jù)進行統(tǒng)一管理,并將輸入數(shù)據(jù)進行一定的特征提取和數(shù)據(jù)的關(guān)聯(lián)分析。在通過使用輸入接口的同時,開放算法接口模塊卡,接收來自不同的算法,而對數(shù)據(jù)集進行分析和整理。
在整個大數(shù)據(jù)的輸入接口部分應(yīng)該要實現(xiàn)對數(shù)據(jù)分析的展示,特別是對復(fù)雜分析的解釋關(guān)聯(lián)展示,努力做到模塊接口的可視化。在形成可分析的數(shù)據(jù)集后,輸入接口與輸出接口應(yīng)同時具有按照主題或語義分類的存儲,這樣能夠解決主題變化,做到當數(shù)據(jù)在輸入時就可以隨主題變化而改變。
3.3.3 分析沙箱
顧名思義,“沙箱”,一種孩子們常見的玩具,孩子們可以根據(jù)個人意愿在沙箱里把沙子堆砌成各種形狀。同樣,分析沙箱就研究而言,相當于一個資源組,在這個資源組里,分析專家們能夠根據(jù)個人的意愿對數(shù)據(jù)進行各種探索。在分析的整個流程中,沙箱為使用分析平臺的專家們提供更為專業(yè)的模塊接口和參數(shù)選擇,方便分析人員提取更為有效的數(shù)據(jù)參數(shù),來更加精確地展示分析結(jié)果。
3.3.4 大數(shù)據(jù)的輸出接口
作為大數(shù)據(jù)分析的出口,為大數(shù)據(jù)的輸出提供了統(tǒng)一的規(guī)范和標準。作為大數(shù)據(jù)展示的最后一道工序,大數(shù)據(jù)的輸出接口應(yīng)具備如下特點:
①規(guī)范性:通過大數(shù)據(jù)輸出接口的數(shù)據(jù)應(yīng)具有一定的規(guī)范性,規(guī)范性為大數(shù)據(jù)的結(jié)果展示做了良好的保證。
②可復(fù)用性及剩余資料保存性:作為輸出結(jié)果集,大數(shù)據(jù)的所有參數(shù)或者是專家選擇參數(shù),在一次的分析過程中,其潛在的價值有可能被隱藏,需要有特定的、專門的數(shù)據(jù)倉庫來暫時保存這些具有潛在價值的結(jié)果集,對于使用專用算法的,其輸出結(jié)果集必然是其專用的數(shù)據(jù)參數(shù)集,而對于其未被專家選擇的參數(shù),輸出結(jié)果集應(yīng)對剩余參數(shù)進行適當保留,直到不再挖掘其價值為止。
③模型化:在大數(shù)據(jù)的輸出階段,應(yīng)盡可能將其模型化,以便在價值評估階段有利于數(shù)據(jù)的利用和評分,更有利于將其應(yīng)用在新的數(shù)據(jù)中,實現(xiàn)模型的復(fù)用。
④查詢共享性:Map R educe采用步步物化的處理方式,導(dǎo)致其I/O代價及網(wǎng)絡(luò)傳輸代價較高。在多個查詢間共享物化的中間結(jié)果(甚至原始數(shù)據(jù)),用以分攤代價并避免重復(fù)計算,這樣可以有效地降低Map R educe在物化過程中產(chǎn)生的代價。由此可見,如何在數(shù)據(jù)結(jié)果集之間建立多查詢的共享中間結(jié)果將是一項非常有實際應(yīng)用價值的研究。
⑤索引性:輸出結(jié)果集應(yīng)該具有一定的索引性,其輸入數(shù)據(jù)是多維度的,其結(jié)果也是多維度的,在其具有一定的規(guī)范性,應(yīng)該在Map R educe的背景框架下能夠完成多維索引,并且實現(xiàn)對于多維索引的查詢速度的提高。
3.3.5 大數(shù)據(jù)的展示
可視化工具發(fā)展得如此迅速,同時也被越來越多地應(yīng)用在各個領(lǐng)域,在大數(shù)據(jù)的結(jié)果展示中,采用數(shù)據(jù)可視化技術(shù)將更加高效形象地展示大數(shù)據(jù)的價值和鮮明的對比性。
應(yīng)用可視化技術(shù)具有以下特點:
①關(guān)聯(lián)性??梢詫⒈硎緦ο蠡蚴录臄?shù)據(jù)的單個或者多個屬性和變量進行關(guān)聯(lián),而數(shù)據(jù)可以按其所在的不同維度,將其分類、排序、組合、關(guān)聯(lián)和顯示。在一定程度上體現(xiàn)出了數(shù)據(jù)之間的關(guān)聯(lián)性,簡單說可以將財務(wù)報表與銷售報表進行關(guān)聯(lián),就復(fù)雜關(guān)聯(lián)來講,讓尿布與啤酒的銷售量關(guān)聯(lián)也成為了可能。
②互動性。使用者可以方便地使用交互的方式管理和開發(fā)數(shù)據(jù)。
③可視性。通過數(shù)據(jù)接口的數(shù)據(jù)可以用圖像、曲線、三維立體及動畫等多種方式來展示,通過展示后,專家可以對其模式、關(guān)系和趨勢進行進一步明了的分析。
3.3.6 大數(shù)據(jù)的價值評估
隨著分析流程的擴展性不斷提高,新的分析流程如何利用分析后的價值把企業(yè)帶到一個更高的層次,文中引入對于大數(shù)據(jù)的價值評估方案。分析流程最終會產(chǎn)生新的信息,比如,在市場營銷方面,客戶購買某一種產(chǎn)品的概率,某個產(chǎn)品的最優(yōu)價格或者是在促銷活動中能帶來銷量提升的區(qū)域。將大數(shù)據(jù)輸出接口中的分析模型應(yīng)用于最新數(shù)據(jù),就是評分。在大數(shù)據(jù)的價值評估階段,應(yīng)具備兩種要素:
①嵌入式評分。嵌入式評分能在數(shù)據(jù)庫內(nèi)定期地執(zhí)行評分過程,令使用者可以更加高效地、更加方便地使用結(jié)果集所輸出的模型。應(yīng)該盡可能包含部署每一個獨立的評分過程和建立一個健全的機制來管理和監(jiān)控這個評分過程。
②校驗評估。校驗評估是在檢驗對于專業(yè)數(shù)據(jù)處理分析的準確性,同人工神經(jīng)網(wǎng)絡(luò)和決策樹判定一樣,大數(shù)據(jù)的應(yīng)用管理同時需要檢驗,檢驗它在某一個專業(yè)領(lǐng)域的可行性,是否可以根據(jù)該分析方法和分析模型來判定這種方式的可行性,其準確的校驗識別率決定這種分析模型的可行性。例如,就石油勘探開發(fā)領(lǐng)域應(yīng)用,在使用大數(shù)據(jù)進行儲層參數(shù)預(yù)測時,可以根據(jù)大數(shù)據(jù)對儲層參數(shù)進行識別和匹配,尋找相似的儲層參數(shù),從而進行評估。而在最初投放生產(chǎn)中,需要對其使用進行有效地評估,確定這個模型的建立與使用是否有效和可行,可以同經(jīng)典的算法準確率作對比,計算校驗誤差值,來判定模型是否可行。
通過對大數(shù)據(jù)分析流程框架的制定,通過實驗對其進行驗證。大數(shù)據(jù)分析流程框架在油氣勘探開發(fā)中的應(yīng)用,通過對修井記錄和以往的分析數(shù)據(jù)的抽取和對樣本數(shù)據(jù)的預(yù)處理,通過對分析方法目錄的算法調(diào)用,通過樣本數(shù)據(jù)對整個大數(shù)據(jù)分析系統(tǒng)進行訓(xùn)練,使用輸入接口輸入帶診斷數(shù)據(jù)實現(xiàn)對分析數(shù)據(jù)的參數(shù)識別,最終生成診斷結(jié)果,并由大數(shù)據(jù)分析平臺系統(tǒng)對其識別進行相應(yīng)的評估,生成評估結(jié)果。通過該應(yīng)用實現(xiàn)對大數(shù)據(jù)分析流程框架驗證。
文中通過對傳統(tǒng)的數(shù)據(jù)分析流程的闡述,并對大數(shù)據(jù)形勢下的數(shù)據(jù)倉庫與傳統(tǒng)的數(shù)據(jù)倉庫進行了對比。在此基礎(chǔ)上,提出了新形勢下的大數(shù)據(jù)分析流程框架,并詳細地闡述了大數(shù)據(jù)分析流程每一部分所要完成的工作。將其理論模型應(yīng)用到油氣勘探開發(fā)的抽油機故障診斷中,能夠?qū)⒋髷?shù)據(jù)的分析投入使用并推廣,將具有更廣闊的發(fā)展空間與前景。