(甘肅鋼鐵職業(yè)技術學院,甘肅 嘉峪關 735100)
大數(shù)據(jù)、挖掘分析對于企業(yè)的發(fā)展具有不可替代的作用,尤其是互聯(lián)網(wǎng)、高科技密集型型企業(yè),數(shù)據(jù)為企業(yè)的經(jīng)營狀況、未來發(fā)展方向以及市場應用提供了強有力的保障。因此,企業(yè)的數(shù)據(jù)積累過程,需要對數(shù)據(jù)進行充分的挖掘,剔除不相干數(shù)據(jù),保留有價值數(shù)據(jù)[1]。
在數(shù)據(jù)采集、建模中,需要對不同類型的數(shù)據(jù)結構進行數(shù)據(jù)化處理,然后加載運輸?shù)綄臄?shù)據(jù)庫中,此過程簡稱為ETL(Extraction Transformation Loading)。ETL作為數(shù)據(jù)提煉過程核心環(huán)節(jié),據(jù)文獻表述,ETL占用時間比例是數(shù)據(jù)開發(fā)整理過程的60%~80%。因此,ETL過程的效率高低,對于數(shù)據(jù)庫的完善和數(shù)據(jù)的預處理都具有積極的影響作用。本文基于大數(shù)據(jù)時代來進行數(shù)據(jù)同步設計與實現(xiàn),以期為大數(shù)據(jù)、數(shù)據(jù)挖掘普及應用提供應用路徑。
數(shù)據(jù)同步基本要素可包括數(shù)據(jù)同步協(xié)議、時間戳以及沖突協(xié)議。其中數(shù)據(jù)同步協(xié)議運行機制使借助日志記錄來進行數(shù)據(jù)變動的保存和記錄,一定程度上擔負了信息交換過程中出現(xiàn)的錯誤,如信息數(shù)據(jù)表的修正和完善,時間戳主要功能是保證同步數(shù)據(jù)的連續(xù)性,主要關聯(lián)對象是同各同步類型的數(shù)據(jù)庫表,同步時間戳分為兩種:即Last時間戳和Next時間戳。
大數(shù)據(jù)時代,我們時刻被不同類型數(shù)據(jù)“包圍”,如網(wǎng)站活動軌跡、數(shù)學數(shù)據(jù)、力學數(shù)據(jù)、計算機數(shù)據(jù),等等,但總的歸納起來,數(shù)據(jù)主數(shù)據(jù)基礎量大且數(shù)據(jù)結構化類型繁多。以HDFS為典型數(shù)據(jù)代表分布式文件系統(tǒng)成為數(shù)據(jù)處理的迫切需要。此外,企業(yè)在進行數(shù)據(jù)處理過程種,常規(guī)的做法是基于不同類型的數(shù)據(jù)源結構,通過數(shù)據(jù)交互實現(xiàn)數(shù)據(jù)結構的轉化,然后基于企業(yè)系統(tǒng)江數(shù)據(jù)轉接至HDFS,借助MapReduce實現(xiàn)數(shù)據(jù)的處理分析、挖掘并輸送至目標庫中。綜上所述,大數(shù)據(jù)的ETL系統(tǒng)可以達到以上標準要求[2]。
元數(shù)據(jù)ETL體系結構可實現(xiàn)對數(shù)據(jù)的模塊化管理,以往的ETL結構缺乏對數(shù)據(jù)質量的高效管理,無法基于元數(shù)據(jù)對數(shù)據(jù)質量進行評測。本文設計的ETL體系結構課實現(xiàn)對數(shù)據(jù)質量的全過程管控和評測,具體如圖1所示。
從圖1中可以得出,ETL體系中主要涉及以下模塊:數(shù)據(jù)模塊、流程管理部分以及源數(shù)據(jù)部分等。數(shù)據(jù)模塊是實現(xiàn)系統(tǒng)的基礎,主要作用是數(shù)據(jù)過程控制以及數(shù)據(jù)化處理;流程管理主要實現(xiàn)數(shù)據(jù)流程化并根據(jù)系統(tǒng)以及源數(shù)據(jù)進行數(shù)據(jù)預處理;源數(shù)據(jù)部分主要作用是數(shù)據(jù)結構化闡述,根據(jù)數(shù)據(jù)源結構來進行數(shù)據(jù)層面的修正和完善并進行轉移處理;轉化部分根據(jù)數(shù)據(jù)定義法則來進行數(shù)據(jù)模塊化轉移;數(shù)據(jù)訪問部分主要甄別數(shù)據(jù)并為其提供數(shù)據(jù)對接接口[3]。
為了保證系統(tǒng)在異常狀態(tài)下,明確故障發(fā)生的原因和類型,借助Common Response類來進行框架中返回的響應信息的同步處理。Common Response類主要的響應信息為message屬性、response Content屬性以及代表響應狀態(tài)碼的status屬性。
同步服務器是基于JAVA實現(xiàn)數(shù)據(jù)的可視化展示,各個系統(tǒng)之間相互獨立有有一定的聯(lián)系。作為數(shù)據(jù)同步模塊的核心環(huán)節(jié),服務器主要包含4個部分,具體如圖2所示。
圖中顯示RSA連接器模塊和數(shù)據(jù)同步是交互作用,因此RSA連接器模塊功能作用在于數(shù)據(jù)加密、數(shù)據(jù)同步延申,數(shù)據(jù)同步模塊是基于Synclets系統(tǒng)來實現(xiàn)邏輯的轉變,主要的功能是對數(shù)據(jù)進行流程化管理。
本文搭建的測試環(huán)境基于Windows8專業(yè)版,同步服務器軟件是Funambol,為研究方便本文選取主要功能進行測試檢測。
為保證各個系統(tǒng)測試可靠性和準確性,以Java來實現(xiàn)數(shù)據(jù)同步終端的測試和實現(xiàn)。數(shù)據(jù)同步的性能測試主要是針對數(shù)據(jù)交互過程中所消耗的時間來進行評測,主要包括以下參量,如時間歷程、數(shù)據(jù)處理過程時效等。本文所搭建的網(wǎng)絡環(huán)境采用局域網(wǎng),通過同步服務軟硬端實現(xiàn)數(shù)據(jù)的高效傳輸[4]。
本文所測試的實例基于PC終端,利用RSA算法在不同的環(huán)境下來對數(shù)據(jù)同步進行過程監(jiān)測。測試結果如圖3所示。從圖3可以看出,通過對300個評測對象進行數(shù)據(jù)同步耗費時間對比發(fā)展,所耗費的時間均在7s以下,因此采用RSA算法對數(shù)據(jù)項加密的數(shù)據(jù)同步過程符合規(guī)則標準要求,此外由于于系統(tǒng)同步服務器在配置高于PC客戶端,耗時會少于解密操作發(fā)生在PC客戶端的情況,由于同步發(fā)送300個評測對象的時間少于同步接受、更新以及修正;因此基于非數(shù)據(jù)迭代過程,此程序并不直接參與至數(shù)據(jù)同步中,因此兩者的數(shù)據(jù)同步機制大體一致[5-6]。
本文基于大數(shù)據(jù)時代來進行數(shù)據(jù)同步設計與實現(xiàn),首先基于數(shù)據(jù)質量需求分析進行了 ETL體系結構設計,在模塊化設計的基礎上實現(xiàn)了同步訪問模型與錯誤處理模型實現(xiàn)、同步服務器匹配以及數(shù)據(jù)庫設計。最后選擇合適的測試實例對系統(tǒng)進行測試分析、功能分析,結果顯示目前所搭建的系統(tǒng)支持處理非數(shù)據(jù)結構的不足,拓展了數(shù)據(jù)處理的廣度,為大數(shù)據(jù)、數(shù)據(jù)挖掘普及應用提供應用路徑。