周浩成
(廣州城市理工學(xué)院,廣東 廣州 510800)
近年來(lái),國(guó)民經(jīng)濟(jì)增長(zhǎng)迅速,信息技術(shù)得到進(jìn)一步發(fā)展,社會(huì)正式進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)憑借著高速性、多樣性以及規(guī)模性的特點(diǎn),在許多領(lǐng)域有著良好的應(yīng)用,但是也對(duì)傳統(tǒng)技術(shù)產(chǎn)生一定的限制,導(dǎo)致傳統(tǒng)技術(shù)無(wú)法滿(mǎn)足當(dāng)前時(shí)代對(duì)于數(shù)據(jù)處理方面的需求。除此之外,在裝備管理等方面,大數(shù)據(jù)技術(shù)也有著非常好的應(yīng)用效果,隨著技術(shù)的革新發(fā)展,漸漸成為裝備管理的新引擎。
ETL過(guò)程指的是數(shù)據(jù)凈化和數(shù)據(jù)遷移,在企業(yè)數(shù)據(jù)管理策略中也占有非常重要的地位[1]。ETL過(guò)程可以在第一時(shí)間發(fā)現(xiàn)數(shù)據(jù)庫(kù)的需求,同時(shí)迅速將所需數(shù)據(jù)從源系統(tǒng)中抽取出來(lái),經(jīng)過(guò)一系列的處理,將其加載到數(shù)據(jù)庫(kù)內(nèi)。
對(duì)于我國(guó)軍隊(duì)而言,裝備數(shù)據(jù)屬于軟裝備的范疇,既能夠加強(qiáng)軍隊(duì)裝備整體的工作效益基礎(chǔ),還可幫助軍隊(duì)提高整體作戰(zhàn)任務(wù)的行動(dòng)力。目前來(lái)看,ETL技術(shù)裝備大數(shù)據(jù)分為幾大特點(diǎn):
第一,種類(lèi)多、關(guān)聯(lián)關(guān)系復(fù)雜。分析研究發(fā)現(xiàn),裝備管理數(shù)據(jù)分為3種:人、財(cái)、物,這3種資源相輔相成,相互交織,形成一個(gè)巨大且復(fù)雜的網(wǎng)絡(luò),實(shí)現(xiàn)自身的使命。例如,裝備和器材之間的保障關(guān)系、任務(wù)、能力和裝備間的映射關(guān)系以及裝備之間的戰(zhàn)場(chǎng)關(guān)系和數(shù)量關(guān)系等[2]。
第二,裝備數(shù)據(jù)量巨大。隨著科學(xué)技術(shù)的發(fā)展,裝備愈發(fā)復(fù)雜,使得在應(yīng)用過(guò)程中會(huì)產(chǎn)生大量的數(shù)據(jù),對(duì)于后續(xù)的數(shù)據(jù)處理分析帶來(lái)不小的難度。這些原位在線(xiàn)數(shù)據(jù)集對(duì)于改進(jìn)研制、裝備應(yīng)用以及狀態(tài)監(jiān)控等提供了非常重要的參考[3]。
第三,產(chǎn)生頻率高、更新快。武器裝備每一天都會(huì)產(chǎn)生大量維修數(shù)據(jù)和故障數(shù)據(jù)或者入庫(kù)數(shù)據(jù)等,頻繁的產(chǎn)生將會(huì)影響到數(shù)據(jù)處理的準(zhǔn)確性和實(shí)時(shí)性,同時(shí)對(duì)歷史數(shù)據(jù)分析的定位聚焦要求更高,必須具備更加完善的計(jì)算方式。
ETL是建立數(shù)據(jù)倉(cāng)庫(kù)的關(guān)鍵,為確保和現(xiàn)有數(shù)據(jù)庫(kù)的無(wú)縫管銜接,建立一個(gè)相互貫通的數(shù)據(jù)分析系統(tǒng)。在數(shù)據(jù)處理期間,必須遵循統(tǒng)一的制度標(biāo)準(zhǔn),通過(guò)對(duì)數(shù)據(jù)的清洗、轉(zhuǎn)換與處理,只有符合標(biāo)準(zhǔn)的數(shù)據(jù)才會(huì)被加載到數(shù)據(jù)庫(kù)內(nèi)。
數(shù)據(jù)抽取就是將結(jié)構(gòu)化或者非結(jié)構(gòu)化中的帶有實(shí)際意義的數(shù)據(jù)進(jìn)行抽取,通過(guò)簡(jiǎn)單處理,加載到數(shù)據(jù)庫(kù)。目前,最為常見(jiàn)的抽取方式包括兩種:增量抽取和全量抽取。當(dāng)系統(tǒng)正常運(yùn)轉(zhuǎn)后,在不對(duì)其運(yùn)轉(zhuǎn)產(chǎn)生影響的前提下,對(duì)各階段進(jìn)行實(shí)時(shí)監(jiān)控,通過(guò)對(duì)新數(shù)據(jù)的增量抓取,選擇有意義的數(shù)據(jù)錄入數(shù)據(jù)庫(kù)。到目前為止,這種數(shù)據(jù)抽取方式能夠?qū)Χ喾N類(lèi)型數(shù)據(jù)庫(kù)的連接工作起到支撐作用,滿(mǎn)足大數(shù)據(jù)的應(yīng)用需求[5]。
多源數(shù)據(jù)如果參數(shù)相同,并且可信度和精確度都存在一定的差異,則管理者獲取到的數(shù)據(jù)應(yīng)該屬于多源數(shù)據(jù)的一致性描述,可借助其中的專(zhuān)家經(jīng)驗(yàn)信息和冗余信息,利用適當(dāng)?shù)囊?guī)范指數(shù)推動(dòng)數(shù)據(jù)進(jìn)行融合,這樣一來(lái),便可以將數(shù)據(jù)集整體的置信度提高,保障系統(tǒng)的政策運(yùn)轉(zhuǎn)。數(shù)據(jù)融合的另外一個(gè)功能就是能夠?qū)⒉灰恢碌臄?shù)據(jù)進(jìn)行轉(zhuǎn)化,并且涉及一些商務(wù)規(guī)則的運(yùn)算。不一致數(shù)據(jù)轉(zhuǎn)換屬于整合過(guò)程,讓所處于不同范圍的數(shù)據(jù)進(jìn)行統(tǒng)一。
數(shù)據(jù)加載也叫作數(shù)據(jù)提交。對(duì)于系統(tǒng)后臺(tái)而言,其任務(wù)終點(diǎn)就是準(zhǔn)備好數(shù)據(jù)以供后續(xù)查詢(xún),所以可以將數(shù)據(jù)組織為對(duì)稱(chēng)、簡(jiǎn)單的框架模型,也可叫作維度模型。該框架模型的建立,大大減少查詢(xún)時(shí)間,并且讓開(kāi)發(fā)過(guò)程得到簡(jiǎn)化。
在維度模型中,利用數(shù)據(jù)抽取和清洗服務(wù)的數(shù)據(jù)表進(jìn)行劃定,分為維度表和事實(shí)表。其中,維度表通常用作事實(shí)表特性的描述,為決策者提供有用信息。另一方面,事實(shí)表常見(jiàn)于分析業(yè)務(wù)數(shù)據(jù)的集合,并且當(dāng)前所獲取的數(shù)據(jù)量巨大,所以存儲(chǔ)消耗也比較大。
數(shù)據(jù)加載就是將事實(shí)表加載到數(shù)據(jù)庫(kù)內(nèi)。因?yàn)閿?shù)據(jù)抽取分為兩種,所以在加載過(guò)程中也可分為兩種:權(quán)力加載和增量加載。但是,兩者對(duì)數(shù)據(jù)的處理方式一致。另一方面,數(shù)據(jù)加載過(guò)程中,管理人員進(jìn)一步查詢(xún)維度表,查看是否擁有代理鍵,如若不存在,則要對(duì)維度表進(jìn)行更新,同時(shí)加載事實(shí)表[6]。
對(duì)于數(shù)據(jù)治理而言,數(shù)據(jù)標(biāo)準(zhǔn)體系是核心,能夠?qū)⒉煌瑪?shù)據(jù)源的數(shù)據(jù)基于ETL技術(shù)加載到數(shù)據(jù)庫(kù),另外ETL清洗規(guī)則也是基于數(shù)據(jù)表示所編制的。傳統(tǒng)的數(shù)據(jù)模型、質(zhì)量、標(biāo)準(zhǔn)以及元數(shù)據(jù)等數(shù)據(jù)管理活動(dòng)存在限制,只可以解決數(shù)據(jù)的局部訪問(wèn)問(wèn)題。
數(shù)據(jù)標(biāo)準(zhǔn)編制過(guò)程分為幾方面:定義業(yè)務(wù)問(wèn)題、建立業(yè)務(wù)詞庫(kù)、了解數(shù)據(jù)、界定標(biāo)準(zhǔn)度量和結(jié)果測(cè)量等。
標(biāo)準(zhǔn)建設(shè)基于制度規(guī)則,對(duì)標(biāo)準(zhǔn)范圍進(jìn)行擴(kuò)充,使得數(shù)據(jù)標(biāo)準(zhǔn)更為精細(xì)化。需要注意的是,修改標(biāo)準(zhǔn)必須要確保及時(shí),并且更新到業(yè)務(wù)系統(tǒng)內(nèi)。
數(shù)據(jù)抽取過(guò)程中,基于不同數(shù)據(jù)和不同業(yè)務(wù)的需求,在某些環(huán)節(jié),要將業(yè)務(wù)數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)進(jìn)行抽取,通過(guò)簡(jiǎn)單的清洗與轉(zhuǎn)換,最后將有意義的數(shù)據(jù)加載到數(shù)據(jù)庫(kù)內(nèi),這一過(guò)程就叫作全量抽取[7]。
全量抽取,第一步要加載數(shù)據(jù)庫(kù)驅(qū)動(dòng)程序,將其與需要抽取的數(shù)據(jù)源進(jìn)行連接。并對(duì)連接情況進(jìn)行判斷,如果連接失敗,需要記錄失敗的原因。要是連接成功,對(duì)表中記錄進(jìn)行查詢(xún),完成相應(yīng)的數(shù)據(jù)抽取工作,并且將數(shù)據(jù)轉(zhuǎn)入緩存區(qū),對(duì)其進(jìn)行清洗。
因?yàn)閿?shù)據(jù)具有多樣性的特點(diǎn),因此業(yè)務(wù)系統(tǒng)難以為存儲(chǔ)數(shù)據(jù)的真實(shí)性和準(zhǔn)確性提供保障。
首先,分析能夠?qū)?shù)據(jù)結(jié)果產(chǎn)生影響的異常數(shù)據(jù),利用軟件進(jìn)行識(shí)別,做出判斷,是否需要進(jìn)行刪除。一般情況下,識(shí)別方式有兩種:物流法和統(tǒng)計(jì)法。在本次研究中,選取統(tǒng)計(jì)判別法對(duì)異常數(shù)據(jù)進(jìn)行分析,在未知總體標(biāo)準(zhǔn)偏差前提下,來(lái)對(duì)正態(tài)樣本異常情況做出分析,該方式較為嚴(yán)謹(jǐn),效果較高[5]。其次,當(dāng)數(shù)據(jù)嚴(yán)重缺失的時(shí)候,也會(huì)對(duì)分析結(jié)果產(chǎn)生影響,所以需要對(duì)缺失值和異常值通過(guò)有效方式進(jìn)行填補(bǔ)。最后,數(shù)據(jù)清洗結(jié)構(gòu)。通過(guò)數(shù)據(jù)清洗,可以糾正錯(cuò)誤,刪除一些重復(fù)的信息。
利用裝備大數(shù)據(jù)治理,深入挖掘數(shù)據(jù)價(jià)值,能夠幫助軍隊(duì)摸清真實(shí)情況,提高數(shù)據(jù)資產(chǎn)的活性,進(jìn)而提高裝備的精細(xì)化管理能力,為裝備運(yùn)用新能力提供重要參考。
第一,數(shù)據(jù)地圖。其本質(zhì)就是提供數(shù)據(jù)資產(chǎn)的真實(shí)情況。用戶(hù)進(jìn)行點(diǎn)擊,就可以查閱到表的質(zhì)量情況和血緣情況。第二,全鏈分析。主要包括數(shù)據(jù)安全、應(yīng)用、存儲(chǔ)、分析等方面,涵蓋范圍較廣,涉及多個(gè)領(lǐng)域。該模塊主要就是提供數(shù)據(jù)在全鏈上的搜索,例如輸入出倉(cāng)號(hào)碼,就可以直接查詢(xún)到所有相關(guān)的信息?;谌湻治?能夠更加快速便捷的獲取到相應(yīng)的數(shù)據(jù)信息。第三,主題集市?;谘b備業(yè)務(wù)管理分析的需求,站在數(shù)據(jù)治理的層面,來(lái)建立主題數(shù)據(jù),通過(guò)主題集市的方式為軍隊(duì)提供標(biāo)準(zhǔn)化服務(wù)。根據(jù)不同的業(yè)務(wù)規(guī)則完成主題集市的搭建,對(duì)于跟業(yè)務(wù)主題存在關(guān)聯(lián)的實(shí)體組成實(shí)體域,這樣一來(lái),有利于用戶(hù)的快速訪問(wèn),而且可以提高工作效率。
針對(duì)ETL技術(shù)大數(shù)據(jù)治理應(yīng)用,本文制定一套系統(tǒng)的治理方案,包括數(shù)據(jù)抽取、清洗以及加載等方面,并且建立業(yè)務(wù)模塊打通裝備數(shù)據(jù)流,深入挖掘數(shù)據(jù)管理分析價(jià)值,將數(shù)據(jù)流驅(qū)動(dòng)裝備作為業(yè)務(wù)流,實(shí)現(xiàn)綜合分析計(jì)劃和知識(shí)圖譜的建立,從而為軍隊(duì)的決策管理提供重要參考。