羅 樂,葛啟東,周永學,夏 斌
(1.中國人民解放軍63880部隊,河南 洛陽 471003;2.陸軍工程大學石家莊校區(qū),河北 石家莊 050003)
裝備數(shù)據(jù)是裝備基礎(chǔ)數(shù)據(jù)、裝備屬性數(shù)據(jù)和裝備業(yè)務(wù)工作數(shù)據(jù)的統(tǒng)稱[1]。對裝備數(shù)據(jù)的分析利用,可以滿足各級、各類裝備管理、研究以及生產(chǎn)機構(gòu)的需求,提高裝備全壽命管理水平和效益,意義十分重大。隨著裝備信息化程度的不斷提高,裝備數(shù)據(jù)種類在增多、數(shù)量在變大、更新頻率在加快,如何從豐富的數(shù)據(jù)中挖掘出數(shù)據(jù)潛在的應(yīng)用價值,為裝備管理、保障以及指揮決策等提供有力的數(shù)據(jù)支撐是裝備數(shù)據(jù)應(yīng)用面臨的一項挑戰(zhàn)[2-3]。
數(shù)據(jù)挖掘作為一種能夠從數(shù)據(jù)中發(fā)現(xiàn)隱藏知識的技術(shù),可以為裝備數(shù)據(jù)的應(yīng)用提供解決思路。利用數(shù)據(jù)挖掘技術(shù)進行裝備數(shù)據(jù)的挖掘,可以通過數(shù)學模型、推理規(guī)則和圖形等呈現(xiàn)方式從裝備數(shù)據(jù)中挖掘出潛在性、可理解性和有價值的數(shù)據(jù)信息,將裝備全壽命管理過程中的豐富數(shù)據(jù)轉(zhuǎn)化為知識。本文嘗試使用關(guān)聯(lián)規(guī)則分析對裝備數(shù)據(jù)進行數(shù)據(jù)挖掘,并結(jié)合應(yīng)用案例對具體實踐進行了初步探索,為裝備數(shù)據(jù)的應(yīng)用提供借鑒和參考。
關(guān)聯(lián)規(guī)則分析是數(shù)據(jù)挖掘的主要技術(shù)之一。通過關(guān)聯(lián)分析可以挖掘大量數(shù)據(jù)中項集之間的關(guān)聯(lián)或相關(guān)聯(lián)系,找出頻繁模式,揭示數(shù)據(jù)內(nèi)在結(jié)構(gòu)特征。最早的關(guān)聯(lián)規(guī)則分析概念是1993年由Afrawal,Imielinski和Swami提出,其主要目的是分析超市顧客購買行為的規(guī)律,發(fā)現(xiàn)連帶購買商品,為指定合理的方便顧客選取的貨架擺放方案提供依據(jù),也被稱為購物籃分析[4]。目前,關(guān)聯(lián)規(guī)則分析已經(jīng)廣泛應(yīng)用到電子商務(wù)、保險業(yè)務(wù)、醫(yī)學、電信行業(yè)等諸多領(lǐng)域。
數(shù)據(jù)的最基本形式是數(shù)據(jù)庫數(shù)據(jù)、數(shù)據(jù)倉庫數(shù)據(jù)和事務(wù)數(shù)據(jù)。關(guān)聯(lián)規(guī)則分析就是針對事務(wù)數(shù)據(jù)挖掘頻繁項集。這里,對于包含項目a的項集C(項集是指若干項的集合),如果其支持度大于等于指定的最小支持度,則稱為頻繁項集(包含1個項目的頻繁項集稱為L1,包含k個項目的頻繁項集稱為Lk)。Apriori算法是關(guān)聯(lián)規(guī)則最常用也是最經(jīng)典的挖掘頻繁項集的算法,其核心思想是通過連接產(chǎn)生候選項及其支持度,然后通過剪枝生成頻繁項集。Apriori算法實現(xiàn)的過程如圖1所示[5-6]。
圖1 Apriori算法實現(xiàn)的過程
具體的實現(xiàn)步驟分為三步:
1)掃描所有的事務(wù),事務(wù)中每一項組成了1項集的集合C1;計算每一項的支持度;預先設(shè)定最小支持度的閾值,對C1中各項集的支持度與該閾值進行比較,保留大于或等于該閾值的項集,得到1項頻繁集L1。
2)掃描所有事務(wù),將Lk-1與L1連接得到k項集的集合Ck;計算每個項集的支持度,根據(jù)頻繁項集的所有非空子集必須是頻繁項集的原則,對Ck進行剪枝;將剪枝后的項集Ck的支持度與閾值的比較,得到k項頻繁集Lk。
3)由以上頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則,并根據(jù)需要對規(guī)則進行篩選。一方面,在進行關(guān)聯(lián)規(guī)則篩選時,分析人員根據(jù)實際情況設(shè)定測度指標的閾值,指定規(guī)則符合的特征,從而保證規(guī)則的實用性。另一方面可以根據(jù)挖掘目標的需要,通過關(guān)聯(lián)約束條件指定規(guī)則前項和后項,從而篩選包含某些特征的關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)分析的核心體現(xiàn)形式是關(guān)聯(lián)規(guī)則,規(guī)則的有效性和實用性通過支持度(Support)、置信度(Confidence)和提升度(Lift)等測度指標來度量[7-8]。其中,支持度定義為前項和后項同時出現(xiàn)的概率,是產(chǎn)生最大頻繁項集的依據(jù);置信度定義為包含前項的事務(wù)中也包含后項的概率,度量了前項出現(xiàn)的條件下后項出現(xiàn)的可能性;提升度定義為置信度除以后項支持度,反映了前項的出現(xiàn)對后項的影響程度。例如:對于關(guān)聯(lián)規(guī)則a->b(x%,y%,z%),a稱為規(guī)則的前項,b稱為規(guī)則的后項。其中支持度x%=Support(a→b)=P(a,b),意義為a和b同時發(fā)生的概率;置信度y%=Confidence(a→b)=P(b|a)=P(a,b)/P(a),意義為在a情況下發(fā)生b的概率;提升度z%=Lift(a→b)=P(b|a)/P(b)=Confidence(a→b)/P(b),意義為a的發(fā)生對b的發(fā)生的影響程度。在進行關(guān)聯(lián)規(guī)則篩選時,支持度的閾值一般設(shè)定為5%~10%,置信度的閾值一般為70%~90%,提升度一般設(shè)置為大于1。
目前,數(shù)據(jù)挖掘在國內(nèi)外都受到了前所未有的重視,并廣泛用于各個領(lǐng)域。在裝備數(shù)據(jù)中,不同數(shù)據(jù)項之間存在一定的關(guān)聯(lián)性。這種規(guī)律性有些可以通過直觀認識結(jié)合經(jīng)驗做出定性的判斷,但無法掌握其量化程度,此外,還存在大量的未知的關(guān)聯(lián)關(guān)系隱藏在數(shù)據(jù)中。為研究裝備數(shù)據(jù)中隱含的規(guī)律,利用關(guān)聯(lián)規(guī)則挖掘?qū)ρb備數(shù)據(jù)進行分析,希望獲取隱含在數(shù)據(jù)項之間有價值的關(guān)聯(lián)關(guān)系,從而準確地探討裝備的使用,為裝備的科學化管理提供決策依據(jù)。
數(shù)據(jù)挖掘的一般過程如圖2所示。裝備數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘是針對裝備數(shù)據(jù)的分析需求,基于Apriori算法進行關(guān)聯(lián)規(guī)則分析,從而發(fā)現(xiàn)裝備數(shù)據(jù)項中隱含的關(guān)聯(lián)關(guān)系。參照數(shù)據(jù)挖掘流程,裝備數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘模型建立分為四個步驟:1)依據(jù)研究問題對數(shù)據(jù)進行搜集,并對搜集的數(shù)據(jù)進行審核、篩選等數(shù)據(jù)預處理從而建立事務(wù)數(shù)據(jù)集;2)利用Apriori算法進行數(shù)據(jù)分析和挖掘;3)根據(jù)模式的興趣度客觀度量識別出可以用于決策的模式;4)結(jié)合實際的情況對數(shù)據(jù)分析的結(jié)果進行總結(jié)和解釋。
圖2 數(shù)據(jù)挖掘流程
以上各步驟是按照順序完成的,但整個過程還存在步驟間的反饋。
文獻[9]將裝備數(shù)據(jù)定義為:用于描述裝備自身特性和狀態(tài)的數(shù)據(jù)以及裝備全系統(tǒng)、全壽命管理活動所涉及的數(shù)據(jù)的統(tǒng)稱。通常,裝備數(shù)據(jù)可包括3類:1)用于實現(xiàn)信息化的基礎(chǔ)數(shù)據(jù),如裝備代碼、組織機構(gòu)代碼;2)標識自身特性和狀態(tài)的屬性數(shù)據(jù),如裝備的設(shè)備型號、戰(zhàn)技術(shù)性能指標參數(shù);3)裝備工作中產(chǎn)生的業(yè)務(wù)數(shù)據(jù),例如裝備運行、訓練、維護等日常工作中產(chǎn)生的數(shù)據(jù)以及裝備參加試驗仿真以及實戰(zhàn)演習產(chǎn)生的數(shù)據(jù)。裝備數(shù)據(jù)來源于不同的數(shù)據(jù)集,存儲的格式和數(shù)據(jù)格式異構(gòu),并且具有時間和空間移動性,總體上看呈現(xiàn)出時空性、易變性、異構(gòu)型和多源性等特點[10-11]。
在裝備數(shù)據(jù)的搜集中,必須深入分析應(yīng)用目標對數(shù)據(jù)的要求,針對數(shù)據(jù)挖掘的目標進行數(shù)據(jù)選擇。通過數(shù)據(jù)選擇使數(shù)據(jù)挖掘聚集到與挖掘目標相關(guān)的任務(wù)中,提高數(shù)據(jù)挖掘準確性。對于搜集的裝備數(shù)據(jù),使用數(shù)據(jù)清理、集成、變換和規(guī)約等方法進行必要的數(shù)據(jù)處理,從而降低數(shù)據(jù)挖掘的時間,提高數(shù)據(jù)挖掘的質(zhì)量。由于關(guān)聯(lián)規(guī)則分析的對象是事務(wù)數(shù)據(jù),因此對于裝備數(shù)據(jù)的搜集和預處理,就是要針對數(shù)據(jù)挖掘的目標選擇數(shù)據(jù)并建立事務(wù)數(shù)據(jù)集,從而為關(guān)聯(lián)規(guī)則分析奠定基礎(chǔ)。事務(wù)數(shù)據(jù)集可以按照事實表的格式進行組織,如表1所示。表中每一行是對一個事務(wù)的描述,每一列代表一個具體的項目,1代表項目出現(xiàn),0代表項目未出現(xiàn)。
表1 事實表樣表
將事務(wù)數(shù)據(jù)集輸入數(shù)據(jù)分析工具中,自動生成有效的簡單關(guān)聯(lián)規(guī)則,并通過靈活調(diào)整設(shè)置參數(shù)和約束條件,進行規(guī)則的篩選。當前,數(shù)據(jù)分析領(lǐng)域有很多成熟的數(shù)據(jù)分析軟件,極大地方便了數(shù)據(jù)的分析和挖掘,如R語言,Python語言等。其中,R就是眾多工具中一款應(yīng)用非常廣泛的免費開源軟件。R操作簡便,可以直接采用函數(shù)調(diào)用算法,通過簡單編程即可完成數(shù)據(jù)挖掘過程。文中所進行的關(guān)聯(lián)規(guī)則分析就是通過R實現(xiàn)。
通常支持度、置信度和提升度并不能度量規(guī)則的實際意義和分析關(guān)注的興趣點。對于關(guān)聯(lián)分析產(chǎn)生的模式通過χ2檢驗進行客觀興趣度度量,可以進一步判斷關(guān)聯(lián)規(guī)則是否符合數(shù)據(jù)挖掘的需求。
χ2檢驗是通過比較理論頻數(shù)和實際頻數(shù)的吻合程度進行的統(tǒng)計推斷??ǚ綑z驗的方法如下。
假設(shè)有兩個分類變量A和B,值域分別為{A1,A2…Am}和{B1,B2…Bn},設(shè)Xij為頻數(shù),代表Xij個樣本屬性屬于Ai和Bi,將m×n個Xij排列為一個m行n列的二維列聯(lián)表,所有頻數(shù)之和即為樣本容量。卡方檢驗值χ2的擬合度公式如下[12]
以上公式中,χ2為檢驗統(tǒng)計量;Xij為實際值,代表(A=Ai,B=Bi)的實際頻數(shù);Tij為理論值,是根據(jù)假設(shè)的總體分布計算的理論頻數(shù),代表所在列聯(lián)表中行和列頻數(shù)合計的乘積除以總頻數(shù),計算公式如下[12]
假設(shè)變量A和B是相互獨立的,基于給定的顯著性水平如果拒絕該假設(shè),則判定二者是統(tǒng)計相關(guān)的。
對于形成的關(guān)聯(lián)模式進行χ2檢驗可以形成強關(guān)聯(lián)規(guī)則,結(jié)合實際情況進一步解讀規(guī)則,提取有用信息和形成結(jié)論,從而為裝備運用和管理決策提供價值的意見。
文中按照數(shù)據(jù)挖掘的基本流程,以某型裝備系統(tǒng)的業(yè)務(wù)數(shù)據(jù)為研究對象進行實例分析,介紹裝備數(shù)據(jù)關(guān)聯(lián)規(guī)則分析的具體實現(xiàn)過程。
復雜電磁環(huán)境背景下,在合理的配置地域通信裝備采用不同信號樣式進行通聯(lián),通信對抗裝備系統(tǒng)對通信信號進行偵查干擾,從而檢驗?zāi)惩ㄐ艑寡b備系統(tǒng)對通信信號的偵察干擾效能。為分析研究通信對抗裝備系統(tǒng)干擾效果與復雜影響因素的關(guān)系,希望利用關(guān)聯(lián)規(guī)則挖掘發(fā)現(xiàn)裝備數(shù)據(jù)項之間的關(guān)聯(lián)關(guān)系。
明確數(shù)據(jù)挖掘的目的后對來源于不同類型裝備的數(shù)據(jù)進行采集,確定采集數(shù)據(jù)項包括干擾方式(A)、電磁環(huán)境復雜度(B)、信號頻率(C)、信號傳輸質(zhì)量(D)、干擾信號樣式(E)、通信信號類型(F)、通信信號調(diào)制樣式(G)和干擾效果(H)等。在對裝備數(shù)據(jù)進行分析之前,對來自于不同數(shù)據(jù)源的數(shù)據(jù)進行清理和集成,并對數(shù)據(jù)項進行離散化處理,最終整理出360個數(shù)據(jù)樣本,如表2所示。
表2 原始數(shù)據(jù)表
表2中,A,B,C,D,E,F,G,H分別代表干擾方式、電磁環(huán)境復雜度、信號頻率、信號傳輸質(zhì)量、干擾信號樣式、通信信號類型、通信信號調(diào)制樣式和干擾效果等數(shù)據(jù)項。進行關(guān)聯(lián)規(guī)則分析之前,在表2的基礎(chǔ)上將事務(wù)數(shù)據(jù)存在事實表中。首先,分別用(A1,A2,A3,A4,A5),(B1,B2,B3,B4,B5),(C1,C2),(D1,D2,D3,D4,D5),(E1,E2,E3,E4),(F1,F2),(G1,G2,G3,G4,G5),(H1,H2)表示離散數(shù)據(jù)項A,B,C,D,E,F,G,H的不同屬性取值,例如A1代表數(shù)據(jù)項A(干擾方式)屬性點頻干擾,C2代表數(shù)據(jù)項C(信號頻率)屬性超短波;然后將表2用“0”和“1”進行布爾編碼,并將按照事實表格式組織事務(wù)數(shù)據(jù)。如表3所示,表中一行是一個事務(wù)的完整描述;一列為一個具體項目,取值為1或0。1代表項目在事務(wù)中出現(xiàn),0代表沒有出現(xiàn)。
表3 事實表實例
利用R語言對預處理的數(shù)據(jù)進行讀取,并調(diào)用關(guān)聯(lián)規(guī)則程序包進行關(guān)聯(lián)規(guī)則挖掘。為保證關(guān)聯(lián)規(guī)則的實用性,指定規(guī)則的最小支持度為10%,最小置信度為60%,提升度大于1。
Apriori分析的有效關(guān)聯(lián)規(guī)則共產(chǎn)生128條關(guān)聯(lián)規(guī)則,在此基礎(chǔ)上結(jié)合數(shù)據(jù)分析關(guān)注的實際問題進行進一步篩選,通過相關(guān)函數(shù)參數(shù)設(shè)置確定生成規(guī)則的前項為影響因素,規(guī)則后項為H1(干擾有效),最終獲取的關(guān)聯(lián)規(guī)則有9條,如表4所示。
表4 關(guān)聯(lián)規(guī)則表
針對以上形成的關(guān)聯(lián)規(guī)則進行卡方檢驗。以第一條關(guān)聯(lián)規(guī)則為例,對于B1和H1,值域均為{0,1},通過卡方檢驗進行兩個構(gòu)成比的比較。表5為用于卡方檢驗的獨立四格表。
表5 獨立四格表
參照2.3節(jié)公式,經(jīng)過計算得出χ2=129.17。查閱分布表可知顯著性水平0.001下χ2=10.828<129.17,因此判斷B1和H1是強相關(guān)的。通過模式評估對表4中的關(guān)聯(lián)規(guī)則逐一進行興趣度檢測篩選,最終得到的強關(guān)聯(lián)規(guī)則如表6所示。
表6 模式評估后的強關(guān)聯(lián)規(guī)則
對表6形成的四條關(guān)聯(lián)規(guī)則,結(jié)合裝備運用的實際情況進一步考察關(guān)聯(lián)規(guī)則的實用性,分析結(jié)論如下:
1)規(guī)則1表明該裝備系統(tǒng)運用效果受電磁環(huán)境復雜度的影響較大,因此強化裝備系統(tǒng)復雜電磁環(huán)境的適應(yīng)能力有利于裝備系統(tǒng)干擾效能的提升。
2)對于規(guī)則2,可以看出該裝備系統(tǒng)對超短波定頻信號的干擾效果好。結(jié)合實際情況分析可知:超短波屬于視距傳播,雖然傳輸質(zhì)量較短波穩(wěn)定,但由于短波使用的方向性天線以及配置地域廣等特性使其信號的截獲和干擾更加困難;同時與定頻通信相比,跳頻通信比較隱蔽也難以被截獲和干擾,因此相比較而言,對定頻信號的干擾效果較好。
3)從規(guī)則3和規(guī)則4,可以得到裝備系統(tǒng)針對不同通信信號調(diào)制樣式的最佳干擾樣式,這對裝備的使用也具備一定的參考價值。例如有75.8%的把握認為該裝備系統(tǒng)使用噪聲調(diào)頻對SSB調(diào)制樣式的信號干擾效果好,該關(guān)聯(lián)規(guī)則的適用性為33.3%。
從以上分析可以看出,裝備系統(tǒng)干擾效能受作戰(zhàn)環(huán)境、作戰(zhàn)對手通信狀況和對抗策略等多種因素的影響。通過挖掘出來的強關(guān)聯(lián)規(guī)則和結(jié)論分析,能夠反映出數(shù)據(jù)背后的潛在信息,為裝備系統(tǒng)運用、管理提供決策依據(jù),具有一定的指導意義。
本文基于數(shù)據(jù)挖掘技術(shù)對裝備數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘,并結(jié)合應(yīng)用案例進行實例分析,獲取了裝備使用過程中影響因素與裝備效能的關(guān)聯(lián)關(guān)系,所得結(jié)論能夠幫助決策者發(fā)現(xiàn)隱藏在數(shù)據(jù)中的規(guī)律,在裝備數(shù)據(jù)應(yīng)用上是一次有益的嘗試和探索。
需要指出的是,裝備(系統(tǒng))的運用是復雜的過程,受到諸多因素的影響和制約,因此基于全面豐富的裝備數(shù)據(jù)源才能挖掘出更為科學、合理的關(guān)聯(lián)規(guī)則;在使用關(guān)聯(lián)規(guī)則分析的應(yīng)用實踐中,獲取的關(guān)聯(lián)規(guī)則有些不能反映真實的有價值的信息,分析人員需要結(jié)合知識和經(jīng)驗進行判斷,從挖掘出的關(guān)聯(lián)規(guī)則中篩選出能夠反映真實情況的有價值的信息。