劉 虎,劉衛(wèi)東,楊 萍
(1.第二炮兵工程大學,西安 710025; 2.中國人民解放軍96265部隊,河南 450000)
?
一種基于裝備畫像的武器裝備數(shù)據(jù)化方法
劉虎1,2,劉衛(wèi)東1,楊萍1
(1.第二炮兵工程大學,西安710025; 2.中國人民解放軍96265部隊,河南450000)
摘要:為了克服裝備數(shù)據(jù)蕪雜性對數(shù)據(jù)挖掘應用的制約,基于特征工程理論,提出了一種基于裝備畫像的武器裝備數(shù)據(jù)化方法?;谔卣鞴こ讨械奶卣骱吞卣飨蛄康母拍?,給出了裝備標簽、元標簽、裝備畫像和視角的概念及其形式化描述;研究了裝備標簽的建模方法,對裝備標簽進行分類并分別研究了不同權值的確定方法,給出裝備標簽創(chuàng)建的一般性原則;分析了裝備畫像的優(yōu)勢和需要進一步解決的問題。
關鍵詞:數(shù)據(jù)挖掘;特征工程;裝備畫像;裝備標簽
Citation format:LIU Hu,LIU Wei-dong,YANG Ping.Method of Weapons and Equipment Data Based on Equipment Profile[J].Journal of Ordnance Equipment Engineering,2016(3):59-62.
數(shù)據(jù)挖掘技術在民用領域的長足發(fā)展給軍事研究人員帶來啟發(fā),利用數(shù)據(jù)支持裝備管理決策和指揮決策展現(xiàn)出更深的潛力,并成為近年來裝備管理研究領域的重要方向[1],隨著作戰(zhàn)數(shù)據(jù)工程的建設和完善,更是為基于數(shù)據(jù)挖掘的裝備決策支持從理論走向實踐提供了可能[2,3]。然而,現(xiàn)代化裝備的復雜性所帶來的數(shù)據(jù)蕪雜性也為挖掘和決策運用帶來諸多不便,主要研究體現(xiàn)在3個方面:一是如何有效地組織和規(guī)范化數(shù)據(jù),以方便數(shù)據(jù)挖掘算法的實施;二是如何有效地進行數(shù)據(jù)挖掘,以得到可用于實踐的知識;三是如何有效地展示數(shù)據(jù)挖掘結果,以保證挖掘結果能更好地指導實踐。
用戶畫像是近幾年在社交網(wǎng)絡中提到的重要概念[4-7],隨著互聯(lián)網(wǎng)數(shù)據(jù)積累,用戶畫像逐漸成熟,取得非常好的效果,是一種經(jīng)過實踐檢驗的重要技術。受到用戶畫像啟發(fā),基于特征工程理論,提出裝備畫像的概念,給出了裝備畫像、裝備標簽、元標簽和視角的形式化描述,對裝備畫像中裝備標簽的建模方法進行研究,最后展望了裝備畫像的應用和下一步需要解決的主要問題。
1特征工程概述
影響數(shù)據(jù)挖掘品質的一個因素是讓研究人員望洋興嘆的蕪雜大數(shù)據(jù)。怎樣對雜亂無章的數(shù)據(jù)進行整理,使其能夠更好地服務于數(shù)據(jù)挖掘,特征工程(Feature Engineering)的相關研究給人們提供了一個新的思路[8]。
在機器學習和模式識別領域,通常用特征向量來表征某個個體[9]。特征向量是個體在多個維度上的觀測,一般采用數(shù)值表示,對于某些非數(shù)值化的特征,通常需要采用一些技術手段將其轉化成數(shù)值特征,以方便計算機進行處理。本研究所涉及的文獻,通常對特征向量和特征不做區(qū)分,在本文中,特征指個體在單個維度上的觀測,特征向量指多個特征的有向集合。
在數(shù)據(jù)挖掘中,特征工程依據(jù)領域知識,將個體若干維度的數(shù)據(jù)轉化為特征向量,從而更好地將數(shù)據(jù)應用于關聯(lián)分析、分類、聚類和預測等數(shù)據(jù)挖掘技術。特征工程研究的內容通常分為特征獲取、特征選擇、特征創(chuàng)建、特征變換等。
2裝備畫像:裝備標簽的集合
在特征工程中,采用特征表示個體某個維度上的觀測,特征是一個數(shù)值,雖然有利于計算機進行處理,卻不能形象化地展示,為此,提出同時包含語義化特征和數(shù)值特征的裝備標簽的概念。
2.1裝備標簽
裝備標簽是一個同時包含裝備特定屬性和值的二元組,其形式化描述為:
Tag=〈Name,W〉
(1)
其中:Name表示屬性名稱;W表示權值,其類型和取值范圍和由屬性決定,并由下文提到的元標簽給予規(guī)定。比如,表示維修性的某個裝備標簽可以表示為〈維修性,2〉。
裝備標簽可以是對現(xiàn)實裝備多種屬性的抽象和聚合,也可以是對某種屬性的忠實描述。比如一個裝備標簽可以是〈可靠性,3〉,也可以是〈經(jīng)度,124.21〉。
裝備標簽與特征的不同之處在于裝備標簽同時給出了屬性,在Key-Value類型的數(shù)據(jù)庫[10]中,可以進行很好地存儲。為了更好地進行人機交互,將使用元標簽對屬性和值進行格式化。
2.2元標簽
元標簽主要描述了裝備標簽的權值類型、顯示方式等,可以理解為“標簽的標簽”,將其形式化描述為:
MetaTag=〈Name,ViewAngle,WeightType,DisplayMode〉
(2)
其中:Name為標簽的名稱,主要表示該元標簽所對應的裝備標簽;ViewAngle為標簽的視角,一個標簽可以對應多個視角;WeightType為標簽權值的數(shù)值類型,如布爾值、離散值、連續(xù)值等;DisplayMode為標簽的可視化顯示方式,根據(jù)標簽的意義不同,可以定義多種不同的表示方式,比如對于標簽〈維修性,1〉,可以顯示為“維修性等級:1”,“維修性非常好”,根據(jù)裝備標簽重要性不同,還可以定義標簽在可視化時顯示的尺寸。
裝備標簽只是裝備在單個維度上的觀測,為了便于在整體上對裝備進行描述和處理,進一步提出裝備畫像的概念。
2.3裝備畫像
裝備畫像是裝備標簽的集合,可以采用四元組來進行描述:
Profile=〈ID,Name,LableN,T〉
(3)
其中:ID表示裝備畫像的編號;Name表示裝備畫像的名稱;LabelN表示裝備標簽集合;T表示形成畫像的時間,根據(jù)畫像形成時間不同可以確定畫像的代數(shù),從而有利于進行裝備的趨勢分析。
裝備畫像可以容易地轉換為形象化文字描述,比如一個裝備畫像可以轉化為以下的文字描述:XX型坦克,作戰(zhàn)區(qū)域為西安,服役時間9年,射程15 km,累計訓練時間為2 736 h,可靠性等級為1級,可靠性很高,維修性等級為3級,維修性一般……。
2.4視角
為了更有針對性地對裝備進行分析,很多時候人們并不需要裝備的完整畫像,也就是說,只需要一部分裝備標簽就可以解決問題,這實際上是特征工程中特征選擇的問題,基于此,提出視角概念。
視角是裝備畫像中標簽集合的子集,依據(jù)標簽子集,可以達到解決某領域問題的目的,視角具有與裝備畫像相似的形式化描述:
ViewAngle=〈Name,LableM,T〉
(4)
其中M≤N。
3裝備標簽的數(shù)據(jù)建模方法
裝備標簽是裝備畫像中的一個重要概念,本節(jié)主要研究標簽權值的數(shù)值類型和不同標簽權值的確定方法,并提出標簽創(chuàng)建的一般性原則。
3.1標簽權值的數(shù)值類型
標簽的權值可分為布爾值、離散值、連續(xù)值和可枚舉值。
布爾值類型指非此即彼的數(shù)值,也稱為二值類型。比如一臺裝備不可能既具有動力系統(tǒng)又不具有動力系統(tǒng),通常用0表示否定,用1表示肯定。
離散值是指在取值上不連續(xù)的值,通常用來表達數(shù)量,比如裝備含有液壓元件的個數(shù)為5,其標簽形式可以表示為〈液壓元件,5〉。
連續(xù)值是指在取值上連續(xù)的值,比如武器裝備的射程、維修工時、服役時間等。
可枚舉值實際上是有限個離散取值,在裝備標簽中,主要是表示裝備的各類等級。比如一臺裝備的品質等級可分為新品,堪用品,待修和待報廢,可以分別使用1,2,3,4表示??擅杜e值能夠處理為布爾值。比如對于標簽〈品質等級,2〉,可以轉換為:〈新品,0〉,〈堪用品,0〉,〈待修,0〉,〈待報廢,0〉。
3.2標簽分類及權值的確定
根據(jù)裝備管理的實際,將裝備標簽分為屬性標簽、行為標簽和動態(tài)評價標簽,以下將介紹其含義及標簽權值的確定方法。
3.2.1屬性標簽
屬性標簽表示了裝備固有屬性。比如某個標簽可能是<液壓元件,20>,這個標簽表明了某臺裝備安裝有20個液壓元件。屬性標簽通常是裝備的一些靜態(tài)屬性,一般不隨時間的變化而變化,并且其取值通常也很容易得到。
3.2.2行為標簽
為了分析一臺裝備的維修情況,人們常常會問以下幾個問題:這臺裝備進行過多少次維修?基層級維修、返廠維修和社會化維修分別進行過多少次?最近經(jīng)常進行何種類型的維修?
首先,次數(shù)是分析維修情況的一個重要考慮因素,次數(shù)越多,表明影響越大(需求越高);其次,維修工時是衡量維修情況的另一個重要方面,比如一臺裝備只進行過一次長達半年返廠級維修,進行基層級維修的次數(shù)為10次,可每次只維修了一天,顯然返廠維修對裝備的影響比較大;最后,維修的時間也是一個重要的因素,比如某臺裝備一年前進行基層級維修的次數(shù)較多,而今年以來進行返廠維修的次數(shù)較多,顯然返廠維修對目前的裝備來說比較重要。
根據(jù)以上分析,行為類的標簽的權值按照(5)式進行確定:
(5)
式(5)作為一個基本公式可以得到大多數(shù)行為標簽的權值,區(qū)別只是隨著行為特征的不同,對ωi和ti進行不同的取值,比如裝備故障類標簽“啟動失敗”可能與持續(xù)時間并無關系,這時就可以將ti取為1。
3.2.3動態(tài)評價標簽
在對裝備的長期使用和管理中,人們已經(jīng)在很多維度展開了對裝備的評價。比如,使用可靠性度量裝備完成作戰(zhàn)任務的能力,使用維修性武器裝備發(fā)生故障后修復的難易程度,使用生存能力評價武器裝備在外部作用下保持執(zhí)行規(guī)定功能的能力,其他評價指標還有防護能力、偵察能力、抗干擾能力等。在傳統(tǒng)的方法中,這些指標通常通過機理性建模或者仿真模擬的方法得到。對于簡單的武器裝備,機理性建模是一種比較好的方法,對于復雜裝備由于影響因素的增加,給機理性建模帶來很大挑戰(zhàn)。仿真模擬的方法通常應于裝備系統(tǒng)或裝備體系,并且具有很高的時間復雜度。同時,機理性建模和仿真模擬的方法通常應用于裝備定型和驗證方面,也就是說,這兩種方法均很少考慮裝備隨著的使用而帶來的能力指標變化。但是,對于一臺裝備來講,其各方面的能力往往是隨時間變化的,比如過去一年的可靠性與今年的可靠性可能會有很大不同。為了表示裝備性能或能力的實時性度量,建立一種動態(tài)評價標簽。
動態(tài)評價標簽是為了表示對裝備某一方面能力或者性能的動態(tài)度量。動態(tài)評價標簽是對一臺裝備某方面能力的實時評價,直接關系到管理決策和指揮決策的制訂,是裝備標簽體系中一個很重要的方面。為了有利于下一步進行數(shù)據(jù)分析和挖掘,采用分級的方法對裝備的動態(tài)性能進行評價,動態(tài)評價標簽的權值可以采用枚舉值類型。
傳統(tǒng)的機理性建模和模擬仿真方法在動態(tài)評價標簽權值確定時存在局限性,接下來將以裝備動態(tài)維修性為例介紹一種利用數(shù)據(jù)挖掘中分類方法確定動態(tài)評價標簽權值的基本思路[11]:
步驟1:準備訓練數(shù)據(jù),包括特征提取和數(shù)據(jù)預處理。特征提取可以理解為提取與動態(tài)維修性相關的數(shù)據(jù),動態(tài)維修性與裝備的類型、元件類型和數(shù)量、工作時間等都有很大關系,在實際操作中,可以采用專家研討的方式對相關因素進行確定。數(shù)據(jù)預處理主要是進行數(shù)據(jù)抽取、清理和標準化。事實上,前期在確定屬性標簽和行為標簽的權值時,已經(jīng)進行了大量的預處理和標準化。
步驟2:選擇分類器。分類算法在數(shù)據(jù)挖掘領域中進行了廣泛的研究,像ID3算法、貝葉斯分類、遺傳分類算法、神經(jīng)網(wǎng)絡方法等在實際應用中都有非常穩(wěn)定的表現(xiàn)。
步驟3:訓練分類器。根據(jù)分類器的不同有不同的訓練方法,這里不再贅述。
步驟4:應用分類。這一步是將訓練好的分類器應用于新數(shù)據(jù),可以得到動態(tài)評價標簽的權值。
3.3裝備標簽創(chuàng)建的原則
裝備標簽是表示裝備某個維度上的特征,是形成裝備畫像的基礎,標簽創(chuàng)建的品質關系到裝備畫像能否準確地表示一臺裝備,因此,裝備標簽的創(chuàng)建非常重要,以下總結7條創(chuàng)建裝備標簽的原則:
1) 相關性。標簽之間具有相關性,并非完全孤立的。比如標簽“啟動失敗”與“修理一連”具有相關性,因為車輛爆胎后的承修單位是修理一連。
2) 多視角。標簽可對應一個或多個視角,比如維修性在日常管理中關系到維修資源的統(tǒng)籌,在任務規(guī)劃中關系到保障資源的運用,因此,其既對應管理決策視角,也對應作戰(zhàn)決策視角。
3) 定性定量相結合。定性體現(xiàn)在標簽的描述上,主要是為了展示;定量體現(xiàn)在標簽的權值上,目的是為了下一步進行數(shù)據(jù)挖掘。
4) 靈活性和自明性。自明性是指標簽的描述應達到無需進一步解釋的要求,保證快速進行決策。標簽的靈活性體現(xiàn)在標簽描述形式上的多樣化,比如一個標簽可以是“射程XXXkm”,也可以是“覆蓋A國全境”。靈活性是自明性的重要保證。
5) 客觀性。標簽不等同于指標,指標表達了人們對特定群體的一種期望,比如稱A型武器裝備的CEP為0.3m,“0.3”是在裝備研制過程中通過試驗確定的平均值,但是A型武器裝備的個體并不一定每臺都達到此要求,有的偏大一些,有的可能偏小一些。標簽對應指定的個體,更需要強調客觀性。
6) 時變性。時變性是客觀性的一個重要體現(xiàn),這個特性主要體現(xiàn)了裝備隨時間變化而變化,裝備的品質會下降,從而造成某些標簽的內容會產(chǎn)生變化,比如可靠性隨著時間的變化可能會降低。
7) 冗余性。為了更好地描述一臺裝備,應當允許適當?shù)娜哂?,比如在描述裝備位置的時候,既需要提供經(jīng)度、緯度、高程等以實現(xiàn)精確的表達,也應當標識地名等以實現(xiàn)直觀地顯示。
以上只是創(chuàng)建裝備標簽的一般性原則,在實際中,還要結合具體問題進行操作。
4裝備畫像的應用
裝備畫像是基于特征工程對裝備數(shù)據(jù)的進一步規(guī)范化和標準化的方法,由于植根于數(shù)據(jù)挖掘,因此可以應用于傳統(tǒng)的數(shù)據(jù)挖掘技術,并由于自身的特點,具備傳統(tǒng)基于數(shù)據(jù)挖掘的分析方法所不具有的優(yōu)勢,本節(jié)將對其基本應用進行描述
4.1裝備可視化
裝備畫像可以通過計算機視覺技術轉化為形象化的圖像,以某臺99G型坦克為例,其可視化圖形,如圖1所示。
圖1 裝備畫像的可視化
從圖1中可以看出,這是為一輛99G型坦克進行的畫像,從其中可以很容易地看出坦克的基本參數(shù)、維修、保障、執(zhí)行任務、動態(tài)能力水平等情況,該坦克服役7年間進行了4次實彈演習,發(fā)生過啟動不成功、輸油管堵塞和電路短路等故障,但是啟動不成功是經(jīng)常發(fā)生的故障,在維修方面,該裝備進行過基層級維修和社會化維修,還進行過大修,基層級維修和大修的比重比較高。
4.2數(shù)據(jù)分析
由于裝備畫像具有時間屬性和豐富的標簽,因此,可以在很多維度上進行數(shù)據(jù)分析。在時間維度上,可以調用此坦克以前的裝備畫像,畫出“啟動不成功”標簽權值的趨勢圖,研究是否可能是由于裝備老化或環(huán)境變化導致的問題;在同型號坦克的維度上,可以比較其他型號的坦克是否經(jīng)常出現(xiàn)這類故障,查找是否裝備所在單位存在管理上的問題;在生產(chǎn)廠家維度上,可以觀察“中國北方工業(yè)公司”出產(chǎn)的同類裝備是否也經(jīng)常出現(xiàn)“啟動不成功”的故障,從而為采購做決策。
4.3預測
預測是裝備畫像比較高級的應用。預測在裝備畫像的應用可以分為兩類:一是服務于裝備畫像自身,主要是進行標簽的構建和更新,比如一些動態(tài)評價標簽的權值可以通過預測的方法得到;二是服務于裝備管理實際,一個典型應用是通過裝備歷史上的訓練、維修、故障、保障等情況,推測裝備未來的保障需求。
5需要研究的主要問題
5.1裝備畫像管理體系構建
裝備畫像是裝備標簽的集合,而裝備標簽本質上是數(shù)據(jù),怎樣對裝備畫像進行管理和規(guī)范是裝備畫像走向實際應用過程中需要解決的重要課題。本研究提出元標簽的概念,實際上可以認為是裝備畫像與裝備倉庫之間實現(xiàn)數(shù)據(jù)交流的接口,也是構建裝備管理體系的基礎。
5.2視角的建模方法
本研究提出了視角的概念,但是并未對視角的建模方法進行介紹。事實上,從特征工程的角度來看,視角的建模是特征選擇的過程。特征選擇是特征工程所需要研究的一大類重要問題,基于特征選擇的視角建模方法,是本文下一步研究的重要方向。
5.3裝備群體畫像
裝備畫像是針對單臺件裝備進行的建模,在應用實際中,決策人員很多時候對裝備系統(tǒng)更感興趣,這是因為隨著信息化水平的提高,裝備之間的耦合性增加,裝備系統(tǒng)往往會產(chǎn)生單臺件裝備無法體現(xiàn)的特征,針對整體裝備系統(tǒng)進行畫像也就具有更深遠的意義。
6結束語
本研究基于特征工程研究了裝備畫像方法,提出有關的概念并重點對裝備標簽的構建方法進行了研究,展望了裝備畫像的應用前景,并指出了下一步需要研究的主要問題。裝備畫像是數(shù)據(jù)挖掘在裝備管理領域的典型應用,同時該技術也能夠有效解決數(shù)據(jù)蕪雜性的問題,是在裝備管理領域應用數(shù)據(jù)挖掘技術的重要抓手。通過進一步研究和完善,必將更好地為裝備管理決策服務。
參考文獻:
[1]代東升,賈迪陽,謝峰.面向裝備保障的數(shù)據(jù)體系分析研究[J].四川兵工學報,2015(6):58-60.
[2]王向博,賈紅麗,劉鋼,等.基于數(shù)據(jù)挖掘的復雜裝備維修輔助決策研究[J].計算機與數(shù)字工程,2012,40(8):142-145.
[3]林平,劉永輝,陳大勇.軍事數(shù)據(jù)工程基本問題分析[J].軍事運籌與系統(tǒng)工程,2012,26(1):14-17.
[4]BENKHELIFA E,WELSH T,TAWALBEH L,et al.Creating evolving user behavior profiles automatically[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(5):854-867.
[5]余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)建模[J].設計藝術研究,2014,4(6):60-64.
[6]BENKHELIFA E,WELSH T,TAWALBEH L,et al.User profiling for energy optimisation in mobile cloud computing[J].Procedia Computer Science,2015,52:1159-1165.
[7]DAM J W,VELDEN M.Online profiling and clustering of Facebook users[J].Decision Support Systems,2015,70:60-72.
[8]李林,吳躍,葉茂.基于概率圖模型的圖像整體場景理解特征工程綜述[J].計算機應用研究,2015,32(12):3542-3550.
[9]張學工.模式識別[M].北京:清華大學出版社,2010.
[10]申德榮,于戈,王習特,等.支持大數(shù)據(jù)管理的NoSQL系統(tǒng)研究綜述[J].軟件學報,2013,24(8):1786-1803.
[11]朱明.數(shù)據(jù)挖掘導論[M].合肥:中國科學技術大學出版社,2012.
(責任編輯唐定國)
Method of Weapons and Equipment Data Based on Equipment Profile
LIU Hu1, 2,LIU Wei-dong1,YANG Ping1
(1.The Second Artillery Engineering University, Xi’an 710025, China;2.The No. 96265thTroop of PLA, Henan 450000, China)
Abstract:In order to solve the problem that miscellaneous equipment data restricts the application of data mining, a method of weapons and equipment data based on the theory of feature engineering was presented. Based on the concept of feature and feature vectors, the concept and formal description of equipment tag, meta-tag, equipment profile and angle were given. The method of modeling equipment tag was studied, which includes classification of equipment tag, the technique of determining different weight of equipment tag and the general principle of equipment tag creating. The advantage of equipment profile and some future directions were summarized.
Key words:data mining; feature engineering; equipment profile; equipment tag
文章編號:1006-0707(2016)03-0059-05
中圖分類號:TP311.5
文獻標識碼:A
doi:10.11809/scbgxb2016.03.015
作者簡介:劉虎(1986—),男,碩士研究生,主要從事軍事決策支持、數(shù)據(jù)挖掘研究。
基金項目:軍事學研究生資助課題
收稿日期:2015-08-10;修回日期:2015-08-30
本文引用格式:劉虎,劉衛(wèi)東,楊萍.一種基于裝備畫像的武器裝備數(shù)據(jù)化方法[J].兵器裝備工程學報,2016(3):59-62.
【后勤保障與裝備管理】