四川九洲電器集團有限責任公司 謝京華
針對運動目標數(shù)據(jù)挖掘過程中對目標的運動趨勢無法充分體現(xiàn)、關(guān)聯(lián)規(guī)則分析出現(xiàn)無效頻繁項集且效率較低的問題,提出一種基于運動目標的關(guān)聯(lián)規(guī)則分析新方法。該方法采用改進的FP_Growth算法同時對當前tn時刻的“靜態(tài)狀態(tài)”數(shù)據(jù)和tn-tn-1的“動態(tài)趨勢”數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析,可充分、高效、實用、可靠的實現(xiàn)針對運動目標的數(shù)據(jù)挖掘,獲取其目標屬性關(guān)聯(lián)知識,具有時間和空間利用效率更高、所挖掘的知識收斂有效、能充分體現(xiàn)動態(tài)趨勢等特點,對于提升與完善我國國防、民航和通用航空的監(jiān)視手段與策略具有重要的軍事和社會意義。
現(xiàn)代空域管理和監(jiān)視已經(jīng)是一種大范圍、快節(jié)奏的管理和監(jiān)視方式,包括海、陸、空、天多維度的多方平臺。隨著現(xiàn)代空域管理和監(jiān)視過程中傳感器種類的增加以及傳感器能力的提升,管理和監(jiān)視范圍進一步擴大,方式日趨復(fù)雜化,區(qū)域內(nèi)目標的數(shù)據(jù)量和種類也隨之劇增,由此給目標的識別帶來了極大的困難。因此,在復(fù)雜環(huán)境下針對不同飛行任務(wù)、不同目標,快速、準確地完成目標識別,是未來空域管理和監(jiān)視的先決條件和必要保障。
傳統(tǒng)的目標識別手段雖然能夠在一定程度上完成對目標類型、種類、屬性的判別,但手段較為單一,已無法適應(yīng)新的需求,其原因在于在未來空域管理和監(jiān)視過程中,各種傳感器獲取的目標特征信息量大、類型多樣、特征間關(guān)系錯綜復(fù)雜,并且特征具有不同的種類和表現(xiàn)形式。為充分利用目標的特征信息,目標識別將向綜合化方向發(fā)展。只有綜合分析目標的多源特征,提取或構(gòu)造出用于目標識別的穩(wěn)健特征信息,才能有效地實現(xiàn)目標屬性的多方識別,提高識別正確率。
基于上述分析,本文提出了一種基于運動目標的關(guān)聯(lián)規(guī)則分析新方法,綜合利用偵察情報、預(yù)警探測、二次監(jiān)視等情報部門采集和積累的非實時歷史數(shù)據(jù)和實時數(shù)據(jù),深入分析大數(shù)據(jù)下的目標特征規(guī)律,挖掘其可用于目標識別的關(guān)聯(lián)特征,豐富目標識別的先驗知識,提高目標識別的準確性和可靠性,為空域管理和監(jiān)視控制提供決策支持。
本文所述的基于運動目標的關(guān)聯(lián)規(guī)則分析新方法主要包括數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則分析與運動目標數(shù)據(jù)預(yù)處理分析方法。
首先,在關(guān)聯(lián)規(guī)則分析方面,目前最為著名的算法是Apriori算法和FP-Growth算法,此外還有DHP、STEM算法等。其中,Apriori算法采用了基于逐層搜索求解頻繁項集的迭代的方法,其過程簡單,且易于理解,沒有復(fù)雜的算法,實現(xiàn)起來也比較容易,但需要掃描數(shù)據(jù)庫多次且產(chǎn)生大量候選頻繁項集,實用性不夠高,效率很低;FP-Growth算法是一種不產(chǎn)生候選頻繁項的挖掘算法,其基本思想是將事務(wù)數(shù)據(jù)庫壓縮到一顆FP樹中,采用分而治之的思想,自底向上挖掘FP樹,最終輸出所有的頻繁項集,但該算法在遍歷FP-tree時需要消耗大量時間,且在支持度計算時需要完全遍歷,無法充分利用算法的中間結(jié)果,導(dǎo)致時間和空間效率略低。此外,Apriori算法和FPGrowth算法都存在有一個共性的問題,二者都認為頻繁項集的所有非空子集都必須也是頻繁的,但是這樣產(chǎn)生出的大量候選項集雖然都是頻繁的,但有一部分是原始數(shù)據(jù)源所不曾包含的,這在某些特定應(yīng)用環(huán)境下是不能夠被接受的。
第二,在關(guān)于運動目標數(shù)據(jù)挖掘方面,目前的處理方式幾乎都是基于當前tn時刻的“靜態(tài)狀態(tài)”數(shù)據(jù)進行挖掘,沒有考慮針對tn-tn-1的“動態(tài)趨勢”數(shù)據(jù)進行處理,因而挖掘結(jié)果缺乏對運動目標趨勢特性的體現(xiàn),也同時會導(dǎo)致一些有用知識的遺漏。
綜上,從現(xiàn)有技術(shù)的發(fā)展情況來看,本文旨在解決運動目標數(shù)據(jù)挖掘過程中對目標的運動趨勢無法充分體現(xiàn)、關(guān)聯(lián)規(guī)則分析出現(xiàn)無效頻繁項集且效率較低的問題,提出一種基于運動目標的關(guān)聯(lián)規(guī)則分析新方法。該方法采用改進的FP_Growth算法同時對當前tn時刻的“靜態(tài)狀態(tài)”數(shù)據(jù)和tn-tn-1的“動態(tài)趨勢”數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析,可充分、高效、實用、可靠的實現(xiàn)針對運動目標的數(shù)據(jù)挖掘,獲取其目標屬性關(guān)聯(lián)知識,具有時間和空間利用效率更高、所挖掘的知識收斂有效、能充分體現(xiàn)動態(tài)趨勢等特點,對于提升與完善我國國防、民航和通用航空的監(jiān)視手段與策略具有重要的軍事和社會意義,且通過在民用領(lǐng)域的擴展應(yīng)用,也將創(chuàng)造重要的經(jīng)濟價值。
圖1 基于運動目標的關(guān)聯(lián)規(guī)則分析總體實現(xiàn)框圖
本文所述的基于運動目標的關(guān)聯(lián)規(guī)則分析新方法其完整技術(shù)方案如圖1所示,具體描述如下:
首先,根據(jù)已有的數(shù)據(jù)源數(shù)據(jù)特征以及關(guān)于數(shù)據(jù)源的說明文檔,在關(guān)聯(lián)程序中構(gòu)建一個三維向量,從存儲空間中按數(shù)據(jù)源的說明文檔讀取待挖掘的數(shù)據(jù)源數(shù)據(jù)。然后就這些數(shù)據(jù)進行數(shù)據(jù)清理,包括消除空缺值和野值,然后采用卡爾曼濾波對數(shù)據(jù)進行去雜、去噪處理,并形成統(tǒng)一描述的包括時間維、目標維、特征維的三維向量。
第二,開展動態(tài)關(guān)聯(lián)工作,即采用抽取時間維對特征維和目標維進行數(shù)據(jù)挖掘,并在時間維上進行迭代的處理方法。具體描述如下:
(1)分別取tn時刻和tn+1時刻的兩組數(shù)據(jù),并就經(jīng)度、緯度、高度、距離、方位角、徑向速度、俯仰角等運動特征參量進行矢量相減,形成相應(yīng)的目標運動趨勢參數(shù),用“-1、0、1”進行表示,其中“-1”代表目標的該項特征參量向著相反的趨勢在運動,“0”代表目標的該項特征參量處于靜止狀態(tài),“1”代表目標的該項特征參量向著相同的趨勢在運動;而對目標屬性、機型、應(yīng)答信息、目標類型、雷達型號等固有特征參量進行對比分析,形成相應(yīng)的目標靜態(tài)屬性變化參數(shù),分別用“參量當前值、1”進行表示,其中“參量當前值”代表當時刻由tn到tn+1時刻時,目標的該項特征參量未發(fā)生變化,仍然保持一致,“1”代表當時刻由tn到tn+1時刻時,目標的該項特征參量發(fā)生了變化。
(2)將由上一步產(chǎn)生的tn+1時刻“減去”tn時刻的數(shù)據(jù)進行匯總整理,形成新的數(shù)據(jù)集。然后針對該數(shù)據(jù)集繼續(xù)進行預(yù)處理,剔除掉其中的冗余項,運行改進的FP_Growth算法,形成FP_tree,提取關(guān)聯(lián)規(guī)則,并作為中間結(jié)果暫存于緩存中。
(3)從t0時刻開始,將由上一步產(chǎn)生的tn+1時刻“減去”tn時刻的數(shù)據(jù)進行迭代,直至到tm時刻為止,充分挖掘從存儲空間中采出的數(shù)據(jù)源數(shù)據(jù)。每次迭代均按上一步的方式進行處理:分類重構(gòu)抽樣數(shù)據(jù)集、剔除相同的冗余特征參量、運行改進的FP_Growth算法、提取關(guān)聯(lián)規(guī)則,并將每次迭代所產(chǎn)生的關(guān)聯(lián)知識集進行存儲。
(4)對產(chǎn)生的所有關(guān)聯(lián)規(guī)則進行統(tǒng)計、歸類、合并,從而形成新的關(guān)聯(lián)知識。
第三,開展靜態(tài)關(guān)聯(lián)工作,即提取非運動特征數(shù)據(jù),形成新的三維向量,并對其進行關(guān)聯(lián)挖掘。具體如下:
(1)在新的三維向量下,提取tn時刻的數(shù)據(jù),直接對其進行運行改進的FP_Growth算法,形成FP_tree,提取關(guān)聯(lián)規(guī)則,并作為中間結(jié)果暫存于緩存中。
(2)從t0時刻開始,直至到tm時刻為止,利用改進的FP_Growth算法遍歷所有的時間片,并提取所有的關(guān)聯(lián)規(guī)則暫存于緩存中。
(3)對產(chǎn)生的所有關(guān)聯(lián)規(guī)則進行統(tǒng)計、歸類、合并,從而形成新的關(guān)聯(lián)知識。
第四,將動態(tài)關(guān)聯(lián)和靜態(tài)關(guān)聯(lián)所獲取到的關(guān)聯(lián)知識結(jié)合場景與其他挖掘手段獲取的知識共同完成融合與匹配,并交由綜合識別數(shù)據(jù)融合進行處理,從而給出關(guān)于目標屬性判別的輔助決策建議。
其中,本文所述的改進FP_Growth算法流程如圖2所示,具體描述如下:
第一,掃描事務(wù)數(shù)據(jù)庫一次,得到所有事務(wù)的總數(shù)(用于后續(xù)計算支持度)以及事務(wù)數(shù)據(jù)庫中所有單項,并按設(shè)定的最小重復(fù)次數(shù)min_d得到所有單項的降序序列D。
第二,把每條事務(wù)的項按降序序列D重排,并遍歷對比其余所有事務(wù),得到共根項計數(shù),形成邏輯FP_tree。
第三,依據(jù)D,采取分而治之的策略,得到D中以當前單項為尾的集合Vec,并遞歸產(chǎn)生該集合Vec的所有子集。
第四,對比Vec,剔除該子集內(nèi)不存在的子集,并只需在Vec內(nèi)計算每條子集的重復(fù)次數(shù),便可得到該子集的實際支持度。
第五,如果降序序列D遍歷未完成,則跳轉(zhuǎn)到第二條;如果完成,則形成事實上的FP_tree,輸出并結(jié)束。
圖2 改進的FP_growth算法流程
本文所述的基于運動目標的關(guān)聯(lián)規(guī)則分析新方法,具備以下特點:
(1)不僅充分采用當前tn時刻的“靜態(tài)狀態(tài)”數(shù)據(jù)進行挖掘,而且還創(chuàng)新型的利用tn-tn-1的“動態(tài)趨勢”數(shù)據(jù)進行挖掘,豐富了目標識別的特征知識,提升了識別準確率;
(2)在過程中預(yù)先剔除掉了原始數(shù)據(jù)源所不曾包含的頻繁項,并在過程中完成關(guān)聯(lián)知識的支持度計算,很好的提升了運算效率;
(3)更加高效的利用了空間和時間資源,完善了關(guān)聯(lián)規(guī)則分析的充分性,降低了時間資源占據(jù)和空間資源占據(jù),優(yōu)化了目標識別輔助決策的整體流程。
在應(yīng)用前景方面,本文所述方法已成功應(yīng)用于國防體系中對偵察情報、預(yù)警探測、二次監(jiān)視等部門采集和積累的非實時歷史數(shù)據(jù)和實時數(shù)據(jù)的挖掘,獲取豐富的目標識別先驗知識,提高目標識別的準確性和可靠性,為空域管理和監(jiān)視以及作戰(zhàn)指揮控制提供決策支持;同時,本文所述方法還可應(yīng)用于民航和通用航空領(lǐng)域,通過對運動目標的關(guān)聯(lián)規(guī)則分析,優(yōu)化空管系統(tǒng)地空監(jiān)視與場面監(jiān)視的手段與策略;此外,本文所述的改進FP_Growth算法可應(yīng)用于國民經(jīng)濟的各行各業(yè),通過挖掘,將有助于更加合理高效的制定計劃以及優(yōu)化決策。
結(jié)束語:本文從現(xiàn)有技術(shù)的發(fā)展情況進行分析,針對在運動目標數(shù)據(jù)挖掘過程中對目標的運動趨勢無法充分體現(xiàn)、關(guān)聯(lián)規(guī)則分析出現(xiàn)無效頻繁項集且效率較低的問題,提出一種基于運動目標的關(guān)聯(lián)規(guī)則分析新方法,詳細描述了其系統(tǒng)組成和工作流程,并分析了其特點和創(chuàng)新之處,最后就其應(yīng)用前景進行了分析,本文所述方法對于提升與完善我國國防、民航和通用航空的監(jiān)視手段與策略具有重要的軍事和社會意義,且通過在民用領(lǐng)域的擴展應(yīng)用,也將創(chuàng)造重要的經(jīng)濟價值。