于子川, 夏厚培
(中國船舶集團(tuán)有限公司第八研究院,南京 211000)
雷達(dá)輻射源識別是現(xiàn)代電子對抗中的重要一環(huán),雷達(dá)信號分選的任務(wù)就是從諸多交疊的脈沖流中分選出所需信號,而新體制雷達(dá)和新信號調(diào)制方式使電磁空間變得更加復(fù)雜多變,雷達(dá)脈沖數(shù)量也大大增加,這給傳統(tǒng)的雷達(dá)信號分選方法帶來了極大的挑戰(zhàn)[1]。
雷達(dá)信號分選處理的是以脈沖描述字(PDW)形式存在的脈沖流,PDW的主要參數(shù)一般有脈沖到達(dá)角(DOA)、載波頻率(RF)、脈寬(PW)、幅度(PA)、到達(dá)時間(TOA)。大致有預(yù)分選和主分選兩步:預(yù)分選主要是降低脈沖流密度,以便后續(xù)分選;主分選主要是利用前、后脈沖之間的脈沖重復(fù)間隔(PRI)來進(jìn)行分選。由于脈沖幅度參數(shù)存在很大的不穩(wěn)定性,多參數(shù)預(yù)分選主要利用DOA,RF,PW這3種參數(shù)[2]。
聚類分析是數(shù)據(jù)挖掘領(lǐng)域的熱門研究內(nèi)容,引入到雷達(dá)信號預(yù)分選中,可以提高分選效率與準(zhǔn)確率[3]。
在聚類分選中,分割聚類(如K-means算法等)得到了廣泛的應(yīng)用,但存在諸多缺點,如需要聚類數(shù)目的先驗知識、對初始聚類中心和噪聲點很敏感、難以解決非凸型簇等[4-6]。
2014年,RODRIGUEZ等[7]提出了密度峰值(Density peak,D-peak)聚類算法,該算法運用了層次聚類和密度聚類思想,能發(fā)現(xiàn)特殊形狀的簇,使用簡易快捷,參數(shù)簡單唯一。
本文將密度峰值聚類算法引入到雷達(dá)信號分選中并進(jìn)行改進(jìn):結(jié)合數(shù)據(jù)場理論中勢熵的概念對密度峰值聚類的參數(shù)dc進(jìn)行優(yōu)化選取,提高了算法的普適性;對局部密度和鄰近距離進(jìn)行歸一化處理后,使用新的參數(shù)對二者進(jìn)行統(tǒng)一,通過設(shè)計評價閾值函數(shù)自適應(yīng)選取聚類中心點;對原始算法的層次聚類合并準(zhǔn)則進(jìn)行了改進(jìn),在層次分配的基礎(chǔ)上借鑒密度聚類,在存在密度連接的情況下將數(shù)據(jù)點分類,改善了原算法中存在的連帶分配錯誤問題。
密度峰值聚類的基本思想是:當(dāng)一個點周圍的密度為最大,且距離其他密度較大的數(shù)據(jù)點較遠(yuǎn)時,其可以被選取為聚類中心點。該算法基于很直觀的假設(shè):聚類中心點本身的密度大,即被密度不超過它的鄰近點包圍;聚類中心點與比它局部密度更大的點之間的距離較遠(yuǎn)。
設(shè)數(shù)據(jù)集S={xi},i∈N,對于數(shù)據(jù)集中的任意點xi,D-peak算法用兩個量進(jìn)行度量:1) 數(shù)據(jù)點xi的局部密度ρi;2) 與比xi的密度更高的點的鄰近距離δi。
局部密度的計算對離散數(shù)據(jù)采取截斷核,對連續(xù)數(shù)據(jù)一般采取高斯核,使用高斯核時的定義為
(1)
式中:di j表示數(shù)據(jù)點xi與xj(j∈N),之間的某種距離;截斷距離dc>0,是局部密度計算中的重要參數(shù)。D-peak算法中,dc是根據(jù)經(jīng)驗確定的,要求數(shù)據(jù)點dc范圍內(nèi)的平均鄰近點數(shù)占總數(shù)據(jù)點的1%~2%。
鄰近距離δi的定義是數(shù)據(jù)點xi與比它的密度更大的點之間的最小距離,即
(2)
至此,對于每一個數(shù)據(jù)集S中的數(shù)據(jù),都可以得到二元對(ρi,δi),將其在平面中畫出即為決策圖。決策圖中ρ值和δ值都較大的點,可選取為聚類中心點;ρ值小而δ值大的點,很可能是離群點。
確定聚類中心點和聚類數(shù)目后,使用層次聚類的思想,根據(jù)局部密度ρ值的大小遍歷歸類。各簇聚類完成后,通過計算各簇的平均局部密度作為界限,來區(qū)分簇核心和簇邊緣。
然而,傳統(tǒng)的密度峰值算法存在很多缺點:重要參數(shù)截斷距離dc的確定依靠經(jīng)驗值,而聚類效果對dc很敏感;雖然通過決策圖清楚展現(xiàn)了數(shù)據(jù)點密度距離關(guān)系,但聚類中心和聚類數(shù)目還是靠人工選取,增大了算法的不穩(wěn)定性;此外,其分配、合并規(guī)則比較簡陋,可能出現(xiàn)分配錯誤的問題。
選取高斯核函數(shù)對局部密度進(jìn)行計算,截斷距離dc的影響很大。若dc的值過小,則幾乎所有點的局部密度近乎零;若dc過大,那么局部密度相當(dāng)于n個變化緩慢的基函數(shù)的疊加,都沒有區(qū)分效果。
在諸多學(xué)者研究的數(shù)據(jù)場聚類中[8-10],也采取高斯核函數(shù)來計算數(shù)據(jù)場勢函數(shù),二者形式上相似。對于系統(tǒng),其不確定性可以用熵來進(jìn)行度量[11]。自然,可以用熵來描述不同截斷距離對數(shù)據(jù)整體的局部密度情況造成的影響,進(jìn)而可以通過熵來優(yōu)化截斷距離,稱之為密度熵。
對于含n個數(shù)據(jù)點的數(shù)據(jù)集S,其密度熵的定義為
(3)
式中,Z是標(biāo)準(zhǔn)化因子。將式(1)代入式(3)中,得到密度熵關(guān)于截斷距離的一元函數(shù),通過優(yōu)化密度熵的最小值,得到所需要的最優(yōu)截斷距離。
使用二維決策圖判斷聚類中心存在主觀性,需要設(shè)計選取規(guī)則自動判斷聚類中心。局部密度和鄰近距離的數(shù)值差距過大,采取極差歸一化處理,即
(4)
對于決策函數(shù)的決策區(qū)域,需要進(jìn)行上限確定。切比雪夫不等式僅使用方差和均值,適應(yīng)任意完全分布。對于隨機(jī)變量X,已知數(shù)學(xué)期望E(X)=μ,方差D(X)=σ2,則下列不等式成立,即
(5)
由式(5)可知,可以在未知數(shù)據(jù)分布的情況下,設(shè)定一個閾值上限。對于密度峰值聚類的決策圖,聚類中心的局部密度呈現(xiàn)階躍式離散點,非中心則呈密集連接聚點。因此,聚類中心的確定可以利用切比雪夫確定閾值上限的特點。
王萬良等[12]改進(jìn)了基于切比雪夫不等式的閾值上限判斷,發(fā)現(xiàn)切比雪夫不等式對歸一化密度上限確定較為有效,而對歸一化距離的效果不是很好,因此,只設(shè)置歸一化局部密度的上限,即
(6)
經(jīng)過實驗調(diào)整的結(jié)果,ε取2效果較好。
而對于歸一化鄰近距離,很明顯的事實是,閾值下界必須大于其標(biāo)準(zhǔn)差,即
(7)
在聚類中心的選取中,如果只按照局部密度和鄰近距離進(jìn)行閾值線性判定,很容易多判或漏判。聚類中心點可能有以下多種情況:局部密度和鄰近距離都完全超過線性閾值;其中一個參數(shù)明顯超過線性閾值,而另一個在閾值附近;兩個都在閾值附近,但相較于大量非中心點呈明顯分離狀態(tài)。
設(shè)計新變量進(jìn)行閾值選取,即
(8)
顯然,γ值越大,越有可能是聚類中心。將γ進(jìn)行降序排列,以γ值為縱軸,序號為橫軸。可以發(fā)現(xiàn),從非聚類中心到聚類中心之間γ值有明顯躍升。且γ值的分布呈現(xiàn)冪次定律,即lgγ近似呈直線,其斜率依賴于數(shù)據(jù)維度,如圖1所示。
圖1 對數(shù)化γ值Fig.1 Logarithmic gamma
由此,綜合考慮局部密度閾值和鄰近距離閾值,可以設(shè)計決策函數(shù)規(guī)則為
γ=ρ*δ*≥(μ(ρ*)+εσ(δ*))σ(δ*)
(9)
對所有數(shù)據(jù)點進(jìn)行判斷,若數(shù)據(jù)點符合該規(guī)則,直接判定為聚類中心點,完成聚類中心點自動選取。
如果數(shù)據(jù)分布不均勻,存在某簇邊緣點與不同簇密度峰值點間距較近,而距相同簇內(nèi)的密度峰值點間距較遠(yuǎn)的情況,很容易造成分配錯誤[13]。為解決該問題,本文基于密度聚類改進(jìn)了分配規(guī)則。
首先,基于局部密度的定義引入鄰近度概念,以便更好地衡量兩個數(shù)據(jù)點的相似程度,其算式為
(10)
只有在3dc范圍內(nèi)的數(shù)據(jù)點才納入鄰近度的計算,是為了減少較遠(yuǎn)距離點的干擾,剔除無效鄰近關(guān)系。鄰近度的值是全局統(tǒng)一的,該點所在簇的數(shù)據(jù)點密集程度不會影響本身鄰近度的計算,而這無法準(zhǔn)確地描述數(shù)據(jù)間的鄰近關(guān)系。在距離相同的情況下,密集簇的數(shù)據(jù)鄰近程度應(yīng)該比稀疏簇低。由此,引入相對鄰近度概念,其算式為
(11)
在此基礎(chǔ)上,再定義互鄰近度為
Ai j=di-jdj-i
(12)
互鄰近度可以更好地反映不同簇內(nèi)數(shù)據(jù)之間的相似程度,根據(jù)互鄰近度來進(jìn)行數(shù)據(jù)分配。完成聚類中心選取后,將聚類中心點3dc內(nèi)的數(shù)據(jù)點分配給對應(yīng)的類中,然后對每個已分配點尋找其最高互鄰近度的未分配點,并將其分配到對應(yīng)的類中,不斷迭代;對互鄰近度為0的未分配數(shù)據(jù)點,則按照一般分配規(guī)則進(jìn)行分配。
算法流程如下:
1) 數(shù)據(jù)歸一化;
2) 計算數(shù)據(jù)的距離矩陣,根據(jù)式(3)的密度熵優(yōu)化截斷距離,然后根據(jù)式(1)、式(2)、式(4)計算局部密度ρi和鄰近距離δi;
3) 計算決策圖參考值γ,根據(jù)式(6)~(9)選取聚類中心點;
4) 根據(jù)式(10)~(12)計算互鄰近度;
5) 分配聚類中心點3dc內(nèi)的數(shù)據(jù)點;
6) 找到所有已分配點對應(yīng)的互鄰近度最高且不為0的未分配點,分配給相應(yīng)類,若為0,則不參與分配,不斷迭代至無對應(yīng)可分配點;
7) 對于剩余的未分配點,按照普通密度峰值算法分配規(guī)則分配。
為了驗證所改進(jìn)密度峰值聚類算法的有效性,進(jìn)行仿真實驗。實驗采用的4部雷達(dá)的具體參數(shù)見表1,同時模擬誤差并添加噪聲。
表1 4部雷達(dá)參數(shù)表Table 1 Parameters of four radars
對4部雷達(dá)信號和噪聲信號進(jìn)行標(biāo)準(zhǔn)歸一化處理,得到如圖2所示的混合數(shù)據(jù)三維屬性坐標(biāo)圖。
圖2 歸一化數(shù)據(jù)三維坐標(biāo)圖Fig.2 3D coordinate chart of normalized data
對歸一化數(shù)據(jù)計算局部密度、鄰近距離以及γ值,采取提出的聚類中心判斷標(biāo)準(zhǔn)進(jìn)行綜合判斷,在決策圖中選定聚類中心點(見圖3)。
圖3 決策圖中選定的聚類中心點Fig.3 Selected clustering centers in decision-making graph
選定聚類中心后,采取本文算法的分配規(guī)則得到最后的聚類結(jié)果(見圖4)。
圖4 最終聚類結(jié)果Fig.4 Final clustering results
從圖4的聚類結(jié)果圖中可以看到,本文算法面對交疊情況比較嚴(yán)重的待分選雷達(dá)信號,自動完成了聚類數(shù)目和中心點的準(zhǔn)確確定,較好地排除了噪聲孤立點,并最終達(dá)到了比較良好的聚類效果。同時可以發(fā)現(xiàn),分選結(jié)果中,信號參數(shù)交疊的部分容易出現(xiàn)分選錯誤。
定義分選正確率為成功分選的總脈沖數(shù)與總脈沖數(shù)之比并進(jìn)行仿真實驗,最終結(jié)果見表2。
表2 分選正確率Table 2 Sorting accuracy
將同樣的待分選雷達(dá)信號使用K-means聚類方法、DBSCAN聚類方法、普通D-peak算法以及本文算法進(jìn)行分選,結(jié)果見表3。
表3 本文算法與其他聚類算法比較Table 3 Comparison of proposed algorithm with other clustering algorithms %
支持向量機(jī)(SVM)方法也常用于雷達(dá)信號預(yù)分選中,同樣選取{RF,DOA,PW}三維特征,分別使用線性核和RBF核,與本文算法進(jìn)行比較,結(jié)果見表4。
通過表2和表3可以發(fā)現(xiàn):本文算法的分選正確率相較于以上3種聚類算法有了明顯的提升。由表4可知,相較于基于線性核和RBF核模型的SVM方法,本文算法的識別正確率較高。
表4 本文算法與SVM算法的正確率比較Table 4 Comparison of proposed algorithm with SVM algorithms %
本文將密度峰值聚類引入雷達(dá)信號分選過程,提出了密度熵聯(lián)合密度峰值聚類的信號分選方法。通過仿真實驗驗證,新方法有以下優(yōu)勢:無需人工提供先驗數(shù)目。并設(shè)置聚類中心點,改進(jìn)的分配規(guī)則降低了形狀不規(guī)則簇的錯誤分配概率,提高了識別正確率。對于參數(shù)變化范圍和形式復(fù)雜多樣的新體制雷達(dá),本文算法未必能很好地進(jìn)行識別,未來有必要進(jìn)一步尋找更適宜的聚類算法,以面對愈加復(fù)雜的雷達(dá)信號分選問題。