(1.四川大學(xué)電子信息學(xué)院, 四川成都 610064; 2.中國人民解放軍77618部隊(duì), 西藏拉薩 850000)
雷達(dá)信號分選是指將接收機(jī)接收到的各種雷達(dá)信號采取適當(dāng)?shù)姆诌x辦法,按照不同輻射源一一區(qū)分開來的過程。傳統(tǒng)的雷達(dá)信號分選方法是對脈沖參數(shù)進(jìn)行預(yù)處理,然后根據(jù)脈沖間隔PRI的交錯進(jìn)行主處理,從而實(shí)現(xiàn)信號分選。然而,隨著信息化裝備平臺的廣泛運(yùn)用,戰(zhàn)場電磁環(huán)境日趨復(fù)雜化,傳統(tǒng)的信號分選方法已不再適用于現(xiàn)有信號分選工作。
聚類分析是利用未知數(shù)據(jù)對象之間的關(guān)系,將數(shù)據(jù)性質(zhì)相似的聚集成一類的分類行為,是數(shù)據(jù)挖掘的重要方法之一[1]。在探索新的雷達(dá)輻射源信號分選算法過程中,許多學(xué)者提出將聚類分析應(yīng)用于雷達(dá)信號分選,如傳統(tǒng)聚類算法的基于迭代自組織數(shù)據(jù)分析聚類[2]、仿生優(yōu)化算法中的人工魚群聚類算法[3]、群智能算法的粒子群優(yōu)化算法[4]等都能夠很好實(shí)現(xiàn)未知雷達(dá)輻射源信號的聚類分選。
本文則是首先介紹國內(nèi)學(xué)者對傳統(tǒng)的聚類算法及其改進(jìn)算法在雷達(dá)輻射源信號分選中的應(yīng)用和理論研究成果,再歸納總結(jié)提出了選擇最優(yōu)聚類分選算法的參考標(biāo)準(zhǔn)和意見。
聚類分選因?qū)ο闰?yàn)知識要求小、大數(shù)據(jù)處理能力較強(qiáng)且具有無監(jiān)督的分類的優(yōu)勢而被應(yīng)用到雷達(dá)輻射源信號分選。傳統(tǒng)的聚類分選可大致分為劃分、層次、網(wǎng)格、密度、模型、圖論六類算法,其中前四類算法及其組合常應(yīng)用于雷達(dá)輻射源信號分選。
劃分法是對給定的脈沖數(shù)據(jù)集N,先基本劃分為K(K≤N)類,然后通過迭代重定位技術(shù)重新劃分,直到找到局部最優(yōu)的聚類方法。劃分聚類算法里最具有代表性的是K-Means算法和FCM算法,其中FCM算法本質(zhì)上是對K-Means算法的改進(jìn),所以本文以K-Means算法為例介紹其算法流程,如圖1所示。
圖1 K-Means聚類法流程圖
1.1.1 基于K-Means算法的雷達(dá)信號分選
1967年,Mac Queen首次提出了K-Means聚類算法,這是一種非監(jiān)督實(shí)時聚類算法,具有快速收斂、分類迅速、計(jì)算簡單等優(yōu)點(diǎn)[5],但是該算法因需要人為設(shè)定聚類數(shù)、對異常數(shù)據(jù)敏感、易陷入局部最優(yōu)解等缺點(diǎn)而不能直接應(yīng)用于未知雷達(dá)輻射源信號的分選。因此,為了達(dá)到未知信號聚類分選的目的,部分學(xué)者針對其缺點(diǎn)提出了一些基于K-Means聚類算法的改進(jìn)算法。
針對需要人為設(shè)定聚類數(shù)和類中心的缺點(diǎn),文獻(xiàn)[6]采用加權(quán)毆氏距離和距離閾值、文獻(xiàn)[7-8]利用數(shù)據(jù)場理論、文獻(xiàn)[9]引入蟻群算法、文獻(xiàn)[10]采用基因表達(dá)式編程、文獻(xiàn)[11]采用SVC算法的方式都能夠很好地自動完成簇?cái)?shù)和類中心的選取,然后再利用K-Means算法均很好地實(shí)現(xiàn)了未知雷達(dá)輻射源信號的分選,但不可避免地都帶來了計(jì)算時間較長、相關(guān)參數(shù)設(shè)置較難的問題,有待進(jìn)一步解決。另外,針對該算法在分選雷達(dá)輻射源信號時存在的其他缺點(diǎn),文獻(xiàn)[8]采用灰關(guān)聯(lián)度代替歐式距離,提高數(shù)據(jù)之間相似性的判斷;文獻(xiàn)[12-13]分別使用人工蜂群算法和免疫規(guī)劃算法與K-Means算法相結(jié)合,有效避免了陷入局部最優(yōu)解的同時也降低了對初始聚類中心的依賴性;文獻(xiàn)[14]提出的改進(jìn)K-Means算法能夠有效克服孤立點(diǎn)對聚類的影響同時有效提高分類效率。
在研究雷達(dá)輻射源信號聚類分選時,K-Means算法的改進(jìn)算法理論研究成果相對較為成熟,且都具有一定工程應(yīng)用價值。
1.1.2 基于FCM算法的雷達(dá)信號分選
模糊C均值聚類(Fuzzy C-Means,F(xiàn)CM)算法是由Bezkek于1974年提出,并經(jīng)Baraldi改進(jìn)推廣[15]。FCM算法和K-Means算法一樣,也存在著需要預(yù)先人為設(shè)定聚類數(shù)目、易陷入局部最小等問題,不能夠直接應(yīng)用于未知雷達(dá)輻射源信號的分選。因此,為了完成對雷達(dá)輻射源信號的聚類分選工作,需在該算法的基礎(chǔ)上加入其他技術(shù)綜合使用或者對算法加以改進(jìn)。
文獻(xiàn)[16-17]采用Chriplet時頻原子與入侵雜草智能算法相結(jié)合的分配技術(shù)、文獻(xiàn)[18]利用粒子群優(yōu)化算法的全局優(yōu)化能力、文獻(xiàn)[19]介紹了核函數(shù)思想并采用人工魚群算法和文獻(xiàn)[20]利用數(shù)據(jù)場理論并聯(lián)合云模型都能有效解決聚類中心自動選取的問題,通過FCM算法均能夠很好實(shí)現(xiàn)雷達(dá)信號的聚類。這些改進(jìn)算法減少了人為因素對分選時的干擾,分選正確率有所提高,但計(jì)算時間相對有所延長,分選效率有待提高。而文獻(xiàn)[21]則引入誘導(dǎo)矩陣,采用自適應(yīng)距離準(zhǔn)則,利用拉格朗日乘法優(yōu)化目標(biāo)函數(shù),在FCM算法的基礎(chǔ)上提出了G-K聚類算法,具有更高的分選正確率,但是由于聚類數(shù)目仍需人為設(shè)定,可用范圍有限。
基于FCM算法的改進(jìn)算法屬于模糊聚類,先驗(yàn)知識需求較少,同時具有較強(qiáng)抗干擾能力,在一定程度上解決了雷達(dá)信號分選的問題,實(shí)用性較K-Means算法有一定提高。
層次法是在給定的數(shù)據(jù)集N中,判斷數(shù)據(jù)點(diǎn)之間的距離值d是否小于給定的距離閾值以確定是否屬于同一類的方法。算法初始閾值設(shè)置為0,所有數(shù)據(jù)各為一類,分類完畢以后給閾值一定增量Δ,再次完成數(shù)據(jù)分類,通過計(jì)算每次分類的評價指標(biāo)Q來找到最優(yōu)分類,實(shí)現(xiàn)數(shù)據(jù)自動聚類,其中Δ和Q的設(shè)置可以參考文獻(xiàn)[22],算法流程如圖2所示。
圖2 層次聚類法流程圖
該算法可有效處理任意形狀數(shù)據(jù)集,不依賴相似度,可以靈活應(yīng)對各種聚類粒度的數(shù)據(jù),但是在復(fù)雜情況下相關(guān)參數(shù)設(shè)置困難,運(yùn)算量大,且不能實(shí)現(xiàn)增量式聚類。
在研究雷達(dá)輻射源信號聚類分選時,國內(nèi)學(xué)者對層次聚類算法的應(yīng)用還相對較少。文獻(xiàn)[22]提出的層次聚類方法實(shí)現(xiàn)未知雷達(dá)輻射源信號的分選,根據(jù)實(shí)驗(yàn)仿真結(jié)果可知僅對參數(shù)固定和參差變化雷達(dá)具有良好分選效果,使用范圍有限;文獻(xiàn)[23-24]是考慮復(fù)雜電磁環(huán)境條件下,提出了利用數(shù)據(jù)場理論的層次聚類方法,有效解決了信號分選“增批”的現(xiàn)象,優(yōu)化了分選參數(shù)選擇;文獻(xiàn)[25]則在脈內(nèi)細(xì)微特征運(yùn)用的基礎(chǔ)上,將灰關(guān)聯(lián)分析運(yùn)用到分裂式層次聚類算法進(jìn)行雷達(dá)信號聚類分選,該方法有較高的分選效率和正確率。
1.3.1 網(wǎng)格聚類法
網(wǎng)格聚類法[26]是將歸一化后的樣本數(shù)據(jù)集N映射到劃分好的K個網(wǎng)格單元,通過分析網(wǎng)格之間的密度閾值MinPts與給定的閾值ε的關(guān)系,去除低密度網(wǎng)格,連通相鄰的高密度網(wǎng)格,從而實(shí)現(xiàn)數(shù)據(jù)聚類的算法,其流程大致如圖3所示。
圖3 網(wǎng)格聚類法流程圖
該算法能夠識別任意形狀的簇,有效消除干擾數(shù)據(jù)的影響,且運(yùn)算速度快、正確率高。但是,人為設(shè)定網(wǎng)格大小和密度閾值也限制了分選的精確度,在未知雷達(dá)輻射源信號分選時,易出現(xiàn)“漏批”的情況,針對此情況,文獻(xiàn)[27-29]提出了多種動態(tài)生成網(wǎng)格、自動生成密度閾值、優(yōu)化網(wǎng)格邊界的改進(jìn)算法,有效解決了雷達(dá)輻射源信號分選時人為干擾因素的影響,分選正確率高、速度快,適合大規(guī)模數(shù)據(jù)的分選。此外,文獻(xiàn)[30]在原有網(wǎng)格聚類的基礎(chǔ)上提出了雙密度閾值策略,利用邊緣稀疏網(wǎng)格優(yōu)化方法,提高了雷達(dá)輻射源信號聚類精度及其抗干擾能力;文獻(xiàn)[31]采用表征信號的脈內(nèi)特征相像系數(shù)與網(wǎng)格聚類法相結(jié)合的方法,能夠?qū)?shù)交疊嚴(yán)重的雷達(dá)脈沖信號進(jìn)行有效分類,并且滿足工程實(shí)施的要求。
1.3.2 密度聚類法
密度聚類法是以數(shù)據(jù)集在空間分布上的稠密程度為依據(jù)而進(jìn)行的聚類[32],該算法不需要預(yù)先設(shè)定簇的數(shù)量,先驗(yàn)知識的需求較少。學(xué)者在研究雷達(dá)輻射源信號聚類分選時,多以DBSCAN聚類算法[33]為基礎(chǔ),其流程如圖4所示。
圖4 DBSCAN聚類算法流程圖
DBSCAN聚類算法在處理分布不均勻的雷達(dá)信號時,易出現(xiàn)“漏批”情況,文獻(xiàn)[34-35]均針對這個問題提出了理論上可解決的方法。其中,文獻(xiàn)[34]采用的自適應(yīng)密度閾值的方法,文獻(xiàn)[35]則是采用近類點(diǎn)和模糊點(diǎn)的改進(jìn)算法,均能很好實(shí)現(xiàn)雷達(dá)信號的聚類,并對噪聲不敏感,不過,密度閾值和最佳鄰域半徑的自動設(shè)定是該算法急需解決的實(shí)際問題。此外,該算法在實(shí)現(xiàn)大數(shù)據(jù)聚類分選時,計(jì)算量較大、難以實(shí)時分選,文獻(xiàn)[36]提出用一定量的參考點(diǎn)代表一定領(lǐng)域范圍內(nèi)的數(shù)據(jù)點(diǎn),建立兩種之間關(guān)系,利用廣度優(yōu)先搜索算法完成信號聚類的改進(jìn)算法,一定程度上減少計(jì)算量、縮短計(jì)算時間,同時保證較高的分選正確率。
鑒于密度聚類能夠有效識別任意形狀的聚類和噪聲信號以及網(wǎng)格聚類的分選速度快、伸縮性好的優(yōu)點(diǎn)[30],部分學(xué)者在研究雷達(dá)輻射源信號分選時,提出了將兩者結(jié)合起來使用的觀點(diǎn)并作了一定推廣運(yùn)用。例如,文獻(xiàn)[37]運(yùn)用的改進(jìn)的網(wǎng)格密度聚類方法,高效、快速地實(shí)現(xiàn)了未知雷達(dá)輻射源信號分選工作;文獻(xiàn)[26]分別提出了固定網(wǎng)格密度聚類法、動態(tài)網(wǎng)格密度聚類算法及其改進(jìn)算法來應(yīng)用于雷達(dá)輻射源信號分選,而其中改進(jìn)的動態(tài)網(wǎng)格密度聚類算法對先驗(yàn)知識要求低,識別信號能力強(qiáng),聚類精度高、速度快,適用范圍較廣;文獻(xiàn)[38]則運(yùn)用了自適應(yīng)網(wǎng)格密度聚類來實(shí)現(xiàn)雷達(dá)輻射源信號的聚類分選,能夠有效處理大規(guī)模雷達(dá)信號數(shù)據(jù)集,且有良好的抗噪聲性能;文獻(xiàn)[39-40]則是在基于網(wǎng)格密度聚類的思想基礎(chǔ)上,分別采用了滑動窗口機(jī)制和動態(tài)網(wǎng)格生成技術(shù),并利用雙密度閾值提高精度,有效實(shí)現(xiàn)了雷達(dá)輻射源信號的動態(tài)聚類分選。
網(wǎng)格密度法由于其聚類本質(zhì)是密度閾值的判定,因此如何利用信號數(shù)據(jù)本身實(shí)現(xiàn)密度閾值的自動提取還值得深入探究。
對上述應(yīng)用于未知雷達(dá)輻射源信號分選的傳統(tǒng)聚類算法分析后,可得結(jié)論如表1所示。
表1 傳統(tǒng)聚類算法分析
現(xiàn)代戰(zhàn)場環(huán)境中,雷達(dá)信號愈發(fā)密集,信號之間交疊愈發(fā)嚴(yán)重,實(shí)現(xiàn)雷達(dá)信號聚類分選時的特征參數(shù)選擇至關(guān)重要,這將直接影響分選的有效性[41]。另外,在選擇合適的聚類算法時,為了提高分選的效率和質(zhì)量,充分考慮分選影響因素能夠有效避免在計(jì)算時浪費(fèi)資源、增加計(jì)算難度等問題。
常見的雷達(dá)信號參數(shù)主要包括脈沖間特征參數(shù)、脈內(nèi)特征參數(shù)以及極化特性等。
2.1.1 脈沖間特征參數(shù)
雷達(dá)信號脈沖間特征參數(shù)包括瞬時參數(shù)和二次測量參數(shù),其中,瞬時參數(shù)主要是脈沖描述符PDW(到達(dá)方向DOA、到達(dá)時間TOA、載頻RF、幅度PA、脈寬PW),二次測量參數(shù)則有脈沖重復(fù)間隔PRI、天線掃描周期ASP等[42]。其中,PA在測量時因受外界因素影響非常大,往往不作為聚類分選參數(shù)考慮。
實(shí)施崗位管理包括進(jìn)行系統(tǒng)的崗位調(diào)查、崗位信息的采集、崗位分析等。醫(yī)院人事處處長王慧卿介紹,北醫(yī)三院聯(lián)合中國人民大學(xué)勞動人事學(xué)院于2013年5月至2014年9月啟動全院員工崗位分析項(xiàng)目,通過訪談法、問卷調(diào)查法、資料回顧法等對全院93個科室進(jìn)行崗位分析,完成“部門職責(zé)說明書、核心崗位架構(gòu)圖、核心崗位說明書”的編寫,形成了醫(yī)院人力資源管理的基礎(chǔ)性文件和可持續(xù)應(yīng)用工具。在崗位說明書中,結(jié)構(gòu)化定義了崗位的基本信息、工作描述、在組織中的位置等要素內(nèi)容。
2.1.2 脈內(nèi)特征參數(shù)
脈內(nèi)調(diào)制參數(shù)主要包括脈內(nèi)有意調(diào)制和脈內(nèi)無意調(diào)制兩類[43]。脈內(nèi)有意調(diào)制是為了提高雷達(dá)檢測性能和抗干擾能力而采取的特定調(diào)制樣式,主要包括相位調(diào)制、頻率調(diào)制、幅度調(diào)制以及3種調(diào)制的組合調(diào)制方式等;脈內(nèi)無意調(diào)制又稱為指紋特征[44],具有唯一性、可測量性、普遍性、穩(wěn)定性等特點(diǎn),主要包括了頻率穩(wěn)定度、高階譜分析、信號包絡(luò)等特征參數(shù)。
2.1.3 極化特性
雷達(dá)常用的極化方式[45]主要包括4種形式,分別是垂直極化、水平極化以及左、右旋圓極化,但是雷達(dá)后向散射波是橢圓極化。極化特性不會隨著信號的頻率、幅度、相位、波形等變化而發(fā)生變化[43],只與輻射源天線有關(guān),因此能夠在一定程度上反映雷達(dá)輻射源的類別和屬性。
2.2.1 數(shù)據(jù)量規(guī)模
現(xiàn)代戰(zhàn)場是一個信息化、電子化、數(shù)字化的戰(zhàn)場,各種電子信號變化多端、充斥其間,電磁脈沖數(shù)量早已達(dá)到百萬級每秒甚至更高。未知雷達(dá)輻射源信號分選直接關(guān)系著決策者的決議,所以在選擇聚類算法時必須考慮其伸縮性,不僅對小規(guī)模數(shù)據(jù)能夠?qū)崿F(xiàn)實(shí)時、高效的分選,對于大規(guī)模數(shù)據(jù)也能有良好的分選效果。
2.2.2 數(shù)據(jù)簇形狀
現(xiàn)代戰(zhàn)場是海陸空天多維戰(zhàn)場,雷達(dá)數(shù)據(jù)參數(shù)實(shí)時多變,數(shù)據(jù)場景并不是常見的球形簇或者凸形簇,這也導(dǎo)致部分聚類算法不能實(shí)現(xiàn)有效分選。所以在選擇聚類算法時,為了保證分選的準(zhǔn)確性,建議選擇能夠發(fā)現(xiàn)任意形狀簇的聚類算法[46]。
2.2.3 異常數(shù)據(jù)處理
雷達(dá)接收機(jī)在接收信號時,除了雷達(dá)輻射源的信號以外,還包括雜波、噪聲等干擾信號,另外接收機(jī)自身在處理信號時也會產(chǎn)生噪聲。在實(shí)現(xiàn)信號聚類之前,接收機(jī)需對信號的相關(guān)特征參數(shù)進(jìn)行測量,其中的噪聲信號和錯誤數(shù)據(jù)易導(dǎo)致異常數(shù)據(jù)點(diǎn)或孤立點(diǎn)的出現(xiàn),因此,在選擇聚類算法時必須考慮該算法對異常數(shù)據(jù)的處理能力,盡量選擇對異常數(shù)據(jù)不敏感的聚類算法[46]。
2.2.4 相似度測量
在部分聚類算法中,選擇一個合適的相似度測量方法能夠直接影響聚類效果的質(zhì)量。而在研究未知雷達(dá)信號聚類時,常見的相似度測量方法有歐式距離、Minkowsky距離[47]、海明距離[48]、灰關(guān)聯(lián)度[8,25]以及相像系數(shù)[49-51]等。每種測量方法在計(jì)算相似度值都預(yù)先設(shè)置適當(dāng)?shù)臋?quán)重參數(shù),以便提高簇質(zhì)量。
2.2.5 其他因素
其他因素包括多維數(shù)據(jù)處理能力和數(shù)據(jù)輸入順序。目前常用的雷達(dá)信號聚類算法都是基于兩維或三維的數(shù)據(jù),對高維數(shù)據(jù)處理要求相對較低。另外,部分聚類算法對數(shù)據(jù)輸入順序有要求,這并不滿足在戰(zhàn)場上對雷達(dá)信號實(shí)時聚類的要求。
在實(shí)現(xiàn)雷達(dá)信號聚類分選時,單個傳統(tǒng)聚類分選算法基本上是無法有效完成分選任務(wù),如K-Means聚類算法不能發(fā)現(xiàn)非凸面形狀的簇[52],DBSCAN聚類算法不能分選密度不均勻的數(shù)據(jù)簇。所以,在選擇聚類算法時,首先考慮接收數(shù)據(jù)集的特征參數(shù)選擇,選擇代表性強(qiáng)的特征參數(shù)能夠?yàn)楹竺嫠惴ㄓ?jì)算減輕壓力、提高效率;其次是綜合考慮上述的外在影響因素,減小分選時“增批”“漏批”的可能性,提高分選的正確率、實(shí)時性;最后是在傳統(tǒng)的聚類分選算法上,引入恰當(dāng)?shù)闹悄芩惴?,形成智能聚類分析,可以有效解決對先驗(yàn)知識的依賴性的問題,減少人為因素的干擾。
此外,除了運(yùn)用傳統(tǒng)的聚類算法及其改進(jìn)算法對未知雷達(dá)輻射源信號進(jìn)行聚類分選,單獨(dú)基于支持向量聚類[11,53-59]、數(shù)據(jù)場聚類[60-62]、BFSN聚類[63-66]、集對分析聚類[67-68]、神經(jīng)網(wǎng)絡(luò)聚類[69-72]和模糊聚類[73-78]等方法也受到學(xué)者關(guān)注,提出了一些理論研究成果,同樣值得關(guān)注。
近年來,隨著軍事科技的快速發(fā)展,各種新體制雷達(dá)層出不窮,更新?lián)Q代愈加頻繁,雷達(dá)信號分選面臨著嚴(yán)峻的挑戰(zhàn)和考驗(yàn)。屬于無監(jiān)督學(xué)習(xí)的聚類分選正好滿足未知環(huán)境下雷達(dá)信號缺乏先驗(yàn)知識的特性,同時與智能算法的有機(jī)結(jié)合能夠很好地勝任雷達(dá)信號的分選工作。本文介紹了近年來國內(nèi)學(xué)者對傳統(tǒng)的聚類算法的改進(jìn)算法在雷達(dá)信號分選中理論研究成果,分析了聚類算法的影響因素,提出了算法選擇的意見,在以后的拓展研究具有一定的參考意義。