關 欣 ?!∵M 王 虹 衣 曉
(海軍航空工程學院電子信息工程系 煙臺 264001)
?
基于多源測量與屬性混合信息的分類識別方法*
關欣常進王虹衣曉
(海軍航空工程學院電子信息工程系煙臺264001)
摘要充分利用多傳感器系統(tǒng)提供的多源異類信息,將觀測數據處于數據級的屬性和處于特征級的屬性混合作為描述目標的特征矢量;對特征矢量進行了主成分分析,在此基礎上轉換至三維直角坐標系尋找最優(yōu)分類平面進行分類識別;采用“一對一”策略解決多類分類問題;通過仿真實驗驗證了該方法在加入不同百分比高斯白噪聲環(huán)境下的有效性,并與BP神經網絡識別方法在同等條件下作了對比實驗,突出了論文所提方法正確識別率高、識別速度快和穩(wěn)定性高的優(yōu)越性。
關鍵詞主成分分析; 最近頂點規(guī)則; 最優(yōu)分類平面; BP神經網絡
Class NumberTP391
多傳感器提供的觀測數據在屬性上可以是同類的也可以是異類的;在粒度級別上可以是稀疏的,也可以是稠密的,也可能分別處于數據級、特征級或是符號級各種不同的抽象級別上。因此異類多傳感器與同類傳感器相比,其提供的信息具有更強的多樣性和互補性[1~2]。在進行目標識別[3]時可充分利用多傳感器提供的多源異類信息,僅僅采用常規(guī)的屬性特征參數進行分類識別已經突顯單一,并且模式匹配法、k-近鄰分類法等傳統(tǒng)識別方法不但計算量大,識別準確率低,而且還需進行專家校驗[4]。因此,除了利用常規(guī)的觀測數據處于數據級的屬性,還可以充分挖掘特征級的屬性,將二者混合作為描述目標的特征矢量。
本文首先利用多源異類信息構造描述目標的特征矢量,即為目標的模式。然后在對數據樣本特征矢量進行主成分分析(Principal Component Analysis,PCA)的基礎上,合理地變換至三維直角坐標系通過空間幾何分析(Space Geometrical Analysis,SGA)進行分類識別。最后通過仿真實例和對比實驗,驗證了基于多源測量與屬性混合信息的分類識別方法的有效性和優(yōu)越性。
特征提取或特征矢量的構建是進行模式識別的關鍵問題之一。特征矢量選取的好壞直接影響著分類器的分類識別結果[5]。選取由j個屬性的觀測數據構成的數據樣本特征矢量x對目標進行數學抽象描述,并記為:
x=(x1,x2,…,xj1,xj1+1,xj1+2,…,xj)T
(1)
其中,屬性1,2,…,j1的觀測數據x1,x2,…,xj1處于數據級;而屬性j1+1,j1+2,…,j的觀測數據xj1+1,xj1+2,…,xj處于特征級,表示具有或不具有某種性質特征。為了使后續(xù)設計的分類器具有識別能力,必須要把xj1+1,xj1+2,…,xj轉換成數值型參數。因此可以利用二值函數來表示,即用“1”表示具有某種性質特征、“0”表示不具有該性質特征。而后續(xù)分類器設計中需要求協(xié)方差矩陣,這里進一步把“1”和“0”的二值性用區(qū)間長度為1且不同區(qū)間內的服從均勻分布的隨機數來代替。這里區(qū)間的選取應視數據x1,x2,…,xj1具體的數量級而定,只要數量級處于這些數據數量級之間即可,不至于因過小而被削弱其作用或過大而被過分利用。
該方法首先根據上述特征矢量構建方法得到兩類樣本,其次求取兩類樣本的整體協(xié)方差矩陣,并依據主成分分析方法得出各個樣本由第一、第二、第三主成分構成的三維主成分向量,再次將所有主成分向量對應至三維直角坐標系中的點,然后通過空間幾何方法找到一個最優(yōu)分類平面將兩類點分開,根據樣本坐標點與最優(yōu)分類平面的位置關系,對樣本完成分類識別,最后采用“一對一”策略解決多類分類問題。我們將這個處理過程簡記為PCA-SGA,該方法流程圖如圖1所示。
按照圖1,本方法的詳細步驟如下:
Step1:根據PCA求各樣本的主成分向量
根據式(1),把第i個樣本進一步記為
(i=1,2,…,N1,N1+1,…,N)
(2)
圖1 基于多源測量與屬性混合信息的分類識別方法流程圖
記第1類樣本和第2類樣本的整體協(xié)方差矩陣為V:
(3)
記V的特征值為λ1≥λ2≥…≥λj,且前三個最大特征值即λ1,λ2,λ3對應的特征向量分別為p1,p2,p3。則由x(i)(i=1,2,…,N)的第一、第二、第三主成分構成的主成分向量為
(i=1,2,…,N)
(4)
Step2:將主成分向量對應至坐標系點,并構造最小的軸向長方體A和B分別把兩類坐標點包圍起來
建立一個以前三個主成分y1,y2,y3分別為橫軸、縱軸、豎軸的三維直角坐標系,將N個樣本的主成分向量對應成坐標系中的N個點,在坐標系中可以直觀地反映出第1類樣本和第2類樣本的分布情況。
以第1類樣本為例,將y(1),y(2),…,y(N1)對應至坐標系中的N1個點后,構造一個最小的長方體A將這N1個點包圍起來,并且使A各棱線均平行或垂直于每條坐標軸,即經平移后可使共某個頂點的三條棱線與三條坐標軸對應重合。這樣既方便快速得到A又可以覆蓋y各分量在范圍內的所有組合。將這樣的長方體定義為軸向長方體,記A的長寬高分別為L1、W1、H1,則有:
(5)
(6)
Step3:根據最近頂點規(guī)則放大或縮小A和B至恰好相接觸
如果兩類樣本屬性很接近乃至出現混疊時,A和B很有可能出現重疊現象。因此,具體步驟要分A和B是否有重疊兩種情況。
1) 若兩長方體沒有重疊即A∩B=?
記A的8個頂點為Ai(i=1,2,…,8),B的8個頂點為Bj(j=1,2,…,8),則A和B最接近的兩個頂點可由式(7)獲得:
(7)
則Ai0和Bj0即為所求。
保持A和B幾何中心不變,按下述方法放大A、B至恰好相接觸:記(Δy11,Δy12,Δy13)=Ai0-M,(Δy21,Δy22,Δy23)=Bj0-M,顯然有|Δ11|=|Δ21|,|Δ12|=|Δ22|,|Δ13|=|Δ23|。則A和B的長寬高各自的放大比例為
(8)
(9)
記放大后的A、B分別為A′、B′,此時A′和B′恰好相接觸,稱這種方法為最近頂點規(guī)則。
2) 若兩長方體存在重疊即A∩B≠?
此種情況下同樣可以按最近頂點規(guī)則將A和B縮小至恰好相接觸??s小的方法和1)中放大的方法相似,首先根據式(7)得到最近兩頂點,從而找到其中點,然后由式(8)得到A和B的長寬高各自的縮小比例,最后A和B的長寬高分別縮小至L″1、W″1、H″1和L″2、W″2、H″2:
(10)
但需要強調的是這只適用于重疊部分長方體的長寬高均小于A和B的長寬高的一半,更嚴重的重疊情況這里暫且不作討論。
Step4:根據點法式方程尋找最優(yōu)分類平面分離A和B
(11)
表1 法向量的取值情況
Step5:根據最優(yōu)分類平面判別樣本所屬類別
(i=1,2,…,N1,j=N1+1,N1+2,…,N)
(12)
將O1和O2坐標分別代入由式(11)所得的平面方程,取其數值符號記為sign1、sign2:
sign1=sign(F(O1))
sign2=sign(F(O2))
(13)
平面兩側的點代入平面方程后的數值符號是相反的,則sign1和sign2為一正一負。所以可以通過樣本的主成分向量對應坐標點代入平面方程后的數值符號來判定該樣本所屬類別。
假設待分類樣本為x,其分類識別方法如下:
1) 把x代入式(4)得到主成分向量yx=(yx1yx2yx3);
2) 將上述主成分向量yx對應到三維直角坐標系中的點Q(yx1,yx2,yx3),并把Q代入式(11)平面P方程,則x的分類識別依據為:
若F(yx1,yx2,yx3)=sign1,則將x分類識別為第1類;若F(yx1,yx2,yx3)=sign2,則將x分類識別為第2類。
Step6:根據“一對一”策略解決多類分類問題
至此,一種基于多源測量與屬性混合信息的分類識別方法的整個過程結束。
從相關數據庫中選取四種典型的且屬性參數較為接近的目標進行仿真實驗,屬性參數取值范圍如表2所示。其中,屬性1、2、3的觀測數據處于數據級,而屬性4、5的觀測數據處于特征級;目標1和2同時具有某兩種性質特征,而目標3和4均不具有這兩種性質特征;目標4屬性2的參數值為序列長度為18的序列類型:[1080,1080+Δd,1080+2Δd,…,1420,1420-Δd,1420-2Δd,…,1080+Δd](Δd=(1420-1080)/9)。根據前3個屬性觀測數據的數量級,則目標在屬性4和5上同時具有某兩種性質特征和不具有這兩種性質特征時的觀測數據x4和x5可按式(14)數值化描述(取其他相當的區(qū)間得到的分類識別結果與本文相差很微小),其中unifrnd(a,b)(其中a≤b)表示在[a,b]上服從均勻分布的隨機數。
(14)
在Matlab仿真環(huán)境下,各類隨機產生1000個樣本,其中600個樣本作為訓練樣本,400個樣本作為測試樣本。單個樣本各屬性均為實數型數據,足夠多的訓練樣本可以更好地表征數據庫目標各屬性可能的實數型、區(qū)間型和序列類型的混合型數據[12]。單次量測值(即一個測試樣本)加入訓練好的分類器中進行分類識別則轉化為簡單的實數-實數同類數據的識別,無需進行異類數據的同型轉化[13]。
表2 各目標屬性特征參數表
基于“一對一”策略,四類訓練樣本可分解成六個簡單的兩類分類問題。按照PCA-SGA步驟可得到六個不同的最優(yōu)分類平面P,且前三個主成分的累計貢獻率均超過85%。兩類分類問題得到的A′和B′如圖2所示。
圖2 兩兩組合構成的A′和B′
由于傳感器工作環(huán)境的不確定性因素,導致觀測數據一般包含有噪聲成分。為更符合觀測數據的實際情況,將測試樣本屬性1、2、3的觀測數據加上高斯白噪聲。然后把每一個測試樣本依次加入到六個兩類分類模型中進行分類識別,根據次數最高確定各個測試樣本最終屬于的類別。在2%、5%、10%三種不同的高斯白噪聲環(huán)境下均進行100次蒙特卡洛仿真,將正確識別出的測試樣本個數與測試樣本總個數的比值作為正確識別率,則不同噪聲環(huán)境下各目標正確識別率、平均正確識別率及識別時間結果如表3所示。
表3 本文方法識別結果
為了驗證該方法的優(yōu)越性,將其與BP神經網絡識別方法在同等條件下進行對比實驗。訓練樣本和測試樣本的選取同上。神經網絡參數及訓練參數設置如下:輸入數據為5維數據,隱含層節(jié)點數為11,輸出層節(jié)點數為4,隱含層節(jié)點轉移函數為正切S型傳遞函數,輸出層節(jié)點轉移函數為線性傳遞函數,最小均方誤差為10-8,最小梯度為10-20,訓練次數選為20次[4,14]。同樣在2%、5%、10%三種高斯白噪聲環(huán)境下均進行100次蒙特卡洛仿真,最終實驗結果如表4所示。
表4 BP神經網絡識別結果
對比表3和表4可知,本文方法在三種噪聲環(huán)境下的識別率均要高于BP神經網絡模式識別方法,且識別時間少于一半,識別速度明顯更快。另外,圖3給出了在三種噪聲環(huán)境下,本文方法和BP神經網絡進行100次蒙特卡洛仿真的識別率穩(wěn)定性對比。由圖3對比發(fā)現,本文方法100次蒙特卡洛仿真的運行結果波動范圍很小,基本趨于穩(wěn)定,而BP神經網絡模式識別方法的運行結果波動范圍較大,甚至出現個別識別率嚴重低于平均值的現象,穩(wěn)定性較差。
圖3 三種高斯白噪聲環(huán)境下的識別率穩(wěn)定性對比
本文將具有不同類型觀測數據的屬性混合作為特征矢量,通過主成分分析用三維的主成分向量表示高維數據樣本特征矢量的變化特性,并未將特征參數樣本矢量通過一個非線性映射變換到一個更高維的特征空間,整個過程也未涉及復雜的數學算法和函數,所以計算相對簡單快捷,可以實現快速分類識別。另外,通過一個空間平面來隔開兩類樣本的主成分向量坐標點,這種幾何結構關系較為穩(wěn)固,進行多次獨立重復試驗的結果相差甚小,總體趨于平緩穩(wěn)定。
參 考 文 獻
[1] 韓崇昭,朱洪艷,段戰(zhàn)勝.多源信息融合[M].第二版.北京:清華大學出版社,2010:11-12,479.HAN Chongzhao, ZHU Hongyan, DUAN Zhansheng, et al. Multi-sensor Information Fusion[M]. Second Edition. Beijing: Tsing University Press,2010:11-12,479.
[2] 于昕,韓崇昭,潘泉,等.一種基于D-S推理的異源信息目標識別方法[J].系統(tǒng)工程與電子技術,2007,29(5):788-790.
YU Xin, HAN Chongzhao, PAN Quan, et al. Method Based on Evidenve Theory for Multi-source Target Recognition[J]. Systems Engineering and Electronics,2007,29(5):788-790.
[3] 何友,王國宏,陸大紟,等.多傳感器信息融合及應用[M].第二版.北京:電子工業(yè)出版社,2007:4-5.
HE You, WANG Gonghong, LU Dajin, et al. Multisensor Information Fusion With Application[J]. Second Edition. Beijing: Publish House of Electronics Industry,2007:4-5.
[4] 樊亞春,王巖,才迎光,等.基于支持向量機的相控陣雷達信號識別方法[J].電子信息對抗技術,2014,29(5):44-48.
FAN Yachun, WANG Yan, CAI Yingguang, et al. The Recognition Method of Phased-Array Radar Signal Based on Support Vector Machine[J]. Electronic Information Warfare Technology,2014,29(5):44-48.
[5] 姚旭,王曉丹,張玉璽,等.特征選擇方法綜述[J].控制與決策,2012,27(2):161-166,192.
YAO Xu, WANG Xiaodan, ZHANG Yuxi, et al. Summary of Feature Selection Algorithms[J]. Control and Decision,2012,27(2):161-166,192.
[6] Jollife I. Principal Component Analysis[M]. New York: Springer-Verlag,1986:10-28.
[7] 吳翊,李永樂,胡慶軍.應用數理統(tǒng)計[M].長沙:國防科技大學出版社,2008:285-298.WU Yi, LI Yongle, HU Qingjun. Applied Mathematical Statistics[M]. Changsha: NUDT Press,2008:285-298.
[8] K.-T. Kim, I.-S. Choi, H.-T. Kim. Efficient Radar Target Classification Using Adaptive Joint Time-frequency Processing[J]. IEEE Trans Antennas Propagat,2000,48(12):1789-1801.
[9] 范雪莉,馮海泓,原猛.基于互信息的主成分分析特征選擇算法[J].控制與決策,2013,28(6):915-919.
FAN Xueli, FENG Haihong, YUAN Meng. PCA Based on Mutual Information for Feature Selection[J]. Control and Decision,2013,28(6):915-919.
[10] Yong Xu, David Zhang, Zhong Jin, et al. A Fast Kernel-based Nonlinear Discriminant Analysis for Multi-class Problems[J]. Pattern Recognition,2006,39:1026-1033.
[11] 徐勇,楊強,楊靜宇.基于核的快速特征抽取及識別方法[J].解放軍理工大學學報:自然科學版,2005,6(2):128-131.
XU Yong, YANG Qiang, YANG Jingyu. Fast Kernel-based Feature Extraction and Recognition[J]. Journal PLA University of Science and Technology: Natural Science,2005,6(2):128-131.
[12] 劉海軍,李悅,柳征,等.基于隨機文法的多功能雷達識別方法[J].航空學報,2010,31(9):1809-1817.
LIU Haijun, LI Yue, LIU Zheng, et al. Approach to Multi-function Radar Indentification Based on Stochastic Grammars[J]. Acta Aeronautica Astronautica Sinica,2010,31(9):1809-1817.
[13] 關欣,孫貴東,衣曉,等.累積量測序列的區(qū)間云變換及識別[J].控制與決策,2015,30(8):1345-1355.
GUAN Xin, SUN Guidong, YI Xiao, et al. Interval Cloud Transform and Recognition Research of Accumulative Measurement Sequence Data[J]. Control and Decision,2015,30(8):1345-1355.
[14] 孫即祥.現代模式識別[M].長沙:國防科技大學出版社,2010:285-288.
SUN Jixiang. Modern Pattern Recognition[M]. Changsha: NUDT Press,2010:285-288.
收稿日期:2015年10月7日,修回日期:2015年11月25日
基金項目:國家自然科學基金重點項目(編號:61032001);教育部新世紀優(yōu)秀人才支持計劃項目(編號:NCET-11-0872)資助。
作者簡介:關欣,女,博士,教授,研究方向:智能信息處理、多源信息融合。常進,男,碩士,研究方向:相控陣雷達輻射源識別。王虹,女,碩士,研究方向:雷達輻射源識別。衣曉,男,博士,教授,研究方向:多傳感器信息融合、多目標跟蹤、組合導航。
中圖分類號TP391
DOI:10.3969/j.issn.1672-9722.2016.04.012
Classification and Recognition Method of Information Based on Multi-source Measuring and Attributes Mixing
GUAN XinCHANG JinWANG HongYI Xiao
(Department of Electronics and Information Engineering, Naval Aeronautical and Astronautical University, Yantai264001)
AbstractMulti-source and heterogeneous information provided by multisensor system is being utilized fully. The paper merges attributes whose observation data is at data level and somes at feature level into a feature vector that describes target. On the basis of principal component analysis of feature vector, it is transformed to triangular rectangular-coordinates system to find a optimal separating plane for classification and recognition. “One-Against-One” strategy is used to deal with the multi-class problems. The validity of the method is validated by simulation experiments in the environment of different percentages of gaussian white noise, then this paper carrys on comparison experiment with BP neural network recognition method in same condition. It shows the superiority of higher recognition rate, faster recognition speed and higher stability of the proposed method.
Key Wordsprincipal component analysis, nearest peak regulation, optimal separating plane, BP neural network