滑文強 王 爽 侯 彪
(智能感知與圖像理解教育部重點實驗室 西安 710071)
(西安電子科技大學國際智能感知與計算聯(lián)合研究中心 西安 710071)
基于半監(jiān)督學習的SVM-Wishart極化SAR圖像分類方法
滑文強*王爽侯彪
(智能感知與圖像理解教育部重點實驗室西安710071)
(西安電子科技大學國際智能感知與計算聯(lián)合研究中心西安710071)
該文針對極化SAR(Synthetic Aperture Radar)圖像分類中的小樣本問題,提出了一種新的半監(jiān)督分類算法??紤]到極化SAR數(shù)據(jù)反映了地物的散射特性,該方法首先利用目標分解方法提取了多種極化散射特征;其次,在協(xié)同訓練框架下結合SVM分類器構建了協(xié)同半監(jiān)督模型,該模型可以同時利用有標記和無標記樣本對極化SAR圖像進行分類,從而在小樣本時可以獲得更好的分類精度;最后,為進一步改善分類結果,在協(xié)同訓練分類完成后,該方法又利用Wishart分類器對分類結果進行修正。理論分析與實驗表明,該算法在只有少量標記樣本的情況下優(yōu)于傳統(tǒng)算法。
極化SAR;地物分類;半監(jiān)督學習;協(xié)同訓練;支持向量機
極化SAR圖像分類作為極化SAR圖像處理的重要部分,在軍事偵察、土地勘察和城市規(guī)劃等領域都有著廣泛的應用前景。目前的極化SAR分類方法主要有3種:無監(jiān)督學習[1,2]、監(jiān)督學習[3,4]和半監(jiān)督學習[5,6]。在極化SAR分類中,無監(jiān)督方法不需要標記樣本,主要采用目標分解的方法根據(jù)不同地物的物理散射特性對目標進行分解,如三分量分解[7]和四分量分解[8]。監(jiān)督方法通常比無監(jiān)督方法更容易取得較好的極化SAR分類效果,但是監(jiān)督方法需要大量的標記樣本,而實際中很難獲取大量的標記樣本,如SVM分類器[8]。半監(jiān)督方法利用大量未標記樣本,通過發(fā)現(xiàn)未標記樣本中的隱含信息結合標記樣本信息提高分類精度。半監(jiān)督學習同時利用已標記樣本和未標記樣本,彌補了監(jiān)督學習和無監(jiān)督學習的不足,已為機器學習領域的研究熱點。近年來也有學者將半監(jiān)督學習方法成功用于極化SAR圖像分類,例如,文獻[6]中將半監(jiān)督學習方法用于極化SAR分類,該方法結合了無監(jiān)督聚類的策略,通過無監(jiān)督聚類優(yōu)化分類結果。
協(xié)同訓練[5]作為半監(jiān)督學習的一種流行方法,采用兩個分類器對大量未標記信息進行對比驗證,提取更可靠信息提高分類效果,吸引著大量的學者對其進行深入的研究。本文主要針對極化SAR數(shù)據(jù)中很難獲取大量標記樣本的問題,在協(xié)同訓練的框架下,提出了一種新的極化SAR圖像半監(jiān)督分類方法。該方法利用極化散射分解方法和極化SAR數(shù)據(jù)固有特性分析提取有效特征信息,在此基礎上構造了可進行協(xié)同訓練的基分類器。然后,采用最近鄰分類法和一致性采樣法對預測標記進行篩選,利用K近鄰算法剔除噪音標簽,再把選取的樣本和預測標記一同添加到原始有標記樣本中,增加訓練樣本數(shù)量,修正分類器。最后結合極化SAR數(shù)據(jù)的分布特性復Wishart分布,并通過Wishart分類器優(yōu)化分類結果。實驗結果表明該算法具有更好的穩(wěn)定性和良好的分類效果,并在只有少量樣本的情況下可以保持較高的分類正確率。
2.1協(xié)同學習模型
最初的協(xié)同學習算法是由Blum和Mitchell[9]在1998年提出的,他們假設數(shù)據(jù)集滿足兩個基本的條件:第一,每個屬性集都足以描述該問題,即如果訓練樣本足夠,每個屬性集都可以學到一個強學習器;第二,在給定標記時,每個屬性集都是條件獨立的。協(xié)同訓練算法就是利用已標記樣本集在兩個屬性上分別訓練得到一個初始學習器,在隨后迭代過程中,由未標記樣本中,每個學習器挑選出一部分置信度較高的數(shù)據(jù)進行標記,加入到另外一個學習器的有標記訓練集中,得到兩個新的標記樣本集。協(xié)同訓練過程就是不斷迭代的過程,直到滿足終止條件。因此,采用協(xié)同訓練框架需要解決兩個問題:第一,提取特征,構成兩個強分類器;第二,在未標記樣本中挑選可靠性樣本添加到訓練樣本中。
2.2特征提取
特征提取對極化SAR分類非常重要。目標分解方法作為極化SAR數(shù)據(jù)特征提取的主要方法,它利用地物目標的不同散射機制,提取不同散射信息將地物目標進行分類。由于單一的目標分解方法不能有效地反映所有地物的散射信息,很難表示邊緣或一些復雜的區(qū)域。因此本文采用協(xié)同訓練的方法并結合多種散射特性。
Pauli分解[10]包含的主要散射類型有:奇次散射、偶次散射和π/4偶次散射。其雖然簡單,但結果具有一定的抗噪能力,而主要缺點是只能區(qū)分兩種散射機理:奇次散射和偶次散射。Cloude分解[11]包含所有散射機理的分解定理,其優(yōu)點是:在不同極化基的基礎下能夠保持特征值的不變性。Freeman-Durden分解[7],其將協(xié)方差矩陣分解成為3種不同的散射機理:由植被的冠層定向偶極子組成的體散射;由二面角反射器所引起的二次散射;由1階布拉格表面散射引起的面散射。Krogager分解[12]主要是將對稱的散射矩陣[S]分解成為3個相干的分量:螺旋體(Helix)散射、球(Sphere)散射及二面角(Diplane)散射。因此由各種目標分解方法得到各種散射分量,并組成21維的散射特征。表1為各種散射分解參數(shù)。
表1 散射矩陣分解參數(shù)Tab.1 Scattering matrix decomposition parameters
極化散射矩陣主要是雷達發(fā)射的入射波與目標散射回波各極化分量之間的線性變換關系。在極化SAR數(shù)據(jù)實際分析中常將極化散射矩陣轉換成極化協(xié)方差矩陣,具體表示為:
因此,由各種散射分解組成的21維散射特征和由協(xié)方差矩陣組成的9維數(shù)據(jù)特征集都能夠很好地表示極化SAR圖像的特性。由SVM分類器采用散射分解特征集組成的S_SVM分類器,由SVM分類器采用9維數(shù)據(jù)特征集組成的C_SVM分類器(其中SVM都選取徑向基核函數(shù)和5倍的交叉驗證),分別對1989年由ARISAR獲取的荷蘭Flevoland地區(qū)大小為750×1024的4視全極化SAR數(shù)據(jù)進行分類,分類結果如表2所示。由表2結果可知,在標記樣本足夠多時這兩種特征集組合的分類器都可以得到很好的分類效果,在只有少量標記樣本時分類效果較差。
表2 相同樣本數(shù)不同特征組合時的SVM分類正確率(%)Tab.2 The SVM classification accuracy with the same training samples and different feature combination(%)
由上述分析可知,在標記樣本數(shù)充足的情況下,這兩種特征組合的SVM分類器都能得到很好的分類效果,符合協(xié)同訓練的特征選擇要求,因此,本文分別提取這兩類特征:一類是數(shù)據(jù)本身的9維像素特征,另一類是由不同散射分解方法得到的散射特征。
2.3篩選樣本
2.3.1一致性采樣方法協(xié)同訓練方法采用少量的有標記樣本學習兩個不同的分類器,并用學習的分類器對所有的未標記樣本進行標記。因此每個像素點都有兩個標記,一致性采樣法對所有未標記樣本的評價函數(shù)[13]定義為:
式中
xi表示任意的未標記樣本,P1(xi)和P2(xi)分別為待測樣本xi與其周圍8鄰域范圍內(nèi)5個近鄰訓練樣本點分類結果一樣的概率。由式(2)可以看出具有相同標記的樣本評價指標要明顯高于不同標記的樣本。
2.3.2樣本選擇半監(jiān)督學習通常利用未標記樣本信息選取適當?shù)臉颖緮U充到有標記訓練集中,本文采用以下兩個步驟選取未標記樣本擴充到已標記樣本:第一,選取可靠性最高的n個樣本,即每次選取每類別可靠性最高的1個樣本。首先選取兩個SVM分類器標記相同的樣本,然后采用最近鄰算法[14]的歐式距離判別式,
式中xt表示第t類樣本的群聚中心,xj表示為兩個SVM分類器標記相同的任意樣本。選取距群聚中心距離最小的樣本作為最終挑選的樣本。
第二,選取分類正確率最差的m個樣本,并對其重新標記。因為這些樣本很可能是靠近分類界面或在分類界面之間,這些樣本很可能是支持矢量對分類界面劃分有很大作用。該方法采用式(2)的評價指標,先選取s值最小的m個樣本,然后采用最近鄰分類算法的判別式(3)對其重新標記,本文中m=1。
2.3.3噪音標簽剔除采用上述兩種方法篩選的未標記樣本和其標簽不可避免地會出現(xiàn)標記錯誤的情況,這種情況對半監(jiān)督分類結果有很大影響,尤其是已標記樣本很少的情況下。因此本文采用K近鄰方法[15]剔除即將擴充的訓練樣本的噪音標簽。
K近鄰法表示,如果一個樣本在特征空間中的k個最相似(即特征空間中最近鄰)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。即分別求取被挑選的m+n個樣本最近鄰的k個樣本,如果其周圍的k個樣本有相同的預測標記,則將這個被挑選的樣本連同其標記擴充到訓練樣本中,如果其周圍的k個樣本中有部分樣本與被挑選樣本的預測標記不同,則認為該挑選的樣本為噪音標簽,該樣本將不會被添加到已標記的訓練樣本中,本實驗中k=3。
2.4復Wishart分類器
Lee等人在文獻[16]中提出了基于最大似然判決準則的Wishart監(jiān)督圖像分類方法,應用最大似然法得到每個像素點相關矩陣與類中心的相關矩陣的復Wishart距離度量為:
式中Z表示任意樣本的協(xié)方差矩陣,Vt表示第t類樣本的聚類中心。
如果任意樣本滿足:
則認為像素點Z屬于第t類。
2.5算法步驟
本實驗算法流程如圖1所示,具體步驟如下:
步驟1利用經(jīng)典Lee[17]濾波算法對極化SAR數(shù)據(jù)濾波。
步驟2依據(jù)本文方法提取兩類特征,并每類隨機選取N個標記樣本作為標記訓練集L1,L2,剩余樣本作為未標記訓練集U1,U2。
步驟3用L1訓練SVM1分類器,用L2訓練SVM2分類器。
步驟4用SVM1預測訓練集U1,用SVM2預測訓練集U2,并按照本文所述方法挑選未標記樣本擴充到已標記樣本集L1,L2中,并分別在U1,U2集中刪除挑選的樣本。
步驟5對步驟3-步驟4進行迭代,直到迭代停止。
步驟6用最終訓練的SVM1和SVM2對整幅圖進行標記,如果某一點標記相同則將此作為最終標記,如果標記不同,則對所有標記相同的點計算聚類中心,然后用復Wishart分類器對不同標記的樣本再分類。
圖1 實驗流程圖Fig.1 Flowchart of the proposed algorithm
在本實驗中,實驗數(shù)據(jù)選取的是1989年由ARISAR獲取的荷蘭Flevoland地區(qū)的L波段的4視全極化SAR數(shù)據(jù),該數(shù)據(jù)大小為750×1024,其Pauli分解RGB合成圖如圖2(a)所示,真實地物標記如圖2(f)所示,根據(jù)地物實際情況,該數(shù)據(jù)中有15類農(nóng)作物。
圖2(b)為本實驗分類結果圖,圖2(g)為本實驗分類結果圖2(b)對應的真實地物部分,本實驗中每類別選取10個標記樣本作為訓練樣本,最終分類正確率80.69%。而對比算法:監(jiān)督SVM方法、監(jiān)督Wishart方法和監(jiān)督SVM-Wishart方法與本文方法每類別選取相同的10個標記樣本作為訓練樣本時,最終分類正確率分別為63.71%,74.33% 和63.01%。因此,當每類別選取10個標記樣本作為訓練樣本時,本實驗算法分別比這3種對比算法在Flevoland地區(qū)的總體分類正確率高出16.98%,6.36%和17.68%。圖3為本文算法每類選取10個訓練樣本時,擴充訓練樣本過程中迭代次數(shù)與分類正確率之間的關系,由圖3可知隨著迭代次數(shù)的增加分類正確率不斷提高,當?shù)^5次之后分類正確率變化很小,說明本文算法具有良好的收斂性,為增強該算法的適應性對其它數(shù)據(jù)也能有效地收斂,本文采用10次迭代,即迭代10次后迭代終止。圖4為監(jiān)督SVM方法、監(jiān)督Wishart方法、監(jiān)督SVM-Wishart方法和本實驗分類方法每類別選取不同訓練樣本數(shù)時的分類正確率比較曲線,其中監(jiān)督SVM方法、監(jiān)督Wishart方法和監(jiān)督SVM-Wishart方法的特征集都選取9維數(shù)據(jù)特征和21維的散射特征組合。由于訓練樣本很少時,初始的聚類中心與真實聚類中心有很大偏差,隨著Wishart迭代次數(shù)的增加偏差越大,分類結果越差,由圖4中SVM-Wishart和SVM的曲線也可看出,在分類正確率不高的情況下,Wishart迭代反而會使分類正確率降低,因此,本文對比算法中監(jiān)督Wishart分類方法和監(jiān)督SVM-Wishart分類方法都選取最好的分類結果,Wishart只進行1次迭代。由圖4可以看出隨著訓練樣本數(shù)目的增加,本實驗分類正確率逐漸增加,當每類訓練樣本數(shù)增加到50以后,分類正確率變化很小,對比算法SVM隨訓練樣本增加,分類正確率逐漸增加,與本實驗差異逐漸縮??;SVM-Wishart算法隨樣本數(shù)增加分類正確率逐步提高但提高較小;監(jiān)督Wishart雖然訓練樣本數(shù)逐漸增加但是對于總體數(shù)據(jù)來說還是太少,因此分類正確率提高很少。實驗結果表明,本文算法明顯優(yōu)于傳統(tǒng)算法并在只有少量訓練樣本時有較高的分類正確率。
圖2 Flevoland地區(qū)數(shù)據(jù)的分類結果Fig.2 Classification results of the Flevoland area
圖3 擴充訓練樣本過程中迭代次數(shù)與分類正確率Fig.3 The number of iterations and classification accuracy on enlarging training samples
圖4 有標記樣本數(shù)目和分類正確率Fig.4 The number of labeled samples and classification accuracy
本文針對小樣本問題提出了一種新的半監(jiān)督分類算法,該算法在訓練樣本較少時,通過對極化SAR數(shù)據(jù)分別提取多視角特征,在此基礎上構造了協(xié)同學習的半監(jiān)督分類器,通過協(xié)同學習策略增加了先驗樣本數(shù)目,然后又利用復Wishart分布方法進一步改善分類結果。實驗結果表明該算法明顯優(yōu)于傳統(tǒng)的分類算法且在有標記樣本很少的情況下保持較高的分類正確率。
[1]Kersten P R,Lee J S,and Ainsworth T L.Unsupervised classification of polarimetric synthetic aperture radar images using fuzzy clustering and EM clustering[J].IEEE Transactions on Geoscience and Remote Sensing,2005,43(3):519-527.
[2]Wang S,Liu K,Pei J J,et al..Unsupervised classification of fully polarimetric SAR images based on scattering power entropy and copolarized ratio[J].IEEE Geoscience and Remote Sensing Letters,2013,10(3):622-626.
[3]Shang F and Hirose A.Use of poincare sphere parameters for fast supervised PolSAR land classification[C].IEEE Geoscience and Remote Sensing Symposium,Melbourne,Australia,2013:3175-3178.
[4]Shi L,Zhang L F,and Yang J.Supervised graph embedding for Polarimetric SAR image classification[J].IEEE Geoscience and Remote Sensing Letters,2013,10(2):216-220.
[5]Hady M and Schwenker F.Co-training by committee:a new semi-supervised learning framework[C].IEEE International Conference on Data Mining Workshops,2008:563-572.
[6]Hansch R and Hellwich O.Semi-supervised learning for classification of polarimetric SAR-data[C].IEEE Geoscience and Remote Sensing Symposium,Cape Town,South Africa,2009:987-990.
[7]Lee J S,Grunes M R,and Famil L F.Unsupervised terrain classification preserving polarimetric scattering characteristics[J].IEEE Transactions on Geoscience and Remote Sensing,2004,42(4):722-731.
[8]He Y and Cheng J.Classification based on Four-component decomposition and SVM for PolSAR images[C].IEEE International Conference on Automatic Control and Artificial Intelligence(ACAI 2012),Xiamen,China,2012:635-637.
[9]Blum A and Mitchell T.Combining labeled and unlabeled data with co-training[C].Proceedings of the 11th Annual Conference on Computational Learning Theory,Wisconsin,USA,1998:92-100.
[10]Cloude S R and Pottier E.A review of target decomposition theorems in radar polarimetry[J].IEEE Transactions on Geoscience and Remote Sensing,1996,34(2):498-518.
[11]Cloude S R and Pottier E.An entropy based classification scheme for land application of polarimetric SAR[J].IEEE Transactions on Geoscience and Remote Sensing,1997,35(1):68-78.
[12]Krogager E.New decomposition of the radar target scattering matrix[J].Electronics Letters,1990,26(18):1525-1527.
[13]Huang J,Shirabad J S,Matwin S,et al..Improving cotraining with agreement-based sampling[C].7th International Conference,RSCTC,Warsaw,Poland,2010:197-206.
[14]邊肇祺,張學工,等.模式識別[M].北京:清華大學出版社,2000:136-140.
Bian Z Q,Zhang X G,et al..Pattern Recognition[M].Beijing:Tsinghua University Press,2000:136-140.
[15]Zanchettin C,Bezerra B L,and Azevedo W A.A KNN-SVM hybrid model for cursive handwriting recognition[C].WCCI IEEE World Congress on Computational Intelligence,Brisbane,Australia,2012,6:10-15.
[16]Lee J S,Grunes M R,and Kwok R.Classification of multilook polarimetric SAR imagery based on complex Wishart distribution[J].International Journal of Remote Sensing,1994,15(11):2299-2311.
[17]Lee J S,Grunes M R,and Grandi G.Polarimetric SAR speckle filtering and its implication for classification[J].IEEE Transcations on Geoscience and Remote Sensing,1999,37(5):2363-2373.
滑文強(1987-),男,陜西人,西安電子科技大學博士研究生,主要研究領域為極化SAR圖像處理、機器學習等。E-mail:huawenqiang2013@163.com事SAR/POLSAR處理與分析、稀疏表示、機器學習等方面的研究工作。
E-mail:shwang@mail.xidian.edu.cn
侯彪(1974-),男,陜西人,西安電子科技大學教授,博士生導師,智能感知與圖像理解教育部重點實驗室副主任,IEEE會員,IET西安分會執(zhí)行委員會委員,中國電子學會高級會員,陜西信號處理學會理事,教育部創(chuàng)新團隊成員。主要研究方向為遙感圖像解譯、壓縮感知、稀疏表示等。
E-mail:avcodec@163.com
Semi-supervised Learning for Classification of Polarimetric SAR Images Based on SVM-Wishart
Hua Wen-qiangWang ShuangHou Biao
(Key Laboratory of Intelligent Perception and Image Understanding of Ministry of Education,Xi'an 710071,China)
(International Research Center for Intelligent Perception and Computation,Xidian University,Xi'an 710071,China)
In this study,we propose a new semi-supervised classification method for Polarimetric SAR(PolSAR)images,aiming at handling the issue that the number of train set is small.First,considering the scattering characters of PolSAR data,this method extracts multiple scattering features using target decomposition approach.Then,a semi-supervised learning model is established based on a co-training framework and Support Vector Machine(SVM).Both labeled and unlabeled data are utilized in this model to obtain high classification accuracy.Third,a recovery scheme based on the Wishart classifier is proposed to improve the classification performance.From the experiments conducted in this study,it is evident that the proposed method performs more effectively compared with other traditional methods when the number of train set is small.
Polarimetric Synthetic Aperture Radar(SAR); Terrain classification; Semi-supervised learning;Co-training; Support Vector Machine(SVM)
TN958
A
2095-283X(2015)01-0093-06
10.12000/JR14138
滑文強,王爽,侯彪.基于半監(jiān)督學習的SVM-Wishart極化SAR圖像分類方法[J].雷達學報,2015,4(1):93-98.http://dx.doi.org/10.12000/JR14138.
Reference format:Hua Wen-qiang,Wang Shuang,and Hou Biao.Semi-supervised learning for classification of polarimetric SAR images based on SVM-Wishart[J].Journal of Radars,2015,4(1):93-98.http://dx.doi.org/ 10.12000/JR14138.
王爽(1978-),女,陜西人,西安電子科技大學教授,博士生導師,智能信息處理研究所副所長,智能感知與圖像理解教育部重點實驗室成員,國家“111”計劃創(chuàng)新引智基地成員,IEEE會員,IET會員,中國電子學會會員,中國計算機學會會員。主要從
2014-11-20收到,2015-02-28改回
國家自然科學基金(61173092,61271302)和陜西省科學技術研究發(fā)展計劃項目(2013KJXX-64)資助課題
滑文強huawenqiang2013@163.com