申奕涵,楊京輝,王 皓
(中國地質(zhì)大學(xué)(北京)信息工程學(xué)院,北京 100083)
自20世紀(jì)80年代以來,高光譜遙感在測(cè)譜學(xué)的基礎(chǔ)上開創(chuàng)了新的對(duì)地觀測(cè)手段,這是遙感技術(shù)發(fā)展的一項(xiàng)重大進(jìn)展。高光譜遙感產(chǎn)生的圖像是在連續(xù)幾十到上百個(gè)窄的波段上獲取的區(qū)域地物圖像數(shù)據(jù),其圖像含有豐富的空間和光譜信息。利用圖像中每個(gè)像素點(diǎn)在不同波段上的不同特征信息,可以將其區(qū)分為不同的類別。這種特點(diǎn)為觀測(cè)地物分布、挖掘地物信息提供重要的數(shù)據(jù)支撐[1]。
目前,廣泛使用的高光譜圖像數(shù)據(jù)特征提取方法為線性特征提取算法,其中應(yīng)用較多的方法包括主成分分析(Principal Component Analysis,PCA)[2-3]、線性判別分析(Linear Discriminant Analysis,LDA)[4-5]以及包括局部線性嵌入算法和拉普拉斯特征映射等方法在內(nèi)的非線性特征提取方法。分類方法主要有支持向量機(jī)(Support Vector Machine,SVM)、貝葉斯方法、卷積神經(jīng)網(wǎng)絡(luò)等[6-8]。雖然上述這些方法應(yīng)用較多,但其能夠?qū)W習(xí)到的特征較為有限,在高光譜標(biāo)記樣本缺少的情況下,上述方法的分類性能受到了一定的制約。
由于已有的分類器性能依賴于訓(xùn)練樣本的數(shù)量及訓(xùn)練樣本所含的信息量,因此選擇合適的樣本作為訓(xùn)練樣本對(duì)分類器進(jìn)行訓(xùn)練是非常重要的[9-10]。然而,在隨機(jī)選擇樣本并對(duì)樣本進(jìn)行標(biāo)記時(shí),一般是對(duì)場(chǎng)景進(jìn)行視覺檢查并連續(xù)地對(duì)每個(gè)樣本進(jìn)行標(biāo)記。這樣標(biāo)記樣本使得訓(xùn)練集高度冗余,這是由于相鄰像素在很大程度上攜帶了相同的信息,而這種冗余又會(huì)延長訓(xùn)練階段的時(shí)間,導(dǎo)致資源浪費(fèi)。
針對(duì)目前高光譜圖像分類訓(xùn)練樣本較少的問題,文獻(xiàn)[10]首次將主動(dòng)學(xué)習(xí)用于了高光譜遙感影像的分類,提出了一種基于概率分類模型的主動(dòng)學(xué)習(xí)方法;文獻(xiàn)[11]提出了一種基于深度貝葉斯的主動(dòng)學(xué)習(xí)高光譜圖像分類算法;文獻(xiàn)[12]設(shè)計(jì)了一種多準(zhǔn)則主動(dòng)學(xué)習(xí)的解決方案,考慮多個(gè)標(biāo)準(zhǔn)來選擇信息豐富的樣本;文獻(xiàn)[13]提出了一種基于空-譜信息融合的主動(dòng)學(xué)習(xí)與標(biāo)簽傳遞算法相結(jié)合的分類框架;文獻(xiàn)[14]提出了一種結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的主動(dòng)學(xué)習(xí)方法對(duì)高光譜圖像進(jìn)行分類。實(shí)驗(yàn)驗(yàn)證表明,上述方法能在較少標(biāo)注樣本的情況下有效提高高光譜圖像的分類精度。
針對(duì)圖像分類訓(xùn)練樣本數(shù)量少、分類精度低及攜帶大量相同信息的問題,本文提出一種基于網(wǎng)格法分集和主動(dòng)學(xué)習(xí)的高光譜圖像分類方法。該方法的主要?jiǎng)?chuàng)新點(diǎn)在于采用了網(wǎng)格法分集和主動(dòng)學(xué)習(xí)的方法來選擇樣本,從而使選擇的樣本含有較高的信息量,在訓(xùn)練集盡可能小的情況下可保證分類模型具有較好的性能。該方法既有效減少了高光譜圖像中的冗余信息,又進(jìn)一步提高了分類的精確度和可靠性。此外,本文聯(lián)合運(yùn)用主成分分析和線性判別分析對(duì)光譜數(shù)據(jù)進(jìn)行降維,進(jìn)一步提高了運(yùn)算速度。
主動(dòng)學(xué)習(xí)算法通過迭代抽樣,而不是被動(dòng)地接受數(shù)據(jù),主動(dòng)選擇出具有典型特征的樣本與原有的有標(biāo)記訓(xùn)練樣本,將主動(dòng)學(xué)習(xí)選擇出的有標(biāo)記樣本反復(fù)迭代,優(yōu)化擴(kuò)充訓(xùn)練樣本集,以此達(dá)到最優(yōu)訓(xùn)練樣本集的目的。
主動(dòng)學(xué)習(xí)[10]在高光譜圖像分類領(lǐng)域得到了研究人員的廣泛關(guān)注。在遙感領(lǐng)域里常用的方法有:查詢專家委員會(huì)(Entropy Query by Bagging,EQB)、Breaking Ties(BT)、邊緣采樣策略(Margin Sampling,MS)[15-16]等。
在進(jìn)行數(shù)據(jù)分類時(shí),越靠近分類面的樣本,越具有不確定性,其含有的信息量也越大。將這樣的樣本作為訓(xùn)練樣本,能夠訓(xùn)練出更加準(zhǔn)確的分類器。設(shè)未被標(biāo)記的樣本集為U,可能的類標(biāo)號(hào)為Y={1,2,…},則某未被標(biāo)記的樣本屬于各個(gè)類別的概率為p。當(dāng)此樣本屬于多個(gè)類別的概率相等時(shí),說明此樣本屬于某個(gè)類別的不確定性越大,進(jìn)而說明了它含有的信息量更適合作為訓(xùn)練樣本。
支持向量機(jī)模型滿足核函數(shù)理論,是建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的二分類器[17-19]。它將原始的低維空間上的非線性數(shù)據(jù)或線性不可分?jǐn)?shù)據(jù)映射到高維空間中,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為準(zhǔn)則構(gòu)建最優(yōu)分類超平面,使兩類數(shù)據(jù)具有最優(yōu)的分類結(jié)果。SVM在高維數(shù)據(jù)處理方面具有良好的分類性能,被廣泛應(yīng)用在高光譜領(lǐng)域。
SVM的基本思想是求解分類超平面。設(shè)數(shù)據(jù)集I={(x1,y1),(x2,y2),…,(xn,yn)},其中xi(1≤i≤n)表示樣本的特征向量,yi(1≤i≤n)表示樣本的標(biāo)簽,分類超平面函數(shù)為f(x)=ωTx+b。為了在保證間隔最大的情況下正確地分開訓(xùn)練樣本,這個(gè)兩類分類問題被轉(zhuǎn)換成了一個(gè)帶約束的最小值問題,如式(1)、式(2)所示,其中l(wèi)為樣本數(shù)。
(1)
yi(ωTxi+b)-1≥0,i=1,…,l
(2)
求解過程中,可以引入拉格朗日(Lagrange)函數(shù),如式(3)所示。
(3)
令θ(ω)=maxλ(ω,b,a),則在滿足所有約束條件的情況下,式(1)可等價(jià)于最小化θ(ω)。
事實(shí)上,所有非支持向量所對(duì)應(yīng)的拉格朗日乘子都是等于0的,即只有支持向量落在ωTx+b=±1上的樣本點(diǎn)可以決定最優(yōu)超平面的計(jì)算。
首先,對(duì)高光譜數(shù)據(jù)進(jìn)行平滑(九點(diǎn)窗)和標(biāo)準(zhǔn)化預(yù)處理。為了有效地從龐大的樣本集中選擇更具代表性的數(shù)據(jù)作為訓(xùn)練集的數(shù)據(jù),本文提出了網(wǎng)格法分集的方法:先對(duì)數(shù)據(jù)進(jìn)行主成分分析,降低數(shù)據(jù)維數(shù),考慮到前3個(gè)主成分的累積貢獻(xiàn)率已經(jīng)較高,所以在三維主成分空間進(jìn)行后續(xù)的操作。
將前3個(gè)主成分得分向量分別記為pc1、pc2、pc3,找出每個(gè)主成分得分向量中的最大值pcjmax和最小值pcjmin(j=1,2,3),兩者相減得到各自的范圍,即(pcjmax-pcjmin)。將(pcjmax-pccjmin)再除以正整數(shù)Rj(j=1,2,3),得到步長(pcjmax-pcjmin)/Rj。在每一個(gè)主成分得分軸上以上述步長分別劃分網(wǎng)格,如圖1所示,共得到R1×R2×R3個(gè)網(wǎng)格,每一個(gè)網(wǎng)格對(duì)應(yīng)一個(gè)小長方體。
圖1 網(wǎng)格法分集挑選數(shù)據(jù)示例
圖1中,不同形狀的符號(hào)代表不同的地物類別,其中部分長方體沒有樣本落入其中,其余的長方體則有一個(gè)或多個(gè)樣本落入其中。若有多個(gè)樣本聚集在一起,則說明它們?cè)诤艽蟪潭壬蠑y帶了相似的信息。為了避免這些樣本都被選擇進(jìn)入訓(xùn)練集而增加冗余度,本文在含有多個(gè)樣本的長方體中隨機(jī)選出一個(gè)樣本,并根據(jù)其序號(hào)將該序號(hào)對(duì)應(yīng)的原始光譜數(shù)據(jù)歸入訓(xùn)練集,然后將該網(wǎng)格內(nèi)其余序號(hào)的光譜數(shù)據(jù)歸入測(cè)試集。
同時(shí),網(wǎng)格法分集還考慮了不同類別的樣本數(shù)量差異。為了防止訓(xùn)練集中沒有小樣本類別地物樣本,本方法針對(duì)不同類別的樣本劃分了不同疏密程度的網(wǎng)格,根據(jù)類別的不同,分別挑選數(shù)據(jù)。對(duì)于樣本數(shù)量較小的類別劃分更加密集的網(wǎng)格,以便讓更多此類別的數(shù)據(jù)落入長方體,并歸入訓(xùn)練集中。網(wǎng)格法分集可以有效提高小樣本類別的訓(xùn)練樣本數(shù),降低大樣本類別的訓(xùn)練樣本數(shù),并在最大限度上保證每個(gè)類別的地物都有近似相同的訓(xùn)練樣本數(shù)。
對(duì)訓(xùn)練集進(jìn)行PCA和LDA降維操作,取前q個(gè)主成分形成q維特征空間。LDA是一種有監(jiān)督的特征提取算法,對(duì)于給定的訓(xùn)練集,LDA可以使類內(nèi)方差最小,類間方差最大。LDA可有效提取不同類別的特征,并將所有樣本轉(zhuǎn)換到新的子空間中。
采用PCA得到的系數(shù)矩陣和訓(xùn)練集的光譜均值對(duì)測(cè)試集的樣本進(jìn)行仿真,得到其主成分得分矩陣。再用訓(xùn)練集的LDA判別式系數(shù)矩陣處理測(cè)試集,得到測(cè)試集的LDA判別式得分矩陣。
隨后,利用訓(xùn)練集和測(cè)試集的判別式得分矩陣及訓(xùn)練集的標(biāo)簽向量進(jìn)行K-近鄰(K-Nearest Neighbor,KNN)分類概率預(yù)測(cè)。將未標(biāo)注樣本加入到KNN分類器中進(jìn)行訓(xùn)練,并對(duì)未標(biāo)記的樣本屬于各個(gè)類別的概率進(jìn)行預(yù)測(cè);然后,按照從大到小的順序?qū)Υ烁怕逝判?,將最大概率與次大概率相減,記為P2;隨后對(duì)P2按照從小到大排列,按照數(shù)據(jù)的真實(shí)類別,對(duì)P2最小的w個(gè)樣本進(jìn)行人工標(biāo)注,歸入訓(xùn)練集,并移出測(cè)試集;重新對(duì)新的訓(xùn)練集和測(cè)試集進(jìn)行PCA和LDA降維,再進(jìn)行KNN分類概率預(yù)測(cè)。按照上述步驟循環(huán)進(jìn)行,當(dāng)歸入訓(xùn)練集的數(shù)據(jù)達(dá)到所需數(shù)量時(shí),退出循環(huán)。
考慮到高光譜空間特征對(duì)分類準(zhǔn)確性的影響,本文在特征選擇的范疇,將其二維位置坐標(biāo)作為有效特征,并將其合并在原有的d維特征空間中,則特征空間的維數(shù)變化為d+2。本文以主動(dòng)學(xué)習(xí)后選出的樣本作訓(xùn)練集,對(duì)所有樣本進(jìn)行SVM分類測(cè)試,得到最終的分類結(jié)果。
基于網(wǎng)格法分集和主動(dòng)學(xué)習(xí)的算法流程如圖2所示。
圖2 基于網(wǎng)格法分集和主動(dòng)學(xué)習(xí)的算法流程圖
本實(shí)驗(yàn)選取的高光譜圖像數(shù)據(jù)為Indian Pines數(shù)據(jù),其波長覆蓋范圍為400~2 500 nm。剔除20個(gè)水吸收波段后剩余200個(gè)波段,每個(gè)波段包含145像素×145像素,共有16種地物類別。第115波段的灰度顯示圖如圖3所示。
圖3 第115波段的灰度顯示圖
選擇樣本數(shù)目較多的14個(gè)類別進(jìn)行實(shí)驗(yàn),地物真實(shí)類別圖如圖4所示。
圖4 地物真實(shí)類別展示
3.2.1 評(píng)價(jià)指標(biāo)
本文方法的實(shí)驗(yàn)結(jié)果將通過下面3個(gè)標(biāo)準(zhǔn)進(jìn)行評(píng)判,并將結(jié)果與其它方法的結(jié)果進(jìn)行比較。評(píng)價(jià)指標(biāo)的值越大說明模型的分類效果越強(qiáng)。
總體分類精度(Overall Accuracy,OA)的定義為:統(tǒng)計(jì)正確分類的樣本數(shù)目,與被標(biāo)記的總體樣本數(shù)目作比值。該指標(biāo)可以直觀地顯示分類效果的好壞,其計(jì)算式為
(4)
式中,N表示被標(biāo)記的總體樣本數(shù)目;mi表示正確分類到第i類的樣本數(shù)量。
平均分類精度(Average Accuracy,AA)的定義為:將每一類別正確分類的樣本數(shù)目占該類別樣本數(shù)目的比值進(jìn)行求和,并與被標(biāo)記的總體樣本數(shù)目做比值。AA的計(jì)算式為
(5)
可以看出,當(dāng)某一類分類精度過低時(shí),OA就會(huì)被拉低。因此相比于OA,AA更加客觀。但當(dāng)每個(gè)類別具有相同的樣本數(shù)目時(shí),OA與AA相等。
Kappa分析是以分類混淆矩陣判定分類精度的評(píng)判指標(biāo),Kappa值越大代表分類圖像與監(jiān)督圖像的一致性越高,其計(jì)算式如(6)所示。
(6)
3.2.2 實(shí)驗(yàn)對(duì)比方法
本文在Intel(R)Core(TM)i5-6200U CPU @ 2.30 GHz的PC機(jī)上利用MATLAB 2015b進(jìn)行仿真。隨后,將本文方法得到的分類結(jié)果分別與以下幾種情況進(jìn)行比較:
(1)隨機(jī)分集。在其他條件與本文算法流程相同的情況下,分集時(shí)不采用網(wǎng)格法分集的方式,而采用隨機(jī)分集的方式,從樣本集中隨機(jī)抽取與網(wǎng)格法分集相同數(shù)量的樣本作為訓(xùn)練集樣本,再進(jìn)行主動(dòng)學(xué)習(xí)操作;
(2)省略LDA降維過程。在其他條件相同的情況下,降維時(shí)僅進(jìn)行PCA操作而不進(jìn)行LDA操作。通過PCA將數(shù)據(jù)降至20維;
(3)非主動(dòng)學(xué)習(xí)。不進(jìn)行主動(dòng)學(xué)習(xí)操作,通過網(wǎng)格法分集中網(wǎng)格的疏密來控制選擇數(shù)據(jù)的數(shù)量,以保證最終的訓(xùn)練集樣本數(shù)與本文算法相同;
(4)未合并二維坐標(biāo)信息。在進(jìn)行SVM分類操作時(shí),不考慮高光譜圖像的空間信息,即不將地物的坐標(biāo)信息并入訓(xùn)練集和測(cè)試集的特征空間;
(5)本文方法。本文采用PCA+LDA+合并二維坐標(biāo)+網(wǎng)格法分集+主動(dòng)學(xué)習(xí)。
對(duì)原始數(shù)據(jù)進(jìn)行主成分分析,將主成分空間劃分成若干網(wǎng)格,在每個(gè)含有樣本的網(wǎng)格中隨機(jī)挑選一個(gè)樣本,并將其原始光譜數(shù)據(jù)歸入訓(xùn)練集;然后,對(duì)訓(xùn)練集進(jìn)行PCA和LDA降維,得到相應(yīng)矩陣后,利用K-近鄰法進(jìn)行主動(dòng)學(xué)習(xí),從中選擇不確定性最大的若干樣本歸入訓(xùn)練集;最后,在原有d維特征空間的基礎(chǔ)上合并二維位置坐標(biāo),以主動(dòng)學(xué)習(xí)后選出的樣本作訓(xùn)練集,對(duì)所有樣本進(jìn)行SVM分類測(cè)試,得到最終的分類結(jié)果。
3.3.1 參數(shù)設(shè)置
在網(wǎng)格法分集的時(shí)候,本實(shí)驗(yàn)盡量提高小樣本類別的訓(xùn)練樣本數(shù),在pc1、pc2、pc3這3個(gè)主成分得分向量軸上盡可能多劃分網(wǎng)格,并降低大樣本類別的訓(xùn)練樣本數(shù),盡量減少網(wǎng)格劃分。通過觀察類別中的樣本總數(shù)量和挑選的初始樣本數(shù)量來決定所有的網(wǎng)格劃分粒度。通過網(wǎng)格法分集,從全部的10 320個(gè)樣本集中共挑出50個(gè)作為初始樣本,初始樣本數(shù)不超過樣本總數(shù)的0.5%。每一類的具體挑選情況如表1所示。
表1 不同類別的網(wǎng)格劃分情況
在用K-近鄰法預(yù)測(cè)未標(biāo)記的樣本屬于各個(gè)類別的概率時(shí),K值的選取也是決定分類精度的關(guān)鍵因素。從分類精度上考慮,實(shí)驗(yàn)進(jìn)行了訓(xùn)練樣本為200時(shí)不同K值的分類精度比較,如表2所示。由結(jié)果可知,在K=2或K=4時(shí),精度較高。從預(yù)測(cè)類別的可能性來說,當(dāng)K=4時(shí),預(yù)測(cè)結(jié)果要更加豐富,更具差異性。因此,本文選擇K=4作為K-近鄰的輸入?yún)?shù)。
表2 不同K值的分類精度比較
在主動(dòng)學(xué)習(xí)的過程中,每次迭代選擇25個(gè)樣本進(jìn)行標(biāo)記。當(dāng)訓(xùn)練集樣本達(dá)到400時(shí),每次迭代樣本量改為100,直到滿足訓(xùn)練樣本數(shù)目不超過樣本總數(shù)的10%,即1 000個(gè)為止,其它的樣本均作為測(cè)試樣本。
在數(shù)據(jù)降維的過程中,本實(shí)驗(yàn)先通過PCA將數(shù)據(jù)降成20維,再通過LDA將數(shù)據(jù)降為10維,進(jìn)行SVM分類時(shí)合并地物的二維坐標(biāo)后,總維數(shù)為12。
3.3.2 不同方法的分類性能分析與對(duì)比
本文中,5種不同方法的分類性能如圖5、表3和表4所示。
圖5為訓(xùn)練集數(shù)量為200時(shí)的分類地物圖展示。由圖5可知,運(yùn)用本文所提方法后,圖中的“斑點(diǎn)”現(xiàn)象得到了改善,可以更加清晰地看到多個(gè)類別的較為完整的分類。
圖5 不同方法的分類地物圖展示
如表3所示為在訓(xùn)練集樣本數(shù)為200時(shí),OA、AA和Kappa系數(shù)的表現(xiàn)情況。從表3的OA、AA及Kappa系數(shù)橫向比較中可以看出,本文提出算法的精度均高于對(duì)比方法。以O(shè)A為例,在訓(xùn)練集樣本數(shù)為200時(shí),本文方法比隨機(jī)分集高出12.24%,比省略LDA操作提高5.76%,比非主動(dòng)學(xué)習(xí)高出19.76%,比未合并二維坐標(biāo)提高了14.82%。
表3 不同方法的分類精度比較
表4展示了不同算法的運(yùn)算效率。本文將每種方法在訓(xùn)練集樣本數(shù)為200時(shí)的程序分別運(yùn)行10次,再計(jì)算平均運(yùn)行時(shí)間。結(jié)果表明,本文算法運(yùn)行時(shí)間分別比隨機(jī)分集、未合并二維坐標(biāo)減少了3.56 s和8.15 s,比省略LDA降維操作和非主動(dòng)學(xué)習(xí)分別增加了1.03 s、5.28 s。
表4 不同方法的運(yùn)算速度比較
綜上所述,本文方法雖在時(shí)間上略長于非主動(dòng)學(xué)習(xí)和省略LDA降維操作,但在分類精度上較其他方法均有一定提升。綜合考慮,本文算法的效果最佳。
3.3.3 不同訓(xùn)練樣本下網(wǎng)格法分集和隨機(jī)分集的分類性能分析
圖6展示了訓(xùn)練樣本迭代過程中網(wǎng)格法分集和隨機(jī)分集的分類精度變化。由圖可知,網(wǎng)格法分集對(duì)精度有比較大幅的提升,這不受訓(xùn)練樣本數(shù)量的影響,且其對(duì)平均分類精度提升最為明顯,例如在訓(xùn)練樣本數(shù)僅為100的時(shí)候,其對(duì)AA有24.42%的精度提升;在訓(xùn)練樣本數(shù)為400的時(shí)候,其對(duì)AA有20.94%的提升。造成該結(jié)果的主要原因?yàn)榫W(wǎng)格法分集盡可能照顧到了小樣本類別的分類情況,對(duì)樣本數(shù)量比較小的地物類別能夠起到更好的分類效果,進(jìn)而提高了整體分類精度。
(a)
3.3.4 不同訓(xùn)練樣本下僅PCA降維操作與PCA+LDA降維操作的分類性能分析
圖7展示了在訓(xùn)練樣本迭代過程中,僅PCA降維操作與PCA+LDA降維操作后分類精度的變化情況。增加LDA降維后,OA、AA和Kappa系數(shù)均有提升,平均漲幅在2%左右。相較于PCA降維,LDA在降維過程中,可以使用類別的先驗(yàn)知識(shí)經(jīng)驗(yàn),且樣本分類信息依賴均值而不是方差,因此產(chǎn)生了更好的效果。
(a)
此外,本文還通過PCA將數(shù)據(jù)降成10維,并與聯(lián)合運(yùn)用PCA和LDA將數(shù)據(jù)降為10維進(jìn)行了性能對(duì)比,結(jié)果如圖8所示。直接用PCA降為10維,本文方法的OA平均提高了3.7%,平均運(yùn)行時(shí)間僅增加了2.49 s,說明了加入LDA降維的必要性。
(a)
3.3.5 不同訓(xùn)練樣本下非主動(dòng)學(xué)習(xí)與主動(dòng)學(xué)習(xí)的分類性能分析
不同訓(xùn)練樣本下非主動(dòng)學(xué)習(xí)與主動(dòng)學(xué)習(xí)的分類精度如圖9所示。
(a)
在訓(xùn)練樣本數(shù)為75時(shí),相較于非主動(dòng)學(xué)習(xí),主動(dòng)學(xué)習(xí)算法的OA、AA、Kappa系數(shù)分別增加了32.02%、8.92%和27.79%。在訓(xùn)練樣本數(shù)為400時(shí),主動(dòng)學(xué)習(xí)算法的OA、AA、Kappa系數(shù)漲幅分別為17.24%、6.36%和18.99%??梢钥闯?,本實(shí)驗(yàn)中主動(dòng)學(xué)習(xí)通過將更難分類的樣本歸入訓(xùn)練集,在小樣本條件下對(duì)評(píng)價(jià)指標(biāo)的提升更明顯,能夠呈現(xiàn)出更好、更可靠的分類性能。
3.3.6 不同訓(xùn)練樣本下不合并二維坐標(biāo)與合并二維坐標(biāo)的分類性能分析
圖10展示了訓(xùn)練樣本迭代過程中,合并二維坐標(biāo)前后的分類精度變化。在SVM分類中加入地物的二維坐標(biāo)后,3個(gè)分類精度的評(píng)價(jià)指標(biāo)有較大幅度的增長。其中,無論訓(xùn)練集樣本數(shù)量的多或少,其平均漲幅均保持在10%左右。在SVM分類中加入地物的二維坐標(biāo)后,相當(dāng)于加入了高光譜數(shù)據(jù)的空間特征,這對(duì)于分類精度的改善起到了至關(guān)重要的作用。
(a)
針對(duì)高光譜圖像分類中訓(xùn)練樣本數(shù)量少、冗余度高的問題,本文提出了一種基于網(wǎng)格法分集和主動(dòng)學(xué)習(xí)的算法。該算法首先將主成分空間劃分成若干網(wǎng)格,在每個(gè)含有樣本的網(wǎng)格中隨機(jī)挑選一個(gè)樣本;接著,對(duì)訓(xùn)練集進(jìn)行PCA和LDA降維;得到相應(yīng)矩陣后,利用K-近鄰法進(jìn)行主動(dòng)學(xué)習(xí),從中選擇不確定性大的樣本歸入訓(xùn)練集,并進(jìn)行了訓(xùn)練集數(shù)據(jù)的篩選。在Indian Pines高光譜分類的仿真實(shí)驗(yàn)結(jié)果表明,在訓(xùn)練集樣本數(shù)相同的情況下,網(wǎng)格法分集、主動(dòng)學(xué)習(xí)、LDA降維和合并二維坐標(biāo)均能不同程度地提高高光譜分類精度。其中,LDA降維對(duì)精度有小幅度提高;網(wǎng)格法分集能夠更好地照顧到小樣本地物的分類準(zhǔn)確度;主動(dòng)學(xué)習(xí)在小樣本訓(xùn)練集的情況下對(duì)精度提升更加明顯;合并二維坐標(biāo)能夠大幅提高分類精度。
今后的研究重點(diǎn)集中在以下兩個(gè)方面:首先,在網(wǎng)格法分集的部分,將采用更加智能的方式對(duì)三維主成分空間進(jìn)行粒度劃分;其次,考慮提取空間紋理、形狀、對(duì)象、語義等空間信息,以便更加有效地融合空間特征,從而進(jìn)一步提高運(yùn)行效率和分類精度。