王 燕, 李國臣, 孫曉麗
(蘭州理工大學(xué) 計算機與通信學(xué)院, 甘肅 蘭州 730050)
高光譜遙感技術(shù)是二十一世紀(jì)地球觀測所使用的重要技術(shù)之一,還被廣泛應(yīng)用于農(nóng)業(yè)、軍事等領(lǐng)域.高光譜圖像具有高分辨率、圖譜合一等特征,有效地融合了連續(xù)的光譜信息與幾何空間信息[1],這使得高光譜圖像蘊含豐富的數(shù)據(jù)量,同時也使得高光譜圖像數(shù)據(jù)維度高[2],而且數(shù)據(jù)之間存在高度的相關(guān)性、非線性以及數(shù)據(jù)冗余[3],使得高光譜圖像數(shù)據(jù)的處理面臨較大的困難.
高光譜圖像的分類是當(dāng)前高光譜圖像方面研究的熱點之一.傳統(tǒng)的高光譜圖像以像元為單位進行分類.后來,出現(xiàn)面向?qū)ο蟮姆诸惙椒?,通過提取圖像的空間信息結(jié)合圖像的光譜信息進行分類.余岸竹等[4]利用超像素分割波段提取顯著特征,再結(jié)合光譜信息進行分類.Cui等[5]通過超像素處理光譜信息,將LP算法與SVM進行融合.吳爾律等[6]針對JSRC和JNRS增加SVM分類器作后級,形成JSRC -SVM和JNRS-SVM兩級分類器,使用較少的訓(xùn)練集就可以訓(xùn)練模型,但是精度相對較低.
當(dāng)前,基于深度學(xué)習(xí)[7]和集成學(xué)習(xí)[8]的分類方法成為高光譜圖像分類的熱點方法.基于深度學(xué)習(xí)的方法大多基于深度卷積神經(jīng)網(wǎng)絡(luò)[9].Akrem等[10]提出了一種自適應(yīng)降維與半監(jiān)督3-d卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的分類方法;張云等[11]提出了基于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的人臉特征點檢測算法;Liu等[12]提出了一種基于遞歸神經(jīng)網(wǎng)絡(luò)的分類模型,通過不同鄰域像素之間的依賴關(guān)系建模,但是沒有考慮最后像素的相鄰像素.基于深度學(xué)習(xí)的分類方法在特征提取上有特別好的效果,但是對于數(shù)據(jù)量相對較小的數(shù)據(jù)集效果不是很明顯.此外,因為計算數(shù)據(jù)量較大,對于計算設(shè)備的要求也比較高,而且往往會出現(xiàn)過擬合的問題.
基于集成學(xué)習(xí)的方法大多是基于特征融合和分類器融合.崔賓閣等[13]提出一種基于多特征圖像的集成學(xué)習(xí)方法,利用自適應(yīng)增強的方式優(yōu)化SVM的核得到分類模型,但對于核的重要性選擇沒有好的方法.錢建波[14]提出一種多特征融合的圖像篡改檢測模型,從多通道、多變換域的角度進行判別.李雪瑩等[15]通過投票法融合多分類器的結(jié)果,分類效果的提升并不明顯.
因此,針對高光譜圖像分類分類效果不理想等問題,本文提出了一種基于多分類器融合的高光譜分類方法.通過三種特征提取方法分別與三種分類器結(jié)合進行分類,并提出AHP-投票法,最終得到較優(yōu)的分類結(jié)果.
本文首先利用雙邊濾波算法,結(jié)合灰度值與歐氏距離進行去噪,能更好地保存邊緣像素數(shù)據(jù).然后使用PCA分別結(jié)合LDA、Gabor濾波進行降維與特征的提取,降低數(shù)據(jù)量的同時增加類間距離,減小類內(nèi)差距.再加上僅用PCA進行降維與特征提取得到的數(shù)據(jù),分別使用SVM、LightGBM、AdaBoost三種分類器并聯(lián)進行分類.最后,使用AHP-投票法融合三種分類器的分類結(jié)果,最終得到較好的分類效果.
由于高光譜數(shù)據(jù)集的維度較高,數(shù)據(jù)量較大,而且存在數(shù)據(jù)冗余、數(shù)據(jù)相關(guān)性較大等情況,所以需要進行降維與去噪處理,減小數(shù)據(jù)量,減輕數(shù)據(jù)相關(guān)性大等問題.
本文的預(yù)處理部分主要是雙邊濾波去噪處理,在考慮像素之間空間上的距離以外,還加入光譜信息,通過歐氏距離與灰度值結(jié)合來進行去噪處理,可以有效地處理有圖譜合一特征的高光譜圖像.如下式所示:
式中:σs為空域高斯函數(shù)的標(biāo)準(zhǔn)差;σr為值域高斯函數(shù)的標(biāo)準(zhǔn)差;Ω表示卷積的定義域.雙邊濾波算法[16]主要通過空間域函數(shù)和光譜域函數(shù)構(gòu)成.
本文通過對處理后的高光譜圖像數(shù)據(jù)分別使用三種處理方法得到三組處理數(shù)據(jù),并將三組處理數(shù)據(jù)分別使用三種分類器進行分類.三種處理方法指通過PCA與LDA相結(jié)合(即PCA+LDA)、PCA、PCA與Gabor濾波相結(jié)合(即PCA+Gabor)三種方式進行降維與特征提取.為了在保證降低數(shù)據(jù)維度,減小數(shù)據(jù)量的同時,不會造成因為維度過低而導(dǎo)致的精度下降問題,本文將維度統(tǒng)一降到10維.
PCA與LDA對圖像進行處理,可以很好地增大類間距離,減小類內(nèi)距離,減少數(shù)據(jù)量,可以較好地提取光譜特征和一部分空間特征.Gabor濾波對數(shù)據(jù)進行濾波處理,可以較好地提取數(shù)據(jù)的空間特征,特別是紋理特征.因此,本文使用PCA+LDA、PCA、PCA+Gabor這三種不同的處理方法可以更好地提取圖像的空間特征和光譜特征.
SVM分類器作為傳統(tǒng)分類器中分類效果較好的一種,具有最小結(jié)構(gòu)化風(fēng)險的特點,但是時間復(fù)雜度相較于集成學(xué)習(xí)的算法較高,所以本文采用PCA+LDA特征處理,然后使用SVM分類器進行分類.LightGBM分類器具有精度高、速度快和支持高效并行運算等特點,本文采用PCA降維后直接使用LightGBM分類器進行分類.AdaBoost分類器具有泛化錯誤率低、精度高、增加錯誤樣本權(quán)重等特點.所以本文采用PCA降維,Gabor濾波提取空間特征,再使用AdaBoost分類器進行分類.
2.2.1PCA+LDA+SVM分類器
PCA對于處理高光譜圖像數(shù)據(jù)的相關(guān)性有非常好的效果,但是,由于其主要的指標(biāo)是方差,對于大數(shù)據(jù)量的降維,效果不是很理想,LDA主要通過將數(shù)據(jù)從高維空間投影到低維空間,最大化數(shù)據(jù)的類間距離,進而達到降維的目的.但是,LDA最多只能降低到比種類數(shù)減一維.所以使用LDA和PCA進行聯(lián)合降維,可以利用兩種方法的優(yōu)勢,達到較好的降維效果.
SVM[17]分類器是一種特征空間最大化間隔的線性分類器,主要通過從多維空間中尋找最優(yōu)超平面來分割空間中不同類別數(shù)據(jù),使得不同類別數(shù)據(jù)距離最優(yōu)超平面間隔最遠(yuǎn),以此來達到分類的目的.
2.2.2PCA+LightGBM分類器
由于LightGBM分類器具有較高的精度,所以在預(yù)處理中只使用PCA降維處理,不再進行其他處理.
LightGBM算法[18]主要通過在殘差減小的梯度方向上建立梯度提升樹的方式實現(xiàn)分類.通過加入基于直方圖的決策樹算法,遍歷直方圖尋找最優(yōu)點分割,極大提高了算法訓(xùn)練速度.通過葉子生長的分裂方式,避免無用分裂帶來的消耗,極大地提高了算法的效率.
2.2.3PCA+Gabor+AdaBoost分類器
Gabor濾波器[19]是一種可用于特征提取的線性濾波器,頻率和方向的表達方面類似于視覺系統(tǒng),對于空間信息中紋理特征的提取有著非常好的效果.
AdaBoost采用對多個弱學(xué)習(xí)器進行迭代訓(xùn)練,達到提高分類的效果.AdaBoost主要根據(jù)上一次訓(xùn)練的結(jié)果,通過增加錯誤樣本的權(quán)重,減小正確樣本的權(quán)重,使精度高的有更高的權(quán)重,循環(huán)迭代進而得到較好的分類效果.
為有效地對分類結(jié)果進行融合,充分利用三種分類器的優(yōu)勢,得到更好的分類結(jié)果,本文引入AHP,提出一種新的投票法結(jié)果融合模型(AHP-投票法),通過AHP算法確定權(quán)重,然后根據(jù)相對多數(shù)投票原則和加權(quán)投票原則進行結(jié)果融合.
AHP算法[20]主要是將一個問題分成幾個不同的層次,綜合考慮各種因素的重要程度,通過構(gòu)造成對比矩陣,得到各種因素的權(quán)重系數(shù).AHP算法首先進行分層,確定上下關(guān)系,然后使用成對比較法和1~9比較尺度構(gòu)建成對比矩陣.之后通過下面的3個公式進行一致性檢驗:
一致性指標(biāo):
(3)
隨機一致性指標(biāo):
(4)
一致性比率:
(5)
其中:λmax(A)是判斷矩陣A的最大特征根;n是矩陣的維度.
如果檢驗通過,則將最大特征根對應(yīng)的特征向量進行歸一化處理得到權(quán)向量,進而得到每一層因素的權(quán)重,否則需要重新構(gòu)建成對比矩陣.
以Salinas數(shù)據(jù)集為例,本文引入層次分析法部分的層次結(jié)構(gòu)如圖1所示,通過三種分類器,得到一共16種分類結(jié)果,通過確定分類結(jié)果的權(quán)重,實現(xiàn)對分類結(jié)果的融合.流程圖如圖2所示,具體操作步驟如下:
圖1 層次結(jié)構(gòu)圖
圖2 AHP-投票法流程圖Fig.2 Flow chart of AHP voting method
1)首先運行三個分類器,得到分類結(jié)果,并計算三個分類器的訓(xùn)練精度;
2) 將三個分類器的分類精度進行歸一化處理,將處理結(jié)果作為分類器的重要程度;
3) 引入AHP算法,將處理后的結(jié)果兩兩求比值,作為相對重要程度的參數(shù),構(gòu)建成對比矩陣;
4) 根據(jù)AHP算法對權(quán)向量進行計算,得到每個分類器的重要程度權(quán)重;
5) 根據(jù)三個分類器的分類結(jié)果,進行相對多數(shù)投票法投票得到最終結(jié)果,若是三個分類器結(jié)果各不相同,則采用加權(quán)投票法進行融合,權(quán)重即通過AHP算法得到的重要程度權(quán)重.
Indian Pines數(shù)據(jù)集是由機載可視紅外成像光譜儀(AVIRIS)于1992年對美國印第安納州一塊印度松樹進行成像,然后截取尺寸為145×145的大小進行標(biāo)注得到的,空間分辨率約20 m,包含200個波段.
Salinas數(shù)據(jù)集是對美國加利福尼亞州的薩利納斯山谷通過AVIRIS成像儀所拍攝的圖像數(shù)據(jù).Salinas數(shù)據(jù)集尺寸為512×217,一共有204個波段,包含111 104個像素,總共分為16類.
Pavia University數(shù)據(jù)集是由德國的機載反射光學(xué)光譜成像儀于2003年對意大利的帕維亞城所成像的一部分高光譜數(shù)據(jù),然后截取尺寸為310×340的大小進行標(biāo)注得到的,共包含103個波段,共42 776個像素,空間分辨率約1.3 m.
三種數(shù)據(jù)集的地面基準(zhǔn)圖和假彩色圖像如圖3和圖4所示,具體類別和數(shù)目如表1所列.
圖4 數(shù)據(jù)集假彩色圖像Fig.4 False color image of dataset
表1 三種數(shù)據(jù)集的樣本類別及數(shù)目
圖3 數(shù)據(jù)集地面基準(zhǔn)圖
3.2.1實驗環(huán)境
本文實驗使用Intel(R)Core(TM) i5-4 210U CPU@ 1.7 GHz 2.4 GHz的聯(lián)想計算機,RAM為4.00 GB,64位Win10操作系統(tǒng),使用的Python版本為3.8.3.
3.2.2評價標(biāo)準(zhǔn)
本文實驗對整體的評價指標(biāo)有總體精度(overall accuracy,OA)、平均精度(average accuracy,AA)和Kappa系數(shù)[21]三種,對單分類器的評價指標(biāo)有精確率(precision)、召回率(recall)和F1分?jǐn)?shù)(F1-score)[22]三種.
本文隨機選取Salinas數(shù)據(jù)集、Indian Pine數(shù)據(jù)集和Pavia University 數(shù)據(jù)集,除第五部分實驗外均取40%的數(shù)據(jù)作為訓(xùn)練集,60%的數(shù)據(jù)作為測試集.圖像預(yù)處理部分采用雙邊濾波算法,設(shè)置windowsize=11,Sigma Color=10,Sigma Space=10.為避免偶然因素的發(fā)生,所得的測試結(jié)果為相同條件下進行5次實驗結(jié)果的平均值,此外,本文分類器中所用參數(shù)除部分是Python源參外,都是通過實驗確定的.
本節(jié)主要分為五部分,第一部分為在Salinas數(shù)據(jù)集上,探究PCA+LDA組合降維時最優(yōu)維度實驗;第二部分為在Salinas數(shù)據(jù)集上,AHP-投票法融合前后的對比實驗;第三部分為在Indian Pine數(shù)據(jù)集上,AHP-投票法融合前后的對比實驗;第四部分為在Salinas數(shù)據(jù)集上,AHP-投票法融合結(jié)果與其他分類器(XGBoost分類器、決策樹分類器、樸素貝葉斯分類器和KNN分類器)的對比實驗;第五部分是與其他論文中方法(基于超像素的多分類器融合[5]和基于兩級分類器融合[6])的對比實驗.
3.3.1最優(yōu)維度實驗
使用Salinas數(shù)據(jù)集,設(shè)置最終降低維數(shù)為10維,設(shè)置SVM分類器RBF函數(shù)自帶參數(shù)gamma=0.125,懲罰系數(shù)C=200進行實驗.設(shè)置PCA算法降低到q維,然后由LDA算法將維度由q維降低到10維,再使用SVM分類器分別進行分類,最終降低到10維得到的精度曲線圖分別如圖5所示.
圖5 SVM分類器的分類精度折線圖
由圖5可知,通過PCA算法降低到23維,然后通過LDA算法降維至10維再使用SVM分類器進行分類得到效果最好,其OA為94.40%,AA為97.53%,Kappa系數(shù)為93.84%,其分類結(jié)果的假色彩圖像如圖6a所示.
圖6 Salinas數(shù)據(jù)集上三個分類器與結(jié)果融合后假色彩圖像對比Fig.6 Comparison of false color images after fusion of three classifiers and results on Salinas dataset
3.3.2Salinas數(shù)據(jù)集上AHP-投票法融合前后的對比實驗
1) LightGBM分類器
本部分直接使用PCA算法將維度降低至10維,再使用LightGBM分類器進行分類.設(shè)置LightGBM分類器的主要參數(shù)為:learning_rate=0.1,lambda_l1 =0.1,lambda_l2 =0.2,max_depth =4,num_leaves=60,num_class =16.分類結(jié)果的假色彩圖像如圖6b所示.
2) AdaBoost分類器
本部分首先使用的Gabor濾波器對預(yù)處理后的高光譜圖像進行紋理特征提取,同時對數(shù)據(jù)進行降維,降至80維,然后再通過PCA算法進行數(shù)據(jù)降維,降至10維.設(shè)置Gabor濾波器的主要參數(shù)為:設(shè)置25、27、29、31、33五個尺度.AdaBoost分類器的主要參數(shù)設(shè)置為:n_estimators =50,learning_rate =0.1.分類結(jié)果的假色彩圖像如圖6c所示.
3) AHP-投票法融合結(jié)果
本部分使用AHP-投票法對分類結(jié)果進行融合.使用AHP算法計算權(quán)重,通過相對投票法與加權(quán)投票法相結(jié)合,對3個分類器的分類結(jié)果進行融合.
首先對3個分類器的分類精度進行預(yù)處理,構(gòu)建重要程度指標(biāo)向量a=(0.94,0.96,0.95),然后根據(jù)初始重要程度向量構(gòu)建成對比矩陣A:
(6)
對成對比矩陣A進行一致性檢驗,得到CI=0.000 29,RI=0.52,CR=0.000 58<0.1,符合一致性檢驗.然后將成對比矩陣每一列作歸一化處理,再按行相加,最后將結(jié)果進行歸一化處理,即得到重要程度權(quán)重向量b=(0.32,0.35,0.33).
使用AHP-投票法對分類結(jié)果進行融合,最終得到的假色彩圖像如圖6d所示,圖像中分類錯誤的斑點數(shù)量有所減少,融合的結(jié)果與單分類器進行比較,評價指標(biāo)結(jié)果如表2所列.
表2 單分類器結(jié)果與融合結(jié)果評價指標(biāo)
由表2可知,經(jīng)過AHP-投票法融合后,分類的OA、AA、Kappa系數(shù)都有了明顯的提高.相比較于SVM分類器,分類的OA、AA、Kappa系數(shù)分別提高了3.19%、1.42%、3.48%;相比較于LightGBM分類器,分類的OA、AA、Kappa系數(shù)分別提高了1.5%、0.69%、1.68%;相比較于AdaBoost分類器,分類的OA、AA、Kappa系數(shù)分別提高了2.21%、1.28%、2.46%.
融合后分類器每一類樣本的分類精確率、召回率、F1分?jǐn)?shù)與3個單分類器比較結(jié)果如表3所列,其中,正數(shù)表示該指標(biāo)融合后增加的數(shù)值,負(fù)數(shù)表示該指標(biāo)融合后下降的數(shù)值.由表3可以看出,融合后各指標(biāo)均有了明顯的上升.其中,對于16類樣本數(shù)據(jù)中單類數(shù)據(jù)指標(biāo),相比于SVM分類器,精確率最高提升8.79%,召回率最高提升9.3%,F(xiàn)1分?jǐn)?shù)最高提升9.07%;相比于LightGBM分類器,精確率最高提升4.87%,召回率最高提升6.16%,F(xiàn)1分?jǐn)?shù)最高提升5.57%;相比于AdaBoost分類器,精確率最高提升3.14%,召回率最高提升5.32%,F(xiàn)1分?jǐn)?shù)最高提升4.16%.
表3 每一類樣本融合前后的分類精度、召回率、F1分?jǐn)?shù)變化
3.3.3Indian Pine數(shù)據(jù)集上AHP-投票法融合前后的對比實驗
在相同參數(shù)設(shè)置的條件下,在Indian Pine數(shù)據(jù)集進行實驗.如圖7所示,結(jié)果融合后,噪點明顯較少,分類效果有明顯提高.
圖7 Indian Pine數(shù)據(jù)集上三個分類器與結(jié)果融合后假色彩圖像對比圖
如表4所列,AHP-投票法融合結(jié)果相比較于SVM分類器,OA、AA、Kappa系數(shù)分別提高了8.92%、6.78%、10.17%;相比較于LightGBM分類器,OA、AA、Kappa系數(shù)分別提高了3.54%、4.27%、4.07%;相比較于AdaBoost分類器,OA、AA、Kappa系數(shù)分別提高了7.01%、8.27%、7.99%.
表4 單分類器與融合結(jié)果評價指標(biāo)對比
3.3.4與其他分類器的對比實驗
本部分使用Salinas數(shù)據(jù)集,在預(yù)處理之后使用PCA進行降維處理,然后分別使用XGBoost分類器、決策樹分類器、樸素貝葉斯分類器和KNN分類器進行分類.如圖8所示,AHP-投票法融合后的假色彩圖像噪點最少,分類效果最好.
圖8 AHP-投票法與四種分類器分類結(jié)果的假色彩圖像Fig.8 False color images based on AHP voting and four classifiers
由表5可知,AHP-投票法融合結(jié)果相比較于XGBoost分類器,OA、AA、Kappa系數(shù)分別提高了4.14%、2.08%、4.63%;相比較于決策樹分類器,OA、AA、Kappa系數(shù)分別提高了3.59%、2.04%、4%;相比較于樸素貝葉斯分類器,OA、AA、Kappa系數(shù)分別提高了9%、5.66%、10.03%;相比較于KNN分類器,OA、AA、Kappa系數(shù)分別提高了6.56%、4%、7.32%.
表5 四種分類器與融合結(jié)果評價指標(biāo)
3.3.5與其他論文中的方法對比實驗
考慮到文獻[19,20]中的方法都是針對較小樣本的訓(xùn)練集,為了更好地實現(xiàn)對比,使用Pavia University數(shù)據(jù)集并調(diào)整訓(xùn)練集為數(shù)據(jù)集的15%,測試集為數(shù)據(jù)集的85%.由于LDA降維限制,調(diào)整降維維度為8維.表6為JSRC-SVM分類方法、JNRS-SVM分類方法、SMCF分類方法與本文使用的AH-投票法在Pavia University數(shù)據(jù)集上每一類分類結(jié)果的對比.
表6 Pavia University上四種分類方法結(jié)果對比
由圖9可知,相對比JSRC-SVM和JNRS- SVM兩級分類器,AHP-投票法噪點明顯較少,分類效果明顯優(yōu)于JSRC-SVM和JNRS-SVM兩級分類器;相比于SMCF算法,AHP-投票法噪點相對較少,主要集中于Self-Blocking Bricks類和Bare Soil類.由表6可知,相對比JSRC-SVM和JNRS-SVM兩級分類器,AHP-投票法對于各類的樣本分類精度更高,整體OA高6.5%以上,相對比SMCF算法,整體OA提升0.5%以上,對于一些類別的樣本,OA有明顯的提高.
圖9 Pavia University上四種分類方法假色彩圖像對比圖
綜上所述,本文提出的AHP-投票法多分類器融合方法對高光譜圖像的分類有較好的提升效果.
本文提出了一種新的基于多分類器融合的高光譜圖像分類方法.首先通過使用LDA與PCA結(jié)合、PCA、Gabor結(jié)合PCA三種方式分別提取光譜特征和空間特征,并分別通過SVM、LightGBM、AdaBoost三種分類器并聯(lián)進行分類,通過AHP-投票法進行融合,有效地融合三種特征提取方式與三種分類器的優(yōu)勢,得到了較好的分類效果.
雖然本文通過占用內(nèi)存較小,復(fù)雜度較低的模型實現(xiàn)了較好的分類效果,但是分類精度仍低于深層神經(jīng)網(wǎng)絡(luò).但卷積神經(jīng)網(wǎng)絡(luò)存在占用內(nèi)存較大等劣勢,所以接下來將研究結(jié)合簡單的單層神經(jīng)網(wǎng)絡(luò)進行分類,以提高分類的精度.