袁培森 翟肇裕 任守綱,3 顧興健 徐煥良,3
(1.南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院, 南京 210095; 2.馬德里理工大學(xué)技術(shù)工程和電信系統(tǒng)高級(jí)學(xué)院, 馬德里 28040;3.國(guó)家信息農(nóng)業(yè)工程技術(shù)中心, 南京 210095)
高光譜遙感技術(shù)通過(guò)采集不同目標(biāo)反射或輻射出不同波長(zhǎng)的電磁波, 得到以像素為單位的遙感影像。高光譜圖像(Hyperspectral image)擁有豐富的光譜信息,能提供準(zhǔn)確、詳細(xì)的土地覆蓋材料描述,在農(nóng)作物長(zhǎng)勢(shì)監(jiān)測(cè)、作物養(yǎng)分監(jiān)測(cè)、水分狀況監(jiān)測(cè)、作物生長(zhǎng)參數(shù)估算、農(nóng)作物高光譜遙感識(shí)別和分類等[1-6]方面具有廣泛的應(yīng)用。
高光譜圖像波段多, 光譜波段覆蓋范圍廣, 包含豐富的信息, 并可結(jié)合空間信息和光譜信息,有效地反映目標(biāo)的信息。高光譜圖像分類是高光譜遙感對(duì)地觀測(cè)研究的重要內(nèi)容,其具體任務(wù)是對(duì)高光譜圖像中的每一個(gè)像素所代表的目標(biāo)進(jìn)行有效的分類[7-8]。而非均衡問(wèn)題是高光譜數(shù)據(jù)非常普遍的現(xiàn)象,當(dāng)數(shù)據(jù)集中類別的比例嚴(yán)重失調(diào)時(shí),傳統(tǒng)的分類技術(shù)對(duì)于不平衡的數(shù)據(jù)集往往不能產(chǎn)生令人滿意的結(jié)果[9]。因此非均衡高光譜數(shù)據(jù)的分類是一個(gè)很普遍和重要的問(wèn)題[10-14]。
處理非均衡數(shù)據(jù)分類的主要技術(shù)包括數(shù)據(jù)采樣[15-16]、基于代價(jià)的分類[17]等。其中,基于數(shù)據(jù)采樣技術(shù)包括過(guò)采樣和欠采樣[18]。欠采樣采用減少多類樣本方案,但是由于高光譜圖像訓(xùn)練樣本一般較少,對(duì)采集到的高光譜圖像進(jìn)行標(biāo)記代價(jià)較高。丟失的標(biāo)類樣本對(duì)分類模型具有較大的影響,因此對(duì)于不均衡農(nóng)業(yè)高光譜數(shù)據(jù)導(dǎo)致的少數(shù)類分類質(zhì)量問(wèn)題,本文采用典型的合成少數(shù)類的過(guò)采樣技術(shù)(Synthetic minority oversampling technique,SMOTE)[19]。
目前,在非均衡高光譜數(shù)據(jù)集上的分類研究,尤其是農(nóng)業(yè)高光譜數(shù)據(jù)分析方面,許多學(xué)者進(jìn)行了研究。ZHANG等[10]提出,模型學(xué)習(xí)期間使用支持向量進(jìn)行抽樣,使得訓(xùn)練數(shù)據(jù)分布均衡。GARCA等[20]使用隨機(jī)采樣和PCA技術(shù)對(duì)高光譜數(shù)據(jù)隨機(jī)采樣再降維,進(jìn)而使用決策樹(shù)來(lái)分類,分類精度雖有所提高,但是該方法試驗(yàn)結(jié)果仍有很大的提升空間。LI等[14]提出基于正交補(bǔ)的數(shù)據(jù)子空間投影不平衡的高光譜圖像分類技術(shù)。CHAO等[13]針對(duì)復(fù)雜高光譜圖像數(shù)據(jù)分類中少數(shù)類別分類精度低的問(wèn)題,提出了一種基于MK-LSSVM的不平衡分類方法,該方法使用K-means聚類將多數(shù)類劃分為不同的組,在聚類之后使用抽樣技術(shù)平衡每個(gè)組和少數(shù)類,通過(guò)構(gòu)建MK-LSSVM分類器對(duì)高光譜圖像進(jìn)行分類。GRAVES等[21]通過(guò)成像光譜數(shù)據(jù)的分類不平衡數(shù)據(jù)集繪制物種圖譜,這將有助于研究在越來(lái)越大的空間尺度上理解樹(shù)種分布。
本文針對(duì)非均衡農(nóng)業(yè)高光譜數(shù)據(jù),采用過(guò)采樣(Oversampling)技術(shù)處理少數(shù)類樣本數(shù)據(jù),通過(guò)對(duì)少數(shù)類采樣個(gè)數(shù)的分析,研究少數(shù)類樣本采樣倍率對(duì)分類結(jié)果的影響。通過(guò)對(duì)非均衡高光譜數(shù)據(jù)采樣,使少數(shù)類樣本盡可能均衡,進(jìn)而采用多類分類器——支持向量分類(Support vector classification,SVC)進(jìn)行分類。采用SMOTE[19]進(jìn)行過(guò)采樣少數(shù)類樣本,研究SMOTE參數(shù)對(duì)分類精度的影響,研究非均衡高光譜數(shù)據(jù)分類器與模型的一致性對(duì)分類的影響。針對(duì)高光譜數(shù)據(jù)多類分類問(wèn)題,采用SVC[22]有效解決不平衡高光譜圖像分類模型的集合學(xué)習(xí)過(guò)程。
數(shù)據(jù)非均衡是數(shù)據(jù)挖掘等領(lǐng)域常見(jiàn)的問(wèn)題,例如信用卡欺詐數(shù)據(jù)分析[16]、疾病診斷[23]、生物信息分析[24]、高光譜數(shù)據(jù)分析[21]等。BRANCO等[25]總結(jié)了非均衡數(shù)據(jù)的問(wèn)題,并對(duì)比了相關(guān)的方法和理論,同時(shí)得出,非均衡數(shù)據(jù)中,用戶更加重視在目標(biāo)變量域的子集上的預(yù)測(cè)性能,但是與用戶更相關(guān)的樣本在訓(xùn)練中的代表性較差,進(jìn)而導(dǎo)致模型對(duì)少數(shù)類樣本的錯(cuò)誤估計(jì)。
處理不均衡數(shù)據(jù),有兩個(gè)基本方法[16-17]:改變數(shù)據(jù)分布,在數(shù)據(jù)層面使得類別更均衡;改變分類算法,在傳統(tǒng)分類算法的基礎(chǔ)上對(duì)分類器采用加權(quán)方式,使得模型對(duì)少數(shù)類更加敏感。采樣技術(shù)簡(jiǎn)單高效,常用的采樣方法有:欠采樣、過(guò)采樣、欠采樣和過(guò)采樣綜合采樣[18]。過(guò)采樣采用增加少數(shù)類樣本,通過(guò)設(shè)置多數(shù)類和少數(shù)類的比例系數(shù),在多數(shù)類樣本不變情況下,生成指定數(shù)量的少數(shù)類樣本,如圖1所示,圖中η為少數(shù)類的采樣倍率。
圖1 非均衡數(shù)據(jù)過(guò)采樣示意圖Fig.1 Illustration of unbalanced data oversampling processing
SMOTE[19]是典型的非均衡數(shù)據(jù)過(guò)采樣技術(shù),它通過(guò)在少數(shù)樣本附近位置生成新樣本達(dá)到類別平衡的目的,可以有效避免分類器過(guò)擬合。其處理基本過(guò)程如下:
(1)對(duì)少數(shù)類中每一個(gè)樣本xi,計(jì)算它到少數(shù)類樣本集Dr中所有樣本的歐氏距離,得到其中k個(gè)近鄰。
(1)
式中 rand(·)——均勻分布函數(shù)
SMOTE通過(guò)生成新的數(shù)據(jù)集來(lái)解決少數(shù)類分類不平衡的問(wèn)題。假設(shè)初始數(shù)據(jù)集中少數(shù)類樣本數(shù)為|Dr|,多數(shù)類樣本數(shù)為|Dn|,首先增加(η-1)|Dr|個(gè)少數(shù)類樣本,并把最初的少數(shù)類樣本和新增的少數(shù)類樣本都放入新的數(shù)據(jù)集中。這樣,新的數(shù)據(jù)集中少數(shù)類樣本有η|Dr|個(gè),數(shù)據(jù)集共η|Dr|+|Dn|個(gè)樣本。
根據(jù)少數(shù)類選擇策略的不同,SMOTE包含 Regular、Borderline1、Borderline2和SVM這4種策略[26]。
非均衡農(nóng)業(yè)高光譜數(shù)據(jù)的分類采用兩階段處理:數(shù)據(jù)預(yù)處理及過(guò)采樣,生成新的采樣數(shù)據(jù)集;采用多類分類器訓(xùn)練分類模型,對(duì)少數(shù)類分類質(zhì)量進(jìn)行評(píng)估和參數(shù)最優(yōu)化選擇。
采樣預(yù)處理通過(guò)對(duì)少數(shù)類進(jìn)行過(guò)采樣使得各類實(shí)例大致平等。通過(guò)使用過(guò)采樣,學(xué)習(xí)模型能夠極大地克服由于多數(shù)類導(dǎo)致的模型先驗(yàn)偏差。
高光譜數(shù)據(jù)采用最小-最大規(guī)范化(Min-max normalization)[27]對(duì)原始數(shù)據(jù)進(jìn)行線性變換,設(shè)樣本屬性A的值為v,則該規(guī)范化為
(2)
式中vmax——屬性A最大值
vmin——屬性A最小值
max——屬性A的值域最大值
min——屬性A的值域最小值
本文將原始數(shù)據(jù)變換到[0,1]區(qū)間,此時(shí)最大值和最小值分別為0和1。
通過(guò)SMOTE對(duì)數(shù)據(jù)集D中指定的少數(shù)類和采樣倍率η進(jìn)行采樣,新生成的數(shù)據(jù)集記為D′,D′=η|Dr|+|Dn|。
由于高光譜分類任務(wù)數(shù)據(jù)中通常包括多個(gè)類別。主要是通過(guò)組合多個(gè)二分類器來(lái)實(shí)現(xiàn)多分類器的構(gòu)造[28]。一般的高光譜分類問(wèn)題屬于多類分類(Multi-class classification),即將實(shí)例分類為2個(gè)類以上的分類問(wèn)題。多類分類的假設(shè)是,每個(gè)樣本有唯一的類標(biāo)簽。多類分類問(wèn)題通過(guò)采用二類分類算法和一定的策略完成多類分類任務(wù),采用的策略有Onevsall和Onevsone[28]。
SVC[29]是基于支持向量機(jī)分類的一種技術(shù)。對(duì)于兩類分類問(wèn)題,SVC問(wèn)題可以歸為以下問(wèn)題:
給定兩類問(wèn)題的訓(xùn)練向量xi∈Rd,i=1,2,…,n,類標(biāo)號(hào)yi∈{-1,1},SVC問(wèn)題的求解公式為
(3)
式中ζi——松弛變量b——截距
w——權(quán)重向量J——目標(biāo)函數(shù)
C——調(diào)和系數(shù)φ——核函數(shù)
式(3)的求解需要轉(zhuǎn)換為對(duì)偶形式,其對(duì)偶形式為
(4)
其中Qij=yiyjK(xi,xj)=φ(xi)Tφ(xj)
式中e——單位向量y——類標(biāo)號(hào)
α——拉格朗日乘子
αi——拉格朗日乘子
K(xi,xj)——核函數(shù)
Q——n×n的半正定矩陣
Qij——Q的元素
式(4)通過(guò)核函數(shù)φ使得訓(xùn)練向量映射到高維空間。常見(jiàn)的核函數(shù)選擇為徑向基函數(shù)(Radial basis function,RBF)[28]
K(x1,x2)=exp(-γ‖x1-x2‖2)
(5)
式中γ——核的泛化能力參數(shù),γ≥0
若γ越小則決策邊界越精簡(jiǎn),泛化能力越強(qiáng)。γ越大表示決策邊界越復(fù)雜,則泛化能力越弱。
對(duì)于樣本x,其分類的決策函數(shù)可以表示為
(6)
(7)
式中fi——分類器決策函數(shù)
本文測(cè)試的數(shù)據(jù)集為Indian Pines,該數(shù)據(jù)集由AVIRIS傳感器在印第安納州西北部的印度松樹(shù)林采集,由145像素×145像素和224光譜反射波段組成,波長(zhǎng)范圍為4×10-7~2.5×10-6m。該數(shù)據(jù)集共包含了16類不同的農(nóng)業(yè)對(duì)象,共標(biāo)注10 249個(gè)像素類別,數(shù)據(jù)集真實(shí)類及分布比例具體如表1所示。本文算法采用Python 3.6實(shí)現(xiàn)。
本文所使用的數(shù)據(jù)集Indian Pines中類別分布如圖2所示。從圖2可以看出,該高光譜數(shù)據(jù)集少數(shù)類數(shù)量分布極不均衡。本文把類別中所占比例低于3%的類別作為少數(shù)類,其余作為多數(shù)類。因此,該數(shù)據(jù)集中少數(shù)類包括6個(gè):Alfalfa、Corn、Grass-pasture-mowed、 Oats、Wheat和Stone-Steel-Towers。
本文參數(shù)設(shè)置如下:測(cè)試集和訓(xùn)練集的比例為3∶7。徑向基函數(shù)RBF參數(shù)γ為0.125,C為1。SMOTE參數(shù)k的范圍為3~7,默認(rèn)為6,新樣本中生成策略默認(rèn)為SVM。少數(shù)類采樣倍率默認(rèn)為5。
表1 Indian Pines數(shù)據(jù)集的Groundtruth類及其樣本數(shù)Tab.1 Groundtruth class of Indian Pines dataset and its sample size
圖2 數(shù)據(jù)集樣本類別分布Fig.2 Illustration samples distribution of Indian Pines datasets
試驗(yàn)從半監(jiān)督分類預(yù)測(cè)結(jié)果的質(zhì)量分類效率進(jìn)行了系統(tǒng)的研究和分析。 定義TP(True positive) 為正類并且也被預(yù)測(cè)成正類,F(xiàn)P(False positive) 為負(fù)類被預(yù)測(cè)成正類,TN(True negative) 為負(fù)類被預(yù)測(cè)成負(fù)類,F(xiàn)N(False negative) 為正類被預(yù)測(cè)成負(fù)類。
分類結(jié)果從7個(gè)方面進(jìn)行度量:加權(quán)精度pw(Weight precision)、加權(quán)召回率rw(Weight recall)、加權(quán)F1度量、分類準(zhǔn)確率Ac(Accuracy)、精度的幾何平均值GM、平衡準(zhǔn)確性指數(shù)(Index of balanced accuracy,IBA)和Kappa系數(shù)Ka。定義分別為
(8)
(9)
(10)
(11)
式中si——第i類的支持度
i——高光譜數(shù)據(jù)類別,即每一類的真實(shí)類出現(xiàn)次數(shù)
ρi——第i類的精度
ri——第i類的召回率
fi——第i類的F1度量
GM度量用于評(píng)估不平衡分類應(yīng)用的分類性能。兩類精度的幾何平均值為
(12)
GM在獲得兩類精度良好平衡的同時(shí)使其最大化。
IBA量化了兩類準(zhǔn)確性平衡指數(shù)與選擇的無(wú)偏估計(jì)總體準(zhǔn)確性之間的權(quán)衡,計(jì)算式為
IBAθ=[1+θ(TP-TN)]TPTN
(13)
IBAθ取決于用戶定義的參數(shù)θ,本文θ設(shè)置為1。
Kappa系數(shù)[31]Ka準(zhǔn)確度指標(biāo)用于度量不平衡數(shù)據(jù)集的分類器與模型匹配的精細(xì)化程度,公式為
(14)
式中po——評(píng)估者之間相對(duì)觀察到的一致意見(jiàn)的百分比
ph——一致意見(jiàn)的預(yù)期次數(shù)
使用觀察到的數(shù)據(jù)來(lái)計(jì)算每個(gè)觀察者隨機(jī)查看每個(gè)類別的概率Ka∈(0,1),Ka在0.61~0.80之間表示模型具有較好的一致性[31]。
在原始數(shù)據(jù)集和采樣數(shù)據(jù)集上,對(duì)比了SVC和隨機(jī)森林(Random forest,RF)[32]在Indian Pines數(shù)據(jù)集的分類準(zhǔn)確率。
圖3是對(duì)Indian Pines原始數(shù)據(jù)集和采樣數(shù)據(jù)集兩個(gè)分類方法的分類準(zhǔn)確率。采用70%數(shù)據(jù)集訓(xùn)練模型、30%數(shù)據(jù)集作為測(cè)試集。在Indian Pines原始數(shù)據(jù)集上SVC在所有類上的分類準(zhǔn)確率為0.78,少數(shù)類的分類準(zhǔn)確率為0.65,RF在所有類上分類準(zhǔn)確率為0.82,在少數(shù)類上的分類準(zhǔn)確率為0.38。結(jié)果表明SVC在原始數(shù)據(jù)集上的分類準(zhǔn)確率比RF低4.88%,但是對(duì)于少數(shù)類的分類準(zhǔn)確率,SVC比RF高71.05%。因此,SVC對(duì)少數(shù)類分類效果優(yōu)于RF。
圖3 Indian Pines數(shù)據(jù)集分類精度對(duì)比Fig.3 Classification accuracy comparison of Indian Pines dataset
對(duì)數(shù)據(jù)集中的少數(shù)類使用SMOTE采樣之后,在采樣數(shù)據(jù)集上,SVC和RF的分類準(zhǔn)確率有所提高,分別提高32.93%和16.46%。結(jié)果表明,SCV在少數(shù)類上的分類準(zhǔn)確率和提高的比例優(yōu)于RF。因此,本文采用SVC對(duì)高光譜數(shù)據(jù)進(jìn)行分類。
圖4是在原始數(shù)據(jù)集上使用SVC分類的混肴矩陣,橫軸為在16個(gè)類別上預(yù)測(cè)的類標(biāo)號(hào),縱軸為16個(gè)真實(shí)類標(biāo)號(hào)。從圖4可以看出,SVC在未采樣的高光譜數(shù)據(jù)集上的分類效果不理想,尤其是對(duì)少數(shù)類1、4、7、9這4個(gè)類分類精度比較低。
圖4 原始數(shù)據(jù)集使用SVC分類的混肴矩陣Fig.4 Confusion matrix of original imbalanced dataset with SVC
3.5.1新樣本生成策略
SMOTE的參數(shù)k設(shè)置為6時(shí),數(shù)據(jù)集上少數(shù)類識(shí)別準(zhǔn)確率如表2所示。從表2可以看出,SVM 策略對(duì)少數(shù)類分類結(jié)果的加權(quán)召回率rw、F1、GM和IBA結(jié)果較其它3個(gè)策略好。
表2 SMOTE的4種新樣本生成策略對(duì)少數(shù)類的影響Tab.2 Influence of new instance generating strategy of SMOTE on minority classes
為了進(jìn)一步測(cè)試少數(shù)類上新樣本生成策略對(duì)分類準(zhǔn)確率的影響,在k為6時(shí),測(cè)試了少數(shù)類分類準(zhǔn)確率與4種新樣本生成策略的關(guān)系,結(jié)果如圖5所示。從圖5可以看出,4個(gè)策略中SVM的少數(shù)類分類準(zhǔn)確率最高,為0.873。
圖5 不同生成策略時(shí)少數(shù)類的分類準(zhǔn)確率Fig.5 Classification accuracy of minority classes with new instance generating strategy of SMOTE
3.5.2參數(shù)k
SMOTE新樣本生成策略為SVM時(shí),少數(shù)類結(jié)果度量與參數(shù)k關(guān)系如表3所示。從表3可以看出,k為6時(shí),少數(shù)類分類結(jié)果在加權(quán)召回率rw、F1、GM和IBA指標(biāo)上較好。
表3 少數(shù)類結(jié)果度量與參數(shù)k的關(guān)系Tab.3 Classification performance of minority classes with parameters k of SMOTE
為了進(jìn)一步測(cè)試少數(shù)類上參數(shù)k對(duì)分類準(zhǔn)確率的影響,在生成策略為SVM時(shí),測(cè)試了少數(shù)類的分類準(zhǔn)確率與參數(shù)k的關(guān)系,結(jié)果如圖6所示。參數(shù)k的取值范圍為3~7。少數(shù)類的分類準(zhǔn)確率為0.855~0.873,其中,k為6時(shí),分類準(zhǔn)確率最高,為0.873。
圖6 少數(shù)類的分類準(zhǔn)確率與參數(shù)k的關(guān)系Fig.6 Classification accuracy of minority classes with parameters k of SMOTE
3.5.3少數(shù)類采樣倍率
高光譜數(shù)據(jù)中少數(shù)類采樣倍率η與精度、召回率和F1測(cè)試結(jié)果如圖7所示。從圖7可以看出,采用SMOTE對(duì)少數(shù)類采樣的pw、rw和F1影響非常顯著;采樣倍率η為1~4時(shí),度量值提升幅度最大,pw、rw和F1分別提升了8.67%、30.58%和25.81%;采樣倍率為5~15時(shí),pw、rw和F1變化不明顯,結(jié)果比較穩(wěn)定,具有較好的魯棒性。
圖7 采樣倍率η與pw、rw和F1的關(guān)系Fig.7 Relationship of precison, recall rate and F1 with sampling ratio η of SMOTE
參數(shù)k為6時(shí),少數(shù)類上分類模型的Kappa系數(shù)Ka與SMOTE中新樣本生成策略的關(guān)系如圖8所示。4個(gè)生成策略中少數(shù)類分類的Ka變化范圍為0.768~0.829,其中,SVM策略的Kappa系數(shù)最高,為0.829。
圖8 新樣本生成策略與Ka的關(guān)系Fig.8 Relationship of Ka of model with new instance generating strategy of SMOTE
少數(shù)類上的分類模型的Ka與SMOTE中參數(shù)k關(guān)系如圖9所示。參數(shù)k的取值范圍為3~7。少數(shù)類分類的Ka范圍為0.803~0.829,其中,k為6時(shí),Kappa系數(shù)最高為0.829。
從分類模型一致性度量Ka結(jié)果可知,參數(shù)k為6時(shí),SVM策略取得最優(yōu)結(jié)果。
表4是SMOTE參數(shù)k設(shè)置為 6,采用SVM策略時(shí),在非采樣數(shù)據(jù)集和采樣數(shù)據(jù)集上的pw、rw和F1
圖9 參數(shù)k與Ka的關(guān)系Fig.9 Relationship of Ka of model with parameters k of SMOTE
標(biāo)號(hào)采樣數(shù)據(jù)集原始數(shù)據(jù)集pwrwF1pwrwF110.940.960.9500040.990.820.9010.650.79710.750.8600090.820.450.58000130.920.900.910.910.810.8616111.0010.830.71
結(jié)果。SVC分類器采用RBF核函數(shù),各少數(shù)類采樣的倍率η設(shè)置為8。
表4中標(biāo)號(hào)表示的類名與表1相同。表4結(jié)果表明,通過(guò)數(shù)據(jù)集SMOTE采樣之后,少數(shù)類的3個(gè)分類指標(biāo)均有大幅提升。Alfalfa、Grass-pasture-mowed、Oats 3個(gè)類由于類數(shù)量在原始數(shù)據(jù)集上過(guò)于稀少,非采樣集上3個(gè)指標(biāo)都為0。經(jīng)過(guò)過(guò)采樣之后,pw、rw和F1分別為0.94、0.96、0.95、1.00、0.75、0.86和0.82、0.45、0.58。Corn的pw降低了1%,但是rw和F1分別提升了26.15%和13.92%。Wheat的pw提升了1.1%,rw和F1分別提升了11.11%和5.81%,Stone-Steel-Towers的pw不變,但是rw和F1分別提升了20.48%和40.85%。
上述結(jié)果表明,稀少的類在非采樣數(shù)據(jù)集上,其分類的效果較差,往往淹沒(méi)于多數(shù)類中,經(jīng)過(guò)過(guò)采樣,其分類的效果提升非常顯著。Alfalfa、Oats和Grass-pasture-mowed 3個(gè)類的rw提升最顯著。
表5是本文方法與SVO[10]及SVM[33]方法在平均分類精度Ac和Kappa系數(shù)Ka的試驗(yàn)對(duì)比結(jié)果。本文方法在參數(shù)k設(shè)置為6、采用SVM策略時(shí),分類的平均精度和Kappa系數(shù)相比于SVO分別提升了6.72%和3.50%,相比于SVM[33],分別提升了12.21%和3.62%。
表5 與其他方法的準(zhǔn)確率對(duì)比Tab.5 Classification accuracy comparison with other methods
圖10是默認(rèn)參數(shù)情況下,在采樣數(shù)據(jù)集上使用SVC分類的混肴矩陣,橫軸為16個(gè)預(yù)測(cè)類標(biāo)號(hào),縱軸為16個(gè)真實(shí)類標(biāo)號(hào)。從圖10可以看出,SVC在采樣高光譜數(shù)據(jù)集上的分類精度提升很大,對(duì)少數(shù)類1、4、7、9、13和16分類精度的分類效果提升顯著。
圖10 SMOTE采樣數(shù)據(jù)集上分類精度混肴矩陣Fig.10 Confusion matrix of oversampling dataset with SMOTE
(1)針對(duì)農(nóng)業(yè)高光譜數(shù)據(jù)的非均衡環(huán)境下少數(shù)類分類精度低的問(wèn)題,研究了少數(shù)類的分類質(zhì)量,利用過(guò)采樣技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理,提升了少數(shù)類的分類質(zhì)量。
(2)在高光譜數(shù)據(jù)集上進(jìn)行了試驗(yàn)驗(yàn)證,對(duì)系統(tǒng)參數(shù)進(jìn)行了試驗(yàn)和對(duì)比分析,試驗(yàn)結(jié)果表明,本文方法能夠較好地提升高光譜數(shù)據(jù)集少數(shù)類分類精度,pw不小于0.82,rw不小于0.45,rw提升顯著,提升幅度在11.11%~ 26.15%之間。