楊 晨,董麗芳,趙海士,常志勇
(1.吉林大學(xué)地球科學(xué)學(xué)院,長(zhǎng)春 130061;2.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,長(zhǎng)春 130021 3.吉林大學(xué)生物與農(nóng)業(yè)工程學(xué)院,工程仿生教育部重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)春 130022; 4.吉林大學(xué)油頁巖地下原位轉(zhuǎn)化與鉆采技術(shù)國(guó)家地方聯(lián)合工程實(shí)驗(yàn)室,長(zhǎng)春 130021)
高光譜遙感是20 世紀(jì)80 年代興起的一種新型對(duì)地觀測(cè)技術(shù),它能夠獲取上百個(gè)非常窄的連續(xù)譜段信息,得到“圖譜合一”的曲線,提供豐富的光譜信息來增強(qiáng)對(duì)地物的區(qū)分能力[1-2]。成像光譜儀是高光譜遙感技術(shù)的核心,分為機(jī)載成像光譜儀和星載成像光譜儀2種。1983年,美國(guó)研制出第一個(gè)航空成像光譜儀AIS-1。之后,國(guó)內(nèi)外學(xué)者相繼研制成像光譜儀應(yīng)用到不同領(lǐng)域[3-4]。機(jī)載可見光/紅外成像光譜儀(airborne visible infrared imaging spectrometer,AVIRIS)作為應(yīng)用最為廣泛的機(jī)載成像光譜儀,在農(nóng)作物分類[5-7]方面有著廣泛應(yīng)用。但是,由于高光譜遙感影像的典型特征,即高維性與波段間相關(guān)性強(qiáng)的特點(diǎn),在分類過程中易引起所謂的“Hughes 現(xiàn)象”(維數(shù)災(zāi)難)[8],降低分類精度,影響作物長(zhǎng)勢(shì)監(jiān)測(cè)、作物估產(chǎn)[9]及作物種植[10-11]。
應(yīng)用高光譜遙感影像進(jìn)行作物分類之前,在不損失有用信息的前提下,利用數(shù)據(jù)降維技術(shù)將高維影像壓縮到低維空間是很有必要的。高光譜影像常用的數(shù) 據(jù)降維技術(shù)包括特征選擇與特征提取。特征選擇方法從原始特征集中選擇出適合于分類的特征子集,從而改善分類性能。張衛(wèi)正等[12]運(yùn)用連續(xù)投影算法對(duì)甘蔗高光譜影像進(jìn)行特征選擇,尋找含有最低限度冗余的甘蔗莖節(jié)波段,用于高光譜遙感甘蔗莖節(jié)識(shí)別分類。但是,現(xiàn)有多數(shù)特征選擇算法通常具有次優(yōu)化性;另外,選擇合適的特征及特征數(shù)目非常耗時(shí)、耗力,最優(yōu)特征子集的選擇往往無法保證。特征提取通過映射或變換,將原始處于高維空間的數(shù)據(jù)轉(zhuǎn)換到低維特征空間,減輕高光譜數(shù)據(jù)的復(fù)雜相關(guān)性和冗余度。常用的高光譜影像特征提取方法有主成分分析(principal component analysis, PCA)[13]、最大噪聲分離(maximum noise fraction, MNF)等。本文主要針對(duì)高光譜遙感影像作物特征提取方法進(jìn)行研究。
隨著高光譜遙感空間分辨率的提高,同類地物內(nèi)光譜差異增大,類間差異性減小,決定了高光譜遙感影像中存在著光譜變異性[14]。傳統(tǒng)基于單一光譜特征方法,無法考慮高光譜遙感影像光譜變異性問題。近年來,國(guó)內(nèi)外學(xué)者研究將光譜信息和空間特征相結(jié)合,已成為當(dāng)前研究熱點(diǎn)。楊思睿等[15]針對(duì)高光譜影像無法區(qū)分物質(zhì)組分相同的對(duì)象問題,融合LiDAR 數(shù)據(jù),利用主成分分析與形態(tài)學(xué)屬性剖面進(jìn)行光譜特征和紋理特征提取,用于農(nóng)業(yè)區(qū)精細(xì)作物分類。然而,高光 譜遙感影像地物覆蓋本質(zhì)上具有區(qū)域相似性和同質(zhì)性,即高空間相關(guān)性。采用形態(tài)學(xué)空-譜結(jié)合方式,無法同時(shí)考慮光譜變異性和高空間相關(guān)性。近年來,一種新的機(jī)器學(xué)習(xí)方法——調(diào)節(jié)學(xué)習(xí)(adjustment learning)[16]逐漸受到關(guān)注。調(diào)節(jié)學(xué)習(xí)引入了全新的先驗(yàn)知識(shí)形式,即塊(chunklet)。基于調(diào)節(jié)學(xué)習(xí)的度量學(xué)習(xí)方法相繼提出,如相關(guān)成分分析[17]、判別成分分析(discriminative component analysis,DCA)[18]、核判別成分分析。本人利用正約束和負(fù)約束結(jié)合調(diào)節(jié)學(xué)習(xí),提出了基于特征度量[19]和判別特征度量[17]的高光譜遙感影像波段選擇方法;將核判別成分分析引入高光譜特征提取[20],通過構(gòu)建判別約束同時(shí)解決光譜變異性和高空間相關(guān)性問題。
同時(shí),不同地物光譜存在的固有不確定性與作物類型的復(fù)雜性,決定了作物混合像元的存在和混合光譜引起的相鄰像元之間自相關(guān)現(xiàn)象,產(chǎn)生光譜混淆,嚴(yán)重影響了作物的分類精度[21-24]。隨著高光譜遙感圖像處理研究的深入,其不確定性問題也越來越得到重視。由于遙感影像集中體現(xiàn)了地表現(xiàn)象在某個(gè)瞬間的波段特性,成像過程受多方面隨機(jī)變化因素的影響,導(dǎo)致獲得的影像數(shù)據(jù)具有一定隨機(jī)性,也即具有統(tǒng)計(jì)性。一些研究者將模糊集理論與統(tǒng)計(jì)分析方法相結(jié)合,提出了模糊統(tǒng)計(jì)學(xué)[25]。模糊統(tǒng)計(jì)學(xué)在處理灰度空間不確定性和和變異性方面已顯示出優(yōu)勢(shì)[26-27]。
面對(duì)高光譜遙感影像的高維性、光譜變異性、不確定性,本文基于調(diào)節(jié)學(xué)習(xí)與模糊統(tǒng)計(jì)學(xué)相關(guān)理論,提出模糊判別成分分析(fuzzy-statistics-based DCA, FS-DCA)用于作物特征提取。通過定義模糊統(tǒng)計(jì)數(shù)字特征解決光譜變異性和高空間相關(guān)性與抑制噪聲像元造成的不確定性,使得學(xué)習(xí)的特征空間具有更好的類間分離性和類內(nèi)緊湊性,以期為作物分類提供可分性更強(qiáng)的空-譜特征空間,有效提高作物分類精度。
針對(duì)高光譜遙感影像數(shù)據(jù),首先由正約束關(guān)系生成若干個(gè)作物像元塊與非作物像元塊,并通過負(fù)約束關(guān)系形成每個(gè)像元塊的判別集合。然后,引入模糊統(tǒng)計(jì)學(xué)相關(guān)理論,定義兩兩像元塊之間的總方差和每個(gè)像元塊內(nèi)部的總方差,從而構(gòu)建模糊判別特征子空間。
令 X = {x1, x2, …, xL} ?L×N為一個(gè)高光譜遙感數(shù)據(jù)集,L 為光譜波段的數(shù)目,N 為每個(gè)波段的像元數(shù)目,xi= {xi1, xi2, …, xiL}表示第i 個(gè)光譜向量,如圖1 所示。在高光譜遙感影像集中,如果2 個(gè)像元屬于同一作物或非作物類別(無類別標(biāo)記),將它們定義為正約束關(guān)系,如圖1 中標(biāo)注C1和C2像元塊為大豆幼苗;如果2 個(gè)作物或非作物像元不屬于同一類別,則為負(fù)約束關(guān)系,如圖1 中標(biāo)注C3像元塊的為干草,C4像元塊為森林。令P 與N 分別表示正與負(fù)約束信息:
像元塊集合C、相關(guān)集合R 與判別集合D 定義如下:
根據(jù)給定的約束,一組具有正約束的像元可以聚集在一起組成塊集合,具有負(fù)約束的像元形成一個(gè)描述塊的判別集合。 令作物與非作物像元塊為第k 個(gè)塊為第k 個(gè)塊中的第i 個(gè)像元,nk為第k 個(gè)塊中所包含像元點(diǎn)的數(shù)目。判別塊集合中的元素表示K 個(gè)塊之間的正與負(fù)約束關(guān)系。判別塊定義為2 個(gè)塊中至少有1 個(gè)負(fù)約束關(guān)系。特征表示的目的是尋找一個(gè)特征子空間Y=ATX∈l×N(l < 圖1 高光譜影像數(shù)據(jù)集 Fig.1 Hyperspectral image data set 基于模糊統(tǒng)計(jì)學(xué)定義高光譜影像統(tǒng)計(jì)特征,包括模糊集、模糊均值和模糊散布矩陣。 在定義的模糊集中,作物與非作物像元塊中像元是由像元對(duì)應(yīng)的向量x 和隸屬度μ 共同描述。像元塊內(nèi)像元的模糊均值定義如下: 對(duì)于給定的高光譜遙感數(shù)據(jù)集X,像元塊集合C和判別集合D,模糊散布矩陣定義如下: 式(6)~(7)中,F(xiàn)Mk與FMp分別為第k 與第p 個(gè)作物或非作物像元塊的模糊均值,為判別集合D 各個(gè)像元塊中作物或非作物像元個(gè)數(shù),為第p 個(gè)像元塊的第i 個(gè)像元。式(6)表示判別集合中不同作物之間及與非作物的模糊總方差,即模糊判別像元塊散布矩陣,用于描述判別集合分散度;式(7)為模糊像元散布矩陣,用于描述同一作物與非作物塊的緊湊度。 通過學(xué)習(xí)最優(yōu)轉(zhuǎn)換矩陣,使得學(xué)習(xí)的特征空間最大化模糊判別像元塊散布矩陣,最小化模糊像元塊散布矩陣,即: 利用學(xué)習(xí)的最優(yōu)轉(zhuǎn)換矩陣,獲得模糊最優(yōu)農(nóng)作物特征子空間如下: 基于模糊統(tǒng)計(jì)學(xué)的高光譜遙感影像作物特征提取方法具體步驟如下: 1)初始化參數(shù)。根據(jù)已知正約束信息P 和負(fù)約束信息N,定義作物與非作物像元塊集合C,判別集合D。 2)計(jì)算模糊散布矩陣。根據(jù)式(6)與式(7),計(jì)算模糊判別像元塊散布矩陣和模糊像元散布矩陣。 4)根據(jù)公式(9)構(gòu)建基于模糊統(tǒng)計(jì)學(xué)的高光譜遙感影像作物特征空間。 由模糊判別成分構(gòu)建的作物特征空間FS 被用于后續(xù)作物分類。 本文采用廣泛使用的Indian Pines 92AV3C[28]高光譜數(shù)據(jù)集。該數(shù)據(jù)由機(jī)載可見光/紅外成像光譜儀(AVIRIS)獲取,圖像大小為145×145,光譜覆蓋范圍為400~2 500 nm,光譜分辨率為10 nm,共224 個(gè)波段,空間分辨率為20 m,獲取時(shí)間為1992 年6 月,拍攝地點(diǎn)為美國(guó)印第安納州西北部。該數(shù)據(jù)集地物種類較為復(fù)雜,混合了種植作物、林地、草地等。地物種類分布不均勻,存在樣本稀少類別。原始影像包含16 類地物??紤]到統(tǒng)計(jì)驗(yàn)證的可靠性[29],試驗(yàn)中保留9 個(gè)類別,舍棄樣本稀少的7 個(gè)類別。保留的9 類地物中主要包含不同類型玉米與大豆及植被覆蓋區(qū)。由于該區(qū)域農(nóng)作物尚處于生長(zhǎng)階段,裸露的土壤與農(nóng)作物殘?jiān)黾恿俗魑锾崛∨c分類的難度。鑒于以上特點(diǎn),本文選取Indian Pines 92AV3C 高光譜數(shù)據(jù)集進(jìn)行作物信息提取與分類。圖2 為AVIRIS 影像假彩色合成圖與真實(shí)地物圖。通過去除低信號(hào)噪聲(signal-to-noise, SN)波段(104~108、150~163 和220 nm),選取其中的200 個(gè)波段為測(cè)試集。試驗(yàn)中,隨機(jī)選取13 個(gè)作物像元塊與6 個(gè)非作物像元塊,每個(gè)像元塊中包含210 個(gè)像元(見表1)。 為了評(píng)估本文提出的FS-DCA方法在作物分類方面的性能,分別選取經(jīng)典特征提取方法PCA和DCA,以及原始AVIRIS高光譜影像全部波段進(jìn)行對(duì)比。采用峰值信噪比(peak signal-to-noise ratio,PSNR)來評(píng)估所提取特征圖像質(zhì)量。利用支持向量機(jī)(support vector machine, SVM)分類方法進(jìn)行驗(yàn)證[30]。AVIRIS數(shù)據(jù)集包含9,345個(gè)樣本,其中訓(xùn)練樣本按照每類5%選取,共500個(gè),測(cè)試樣本共有8 845個(gè)。為了更客觀地驗(yàn)證算法有效性,試驗(yàn)中訓(xùn)練和測(cè)試樣本隨機(jī)選取3次,每次無重復(fù)。選取生產(chǎn)者精度(producer’s accuracy,PA)、用戶精度(user’s accuracy,UA)、總體分類精度(overall accuracy,OA)、平均總體分類精度(average overall accuracy,AOA)、標(biāo)準(zhǔn)偏差(standard deviation,SD)作為評(píng)價(jià)準(zhǔn)則。 圖2 AVIRIS影像假彩色合成圖與真實(shí)地物圖 Fig.2 False color composite image and available ground truth map of the AVIRIS image 表1 AVIRIS數(shù)據(jù)集正約束/塊、負(fù)約束及總樣本數(shù)目 Table 1 Number of positive/chunklets and negative constraints and total samples for AVIRIS data set 圖3 為應(yīng)用PCA、DCA 和FS-DCA 分別提取的主 成分、判別成分與模糊判別成分,表2 為主成分、判別成分以及模糊判別成分的峰值信噪比(peak signal-to-noise ratio,PSNR)。結(jié)合圖3 和表2 可以看出,第六、第七主成分和第七判別成分的峰值信噪比分別是16.87、12.97 和15.51,所含信息量較少,地物區(qū)分性不好;第一、二、六和七模糊判別成分的峰值信噪比(25.41、21.21、20.50、17.59)均大于對(duì)應(yīng)的主成分與判別成分??梢?,模糊判別成分分析為后續(xù)作物分類提供了區(qū)分性更好的特征圖像。 運(yùn)用Matlab 在PC 工作站(Intel(R) Core(TM) i7-3720QM CPU 2.60 GHz, 2.60 GHz 16 GB,RAM)上運(yùn)行PCA、DCA 和FS-DCA,所用計(jì)算時(shí)間分別為1.26、1.35 和224.37 s,F(xiàn)S-DCA 耗時(shí)高于PCA 與DCA。這是由于在FS-DCA 中,需要通過迭代方法不斷修正隸屬度,以獲得最優(yōu)模糊均值。 圖3 基于主成分分析、判別成分分析和模糊判別成分分析的AVIRIS高光譜遙感影像特征表示 Fig.3 AVIRIS hyperspectral imagery features representation based on PCA, DCA and FS-DCA 為了驗(yàn)證提取特征的有效性,將PCA、DCA、FS-DCA 所提取的7 個(gè)特征和原始200 個(gè)波段分別應(yīng)用于AVIRIS Indian Pines 92AV3C 高光譜遙感影像中進(jìn)行作物分類。影像分類精度(OA、AOA 和SD)結(jié)果如表3。最佳分類結(jié)果如圖4 所示。 表2 主成分、判別成分和模糊判別成分的峰值信噪比 Table 2 Peak signal-to-noise ratio (PSNR) of PC(principal component), DC(discriminative component) and FDC(fuzzy discriminative component) 表3 PCA、DCA 和FS-DCA 的分類精度 Table 3 Classification accuracy of PCA, DCA and FS-DCA 圖4 運(yùn)用全部原始波段、主成分、判別成分和模糊判別成分的AVIRIS高光譜遙感影像分類圖 Fig.4 AVIRIS hyperspectral imagery classification map of all channels, PC, DC and FDC 從表3 可以看出,應(yīng)用PCA、DCA 和FS-DCA 選取的7 個(gè)特征獲取的平均總體分類精度分別高于原始200 個(gè)波段3.6、6.38、6.88 個(gè)百分點(diǎn)。對(duì)于不同特征提取方法,基于FS-DCA 提取的特征獲得的平均總體分類精度高于PCA 和DCA 3.28 和0.5 個(gè)百分點(diǎn)。同時(shí),所提出的FS-DCA 展現(xiàn)出了最低的標(biāo)準(zhǔn)偏差,證明了 FS-DCA 具有更好的穩(wěn)定性。 結(jié)合表3 與圖4 可以看出,原始200 個(gè)波段的分類圖中各類之間界線模糊,隨機(jī)選取3 次訓(xùn)練和測(cè)試樣本的總體分類精度為65.03%,各類間均有混淆現(xiàn)象,且標(biāo)準(zhǔn)偏差為0.77,隨機(jī)選取3 次訓(xùn)練和測(cè)試樣本的分類結(jié)果相近。已整理大豆地的生產(chǎn)者精度和用戶精度分別為36.06%和33.93%,其對(duì)應(yīng)的漏分誤差和錯(cuò)分誤差較大,分別為63.94%和66.07%。 從運(yùn)用主成分獲得的分類圖中可以看出,各類之間界線較運(yùn)用200 個(gè)波段清晰,但存在很多錯(cuò)分情況。隨機(jī)選取3 次訓(xùn)練和測(cè)試樣本的總體分類精度為71.19%,標(biāo)準(zhǔn)偏差為1.97,未耕玉米地的用戶精度為51.52%,對(duì)應(yīng)的錯(cuò)分誤差為48.48%,在未耕玉米地中有被錯(cuò)分的略耕玉米地和收割后大豆。略耕玉米地的生產(chǎn)者精度為39.29%,用戶精度為57.89%,略耕玉米地與未耕玉米地出現(xiàn)了錯(cuò)分情況。略耕大豆地的生產(chǎn)者精度為67.5%,用戶精度為65.99%,未耕玉米地被錯(cuò)分為略耕大豆地。 在運(yùn)用DCA 分類圖中,各類之間展現(xiàn)了很好的區(qū)分度。但仍存在大量錯(cuò)分現(xiàn)象,收割后大豆的生產(chǎn)者精度和用戶精度分別為50.00%和43.88%,收割后大豆中出現(xiàn)了被錯(cuò)分的略耕玉米地。略耕大豆地的生產(chǎn)者精度和用戶精度分別為73.72%和65.87%,其中出現(xiàn)了略耕玉米地和略耕大豆地的錯(cuò)分情況。 從基于FS-DCA 分類圖中可以看出,類別之間錯(cuò)分情況較PCA 與DCA 少。略耕大豆地的生產(chǎn)者精度和用戶精度分別為71.89%和67.36%,其中只有少量的略耕玉米地錯(cuò)分情況。未耕大豆地的生產(chǎn)者精度和用戶精度分別為64.71%和76.26%,同樣只有少量的未耕玉米地錯(cuò)分情況。收割后大豆的生產(chǎn)者精度和用戶精度分別為68.47%和50.84%;與DCA 相比,基于FS-DCA 分類圖中收割后大豆的分類效果更好,未耕大豆地和略耕大豆地等類別展現(xiàn)出了更好的區(qū)分??傮w上看,種植作物的生產(chǎn)者精度與用戶精度比PCA 與DCA 提高1.37~18.47 個(gè)百分點(diǎn)。 同時(shí),從圖4 可以看出,雖然基于FS-DCA 分類圖中空間相鄰作物間出現(xiàn)的混淆錯(cuò)分現(xiàn)象比PCA、DCA 與運(yùn)用原始200 個(gè)波段明顯減少。但是,3 種方法中,一些面積較小的相鄰作物混淆不同地物類別現(xiàn)象相對(duì)嚴(yán)重。 現(xiàn)有高光譜遙感影像特征提取方法在固有特性方面與作物光譜變異性方面考慮不充分,直接影響后續(xù)作物分類效果。本文針對(duì)此問題,將模糊統(tǒng)計(jì)學(xué)理論與判別成分分析相結(jié)合,提出模糊判別成分分析(FS-DCA),通過模糊統(tǒng)計(jì)特征及變換,擴(kuò)大特征空間不同作物及非作物間分離性和相同作物的類內(nèi)緊湊性;由判別變換獲取特征子空間,保留作物可分光譜與空間信息;有效地降低波譜數(shù)目。試驗(yàn)結(jié)果表明,利用SVM基于FS-DCA對(duì)AVIRIS Indian Pines 92AV3C高光譜遙感影像9種種植作物進(jìn)行分類的平均總體精度比采用全部波段、PCA和DCA分別高出6.88、3.28、0.5個(gè)百分點(diǎn),種植作物的生產(chǎn)者精度與用戶精度比傳統(tǒng)方法提高1.37~18.47個(gè)百分點(diǎn)。與傳統(tǒng)方法相比,基于模糊統(tǒng)計(jì)學(xué)建立的高光譜影像特征提取方法,大大減少后續(xù)分類維度的同時(shí),為作物分類提供了可分性更強(qiáng)的特征空間。 今后對(duì)高光譜作物分類進(jìn)行研究中可將超像素技術(shù)引入到光譜維特征提取,以進(jìn)一步研究提高作物(特別是相鄰作物)分類精度的有效方法。2 試驗(yàn)設(shè)計(jì)
2.1 試驗(yàn)數(shù)據(jù)
2.2 對(duì)比方法與評(píng)價(jià)指標(biāo)
3 結(jié)果與分析
3.1 高光譜影像特征提取結(jié)果
3.2 作物分類精度評(píng)價(jià)
4 結(jié) 論