李 林 田 馨 翁永玲
(東南大學(xué)交通學(xué)院, 南京 211189)
隨著遙感數(shù)據(jù)采集技術(shù)的進(jìn)步,獲取同一地區(qū)的多種遙感影像數(shù)據(jù)也越來(lái)越便捷[1].傳統(tǒng)的光學(xué)遙感由于天氣和光照等外在因素的制約,在應(yīng)用上受到一定程度的影響[2].合成孔徑雷達(dá)(SAR)屬于主動(dòng)遙感的范疇,能夠全天時(shí)全天候工作,作為當(dāng)前研究遙感圖像的熱點(diǎn)之一,利用SAR影像進(jìn)行分類研究受到高度重視[3].
學(xué)者們?yōu)檫M(jìn)行多種影像來(lái)源的土地覆蓋分類,對(duì)各類數(shù)據(jù)集中得出的特征變量進(jìn)行了合并研究.例如,Erinjery等[4]、Shuai等[5]通過(guò)提取多時(shí)相光譜特征和極化特征,以監(jiān)測(cè)植被的生長(zhǎng).趙詣等[6]利用光學(xué)影像指導(dǎo)SAR影像提取同質(zhì)點(diǎn),使其更精確地估計(jì)極化特征,提高了SAR圖像的分類精度.Gamba等[7]、Zhang等[8]、Zhang等[9]證明SAR影像和光學(xué)影像的協(xié)同使用在估計(jì)不透水面的應(yīng)用中能夠有效減少光學(xué)影像中的光譜混淆.
然而,提取的眾多特征變量與原始變量的組合必將構(gòu)成高維的特征變量空間,如果將所有特征應(yīng)用于高分辨率遙感影像分類中,往往會(huì)由于特征維數(shù)過(guò)高引發(fā)“維數(shù)災(zāi)難”,增加分類復(fù)雜度,降低分析效率[10].Luo等[11]、楊帆等[12]采用不同的波段選擇方法對(duì)高光譜數(shù)據(jù)進(jìn)行降維,證明處理后的影像數(shù)據(jù)具有良好的分類性能.在常見(jiàn)的機(jī)器學(xué)習(xí)算法中,隨機(jī)森林能夠?qū)μ卣骷线M(jìn)行優(yōu)選降維,通過(guò)較少的訓(xùn)練樣本獲得較高的分類精度,減少過(guò)擬合.楊珺雯等[13]使用RF-RFE波段選擇方法去除價(jià)值低的特征得到最佳波段組合,實(shí)現(xiàn)高光譜數(shù)據(jù)降維及分類,取得較好效果.
當(dāng)前的特征降維研究大多基于高光譜影像數(shù)據(jù),對(duì)于SAR影像的特征較少涉及,因此如何既能充分利用多源遙感影像數(shù)據(jù)又能有效提高分類精度成為影像分類研究的重要方向.本文通過(guò)對(duì)SAR影像極化特征、光學(xué)影像光譜特征以及2種影像紋理特征的分析處理,利用隨機(jī)森林算法對(duì)提取出的多維特征變量進(jìn)行特征選擇,取得維數(shù)較少的特征變量參與土地利用覆蓋分類,使其能更有效地利用遙感影像的特征信息,提高SAR影像分類精度.
本文研究區(qū)域位于北緯32°8′45.6″到北緯32°18′0″,東經(jīng)118°48′14.4″到東經(jīng)119°1′19.2″之間,位處江蘇省南京市棲霞區(qū)八卦洲東側(cè),長(zhǎng)江兩汊東側(cè)交匯處.研究區(qū)域南鄰人口密集的南京都市圈,江北岸部分區(qū)域?yàn)槟暇┙毙聟^(qū),有工廠以及耕地分布,同時(shí)附近設(shè)有外貿(mào)碼頭.因此,及時(shí)準(zhǔn)確地獲取該區(qū)域土地覆蓋信息對(duì)于南京江北新區(qū)的發(fā)展至關(guān)重要.該試驗(yàn)區(qū)內(nèi)地物類型多樣,紋理復(fù)雜,具體的地理位置如圖1所示.
圖1 研究區(qū)域地理位置
本研究選取成像于2017-10-16帶TOPS(terrain observation with progressive scans)模式的C波段Sentinel-1 VV-VH 極化SAR數(shù)據(jù)(VV為垂直同極化,VH為交叉極化),距離和方位角分辨率分別為5 m和20 m;Sentinel-2光學(xué)圖像成像于2017-10-24,包含了13個(gè)空間分辨率為10~60 m的波段,使用其中4個(gè)空間分辨率為10 m的波段(波段2、3、4、8分別為藍(lán)、綠、紅、近紅外).根據(jù)土地利用分類標(biāo)準(zhǔn)以及研究區(qū)域土地利用情況,將研究區(qū)域分為植被、耕地、高密度建筑物、低密度建筑物、道路、水體6類.同時(shí)期采集的1 m全色/4 m多光譜分辨率高分二號(hào)影像用作本研究訓(xùn)練和驗(yàn)證樣本的參考影像.參照Sentinel-2光學(xué)影像和高分二號(hào)影像隨機(jī)抽樣,每類地物各選取15個(gè)樣本作為訓(xùn)練樣本,檢驗(yàn)樣本由每類10個(gè)樣本構(gòu)成.
Sentinel-2 1C數(shù)據(jù)采用歐洲航天局的SNAP進(jìn)行預(yù)處理,大氣校正后進(jìn)行裁剪和重采樣.同時(shí),對(duì)Sentinel-1數(shù)據(jù)多視處理后采用精確的軌道文件進(jìn)行定軌,將像素值轉(zhuǎn)換為校準(zhǔn)后的后向散射系數(shù),并在傾斜范圍內(nèi)建立極化協(xié)方差矩陣.然后使用外部3 s SRTM(shuttle radar topography mission)數(shù)據(jù)進(jìn)行距離-多普勒地形校正來(lái)補(bǔ)償幾何畸變,并根據(jù)Sentinel-2數(shù)據(jù)的幾何參考對(duì)SAR數(shù)據(jù)集進(jìn)行幾何校正,采用誤差小于0.5像素的互相關(guān)算法對(duì)Sentinel-1和Sentinel-2數(shù)據(jù)進(jìn)行配準(zhǔn).
為了提高各類地物的可分性,分別對(duì)光學(xué)圖像和SAR圖像中各種地物的光譜、紋理特征和極化特征變量進(jìn)行提取[14],然后進(jìn)行統(tǒng)計(jì)分析.
2.2.1 紋理特征
紋理特征是圖像信息量分布情況的一種反映,每種地物都有其特有的紋理特征.本文采用基于灰度共生矩陣(GLCM)的紋理分析方法,選用其中常用的8種特征:均值、對(duì)比度、方差、相異性、同質(zhì)性、相關(guān)性、信息熵和二階矩.紋理計(jì)算過(guò)程中采用的參數(shù)設(shè)置分別為:偏移距離d=1,灰度量化級(jí)L=64,窗口大小為3×3,同時(shí)選取0°、45°、90°和135°四個(gè)方向計(jì)算紋理特征參數(shù)的平均值.
(1)
(2)
(3)
特征選擇目的是選用盡可能少的特征組成規(guī)則集,盡可能多地提供關(guān)于類別的信息.提取出的光學(xué)數(shù)據(jù)和SAR數(shù)據(jù)各類特征變量種類越多,可參與分類的變量就越多.而隨機(jī)森林可以評(píng)估變量的重要程度,對(duì)特征重要性進(jìn)行評(píng)分,具體步驟如下:① 使用決策樹(shù)對(duì)應(yīng)的袋外數(shù)據(jù)(OOB)進(jìn)行性能檢測(cè),記正確分類的個(gè)數(shù)為M;② 對(duì)袋外數(shù)據(jù)全體樣本的F特征進(jìn)行隨機(jī)干擾,再次計(jì)算正確分類各類個(gè)數(shù)M′,則決策樹(shù)的F特征的重要程度D(F)=|M′-M|;③ 計(jì)算對(duì)于整個(gè)隨機(jī)森林的F特征重要程度,即
(4)
由于不同波段對(duì)相同地物在紋理信息上具有不同的敏感性[17],因此需要選擇合適波段的紋理信息參與特征重要性排序.將4個(gè)波段的所有紋理信息參與影像分類并對(duì)特征重要性進(jìn)行排序,選出參與度最高的波段紋理特征參與后續(xù)分類.結(jié)果如圖3(a)所示,波段2、3、4、8的紋理特征在重要性得分中獲得的分?jǐn)?shù)分別為0.021、0.011 9、0.049 3和0.038,波段4得分最高,因此選用波段4的紋理特征作為光學(xué)影像的紋理特征參與分類.
(a) 極化參數(shù)對(duì)比
(b) 光譜特征對(duì)比
將光學(xué)影像的紋理特征、SAR影像的紋理特征、極化特征及其相關(guān)運(yùn)算后特征、協(xié)方差矩陣參與隨機(jī)森林特征進(jìn)行重要性排序,取重要性大于0.01的特征進(jìn)行分析.由特征重要性排序結(jié)果(見(jiàn)圖3(b))可看出,光學(xué)影像的紋理特征在參與多源遙感影像分類時(shí)表現(xiàn)突出,均值、方差和相關(guān)性等特征的重要性得分均在前幾名,經(jīng)過(guò)波段計(jì)算后的SAR影像極化特征在參與分類時(shí)的重要性也排在前列,這表明上文有關(guān)地物特征變量的分析是合理的.
為了驗(yàn)證本文方法的有效性,對(duì)SAR影像利用傳統(tǒng)SAR影像分類、光學(xué)特征參與分類和特征篩選優(yōu)化分類3種方法分別進(jìn)行隨機(jī)森林分類,并針對(duì)試驗(yàn)區(qū)的典型城市區(qū)域和鄉(xiāng)村區(qū)域分別進(jìn)行分類結(jié)果對(duì)比,3種實(shí)驗(yàn)方法過(guò)程中所用參數(shù)均一致.最終分類結(jié)果如圖4所示.
2個(gè)子區(qū)域的分類結(jié)果都顯示SAR影像經(jīng)過(guò)特征變量篩選優(yōu)化后地物區(qū)分更加準(zhǔn)確.由圖5可明顯看出變量?jī)?yōu)化后高密度建筑物區(qū)域邊界規(guī)整,道路邊緣清晰,錯(cuò)分、漏分情況明顯減少.圖6的耕地區(qū)域沿水域,道路邊的建筑物區(qū)分明確,傳統(tǒng)的SAR影像分類在自然地物分類上的表現(xiàn)明顯不如加入光學(xué)影像特征的分類結(jié)果,有較多地物分類混淆;而經(jīng)過(guò)參數(shù)篩選優(yōu)化后的分類結(jié)果地物細(xì)節(jié)特征更加豐富,去除重復(fù)和冗余的信息之后,更能夠準(zhǔn)確識(shí)別尺寸較小以及不連續(xù)分布的地物,且不會(huì)因?yàn)榈匚锏倪B續(xù)分布而損失中間的其他地物細(xì)節(jié);同時(shí)由于有了光譜信息的參與,道路兩旁的低密度建筑物區(qū)分更加明顯,不會(huì)因?yàn)樯⑸涠a(chǎn)生混淆,使分類結(jié)果更加接近地物的真實(shí)分布.
(a) 光學(xué)影像不同波段紋理參數(shù)重要性得分
(b) 光學(xué)和SAR影像結(jié)合特征重要性得分
圖4 特征篩選優(yōu)化分類結(jié)果
(a) 傳統(tǒng)SAR分類
圖5 城市區(qū)域分類結(jié)果
(a) 傳統(tǒng)SAR分類
定量分析選擇制圖精度、用戶精度以及Kappa系數(shù)作為評(píng)價(jià)指標(biāo),在多次實(shí)驗(yàn)后分別取最佳實(shí)驗(yàn)精度進(jìn)行統(tǒng)計(jì).分類結(jié)果評(píng)定如表1所示.
使用隨機(jī)森林優(yōu)化輸入變量后獲得最高總體精度92.1%.在各類地物中高密度建筑物紋理復(fù)雜,其極化分解得到的熵、平均散射角和各向的異性特征與道路、耕地比較相似,光譜以及紋理特征經(jīng)優(yōu)化篩選參與分類后,分類精度提高10%.此外,由于植被和水體所產(chǎn)生的奇次散射特征比較弱,導(dǎo)致漏分和錯(cuò)分情形比較嚴(yán)重,從表1看出,本文方法使這2類地物的分類精度值均有大幅提高.
表1 分類結(jié)果評(píng)定
1) 受有限訓(xùn)練樣本的可用性以及散斑噪聲的影響,傳統(tǒng)的監(jiān)督分類方法在極化SAR數(shù)據(jù)上的應(yīng)用是有限的,多源遙感影像為土地覆蓋分類提供了更多可能性.結(jié)合光學(xué)特征和極化特征,彌補(bǔ)了不同影像源的不足,可獲得更高的分類精度,甚至在情況比較復(fù)雜的城市場(chǎng)景中都能在不損失邊界的情況下有效地提取地物.
2) 利用隨機(jī)森林算法對(duì)光學(xué)和SAR影像的特征變量進(jìn)行篩選,能有效處理大量變量輸入分類器所造成的數(shù)據(jù)冗余,提高特征變量的利用率及分類效率,為后續(xù)分類提供優(yōu)質(zhì)的特征變量子集.
3) 綜合各數(shù)據(jù)的分類結(jié)果及精度評(píng)價(jià),篩選后的多源影像特征變量組合參與分類總體精度和Kappa系數(shù)可以達(dá)到92.1%和0.91,相比傳統(tǒng)SAR影像分類精度分別提升了11.9%和16.7%,體現(xiàn)了光學(xué)影像和SAR影像結(jié)合分類的優(yōu)勢(shì).
致謝感謝歐洲航天局通過(guò)哥白尼計(jì)劃提供Sentinel 系列衛(wèi)星數(shù)據(jù).