康依,馬勇,姚武韜,龍安,任迎豐,曾怡*
(1.北京林業(yè)大學(xué)信息學(xué)院,北京 100083;2.中國科學(xué)院空天信息創(chuàng)新研究院,北京 100094;3.三亞中科遙感研究所,海南省地球觀測重點實驗室,三亞 572029;4.廣西壯族自治區(qū)環(huán)境應(yīng)急與事故調(diào)查中心,南寧 530028;5.國有濟源市愚公林場,濟源 459000)
近年來,國家大力推行生態(tài)文明建設(shè),各地不斷加強區(qū)域生態(tài)本底變化和生態(tài)現(xiàn)狀的調(diào)查與評估。土地覆蓋利用狀況及其時空變化作為重要信息,已經(jīng)成為區(qū)域生態(tài)調(diào)查的首要目標(biāo)[1-2]。現(xiàn)有的利用遙感數(shù)據(jù)進行的長時序生態(tài)時空變遷調(diào)查大都需要逐景影像人工標(biāo)注樣本進行監(jiān)督分類,重復(fù)地選取樣本消耗大量的人力和時間,效率很低[3-5]。將人工標(biāo)注樣本復(fù)用并進行長時間序列影像的有效分類,可以提高效率,減少人力物力的消耗。
圖1 選用Landsat數(shù)據(jù)時間軸Fig. 1 Timeline of selected Landsat data
遷移學(xué)習(xí)是將已有知識運用到不同但相關(guān)領(lǐng)域中針對目標(biāo)任務(wù)求解的一種機器學(xué)習(xí)方法。傳統(tǒng)的機器學(xué)習(xí)中有兩個基本的假設(shè):一是訓(xùn)練樣本與測試樣本之間需要滿足獨立同分布的條件,二是只有使用足夠多的訓(xùn)練樣本訓(xùn)練才能得到一個較好的分類模型[6-7]。遷移學(xué)習(xí)則是放寬了這兩點要求,將已有知識運用到不同但相關(guān)領(lǐng)域中針對目標(biāo)任務(wù)求解,使用一套樣本訓(xùn)練的模型可以遷移應(yīng)用到不同的分類場景,為長時間序列多景影像的分類問題提供了新的解決思路。但是,在利用遷移學(xué)習(xí)知識解決長時間序列遙感影像分類的過程中,由于地物光譜的不穩(wěn)定性,遷移學(xué)習(xí)分類效果會受到包括影像的時間跨度、不同的物候條件等因素影響。不同的源域和目標(biāo)域影像的初始條件影響著遷移學(xué)習(xí)分類結(jié)果的精度,也決定了樣本可以遷移應(yīng)用的范圍。在使用遷移學(xué)習(xí)方法進行遙感影像目標(biāo)識別和土地利用分類中,國內(nèi)外已有一些學(xué)者進行了研究。林聰?shù)萚8]、Liao等[9]關(guān)注到固定位置樣本的使用,通過變化檢測進行篩選,尋找共享的特征子空間,或?qū)Σ黄ヅ涞臉颖具M行估計應(yīng)用到邏輯回歸;Zhou等[10]使用最小二乘值學(xué)習(xí)機調(diào)整目標(biāo)數(shù)據(jù),提高遷移分類準(zhǔn)確性;魯恒等[11]、趙亮等[12]使用了高分辨率數(shù)據(jù),用深度學(xué)習(xí)的算法將遷移學(xué)習(xí)應(yīng)用到不同的地物提取中。
這些研究多是應(yīng)用于不同領(lǐng)域中,解決目標(biāo)域樣本量不足或是針對不同的分類任務(wù)之間的遷移問題,聚焦于新任務(wù)中遷移分類的準(zhǔn)確性。對于較大空間范圍、較長時間跨度下的多景遙感影像分類問題,在保證實際應(yīng)用的分類精度下,樣本特征遷移復(fù)用的適用范圍和影響因素的研究很少。為了探究樣本復(fù)用遷移的泛化能力以及影響因素,明確樣本復(fù)用遷移的條件,本研究基于遷移學(xué)習(xí)的理論和方法,設(shè)計了不同的遷移實驗,探討利用遷移學(xué)習(xí)進行長時序遙感分類過程中物候差異、時間跨度等因素的影響程度及適用范圍,進而總結(jié)出利用遷移學(xué)習(xí)進行長時序遙感影像分類的注意事項和策略,為高效地利用樣本,減少過多的人工干預(yù)、提高樣本復(fù)用的合理性和科學(xué)性提供參考。
河南省濟源市位于河南省西北部,地處黃河以北,北部區(qū)域隸屬于太行山獼猴國家級自然保護區(qū),西南淺山丘陵位于國家重點工程小浪底水庫的北岸,總面積1 931 km2,生物資源豐富,區(qū)系成分復(fù)雜,其生態(tài)本底具有重要的研究意義和典型性。研究區(qū)土地覆蓋和利用類型豐富,根據(jù)GB/T 21010—2007《土地利用現(xiàn)狀分類》標(biāo)準(zhǔn)以及地方實際狀況和研究需求,構(gòu)建河南濟源土地利用分類系統(tǒng),將其土地利用類型分為林地、稀疏林地、梯田、耕地、建設(shè)用地、水體。
研究所使用的基礎(chǔ)遙感數(shù)據(jù)為Landsat TM影像和Landsat OLI影像。八景影像的時間如圖1所示。影像獲取后進行了輻射定標(biāo)、大氣校正、影像鑲嵌、影像裁剪等標(biāo)準(zhǔn)化預(yù)處理,得到如圖2所示研究區(qū)影像。
圖2 研究區(qū)部分時間遙感影像原始數(shù)據(jù)Fig. 2 Part of original remote sensing image data of the study area
本研究選擇直推式遷移學(xué)習(xí)的方法并設(shè)計針對不同影響因素的遷移實驗,構(gòu)建SVM和隨機森林兩種分類模型進行對比實驗,研究和分析不同因素對遷移學(xué)習(xí)分類效果的影響,以及不同地物對于遷移樣本的響應(yīng)程度。
技術(shù)路線如圖3所示,首先對所有遙感數(shù)據(jù)進行標(biāo)準(zhǔn)化預(yù)處理,并劃定源域和目標(biāo)域影像,提取各影像的6個光譜特征和2個指數(shù)特征作為分類特征;然后進行樣本選擇,基于先驗知識在每個類別范圍均勻選擇具有代表性的樣本,并分別使用SVM模型和隨機森林模型進行訓(xùn)練,根據(jù)結(jié)果調(diào)整樣本;隨后選用樣本包含的像素點數(shù)共12 474個,在分類模型訓(xùn)練時劃分為訓(xùn)練樣本和測試樣本,如表1所示,在源域中訓(xùn)練分類模型,進而用于物候變化、時間跨度、不同分類模型的遷移實驗和影像因素分析;最后進行實驗結(jié)果的驗證和精度的對比分析,得到研究結(jié)果。
圖3 技術(shù)路線Fig. 3 Technology roadmap
表1 選用訓(xùn)練樣本及模型訓(xùn)練測試樣本數(shù)量Table 1 Number of training samples and test samples
2.1.1 遷移學(xué)習(xí)方法選取
首先明確在本研究遷移學(xué)習(xí)的實驗中,源域與目標(biāo)域(遙感影像)不同,源任務(wù)與目標(biāo)任務(wù)(分類類別)相同。為了探究樣本值應(yīng)用的有效范圍,根據(jù)前人總結(jié)的遷移學(xué)習(xí)的幾種方法[7,13],本研究需要解決源域與目標(biāo)域不同,且源任務(wù)和目標(biāo)任務(wù)相同的情況下僅有源域中有標(biāo)注樣本參與分類的問題,來發(fā)揮人工選擇樣本的價值,減少長時序影像處理的工作量,因此選用直推式遷移學(xué)習(xí)的方法。
2.1.2 影響因素實驗設(shè)計
設(shè)計物候差異遷移實驗,對目標(biāo)域影像中與源域影像時間跨度為5 a的五景影像進行樣本遷移實驗,五景影像年份分別為2013年、2015年、2016年、2017年和2019年。根據(jù)影像的成像時間,其中2015年和2017年的影像物候差異較大(時相相差2個月以上),2013年、2016年和2019年的影像物候差異較小(時相相差1個月以內(nèi))。通過控制相近的時間跨度這一變量,研究不同的物候差異對遷移效果的影響。
設(shè)計時間跨度遷移實驗,對物候差異較小(時相相差1個月以內(nèi))的5景影像進行遷移實驗,此5景影像的時間跨度分別為1,2,5,10和20 a,即選用數(shù)據(jù)為2019年、2016年、2013年、2008年和1998年。通過控制物候差異這一變量,研究不同的時間跨度對遷移效果的影響。
2.1.3 實驗可信度驗證
為了減少實驗的偶然性,檢驗其可信度,設(shè)計驗證實驗,建立SVM和隨機森林兩種分類模型進行重復(fù)實驗以驗證結(jié)果,分析兩種分類器對實驗結(jié)果的影響。設(shè)計分別選用臨近年份(2016年和2019年)和時間跨度較大年份影像(2008年)作為源域影像選取樣本,將2018年影像作為目標(biāo)域影像,源域與目標(biāo)域?qū)φ{(diào),進行反向的樣本遷移實驗,與對應(yīng)的正向遷移實驗進行對比,保證實驗結(jié)論的準(zhǔn)確性。
2.2.1 光譜特征
選取影像的6個光譜特征,包括紅波段、綠波段、藍波段、近紅外波段、2個短波紅外波段。紅、綠、藍波段構(gòu)成的圖像是真彩色圖像,包含了很多圖像的信息。近紅外波段衍生出很多指數(shù),可用于有效監(jiān)測植被狀態(tài)。短波紅外波段對于裸土的監(jiān)測較為有效,也可以用于研究植被冠層含水量等。
2.2.2 指數(shù)特征
本研究選用2個指數(shù)特征,其中歸一化植被指數(shù)(NDVI,INDVI)對植被比較敏感,可以反映植被的生長狀況,歸一化水體指數(shù)(NDWI,INDWI)可以提取影像的水體信息。
(1)
(2)
式中:ρNIR為近紅外波段;ρRED為紅波段;ρGREEN為綠波段。
考慮到研究的是人工標(biāo)注樣本的復(fù)用問題,本研究選擇構(gòu)建SVM模型和隨機森林模型來解決小樣本的分類問題,并對兩種模型的遷移效果進行對比,探究不同模型對于遷移效果的影響,且消除一種模型的偶然性。
2.3.1 分類器選擇
基于探究小樣本的分類問題,選用了兩種適用于小樣本且應(yīng)用較為廣泛、分類效果較為穩(wěn)定的分類器進行遷移實驗,保證實驗結(jié)果的可信度。分類器的基本原理如下:
SVM分類器是在樣本空間內(nèi)找到一個超平面進行區(qū)分的一種二元分類器,引入核函數(shù)可將數(shù)據(jù)映射到高維空間進行現(xiàn)行劃分,適應(yīng)性較強,適用于小樣本分類任務(wù)[14]。
隨機森林是指用多個決策樹訓(xùn)練樣本并進行預(yù)測的一種分類器,對多個獨立決策樹的分類結(jié)果進行集成學(xué)習(xí),增加了準(zhǔn)確性和全面性[15]。
2.3.2 模型設(shè)計與實現(xiàn)
1)樣本特征提取及歸一化處理。從人工標(biāo)注樣本中選取80%作為訓(xùn)練集,剩余20%作為測試集,用Python語言實現(xiàn)了樣本特征的歸一化處理。對數(shù)據(jù)進行極值標(biāo)準(zhǔn)化,獲得數(shù)據(jù)特征的極大極小值進行歸一化處理。
(3)
式中:x為原數(shù)據(jù);x′為歸一化后的數(shù)據(jù);xmin為數(shù)據(jù)的極小值;xmax為數(shù)據(jù)的極大值。
2)SVM模型訓(xùn)練?;赒GIS平臺ENMAP-BOX工具箱,使用Python語言和LIBSVM源代碼,進行了SVM模型的構(gòu)建。SVM分類器在樣本空間D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{-1,+1}中找到的劃分超平面可通過如下公式進行描述:
ωTx+b=0
(4)
式中:ω=(ω1,ω2,…,ωd)為法向量;b為位移項。為了最大化異類支持向量到超平面的距離,需要求解:
(5)
對于某些不滿足約束的樣本,引入“松弛變量”ξi≥0,i=1,2,…,m,求解:
s.t.yi(ωTxi+b)≥1-ξi
(6)
式中:C>0為一個常數(shù),即SVM分類器中的懲罰系數(shù)。
為了最小化目標(biāo)函數(shù),C較大時ξi趨近于0,對超平面邊界處樣本容忍度較低;C較小時,邊界之間樣本增多,錯分可能性增大。為了將樣本映射到合適的特征空間,需要選擇合適的核函數(shù)。經(jīng)過嘗試對比,本研究選用SVM分類器的核函數(shù)是高斯核函數(shù)(RBF),適用于小樣本,特征不多,線性不可分的情況,能取得較好的效果。
K(x,y)=e-γ‖x-y‖2
(7)
式中:x、y為樣本值;γ為超參數(shù)(γ和C為SVM模型的兩個參數(shù),其中γ為核函數(shù)的自帶參數(shù),C為SVM模型的懲罰系數(shù),通過設(shè)定C的值來防止模型過擬合)。
本研究模型參數(shù)調(diào)優(yōu)使用GridSearchCV網(wǎng)格搜索的方式進行,超參數(shù)γ的范圍為0.01~10,參數(shù)C的范圍為0.01~1 000,遍歷參數(shù)組合,通過交叉驗證確定最佳效果模型。
3)隨機森林模型訓(xùn)練。本研究使用ENMAP-BOX工具箱進行了隨機森林的模型構(gòu)建,訓(xùn)練分類模型。其中隨機森林參數(shù)n_estimators設(shè)置為100。
本研究使用混淆矩陣的方式對結(jié)果進行精度評價,并計算Kappa系數(shù)(k)判斷一致性,統(tǒng)計各類別的單類精度(pe)。
(8)
式中:p0為每一類正確分類的樣本數(shù)量之和除以總樣本數(shù),也就是總體分類精度。假設(shè)每一類的真實樣本個數(shù)分別為a1,a2,…,ac,而預(yù)測出來的每一類的樣本個數(shù)分別為b1,b2,…,bc,總樣本個數(shù)為n,則:
(9)
3.1.1 物候差異遷移實驗
以2018年8月28日影像作為源域影像建立SVM分類模型進行遷移實驗,得到結(jié)果如圖4所示。與源域影像(2018年8月28日)年份相近、時相相差2個月以上的兩景影像(2015年5月16日、2017年10月28日),樣本遷移后的分類結(jié)果均較差。由于影像的季相差別較大,導(dǎo)致多種地物類別的光譜變化較大,植被與非植被之間都沒有得到很好的區(qū)分。但水體分類效果相對較好,由于年份相近,水體受物候變化影響較小并且與其他地物的光譜差異較大,區(qū)分效果較好。
圖4 物候差異較大遷移實驗結(jié)果Fig. 4 Transfer learning experiment results of large phenological difference
以2018年8月28日影像作為源域影像,利用與其年份相近、時相相差1個月以內(nèi)(2013年8月30日、2016年9月7日、2019年8月15日)的影像進行遷移實驗,結(jié)果見圖5。
SVM和隨機森林模型的分類結(jié)果類似,目視整體分類效果較好,由于年份接近,物候接近,季相差別較小,地物的光譜變化較小,地物類別區(qū)分較好。主要在耕地和梯田的分類上存在一定的錯分,隨機森林模型的分類結(jié)果中錯分更多。
圖5 物候、時間跨度相近遷移實驗結(jié)果Fig. 5 Transfer learning experiment results of similar phenological and near year
3.1.2 時間跨度遷移實驗
以2018年8月28日影像作為源域影像,選取了跨度為1 a(2019年)、2 a(2016年)、5 a(2013年)、10 a(2008年)和20 a(1998年)時相相差不到1個月的季相接近的影像作為目標(biāo)域影像進行遷移實驗。其中跨度為1和2 a的分類結(jié)果見圖5d~i,總體分類效果較好,基本滿足實際應(yīng)用需求;跨度為5 a的遷移分類結(jié)果見圖5a~c,與跨度1~2 a的分類結(jié)果相比,梯田與耕地的混分增多;跨度為10 a的遷移分類結(jié)果見圖6。總體分類效果不錯,相對于臨近年份影像分類效果有所下降,可以看到SVM分類結(jié)果與手選樣本分類結(jié)果更為接近,隨機森林分類結(jié)果中耕地和梯田的錯分現(xiàn)象更為明顯。
圖6 時間跨度10 a遷移實驗結(jié)果Fig. 6 Transfer learning experiment results of 10-year span
跨度為20 a的影像遷移分類的效果如圖7所示。隨著時間跨度拉大,樣本遷移實驗的效果逐漸下降,跨度為20 a的分類結(jié)果中,耕地有較多被錯分為稀疏林地,與長時間跨度上植被的變化導(dǎo)致光譜上區(qū)分度不大有關(guān);水體大部分被錯分為建設(shè)用地,其他類別的效果較好。
圖7 時間跨度20 a遷移實驗結(jié)果Fig. 7 Transfer learning experiment results of 20-year span
圖8 反向遷移實驗結(jié)果Fig. 8 Reverse transfer learning experiment results
此外,本研究設(shè)計了反向的遷移實驗來進行結(jié)果的對照驗證。分別采用2016年、2019年和2008年的樣本進行反向遷移實驗,用2016年、2019年、2008年的樣本對2018年影像進行遷移學(xué)習(xí)實驗,得到的實驗結(jié)果如圖8所示。其中2016年和2019年的情況相似,效果較好,2008年分類結(jié)果可以看到,梯田和耕地的錯分相對較多,林地與稀疏林地的錯分相對較多,時間跨度越大遷移效果越差。
選取3 341個隨機點進行精度評價,在物候相似、時間跨度小的遷移實驗中,總體精度和Kappa系數(shù)見表2。總體分類精度達到81%,Kappa系數(shù)0.75,有較好的一致性;在物候相近、時間跨度大(2008年和1998年)的遷移實驗中,總體精度隨著年份跨度變大逐漸降低,跨度為5 a的分類精度為80%;跨度為10 a的分類精度達到78%,效果相對較好;跨度為20 a的分類精度較低,效果不理想。選取2019年的混淆矩陣展示如表3所示,可以看到梯田與其他類別的錯分情況較多,其中稀疏林地被錯分為梯田的數(shù)量較多。
表2 SVM模型遷移實驗分類結(jié)果精度統(tǒng)計Table 2 Classification accuracy statistics of SVM-classifier transfer learning experiments
表3 2019年SVM遷移實驗混淆矩陣Table 3 Confusion matrix of 2019 transfer learning experiments
總體來看,非植被類別的分類效果較為穩(wěn)定,建設(shè)用地的分類精度穩(wěn)定在90%以上,水體的分類精度穩(wěn)定在85%以上;植被中林地和稀疏林地分類結(jié)果較為波動,精度一般;梯田和耕地等人工種植的植被波動更大,精度也更差。
隨機森林模型分類結(jié)果的精度評價如表4所示,總體精度高于70%,Kappa系數(shù)高于0.6,總體趨勢與SVM模型得到的結(jié)果相近。相比于SVM模型,隨機森林模型在本實驗中的精度略有下降,單類精度下降主要集中在林地、稀疏林地和梯田上。對于本實驗中林地、稀疏林地和梯田等植被的區(qū)分,隨機森林模型的效果略差。
表4 隨機森林模型實驗分類結(jié)果精度統(tǒng)計Table 4 Classification accuracy statistics of random-forest-classifier transfer learning experiments
基于上述實驗的結(jié)果分析,結(jié)合實踐操作可以看出,遷移學(xué)習(xí)在長時序遙感分類中所受的影響因素如下。
3.3.1 物候差異影響
在物候變化差異較大的影像遷移實驗中,遷移分類的效果較差,尤其是植被整體區(qū)分度很差;非植被中只有水體的分類效果略好,原因是水體的光譜特征和指數(shù)特征與其他地物差異較大,因此區(qū)分度較高,但整體精度也達不到應(yīng)用的需求。
因此,在樣本遷移的實驗中,首先要考慮影像之間的物候差距,時相相差2個月以上時,遷移分類的結(jié)果已無法應(yīng)用于實際研究。因此需要盡量保證時相相差1個月以內(nèi),保證季相的一致性,以保證分類精度。
3.3.2 時間跨度影響
跨度為1,2,5和10 a的遷移分類實驗取得較好的分類結(jié)果,總體分類精度隨著時間跨度增大略有下降,其中導(dǎo)致精度下降的主要因素是耕地、稀疏林地等植被分類精度有所降低。跨度為20 a的遷移分類結(jié)果顯示,水體、耕地、稀疏林地等類別精度顯著降低,分類效果不理想,無法滿足實際應(yīng)用需求。
因此,樣本的遷移復(fù)用在保證物候一致的前提下,時間跨度適當(dāng)延長對分類結(jié)果精度的影響較小,樣本可以遷移到10 a左右時間跨度,其分類結(jié)果精度仍可以滿足土地利用分類的實際應(yīng)用。但過長的時間跨度,如長達20 a的遷移分類效果則不甚理想,部分類別已難以區(qū)分,無法用于實際分類任務(wù)中。
3.3.3 不同地物響應(yīng)
從整體的遷移實驗結(jié)果中可以看到,非植被和植被大類之間的區(qū)分度較好,其中植被中林地、稀疏林地的精度相對較高,梯田與耕地錯分較多。根據(jù)當(dāng)?shù)氐膶嶋H情況,梯田與耕地均屬于人工種植,在光譜特征上區(qū)別較小,在物候上變化較大,容易造成混分;在非植被地物中,建設(shè)用地分類精度較高,與其受到物候變化影響較小有關(guān),水體的分類結(jié)果不如建設(shè)用地理想,且在長時間跨度上也有較大變化。
本研究使用Landsat長時序遙感數(shù)據(jù),以濟源市作為研究區(qū),基于遷移學(xué)習(xí)的理論和方法,設(shè)計了不同的遷移實驗,通過重復(fù)利用人工標(biāo)注樣本,探究得到物候差異、時間跨度、分類模型等因素對于樣本遷移效果的影響??偨Y(jié)出的長時序影像樣本遷移應(yīng)用策略如下:
1)樣本遷移到長時間序列影像進行土地利用分類時,物候是最主要的影響因素,因此建議在樣本遷移過程中,盡量保證選取的數(shù)據(jù)具有一致的季相,時相相差盡量控制在1個月之內(nèi);時間跨度對樣本遷移也有重要影響,跨度10 a以內(nèi)的影像遷移實驗結(jié)果較好,但在實際應(yīng)用中,為了保證更好的精度,建議選取跨度5~6 a的影像,能夠取得較好的分類結(jié)果。
2)在不同的土地利用類型中,非植被的樣本遷移效果更好且更穩(wěn)定,其中建設(shè)用地精度最高,水體精度次之。因此,遷移學(xué)習(xí)中應(yīng)注意不同土地利用類型精度,可以按照實際分類需求進行不同的提取。
3)SVM模型和隨機森林模型實驗結(jié)果類似,可信度較高,在本實驗中,使用SVM模型得到的結(jié)果較優(yōu),后續(xù)可以對比更多的分類器來進一步探討分類器對樣本遷移的影響。
對樣本在長時序影像上遷移應(yīng)用的影響因素和適用范圍進行了研究,探討了不同的時間跨度和物候條件帶來的變化對遷移學(xué)習(xí)效果的影響,歸納了利用遷移學(xué)習(xí)進行長時序影像分類的策略,為提高遷移分類精度提供了有效的數(shù)據(jù)選取依據(jù)。在后續(xù)研究中,會繼續(xù)將樣本遷移的空間尺度擴展到更大范圍,并納入不同源衛(wèi)星數(shù)據(jù),探討大時空尺度上多源數(shù)據(jù)之間樣本遷移的影響因素和特點,歸納樣本復(fù)用策略,以便在長時序分類或者大范圍分類中減少工作量,在確保滿足精度的前提下,提高分類的效率。