李金朝,買買提·沙吾提
(1.新疆大學(xué)地理與遙感科學(xué)學(xué)院,烏魯木齊 830046;2.新疆綠洲生態(tài)重點實驗室,烏魯木齊 830046;3.智慧城市與環(huán)境建模自治區(qū)普通高校重點實驗室,烏魯木齊 830046)
【研究意義】快速準(zhǔn)確的農(nóng)作物分類及種植面積信息提取是農(nóng)情監(jiān)測重要的基礎(chǔ)工作[1]。當(dāng)前,機器識別分類已成為農(nóng)業(yè)遙感影像分類的主要技術(shù),其在水稻[2]、小麥[3]、玉米[4]、棉花[5]等多種作物遙感信息提取中展開應(yīng)用,并證明是非常有效的手段?!厩叭搜芯窟M展】由于棉花是世界性作物,我國大量種植,尤其是新疆種植面積和產(chǎn)量均處于我國首位[6]。因此,國內(nèi)外眾多學(xué)者對棉花的遙感監(jiān)測研究非常重視,并且在基于遙感影像分類獲取棉花信息方面取得了一定的成果,其中基于傳統(tǒng)機器學(xué)習(xí)方法的提取棉花信息最為常見,如最大似然分類法(Maximum likelihood classification)[7]、支持向量機(Support vector machine)[8]、神經(jīng)網(wǎng)絡(luò)(Neural net classification)[9]等,此外少數(shù)人用隨機森林(Random forest)[10]和基于時序植被指數(shù)的棉花識別分類方法[11-12]。隨著遙感數(shù)據(jù)分辨率的日益提高,近年來,面向?qū)ο蠓诸惙椒╗13]在棉花識別分類中的應(yīng)用越來越多。過去,由于缺少自主的高分辨率影像數(shù)據(jù),長期以來作物信息提取多采用Landsat、Modis等中、低分辨率的衛(wèi)星數(shù)據(jù),混合像元數(shù)量眾多,識別精度有限;而且僅采用有限的淺層特征和規(guī)則簡單、結(jié)構(gòu)單一的傳統(tǒng)機器學(xué)習(xí)方法在面對復(fù)雜地物分布情況時表現(xiàn)出一定的局限性;此外,以往研究中多是針對單一作物的信息進行提取研究[2-5],對于包含多種作物以及套種作物的信息提取研究較欠缺。因此開展復(fù)雜背景下的高分辨率遙感數(shù)據(jù)的農(nóng)作物精細(xì)提取研究十分必要。【本研究切入點】國產(chǎn)高分系列衛(wèi)星的成功發(fā)射為農(nóng)作物的精細(xì)提取提供可能,尤其是高分2號衛(wèi)星具有空間分辨率高、圖幅范圍較大、壽命長、重訪周期短、圖像定位準(zhǔn)確等優(yōu)勢[14],已成為我國水稻、棉花、小麥和玉米等大宗農(nóng)作物遙感監(jiān)測的重要數(shù)據(jù)源之一。但是由于衛(wèi)星發(fā)射時間較短,其用于作物精細(xì)提取的研究較少。此外GF-2可以提供豐富的紋理信息,有利于提取渭庫綠洲廣泛存在的農(nóng)作物套種信息。傳統(tǒng)的遙感影像分類方法對于高分辨率遙感數(shù)據(jù)的細(xì)節(jié)信息提取不理想;新興的深度學(xué)習(xí)方法,例如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等需要大量的樣本數(shù)據(jù)來保證信息的提取精度,效率較低;而多分類器集成分類法可以綜合多個不同子分類器的優(yōu)勢[20],只需要與傳統(tǒng)機器學(xué)習(xí)方法相同數(shù)量的樣本就可以取得較高的信息提取精度[34]。因此,很多學(xué)者對多分類器集成方法在遙感信息提取領(lǐng)域的應(yīng)用進行了研究,例如:對高光譜數(shù)據(jù)[15,18,31]的信息提取,對SAR雷達(dá)[19,27]、ASTER[23]、無人機雷達(dá)[31]等傳感器數(shù)據(jù)的信息提取,對GF-2[3]、Landsat[16,25]、GF-1[17]、“北京1號”衛(wèi)星[22]等衛(wèi)星數(shù)據(jù)的信息提取,以及最新的將多分類器集成技術(shù)應(yīng)用于X射線醫(yī)學(xué)影像以診斷新型冠狀病毒肺炎[29]等。學(xué)者們選取的基分類器主要有支持向量機分類器、最大似然分類器、最小距離分類器、人工神經(jīng)網(wǎng)絡(luò)分類器、K最鄰分類器等[15-33],并有學(xué)者探討了多分類器集成技術(shù)與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合應(yīng)用于遙感影像分類[24]。還有學(xué)者詳細(xì)探討了基分類器的數(shù)目和多樣性或者差異性對于多分類器集成系統(tǒng)最終效果的影響[20,32-33],并提出了自己的建議,即子分類器間的差異性與集成系統(tǒng)的有效性呈正相關(guān)關(guān)系。【擬解決的關(guān)鍵問題】針對當(dāng)前對于作物在復(fù)雜背景下的精細(xì)提取研究較少,且少有研究將多分類器集成技術(shù)應(yīng)用于GF-2數(shù)據(jù)的信息提取研究的現(xiàn)狀,本文以渭干河-庫車河綠洲為試驗區(qū),主要利用國產(chǎn)高分2號數(shù)據(jù),通過特征提取,在傳統(tǒng)機器學(xué)習(xí)分類方法的基礎(chǔ)上,構(gòu)建了2種投票集成分類算法,對研究區(qū)內(nèi)的多種農(nóng)作物進行精細(xì)提取研究,以期拓展作物信息提取的方向和GF-2數(shù)據(jù)的應(yīng)用領(lǐng)域。
研究區(qū)域位于天山南麓,塔里木盆地中北部,是典型的扇形平原綠洲,屬于新疆阿克蘇地區(qū),包括庫車市、沙雅縣和新和縣。該地區(qū)屬于干旱與極端干旱區(qū),是塔里木河流域開墾較早的一個綠洲,也是新疆主要的棉花生產(chǎn)區(qū)域之一,區(qū)內(nèi)作物種植結(jié)構(gòu)較為復(fù)雜,地塊較為破碎,其境內(nèi)作物主要有棉花、玉米、小麥、果樹等,其中棉花、玉米的生長期大致重合為4—10月。研究區(qū)及采樣點見圖1。
圖1 研究區(qū)示意圖Fig.1 Schematic diagram of the study area
本研究使用的遙感數(shù)據(jù)是2018年9月17日獲取的高分2號(GF2)PMS2數(shù)據(jù),其中多光譜數(shù)據(jù)主要包括4個波段:藍(lán)(Blue:450~520 nm)、綠(Green:520~590 nm)、紅(Red:630~690 nm)、近紅外(Near infrared:770~890 nm),空間分辨率為4 m;全色數(shù)據(jù)(Pan)的波段范圍為450~900 nm,空間分辨率為1 m。獲取的GF-2數(shù)據(jù)經(jīng)過輻射定標(biāo)、大氣校正、正射校正、幾何配準(zhǔn)、圖像融合、裁剪等處理流程,得到最終的研究區(qū)GF-2影像(圖1-b)。于2018年7月3—12日,采用GVG調(diào)查方法[36]對渭庫綠洲進行野外實地考察,利用GARMIN GPS沿行進路線進行采樣,并記錄采樣點的坐標(biāo)和周邊的地物類型信息,共采集解譯標(biāo)志點1015個(圖1-a),作為選取樣本數(shù)據(jù)的參考數(shù)據(jù)。
根據(jù)野外考察情況和研究目的,將研究區(qū)域劃分為棉花、套種棉花、玉米、套種玉米、核桃園、建筑、道路、林地、裸地、陰影10種地物類型。從GF-2影像數(shù)據(jù)特點出發(fā),本研究提取了歸一化植被指數(shù)特征(NDVI),基于灰度共生矩陣提取了2種紋理特征:基于一階概率統(tǒng)計的紋理特征(紋理特征1)、基于二階概率統(tǒng)計的紋理特征(紋理特征2);紋理特征提取的窗口大小為3×3;其中紋理特征1每個波段可以提取5個特征,分別為數(shù)據(jù)范圍(Data range)、均值(Mean)、方差(Variance)、熵(Entropy)、斜態(tài)(Skewness),總共可提取4×5=20個特征;紋理特征2每個波段可提取8個特征,分別為均值、方差、同質(zhì)性(Homogeneity)、對比度(Contrast)、相異性(Dissimilarity)、熵、二階矩(Second Moment)、相關(guān)性(Correlation),總可提取共4×8=32個特征;最終構(gòu)建6種特征組合方案(表1)。選擇馬氏距離MsDC(Mahalanobis distance classification)、最小距離MDC(Minimum distance classification)、最大似然(MLC)、神經(jīng)網(wǎng)絡(luò)(NNC)、支持向量機(SVM)5種機器學(xué)習(xí)方法對遙感影像進行分類。根據(jù)上述5種分類器的分類結(jié)果選取基分類器,并基于交互式數(shù)據(jù)編程語言IDL(Interactive data language)、編程實現(xiàn)多數(shù)投票法(Majority voting)和保守投票法(Conservative voting)的多分類器集成。通過混淆矩陣(Confusion matrix)[37]方法計算獲取制圖精度PA(Producer’s accuracy)、用戶精度UA(User’s accuracy)、總體精度OA(Overall accuracy)、Kappa系數(shù)對分類結(jié)果進行定量評價。技術(shù)路線如圖2所示。
圖2 技術(shù)路線Fig.2 Technology roadmap
表1 特征組合方案Table 1 Feature combination scheme
多數(shù)投票法的判定規(guī)則[35]如下:
(1)
同理保守投票法的判定規(guī)則如下:
(2)
式2表示只有當(dāng)所有的分類器hi都將x分為cj時,才確定最終類別H(x)=cj,否則不確定x的類別。
如表2所示,MsDC總體精度最高的是MsDC-5,6種分類結(jié)果的總體精度隨著NDVI、紋理特征1、紋理特征2的加入,總體呈上升趨勢。MDC總體精度最高的是MDC-4,是加入紋理特征2后的結(jié)果。MLC總體精度最高的是MLC-1,為沒有加入額外特征時的分類結(jié)果,加入提取特征后的精度出現(xiàn)了不同程度的下降,其中加入紋理特征1后總體精度下降32.66%。NNC總體精度最高的是NNC-4,為加入紋理特征2后的分類結(jié)果,精度提高2.28%,Kappa系數(shù)提高0.04;并且加入NDVI和紋理特征1后的NNC-2、NNC-3、NNC-5、NNC-6精度出現(xiàn)不同程度的下降。SVM總體精度最高的是SVM-5,加入了紋理特征1和紋理特征2,精度提高4.4%,Kappa系數(shù)提高0.06,是5種分類器中加入額外特征后精度提高最大的分類器。子分類器中精度最高的是NNC-4,總體精度為83.54%,Kappa系數(shù)為0.77;沒有加入額外特征時精度最高的是NNC-1,總體精度為81.26%,Kappa系數(shù)為0.73。加入額外特征的方案2~6,精度最高的分類器分別為NNC-2、SVM-3、NNC-4、SVM-5、SVM-6??傊?不同分類器對不同特征組合方案的適應(yīng)性不同,有的額外特征的加入會導(dǎo)致精度提高,有的額外特征的加入反而導(dǎo)致精度下降;對于5種分類器,紋理特征相比NDVI提高精度更明顯,并且基于二階概率統(tǒng)計的紋理特征2相比基于一階概率統(tǒng)計的紋理特征1更有效;加入紋理特征1后,MDC、MLC、NNC精度下降,MsDC、SVM精度提高;加入紋理特征2后,除了MLC精度下降,其余4個分類器精度都提高。
表2 子分類器總體精度和Kappa系數(shù)Table 2 Overall accuracy and Kappa coefficient of subclassifiers
由表3可知,對棉花識別效果最好的是NNC-4,對套種棉花、裸地識別效果最好的是MsDC-5,對玉米識別效果最好的是MLC-1,對套種玉米、核桃園、道路、林地識別效果最好的是SVM-5,對建筑、陰影識別效果最好的是MDC-4。可見5種子分類器各有優(yōu)勢,因此可以通過集成實現(xiàn)互補,進而實現(xiàn)分類效果的提升。
表3 基分類器制圖精度Table 3 Producer’s accuracy of the base classifiers (%)
圖3 基分類器分類結(jié)果Fig.3 Classification result of the base classifiers
選擇每種分類器的最佳特征組合方案的分類結(jié)果作為多分類器集成的基分類器,然后基于多數(shù)投票和保守投票2種方法的集成分類結(jié)果見圖4。集成分類結(jié)果的制圖精度見表4。
表4 集成分類器制圖精度Table 4 Producer’s accuracy of ensemble classifiers (%)
圖4 集成分類結(jié)果Fig.4 Results of ensemble classification
由表3~4可知,基分類器中分類結(jié)果最優(yōu)的是NNC-4,投票法集成分類結(jié)果中最優(yōu)的是保守投票法V2,兩者相比,V2的OA提高2.35%,Kappa系數(shù)提高0.03。由表2可知,沒有加入額外特征時,分類結(jié)果最優(yōu)的是NNC-1,OA為81.26%,Kappa系數(shù)為0.73;與之相比,V2的OA提高4.63%,Kappa系數(shù)提高0.07。V2相比V1總體精度提高2.78%,Kappa系數(shù)提高0.03,棉花、套種玉米、核桃園的提取精度獲得提高,但是套種棉花、玉米的提取精度出現(xiàn)下降。
選擇典型的棉花、套種棉花、玉米、套種玉米、核桃園區(qū)域(圖5),對比分析基分類器與集成分類結(jié)果的不同。圖5左邊第一列是5種作物的GF-2假彩色影像。棉花典型區(qū)域中分類結(jié)果最好的是NNC-4和V2,較好的是SVM-5、V1和MLC-1,較差的是MsDC-5和MDC-4。套種棉花典型區(qū)域中,SVM-5識別效果最好,除了部分像元識別為棉花,套種棉花的大部分像元都能正確識別,并且四周的套種玉米識別也較好;NNC-4、V1、V2較好;MsDC-5、MDC-4較差。玉米典型區(qū)域中,MsDC-5、MDC-4、MLC-1的識別最好,大部分玉米像元都得到了正確識別;V1次之,大部分像元被正確識別為玉米;NNC-4、SVM-5、V2較差,將大部分像元識別為套種玉米。套種玉米典型區(qū)域中,NNC-4、SVM-5、V1、V2識別最好,大部分像元都得到了正確分類,并且錯分像元的類別也較接近;MsDC-5、MDC-4、MLC-1識別較差,將很多像元錯分為了玉米和核桃。核桃園典型區(qū)域中,MLC-1、NNC-4、SVM-5、V1、V2識別效果最好,分類結(jié)果較接近,但是錯分類像元的類別有區(qū)別;MsDC-5的結(jié)果較好,但是圖斑較破碎,部分像元識別為玉米和套種玉米;MDC-4對核桃園的識別最差,錯分像元最多??傊?通過典型區(qū)域的對比可知,集成分類的結(jié)果不一定都優(yōu)于基分類器的結(jié)果,一般是介于最差和最優(yōu)基分類器之間。
圖5 基分類器與集成分類器典型區(qū)域?qū)Ρ菷ig.5 Typical area comparison between base classifiers and ensemble classifiers
選擇未加入額外特征分類結(jié)果最優(yōu)的NNC-1;加入NDVI和紋理特征后,分類結(jié)果最優(yōu)的NNC-4;投票法集成后分類精度最高的V2;進行對比分析(表5和圖6)。
表5 NNC-1、NNC-4、V2分類精度Table 5 Classification accuracy of NNC-1,NNC-4 and V2
圖6 NC-1、NNC-4、V2精度對比Fig.6 Accuracy comparison of NNC-1,NNC-4 and V2
由集成分類結(jié)果分析可知,保守投票法集成,除棉花外,其他地物的制圖精度都高于NNC-1和NNC-4,這說明本研究中的多分類器集成方法有效。V2對棉花、套種玉米、核桃園的提取較理想,PA分別達(dá)到94.94%、86.05%、79.09%;但是對于套種棉花和玉米的提取不理想,套種棉花的PA只有63.86%,玉米為12.17%;這是因為①研究區(qū)內(nèi)玉米和套種玉米的特征過于相似,加入的紋理特征并不能很好地區(qū)分兩者;②套種棉花和玉米在研究區(qū)內(nèi)占比較小,而投票法多分類器集成時,由于集成的最終目的是提高總體精度,因此算法會過多的考慮占比較大的棉花和套種玉米而忽視套種棉花和玉米,導(dǎo)致有很多的屬于套種棉花的像元被分為棉花,原屬于玉米的像元被分為套種玉米。這也是集成分類后套種棉花和玉米的用戶精度較低(分別為56.59%、62.45%)原因。用戶精度代表了分類結(jié)果的可信程度,由圖6可知,除了核桃園和林地,最優(yōu)集成分類器V2的其他地物用戶精度都高于NNC-1和NNC-4,說明多分類器集成后的分類結(jié)果總體上可信程度更高。
本研究選擇國產(chǎn)高分2號衛(wèi)星遙感數(shù)據(jù)作為數(shù)據(jù)源,對新疆南部典型綠洲農(nóng)業(yè)區(qū)——渭干河-庫車河綠洲的作物信息進行提取。數(shù)據(jù)獲取時間點(2018年9月17日),綠洲內(nèi)的棉花和玉米是主要作物。農(nóng)作物和果樹(核桃樹、棗樹、梨樹等)的套種模式是渭庫綠洲上十分普遍的農(nóng)業(yè)種植方式,主要是由于新疆南部常年干旱少雨,渭庫綠洲又位于塔克拉瑪干沙漠邊緣,風(fēng)沙大,而農(nóng)作物與果樹套種的模式有利于保持水土、阻擋風(fēng)沙、改善周邊脆弱的生態(tài)環(huán)境。因此,對套種模式的農(nóng)業(yè)信息進行提取和研究十分有意義,不僅是農(nóng)業(yè)調(diào)查一個新方向,也可以拓展GF-2數(shù)據(jù)的應(yīng)用領(lǐng)域。
本研究提取歸一化植被指數(shù)(NDVI)和2種紋理特征作為輔助特征對研究區(qū)內(nèi)的棉花、套種棉花、玉米、套種玉米、核桃園等主要農(nóng)作物及種植結(jié)構(gòu)進行提取,并設(shè)計了6種特種組合方案分別訓(xùn)練5種不同的分類器來生成基分類器,采用多數(shù)投票和保守投票2種方法對5種基分類器進行集成,結(jié)果表明保守投票法優(yōu)于多數(shù)投票法。
(1) 輔助特征的加入對于子分類器精度的提高有顯著作用。5種分類器中除了MLC是MLC-1分類結(jié)果最好(未加入額外特征),其他4種分類器的分類結(jié)果都是加入額外特征的分類結(jié)果最好,如MsDC-5和SVM-5,加入了紋理特征1和紋理特征2;MDC-4和NNC-4,加入了紋理特征2。并且由于研究區(qū)內(nèi)植被占比很高,雖然NDVI可以提高植被與非植被的區(qū)分度,但是并沒有提高不同植被之間的區(qū)分度;而紋理特征的加入提高了不同植被之間的區(qū)分度,導(dǎo)致相比NDVI特征,紋理特征對于精度的提高更明顯,而這也是高空間分辨率數(shù)據(jù)(GF-2)的最大優(yōu)勢。
(2)5種分類器對2種紋理特征的敏感程度不同,加入不同的紋理特征后表現(xiàn)出不同的結(jié)果。MsDC和SVM對2種紋理特征都比較敏感,MDC和NNC只對紋理特征2敏感,MLC對2種紋理特征都不敏感??傮w上,基于二階概率統(tǒng)計的紋理特征2比基于一階概率統(tǒng)計的紋理特征1更有效。
(3)多分類器集成后的結(jié)果總體上要優(yōu)于5個基分類器。相比于基分類器,多分類器集成方法能夠在制圖精度和用戶精度兩方面提高農(nóng)作物的提取精度。并且保守投票法優(yōu)于多數(shù)投票法,OA為85.89%,Kappa系數(shù)為0.80。保守投票集成后的用戶精度除核桃園外,其余地類的用戶精度都高于或等于最優(yōu)基分類器NNC-4;說明集成分類的結(jié)果相比單一分類器有著更高的置信度。保守投票集成后各地物的制圖精度除了棉花與NNC-4一樣外,其余作物相比NNC-4都有所提高,提高最大的是核桃園為10.07%,提高最小的是套種棉花為0.35%,并且總體精度提高2.35%。未加入額外特征分類結(jié)果最優(yōu)的是NNC-1,OA為81.26%,Kappa系數(shù)為0.73;與之相比,保守投票法集成OA提高4.63%,Kappa系數(shù)提高0.07。綜上,本文提出的基于特征提取和特征組合方案構(gòu)建的多分類器集成方法是有效的。
(4)最優(yōu)的保守投票法多分類器集成對于棉花、套種玉米、核桃園等農(nóng)作物信息的提取精度較理想,但是對于套種棉花和玉米的提取精度比較差,原因如下:①玉米和套種棉花在研究區(qū)占比較小;②投票集成方法過于追求總體精度的提高,而忽視了在研究區(qū)內(nèi)占比較小的玉米和套種棉花,導(dǎo)致棉花和套種棉花、玉米和套種玉米存在混分現(xiàn)象。因此,借助遙感技術(shù)對套種這一重要的農(nóng)業(yè)種植模式進行提取的研究還有待繼續(xù)深入。由于套種空間尺度小,要提取這一信息,需要遙感數(shù)據(jù)的空間分辨率達(dá)到亞米級;而GF-2作為我國擺脫對昂貴的國外高空間分辨率遙感數(shù)據(jù)依賴的第一款國產(chǎn)亞米級空間分辨率遙感數(shù)據(jù),其在農(nóng)作物信息提取和農(nóng)業(yè)調(diào)查方面的研究應(yīng)用前景十分廣闊。
(1)輔助特征的加入對于子分類器的精度提高明顯。5種分類器中除了MLC,其余4種分類器都是在加入NDVI和紋理特征后取得了最高精度。
(2)基分類器中精度最高的是NNC-4(人工神經(jīng)網(wǎng)絡(luò)的第4種特征組合方案),OA達(dá)到83.54%,Kappa系數(shù)為0.77。
(3)相比基分類器,多分類器集成方法能夠在制圖精度和用戶精度兩方面提高農(nóng)作物的提取精度。并且保守投票法優(yōu)于多數(shù)投票法,OA為85.89%,Kappa系數(shù)為0.80。
(4)集成分類結(jié)果中除了棉花的識別精度與最優(yōu)基分類器NNC-4相等,達(dá)到94.94%外,其他的農(nóng)作物如套種棉花、玉米、套種玉米、核桃園的識別精度都高于NNC-4,其中套種玉米與核桃園的提取效果較好,精度分別達(dá)到86.05%、79.09%;對于套種棉花的提取較差,只有63.86%;玉米的提取最差,只有12.17%。