魯新新,張麗,郝夢潔,阿迪力·亞森,蔣青松
(塔里木大學(xué)信息工程學(xué)院,新疆 阿拉爾 843300)
衛(wèi)星遙感技術(shù)具有快速、簡便、宏觀、無損及客觀等優(yōu)點,經(jīng)過幾十年的快速發(fā)展,目前已經(jīng)廣泛應(yīng)用于農(nóng)業(yè)生產(chǎn)領(lǐng)域的各個環(huán)節(jié)。作物生長狀況的及時獲得和解譯是開展現(xiàn)代精準(zhǔn)農(nóng)業(yè)的基礎(chǔ)。衛(wèi)星遙感技術(shù)于農(nóng)業(yè)作物信息的獲取有較為明顯的優(yōu)勢[1]。
對于利用遙感圖像來對地面農(nóng)業(yè)地類進(jìn)行解譯,國內(nèi)許多學(xué)者已經(jīng)進(jìn)行了數(shù)十年的研究。分類方法日趨增多,大致可以分為監(jiān)督分類和非監(jiān)督分類,分類精度也愈來愈高。而作為遙感農(nóng)業(yè)分類研究的數(shù)據(jù)來源,遙感圖像的分辨精度也經(jīng)歷了從低分辨率(NOAA AVHRR以及國產(chǎn)風(fēng)云氣象系列)到中高分辨率(Landsat系列等)再到高分辨率(高分系列等)。近些年來衛(wèi)星傳感器種類不斷增多、技術(shù)不斷迭代,如基于高光譜、多角度、微波、熱紅外遙感等更多種類且高質(zhì)量的遙感數(shù)據(jù)可以為我們所用[2]。早期的低分辨率遙感圖像主要運用于大范圍的國土遙感檢測,等到中高分辨率遙感圖像出現(xiàn)以后,區(qū)域性的詳細(xì)地類監(jiān)測以及分類才得以迅速發(fā)展起來的。李曉東等[3]以鎮(zhèn)賚縣為試驗區(qū),設(shè)計了基于多時相遙感數(shù)據(jù)的農(nóng)田分類提取方案。該算法的總體分類精度為94%;次年,兩位學(xué)者又在此地區(qū)利用Landsat 8遙感數(shù)據(jù)構(gòu)建多維分類特征數(shù)據(jù)集對試驗區(qū)進(jìn)行土地覆被分類研究,提取了11種土地利用類型。最終多維變量組合方案的總體分類精度為 95.50%[4];劉煥軍等[5]基于時間序列 Landsat 5 和Landsat 7系列遙感數(shù)據(jù),結(jié)合實測作物產(chǎn)量數(shù)據(jù),進(jìn)行了棉花產(chǎn)量遙感預(yù)測模型研究。研究表明基于Landsat遙感數(shù)據(jù)的植被指數(shù)時序準(zhǔn)確反映了棉花整個生長期的長勢情況;在Landsat遙感數(shù)據(jù)預(yù)處理的基礎(chǔ)上提取歸一化植被指數(shù)(NDVI)等5種植被指數(shù),并通過主成分分析,劉云鵬等[6]基于最大似然、隨機森林等機器學(xué)習(xí)算法,結(jié)合小班數(shù)據(jù),對各算法的分類效果進(jìn)行精度評價;黃健熙等[7]基于GF?1 WFV影像數(shù)據(jù),研究東北地區(qū)玉米種植面積提取算法,研究表明隨機森林較其它分類算法分類效果更好,這對東北地區(qū)作物的分類算法優(yōu)選具有重要參考意義;其它針對中高分辨率遙感圖像以及相關(guān)處理指數(shù)的研究仍然不在少數(shù)[8?9],其中特別是基于 Landsat系列遙感數(shù)據(jù)的研究十分豐富[10?14]。另外近些年來,由于深度學(xué)習(xí)的興起,將深度學(xué)習(xí)算法應(yīng)用于遙感數(shù)據(jù)分類提取的研究也日趨增多[15?18]。
以上學(xué)者基于各種遙感圖像數(shù)據(jù)進(jìn)行了多種方向多種方法的分類研究,且都取得了一定的研究成果。但長期以來,雖然作物分類算法日益豐富,提取精度也隨著算法優(yōu)化而不斷提升。但這些研究多集中于不同算法的提取精度比較或者對單個算法的優(yōu)化上,對于其他維度,如作物不同生育期階段的研究較少。
棉花整個生育期從出苗開始大致可劃分為苗期、蕾期、花鈴期和吐絮期四個階段,一般認(rèn)為花齡期的面積提取效果最佳,但針對阿拉爾墾區(qū)還需具體地區(qū)具體分析。另外,為了可以更靈活地在棉花整個生育期內(nèi)都可以進(jìn)行及時面積提取工作,本研究將從四個生育期階段出發(fā),分別給出各個階段的最佳面積提取算法,以便更好地為棉田面積估計和產(chǎn)量估計服務(wù)。
綜上分析,南疆地區(qū)是棉花種植的主產(chǎn)區(qū),對棉田面積提取以及相關(guān)應(yīng)用有較大的需求。本研究將以南疆典型地區(qū)阿拉爾墾區(qū)為研究區(qū),基于Landsat系列遙感圖像,從生育期和分類方法兩個角度入手,來尋求南疆棉田不同生育期階段面積提取精度的算法最優(yōu)解。
研究區(qū)域位于南疆阿拉爾墾區(qū),該地區(qū)隸屬于新疆建設(shè)兵團(tuán)。范圍北至天山南麓,南至塔克拉瑪干沙漠北部邊緣,經(jīng)度處在東經(jīng)80°30'至81°58'范圍之內(nèi),緯度范圍為北緯40°22'至40°57'之間。東西相距約281 km,南北范圍約180 km。該地區(qū)屬于南疆典型氣候區(qū),氣候類型為暖溫帶大陸性干旱氣候,墾區(qū)雨量稀少,冬季少雪,地表蒸發(fā)強烈,年均降水量為40.1~82.5 mm。作物以棉花為主,紅棗等水果蔬菜有少量種植。
圖1 阿拉爾墾區(qū)所處新疆區(qū)位及遙感影像
本文使用的遙感圖像主要來源于中科院所屬的地理空間數(shù)據(jù)云網(wǎng)站和USGS(美國地質(zhì)調(diào)查局)官網(wǎng)的Landsat 8系列遙感圖像,該系列數(shù)據(jù)多光譜波段分辨率為30 m,全色波段分辨率為15 m,共包含11個波段(OLI陸地成像儀包含9個波段,TIRS熱紅外傳感器提供2個波段),單景掃描范圍為185 km×185 km[19]。
依據(jù)表1中阿拉爾墾區(qū)棉花生育期階段的日期劃分,本研究采用的遙感數(shù)據(jù)產(chǎn)生日期分別為2017年5月24號、6月10號、7月27號、9月28號。
表1 阿拉爾棉花生育期不同階段時間區(qū)間
此前已經(jīng)根據(jù)南疆地區(qū)棉花四個生育期(苗期、蕾期、花鈴期和吐絮期)時間范圍下載好需要使用的遙感圖像,所有遙感圖像云量均小于10%。隨后將下載的阿拉爾地區(qū)遙感數(shù)據(jù)分別解壓,由于下載的遙感圖像產(chǎn)品等級為L1T(幾何精校正數(shù)據(jù)產(chǎn)品),需要利用ENVI 5.3進(jìn)行全色和多光譜波段融合以提高分辨率(后期將與無融合的多光譜波段進(jìn)行面積提取精度比較)、輻射定標(biāo)和大氣校正。隨后利用已有的阿拉爾地區(qū)的shp格式邊界文件制作掩膜文件,并對已預(yù)處理圖像進(jìn)行掩膜提取。
1.4.1 劃分類別
Landsat 8系列遙感圖像的6、5、4波段用于農(nóng)業(yè)作物地類的分類,首先將實地對應(yīng)的各種地類標(biāo)注,再根據(jù)已標(biāo)注的地類對其它影像區(qū)域進(jìn)行目視解譯。由于主要是對棉田進(jìn)行精度研究,所以對于其他作物地類直接合并為其他地類。本次共分為六大地類:棉花、其它作物、建筑物、水體、自然植被、裸地。
1.4.2 興趣點選取
每個類別共選取200個左右的興趣點,依據(jù)訓(xùn)練集與測試集3:1的比例,訓(xùn)練集分配150個左右,測試集分配50個左右。
為了本次興趣點的選取,已預(yù)先在阿拉爾墾區(qū)內(nèi)實地采集了100多處樣本點,覆蓋了全部的地類類型。除了實地采集,也使用谷歌地球參與解譯遙感圖像,對一些地類進(jìn)行目視解譯。為了使分類效果更加的準(zhǔn)確,棉花四個生育期遙感圖像使用相同的訓(xùn)練集進(jìn)行訓(xùn)練,相同的測試集進(jìn)行精度測試。考慮到各個地類的季節(jié)變化情況有所差別(如水體的季節(jié)變化),水體的興趣點選擇在苗期,此時阿拉爾地區(qū)河流處于枯水期,為棉花整個生育期內(nèi)水體范圍最小時期;自然植被同樣選擇在苗期影像來進(jìn)行興趣點的選取,這樣可以保證四個生育期階段;棉花和其它作物選擇使用波段6、5、4進(jìn)行組合的圖像來進(jìn)行目視解譯,此波段組合適合用來分類植被作物;裸地在花鈴期遙感影像上來選取,此時自然植被、作物進(jìn)入旺盛期,水體范圍接近全年極大值,進(jìn)行裸地的分類不會出現(xiàn)標(biāo)記的興趣點在其它時期出現(xiàn)類別錯誤的問題。表2給出了訓(xùn)練樣本的可分離度。
表2 訓(xùn)練樣本可分離度
表2數(shù)據(jù)表明,興趣點樣本的可分離度范圍在0至2之間,一般大于1.9時可認(rèn)為樣本較好,小于1.8時則需要對部分樣本點點進(jìn)行重新選擇。由表1可知,每個類別之間的可分離度均大于1.8,且大多數(shù)大于1.9,這表明選取的訓(xùn)練樣本之間可分離度較好,可以用于本研究使用的遙感圖像的分類訓(xùn)練。
在面積提取算法選擇方面,由于根據(jù)已有的研究,單純使用非監(jiān)督分類方法效果不佳[19],所以本次分類研究只選取了四種較為常用的監(jiān)督分類算法,即:隨機森林、最大似然、人工神經(jīng)網(wǎng)絡(luò)和支持向量機。
總體精度:指被正確分類的類別像元數(shù)與總類別個數(shù)的比值。
生產(chǎn)者精度:是指被正確分類的類別像元數(shù)與該類別真實參考總數(shù)的比率[20]。
用戶精度:是指被分類器正確分到A類的影像像素總數(shù)與全部被分為A類的像元總數(shù)比率[20]。
提取面積絕對誤差比:是指將分類后的棉田像素總量提取出來轉(zhuǎn)化為公頃數(shù),與實際棉田面積做差,兩者之差與實際棉田面積之比的絕對值。
不少文獻(xiàn)對landsat 8本身的15 m全色波段融合多光譜以進(jìn)行分類精度對比的研究表明,在棉花全生育期內(nèi),融合后精度較融合前精度都有顯著提高。下面就苗期(5月24號)分別利用最大似然及神經(jīng)網(wǎng)絡(luò)對融合前后的精度作簡單驗證。表3為兩種類型的多光譜遙感數(shù)據(jù)的精度對比(面積單位為hm2):
表3 融合多波段與普通多波段精度對比
通過表3中兩類多光譜遙感圖像棉田面積提取精度的對比,可以看出兩者都存在其他地類被錯分為棉田的現(xiàn)象。融合成的15 m分辨率影像,最大似然和神經(jīng)網(wǎng)絡(luò)兩種算法的面積提取絕對誤差比分別為0.56%和10.99%,被錯分的面積相對比較少。作為對比,普通多波段的面積提取絕對誤差比為31.62%和10.14%,被錯分為棉田的面積較多,相較融合多光譜的誤差精度有大幅度降低,尤其是采用最大似然算法。因此,綜合表3中精度比較結(jié)果,對于使用的其它遙感影像都將進(jìn)行融合圖像處理。
基于Landsat 8融合多光譜遙感影像基礎(chǔ)上,運用各個分類算法對遙感數(shù)據(jù)進(jìn)行分類,其中神經(jīng)網(wǎng)絡(luò)的調(diào)節(jié)參數(shù)為訓(xùn)練步長/訓(xùn)練次數(shù);隨機森林的調(diào)節(jié)參數(shù)為決策樹數(shù)量。根據(jù)兵團(tuán)農(nóng)業(yè)統(tǒng)計年鑒的數(shù)據(jù),可知2017年阿拉爾地區(qū)棉花種植面積為1.007×105hm2,提取各個分類算法結(jié)果中的棉田像素并換算為種植公頃數(shù),與實際值進(jìn)行對比,來選取最佳面積提取算法。圖2是以苗期為例,展示了各個分類器的棉田提取效果。
圖2 苗期各類算法提取棉田分布比較及最佳分類器分類細(xì)節(jié)
從圖中可以較為直觀地對比出苗期各個算法的棉田分類結(jié)果在研究區(qū)空間維度的差異。而且就研究區(qū)中北部提取細(xì)節(jié)來看,其它分類器提取效果較差,有較多的地類被錯分為棉田,最大似然的提取效果最佳,棉田分布對比實地考察分布狀況較為符合。
從圖3中顯示的面積誤差比數(shù)據(jù)來看,苗期分類算法結(jié)果與實際誤差最小的算法是最大似然分類,提取面積為100 095.052 hm2,誤差比為0.56%;在神經(jīng)網(wǎng)絡(luò)算法方面,訓(xùn)練迭代次數(shù)處于1 000時,面積誤差相對較小,學(xué)習(xí)率為0.2時,達(dá)到了神經(jīng)網(wǎng)絡(luò)參數(shù)調(diào)節(jié)的面積誤差最小值,即10.99%;另外,隨機森林對決策樹數(shù)量的調(diào)整不太敏感,隨著數(shù)量的提升,誤差有微小的降低,在200時最低為18.07%。故此,在苗期使用最大似然分類來提取棉田面積效果最佳。
圖3 棉田生育期各階段算法面積提取絕對誤差比匯總
從上面的蕾期誤差精度結(jié)果表來看,對比各個算法以及其調(diào)節(jié)參數(shù)的精度結(jié)果,最大似然分類算法的誤差比精度結(jié)果最好,其誤差比為5.75%,而且其訓(xùn)練速度最快,但相較苗期的面積提取誤差比有明顯提升;在神經(jīng)網(wǎng)絡(luò)方面,隨著訓(xùn)練次數(shù)的增加,神經(jīng)網(wǎng)絡(luò)存在明顯的過擬合現(xiàn)象,且對比苗期的提取精度誤差更高,在學(xué)習(xí)率為0.2,迭代次數(shù)為1 000時取得了誤差比的最小值18.23%;隨機森林方面,參數(shù)調(diào)節(jié)依然不明顯,最好誤差比為30.32%;綜上,在棉花蕾期最佳的面積提取算法仍以最大似然為最優(yōu)。
就蕾期而言,神經(jīng)網(wǎng)絡(luò)算法最優(yōu)的面積提取精度誤差比達(dá)到了6.54%,且總體精度較苗期及蕾期有較大的提升;隨機森林對參數(shù)調(diào)節(jié)仍不太敏感,最佳誤差比(決策樹數(shù):100)為16.26%;最大似然分類誤差比為9.37%;支持向量機誤差比13.06%。故花鈴期最優(yōu)面提取算法為神經(jīng)網(wǎng)絡(luò)(學(xué)習(xí)率/迭代次數(shù):0.1/500),誤差比為6.54%。
比較吐絮期的面積提取算法誤差比精度,神經(jīng)網(wǎng)絡(luò)算法方面,在學(xué)習(xí)率為0.3,迭代次數(shù)為1 000時取得了最佳面積提取結(jié)果,誤差比為18.37%;隨機森林對參數(shù)調(diào)節(jié)敏感性較差,最佳誤差比為21.77%,決策樹數(shù)量為100;最大似然和支持向量機面積提取誤差比分別為8.97%和22.16%。故此,在棉花吐絮期進(jìn)行棉田面積提取算法的選擇時應(yīng)優(yōu)先選取最大似然分類。
以上分別就各個生育期棉田面積最佳提取算法進(jìn)行了討論,如考慮對全生育期精度進(jìn)行比較,以選取生育期內(nèi)最佳算法,基于四個生育期的最高精度,應(yīng)選取苗期的最大似然為最佳,其誤差比為0.56%。究其原因,苗期的棉田與其它作物的發(fā)育狀態(tài)差異較大,且自然植被也尚未進(jìn)入旺盛期,對棉田面積提取的影響也較小。
對阿拉爾墾區(qū)棉花不同生育期階段的Landsat影像進(jìn)行預(yù)處理,而后利用最大似然、神經(jīng)網(wǎng)絡(luò)、支持向量機以及隨機森林四種算法及相應(yīng)參數(shù)調(diào)節(jié)進(jìn)行分類,提取棉田面積并進(jìn)行精度對比,得出如下結(jié)論:在阿拉爾棉花苗期和蕾期進(jìn)行棉田面積提取時使用最大似然分類為最佳提取算法;花鈴期使用神經(jīng)網(wǎng)絡(luò)(速率/迭代次數(shù):0.1/500)為最佳提取算法;吐絮期棉田最佳面積提取算法則為最大似然。隨機森林中決策樹數(shù)對面積提取精度影響不太敏感;支持向量機的精度結(jié)果表現(xiàn)不佳,相較最大似然和神經(jīng)網(wǎng)絡(luò)的最佳提取誤差比,在四個生育期階段誤差比都相對較高。
在算法的選擇方面,受限于計算硬件,本研究中使用的仍是在遙感領(lǐng)域使用較多的機器學(xué)習(xí)分類算法,如最大似然和支持向量機等,這些算法主要基于像元進(jìn)行分類,對于其他潛在特征無法充分利用。對于近幾年出現(xiàn)的基于卷積網(wǎng)絡(luò)的新興分類算法(FCN、SegNet和DeepLab等)沒有進(jìn)行對比研究,雖然對于這些算法的分類精度目前尚不明朗,但近幾年該領(lǐng)域的研究十分活躍,相信未來該方向研究將更加深入。
在遙感影像的特征利用方面,利用影像紋理和各種植被指數(shù)來輔助進(jìn)行分類以實現(xiàn)更精確的分類精度,但考慮到Landsat系列遙感圖像為中等分辨率影像(融合后影像分辨率為15 m,仍屬中等分辨率),對象紋理不夠清晰,紋理細(xì)節(jié)利用效果可能不佳,精度提升不明顯。另外,由于時間倉促及硬件局限,植被指數(shù)(如NDVI)未作為精度提取的手段。通過對目前大量遙感領(lǐng)域?qū)W者研究重點和高質(zhì)量文獻(xiàn)研究內(nèi)容的分析,利用這些植被指數(shù)輔助遙感圖像分類及面積提取將是遙感領(lǐng)域的一個重要方向。