李莉,王麗麗,李長軍,陳秀齋,譚效磊,高強(qiáng),張超,田洪彰
(1北京工業(yè)大學(xué),北京 100010;1臨沂市氣象局,山東臨沂 276000;2山東臨沂煙草有限公司,山東臨沂 276000;3山東省信息中心,濟(jì)南 250000)
煙草是中國重要的經(jīng)濟(jì)作物之一。長期以來,煙草種植面積是煙草生產(chǎn)管理、國家宏觀管控決策的重要依據(jù)[1]。國內(nèi)煙草種植面積大、分布范圍廣,而且通常情況下,種植煙草的地塊不大,分布比較零散,形狀也不規(guī)則[2-3]。傳統(tǒng)上,煙草主管部門主要采用地面調(diào)查方式進(jìn)行統(tǒng)計(jì)了解,需要人工丈量種植地塊的面積,并隨時(shí)記錄地塊的具體位置,這種方式工作量大,不僅需要大量的勞動(dòng)力和經(jīng)濟(jì)資源,耗費(fèi)時(shí)間較長,而且容易受人為主觀因素影響,精確度不穩(wěn)定[4-6]。
近40 年來,遙感技術(shù)因具有覆蓋面積廣、時(shí)效性強(qiáng)、周期短、獲取信息快速等優(yōu)點(diǎn),在作物面積、長勢監(jiān)測中發(fā)揮著越來越重要的作用。目前應(yīng)用比較廣泛的有隨機(jī)森林算法,它是由一系列分類器組合在一起進(jìn)行決策,期望得到一個(gè)最“公平”的集成學(xué)習(xí)方法,它是隨機(jī)理論在實(shí)際應(yīng)用中取得的成果,可以看成是Bagging 和隨機(jī)子空間的結(jié)合[7-9],和傳統(tǒng)的決策樹相比,更加靈活、高效、準(zhǔn)確,分類效果更好,被廣泛應(yīng)用于中高分辨率的影像分類中[10]。還有閾值分割法,可以說是圖像分割中的經(jīng)典方法,它利用圖像中要提取的目標(biāo)與背景在灰度上的差異,通過設(shè)置閾值把像素級(jí)分成若干類,從而實(shí)現(xiàn)目標(biāo)與背景的分離。目前,遙感技術(shù)在農(nóng)作物種植面積監(jiān)測等方面的應(yīng)用較為成熟,但對(duì)于煙田信息提取還鮮有報(bào)道,煙草信息的遙感監(jiān)測起步相對(duì)較晚,基于遙感的煙草研究國內(nèi)外都還相對(duì)比較匱乏,不能滿足實(shí)際應(yīng)用的需要[11-13]。
鑒于此,筆者以山東省臨沂市為研究區(qū),Sentinel-2A多時(shí)相衛(wèi)星遙感影像為數(shù)據(jù)源,利用機(jī)器學(xué)習(xí)設(shè)置閾值提取臨沂市3區(qū)9縣煙草種植面積及區(qū)域,拓展煙草種植面積監(jiān)測手段,旨在為煙草種植業(yè)的科學(xué)管理、宏觀調(diào)控提供科學(xué)依據(jù),有利推進(jìn)煙草行業(yè)的信息化和科學(xué)化[14-16]。
臨沂地區(qū)位于山東省東南部,地跨34°22′—36°13′N、117°24′—119°11′E之間,總面積17191.2 km2[17-18],轄蘭山等3 區(qū)和郯城等9 縣,地理區(qū)位如圖1 所示,屬暖溫帶大陸性季風(fēng)氣候,四季分明,冬季干冷,春季干旱,夏季濕熱,秋高氣爽,陽光充足,雨量豐沛。該地區(qū)年平均氣溫13℃,一般西部高于東部,南部高于北部,全年日照時(shí)數(shù)在2500 h左右,有利于農(nóng)作物、植被的生長發(fā)育,是糧食作物和經(jīng)濟(jì)作物的重要原產(chǎn)地,全市常年種植烤煙8000 hm2左右[19]。
圖1 臨沂市地理區(qū)位圖
1.2.1 遙感數(shù)據(jù)哨兵2A(Sentinel-2A)衛(wèi)星是“全球環(huán)境與安全監(jiān)測”計(jì)劃的第2顆衛(wèi)星,于2015年6月23日發(fā)射,并于當(dāng)年年底正式投入使用。該衛(wèi)星攜帶一枚多光譜成像儀(MSI),可以覆蓋從可見光到紅外共13個(gè)光譜波段,還包括3 個(gè)QA 波段,反演的信息比較豐富,空間分辨率最高可達(dá)10 m,幅寬290 km,重訪周期5 d[20-22]。本研究選取2021 年1 月1 日—年9 月30日云覆蓋度低于1%的Sentinel-2A Level-1C 產(chǎn)品數(shù)據(jù)(從歐空局?jǐn)?shù)據(jù)共享網(wǎng)站https://scihub.copernicus.eu/dhus/#/home 下載),該產(chǎn)品已經(jīng)經(jīng)過亞像元級(jí)幾何精校正和輻射校正,可以提供大氣頂層的表觀反射率數(shù)據(jù)[23-25]。
1.2.2 地面樣本數(shù)據(jù)根據(jù)臨沂市實(shí)際土地利用情況,在水體、工業(yè)建筑、民用建筑、林地、耕地等5種地類中取樣,樣本點(diǎn)的選取遵循隨機(jī)、均勻分布的原則,覆蓋全市范圍,并將各類樣本隨機(jī)分為驗(yàn)證樣本和訓(xùn)練樣本,分別用于各類地物的識(shí)別以及識(shí)別后的精度評(píng)價(jià)[26]。
煙田信息的提取首先是區(qū)域各地類樣本庫的建立,在此基礎(chǔ)上,第1次應(yīng)用隨機(jī)森林機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)耕地與其他地類的區(qū)分;在耕地信息準(zhǔn)確提取的基礎(chǔ)上,再利用第2次隨機(jī)森林機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)覆膜耕地的提取;最后在覆膜耕地上,應(yīng)用多時(shí)相閾值法實(shí)現(xiàn)煙田信息的提取。整個(gè)分類的技術(shù)路線如圖2所示。
圖2 煙田分類技術(shù)路線
為減少分類數(shù)據(jù)的運(yùn)算量,首先通過閾值算法剔除明顯不同于煙田的農(nóng)作物。研究時(shí)段內(nèi)大面積種植的農(nóng)作物主要是小麥和玉米,這2 種作物在區(qū)域內(nèi)以輪作為主,因此可同時(shí)剔除,而水稻在4月具有明顯的灌水特征,在水體提取時(shí)也可一并剔除。剔除小麥、玉米、水稻種植區(qū)后,采用機(jī)器學(xué)習(xí)分類算法,實(shí)現(xiàn)一級(jí)地類信息提取,再基于采樣的隨機(jī)森林機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)覆膜耕地信息的提取。因?yàn)榕R沂地區(qū)煙田在4—5月需要在田間覆膜種植,同期覆膜的耕地還有花生、紅薯,且花生作為重要的油料作物,在臨沂大面積種植,而花生與煙草又具有相似的生育階段,本研究通過多時(shí)相閾值算法實(shí)現(xiàn)與煙田同期種植、同期收獲的花生、紅薯種植區(qū)的去除,最終達(dá)到煙田信息準(zhǔn)確提取的目的。綜上所述,本研究需要建立2次樣本庫,第1次實(shí)現(xiàn)小麥、玉米和水稻的準(zhǔn)確剔除,即一級(jí)地類樣本庫;第2次實(shí)現(xiàn)覆膜耕地、未覆膜耕地和已種植耕地的分類樣本庫,稱為二級(jí)地類樣本庫。
2.2.1 一級(jí)地類樣本庫建立基于GEE 云平臺(tái)提供的高分辨率谷歌影像數(shù)據(jù),及區(qū)域?qū)嵉卣{(diào)查數(shù)據(jù),將區(qū)域土地利用/土地覆被類型劃分為耕地、水體、工業(yè)建筑、民用建筑、林地5個(gè)類別,這5個(gè)土地利用/土地覆被類別,在真彩色、標(biāo)準(zhǔn)假彩色影像及紋理特征上存在顯著差異,因此,可通過GEE 云平臺(tái)的在線功能完成一級(jí)分類的樣本采集。樣本采集的基本原則是:(1)每類樣本在數(shù)量上分布均勻,其中耕地樣本數(shù)量要稍多一些;(2)每類樣本在空間分布均勻,并且兼顧同一類別在不同區(qū)域影像特征的差異性;(3)每類樣本的數(shù)量要足夠多,能夠滿足機(jī)器學(xué)習(xí)算法對(duì)樣本的需求。
基于上述原則,最終建立一級(jí)分類樣本595個(gè),其中水體樣本105 個(gè)、工業(yè)建筑樣本131 個(gè)、民用建筑127個(gè)、林地樣本103個(gè)、耕地樣本數(shù)據(jù)129個(gè)(表1)。2.2.2 二級(jí)地類樣本庫建立二級(jí)分類可以實(shí)現(xiàn)耕地范圍內(nèi)煙田與非煙田的區(qū)分,主要是區(qū)分與煙田同期種植的花生、紅薯等主要作物,因此在進(jìn)行二級(jí)分類樣本庫建立時(shí),既要考慮作物的時(shí)相特征,又要考慮影像特征。在二級(jí)分類取樣時(shí),將耕地區(qū)域分為3類,分別為4—5 月覆膜耕地、未種植的耕地和已種植的耕地,累計(jì)提取二級(jí)分類的耕地樣本879 個(gè),其中覆膜耕地樣本435個(gè)、未種植耕地234個(gè)、已種植耕地樣本210個(gè),在哨兵標(biāo)準(zhǔn)假彩色影像上的特征見表2。
表1 5種一級(jí)地類真彩色影像特征及數(shù)量
表2 3類二級(jí)分類耕地樣本提取影像特征及數(shù)量
圖3為谷歌地圖5月各種二級(jí)地類的高分辨率真彩色影像圖。圖4為基于哨兵多光譜影像數(shù)據(jù)的二級(jí)地類樣本采樣的空間分布示意圖,其中紅色采樣點(diǎn)表示覆膜耕地、綠色表示未種值耕地、紫色表示已種植耕地。
圖3 二級(jí)分類實(shí)際采樣點(diǎn)真彩色谷歌影像示意圖
圖4 二級(jí)分類耕地GEE云平臺(tái)采樣點(diǎn)哨兵標(biāo)準(zhǔn)假彩色分布示意圖
圖5 決策樹數(shù)量與精確度關(guān)系圖
圖6 決策樹節(jié)點(diǎn)個(gè)數(shù)與精確度關(guān)系圖
2.3.1 小麥種植掩膜區(qū)提取小麥種植區(qū)在5月植被指數(shù)較高,與其他作物明顯不同,因此通過簡單的閾值法就可以實(shí)現(xiàn)較高精度的分類。利用5月哨兵影像數(shù)據(jù)計(jì)算得到歸一化植被指數(shù)NDVI,設(shè)置NDVI閾值為0.38~0.54,提取出小麥種植區(qū)作為掩膜,在后續(xù)的分類數(shù)據(jù)中將小麥種植區(qū)掩膜掉,從而降低運(yùn)算量及錯(cuò)分概率。
2.3.2 一級(jí)地類特征值的提取基于前面建立的一級(jí)分類樣本,應(yīng)用GEE 云平臺(tái)支持下的隨機(jī)森林分類算法,對(duì)研究區(qū)的5 種一級(jí)地類進(jìn)行識(shí)別和自動(dòng)化提取。依據(jù)哨兵2 號(hào)多光譜衛(wèi)星的單波段數(shù)據(jù),應(yīng)用波段比值運(yùn)算,得到增強(qiáng)植被指數(shù)特征值。波段比值增強(qiáng)運(yùn)算可增強(qiáng)地物波譜特征間的微小差別,壓制圖像中乘性光照差異的影響,如地形和陰影的影響,突出地物的反射輻射特征,一些特定波段的簡單或復(fù)雜比值可作為識(shí)別某些特定地物的標(biāo)志,對(duì)數(shù)據(jù)作歸一化處理,壓制亮度差異或大氣選擇性吸收等的影響,突出地物間的波譜差異,最終達(dá)到提高地物類別之間區(qū)分度的目的。
哨兵1號(hào)的被動(dòng)微波雷達(dá)數(shù)據(jù)可以補(bǔ)充多光譜數(shù)據(jù)所不能提供的地物空間結(jié)構(gòu)、形狀等信息,輔助分類結(jié)果精度的提高。本研究采用2 個(gè)指數(shù),即VV 指數(shù)(哨兵雷達(dá)衛(wèi)星數(shù)據(jù)的垂直極化數(shù)據(jù)計(jì)算得到)和VH指數(shù)(哨兵雷達(dá)數(shù)據(jù)的水平垂直極化數(shù)據(jù)計(jì)算得到),為一級(jí)地物分類提供輔助的結(jié)構(gòu)、形態(tài)等信息。
2.3.3 隨機(jī)森林支持下的一級(jí)地類提取測試隨機(jī)森林決策樹的個(gè)數(shù)與精度關(guān)系后發(fā)現(xiàn),當(dāng)決策樹的個(gè)數(shù)為55 時(shí),隨機(jī)森林分類精度最高,并且隨著決策樹節(jié)點(diǎn)數(shù)量的增多分類精度提高,如圖5~6所示。
根據(jù)上述原理,一級(jí)地類分類用了55棵決策樹,每顆樹的深度為13,同時(shí)利用袋外數(shù)據(jù)誤差對(duì)每個(gè)特征參量的貢獻(xiàn)度進(jìn)行計(jì)算,如表3。Sentinel-2A第11波段對(duì)分類結(jié)果的貢獻(xiàn)度最大,重要性達(dá)到904.8,貢獻(xiàn)度最小的是第9波段,其重要性值為342.4,21個(gè)特征值的平均重要性為532.3,超過平均值的特征參量有7個(gè),按照由大到小排序?yàn)锽11、B10、B1、B2、B7、B6和B5。
基于上述特征值,及所建立的一級(jí)地類樣本庫(其中70%樣本用于訓(xùn)練,30%樣本用于精度驗(yàn)證),應(yīng)用隨機(jī)森林機(jī)器學(xué)習(xí)算法,實(shí)現(xiàn)云平臺(tái)支持下的一級(jí)地類的自動(dòng)提取,耕地的提取精度通過卡帕系數(shù)測算達(dá)到96%,結(jié)果如圖7所示。
圖7 2021年臨沂市耕地分布
在臨沂市一級(jí)地類的分類基礎(chǔ)上,掩膜掉非耕地區(qū)域,采用與一級(jí)分類同樣的特征參量,基于二級(jí)分類的879個(gè)樣本,在云平臺(tái)支持下,應(yīng)用隨機(jī)森林自動(dòng)分類算法,實(shí)現(xiàn)耕地區(qū)域的覆膜耕地、未種植耕地和已種植耕地的信息自動(dòng)提取,分類結(jié)果精度較高,其中覆膜耕地提取精度達(dá)到93%。
二次隨機(jī)森林機(jī)器學(xué)習(xí)算法得到的覆膜耕地主要為煙田、花生及紅薯等與黃煙同期種植、收割的農(nóng)作物,雖然這些農(nóng)作物的生育期與黃煙相似,但不同發(fā)育期的植被指數(shù)特征不同。因此,基于MODIS 的NDVI產(chǎn)品數(shù)據(jù),統(tǒng)計(jì)黃煙種植區(qū)不同時(shí)相的NDVI值及區(qū)域黃煙實(shí)際生長數(shù)據(jù),從而得到煙田信息多時(shí)相閾值算法的具體參考值(表4),最終實(shí)現(xiàn)煙田種植區(qū)的準(zhǔn)確提取。
表4 煙田提取的NDVI多時(shí)相閾值
由于煙田與紅薯、花生的同時(shí)期光譜特征有較大相似性,因此需要通過現(xiàn)場調(diào)查對(duì)容易混淆的典型作物進(jìn)行識(shí)別及核查。根據(jù)遙感監(jiān)測提取旱田經(jīng)緯度信息,于2021 年在臨沂市實(shí)地進(jìn)行地類定位驗(yàn)證,共驗(yàn)證了2207個(gè)點(diǎn)位,點(diǎn)位分布如圖8所示,驗(yàn)證發(fā)現(xiàn)本研究提取精度達(dá)到96%以上。
圖8 采樣點(diǎn)分布圖
通過遙感監(jiān)測得到各地類經(jīng)緯度信息,并進(jìn)行地類定位驗(yàn)證,記錄定位點(diǎn)類型及其所對(duì)應(yīng)的現(xiàn)場照片、遙感影像,如表5所示。
表5 部分采樣點(diǎn)信息
根據(jù)地面核查結(jié)果,對(duì)解譯過程中不易判讀的土地利用類型進(jìn)行補(bǔ)充,對(duì)錯(cuò)別誤判的地類進(jìn)行參數(shù)修改,通過地面核查和室內(nèi)修正、解譯,本研究采樣點(diǎn)處土地利用遙感解譯的精度最終達(dá)到了100%。
運(yùn)用上述研究方法,利用Sentinel-2A衛(wèi)星遙感影像數(shù)據(jù),基于GEE平臺(tái),提取出2021年度臨沂市3區(qū)9縣的煙田種植區(qū)域,空間分布格局如圖9 所示。從圖中可以直觀看出臨沂市煙田種植的分布情況,全市煙田提取面積為9053.3 hm2,市區(qū)沒有種植煙草,全市煙田主要分布在沂水、費(fèi)縣、蘭陵(圖10),分別是2400、1546.7、1253.3 hm2,其中沂水占26.5%。沂南和蒙陰緊跟其后,臨沭和郯城面積最少,分別是253.3、206.7 hm2,分布比較零散??傮w而言,臨沂市煙田在各區(qū)縣面積中所占比例并不高。
圖9 2021年臨沂市煙田分布圖
圖10 臨沂各縣煙田種植面積提取數(shù)據(jù)
基于上述研究方法得到臨沂市2021 年度煙草種植面積信息,實(shí)際空間分布情況基本和機(jī)器自動(dòng)計(jì)算結(jié)果吻合,并且具有較高的提取精度(表6),其中平邑、蒙陰和蘭陵提取精度高達(dá)96%以上,郯城、臨沭的提取精度略低,不足85%,這可能是因?yàn)榕R沭、郯城屬于平原地區(qū),以種植糧食、蔬菜為主,煙草種植區(qū)域本身較少,而且周邊其他地物(花生、紅薯等)混雜,不易區(qū)分。煙田的總體提取精度達(dá)到96.04%,且大部分縣區(qū)的提取精度在85%以上,可以滿足研究需求。
表6 面積提取精度驗(yàn)證
(1)衛(wèi)星遙感影像本身帶來的誤差。衛(wèi)星在獲取地面影像時(shí),既會(huì)受外在因素的影響,比如地形、氣象因素,也有來自內(nèi)在的原因,如系統(tǒng)本身的誤差、數(shù)據(jù)處理過程以及衛(wèi)星運(yùn)動(dòng)軌跡產(chǎn)生的誤差等,這些都會(huì)對(duì)提取精度產(chǎn)生一定影響。
(2)人為主觀因素造成的誤差。在野外調(diào)查中,由于時(shí)間、人為的原因,在實(shí)地測量烤煙種植區(qū)域的地理信息時(shí)出現(xiàn)偏差,或者是在對(duì)影像進(jìn)行目視解譯輔助繪制矢量真值圖時(shí),將與種植區(qū)域相鄰的邊界歸入類別,也可能由于同一時(shí)期種植的其他農(nóng)作物生長周期和體貌形態(tài)與烤煙很相似,導(dǎo)致在采樣時(shí)存在樣本混淆。
(3)從遙感影像上可以看出研究區(qū)地域復(fù)雜,地貌類型多樣,煙田種植地塊多存在零散、不連續(xù)的情況,在一個(gè)小區(qū)域內(nèi)可能同時(shí)存在多種農(nóng)作物,因此可能會(huì)導(dǎo)致單一像元內(nèi)存在多種地物類別信息,再加上煙葉特征不明顯,從而增加了分類的難度,影響分類精度。
(4)訓(xùn)練樣本帶來的誤差。種植地塊中可能存在少量其他作物或不同地類類別,影響訓(xùn)練結(jié)果,從而可能影響參數(shù)設(shè)置,最終影響判別結(jié)果。另外,算法在處理10 m分辨率的遙感數(shù)據(jù)時(shí)存在誤差,對(duì)于特征值相差不大的地類存在誤判情況,而且隨機(jī)森林對(duì)樣本的要求比較高,樣本數(shù)量和樣本分布都會(huì)間接或直接影響分類精度,其次隨機(jī)森林算法也屬于監(jiān)督分類算法之一,在分類時(shí)受人的主觀意識(shí)影響,類別數(shù)量的選擇也會(huì)帶來一定的誤差。
由于煙田種植地塊較小,存在同譜異物的混合像元問題,因此提取比較困難,本研究采用2次隨機(jī)森林分類算法再結(jié)合閾值法,最終提取出煙草種植信息。通過與實(shí)際調(diào)查統(tǒng)計(jì)數(shù)據(jù)進(jìn)行對(duì)比驗(yàn)證分析得出,大部分縣區(qū)的提取精度在85%以上,可以滿足煙草種植管理的需求。通過遙感手段提取的煙田數(shù)據(jù),比農(nóng)戶上報(bào)的更客觀、準(zhǔn)確。下一步可以在本研究提取的區(qū)域煙田分布數(shù)據(jù)基礎(chǔ)上,開展煙田區(qū)域氣象要素的精細(xì)化插值,煙田產(chǎn)質(zhì)量的精準(zhǔn)化預(yù)報(bào),及煙田氣象災(zāi)害的風(fēng)險(xiǎn)評(píng)估及預(yù)報(bào)預(yù)警等工作。筆者的研究區(qū)域是臨沂市,分類規(guī)則雖然可以較為準(zhǔn)確地提取出臨沂市的煙草種植區(qū)域,為山地丘陵地區(qū)煙田種植信息的提取提供一定的參考依據(jù),但該研究方法是否適用于其他植煙區(qū)還有待進(jìn)一步考證。