馮權(quán)瀧,牛博文,朱德海*,姚曉闖,劉逸銘,歐聰,陳泊安,楊建宇,郭浩,劉建濤
1.中國農(nóng)業(yè)大學(xué)土地科學(xué)與技術(shù)學(xué)院,北京 100083
2.中國移動通信集團廣東有限公司,廣州 510623
3.山東建筑大學(xué)測繪地理信息學(xué)院,濟南 250101
關(guān)鍵字:農(nóng)業(yè)塑料大棚;Google Earth Engine;Sentinel-2;隨機森林
數(shù)據(jù)庫(集)基本信息簡介
數(shù)據(jù)庫(集)名稱 2019年全國農(nóng)業(yè)塑料大棚遙感分類數(shù)據(jù)集數(shù)據(jù)作者 馮權(quán)瀧、牛博文、朱德海、姚曉闖、劉逸銘、歐聰、陳泊安、楊建宇、郭浩、劉建濤數(shù)據(jù)通信作者 朱德海(zhudehai@cau.edu.cn)數(shù)據(jù)時間范圍 2019年地理區(qū)域 中國陸地區(qū)域空間分辨率 30 m數(shù)據(jù)量 45.7 MB數(shù)據(jù)格式 *.shp, *.kml, *.tif, *.zip數(shù)據(jù)服務(wù)系統(tǒng)網(wǎng)址 http://www.dx.doi.org/10.11922/sciencedb.j00001.00230基金項目國家自然科學(xué)基金(42001367);國家重點研發(fā)計劃(2018YFE0122700);中國科學(xué)院“十三五”信息化建設(shè)專項(XXH-13514)。數(shù)據(jù)庫(集)組成本數(shù)據(jù)集由大棚空間分布數(shù)據(jù)集和大棚樣本數(shù)據(jù)集組成。其中:大棚空間分布數(shù)據(jù)集共包含34個以省級行政區(qū)名稱命名的文件夾,每個文件夾又包含兩部分,分別是30米空間分辨率的大棚空間分布數(shù)據(jù)(tif格式)以及5 km格網(wǎng)數(shù)據(jù)(shp格式)。大棚樣本數(shù)據(jù)集則包含各省級行政區(qū)的地面樣本數(shù)據(jù)(kml格式)。
我國作為一個農(nóng)業(yè)大國,農(nóng)業(yè)塑料大棚的占地面積逐年攀升,其在解決我國蔬菜等農(nóng)產(chǎn)品的供應(yīng)、增加農(nóng)民收入、促進農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu)調(diào)整、提高城鄉(xiāng)居民的生活水平等方面發(fā)揮著十分重要的作用[1]。農(nóng)業(yè)塑料大棚包括溫室大棚、漁業(yè)養(yǎng)殖用房等,而根據(jù)第三次農(nóng)業(yè)普查數(shù)據(jù),我國溫室大棚的占地面積已穩(wěn)居世界第一。因此準確獲取農(nóng)業(yè)塑料大棚的空間分布及其動態(tài)變化,可為政府、科研單位等提供數(shù)據(jù)支撐,有利于保障我國的農(nóng)業(yè)現(xiàn)代化生產(chǎn)和可持續(xù)發(fā)展。
傳統(tǒng)農(nóng)業(yè)塑料大棚監(jiān)測方法主要以人工實地調(diào)查和統(tǒng)計上報為主,存在效率低、實時性差等缺陷。衛(wèi)星遙感具有大范圍同步觀測的優(yōu)勢,對于農(nóng)業(yè)塑料大棚分類而言是一種理想的數(shù)據(jù)源[2-3]。因此如何利用衛(wèi)星遙感精準獲取全國的農(nóng)業(yè)塑料大棚的空間分布,成為一個亟待解決的關(guān)鍵技術(shù)問題。
為解決上述問題,本文基于Google Earth Engine(GEE)云計算平臺,采用10米空間分辨率的Sentinel-2遙感影像,進行全國農(nóng)業(yè)塑料大棚的分類數(shù)據(jù)生產(chǎn)。具體而言,首先基于地面樣本點計算大棚的光譜特征和紋理特征,并訓(xùn)練隨機森林模型[4],通過并行計算得到全國農(nóng)業(yè)塑料大棚遙感分類結(jié)果。本數(shù)據(jù)是第一次公開發(fā)布的全國農(nóng)業(yè)塑料大棚空間分布數(shù)據(jù),可有效呈現(xiàn)全國大棚的空間分異特征,為科研、政府等有關(guān)部門提供數(shù)據(jù)支撐。
考慮到GEE云計算平臺具有數(shù)據(jù)獲取成本低、計算效率高、操作便捷等優(yōu)勢[5],本文遙感數(shù)據(jù)來源為GEE平臺,具體為空間分辨率為10 m且經(jīng)過大氣校正的2019年Sentinel-2多光譜遙感影像。
1.2.1 技術(shù)路線
本文的總體技術(shù)路線如圖1所示,共包含以下處理步驟:
圖1 總體技術(shù)路線
(1)影像選擇及預(yù)處理:在GEE云平臺上獲取2019年覆蓋各省級行政區(qū)的Sentinel-2影像(見表1),并在GEE上進行去云、影像拼接等預(yù)處理。
表1 2019年覆蓋各省級行政區(qū)的Sentinel-2影像時間表
地區(qū) 遙感影像時間 地區(qū) 遙感影像時間湖北 2019.03.01-2019.05.31;2019.06.01-2019.09.30 浙江 2019.01.01-2019.04.01;2019.10.01-2019.12.31湖南 2019.04.01-2019.10.01;2019.10.01-2019.12.31 吉林 2019.03.01-2019.05.31;2019.09.01-2019.10.31江蘇 2019.03.01-2019.05.31;2019.09.01-2019.09.30 山東 2019.03.01-2019.05.31;2019.09.01-2019.10.31江西 2019.04.01-2019.10.01;2019.10.01-2019.12.31 新疆 2019.04.01-2019.05.31;2019.08.01-2019.09.30安徽 2019.03.05-2019.05.31;2019.09.01-2019.10.31 內(nèi)蒙古 2019.03.01-2019.05.31;2019.09.01-2019.10.31
(2)樣本初選:根據(jù)野外調(diào)查和目視解譯選擇農(nóng)業(yè)塑料大棚以及非農(nóng)業(yè)塑料大棚的樣本,并在GEE上進行樣本標記。
(3)特征提?。喊ɡt帽變換、光譜指數(shù)、紋理特征等的計算;其中纓帽變換取前三個分量,亮度,綠度以及濕度分量;光譜指數(shù)包括歸一化植被指數(shù)(Normalized Difference Vegetation Index NDVI),歸一化建筑物指數(shù)(Normalized Difference Built-up Index NDBI),修正歸一化差異水體指數(shù)(Modified Normalized Difference Water Index MNDWI),土壤調(diào)節(jié)植被指數(shù)(Soil Adjusted Vegetation Index SAVI);紋理特征包括均值(Mean MEA),標準偏差(Standard Deviation STD),同質(zhì)性(Homogeneity HOM),相異度(Dissimilarity DIS),熵(Entropy ENT)和角二階矩(Angular Second Moment ASM)[6]。
(4)模型訓(xùn)練及精度驗證:完成特征計算后,按照3∶1的比例劃分訓(xùn)練集和測試集。然后利用訓(xùn)練集進行隨機森林分類器的訓(xùn)練,并利用測試集進行精度驗證。
(5)分類結(jié)果目視判別:將分類結(jié)果輸出,并添加至GEE圖層。通過目視解譯的方式,判斷分類效果是否滿足分類要求。若滿足則進入分類后處理,若不滿足則進入樣本重選。
(6)樣本重選:若步驟(5)不滿足分類要求則進入本步驟,將分類結(jié)果圖添加至GEE新圖層,基于本次分類結(jié)果對樣本數(shù)據(jù)進行人工修正,增加或刪除原有樣本,以提升分類精度以及效果。
(7)分類后處理:若步驟(5)滿足分類要求則進入本步驟,將分類結(jié)果圖加載到ArcGIS中,利用各省級行政區(qū)的矢量圖層對大棚分類結(jié)果進行掩膜提取,同時基于5公里格網(wǎng)生成大棚空間占比統(tǒng)計專題圖。
(8)輸出成圖:將各省級行政區(qū)的大棚分類數(shù)據(jù)進行鑲嵌處理,從而得到全國大棚分布專題圖,同時生成全國大棚面積百分比專題圖。
1.2.2 特征提取
為了提高農(nóng)業(yè)塑料大棚的分類精度,首先對其進行特征提取,通過構(gòu)建多維特征空間,提高大棚與其他地物的類間可分性。在本文中,提取的特征主要包括纓帽變換特征、光譜指數(shù)和紋理特征。
(1)纓帽變換
纓帽變換通過將影像變換為三個主要成分(亮度、綠度和濕度),可有效突出植被、土壤、人造地物之間的差異。因此本文采用纓帽變換進一步提升農(nóng)業(yè)塑料大棚與其他地物的可分性。纓帽變換公式為:
式中,Y——變換后多光譜空間的像元矢量;X——變換前多光譜空間的像元矢量;c——變換矩陣;b——常數(shù)。
(2)光譜指數(shù)
除纓帽變換特征外,本文采用下列光譜指數(shù)進一步提升大棚的可分性:植被指數(shù)(NDVI)、建筑指數(shù)(NDBI)、土壤調(diào)節(jié)植被指數(shù)(SAVI),水體指數(shù)(MNDWI)。其中NDVI可減少植被對農(nóng)業(yè)塑料大棚分類的影響;NDBI可減少建設(shè)用地對農(nóng)業(yè)塑料大棚分類的影響;SAVI可進一步減少NDVI受土壤背景噪聲影響;MNDWI可減少水體對農(nóng)業(yè)塑料大棚分類的影響。上述光譜指數(shù)的計算公式如下:
式中:ρ(G) ——綠色波段反射率;ρ(R) ——紅色波段反射率;ρ(N) ——近紅外波段反射率;ρ(M)——中紅外波段反射率;L——矯正因子[7]。
(3)紋理特征
通過目視解譯發(fā)現(xiàn),相比于其他地物,農(nóng)業(yè)塑料大棚具有明顯的幾何特點和紋理特征,因此本文采用均值(MEA),標準偏差(STD),同質(zhì)性(HOM),相異度(DIS),熵(ENT)和角二階矩(ASM)6個紋理特征,進一步區(qū)分農(nóng)業(yè)塑料大棚和其他地物。
式中,Q——灰度級數(shù);P(i,j)——共生矩陣的元素歸一化灰度值;MEAi——均值;STDi——標準偏差;HOM——同質(zhì)性;DIS——相異度;ENT——熵;Asm——角度秒矩。
1.2.3 分類器構(gòu)建與精度評估
隨機森林是一種基于決策樹的集成分類器。在模型構(gòu)建過程中有兩次隨機采樣過程,一是通過Bootstrap重采樣技術(shù)對原始訓(xùn)練樣本進行隨機采樣,二是對所有分類特征進行隨機采樣以訓(xùn)練單獨的決策樹,并最終以投票的形式對所有決策樹的分類結(jié)果進行融合,從而得到隨機森林的分類結(jié)果。隨機森林具有抗過擬合能力強、分類穩(wěn)定性高、參數(shù)化過程簡單、更適于多維共線性特征的建模等優(yōu)勢,已經(jīng)在遙感影像分類領(lǐng)域得到廣泛應(yīng)用,因此本文選取隨機森林作為分類器進行農(nóng)業(yè)塑料大棚的遙感分類。
具體而言,在GEE云計算平臺中調(diào)用Classifier.randomForest()函數(shù)構(gòu)建隨機森林分類器。根據(jù)前期試驗結(jié)果設(shè)置 150棵決策樹,隨機特征個數(shù)為 4,即設(shè)置參數(shù) numberOfTrees=150、variablesPerSplit=4,其余參數(shù)均為默認值。同時考慮到全國范圍較大,若只構(gòu)建一個隨機森林模型,將難以實現(xiàn)精準分類,因此采用分區(qū)建模的思路,對每一個省級行政區(qū)構(gòu)建單獨的隨機森林分類器,并對面積較大的行政區(qū)(如新疆維吾爾族自治區(qū)、內(nèi)蒙古自治區(qū)等)繼續(xù)進行分區(qū)建模。
在完成分類后,采用測試樣本集對各省級行政區(qū)的分類精度進行評估。首先計算混淆矩陣,同時計算總體分類精度、Kappa系數(shù)、用戶精度、生產(chǎn)者精度等指標。并計算各個省級行政區(qū)的平均精度作為本數(shù)據(jù)集的最終精度。
本數(shù)據(jù)主要包含2019年全國農(nóng)業(yè)塑料大棚遙感分類結(jié)果以及對應(yīng)的地面樣本數(shù)據(jù)。上述數(shù)據(jù)被保存在一個名為“2019年全國農(nóng)業(yè)塑料大棚遙感分類數(shù)據(jù)集.7z”的壓縮文件內(nèi),文件大小總計45.7 MB。該文件共包括34個以省級行政區(qū)命名的文件夾(若文件夾為空,則表示該省級行政區(qū)農(nóng)業(yè)塑料大棚遙感分類面積極小且難以提取),每個省級行政區(qū)文件夾下包含3個子文件夾,分別包含以下內(nèi)容:
1)大棚樣本數(shù)據(jù):其數(shù)據(jù)格式為kml,具體包括農(nóng)業(yè)大棚(Agricultural Greenhouse,AG)和其他地物(None Agricultural Greenhouse,Non-AG)兩類地面樣本。
2)大棚遙感分類結(jié)果數(shù)據(jù):為GEE云平臺計算得到的分類數(shù)據(jù),其數(shù)據(jù)格式為tif,同樣包含農(nóng)業(yè)大棚和其他地物共兩類的分類結(jié)果。
3)5公里格網(wǎng)對應(yīng)的矢量數(shù)據(jù):是在Albers投影下所構(gòu)建的5公里格網(wǎng),基于該數(shù)據(jù)和遙感分類結(jié)果可進行分區(qū)統(tǒng)計,從而得到大棚面積的百分比專題圖。
此外,以上數(shù)據(jù)均采用UTM投影、WGS84坐標系。
本數(shù)據(jù)集的文件構(gòu)成如圖2所示,2019年全國農(nóng)業(yè)塑料大棚分布數(shù)據(jù)集主要包括樣本數(shù)據(jù)集和分省分類圖像數(shù)據(jù)集。其中樣本數(shù)據(jù)格式為kml;分類數(shù)據(jù)格式為tif格式,空間分辨率為30 m。本文數(shù)據(jù)集是基于GEE云平臺Sentinel-2遙感影像生成的,數(shù)據(jù)資料來源可靠。用戶可通過ArcGIS等GIS軟件對數(shù)據(jù)進行進一步的加工和處理。本文同時給出了5公里的格網(wǎng)數(shù)據(jù),基于本格網(wǎng)數(shù)據(jù)對分類結(jié)果進行分區(qū)統(tǒng)計,即可得到大棚面積占比數(shù)據(jù)。
圖2 數(shù)據(jù)集文件構(gòu)成
圖3為2019年全國農(nóng)業(yè)塑料大棚樣本分布圖。其中黑色代表農(nóng)業(yè)塑料大棚樣本點,藍色為其他地物的樣本點。可以看出,本數(shù)據(jù)集的樣本點分布范圍覆蓋了全國,并在山東、河北等重點區(qū)域增加了采樣密度,具有較好的空間代表性。
圖3 2019年全國樣本分布專題圖(審圖號:GS(2021)2091號)
表2給出了各省級行政區(qū)樣本數(shù)量統(tǒng)計結(jié)果。其中,西藏、重慶、澳門、香港地區(qū)由于大棚數(shù)量過少,未進行樣本采集工作。
表2 各省級行政區(qū)樣本統(tǒng)計表
地區(qū) 大棚樣本數(shù)量(個) 其他地物樣本數(shù)量(個)山西 237 239四川 371 1042陜西 172 217臺灣 28 112云南 159 317浙江 223 392吉林 1182 756山東 2049 1761新疆 133 585內(nèi)蒙古 603 1915全國 10 371 17344大棚面積(平方公里)225.7 1071.5 251.3 0.1 1482.4 463.7 242.9 2309.7 59.9 207.8 10 329.8
由表2可知,本數(shù)據(jù)集共包含樣本27 715個,正負樣本基本平衡。其中農(nóng)業(yè)塑料大棚樣本數(shù)量為10 371個,其他地物樣本數(shù)量為17 344個。全國的農(nóng)業(yè)塑料大棚的總面積約為10 329.8平方公里,其中山東省的農(nóng)業(yè)塑料大棚占地面積最多,總面積約為2309.7平方公里。
圖4展示了2019年全國農(nóng)業(yè)塑料大棚分布情況。考慮到大棚面積較小,直接進行分類結(jié)果的展示則效果不佳,因此本文借鑒了前人的工作方法[6],計算了5公里格網(wǎng)內(nèi)大棚的面積占比,可以更好反映大棚的空間分布特征。
圖4 2019年全國農(nóng)業(yè)塑料大棚分布專題圖(審圖號:GS(2021)2091號)
如圖4所示,2019年全國農(nóng)業(yè)塑料大棚主要分布在北方地區(qū),包括山東省東北部(壽光市)、西部地區(qū)(莘縣);遼寧省的中部地區(qū)(新名市);河北省的中南部地區(qū)(保定市)等。在南方地區(qū),農(nóng)業(yè)塑料大棚主要分布在云南省的中部地區(qū)(昆明市、陸良縣)。5公里范圍內(nèi)農(nóng)業(yè)塑料大棚面積占比最高的地區(qū)主要集中在山東省的東北部地區(qū)(壽光市)。
同時,為了更好地展示農(nóng)業(yè)塑料大棚的分布情況,圖5給出了一些典型省份的大棚面積占比專題圖。如圖5所示,山東省農(nóng)業(yè)塑料大棚集中分布在中北部(濰坊市)、南部(臨沂市、棗莊市)以及西部地區(qū)(聊城市),在東部地區(qū)(青島市、煙臺市)呈零星分布;遼寧省大棚主要分布在中北部(沈陽市、錦州市、鞍山市)以及南部沿海地區(qū)(鐵嶺市、大連市);吉林省大棚主要分布在中部地區(qū)(四平市、長春市);黑龍江省大棚主要分布在東北部(佳木斯市、鶴崗市、雙鴨山市、雞西市)和西南部(大慶市、哈爾并市)地區(qū);云南省大棚主要分布在中東部(曲靖市、紅河哈尼族彝族自治州)和中北部(昆明市、玉溪市)地區(qū);四川大棚主要分布在中東部(德陽市、成都市、眉山市)和南部(涼山彝族自治州)地區(qū);浙江省大棚主要分布在東部沿海地區(qū)(臺州市、寧波市);湖北省大棚主要分布在中部(荊州市、潛江市)和東部(武漢市)地區(qū)。
圖5 各省農(nóng)業(yè)塑料大棚分布圖
為了更好地展示本數(shù)據(jù)集的分類效果,圖6給出了30米空間米分辨率的大棚分類結(jié)果,并以紅色掩膜的形式疊加到Google Earth的高分辨率遙感影像上??梢钥闯?,本數(shù)據(jù)集中農(nóng)業(yè)塑料大棚整體分類情況較好,30米空間米分辨率的分類結(jié)果可為后續(xù)空間分析提供精準的大棚分布信息。
圖6 農(nóng)業(yè)塑料大棚分類結(jié)果局部對比
數(shù)據(jù)的質(zhì)量控制在遙感影像信息提取中尤為重要,圖7給出本文的數(shù)據(jù)質(zhì)量控制的技術(shù)路線。如圖7示,本文數(shù)據(jù)質(zhì)量控制包含影像質(zhì)量控制和樣本質(zhì)量控制兩部分。
圖7 數(shù)據(jù)質(zhì)量控制技術(shù)路線
影像質(zhì)量控制:遙感影像的選取要滿足無數(shù)據(jù)缺失及厚云覆蓋。如果存在影像缺失,則需要選取前后時相的數(shù)據(jù)進行補充;如果仍不滿足要求,則需要進行分區(qū)建模和分類。同時如果不可避免有云覆蓋,盡可能選取云覆蓋不遮擋大棚的影像。
樣本質(zhì)量控制:首先根據(jù)野外調(diào)查記錄和遙感影像目視解譯結(jié)果,在GEE云平臺上進行農(nóng)業(yè)塑料大棚和其他地物的樣本選取。下一步利用選取的樣本進行隨機森林分類器的訓(xùn)練,并利用訓(xùn)練好的模型進行大棚分類。之后將分類結(jié)果加載到GEE云平臺上,對比原始遙感影像并結(jié)合混淆矩陣,判斷是否滿足制圖要求。如果滿足則輸出分類結(jié)果圖,如果不滿足則對樣本進行修改,直到滿足分類要求為止。
此外,利用測試樣本集計算分類精度,得到本數(shù)據(jù)集的平均分類精度為87.45%,分類性能較好,可滿足相關(guān)政府部門和科研機構(gòu)對全國農(nóng)業(yè)塑料大棚分布數(shù)據(jù)的需求。
本數(shù)據(jù)集是第一個公開發(fā)布的全國農(nóng)業(yè)塑料大棚空間分布專題數(shù)據(jù),具有較高的空間分辨率和分類精度,可為我國農(nóng)業(yè)塑料大棚等設(shè)施農(nóng)業(yè)的監(jiān)測提供可靠的數(shù)據(jù)來源,并具有較高的科學(xué)意義和實用價值?;诒緮?shù)據(jù)集的制作經(jīng)驗,今后我們將會利用深度學(xué)習(xí)方法,對農(nóng)業(yè)塑料大棚進行提取,以進一步獲得分類效果更優(yōu),精度更高農(nóng)大塑料大棚數(shù)據(jù)集。
中國科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2021年4期