李俊杰,李敏 ,隋正偉,蘇文博,連亞茹,陳帥,原征
1.中國資源衛(wèi)星應(yīng)用中心,北京 100094
2.中國四維測繪技術(shù)有限公司,北京 100086
尾礦庫是指筑壩攔截谷口、河床或者圍地構(gòu)成的,用以存儲金屬或非金屬礦山經(jīng)選礦后排出尾礦或其他廢渣的場所,含有大量暫時無法處理的有用或有害成分,是礦山開采活動的必要基礎(chǔ)設(shè)施[1-2]。尾礦庫是一個具有高勢能的人造泥石流危險源,存在潰壩危險,一旦失事可能會造成大量人員傷亡、農(nóng)田村莊毀壞的重大或特大事故,給環(huán)境安全帶來隱患;尾礦庫中含有的各種重金屬礦物和毒性物質(zhì)經(jīng)過淋濾和滲透,會嚴重污染尾礦庫周邊和下游生態(tài)環(huán)境[1,3]。我國尾礦庫總量居世界第一,全國共有14217 個尾礦庫,涉及64 個礦種[4]。為了及時預(yù)警尾礦庫潛在的自然和人為風(fēng)險,加強對尾礦庫的應(yīng)急管理,有必要摸清尾礦庫的空間分布、數(shù)量以及增加減少的情況。
傳統(tǒng)的尾礦庫空間分布調(diào)查采取的是遙感圖像目視或半自動解譯結(jié)合人工外業(yè)調(diào)查的方式,效率低、時效性差、工作量大,無法做到大范圍內(nèi)尾礦庫的自動快速提取,難以滿足高頻次的尾礦庫分布變化情況時序監(jiān)測的需求。從遙感圖像上確定尾礦庫的位置和分布實質(zhì)就是遙感圖像的目標檢測問題。隨著深度學(xué)習(xí)技術(shù)的興起,其在遙感圖像的目標檢測、分類和變化檢測等方面取得了極大的進展和突破。已有一些科研人員開展了深度學(xué)習(xí)目標檢測提取高分辨率遙感圖像上尾礦庫的研究,李慶等基于深度學(xué)習(xí)SSD(Single Shot Multibox Detector)目標檢測模型對中國京津冀地區(qū)的尾礦庫進行了自動檢測提取[5-6],閆凱等基于改進的SSD 模型應(yīng)用于中國華北地區(qū)的尾礦庫提取[7],Yan 等基于改進的Faster R-CNN(Region-based Convolutional Neural Network)和遷移學(xué)習(xí)的方法從多光譜和高分辨率遙感圖像中檢測尾礦庫[8-9],Lyu 等從高分遙感圖像上基于YOLO v4(You Only Look Once)檢測提取中國安徽省銅陵市的尾礦庫[10]。
基于遙感圖像的尾礦庫目標自動化、智能化深度學(xué)習(xí)檢測模型的開發(fā)需要高質(zhì)量的尾礦庫目標檢測數(shù)據(jù)集支撐。深度學(xué)習(xí)數(shù)據(jù)集不僅是衡量和檢驗算法性能好壞的標準,還進一步推動了算法向更準確、更高效的方向不斷發(fā)展[10]。當(dāng)前開源的尾礦庫目標檢測數(shù)據(jù)集較少,公開檢索到的開源數(shù)據(jù)集只有Lyu 等2021 年創(chuàng)建的安徽局部區(qū)域的尾礦庫目標檢測數(shù)據(jù)集[11],該數(shù)據(jù)集以單時相的2 米分辨率谷歌圖像為數(shù)據(jù)源,使用水平框(horizontal bounding box)標注尾礦庫目標。但是,遙感圖像中的目標與自然圖像不同,通常以任意角度出現(xiàn),水平框中目標的冗余背景信息會導(dǎo)致模型檢測性能的降低,因此,遙感目標檢測更傾向于定位目標的最小面積外接矩形框,即傾斜框(oriented bounding box)。因此,本研究構(gòu)建了中國河南省區(qū)域的尾礦庫目標檢測數(shù)據(jù)集。本數(shù)據(jù)集有以下幾個特點:(1)國產(chǎn)高分辨率光學(xué)遙感衛(wèi)星圖像尾礦庫目標檢測數(shù)據(jù)集,包含多尺度、不同地理背景和形態(tài)各異的尾礦庫,共提供1183 個圖像切片,包含1728 個目標實例;(2)采用傾斜框標注目標的最小面積外接矩形,圖像冗余背景信息較少,能夠減少背景對模型檢測性能的影響;(3)數(shù)據(jù)集提供2016 年、2018 年、2020 年和2021 年總共4 個不同年度的樣本數(shù)據(jù),覆蓋不同季節(jié)和光照的遙感圖像。以上特點均可以提高基于數(shù)據(jù)集訓(xùn)練的模型在大規(guī)模應(yīng)用中的泛化能力。利用該數(shù)據(jù)集可以進行深度學(xué)習(xí)尾礦庫目標檢測模型開發(fā)的技術(shù)研究和開展尾礦庫的自動化、智能化檢測,對于推動尾礦庫自動提取技術(shù)的發(fā)展和尾礦庫的安全監(jiān)管具有重要意義。
本數(shù)據(jù)集使用國產(chǎn)民用陸地觀測衛(wèi)星獲取的中國河南省可見光圖像,包括全色和多光譜圖像(紅、綠、藍、近紅),全色圖像的空間分辨率為2 米。涉及的衛(wèi)星包括:高分一號衛(wèi)星(GF-1)、高分一號02 星(GF-1B)、高分一號03 星(GF-1C)、高分一號04 星(GF-1D)、高分六號(GF-6)、資源三號01 星(ZY-3 01)和資源三號02 星(ZY-3 02)。
河南省位于北緯31°23'–36°22',東經(jīng)110°21'–116°39'之間,有“九州腹地、十省通衢”之稱,總面積16.7 萬平方千米,地勢西高東低,由平原和盆地、山地、丘陵、水面構(gòu)成,地跨海河、黃河、淮河、長江四大流域。本數(shù)據(jù)集使用了完整覆蓋河南全省4 次的不同時相遙感圖像,圖像成像時間分別為2016 年、2018 年、2020 年和2021 年,每一個年度的衛(wèi)星圖像都挑選年度范圍內(nèi)無云、成像質(zhì)量好的數(shù)據(jù)?;?016–2021 年采集的衛(wèi)星遙感圖像,經(jīng)過數(shù)據(jù)處理、人工解譯標注、圖像切片等步驟形成本數(shù)據(jù)集,共提供4 個時相的河南省尾礦庫目標檢測樣本。
1.2.1 數(shù)據(jù)正射及鑲嵌處理
在樣本標注之前,需要對標準產(chǎn)品數(shù)據(jù)進行正射融合等一系列處理,以生成2 米分辨率、幾何定位精度優(yōu)于10 米的真彩色鑲嵌圖像。衛(wèi)星遙感圖像數(shù)據(jù)的正射融合、勻色鑲嵌處理流程如圖1 所示。在挑選和下載完無云和質(zhì)量好的國產(chǎn)光學(xué)衛(wèi)星數(shù)據(jù)后,對數(shù)據(jù)進行幾何和輻射一致性處理。主要步驟為:(1)數(shù)據(jù)拉伸與增強。使用拉伸與增強的方法使圖像直方圖呈正態(tài)分布,圖像色調(diào)清晰、色彩合理;(2)控制點采集。基于參考圖像,采集待校正圖像與參考圖像上的同名點和連接點,為平差處理做準備;(3)平差處理。采用基于有理函數(shù)模型的區(qū)域網(wǎng)平差方法,可有效提高圖像的幾何定位精度和圖像間的接邊精度;(4)正射校正。對全色和多光譜圖像進行傾斜改正和投影差改正,特別是消除圖像的地形誤差;(5)融合處理。對全色和多光譜圖像進行融合,生成與全色圖像空間分辨率一致的4 波段多光譜圖像;(6)鑲嵌預(yù)處理?;谌诤蠄D像合成自然真彩色圖像,并把圖像的量化位數(shù)降為8 比特,為勻色鑲嵌做準備;(7)勻光勻色。對相鄰圖像的色彩調(diào)整處理,保持景與景之間重疊處色彩過渡自然;(8)圖像鑲嵌。把區(qū)域內(nèi)多景圖像鑲嵌到一起生成一整幅圖像,通過自動和人工結(jié)合的方式確定圖像接邊處的鑲嵌線,保證地物合理接邊,無重影和發(fā)虛現(xiàn)象。同時在以上各主要步驟中穿插進行質(zhì)量檢查,不符合要求的返回上一步進行處理。
圖1 數(shù)據(jù)正射及鑲嵌處理流程圖Figure 1 Flow chart of data orthorectification and mosaic processing
1.2.2 尾礦庫目標檢測數(shù)據(jù)集制作
基于河南省的2 米勻色鑲嵌圖像,本研究使用ArcGIS 軟件,通過人工遍歷的方式對各時相遙感圖像進行尾礦庫的目視解譯和樣本標注。尾礦庫目標檢測數(shù)據(jù)集制作流程如圖2 所示,主要步驟為:(1)制定標注規(guī)范。明確尾礦庫的遙感圖像解譯標志、標注方式、標注細則和注意事項等,形成標注規(guī)范文檔并對標注人員進行培訓(xùn);(2)人工標注。人工目視遍歷每期的河南省勻色鑲嵌圖像,對識別為尾礦庫的目標采用ArcGIS 軟件以傾斜框(目標的最小面積外接矩形)的方式進行標注,通過自檢、互檢和終檢3 次檢查保證標注符合規(guī)范,最終得到河南省尾礦庫位置和分布數(shù)據(jù)(見圖3),并形成標注矢量文件;(3)圖像切片。使用Python 程序語言和GDAL 庫編程,基于標注矢量文件將勻色鑲嵌圖像裁切成固定尺寸的圖像切片,保留存在目標的圖像切片并生成對應(yīng)的標注文件,如有尾礦庫目標被切分,當(dāng)被切分的面積大于目標原始面積的50%時才在該切片保留此尾礦庫的標注信息。
圖2 尾礦庫目標檢測數(shù)據(jù)集制作流程圖Figure 2 Flow chart for the dataset production of tailings pond object detection
圖3 河南省尾礦庫分布圖Figure 3 Distribution of tailings ponds in Henan province
本數(shù)據(jù)集有2 個壓縮包,解壓后對應(yīng)2 個文件夾(images 文件夾和labels 文件夾),images 文件夾存放的是圖像切片,labels 文件夾存放標注標簽文本文件。
images 文件夾里圖像切片標準大小為1024×1024 像素(因為少量尾礦庫空間范圍較大,有36 個切片像素大于1024×1024),RGB 真彩色圖像,圖像切片格式為PNG,圖像切片的命名規(guī)則為:衛(wèi)星圖像成像年份+’_’+切片序號+格式后綴,如“2016_128.png”,表示2016 年成像的衛(wèi)星圖像的第128 個含有尾礦庫的切片。
labels 文件夾里每個文本文件與images 文件夾里的圖像切片逐一對應(yīng),文本文件的格式為txt,文本文件的命名規(guī)則為:對應(yīng)的無格式后綴圖像切片名字+格式后綴,如“2016_128.txt”,表示對應(yīng)“2016_128.png”切片的標注標簽文件。txt 文本的標注格式采用DOTA(a large-scale Dataset for Object deTection in Aerial images)標準[12],txt 文本中一行標識一個目標(多行對應(yīng)多個目標)的圖像坐標位置和類別,位置由4 個角點的8 個坐標值組成,(x1, y1, x2, y2, x3, y3, x4, y4)分別是傾斜框4 個頂點的坐標(x1, y1),(x2, y2),(x3, y3),(x4, y4),位置后是類別名,txt 文件的行數(shù)即為對應(yīng)圖像切片上的尾礦庫目標實例個數(shù)。
本數(shù)據(jù)集總共包含1183 個切片,1728 個目標實例,不同年份切片和實例數(shù)統(tǒng)計情況見表1。尾礦庫目標檢測數(shù)據(jù)集典型切片樣本如圖4 所示(真實切片只有圖像無標注框,標注框圖像坐標存在標注標簽文件中)。
表1 不同年份切片和實例數(shù)統(tǒng)計表Table 1 Statistics of slices and instances in different years
圖4 尾礦庫目標檢測數(shù)據(jù)集4 個不同年份切片樣例展示Figure 4 Samples of object detection dataset slices of tailings pond in 4 different years
數(shù)據(jù)集是人工智能模型訓(xùn)練的基礎(chǔ)輸入,高質(zhì)量的數(shù)據(jù)集才能產(chǎn)出優(yōu)質(zhì)和可靠的模型。為保證尾礦庫目標檢測數(shù)據(jù)集的質(zhì)量,圖5 給出了本數(shù)據(jù)集的數(shù)據(jù)質(zhì)量控制流程,在衛(wèi)星數(shù)據(jù)正射及鑲嵌處理、目標檢測數(shù)據(jù)集制作環(huán)節(jié)中均采取了質(zhì)量控制過程,通過明確質(zhì)量控制要求、多重檢查等保證數(shù)據(jù)集樣本的標準化、正確性和完整性。
圖5 數(shù)據(jù)質(zhì)量控制流程圖Figure 5 Flow chart of data quality control
勻色鑲嵌圖像質(zhì)量控制:(1)標準衛(wèi)星圖像產(chǎn)品的云量和數(shù)據(jù)質(zhì)量檢查,確保單景圖像云量低于5%,無掉線等數(shù)據(jù)缺失問題;有問題數(shù)據(jù)重新查詢下載替換;(2)正射圖像幾何精度檢查,幾何定位精度優(yōu)于10 米,景與景之間接邊精度優(yōu)于2 個像素;不符合要求圖像重新進行幾何處理;(3)融合圖像檢查,融合圖像無重影,紋理細節(jié)清晰,無色彩溢出;不合格圖像重新融合處理;(4)勻色鑲嵌檢查,圖像無明顯錯誤、扭曲和重影,圖像接邊處色彩過渡自然,地物接邊合理,無0 值和異常值。
目標檢測數(shù)據(jù)集質(zhì)量控制:(1)標注檢查采取自檢、互檢相結(jié)合的方式,檢查標注的正確性、傾斜標注框是否與尾礦庫目標貼合、是否存在遺漏等,并對檢查的錯誤進行修改和重新標注;(2)切片檢查,人工檢查圖像切片與標簽是否匹配一致,標簽文件是否缺失等問題,并對錯誤情況確認和修改。
最后獨立的質(zhì)檢員對數(shù)據(jù)集進行復(fù)核和最終檢查,經(jīng)過以上步驟和過程質(zhì)量控制,尾礦庫切片樣本的正確率優(yōu)于99.5%,數(shù)據(jù)集整體質(zhì)量優(yōu)異。
遙感圖像的尾礦庫目標檢測在應(yīng)急監(jiān)管和環(huán)境保護等領(lǐng)域具有重要的應(yīng)用價值。遙感圖像上的尾礦庫目標尺度變動區(qū)間較大、形狀各異,尾礦庫地理背景復(fù)雜,尾砂和水體的顏色多樣。遙感圖像尾礦庫自動檢測受限于尾礦庫的以上特點和缺乏樣本數(shù)據(jù),自動檢測的精度(準確率和召回率)相對于飛機、艦船等目標要低很多。而當(dāng)前開源的尾礦庫目標檢測數(shù)據(jù)集較少,且采用水平框標注。本數(shù)據(jù)集基于國產(chǎn)高分光學(xué)衛(wèi)星圖像,是多時相的傾斜框尾礦庫目標檢測數(shù)據(jù)集。傾斜框可以精確定位圖像中的目標,在遙感圖像目標檢測任務(wù)中使用帶有角度信息的傾斜框獲可以獲得更優(yōu)越的性能;同時本數(shù)據(jù)集提供的多時相、多尺度、不同地理背景和形態(tài)各異的尾礦庫樣本有助于提高深度學(xué)習(xí)模型的泛化能力。我們期待此公開數(shù)據(jù)集可以促進高分光學(xué)衛(wèi)星遙感圖像的尾礦庫目標檢測研究和推動尾礦庫自動化、智能化檢測的業(yè)務(wù)化應(yīng)用。
基于本數(shù)據(jù)集,可以使用深度學(xué)習(xí)目標檢測技術(shù)開發(fā)遙感圖像尾礦庫目標檢測模型,實現(xiàn)尾礦庫的自動化、智能化檢測和提取。本數(shù)據(jù)集未劃分訓(xùn)練集和測試集,用戶可以根據(jù)需要以一定的比例(例如8:2)將該數(shù)據(jù)集隨機分為訓(xùn)練集和測試集。此外本數(shù)據(jù)集提供的均為原始樣本,未進行數(shù)據(jù)增廣。深度學(xué)習(xí)模型的開發(fā)需要大量樣本來防止訓(xùn)練過程中的過擬合,通常會采用數(shù)據(jù)增強方法提升樣本量,增加樣本的多樣性,用戶可自行對本數(shù)據(jù)集的樣本進行增廣,可采取的方式包括旋轉(zhuǎn)、高斯噪聲、翻轉(zhuǎn)和亮度變化等。
數(shù)據(jù)作者分工職責(zé)
李俊杰(1983—),男,湖南省岳陽市人,碩士,研究員,研究方向為遙感信息提取。主要承擔(dān)工作:尾礦庫目標檢測數(shù)據(jù)集設(shè)計與采集規(guī)范、方案制定、數(shù)據(jù)質(zhì)量檢查。
李敏(1996—),女,安徽省安慶市人,碩士,助理工程師,研究方向為遙感圖像目標智能檢測與識別。主要承擔(dān)工作:尾礦庫目標檢測數(shù)據(jù)集采集規(guī)范與樣本切片程序的編寫。
隋正偉(1986—),男,遼寧省大連市人,博士,研究員,研究方向為衛(wèi)星遙感大數(shù)據(jù)應(yīng)用技術(shù)。主要承擔(dān)工作:尾礦庫目標檢測數(shù)據(jù)集數(shù)據(jù)處理方案制定與實施。
蘇文博(1994—),男,河南省駐馬店市人,碩士,工程師,研究方向為遙感圖像目標智能檢測與識別。主要承擔(dān)工作:尾礦庫目標檢測數(shù)據(jù)集采集規(guī)范制定。
連亞茹(1993—),女,河北省邢臺市人,本科,助理工程師,研究方向為遙感圖像目標解譯與識別。主要承擔(dān)工作:河南省2 米圖像處理與樣本采集。
陳帥(1988—),男,河南省商丘市人,本科,助理工程師,研究方向為遙感圖像目標解譯與識別。主要承擔(dān)工作:河南省2 米圖像處理與樣本采集。
原征(1986—),男,遼寧省丹東市人,本科,助理工程師,研究方向為遙感圖像數(shù)據(jù)處理與制圖。主要承擔(dān)工作:尾礦庫目標檢測數(shù)據(jù)集的質(zhì)量檢查。