蔡祥,李琦,羅言,齊建東
(1.北京林業(yè)大學(xué)信息學(xué)院,北京 100083; 2.國(guó)家林業(yè)草原林業(yè)智能信息處理工程技術(shù)中心,北京 100083)
煤礦資源在推動(dòng)經(jīng)濟(jì)發(fā)展中具有重要作用,保證礦區(qū)的安全生產(chǎn)是采礦作業(yè)的重中之重[1]。準(zhǔn)確高效地獲取礦區(qū)地物信息能有效輔助煤炭礦區(qū)生產(chǎn)工作的安排及部署,為安全生產(chǎn)奠定基礎(chǔ),而礦區(qū)地物類型往往特殊且復(fù)雜,傳統(tǒng)人工野外調(diào)查手段獲取大面積礦區(qū)信息耗時(shí)耗力[2]。
近年來(lái),國(guó)內(nèi)外學(xué)者針對(duì)礦區(qū)的特點(diǎn),在礦區(qū)地物提取方面進(jìn)行了大量研究[3-5]。這些研究主要采用面向?qū)ο蠓椒▽?duì)礦區(qū)衛(wèi)星遙感影像進(jìn)行地物提取,該方法以“同質(zhì)均一”的多個(gè)像元為基礎(chǔ)分類對(duì)象,利用影像的形狀、光譜、空間紋理等特征進(jìn)行分類。其基本分類方法中較為常用的有基于規(guī)則分類和最鄰近分類2種,前者對(duì)于一些特征相似的地物類別區(qū)分效果較差[6],同時(shí)需要在一定專業(yè)基礎(chǔ)上多次制定規(guī)則和調(diào)整閾值進(jìn)行實(shí)驗(yàn)才能獲得合理的規(guī)則集; 后者通過(guò)計(jì)算地物對(duì)象與已知類別樣本在特征空間的距離來(lái)判斷類別,分類結(jié)果更客觀,但計(jì)算量較前者大。荊平平等[7]利用面向?qū)ο蟮亩喑叨确指罴夹g(shù)等對(duì)礦區(qū)無(wú)人機(jī)影像進(jìn)行地物分類,總體精度達(dá)89.92%。
隨著遙感技術(shù)的迅速發(fā)展,無(wú)人機(jī)低空遙感在礦區(qū)的應(yīng)用越來(lái)越多。和衛(wèi)星遙感相比,無(wú)人機(jī)遙感成本低,時(shí)效性好,操作靈活,分辨率高,且富含更多空間信息[8]。張建勇等[9]利用低空無(wú)人機(jī)攝影測(cè)量快速構(gòu)建礦區(qū)線狀地物信息; 韋國(guó)鈞[10]提出了一種無(wú)人機(jī)影像可疑變化地物快速發(fā)現(xiàn)方法; 徐曉萍[11]將無(wú)人機(jī)攝影測(cè)量技術(shù)應(yīng)用于大寶山礦,提高了地形測(cè)量的速度與效率; 師文杰等[12]基于實(shí)例探討了無(wú)人機(jī)測(cè)量技術(shù)在礦山地質(zhì)環(huán)境治理中的應(yīng)用。
深度學(xué)習(xí)在分類任務(wù)上的高準(zhǔn)確率體現(xiàn)了其特征提取的強(qiáng)大能力,為各領(lǐng)域的信息提取提供了新的思路。2010年Minh等[13]首次應(yīng)用深度學(xué)習(xí)技術(shù)來(lái)提取道路信息,此后,深度學(xué)習(xí)技術(shù)逐漸被應(yīng)用于高分影像的分類、信息提取、變化監(jiān)測(cè)等任務(wù)。鄭重等[14]提出了基于深度學(xué)習(xí)的地面塌陷遙感識(shí)別方法用于監(jiān)測(cè)礦區(qū)的地面塌陷情況; 向陽(yáng)等[15]使用改進(jìn)的U-Net孿生網(wǎng)絡(luò)對(duì)礦區(qū)遙感影像進(jìn)行變化檢測(cè)并取得了較好的檢測(cè)效果。
針對(duì)現(xiàn)有的衛(wèi)星遙感影像處理繁瑣,消耗時(shí)間長(zhǎng),面向?qū)ο蠓椒ǚ诸惥炔桓叩葐?wèn)題,本文提出一種通過(guò)無(wú)人機(jī)低空遙感獲取煤炭礦區(qū)高清影像,利用基于面向?qū)ο蠓诸惙椒ê蜕疃葘W(xué)習(xí)的語(yǔ)義分割模型進(jìn)行高效煤炭礦區(qū)地物提取的方法。
本文選擇內(nèi)蒙古自治區(qū)西部烏海市海南區(qū)焦化廠為試驗(yàn)區(qū),地理坐標(biāo)在E106°53′06″~106°54′07″,N39°26′59″~39°27′33″之間,面積約為1.58 km2。
本研究采用瑞士生產(chǎn)的型號(hào)為eBeeAg的固定翼無(wú)人機(jī),搭載相機(jī)為Sony DSC-WX220,影像數(shù)據(jù)采集時(shí)間為2018年3月,航拍影像包含紅、綠、藍(lán)3個(gè)波段,空間分辨率為5 cm。
試驗(yàn)對(duì)無(wú)人機(jī)影像進(jìn)行拼接和正射校正等預(yù)處理操作,生成礦區(qū)的正射影像圖。本研究選取6塊典型區(qū)域的正射影像(圖1),每塊大小均為6 720像素×5 760像素,覆蓋面積均約為0.08 km2,其中區(qū)域1—5為訓(xùn)練集數(shù)據(jù),區(qū)域6為測(cè)試集數(shù)據(jù),各區(qū)域均無(wú)交集。
使用深度學(xué)習(xí)語(yǔ)義分割模型進(jìn)行地物提取的第一步是對(duì)影像數(shù)據(jù)進(jìn)行像素級(jí)標(biāo)注,傳統(tǒng)標(biāo)注方法為人工目視解譯,該方法雖簡(jiǎn)單但人力和時(shí)間成本較高。本文提出采用面向?qū)ο蠓诸惙椒ㄝo以人工校正進(jìn)行數(shù)據(jù)標(biāo)注。該方法包括3個(gè)步驟: ①分割影像; ②對(duì)分割影像進(jìn)行分類; ③人工校正分類結(jié)果。
1.2.1 面向?qū)ο蟮姆指钏惴?/p>
面向?qū)ο蠓诸惙椒ò瑑刹糠郑?影像分割和對(duì)象特征提取[16]。影像分割的對(duì)象邊界與地物邊界重合度越高,特征提取的結(jié)果就越準(zhǔn)確。該過(guò)程使用從單個(gè)像元對(duì)象開(kāi)始自下而上的區(qū)域增長(zhǎng)法合并相鄰對(duì)象生成影像對(duì)象,當(dāng)對(duì)象的異質(zhì)性達(dá)到設(shè)定閾值,則完成合并,結(jié)束對(duì)象分割過(guò)程。其中,分割方法包括3個(gè)重要參數(shù): 分割尺度、形狀因子和緊致度因子。不同分割參數(shù)結(jié)果示例如圖2所示。
通過(guò)控制變量對(duì)比實(shí)驗(yàn)選擇最優(yōu)的異質(zhì)性度量參數(shù),其中形狀因子越大,分割后的對(duì)象形狀越平滑,產(chǎn)生的對(duì)象越規(guī)整; 緊致度因子越大,分割的對(duì)象就越接近矩形。本文最終確定分割尺度為140,形狀值為0.4,緊致度因子值為0.5。
1.2.2 面向?qū)ο蟮淖钹徑诸愃惴?/p>
本文定義4種地物類別: 道路、建筑、車輛和礦區(qū)地面。每類均選取適量(大約1/3)樣本作為訓(xùn)練樣本,計(jì)算對(duì)象的形狀、光譜等特征值,再建立合適的對(duì)象特征空間,由特征空間參數(shù)指導(dǎo)分類[17],但過(guò)多分類特征可能導(dǎo)致冗余,造成計(jì)算量增加,分類效率降低等問(wèn)題,甚至降低分類精度。經(jīng)實(shí)驗(yàn)對(duì)比,本文取不同類別之間可分性最大的5種特征組成最優(yōu)特征空間集,這5種特征是: 歸一化灰度矢量反差、亮度、邊界長(zhǎng)度、歸一化灰度矢量熵、邊界指數(shù),再運(yùn)用最鄰近分類器完成地物分類,待分影像對(duì)象O與類別Ki的最小距離DKi公式為:
(1)
人工校正完成后將分類結(jié)果圖轉(zhuǎn)為索引圖(圖3),用于后續(xù)語(yǔ)義分割模型訓(xùn)練??紤]到實(shí)驗(yàn)設(shè)備限制及模型的網(wǎng)絡(luò)結(jié)構(gòu)等因素,將6塊實(shí)驗(yàn)區(qū)域影像分割成320像素×320像素的圖像集,其中訓(xùn)練集1 890張,測(cè)試集378張,訓(xùn)練集與測(cè)試集樣本數(shù)之比為5∶1。
本文提出一種基于神經(jīng)網(wǎng)絡(luò)的地物提取方法,首先使用FCN-8s,F(xiàn)CN-32s,U-Net這3種語(yǔ)義分割模型在礦區(qū)數(shù)據(jù)集上訓(xùn)練,生成相應(yīng)的神經(jīng)網(wǎng)絡(luò)模型,再基于3種模型采用多數(shù)投票法及打分法生成兩種集成模型,最后使用膨脹及腐蝕算法對(duì)集成模型的輸出結(jié)果進(jìn)行優(yōu)化,識(shí)別模型結(jié)構(gòu)如圖4所示。
圖4 礦區(qū)地物識(shí)別集成模型結(jié)構(gòu)Fig.4 Structure of integrate algorithms for surface feature extraction on mining area
全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)[18]是一種深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,一般用于圖像的像素級(jí)分類。相較于圖像級(jí)分類使用的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),F(xiàn)CN保留了CNN的卷積層,用于提取圖像特征,將CNN中的全連接層替換成卷積層,并對(duì)最后一個(gè)卷積層的特征圖進(jìn)行上采樣,將輸出還原至輸入圖像相同尺寸,從而實(shí)現(xiàn)對(duì)每一個(gè)像素點(diǎn)的類別預(yù)測(cè),同時(shí)保留原始圖像的空間信息,完成圖像的像素級(jí)分類。FCN的卷積層具有很強(qiáng)的圖像特征提取能力,其中較淺層具有較小感受野,能夠獲取局部特征信息,較深層具有較大感受野,能夠獲取更多特征信息。另外跳躍結(jié)構(gòu)可融合網(wǎng)絡(luò)中不同卷積層輸出特征,能有效提升地物提取效果。本文使用FCN-32s和FCN-8s模型進(jìn)行實(shí)驗(yàn),其中FCN-32s將網(wǎng)絡(luò)中最后一個(gè)卷積層特征圖進(jìn)行32倍上采樣后輸出,該方法實(shí)現(xiàn)簡(jiǎn)單但預(yù)測(cè)結(jié)果較為粗糙,而FCN-8s則融合了多層上采樣的特征圖后輸出(圖5)。
圖5 FCN基本結(jié)構(gòu)Fig.5 Basic structure of FCN
U-Net[19]是一種基于FCN改進(jìn)的模型,使用了編碼-解碼結(jié)構(gòu)(圖6),由左半邊的壓縮通道(contracting path)和右半邊的擴(kuò)展通道(expansive path)組成。壓縮通道由卷積層和最大池化層組成,實(shí)現(xiàn)特征提取功能。擴(kuò)展通道先進(jìn)行反卷積操作,減半特征圖維數(shù),然后拼接對(duì)應(yīng)壓縮通道裁剪得到的特征圖,組成一個(gè)2倍大小的特征圖,再采用2個(gè)卷積層對(duì)其進(jìn)行特征提取,并重復(fù)以上操作。最后的輸出層再進(jìn)行2次卷積將64維的特征圖映射成2維的圖輸出。
圖6 U-Net結(jié)構(gòu)Fig.6 Structure of U-Net
模型集成(ensemble)是結(jié)合多個(gè)學(xué)習(xí)器并使用某種策略來(lái)構(gòu)建完成學(xué)習(xí)任務(wù)的模型,該方法從多個(gè)學(xué)習(xí)器取長(zhǎng)補(bǔ)短,較單個(gè)學(xué)習(xí)器能得到更好的預(yù)測(cè)結(jié)果。本文的個(gè)體學(xué)習(xí)器為FCN-8s,FCN-32s,U-Net訓(xùn)練出來(lái)的模型,先取其分類結(jié)果,再采用多數(shù)投票法及打分法兩種策略進(jìn)行集成。
1)多數(shù)投票法。針對(duì)同一像素點(diǎn),假設(shè)3個(gè)學(xué)習(xí)器的輸出為Oj(j=1,2,3),多數(shù)投票法先統(tǒng)計(jì)3個(gè)學(xué)習(xí)器中相同分類結(jié)果的個(gè)數(shù),最終輸出結(jié)果為相同分類個(gè)數(shù)最多的結(jié)果。若個(gè)數(shù)一樣,則選擇學(xué)習(xí)器中整體準(zhǔn)確率最高的輸出結(jié)果作為輸出結(jié)果。
2)打分法。針對(duì)同一像素點(diǎn),當(dāng)3個(gè)學(xué)習(xí)器的輸出一致時(shí),將該輸出直接作為結(jié)果輸出。否則根據(jù)同類別地物的預(yù)測(cè)準(zhǔn)確率對(duì)學(xué)習(xí)器j進(jìn)行打分Sij(i=1,2,3,4;j=1,2,3),i類地物預(yù)測(cè)準(zhǔn)確率最高的模型Sij=3,最低的模型Sij=1,輸出結(jié)果為總分Pi最高的類別,Pi由預(yù)測(cè)為i類的各個(gè)模型分?jǐn)?shù)相加得到,即
Pi=Si1+Si2+Si3。
(2)
如果存在不同類別Pi一致,則選擇學(xué)習(xí)器中整體準(zhǔn)確率最高的輸出結(jié)果作為輸出結(jié)果。
實(shí)驗(yàn)在Ubuntu 18.04 LTS 64位操作系統(tǒng)下進(jìn)行,其中神經(jīng)網(wǎng)絡(luò)的搭建、訓(xùn)練及預(yù)測(cè)使用Keras深度學(xué)習(xí)框架,采用GTX1080Ti顯卡進(jìn)行加速。
圖7分別展示了面向?qū)ο蠓椒?、基于面向?qū)ο蠛蜕疃葘W(xué)習(xí)方法,以及2種集成模型方法在測(cè)試數(shù)據(jù)集上的地物提取效果。圖8將面向?qū)ο蠓椒ǖ奶崛〗Y(jié)果進(jìn)行放大分析,可以看出傳統(tǒng)面向?qū)ο蠓椒ǚ诸愋Ч嬖诼┓?紅色框放大圖像的灰色區(qū)域即為漏分對(duì)象)和地物邊界模糊合并的“塊狀”分類現(xiàn)象,且對(duì)車輛和建筑的錯(cuò)分較多(亮綠色框標(biāo)識(shí)出的對(duì)象為錯(cuò)分對(duì)象)。而3種神經(jīng)網(wǎng)絡(luò)模型分類結(jié)果均不存在漏分對(duì)象,且錯(cuò)分現(xiàn)象均比面向?qū)ο蠓椒ㄉ?。另外從分類結(jié)果也可看出,3種神經(jīng)網(wǎng)絡(luò)模型對(duì)不同地物表現(xiàn)出不同分類效果,這是因?yàn)椴煌匚锉憩F(xiàn)出的特征不同,而不同神經(jīng)網(wǎng)絡(luò)對(duì)不同特征的提取識(shí)別能力有差異,其中FCN-8s對(duì)建筑物和道路的識(shí)別效果最好,F(xiàn)CN-32s對(duì)車輛的識(shí)別效果最好,U-Net對(duì)礦區(qū)地面的分類效果最好?;诖耍捎?種策略對(duì)3種神經(jīng)網(wǎng)絡(luò)模型結(jié)果進(jìn)行集成,取長(zhǎng)補(bǔ)短,提升分類效果。實(shí)驗(yàn)結(jié)果表明,2種集成模型識(shí)別效果均比3種神經(jīng)網(wǎng)絡(luò)模型好。另外從實(shí)驗(yàn)結(jié)果也可看出,各種方法對(duì)車輛和碾壓形成的道路的識(shí)別均存在不少錯(cuò)分現(xiàn)象,這和礦區(qū)無(wú)人機(jī)影像中礦區(qū)地面部分情況復(fù)雜,車輛種類多,相關(guān)地物邊界模糊有關(guān)。
為了合理評(píng)估不同方法對(duì)礦區(qū)地物提取的精度,本文從總體準(zhǔn)確率、混淆矩陣、Kappa系數(shù)3個(gè)方面進(jìn)行比較分析。
總體準(zhǔn)確率為預(yù)測(cè)正確的像素?cái)?shù)量占總像素?cái)?shù)量的比例,計(jì)算公式為:
(3)
式中:Pc和Pt分別為預(yù)測(cè)正確的像素?cái)?shù)量及像素總數(shù)量。
Kappa系數(shù)為分類精度的衡量指標(biāo)之一,基于混淆矩陣進(jìn)行計(jì)算,值越高意味著一致性越高,分類精度越高。假設(shè)有n個(gè)類別,每一類的實(shí)際像素?cái)?shù)量分別為a1,a2,…,an,而預(yù)測(cè)出來(lái)的每一類的像素?cái)?shù)量分別為b1,b2,…,bn,總樣本個(gè)數(shù)為m,則Kappa系數(shù)的具體計(jì)算公式為:
(4)
式中:Po為每種地物類別正確分類像素?cái)?shù)量之和與總像素的比值,即總體分類精度;Pe為偶然性因素導(dǎo)致的錯(cuò)誤解釋比例,公式為:
(5)
由不同方法在測(cè)試集上的分類準(zhǔn)確率(表1)可知,神經(jīng)網(wǎng)絡(luò)模型的識(shí)別準(zhǔn)確率均高于傳統(tǒng)面向?qū)ο蠓诸惙椒?。說(shuō)明新方法較傳統(tǒng)方法能有效提高礦區(qū)地物識(shí)別準(zhǔn)確率。集成模型準(zhǔn)確率高于單神經(jīng)網(wǎng)絡(luò)模型,說(shuō)明集成模型能改善單神經(jīng)網(wǎng)絡(luò)模型的識(shí)別效果。
表1 不同方法地物分類結(jié)果的整體準(zhǔn)確率Tab.1 Overall classification accuracy of each method
本文采用隨機(jī)采樣的方法進(jìn)行精度評(píng)估,在測(cè)試區(qū)域選取1 000個(gè)樣本點(diǎn),以標(biāo)注圖像為標(biāo)準(zhǔn),采用混淆矩陣進(jìn)行分析,結(jié)果如表2所示。傳統(tǒng)面向?qū)ο蠓诸惙椒▽?duì)每一類地物的識(shí)別精度均低于FCN-32s,F(xiàn)CN-8s及2種集成模型,其Kappa系數(shù)為0.597 8,為6種方法中最低,處于一致性較低的水平。2種集成模型方法的Kappa系數(shù)均達(dá)到了0.81以上,證明其分類結(jié)果與人工辨識(shí)后的標(biāo)注圖基本吻合,識(shí)別效果較好。實(shí)驗(yàn)結(jié)果表明面向?qū)ο蠼Y(jié)合深度學(xué)習(xí)方法與集成模型均對(duì)礦區(qū)地物錯(cuò)分現(xiàn)象改善明顯且有效提高了識(shí)別精度,優(yōu)于傳統(tǒng)的面向?qū)ο蠓诸惙椒āA硗?,由混淆矩陣可知,模型?duì)礦區(qū)車輛和建筑的識(shí)別精度一般,這與礦區(qū)地面存在不少煤堆、廢石堆及與車體大小相近的臨時(shí)建筑有關(guān),同時(shí)貨車存在車頭、車架、集裝箱分離的情況,導(dǎo)致人眼也難以辨別車體,增加了錯(cuò)分的可能性,在未來(lái)研究中可加強(qiáng)對(duì)這部分地物特征的抽取表達(dá),提升模型識(shí)別能力。
表2 不同方法地物分類結(jié)果的混淆矩陣Tab.2 Confusion matrix of classification results in test region for different models
(續(xù)表)
觀察深度學(xué)習(xí)方法對(duì)地物分類后的結(jié)果,發(fā)現(xiàn)同一類別地物的像素塊中存在一些錯(cuò)分類且呈椒鹽分布的像素點(diǎn),這些像素影響最終的分類結(jié)果。鑒于此,使用形態(tài)學(xué)運(yùn)算中的膨脹和腐蝕算法消除椒鹽像素,優(yōu)化地物提取結(jié)果。通過(guò)統(tǒng)計(jì)椒鹽噪聲之間的平均距離、最大距離和最小距離并經(jīng)對(duì)比多次試驗(yàn)效果,取膨脹及腐蝕的內(nèi)核參數(shù)均為5時(shí)優(yōu)化效果最好。優(yōu)化前與優(yōu)化后的準(zhǔn)確率對(duì)比(圖9)顯示,優(yōu)化后的總體準(zhǔn)確率及道路、建筑、車輛的識(shí)別準(zhǔn)確率均有所提升,礦區(qū)地面的識(shí)別準(zhǔn)確率有少許下降,這是由于該算法是用來(lái)消除被錯(cuò)誤分類的“噪點(diǎn)”像素,大部分噪點(diǎn)像素開(kāi)始被模型誤分類為地面,在膨脹腐蝕后,噪點(diǎn)根據(jù)周邊像素所屬地物類型被正確轉(zhuǎn)換為其他非地面類。通過(guò)實(shí)驗(yàn)結(jié)果可以看出膨脹、腐蝕操作可有效優(yōu)化分類效果,提升面積較小地物的識(shí)別準(zhǔn)確率和整體識(shí)別準(zhǔn)確率。
本文利用無(wú)人機(jī)低空遙感技術(shù)獲取煤炭礦區(qū)高分辨率影像數(shù)據(jù)集,提出基于面向?qū)ο蠼Y(jié)合深度學(xué)習(xí)的方法提取礦區(qū)地物,通過(guò)實(shí)驗(yàn)和結(jié)果分析,得出以下結(jié)論:
1)面向?qū)ο蠼Y(jié)合深度學(xué)習(xí)方法在礦區(qū)地物提取效果上比傳統(tǒng)面向?qū)ο蠓椒ǜ行?,其識(shí)別精度更高,泛化能力更好,可有效地對(duì)煤炭礦區(qū)地物進(jìn)行提取。
2)集成模型的總體準(zhǔn)確率和Kappa系數(shù)均高于所有單體神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)面向?qū)ο蠓椒?,證明合適的模型集成算法能夠提高單體神經(jīng)網(wǎng)絡(luò)的地物分類效果。
3)實(shí)驗(yàn)結(jié)果表明,本文提出的方法滿足礦區(qū)地物的快速檢測(cè)要求,對(duì)礦區(qū)安全作業(yè)和管理起到良好輔助作用。該方法與傳統(tǒng)野外人工勘測(cè)方法相比,節(jié)省了時(shí)間和人力,與基于衛(wèi)星遙感的監(jiān)測(cè)方法相比,精度更高,時(shí)效性更好。