劉 銳
(北京建筑大學(xué)測繪與城市空間信息學(xué)院,北京)
我國遙感環(huán)境監(jiān)測研究起步較晚。20 世紀(jì)90 年代后期我國初步開展礦山環(huán)境研究工作[4]。王曉紅等[5](2005)對比分析了IKONOS 等數(shù)據(jù)的使用效果,并提出礦山開發(fā)與環(huán)境遙感調(diào)查數(shù)據(jù)源的選擇步驟[6]。2015 年在ILSVRC 上何凱明團隊構(gòu)建的ResNet[7]算法模型,將ImageNet 數(shù)據(jù)集的分類誤差降到了3.57%,這是首次深度學(xué)習(xí)算法圖像分類準(zhǔn)確率超越人眼識別分類。馮小雨通過改進Faster R-CNN,構(gòu)建了靜態(tài)空中目標(biāo)數(shù)據(jù)集和視頻圖像數(shù)據(jù)集來訓(xùn)練算法模型,將其應(yīng)用于空中目標(biāo)的檢測[8]。
本文借助深度學(xué)習(xí)技術(shù),以國產(chǎn)高分遙感大數(shù)據(jù)影像作為數(shù)據(jù)源,訓(xùn)練并測試北方地區(qū)煤礦MASK R-CNN 特征識別模型的,為煤礦進行監(jiān)測、規(guī)范露天煤礦管理以及潛在危險監(jiān)測提供技術(shù)支持。對于露天礦區(qū)資源開采具有一定的理論意義和實際價值。
本文的研究區(qū)為內(nèi)蒙古自治區(qū)、新疆維吾爾自治區(qū)和山西省三省的露天煤礦。數(shù)據(jù)源為我國國產(chǎn)衛(wèi)星“高分二號”。年份為2017 年到2019 年這三年。為了滿足對植被、云層和積雪的要求,月份選擇5 月到9月。選取數(shù)據(jù)時,遵循以下三個選擇條件。
(1) 云量對感興趣區(qū)域無明顯遮擋。
(2) 地面無積雪。
(3) 植被生長狀況良好。
并以此為基礎(chǔ)制作數(shù)據(jù)集,以訓(xùn)練露天礦區(qū)識別MASK R-CNN 模型。
小兒化食口服液是廣州市香雪制藥股份有限公司生產(chǎn)的,具有消食化滯、瀉火通便功效的中成藥。為驗證該藥對小兒功能性便秘食積化熱證的治療作用,10家醫(yī)療機構(gòu)進行了以安慰劑為對照的上市后再評價臨床研究。臨床研究負(fù)責(zé)單位天津中醫(yī)藥大學(xué)第一附屬醫(yī)院醫(yī)學(xué)倫理委員會批準(zhǔn)了本研究的試驗方案(批準(zhǔn)號TYLL2013[Y]字005)。
全卷積神經(jīng)網(wǎng)絡(luò)(FCN)的提出對于深度學(xué)習(xí)意義重大,它使得圖像分類的級別精細(xì)到像素。實際上FCN 相對于卷積神經(jīng)網(wǎng)絡(luò)修改只有一處,那就是將全連接層替換為反卷積層。這樣一來,分類網(wǎng)絡(luò)將可以輸出一個精度達(dá)到像素級別的分類熱圖,該圖的尺寸與原圖一致。FCN 還利用了一種方法使得識別更精細(xì),即特征圖跳躍級聯(lián)。為了實現(xiàn)遙感圖像的像素識別,本文也采取這種方式。全卷積神經(jīng)網(wǎng)絡(luò)示意如圖1所示。
圖1 全卷積神經(jīng)網(wǎng)絡(luò)示意
在Faster R-CNN 中目標(biāo)分類的網(wǎng)絡(luò)為全連接網(wǎng)絡(luò)。這種網(wǎng)絡(luò)要求圖像在輸入時尺寸固定。那么在這種情況下,就需要對尺寸不一的前景特征圖進行歸一化處理。在Faster R-CNN 中,采取的方式為ROI Pooling(感興趣區(qū)池化)。這樣就會出現(xiàn)一個問題,即在池化尺寸縮小的時候,采取的策略是向下取整。如此一來,得到的特征圖是不能夠跟原圖一一對應(yīng)的,不可避免地就產(chǎn)生了像素誤差。雖然說,在Faster R-CNN 的任務(wù)里,這樣的誤差不會造成太大的影響,但是如果把誤差放到類似于本文的任務(wù)中,這樣的誤差就不允許存在。這是因為,本文所進行的任務(wù)是像素級別的,微小的誤差也會造成嚴(yán)重的偏移。因此,本文選用的池化方法為ROI Align(感興趣區(qū)匹配)。
在本文的訓(xùn)練過程中,為了及時反饋模型狀態(tài),損失函數(shù)值是實時輸出的。這樣的記錄方式方便于調(diào)整訓(xùn)練的策略。除此之外,損失值會在不斷的迭代中降低,這樣一來,就可以讓模型收斂,使其達(dá)到一個最佳的狀態(tài)。本文參考平均交并比(Mean Tntersection over Union)等參數(shù)設(shè)計了損失函數(shù)。其計算公式如式(1)所示。
式中:LClS代表著分類網(wǎng)絡(luò)的誤差;Lbox代表著邊框回歸誤差;Lmask代表著識別掩膜誤差。
本文將露天礦區(qū)的遙感圖像分成了三類地物,分別是礦區(qū)、排土場和背景。以制作的包含排土場的1053 幅露天煤礦圖像為輸入進行訓(xùn)練。
本文采取了遷移學(xué)習(xí)的方式,直接利用MASK R-CNN 在數(shù)據(jù)集上原有的訓(xùn)練權(quán)重作為本次訓(xùn)練的預(yù)訓(xùn)練權(quán)重,在此基礎(chǔ)上直接對本文的數(shù)據(jù)集進行訓(xùn)練,這樣以來便可以將訓(xùn)練的效率提升。
訓(xùn)練的batch_size=4,每輪迭代steps_per_epoch為50;計劃訓(xùn)練epochs 為300 輪;采用早停法控制訓(xùn)練過程,若驗證集損失函數(shù)loss 值在10 個epoch 內(nèi)沒有下降則停止訓(xùn)練,從而防止過擬合。優(yōu)化器為adam,初始學(xué)習(xí)率均為0.0001;學(xué)習(xí)率訓(xùn)練策略為如果訓(xùn)練過程中l(wèi)oss 在3 個epoch 內(nèi)沒有降低則學(xué)習(xí)率降低為原來的0.1 倍。輸入圖像統(tǒng)一縮放到512×512×3 大小。圖像預(yù)處理輸入除以255 進行歸一化處理。
圖2 即為訓(xùn)練過程中的損失函數(shù)的變化曲線。圖標(biāo)中縱坐標(biāo)為損失函數(shù)的值,橫坐標(biāo)為迭代次數(shù)。
圖2 損失函數(shù)的變化曲線
圖2 中展示了算法模型中三部分的損失函數(shù)圖像。分別是分類(Class)部分、掩碼(Mask)部分和特征提取網(wǎng)絡(luò)(Region Proposal Networks,RPN)網(wǎng)絡(luò)部分??梢钥吹诫S著迭代次數(shù)的增加,這四個損失函數(shù)的圖像均逐漸趨于收斂,證明模型訓(xùn)練結(jié)果可信。
3.2.1 評價指標(biāo)
召回率(Recall)是指所有的正例中被提取出來的正例所占的比例。m-Recall,即為多個樣本的平均召回率。Dice 系數(shù)是一種集合相似度度量函數(shù),通常用于計算兩個樣本的相似度,取值范圍在[0,1],而M-Dice系數(shù)是指多個樣本Dice 系數(shù)的平均值;IoU 是對象類別分割問題的標(biāo)準(zhǔn)性能度量,M-IoU 則為多個樣本的平均值。
召回率、Dice 系數(shù)和IoU 的公式如式(2)所示。
其中,TP、FP 和FN 分別為真陽性,假陽性和假陰性。X 和Y 分別表示原始區(qū)域和識別區(qū)域。
由于這三個參數(shù)都是評價精度的指標(biāo),很有可能出現(xiàn)某一個較高而另一個較低的復(fù)雜情況,在這種情況下結(jié)果就難以判斷。為了避免這種情況,采用一個綜合指標(biāo)(Intergrated Precision,IP)對這三個參數(shù)進行平衡。處理方式為加權(quán)求和,Recall 和IoU 各賦權(quán)0.4,Dice 賦權(quán)0.2。最后的結(jié)果用多個樣本平均值的IP 取平均值(m-IP)。
3.2.2 評價結(jié)果
最后得到的結(jié)果精度如表1 所示。
表1 實驗精度
從結(jié)果上看,本文所用模型對于露天礦區(qū)的識別精度較好,綜合指標(biāo)的值達(dá)到了0.8 以上。對于排土場的識別效果稍差一些,綜合指標(biāo)在0.736 左右。
本文在研究國內(nèi)外相關(guān)Mask R-CNN 模型的基礎(chǔ)上,結(jié)合礦區(qū)開采過程中遙感圖像特點,采用卷積神經(jīng)網(wǎng)絡(luò)模型來對礦區(qū)開采場景進行識別,針對遙感影像礦區(qū)地物信息量較少,識別困難且存在植被背景等地物的干擾等問題,針對面向露天煤礦開采識別的高分遙感影像全卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法開展深入研究,從而為礦區(qū)信息化、智能化監(jiān)管提供技術(shù)支持。本文研究工作主要總結(jié)如下。
(1) 開展了深度學(xué)習(xí)目標(biāo)識別相關(guān)算法的研究,并根據(jù)通用深度學(xué)習(xí)數(shù)據(jù)及組織形式以高分二號影像為數(shù)據(jù)源經(jīng)過裁剪和數(shù)據(jù)增強方式獲取了礦區(qū)識別的樣本影像數(shù)據(jù),以手工標(biāo)注的方式制作了樣本標(biāo)簽數(shù)據(jù),初步完成了礦區(qū)遙感影像深度學(xué)習(xí)數(shù)據(jù)集的制作。
(2) 針對我國大型露天煤礦開采遙感影像特點,引入了一種結(jié)合特征金字塔和殘差網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)模型Mask R-CNN 進行礦區(qū)遙感影像識別和識別。采用FPN 為主干網(wǎng)絡(luò)提取影像特征,RPN 對特征圖進行區(qū)域選擇初步選定目標(biāo)區(qū)域,再用雙線性插值的方式把初步選定目標(biāo)的特征圖歸一化為固定的較小尺寸特征圖,最后輸出類別。
(3) 總體上,本研究中該方法提取采礦區(qū)精度效果較好,有效的提取出邊界清晰的礦區(qū)信息,綜合指標(biāo)m-IP 值達(dá)到了0.8 以上,滿足了國家資源相關(guān)部門對礦區(qū)監(jiān)測工作的需求,為后續(xù)遙感進行礦區(qū)的監(jiān)管以及露天礦區(qū)行業(yè)的健康開采提供了技術(shù)支持。