盧凱旋,李國清,陳正超,昝露洋,李柏鵬,高建威
(1 中國科學(xué)院遙感與數(shù)字地球研究所, 北京 100094; 2 中國科學(xué)院大學(xué)資源與環(huán)境學(xué)院, 北京 100094; 3 河南省遙感測繪院, 鄭州 450003)
鋼鐵廠建造狀況主要依靠地方政府和企業(yè)的上報(bào)數(shù)據(jù),不排除存在虛報(bào)、瞞報(bào)、漏報(bào)的情況;同時(shí),已經(jīng)取得的去產(chǎn)能成果尚需穩(wěn)固、防止反彈。因此,加強(qiáng)對(duì)鋼鐵廠的動(dòng)態(tài)監(jiān)測,可為國家全面掌握鋼鐵行業(yè)現(xiàn)狀和去產(chǎn)能實(shí)施進(jìn)程提供信息支撐。遙感作為一種非接觸的、遠(yuǎn)距離的探測技術(shù),具有監(jiān)測范圍廣、周期短、成本低等特點(diǎn),可作為一種客觀地獲取鋼鐵產(chǎn)能變化情況的技術(shù)手段。隨著衛(wèi)星遙感的快速發(fā)展,利用衛(wèi)星遙感數(shù)據(jù)進(jìn)行鋼鐵廠的高精度、高頻次監(jiān)測已經(jīng)成為可能。
深度學(xué)習(xí)是人工智能中機(jī)器學(xué)習(xí)發(fā)展的新階段[1],它利用數(shù)字計(jì)算機(jī)模型模擬人腦的多通路信息傳遞機(jī)制,實(shí)現(xiàn)輸入數(shù)據(jù)的分層表達(dá)和知識(shí)推理,有效地解決了對(duì)復(fù)雜對(duì)象特征的刻畫和復(fù)雜場景的關(guān)聯(lián)分析等問題,在計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等領(lǐng)域取得很多突破性進(jìn)展和大量創(chuàng)新應(yīng)用。對(duì)于場景復(fù)雜的高分辨率遙感影像,深度學(xué)習(xí)技術(shù)相對(duì)于傳統(tǒng)基于物理模型的信息提取技術(shù),在效率和精度兩方面都具有不可比擬的技術(shù)優(yōu)勢[2]。將深度學(xué)習(xí)技術(shù)應(yīng)用于大區(qū)域遙感影像的鋼鐵廠信息提取,可顯著提高鋼鐵廠點(diǎn)位識(shí)別和動(dòng)態(tài)監(jiān)測的效率與自動(dòng)化水平。
在深度學(xué)習(xí)方法中,卷積神經(jīng)網(wǎng)絡(luò)[3](convolutional neural networks,CNN)是一種高效的自動(dòng)分層特性學(xué)習(xí)框架,它在對(duì)象檢測方面具有很大的潛力。近年來,卷積神經(jīng)網(wǎng)絡(luò)模型不斷完善,在目標(biāo)檢測方面取得突破性進(jìn)展,很多任務(wù)的精度已然超過人工識(shí)別精度,包括region-CNN(R-CNN)[4], spatial pyramid pooling convolutional networks (SPP-Net)[5]、fast R-CNN[6]、faster R-CNN[7]、you only look once (YOLO)[8]和single shot multibox detector(SSD)[9]等。R-CNN是第一個(gè)基于CNN的目標(biāo)檢測方法,R-CNN代替?zhèn)鹘y(tǒng)目標(biāo)檢測使用的滑動(dòng)窗口+手工設(shè)計(jì)特征,設(shè)計(jì)了R-CNN框架,使得目標(biāo)檢測取得巨大突破,并開啟了基于深度學(xué)習(xí)的目標(biāo)檢測方法研究熱潮,但是R-CNN分多個(gè)階段訓(xùn)練,繁瑣耗時(shí)。隨后提出的SPP-Net、Fast R-CNN和Faster R-CNN等方法是對(duì)R-CNN的改進(jìn),提高了目標(biāo)檢測的速度和精度。但是它們都是基于候選區(qū)域的目標(biāo)檢測算法,這類方法由于需要通過滑動(dòng)窗口產(chǎn)生預(yù)選窗口,計(jì)算量比較大,無法達(dá)到實(shí)時(shí)的目標(biāo)檢測。相比較而言,YOLO系列和SSD算法是基于回歸方法的目標(biāo)檢測算法,這類方法使用回歸思想確定圖像中目標(biāo)邊框及類別,大幅度提高了目標(biāo)檢測速度。其中,SSD結(jié)合YOLO中的回歸思想和Faster R-CNN中的anchor機(jī)制,使用全圖各個(gè)位置的多尺度區(qū)域特征進(jìn)行回歸,既保持了YOLO效率高的特性,也保證了窗口預(yù)測與Faster R-CNN同樣精準(zhǔn)。
近幾年,遙感學(xué)者在針對(duì)自然圖像目標(biāo)檢測算法的基礎(chǔ)上做了不同嘗試和改進(jìn)。大量學(xué)者嘗試將針對(duì)RGB三波段真彩色自然圖像的神經(jīng)網(wǎng)絡(luò)引入遙感圖像領(lǐng)域,在目標(biāo)探測方面的應(yīng)用效果遠(yuǎn)優(yōu)于傳統(tǒng)算法[10-14]。但是,不同于在地面上使用普通數(shù)碼相機(jī)在水平視角獲取的自然圖像,遙感影像由遙感器從衛(wèi)星或飛機(jī)對(duì)地面拍攝獲取,具有觀測尺度大、光照陰影差異大、地物場景復(fù)雜等特點(diǎn),現(xiàn)有網(wǎng)絡(luò)模型對(duì)遙感圖像的理解和特征提取還存在明顯不足。遙感影像的特性導(dǎo)致遙感大數(shù)據(jù)的目標(biāo)提取和自然圖像的目標(biāo)提取完全不同,最突出的差異即對(duì)復(fù)雜目標(biāo)的精確提取以及在大范圍場景的目標(biāo)自動(dòng)檢測。鋼鐵廠是集各種建筑和設(shè)施、自然地物為一體的復(fù)雜綜合體,規(guī)模大小不一,空間紋理、陰影、顏色、幾何特征等都千差萬別,其復(fù)雜程度遠(yuǎn)遠(yuǎn)超過人臉或者汽車等自然圖像目標(biāo),如圖1所示。從數(shù)量上來講,全國只有幾百個(gè)鋼鐵廠,極少量樣本為鋼鐵廠特征提取帶來了極大挑戰(zhàn)。面對(duì)綜合特征如此復(fù)雜且樣本不足的檢測目標(biāo),本文提出改進(jìn)的SSD目標(biāo)檢測網(wǎng)絡(luò),使模型更加適用于鋼鐵廠檢測。
本文針對(duì)遙感影像和鋼鐵廠的特點(diǎn),以SSD目標(biāo)檢測網(wǎng)絡(luò)為基礎(chǔ),提出融合多分支通路負(fù)樣本的SSD目標(biāo)檢測網(wǎng)絡(luò)方法,通過maxout模塊突出難分負(fù)樣本特征,并提升網(wǎng)絡(luò)對(duì)無用特征的抵制效果。京津冀地區(qū)遙感影像鋼鐵廠提取的實(shí)驗(yàn)結(jié)果表明,提出的方法有效減弱了混淆地物特征對(duì)鋼鐵廠識(shí)別的干擾,提取精度達(dá)到80%以上,相比政府部門公布的人工解譯數(shù)據(jù),此方法新檢測出47個(gè)鋼鐵廠。
選擇京津冀地區(qū)作為鋼鐵廠提取研究區(qū)域,如圖2所示。京津冀地區(qū)是中國政治文化中心和經(jīng)濟(jì)發(fā)展重點(diǎn)區(qū)域,總面積21.8萬km2,包含北京、天津、雄安新區(qū)等核心功能區(qū)。該地區(qū)土地緊缺且利用方式復(fù)雜多樣,人口稠密,環(huán)境容量有限。區(qū)域經(jīng)濟(jì)社會(huì)的良性發(fā)展,需要人和自然環(huán)境達(dá)成和諧統(tǒng)一,但頻發(fā)的霧霾污染事件已成為該區(qū)域經(jīng)濟(jì)社會(huì)進(jìn)一步發(fā)展的重大障礙。鋼鐵行業(yè)是社會(huì)經(jīng)濟(jì)發(fā)展的重要組成部分,同時(shí)也是主要的大氣污染源之一。提高京津冀地區(qū)的鋼鐵廠監(jiān)測效率和精度,對(duì)于經(jīng)濟(jì)產(chǎn)業(yè)發(fā)展和環(huán)境保護(hù)都具有重要意義。
1.2.1 數(shù)據(jù)源
本文采用的數(shù)據(jù)源為國產(chǎn)高分一號(hào)(下稱GF-1)衛(wèi)星數(shù)據(jù)。GF-1衛(wèi)星是中國高分辨率對(duì)地觀測系統(tǒng)的第一顆衛(wèi)星,于2013年4月26日12時(shí)13分04秒由長征二號(hào)丁運(yùn)載火箭成功發(fā)射。GF-1衛(wèi)星搭載2臺(tái)2 m分辨率全色/8 m分辨率多光譜相機(jī),4臺(tái)16 m分辨率多光譜相機(jī),寬幅多光譜相機(jī)幅寬達(dá)到800 km。
1.2.2 樣本與測試數(shù)據(jù)
以人工解譯的全國鋼鐵廠點(diǎn)位為基礎(chǔ),總共獲得450個(gè)鋼鐵廠點(diǎn)位,其中京津冀地區(qū)118個(gè)鋼鐵廠,非京津冀地區(qū)存在332個(gè)鋼鐵廠點(diǎn)位。利用非京津冀地區(qū)的332個(gè)鋼鐵廠點(diǎn)位制作訓(xùn)練樣本,樣本制作主要考慮以下因素:
1) 考慮到鋼鐵廠面積較大,一般鋼鐵廠的實(shí)際長寬達(dá)到1~3 km,為了在包含鋼鐵廠整體特征的情況下,保證鋼鐵廠紋理清晰、特征明顯,選取空間分辨率為2 m的GF-1影像,并且以鋼鐵廠坐標(biāo)為中心點(diǎn)裁剪GF-1影像生成一系列2 500×2 500的樣本影像。
2) 考慮到鋼鐵廠局部特征(比如生產(chǎn)線設(shè)施、高架建筑等)的非典型性以及相互之間的差異性,選擇鋼鐵廠的整體特征作為檢測對(duì)象進(jìn)行樣本標(biāo)記,以最小外接矩形標(biāo)記鋼鐵廠區(qū)域,避免多余背景對(duì)鋼鐵廠特征造成影響;
3) 考慮到鋼鐵廠從建造到投入生產(chǎn)隨時(shí)間變化顯著,特征具有較強(qiáng)的時(shí)間相關(guān)性,為了豐富訓(xùn)練樣本的多樣性,利用2013—2017年5年間的多時(shí)相GF-1影像用于樣本標(biāo)記。
基于以上原則,共制作1 329張鋼鐵廠訓(xùn)練樣本,200張驗(yàn)證樣本。京津冀地區(qū)的測試數(shù)據(jù)同樣為空間分辨率為2 m、切片大小為2 500×2 500的GF-1影像,總共19 192張,成像時(shí)間為2017年6月。
本文基于深度學(xué)習(xí)網(wǎng)絡(luò)提取京津冀地區(qū)的鋼鐵廠,過程如圖3所示。首先,對(duì)GF-1影像進(jìn)行預(yù)處理;然后基于影像制備樣本,得到訓(xùn)練集和驗(yàn)證集,在訓(xùn)練之前,基于SSD目標(biāo)檢測網(wǎng)絡(luò)添加maxout模塊,構(gòu)建面向鋼鐵廠提取的目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu);最后,通過網(wǎng)絡(luò)訓(xùn)練得到最優(yōu)檢測模型對(duì)京津冀地區(qū)進(jìn)行鋼鐵廠檢測,得到該地區(qū)鋼鐵廠的分布與數(shù)量。
本文使用VGG16[15]作為特征提取的基礎(chǔ)網(wǎng)絡(luò),VGG16網(wǎng)絡(luò)在計(jì)算機(jī)領(lǐng)域表現(xiàn)優(yōu)秀,主要用來提取目標(biāo)的低層特征。VGG16的網(wǎng)絡(luò)層主要由卷積層、激活層以及池化層組成。卷積層用來抽象目標(biāo)的特征,卷積核設(shè)為3,步長設(shè)為1,像素?cái)U(kuò)充設(shè)為1,用來保持卷積過后特征圖的圖像分辨率。激活層用來減少網(wǎng)絡(luò)參數(shù)的相互依存關(guān)系,緩解過擬合問題。池化層用來降低特征圖維度,減少數(shù)據(jù)量,使用的池化方法是最大池化,其中卷積核設(shè)為2,步長設(shè)為2,像素?cái)U(kuò)充設(shè)為0。隨著網(wǎng)絡(luò)的深入,每個(gè)網(wǎng)絡(luò)層生成的特征圖圖像分辨率逐漸降低,特征圖感受野越來越大。原始的SSD網(wǎng)絡(luò)在VGG16基礎(chǔ)上額外添加4個(gè)卷積層,加上VGG16的2個(gè)卷積層,總共生成6個(gè)卷積層,用于檢測不同尺度下的目標(biāo),稱為“預(yù)測層”。
圖3 京津冀地區(qū)鋼鐵廠提取流程Fig.3 Flow chart of steel plant extraction in Jing-Jin-Ji area
由于鋼鐵廠樣本較少,5年的多時(shí)相遙感GF-1數(shù)據(jù)雖然使樣本數(shù)量擴(kuò)大5倍,同時(shí)SSD網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)模塊也能大大增加樣本的多樣性,但樣本數(shù)依然遠(yuǎn)遠(yuǎn)不夠。鋼鐵廠要素繁雜,在正樣本不足的情況下,模型訓(xùn)練過程中不能充分學(xué)習(xí)到屬于鋼鐵廠本身的特征。另外,遙感影像背景復(fù)雜導(dǎo)致大多數(shù)負(fù)樣本是簡單易分的,無法有效抵制干擾信息,這些因素會(huì)導(dǎo)致模型檢測出大量的非鋼鐵廠混淆地物。因此,在正樣本缺乏的情況下,增強(qiáng)負(fù)樣本即遙感背景的抵制效果,對(duì)于提升鋼鐵廠這類綜合復(fù)雜目標(biāo)的檢測精度尤為重要。
基于以上考慮,本文在SSD網(wǎng)絡(luò)每個(gè)尺度預(yù)測層下增加maxout模塊,即將負(fù)樣本通路變成多分支結(jié)構(gòu),選取與鋼鐵廠特征混淆的負(fù)樣本輸入網(wǎng)絡(luò)和正樣本一起對(duì)模型進(jìn)行強(qiáng)化訓(xùn)練,從而解決負(fù)樣本誤報(bào)的問題以提高對(duì)鋼鐵廠的識(shí)別能力。
傳統(tǒng)SSD的預(yù)測層會(huì)產(chǎn)生大量先驗(yàn)框,計(jì)算先驗(yàn)框與真值的重疊度,根據(jù)重疊度大于閾值(0.5)來判斷該先驗(yàn)框?yàn)檎龢颖荆粗畡t為負(fù)樣本。然后計(jì)算負(fù)樣本的置信度損失,獲取置信度損失較大的一些負(fù)樣本,損失越大說明越難訓(xùn)練,也就是尋找難分負(fù)樣本,最后計(jì)算正樣本的位置損失以及正負(fù)樣本的分類損失來確定最終的反傳損失。在這個(gè)過程中,maxout模塊的作用在于提供更多的負(fù)樣本通路選擇,通過eltwise max層獲取準(zhǔn)確的難分負(fù)樣本,提升模型抑制無用特征的能力。根據(jù)以上原則,在原始SSD結(jié)構(gòu)(圖4(a))上提出增加二分支(圖4(b))、三分支(圖4(c))、四分支(圖4(d))和五分支(圖4(e))負(fù)樣本通道的maxout模塊。
圖4 不同分支數(shù)的負(fù)樣本通道m(xù)axout模塊Fig.4 Negative sample channel maxout module with different numbers of branches
SSD網(wǎng)絡(luò)所包含的參數(shù)量非常大,使用少量的鋼鐵廠訓(xùn)練樣本進(jìn)行網(wǎng)絡(luò)初始化會(huì)導(dǎo)致網(wǎng)絡(luò)嚴(yán)重過擬合。由于遙感影像和普通圖像的顏色紋理等低層特征是比較相似的,于是遷移ILSVRC CLS-LOC數(shù)據(jù)集得到的預(yù)訓(xùn)練模型VGG16用來提取樣本的低層特征,與隨機(jī)初始化的模型相比,預(yù)訓(xùn)練模型不僅增加了模型的精度,也節(jié)省了訓(xùn)練時(shí)間。
本研究中,使用SSD網(wǎng)絡(luò)前端的數(shù)據(jù)增強(qiáng)模塊,用于增加樣本的多樣性,減緩小樣本造成的過擬合現(xiàn)象。數(shù)據(jù)增強(qiáng)模塊包括顏色亮度飽和度變換、翻轉(zhuǎn)、隨機(jī)裁剪放大以及縮小等操作。數(shù)據(jù)增強(qiáng)后的圖片統(tǒng)一重采樣到1 024×1 024×3的大小,然后輸入到模型進(jìn)行訓(xùn)練,網(wǎng)絡(luò)模型通過反向傳播算法迭代更新每一層參數(shù)。目標(biāo)檢測網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示。在合理的范圍內(nèi),增大批處理參數(shù)batch_size可以提高內(nèi)存利用率,提高大矩陣乘法的并行化效率,考慮到輸入影像的尺寸和GPU的顯存大小,將batch size設(shè)為4;另外,基礎(chǔ)學(xué)習(xí)率base_lr設(shè)為0.001,最大迭代次數(shù)max_iter為100 k,gamma系數(shù)、動(dòng)量momentum和權(quán)重衰減參數(shù)weight_decay分別設(shè)為0.1、0.9和0.000 5;學(xué)習(xí)率learning rate采用均勻分步更新策略,當(dāng)?shù)螖?shù)低于40 000時(shí),學(xué)習(xí)率為基礎(chǔ)學(xué)習(xí)率0.001;當(dāng)?shù)螖?shù)大于40 000小于60 000時(shí),學(xué)習(xí)率變?yōu)?.000 1;當(dāng)?shù)螖?shù)高于60 000時(shí),學(xué)習(xí)率設(shè)為0.000 01。
表1 網(wǎng)絡(luò)參數(shù)設(shè)置Table 1 Network parameter setting
本文訓(xùn)練網(wǎng)絡(luò)模型的軟件框架為Caffe,硬件環(huán)境為4個(gè)12 G顯存的NVIDIA Titan XP GPU、CUDA2.0以及Intel Xeon E5 CPU,訓(xùn)練10萬次需要48 h,得到充分訓(xùn)練后的模型后再將其用于京津冀地區(qū)鋼鐵廠的檢測。
模型的精度評(píng)價(jià)方式是使用深度學(xué)習(xí)領(lǐng)域目標(biāo)檢測網(wǎng)絡(luò)的常用指標(biāo):精度Precision、召回率Recall和F1分?jǐn)?shù)等,分別定義如下:
(1)
(2)
(3)
式中:TP表示目標(biāo)實(shí)質(zhì)為鋼鐵廠且被正確檢出,F(xiàn)P表示目標(biāo)實(shí)質(zhì)不是鋼鐵廠但被錯(cuò)誤檢出,F(xiàn)N表示目標(biāo)實(shí)質(zhì)為鋼鐵廠但未被檢出。F1分?jǐn)?shù)則是綜合考慮精度和召回率的性能指標(biāo)。對(duì)于不同的置信度閾值,精度、召回率以及F1分?jǐn)?shù)會(huì)隨之變化,本文以0.05的步長逐步增加置信度閾值(0.5~0.95),記錄模型在不同置信度閾值下的檢測性能。
使用同樣的數(shù)據(jù)(1 329張訓(xùn)練樣本,200張驗(yàn)證樣本)分別訓(xùn)練未添加maxout模塊的原始SSD目標(biāo)檢測模型以及分別添加二分支、三分支、四分支、五分支負(fù)樣本通道的maxout模塊的新SSD目標(biāo)檢測模型,分析不同模型在鋼鐵廠上的檢測性能。
3.1.1 平均精度均值(mAP)
為降低其他因素的影響,除maxout模塊之外的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)保持一致,通過GPU和Cuda訓(xùn)練模型,迭代次數(shù)達(dá)到10萬次后停止,訓(xùn)練過程中的mAP曲線如圖5所示。針對(duì)同一數(shù)據(jù)集,不同網(wǎng)絡(luò)在訓(xùn)練過程中隨迭代次數(shù)變化的mAP不同,從結(jié)果來看,添加三分支負(fù)樣本通道的網(wǎng)絡(luò)準(zhǔn)確度最高,在10萬次迭代后準(zhǔn)確度上升到81.2%,分別比添加二分支、四分支和五分支負(fù)樣本通道的網(wǎng)絡(luò)精度高出5.7%、3.0%和5.3%。另外,未添加maxout模塊的原始SSD網(wǎng)絡(luò)最佳準(zhǔn)確度為75.5%,低于添加maxout模塊的SSD網(wǎng)絡(luò)。
圖5 不同結(jié)構(gòu)網(wǎng)絡(luò)訓(xùn)練的mAP曲線Fig.5 The mAP curves of differently designed CNN architectures
3.1.2 驗(yàn)證集精度、召回率和F1分?jǐn)?shù)
不同的網(wǎng)絡(luò)模型經(jīng)過10萬次迭代訓(xùn)練完成后,在不同置信度閾值(0.5~0.95)設(shè)置下,利用模型對(duì)驗(yàn)證集中鋼鐵廠樣本進(jìn)行檢測,通過檢測結(jié)果計(jì)算不同閾值下的精度、召回率和F1分?jǐn)?shù)來比較不同模型的檢測性能。
精度、召回率和F1分?jǐn)?shù)隨置信度閾值變化曲線分別如圖6(a)、6(b)、6(c)所示。從圖中可以看出,較低的置信度閾值,比如0.5,對(duì)應(yīng)著高召回率和低精度;較高的置信度閾值,比如0.85,對(duì)應(yīng)著低召回率和高精度。5種模型中,添加三分支負(fù)樣本通道的maxout模塊的網(wǎng)絡(luò)性能最佳,精度最高達(dá)到92.8%、召回率保持在97.7%以上、F1分?jǐn)?shù)最高達(dá)到95.5%;添加二、四、五分支負(fù)樣本通道的maxout模塊的網(wǎng)絡(luò)性能其次,精度分別最高達(dá)到88.6%、92.2%、91.7%,召回率分別保持在97.0%、97.0%、97.0%,F(xiàn)1分?jǐn)?shù)分別最高達(dá)到93.4%、94.5%、94.2%;未添加maxout結(jié)構(gòu)的網(wǎng)絡(luò)性能最差,精度最高達(dá)到71.4%、召回率保持在96.3%以上、F1分?jǐn)?shù)最高達(dá)到93.1%。
圖6 不同置信度閾值下的網(wǎng)絡(luò)性能Fig.6 Precisions, recall rate, and F1-scores at different confidence thresholds
綜上所述,添加maxout模塊的網(wǎng)絡(luò)比未添加的網(wǎng)絡(luò)在精度、召回率和F1分?jǐn)?shù)上的表現(xiàn)都好得多,其中添加三分支負(fù)樣本通道的網(wǎng)絡(luò)性能最佳,而添加四分支負(fù)樣本通路的網(wǎng)絡(luò)比添加五分支負(fù)樣本通道的網(wǎng)絡(luò)性能稍微優(yōu)秀一點(diǎn)。通過給網(wǎng)絡(luò)添加其他不同數(shù)量分支負(fù)樣本進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明在當(dāng)前樣本下,添加三分支負(fù)樣本通道的網(wǎng)絡(luò)性能最佳,同時(shí)在不斷增加分支的情況下,網(wǎng)絡(luò)的性能呈略微下降的趨勢。
結(jié)合實(shí)驗(yàn)結(jié)果和maxout模塊增強(qiáng)難分負(fù)樣本特征的原理,可以得到,在正樣本數(shù)量有限的情況下,最佳的負(fù)樣本通道分支數(shù)量是有限制的。適當(dāng)?shù)卦黾迂?fù)樣本通道分支,能有效突出難分負(fù)樣本特征,增強(qiáng)目標(biāo)檢測網(wǎng)絡(luò)對(duì)無用特征的抵制效果,提升網(wǎng)絡(luò)對(duì)鋼鐵廠的檢測性能。但是,由于鋼鐵廠是一種具有復(fù)雜要素的綜合地物,不僅包含生產(chǎn)線設(shè)施等獨(dú)特特征,還包含容易與其他地物混淆的建筑物等特征。過度增加負(fù)樣本分支通道,會(huì)導(dǎo)致網(wǎng)絡(luò)對(duì)背景中與鋼鐵廠局部易混淆特征產(chǎn)生抵制,這會(huì)影響網(wǎng)絡(luò)對(duì)正樣本的局部特征判斷,從而造成檢測精度下降。
通過以上實(shí)驗(yàn),本文選擇檢測性能最好的目標(biāo)檢測模型,即添加三分支負(fù)樣本通道的SSD網(wǎng)絡(luò)對(duì)京津冀地區(qū)進(jìn)行鋼鐵廠檢測。檢測數(shù)據(jù)為GF-1遙感影像,空間分辨率為2 m,切片大小為2 500×2 500,總共19 192張,使用4個(gè)GPU能在2 h內(nèi)完成檢測任務(wù)。
在鋼鐵廠檢測的應(yīng)用場景中,鋼鐵廠召回率的優(yōu)先級(jí)比精度更高,本文選擇較低的置信度閾值,將模型的置信度閾值設(shè)置為0.6進(jìn)行檢測,最終得到京津冀鋼鐵廠的檢測結(jié)果如下:共檢測出205個(gè)鋼鐵廠,通過人工解譯誤判為40個(gè),檢測精度達(dá)到80.5%。同時(shí)將結(jié)果與行業(yè)部門目視解譯京津冀地區(qū)118個(gè)鋼鐵廠點(diǎn)位進(jìn)行對(duì)比,深度學(xué)習(xí)目標(biāo)檢測模型在其基礎(chǔ)上新檢測出47個(gè)鋼鐵廠,如圖7(a)、7(b)所示。從京津冀地區(qū)的鋼鐵廠檢測實(shí)驗(yàn)結(jié)果可知,增加maxout模塊的新目標(biāo)檢測網(wǎng)絡(luò)檢測鋼鐵廠的精度達(dá)到80%以上。
圖7 京津冀鋼鐵廠檢測結(jié)果Fig.7 Detection results of steel plants in Jing-Jin-Ji area
本文通過分析遙感影像和鋼鐵廠特性,在SSD目標(biāo)檢測網(wǎng)絡(luò)的基礎(chǔ)上添加maxout模塊,通過增加負(fù)樣本通道分支數(shù)加強(qiáng)網(wǎng)絡(luò)對(duì)無用特征的抵制作用,構(gòu)建融合遙感特征的深度學(xué)習(xí)目標(biāo)檢測網(wǎng)絡(luò),大大提升了鋼鐵廠的檢測精度。同時(shí),該網(wǎng)絡(luò)在京津冀地區(qū)的鋼鐵廠檢測任務(wù)中取得較好的效果,與人工解譯的鋼鐵廠結(jié)果相比,目標(biāo)網(wǎng)絡(luò)檢測精度為80.5%,并且新檢測出47個(gè)鋼鐵廠。實(shí)驗(yàn)證明利用深度學(xué)習(xí)方法在海量遙感影像數(shù)據(jù)中快速識(shí)別復(fù)雜度目標(biāo)具備可行性??紤]到遙感影像中鋼鐵廠檢測的難度,本文提出的目標(biāo)檢測方法對(duì)于提高大區(qū)域鋼鐵廠檢測的效率具有重要意義。同時(shí),此方法可以推廣到與鋼鐵廠類似的其他“三高”(高污染、高耗能、高耗水)企業(yè)檢測任務(wù)中,進(jìn)一步提升去產(chǎn)能監(jiān)控和環(huán)境保護(hù)力度。
由于鋼鐵廠的正樣本數(shù)量極少,只是增強(qiáng)負(fù)樣本的抵制作用無法更有效地提升該目標(biāo)檢測網(wǎng)絡(luò)的精度。但是考慮到鋼鐵廠特征要素豐富,今后將主要針對(duì)鋼鐵廠本身的局部特征進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化,進(jìn)一步提升鋼鐵廠整體特征的識(shí)別精度。