文莉莉,孫苗,鄔滿
(1.廣西壯族自治區(qū)藥用植物園 信息產(chǎn)業(yè)辦公室,廣西 南寧 530023;2.自然資源部 海洋信息技術創(chuàng)新中心,天津 300171;3.國家海洋信息中心,天津 300171;4.廣西壯族自治區(qū)海洋研究院,廣西 南寧 530022;5.廣西大學 電氣工程學院,廣西 南寧 530004;6.南寧師范大學 北部灣人工智能應技術研究院,廣西 南寧 530001)
隨著中國經(jīng)濟社會的高速發(fā)展,沿海地區(qū)對于海洋資源的開發(fā)力度持續(xù)加大,中國海洋管理面臨著越來越嚴峻的挑戰(zhàn),受開發(fā)理念(重開發(fā)輕治理)、開發(fā)方式(粗放式開發(fā)為主)、監(jiān)管困難及利益驅動等多方面的影響,中國沿海違規(guī)開發(fā)(偷填、超填、閑置)、隨意圍墾、盜采海砂,以及非法挖礦采石、破壞紅樹林等生態(tài)環(huán)境、偷排與傾倒垃圾等行為頻發(fā),使中國的海洋資源與生態(tài)環(huán)境遭到嚴重破壞。
目前,常用的海洋監(jiān)管與執(zhí)法方式主要依賴于執(zhí)法船巡邏、群眾舉報、雷達監(jiān)測,前兩者成本高、效率低,且具有嚴重的滯后性和較高的漏檢率;后者則建設、維護成本巨大,且只能監(jiān)測近岸半徑約20公里區(qū)域。雖然近年來衛(wèi)星遙感與無人機的廣泛使用促進了監(jiān)管手段的升級,但是對海量的影像數(shù)據(jù)進行人工審核仍然是一項十分艱巨的工作。因此,采用目標檢測方法實現(xiàn)從海量影像數(shù)據(jù)中自動提取海洋目標信息,對于建立大范圍、智能、快速的海洋監(jiān)管機制具有十分重要的意義。
目前,基于人工智能技術的目標檢測技術已在多個領域得到了較好的應用。然而,將人工智能技術用于海上目標檢測方面的研究和應用還相對較少。主要原因包括:1)樣本集建立困難,目前尚無公開可用的海上目標檢測數(shù)據(jù)集;2)傳統(tǒng)的目標檢測方法大多需要人為設定目標的特征,工作量大且難以選取出最優(yōu)特征;3)海洋目標圖像場景復雜,具有多尺度、多樣性、形狀多變等特點,目前常用的圖像特征提取方法,如HOG(histogram of oriented gradient) + SVM(support vector machine)、DPM (deformable parts model)等,對光照、形態(tài)變化、遮擋等魯棒性不強[1],難以滿足復雜多變的海洋目標檢測需求。近年來,深度學習技術在目標檢測領域取得了較大成功,這為實現(xiàn)多尺度的復雜海洋目標檢測提供了一種新的解決方案。
因此,國內外學者開始研究基于深度學習模型的海洋目標檢測方法,如袁明新等[2]提出一種基于深度學習的海上艦船目標檢測方法,該方法利用卷積神經(jīng)網(wǎng)絡、區(qū)域建議網(wǎng)絡及Fast R-CNN檢測框架構建了艦船檢測系統(tǒng),相比于傳統(tǒng)機器學習目標檢測模型,該艦船檢測系統(tǒng)在檢測精度及速率上均有大幅提高。但是,該方法只嘗試了針對艦船這種特別明顯的目標識別,并未對多尺度多類型的其他海上目標(蠔排、紅樹林、海岸線、養(yǎng)殖池塘等)進行識別,也未對識別后的目標進行行為活動分析。
本研究中,依托自有的無人機高清影像及91衛(wèi)圖助手影像等基礎數(shù)據(jù),以Faster R-CNN模型為技術框架,引入視覺注意力機制,改進模型結構,使模型具有更強的復雜特征提取能力與魯棒性,實現(xiàn)對復雜海洋目標的檢測與識別,并建立智能識別模型,以期用于海上目標的智能識別、非法用海占海與破壞生態(tài)環(huán)境行為的自動判斷與預警。
為了增強卷積網(wǎng)絡的特征提取能力,越來越多的研究人員將神經(jīng)學的視覺注意力機制引入到深度學習模型中[3]。一般通過三大注意力域來研究軟注意力機制的網(wǎng)絡模型結構,即空間域、通道域和混合域[4]。通道域是相當于在每個channel的信號上增加一個權重,用來代表此channel與關鍵信息的相關度,權重越大則相關性越高[5]。SENet(squeeze-and-excitation networks)是2017年ImageNet分類比賽的冠軍模型,也是通道域的代表網(wǎng)絡模型[6]。SKNet(selective kernel networks) 出自2019CVPR的一篇論文,是SENet的加強版[7]。SENet與SKNet在注意力機制中處于同等地位,均可方便地融入Faster R-CNN模型中,對分類問題中的特征提取能力有一定提升[8]。
將原圖經(jīng)過一系列的conv、pooling操作,得到一個C×H×W(C表示channel,H表示height,W表示width)大小的feature map。SENet模型是對feature map的通道注意力機制的實現(xiàn),而SKNet模型則是針對卷積核的注意力機制的實現(xiàn)[9]。不同大小的目標會對不同大小的卷積核敏感程度不同[10]。因此,SKNet試圖針對不同的圖像找到最合適尺度的卷積核,即對不同的圖像動態(tài)生成卷積核。其本質就是在網(wǎng)絡中使用多尺寸的卷積核[11],與Inception網(wǎng)絡中的多尺度不同,SKNet是讓網(wǎng)絡自己選擇合適的尺度[12]。SKNet結構如圖1所示,其主要包括3部分操作:
圖1 SKNet模型結構
1)Split處理。對輸入的feature map使用兩個大小不一樣的卷積核進行group convolution(efficient grouped、depthwise convolutions、batch normalization、ReLU function)等操作,以提升精度。
2)Fuse處理。通過Split處理分成兩個分支以后,再將結果進行融合,然后經(jīng)過Sequeeze和Excitation模塊處理。
3)Select操作。利用兩個softmax將上一步的結果回歸出channel間的權重信息,然后將兩個權重矩陣對兩路進行加權處理,再求和得出輸出向量。因SKNetl采用不同的卷積核,可以自適應地調整自身的感受野,故比SENet具有更高的精度。
Faster R-CNN模型是Girshick R在2015年提出的一個經(jīng)典的目標檢測模型[13],它用網(wǎng)絡訓練的方法實現(xiàn)目標提取,在一個網(wǎng)絡中整合了特征抽取、proposal提取、邊框回歸、分類等操作,極大地提高了目標檢測、分類的效率和性能[14]。傳統(tǒng)的目標檢測模型是用Selective search方法提取候選框,該方法十分耗時,難以滿足高效、實時檢測的應用需求[15]。因此,F(xiàn)aster R-CNN中引入了RPN(region proposal networks,區(qū)域候選網(wǎng)絡)的概念,專門用于提取目標候選框[16]。RPN方法檢測速度快,相對耗時少,且易于整合到Fast R-CNN模型中,故而Faster R-CNN = RPN + Fast R-CNN[17]。該模型在現(xiàn)在的目標檢測系統(tǒng)中得到了廣泛應用。
Faster R-CNN模型結構如圖2所示,其主要包括6個步驟:1)通過卷積和池化操作,提取圖像特征;2)用RPN提取目標候選區(qū)域;3)經(jīng)過后處理,確定更精確的位置;4)建立候選區(qū)域與特征圖的映射關系;5)根據(jù)前面確定的精確位置,從特征圖中摳出用于分類的目標數(shù)據(jù),并池化成固定長度的數(shù)據(jù);6)利用softmax函數(shù)獲取最終分類并獲取最終的目標檢測框位置。
圖2 Faster R-CNN模型整體結構
RPN的作用是對要處理的圖片區(qū)域進行預處理,以減少后續(xù)的計算量,主要包括兩部分操作:1)RPN classification,對feature map進行區(qū)域分割,并從中分辨出前景和背景區(qū)域;2)RPN bounding box regression,提取前景區(qū)域的大概位置坐標。RPN訓練時需要將兩部分的loss加起來。
在海域監(jiān)管中通常關注的海洋目標有紅樹林、船舶、養(yǎng)殖池塘、蠔排、挖掘機、養(yǎng)殖網(wǎng)箱、圍填海項目等,這些目標具有以下幾個方面特點:1)多尺度,如塑料瓶、塑料袋等海洋垃圾類小目標,以及紅樹林、養(yǎng)殖池塘等海域利用大目標;2)多樣化,包括單純的個體目標(如漁船)、復雜的集群目標(如蠔排)、不確定的對象(如挖掘機)及復雜的對象行為分析(如挖掘機施工、采砂船采砂等);3)背景場景復雜,如背景可能是海面、灘涂、海堤、碼頭、樹林、圍填海施工現(xiàn)場等,且干擾目標多;4)時空關系復雜,如多目標間的位置關系復雜、多張連續(xù)圖像間的位置相關聯(lián)。
此外,這些目標根據(jù)其周邊環(huán)境存在一定的不確定性:1)對象的不確定性,如漁船與采砂船外觀相近,需結合其他特征來區(qū)分(如船運動軌跡上是否存在大量泥沙的痕跡);2)行為的不確定性,在海邊發(fā)現(xiàn)有挖掘機或貨車,不能確定其是否是在進行圍填海施工活動,或者漁船在海上作業(yè)是否違法需結合禁漁期的時間設定。因此,找出一種適合復雜海洋場景識別和海洋目標提取的模型對海域自動監(jiān)管的實現(xiàn)具有極大的現(xiàn)實意義。
由于本研究中是針對基于遙感影像的海域自動監(jiān)管需求,不同于對視頻流的實時識別,對計算速度要求相對較低,但對檢測率和準確率的要求則較高,因此,本研究中選定綜合性能(檢測率、準確率、計算速度)較好的Faster R-CNN模型作為基礎網(wǎng)絡模型框架。此外,F(xiàn)aster R-CNN模型具有較好的適配性,為其搭配不同的特征提取網(wǎng)絡,其目標檢測能力也不同,一個復雜強大的特征提取網(wǎng)絡能大幅提升Faster R-CNN的檢測能力和精度。
Faster R-CNN模型具有較好的檢測精度和速度,但其對目標的邊界定位不夠精確,且當原圖和特征圖較大時,不利于候選區(qū)域的尋找。本研究中在用Faster R-CNN模型進行特征提取的時候,引入SKNet注意力機制,主要基于兩點考慮:一是可以對每次不同區(qū)域提取的特征加以權重區(qū)分,即在特征提取的時候標注好每個區(qū)域的貢獻度,更好地利用待檢測目標周邊的上下文信息;二是SKNet的本質就是在網(wǎng)絡中使用多尺寸的卷積核,具有尺度自適應能力,可以更好地適應多尺度海洋目標的檢測,實現(xiàn)一個模型對多個不同尺度(尺度跨度大)目標的準確檢測,增強模型的穩(wěn)定性。
改進后的Faster R-CNN網(wǎng)絡結構主要包括3部分,即基于SKNet的特征提取網(wǎng)絡、RPN和Fast R-CNN(圖3)。本研究中使用ResNet101和SKNet相結合的方式進行圖像特征提取,在每個ResNet101卷積模塊后加上一個SKNet處理,得到表達能力更強的feature map。其主要處理流程如下:
圖3 改進后的Faster R-CNN網(wǎng)絡模型結構圖
1)對輸入數(shù)據(jù)進行卷積處理,得到初步的feature map。
2)對卷積層處理后的feature map分別用3×3、5×5、7×7的卷積核進行卷積操作,得到輸出U1、U2、U3。
3)用element-wise summation來融合3個分支的結果,即U=U1+U2+U3,其中,U為一個C×H×W大小且融合了多個感受野信息的feature map。然后通過對H、W維度方向求平均值,得到一個C×1×1大小的向量,表示的是每個channel的重要程度。
channel-wise的統(tǒng)計信息用s(s∈RC)表示,sc表示s的第c個元素,其計算公式為
對C×1×1的向量用full connection層進行一個線性變換,得到一個Z×1×1的信息z,然后分別使用3個線性變換,又從Z維恢復到C維向量,提取每個channel維度的信息。z的計算公式為
z=Ffc(s)=δ(B(Ws)) 。
(2)
其中:z∈Rd×1;δ為ReLU函數(shù);B為批量標準化;W∈Rd×C,d=max(C/r,L),r為reduction ratio,L為d的最小值;Ffc為對矩陣做全連接操作。
4)使用softmax進行歸一化處理,得到表示每個channel重要程度的對應分數(shù),然后再分別乘以對應的U1、U2、U3,得到A1、A2、A3。再將3個模塊相加進行融合得到Y,Y相對于U經(jīng)過了信息提煉,且融合了多個感受野信息。設a、b、c為Select的3個權重矩陣,A、B∈RC×d,Ai表示A的第i行,ai是a的第i個元素,Bi、bi與Ai、ai同理,且ai+bi+ci=1,最終的特征映射Y計算公式為
Yi=ai×A1+bi×A2+ci×A3,
(3)
5)將A作為輸入再進行卷積層處理,然后再進行SKNet處理,如此循環(huán)N次。
6)將最終得到的feature map作為輸入傳到RPN網(wǎng)絡中進行處理。RPN將feature map經(jīng)sliding window處理,最后得到建議的候選位置信息。
7)將候選位置信息與feature map建立映射關系,并從中獲取用于分類的目標數(shù)據(jù),最終得到分類信息與精確的位置信息。
基于遙感影像的復雜海洋目標識別是指利用深度學習技術,建立海洋目標智能識別網(wǎng)絡模型,自動過濾掉圖像中無用的或干擾的信息,實現(xiàn)各類海上目標的自動檢測與識別,為海洋管理與執(zhí)法提供一種快速、高效、低成本的技術手段。針對這些應用需求,本文引入了SKNet對Faster R-CNN網(wǎng)絡結構進行改進,改進后的網(wǎng)絡模型主要包括3部分:1)特征提取,通過卷積核和SKNet的多重組合,進行圖像特征提取,得到feature map,其中卷積網(wǎng)絡模型常用的有VGG16、ResNet、IncRes V2等,本研究中采用ResNet101網(wǎng)絡;2)RPN檢測,通過RPN網(wǎng)絡處理,得到推薦目標候選區(qū)域;3)Fast R-CNN目標檢測與分類,對候選區(qū)域對應的feature map數(shù)據(jù)進行提取、處理,獲取目標分類結果及更準確的位置信息。本研究中改進的Faster R-CNN模型比原模型增加了計算量。
改進的網(wǎng)絡模型在海洋監(jiān)測中的應用主要包括兩部分內容。
1)遙感影像人工智能海上目標及活動識別。利用高分辨率衛(wèi)星遙感影像,通過深度學習網(wǎng)絡模型及圖像處理方法,自動識別提取海上目標及用海占海行為,如養(yǎng)殖蠔排、養(yǎng)殖網(wǎng)箱、采砂船等目標,以及圍填海、排污、溢油、垃圾傾倒等行為,以確定其用海類型。
基于改進Faster R-CNN模型的遙感影像海上目標識別方法,具體步驟如下:(1)收集高分辨率衛(wèi)星、無人機遙感影像數(shù)據(jù),針對典型的海洋目標(船舶、蠔排、紅樹林、岸線)建立圖像樣本庫;(2)通過任意角度旋轉、隨意裁剪、加噪聲等方法,擴充樣本量較少的樣本庫;(3)建立樣本類型對應的數(shù)據(jù)標簽;(4)設計基于改進Faster R-CNN的網(wǎng)絡模型,利用SKNet+RPN實現(xiàn)對目標候選區(qū)域的選取,并用卷積神經(jīng)網(wǎng)絡對樣本庫進行識別訓練,得到識別模型;(5)用未參與訓練的樣本隨機對識別模型進行測試;(6)增加網(wǎng)絡層數(shù)和樣本數(shù)量,優(yōu)化識別模型。Faster R-CNN中的RPN目標候選區(qū)域選取如圖4所示。
圖4 海洋目標RPN檢測示意圖
2)識別結果與基礎數(shù)據(jù)的比對分析,用海行為的合法性判斷。將識別結果、用海行為與該區(qū)域的信息綜合體進行融合分析;對海洋災害、資源盜采及生態(tài)破壞情況進行預警,對疑似非法用海占海行為進行取證、記錄,提交給海洋管理執(zhí)法部門進行調查處理,并建立起“基礎信息全覆蓋、動態(tài)監(jiān)管全海域、業(yè)務運行全行業(yè)、決策評價全方位”的立體監(jiān)控體系。
本次試驗基于百度的PaddlePaddle深度學習框架,IDE工具采用pycharm,系統(tǒng)環(huán)境為Windows 10。利用自然資源部發(fā)布的衛(wèi)星遙感影像、大疆精靈4航飛的無人機高清影像(本單位已積累大量的無人機海域高清影像)及91衛(wèi)圖助手專業(yè)版提供的影像,進行截圖獲取海洋目標樣本,每張圖像分辨率為800×800像素,共建立訓練樣本庫8 000張,其中,各類目標(船舶、蠔排、紅樹林、岸線)2 000張,測試樣本庫4 000張。數(shù)據(jù)分布如表1所示。
表1 不同類別海洋目標數(shù)據(jù)統(tǒng)計
由于數(shù)據(jù)集的像素維度各不相同,需要進一步處理并對圖像進行變換。本研究中先對圖像進行crop修剪操作,輸出img的維度為(3,800,800);然后將img數(shù)組進行歸一化處理,得到0到1間的數(shù)值。每個類別的樣本圖片均單獨存放在一個文件夾下。
針對歸一化后的數(shù)據(jù),設計深度學習的網(wǎng)絡模型,用于樣本訓練與測試。本試驗中采取兩組對比試驗,將原模型和改進后的模型在同等條件(同樣的樣本庫、同樣的網(wǎng)絡參數(shù))下進行對比測試。根據(jù)經(jīng)驗值和調整模型設置參數(shù),本試驗中訓練輪數(shù)為100,每批取樣本數(shù)為32(根據(jù)內存大小設置,本試驗機器內存為16 GB)。在設置學習率時,由于學習率較大時收斂會較快,因此,為了能快速找到收斂區(qū)間,學習率剛開始設置為0.01,但在接近收斂區(qū)間時,大的學習率會導致校驗誤差在一定范圍內振蕩,此時再將學習率調整到0.002 5,有助于進一步縮小收斂區(qū)間并降低誤差限。
由訓練效果可知,新模型的收斂更快、整體穩(wěn)定性更好,為了對比模型的改進效果,本試驗中將用同樣的訓練和測試數(shù)據(jù)集,對改進的Faster R-CNN模型與原Faster R-CNN模型進行對比測試,兩者提取特征的卷積神經(jīng)網(wǎng)絡均用ResNet101網(wǎng)絡模型,另外還針對每類海洋目標分別進行了測試。每次測試均按需求從測試庫隨機抽取1 000張圖片,總體測試結果如表2、表3所示。
表2 對比測試結果
表3 改進后模型分類測試結果
由測試結果可知,在同樣的訓練及測試條件下,改進后的Faster R-CNN模型雖然增加了計算量,檢測耗時也有所增加,但均在可接受范圍內,識別準確率有明顯提升,整體識別準確率達到87%左右。在4類海洋目標分類測試中,船舶的特征最為明顯,因此,識別準確率最高;紅樹林的特征最為復雜,其對圖像分辨率要求較高,本研究中使用的圖像分辨率較低,所以識別準確率相對較低。總體而言,模型具備實際應用的穩(wěn)定性。但是針對海洋目標違法行為的判定,還需要結合涉海規(guī)劃數(shù)據(jù)及目標的類型、位置及周邊環(huán)境信息等進行綜合判斷。識別效果如圖5所示。
圖5 海洋目標RPN檢測示意圖
1)通過引入SKNet網(wǎng)絡模型,改進了Faster R-CNN網(wǎng)絡模型的結構,改進后的模型與原模型相比,增強了模型針對復雜場景圖像特征的提取能力,更適用于復雜海洋目標的提取與識別。
2)改進后的模型總體識別準確率有了明顯提升,具有更強的穩(wěn)定性。該模型可用于海量海洋影像中海洋目標的快速提取與預判,下一步應結合涉海規(guī)劃數(shù)據(jù)、海域利用現(xiàn)狀數(shù)據(jù)等,綜合對海洋目標及其海上活動進行自動識別、判斷與預警,可大幅提高海洋監(jiān)管能力與效率。