張 倩, 張友梅, 李曉磊, 宋 然, 張 偉
基于自監(jiān)督表征學(xué)習(xí)的海面目標(biāo)檢測(cè)方法
張 倩1, 張友梅2, 李曉磊1, 宋 然1, 張 偉1
(1. 山東大學(xué) 控制科學(xué)與工程學(xué)院, 山東 濟(jì)南, 250061; 2. 齊魯工業(yè)大學(xué)(山東省科學(xué)院) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 山東 濟(jì)南, 250353)
為提升海上無(wú)人裝備對(duì)海洋的感知與監(jiān)測(cè)能力, 海面目標(biāo)檢測(cè)準(zhǔn)確度的提升至關(guān)重要。但受復(fù)雜海況影響和傳感器限制, 采集高質(zhì)量海面目標(biāo)樣本困難, 導(dǎo)致大規(guī)模海面目標(biāo)數(shù)據(jù)集缺乏, 使得基于深度學(xué)習(xí)的海面目標(biāo)檢測(cè)發(fā)展緩慢。為此, 文中將自監(jiān)督表征學(xué)習(xí)引入海面目標(biāo)檢測(cè)領(lǐng)域, 利用動(dòng)量對(duì)比自監(jiān)督表征學(xué)習(xí)算法進(jìn)行船舶特征學(xué)習(xí), 從大規(guī)模無(wú)標(biāo)簽海面目標(biāo)數(shù)據(jù)中挖掘船舶目標(biāo)特征, 為后續(xù)進(jìn)行基于更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)的海面目標(biāo)檢測(cè)提供先驗(yàn)知識(shí)。實(shí)驗(yàn)結(jié)果表明, 借助于大規(guī)模無(wú)標(biāo)簽數(shù)據(jù)集, 文中提出的基于自監(jiān)督表征學(xué)習(xí)的海面目標(biāo)檢測(cè)方法能夠取得與有監(jiān)督預(yù)訓(xùn)練方法相當(dāng)?shù)臋z測(cè)效果, 突破了有標(biāo)注海面目標(biāo)樣本不足的限制。文中工作可為進(jìn)一步研究基于深度學(xué)習(xí)的海洋智能感知問題提供參考。
海上無(wú)人裝備; 目標(biāo)檢測(cè); 自監(jiān)督表征學(xué)習(xí); 深度學(xué)習(xí)
作為海域遼闊的海洋大國(guó), 提升海洋科技實(shí)力對(duì)建設(shè)海洋強(qiáng)國(guó)意義重大。借助于無(wú)人艇等海上無(wú)人裝備對(duì)海域進(jìn)行實(shí)時(shí)監(jiān)測(cè)可以有效加強(qiáng)海域管控, 維護(hù)我國(guó)海洋安全, 因而如何提高海上無(wú)人裝備的智能感知能力便成為海洋科技領(lǐng)域的關(guān)鍵問題之一。在此背景下, 海面目標(biāo)檢測(cè)成為海洋環(huán)境感知領(lǐng)域的熱點(diǎn)研究方向之一。
目標(biāo)檢測(cè)作為計(jì)算機(jī)視覺領(lǐng)域最具挑戰(zhàn)性的任務(wù)之一, 包括定位和分類2個(gè)子任務(wù), 即確定所需檢測(cè)圖片中所包含目標(biāo)的位置并對(duì)其進(jìn)行準(zhǔn)確分類。近年來, 隨著深度學(xué)習(xí)理論的快速發(fā)展, 基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法成為主流, 在通用場(chǎng)景下取得了較好的檢測(cè)效果。但深度學(xué)習(xí)模型往往依賴于大規(guī)模數(shù)據(jù)集進(jìn)行訓(xùn)練, 應(yīng)用較為廣泛的MS COCO(microsoft common objects in cont- ext)[1]、PASCAL(pattern analysis, statical modeling and computational learning)、VOC (visual object classes)[2]等標(biāo)準(zhǔn)數(shù)據(jù)集中海面目標(biāo)較少, 因而將在這些數(shù)據(jù)集上訓(xùn)練的目標(biāo)檢測(cè)模型直接應(yīng)用于海面目標(biāo)檢測(cè)任務(wù)效果不佳。同時(shí), 由于長(zhǎng)期以來海面目標(biāo)專用數(shù)據(jù)集較少, 且大多沒有模型訓(xùn)練所需的邊界框標(biāo)注, 基于深度學(xué)習(xí)的海面目標(biāo)檢測(cè)相關(guān)研究相對(duì)較少。
由于海洋環(huán)境不同于陸地和天空, 其環(huán)境更加復(fù)雜多變, 浪、涌、渦和流等海面波動(dòng)均會(huì)對(duì)海面目標(biāo)檢測(cè)造成影響, 相比于通用場(chǎng)景下的目標(biāo)檢測(cè)任務(wù), 海面目標(biāo)檢測(cè)難度更大, 傳統(tǒng)海面目標(biāo)檢測(cè)方法具有諸多局限性。為在海面目標(biāo)檢測(cè)過程中充分利用深度學(xué)習(xí)模型對(duì)視覺信息的感知能力, 并針對(duì)現(xiàn)有海面目標(biāo)檢測(cè)數(shù)據(jù)集樣本量較小、難以滿足模型有監(jiān)督預(yù)訓(xùn)練需求的問題, 文中首次將自監(jiān)督表征學(xué)習(xí)引入海面目標(biāo)檢測(cè)領(lǐng)域,提出了一種基于自監(jiān)督表征學(xué)習(xí)的海面目標(biāo)檢測(cè)模型。
基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型通常分為單階段檢測(cè)模型和兩階段檢測(cè)模型。前者根據(jù)輸入的圖像特征直接預(yù)測(cè)物體的邊界框坐標(biāo)和類別, 代表算法包括YOLO (you only look once)[3]系列、單階段多框檢測(cè)器(signle shot multibox detector, SSD)[4]等, 此類算法由于只進(jìn)行一次邊界框回歸, 因而檢測(cè)速度更快, 但檢測(cè)精度有待提升。而兩階段算法將目標(biāo)檢測(cè)分為兩步進(jìn)行:
1) 由候選區(qū)域生成網(wǎng)絡(luò)(region proposal net- work, RPN)生成一系列候選框, 該過程基于預(yù)設(shè)的錨點(diǎn)完成了第1次邊界框回歸;
2) 對(duì)候選框坐標(biāo)進(jìn)行調(diào)整, 即進(jìn)行第2次邊界框回歸, 同時(shí)識(shí)別框內(nèi)物體, 檢測(cè)精度更高。雖然目前RetinaNet[5]等單階段算法在檢測(cè)精度方面已取得很大提升, 但基于兩階段式框架的更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster regions with convolutional neural network features, Faster R-CNN)[6]、包含掩膜分支的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(mask regions with convolutional neural network features, Mask R-CNN)[7]等依然是目標(biāo)檢測(cè)領(lǐng)域表現(xiàn)優(yōu)異的主流方法。
海面目標(biāo)檢測(cè)任務(wù)是指定位海洋場(chǎng)景圖片中的目標(biāo)(主要是船舶), 并對(duì)其類別(如輪船、帆船及漁船等)進(jìn)行細(xì)分。傳統(tǒng)的海面目標(biāo)檢測(cè)通常包括海天線檢測(cè)、背景建模和背景去除3個(gè)步驟, 所得的前景區(qū)域被認(rèn)為是包含目標(biāo)的區(qū)域。雖然海天線檢測(cè)對(duì)提高海面目標(biāo)檢測(cè)效果有所幫助, 但其對(duì)惡劣天氣、復(fù)雜海況等適應(yīng)性較差。
近年來, 基于深度學(xué)習(xí)的海面目標(biāo)檢測(cè)研究不斷出現(xiàn)。Shin等[8]將YOLO v2模型分別在通用場(chǎng)景數(shù)據(jù)集和海洋場(chǎng)景數(shù)據(jù)集上訓(xùn)練, 證明利用海洋數(shù)據(jù)進(jìn)行模型訓(xùn)練是非常有必要的。Moosbauer等[9]發(fā)現(xiàn)使用預(yù)訓(xùn)練的Mask R-CNN參數(shù)對(duì)模型進(jìn)行初始化檢測(cè)效果更佳。但基于深度學(xué)習(xí)的海面目標(biāo)檢測(cè)研究尚處于起步階段, 文中針對(duì)大規(guī)模海面目標(biāo)數(shù)據(jù)集缺乏所導(dǎo)致的深度學(xué)習(xí)算法在海面目標(biāo)檢測(cè)領(lǐng)域應(yīng)用受限的問題, 以充分利用無(wú)標(biāo)簽海洋數(shù)據(jù)為出發(fā)點(diǎn), 將自監(jiān)督表征學(xué)習(xí)引入海面目標(biāo)檢測(cè)領(lǐng)域, 可實(shí)現(xiàn)在無(wú)需大規(guī)模有標(biāo)注海面目標(biāo)數(shù)據(jù)的情況下取得較好的檢測(cè)效果。
自監(jiān)督學(xué)習(xí)作為無(wú)監(jiān)督學(xué)習(xí)范式的一種, 通常從數(shù)據(jù)本身獲取監(jiān)督信息, 以此作為人工標(biāo)注的替代, 模型借助于所獲取的監(jiān)督信息來學(xué)習(xí)數(shù)據(jù)的底層結(jié)構(gòu)特征。目前自監(jiān)督學(xué)習(xí)已廣泛應(yīng)用于自然語(yǔ)言處理領(lǐng)域[10-11], 而對(duì)于目標(biāo)檢測(cè)[3-6]、目標(biāo)跟蹤[12-14]等視覺感知任務(wù), 有監(jiān)督訓(xùn)練仍是主流方法。但對(duì)缺乏大規(guī)模數(shù)據(jù)標(biāo)注的海洋感知任務(wù)而言, 模型通過采用自監(jiān)督的方式初步學(xué)習(xí)如何進(jìn)行更具普適性的特征提取, 然后在有限的標(biāo)注數(shù)據(jù)上結(jié)合任務(wù)需求對(duì)模型進(jìn)行微調(diào)也不失為一種合適的選擇?,F(xiàn)有的自監(jiān)督學(xué)習(xí)主要包括以自編碼器及其變體[15-17]為代表的生成式方法和以動(dòng)量對(duì)比(momentum contrast, MoCo)[18]、簡(jiǎn)易式對(duì)比學(xué)習(xí)(simple framework for contrastive learning of visual representation, SimCLR)[19]為代表的對(duì)比式方法, 相比于前者, 對(duì)比式方法側(cè)重于從原始數(shù)據(jù)中獲取抽象化的語(yǔ)義信息, 因而更適合于視覺感知與理解任務(wù)。
受復(fù)雜海況影響和傳感器限制, 采集大規(guī)模、高質(zhì)量海洋環(huán)境及目標(biāo)數(shù)據(jù)樣本比較困難, 導(dǎo)致可用于海洋感知研究的開源數(shù)據(jù)集較少, 且樣本量遠(yuǎn)不及ImageNet[20]、MS COCO[1]等通用數(shù)據(jù)集。
Gundogdu等[21]于2017年公開了大規(guī)模海上船舶數(shù)據(jù)集(maritime vessels, MARVEL), 該數(shù)據(jù)集圖片均來自Shipspotting網(wǎng)站, 根據(jù)任務(wù)需求可分別下載14萬(wàn)/40萬(wàn)圖片用于相關(guān)研究, 其中的樣本如圖1所示。
圖1 MARVEL數(shù)據(jù)集樣本示例
MARVEL數(shù)據(jù)集是目前已知樣本量最大的海洋船舶數(shù)據(jù)集, 但由于缺乏目標(biāo)檢測(cè)所需的邊界框標(biāo)注, 無(wú)法直接將其用于海面目標(biāo)檢測(cè)任務(wù)。文中利用該數(shù)據(jù)集對(duì)自監(jiān)督海洋船舶特征學(xué)習(xí)進(jìn)行研究。
2017年P(guān)rasad等[22]開源的新加坡海上數(shù)據(jù)集(Singpore maritime dataset, SMD), 共包括81段視頻, 其中63段有標(biāo)記, 共包含10類目標(biāo)。該數(shù)據(jù)集包含可見光數(shù)據(jù)(visual, VIS)和紅外數(shù)據(jù)(near infrared, NIR)兩部分, 文中使用該數(shù)據(jù)集中的VIS部分(見圖2)進(jìn)行海面目標(biāo)檢測(cè)研究。
圖2 SMD數(shù)據(jù)集樣本示例
雖然SMD數(shù)據(jù)集樣本量不大, 但63段有標(biāo)記視頻中的目標(biāo)均有邊界框標(biāo)注, 可直接用于海面目標(biāo)檢測(cè)任務(wù)。文中將該數(shù)據(jù)集中的視頻數(shù)據(jù)轉(zhuǎn)換為圖片數(shù)據(jù)(每2幀取1幀), 然后進(jìn)行基于圖像的海面目標(biāo)檢測(cè)研究。
針對(duì)現(xiàn)有海面目標(biāo)數(shù)據(jù)集樣本量不足的問題, 文中嘗試?yán)脽o(wú)標(biāo)注的大規(guī)模海面目標(biāo)數(shù)據(jù)集, 通過引入自監(jiān)督表征學(xué)習(xí)相關(guān)方法, 挖掘海面目標(biāo)樣本的底層特征, 為海面目標(biāo)檢測(cè)任務(wù)提供先驗(yàn)知識(shí), 提高基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型在海面目標(biāo)檢測(cè)任務(wù)上的表現(xiàn)。換言之, 即將海面目標(biāo)檢測(cè)模型訓(xùn)練分為自監(jiān)督船舶特征學(xué)習(xí)和有監(jiān)督海面目標(biāo)檢測(cè)2個(gè)階段進(jìn)行, 以降低海洋數(shù)據(jù)樣本不足對(duì)檢測(cè)效果的影響。
海面目標(biāo)以各類船、艇為主, 其間相似性較高, 在無(wú)類別標(biāo)簽的情況下學(xué)習(xí)樣本特征難度較大, 而對(duì)比式學(xué)習(xí)方法能夠更好地挖掘相似樣本間的差異, 從而學(xué)習(xí)到更具樣本區(qū)分度的特征, 更有利于海面目標(biāo)檢測(cè)、分類等下游任務(wù)。因此在自監(jiān)督船舶特征學(xué)習(xí)階段, 文中采用He等[18]提出的MoCo方法在無(wú)標(biāo)注海面目標(biāo)數(shù)據(jù)上訓(xùn)練特征提取模型(見圖3)。
圖3 MoCo自監(jiān)督表征學(xué)習(xí)方式
MoCo將對(duì)比學(xué)習(xí)看作字典查找過程, 并提供了一種構(gòu)建大且連續(xù)的動(dòng)態(tài)字典的方式, 其核心思想為: 通過將字典作為一個(gè)樣本隊(duì)列進(jìn)行維護(hù)來保證字典足夠大; 同時(shí)通過采用動(dòng)量更新的方法更新鍵編碼器來避免其變化過快, 以提高隊(duì)列中鍵的表征一致性。
所謂動(dòng)量更新即在訓(xùn)練過程中不通過反向傳播更新鍵編碼器參數(shù), 而是采用如下更新方式
為了驗(yàn)證基于MoCo的船舶特征學(xué)習(xí)的有效性, 文中將學(xué)得的特征直接用于船舶分類任務(wù), 在MARVEL數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)研究。
在海面目標(biāo)檢測(cè)階段, 采用在通用場(chǎng)景的目標(biāo)檢測(cè)任務(wù)上表現(xiàn)優(yōu)異的Faster R-CNN[6]模型, 如圖4所示, 該模型由用于特征提取的backbone (基礎(chǔ)網(wǎng)絡(luò))、用于生成感興趣區(qū)域(region of interest, ROI)的RPN、生成最終檢測(cè)結(jié)果的ROI -Head三部分組成, 其中ROI-Head包括分類和定位2個(gè)分支。
圖4 基于Faster R-CNN的海面目標(biāo)檢測(cè)框架
backbone由深度卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成, 將輸入圖像映射為深層特征圖, 該部分通常在Image- Net[17]數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練, 但由于其中的海洋樣本較少, 直接用于海面目標(biāo)檢測(cè)效果不佳。文中模型中的backbone部分采用第1階段自監(jiān)督船舶特征學(xué)習(xí)訓(xùn)練所得的特征提取網(wǎng)絡(luò)參數(shù)進(jìn)行初始化, 為目標(biāo)檢測(cè)模型盡可能多地提供海洋環(huán)境及船舶相關(guān)的先驗(yàn)知識(shí), 然后在訓(xùn)練模型其他部分的同時(shí)對(duì)backbone進(jìn)行參數(shù)微調(diào)。
RPN網(wǎng)絡(luò)作用于特征圖之上, 以預(yù)設(shè)的錨點(diǎn)為基準(zhǔn), 輸出預(yù)測(cè)框相對(duì)于錨點(diǎn)的偏移量, 從而生成一系列候選框。通過整合特征圖與候選框信息, 即可獲取每個(gè)感興趣區(qū)域的特征, 文中采用ROI-Align(ROI對(duì)齊)方法代替ROI-Pooling(ROI池化)方法來實(shí)現(xiàn)該過程。此外, 在模型訓(xùn)練過程中, 對(duì)分類任務(wù)和定位任務(wù)分別采用交叉熵?fù)p失函數(shù)和Smooth L1損失函數(shù)。
此外, 考慮到SMD數(shù)據(jù)集中各類目標(biāo)樣本分布嚴(yán)重不平衡, 為更好地驗(yàn)證文中所提出的自監(jiān)督預(yù)訓(xùn)練方法的有效性, 進(jìn)行了不區(qū)分類別的海面目標(biāo)檢測(cè), 即將圖片中的所有目標(biāo)均歸類為“目標(biāo)”。
為驗(yàn)證提出的基于自監(jiān)督表征學(xué)習(xí)的海面目標(biāo)檢測(cè)模型(MoCo+Faster R-CNN)的有效性, 文中借助于現(xiàn)有的海洋數(shù)據(jù)集MARVEL和SMD進(jìn)行了大量實(shí)驗(yàn)。
在自監(jiān)督船舶特征學(xué)習(xí)階段, 模型中的編碼器均采用ResNet-50網(wǎng)絡(luò), 利用MARVEL數(shù)據(jù)集中的圖片數(shù)據(jù)(不使用其對(duì)應(yīng)的標(biāo)簽)進(jìn)行模型訓(xùn)練。為明確樣本量對(duì)自監(jiān)督船舶特征學(xué)習(xí)效果的影響, 分別使用14萬(wàn)樣本和40萬(wàn)樣本進(jìn)行實(shí)驗(yàn)。為量化自監(jiān)督船舶特征學(xué)習(xí)效果, 在MARVEL數(shù)據(jù)集用于分類任務(wù)的14萬(wàn)樣本上進(jìn)行了船舶分類實(shí)驗(yàn), 將學(xué)習(xí)到的特征直接用于船舶分類, 即在固定特征提取網(wǎng)絡(luò)的情況下以有監(jiān)督的方式訓(xùn)練了一個(gè)線性分類層。
在海面目標(biāo)檢測(cè)階段, 模型的backbone部分使用上一階段訓(xùn)練的ResNet-50進(jìn)行模型初始化, 即采用ResNet-50+Faster R-CNN框架。在SMD數(shù)據(jù)集上進(jìn)行目標(biāo)檢測(cè)模型的訓(xùn)練與測(cè)試, 采用和Moosbauer等[9]相同的數(shù)據(jù)集劃分, 將數(shù)據(jù)集train和val部分視為訓(xùn)練集, 而后在test數(shù)據(jù)集上進(jìn)行模型測(cè)試。在測(cè)試階段選擇平均準(zhǔn)確率(average precision, AP)、平均召回率(average recall, AR)和f-分?jǐn)?shù)(f-score)作為評(píng)分標(biāo)準(zhǔn), 分別在交并比(intersection over union, IOU)閾值為0.3和0.5的條件下進(jìn)行測(cè)試。
文中所有實(shí)驗(yàn)均在Ubuntu 16.04.10系統(tǒng)中進(jìn)行, 其中船舶特征學(xué)習(xí)和海面目標(biāo)檢測(cè)部分均使用8塊Nvidia Tesla V100顯卡, 16個(gè)CPU; 船舶分類實(shí)驗(yàn)部分使用4塊Nvidia GTX 1080Ti顯卡, 8個(gè)CPU。雖然在模型訓(xùn)練階段所需的計(jì)算資源較多, 但在模型測(cè)試階段, 在單塊Nvidia GTX 1080Ti 顯卡上僅需約10 ms即可完成單張圖片船舶分類, 200 ms內(nèi)可完成單張圖片海面目標(biāo)檢測(cè), 所需計(jì)算資源較少且耗時(shí)較短。
文中采用MoCo自監(jiān)督學(xué)習(xí)算法在MARVEL數(shù)據(jù)集上進(jìn)行船舶特征學(xué)習(xí), 并在此基礎(chǔ)上訓(xùn)練線性分類器完成了對(duì)26類船舶的分類任務(wù)。表1為MARVEL數(shù)據(jù)集上船舶分類準(zhǔn)確率(acc), 可以看出:
1) Res50_MoCo_14代表利用MARVEL數(shù)據(jù)集中14萬(wàn)樣本進(jìn)行自監(jiān)督特征學(xué)習(xí), 并將學(xué)到的特征用于船舶分類;
2) Res50_MoCo_40代表利用MARVEL數(shù)據(jù)集中40萬(wàn)樣本進(jìn)行自監(jiān)督特征學(xué)習(xí), 并將學(xué)到的特征用于船舶分類;
3) Res50_Sup代表利用MARVEL數(shù)據(jù)集中14萬(wàn)樣本以有監(jiān)督的方式訓(xùn)練船舶分類模型。
實(shí)驗(yàn)過程中自監(jiān)督船舶特征學(xué)習(xí)和有監(jiān)督船舶分類模型均訓(xùn)練50個(gè)epoch, 前者額外訓(xùn)練一個(gè)線性分類層。
表1中第2列數(shù)據(jù)表明, 利用自監(jiān)督特征學(xué)習(xí)學(xué)到的特征進(jìn)行船舶分類, 可以達(dá)到60%左右的分類準(zhǔn)確率, 雖然相比于有監(jiān)督船舶分類還有一定差距, 但足以說明借助于基于MoCo的自監(jiān)督學(xué)習(xí)算法可以實(shí)現(xiàn)對(duì)船舶目標(biāo)的有效表征。表2是采用Res50_MoCo_40時(shí)MARVEL數(shù)據(jù)集船舶分類具體實(shí)驗(yàn)結(jié)果。
表1 MARVEL數(shù)據(jù)集船舶分類結(jié)果
表2 MARVEL數(shù)據(jù)集船舶分類準(zhǔn)確率
由表1數(shù)據(jù)可以看出, 在模型訓(xùn)練階段, 相比于有監(jiān)督方法, 在基于MoCo的船舶特征學(xué)習(xí)基礎(chǔ)上進(jìn)行船舶分類需要更長(zhǎng)的訓(xùn)練時(shí)間, 但遠(yuǎn)低于人工標(biāo)注大規(guī)模數(shù)據(jù)集所需的時(shí)間消耗; 而在測(cè)試階段, 由于二者采用相同的模型結(jié)構(gòu), 因而時(shí)間消耗基本一致, 因此在無(wú)標(biāo)簽大規(guī)模數(shù)據(jù)集上進(jìn)行船舶特征學(xué)習(xí)來服務(wù)于船舶分類、海面目標(biāo)檢測(cè)等下游任務(wù)是可行的。
文中利用Faster R-CNN框架, 在SMD數(shù)據(jù)集上進(jìn)行了不區(qū)分類別的目標(biāo)檢測(cè), backbone均采用ResNet-50, 但對(duì)其采取不同的預(yù)訓(xùn)練方式。
1) Res50_Sup_14_FRCNN: 利用MARVEL數(shù)據(jù)集中14萬(wàn)樣本及其標(biāo)簽對(duì)ResNet-50進(jìn)行有監(jiān)督預(yù)訓(xùn)練。
2) Res50_MoCo_14_FRCNN: 采用MoCo特征學(xué)習(xí)方法, 利用MARVEL數(shù)據(jù)集中14萬(wàn)樣本對(duì)ResNet-50進(jìn)行自監(jiān)督預(yù)訓(xùn)練。
3) Res50_MoCo_40_FRCNN: 采用MoCo特征學(xué)習(xí)方法, 利用MARVEL數(shù)據(jù)集中40萬(wàn)樣本對(duì)ResNet-50進(jìn)行自監(jiān)督預(yù)訓(xùn)練。
表3和表4分別為IOU閾值設(shè)置為0.3和0.5時(shí)的實(shí)驗(yàn)結(jié)果, 其中Res101_MRCNN和Res101_ FRCNN為Moosbauer等[9]采用有監(jiān)督backbone預(yù)訓(xùn)練方法進(jìn)行海面目標(biāo)檢測(cè)的實(shí)驗(yàn)結(jié)果, DCT (discrete cosine transform)-based GMM(Gaussian mixture model)為Zhang等[23]采用傳統(tǒng)的海天線檢測(cè)-背景建模-背景去除方法的實(shí)驗(yàn)結(jié)果。
表3和表4中的Res50_Sup_14_FRCNN和Res50_MoCo_14_FRCNN兩行數(shù)據(jù)可以說明, 無(wú)論IOU閾值的取值如何, MoCo+Faster R-CNN方法在海面目標(biāo)檢測(cè)任務(wù)中的表現(xiàn)更好。具體來說, 在訓(xùn)練參數(shù)基本一致的情況下, 相比于有監(jiān)督backbone預(yù)訓(xùn)練的方法, 文中將自監(jiān)督表征學(xué)習(xí)用于backbone網(wǎng)絡(luò)預(yù)訓(xùn)練, 在代表檢測(cè)準(zhǔn)確率的AP評(píng)分和代表檢測(cè)整體效果的f-score評(píng)分上均超過了Res50_Sup_14_FRCNN。
表3 SMD數(shù)據(jù)集目標(biāo)檢測(cè)結(jié)果(IOU_thrs = 0.3)
表4 SMD數(shù)據(jù)集目標(biāo)檢測(cè)結(jié)果(IOU_thrs = 0.5)
表3和表4中的Res50_MoCo_14_FRCNN與Res50_MoCo_40_FRCNN兩行數(shù)據(jù)表明, 隨著用于自監(jiān)督船舶特征學(xué)習(xí)樣本量的增加, 海面目標(biāo)檢測(cè)效果全面提升, 尤其是在IOU閾值設(shè)為0.3時(shí), 檢測(cè)效果超過了使用有監(jiān)督預(yù)訓(xùn)練ResNet- 101網(wǎng)絡(luò)作為backbone并引入特征金字塔(fe- ature pyramid network, FPN)[24]的Res101_ FRCNN方法(f-score分別為0.865和0.854)。由此可以說明, 當(dāng)無(wú)標(biāo)簽海洋數(shù)據(jù)樣本的樣本量足夠大時(shí), MoCo+Faster R-CNN海面目標(biāo)檢測(cè)方法可以取得與采用有監(jiān)督backbone預(yù)訓(xùn)練的方法相當(dāng)或更好的檢測(cè)效果。
此外, 表4的實(shí)驗(yàn)數(shù)據(jù)表明MoCo+FRCNN海面目標(biāo)檢測(cè)方法的檢測(cè)效果優(yōu)于傳統(tǒng)的DCT- based GMM[20]方法, 也進(jìn)一步證明了開展基于深度學(xué)習(xí)的海面目標(biāo)檢測(cè)研究的必要性。
文中將自監(jiān)督表征學(xué)習(xí)引入海面目標(biāo)檢測(cè)領(lǐng)域, 采用MoCo方法在大規(guī)模無(wú)標(biāo)簽海洋數(shù)據(jù)上進(jìn)行海面目標(biāo)特征學(xué)習(xí), 而后將學(xué)習(xí)到的特征用于海面目標(biāo)檢測(cè)任務(wù)。實(shí)驗(yàn)結(jié)果表明, 該方法可以取得較好的海面目標(biāo)檢測(cè)效果, 突破了大規(guī)模有標(biāo)注海面目標(biāo)數(shù)據(jù)集缺乏對(duì)開展基于深度學(xué)習(xí)的海洋智能感知研究的限制。但由于目前可用的海面目標(biāo)檢測(cè)數(shù)據(jù)集樣本極度不平衡, 文中研究未能實(shí)現(xiàn)對(duì)海面目標(biāo)的多分類, 如何克服樣本不平衡問題, 實(shí)現(xiàn)多分類海面目標(biāo)檢測(cè)將是下一步的工作重點(diǎn)。
[1] Lin T Y, Maire M, Belongie S, et al. Microsoft Coco: Common Objects in Context[C]//European Conference on Computer Vision. Zurich: ETH, 2014: 740-755.
[2] Everingham M, Van G L, Williams C K I, et al. The Pascal Visual Object Classes(VOC) Challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[3] Redmon J, Divvala S, Girshick R, et al. You Only Look Once: Unified, Real-time Object Detection[C]//Procee- dings of The IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 779-788.
[4] Liu W, Anguelov D, Erhan D, et al. Ssd: Single Shot Multibox Detector[C]//European Conference on Computer Vision. Amsterdam: Springer, Cham, 2016: 21-37.
[5] Lin T Y, Goyal P, Girshick R, et al. Focal Loss for Dense Object Detection[C]//Proceedings of The IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2980-2988.
[6] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Net- works[C]//Advances in Neural Information Processing Sy- stems. Montreal. Montreal: NIPS, 2015: 91-99.
[7] He K, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//Proc- eedings of The IEEE International Conference on Computer Vision. Venice: IEEE, 2017: 2961-2969.
[8] Shin H C, Lee K I, Lee C E. Data Augmentation Method of Object Detection for Deep Learning in Maritime Image[C]//2020 IEEE International Conference on Big Data and Smart Computing(BigComp). Busan: IEEE, 2020: 463-466.
[9] Moosbauer S, Konig D, Jakel J, et al. A Benchmark for Deep Learning Based Object Detection in Maritime En- vironments[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. Long Beach: IEEE, 2019: 916-925.
[10] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of Deep Bidirectional Transformers for Language Under- standing[EB/OL]. ArXiv, (2019-05-25)[2020-09-07]. https: //arxiv.org/abs/1810.04805?context=cs.
[11] Wu J, Wang X, Wang W Y. Self-supervised Dialogue Le- arning[EB/OL]. ArXiv, (2019-06-30)[2020-09-07]. https: //arxiv.org/abs/1907.00448.
[12] Song K, Zhang W, Lu W, et al. Visual Object Tracking Via Guessing and Matching[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 30(11): 4182- 4191.
[13] Li P, Chen B, Ouyang W, et al. Gradnet: Gradient-guided Network for Visual Object Tracking[C]//Proceedings of the IEEE International Conference on Computer Vision. Seoul: IEEE, 2019: 6162-6171.
[14] Lan X, Zhang W, Zhang S, et al. Robust Multi-modality Anchor Graph-based Label Prediction for RGB-infrared Tracking[J]. IEEE Transactions on Industrial Informatics, 2019. DOI: 10.1109/TII.2019.2947293.
[15] Kingma D P, Welling M. Auto-encoding Variational Ba- yes[EB/OL]. ArXiv, (2014-05-01)[2020-09-07]. https:// arxiv.org/abs/1312.6114.
[16] Burda Y, Grosse R, Salakhutdinov R. Importance Weigh- ted Autoencoders[EB/OL]. ArXiv, (2015-11-07)[2020-09- 07].https://www.arxiv-vanity.com/papers/1509.00519/.
[17] Maal?e L, Fraccaro M, Liévin V, et al. Biva: A Very Deep Hierarchy of Latent Variables for Generative Modeling [C]//Advances in Neural Information Processing Systems. Vancouver: NIPS, 2019: 6551-6562.
[18] He K, Fan H, Wu Y, et al. Momentum Contrast for UnsuperVised Visual Representation Learning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Virtual: IEEE, 2020: 9729-9738.
[19] Chen T, Kornblith S, Norouzi M, et al. A Simple Fra- mework for Contrastive Learning of Visual Representations[EB/OL]. ArXiv, (2020-07-01)[2020-09-07]. https:// arxiv.org/abs/2002.05709
[20] Deng J, Dong W, Socher R, et al. Imagenet: A Large-scale Hierarchical Image Database[C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami: IEEE, 2009: 248-255.
[21] Gundogdu E, Solmaz B, Yücesoy V, et al. MARVEL: A Large-scale Image Dataset for Maritime Vessels[C]//Asian Conference on Computer Vision. Taipei: AFCV, 2016: 165-180.
[22] Prasad D K, Rajan D, Rachmawati L, et al. Video Processing from Electro-optical Sensors for Object Detection and Tracking in a Maritime Environment: a Survey[J]. IEEE Transactions on Intelligent Transportation Systems, 2017, 18(8): 1993-2016.
[23] Zhang Y, Li Q Z, Zang F N. Ship Detection for Visual Maritime Surveillance from Non-stationary Platforms[J]. Ocean Engineering, 2017, 141: 53-63.
[24] Lin T Y, Dollár P, Girshick R, et al. Feature Pyramid Networks for Object Detection[C]//Proceedings of The IEEE Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 2117-2125.
Maritime Object Detection Method Based on Self-Supervised Representation Learning
ZHANG Qian1, ZHANG You-mei2, LI Xiao-lei1, SONG Ran1, ZHANG Wei1
(1. School of Control Science and Engineering, Shandong University, Jinan 250061, China; 2. School of Mathematics and Statistics, Qilu University of Technology (Shandong Academy of Sciences), Jinan 250353, China)
To improve the perception and monitoring ability of marine unmanned equipment, boosting the performance of maritime object detection is critical. However, complex sea environments and limited sensors make it difficult to collect high-quality samples for a large-scale maritime dataset. This results in a dearth of large-scale sea surface target datasets, which in turn hampers the development of maritime object detection based on deep earning. To address this problem, this study introduces self-supervised representation learning into the field of maritime object detection. Specifically, a momentum-contrast based algorithm is proposed to conduct representation learning of ships, where the characteristics of ship targets are learned from large-scale unlabeled maritime data. This provides prior knowledge for subsequent maritime object detection based on Faster R-CNN. Experimental results show that with the aid of model pre-training on a large-scale unlabeled dataset in a self-supervised manner, the proposed maritime object detection method through self-supervised representation learning has a performance comparable with those that employ supervised model pre-training. The proposed method can thus overcome the limitations caused by an inadequate number of labeled maritime samples.
marine unmanned equipment; target detection; self-supervised representation learning; deep learning
張倩, 張友梅, 李曉磊, 等. 基于自監(jiān)督表征學(xué)習(xí)的海面目標(biāo)檢測(cè)方法[J]. 水下無(wú)人系統(tǒng)學(xué)報(bào), 2020, 28(6): 597-603.
TJ630; TP391.4; TP181
A
2096-3920(2020)06-0597-07
10.11993/j.issn.2096-3920.2020.06.002
2020-09-07;
2020-11-12.
國(guó)家自然科學(xué)基金項(xiàng)目(61991411).
張 倩(1997-), 女, 在讀碩士, 主要研究方向?yàn)槟J阶R(shí)別、計(jì)算機(jī)視覺.
(責(zé)任編輯: 楊力軍)