董金耐,楊 淼,謝卓冉,蔡立鵬
(江蘇海洋大學(xué)電子工程學(xué)院,江蘇 連云港 222005)
近年來,水下目標(biāo)檢測技術(shù)的應(yīng)用越來越廣泛,例如在水下生態(tài)監(jiān)測、水下管道檢修、沉船捕撈等任務(wù)中。對(duì)于水下目標(biāo)檢測的方式主要有高清視像、側(cè)掃聲吶、合成孔徑、多波束、前視聲吶和磁梯度儀等方法[1]。基于光學(xué)圖像的檢測方式分辨率較高、靈活性好,在近距離的水下目標(biāo)檢測任務(wù)中具有顯著優(yōu)勢。與自然環(huán)境下的目標(biāo)檢測不同,水下圖像的成像與水體對(duì)不同波長光的吸收和衰減、目標(biāo)距離和光源的光譜分布相關(guān)[2]。由于藍(lán)色波長較短且傳播距離長,因此,水下圖像呈現(xiàn)藍(lán)綠色。人工光源的使用可以增加水下可視距離,但同時(shí)也會(huì)導(dǎo)致圖像上亮斑存在,而且使用人工光源會(huì)導(dǎo)致水下懸浮物散射更加嚴(yán)重。因此,水下圖像存在以下特點(diǎn):低對(duì)比度、非均勻光照、模糊、亮斑和各種復(fù)雜因素導(dǎo)致的高噪聲[3]。且由于水下環(huán)境復(fù)雜,水下圖像難以獲取,水下數(shù)據(jù)集相對(duì)自然環(huán)境下的數(shù)據(jù)集少。水下生物目標(biāo)小且分布密集,存在重疊遮擋現(xiàn)象?,F(xiàn)有的目標(biāo)檢測算法在復(fù)雜的水下環(huán)境下的精確度有限[4],因此,水下目標(biāo)檢測任務(wù)面臨諸多挑戰(zhàn),如何在復(fù)雜的水下環(huán)境中,精準(zhǔn)快速地檢測到目標(biāo)是急需解決的問題。
近年來,國內(nèi)外研究人員對(duì)基于光學(xué)圖像的水下目標(biāo)探測關(guān)鍵技術(shù)進(jìn)行了大量研究,水下目標(biāo)檢測技術(shù)取得了快速發(fā)展,一些研究人員對(duì)檢測中的關(guān)鍵技術(shù)進(jìn)行了總結(jié)。YANG M 等[5]對(duì)一系列水下的圖像增強(qiáng)及復(fù)原的算法進(jìn)行了系統(tǒng)歸納,對(duì)水下場景的代表性方法進(jìn)行了詳細(xì)的客觀評(píng)價(jià)和分析,HAN M 等[6]總結(jié)了水下圖像智能去霧和色彩還原算法,LIU R 等[7]對(duì)一系列水下圖像增強(qiáng)算法綜述。林森等[8]總結(jié)了水下光學(xué)目標(biāo)探測中的關(guān)鍵技術(shù),但沒有對(duì)數(shù)據(jù)集進(jìn)行分析,目前仍缺少針對(duì)水下目標(biāo)檢測數(shù)據(jù)集分析,以及針對(duì)水下目標(biāo)檢測難點(diǎn)的算法總結(jié)。本文針對(duì)水下目標(biāo)檢測存在的難點(diǎn)問題對(duì)水下目標(biāo)檢測算法進(jìn)行了總結(jié);總結(jié)了現(xiàn)有的水下圖像目標(biāo)檢測數(shù)據(jù)集,并對(duì)具有代表性的數(shù)據(jù)集進(jìn)行分析;總結(jié)了近五年來國內(nèi)外研究人員的在水下目標(biāo)檢測上的研究進(jìn)展;應(yīng)用Faster RCNN(Region Convolutional Neural Networks) 和YOLOV3(You Only Look Once)為基本型,結(jié)合數(shù)據(jù)增強(qiáng)、圖像增強(qiáng)、高分辨率網(wǎng)絡(luò)等可以提升目標(biāo)檢測性能的方法,比較了每種增強(qiáng)方法相較于基本型性能的提升;討論了水下目標(biāo)檢測技術(shù)的進(jìn)一步的發(fā)展方向。
對(duì)于目標(biāo)檢測算法尤其是基于深度學(xué)習(xí)的目標(biāo)檢測算法,需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練,但由于水下環(huán)境復(fù)雜,水下圖像難以獲取,所以目前沒有較為完整的公開的大型水下圖像目標(biāo)檢測數(shù)據(jù)集,現(xiàn)有的水下目標(biāo)檢測數(shù)據(jù)集存在目標(biāo)單一、類別分組較少等一系列問題,本節(jié)總結(jié)了學(xué)者們在水下光學(xué)目標(biāo)檢測算法研究中公開采用的數(shù)據(jù)集,共包括10個(gè)數(shù)據(jù)集,對(duì)數(shù)據(jù)集的總結(jié)如表1 所示,并給出了下載鏈接。對(duì)其中具有代表性的3 個(gè)水下目標(biāo)檢測數(shù)據(jù)集進(jìn)行詳細(xì)分析。
表1 水下目標(biāo)檢測數(shù)據(jù)集總結(jié)表
對(duì)于魚類檢測和物種分類,最常用的是Fish4Knowledge[9]數(shù)據(jù)集,該數(shù)據(jù)集包括數(shù)據(jù)集A[10]和數(shù)據(jù)集B[11]兩部分,數(shù)據(jù)集A 包含23 種魚類的27 370 張圖像。數(shù)據(jù)集B 克羅地亞魚類數(shù)據(jù)集包含12 種魚類的794 幅圖像,分辨率為1 280 × 960,包含帶邊界框的帶注釋的真值(Ground Truth,GT)和物種名稱。數(shù)據(jù)集部分示例如圖1 所示。
圖1 Fish4Knowledge 數(shù)據(jù)集示例
Lifeclef 數(shù)據(jù)集包含F(xiàn)ishclef2014[12]數(shù)據(jù)集、Fishclef 2015[13]數(shù)據(jù)集、Seaclef2016[14]數(shù)據(jù)集3 個(gè)魚類數(shù)據(jù)集,F(xiàn)ishclef2014 數(shù)據(jù)集數(shù)據(jù)來源是Fish4knowledge 水下數(shù)據(jù)集,F(xiàn)ishclef2014 數(shù)據(jù)集中訓(xùn)練集包含285 個(gè)視頻,19 868 個(gè)魚類注釋,包含10 種魚的類別。Fishclef2015 數(shù)據(jù)集訓(xùn)練數(shù)據(jù)集包括20個(gè)手動(dòng)標(biāo)注的視頻,共15 種魚的類別,共包含9 162 個(gè)標(biāo)注,數(shù)據(jù)集部分示例如圖2 所示。Seaclef 2016 數(shù)據(jù)集基于2014Fishclef 和2015Fishclef 數(shù)據(jù)集,在兩個(gè)數(shù)據(jù)集的基礎(chǔ)上增加了鯨魚、海豚、海床、珊瑚等目標(biāo),訓(xùn)練集包含20 個(gè)低分辨率視頻和20 000 多張樣本圖像。5 個(gè)視頻的分辨率是640×480,其余15 個(gè)視頻的分辨率是320×240。J?GER J 等[15]對(duì)Seaclef2016 數(shù)據(jù)集進(jìn)行了標(biāo)注。
圖2 Fishclef2015 數(shù)據(jù)集示例
Wild Fish Marker[16]數(shù)據(jù)集是在2015 年提出的,數(shù)據(jù)來源是美國國家海洋和大氣管理局(National Oceanic and Atmospheric Administration,NOAA) 數(shù)據(jù)集,該數(shù)據(jù)集包括魚類、無脊椎動(dòng)物和海床的圖像,訓(xùn)練集由929 個(gè)圖像文件組成,其中包含1 005 個(gè)帶相關(guān)標(biāo)注的標(biāo)記魚。數(shù)據(jù)集部分示例如圖3 所示。
圖3 Wild Fish Marker 數(shù)據(jù)集示例
在海洋生物檢測中不僅僅是對(duì)魚類感興趣,另一個(gè)關(guān)鍵領(lǐng)域是監(jiān)測底棲生物,如扇貝和珊瑚。HabCam 數(shù)據(jù)集[17-18]包含250 萬張帶注釋的圖片,主要是扇貝,也有魚類和海星。2018 年和2019 年“用于環(huán)境監(jiān)測的海洋視頻自動(dòng)化分析”研討會(huì)中發(fā)布了MOUSS(Modular Optical Underwater Survey System) 數(shù)據(jù)集、MBARI(Monterey Bay Aquarium Research Institute)水下數(shù)據(jù)集,這些數(shù)據(jù)集都包含目標(biāo)的注釋,注釋用Bounding box 或者關(guān)鍵點(diǎn)標(biāo)出。MOUSS 數(shù)據(jù)集包含159 副包含注釋的魚類圖像,MBARI 水下數(shù)據(jù)集包含666 副魚類圖像。
Brackish 數(shù)據(jù)集[19]于丹麥北部的海峽中拍攝,包含魚類、螃蟹和其他海洋生物,目標(biāo)的位置用邊界框進(jìn)行注釋,有14 518 個(gè)圖像,包含6 個(gè)類別的28 518 個(gè)標(biāo)注信息,數(shù)據(jù)集部分如圖4 所示。
圖4 Brackish 數(shù)據(jù)集部分示例
URPC2021 數(shù)據(jù)集[20]是真實(shí)海底環(huán)境下拍攝的,包含海膽、海參、海星、扇貝4 種生物,共有7 600張訓(xùn)練圖像和2 400 張測試圖像,數(shù)據(jù)集部分?jǐn)?shù)據(jù)如圖5 所示。檢測水下目標(biāo)數(shù)據(jù)集DUO[21]為URPC挑戰(zhàn)賽多年數(shù)據(jù)集的整合,對(duì)其中重復(fù)數(shù)據(jù)進(jìn)行刪除,訓(xùn)練集并且對(duì)有誤的標(biāo)簽進(jìn)行了重新標(biāo)注。
圖5 URPC2021 數(shù)據(jù)集部分示例
數(shù)據(jù)集是訓(xùn)練及提升目標(biāo)算法精度的關(guān)鍵,水下目標(biāo)檢測相較于自然環(huán)境中的目標(biāo)檢測難度更大。由于水下特殊的成像方式,水下圖像質(zhì)量的退化嚴(yán)重影響目標(biāo)檢測的性能。圖6 是真實(shí)水下圖像數(shù)據(jù)集示例,水下圖像由于水質(zhì)色彩顏色不同,且水下圖像對(duì)比度較低,背景與目標(biāo)界限不明顯,難以區(qū)分,如圖6(a)所示。水下目標(biāo)分布較為密集,不同目標(biāo)之間重疊情況嚴(yán)重,如圖6(b)所示。同一種魚,由于魚的姿態(tài)發(fā)生變化,導(dǎo)致難以識(shí)別,如圖6(c)所示。
圖6 水下數(shù)據(jù)集特征示例
現(xiàn)有的水下數(shù)據(jù)集中,目標(biāo)的尺寸大小不一,而且目標(biāo)的樣本數(shù)量不均衡,不同種類的水下目標(biāo)數(shù)據(jù)量差別大,容易導(dǎo)致某一種類識(shí)別效果好,另一種識(shí)別效果特別差。如圖7 所示,在URPC2021數(shù)據(jù)集中,海膽的數(shù)量占比48.3%,其他目標(biāo)占比較少。Brackish 數(shù)據(jù)集中螃蟹、小魚和海星的數(shù)量占比遠(yuǎn)遠(yuǎn)超過其他3 種。在2015Fishclef 數(shù)據(jù)集中,網(wǎng)紋宅泥魚的數(shù)量比其他14 種數(shù)量多。數(shù)量的不均衡會(huì)導(dǎo)致模型對(duì)其中數(shù)量較多的種類訓(xùn)練效果好,其他數(shù)量少的樣本效果差。
圖7 水下數(shù)據(jù)集各目標(biāo)數(shù)量占比餅狀圖
在MS COCO 挑戰(zhàn)賽中,絕對(duì)尺寸大小的定義為:目標(biāo)面積像素小于322時(shí)定義為小目標(biāo),大于322小于962時(shí)為中等目標(biāo),大于962時(shí)定義為大目標(biāo)。我們對(duì)小目標(biāo)尺寸的定義與COCO 數(shù)據(jù)集一致,對(duì)3 個(gè)數(shù)據(jù)集的目標(biāo)面積統(tǒng)計(jì)如圖8 所示,在Brackish 和2015Fishclef 數(shù)據(jù)集中都是小目標(biāo),在URPC2021 數(shù)據(jù)集中小目標(biāo)占比達(dá)到7.9%,小目標(biāo)的存在導(dǎo)致目標(biāo)檢測效果不佳。
圖8 水下數(shù)據(jù)集各目標(biāo)數(shù)量占比餅狀圖
評(píng)價(jià)目標(biāo)檢測算法的指標(biāo)主要有交并比(Intersection over Union,IOU)、檢測速度(Frame Per Second,F(xiàn)PS)、準(zhǔn)確度(Precision)、召回率(Recall)、平均精確度均值(Mean Average Precision,MAP)[22]。交并比是指預(yù)測框與真值的交集與并集之比,目的是計(jì)算預(yù)測框和真實(shí)框偏離程度,預(yù)測框越接近于真實(shí)框,IOU 越接近于1。檢測速度是指畫面每秒處理幀數(shù),F(xiàn)PS 是一個(gè)衡量算法檢測速度的重要指標(biāo)。準(zhǔn)確度指的是識(shí)別為正確識(shí)別為正例的數(shù)量占所有被識(shí)別為正例的比例。在目標(biāo)檢測中MAP 是最直觀的描述模型的性能的體現(xiàn),MAP 值越高,表現(xiàn)為模型的精度越高。召回率也是評(píng)價(jià)目標(biāo)檢測性能的主要標(biāo)準(zhǔn),召回率是指被正確預(yù)測為正例的數(shù)量占所有正例樣本的比例,召回率越高,表明模型正確預(yù)測的正例越高。
從1998 年提出目標(biāo)檢測算法以來,產(chǎn)生了大量的基于手工設(shè)計(jì)特征的傳統(tǒng)的目標(biāo)檢測算法?;趥鹘y(tǒng)特征的水下目標(biāo)檢測與識(shí)別算法是手工設(shè)計(jì)目標(biāo)特征,這些特征通常是低層圖像特征描述符,對(duì)于特征明顯的目標(biāo)能夠很好地識(shí)別。FATAN M等[23]利用Canny 邊緣檢測法和Hough 變換檢測水下線纜,但計(jì)算量較大且無法提供直線的完整信息。SUSANTO T 等[24]使用顏色特征對(duì)水下目標(biāo)進(jìn)行檢測,實(shí)驗(yàn)結(jié)果表明當(dāng)照明條件不足或者過亮?xí)r,檢測效果差。CHENG E 等[25]采用灰度共生矩陣提取水下模糊圖像的紋理細(xì)節(jié)信息。雖然灰度共生矩陣能夠很好地提取圖像的紋理特征,但也存在計(jì)算量大、耗時(shí)較長的缺點(diǎn)。由于單一特征難以對(duì)目標(biāo)進(jìn)行完整描述,STRACHAN N J C 等[26]使用顏色和形狀特征識(shí)別傳送帶上的魚類。SPAMPINATO C 等[27]利用顏色特征和紋理特征進(jìn)行檢測。由于水下生物多樣性,基于傳統(tǒng)特征的目標(biāo)檢測算法沒有針對(duì)性,而且需要人為設(shè)計(jì)目標(biāo)特征,難以滿足對(duì)復(fù)雜水下環(huán)境下檢測的需求。
卷積神經(jīng)網(wǎng)絡(luò)發(fā)展于2012 年,隨著圖形處理器(Graphic Processing Unit,GPU)算力的提升,近年來逐漸成熟。由于深度學(xué)習(xí)的目標(biāo)檢測算法提取特征魯棒性強(qiáng),檢測實(shí)時(shí)性好,相較于傳統(tǒng)的目標(biāo)檢測算法精度和速度都有了較大的提升。基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù),在網(wǎng)絡(luò)結(jié)構(gòu)上可以分為一階段框架和兩階段框架。兩階段框架的第一級(jí)網(wǎng)絡(luò)用于候選區(qū)域提取,第二級(jí)網(wǎng)絡(luò)對(duì)提取的候選區(qū)域進(jìn)行分類和精確坐標(biāo)回歸,兩階段網(wǎng)絡(luò)包括R-CNN[28]、Fast RCNN[29]、Faster RCNN[30]等。一階段網(wǎng)絡(luò)的方法摒棄了候選區(qū)域提取這個(gè)步驟,只用一級(jí)網(wǎng)絡(luò)就完成了分類和回歸兩個(gè)任務(wù),一階段網(wǎng)絡(luò)包括YOLO[31]、SSD(Single Shot MultiBox Detector)[32]等系列框架。LI X 等[33]將Fast RCNN[29]應(yīng)用于水下,在Lifeclef 數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,相對(duì)于先前的R-CNN[28]網(wǎng)絡(luò)MAP 提升了11.2%,且檢測速度超越了先前的R-CNN。之后LI X 等[34]又將Faster RCNN 應(yīng)用于水下目標(biāo)檢測,性能超過Fast RCNN。ZHANG J 等[35]利用多尺度特征結(jié)合的SSD 算法對(duì)水下目標(biāo)進(jìn)行檢測,同時(shí)引入了注意力機(jī)制,在URPC 數(shù)據(jù)集上訓(xùn)練和測試,使小目標(biāo)的檢測性能顯著提升。SUNG M 等[36]將YOLO 應(yīng)用于水下目標(biāo)檢測,并在NOAA 水下數(shù)據(jù)集上對(duì)該方法進(jìn)行訓(xùn)練和測試,分類準(zhǔn)確率為93%。CAI K 等[37]和YANG H等[38]將改進(jìn)的YOLOV3 應(yīng)用于水下目標(biāo)檢測中,進(jìn)一步提高了目標(biāo)檢測精度和速度。CHEN L 等[39]將改進(jìn)的YOLOV4 檢測網(wǎng)絡(luò)應(yīng)用于水下,IOU 閾值大于0.5 的平均精確率AP50 相較于基礎(chǔ)模型提升了0.11。
目前的水下目標(biāo)檢測算法主要針對(duì)3 個(gè)方面展開研究:①數(shù)據(jù)集數(shù)量少。②圖像質(zhì)量差導(dǎo)致識(shí)別效果差的問題。③水下目標(biāo)遮擋、小尺寸等問題。研究人員提出的算法的總結(jié)在表2 中展示。
表2 基于深度學(xué)習(xí)水下目標(biāo)檢測算法總結(jié)
針對(duì)水下目標(biāo)檢測數(shù)據(jù)集的圖像數(shù)量少的問題,LIU H 等[40]提出了水背景轉(zhuǎn)換(Water Quality Transfer,WQT)的方法,原理是將一種目標(biāo)轉(zhuǎn)換到八種不同的背景下,增加了水下數(shù)據(jù)集的大小,且提升了目標(biāo)檢測算法在不同水下環(huán)境的檢測性能。YEH C H 等[41]利用隨機(jī)剪切裁剪的方式對(duì)水下圖像進(jìn)行數(shù)據(jù)增強(qiáng),從一幅有目標(biāo)的水下圖像中提取出目標(biāo),對(duì)目標(biāo)進(jìn)行尺度、顏色調(diào)整,然后隨機(jī)粘貼到新的水下背景中生成新的圖像。CHEN L等[39]提出了e-mosaic 數(shù)據(jù)增強(qiáng)的方式,原理是對(duì)4 幅水下圖像進(jìn)行拼接生成新的訓(xùn)練圖像,AP50 相較于未使用增強(qiáng)的模型提升了0.05。上述方法增加了數(shù)據(jù)集的圖像的數(shù)量,解決了水下數(shù)據(jù)量少的問題。ZENG L 等[42]將遮擋網(wǎng)絡(luò)與Faster RCNN 結(jié)合,檢測網(wǎng)絡(luò)與遮擋網(wǎng)絡(luò)相互對(duì)抗,以獲得更好的目標(biāo)檢測魯棒性,在水下數(shù)據(jù)集上MAP 提升了0.04。
針對(duì)水下圖像質(zhì)量差的問題,CHEN W 等[43]對(duì)水下圖像進(jìn)行增強(qiáng),采用了多種增強(qiáng)方法,對(duì)比度限制自適應(yīng)直方圖均衡(Contrast Limited Adaptive Histogram Equalization,CLAHE)、IAAEmboss、I AASharpen、Random Brightness Contrast,多種增強(qiáng)方法的使用相較于基本模型MAP 提升了0.3。YANG M 等[44]提出了一種新的水下圖像恢復(fù)模型,以提高邊緣細(xì)節(jié)的清晰度和輸出圖像的色彩豐富度,水下目標(biāo)檢測效果提升。
針對(duì)水下目標(biāo)遮擋、小尺寸等特點(diǎn),PAN T S等[45]提出了多尺度的目標(biāo)檢測算法M-ResNet,在預(yù)處理階段,采用了生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)進(jìn)行增強(qiáng)的方法,對(duì)檢測網(wǎng)絡(luò)選擇3 個(gè)尺度特征圖,并且在每個(gè)尺度中的每個(gè)網(wǎng)格設(shè)置3 種比例的anchor,實(shí)驗(yàn)結(jié)果表明在小目標(biāo)檢測的效果表現(xiàn)好,但是對(duì)于一些微小的及隱藏的目標(biāo)檢測效果一般。LIN W H 等[46]提出的ROIMIX方法模擬目標(biāo)的重疊現(xiàn)象,利用RPN(Region Proposal Network) 網(wǎng)絡(luò)從不同圖片中生成建議框,將兩個(gè)建議框按照比例進(jìn)行融合,創(chuàng)建新的增強(qiáng)樣本進(jìn)行訓(xùn)練,該增強(qiáng)方法提高了目標(biāo)檢測網(wǎng)絡(luò)對(duì)于重疊目標(biāo)的檢測性能。CHEN L 等[47]提出一個(gè)名為SWIPENet 神經(jīng)網(wǎng)絡(luò),它充分利用了多個(gè)Hyper Feature Maps 來改善小物體檢測。PENG F 等[48]提出了S-FPN(Shortcut Feature Pyramid Network),通過在傳統(tǒng)的特征金字塔網(wǎng)絡(luò)中加入一些基于殘差學(xué)習(xí)的快捷連接路徑,卷積網(wǎng)絡(luò)的底層空間位置特征和上層語義特征可以相互補(bǔ)充,彌補(bǔ)了多次操作后丟失的信息,從而提高檢測性能。
本節(jié)基于Faster RCNN 兩階段和YOLOV3 單階段目標(biāo)檢測網(wǎng)絡(luò),在URPC2021 數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試,對(duì)比了馬賽克增強(qiáng)方法、圖像增強(qiáng)方法、高分辨網(wǎng)絡(luò)方法,比較了每種方法相較于基本型MAP的提升。本實(shí)驗(yàn)平臺(tái)的操作系統(tǒng)為Ubuntu18.04、CUDA 11.0、CUDNN 8.0.3,硬件為Intel Core i7-11700 CPU (2.5 GHz)、顯卡為Nvidia GeForce RTX 3080ti(12 GB 顯存)、32 GB 內(nèi)存。
本實(shí)驗(yàn)采用的數(shù)據(jù)集為URPC2021 數(shù)據(jù)集,該數(shù)據(jù)集共包含7 600 幅帶有標(biāo)簽的水下圖像,共包含海膽、海參、海星和扇貝4 種目標(biāo)。本實(shí)驗(yàn)按照8 ∶2 的比例隨機(jī)將數(shù)據(jù)集進(jìn)行劃分,80%用作訓(xùn)練,20%用作測試。設(shè)置迭代次數(shù)為20 個(gè)epoch,初始學(xué)習(xí)率為0.001,分別在迭代10 次、15 次時(shí)下降學(xué)習(xí)率,評(píng)價(jià)指標(biāo)為MAP(0.5 ∶0.05 ∶0.95) 和召回率AR。實(shí)驗(yàn)結(jié)果如表3 所示。
表3 水下目標(biāo)檢測算法實(shí)驗(yàn)結(jié)果對(duì)比
本實(shí)驗(yàn)采用了單階段目標(biāo)檢測網(wǎng)絡(luò)YOLOV3 和雙階段目標(biāo)檢測網(wǎng)絡(luò)Faster RCNN 兩種網(wǎng)絡(luò)模型,檢測效果如圖9 所示。Faster RCNN 直接用于檢測時(shí)MAP 為0.429,單階段目標(biāo)檢測網(wǎng)絡(luò)YOLOV3 直接應(yīng)用于檢測時(shí)MAP 為0.399,雙階段目標(biāo)檢測網(wǎng)絡(luò)由于存在候選特征提取部分,檢測效果優(yōu)于單階段目標(biāo)檢測網(wǎng)絡(luò),但是檢測速度低于單階段目標(biāo)檢測網(wǎng)絡(luò)。YOLOV3 為了檢測小目標(biāo),在3 個(gè)不同尺寸的特征圖上進(jìn)行預(yù)測,YOLOV3 在小目標(biāo)的檢測效果APS 值相較于Faster RCNN 提高了0.011。本文采用的圖像增強(qiáng)方法為色彩補(bǔ)償、色彩校正和伽馬校正,采用圖像增強(qiáng)的Faster RCNN 算法MAP 相較于基礎(chǔ)模型降低了0.004,采用圖像增強(qiáng)的YOLOV3 算法MAP 相較于基礎(chǔ)模型降低了0.023,分析其原因,首先在URPC 數(shù)據(jù)集訓(xùn)練圖片中存在一定的標(biāo)注噪聲。在原始數(shù)據(jù)集中,由于背景與目標(biāo)界限不明顯,存在未標(biāo)注、誤標(biāo)注的情況,如圖10(a)紅色框所示,在增強(qiáng)之后目標(biāo)界限明顯,目標(biāo)檢測網(wǎng)絡(luò)檢測出目標(biāo),但標(biāo)注信息中不存在,如圖10(c)所示。數(shù)據(jù)集標(biāo)注有噪聲,導(dǎo)致MAP 下降。其次考慮到圖像增強(qiáng)可能會(huì)導(dǎo)致目標(biāo)細(xì)節(jié)信息丟失,導(dǎo)致檢測效果不佳。Faster RCNN 和高分辨率網(wǎng)絡(luò)算法結(jié)合相較于基本模型提升了0.009,YOLOV3 結(jié)合高分辨率網(wǎng)絡(luò)的算法相較于基本模型提升了0.004,同時(shí)提升了檢測的召回率,提高了檢測到的目標(biāo)數(shù)量。高分辨率網(wǎng)絡(luò)結(jié)合了多種尺度的特征圖,能夠較好地對(duì)多種尺度的目標(biāo)進(jìn)行特征提取,所以MAP 提升較為明顯,尤其是小目標(biāo),F(xiàn)aster RCNN 結(jié)合高分辨網(wǎng)絡(luò)的APS 提升了0.016,YOLOV3 結(jié)合高分辨網(wǎng)絡(luò)的APS 也提升了0.016,達(dá)到了0.199,為幾種算法中小目標(biāo)檢測效果最好的。在Faster RCNN 基礎(chǔ)上增加mosaic 增強(qiáng)的方法,該數(shù)據(jù)增強(qiáng)方法是在YOLOV4 中提出來的,是將4 幅圖像進(jìn)行隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)排布的方式進(jìn)行拼接。該方法對(duì)小目標(biāo)檢測有提升,但對(duì)于中等目標(biāo)和大目標(biāo)檢測效果不佳。
圖9 水下目標(biāo)檢測網(wǎng)絡(luò)檢測效果對(duì)比
圖10 水下數(shù)據(jù)集噪聲數(shù)據(jù)示例
水下目標(biāo)檢測技術(shù)對(duì)于海洋信息探索中具有重要的意義,受到越來越多學(xué)者的關(guān)注,通過對(duì)國內(nèi)外水下目標(biāo)檢測算法的調(diào)研總結(jié),雖然基于光學(xué)圖像的水下目標(biāo)探測關(guān)鍵技術(shù)取得了許多研究成果,但仍存在一些問題需要進(jìn)一步探討,可以從以下幾個(gè)方面入手。
(1)生成大規(guī)模的水下數(shù)據(jù)集
自然環(huán)境下的目標(biāo)檢測算法發(fā)展迅速,一些在自然環(huán)境下的解決思路可以應(yīng)用于水下環(huán)境中解決水下目標(biāo)檢測過程的問題。例如在解決數(shù)據(jù)集數(shù)量較少的問題時(shí),傳統(tǒng)的目標(biāo)檢測技術(shù)通常都需要大量的樣本,并且需要大量的時(shí)間訓(xùn)練,促進(jìn)了少樣本學(xué)習(xí)的發(fā)展,研究人員開發(fā)出零樣本學(xué)習(xí)(Zeroshot Learning)、一樣本學(xué)習(xí)(One-shot Learning)、少樣本學(xué)習(xí)(Few-shot Learning)[49-54],F(xiàn)AN Q 等[55]將少樣本學(xué)習(xí)應(yīng)用于自然環(huán)境中的目標(biāo)檢測過程中,結(jié)合注意力機(jī)制和多關(guān)系檢測器,并在FSOD 自然環(huán)境下的數(shù)據(jù)集上進(jìn)行驗(yàn)證,最優(yōu)的檢測效果相較于基本模型AP50 提升了0.125,效果提升明顯。水下目標(biāo)檢測用數(shù)據(jù)集存在樣本數(shù)量較少的問題,可以將少樣本學(xué)習(xí)應(yīng)用于水下,提升水下目標(biāo)檢測算法性能。由于數(shù)據(jù)量較少,可以利用GAN 網(wǎng)絡(luò)生成仿真的數(shù)據(jù)集[56],提升模型的魯棒性,但是實(shí)驗(yàn)表明,利用GAN 網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)增強(qiáng),只有在數(shù)據(jù)量特別少的情況下,對(duì)目標(biāo)檢測性能有提升,對(duì)于大部分目標(biāo)檢測任務(wù),提升不大甚至降低了目標(biāo)檢測性能。
(2)進(jìn)一步研究深度學(xué)習(xí)網(wǎng)絡(luò)
基于傳統(tǒng)的水下目標(biāo)檢測技術(shù)泛化能力差,更換檢測目標(biāo)時(shí),需要重新設(shè)計(jì)特征,難以進(jìn)行突破,基于深度學(xué)習(xí)的目標(biāo)檢測技術(shù)可以大大提升目標(biāo)檢測的性能,但深度學(xué)習(xí)算法可解釋性差,在預(yù)處理過程中,發(fā)現(xiàn)一些基于深度學(xué)習(xí)的水下圖像復(fù)原或增強(qiáng)技術(shù),增強(qiáng)效果可視性較好,或者評(píng)價(jià)指標(biāo)較高,但是對(duì)于目標(biāo)檢測性能并沒有提升甚至對(duì)性能有所影響。在這方面還需進(jìn)一步研究,例如研究針對(duì)目標(biāo)檢測性能提升的圖像增強(qiáng)技術(shù),以及對(duì)無監(jiān)督算法、自監(jiān)督算法和動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)的研究。在基于深度學(xué)習(xí)的目標(biāo)檢測算法中,算法對(duì)于訓(xùn)練集類似的環(huán)境中檢測效果好,但是在不同失真類型環(huán)境下檢測效果差,如何學(xué)習(xí)生物視覺的處理方式,學(xué)習(xí)人類的思考方式,也是一個(gè)可以考慮的提升目標(biāo)檢測性能的方向。
(3)將自然環(huán)境中的目標(biāo)檢測技術(shù)應(yīng)用到水下
自然環(huán)境下的目標(biāo)檢測技術(shù)發(fā)展迅速,目前較為先進(jìn)的自然環(huán)境中的目標(biāo)檢測算法,例如基于Tranformer 的DETR[57]、Cascade RCNN[58]、YOLOF[59]、Varifocalnet[60]等目標(biāo)檢測網(wǎng)絡(luò),如何克服水下環(huán)境的局限,將自然環(huán)境下的目標(biāo)檢測算法遷移到水下,并且能夠滿足實(shí)時(shí)檢測的需求,對(duì)于水下目標(biāo)檢測技術(shù)的發(fā)展具有重要的意義,這是我們以后的工作。