龍澤升,徐海祥,2,馮 輝,2,龔 銳
(1. 武漢理工大學(xué) 交通學(xué)院,湖北 武漢 430063;2. 武漢理工大學(xué) 高性能船舶技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430063)
隨著人類對(duì)深海的不斷探索,水下機(jī)器人逐漸受到了廣泛關(guān)注。相較于遙控式水下機(jī)器人(remotely operated vehicle,ROV),自主式水下機(jī)器人(autonomous underwater vehicle,AUV)無人化和智能化程度更高、隱蔽性更強(qiáng)、工作范圍更大,在海洋科考、軍事偵察打擊等方面的作用日益突出,是水下機(jī)器人的研究熱點(diǎn)[1]。AUV往往體積較小,所攜帶的電池和數(shù)據(jù)儲(chǔ)存容量不大,需定期回收,以完成電能補(bǔ)給和數(shù)據(jù)傳輸?shù)炔僮鱗2]。AUV的回收方式主要包括水面母船回收和自主水下對(duì)接回收。自主水下對(duì)接通過AUV與固定或移動(dòng)的回收裝置實(shí)現(xiàn)類似空/天對(duì)接的過程,使AUV完成返航、接近、對(duì)接、鎖緊等一系列動(dòng)作,相較于母船回收具備自主、無人等優(yōu)點(diǎn),具有廣闊的發(fā)展前景[3]。
AUV的自主水下對(duì)接,一般分為從返航到接近的遠(yuǎn)距離導(dǎo)引和從對(duì)接初始點(diǎn)到完成對(duì)接的近距離導(dǎo)引,遠(yuǎn)距離導(dǎo)引對(duì)導(dǎo)航精度要求低,通常采用聲學(xué)方式,近距離導(dǎo)引對(duì)導(dǎo)航精度要求高,通常采用視覺方式[4]。視覺導(dǎo)引首先需要在視覺攝像頭獲取的二維圖像上進(jìn)行目標(biāo)檢測(cè),獲取目標(biāo)在相機(jī)平面的二維信息,然后,通過姿態(tài)估計(jì)算法從二維信息中解算出對(duì)接口與AUV間的三維位置信息,從而支撐AUV的自主水下對(duì)接。
基于視覺圖像的二維目標(biāo)檢測(cè)是視覺導(dǎo)引的關(guān)鍵,傳統(tǒng)方法需要手動(dòng)設(shè)計(jì)提取特征,效率較低。隨著深度學(xué)習(xí)的興起,基于卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取特征的方法逐漸展示出其優(yōu)勢(shì),基于卷積神經(jīng)網(wǎng)絡(luò)的典型檢測(cè)算法,如 Faster RCNN(faster region convolutional neural networks)[5]、SSD(single shot multibox detector)[6]、YOLO(you look only once)[7]和 Cascade RCNN(cascade region convolutional neural networks)[8]等在目標(biāo)檢測(cè)任務(wù)上較基于特征工程的傳統(tǒng)方法優(yōu)勢(shì)明顯,檢測(cè)準(zhǔn)確率有明顯提升,泛化能力增強(qiáng)。目前,水下對(duì)接視覺任務(wù)主要使用基于卷積神經(jīng)網(wǎng)絡(luò)的方法。文獻(xiàn)[9]采用13層卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行水下對(duì)接目標(biāo)的分類識(shí)別,取得了 99.18%的分類準(zhǔn)確率,但沒有研究對(duì)接目標(biāo)的準(zhǔn)確定位。文獻(xiàn)[10]將AlexNet作為特征提取器,SVM 作為分類器,提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的對(duì)接目標(biāo)檢測(cè)算法,在標(biāo)記目標(biāo)域上效果較好,但需要對(duì)目標(biāo)域進(jìn)行進(jìn)一步的篩選以保證定位精準(zhǔn)。文獻(xiàn)[11]基于YOLO算法提出了DoNN算法,在水下對(duì)接數(shù)據(jù)集(Underwater Docking Images Dataset,UDID)上精度指標(biāo)AP50達(dá)到99%。
AUV自主水下對(duì)接任務(wù)需要視覺導(dǎo)引模塊對(duì)目標(biāo)的高精度二維檢測(cè),目前已有研究,在對(duì)接目標(biāo)的識(shí)別上效果較好,但在對(duì)接目標(biāo)的二維定位上還有待提升。針對(duì)上述問題,本文研究了一種用于AUV水下自主對(duì)接的高精度二維視覺檢測(cè)算法,并在公開數(shù)據(jù)集UDID上進(jìn)行了仿真試驗(yàn)。試驗(yàn)結(jié)果表明:該算法在精度指標(biāo)AP50上達(dá)到了100%,在精度指標(biāo)AP[0.5:0.95]上超過了92%,相較于各檢測(cè)算法有一定的精度提升,且該算法的檢測(cè)速度超過了20幀/秒,具有較好的實(shí)時(shí)性。
基于神經(jīng)網(wǎng)絡(luò)的視覺檢測(cè)算法需要大量的標(biāo)記數(shù)據(jù)以完成模型訓(xùn)練,但在水下環(huán)境中獲取大量圖片數(shù)據(jù)并進(jìn)行標(biāo)注較為困難,數(shù)據(jù)增強(qiáng)是解決這一問題的有效技術(shù)手段。本文提出的混合數(shù)據(jù)增強(qiáng)策略通過結(jié)合圖像級(jí)別的數(shù)據(jù)增強(qiáng)手段和實(shí)例級(jí)別的數(shù)據(jù)增強(qiáng)手段,增加樣本擴(kuò)充效果,緩解模型的小樣本學(xué)習(xí)困難。
圖像級(jí)數(shù)據(jù)增強(qiáng)手段包括隨機(jī)翻轉(zhuǎn)、隨機(jī)裁剪和尺度抖動(dòng)。隨機(jī)翻轉(zhuǎn)即對(duì)輸入圖片進(jìn)行隨機(jī)方向的翻轉(zhuǎn),翻轉(zhuǎn)后的圖片作為新樣本;隨機(jī)裁剪即在輸入圖片上進(jìn)行隨機(jī)位置的裁剪,裁剪后的圖片作為新樣本;尺度抖動(dòng)即對(duì)輸入圖片進(jìn)行隨機(jī)的尺寸縮放,縮放后的圖片作為新樣本。通過隨機(jī)翻轉(zhuǎn)、隨機(jī)裁剪和尺度抖動(dòng),在圖像級(jí)別上生成新樣本,擴(kuò)充樣本數(shù)據(jù)。
實(shí)例級(jí)數(shù)據(jù)增強(qiáng)中,本文基于文獻(xiàn)[12]啟發(fā)提出了位置概率熱力圖導(dǎo)向的泊松復(fù)制,通過計(jì)算圖像中各位置與目標(biāo)o 當(dāng)前位置的背景差異度得到熱力圖,然后根據(jù)熱力圖劃分可行區(qū)域,在可行區(qū)域內(nèi)進(jìn)行泊松復(fù)制。
首先,定義外觀描述子D用于對(duì)目標(biāo)o的鄰域背景紋理進(jìn)行編碼。隨著與目標(biāo)o的距離增加,外觀相似性在減小,故
式中:Ci為輪廓區(qū)域,i取 1為內(nèi)部輪廓,i取 3為外部輪廓,i取2為邊界輪廓;wi為輪廓對(duì)應(yīng)權(quán)重,越靠近目標(biāo)o權(quán)重越大,即w1>w2>w3; cx, cy為輪廓區(qū)域中心點(diǎn)。
其次,定義外觀距離d,用于計(jì)算外觀描述子D1和D2間的背景差異度,即
式中:Δ為歐氏距離;I為對(duì)應(yīng)像素點(diǎn)的紅綠藍(lán)三通道值;(x1, y1)為D1領(lǐng)域內(nèi)的點(diǎn), ( x2, y2)為 D2領(lǐng)域內(nèi)的點(diǎn)。
然后,固定Do為目標(biāo)o 初始位置,遍歷全圖計(jì)算所有可能的外觀距離 d ( D, Do),并通過函數(shù)h(?)進(jìn)行歸一化,如式(3)所示,得位置概率熱力圖,如圖1(b)所示。
最后,根據(jù)生成的位置概率熱力圖對(duì)目標(biāo)o進(jìn)行泊松融合復(fù)制。通過計(jì)算前景目標(biāo)和背景區(qū)域的梯度場(chǎng)和散度,求解泊松方程以獲得系數(shù)矩陣,從而完成泊松融合,如圖1(c)所示。
圖1 熱力圖導(dǎo)向的泊松復(fù)制Fig.1 Heatmap guided Poisson copy
混合數(shù)據(jù)增強(qiáng)從圖像級(jí)和實(shí)例級(jí)2個(gè)維度上進(jìn)行樣本的擴(kuò)充,豐富訓(xùn)練集樣本的多樣性,增強(qiáng)模型訓(xùn)練的效果。
本研究提出的高精度視覺檢測(cè)算法是基于Cascade RCNN神經(jīng)網(wǎng)絡(luò)模型進(jìn)行設(shè)計(jì)的,在損失函數(shù)、學(xué)習(xí)率及模型參數(shù)計(jì)算方式上進(jìn)行優(yōu)化設(shè)計(jì),以期獲得高精度的二維圖像目標(biāo)檢測(cè)效果。
Cascade RCNN是對(duì)Faster RCNN進(jìn)行改進(jìn)而提出的,通過級(jí)聯(lián)不同交并比(intersection of union,IOU)閾值的檢測(cè)器,實(shí)現(xiàn)對(duì)目標(biāo)的逐級(jí)精細(xì)檢測(cè)。對(duì)于骨干網(wǎng)絡(luò)通過不斷卷積池化后自動(dòng)提取的特征圖,Cascade RCNN級(jí)聯(lián)了3個(gè)檢測(cè)器,其交并比閾值分別為 0.5、0.6、0.7,上一檢測(cè)器輸出的目標(biāo)邊界框?qū)⒆鳛橄乱粰z測(cè)器的輸入,經(jīng)過不斷地優(yōu)化,目標(biāo)邊界框的質(zhì)量將得到逐步提升。
對(duì)目標(biāo)邊界框的回歸是檢測(cè)算法的關(guān)鍵步驟,決定著檢測(cè)算法的目標(biāo)定位能力。Cascade RCNN模型通過計(jì)算邊界框4個(gè)頂點(diǎn)的L2范數(shù)損失總和作為位置回歸損失函數(shù)進(jìn)行目標(biāo)邊界框回歸,但該損失函數(shù)存在對(duì)目標(biāo)尺寸敏感,回歸方向不穩(wěn)定等問題。
為解決上述問題,可基于交并比設(shè)計(jì)回歸損失函數(shù)。交并比是檢測(cè)算法中衡量目標(biāo)邊界框回歸效果的指標(biāo),可直接以交并比為對(duì)象設(shè)計(jì)回歸損失函數(shù)LIOU,即
式中:b為目標(biāo)邊界框;bgt為目標(biāo)真實(shí)框。交并比損失函數(shù)具有尺度不變性,對(duì)目標(biāo)尺寸不敏感。一般認(rèn)為邊界框回歸有3要素,即重疊面積,中心點(diǎn)距離和長(zhǎng)寬比[13],交并比損失函數(shù)僅考慮了重疊面積,當(dāng)目標(biāo)邊界框與目標(biāo)真實(shí)框不相交,即IOU為0時(shí),損失函數(shù)的梯度為0,邊界框難以進(jìn)行回歸。為同時(shí)考慮回歸三要素,使邊界框回歸準(zhǔn)確且快速,我們使用完備交并比損失函數(shù)LCIOU,即
式中:ρ2(?)為歐式距離;c為最小閉包框?qū)蔷€長(zhǎng)度;wgt和hgt分別為目標(biāo)真實(shí)框的寬和高,w和h分別為目標(biāo)邊界框的寬和高。完備交并比損失函數(shù)LCIOU的第2項(xiàng)對(duì)應(yīng)重疊面積,第3項(xiàng)對(duì)應(yīng)中心點(diǎn)距離,第4項(xiàng)對(duì)應(yīng)長(zhǎng)寬比。
完備交并比損失函數(shù)通過對(duì)回歸三要素的充分考慮,增強(qiáng)目標(biāo)邊界框的回歸效果,從而增強(qiáng)檢測(cè)算法的定位能力。
神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練采用梯度下降方式,通過學(xué)習(xí)率縮放漸變更新參數(shù)的步長(zhǎng),學(xué)習(xí)率的設(shè)置能決定模型訓(xùn)練過程的優(yōu)劣,不合理的學(xué)習(xí)率會(huì)使模型陷入損失平面的局部極小點(diǎn)或鞍點(diǎn),人們通常采用動(dòng)態(tài)調(diào)整學(xué)習(xí)率以避免這類情況。
余弦退火是動(dòng)態(tài)調(diào)整學(xué)習(xí)率中較為有效的策略,一個(gè)余弦退火周期包含一次熱重啟和一次余弦衰減,如圖2所示。熱重啟即突然增大學(xué)習(xí)率,并使用重啟前的參數(shù)作為模型的初始化狀態(tài),使模型能概率性地跳出局部極小點(diǎn)或鞍點(diǎn)。余弦衰減即利用余弦函數(shù)來降低學(xué)習(xí)率,使模型不斷逼近損失平面的低點(diǎn)。
通過余弦退火策略實(shí)現(xiàn)對(duì)學(xué)習(xí)率的動(dòng)態(tài)調(diào)整,避免模型陷入損失平面的局部極小點(diǎn)或鞍點(diǎn),提高模型的訓(xùn)練效果,從而提升模型最終的精度表現(xiàn)。
隨著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的不斷發(fā)展,算法模型的參數(shù)量顯著增加,帶來了計(jì)算量和內(nèi)存開銷的激增,為減少模型的計(jì)算量,提高實(shí)時(shí)性,我們采用了混合精度策略。
深度學(xué)習(xí)框架Pytorch默認(rèn)采用單精度浮點(diǎn)數(shù)(float32)進(jìn)行計(jì)算和存儲(chǔ),混合精度策略在模型訓(xùn)練過程中主要使用半精度浮點(diǎn)數(shù)(float16),減少存儲(chǔ)量和計(jì)算量。為保證采用半精度浮點(diǎn)數(shù)后模型精度下降不明顯,混合精度策略采用以下技術(shù)。
1)分別以半精度浮點(diǎn)數(shù)和單精度浮點(diǎn)數(shù)建立2個(gè)參數(shù)權(quán)重的拷貝,半精度拷貝用于計(jì)算中間梯度,減少計(jì)算量,單精度拷貝用于參數(shù)權(quán)重的更新,避免舍入誤差。
2)訓(xùn)練過程中隨著模型的不斷優(yōu)化,損失逐漸減小,中間梯度也隨之變小,半精度可能會(huì)導(dǎo)致下溢出現(xiàn)象,即中間梯度變?yōu)?。為避免下溢出,將計(jì)算得到的損失放大一定倍數(shù),根據(jù)鏈?zhǔn)椒▌t,中間梯度會(huì)放大相應(yīng)倍數(shù),參數(shù)權(quán)重更新時(shí)再將放大的梯度抹去,保證訓(xùn)練精度。
為追求精度的提升,新提出的卷積神經(jīng)網(wǎng)絡(luò)模型在表示精度上存在較大冗余,通過混合精度策略剔除部分冗余,不僅可以大大縮小模型體積,還可通過低精度變量的運(yùn)算壓縮計(jì)算時(shí)間。
為驗(yàn)證本文提出的高精度自主水下對(duì)接檢測(cè)算法的有效性,本節(jié)將在公開數(shù)據(jù)集UDID上進(jìn)行仿真試驗(yàn)。
試驗(yàn)所采用的公開數(shù)據(jù)集UDID由AUV在深水水池中實(shí)拍的圖像組成,該水池長(zhǎng)15 m,寬10 m,深8 m,對(duì)接頭固定在2 m水深處,圖像共選取1 000張,其中800張作為訓(xùn)練集,200張作為測(cè)試集,圖像分辨率均為720×576。
為公平比較,試驗(yàn)在統(tǒng)一的硬件平臺(tái)和軟件環(huán)境下進(jìn)行。硬件平臺(tái)為Intel(R)Core(TM)i7-8700 CPU@3.20GHz處理器和GeForce GTX 2080 Ti顯卡,軟件環(huán)境為 Ubuntu18.04、python3.7、PyTorch1.6、mmcv1.1.3和 mmdet2.4.0。試驗(yàn)過程中訓(xùn)練參數(shù)設(shè)置保持一致,即采用隨機(jī)梯度下降算法,總周期為12,批次為8。
精度評(píng)價(jià)指標(biāo)通常采用平均精度(average precision,AP)。當(dāng)檢測(cè)框與真實(shí)框的交并比大于閾值時(shí)認(rèn)為檢測(cè)框檢出目標(biāo),即真陽(yáng)性(true positive,TP)。TP與所有檢測(cè)框數(shù)量的比值即為準(zhǔn)確率(precision,P),TP與所有真實(shí)框數(shù)量的比值即為召回率(recall,R)。檢測(cè)框帶有檢出目標(biāo)的類別置信度,通過類別置信度進(jìn)行排序,以置信度閾值劃分正負(fù)例,在不同類別置信度閾值下,準(zhǔn)確率P和召回率R的值發(fā)生變化,故以召回率R為橫軸,準(zhǔn)確率P為縱軸,計(jì)算不同類別置信度閾值下的P與R即可繪制P-R曲線,P-R曲線與坐標(biāo)軸包圍的面積即為平均精度。設(shè)置不同的交并比閾值會(huì)得到不同的P-R曲線和平均精度,AP50即交并比閾值為0.5下的平均精度,AP75即交并比閾值為0.75下的平均精度,AP[0.5:0.95]即為交并比閾值取 0.5~0.95間 10個(gè)數(shù)值下平均后的平均精度。
速度評(píng)價(jià)指標(biāo)通常采用幀率(frames per second,F(xiàn)PS),即算法模型每秒處理的圖片數(shù)量。
為驗(yàn)證本研究所提出的用于AUV水下自主對(duì)接的高精度視覺檢測(cè)算法的效果,將本文算法與Cascade RCNN、YOLO V3、SSD、Faster RCNN等目標(biāo)檢測(cè)經(jīng)典算法模型進(jìn)行對(duì)比,試驗(yàn)結(jié)果如表1所示,表中,Ours為本研究所提出的高精度視覺檢測(cè)算法。由表1可知,本研究所提算法較YOLO V3、SSD和Faster RCNN算法在精度上優(yōu)勢(shì)較為明顯,各精度指標(biāo)均有較為明顯的提升,尤其在AP90上,體現(xiàn)了本文算法相較于各經(jīng)典算法的高定位精度,輸出的目標(biāo)邊界框與目標(biāo)真實(shí)框的重疊程度更高,更有利于后續(xù)姿態(tài)估計(jì)算法的三維解算。與Cascade RCNN算法相比,本文算法在AP[0.5:0.95]上提升約 2.3%,在 AR[0.5:0.95]上提升約 1.8%,提升較為明顯。在檢測(cè)速度上,本文算法遜于YOLO V3和SSD,但明顯強(qiáng)于Cascade RCNN,與Faster RCNN相近,檢測(cè)速度超過了20幀/秒,具有較好的實(shí)時(shí)性。
表1 水下對(duì)接目標(biāo)檢測(cè)試驗(yàn)結(jié)果對(duì)比Table 1 Comparison of test results of underwater docking target detection
為進(jìn)一步直觀分析本文算法的提升效果,本文繪制了Casacde RCNN與本文算法在IOU閾值分別為0.5、0.7、0.9下的P–R曲線,如圖3所示。
由圖3可知,當(dāng)對(duì)目標(biāo)定位精度要求不高,即IOU閾值較低時(shí),兩者的P–R曲線幾乎沒有差異,當(dāng) IOU閾值取 0.9時(shí),本文算法相較于 Cascade RCNN算法開始有明顯優(yōu)勢(shì),高召回率下的準(zhǔn)確率更高,即漏檢目標(biāo)較少時(shí)誤檢目標(biāo)也較少,在高定位精度要求下的表現(xiàn)更佳。
圖3 不同IOU閾值下的P–R曲線對(duì)比Fig.3 Comparison of P–R curves under different IOU thresholds
為驗(yàn)證本文提出的混合數(shù)據(jù)增強(qiáng)策略對(duì)高精度視覺檢測(cè)算法的提升,本節(jié)進(jìn)行了試驗(yàn)對(duì)比,分析混合數(shù)據(jù)增強(qiáng)前后高精度視覺檢測(cè)算法模型的精度變化。
首先,對(duì)訓(xùn)練集樣本進(jìn)行實(shí)例級(jí)數(shù)據(jù)增強(qiáng),即位置概率熱力圖導(dǎo)向的泊松復(fù)制,增強(qiáng)后的訓(xùn)練集目標(biāo)統(tǒng)計(jì)如表2所示。由表2可知,熱力圖導(dǎo)向的泊松復(fù)制從原始數(shù)據(jù)集上增加了342個(gè)目標(biāo)個(gè)數(shù),增加幅度為42.2%,一定程度上緩解了小訓(xùn)練集目標(biāo)個(gè)數(shù)較少的問題。
隨后,對(duì)訓(xùn)練集樣本進(jìn)行圖像級(jí)數(shù)據(jù)增強(qiáng)。隨機(jī)翻轉(zhuǎn)的方向設(shè)為水平或垂直,即訓(xùn)練集中圖像將被隨機(jī)進(jìn)行水平或垂直翻轉(zhuǎn),隨機(jī)翻轉(zhuǎn)后,圖像數(shù)量翻倍;隨機(jī)裁剪中,設(shè)置裁剪區(qū)域面積占原圖像面積的 0.25,且裁剪區(qū)域包含目標(biāo),隨機(jī)裁剪后,圖像數(shù)量翻倍;尺度抖動(dòng)的縮放比率設(shè)為 0.5~2,即訓(xùn)練集圖像隨機(jī)縮放為原尺寸的0.5~2中的某2個(gè)倍數(shù),尺度抖動(dòng)后,圖像數(shù)量乘以 3倍;最終,圖像級(jí)數(shù)據(jù)增強(qiáng)后,圖像數(shù)量擴(kuò)充至12倍,如表2所示。
表2 訓(xùn)練集統(tǒng)計(jì)Table 2 Statistics of training sets
最后,在原始數(shù)據(jù)集和增強(qiáng)后數(shù)據(jù)集上分別使用高精度視覺檢測(cè)算法進(jìn)行水下對(duì)接實(shí)拍圖像目標(biāo)檢測(cè)試驗(yàn),試驗(yàn)結(jié)果如表 3所示,Ours為本文算法在原始數(shù)據(jù)集上訓(xùn)練獲得的模型,Ours*為本文算法在增強(qiáng)數(shù)據(jù)集上訓(xùn)練獲得的模型。
表3 混合數(shù)據(jù)增強(qiáng)目標(biāo)檢測(cè)試驗(yàn)結(jié)果對(duì)比Table 3 Comparison of object detection experimental results with mixed data augmentation
由表 3可知,混合數(shù)據(jù)增強(qiáng)后得到的算法模型有一定的精度提升,在 AP[0.5∶0.95]上提升約1.9%,在 AR[0.5∶0.95]上提升約 1.5%。算法本身沒有改變,故檢測(cè)速率也沒有變化。為進(jìn)一步直觀分析兩模型的檢測(cè)效果差異,本文繪制了 Ours與Ours*在 IOU 閾值分別為 0.5、0.7、0.9下的P–R曲線,如圖4所示。
圖4 不同IOU閾值下的P–R曲線對(duì)比Fig 4 Comparison of P–R curves under different IOU thresholds
由圖4可知,IOU閾值取0.5時(shí),2個(gè)算法模型的精度都已到達(dá)100%,沒有差別;當(dāng)IOU閾值取0.7時(shí),混合數(shù)據(jù)增強(qiáng)后得到的算法模型在P–R曲線上優(yōu)勢(shì)不明顯;當(dāng)IOU閾值取0.9時(shí),混合數(shù)據(jù)增強(qiáng)后得到的算法模型在P–R曲線上有較為直觀的優(yōu)勢(shì),召回率高時(shí)的準(zhǔn)確率更高。
AUV自主水下對(duì)接技術(shù)發(fā)展迅速,視覺檢測(cè)作為近距離導(dǎo)引的關(guān)鍵技術(shù),對(duì)目標(biāo)的定位精度較高。針對(duì)這一需求,本文設(shè)計(jì)了一種高精度視覺檢測(cè)算法,采用完備交并比損失函數(shù)、學(xué)習(xí)率余弦退火和混合精度策略,提高了算法模型的精度,尤其是高 IOU閾值下的精度。同時(shí),本文提出了一種混合數(shù)據(jù)增強(qiáng)策略,從圖像級(jí)和實(shí)例級(jí)上對(duì)訓(xùn)練集樣本進(jìn)行擴(kuò)充,并進(jìn)一步提升了本文算法精度。最終本文算法在AP[0.5∶0.95]上達(dá)到了94%,檢測(cè)速度超過20幀/秒,性能優(yōu)勢(shì)明顯,為未來AUV自主水下對(duì)接技術(shù)的發(fā)展提供了技術(shù)支持。