蔡啟烈 王 強(qiáng)
武漢理工大學(xué)交通與物流學(xué)院 武漢 430063
無(wú)人艇作為一種水上自主航行器,具有體積小、質(zhì)量輕、靈活適應(yīng)各種水上環(huán)境等特點(diǎn),在港口碼頭巡邏、海上環(huán)境監(jiān)測(cè)等領(lǐng)域有廣泛應(yīng)用前景。無(wú)人艇的功能核心是能實(shí)時(shí)感知復(fù)雜多變的水上環(huán)境并進(jìn)行自主導(dǎo)航,避開(kāi)船只、暗礁等障礙物。水上障礙物檢測(cè)作為環(huán)境感知的關(guān)鍵能力,對(duì)無(wú)人艇避碰和自主導(dǎo)航都有重要影響,只有實(shí)時(shí)、精準(zhǔn)的檢測(cè)到水上障礙物,無(wú)人艇才能對(duì)周?chē)h(huán)境及時(shí)做出反應(yīng),避免發(fā)生碰撞。
在現(xiàn)階段障礙物檢測(cè)方法中,基于視覺(jué)的圖像語(yǔ)義分割算法能對(duì)障礙物進(jìn)行精準(zhǔn)的像素級(jí)檢測(cè),正得到愈加廣泛的研究,并逐步應(yīng)用到水上障礙物檢測(cè)中。Cane T 等[1-4]首先研究了SegNet、ESPNet、ENet 等數(shù)種語(yǔ)義分割網(wǎng)絡(luò)在水上障礙物檢測(cè)中的表現(xiàn);Kim H 等[5]設(shè)計(jì)了基于視覺(jué)的實(shí)時(shí)水上障礙物檢測(cè)算法,將語(yǔ)義分割網(wǎng)絡(luò)應(yīng)用到水上障礙物檢測(cè)中,但是該算法并未采用大型數(shù)據(jù)集評(píng)價(jià);為了評(píng)價(jià)經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò)在水上障礙物檢測(cè)的效果,Bovcon B 等[6-9]在Master1325 數(shù)據(jù)集上對(duì)經(jīng)典網(wǎng)絡(luò)PSPnet、Unet、DeepLabv2 等進(jìn)行訓(xùn)練,之后在大型海洋數(shù)據(jù)集MODD2 上進(jìn)行評(píng)價(jià),結(jié)果顯示經(jīng)典的語(yǔ)義分割網(wǎng)絡(luò)對(duì)動(dòng)態(tài)水面的分辨力不夠,對(duì)水中小型障礙物的檢測(cè)能力有待提高,整體檢測(cè)精度不高;為了改進(jìn)經(jīng)典語(yǔ)義分割網(wǎng)絡(luò)在水上障礙物檢測(cè)上的不足,Bovcon B 等[10]針對(duì)水面特性提出了WaSR 網(wǎng)絡(luò)結(jié)構(gòu),該結(jié)構(gòu)融入了IMU 傳感器信息,編碼部分采用Resnet50 作為主干特征提取網(wǎng)絡(luò),檢測(cè)精度超過(guò)各類(lèi)經(jīng)典網(wǎng)絡(luò),但是WaSR 網(wǎng)絡(luò)模型較大,推理速度較慢;Yao L 等[11]基于Unet 中規(guī)整的編碼-解碼架構(gòu)設(shè)計(jì)了Shoreline-Net 網(wǎng)絡(luò),該網(wǎng)絡(luò)采用輕量化的Bottleneck 結(jié)構(gòu)進(jìn)行下采樣,相比于WaSR 和大部分經(jīng)典語(yǔ)義分割網(wǎng)絡(luò),Shoreline-Net 模型推理速度更快,在水上障礙物檢測(cè)中實(shí)時(shí)性更高,但是網(wǎng)絡(luò)對(duì)于水上特征提取不足,檢測(cè)精度較低。
從上述情況可以知,現(xiàn)有針對(duì)水上障礙物檢測(cè)的語(yǔ)義分割算法難以同時(shí)滿足檢測(cè)實(shí)時(shí)性和精度的要求。因此,本文提出一種基于改進(jìn)PSPnet 框架的水上障礙物檢測(cè)算法,該算法以PSPNet 中的金字塔池化架構(gòu)作為整體框架,采用Mobilenetv2[12]中的輕量化結(jié)構(gòu)Bottleneck 作為主干特征提取網(wǎng)絡(luò),減少網(wǎng)絡(luò)參數(shù),提高水上障礙物檢測(cè)速率。在精度上考慮到水上經(jīng)常出現(xiàn)大霧和強(qiáng)光,導(dǎo)致障礙物變得難以檢測(cè),同時(shí)也存在大量波紋、倒影干擾的特點(diǎn),本文主要采取加強(qiáng)特征提取和提高分辨力的策略。本文在PSPnet 中引入ASPP(Atrous Spatial Pyramid Pooling)結(jié)構(gòu),該結(jié)構(gòu)中的多尺度膨脹卷積能增大卷積核對(duì)特征圖的感受野,從而加強(qiáng)對(duì)圖像上下文特征信息提取,使得網(wǎng)絡(luò)在大霧、強(qiáng)光環(huán)境中提取到更多的圖像特征;改進(jìn) Focal Loss[13]損失函數(shù),進(jìn)一步增大圖像中難以檢測(cè)部分的損失值,提高網(wǎng)絡(luò)對(duì)波紋、倒影等干擾的分辨力。
本文引用改進(jìn)PSPNet 框架進(jìn)行活體人臉檢測(cè)的整體流程如圖1 改進(jìn)PSPnet 框架檢測(cè)流程所示,輸入圖像大小為224×224,經(jīng)過(guò)Bottleneck 層后,將特征圖數(shù)據(jù)提取為28×28×192 大小特征向量,傳入PSPnet 中的多金字塔池化結(jié)構(gòu)和ASPP 結(jié)構(gòu)并行提取圖像的多尺度特征,最后特征圖經(jīng)過(guò)雙線性差值上采樣映射回原圖大小,完成水上障礙物的語(yǔ)義分割,輸出圖像被分割為天空、障礙物、水3 個(gè)類(lèi)別,分別用掩碼0、1、2 表示。
圖1 改進(jìn)PSPnet 框架檢測(cè)流程
MobilenetV2 與傳統(tǒng)CNN 卷積網(wǎng)絡(luò)的區(qū)別之一就是該框架采用的是Depthwise Separable 卷積方式,替代了傳統(tǒng)的CNN 的卷積方式,用單通道卷積層進(jìn)行卷積操作(DW 卷積),之后用1×1 大小的卷積核進(jìn)行維度擴(kuò)展(PW 卷積)。Depthwise Separable 卷積方式如圖2 所示。
圖2 Depthwise Separable 卷積方式
采用Depthwise Separable 卷積方式,導(dǎo)致卷積過(guò)程中特征圖維度較低,需要先用1×1 卷積核進(jìn)行擴(kuò)維,最后用1×1 卷積核進(jìn)行降維操作,即倒殘差(Bottleneck)結(jié)構(gòu),如圖3 所示。
圖3 Bottleneck 結(jié)構(gòu)
PSPnet 的主干特征提取網(wǎng)絡(luò)是Resnet50,Resnet50采用CNN 卷積方式,參數(shù)量大,本文將Resnet50 替換為Bottleneck 層,用來(lái)減小模型參數(shù),使得整體框架更為輕量,Bottleneck 層整體如表1 所示。
表1 Bottleneck 層結(jié)構(gòu)
表1 中Operator 表示卷積方式,t為Bottleneck 層中擴(kuò)維的倍率因子,c為輸出特征圖的維度,n為當(dāng)前層循環(huán)次數(shù),s為步距,a 表示是否使用SE 模塊。
對(duì)于步距為2 的卷積層,為避免損失更多特征信息,需加入SE 模塊,根據(jù)SE 模塊生成的不同權(quán)重保留更多有效信息。
如圖4 所示,SE 模塊中的Global Pool 表示全局池化,F(xiàn)C1 和FC2 表示全連接層,Relu 表示使用Relu 激活函數(shù)。SE 模塊將輸入的特征圖數(shù)據(jù)經(jīng)過(guò)全局池化,然后經(jīng)過(guò)2 個(gè)全連接層生成每張?zhí)卣鲌D的權(quán)重,最后對(duì)步距為2 的Bottleneck 層進(jìn)行加權(quán)處理,以保留更多有效信息。FC2 層后的Hard-Sigmoid[14]激活函數(shù)有效擬合了Sigmoid 激活函數(shù),但是減少了Sigmoid 激活函數(shù)帶來(lái)的復(fù)雜計(jì)算。Hard-Sigmoid 激活函數(shù)為
圖4 SE 模塊
在圖1 中,Bottleneck 層生成的特征圖大小為28×28×192,同時(shí)傳入PSPnet 中多金字塔池化結(jié)構(gòu)和ASPP 進(jìn)行多尺度的特征提取,多金字塔池化結(jié)構(gòu)如圖5 所示。
圖5 多金字塔池化
由圖5 可知,多金字塔池化就是使用1×1、2×2、3×3、6×6 大小的池化核對(duì)輸入特征進(jìn)行多尺度池化下采樣操作,最后對(duì)特征圖進(jìn)行上采樣。相比于池化下采樣,多尺度池化可以最大程度減小因池化產(chǎn)生的信息丟失,在一定程度上增大網(wǎng)絡(luò)特征提取能力。
在水上障礙物檢測(cè)中,波紋和、水上倒影、強(qiáng)光和大霧天的干擾會(huì)給障礙物的分割造成很大影響,大霧和強(qiáng)光在水上障礙物檢測(cè)環(huán)境中時(shí)常遇到,尤其是大霧干擾,會(huì)讓周?chē)系K物難以檢測(cè),碰撞風(fēng)險(xiǎn)大幅增加,故增強(qiáng)網(wǎng)絡(luò)抗干擾性是提高網(wǎng)絡(luò)檢測(cè)準(zhǔn)確率的關(guān)鍵。同時(shí),在水上也存在很多諸如暗礁類(lèi)的小型障礙物,難以檢測(cè)。無(wú)論是霧天中的障礙物還是小型障礙物,難以檢測(cè)都是因?yàn)樘崛〔坏阶銐虻纳舷挛奶卣餍畔?,網(wǎng)絡(luò)模型難以分辨霧天障礙物和小型障礙物,故在水上障礙物檢測(cè)過(guò)程中必須加強(qiáng)對(duì)圖像上下文特征信息的提取。
增大圖像感受是加強(qiáng)圖像特征信息提取的有效方式,感受野是特征圖像在原圖中的映射范圍,感受野越大,則特征圖在原圖像中的映射區(qū)域越大,也能獲取到更多的上下文特征信息。感受野計(jì)算為
式中:lj為第j層特征圖的感受野,lj-1為第j-1 層的感受野,fj為第j層卷積核的尺寸,si為第i層的步長(zhǎng)。
若使用CNN 的卷積方式,在不進(jìn)行下采樣的情況下要獲得224×224 圖像的全局感受野,在卷積核為3×3 大小的情況下,至少要進(jìn)行100 多層CNN 卷積,使得計(jì)算量大幅增加。
為了不大幅增加計(jì)算量的情況下增大圖像感受野,本文決定引入ASPP 結(jié)構(gòu),既可以加強(qiáng)圖像特征提取,又能進(jìn)一步減少因多金字塔池化結(jié)構(gòu)中池化操作產(chǎn)生的信息丟失,ASPP 結(jié)構(gòu)如圖6 所示。
圖6 ASPP 結(jié)構(gòu)
ASPP 結(jié)構(gòu)中采用多尺度膨脹卷積,膨脹卷積又稱(chēng)為空洞卷積,能在卷積核內(nèi)填充空洞元素,使得卷積核擴(kuò)張,從而具有更大的感受野,膨脹卷積中膨脹率的選取十分重要,膨脹率過(guò)大,在進(jìn)行卷積過(guò)程中,會(huì)丟失掉重要的特征信息,過(guò)小又會(huì)使得圖像推理速度變慢,本文中為了加強(qiáng)特征提取能力,將膨脹率分別設(shè)置為2、4、6。
在深度學(xué)習(xí)中,交叉熵?fù)p失函數(shù)因?yàn)橛?jì)算簡(jiǎn)單,能夠讓模型有較好的學(xué)習(xí)效果,在各種障礙物檢測(cè)網(wǎng)絡(luò)中被廣泛使用,交叉熵?fù)p失函數(shù)為
式中:p為預(yù)測(cè)樣本為1 的概率;y為真值標(biāo)簽,在此標(biāo)簽類(lèi)別只有0 或1,可以通過(guò)獨(dú)熱碼將水上障礙物的標(biāo)簽類(lèi)別都轉(zhuǎn)換為0 或1 的形式;CE(p,y)為求出的損失值,因p∈[0,1),故損失值CE(p,y)≥0,且根據(jù)對(duì)數(shù)函數(shù)的特性,p越小損失值越大、p越大損失值越小,這就使得在分類(lèi)正確的情況下,損失值較小,而分類(lèi)錯(cuò)誤就會(huì)具有較大的損失值。
交叉熵?fù)p失函數(shù)雖然計(jì)算簡(jiǎn)單,模型優(yōu)化效果較好,但在實(shí)際障礙物檢測(cè)過(guò)程中,仍然存在不能對(duì)正負(fù)樣本加權(quán)使得正負(fù)樣本均衡化、對(duì)難以檢測(cè)的樣本區(qū)分度不明顯的缺點(diǎn)。
在水上障礙物檢測(cè)過(guò)程中,正樣本就是水上障礙物,負(fù)樣本是水面環(huán)境。因在水上環(huán)境中障礙物占少數(shù),而水面占多數(shù),同時(shí)也占了Loss 中的大部分,使用交叉熵?fù)p失函數(shù)求解時(shí),大部分像素的損失值都是水面環(huán)境的損失值,而障礙物像素所占的損失值較少。這會(huì)使得模型的優(yōu)化方向并沒(méi)有完全關(guān)注到障礙物檢測(cè)的精度方向。同時(shí),在水上障礙物檢測(cè)過(guò)程中,會(huì)出現(xiàn)大量倒影的干擾,使得倒影和真實(shí)障礙物難以分別,而交叉熵?fù)p失函數(shù)并不能對(duì)難以檢測(cè)的部分增加關(guān)注程度,導(dǎo)致交叉熵?fù)p失函數(shù)在水上障礙物檢測(cè)過(guò)程中效果并不理想。因此,本文決定采用對(duì)交叉熵?fù)p失函數(shù)加權(quán)處理后的Focal Loss(即FL)作為損失函數(shù),即有
式中:α用于控制正負(fù)樣本權(quán)重,在水上障礙物檢測(cè)時(shí),負(fù)樣本出現(xiàn)的頻次多,α用來(lái)降低負(fù)樣本的權(quán)重,考慮到本文選用的訓(xùn)練集中正樣本在總體樣本數(shù)中占比較小,本文將α設(shè)置為0.25;(1-pt)γ稱(chēng)為調(diào)制系數(shù),主要用于控制難以檢測(cè)樣本和檢測(cè)難度較易樣本的權(quán)重,其中γ是一個(gè)常數(shù)。
在水上障礙物檢測(cè)過(guò)程中,考慮到水中會(huì)出現(xiàn)大量倒影,存在大量難以檢測(cè)的樣本,本文決定改進(jìn)FL,使得針對(duì)難以檢測(cè)樣本的損失值進(jìn)一步增大,改進(jìn)的FL可表示為
在FL中,(1-pt)的指數(shù)γ是個(gè)常數(shù),并不能隨著正樣本預(yù)測(cè)概率pt的變化而變化。因此,針對(duì)不同場(chǎng)景的適應(yīng)性較差,本文將γ改為-log(1-pt)曲線,該函數(shù)在p∈[0,1)區(qū)間的圖像如圖7 所示。
圖7 -log(1-pt)曲線
圖7 中,y=-log(1-pt)在[0,1)區(qū)間內(nèi)單調(diào)遞增,因?yàn)椋?-pt)<1,隨著pt趨于1,(1-pt)-log(1-pt)是不斷減小的,導(dǎo)致整個(gè)函數(shù)值也不斷減小。FL與改進(jìn)后的FL在區(qū)間pt∈[0,1)的函數(shù)如圖8 所示。
圖8 損失函數(shù)對(duì)比
圖8 為損失函數(shù)對(duì)比,橙色曲線為FL,藍(lán)色曲線為改進(jìn)后的FL(Imporved Focal Loss),從圖中可以看出,F(xiàn)L和IFL均隨著pt的增大而單調(diào)遞減,且對(duì)于難以檢測(cè)的樣本(pt<0.5),IFL明顯比FL具有更高的損失值,IFL對(duì)難以檢測(cè)的樣本比FL具有更高的關(guān)注度。
在深度學(xué)習(xí)中,為使得損失函數(shù)的值盡可能地小,最小化損失函數(shù)值的過(guò)程稱(chēng)為最優(yōu)化,實(shí)現(xiàn)最優(yōu)化流程的方法稱(chēng)為優(yōu)化器。本文定采用SGD 優(yōu)化器[15],動(dòng)量參數(shù)選為0.9,使得模型在驗(yàn)證集上能更快地收斂,采用SGD 的權(quán)重優(yōu)化方式為:
設(shè)一個(gè)批次為b張數(shù)據(jù),則每個(gè)批次的平均梯度損失值為
權(quán)重參數(shù)更新項(xiàng)v為
權(quán)重參數(shù)w更新為
式中:β為動(dòng)量因子;α為學(xué)習(xí)率,根據(jù)批次大小,學(xué)習(xí)率設(shè)置為0.000 5。
為了研究本文設(shè)計(jì)算法對(duì)水上障礙物的檢測(cè)精度以及對(duì)岸線檢測(cè)精度,決定開(kāi)展數(shù)據(jù)集評(píng)價(jià)實(shí)驗(yàn)。選用目前標(biāo)注最精準(zhǔn)的海洋環(huán)境語(yǔ)義分割數(shù)據(jù)集Master1325作為訓(xùn)練集進(jìn)行訓(xùn)練,選用數(shù)據(jù)集MODs 作為評(píng)價(jià)集進(jìn)行數(shù)據(jù)集評(píng)價(jià)實(shí)驗(yàn),分析網(wǎng)絡(luò)模型在數(shù)據(jù)集上的表現(xiàn)。
本文訓(xùn)練時(shí)采用的硬件平臺(tái)為x86 架構(gòu),GPU 采用NVIDIA Telsa K80,CPU 采 用Intel Xeon E5-2678 v3,主頻2.5 GHz,RAM 為8 Gb。軟件平臺(tái)為L(zhǎng)inux操作系統(tǒng),深度學(xué)習(xí)環(huán)境為Pytorch1.8.1,Cuda 版本。
Master1325 數(shù)據(jù)集是目前人工標(biāo)注最為精準(zhǔn)的海洋語(yǔ)義分割數(shù)據(jù)集,內(nèi)含1 325 張海洋環(huán)境圖像,圖像尺寸為1 278×958×3;1 325 張標(biāo)注的標(biāo)簽圖像,圖像尺寸為1 278×958×1,因?yàn)闃?biāo)簽中將天空、障礙物、水分別表示為0、1、2,所以標(biāo)簽中圖像深度為1,每一個(gè)像素值都代表對(duì)應(yīng)的分割種類(lèi),如圖9 中Master1325圖像示例。
圖9 Master1 325 圖像示例
考慮到訓(xùn)練集僅有1 325 張圖像,難以滿足訓(xùn)練過(guò)程中對(duì)數(shù)據(jù)量的需求,本文決定對(duì)Master1325 數(shù)據(jù)集進(jìn)行圖像增強(qiáng),首先對(duì)圖像進(jìn)行鏡像處理,之后再對(duì)圖像進(jìn)行旋轉(zhuǎn),將訓(xùn)練集由1 325 張?jiān)鰪?qiáng)到了26 500 張,使得訓(xùn)練集的泛化性大幅提高,可用于模型訓(xùn)練。
MODs 是Boconvn 等制作的最具海洋環(huán)境代表性的水上障礙物檢測(cè)數(shù)據(jù)集[16],如圖10 中MODs 示例。圖像共有94 個(gè)序列,其中含有8 175 張被標(biāo)注圖像,而且標(biāo)簽也經(jīng)過(guò)專(zhuān)家審核,是標(biāo)注十分精確的海洋環(huán)境數(shù)據(jù)集。因其包含94 個(gè)海洋環(huán)境序列,故圖像檢測(cè)十分具有挑戰(zhàn)性。同時(shí)MODs 中對(duì)數(shù)據(jù)集中的環(huán)境進(jìn)行了危險(xiǎn)區(qū)域的劃分,用于評(píng)價(jià)無(wú)人艇航行時(shí)在危險(xiǎn)區(qū)域內(nèi)的障礙物檢測(cè)精度,可以進(jìn)一步對(duì)語(yǔ)義分割網(wǎng)絡(luò)的性能進(jìn)行更為細(xì)致的評(píng)價(jià)。
圖10 MODs 示例
MODs 是將攝像頭放在無(wú)人艇上,沿歐洲斯洛文尼亞海岸采集。在MODs 中,將圖像中距離無(wú)人艇15 m以?xún)?nèi)的區(qū)域劃為危險(xiǎn)區(qū)域,MODs 認(rèn)為,無(wú)人艇航行較慢,危險(xiǎn)區(qū)域內(nèi)的障礙物需要重點(diǎn)關(guān)注。在MODs 評(píng)價(jià)實(shí)驗(yàn)中,本文不但分析了所設(shè)計(jì)算法在MODs 上的整體表現(xiàn),同時(shí)分析了危險(xiǎn)區(qū)域內(nèi)的障礙物分割效果。
在水上障礙物檢測(cè)過(guò)程中,本文用F-measure衡量本文設(shè)計(jì)算法在評(píng)價(jià)集上的障礙物檢測(cè)精度,F(xiàn)-measure的計(jì)算公式為
式中:TP為預(yù)測(cè)正確的正樣本數(shù)量,F(xiàn)P為將負(fù)樣本預(yù)測(cè)成正樣本的數(shù)量,F(xiàn)N為預(yù)測(cè)錯(cuò)誤的負(fù)樣本數(shù)量。
本文中正樣本是水上障礙物,負(fù)樣本是水面。F-measure越大,則預(yù)測(cè)正確的水上障礙物數(shù)量越多,模型檢測(cè)精度就越高。
為了驗(yàn)證本文算法的實(shí)時(shí)性和精度,本文將僅采用Bottleneck 層進(jìn)行主干特征提取的網(wǎng)絡(luò)設(shè)為Baseline,Baseline 采用FL損失函數(shù),之后保持其他不變,依次添加ASPP 和改進(jìn)FL損失函數(shù),即改進(jìn)PSPnet 算法,同時(shí)與PSPnet 網(wǎng)絡(luò)形成對(duì)照,如表2 所示。
表2 消融實(shí)驗(yàn)對(duì)照表
首先在增強(qiáng)后的Master1325 數(shù)據(jù)集上對(duì)Baseline、Baseline+ASPP 已經(jīng)完整的改進(jìn)PSPnet 網(wǎng)絡(luò)訓(xùn)練10 個(gè)Epoch,訓(xùn)練完成后分別選取表現(xiàn)最好的模型在MODs上進(jìn)行評(píng)價(jià),整體精度F-measure評(píng)價(jià)結(jié)果如表3 所示。
表3 消融實(shí)驗(yàn)F-measure 對(duì)比
表3 中Pr 為精確率,Re 為召回率,如式(11)、式(12)所示,即
TPr 和FPr 分別表示每100 張預(yù)測(cè)中TP和FP的平均數(shù)量,F(xiàn)-measure為檢測(cè)精度。表3 中PSPnet 和Baseline 僅是主干特征提取網(wǎng)絡(luò)不相同??梢钥闯觯瑢⒅鞲商卣魈崛【W(wǎng)絡(luò)由Resnet50 改為Bottleneck 層后F-measure有所下降,可以看出Resnet50 特征提取能力比本文設(shè)計(jì)的Bottleneck 層要強(qiáng),但是引入ASPP 結(jié)構(gòu)后,F(xiàn)-measure得到了大幅度提升,證明通過(guò)增大感受野的方式加強(qiáng)特征提取是有效的,本文算法的F-measure最高,達(dá)到了86.8,TPr 和FPr 均得到改善,可以證明使用改進(jìn)FL損失函數(shù)訓(xùn)練的模型比FL訓(xùn)練出的模型具有更強(qiáng)的水上障礙物分辨能力。
由消融實(shí)驗(yàn)可以證明本文算法中通過(guò)ASPP 結(jié)構(gòu)增大感受野和使用改進(jìn)FL損失函數(shù)訓(xùn)練模型的有效性,為了能更清楚的分析改進(jìn)PSPnet 網(wǎng)絡(luò)在水上障礙物檢測(cè)精度和實(shí)時(shí)性上的優(yōu)缺點(diǎn),與目前世界上各個(gè)經(jīng)典網(wǎng)絡(luò)進(jìn)行對(duì)比,其結(jié)果如表4 所示。
表4 MODs 精度對(duì)比
MODs 數(shù)據(jù)集是用無(wú)人艇采集的,將距離無(wú)人艇15 m 以?xún)?nèi)的區(qū)域定義為危險(xiǎn)區(qū)域,在實(shí)際航行過(guò)程中,危險(xiǎn)區(qū)域內(nèi)障礙物的分割精度更為重要,本文同時(shí)對(duì)各個(gè)網(wǎng)絡(luò)在危險(xiǎn)區(qū)域內(nèi)障礙物的檢測(cè)精度進(jìn)行對(duì)比,如表5 所示。
表5 危險(xiǎn)區(qū)域檢測(cè)精度對(duì)比
由表4、表5 可知,危險(xiǎn)區(qū)域內(nèi)障礙物檢測(cè)具有更大難度,大部分網(wǎng)絡(luò)在危險(xiǎn)區(qū)域內(nèi)的檢測(cè)精度較低。這是由于數(shù)據(jù)集拍攝過(guò)程中,危險(xiǎn)區(qū)域內(nèi)小型障礙物居多,而大型船只等都在較遠(yuǎn)處,由此更能看出各網(wǎng)絡(luò)對(duì)于較小障礙物和難以檢測(cè)障礙物的分辨能力,表中PSPnet在MODs 上整體精度表現(xiàn)達(dá)到78.9,但是在危險(xiǎn)區(qū)域內(nèi)僅有37.9,證明PSPnet對(duì)于小型障礙物檢測(cè)精度較差,而本文算法在危險(xiǎn)區(qū)域內(nèi)障礙物檢測(cè)精度達(dá)到了81.1,僅次于WaSR,進(jìn)一步證明了本文針對(duì)水上特性采取策略的有效性。
影響無(wú)人艇水上障礙物檢測(cè)能力的另一個(gè)重要因素就是實(shí)時(shí)性,無(wú)人艇承載能力有限,為了保證其靈活性,不能放入大型計(jì)算設(shè)備。因此,在有限的算力下具有更快的圖像推理速度,保障無(wú)人艇水上障礙物檢測(cè)實(shí)時(shí)性十分重要,本文選取算力平臺(tái)NVIDIA GTX 2080Ti,研究各個(gè)網(wǎng)絡(luò)的圖像推理速度,如表6 所示。
表6 圖像推理速度分析
在表6 中,PSPnet 采用Resnet50 作為主干特征提取網(wǎng)絡(luò),模型大小為56 Mb,遠(yuǎn)高于本文算法模型,推理速度較慢。WaSR 雖然水上障礙物檢測(cè)精度最高,但是在GPU 算力平臺(tái)GTX2080Ti 上的單張圖像推理時(shí)間達(dá)到了63.9 ms,是本文算法的4 倍,而且模型體積較大,達(dá)到了84.6 Mb,此外WaSR 采用了與IMU 進(jìn)行多傳感器融合的方式檢測(cè),檢測(cè)成本昂貴;而本文算法模型僅有15.1 Mb,占用內(nèi)存較小,且單張圖像推理時(shí)間僅有16.4 ms,完全滿足無(wú)人艇對(duì)于實(shí)時(shí)性的要求。
由上述分析可知,本文算法不但檢測(cè)精度高,而且圖像推理速度快,即使是在成本較低廉的算力平臺(tái)2080Ti 上,單張圖像推理速度依然達(dá)到16.4 ms 每張,即61 fps,實(shí)時(shí)性較高。因此,即使與目前國(guó)內(nèi)外最經(jīng)典的分割網(wǎng)絡(luò)相比,本文算法在MODs 數(shù)據(jù)集上依然具有非常突出的表現(xiàn),是針對(duì)水上障礙物檢測(cè)領(lǐng)域有效的語(yǔ)義分割網(wǎng)絡(luò)。
本文針對(duì)無(wú)人艇水上障礙物檢測(cè)提出了一種語(yǔ)義分割算法,該算法基于改進(jìn)的PSPnet 框架,采用Bottleneck 結(jié)構(gòu)進(jìn)行主干特征提取。同時(shí),針對(duì)水上經(jīng)常出現(xiàn)大霧、強(qiáng)光和大量波紋,倒影的干擾,本文分別采取了增大感受野加強(qiáng)特征提取,和改進(jìn)FL損失函數(shù)提高網(wǎng)絡(luò)分辨力的策略。最后實(shí)驗(yàn)結(jié)果表明,本文所提出策略能有效提高水上障礙物檢測(cè)精度,本文算法在MODs 數(shù)據(jù)集上檢測(cè)精度F-measure達(dá)到了86.8,危險(xiǎn)區(qū)域內(nèi)F-measure為81.1,同時(shí)在2080Ti 平臺(tái)上圖像推理速度達(dá)到了61 fps,無(wú)論是在檢測(cè)精度還是實(shí)時(shí)性方面都有十分突出的表現(xiàn)。然而,本文與WaSR 網(wǎng)絡(luò)相比,檢測(cè)精度仍有所欠缺,可以證明本文算法的特征提取能力仍需增強(qiáng),下一步研究中,將進(jìn)一步增大圖像感受野,提高網(wǎng)絡(luò)的特征提取能力,提高對(duì)于水上障礙物的檢測(cè)精度。