張?chǎng)┈|,傅啟凡,王營(yíng)冠,傅衡成,魏 智,丁華澤
1.中國(guó)科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所 中國(guó)科學(xué)院無(wú)線傳感網(wǎng)與通信重點(diǎn)實(shí)驗(yàn)室,上海 201800
2.中國(guó)科學(xué)院大學(xué),北京 100864
炮彈射擊與空中投彈等訓(xùn)練效果評(píng)估是現(xiàn)代軍事訓(xùn)練中的重要內(nèi)容,目前仍以人工報(bào)靶方式為主,即需要相關(guān)人員進(jìn)入靶場(chǎng)測(cè)量彈著點(diǎn)與靶標(biāo)之間的偏移量實(shí)現(xiàn)訓(xùn)練效果評(píng)價(jià),存在實(shí)時(shí)性差、效率低、危險(xiǎn)系數(shù)高等問(wèn)題。因此,在靶場(chǎng)環(huán)境下實(shí)現(xiàn)快速自動(dòng)報(bào)靶,對(duì)于相關(guān)部隊(duì)日常訓(xùn)練意義重大。
由于炮彈爆炸時(shí)會(huì)產(chǎn)生聲音、震動(dòng)、火焰等特征信號(hào),通過(guò)分析該類(lèi)信號(hào)確定炮彈落點(diǎn)位置成為目前自動(dòng)報(bào)靶系統(tǒng)的主流手段。利用聲音、震動(dòng)信號(hào)[1]識(shí)別炮彈火焰的計(jì)算復(fù)雜度低,但是由于聲音、震動(dòng)信號(hào)易受噪聲干擾和環(huán)境影響,導(dǎo)致定位結(jié)果偏差較大;同時(shí)聲音、震動(dòng)傳感器部署受陣列孔徑、陣型限制,部署難度大。而圖像識(shí)別技術(shù)的硬件部署要求低,定位準(zhǔn)確度高,且不受風(fēng)力、風(fēng)向、溫度、地質(zhì)條件等影響。因此利用圖像識(shí)別技術(shù)準(zhǔn)確捕捉爆炸產(chǎn)生的火焰,從而準(zhǔn)確定位炮彈落點(diǎn)的方法成為目前的研究熱點(diǎn)。由于圖像識(shí)別技術(shù)針對(duì)炮彈火焰的定位主要依賴(lài)于所檢測(cè)到的炮彈火焰輪廓的精確度,所以需要對(duì)爆炸火焰的外部輪廓進(jìn)行高精度分割。因此,如何準(zhǔn)確分割炮彈火焰,就成為自動(dòng)報(bào)靶系統(tǒng)的核心關(guān)鍵技術(shù)問(wèn)題。
基于圖像方法的傳統(tǒng)火焰分割技術(shù)大多使用多級(jí)模式識(shí)別,主要環(huán)節(jié)包括特征的檢測(cè)、識(shí)別、分類(lèi)等,火焰特征提取是算法流程的基礎(chǔ)。其特征主要分為靜態(tài)特征與動(dòng)態(tài)特征,靜態(tài)特征主要包括:火焰顏色[2-3]、紋理[4]、形狀[5]等?;鹧娴膭?dòng)態(tài)特征主要體現(xiàn)為時(shí)域上的獨(dú)特性質(zhì),比如火焰在燃燒時(shí)不斷閃爍跳動(dòng)并伴有形狀的變化。前期研究中,通過(guò)幀間差分法[6]、小波變換[7]、傅里葉變換[8]等方法對(duì)火焰的動(dòng)態(tài)特征進(jìn)行提取?;趫D像的傳統(tǒng)火焰分割技術(shù)存在缺陷,需要研究者根據(jù)已有的信息手工進(jìn)行特征的設(shè)計(jì)和調(diào)整,導(dǎo)致特征的抽取不夠充分,造成了分割結(jié)果精度不高、場(chǎng)景適應(yīng)性差等問(wèn)題。
近年來(lái),隨著計(jì)算機(jī)視覺(jué)快速發(fā)展,基于深度學(xué)習(xí)的語(yǔ)義分割算法被廣泛應(yīng)用。該類(lèi)算法主要采用深度神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行細(xì)粒度特征提取,對(duì)圖像中每個(gè)像素點(diǎn)進(jìn)行類(lèi)別標(biāo)記,分割出目標(biāo)區(qū)域,與傳統(tǒng)的基于特征的人工提取方法相比,該方法具有較強(qiáng)的魯棒性。Zhao 等人[9]提出了金字塔場(chǎng)景解析網(wǎng)絡(luò)(pyramid scene parsing network,PSPNet),利用層次全局先驗(yàn)結(jié)構(gòu)減少不同子區(qū)域之間相關(guān)信息的損失。Chen 等人[10-13]提出Deeplab系列算法,通過(guò)空洞卷積層保留池化層的位置信息,同時(shí)引入空間金字塔池化模塊,并利用編碼器-解碼器結(jié)構(gòu)恢復(fù)空間信息獲取目標(biāo)邊界。Yuan等 人[14]提 出OCRNet(object-contextual representations for semantic segmentation)算法,通過(guò)計(jì)算每個(gè)像素與各個(gè)目標(biāo)區(qū)域之間的相關(guān)性,將像素分類(lèi)問(wèn)題轉(zhuǎn)化為物體區(qū)域分類(lèi)問(wèn)題,顯式地增強(qiáng)了同類(lèi)別物體像素的貢獻(xiàn)。Zheng 等人[15]提出SETR(segmentation Transformer)算法,設(shè)計(jì)了漸進(jìn)式上采樣以及多層次特征加總的編碼器結(jié)構(gòu),提高像素恢復(fù)的能力。Xie 等人[16]提出了SegFormer(simple and efficient design for semantic segmentation with Transformers)算法,利用分層結(jié)構(gòu)的Transformer編碼器以及結(jié)合局部與全局注意力的MLP解碼器,構(gòu)成一種簡(jiǎn)單且性能強(qiáng)大的語(yǔ)義分割算法。Kirillov 等人[17]提出Pointrend 算法,針對(duì)邊界中分類(lèi)模糊的點(diǎn)進(jìn)行迭代訓(xùn)練,達(dá)到高質(zhì)量高像素的要求。YU等人[18]提出Bisenet v2 算法,利用語(yǔ)義分支與細(xì)節(jié)分支分別獲取特征上下文信息以及局部細(xì)節(jié),并通過(guò)聚合模塊進(jìn)行特征互補(bǔ),保證一定精度的前提下,實(shí)現(xiàn)輕量級(jí)語(yǔ)義分割算法。隨著基于深度學(xué)習(xí)的語(yǔ)義分割算法持續(xù)創(chuàng)新,火焰特征提取由最初的淺層特征演化到深層特征[19-20]。朱紅等人[21]提出針對(duì)火焰圖像,采用深度學(xué)習(xí)Unet+ResNet的方法得到最佳分割效果。谷世舉等人[22]采用基于Unet[23]的語(yǔ)義分割模型對(duì)炮口火焰進(jìn)行分割,該算法引入深度可分離卷積與殘差結(jié)構(gòu),提升炮口火焰的分割效果。寧陽(yáng)等人[24]提出的改進(jìn)DeeplabV3+的火焰分割與火情分析方法,添加低層特征,使之與高層特征相結(jié)合以捕捉更多的細(xì)節(jié)信息。路茗等人[25]提出基于顯著性目標(biāo)檢測(cè)的改進(jìn)火焰檢測(cè)算法,采用并列交叉的雙分支ResNet 和注意力機(jī)制網(wǎng)絡(luò),使網(wǎng)絡(luò)學(xué)習(xí)聚焦有用通道和空間位置的能力。
上述基于深度學(xué)習(xí)的語(yǔ)義分割算法中Unet、PSPNet、Deeplabv3、OCRNet等,均在整個(gè)圖像上分割火焰,分割結(jié)果易受黑煙、揚(yáng)塵等背景雜質(zhì)的影響,因此無(wú)法滿足準(zhǔn)確分割炮彈爆炸場(chǎng)景中火焰的要求。而SETR 以及SegFormer 算法在網(wǎng)絡(luò)中加入了注意力機(jī)制,能夠解決背景雜質(zhì)的影響,但是輸入序列較長(zhǎng)導(dǎo)致參數(shù)量過(guò)大,對(duì)硬件要求高,部署難度大。除此之外,由于火焰的動(dòng)態(tài)特性,在同一區(qū)域采集到的是不同狀態(tài)火焰的時(shí)間序列圖像,導(dǎo)致火焰樣本標(biāo)記和結(jié)果驗(yàn)證較為困難;并且在大多數(shù)情況下,火焰在圖像上所占的像素?cái)?shù)量明顯少于背景像素?cái)?shù)量,需要處理樣本不平衡問(wèn)題。
針對(duì)上述問(wèn)題,本文基于PSPNet算法提出PSP_FPT算法,用于挖掘圖像中的深層語(yǔ)義信息,使不同感受野的語(yǔ)義特征得到充分融合,以提升炮彈火焰分割任務(wù)的魯棒性、精確性以及場(chǎng)景實(shí)用性。本文的主要?jiǎng)?chuàng)新點(diǎn):
(1)本文設(shè)計(jì)了雙向特征融合模塊(bidirectional feature pyramid network,Bi-FPN)促使全局池化模塊輸出的炮彈火焰圖像各子區(qū)域特征,在空間和語(yǔ)義上得到充分融合,以增強(qiáng)各子區(qū)域目標(biāo)空間結(jié)構(gòu)之間的關(guān)聯(lián)性,提高算法的準(zhǔn)確率。
(2)本文設(shè)計(jì)并提出了基于全注意力機(jī)制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換(feature pyramid with transformer,F(xiàn)PT)模塊,利用全注意力機(jī)制網(wǎng)絡(luò),根據(jù)重要性對(duì)各個(gè)通道和空間特征進(jìn)行自適應(yīng)調(diào)節(jié),聚焦有用信息,解決了火焰樣本數(shù)據(jù)不平衡的問(wèn)題;同時(shí),由于全注意力機(jī)制網(wǎng)絡(luò)中的不同多頭注意力機(jī)制能夠分別聚焦前、后景特征,因此可以提高炮彈火焰前景與黑煙、揚(yáng)塵等背景雜質(zhì)之間的判別力,即可以在預(yù)測(cè)過(guò)程中更有效地排除黑煙等背景干擾,提高炮彈火焰目標(biāo)的分割能力。
(3)本文針對(duì)算法復(fù)雜度問(wèn)題,設(shè)計(jì)將金字塔池化模塊處理后的特征圖傳入全注意力機(jī)制網(wǎng)絡(luò)中,縮短輸入序列的長(zhǎng)度,減少算法的參數(shù)量,提高算法的場(chǎng)景實(shí)用性。
本文提出的PSP_FPT算法結(jié)構(gòu)在PSPNet算法整體結(jié)構(gòu)的基礎(chǔ)上,設(shè)計(jì)了雙向特征融合模塊及基于全注意力機(jī)制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊,對(duì)金字塔池化模塊輸出的特征進(jìn)行優(yōu)化處理,實(shí)現(xiàn)炮彈火焰的精準(zhǔn)分割。
PSP_FPT 算法分為五個(gè)部分,分別為主干網(wǎng)絡(luò)、金字塔池化模塊、雙向特征融合模塊、基于全注意力機(jī)制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊以及全卷積分類(lèi)網(wǎng)絡(luò)組成,算法框架結(jié)構(gòu)圖如圖1所示,PSP_FPT算法由主干網(wǎng)絡(luò)ResNet-34、金字塔池化模塊、雙向特征融合模塊、基于全注意力機(jī)制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊、全卷積分類(lèi)網(wǎng)絡(luò)組成,核心模塊由雙向特征融合模塊以及基于全注意力機(jī)制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊組成,其中雙向特征融合模塊對(duì)各池化特征進(jìn)行上、下采樣與特征融合的操作組成。
圖1 PSP_FPT算法結(jié)構(gòu)Fig.1 Pipeline of PSP_FPT algorithm
第一部分為主干網(wǎng)絡(luò),將原始圖像剪裁為512×512的大小后,送入ResNet-34網(wǎng)絡(luò),提取Conv2_x、Conv3_x、Conv4_x、Conv5_x層,將后三層上采樣至Conv2_x相同尺寸,連接4層特征圖用于后續(xù)特征信息處理。
第二部分是金字塔池化模塊,將主干網(wǎng)絡(luò)輸出的特征圖傳入金字塔池化模塊。針對(duì)主干網(wǎng)絡(luò)輸出特征圖的全局以及1/4、1/9、1/36子區(qū)域分別進(jìn)行全局平均池化操作。為了更好地獲得炮彈火焰的輪廓細(xì)節(jié),本文增加了12×12的池化層,即進(jìn)一步獲得1/144子區(qū)域的目標(biāo)特征。
第三部分是雙向特征融合模塊,將金字塔池化后的特征圖傳入雙向特征融合模塊,完成各池化特征圖的上、下采樣操作并與相應(yīng)的原池化特征圖連接。
第四部分是基于全注意力機(jī)制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊,將雙向特征融合模塊的輸出結(jié)果傳入全注意力機(jī)制網(wǎng)絡(luò)。網(wǎng)絡(luò)輸出帶有多頭注意力權(quán)重的特征圖,將其通過(guò)1×1 Conv 進(jìn)行融合,對(duì)融合特征按尺寸進(jìn)行排序,并連接相同空間維度的特征,通過(guò)卷積操作使該特征與金字塔池化模塊原始輸出特征維度相同,最終得到新的特征金字塔。將該特征金字塔各層進(jìn)行上采樣,使它們與主干網(wǎng)絡(luò)輸出的原特征圖尺寸相同,將各層特征連接后輸出。輸出特征為全局交互的結(jié)果,從而達(dá)到圖像中各子區(qū)域目標(biāo)的空間結(jié)構(gòu)以及語(yǔ)義信息得到充分理解的目的。
第五部分為全卷積分類(lèi)網(wǎng)絡(luò),將融合后的特征圖經(jīng)過(guò)全卷積分類(lèi)網(wǎng)絡(luò)輸出最終分割結(jié)果。
PSPNet[9]算法通過(guò)提出金字塔場(chǎng)景分析網(wǎng)絡(luò),對(duì)不同區(qū)域的語(yǔ)境進(jìn)行聚合,使算法擁有理解全局語(yǔ)境信息的能力。該算法使用擴(kuò)展后的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)進(jìn)行像素級(jí)類(lèi)別預(yù)測(cè),同時(shí)擴(kuò)展到全局金字塔池化模塊(pyramid pooling module,PPM),模塊結(jié)構(gòu)如圖2所示。
圖2 Pyramid Pooling Module模塊結(jié)構(gòu)Fig.2 Pipeline of Pyramid Pooling Module
該模塊針對(duì)主干網(wǎng)絡(luò)輸出的特征信息,基于不同尺度子區(qū)域進(jìn)行全局平均池化操作,得到相應(yīng)池化特征圖,即1×1、2×2、3×3、6×6的特征圖。各池化特征圖經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)改變通道數(shù),輸出結(jié)果上采樣至主干網(wǎng)絡(luò)輸出的原特征圖尺寸并進(jìn)行融合,以獲取圖像不同區(qū)域的特征信息,最后將融合結(jié)果通過(guò)卷積神經(jīng)網(wǎng)絡(luò)得到最終輸出結(jié)果。
為了將金字塔池化模塊中各子區(qū)域與全局目標(biāo)特征進(jìn)行相互關(guān)聯(lián),本文設(shè)計(jì)雙向特征融合模塊。該模塊由上、下采樣兩部分組成。
上采樣部分由自底向上特征融合(bottom-up feature fusion module,bottom-up FFM)模塊進(jìn)行實(shí)現(xiàn),模塊結(jié)構(gòu)如圖3所示。
圖3 自底向上特征融合模塊Fig.3 Bottom-up feature fusion module
其中,為了將低層特征圖的像素屬性植入高層特征圖,該模塊首先針對(duì)低層特征圖進(jìn)行雙線性插值,即通過(guò)已知像素點(diǎn)填充未知像素點(diǎn),將低層特征圖放大至與對(duì)應(yīng)高層特征圖相同空間維度大小。由于低層池化特征圖的像素點(diǎn)較少,僅利用雙線性插值將空間維度為1×1、2×2 等低層池化特征圖進(jìn)行對(duì)應(yīng)空間維度的像素恢復(fù)時(shí),因低層池化特征圖的像素點(diǎn)較少,已知的鄰近像素點(diǎn)會(huì)出現(xiàn)嚴(yán)重缺失。這將導(dǎo)致圖像鄰域插值計(jì)算誤差性較大,恢復(fù)效果模糊的問(wèn)題。因此本文在上采樣模塊中添加一層卷積神經(jīng)網(wǎng)絡(luò),新增一部分可學(xué)習(xí)參數(shù),用于預(yù)測(cè)對(duì)應(yīng)高層特征圖,使算法能夠通過(guò)參數(shù)學(xué)習(xí),自適應(yīng)學(xué)習(xí)上采樣過(guò)程,盡可能還原特征圖信息。假設(shè)輸入特征數(shù)據(jù)為xi∈Rp×p×c(i=1,2,3,4,5),其中p×p為池化特征圖的空間維度大小;c為特征通道數(shù)。針對(duì)第j層池化特征圖xj(j=2,3,4,5),將第i層池化特征圖xi(i <j)通過(guò)雙線性插值上采樣至與xj相同空間維度,采樣結(jié)果與1×1×c的卷積核進(jìn)行卷積,得到輸出結(jié)果yi。
下采樣部分由自頂向下特征融合模塊(top-down feature fusion module,Top-down FFM)實(shí)現(xiàn)。其中,為了將高層特征圖的概念屬性融入低層特征圖,該模塊針對(duì)高層特征圖采用卷積神經(jīng)網(wǎng)絡(luò)完成下采樣操作,模塊結(jié)構(gòu)如圖4所示。
圖4 自頂向下特征融合模塊Fig.4 Top-down feature fusion module
針對(duì)第j層池化特征圖xj(j=1,2,3,4),將第i層池化特征圖xi(i >j)輸入卷積神經(jīng)網(wǎng)絡(luò),得到輸出結(jié)果yi。綜上,雙向特征融合模塊,每個(gè)部分的輸出為:
其中,?(·)表示雙線性插值函數(shù),N(·)表示卷積操作。將雙向特征融合模塊輸出結(jié)果yi分別與各自對(duì)應(yīng)的池化特征圖xj進(jìn)行融合,得到輸出結(jié)果:
其中,oi,j表示第i層池化特征圖xi采樣至與第j層池化特征圖xj相同空間維度得到輸出結(jié)果yi,將xj與yi融合得到輸出結(jié)果oi,j,在各層池化特征圖中實(shí)現(xiàn)目標(biāo)各子區(qū)域特征的空間維度非局部性交互。
本文設(shè)計(jì)的雙向特征融合模塊用于解決因上下文信息交互不足導(dǎo)致的分割精度下降的問(wèn)題。由于金字塔池化模塊輸出的各層特征圖包含分割目標(biāo)在不同子區(qū)域的空間特征以及語(yǔ)義特征,通過(guò)將本層池化特征圖與其余各層池化特征圖對(duì)應(yīng)連接,使分割目標(biāo)在不同子區(qū)域的空間特征得到相互印證,從而提高算法對(duì)語(yǔ)義特征的理解能力。此外,本文設(shè)計(jì)的雙向特征融合模塊能保留池化特征圖原有信息,更有利于提升各層上下文信息的交互能力。
炮彈火焰分割任務(wù)涉及針對(duì)不同尺寸大小目標(biāo)的預(yù)測(cè)與分割,為了提高各子區(qū)域目標(biāo)空間和語(yǔ)義信息融合的程度,加深對(duì)圖像深層語(yǔ)義信息的理解,提高像素級(jí)別的預(yù)測(cè)能力。本文設(shè)計(jì)了如圖5 所示FPT 模塊。該模塊主要利用全注意力機(jī)制網(wǎng)絡(luò)擴(kuò)大感受野,加深整體網(wǎng)絡(luò)對(duì)圖像信息的理解[26]。
圖5 基于全注意力機(jī)制網(wǎng)絡(luò)的特征融合模塊結(jié)構(gòu)Fig.5 Feature fusion module structure based on full attention mechanism network
如圖5模塊結(jié)構(gòu)所示,首先利用全注意力機(jī)制網(wǎng)絡(luò)輸出帶有多頭注意力權(quán)重的特征圖,將其通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行融合;其次,對(duì)融合特征按尺寸進(jìn)行重排,并使用殘差模塊,將其與各自原始相同空間維度的特征進(jìn)行殘差連接;最后,通過(guò)卷積操作使該特征的維度與金字塔池化模塊原始輸出特征維度相同,得到新的特征金字塔。
其中,全注意力機(jī)制網(wǎng)絡(luò)相比于卷積神經(jīng)網(wǎng)絡(luò),更加關(guān)注全局信息,能夠?yàn)檩斎胩卣鹘⑴c其距離更長(zhǎng)的全局特征的依賴(lài)關(guān)系,對(duì)全局信息的捕捉能力強(qiáng),因此可以提高算法非局部交互的能力。同時(shí),利用網(wǎng)絡(luò)中的多頭注意力機(jī)制模塊,能夠使算法有選擇地聚焦于輸入的某些部分,使得推理更加高效。全注意力機(jī)制網(wǎng)絡(luò)的結(jié)構(gòu)與大多數(shù)端到端模型一致,由編碼器與解碼器組成,具體網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 全注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Full attention mechanism network structure
編碼器部分含有兩個(gè)相同的模組,各模組內(nèi)部單元包括多頭注意力機(jī)制(multi-head attention,MHA)以及前饋神經(jīng)網(wǎng)絡(luò)(feed forward network,F(xiàn)FN),同時(shí)為每個(gè)單元添加殘差模塊(residual module)和層歸一化(layer normalization,LN)模塊。其中,多頭注意力機(jī)制是由多個(gè)注意力層拼接合成,即對(duì)同一特征圖進(jìn)行多次映射,使算法學(xué)習(xí)聚焦同一特征圖,針對(duì)不同目標(biāo)的感興趣區(qū)域,提高算法對(duì)目標(biāo)與背景的辨別力;同時(shí),由于多頭注意力機(jī)制利用各自獨(dú)立隨機(jī)初始化的權(quán)重矩陣學(xué)習(xí)對(duì)應(yīng)的查詢(xún)矩陣、鍵矩陣及實(shí)值矩陣,使特征圖映射到不同子空間中,進(jìn)一步豐富了信息的表達(dá),進(jìn)而使特征圖的語(yǔ)義信息更加充分。公式如下所示:
其中,Q表示注意力層的查詢(xún)矩陣,K表示注意力層的鍵矩陣,V表示注意力層的實(shí)值矩陣,它們分別由輸入向量通過(guò)全連接層輸出得到。dk表示輸入向量的通道維度,用以防止向量分布不均勻,Attn(n=1,2,…,n)表示注意力權(quán)重,Matt表示將多頭注意力權(quán)重進(jìn)行連接后的結(jié)果。解碼器和編碼器的結(jié)構(gòu)類(lèi)似,區(qū)別在于其多一個(gè)多頭注意力機(jī)制模塊。
在基于全注意力機(jī)制網(wǎng)絡(luò)的特征金字塔轉(zhuǎn)換模塊中,首先將雙向特征融合模塊的輸出oi,j∈Rp×p×2c(i,j=1,2,3,4,5) 通過(guò)卷積神經(jīng)網(wǎng)絡(luò)壓縮成(i,j=1,2,3,4,5),然后利用全注意力機(jī)制網(wǎng)絡(luò)得到各池化特征圖全局交互后的增強(qiáng)特征:
其 中,pi,j∈Rp×p×c(i,j=1,2,3,4,5) 表示增強(qiáng)特征,A(·)表示全注意力機(jī)制網(wǎng)絡(luò)。
之后,對(duì)增強(qiáng)特征pi,j按尺寸進(jìn)行排序,將維度大小相同的特征疊加,并與輸入的池化特征xj進(jìn)行殘差連接:
全注意力機(jī)制網(wǎng)絡(luò)中的部分編碼器、解碼器以及頭部的空間注意力特征圖如圖7所示。
圖7 全注意力機(jī)制網(wǎng)絡(luò)內(nèi)部部分注意力權(quán)重Fig.7 Parts of spatial attention maps in full attention mechanism network
圖中concat_featuresi-j表示第i層池化特征圖經(jīng)采樣后與第j層池化特征圖融合后的結(jié)果,attn_every_headsi-j、enc_attn_weightsi-j、dec_attn_weightsi-j分別表示融合結(jié)果經(jīng)過(guò)全注意力機(jī)制網(wǎng)絡(luò)輸出的總體注意力權(quán)重圖以及對(duì)應(yīng)的編、解碼器內(nèi)部的注意力權(quán)重圖,圖中淺色部分表示相對(duì)重要的區(qū)域,其中attn_every_headsi-j與增強(qiáng)特征pi,j表示相同含義。由圖7可見(jiàn),各全注意力機(jī)制網(wǎng)絡(luò)對(duì)不同融合特征圖所聚焦的空間位置信息不同。因此,利用全注意力機(jī)制網(wǎng)絡(luò)能夠聚合不同融合特征圖的語(yǔ)義與空間信息,提高算法的非局部性交互;同時(shí),效仿空間和通道維度中的語(yǔ)義關(guān)聯(lián)性,找出對(duì)最終分類(lèi)決策起到重要影響的像素區(qū)域,確保目標(biāo)分割的準(zhǔn)確性。
FPT 模塊結(jié)合Bi-FPN 模塊,將子區(qū)域特征圖中的概念屬性植入全局特征圖的像素屬性;同時(shí),用全局特征圖中的像素屬性渲染子區(qū)域特征圖中的概念屬性;同層中使用相同尺度內(nèi)不同空間之間的非局部交互,使得輸出的特征圖為全局交互的結(jié)果。最終,實(shí)現(xiàn)不同空間以及不同維度的非局部性交互,既能得到更大感受野,又可以捕捉到更為細(xì)節(jié)的特征信息,解決原本金字塔池化模塊丟失目標(biāo)輪廓細(xì)節(jié)信息的問(wèn)題。
目前,由于很少有公開(kāi)基于靶場(chǎng)的炮彈火焰數(shù)據(jù)集,本文訓(xùn)練圖像數(shù)據(jù)集主要來(lái)源于真實(shí)靶場(chǎng)射擊訓(xùn)練過(guò)程中的炮彈火焰照片。在某靶場(chǎng)射擊區(qū)域四周各角點(diǎn)處安裝4 臺(tái)高速攝像機(jī),每臺(tái)攝像機(jī)幀率為20 幀/s,圖像分辨率為4 096×2 180。在靶區(qū)內(nèi)進(jìn)行日常射擊訓(xùn)練時(shí),4臺(tái)高速攝像機(jī)會(huì)實(shí)時(shí)拍攝靶區(qū)內(nèi)炮彈落地爆炸后的火焰圖像。在數(shù)據(jù)集中炮彈火焰所占的像素?cái)?shù)量明顯少于背景像素?cái)?shù)量,為減少存儲(chǔ)容量,優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,本文將原始數(shù)據(jù)集以火焰區(qū)域?yàn)橹行牟眉魹?08×608大小的圖片。本文的炮彈火焰數(shù)據(jù)集,包含1 459張炮彈火焰圖像,數(shù)據(jù)集效果圖如圖8所示,其中左邊為原圖,右邊為語(yǔ)義分割標(biāo)記結(jié)果。
圖8 炮彈火焰數(shù)據(jù)集示例Fig.8 Artillery flame dataset example
本文算法在訓(xùn)練過(guò)程中采用隨機(jī)梯度下降優(yōu)化器,數(shù)據(jù)批次大小為4,學(xué)習(xí)率設(shè)置為1E-4,動(dòng)量為0.9,權(quán)重衰減為1E-5。本文評(píng)價(jià)模型選取平均交并比mIOU(mean intersection over union)以及平均準(zhǔn)確度mAcc(mean accuracy)作為像素級(jí)語(yǔ)義分割的評(píng)價(jià)指標(biāo),采用混淆矩陣的方法,公式如下所示:
其中,pii(i=j)表示原本為第i類(lèi),同時(shí)預(yù)測(cè)為第i類(lèi),即真陽(yáng)性和真陰性;pij(i≠j)表示原本為第i類(lèi)被預(yù)測(cè)為第j類(lèi),即假陽(yáng)性和假陰性。平均交并比是算法在所有測(cè)試集上每類(lèi)真實(shí)標(biāo)簽和預(yù)測(cè)值的交和并的比值的平均值,用于衡量預(yù)測(cè)結(jié)果與真實(shí)值之間的重疊度;平均準(zhǔn)確率是算法在所有測(cè)試集上每類(lèi)預(yù)測(cè)正確的數(shù)量與每類(lèi)總體數(shù)量的比值的平均值,用于衡量預(yù)測(cè)結(jié)果的精確度。
本文實(shí)驗(yàn)使用Python3.7,Pytorch 框架,在顯存為11 GB的TiTan V GPU上運(yùn)行。
本文為了驗(yàn)證Bi-FPN 模塊與FPT 模塊的有效性,進(jìn)行了消融實(shí)驗(yàn)。消融實(shí)驗(yàn)結(jié)果如表1所示。
表1 消融實(shí)驗(yàn)實(shí)驗(yàn)結(jié)果Table 1 Ablation experimental results
從實(shí)驗(yàn)結(jié)果中可以看出PSP_FPT算法的有效性,具體分析如下:
(1)針對(duì)Bi-FPN 模塊進(jìn)行消融實(shí)驗(yàn)。其中,去除Bi-FPN 模塊后,mIOU 下降3.94 個(gè)百分點(diǎn),mAcc 下降1.25 個(gè)百分點(diǎn)。主要原因在于:去除Bi-FPN 模塊后的算法,將空間維度為1×1、2×2等的池化特征圖直接通過(guò)全注意力機(jī)制網(wǎng)絡(luò)輸出,其輸出的注意力權(quán)重信息有限,且各子區(qū)域的深層語(yǔ)義信息與淺層空間信息無(wú)法進(jìn)行交互,導(dǎo)致預(yù)測(cè)效果欠佳。本文提出的雙向特征融合模塊能夠有效地將不同層信息進(jìn)行融合,使得像素級(jí)的分類(lèi)準(zhǔn)確率大幅提升。
(2)針對(duì)FPT 模塊的消融實(shí)驗(yàn),本文引入了基于卷積神經(jīng)網(wǎng)絡(luò)的金字塔轉(zhuǎn)換模塊(feature pyramid with CNN,F(xiàn)PC),兩者區(qū)別在于對(duì)Bi-FPN 模塊輸出后的特征處理:FPC 模塊采用卷積神經(jīng)網(wǎng)絡(luò),而FPT 模塊則使用全注意力機(jī)制網(wǎng)絡(luò)。從實(shí)驗(yàn)結(jié)果可知,F(xiàn)PT模塊性能更佳,其mIOU優(yōu)于FPC模塊4.03個(gè)百分點(diǎn),mAcc優(yōu)于FPC 模塊1.35 個(gè)百分點(diǎn)。主要原因在于全注意力機(jī)制網(wǎng)絡(luò)能夠分析空間信息的重要程度,并對(duì)特征進(jìn)行重新映射,將圖像中不同區(qū)域進(jìn)行分別處理。進(jìn)一步分析,全注意力機(jī)制網(wǎng)絡(luò)中的一部分注意力模塊將炮彈火焰區(qū)域作為感興趣區(qū)域,能夠較好地辨別前景分割目標(biāo)特征,并完成高精度分割的任務(wù);而將背景作為感興趣區(qū)域,能夠較好地辨別濃煙、揚(yáng)塵等背景干擾,將其與前景炮彈火焰特征加以區(qū)分;最后將多個(gè)全注意力機(jī)制網(wǎng)絡(luò)結(jié)果進(jìn)行綜合分析,能夠確保目標(biāo)分割的準(zhǔn)確性。
此外,本文針對(duì)Bi-FPN 模塊以及FPT 模塊的算法復(fù)雜度進(jìn)行計(jì)算,如表1 所示,實(shí)驗(yàn)結(jié)果表明PSP_FPT算法通過(guò)犧牲1.448 GFLOPs 的算法復(fù)雜度,提升了3.94 個(gè)百分點(diǎn)的mIOU 指標(biāo)以及1.26 個(gè)百分點(diǎn)的mAcc指標(biāo);同時(shí),F(xiàn)PT模塊犧牲0.696 GFLOPs的算法復(fù)雜度,提升了0.41 個(gè)百分點(diǎn)的mIOU 指標(biāo)以及1.83 個(gè)百分點(diǎn)的mAcc指標(biāo)。實(shí)驗(yàn)結(jié)果表明,Bi-FPN模塊以及FPT模塊通過(guò)消耗較小的算法復(fù)雜度換取較大的性能提升。
綜上所述,消融實(shí)驗(yàn)結(jié)果表明使用PSP_FPT算法能夠更好地將特征圖的上下文空間、語(yǔ)義信息進(jìn)行融合,對(duì)圖片達(dá)到深度理解的目的,提升語(yǔ)義分割算法的準(zhǔn)確性和魯棒性。
為了更好地驗(yàn)證PSP_FPT算法效果,本文的消融實(shí)驗(yàn)增加了目前特征融合算法中性能最佳的特征金字塔網(wǎng)絡(luò)[27](feature pyramid network,F(xiàn)PN)與之做對(duì)比,如表2所示。
表2 對(duì)比特征融合模塊的消融實(shí)驗(yàn)結(jié)果Table 2 Ablation experimental results for contrasting feature fusion module 單位:%
實(shí)驗(yàn)結(jié)果表明本文的算法效果更佳,mIOU優(yōu)于FPN算法4.81個(gè)百分點(diǎn),mAcc優(yōu)于FPN算法1.61個(gè)百分點(diǎn)。
綜合本次消融實(shí)驗(yàn)的結(jié)果,PSP_FPT算法應(yīng)用于炮彈火焰數(shù)據(jù)集的語(yǔ)義分割效果最佳。
為了驗(yàn)證PSP_FPT 算法對(duì)炮彈火焰目標(biāo)分割的性能,本文對(duì)比基于深度學(xué)習(xí)的語(yǔ)義分割算法Deeplabv3[12]、Deeplabv3+[13]、OCRNet[14]等,實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同深度學(xué)習(xí)的語(yǔ)義分割算法對(duì)比實(shí)驗(yàn)結(jié)果Table 3 Experimental results of different semantic segmentation algorithms with depth learning 單位:%
該實(shí)驗(yàn)結(jié)果表明,PSP_FPT 算法的mIOU 以及mAcc 指標(biāo)最優(yōu),證明PSP_FPT 算法對(duì)于炮彈火焰分割能力強(qiáng),細(xì)節(jié)輪廓的處理表現(xiàn)最佳。
為了驗(yàn)證PSP_FPT算法針對(duì)火焰目標(biāo)的有效性,本文還加入了基于深度學(xué)習(xí)的火焰分割算法,改進(jìn)的Unet[22]、改進(jìn)的Deeplabv3+[24]、Bi-SegNet[25]等進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。
表4 火焰分割算法對(duì)比實(shí)驗(yàn)結(jié)果Table 4 Experimental results of different flame segmentation algorithms 單位:%
該實(shí)驗(yàn)結(jié)果表明,PSP_FPT 算法的mIOU 以及mAcc 在基于深度學(xué)習(xí)的火焰分割算法中表現(xiàn)最優(yōu),證明PSP_FPT 算法在針對(duì)炮彈火焰特定目標(biāo)的像素級(jí)分類(lèi)能力最強(qiáng),細(xì)節(jié)輪廓的處理表現(xiàn)最佳。
為了體現(xiàn)本文算法在工程部署上的優(yōu)勢(shì),本文還引入了浮點(diǎn)運(yùn)算數(shù)(Giga floating point operations,GFLOPs)指標(biāo),用來(lái)衡量算法復(fù)雜度。但是,由于炮彈火焰定位需要準(zhǔn)確的分割結(jié)果用于滿足后續(xù)定位的工程需求,所以本文僅針對(duì)平均交并比高于95%的算法完成計(jì)算復(fù)雜度的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。
表5 算法復(fù)雜度大小對(duì)比Table 5 FLOPs of different algorithms
從表5 結(jié)果可以看出,PSP_FPT 算法的算法復(fù)雜度最低,說(shuō)明本文算法在保證炮彈火焰精準(zhǔn)分割的前提下,仍能保持較低的計(jì)算復(fù)雜度,具有較好的場(chǎng)景實(shí)用性。
為了驗(yàn)證PSP_FPT算法的有效性,本文還加入了目前主流的基于全注意力機(jī)制網(wǎng)絡(luò)的語(yǔ)義分割算法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示。
表6 基于注意力機(jī)制的語(yǔ)義分割算法對(duì)比實(shí)驗(yàn)結(jié)果Table 6 Experimental results of semantic segmentation algorithms based on attention mechanism 單位:%
從表6 中可以看出PSP_FPT 算法相較于使用Vit(vision Transformer)作為主干網(wǎng)絡(luò)的SETR算法和Seg-Former算法,mIOU分別提升了3.64個(gè)百分點(diǎn)和4.01個(gè)百分點(diǎn),mAcc 分別提升了1.12 個(gè)百分點(diǎn)和1.37 個(gè)百分點(diǎn),因此,PSP_FPT 算法在同類(lèi)基于全注意力機(jī)制網(wǎng)絡(luò)的算法中,預(yù)測(cè)能力更強(qiáng)。以上三種語(yǔ)義分割算法模型大小結(jié)果如表7所示。
根據(jù)表7 結(jié)果可以看出,SETR 算法的參數(shù)量為本文算法的5.084倍,SegFormer算法較本文算法的參數(shù)量多23.86 MB,因此,本文使用全局池化過(guò)后的特征作為全注意力機(jī)制網(wǎng)絡(luò)的輸入可有效減小算法參數(shù)量。因此,本文算法在使用Transformer 的系列算法中參數(shù)量最小,場(chǎng)景實(shí)用性較強(qiáng)。
將本文算法與基礎(chǔ)算法PSPNet算法進(jìn)行多項(xiàng)指標(biāo)對(duì)比,如表8所示,F(xiàn)P(false positive)用于驗(yàn)證算法對(duì)圖像中炮彈火焰目標(biāo)的誤檢率,TP(true positive)為火焰分割的準(zhǔn)確率,F(xiàn)N(false negative)用于驗(yàn)證算法對(duì)于炮彈火焰目標(biāo)的漏檢率,TN(true negative)為背景分割的準(zhǔn)確度。
表8 本文算法與PSPNet算法對(duì)比結(jié)果Table 8 Comparison results between PSP_FPT and PSPNet單位:%
如表8 所示,PSP_FPT 算法相較于PSPNet 算法,其誤檢率僅為1.91%,漏檢率僅為0.14%,證明該算法有較強(qiáng)的抗干擾能力和魯棒性。同時(shí),相較于PSPNet算法,火焰的誤檢率降低了4.19個(gè)百分點(diǎn),背景分割的準(zhǔn)確度提高了0.38個(gè)百分點(diǎn),證明本文算法能夠更精細(xì)地分割目標(biāo)輪廓,有效解決了PSPNet 算法對(duì)目標(biāo)細(xì)節(jié)輪廓分割效果欠佳的問(wèn)題。
本次實(shí)驗(yàn)結(jié)果如圖9所示,從圖(a)可以看出,本文算法在對(duì)小目標(biāo)分割時(shí),仍然保持較高的分割能力,解決了樣本不平衡的分類(lèi)問(wèn)題;從圖(b)和圖(d)的標(biāo)注框中可以看出,PSP_FPT算法對(duì)于目標(biāo)輪廓的細(xì)節(jié)處理更強(qiáng),能夠?qū)⑴趶椈鹧孢吘壍奈⑿∽兓M(jìn)行精準(zhǔn)預(yù)測(cè);從圖(c)的標(biāo)注框中可以明顯看出,PSPNet算法將炮彈火焰的煙霧誤認(rèn)為是火焰本體,相反PSP_FPT算法能夠排除炮彈爆炸產(chǎn)生的煙霧、揚(yáng)塵干擾,魯棒性強(qiáng),能夠更準(zhǔn)確地識(shí)別出炮彈火焰的輪廓,說(shuō)明算法對(duì)于炮彈火焰特征的學(xué)習(xí)與篩選準(zhǔn)確,確保后續(xù)針對(duì)火焰定位的精準(zhǔn)性。
圖9 基于PSP_FPT網(wǎng)絡(luò)的炮彈火焰圖片語(yǔ)義分割結(jié)果Fig.9 Semantic segmentation results of artillery flame image based on PSP_FPT
總體對(duì)比實(shí)驗(yàn)結(jié)果如圖10所示。
圖10 對(duì)比實(shí)驗(yàn)結(jié)果Fig.10 Comparative experimental results
根據(jù)實(shí)驗(yàn)結(jié)果分析,PSP_FPT 算法誤檢率低,對(duì)于炮彈火焰輪廓的細(xì)節(jié)處理準(zhǔn)確,環(huán)境適應(yīng)性強(qiáng)、魯棒性高,能夠?yàn)楹罄m(xù)炮彈目標(biāo)定位提供有效的條件基礎(chǔ)。
針對(duì)火焰的動(dòng)態(tài)屬性進(jìn)行測(cè)試,該實(shí)驗(yàn)選取某臺(tái)高速攝像機(jī)的連續(xù)幀圖像對(duì)炮彈火焰進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果如圖11 所示,其中測(cè)試結(jié)果包含某高速攝像機(jī)連續(xù)幀的分割結(jié)果。
圖11 連續(xù)幀炮彈火焰分割效果Fig.11 Segmentation effect of fire artillery in continuous frames
從圖中可以看出,PSP_FPT算法能夠連續(xù)捕捉炮彈火焰的動(dòng)態(tài)變化,保證每一幀分割的準(zhǔn)確性,面向高速相機(jī)對(duì)靶場(chǎng)炮彈目標(biāo)捕捉的任務(wù),該算法可提供火焰目標(biāo)的精準(zhǔn)動(dòng)態(tài)分割,為后續(xù)炮彈目標(biāo)的定位提供有力保障,將進(jìn)一步提升靶場(chǎng)對(duì)彈著點(diǎn)自動(dòng)報(bào)靶的測(cè)量精度。
本文提出基于改進(jìn)PSPNet 的炮彈火焰分割算法PSP_FPT 算法,該算法利用Bi-FPN 模塊提升池化特征圖中各子區(qū)域目標(biāo)空間結(jié)構(gòu)的關(guān)聯(lián)性,同時(shí)結(jié)合全注意力機(jī)制網(wǎng)絡(luò),優(yōu)化目標(biāo)特征的映射關(guān)系,實(shí)現(xiàn)了聚焦炮彈火焰目標(biāo)特征的作用。其中設(shè)計(jì)將金字塔池化模塊輸出的特征圖,作為全注意力機(jī)制網(wǎng)絡(luò)的輸入,有效減少訓(xùn)練參數(shù)。此外,該算法并不改變特征金字塔的尺寸,方便應(yīng)用于多種基于深度學(xué)習(xí)的網(wǎng)絡(luò)框架中。實(shí)驗(yàn)表明,本文算法在基于炮彈火焰數(shù)據(jù)集的語(yǔ)義分割效果好,平均交并比達(dá)98.01%,能夠?qū)ε趶椈鹧婺繕?biāo)進(jìn)行精準(zhǔn)分割;對(duì)連續(xù)幀炮彈火焰的分割效果穩(wěn)定,因此算法能夠?yàn)榘袌?chǎng)環(huán)境下炮彈火焰分割任務(wù)提供穩(wěn)健的技術(shù)支持,具有較高的場(chǎng)景適應(yīng)性和部署便捷的工程應(yīng)用優(yōu)勢(shì)。未來(lái)將針對(duì)本文算法采用更先進(jìn)的框架,并利用不同的注意力機(jī)制網(wǎng)絡(luò),探究其對(duì)炮彈火焰分割算法的影響。同時(shí),嘗試優(yōu)化算法,對(duì)其進(jìn)行剪枝操作,減小算法復(fù)雜度,進(jìn)一步提高算法的場(chǎng)景實(shí)用性。