摘" 要: 針對(duì)通道注意力降維時(shí)導(dǎo)致細(xì)節(jié)信息損失和特征融合不充分的問題,提出一種并行池化注意力及多特征融合增強(qiáng)方法。首先,對(duì)輸入圖像使用兩種池化模塊并行處理,實(shí)現(xiàn)特征注意力增強(qiáng)。其中:熵引導(dǎo)池化模塊利用通道信息熵生成特征權(quán)重系數(shù),加強(qiáng)邊緣紋理等細(xì)節(jié)信息;方向感知池化模塊捕獲圖像在垂直和水平方向上的空間方向信息,再計(jì)算通道均值實(shí)現(xiàn)逐步降維保留關(guān)鍵特征。其次,多特征融合增強(qiáng)模塊利用特征圖尺度的對(duì)數(shù)函數(shù)自適應(yīng)選取卷積核的大小,再將卷積后的特征分組重塑為與輸入圖像維度相同的通道、高度和寬度方向上的三個(gè)特征子圖,并進(jìn)行元素相乘獲得增強(qiáng)特征圖。最后,增強(qiáng)特征圖與輸入圖像加權(quán)融合,同時(shí)增強(qiáng)目標(biāo)的位置和細(xì)節(jié)信息。實(shí)驗(yàn)結(jié)果表明,文中方法在參數(shù)量不變的情況下,在VOC2007數(shù)據(jù)集上,mAP@0.5較YOLOX和YOLOv7分別提升4.62%、4.46%,在COCO數(shù)據(jù)集上,mAP@0.5較YOLOX和YOLOv7分別提升4.57%、4.63%。
關(guān)鍵詞: 通道注意力; 降維; 并行池化; 多特征融合增強(qiáng); 自適應(yīng); 目標(biāo)檢測(cè)
中圖分類號(hào): TN911.73?34; TP391.4" " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " 文章編號(hào): 1004?373X(2025)05?0059?09
Object detection method based on parallel pooling of attention"and multi?feature fusion enhancement
CHENG Jie1, 2, BIAN Changzhi3, ZHANG Jing3, LI Xiaoxia1, 2, DING Nan1, 2
(1. School of Information Engineering, Southwest University of Science and Technology, Mianyang 621010, China;
2. Sichuan Industrial Autonomous and Controllable Artificial Intelligence Engineering Technology Research Center, Mianyang 621010, China;
3. Mianyang Cigarette Factory, China Tobacco Sichuan Industrial Co., Ltd., Mianyang 621000, China)
Abstract: A parallel pooling of attention and multi?feature fusion enhancement (PPA?MfFE) method is proposed to get rid of the detail information loss and inadequate feature fusion caused by channel attention dimension reduction. Firstly, two pooling modules are used to process the input image in parallel to enhance the feature attention. In the entropy?guided pooling module, the channel information entropy is used to generate the feature weight coefficient and enhance the detailed information of edge texture. The directional awareness pooling module is responsible for capturing the spatial direction information of the image in both vertical and horizontal directions. And then, the channel mean is calculated, so as to achieve gradual dimensionality reduction and retain the key features. Secondly, the multi?feature fusion enhancement module is used to select the size of the convolution kernel adaptively by the logarithmic function of the feature graph scale, and reshape the convolution feature group into three feature subgraphs in the directions of channel, height and width with the same dimension as the input image, and then multiply the elements to obtain the enhanced feature graph. Finally, the enhanced feature graph is weighted and fused with the input image to enhance the location and detail information of the object. Experimental results show that, with the same number of parameters, the mAP@0.5 of the proposed algorithm is 4.62% and 4.46% higher than those of YOLOX and YOLOv7 in VOC2007 dataset, respectively, and its mAP@0.5 is 4.57% and 4.63% higher than those of YOLOX and YOLOv7 in COCO dataset, respectively.
Keywords: channel attention; dimensionality reduction; parallel pooling; multi?feature fusion enhancement; self?adaptation; object detection
0" 引" 言
目標(biāo)檢測(cè)在計(jì)算機(jī)視覺領(lǐng)域具有重要意義,其任務(wù)是準(zhǔn)確地定位和識(shí)別輸入圖像中的目標(biāo)物體[1]。這一任務(wù)被廣泛應(yīng)用于公共安全[2]、輔助駕駛[3]、智能醫(yī)療[4]、工業(yè)檢測(cè)[5]等多個(gè)領(lǐng)域。深度學(xué)習(xí)模型[6],尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)為該領(lǐng)域的發(fā)展與應(yīng)用帶來了明顯的改善。然而,目標(biāo)檢測(cè)同樣也面臨著許多重要挑戰(zhàn),包括尺度變化、目標(biāo)遮擋、背景干擾等。
近期研究表明,將注意力機(jī)制[7]應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)中,能夠顯著提升目標(biāo)檢測(cè)任務(wù)的性能。注意力機(jī)制使得模型能夠更加聚焦于圖像中的關(guān)鍵區(qū)域,提高對(duì)重要特征的感知能力。通過引入可學(xué)習(xí)的注意力權(quán)重,模型可以有選擇性地關(guān)注圖像的局部信息,從而提高目標(biāo)檢測(cè)的準(zhǔn)確性和魯棒性。
通道注意力如文獻(xiàn)[8]提出的壓縮激勵(lì)(Squeeze and Excitation, SE)模塊。壓縮模塊通過全局平均池化(Global Average Pooling, GAP)來擠壓網(wǎng)絡(luò)中每個(gè)特征圖的維度,產(chǎn)生全局特征描述符;激勵(lì)模塊使用兩次全連接層對(duì)通道進(jìn)行聚合和擴(kuò)張,以獲得各個(gè)通道的注意力向量,并乘以特征圖以縮放輸入特征的通道數(shù)。
為了減小模型復(fù)雜度,SE采用了減少通道數(shù)量的策略。然而,這一策略未能直接建立權(quán)重向量與輸入之間的顯式對(duì)應(yīng)關(guān)系,從而降低了結(jié)果的質(zhì)量。相比之下,文獻(xiàn)[9]提出的高效通道注意力(Efficient Channel Attention, ECA)模塊使用全局平均池化獲得通道權(quán)重,并借助1×1卷積將權(quán)重映射到原始特征圖上,實(shí)現(xiàn)了對(duì)通道的加權(quán)。這一方法避免了降維操作,同時(shí)能夠捕捉跨通道的相互作用,從而提升了模型的性能。
同樣,文獻(xiàn)[10]提出的門控通道轉(zhuǎn)換(Gated Channel Transformation, GCT)模塊通過使用門控機(jī)制對(duì)通道間的特征關(guān)系進(jìn)行顯示建模,這一機(jī)制在促進(jìn)淺層特征之間合作的同時(shí),也引導(dǎo)深層特征之間的競(jìng)爭(zhēng)。由此,淺層特征能夠更好地捕捉通用屬性,而深層特征則更有效地提取與任務(wù)相關(guān)的鑒別性特征。
文獻(xiàn)[11]提出了頻率通道注意力(Frequency Channel Attention, FCA)模塊,從壓縮角度分析捕獲的全局信息,并思考頻域中的全局平均池化,證明全局平均池化是離散余弦變換(DCT)僅保留直流分量時(shí)的特殊情況,因此模型通過引入更多的頻率分量來充分利用信息。
此外,文獻(xiàn)[12]提出了一種無參通道注意力(Parameter?free Channel Attention, PFCA)模塊,使用全局平均池化將整個(gè)特征圖的高度和寬度降至1,同時(shí)保留通道數(shù),利用均值與方差統(tǒng)計(jì)不同通道中有用的信息來生成通道注意力權(quán)重,這些權(quán)重可以捕捉到圖像中的重要特征,并增強(qiáng)模型的性能。
空間注意力如文獻(xiàn)[13]提出了一種利用特征上下文的聚集?激發(fā)注意力(Gather?Excite Attention, GE)模塊,可以在很大的空間范圍內(nèi)聚合特征響應(yīng),并將合并的信息重新分布到局部特征。聚集操作符用于從局部的空間位置上提取特征,激發(fā)操作符則用于將其進(jìn)行縮放還原回原始尺寸。
文獻(xiàn)[14]提出了一種空間分組注意力(Spatial Group?wise Enhance, SGE)模塊,該模塊將卷積特征圖中的通道劃分為多個(gè)子特征,子特征以組的形式分布在每一層的特征圖中。SGE在每個(gè)子特征組內(nèi)生成一個(gè)注意力權(quán)重,注意力權(quán)重可以確定每個(gè)子特征的重要性,每個(gè)子特征組也可以有針對(duì)性地學(xué)習(xí)和抑制噪聲。
通常情況下,引入單一的通道注意力或者空間注意力確實(shí)能夠提升模型性能,但這種提升往往受到限制。研究者們發(fā)現(xiàn),更進(jìn)一步的性能提升可以通過準(zhǔn)確組合通道注意力和空間注意力,充分發(fā)揮它們各自的優(yōu)勢(shì),從而更全面地捕捉特征信息[15]。
基于這種思路,文獻(xiàn)[16]提出混合注意力(Convolutional Block Attention Module, CBAM)模塊,該模塊采用通道注意力與空間注意力串聯(lián)的方式。其中:通道注意力部分在SE基礎(chǔ)上引入了全局最大池化(Global Max Pooling, GMP),通過全局最大池化和全局平均池化來學(xué)習(xí)通道間的關(guān)系,并使用權(quán)重調(diào)節(jié)不同通道特征的貢獻(xiàn);空間注意力部分則是基于通道維度分別執(zhí)行最大值和平均值的操作,然后運(yùn)用7×7卷積來提取空間信息,以關(guān)注輸入數(shù)據(jù)中更重要的區(qū)域。
SE在捕捉跨通道關(guān)系之前使用全局池化來整合全局空間信息,但它忽視了位置信息的重要性。CBAM采用卷積操作捕獲局部關(guān)系,但卻無法有效建模長(zhǎng)期依賴關(guān)系。為了克服這些限制,文獻(xiàn)[17]提出了協(xié)調(diào)注意力(Coordinate Attention, CA)模塊,CA通過將位置信息嵌入通道注意力中,使得網(wǎng)絡(luò)能夠以較小的計(jì)算成本關(guān)注重要區(qū)域。通過使用空間坐標(biāo)信息生成注意力權(quán)重,并將其應(yīng)用于原始特征圖以增強(qiáng)感興趣目標(biāo)的表示。
此外,文獻(xiàn)[18]提出了一種協(xié)作注意力框架(Collaboration Attentions Trait, CAT),CAT將特征表示為可訓(xùn)練的系數(shù),以自適應(yīng)地結(jié)合不同注意模塊的貢獻(xiàn),更好地適應(yīng)不同的圖像層次和任務(wù)。同時(shí)設(shè)計(jì)了一種自適應(yīng)機(jī)制來捕捉不同注意力算子之間的內(nèi)在協(xié)作關(guān)系,并融合三種池化的輸出結(jié)果。
文獻(xiàn)[19]從CA中得到啟發(fā),跨維度的交互作用有助于通道或空間注意力預(yù)測(cè),因此提出了一種新的跨空間學(xué)習(xí)方法(Efficient Multi?scale Attention, EMA),并設(shè)計(jì)了一個(gè)用于建立短期和長(zhǎng)期依賴關(guān)系的多尺度并行子網(wǎng)絡(luò)。在保留每個(gè)通道信息和減少計(jì)算開銷的基礎(chǔ)上,對(duì)部分通道進(jìn)行批量重構(gòu),并將通道維度分組為多個(gè)子特征,使空間語義特征在每個(gè)特征組內(nèi)均勻分布。
盡管上述注意力機(jī)制在目標(biāo)檢測(cè)任務(wù)中取得了成功,但仍然面臨一些局限性:在獲得高精度的同時(shí),不可避免地增加了模型的參數(shù)量;盡管目前一些方法降低了計(jì)算成本,但是忽略了各個(gè)維度中信息的交互;利用通道降維建立跨通道關(guān)系會(huì)影響對(duì)深層特征的提取,導(dǎo)致信息丟失;在特征選擇時(shí)僅僅單獨(dú)考慮全局信息或局部信息,無法提升模型的泛化能力。
針對(duì)以上問題,本文設(shè)計(jì)了一種并行池化注意力及多特征融合增強(qiáng)(Parallel Pooling of Attention and Multi?feature Fusion Enhancement, PPA?MfFE)方法。該方法結(jié)合了全局特征整合和方向性特征捕捉的優(yōu)勢(shì),采用雙分支并行處理,包括熵引導(dǎo)池化(Entropy Guided Pooling, EGP)模塊、方向感知池化(Direction Aware Pooling, DAP)模塊和多特征融合增強(qiáng)(Multi?feature Fusion Enhancement, MfFE)模塊。
具體來說,原始特征圖被同時(shí)送入熵引導(dǎo)池化(EGP)模塊和方向感知池化(DAP)模塊。EGP模塊捕獲特征圖的平均信息和突出信息,使模型能夠全面理解圖像的全局特性。DAP模塊捕捉特征圖的坐標(biāo)信息,強(qiáng)化模型對(duì)復(fù)雜空間關(guān)系的識(shí)別能力。通過拼接整合全局特征和方向特征形成細(xì)節(jié)信息更全面的特征圖。然后,多特征融合增強(qiáng)(MfFE)模塊根據(jù)特征圖尺度自適應(yīng)計(jì)算一維卷積的卷積核大小,通過跨通道交互,獲取上下文信息,并將卷積后的特征分組重塑為寬度、高度和通道方向上的三個(gè)特征子圖。最后,三個(gè)特征子圖通過元素相乘后,再與原始特征圖相乘融合,獲得更具區(qū)分性的特征表示,有助于提升網(wǎng)絡(luò)對(duì)目標(biāo)特征的感知和檢測(cè)能力。
1" 相關(guān)網(wǎng)絡(luò)
1.1" YOLOX
YOLOX[20]是由曠視科技推出的高性能目標(biāo)檢測(cè)網(wǎng)絡(luò),采用了數(shù)據(jù)增強(qiáng)、檢測(cè)頭和分類頭分離、無錨框設(shè)計(jì)和正負(fù)樣本匹配策略等改進(jìn)手段。其整體由三個(gè)部分構(gòu)成,分別是主干特征提取網(wǎng)絡(luò)(CSPDarknet[21])、增強(qiáng)特征提取網(wǎng)絡(luò)(SPP[22]+FPN[23])以及分類回歸模塊(YOLO Head)。
主干特征提取網(wǎng)絡(luò)負(fù)責(zé)提取圖像的特征信息,首先,F(xiàn)ocus模塊調(diào)整輸入數(shù)據(jù)的尺度和通道數(shù),然后經(jīng)過4個(gè)殘差體(Resblock Body)模塊,最終獲得3個(gè)有效特征層。加強(qiáng)特征提取網(wǎng)絡(luò)先后通過兩次上采樣與兩次下采樣對(duì)上層網(wǎng)絡(luò)輸出的三層不同維度的特征進(jìn)行融合。YOLO Head是YOLOX的分類器和回歸器,通過加強(qiáng)特征提取網(wǎng)絡(luò)輸出的三個(gè)特征圖來判斷是否有物體與特征點(diǎn)對(duì)應(yīng)。
1.2" YOLOv7
YOLOv7是由文獻(xiàn)[24]提出的新一代目標(biāo)檢測(cè)網(wǎng)絡(luò),采用了重參數(shù)化、標(biāo)簽分配策略、帶輔助頭訓(xùn)練和分割梯度路徑層聚合架構(gòu)等改進(jìn)手段。其整體由三個(gè)部分構(gòu)成,分別是骨干網(wǎng)絡(luò)(Darknet?53[25])、頸部網(wǎng)絡(luò)(SPP+PAN[26])以及預(yù)測(cè)網(wǎng)絡(luò)(Prediction)。
骨干網(wǎng)絡(luò)同樣用于提取圖像的特征信息。首先,3個(gè)堆疊的卷積塊用于提取輸入數(shù)據(jù)的初始特征,然后經(jīng)過下采樣和層聚合架構(gòu)ELAN提取首層、底層以及中間層的特征。頸部網(wǎng)絡(luò)將得到的3個(gè)特征層先自頂向下再自底向上進(jìn)行特征融合。預(yù)測(cè)網(wǎng)絡(luò)把融合后的特征圖經(jīng)矩陣融合和權(quán)重相加形成單特征圖,最終在特征圖上預(yù)測(cè)大、中、小型目標(biāo)。
2" 具體方法
本節(jié)介紹了并行池化注意力及多特征融合增強(qiáng)(PPA?MfFE)方法。首先,整體介紹了模塊對(duì)特征圖的處理流程,具體結(jié)構(gòu)如圖1所示,然后詳細(xì)描述了熵引導(dǎo)池化(EGP)模塊、方向感知池化(DAP)模塊以及多特征融合增強(qiáng)(MfFE)模塊。
圖1中,[F∈RC×H×W]是輸入特征圖,其中[H]、[W]和[C]分別代表高度、寬度和通道。先利用并行池化結(jié)構(gòu)提取輸入圖像的全局池化特征和方向池化特征,將提取到的特征進(jìn)行拼接,生成細(xì)節(jié)信息更全面的特征。
然后,使用一維卷積進(jìn)行更深層次的信息交互,在保留通道信息的同時(shí)整合不同高度和寬度位置的特征。將交互后的特征分組重塑為高度、寬度和通道方向上的3個(gè)特征子圖,對(duì)得到的特征子圖進(jìn)行元素相乘,形成注意力因子。
最后,將輸入特征圖與注意力因子相乘,特征圖在不同維度上的重要性被凸顯,從而獲得更全面的特征表示。
2.1" 熵引導(dǎo)池化模塊
為減少單一池化造成空間維度上目標(biāo)信息的丟失,本文設(shè)計(jì)了熵引導(dǎo)池化(EGP)模塊。利用熵對(duì)通道特征的信息含量進(jìn)行度量,生成特征權(quán)重系數(shù),然后對(duì)全局池化結(jié)果進(jìn)行加權(quán),引導(dǎo)模型加強(qiáng)對(duì)邊緣紋理等細(xì)節(jié)信息的關(guān)注。熵引導(dǎo)池化模塊結(jié)構(gòu)如圖2所示。
全局平均池化(GAP)計(jì)算特征圖中每個(gè)通道的平均值,保留特征圖的整體信息。全局最大池化(Global Max Pooling, GMP)提取特征圖中每個(gè)通道的最大值,突出特征圖中每個(gè)通道最顯著的局部特征。全局熵池化(GEP)計(jì)算特征圖中每個(gè)通道的熵值來評(píng)估特征的復(fù)雜度,從而識(shí)別通道中的信息含量。
具體來說,GEP首先壓縮特征圖的高度和寬度維度,然后對(duì)每個(gè)通道內(nèi)的特征應(yīng)用Softmax操作,計(jì)算每個(gè)元素的概率分布[pi]。接著通過將[pi]與其對(duì)數(shù)的積累加求和來計(jì)算熵(entropy),具體操作如式(1)、式(2)所示:
[pi=exp(xi)i=1H×Wexp(xi)] (1)
式中[xi]表示輸入特征圖在通道[C]、位置[i]的特征值。
[entropy=-i=1H×Wpi·ln[pi+μ]] (2)
式中[μ]=[1×10-6],用于避免對(duì)數(shù)函數(shù)計(jì)算中出現(xiàn)零的情況。
低熵值的通道表示特征較為一致、信息較少,對(duì)應(yīng)著無關(guān)的背景區(qū)域。高熵值的通道表示特征豐富、多樣性高,與邊緣和紋理信息相關(guān)。使用Sigmoid函數(shù)對(duì)熵值進(jìn)行映射,將其歸一化到[0,1]區(qū)間,然后分別乘以GAP和GMP的輸出對(duì)其進(jìn)行加權(quán),有助于增加模型對(duì)邊緣和紋理特征的關(guān)注,減少無關(guān)背景對(duì)模型的影響,抑制噪聲干擾。
將經(jīng)過加權(quán)后的特征圖進(jìn)行元素相加(Add),完成通道維度上信息的融合,減少目標(biāo)信息的丟失,然后進(jìn)行張量重塑操作(Reshape),將得到的特征圖變?yōu)橐痪S的形式[[C,1]],提高計(jì)算效率。
得到的全局池化特征為[FGP∈R1×C]。
[FGP=R(GAP'⊕GMP')] (3)
[GEP'=SigmoidRGEP(F)] (4)
[GAP'=GEP'?GAP(F)] (5)
[GMP'=GEP'?GMP(F)] (6)
式中[R·]代表Reshape操作。
2.2" 方向感知池化模塊
為捕捉圖像的全局信息并構(gòu)建空間方向上的長(zhǎng)距離依賴關(guān)系,本文設(shè)計(jì)了方向感知池化(DAP)模塊。將圖像的高度信息和寬度信息分別集成到兩個(gè)不同的特征圖中,再使用逐步降維的方式保留關(guān)鍵特征,減少空間信息的丟失,模型能夠更精確地識(shí)別和定位感興趣的對(duì)象。方向感知池化模塊結(jié)構(gòu)如圖3所示。
使用兩個(gè)空間池化核分別沿水平方向和垂直方向?qū)γ總€(gè)通道進(jìn)行編碼,將輸入圖像的高度信息和寬度信息分別集成到兩個(gè)不同的特征圖[[C,H,1]]和[[C,1,W]]中,具體操作如式(7)、式(8)所示:
[FX=X_GAP(F)] (7)
[FY=Y_GAP(F)] (8)
式中:[X_GAP]表示沿寬度方向全局平均池化;[Y_GAP]表示沿高度方向全局平均池化。
這種池化策略不僅可以捕捉到一個(gè)空間方向上的長(zhǎng)距離依賴關(guān)系,還能保持另一個(gè)空間方向上精確的位置信息。
然后對(duì)兩個(gè)方向上得到的特征圖進(jìn)行通道平均(Channel Mean, CM)操作,強(qiáng)化不同通道之間的關(guān)聯(lián)性,減少不同通道之間的冗余信息。通過在通道方向上進(jìn)行平均,得到形狀為[[1,H,1]]和[[1,1,W]]的張量,隨后進(jìn)行Reshape操作,將特征圖形狀變?yōu)閇[1,H]]、[[1,W]],提高計(jì)算效率。具體操作如式(9)、式(10)所示:
[FXX=RCM(FX)] (9)
[FYY=RCM(FY)] (10)
式中:[R·]代表Reshape操作;CM代表通道平均操作。
最后,通過拼接(Concat)將兩個(gè)一維特征向量合并成更全面、更豐富的方向池化特征[FDP∈R1×(H+W)]。
[FDP=Concat[FXX,F(xiàn)YY]] (11)
2.3" 多特征融合增強(qiáng)模塊
為減少因網(wǎng)絡(luò)深度增加而導(dǎo)致參數(shù)量增長(zhǎng),同時(shí)模型能夠自適應(yīng)獲取不同大小的感受野,本文設(shè)計(jì)了多特征融合增強(qiáng)(MfFE)模塊。根據(jù)特征圖尺度自適應(yīng)選取卷積核的大小,捕獲上下文信息,將卷積后的特征按照輸入圖像維度分組重塑為指定大小的通道、高度和寬度特征,并通過激活函數(shù)加權(quán)融合不同維度的特征信息,增強(qiáng)模型對(duì)不同層次語義信息的表征能力。多特征融合增強(qiáng)模塊結(jié)構(gòu)如圖4所示。
多特征融合增強(qiáng)(MfFE)模塊的輸入為經(jīng)過熵引導(dǎo)池化(EGP)和方向感知池化(DAP)后通過拼接(Concat)得到的特征[FC∈R1×(C+H+W)]。具體操作如式(12)所示:
[FC=Concat[FGP,F(xiàn)DP]] (12)
由于[FC]在第三維度(特征維度)上拼接了來自EGP和DAP的全局池化特征和方向池化特征,因此使用一維卷積沿著特征維度滑動(dòng)卷積核,捕捉特征之間的局部依賴關(guān)系。
MfFE根據(jù)特征圖尺度自適應(yīng)選取卷積核大小[K],實(shí)現(xiàn)感受野大小的動(dòng)態(tài)調(diào)整,避免因卷積核過大導(dǎo)致模型失去對(duì)局部特征的敏感性,同時(shí)也避免因卷積核過小,模型難以捕獲足夠廣泛的上下文信息。
具體為利用對(duì)數(shù)函數(shù)將特征圖尺寸信息映射到卷積核大小范圍內(nèi),再進(jìn)一步壓縮卷積核大小并調(diào)整為奇數(shù),確保輸出尺度不變。對(duì)于給定的尺度([C+H+W]),卷積核[K]可以表示為:
[K=k," " "k=Oddk+1," " " k=Even] (13)
式中:[k=ceillog2(C+H+W)3],ceil表示向上取整。經(jīng)過一維卷積處理后的權(quán)重矩陣可以表示為[FC1∈R1×(C+H+W)]。
[FC1=Conv1d(FC)] (14)
之后,將經(jīng)過Sigmoid激活后的[FC1]與[FC]相乘,因?yàn)榻?jīng)過Sigmoid操作,特征被映射至0~1,相乘操作可以對(duì)[FC]中的特征進(jìn)行加權(quán),突出邊緣、紋理等細(xì)節(jié)信息。激活后的信息可以表示為[FC2∈R1×(C+H+W)]。
[FC2=FC?Sigmoid(FC1)] (15)
接著將[FC2]按照高度、寬度和通道的大小進(jìn)行分組(Split)操作,將特征圖分解為三個(gè)特征子圖,每個(gè)子圖可以獨(dú)立地表示輸入圖像在對(duì)應(yīng)維度上的特征。
對(duì)每個(gè)分離的特征子圖進(jìn)行Reshape操作,讓特征子圖的形狀與輸入圖像維度相同,其形式為:[1,[H],1]、[1,1,[W]]、[[C],1,1]。對(duì)每個(gè)Reshape后的特征圖再次進(jìn)行Sigmoid操作,之后將三個(gè)特征圖進(jìn)行元素相乘,得到增強(qiáng)特征[Fa∈RC×H×W]。具體操作如式(16)~式(19)所示:
[Fa=α?β?γ] (16)
[α=SigmoidRSH(FC2)] (17)
[β=SigmoidRSW(FC2)] (18)
[γ=SigmoidRSC(FC2)] (19)
式中:[SH(·)]、[SW(·)]、[SC(·)]分別代表從高度、寬度、通道進(jìn)行分組操作。
最終,將原始特征[F]和增強(qiáng)特征[Fa]相乘,以獲得更具區(qū)分性的特征表示[FA∈RC×H×W]。
[FA=F?Fa] (20)
2.4" 引入PPA?MfFE方法的網(wǎng)絡(luò)結(jié)構(gòu)
為驗(yàn)證提出的并行池化注意力及多特征融合增強(qiáng)(PPA?MfFE)方法的效果,將其加入到Y(jié)OLOX和YOLOv7目標(biāo)檢測(cè)網(wǎng)絡(luò)中進(jìn)行測(cè)試。
PPA?MfFE方法在YOLOX和YOLOv7中的添加位置如圖5所示。在YOLOv7中使用空間金字塔池化注意力模塊(Spatial Pyramid Pooling Attention Module, SPPAM)替換SPPCSPC模塊,結(jié)構(gòu)如圖6所示。PPA?MfFE方法的功能是進(jìn)一步加強(qiáng)特征提取網(wǎng)絡(luò)的特征提取能力。由于將模塊添加到主干網(wǎng)絡(luò)中,就會(huì)改變主干網(wǎng)絡(luò)的預(yù)訓(xùn)練參數(shù),導(dǎo)致網(wǎng)絡(luò)的預(yù)測(cè)精度下降。所以選擇將模塊添加到增強(qiáng)特征網(wǎng)絡(luò)提取的部分,而不破壞主干網(wǎng)絡(luò)提取的原始特征,以提高對(duì)圖像中關(guān)鍵信息的有效捕捉。
3" 實(shí)驗(yàn)結(jié)果與分析
3.1" 數(shù)據(jù)集
本文在Pascal VOC2007和MS COCO2017數(shù)據(jù)集上對(duì)提出的方法進(jìn)行對(duì)比實(shí)驗(yàn),在Pascal VOC2007+2012數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。
Pascal VOC2007數(shù)據(jù)集涵蓋了20個(gè)不同的對(duì)象類別,共計(jì)9 963張彩色圖像。Pascal VOC2012數(shù)據(jù)集是VOC2007數(shù)據(jù)集的升級(jí)版,數(shù)據(jù)集同樣包含20個(gè)不同的對(duì)象類別,共有11 530張彩色圖片。實(shí)驗(yàn)按照9∶1劃分訓(xùn)練集和測(cè)試集。
MS COCO2017數(shù)據(jù)集涵蓋了80個(gè)不同的對(duì)象類別,共計(jì)163 957張彩色圖像,限于硬件條件,訓(xùn)練集從train2017中選取80張不同類別的圖片,然后在剩余圖片中隨機(jī)選取8 741張圖片,共計(jì)8 821張彩色圖片。同樣,測(cè)試集從val2017中選取80張不同類別的圖片,然后在剩余圖片中選取831張圖片,共計(jì)911張彩色圖片。
3.2" 評(píng)估指標(biāo)
實(shí)驗(yàn)使用IoU閾值為0.5時(shí)的AP(mAP@0.5)、計(jì)算量(FLOPs/(×109))、參數(shù)量(Parameters/(×106))、準(zhǔn)確率([P])和召回率([R])作為評(píng)價(jià)指標(biāo),驗(yàn)證本文方法的有效性。
mAP是將所有類別的平均正確率(Average Precision, AP)進(jìn)行綜合加權(quán)平均得到的,其計(jì)算公式如下:
[mAP=1nk=1nAPk] (21)
[AP=01PRdR] (22)
[P=TPFP+TP] (23)
[R=TPTP+FN] (24)
式中:TP代表預(yù)測(cè)為正,實(shí)際為正的個(gè)數(shù);FP代表預(yù)測(cè)為正,實(shí)際為負(fù)的個(gè)數(shù);FN代表預(yù)測(cè)為負(fù),實(shí)際為正的個(gè)數(shù);[P]代表精確率,表示分類正確的正樣本個(gè)數(shù)占分類器所有的預(yù)測(cè)正樣本個(gè)數(shù)的比例;[R]代表召回率,表示分類正確的正樣本個(gè)數(shù)占實(shí)際正樣本個(gè)數(shù)的比例;以召回率[R]為橫軸、準(zhǔn)確率[P]為縱軸繪制出的曲線又稱[P?R]曲線,其與坐標(biāo)軸圍成圖形的面積大小即為AP;[n]為目標(biāo)檢測(cè)的總類別數(shù)。
計(jì)算量與參數(shù)量用來衡量模型的復(fù)雜程度,其值越小,運(yùn)行時(shí)速度越快,模型的復(fù)雜程度越低。當(dāng)輸入張量大小為[[Cin,H,W]],輸出張量大小為[[Cout,H,W]],卷積核大小為[[kh,kw]]時(shí),參數(shù)量與計(jì)算量計(jì)算公式如下:
[Parameters=(kh×kw×Cin)×Cout+Cout] (25)
[FLOPs=[(kh×kw×Cin)×Cout+Cout]×H×W] (26)
3.3" 實(shí)驗(yàn)設(shè)置
本文算法基于PyTorch框架,實(shí)驗(yàn)所使用的計(jì)算平臺(tái)為Ubuntu 20.04.4,硬件配置如下:Intel Xeon Gold 5120 CPU @ 2.20 GHz、NVIDIA GeForce RTX 3080 GPU(10 GB內(nèi)存)。在圖像預(yù)處理階段,對(duì)訓(xùn)練集的數(shù)據(jù)進(jìn)行概率為0.5的馬賽克數(shù)據(jù)增強(qiáng)處理,并對(duì)馬賽克增強(qiáng)后的圖片進(jìn)行概率為0.5的混合增強(qiáng)處理,數(shù)據(jù)增強(qiáng)操作只在前70個(gè)epoch生效。在訓(xùn)練模型階段,本文使用100個(gè)epoch和動(dòng)量參數(shù)為0.937的Adam優(yōu)化器訓(xùn)練網(wǎng)絡(luò),批量大小為8,圖像分辨率設(shè)置為640×640,采用余弦退火學(xué)習(xí)率,初值設(shè)為0.001,最小學(xué)習(xí)率設(shè)為0.000 01,權(quán)值衰減設(shè)為0。
3.4" 消融實(shí)驗(yàn)
為驗(yàn)證所提的并行池化注意力及多特征融合增強(qiáng)目標(biāo)檢測(cè)方法的性能,本文在YOLOv7上對(duì)并行池化模塊進(jìn)行消融實(shí)驗(yàn),其中還研究了熵引導(dǎo)池化(EGP)模塊中GAP和GMP之間的相互關(guān)系。
實(shí)驗(yàn)結(jié)果如表1所示。表中加粗字體表示最優(yōu)結(jié)果,括號(hào)內(nèi)表示該指標(biāo)較于基準(zhǔn)網(wǎng)絡(luò)的提升量,“—”表示未添加對(duì)應(yīng)模塊,“√”表示添加對(duì)應(yīng)模塊。
在實(shí)驗(yàn)2中,添加并行池化模塊,去除GAP、GEP結(jié)構(gòu),指標(biāo)mAP@0.5較基準(zhǔn)網(wǎng)絡(luò)提升2.39%,[P]提升2.35%,[R]提升1.52%。在實(shí)驗(yàn)3中,添加并行池化模塊,去除GMP、GEP結(jié)構(gòu),指標(biāo)mAP@0.5較基準(zhǔn)網(wǎng)絡(luò)提升2.23%,[P]提升2.25%,[R]提升1.54%。實(shí)驗(yàn)2和實(shí)驗(yàn)3的結(jié)果表明,在并行池化模塊中,GAP和GMP在捕捉不同層次、尺度和特征的信息方面發(fā)揮著互補(bǔ)的作用。
在實(shí)驗(yàn)4中,添加DAP模塊,去除EGP模塊,指標(biāo)mAP@0.5較基準(zhǔn)網(wǎng)絡(luò)提升2.31%,[P]提升2.22%,[R]提升1.46%。在實(shí)驗(yàn)5中添加EGP模塊(不含GEP),去除DAP模塊,指標(biāo)mAP@0.5較基準(zhǔn)網(wǎng)絡(luò)提升2.15%,[P]提升2.09%,[R]提升1.40%。在實(shí)驗(yàn)6中,添加EGP模塊(不含GEP)和DAP模塊,指標(biāo)mAP@0.5值較基準(zhǔn)網(wǎng)絡(luò)提升3.17%,[P]提升3.09%,[R]提升2.29%。
實(shí)驗(yàn)7驗(yàn)證了本文方法對(duì)目標(biāo)檢測(cè)的有效性。較基準(zhǔn)網(wǎng)絡(luò),在不增加參數(shù)量,計(jì)算量?jī)H增加0.01×109,就能獲得大幅精度提升,指標(biāo)mAP@0.5值較基準(zhǔn)網(wǎng)絡(luò)提升4.92%,[P]提升4.99%,[R]提升4.41%。
3.5" 對(duì)比實(shí)驗(yàn)
為驗(yàn)證所提方法的先進(jìn)性,在YOLOX網(wǎng)絡(luò)和YOLOv7網(wǎng)絡(luò)中添加各種主流注意力模塊,與并行池化注意力及多特征融合增強(qiáng)(PPA?MfFE)方法進(jìn)行比較。分別在VOC2007數(shù)據(jù)集和COCO2017數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。表中最好的結(jié)果用粗體表示,括號(hào)內(nèi)表示該指標(biāo)相比基準(zhǔn)網(wǎng)絡(luò)的提升量。
本文方法(PPA?MfFE)只使用池化與一維卷積來提取特征權(quán)重,在參數(shù)量不變、計(jì)算量相當(dāng)?shù)那闆r下,本文提出的方法在VOC2007數(shù)據(jù)集和COCO2017數(shù)據(jù)集上的檢測(cè)精度優(yōu)于其他主流的注意力模塊。
由表2可知,引入本文方法在參數(shù)量與基準(zhǔn)網(wǎng)絡(luò)相同的情況下,計(jì)算量較YOLOX和YOLOv7僅增加了0.013×109和0.01×109。在VOC2007數(shù)據(jù)集上, mAP@0.5較YOLOX和YOLOv7分別提升4.62%、4.46%,[P]分別提升4.43%、4.29%,[R]分別提升1.63%、4.71%。對(duì)于COCO數(shù)據(jù)集,mAP@0.5較YOLOX和YOLOv7分別提升4.57%、4.63%,[P]分別提升4.32%、4.64%,[R]分別提升3.37%、5.35%。實(shí)驗(yàn)結(jié)果表明,本文方法具有更高的精度。
3.6" 可視化分析
圖7中所選樣本分別為物體遮擋、昏暗場(chǎng)景、密集場(chǎng)景和復(fù)雜背景四種樣本。第一列為原始圖片,第二列為基準(zhǔn)網(wǎng)絡(luò)檢測(cè)后的圖片,后四列為基準(zhǔn)網(wǎng)絡(luò)加入相關(guān)注意力模塊檢測(cè)后的圖片。標(biāo)識(shí)框上方標(biāo)注了目標(biāo)置信度分?jǐn)?shù)。使用熱力圖展示網(wǎng)絡(luò)對(duì)圖像中目標(biāo)的關(guān)注程度,圖中熱點(diǎn)區(qū)域灰度值越小表示特征權(quán)重越大。
從視覺效果可以看出,本文算法檢測(cè)出的目標(biāo)框明顯多于其他注意力模塊,對(duì)目標(biāo)位置的判斷更加準(zhǔn)確,且熱力圖呈現(xiàn)更集中,表明本文方法在目標(biāo)檢測(cè)任務(wù)中更具有優(yōu)勢(shì)。
4" 結(jié)" 語
針對(duì)通道注意力降維時(shí)導(dǎo)致細(xì)節(jié)信息損失和特征融合不充分的問題,本文提出一種并行池化注意力及多特征融合增強(qiáng)方法。利用熵引導(dǎo)池化模塊加強(qiáng)邊緣紋理等細(xì)節(jié)信息,使用方向感知池化模塊實(shí)現(xiàn)逐步降維,保留關(guān)鍵特征,減少空間信息損失,通過多特征融合增強(qiáng)模塊進(jìn)一步增強(qiáng)目標(biāo)的語義和位置信息。實(shí)驗(yàn)結(jié)果表明,本文方法在與基準(zhǔn)網(wǎng)絡(luò)參數(shù)量相同時(shí),在VOC2007數(shù)據(jù)集上mAP@0.5相比基準(zhǔn)網(wǎng)絡(luò)YOLOX和YOLOv7分別提升4.62%、4.46%,在COCO2017數(shù)據(jù)集上分別提升4.57%、4.63%。本文提出的方法優(yōu)于目前主流的注意力方法,本文的創(chuàng)新和改進(jìn)有望能為工程應(yīng)用中的目標(biāo)檢測(cè)任務(wù)提供有價(jià)值的參考。
注:本文通訊作者為李小霞。
參考文獻(xiàn)
[1] ARANI E, GOWDA S, MUKHERJEE R, et al. A comprehensive study of real?time object detection networks across multiple domains: A survey [EB/OL]. [2022?08?29]. https://doi.org/10.48550/arXiv.2208.10895.
[2] 龔益玲,張?chǎng)侮?,陳?基于深度學(xué)習(xí)的視頻異常檢測(cè)研究綜述[J].數(shù)據(jù)通信,2023(3):45?49.
[3] LI C, CAO Y N, PENG Y K. Research on automatic driving target detection based on YOLOv5s [J]. Journal of physics: Conference series, 2022, 2171(1): 012047.
[4] 吳志力,吳宇.目標(biāo)檢測(cè)集成框架在醫(yī)學(xué)圖像AI輔助分析中的應(yīng)用[J].人工智能,2018(4):38?50.
[5] GORSCHLüTER F, ROJTBERG P, P?LLABAUER T. A survey of 6D object detection based on 3D models for industrial applications [J]. Journal of imaging, 2022, 8(3): 53.
[6] GOODFELLOW I, BENGIO Y, COURVILLE A. Deep learning [M]. Cambridge, Massachusetts: MIT Press, 2016.
[7] HASSANIN M, ANWAR S, RADWAN I, et al. Visual attention methods in deep learning: An in?depth survey [J]. Information fusion, 2024, 108: 102417.
[8] HU J, SHEN L, SUN G. Squeeze?and?excitation networks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 7132?7141.
[9] WANG Q L, WU B G, ZHU P F, et al. ECA?Net: Efficient channel attention for deep convolutional neural networks [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 11534?11542.
[10] YANG Z X, ZHU L C, WU Y, et al. Gated channel transformation for visual recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 11791?11800.
[11] QIN Z Q, ZHANG P Y, WU F, et al. FcaNet: Frequency channel attention networks [C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. New York: IEEE, 2021: 763?772.
[12] SHI Y X, YANG L X, AN W P, et al. Parameter?free channel attention for image classification and super?resolution [EB/OL]. [2023?05?22]. https://doi.org/10.48550/arXiv.2303.11055.
[13] HU J, SHEN L, ALBANIE S, et al. Gather?excite: Exploiting feature context in convolutional neural networks [C]// Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018. [S.l.: s.n.], 2018: 9423?9433.
[14] LI X, HU X L, YANG J. Spatial group?wise enhance: Improving semantic feature learning in convolutional networks [EB/OL]. [2020?06?08]. http://arxiv.org/abs/1905.09646.
[15] GUO M H, XU T X, LIU J J, et al. Attention mechanisms in computer vision: A survey [J]. Computational visual media, 2022, 8(3): 331?368.
[16] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg: Springer, 2018: 3?19.
[17] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 13713?13722.
[18] WU Z Z, WANG M, SUN W W, et al. CAT: Learning to collaborate channel and spatial attention from multi?information fusion [J]. IET computer vision, 2023, 17(3): 309?318.
[19] OUYANG D L, HE S, ZHANG G Z, et al. Efficient multi?scale attention module with cross?spatial learning [C]// IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). New York: IEEE, 2023: 1?5.
[20] GE Z, LIU S T, WANG F, et al. YOLOX: Exceeding YOLO series in 2021 [C]// Online meeting: 2021 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2021: 1?7.
[21] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal speed and accuracy of object detection [EB/OL]. [2020?04?28]. https://arxiv.org/abs/2004.10934.
[22] HE K M, ZHANG X Y, REN S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 37(9): 1904?1916.
[23] LIN T Y, DOLLáR P, GIRSHICK R, et al. Feature pyramid networks for object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2017: 2117?2125.
[24] WANG C Y, BOCHKOVSKIY A, LIAO H Y M. YOLOv7: Trainable bag?of?freebies sets new state?of?the?art for real?time object detectors [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2023: 7464?7475.
[25] REDMON J, FARHADI A. YOLOv3: An incremental improvement [EB/OL]. [2018?08?13]. http://arxiv.org/abs/1804.02767.
[26] LIU S, QI L, QIN H F, et al. Path aggregation network for instance segmentation [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 8759?8768.
基金項(xiàng)目:國(guó)家自然科學(xué)基金面上項(xiàng)目(62071399);四川省科技計(jì)劃重點(diǎn)研發(fā)項(xiàng)目(2023YFG0262,2023NSFSC1388)
作者簡(jiǎn)介:程" 杰(1996—),男,四川綿陽(yáng)人,碩士研究生,研究方向?yàn)槟繕?biāo)檢測(cè)、行人重識(shí)別。
卞長(zhǎng)智(1986—),男,山東臨清人,工程師,研究方向?yàn)樽詣?dòng)化控制、人工智能。
張" 婧(1986—),女,內(nèi)蒙古赤峰人,工程師,研究方向?yàn)槟繕?biāo)檢測(cè)。
李小霞(1976—),女,北京人,博士研究生,教授,研究方向?yàn)槟J阶R(shí)別、計(jì)算機(jī)視覺。
丁" 楠(1999—),男,河南周口人,碩士研究生,研究方向?yàn)獒t(yī)學(xué)圖像分割。