• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      判別相關(guān)分析雙注意力機制的目標檢測算法

      2022-09-06 11:08:42鄭愛玲
      計算機工程與應用 2022年17期
      關(guān)鍵詞:注意力卷積特征

      趙 珊,鄭愛玲

      河南理工大學 計算機科學與技術(shù)學院,河南 焦作 454003

      目標檢測是一種基于統(tǒng)計特征和幾何特征的圖像自動檢測過程,需要對圖像中的目標進行準確的分類和定位。作為機器視覺領(lǐng)域的研究熱點,廣泛地應用于智能監(jiān)控、無人機導航、智能交通等領(lǐng)域,但對于復雜環(huán)境中的目標,多變的光線和復雜的背景增加了目標檢測的難度。近年來,基于深度學習的目標檢測技術(shù)成為研究的熱點。

      目前基于深度學習的目標檢測算法主要分為兩種,一種是以R-CNN[1]系列為代表的two-stage 目標檢測算法,此類算法首先產(chǎn)生區(qū)域候選框,然后再對候選區(qū)域進行分類和回歸,精度高但速度慢。另一種是以YOLO[2]、SSD[3]為代表的基于回歸的one-stage目標檢測算法,此類算法直接對目標物進行回歸,速度快但精度低。針對two-stage 以及one-stage 算法的現(xiàn)存缺點,如何提高算法的檢測性能近年來備受關(guān)注。

      由于網(wǎng)絡結(jié)構(gòu)的改善可增加模型的魯棒性,Shen等人[4]提出了基于圖神經(jīng)網(wǎng)絡(GNN)的圖像識別,將視覺特征學習最大化,以實現(xiàn)精確的相似度估計。He等人[5]提出基于雙分支體素特征提取的三維物體檢測網(wǎng)絡,在小尺度目標物基礎上可捕捉更精細的幾何特征。熊偉華等人[6]提出將集成蒸餾策略和反卷積相結(jié)合用于目標檢測,對于微小物體可達到與大型物體相似的精確度。為了獲得更多的特征細節(jié)信息,將全局信息和局部信息融合在一起的思想在視覺任務中得到了廣泛的應用。Zhao等人[7]設計了金字塔池化模塊用于場景解析,提取分層的全局上下文先驗信息與局部FCN 特征連接,增加了網(wǎng)絡的利用率。陳灝然等人[8]基于感受野特征提取,融入特征融合模塊用于目標檢測,保證了算法的識別率。Felzenszwalb 等人[9]結(jié)合全局根模型和精細的局部模型來表示高度可變的目標,緩解了小目標的漏檢率。以上算法通過對細節(jié)特征的關(guān)注有效改善了算法性能,但在分類過程中,常會因算法模型忽略物體類別間的相關(guān)性而導致模型訓練時間過長。

      典型相關(guān)分析(canonical correlation analysis,CCA[10])通過學習兩個模態(tài)的投影矩陣,來實現(xiàn)跨模態(tài)之間的整體相關(guān)性,可直接對兩組隨機變量的相關(guān)關(guān)系進行研究,但沒有考慮多物體的多類別信息,一定程度上影響了算法的性能。Haghighat 等人[11]基于此提出了判別相關(guān)分析(discriminant correlation analysis,DCA)的特征融合方法,充分利用單模態(tài)類別信息,有效地將同類特征信息進行關(guān)聯(lián),同時消除不同類別樣本之間的相關(guān)性,緩解了網(wǎng)絡訓練過程中的部分缺陷。后續(xù)學者[12-13]將相關(guān)分析算法同其他模型結(jié)合,并廣泛地應用于整個計算機視覺領(lǐng)域,但對重點信息的關(guān)注和對無關(guān)信息的抑制仍然不夠。

      為解決上述局限性,Hu 等人提出注意力機制SENet[14],較好地實現(xiàn)了特征通道間的相互依賴關(guān)系,但模型復雜度仍較高。針對此問題,Li 等人[15-17]提出很多改進方法。近年來,雙注意力機制的提出有助于獲得對多種語義抽象的視覺關(guān)注,但增加注意力機制的層數(shù)也容易發(fā)生過擬合。

      上述算法均在不同程度上提高了檢測精度,但大部分模型經(jīng)過多次卷積運算后無法檢測出分辨率較低的小目標,且受噪聲影響較大。本文針對該問題,提出一種判別相關(guān)分析的雙注意力機制的目標檢測算法,以提高小目標為出發(fā)點,將雙注意力機制與多尺度層次特征融合技術(shù)相結(jié)合,通過提取不同卷積級別的特征來檢測小目標并合理的給不同的通道分配權(quán)重,實驗表明,本文提出的算法具有可行性。

      1 Faster R-CNN檢測算法

      Faster R-CNN[18]是兩階段目標檢測的代表性算法,主要工作原理圖如圖1 所示。首先將圖片輸入到主干網(wǎng)絡中進行目標的特征提取,隨后將得到的特征圖采用區(qū)域生成網(wǎng)絡(region proposal networks,RPN)進行k個目標候選域(anchors)的生成,并選取不同的尺寸和比例,接著對生成的感興趣區(qū)域進行二分類,在模型測試過程中,使用NMS 算法剔除冗余建議框,并將得分較高的建議框作為感興趣區(qū)域(ROIs),通過ROI pooling層統(tǒng)一大小后,送入多分類器進行最后階段的分類與回歸。較原CNN 系列算法更新了區(qū)域生成方式,并通過兩次候選框的篩選,得到了較高的精度值,但正因為如此,網(wǎng)絡的耗時性也成為該算法的一大劣勢,再加上訓練過程中特征圖經(jīng)過一系列操作后信息損失較多,小物體的漏檢也成為一個不可忽視的問題。

      2 改進算法

      Faster R-CNN 之所以會導致小目標的漏檢是因為它是一個單尺度檢測網(wǎng)絡,經(jīng)過深度卷積后會導致特征提取不充分。針對尺度多變性問題,本文首先通過一種結(jié)合判別相關(guān)分析的特征融合技術(shù)代替常規(guī)特征融合方式,去分析變量間的相關(guān)關(guān)系來增強同類特征之間的相關(guān)性,同時最大化不同類之間的差異,保證特征間的信息交互,以緩解自然場景圖像中存在的尺度多變性問題。再者提出殘差雙注意力機制(residual attention mechanism,RAM)來挖掘類標簽和局部特征關(guān)鍵區(qū)域之間的相關(guān)性,通過調(diào)整通道的權(quán)重比,獲取更豐富的特征信息以提高算法的檢測精度。在通道注意力模型的構(gòu)造過程中,通過結(jié)合空洞卷積技術(shù)設計混合卷積層,擴大感受野的同時又減少了信息損失,另外殘差結(jié)構(gòu)的引入,使得全局信息和局部信息得到了有效整合,最大限度地保證了網(wǎng)絡的特征提取性能。本文算法的網(wǎng)絡模型如圖2所示。

      2.1 基于判別相關(guān)分析的特征融合

      信息融合是將多個信息源中獲取的數(shù)據(jù)進行綜合、以獲得精確位置的過程。在這個過程中,信息處理也在不斷地自我修正,作為圖像識別算法的關(guān)鍵環(huán)節(jié),信息融合的方式極其重要。

      對于原Faster R-CNN 使用的Concat 融合技術(shù),隨著分辨率小的特征通道數(shù)的增多,會帶來不必要的參數(shù)的增加,且當數(shù)據(jù)集種類較多時,會對神經(jīng)網(wǎng)絡產(chǎn)生無形的壓力,不僅需要分析各類別之間的聯(lián)系與區(qū)別來提高算法的準確率,還要考慮如何減少時間的消耗來提高算法的性能。

      為解決這一問題,本文引入判別相關(guān)分析技術(shù)(DCA)代替常規(guī)特征融合方式,通過最大化兩個特征集對應特征之間的相關(guān)性,同時最大化類間差異性的方法來實現(xiàn)特征融合。其中矩陣降維作為DCA算法的核心部分,用來揭示內(nèi)在線性結(jié)構(gòu),合并相似特征,去除冗余特征,數(shù)據(jù)集維數(shù)的縮減,可有效解決多類別目標特征映射訪問內(nèi)存時所需的成本問題,從而加快計算速度。同時通過計算高層特征的類間散布矩陣,來突出不同類特征之間的差異,提高特征的判別能力,最后選擇串聯(lián)或相加兩種方式對不同高層特征間的顯著信息進行融合,真正做到在降低特征維數(shù)的同時提高特征的表達能力,從而提高算法檢測效果。

      DCA特征融合結(jié)構(gòu)如圖2中Feature Fusion部分所示。為了保證融合特征向量的最大可能長度,對于圖示五組特征,首先將秩最高的兩個特征集C1和C2通過DCA 算法融合在一起得到M12,接著將結(jié)果與下一個秩最高的特征集C3融合得到M123,對于相同等級的特征集,可隨時融合在一起,以此類推,直到最短的特征向量長度可在最后一步中確定,通過對此特征向量計算后得到兩個變換特征Z1和Z2,再對其使用串聯(lián)或相加操作得到最終融合特征,以圖像數(shù)據(jù)集的兩組高層特征矩陣C1、C2為例,DCA具體計算過程如下:

      圖2 本文總體網(wǎng)絡結(jié)構(gòu)圖Fig.2 Overall network structure of article

      假設A表示圖像數(shù)據(jù)集,N是數(shù)據(jù)集的類別數(shù)量屬于A,令上述圖像數(shù)據(jù)集A采集到的特征集的兩組高層特征矩陣C1和C2為X、Y,高層特征融合后的特征M12為Z,首先根據(jù)式(1)、(2)計算出類內(nèi)特征向量平均值以及類間特征向量平均值。

      式(1)中表示第i類下的xij向量的平均值,ni表示第i類圖像的數(shù)量,xij∈X表示第i類的第j個樣本,式(2)中表示整個特征矩陣Q的平均值,由和可得出不同特征類間關(guān)系的散布矩陣Sbx,如式(3)所示:

      式中,Q是的正交特征向量矩陣,Λ為降序排列特征值的對角陣,為了得到r階最大非零特征,取Q中前r個特征向量用φ(N×r)表示,則:

      令轉(zhuǎn)換矩陣Wbx=ΦbxφΛ-1/2將Sbx單位化,并且可使得特征矩陣X的維數(shù)從p降到r,如式(7)、(8)所示:

      式中,I是經(jīng)過Wbx轉(zhuǎn)換降維后的類間散布矩陣,經(jīng)過變換后,大大減少了高層特征中不同類別之間的聯(lián)系。

      重復上述計算過程,可求得另一特征集變換矩陣Y′,為了增加X中的特征與Y中對應同類特征之間的相關(guān)性,需使用奇異值分解來對角化變換后兩個高層特征矩陣X′和Y′的類間協(xié)方差矩陣S′xy,即S′xy=X′Y′T,S′xy(r×r)=UΣVT,式中,Σ是含有非零元素的對角矩陣,則(UΣ-1/2)TS′xy(VΣ-1/2)=I。同理,令Wcx=UΣ-1/2,Wcy=VΣ-1/2為轉(zhuǎn)換矩陣,可得到最終的轉(zhuǎn)換特征集X*和Y*,如式(9)、(10)所示:

      式中,Wx與Wy分別為高層特征X和Y的轉(zhuǎn)換矩陣,且X和Y經(jīng)過DCA 降維后,轉(zhuǎn)換特征集的類間散度矩陣同為對角矩陣,由此可見,該算法最大化相同類之間的聯(lián)系以及不同類之間的差異的性能進一步得以體現(xiàn),最后,為了不增加特征向量的維度,本文選用相加操作進行特征融合,如式(11)所示:

      2.2 殘差雙注意力機制

      一般來說,網(wǎng)絡經(jīng)過一系列卷積之后,會得到部分特征信息,但不會自動區(qū)分高低頻間的詳細信息與各個類別特征間的差異性,網(wǎng)絡選擇性地使用特征的能力有限,鑒于注意力機制能夠選擇聚焦位置,產(chǎn)生更具分辨性的特征表示,且加入注意力模塊后的特征會隨著網(wǎng)絡的加深產(chǎn)生適應性的改變,本文參考雙注意力網(wǎng)絡CBAM[19],并在此基礎上進行改進。通過引入殘差結(jié)構(gòu),將其與提出的雙注意力網(wǎng)絡相結(jié)合來構(gòu)造殘差雙注意力模型,此模型將空間注意力和通道注意力并行組合,使得不同類型的有效信息被大量捕捉到,可有效增強特征辨別學習能力,在網(wǎng)絡訓練過程中,任務處理系統(tǒng)更專注于找到輸入數(shù)據(jù)中顯著的與當前輸出相關(guān)的有用信息,從而提高輸出的質(zhì)量,且漸增的注意力模塊將帶來持續(xù)的性能提升,具體如圖3所示。首先將輸入圖像F分別進行通道注意力和空間注意力操作進行特征提取,接著通過結(jié)合判別相關(guān)分析的特征融合技術(shù)將通道注意力特征圖FMC和空間注意力特征圖FMS相加,分析變量的相關(guān)關(guān)系來增強同類特征之間的相關(guān)性,然后經(jīng)過一個Sigmoid函數(shù)來學習特征通道間的非線性關(guān)系,再逐元素與原特征相乘,得到經(jīng)過自適應特征學習后的加權(quán)特征圖F′,最后經(jīng)過一個全局跳連將深淺層特征融合來進行信息重構(gòu),避免了高分辨率特征經(jīng)過一系列操作后導致的信息丟失問題,其目標特征得到了充分學習與強化。

      圖3 殘差雙注意力機制模型結(jié)構(gòu)圖Fig.3 Structure diagram of residual attention mechanism model

      對于一個輸入特征圖F∈RC×H×W(C、H、W表示的是特征圖的通道數(shù)、長度和寬度),殘差雙注意力模塊的計算過程如式(12)所示:

      式中,MC(·)表示通道注意力操作,MS(·)表示空間注意力操作,DCA(·)為判別分析操作,σ為Sigmoid函數(shù),F(xiàn)為輸入圖像,?表示元素乘法,在乘法過程中注意特征值被相應地傳播,F(xiàn)′為經(jīng)過自適應特征學習后的加權(quán)特征圖,+表示全局跳連操作,F(xiàn)″為最終輸出。

      2.2.1 殘差結(jié)構(gòu)

      隨著卷積神經(jīng)網(wǎng)絡層數(shù)的加深,網(wǎng)絡的分類準確度得到一定程度的提高,但超過一定的深度后,會受低分辨率的影響,導致網(wǎng)絡損失值變大,分類性能發(fā)生退化。針對此問題,何凱明等人提出殘差模塊ResNet,如圖4 所示。通過在卷積層的輸入和輸出之間添加Skip Connection實現(xiàn)層數(shù)回退機制,經(jīng)過特征圖的維度匹配后,將低層特征圖直接映射到高層,進行對應位置元素相加,得到最終殘差模塊輸出H(x)=F(x)+x。

      圖4 殘差模塊Fig.4 Residual model

      考慮到本文提出的雙注意力模型的深度,將殘差模塊引入本文模型中進行信息重構(gòu),在保留結(jié)構(gòu)化信息的同時彌補高、低分辨率圖像之間的高頻信息損失。首先使用卷積神經(jīng)網(wǎng)絡所學習到的結(jié)構(gòu)化的圖像信息訓練一個端到端的網(wǎng)絡模型,再采用殘差模型將原始圖像信息與經(jīng)過一系列操作后得到的對分類有利的語義信息進行結(jié)合,對丟失的高頻信息進行補償,使得目標特征得到了充分學習與強化,從而獲得具有更好視覺效果的高分辨率圖像。

      2.2.2 通道注意力模型

      通道注意力模型利用特征的通道間關(guān)系生成通道注意力特征圖,用來關(guān)注輸入的圖像中是否包含有意義的輸入目標,在改善深度卷積神經(jīng)網(wǎng)絡性能方面具有巨大的潛力,具體通過自動學習的方式獲取每個通道的重要程度并為其賦予不同的權(quán)值,使得神經(jīng)網(wǎng)絡達到對重點信息的關(guān)注以及對無關(guān)信息的抑制效果,來提高特征提取網(wǎng)絡的表征能力,另外通過結(jié)構(gòu)化地選取輸入的子集,可有效減小處理高維輸入數(shù)據(jù)的計算負擔,降低數(shù)據(jù)維度。本文提出的通道注意力模塊具體如圖5 所示。首先將特征圖F輸入混合卷積層(mixed convolution layer,MCL)中,此模塊的設計包括并聯(lián)的四個分支,由一個卷積核大小為3×3的普通卷積層以及三個卷積核大小為3×3的空洞卷積層構(gòu)成,分別對輸入特征圖進行操作,將空洞卷積三個分支的擴張率分別設置為2、3、4,通過不同擴張率的設置可獲得不同感受域的圖像信息,即可得到不同尺度的特征圖,在擴大感受野的同時,又避免了下采樣損失信息,接著將4 個分支特征圖進行融合,使得采樣更為密集,既擁有了高層特征,也沒有增加額外的參數(shù)量?;旌暇矸e層得到的特征通過全局平均池化將每個通道上的二維特征圖壓縮為一個實數(shù),作為該通道的權(quán)重,通道注意力分支通過自動學習特征在通道維度上的權(quán)重分布來獲取每個通道的重要程度,最后經(jīng)過一層全連接層將所得到的權(quán)重信息有效整合并作為預測向量進行輸出,在訓練過程中,對通道權(quán)重比不斷優(yōu)化,最大限度地保證網(wǎng)絡的特征提取性能,生成最終需要的通道注意力特征圖。

      圖5 通道注意力網(wǎng)絡結(jié)構(gòu)圖Fig.5 Channel attention network structure

      對于輸入特征圖F∈RC×H×W,通道注意力模塊的計算過程如式(13)所示:

      式中,F(xiàn)MC表示通道注意力特征圖,MC(·)表示通道注意力模塊的內(nèi)部操作,F(xiàn)為輸入圖像,W為Softmax 函數(shù),F(xiàn)C表示全連接層操作符,GAP(·)為全局平均池化操作,MCL(·)表示混合卷積層的內(nèi)部操作,其中conv為標準卷積,dconvi為空洞卷積,i為空洞卷積的第幾分支,⊕表示元素加法。

      2.2.3 空間注意力模型

      空間注意力模型利用特征間的空間關(guān)系生成空間注意力特征圖,是對通道注意力特征圖的一個強化補充,兩者不同的是通道注意力關(guān)注的是每個特征面的權(quán)重,而空間注意力關(guān)注的是面上每一個局部的權(quán)重,即目標所在位置的特征信息,具體通過不同的卷積器提取圖像中的邊緣和紋理信息,來增強網(wǎng)絡辨別學習能力,提升算法的檢測精度,如圖6所示。首先將輸入特征圖F沿通道進行平均池化和最大池化操作,接著將聚合的通道注意力特征分成兩個二維映射:FMSAX和FASvg,分別表示通道中的平均池化特征和最大池化特征,通過標準卷積后再經(jīng)過Sigmoid函數(shù)激活,最終生成二維空間注意力特征圖。

      圖6 空間注意力網(wǎng)絡結(jié)構(gòu)圖Fig.6 Spatial attention network structure

      對于輸入特征圖F∈RC×H×W,空間注意力模塊的計算過程如式(14)所示:

      式中,表示空間注意力特征圖,MS(·)表示空間注意力模塊的內(nèi)部操作,F(xiàn)為輸入圖像,σ為Sigmoid 函數(shù),f7×7表示卷積核為7×7的卷積操作,AvgPool(·)和MaxPool(·)分別表示平均池化和最大池化操作。

      3 實驗

      本文所用實驗配置為Windows10操作系統(tǒng),CPU為Intel i5-3337U,主頻為1.80 GHz,內(nèi)存為8 GB,GPU 為NVIDIA TITAN V,顯存大小為12 GB,開發(fā)語言為Python3,深度學習框架為TensorFlow,在梯度下降優(yōu)化過程中,初始學習率設置為0.001,動量更新和正則化權(quán)重衰減分別設置為0.9 和0.000 5,batch size 設置為32,用loss函數(shù)反向傳播來調(diào)整網(wǎng)絡各層的權(quán)值,用平均精度(mean average precision,MAP)作為算法的衡量指標,用每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)來衡量算法的檢測速度。

      3.1 在PASCAL VOC2007數(shù)據(jù)集上的對比實驗

      本節(jié)選用PASCAL VOC2007作為實驗數(shù)據(jù)集,共有9 963張圖片,其中訓練集5 011張圖片,測試集4 952張圖片,包含20個類別。大部分圖片背景復雜,包含多種類別的多個物體,為了保證測試的公平性,所有算法迭代次數(shù)均設置為20 000 次,當?shù)?5 000 步時,將學習率衰減為0.000 1。

      本文提出的算法與其他4 種檢測模型在PASCAL VOC2007 數(shù)據(jù)集上的精度對比結(jié)果如表1 所示。其中YOLO[2]算法、SSD[3]算法作為一階段檢測的代表性算法,實時性較強,但因為本身固有的局限性,導致網(wǎng)絡利用率不高。較一階段檢測算法,F(xiàn)ast R-CNN[20]與Faster R-CNN[18]算法定位誤差較小,但部分物體精度值較低。而本文提出的算法以提高小目標為出發(fā)點,重點關(guān)注細節(jié)信息,通過對常規(guī)融合方式的改進,減少了不必要的參數(shù)的增加。同時殘差雙注意力機制的提出,使得神經(jīng)網(wǎng)絡自動關(guān)注重點信息,抑制無關(guān)信息,有效提高了網(wǎng)絡的利用率,最終準確率達到了77.5%,與原Faster R-CNN 模型相比,精度值提升了5.3 個百分點,取得了較為不錯的檢測結(jié)果。

      表1 不同目標檢測算法的實驗結(jié)果對比Table 1 Comparison of experimental results of different object detection algorithms %

      對應表1數(shù)據(jù)值,將實驗結(jié)果以散點圖的形式展現(xiàn)如圖7所示,可以更清晰地看出本文所提算法同其他算法相比具有較好的檢測效果。

      圖7 不同檢測算法的精度結(jié)果對比圖Fig.7 Comparison of accuracy results of different detection algorithms

      訓練過程中的Loss 曲線圖如圖8 所示,由圖可知,在經(jīng)過15 000 次迭代后本文提出的算法模型可以很好地實現(xiàn)收斂。

      圖8 模型訓練Loss曲線圖Fig.8 Loss curves of model training

      為了進一步驗證本文算法的檢測效果,不同算法在PASCAL VOC2007 數(shù)據(jù)集上的檢測結(jié)果示例如圖9 所示。由圖可知,YOLO[2]算法在很大幾率上存在漏檢、錯檢問題,F(xiàn)aster R-CNN[18]算法雖說能檢測出大部分目標物,但也存在不能精細化回歸定位問題,SSD[3]算法結(jié)合特征金字塔思想,部分小目標的檢測率得到了一定的提高,但檢測精度較低。本文算法吸取經(jīng)驗,以關(guān)注小目標為出發(fā)點,解決了各個算法中存在的精細化回歸定位問題且各目標物的分值也有了明顯的提升,檢測效果均優(yōu)于其他幾種模型,進一步證明了本文算法的可行性。

      圖9 不同目標檢測算法的實驗結(jié)果對比圖Fig.9 Comparison of experimental results of different object detection algorithms

      3.2 在KITTI數(shù)據(jù)集上的對比實驗

      本節(jié)選用KITTI數(shù)據(jù)集作為實驗數(shù)據(jù)集,共有7 482張圖片,其中訓練集6 001張圖片,測試集1 481張圖片,包含8個類別。為了便于統(tǒng)計分析,現(xiàn)將其融合為3個類別:Car、Person、Cyclist,在街景圖像中,大部分目標物與背景相似或相融,識別結(jié)果能進一步體現(xiàn)出算法的檢測性能,為了保證測試的公平性,所有算法模型均訓練50個Epoch。

      本文提出的算法與其他4種檢測模型在KITTI數(shù)據(jù)集上的對比結(jié)果如表2 所示,其中SSD[3]的實驗結(jié)果引自文獻[21],YOLOV3[22]、AM-YOLOV3的實驗結(jié)果引自文獻[22],由實驗結(jié)果可知,本文檢測效果較為理想,檢測速度較YOLOV3只慢了2 FPS,基本達到了實時檢測的要求。

      表2 在KITTI數(shù)據(jù)集上不同目標檢測算法的結(jié)果對比Table 2 Comparison of results of different object detection algorithms on KITTI dataset

      在KITTI 數(shù)據(jù)集上不同算法及各類目標精度值的結(jié)果對比如圖10 所示。由圖可知,結(jié)合判別相關(guān)分析的特征融合技術(shù)可有效保證信息間的交互,在降低特征維數(shù)的同時能夠有效提高特征的判別能力。較Faster R-CNN[18]、SSD[3]以及YOLOV3[22]算法相比,本文算法提高了數(shù)據(jù)集中每一類目標的平均精準度。對于AM-YOLOV3[22]算法,汽車的檢測精度值略有下降,但人和自行車的精度值均有一定的提升。

      圖10 不同檢測算法各類目標物的精度結(jié)果對比圖Fig.10 Comparison of accuracy results of various targets with different detection algorithms

      3.3 在Portrait數(shù)據(jù)集上的對比實驗

      本節(jié)選用從各個數(shù)據(jù)集中挑選出來部分數(shù)據(jù)所組成小型人像數(shù)據(jù)集作為實驗數(shù)據(jù)集,將其命名為Portrait數(shù)據(jù)集,并用LabelImg 工具做好標注信息。此類數(shù)據(jù)集一共包含5 769 張圖片,其中訓練集4 633 張圖片,測試集1 136 張圖片,分為真人、擺件、海報、雕塑等類別,為了保證測試的公平性,所有算法模型均訓練50個Epoch。

      本文提出的改進算法與其他幾種檢測模型在人像數(shù)據(jù)集上的對比結(jié)果如表3 所示,由實驗數(shù)據(jù)可知,一階段檢測算法較Faster R-CNN[18]具有明顯的速度優(yōu)勢,但隨著IOU 的增大,不能與真實數(shù)據(jù)完美契合,最終達不到理想檢測效果。本文算法對于不同尺度的高低層信息,使用基于判別相關(guān)分析的方法進行特征融合,使得每個尺度特征都具有豐富的語義信息,另外混合卷積層的設計,在一定程度上融合了不同尺度的特征信息,在應對不同類別的人像時可表現(xiàn)出較好的檢測性能,最終達到了80.9%的準確率,檢測精度和速度較原Faster R-CNN 算法[18]分別提升了3.7%和23 FPS,取得了較為不錯的檢測結(jié)果。

      表3 在Portrait數(shù)據(jù)集上不同目標檢測算法的結(jié)果對比Table 3 Comparison of results of different object detection algorithms on Portrait dataset

      為了更好地理解本文各個改進模塊對檢測效果的影響,在Portrait數(shù)據(jù)集上進行消融實驗,實驗結(jié)果如表4所示。從實驗結(jié)果可以看出,DCA[11]算法的引入,有效緩解了常規(guī)特征融合方式存在的特征提取能力不足問題,保證了特征間的信息交互,且數(shù)據(jù)降維能夠有效解決多類別目標特征映射訪問內(nèi)存時的所需成本問題,從而提高算法運行速度,與原Faster R-CNN[18]算法相比,MAP值從77.2%提高到77.8%,且檢測速度提升了2 FPS。殘差雙注意力網(wǎng)絡(RAM)的提出,不僅有助于模型有針對性地處理具有不同屬性的層次特征,而且增加了每一特征所表征的信息量,其中混合卷積層的設計在擴大感受野的同時又減少了信息損失,最大限度地保證了網(wǎng)絡的特征提取性能,較Faster R-CNN算法提升了3.1個百分點,速度提高了18 FPS,同時較另外兩種注意力機制SENet[14]、CBAM[19],MAP 值分別提升了1.2 個百分點以及0.7 個百分點,檢測速度分別提升了5 FPS 以及3 FPS,完全滿足實時性檢測的要求,體現(xiàn)了其較好的檢測性能。

      表4 在Portrait數(shù)據(jù)集上的消融實驗對比Table 4 Comparison of ablation experiments on Portrait dataset

      分別將注意力機制SENet[14]、CBAM[19]以及本文提出的RAM結(jié)構(gòu)結(jié)合Faster R-CNN進行訓練,三種網(wǎng)絡模型第一個全連接層中的參數(shù)可視化如圖11所示。由圖可知,F(xiàn)aster R-CNN+RAM模型結(jié)構(gòu)在保證識別準確率的基礎上使用了更少的參數(shù),具體歸因于三個方面:首先通道注意力機制采用混合卷積層的設計不僅可融合不同尺度的特征信息,且引入空洞卷積擴大感受野的同時沒有增加額外的參數(shù)量,其次使用DCA 算法代替常規(guī)融合方式,在保證信息交互的同時進行數(shù)據(jù)降維,減少了不必要的參數(shù)的增加,最后選擇不增加矩陣維度的相加操作方式進行高層特征信息集成,在一定程度上同樣保證了模型的計算量,進一步說明了本文提出的殘差雙注意力模型的優(yōu)勢。

      圖11 不同注意力機制模型參數(shù)對比圖Fig.11 Comparison chart of parameters of different attention mechanism models

      為了進一步驗證本文算法的有效性,將本文算法應用在Portrait 數(shù)據(jù)集上進行真值圖與預測圖的對比,結(jié)果如圖12所示,由圖可知,本文算法能夠很好地檢測出人像,使得預測圖在很大程度上接近真值圖。圖13 示例了本文算法在Portrait 數(shù)據(jù)集上的部分檢測結(jié)果,可見經(jīng)過訓練的模型可以較好地實現(xiàn)目標檢測的功能,對于數(shù)據(jù)集中的真人,檢測效果較理想,精度值較高。對于海報中的肖像,因其特征大概率接近真人,所以檢測效果也很明顯,但對于雕塑以及小型擺件來說,由于主體缺少靈活性且部分特征不突出,導致檢測精度與另外兩類相比略有差距,此類問題也是今后研究過程中需要關(guān)注的問題。

      圖12 在Portrait數(shù)據(jù)集上真值圖和預測圖的對比結(jié)果Fig.12 Comparison results of truth map and prediction map on Portrait dataset

      圖13 本文算法在Portrait數(shù)據(jù)集上的部分檢測結(jié)果圖Fig.13 Part of detection results of proposed algorithm on Portrait dataset

      4 結(jié)語

      為解決Faster R-CNN 算法檢測小目標的不足,提出了一種基于判別相關(guān)分析的雙注意力機制的目標檢測算法。對于輸入圖像經(jīng)過深度CNN 后的多尺度特征,通過結(jié)合判別相關(guān)分析的特征融合技術(shù)最大化兩個特征集中對應特征的相關(guān)關(guān)系,同時最大化不同類之間的差異,來保證信息間的交互,在降低特征維數(shù)的同時提高了特征的判別能力。對于融合后的特征,選擇引入雙注意力機制來增強網(wǎng)絡的信息表征能力,使得神經(jīng)網(wǎng)絡可自動學習特征間的重要性,可有效地提升小目標的特征信息,其中混合卷積層的設計,在擴大感受野的同時,又避免了下采樣損失信息,最后結(jié)合殘差結(jié)構(gòu)進行信息重構(gòu),避免了高分辨率特征信息弱化問題,大大改善了網(wǎng)絡的檢測性能,實驗表明,本文提出算法具有可行性。下一步將進一步改進本文方法,并嘗試與其他網(wǎng)絡模型結(jié)合,尋找最優(yōu)的網(wǎng)絡模型去解決不同光照條件下的多尺度的目標檢測問題。

      猜你喜歡
      注意力卷積特征
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
      如何表達“特征”
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      不忠誠的四個特征
      當代陜西(2019年10期)2019-06-03 10:12:04
      基于傅里葉域卷積表示的目標跟蹤算法
      抓住特征巧觀察
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
      金乡县| 长垣县| 乌拉特后旗| 诸暨市| 吴堡县| 徐水县| 高密市| 宽甸| 高阳县| 西吉县| 屯门区| 商都县| 黑龙江省| 上犹县| 陆川县| 广汉市| 九龙坡区| 象州县| 夹江县| 岚皋县| 海阳市| 扬中市| 肇州县| 静乐县| 河北省| 南涧| 海口市| 梁山县| 基隆市| 阿图什市| 龙州县| 固安县| 大方县| 海兴县| 保山市| 济宁市| 叙永县| 阿克陶县| 饶河县| 凌云县| 凤庆县|