• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)S3FD網(wǎng)絡(luò)的人臉檢測算法

    2021-11-06 02:24:42李宇豪呂曉琪
    激光技術(shù) 2021年6期
    關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)人臉注意力

    李宇豪,呂曉琪,2*,谷 宇,張 明,3,李 菁

    (1.內(nèi)蒙古科技大學(xué) 信息工程學(xué)院 內(nèi)蒙古自治區(qū)模式識(shí)別與智能圖像處理重點(diǎn)實(shí)驗(yàn)室,包頭 014010;2.內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,呼和浩特 010051;3.大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,大連116026)

    引 言

    人臉檢測是計(jì)算機(jī)視覺領(lǐng)域主要關(guān)注點(diǎn),在人臉對(duì)齊、人臉分析、人臉識(shí)別和人臉跟蹤等領(lǐng)域有著廣泛的應(yīng)用。給定一幅圖像,人臉檢測的目標(biāo)是確定是否存在任何人臉。如果有,則返回每個(gè)人臉的邊界框。早期人臉檢測采用模板匹配技術(shù)與手工特征,其代表性成果是ROWLEY等人提出的方法[1-2]。ROWLEY的方法有不錯(cuò)的精度,但由于分類器的設(shè)計(jì)和密集滑動(dòng)窗口的采樣設(shè)計(jì)導(dǎo)致速度太慢。2001年,VIOLA和JONES[3]設(shè)計(jì)了Viola-Jones(VJ)框架。之后部分可變形模型(deformable part models,DPM)被一些工作[4-6]用來處理人臉檢測任務(wù)。隨著機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的不斷發(fā)展,且卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)在ImageNet分類任務(wù)[7]取得進(jìn)展,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測逐步成為主流技術(shù)方法[8-9]。級(jí)聯(lián)網(wǎng)絡(luò)(CascadeCNN)[10]延續(xù)了VIOLA和JONES的想法,實(shí)現(xiàn)了不錯(cuò)的檢測效果。QIN等人[11]提出整體訓(xùn)練CascadeCNN,從而實(shí)現(xiàn)優(yōu)化。Faceness利用人臉屬性分類的卷積神經(jīng)網(wǎng)絡(luò)來檢測部分遮擋的人臉[12]。多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)(multi-task convolutional neural networks,MTCNN)[13]進(jìn)一步拓展了級(jí)聯(lián)CNN的思想,還有部分采用目標(biāo)檢測領(lǐng)域的思想,將整體網(wǎng)絡(luò)結(jié)構(gòu)分為P-Net,R-Net和O-Net。JIANG等人[14]將faster R-CNN[15]應(yīng)用到人臉檢測取得較好的效果?;谏舷挛牡亩喑叨葏^(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(contextual multi-scale region-based CNN,CMS-R-CNN)[16]采用上下文信息幫助進(jìn)行人臉檢測從而提升了性能,將網(wǎng)絡(luò)整體分為上部分采用區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)進(jìn)行檢測,下部分結(jié)合人體的人臉長寬等信息進(jìn)行檢測。WAN等人[17]將faster R-CNN與困難負(fù)樣本優(yōu)化結(jié)合取得了不錯(cuò)的效果。在含有大場景的少量的人臉圖像中準(zhǔn)確率已取得較高水平,但在小場景的大量的人臉圖像中準(zhǔn)確率較低。針對(duì)多尺度人臉檢測,2017年,ZHANG[18]提出尺度不變?nèi)四槞z測器(single shot scale-invariant face detector,S3FD),結(jié)合了faster R-CNN中的RPN和SSD[19](single shot multibox detector)中的錨點(diǎn)機(jī)制。2018年,ZHU等人[20]、LI等人[21]將人臉檢測準(zhǔn)確性進(jìn)一步提高,同年GU等人[22]利用多尺度的目標(biāo)檢測在3-D方面取得了不錯(cuò)的效果。2019年,LI和TANG等人[23]提出 PyramidBox++。

    針對(duì)人臉檢測中因目標(biāo)特征信息較少、檢測困難的問題,本文中提出一種基于S3FD的人臉檢測算法。使用以視覺幾何組(visual geometry group,VGG)VGG16[24]網(wǎng)絡(luò)為主干的S3FD[18]進(jìn)行特征提取,在整體網(wǎng)絡(luò)結(jié)構(gòu)的中間加入卷積注意力模塊[25](convolutional block attention module,CBAM),利用空間和通道注意力來進(jìn)行不同特征通道和特征圖位置的權(quán)重系數(shù),對(duì)后續(xù)的網(wǎng)絡(luò)機(jī)構(gòu)進(jìn)行特征強(qiáng)化,最后利用特征金字塔網(wǎng)絡(luò)[26](feature pyramid network,F(xiàn)PN)結(jié)構(gòu)的形式,將其中FPN網(wǎng)絡(luò)結(jié)構(gòu)的卷積部分替換成為感受野模塊(receptive field block,RFB)網(wǎng)絡(luò)結(jié)構(gòu),利用RFB[27]中擴(kuò)大感受野的效果作用于不同尺度下的特征圖,從而減少目標(biāo)特征信息的丟失,并且在不大量增加額外參數(shù)量的情況下完成人臉檢測。

    1 基本原理

    1.1 網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)

    針對(duì)小目標(biāo)人臉特征較少,以及在圖像獲取中因采集設(shè)備等因素導(dǎo)致的圖片精度不高的小目標(biāo)難以檢測的問題,提出基于S3FD網(wǎng)絡(luò)結(jié)構(gòu)的人臉檢測方法。采用VGG16網(wǎng)絡(luò)作為檢測主體,強(qiáng)化針對(duì)人臉的特征提取力,引入CBAM注意力機(jī)制建立時(shí)間和空間的依賴關(guān)系;使用RFB來獲得較大的感受野,讓網(wǎng)絡(luò)結(jié)構(gòu)對(duì)目標(biāo)圖片的感受野擴(kuò)大從而能獲得更多的信息,而且在此基礎(chǔ)之上還使用FPN網(wǎng)絡(luò)結(jié)構(gòu),使得網(wǎng)絡(luò)結(jié)構(gòu)在不同尺度下都可以擴(kuò)大感受野和在不大量增加額外參數(shù)量的情況之下網(wǎng)絡(luò)能夠保留更多的圖像細(xì)節(jié)特征。基于S3FD網(wǎng)絡(luò)結(jié)構(gòu)的人臉檢測算法模型S3FD-CBAM-RFB如圖1所示,其中conv表示卷積層,convfc表示全連接層,up表示上采樣過程。

    Fig.1 Network structure diagram of S3FD-CBAM-RFB

    1.2 RFB網(wǎng)絡(luò)模塊

    RFB網(wǎng)絡(luò)模塊是2018年由LIU等人[27]提出,仿照人類的視覺增大在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的感受野,從而獲得更多的信息提高檢測效果。RFB由不同尺寸卷積核的卷積層構(gòu)成多分支結(jié)構(gòu),類似于SZEGEDY等人在2014年提出的inception結(jié)構(gòu)[28],并在此基礎(chǔ)之上加入空洞卷積層,使得RFB的感受野進(jìn)一步擴(kuò)大,獲取的特征信息更多,如圖2所示。

    Fig.2 Network structure diagram of RFB

    在RFB的基礎(chǔ)之上LIU等人還改進(jìn)出RFB-s,RFB-s于RFB相比主要存在兩個(gè)方面的改進(jìn),一方面是將3×3的卷積層代替5×5的卷積層,另一方面是將3×3的卷積層改換為1×3和3×1卷積層,主要目的應(yīng)該是減少計(jì)算量,RFB-s網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

    Fig.3 Network structure diagram of RFB-s

    1.3 CBAM網(wǎng)絡(luò)

    CBAM是由WOO等人[25]在2018年提出的網(wǎng)絡(luò)結(jié)構(gòu),目的是對(duì)訓(xùn)練過程中的特征進(jìn)行干預(yù),將更多訓(xùn)練時(shí)的注意力分配到更能夠區(qū)分圖片特征的地方。CBAM與BA等人[29]提出的注意力機(jī)制不同,其中包含通道注意力機(jī)制和空間注意力機(jī)制,CBAM總體結(jié)構(gòu)如圖4所示。

    Fig.4 Network structure diagram of CBAM

    特征圖F在通道注意力中計(jì)算過程如下式所示:

    Mc(F)=

    σ(MLP(avgpool(F))+MLP(maxpool(F))

    (1)

    式中,Mc(F)表示經(jīng)過通道注意力后的特征圖,avgpool和maxpool分別表示均值池化和最大值池化運(yùn)算。(1)式經(jīng)過計(jì)算后得到下式:

    Mc(F)=σ(W1(W0(Fc,avg))+W1(W0(Fc,max))),

    (W0∈RC/r×C,W1∈RC×C/r)

    (2)

    式中,σ為sigmoid操作,r表示減少率,C表示通道數(shù),R表示下降率,F(xiàn)c,avg,Fc,max以及Fs,avg,Fs,max表示特征圖F分別在通道注意力和空間注意力兩個(gè)模塊中經(jīng)過均值池化和最大值池化后的特征圖。W0,W1是多層感知器(multi-layer perceptron,MLP)運(yùn)算中的權(quán)重,共享輸入和W0的線性整流函數(shù)(rectified linear unit,ReLU)激活函數(shù)。通道注意力產(chǎn)生的特征圖通過空間注意力的過程如下所示:

    Ms(F)=

    σ(f7×7([avgpool(F);maxpool(F)]))

    (3)

    Ms(F)=σ(f7×7(Fs,avg;Fs,max))

    (4)

    式中,Ms(F)表示通過空間注意力之后的特征圖,f7×7表示卷積核大小為7×7的卷積層。

    2 實(shí) 驗(yàn)

    2.1 數(shù)據(jù)集

    數(shù)據(jù)集采用widerface數(shù)據(jù)集[30],widerface數(shù)據(jù)集分為easy,medium和hard 3種不同難度的圖像,widerface數(shù)據(jù)集包含32203個(gè)圖像,其中有393703個(gè)人臉,而這些人臉在尺度、姿態(tài)、遮擋方面都有很大的變化范圍,存在大量的小目標(biāo)人臉。本模型使用widerface數(shù)據(jù)集中的訓(xùn)練集作為模型的訓(xùn)練集,驗(yàn)證集作為最后模型檢測的測試集。widerface數(shù)據(jù)集如圖5所示,在實(shí)驗(yàn)中將widerface數(shù)據(jù)集的圖像進(jìn)行顏色扭曲,將圖片裁剪到640×640大小,且以0.5的概率進(jìn)行左右翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。

    Fig.5 widerface data set

    2.2 實(shí)驗(yàn)環(huán)境

    本文中的模型是采取pytorch框架進(jìn)行實(shí)現(xiàn),實(shí)驗(yàn)平臺(tái)是基于系統(tǒng)Ubuntu18.04,GPU為TeslaV100。實(shí)驗(yàn)中的訓(xùn)練迭代次數(shù)為300次,學(xué)習(xí)率是跟隨著迭代次數(shù)的不斷進(jìn)行而逐漸減小的,從初始學(xué)習(xí)率0.001~0.00001變化3次,實(shí)驗(yàn)中批次樣本數(shù)設(shè)置為18,優(yōu)化器選擇隨機(jī)梯度下降法(stochastic gradient descent,SGD)。

    2.3 評(píng)估標(biāo)準(zhǔn)

    為了評(píng)價(jià)人臉檢測性能,本文中主要采取精準(zhǔn)率-召回率(precision-recall,PR)曲線來進(jìn)行評(píng)價(jià),精準(zhǔn)率P指在以預(yù)測成為正樣本的結(jié)果中實(shí)際為正樣本的概率,召回率R指在實(shí)際上應(yīng)為正樣本的樣本被預(yù)測成為正樣本的概率。在預(yù)測的結(jié)果中預(yù)測為正樣本的且與實(shí)際相符的樣本數(shù)用真正例Tp表示,在預(yù)測的結(jié)果中預(yù)測為負(fù)樣本的且與實(shí)際相符的樣本數(shù)用假正例Fp表示;相反,在某一類中預(yù)測為正樣本但與實(shí)際不符則用假負(fù)例Fn表示,預(yù)測為負(fù)樣本且與實(shí)際相符則用真負(fù)例Tn表示。PR曲線所覆蓋的面積稱為平均精準(zhǔn)率(average precision,AP),AP值越高則分類器的效果越好,其計(jì)算方式是將PR曲線所覆蓋的面積分解成矩形進(jìn)行計(jì)算面積。準(zhǔn)確率P和召回率R的計(jì)算公式如下所示:

    (5)

    (6)

    2.4 實(shí)驗(yàn)結(jié)構(gòu)與結(jié)果分析

    本文中損失函數(shù)分為兩部分,分類損失選用交叉熵?fù)p失,用于判斷分類類別是否準(zhǔn)確,如下式所示:

    (1-yi)×ln(1-pi)]

    (7)

    式中,L表示交叉熵?fù)p失的值,N表示樣本總數(shù),i表示第幾個(gè)樣本,Li表示每一個(gè)樣本的損失,yi表示樣本i的標(biāo)簽,pi表示樣本i預(yù)測為正的概率,選取平滑最小絕對(duì)值偏差損失L1來判斷當(dāng)前錨點(diǎn)是否合適,回歸損失SL1如下式所示:

    (8)

    式中,x表示預(yù)測框與真實(shí)值之間的差異。

    2.4.1 實(shí)驗(yàn)結(jié)構(gòu)分析 S3FD-CBAM結(jié)構(gòu)是在VGG16網(wǎng)絡(luò)與extra conversion結(jié)構(gòu)連接處添加CBAM結(jié)構(gòu)以此來調(diào)整空間和通道的特征比重,如圖6所示。S3FD-double-stage-max則是在原有雙通路基礎(chǔ)上全面加入max-out結(jié)構(gòu)使得負(fù)樣本比例減少,如圖7所示。S3FD-double-stage結(jié)構(gòu)是在原本S3FD-CBAM的基礎(chǔ)上,將輸入變?yōu)殡p通道,一條為VGG16,另一條是由RFB模塊構(gòu)成,利用兩條不同的網(wǎng)絡(luò)結(jié)構(gòu)來構(gòu)建不同的特征圖,然后進(jìn)行疊加使網(wǎng)絡(luò)整體能夠獲得的特征變多,如圖8所示。圖7與圖8中的concat表示為數(shù)據(jù)的拼接,S3FD-CBAM-RFB結(jié)構(gòu)如圖1所示。

    Fig.6 Network structure diagram of S3FD-CBAM

    Fig.7 Network structure diagram of S3FD-double-stage-max

    Fig.8 Network structure diagram of S3FD-double-stage

    2.4.2 實(shí)驗(yàn)結(jié)果分析 3種不同結(jié)構(gòu)網(wǎng)絡(luò)在widerface數(shù)據(jù)集上的表現(xiàn)如圖9所示。圖9a表示4種不同網(wǎng)絡(luò)結(jié)構(gòu)在easy難度數(shù)據(jù)集下的模型表現(xiàn),圖9b表示4種不同網(wǎng)絡(luò)結(jié)構(gòu)在medium難度下的模型表現(xiàn),圖9c表示4種不同網(wǎng)絡(luò)結(jié)構(gòu)在hard難度下的模型表現(xiàn)情況。

    Fig.9 Curve of model effect

    通過圖9和表1可以看出,S3FD-CBAM-RFB在widerface數(shù)據(jù)集上的表現(xiàn)在3個(gè)不同難度的分類都有一定程度的提高,S3FD-CBAM網(wǎng)絡(luò)結(jié)構(gòu)體現(xiàn)出CBAM在網(wǎng)絡(luò)結(jié)構(gòu)中的正向作用,使得網(wǎng)絡(luò)精確度在3種不同難度下均有了一定程度的提高,在此基礎(chǔ)之上將此網(wǎng)絡(luò)結(jié)構(gòu)修改為以RFB為第2條通路的雙通路網(wǎng)絡(luò)結(jié)構(gòu),但由于此結(jié)構(gòu)無法減少在卷積過程中對(duì)小目標(biāo)特征信息的丟失,所以效果反而有一定程度的下降,S3FD-CBAM-RFB則是仿照FPN網(wǎng)絡(luò)模塊,將FPN中的卷積層變?yōu)镽FB之后進(jìn)行上采樣,在使用RFB擴(kuò)充感受野的同時(shí)將小目標(biāo)的信息盡可能地保留,使得在人臉預(yù)測上S3FD-CBAM-RFB的結(jié)果有了一定程度的提高,但是在難度較高且人臉數(shù)量較多的hard難度下的圖像中該網(wǎng)絡(luò)結(jié)構(gòu)沒有在S3FD-CBAM原有的基礎(chǔ)上改善。本文中的模型在widerface數(shù)據(jù)集的檢測效果如圖10所示。正如圖10a~圖10d中所示,本文中算法對(duì)小型、密集、難度較大的人臉檢測效果較好,但是圖10b中有部分人臉由于人臉角度以及人臉遮擋導(dǎo)致存在漏檢情況,圖10e中存在一定的誤檢,將原本的手檢測成為人臉,主要原因是圖片本身在較遠(yuǎn)的部分相對(duì)模糊,所以將手誤檢成為人臉。

    Table 1 Results of three methods

    Fig.10 Test results

    2.5 對(duì)比分析

    為了說明本文中方法的有效性,選取了在widerface數(shù)據(jù)集上的其它方法進(jìn)行比較,如表2所示。IS3FD和IS3FD-fast這兩種網(wǎng)絡(luò)結(jié)構(gòu)[31]與本文中模型是同種數(shù)據(jù)集且是同種骨干網(wǎng)絡(luò)模型S3FD,IS3FD是采取上下文特征關(guān)系,采取局部特征金字塔網(wǎng)絡(luò)(local feature pyramid networks,LFPN)以及將max-out擴(kuò)展至所有特征預(yù)測層,IS3FD-fast是將激活函數(shù)改用ReLU的變形函數(shù)CRelU,將本文方法以及上述兩種方法與原網(wǎng)絡(luò)S3FD進(jìn)行比較,從表2可以看出,本文中方法在hard難度下AP值介于IS3FD和IS3FD-fast兩者之間,但是優(yōu)于S3FD,在easy以及medium兩個(gè)難度下本文算法均優(yōu)于其它3種同類型的算法,與原S3FD相比分別提高了1.3%,1.2%,0.5%。

    Table 2 Comparison of face detection results with the relevant methods

    本文中算法在3種不同難度下的人臉檢測中均優(yōu)于WANG等人[32]和ZHU等人所提出的算法,主要在于擴(kuò)大了特征圖在網(wǎng)絡(luò)中的感受野以及加入注意力機(jī)制使得通道和空間的權(quán)重對(duì)結(jié)果產(chǎn)生影響。圖11所示是本文中算法在視頻流檢測效果。圖11a表示在簡單情況下檢測效果,圖11b表示在復(fù)雜情況下的檢測效果。綜上所述,本文中模型在widerface數(shù)據(jù)集上表現(xiàn)出相對(duì)較高的準(zhǔn)確率和相對(duì)較少的運(yùn)算成本和時(shí)間成本。

    Fig.11 Video test results

    3 結(jié) 論

    為解決在小目標(biāo)人臉的檢測準(zhǔn)確率相對(duì)較差的問題,本文中利用S3FD網(wǎng)絡(luò)結(jié)構(gòu)為主干進(jìn)行針對(duì)小目標(biāo)人臉的檢測算法研究。為解決在卷積過程中目標(biāo)特征丟失以及圖像清晰度不夠的問題,該方法將S3FD、通道和空間注意力機(jī)制、RFB擴(kuò)大感受野模塊和多尺度特征金字塔相結(jié)合,減少目標(biāo)特征在卷積過程中的損失,使得網(wǎng)絡(luò)的整體準(zhǔn)確率得到提高。本文中模型在參量方面沒有進(jìn)行大范圍的增加,使得網(wǎng)絡(luò)模型在檢測過程中具有較好的速度,在一定程度上滿足了對(duì)目標(biāo)檢測快速處理的需求。人臉檢測中檢測速度和檢測準(zhǔn)確率是一對(duì)矛盾體,如何在提高速度的同時(shí)提高人臉檢測的準(zhǔn)確率一直是人臉檢測這一領(lǐng)域的重點(diǎn),隨著網(wǎng)絡(luò)結(jié)構(gòu)的不斷優(yōu)化以及硬件設(shè)備的不斷提高,各種理論的不斷發(fā)展和成熟,在不久的將來更快更準(zhǔn)的人臉檢測將會(huì)出現(xiàn),本文中模型在保證一定速度的基礎(chǔ)之上依舊保持較好的準(zhǔn)確度,可促進(jìn)更快更準(zhǔn)的人臉檢測技術(shù)的發(fā)展。

    猜你喜歡
    網(wǎng)絡(luò)結(jié)構(gòu)人臉注意力
    讓注意力“飛”回來
    有特點(diǎn)的人臉
    三國漫——人臉解鎖
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    A Beautiful Way Of Looking At Things
    基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
    知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
    滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實(shí)證分析
    復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對(duì)算法研究進(jìn)展
    馬面部與人臉相似度驚人
    泸州市| 辽宁省| 汝南县| 沙田区| 汽车| 镇赉县| 鄢陵县| 唐山市| 彭阳县| 连云港市| 宁波市| 丰城市| 濮阳县| 合阳县| 阜城县| 安庆市| 太康县| 西贡区| 梧州市| 图木舒克市| 库伦旗| 本溪市| 乐东| 陇西县| 黔西县| 罗甸县| 花垣县| 星座| 宣恩县| 金川县| 玉林市| 普宁市| 安化县| 武城县| 武穴市| 浏阳市| 开远市| 特克斯县| 金川县| 晋宁县| 丰县|