• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      復(fù)雜場景下基于改進(jìn)YOLOv3的口罩佩戴檢測算法

      2020-11-14 04:00:12王藝皓丁洪偉楊志軍楊俊東
      計(jì)算機(jī)工程 2020年11期
      關(guān)鍵詞:人臉口罩尺度

      王藝皓,丁洪偉,李 波,楊志軍,2,楊俊東

      (1.云南大學(xué) 信息學(xué)院,昆明 650500; 2.云南省教育廳科學(xué)教育研究院,昆明 650223)

      0 概述

      2019年12月以來,新型冠狀病毒肺炎(COVID-19)疫情[1]已經(jīng)陸續(xù)蔓延到我國多個省份及境外多個國家,對人類健康和社會安全帶來了巨大威脅。國家衛(wèi)生健康委員會2020年6月29日發(fā)布新型冠狀病毒肺炎疫情最新情況[2]:31個省(自治區(qū)、直轄市)和新疆生產(chǎn)建設(shè)兵團(tuán)共累計(jì)報告了確診病例83 531例,死亡病例4 634例,治愈出院病例78 469例,現(xiàn)有確診病例428例(無重癥病例)。最新研究發(fā)現(xiàn),雖然新型冠狀病毒的病死率低于SARS等病毒,但是其具有更強(qiáng)的傳染性和更長的潛伏期[3]。新型冠狀病毒主要通過呼吸道飛沫、密切接觸等方式進(jìn)行傳播[4],目前認(rèn)為人群普遍易感[5],并且隨時存在大規(guī)模聚集性傳染爆發(fā)的可能性[6]。當(dāng)前,在采取了強(qiáng)有力的防疫措施后,我國抗擊新冠肺炎已取得了空前成功,疫情態(tài)勢趨好,多省實(shí)現(xiàn)“零增長”。在全國復(fù)工復(fù)學(xué)大勢下,人們更應(yīng)科學(xué)地對抗疫情,從疾病初期的以臨床治療為主到進(jìn)一步強(qiáng)化、重視公共衛(wèi)生工作[7],而公共場所正確佩戴口罩作為嚴(yán)防疫情反彈的最有效措施之一,不僅是對每個人日常行為的考驗(yàn),也對相關(guān)技術(shù)的監(jiān)督和管理提出了一定要求。

      目前,專門應(yīng)用于人臉口罩佩戴檢測的相關(guān)算法[8]較少。多數(shù)的通用目標(biāo)檢測算法都適用于人臉口罩佩戴檢測任務(wù),但是由于復(fù)雜場景中存在目標(biāo)遮擋、密集人群、小尺度目標(biāo)檢測等問題,導(dǎo)致通用目標(biāo)檢測算法直接應(yīng)用于人臉口罩佩戴檢測任務(wù)時效果不理想。為解決上述問題,學(xué)者們進(jìn)行了大量的研究并取得了一定成果。SINDAGI等人[9]提出了一種上下文金字塔卷積神經(jīng)網(wǎng)絡(luò)(Contextual Pyramid CNN,CP-CNN)方法,其通過提取深度卷積特征得到了高質(zhì)量的人群密度圖。PANG等人[10]利用標(biāo)注中的遮擋信息設(shè)計(jì)基于掩碼的空間注意力機(jī)制模塊,使得模型更加關(guān)注行人未被遮擋部分的特征,從而有效緩解了周圍其他特征對行人檢測的干擾。LIU等人[11]借鑒FCN與DCN的思想,采用位置敏感的可變形卷積[12]池化來提高模型特征編碼的靈活性,使模型更多地從行人可見部分中學(xué)習(xí)相應(yīng)特征,避免其他物體的遮擋干擾。QIN等人[13]對ShufleNet進(jìn)行改進(jìn),通過增大淺層特征的通道數(shù)和感受野,以獲得更有效的目標(biāo)特征,并加入上下文信息增強(qiáng)模塊和空間注意力模塊來進(jìn)一步促進(jìn)多特征融合,從而在保證高速推理的同時提升模型的檢測精度。

      目前,基于深度學(xué)習(xí)的主流目標(biāo)檢測算法主要分為2種,一種是以RCNN[14-16]系列為代表的兩階段算法,另一種是以SSD[17]系列和YOLO[18-20]系列為代表的單階段算法。其中,YOLOv3[20]是YOLO系列中應(yīng)用最廣泛的目標(biāo)檢測算法,其結(jié)合了殘差網(wǎng)絡(luò)、特征金字塔以及多特征融合網(wǎng)絡(luò)等多種方法,具有較好的識別速度和檢測精度。本文對YOLOv3算法進(jìn)行改進(jìn)和優(yōu)化,以解決復(fù)雜場景下人臉口罩佩戴檢測任務(wù)中存在的遮擋、密集人群、小尺度目標(biāo)等問題。對YOLOv3中的DarkNet53骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),結(jié)合跨階段局部網(wǎng)絡(luò)構(gòu)造一種CSP DarkNet53網(wǎng)絡(luò),以降低內(nèi)存消耗并提高訓(xùn)練速度。在YOLOv3網(wǎng)絡(luò)中引入改進(jìn)的空間金字塔池化結(jié)構(gòu),同時結(jié)合自上而下和自下而上的特征融合策略對多尺度預(yù)測網(wǎng)絡(luò)進(jìn)行改進(jìn),以實(shí)現(xiàn)特征增強(qiáng)。在此基礎(chǔ)上,使用性能更好的CIoU損失函數(shù)替換原IoU損失函數(shù),考慮目標(biāo)與檢測框之間的中心點(diǎn)距離、重疊率以及長寬比信息,以提高目標(biāo)檢測的準(zhǔn)確性。

      1 YOLOv3算法原理

      YOLOv3是REDMON等人[20]于2018年提出的一種單階段目標(biāo)檢測算法,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。YOLOv3的第一個優(yōu)點(diǎn)是借鑒了ResNet[21]中的殘差思想,提出全新的DarkNet53網(wǎng)絡(luò)作為主干特征提取網(wǎng)絡(luò),DarkNet53網(wǎng)絡(luò)中的殘差結(jié)構(gòu)如圖2所示。首先經(jīng)過一次大小為3×3、步長為2的卷積,將其記為特征層x,接著進(jìn)行一次1×1的卷積將通道數(shù)壓縮為原來的1/2,然后再進(jìn)行一次3×3的卷積加強(qiáng)特征提取并將通道數(shù)擴(kuò)張回原來的大小,得到F(x),最后通過殘差結(jié)構(gòu)將x和F(x)進(jìn)行堆疊。該結(jié)構(gòu)的最大優(yōu)勢就是能夠通過增加網(wǎng)絡(luò)深度來提高準(zhǔn)確率,同時其內(nèi)部的殘差塊使用跳躍連接,緩解了在深度神經(jīng)網(wǎng)絡(luò)中增加深度帶來的梯度消失問題。DarkNet53網(wǎng)絡(luò)中的每一個卷積部分均使用了特有的結(jié)構(gòu)DarknetConv2D,每次卷積時使用L2正則化,在完成卷積后,進(jìn)行標(biāo)準(zhǔn)化處理(Batch Normalization,BN)并使用Leaky ReLU激活函數(shù)。相比ReLU函數(shù)中將所有負(fù)值均設(shè)為零,Leaky ReLU激活函數(shù)則是賦予所有負(fù)值一個非零斜率,如式(1)所示:

      (1)

      圖1 YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)

      圖2 DarkNet53網(wǎng)絡(luò)中的殘差結(jié)構(gòu)

      YOLOv3的第二個優(yōu)點(diǎn)是使用了多尺度特征進(jìn)行預(yù)測,即從DarkNet53網(wǎng)絡(luò)中一共提取3個不同的特征層實(shí)現(xiàn)預(yù)測,shape分別為(52,52,256)、(26,26,512)和(13,13,1 024)。在這3個特征層均進(jìn)行5次卷積處理,處理后的結(jié)果一部分用于輸出該特征層對應(yīng)的預(yù)測結(jié)果,另一部分用于上采樣(UpSampling2D)操作后分別與對應(yīng)的上一特征層進(jìn)行融合。

      此外,YOLOv3采用YOLOv2[19]中的方法來預(yù)測邊界框的坐標(biāo)位置,利用K-means聚類生成3種尺寸不同的先驗(yàn)框,每個預(yù)測邊框會生成4個值,即左上角的坐標(biāo)位置以及邊框的寬、高。相比其他多數(shù)目標(biāo)檢測模型而言,YOLOv3雖然具有檢測速度快、精度高的優(yōu)勢,但是其直接應(yīng)用于復(fù)雜場景下的口罩佩戴檢測任務(wù)時還存在一定不足。一是YOLOv3采用多尺度預(yù)測網(wǎng)絡(luò),雖然其充分利用感受野,有效緩解了卷積神經(jīng)網(wǎng)絡(luò)缺少尺度不變性的問題,但同時也提高了計(jì)算量,這對硬件設(shè)備和模型訓(xùn)練提出了更高的要求;二是YOLOv3雖然提高了對小目標(biāo)的檢測精度,但也出現(xiàn)了淺層特征提取不充分的問題;三是YOLOv3的預(yù)測準(zhǔn)確性過分依賴IoU,隨著IoU的增大,其對于目標(biāo)位置的預(yù)測精度會有所下降;四是對于復(fù)雜場景下存在的遮擋、密集人群以及尺度變化等問題,YOLOv3表現(xiàn)出一定的性能下降。針對以上問題,本文對YOLOv3進(jìn)行改進(jìn)和優(yōu)化。

      2 改進(jìn)的YOLOv3算法

      本文主要從DarkNet53骨干網(wǎng)絡(luò)、特征增強(qiáng)網(wǎng)絡(luò)和損失函數(shù)3個方面對YOLOv3進(jìn)行改進(jìn)。

      2.1 改進(jìn)的骨干網(wǎng)絡(luò)

      為進(jìn)一步改善YOLOv3的特征提取網(wǎng)絡(luò),本文引入跨階段局部網(wǎng)絡(luò)(Cross-Stage Partial Network,CSPNet)。CSPNet是WANG等人[22]提出的一種可增強(qiáng)CNN學(xué)習(xí)能力的新型骨干網(wǎng)絡(luò),其能夠消除算力中損耗較高的計(jì)算結(jié)構(gòu),降低內(nèi)存成本。本文將CSPNet結(jié)構(gòu)應(yīng)用于DarkNet53網(wǎng)絡(luò),進(jìn)而構(gòu)造一種CSP DarkNet53網(wǎng)絡(luò)[23],DarkNet53網(wǎng)絡(luò)和CSP DarkNet53網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

      圖3 DarkNet53和CSP DarkNet53網(wǎng)絡(luò)結(jié)構(gòu)

      與DarkNet53網(wǎng)絡(luò)相比,CSP DarkNet53網(wǎng)絡(luò)將原來殘差塊的堆疊拆分成Shortconv和Mainconv 2個部分。Shortconv部分即為生成的一個大的殘差邊,經(jīng)過1次卷積處理后直接連接到最后。Mainconv作為主干部分繼續(xù)進(jìn)行n(n的取值為1、2、8、8、4)次殘差塊堆疊,即先經(jīng)過一次1×1的卷積對通道數(shù)進(jìn)行調(diào)整,再通過一次3×3的卷積加強(qiáng)特征提取,接著將其輸出和小的殘差邊進(jìn)行堆疊,再經(jīng)過一次1×1的卷積將通道數(shù)調(diào)整為與Shortconv部分相同。最后,CSP DarkNet53將Shortconv和Mainconv進(jìn)行堆疊。本文對卷積塊所用的激活函數(shù)進(jìn)行優(yōu)化,將DarknetConv2D中的激活函數(shù)由Leaky ReLU換成Mish,即卷積塊由DarknetConv2D_BN_Leaky變成DarknetConv2D_BN_Mish。

      Mish是由DIGANTA M[24]提出的一種新穎的自正則非單調(diào)的神經(jīng)網(wǎng)絡(luò)激活函數(shù),其主要特點(diǎn)是無上界、有下界、平滑和非單調(diào)。其中,“無上界”有效避免了梯度消失問題,“有下界”增強(qiáng)了網(wǎng)絡(luò)正則化效果,“平滑”有利于神經(jīng)網(wǎng)絡(luò)提取更高級的潛在特征,從而獲得更好的泛化能力,“非單調(diào)”可以保留更小的負(fù)輸入從而提升網(wǎng)絡(luò)的可解釋能力和梯度流。Mish激活函數(shù)如式(2)所示:

      Mish=x×tanh(ln(1+ex))

      (2)

      在對DarkNet53網(wǎng)絡(luò)進(jìn)行改進(jìn)后,本文引入特征增強(qiáng)網(wǎng)絡(luò)模塊,從而進(jìn)一步強(qiáng)化網(wǎng)絡(luò)特征表示。

      2.2 特征增強(qiáng)網(wǎng)絡(luò)

      空間金字塔池化(Spatial Pyramid Pooling,SPP)是HE等人[25]提出的一種解決輸入神經(jīng)網(wǎng)絡(luò)不同圖像尺寸問題的方法,其主要思想是將任意大小的特征圖通過多尺度的池化操作,拼接成一個固定長度的特征向量。SPP能夠產(chǎn)生固定大小的特征表示,無需限定輸入圖像的尺寸或比例,因此,其對于圖像形變具有較好的魯棒性。本文引入SPP結(jié)構(gòu)以獲取多尺度局部特征信息,并將其與全局特征信息進(jìn)行融合得到更豐富的特征表示,進(jìn)而提升預(yù)測精度。由于CSP DarkNet53網(wǎng)絡(luò)已經(jīng)進(jìn)行了一系列的卷積和下采樣,其全局語義信息十分豐富,因此為了進(jìn)一步獲取更多的局部特征,本文在CSP DarkNet53網(wǎng)絡(luò)最后一個特征層的卷積中加入SPP結(jié)構(gòu),改進(jìn)的SPP網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。

      圖4 改進(jìn)的空間金字塔池化網(wǎng)絡(luò)結(jié)構(gòu)

      從圖4可以看出,改進(jìn)的SPP網(wǎng)絡(luò)具體步驟為:首先,對13×13的1 024通道特征層進(jìn)行3次卷積(DarknetConv2D_BN_Mish)操作;然后,利用3個不同尺度的池化層進(jìn)行最大池化處理,池化核大小分別為13×13、9×9和5×5,步長均為1;最后,將輸入的全局特征圖和3個經(jīng)池化處理后得到的局部特征圖進(jìn)行堆疊,并繼續(xù)進(jìn)行3次卷積操作。SPP結(jié)構(gòu)可以大幅增加最后一個特征層的感受野,分離出最顯著的上下文特征,從而獲得更加豐富的局部特征信息。低層級特征層的細(xì)節(jié)和定位信息一般較為豐富,但隨著特征層的逐漸深入,其細(xì)節(jié)信息不斷減少,而語義信息不斷增加,即越高層級特征層所包含的語義信息就越豐富。因此,在加入空間金字塔池化結(jié)構(gòu)后,本文又結(jié)合特征融合策略對多尺度預(yù)測網(wǎng)絡(luò)進(jìn)行改進(jìn),通過自上而下和自下而上的融合策略[26]增強(qiáng)特征表示,進(jìn)一步實(shí)現(xiàn)特征復(fù)用。改進(jìn)的多尺度預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

      圖5 改進(jìn)的多尺度預(yù)測網(wǎng)絡(luò)結(jié)構(gòu)

      從圖5可以看出,本文對多尺度預(yù)測網(wǎng)絡(luò)的具體改進(jìn)為:首先,通過CSP DarkNet53骨干網(wǎng)絡(luò)提取得到3個有效特征層(52,52,256)、(26,26,512)和(13,13,1 024),并分別記為大尺度特征層(Large Feature Layer,LFL)、中尺度特征層(Medium Feature Layer,MFL)和小尺度特征層(Small Feature Layer,SFL);其次,先對SFL0進(jìn)行3次卷積(Conv_3)、空間金字塔池化(SPP)后再進(jìn)行3次卷積(Conv_3)得到SFL1,將SFL1進(jìn)行一次卷積(Conv_1)和上采樣(UpSampling)得到的結(jié)果與MFL0進(jìn)行一次卷積(Conv_1)得到的結(jié)果進(jìn)行融合得到MFL1,接著再將MFL1進(jìn)行一次卷積(Conv_1)和上采樣(UpSampling)得到的結(jié)果與LFL0進(jìn)行一次卷積(Conv_1)得到的結(jié)果進(jìn)行融合得到LFL1,進(jìn)而完成自下而上的特征融合;然后,先對LFL1進(jìn)行5次卷積(Conv_5)得到LFL2,將對LFL2進(jìn)行下采樣得到的結(jié)果與MFL1進(jìn)行5次卷積(Conv_5)得到的結(jié)果進(jìn)行融合得到MFL2,接著將MFL2繼續(xù)進(jìn)行下采樣得到的結(jié)果直接與SFL1進(jìn)行融合得到SFL2,進(jìn)而完成自上而下的特征融合;最后,將3個初始有效特征層LFL0、MFL0和SFL0利用自下而上和自上而下的融合方式得到的LFL2、MFL2和SFL2分別進(jìn)行5次卷積(Conv_5),然后輸入YOLO Head中進(jìn)行預(yù)測。其中,Conv_1表示進(jìn)行一次大小為1×1的卷積處理,Conv_3和Conv_5的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

      圖6 Conv_3和Conv_5網(wǎng)絡(luò)結(jié)構(gòu)

      從圖5、圖6可以看出,本文利用自上而下和自下而上的特征融合策略對多尺度預(yù)測網(wǎng)絡(luò)進(jìn)行改進(jìn),雖然在一定程度上提高了運(yùn)算復(fù)雜度,但是其預(yù)測精度得到顯著提升。

      2.3 改進(jìn)的損失函數(shù)

      預(yù)測框與真實(shí)框的交并比(IoU)[27]是當(dāng)前最常用的目標(biāo)檢測算法性能評估標(biāo)準(zhǔn)之一,其計(jì)算公式為:

      (3)

      其中,M=(x,y,w,h)表示預(yù)測框,N=(xgt,ygt,wgt,hgt)表示真實(shí)框。IoU雖然可以反映預(yù)測檢測框和真實(shí)檢測框的檢測效果,但其僅能在邊界框重疊時發(fā)揮作用,而對于非重疊部分,IoU不會提供任何調(diào)整梯度,即常用的先驗(yàn)框回歸損失優(yōu)化和IoU優(yōu)化并非完全等價。針對該問題,本文引入CIoU[28]作為損失函數(shù)。CIoU考慮目標(biāo)與檢測框之間的中心點(diǎn)距離、重疊率以及長寬比信息,使得目標(biāo)框回歸更加穩(wěn)定,解決了IoU在訓(xùn)練過程中出現(xiàn)的發(fā)散等問題。CIoU計(jì)算公式如下:

      (4)

      其中,m和n分別表示M(預(yù)測框)和N(真實(shí)框)的中心點(diǎn),ρ2(m,n)表示預(yù)測框和真實(shí)框中心點(diǎn)的歐式距離,d表示能夠同時包含預(yù)測框和真實(shí)框的最小閉包區(qū)域的對角線距離,α為權(quán)衡參數(shù),β反映了長寬比的一致性。α和β的計(jì)算公式分別如下:

      (5)

      (6)

      相應(yīng)的損失函數(shù)為:

      (7)

      本文對骨干網(wǎng)絡(luò)、特征增強(qiáng)網(wǎng)絡(luò)、多尺度預(yù)測網(wǎng)絡(luò)以及損失函數(shù)進(jìn)行優(yōu)化后,改進(jìn)的YOLOv3整體結(jié)構(gòu)如圖7所示。

      圖7 改進(jìn)的YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)集

      由于目前沒有公開的復(fù)雜場景人臉口罩佩戴數(shù)據(jù)集,本文從WIDER FACE、MAFA(Masked Faces)[29]和RMFD(Real-World Masked Face Dataset)[30]3種數(shù)據(jù)集中篩選提取6 000張人臉照片和4 000張人臉佩戴口罩照片,共包含416 968張人臉目標(biāo)和103 576張人臉佩戴口罩目標(biāo),并對數(shù)據(jù)集進(jìn)行手工標(biāo)注。數(shù)據(jù)集示例如圖8所示,RMFD是武漢大學(xué)于2020年3月免費(fèi)開放的全球首個口罩遮擋人臉數(shù)據(jù)集,下載網(wǎng)址為https://github.com/X-zhangyang/Real-World-Masked-Face-Dataset。在圖8(b)中,表示標(biāo)簽信息,表示bounding box的位置信息。

      圖8 數(shù)據(jù)集標(biāo)注示例

      3.2 評價指標(biāo)

      本文通過以下指標(biāo)[31]評價人臉佩戴口罩檢測算法的性能:

      1)查準(zhǔn)率(Precision)和召回率(Recall):

      (8)

      (9)

      其中,TP表示檢測到的目標(biāo)類別與真實(shí)目標(biāo)類別一致的樣本數(shù)量,FP表示檢測到的目標(biāo)類別與真實(shí)目標(biāo)類別不一致的樣本數(shù)量,FN表示真實(shí)目標(biāo)存在但未被檢測出的樣本數(shù)量。

      2)平均準(zhǔn)確率(Average Precision,AP)和平均準(zhǔn)確率均值(mean Average Precision,mAP):

      (10)

      (11)

      其中,N表示所有目標(biāo)類別的數(shù)量。在一般情況下,召回率的提升往往伴隨著查準(zhǔn)率的下降,為了更好地權(quán)衡兩者,本文引入P-R曲線,P-R曲線下方的面積即為某類別的AP值。

      3)檢測速度:

      檢測速度是指目標(biāo)檢測網(wǎng)絡(luò)每秒能夠檢測的圖片數(shù)量(幀數(shù)),用FPS(Frames Per Second)表示。

      3.3 結(jié)果分析

      在Pycharm中編程實(shí)現(xiàn)本文算法,編程語言為Python3.6,深度學(xué)習(xí)框架為PyTorch1.2.0,實(shí)驗(yàn)硬件平臺包括Intel?XeonTMW-2102 CPU@2.90 GHz處理器,以及GeForce RTX 2080ti GPU用于加速模型訓(xùn)練。在訓(xùn)練模型時,本文按照1∶9的比例劃分測試集和訓(xùn)練集。模型訓(xùn)練方式采用Adam優(yōu)化器對網(wǎng)絡(luò)進(jìn)行優(yōu)化,共分為2個階段:第1階段將前249層凍結(jié),僅對第250層~第369層進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)為0.001,batch_size為4,共訓(xùn)練50個輪次(epoch);第2階段將前249層解凍后對所有層進(jìn)行訓(xùn)練,batch_size為2,訓(xùn)練從第60個輪次開始,到第120個輪次結(jié)束。另外,在相同的實(shí)驗(yàn)環(huán)境下,使用相同的訓(xùn)練方式訓(xùn)練一個原始的YOLOv3網(wǎng)絡(luò)模型用于分析比較。

      3.3.1 YOLOv3與本文算法實(shí)驗(yàn)結(jié)果比較

      YOLOv3和本文算法分別針對人臉目標(biāo)和人臉佩戴口罩目標(biāo)檢測的P-R曲線如圖9所示。

      圖9 YOLOv3和本文算法的P-R曲線對比

      從圖9可以看出,本文算法在人臉目標(biāo)和人臉佩戴口罩目標(biāo)檢測中均取得了較好的性能。在人臉佩戴口罩目標(biāo)檢測中,YOLOv3只取得了80.5%的AP值,而本文算法的AP值高達(dá)95.4%,相比YOLOv3算法提高了約15個百分點(diǎn)。在人臉目標(biāo)檢測中,YOLOv3和本文算法的AP值分別為77.6%和84.9%,雖然本文算法的AP值與YOLOv3相比有一定程度的提升,但其仍低于人臉佩戴口罩目標(biāo)檢測時的AP值,這可能是由于YOLOv3本身作為一種通用目標(biāo)檢測算法,并非針對人臉提出的目標(biāo)檢測算法,人臉上的關(guān)鍵點(diǎn)特征信息較多,人臉佩戴口罩目標(biāo)中人臉的一部分被口罩遮擋,相對完整的人臉而言,所需檢測的特征信息明顯減少,因此人臉佩戴口罩目標(biāo)檢測的識別精確度高于人臉目標(biāo)檢測??傮w而言,本文改進(jìn)的YOLOv3與原始YOLOv3相比檢測精度更高。

      為了進(jìn)一步對檢測效果進(jìn)行分析比較,本文將檢測目標(biāo)分為大尺度目標(biāo)(Large)、中尺度目標(biāo)(Medium)和小尺度目標(biāo)(Small),YOLOv3和本文算法對于3種尺度目標(biāo)的檢測結(jié)果如圖10所示。從圖10可以看出,YOLOv3對于大尺度目標(biāo)、中尺度目標(biāo)和小尺度目標(biāo)檢測的mAP值分別為85.7%、79.2%和72.4%,而本文算法在大尺度目標(biāo)、中尺度目標(biāo)和小尺度目標(biāo)檢測上的mAP值分別為96.4%、88.7%和85.5%,與YOLOv3相比,本文算法的mAP值分別提升了10.7個、9.5個和13.1個百分點(diǎn)。

      圖10 YOLOv3和本文算法對于3種尺度目標(biāo)的實(shí)驗(yàn)結(jié)果對比

      本文對復(fù)雜場景下的正常檢測、遮擋檢測、側(cè)臉檢測、密集人群檢測和小尺度人臉檢測5種情況,分別進(jìn)行具體的檢測效果示例展示,如圖11~圖15所示。

      圖11 正常人臉檢測結(jié)果

      圖12 遮擋人臉檢測結(jié)果

      圖13 側(cè)臉檢測結(jié)果

      圖14 密集人群檢測結(jié)果

      圖15 小尺度人臉檢測結(jié)果

      從圖11可以看出,對于正常人臉的檢測識別,本文算法和YOLOv3均取得了較好的檢測效果,兩者都可以正確地識別出配戴口罩人臉和未佩戴口罩人臉,但在識別準(zhǔn)確率上,特別是對于佩戴口罩人臉的識別準(zhǔn)確率,本文算法相比YOLOv3有顯著的性能提升。因此,后續(xù)本文主要對復(fù)雜場景中的佩戴口罩人臉檢測效果進(jìn)行分析,主要考慮復(fù)雜場景中遮擋、側(cè)臉、密集人群以及小尺度人臉檢測的情況。

      從圖12(a)可以看出,YOLOv3共檢測出8個佩戴口罩人臉目標(biāo),最高預(yù)測準(zhǔn)確率僅為93%,從圖12(b)可以看出,本文算法共檢測出13個佩戴口罩人臉目標(biāo),有6個檢測框的預(yù)測準(zhǔn)確率達(dá)到99%以上。

      在圖13的側(cè)臉檢測場景中,本文算法和YOLOv3同樣取得了較好的檢測效果,從圖13(a)可以看出,YOLOv3共檢測出10個佩戴口罩人臉目標(biāo),從圖13(b)可以看出,本文算法共檢測出15個佩戴口罩人臉目標(biāo),本文算法預(yù)測準(zhǔn)確率也有顯著提升。

      從圖14(a)可以看出,YOLOv3共識別出9個配戴口罩人臉目標(biāo),從圖14(b)可以看出,本文算法共識別出16個佩戴口罩人臉目標(biāo),同時其預(yù)測準(zhǔn)確率也有大幅提升,有半數(shù)以上檢測框的預(yù)測準(zhǔn)確率達(dá)到了95%以上。

      從圖15(a)可以看出,YOLOv3共檢測出7個佩戴口罩人臉目標(biāo),從圖15(b)可以看出,本文算法共檢測出8個佩戴口罩人臉目標(biāo),同時預(yù)測準(zhǔn)確率也有一定程度的上升。

      綜上,本文算法對于復(fù)雜場景下人臉佩戴口罩的檢測效果明顯優(yōu)于YOLOv3算法。

      3.3.2 本文算法與其他算法比較

      為了進(jìn)一步驗(yàn)證本文算法的有效性,將該算法與其他算法的性能進(jìn)行比較,結(jié)果如表1所示。

      表1 4種算法的性能比較結(jié)果

      在表1中,Face指人臉目標(biāo)檢測的平均準(zhǔn)確率,Face_Mask指人臉佩戴口罩目標(biāo)檢測的平均準(zhǔn)確率。

      從表1可以看出,對于人臉佩戴口罩目標(biāo)檢測而言,本文算法取得了較好的檢測效果,與RetinaFace算法和Attention-RetinaFace算法相比,其AP值分別提升了18.9%和10.7%,mAP值分別提升了8.3%和2.5%。但是,對于人臉目標(biāo)檢測而言,RetinaFace算法和Attention-RetinaFace算法的AP值明顯更高,原因是這2種算法均是專門用于人臉定位的單階段檢測算法,基于人臉對齊、像素級人臉分析和人臉密集關(guān)鍵點(diǎn)三維分析來實(shí)現(xiàn)多尺度人臉檢測,因此,它們的檢測精度更高。而同為單階段檢測算法,YOLOv3雖然對于通用目標(biāo)有較高的檢測精度和效率,但對于人臉這種特征信息豐富且復(fù)雜的目標(biāo)而言,其性能低于專業(yè)的人臉檢測算法。本文算法是基于YOLOv3的算法,雖然其人臉目標(biāo)檢測的AP值略低于RetinaFace算法和Attention-RetinaFace算法,但高于原始YOLOv3算法,而且本文算法的FPS相比RetinaFace算法和Attention-RetinaFace算法分別提升了20.1和19.7??傮w而言,本文算法能在一定程度上提升復(fù)雜場景下人臉佩戴口罩的目標(biāo)檢測效果。

      3.3.3 消融實(shí)驗(yàn)結(jié)果及分析

      消融實(shí)驗(yàn)是深度學(xué)習(xí)領(lǐng)域中常用的實(shí)驗(yàn)方法,主要用來分析不同的網(wǎng)絡(luò)分支對整個模型的影響[16]。為了進(jìn)一步分析改進(jìn)算法對于YOLOv3模型的影響,將本文算法裁剪成5組分別進(jìn)行訓(xùn)練,第1組為原始的YOLOv3,第2組為特征提取網(wǎng)絡(luò)結(jié)構(gòu)改為CSP DarkNet53的YOLOv3,第3組在第2組的基礎(chǔ)上加入改進(jìn)的空間金字塔池化,第4組在第3組的基礎(chǔ)上加入路徑聚合網(wǎng)絡(luò),第5組在第4組的基礎(chǔ)上使用損失函數(shù)CIoU,即第5組為本文算法。5組消融實(shí)驗(yàn)結(jié)果如表2所示,其中,“√”表示包括該結(jié)構(gòu),“×”表示未包括該結(jié)構(gòu)。

      表2 消融實(shí)驗(yàn)結(jié)果對比

      從表2可以看出:對于第1組實(shí)驗(yàn),原始YOLOv3在人臉目標(biāo)檢測和人臉佩戴口罩目標(biāo)檢測上的AP值分別為77.6%和80.5%,其mAP值為79.1%,FPS為32;對于第2組實(shí)驗(yàn),由于引入了跨階段局部網(wǎng)絡(luò),人臉目標(biāo)檢測和人臉佩戴口罩目標(biāo)檢測的AP值相對第1組分別提高了1.2%和3.2%,mAP值提高了2.2%,同時檢測速度增加了3FPS,原因是跨階段局部網(wǎng)絡(luò)增強(qiáng)了卷積網(wǎng)絡(luò)的學(xué)習(xí)能力,消除了大部分的計(jì)算瓶頸結(jié)構(gòu)并降低了內(nèi)存消耗,從而提高了推理速度和準(zhǔn)確性;對于第3組實(shí)驗(yàn),由于其在第2組的基礎(chǔ)上加入了改進(jìn)的空間金字塔池化結(jié)構(gòu),雖然FPS相比第2組降低了1,但各類AP值均有提升,特別是人臉佩戴口罩目標(biāo)檢測的AP值提升了約4個百分點(diǎn),mAP值比第2組高出近3個百分點(diǎn),這說明改進(jìn)的空間金字塔池化結(jié)構(gòu)能夠提升模型性能;對于第4組實(shí)驗(yàn),由于其在第3組的基礎(chǔ)上加入了路徑聚合網(wǎng)絡(luò),各類AP值以及mAP值又取得了一定程度的提升,這是因?yàn)樵摻M在3個有效特征層中加入了自下而上的融合路徑,從而進(jìn)一步提升了預(yù)測網(wǎng)絡(luò)的檢測效果;第5組實(shí)驗(yàn)即本文算法,其在第4組的基礎(chǔ)上改進(jìn)了損失函數(shù),選取CIoU替換IoU,mAP值相對于第4組提升了1.3%,特別是與原始YOLOv3相比,本文算法整體性能均有顯著提升,同時也取得了更好的實(shí)時效果,其檢測速度增加了6FPS。綜上,本文針對YOLOv3的改進(jìn)策略能夠提升復(fù)雜場景下的人臉佩戴口罩檢測效果。

      4 結(jié)束語

      為解決復(fù)雜場景下人臉口罩佩戴檢測任務(wù)中存在的遮擋、密集人群和小尺度目標(biāo)等問題,本文提出一種改進(jìn)的YOLOv3算法。為減少網(wǎng)絡(luò)計(jì)算消耗并提高訓(xùn)練速度,引入跨階段局部網(wǎng)絡(luò),對DarkNet53進(jìn)行改進(jìn)以構(gòu)造CSP DarkNet53網(wǎng)絡(luò)。引入改進(jìn)的空間金字塔池化結(jié)構(gòu),通過自上而下和自下而上的特征融合策略優(yōu)化多尺度預(yù)測網(wǎng)絡(luò),從而實(shí)現(xiàn)特征增強(qiáng)。將IoU損失函數(shù)替換為CIoU損失函數(shù),充分考慮目標(biāo)與檢測框之間的中心點(diǎn)距離、重疊率以及長寬比等信息。實(shí)驗(yàn)結(jié)果表明,該算法可以有效提升復(fù)雜場景下口罩佩戴檢測的精度和速度,平均準(zhǔn)確率達(dá)到90.2%,檢測速度達(dá)到38FPS。由于本文所選數(shù)據(jù)集均來自理想光照環(huán)境,因此下一步將考慮光照變化等因素以擴(kuò)充數(shù)據(jù)集,同時對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化和改進(jìn),以構(gòu)造性能更優(yōu)的輕量級網(wǎng)絡(luò)結(jié)構(gòu)用于模型訓(xùn)練,從而提升檢測模型的準(zhǔn)確性和實(shí)時性。

      猜你喜歡
      人臉口罩尺度
      有特點(diǎn)的人臉
      財產(chǎn)的五大尺度和五重應(yīng)對
      戴口罩的苦與樂
      意林(2020年9期)2020-06-01 07:26:22
      因?yàn)橐粋€口罩,我決定離婚了
      海峽姐妹(2020年4期)2020-05-30 13:00:08
      霧霾口罩
      三國漫——人臉解鎖
      動漫星空(2018年9期)2018-10-26 01:17:14
      要戴口罩的霧霾天
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      馬面部與人臉相似度驚人
      9
      衡南县| 汕头市| 如东县| 铜梁县| 巴中市| 图片| 大丰市| 衡阳市| 灵武市| 嵩明县| 水富县| 长泰县| 广丰县| 泰顺县| 阿巴嘎旗| 乌兰察布市| 连城县| 长葛市| 顺昌县| 安国市| 南通市| 安泽县| 松桃| 达州市| 桐乡市| 开江县| 林口县| 齐齐哈尔市| 吉林市| 宾川县| 磐石市| 沁阳市| 泾川县| 乐陵市| 云林县| 荆州市| 高雄县| 平定县| 楚雄市| 长子县| 枣强县|