曾其濤,韋娟,張津源,林 彬
(桂林理工大學(xué) 理學(xué)院,廣西 桂林 541004)
2019年12月,新型冠狀病毒感染的肺炎疫情開(kāi)始爆發(fā)并迅速蔓延到我國(guó)多個(gè)地區(qū),與病毒的斗爭(zhēng)成為一場(chǎng)持久戰(zhàn)。目前,人們佩戴口罩進(jìn)出公共場(chǎng)所成為一種常態(tài),而在當(dāng)今眾多人臉識(shí)別應(yīng)用中,佩戴口罩帶來(lái)的面部遮擋使識(shí)別準(zhǔn)確度大大降低。在火車(chē)站、機(jī)場(chǎng)等安檢通道進(jìn)行人臉認(rèn)證時(shí)需要摘下口罩,這會(huì)帶來(lái)一定的安全隱患。在當(dāng)前形勢(shì)下,開(kāi)發(fā)快速高效的口罩人臉識(shí)別算法的需求日益迫切。目前,深度學(xué)習(xí)技術(shù)在目標(biāo)檢測(cè)領(lǐng)域應(yīng)用廣泛,本文通過(guò)梳理現(xiàn)有的口罩人臉檢測(cè)算法,對(duì)深度學(xué)習(xí)在口罩人臉檢測(cè)領(lǐng)域的應(yīng)用進(jìn)展進(jìn)行綜述。
近年來(lái),深度學(xué)習(xí)技術(shù)在圖像分類(lèi)、圖像分割、目標(biāo)檢測(cè)、目標(biāo)跟蹤等計(jì)算機(jī)視覺(jué)領(lǐng)域中取得了巨大的成功。深度網(wǎng)絡(luò)模型以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為代表,網(wǎng)絡(luò)由多層神經(jīng)元逐層連接構(gòu)成,每層中的單個(gè)神經(jīng)元與前一層的部分神經(jīng)元相連接,并進(jìn)行不同的操作,如卷積和池化。通過(guò)卷積和池化之間的交替,構(gòu)造成一個(gè)初始的層次結(jié)構(gòu),之后通過(guò)設(shè)計(jì)全連接層來(lái)適應(yīng)不同的視覺(jué)任務(wù),再利用激活函數(shù)得到輸出神經(jīng)元的響應(yīng),最后根據(jù)不同的目標(biāo)函數(shù)來(lái)優(yōu)化整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的一個(gè)重要分支,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)本質(zhì)上屬于分類(lèi)任務(wù),基本步驟為:先對(duì)圖片生成候選區(qū)域,再對(duì)候選區(qū)域提取特征進(jìn)行分類(lèi)與回歸,最后對(duì)檢測(cè)框進(jìn)行合并得到檢測(cè)結(jié)果。相比于傳統(tǒng)的視覺(jué)圖像類(lèi)算法,深度學(xué)習(xí)類(lèi)算法,具有強(qiáng)大的特征提取能力,因此更加適合于處理口罩人臉檢測(cè)問(wèn)題。
SSD 由Liu等[1]提出,其主干網(wǎng)絡(luò)基于VGG16。SSD采用多尺度特征圖檢測(cè)目標(biāo),通過(guò)卷積提取檢測(cè)結(jié)果,利用NMS(極大值抑制)篩選出正確的邊界框,損失函數(shù)使用Softmax Loss與Smooth L1 Loss。SSD的檢測(cè)速度快,穩(wěn)定性高,但在小目標(biāo)的檢測(cè)上表現(xiàn)不如大目標(biāo)的檢測(cè)。阮士峰[2]對(duì)數(shù)據(jù)集中的人臉及口罩等進(jìn)行尺度的信息統(tǒng)計(jì)并分析,對(duì)SSD的網(wǎng)絡(luò)結(jié)構(gòu)與NMS做了改進(jìn),保留了多尺度特征圖的分析預(yù)測(cè),在數(shù)據(jù)集上訓(xùn)練測(cè)試后平均檢測(cè)精度可達(dá)到88%,提升了原SSD算法的檢測(cè)效果,檢測(cè)速度可達(dá)到46幀每秒,達(dá)到了實(shí)時(shí)檢測(cè)的需求。
YOLOv3 由Redmon等[3]提出,其主干網(wǎng)絡(luò)為DarkNet53,用來(lái)對(duì)目標(biāo)進(jìn)行多特征層的提取,其內(nèi)部大量使用了殘差的跳層連接,使得能夠在加深網(wǎng)絡(luò)層數(shù)的同時(shí)又能解決梯度消失的問(wèn)題。此外,DarkNet53在所有的卷積部分都使用了其特有的DarknetConv2D結(jié)構(gòu),每一次卷積的同時(shí)進(jìn)行L2正則化,卷積完成后進(jìn)行BatchNormalization標(biāo)準(zhǔn)化,激活函數(shù)與損失函數(shù)分別選擇Leaky ReLU和IOU。王藝皓等[4]在YOLOv3的基礎(chǔ)上對(duì)DarkNet53主干網(wǎng)、池化結(jié)構(gòu)和損失函數(shù)做出了改進(jìn),提出了一種復(fù)雜場(chǎng)景下的人臉口罩檢測(cè)算法,并使用改進(jìn)后的算法與YOLOv3分別進(jìn)行了人臉的目標(biāo)檢測(cè)和人臉佩戴口罩實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該算法在公開(kāi)的人臉口罩?jǐn)?shù)據(jù)集上達(dá)到了較好的準(zhǔn)確精度,檢測(cè)速度達(dá)到了38幀每秒。
作為YOLOv3的改進(jìn)版本,YOLOv4使用CSPDarknet53作為主干網(wǎng)絡(luò)進(jìn)行特征提??;特征融合網(wǎng)絡(luò)采用SPP和PANet結(jié)構(gòu),對(duì)特征進(jìn)行分離與融合,激活函數(shù)和損失函數(shù)替換為更高效的Mish和CIOU。管軍霖等[5]使用改進(jìn)后的YOLOv4在口罩人臉數(shù)據(jù)集上進(jìn)行訓(xùn)練,檢測(cè)精度和檢測(cè)速度均得到了提升。
YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)與YOLOv4非常相似,其主干網(wǎng)絡(luò)與特征融合網(wǎng)絡(luò)不變;隱藏層和檢測(cè)層的激活函數(shù)分別選擇Leaky ReLU和Sigmoid,損失函數(shù)使用GIOU,使得檢測(cè)框能夠更好地重合。肖博健等[6]在YOLOv5模型的基礎(chǔ)上對(duì)樣本輸入的尺寸、初始候選區(qū)域的參數(shù)和卷積層的計(jì)算做了一定的調(diào)整與改進(jìn),并在口罩人臉數(shù)據(jù)集上進(jìn)行訓(xùn)練,最后的準(zhǔn)確率達(dá)到了95%以上,召回率在100%附近,表現(xiàn)出了一個(gè)高水平的檢測(cè)能力,在實(shí)時(shí)性方面表現(xiàn)突出,擁有較快的檢測(cè)速度,在使用更高性能的顯卡時(shí),速度可以達(dá)到35幀每秒。
RetinaNet[7]由一主干網(wǎng)絡(luò)和兩個(gè)任務(wù)子網(wǎng)絡(luò)組成。主干網(wǎng)絡(luò)選擇VGGNet,ResNet等網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,再由FPN中的每一層以不同尺寸檢測(cè)對(duì)象特征;兩個(gè)子網(wǎng)絡(luò)通過(guò)附加在FPN上分別負(fù)責(zé)分類(lèi)和邊框回歸,損失函數(shù)使用Focal loss來(lái)解決正負(fù)樣本、難易樣本類(lèi)別不均衡的情況。鄧黃瀟[8]在Keras深度學(xué)習(xí)框架的基礎(chǔ)上,分別訓(xùn)練RetinaNet模型和YOLOv3模型,訓(xùn)練后的RetinaNet在驗(yàn)證集上得到86.45%的AP值。相比于YOLOv3,RetinaNet無(wú)論是在單張人臉還是多張人臉佩戴口罩的檢測(cè)上有更高的精度與更好的魯棒性。
本文對(duì)基于深度學(xué)習(xí)的口罩人臉檢測(cè)算法及其模型結(jié)構(gòu)進(jìn)行了詳細(xì)的闡述與分析。SSD模型的檢測(cè)速度快、穩(wěn)定性高,適用于大目標(biāo)的檢測(cè);YOLOv3實(shí)時(shí)性與準(zhǔn)確率都不錯(cuò),對(duì)大目標(biāo)檢測(cè)效果一般,適用于人流量大時(shí)的口罩人臉檢測(cè);YOLOv5在靈活性與速度上更勝一籌,訓(xùn)練時(shí)間快,模型小,易部署;YOLOv4綜合性能優(yōu)越,特別在遮擋目標(biāo)檢測(cè)方面效果較好;RetinaNet在小目標(biāo)檢測(cè)上準(zhǔn)確率更好,適合于人臉密集情況下的檢測(cè)。
無(wú)線(xiàn)互聯(lián)科技2021年17期