任健,楊帆,張奕凡,王智捷,廖磊
(四川師范大學(xué)物理與電子工程學(xué)院,四川成都,610101)
深度學(xué)習(xí)技術(shù)的出現(xiàn)革新了目標(biāo)檢測的模式,并提升目標(biāo)檢測的精度和魯棒性。深度神經(jīng)網(wǎng)絡(luò)提取多層尺度的特征,基于深度學(xué)習(xí)的目標(biāo)檢測模型,相比于傳統(tǒng)方法,學(xué)習(xí)的特征更豐富,特征表達(dá)能力更強(qiáng)[1,2]?,F(xiàn)代的目標(biāo)檢測器可以大致的分為單階段[3,4,5,6]和兩階段[7,8,9,10]。兩階段檢測方法首先生成一系列區(qū)域提案,隨后對區(qū)域提案進(jìn)行分類和回歸[11]。另一方面,單階段方法通過圖像上的常規(guī)采樣網(wǎng)格將默認(rèn)錨框直接回歸和分類到框中,單階段主要在單尺度特征上進(jìn)行不同尺寸目標(biāo)的分類與定位,在精度以及速度等方面均有優(yōu)勢[12]。
深度學(xué)習(xí)方法已應(yīng)用于計(jì)算機(jī)視覺各個領(lǐng)域,如車牌識別,人臉檢測,遙感圖像目標(biāo)檢測,自然場景文本檢測,醫(yī)學(xué)圖像檢測等等。目前沒有專門應(yīng)用于人臉口罩檢測算法,深度學(xué)習(xí)的快速發(fā)展為解決計(jì)算機(jī)視覺等相關(guān)的問題提供全新的方案。
本文的主要貢獻(xiàn)如下:(1)構(gòu)建了一個人臉口罩檢測的數(shù)據(jù)集,可用于人臉口罩佩戴的識別檢測等研究工作;(2)將目標(biāo)檢測應(yīng)用于口罩佩戴檢測,提出一種基于SSD 方法的口罩佩戴檢測方法,在SSD[4]目標(biāo)檢測算法基礎(chǔ)上,將基準(zhǔn)網(wǎng)絡(luò)替換為表征能力更強(qiáng)的殘差網(wǎng)絡(luò)ResNet,解決隨著網(wǎng)絡(luò)層數(shù)加深出現(xiàn)的性能退化問題[13],同時(shí)引入低層與高層的多尺度特征融合策略實(shí)現(xiàn)對自然場景中人臉口罩的實(shí)時(shí)檢測。
SSD 模型主要由一個基礎(chǔ)網(wǎng)絡(luò)塊和多尺度的特征塊級聯(lián)而成。位于前端的基礎(chǔ)網(wǎng)絡(luò)塊一般選用深度卷積神經(jīng)網(wǎng)絡(luò)提取原始圖片特征在多尺度下提取位于后端的級聯(lián)多尺度特征檢測網(wǎng)絡(luò)前端網(wǎng)絡(luò)產(chǎn)生的特征[15],使特征圖中每個單元輸入圖像的感受野更廣闊,更適合檢測尺寸較小的目標(biāo)[4]。SSD 檢測目標(biāo)時(shí),生成多個不同尺度的預(yù)測框,并通過預(yù)測框的類別和偏移量實(shí)現(xiàn)目標(biāo)檢測,如圖1 所示:各個尺度相互獨(dú)立,不考慮不同尺度特中層間映射關(guān)系,層與層之間關(guān)聯(lián)性較弱,導(dǎo)致特征細(xì)節(jié)信息利用不充分。
圖1 SSD 框架
SSD 采用多尺度的方法獲得多個不同尺寸特征圖[35],大小分別為(38,38),(19,19),(10,10),(5,5),(3,3),(1,1)??紤]模型檢測采用m 層特征圖,第k 個特征圖的默認(rèn)框比例計(jì)算公式如下:
在SSD 算法中,目標(biāo)損失函數(shù)的設(shè)計(jì)思想與MultiBox類似[14],并將其擴(kuò)展為可處理多個類別的目標(biāo)函數(shù)。網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)包括置信度損失和定位損失,即
基礎(chǔ)網(wǎng)絡(luò)對輸入的圖片數(shù)據(jù)進(jìn)行特征提取,并將特征送入后續(xù)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。SSD 算法采用VGG-16 作為基礎(chǔ)網(wǎng)絡(luò),具有加深神經(jīng)網(wǎng)絡(luò)層數(shù)提升模型效果,且對其它數(shù)據(jù)集泛化能力較強(qiáng),由于隨著網(wǎng)絡(luò)層數(shù)加深,精度出現(xiàn)不升反降現(xiàn)象,并引入跳躍連接機(jī)制降低提取特征的冗余度,解決層數(shù)增加出現(xiàn)的性能退化問題[13],ResNet 允許網(wǎng)絡(luò)更深,全連接密集層代替全局平均池操作,模型的尺寸更小,表征能力更強(qiáng)。選取conv2_x,con3_x,conv4_x,conv5_x,conv_7_x,conv8_x,conv9_x 特征提取層。圖2 為經(jīng)過網(wǎng)絡(luò)替換后的網(wǎng)絡(luò)結(jié)構(gòu)圖:
圖2 SSD(with ResNet)框架
3.2.1 反卷積操作
通過卷積操作提取圖片中的特征,低層的卷積層提取圖片邊緣、線條、角等特征,高層的卷積從低層的卷積層中學(xué)到更復(fù)雜的特征[12]。反卷積對特征圖上采樣,將低維局部特征映射為高維向量,學(xué)習(xí)更多上文信息。SSD 網(wǎng)絡(luò)結(jié)構(gòu)中低層的特征圖中具有豐富的邊緣信息,高層的特征圖具有較多的語義特征。設(shè)步長s,輸入特征大小i,濾波器大小k,擴(kuò)充值p,有:
本次實(shí)驗(yàn)中設(shè)計(jì)i=3,s=1,k=3,p=0。將conv4_3 映射至conv7 層,設(shè)該映射層為conv7f,同理,將conv7 映射至con8_2 層,設(shè)該映射層為conv8_2f。融合反卷積操作提取層如圖3 所示:
圖3 融合反卷積操作提取層
3.2.2 空洞卷積操作
在圖像分割領(lǐng)域中,池化操作減少圖像尺寸增大感受野,上采樣操作實(shí)現(xiàn)擴(kuò)大尺寸,在池化和上采樣圖像尺寸變化過程中損失部分信息,設(shè)計(jì)空洞卷積在不丟失信息的情況下增大卷積層感受野,改善對小目標(biāo)的表達(dá)。本文中設(shè)計(jì)卷積核3×3,擴(kuò)張dilation 為2 的空洞卷積,感受野計(jì)算公式為:
圖4 融合反卷積操作提取層
3.2.3 網(wǎng)絡(luò)結(jié)構(gòu)
SSD 檢測目標(biāo)時(shí),生成多個不同尺度的預(yù)測框,不考慮不同尺度特征層間映射關(guān)系,層與層之間關(guān)聯(lián)性較弱。本文優(yōu)化SSD 目標(biāo)檢測算法的網(wǎng)絡(luò)結(jié)構(gòu),選擇表征能力更強(qiáng)的基礎(chǔ)網(wǎng)絡(luò)ResNet-50。特征層融合機(jī)制將多個特征層的信息融合,空洞卷積操作將低層與高層的特征圖融合,明顯提高分類網(wǎng)絡(luò)的感受野范圍,促使模型學(xué)習(xí)更多的全局信息;反卷積操作將高層的特征圖和低層的特征圖融合,提高低層特征層檢測小目標(biāo)的能力,增強(qiáng)模型的語義表征能力。該連接方式使改進(jìn)后的網(wǎng)絡(luò)可在同一特征層上將目標(biāo)的不同尺度考慮在內(nèi),增強(qiáng)模型的泛化能力。
以conv7 為例,conv7 從SSD 中繼承而來,通過conv4_3反卷積操作映射生成conv7f,通過conv8_2 空洞卷積操作映射生成conv7d,改進(jìn)SSD 的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。
圖5 改進(jìn)SSD 網(wǎng)絡(luò)結(jié)構(gòu)
本實(shí)驗(yàn)的數(shù)據(jù)集基于香港中文大學(xué)Yang Shuo 等制作的人臉數(shù)據(jù)WIDER FACE[16],并從網(wǎng)絡(luò)爬取,實(shí)地采集和算法合成7106 張關(guān)于佩戴口罩與未佩戴口罩的自然場景人臉口罩?jǐn)?shù)據(jù)集。數(shù)據(jù)通過準(zhǔn)確的人工標(biāo)注,標(biāo)注類別分為佩戴與未佩戴,所有圖片均為彩色。數(shù)據(jù)集樣例圖6。
圖6 數(shù)據(jù)集
本文的實(shí)驗(yàn)環(huán)境如表1 所示,并設(shè)置訓(xùn)練階段的重要參數(shù),如表2 所示。
表1 實(shí)驗(yàn)平臺
表2 訓(xùn)練參數(shù)
在訓(xùn)練過程中,模型的損失和精度變化是重要的兩個變量,模型經(jīng)過35000 次迭代,loss 最終下降至0.2 附近,模型的精度上升至97.7%附近。此外,在測試數(shù)據(jù)集對模型性能進(jìn)行評估,如圖7 所示,最終right 標(biāo)簽的單類AP 為92.89%,no 標(biāo)簽的單類AP 為88.41%
圖7 right P-R 和no P-R
算法改進(jìn)前后的實(shí)驗(yàn)結(jié)果如表3 和圖8 所示,本文算法通過改進(jìn)在人臉檢測和口罩佩戴檢測方面相比SSD 均有提高,綜合測試由原SSD 的82.37%提升至90.65%。本文算法取得較好的檢測效果,對于優(yōu)化后訓(xùn)練包含小尺寸目標(biāo)時(shí)本文算法的檢測效果相比SSD 提升較大,對于部分受到遮擋的目標(biāo),本文算法相比優(yōu)于SSD 檢測能力。
表3 方法改進(jìn)前后對比
圖8 精度對比圖
本文通過對基礎(chǔ)網(wǎng)絡(luò)的替換,以及多尺度特征融合方法實(shí)現(xiàn)對SSD 算法的改進(jìn),實(shí)驗(yàn)通過在本文建立的7106 張圖片數(shù)據(jù)集訓(xùn)練以及評估,結(jié)果顯示該方法可以有效檢測自然場景人臉口罩,平均精度達(dá)90.65%,證實(shí)了本文算法框架的合理性。