李云鵬,席志紅
哈爾濱工程大學(xué) 信息與通信工程學(xué)院,黑龍江 哈爾濱 150001
人臉檢測(cè)技術(shù)是人臉識(shí)別[1]的前提,只有檢測(cè)到人臉并且提取出相關(guān)的信息,如人臉的位置坐標(biāo)、表情、年齡、姿態(tài)等,才能應(yīng)用到相應(yīng)的實(shí)際需求中,提高智能化的水平。近年來(lái),隨著計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展和深度學(xué)習(xí)的提出,人臉檢測(cè)取得了重要的突破,并逐步應(yīng)用到人們的現(xiàn)實(shí)生活中。
人臉檢測(cè)可以分為2 個(gè)研究方向,一個(gè)是傳統(tǒng)的基于手動(dòng)提取特征的人臉檢測(cè),Viola 等[2]提出的圖片Haar 特征提取算法(線性特征、邊緣特征、中心特征和對(duì)角線特征),然而傳統(tǒng)的檢測(cè)算法不僅需要人工進(jìn)行手動(dòng)提取特征,相對(duì)費(fèi)時(shí)費(fèi)力,而且特征表達(dá)能力有限,在復(fù)雜環(huán)境下,不具備良好的檢測(cè)性能。隨著2012 年Hinton 等[3]提出卷積神經(jīng)網(wǎng)絡(luò),越來(lái)越多的科研人員對(duì)其進(jìn)行研究與創(chuàng)新,人臉檢測(cè)技術(shù)也隨著深度學(xué)習(xí)的提出取得了進(jìn)一步的發(fā)展?;谏疃葘W(xué)習(xí)的人臉檢測(cè)算法可以分為2 類:一種是先生成候選區(qū)域,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)的雙階段(two-stage)方法,如基于區(qū)域的快速卷積網(wǎng)絡(luò)(fast region based convolutional network,F(xiàn)ast R-CNN)[4]、空間金字塔池化網(wǎng)絡(luò)(spatial pyramid pooling,SPP-Net)[5],特點(diǎn)是精度很高,但是檢測(cè)速度很慢;另一種是直接通過(guò)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)目標(biāo)的單階段(onestage)方法,如YOLO[6]系列(V1-V5)、RetinaFace[7]算法等,特點(diǎn)是速度和精度相對(duì)均衡。其中本文使用的Retina-Face 是一種基于滑動(dòng)窗口,自監(jiān)督與額外監(jiān)督結(jié)合的多任務(wù)學(xué)習(xí),通過(guò)回歸人臉的眼睛、鼻子和嘴巴5 個(gè)關(guān)鍵點(diǎn),對(duì)不同尺寸的人臉進(jìn)行像素級(jí)的定位,對(duì)于人臉檢測(cè)有比較好的結(jié)果。本文采取MobileNetV3[8]網(wǎng)絡(luò)替代RetinaFace中的特征提取網(wǎng)絡(luò),大幅度降低參數(shù)和計(jì)算量;然后在骨干特征提取網(wǎng)絡(luò)與特征金字塔之間引入高效通道注意力機(jī)制(efficient channel attention,ECA)[9]模塊提高特征融合階段特征信息的利用率,使用Soft-NMS[10]非極大值抑制代替原始的非極大值抑制(non-maximum suppression,NMS)降低在候選框重合面積太大而被誤刪,降低了人臉的誤檢率。改進(jìn)后的RetinaFace 網(wǎng)絡(luò),保證了檢測(cè)速度的同時(shí)也兼顧了檢測(cè)的精度,提高了人臉檢測(cè)的平均精度。本文的具體工作如下:1)對(duì)RetinaFace 框架和原理進(jìn)行介紹;2)對(duì)改進(jìn)部分進(jìn)行介紹;3)通過(guò)對(duì)比試驗(yàn)證明其可行性。
RetinaFace 是帝國(guó)理工、倫敦米德?tīng)柸怂勾髮W(xué)、InsightFace 等團(tuán)隊(duì)在2020 年提出的One-Stage 的人臉檢測(cè)算法,它利用自我監(jiān)督和聯(lián)合監(jiān)督的多任務(wù)學(xué)習(xí),在不同的人臉尺度上能夠執(zhí)行像素方面的人臉定位。有RetinaFace-Resnet 和RetinaFace-MobilenetV1(0.25)共2 個(gè)版本,其中基于Resnet 的有很高的精度,基于Mobilenet 的檢測(cè)速度更快。RetinaFace 由主干提取網(wǎng)絡(luò)、特征金字塔(feature pyramid networks,F(xiàn)PN)、單極無(wú)頭(single stage headless,SSH)特征提取和檢測(cè)層(Head)共4 部分組成,其中RetinaFace(骨干網(wǎng)絡(luò)選Mobilenet 為例)網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
RetinaFace 的特征提取層是MobilnetV1[11],其采用了深度可分離卷積(depthwise separable convolution),先用厚度為1 的3×3 的卷積核(depthwise)分層卷積,再用1×1 的卷積核(pointwise 卷積)調(diào)整通道數(shù),將特征提取與特征組合分開(kāi)進(jìn)行,大幅度減少了運(yùn)算量和參數(shù)量。其中MobilnetV1-0.25 是將MobilnetV1 的通道數(shù)壓縮為原來(lái)的1/4網(wǎng)絡(luò),提高特征提取的速度。
FPN[12]特征金字塔是利用1×1 的卷積對(duì)有效的特征層(featuremap)進(jìn)行通道數(shù)的調(diào)整,然后利用Upsample 上采樣和Add 進(jìn)行的特征融合。將MobilnetV1-0.25 中最后3 個(gè)有效特征進(jìn)行FPN 操作。把高層的特征傳下來(lái),補(bǔ)充低層的語(yǔ)義,可以獲得高分辨率、強(qiáng)語(yǔ)義的特征,有利于小目標(biāo)的檢測(cè)。
SSH 特征提取層采用了3 個(gè)并行結(jié)構(gòu),利用3×3卷積的堆疊代替5×5與7×7卷積的效果,主要包括3 部分組成:左邊的是3×3卷積;中間利用2 次3×3卷積代替5×5卷積;右邊利用3 次3×3卷積代替7×7卷積。SSH 通過(guò)在特征圖中引入上下文信息來(lái)提高小人臉的檢測(cè)。
RetinaFace 的 Head 層輸出80×80、40×40、20×20共3 個(gè)不同尺寸的特征圖,第1 個(gè)用于分類預(yù)測(cè)(face or not),判斷先驗(yàn)框內(nèi)部是否包含物體,利用SoftMax 進(jìn)行二分類每個(gè)先驗(yàn)框內(nèi)部包含人臉的概率;第2 個(gè)用于人臉框的回歸(bbox)先驗(yàn)框進(jìn)行調(diào)整獲得預(yù)測(cè)框;第3 個(gè)用于人臉關(guān)鍵點(diǎn)回歸(landmarks) 對(duì)先驗(yàn)框進(jìn)行調(diào)整獲得人臉關(guān)鍵點(diǎn);經(jīng)過(guò)Head 完成調(diào)整、判斷之后,還需要進(jìn)行非極大值抑制(即篩選出一定區(qū)域內(nèi)屬于同一種類得分最大的框)。
Retinaface 的骨干網(wǎng)絡(luò)為MobileNetV1,雖然使用了深度可分離卷積極大地降低了模型的參數(shù)提高了檢測(cè)的速度,然而V1 的結(jié)構(gòu)過(guò)于簡(jiǎn)單,類似于1 個(gè)直筒結(jié)構(gòu),導(dǎo)致這個(gè)網(wǎng)絡(luò)的性價(jià)比不是很高。本文將骨干網(wǎng)絡(luò)替換為MobilNetV3,提高人臉檢測(cè)的性能和速度。MobilNetV3 更新了bneck結(jié)構(gòu)如圖2 所示。
圖2 bneck 結(jié)構(gòu)
由于激活函數(shù)對(duì)低維度的特征會(huì)造成更多的信息丟失,而對(duì)于高維度的特征的丟失會(huì)少一些,通過(guò)一般卷積進(jìn)行升維,再通過(guò)深度可分離卷積操作,再通過(guò)一般卷積進(jìn)行降維,最后再進(jìn)行殘差相加的倒殘差網(wǎng)絡(luò)結(jié)構(gòu)。此外,更新了網(wǎng)絡(luò)結(jié)構(gòu),加入輕量化的SE[13](squeeze and excite)結(jié)構(gòu),在bottlenet 結(jié)構(gòu)中加入了SE 結(jié)構(gòu),將其放在了depthwise filter 之后,在含有SE 結(jié)構(gòu)中擴(kuò)展層的通道數(shù)變?yōu)樵瓉?lái)的1/4,這樣不僅沒(méi)有增加時(shí)間的消耗,還提高了精度。swish 非線性激活函數(shù)是谷歌團(tuán)隊(duì)自研的激活函數(shù),能夠有效提升網(wǎng)絡(luò)精度,其公式為
然而swish 的計(jì)算量太大,將swish 替換為改進(jìn)的h-swish,改進(jìn)的h-swish 函數(shù)如下:
改進(jìn)的h-swish 非線性激活函數(shù)提高了計(jì)算的速度,對(duì)量化過(guò)程更加友好。
另外重新設(shè)計(jì)耗時(shí)層結(jié)構(gòu)如圖3 所示。第1 個(gè)卷積層的卷積核的個(gè)數(shù)由32 降低為16,準(zhǔn)確率保持不變時(shí)降低運(yùn)算量。在原始的最后階段一般是先經(jīng)過(guò)4 個(gè)卷積操作,然后再進(jìn)行平均池化再經(jīng)過(guò)卷積輸出,而在MobilNetV3 最后階段是卷積后直接進(jìn)行平均池化然后再經(jīng)過(guò)2 個(gè)卷積進(jìn)行輸出,降低了很多層結(jié)構(gòu),在保證精度的情況下提高速度。
圖3 耗時(shí)層結(jié)構(gòu)
MobileNetV3 如表1 所示,其中bneck 是網(wǎng)絡(luò)的基本結(jié)構(gòu),SE 表示在網(wǎng)絡(luò)結(jié)構(gòu)中是否使用注意力機(jī)制,NL 代表激活函數(shù)的類行,包括改進(jìn)的HS(h-swish)以及RE(ReLU)激活函數(shù),在此網(wǎng)絡(luò)中輸入圖片的大小為2242×3,經(jīng)過(guò)卷積池化后輸出的向量大小為12×1 280。
表1 MobileNetV3 網(wǎng)絡(luò)結(jié)構(gòu)
本文將Retinaface 的骨干網(wǎng)絡(luò)MobileNetV1替換為更準(zhǔn)確高效的MobileNetV3,提高對(duì)于人臉特征的提取。
為了提高對(duì)人臉特征信息的利用率,本文引入了ECA 注意力機(jī)制模塊,ECA 是對(duì)于SE 機(jī)制中降維產(chǎn)生的負(fù)面影響進(jìn)行改進(jìn)。SE 模塊如圖4 所示。
圖4 SE 模塊
圖4 中可以看出SE 是先降維然后在升維,對(duì)于通道注意力預(yù)測(cè)有一定的負(fù)面影響,ECA 是一種不降維的局部跨信道交互策略和自適應(yīng)選擇一維卷積核大小的通道注意力機(jī)制,其中適當(dāng)?shù)目缧诺澜换タ梢栽诒3中阅艿耐瑫r(shí)降低模型的復(fù)雜度。在去除了原來(lái)SE 模塊中的全連接層,直接在全局平均池化之后的特征上通過(guò)一個(gè)卷積核大小為K的1D 卷積進(jìn)行學(xué)習(xí),然后再經(jīng)過(guò)一個(gè)sigmod函數(shù)生成通道的權(quán)值。
其中卷積核k的大小與通道數(shù)相關(guān),其公式為
式中:C為通道數(shù); γ、b是非線性參數(shù), γ設(shè)置為2,b設(shè)置為1。卷積核的大小受通道數(shù)所影響,C越大K的值越大。本文對(duì)Retinaface 網(wǎng)絡(luò)進(jìn)行改進(jìn)在主干網(wǎng)絡(luò)與FPN 之間加入ECA 模塊,加強(qiáng)對(duì)于骨干特征網(wǎng)絡(luò)信息提取的利用率 提高對(duì)于小人臉的檢測(cè)能力[14]。ECA 模塊如圖5 所示。
圖5 ECA 模塊
NMS 與Soft-NMS[15]都是對(duì)目標(biāo)檢測(cè)中區(qū)域提取網(wǎng)絡(luò)和邊界回歸網(wǎng)絡(luò)候選區(qū)域的篩選過(guò)程。圖像中的目標(biāo)具有多個(gè)候選的邊界框(bounding box),要選取置信度(confident socre)最高的候選邊界框,同時(shí)盡量降低對(duì)同時(shí)存在的同一類別其他物體的影響。然而NMS 對(duì)于相鄰檢測(cè)框的交并比(Intersection over Union,IoU)[16]IoU直接設(shè)置為0,其中IoU 時(shí)交并比,表示2 個(gè)框的重合程度,其公式為
當(dāng)IoU 越大表示2 個(gè)相鄰檢測(cè)框的重疊程度越高,當(dāng)IoU 的值為0 時(shí)意味著2 個(gè)檢測(cè)框沒(méi)有重合,IoU 的值為1 時(shí)表示2 個(gè)檢測(cè)框完全重合。
如果2 個(gè)同類有重疊、相互遮擋時(shí),對(duì)于這2 個(gè)目標(biāo)的檢測(cè)框是重合程度很高相互靠近,即IoU 的值很高,使用NMS 算法后,會(huì)把2 個(gè)檢測(cè)框中socre 較低的設(shè)置為0 強(qiáng)制刪除。其公式為
為此Soft-NMS 在對(duì)于同類別重合時(shí),對(duì)于相鄰檢測(cè)框的socre,不是像NMS 那樣強(qiáng)制的直接設(shè)置0,是降低相鄰檢測(cè)框的score,雖然利用一個(gè)基于與IOU 相關(guān)的函數(shù)導(dǎo)致score 被降低,但相鄰的檢測(cè)框仍在物體檢測(cè)的序列中。公式為
式中:Si為候選框得分,Nt是NMS 閾值,NMS 算法將IOU 大于閾值的窗口的得分置為0。
對(duì)于同一類別的檢測(cè),在2 個(gè)或多個(gè)待檢測(cè)目標(biāo)發(fā)生重合時(shí),NMS 算法由于其強(qiáng)制將重合中較低的score 設(shè)置為0,很容易導(dǎo)致在最后的檢測(cè)目標(biāo)的缺失,另外當(dāng)待檢測(cè)目標(biāo)周圍有其他遮擋物遮擋時(shí)也有可能會(huì)無(wú)法檢測(cè)出目標(biāo)。Soft-NMS 算法不僅保留了交并比并不是最高的重疊物體的預(yù)測(cè)框,并通過(guò)相關(guān)函數(shù)給予這些預(yù)測(cè)框一個(gè)分?jǐn)?shù),使其保存在檢測(cè)序列中,之后再進(jìn)一步篩選,有效地解決了物體被遮擋的問(wèn)題。
本文實(shí)驗(yàn)環(huán)境為:英特爾Corei7-8 700@3.2 GHz 六核處理器,16 GB 內(nèi)存;顯卡為NVIDIA GeFore GTX1070;Windows 10,64 位操作系統(tǒng);學(xué)習(xí)框架為pytorch 1.10.1;Cuda 11.6。
WiderFace 數(shù)據(jù)集是人臉檢測(cè)中主流的數(shù)據(jù)集,它是由香港中文大學(xué)發(fā)布的大型人臉數(shù)據(jù)集,該數(shù)據(jù)集的圖片來(lái)源于WIDER 數(shù)據(jù)集,從中挑選了32 203 張圖片進(jìn)行人臉標(biāo)注,總共標(biāo)注了393 703 個(gè)人臉數(shù)據(jù),其中158 989 個(gè)標(biāo)注人臉用于訓(xùn)練,39 496 個(gè)標(biāo)注人臉用于驗(yàn)證。在每一個(gè)子集下劃分了easy、medium、hard 共3 個(gè)級(jí)別的檢測(cè)難度 ,評(píng)價(jià)在不同難度的情況下的檢測(cè)精度。WiderFace 數(shù)據(jù)集40%、10%、50%分別作為訓(xùn)練集、驗(yàn)證集和測(cè)試集,數(shù)據(jù)集中的人臉在尺度、姿態(tài)、表情、遮擋和光照等方面又很大的變化范圍。本文選擇WiderFace 數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集。
為了展現(xiàn)對(duì)于人臉檢測(cè)的效果,本文設(shè)置了每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)和精度值(average precision,AP)2 個(gè)評(píng)價(jià)指標(biāo)。相關(guān)公式為
式中:Pre為精度(precision),R為召回率(recall),NTP(true positive)代表的是預(yù)測(cè)框中預(yù)測(cè)為真實(shí)際也為真,NFP(false positive) 代表的是預(yù)測(cè)框預(yù)測(cè)為假實(shí)際為真,NFN(false negative) 代表的是預(yù)測(cè)框預(yù)測(cè)為假實(shí)際為假。以Pre作為縱坐標(biāo)、R作為橫坐標(biāo)把每一次的結(jié)果計(jì)算出來(lái),并按照關(guān)系繪制出曲線,AP就是經(jīng)過(guò)插值的precision-recall 曲線與x軸包絡(luò)的面積。對(duì)于FPS,一般來(lái)說(shuō)當(dāng)大于25 f/s 時(shí)可以具備實(shí)時(shí)性,對(duì)于AP 而言其值越大表示檢測(cè)效果越好。
本文選擇pytorch 深度學(xué)習(xí)框架訓(xùn)練,采用SGD optimiser 作為模型的優(yōu)化器,訓(xùn)練150 個(gè)輪次(epoch);批次大?。╞atch size)設(shè)置為8;初始學(xué)習(xí)率設(shè)置為0.01,經(jīng)過(guò)150 個(gè)epoch 后達(dá)到0.001;動(dòng)量(momentum)為0.9;權(quán)重衰減(decay)設(shè)置為5×10-4,Soft-NMS閾值設(shè)置為0.5,訓(xùn)練集驗(yàn)證集的輸入圖片均為640×640×3。
RetinaFace 人臉檢測(cè)由骨干網(wǎng)絡(luò)、FPN 特征金字塔、SSH 特征提取、head 共4 部分組成,其中骨干網(wǎng)絡(luò)、FPN 以及SSH 是提取人臉信息。以圖6為原始人臉圖片,經(jīng)過(guò)各個(gè)階段后的特征圖可視化結(jié)果。
圖6 人臉圖片
圖7 為人臉圖片在經(jīng)過(guò)沒(méi)有改進(jìn)的RetinaFace后的特征圖可視化結(jié)果。
圖7 可視化圖
圖7 中,上面3 張圖是經(jīng)過(guò)骨干網(wǎng)絡(luò)后3 個(gè)通道的可視化結(jié)果,網(wǎng)絡(luò)層越深提取的抽象;中間3 張圖是經(jīng)過(guò)FPN 特征金字塔后的可視化結(jié)果,其中最左側(cè)的提取的有效信息很少;下面3 張圖是經(jīng)過(guò)SSH 特征提取后可視化效果圖,由于FPN 提取的有效信息少,造成SSH 不能夠很好地利用人臉信息,如圖7 左側(cè)結(jié)果圖所示。
改進(jìn)后的RetinaFace 在更換骨干網(wǎng)絡(luò)以及在FPN 之間加入了ECA 注意力機(jī)制。改善后的部分如圖8 所示。
圖8 改進(jìn)后的可視化圖
圖8 上面2 張圖分別為更換骨干網(wǎng)絡(luò)MobileNetV3、ECA 注意力機(jī)制的可視化結(jié)果,下面2 張圖分別是FPN 金字塔以及SSH 的可視化結(jié)果,相比之下加入ECA 注意力機(jī)制后,F(xiàn)PN 特征金字塔以及SSH 特征提取能夠提取出關(guān)鍵的人臉特征,有效地改善了對(duì)于提取人臉信息的效果。
為了驗(yàn)證改進(jìn)算法對(duì)于RetinaFace 的優(yōu)化效果,在widerface 數(shù)據(jù)集上,對(duì)比原始算法設(shè)置了1 組消融實(shí)驗(yàn),消融實(shí)驗(yàn)包括3 個(gè)改進(jìn)方面的對(duì)比:第1 個(gè)是替換骨干網(wǎng)絡(luò)簡(jiǎn)記為V3;第2 個(gè)是加入ECA 注意力機(jī)制;第3 個(gè)是使用Soft-NMS非極大值抑制。逐步增加改進(jìn)方式,通過(guò)對(duì)比其檢測(cè)的結(jié)果,驗(yàn)證算法改進(jìn)后的效果。如表2 所示,其中√表示在RetinaFace 人臉檢測(cè)網(wǎng)絡(luò)中用此種方法,Easy、Medium、Hard 分別是在數(shù)據(jù)集3 種模式下的檢測(cè)精度,檢測(cè)速率為每秒的傳幀數(shù)。
表2 消融實(shí)驗(yàn)對(duì)比
表2 中可以看出,在更換網(wǎng)絡(luò)后,F(xiàn)PS 的值有很大提升,加入ECA 注意力機(jī)制和Soft-NMS 后檢測(cè)精度有所提升,由于加入新的模塊計(jì)算量增加,造成話檢測(cè)的速度FPS 的數(shù)值有所下降,但滿足實(shí)時(shí)性的要求。
考慮到本文提出的改進(jìn)網(wǎng)絡(luò)是用于人臉實(shí)時(shí)檢測(cè)的,在減少參數(shù)和計(jì)算量的同時(shí)要保留較高的檢測(cè)精度, 故選擇Fast R-CNN 、 MTCNN、RetinaFace-Resnet50、RetinaFace-MobileNetV1 作為對(duì)比,所有算法均在Wider Face 數(shù)據(jù)集上進(jìn)行的測(cè)試??梢钥闯霰疚奶岢龅乃惴ㄅc其他算法相比有明顯的優(yōu)勢(shì)。測(cè)試對(duì)比結(jié)果見(jiàn)表3。
表3 測(cè)試對(duì)比結(jié)果
由表3 可知,F(xiàn)ast R-CNN 在3 個(gè)樣本下的檢測(cè)精度都很高,但是由于它為two-stage 大型網(wǎng)絡(luò)計(jì)算量比較大,所以它的檢測(cè)速率非常的低,RetinaFace 作為one-stage 網(wǎng)絡(luò)平衡精度和檢測(cè)的速度,本文改進(jìn)的網(wǎng)絡(luò)與RetinaFace-MobileNetV1相比無(wú)論是精度還是檢測(cè)速度都很大的提高,RetinaFace-Resnet50 雖然在檢測(cè)精度上略微高于本文檢測(cè)網(wǎng)絡(luò),但是在檢測(cè)速度上本算法有絕對(duì)的優(yōu)勢(shì)。
圖9 給出了RetinaFace-ResNet、 RetinaFace-MobileNetV1 以及本文改進(jìn)算法的檢測(cè)效果,表4給出了圖9 中原始圖像經(jīng)過(guò)改進(jìn)Retinaface 后的部分人臉預(yù)測(cè)框的分?jǐn)?shù)列表,Retinaface 在檢測(cè)上存在部分漏檢,能夠檢測(cè)出部分人臉,但是對(duì)于遮擋,hard 數(shù)據(jù)集上還是有改善的空間。
表4 預(yù)測(cè)框分?jǐn)?shù)列表
圖9 檢測(cè)效果
本文改進(jìn)了Retinaface 人臉檢測(cè)網(wǎng)絡(luò),使用MobileNetV3 網(wǎng)絡(luò)代替原版的Retinaface 的骨干網(wǎng)絡(luò),相比較而言 MobileNetV3 減少了卷積參數(shù)的運(yùn)算,大幅度減少了網(wǎng)絡(luò)的計(jì)算量提高檢測(cè)的速度,此外,在骨干網(wǎng)絡(luò)與特征層之間加入ECA 模塊,提高對(duì)于人臉特征信息的利用率,提高檢測(cè)精度,將Soft-NMS 代替NMS,改善了在人臉遮擋重合時(shí)的NMS 直接將相鄰檢測(cè)框直接設(shè)置為0,造成在檢測(cè)結(jié)果中某些目標(biāo)的缺失。經(jīng)過(guò)實(shí)驗(yàn)證明,本文提出的改進(jìn)型的RetinaFace 算法在提高AP 的同時(shí),提高了FPS,能夠很好地完成實(shí)時(shí)情況下的人臉檢測(cè)任務(wù)。
此外,在研究時(shí)發(fā)現(xiàn)在人臉密集、遮擋嚴(yán)重的hard 樣本下檢測(cè)精度還有較大的提升空間。之后,本文將考慮進(jìn)一步優(yōu)化Retinaface 算法的網(wǎng)絡(luò)結(jié)構(gòu),考慮主干特征網(wǎng)絡(luò)優(yōu)化,替換其他注意力機(jī)制模塊,提高人臉信息的利用率,增強(qiáng)對(duì)于hard 樣本的檢測(cè)能力。在保證網(wǎng)絡(luò)的實(shí)時(shí)檢測(cè)速率前提下,提高h(yuǎn)ard 樣本的AP。