許鯤
摘要:隨著公安立體化防控體系建設(shè)的逐步深入,視頻監(jiān)控系統(tǒng)以其數(shù)據(jù)量大、實(shí)時(shí)等特點(diǎn)已經(jīng)成為社會治安綜合治理防控體系中的重要組成部分。在視頻大數(shù)據(jù)技術(shù)成熟應(yīng)用發(fā)展的背景下,圖偵工作相關(guān)的涉案人、車的特征信息較之以前單純利用原始視頻圖片更能滿足快速檢索、高效研判的需要。其中人臉深度研判全新的圖偵業(yè)務(wù)系統(tǒng)需具備人臉圖片結(jié)構(gòu)化管理與結(jié)構(gòu)化信息檢索應(yīng)用能力,要做人臉圖片的深度應(yīng)用,首先要解決的就是人臉圖片的采集工作,人臉采集的全面準(zhǔn)確與否直接影響后續(xù)的人臉應(yīng)用。在人臉采集過程中,一方面需要最大限度地覆蓋需要的場景,另一方面需要從根本上提升人臉檢測算法,提升在高分辨率圖像及高密度人群下的適應(yīng)性。通過人臉檢測算法的研究,把控人臉采集數(shù)據(jù)源,以適應(yīng)攝像機(jī)分辨率不斷提升導(dǎo)致的圖像尺寸變化及適應(yīng)諸如三場一站等高密度人群、遮擋人群的人像采集,為人臉布控、人臉比對、人臉檢索以及基于人臉的分析研判提供高可用的人臉圖片數(shù)據(jù)。
關(guān)鍵詞:人臉深度研判;人臉檢測;尺度變化
中圖分類號:TP3? ? ? ? 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2020)30-0198-04
1 背景
隨著公安立體化防控體系建設(shè)的逐步深入,視頻監(jiān)控系統(tǒng)以其數(shù)據(jù)量大、實(shí)時(shí)等特點(diǎn)已經(jīng)成為社會治安綜合治理防控體系中的重要組成部分。至今,天津市在全市視頻監(jiān)控建設(shè)聯(lián)網(wǎng)工作上取得了長足的進(jìn)展,已經(jīng)建成了11萬路一類高清視頻監(jiān)控點(diǎn)位,初步實(shí)現(xiàn)了視頻監(jiān)控的全域覆蓋。在應(yīng)用方面已經(jīng)初步構(gòu)建了人臉與車輛的輔助辦案系統(tǒng),實(shí)現(xiàn)了1.168億車輛分析能力與2000路人臉分析能力。
在視頻大數(shù)據(jù)技術(shù)成熟應(yīng)用發(fā)展的背景下,圖偵工作相關(guān)的涉案人、車的特征信息較之以前單純利用原始視頻圖片更能滿足快速檢索、高效研判的需要。因此圖偵工作信息化需求因全市公共安全視頻監(jiān)控網(wǎng)建設(shè)規(guī)?;蔀橄铝幸环N可能甚至是現(xiàn)實(shí),即創(chuàng)建街頭路面視頻捕獲的人、車特征大數(shù)據(jù)庫,實(shí)現(xiàn)圖偵視頻圖像大數(shù)據(jù)的深度應(yīng)用。其中人臉深度研判全新的圖偵業(yè)務(wù)系統(tǒng)需具備人臉圖片結(jié)構(gòu)化管理與結(jié)構(gòu)化信息檢索應(yīng)用能力,要做人臉圖片的深度應(yīng)用,首先要解決的就是人臉圖片的采集工作,人臉采集的全面準(zhǔn)確與否直接影響后續(xù)的人臉應(yīng)用。在人臉采集過程中,一方面需要最大限度地覆蓋需要的場景,另一方面需要從根本上提升人臉檢測算法,提升在高分辨率圖像及高密度人群下的適應(yīng)性。
2 概述
本次論文的主題是人臉檢測(Face Detection),人臉檢測是人臉識別的第一站,尤其針對公安遇到的比如由于逐步采用超高清攝像機(jī)(如400萬、800萬、1600萬等像素)帶來的人臉尺度變動。以及高密度人群或故意遮擋等實(shí)際場景問題,通過針對性的算法模型設(shè)計(jì)實(shí)現(xiàn)速度與精度的雙重提升。
人臉檢測的目的是,給定任意圖像,返回其中每張人臉的邊界框(Bounding Box)坐標(biāo),由于人臉檢測是所有人臉分析算法的前置任務(wù),諸如人臉對齊、人臉建模、人臉識別、人臉驗(yàn)證/認(rèn)證、頭部姿態(tài)跟蹤、面部表情跟蹤/識別、性別/年齡識別等等技術(shù)皆以人臉檢測為先導(dǎo),它的好壞直接影響著人臉分析的技術(shù)走向和落地,也同時(shí)影響著人臉識別技術(shù)在公安實(shí)戰(zhàn)應(yīng)用效果。
尺度變化是人臉檢測不同于通用物體檢測的一大問題。通用物體的尺度變化范圍一般在十幾倍之內(nèi);與之相比,人臉的尺度變化范圍由于攝像頭不斷升級,在 4K 甚至更高分辨率場景中可達(dá)數(shù)十倍甚至上百倍,針對高分辨率場景我們不能采用圖像壓縮(如壓縮到200萬像素),這樣就失去了高分辨率攝像機(jī)建設(shè)的意義,也起不到實(shí)戰(zhàn)效果。面對這一問題,已有學(xué)者已嘗試通過尋找最優(yōu)尺度多次采樣原圖或者利用不同深度的特征圖適應(yīng)不同尺度的人臉解決這一問題;而此論文從另外一個(gè)角度切入更好地解決這個(gè)問題。
和尺度變化一樣,遮擋也是人臉檢測面臨的常見挑戰(zhàn)之一。實(shí)際場景中的高密度人群、眼鏡、口罩、衣帽、頭盔、首飾以及肢體等皆會遮擋人臉,拉低人臉檢測的精度。對此,已有學(xué)者嘗試通過提升神經(jīng)網(wǎng)絡(luò)適應(yīng)遮擋情況的能力,或者將問題轉(zhuǎn)化為遮擋與非遮擋人臉在向量空間中的距離這一度量學(xué)習(xí)問題來解決。而此論文針對人臉遮擋問題創(chuàng)立一套全新算法針對性地解決這個(gè)問題。
3 尺度變化圖像人臉檢測算法
目前的人臉檢測方法仍無法很好地應(yīng)對大范圍尺度變述,基于圖像金字塔的方法理論上可覆蓋所有尺度,但必須多次采樣原圖,導(dǎo)致大量重復(fù)計(jì)算;而基于特征金字塔的方法,特征層數(shù)不宜加過多,從而限制了模型處理尺度范圍的上限。是否存在一種方法,圖像只通過模型一次,同時(shí)又覆蓋到足夠大的尺度范圍呢?
目前,單步檢測方法大致可分為兩類:(1)Anchor-based 方法。(2)Anchor-free 方法。Anchor-based 方法處理的尺度范圍雖小,但更精準(zhǔn);Anchor-free 方法覆蓋的尺度范圍較大,但檢測微小尺度的能力低下。一個(gè)非常自然的想法就是,兩種方法可以融合進(jìn)一個(gè)模型嗎?理想很豐滿,現(xiàn)實(shí)很骨感,Anchor-based 和 Anchor-free 方法的輸出在定位方式和置信度得分方面差異顯著,直接合并兩個(gè)輸出困難很大,具體原因如下:
其一,對于 Anchor-based 方法,ground truth IoU ≥ 0.5 的錨點(diǎn)將被視為正訓(xùn)練樣本。可以發(fā)現(xiàn),正負(fù)樣本的定義與邊界框回歸結(jié)果無關(guān),這就導(dǎo)致 Anchor-based 分支每個(gè)錨點(diǎn)輸出的分類置信度實(shí)質(zhì)上表示的是“錨點(diǎn)框住的區(qū)域是人臉”的置信度,而不是“網(wǎng)絡(luò)預(yù)測的回歸框內(nèi)是人臉”的置信度。故而分類置信度很難評估網(wǎng)絡(luò)實(shí)際的定位精度。對于在業(yè)務(wù)層將 Classfication Subnet 和 Regression Subnet 分開的網(wǎng)絡(luò),情況將變得更為嚴(yán)重。
其二,對于 Anchor-free 方法,網(wǎng)絡(luò)訓(xùn)練方式類似于目標(biāo)分割任務(wù)。輸出的特征圖以邊界框中心為圓心,半徑與邊界框尺度成比例的橢圓區(qū)域被定義為正樣本區(qū)域,特征圖其他位置(像素)被視為背景。通過這種方式,Anchor-free 分支的分類置信度得分實(shí)質(zhì)為“該像素落在人臉上”的置信度,而且該分類置信度與定位的準(zhǔn)確度的關(guān)聯(lián)同樣很弱。
總而言之,Anchor-based 方法和 Anchor-free 方法的分類置信度都與回歸定位精度關(guān)聯(lián)甚微,其置信度得分也分別代表著不同的含義。因此通過分類結(jié)果直接合并兩個(gè)分支輸出的邊界框是不合理的,并且可能導(dǎo)致檢測性能的急劇下降。
因此,可以將回歸的邊界框和 groundtruth 邊界框之間的 IoU 當(dāng)作 Classfication Subnet 的 groundtruth,這正是 SFace 所做的事情。
具體而言,SFace 設(shè)計(jì)了Anchor-based 和 Anchor-free 兩個(gè)分支,前者基于RetinaNet,后者基于 UnitBox;兩個(gè)分支都在訓(xùn)練第一步通過 Regression Subnet 生成邊界框;接著計(jì)算邊界框和 groundtruth 邊界框之間的 IoU;(Anchor-based 分支的)錨點(diǎn)和(Anchor-free 分支的)像素中 IoU≥0.5 的結(jié)果將視為Classfication Subnet 的正樣本,其他則視為負(fù)樣本,Classfication Loss 采用 Focal Loss。我們還嘗試過直接回歸 IoU,然而實(shí)驗(yàn)結(jié)果表明,相較于采用 Sigmoid Cross Entropy 或 Focal Loss,直接回歸 IoU 所得結(jié)果方差較大,實(shí)際效果欠佳。
Anchor-based 分支和 Anchor-free 分支都使用 IoU Loss 作為 Regression Loss。這種調(diào)整有助于統(tǒng)一兩個(gè)分支的輸出方式,優(yōu)化組合結(jié)果。通過以上修正,兩個(gè)分支的分類子網(wǎng)絡(luò)的實(shí)質(zhì)含義得到統(tǒng)一,分類置信度的分布得到一定程度的彌合,從而 SFace 可有效融合兩個(gè)分支的結(jié)果。
此外,SFace 必須運(yùn)行很快才有實(shí)際意義,否則大可以選擇做圖像金字塔。為此,基于Xception,SFace 采用了一個(gè) FLOPs 僅有 39M 的 Backbone,稱之為 Xception-39M,每個(gè) Block 包括 3 個(gè) SeparableConv 的 Residual Block。Xception-39M 運(yùn)算量非常小,感受野卻高達(dá) 1600+,十分適合處理更高分辨率圖像。
4 遮擋圖像人臉檢測算法
遮擋問題是公安動態(tài)人臉應(yīng)用中最為常見的問題,尤其現(xiàn)如今犯罪嫌疑人的反偵察能力越來越強(qiáng),偽裝遮擋是基本手段,因而如何有效解決因遮擋帶來的人臉識別精度問題,是擺在公安用戶以及學(xué)者專家面前的一道難題。針對該問題,我們在此提出一種專門針對人臉遮擋的算法模型。
我們可以從另一個(gè)角度考慮遮擋問題。一個(gè)物體在清晰可見、無遮擋之時(shí),其特征圖對應(yīng)區(qū)域的響應(yīng)值較高;如果物體有(部分)遮擋,理想情況應(yīng)是只有遮擋區(qū)域響應(yīng)值下降,其余部分不受影響;但實(shí)際情況卻是整個(gè)物體所在區(qū)域的響應(yīng)值都會降低,進(jìn)而導(dǎo)致模型 Recall 下降。
解決這個(gè)問題大概有兩種思路:1)盡可能保持住未遮擋區(qū)域的響應(yīng)值;2)把無遮擋區(qū)域降低的響應(yīng)值彌補(bǔ)回來;前者較難,后者則相對容易。一個(gè)簡單的做法是讓檢測器學(xué)習(xí)一個(gè) Spatial-wise Attention,它應(yīng)在無遮擋區(qū)域有更高的響應(yīng),然后借助它以某種方式增強(qiáng)原始的特征圖。
那么,如何設(shè)計(jì)這個(gè) Spatial-wise Attention。最簡單考慮,它應(yīng)當(dāng)是一個(gè) Segmentation Mask 或者 Saliency Map?;?RetinaNet,F(xiàn)AN 選擇增加一個(gè)Segmentation 分支,對于學(xué)到的 Score Map,做一個(gè) exp 把取值范圍從 [0, 1] 放縮到[1, e],然后乘以原有的特征圖。為簡單起見,Segmentation 分支只是疊加 2 個(gè) Conv3x3,Loss 采用 Sigmoid Cross Entropy。
這里將面對的一個(gè)問題是,Segmentation 分支的groundtruth 是什么,畢竟不存在精細(xì)的 Pixel-level 標(biāo)注。由于人臉圖像近似橢圓,一個(gè)先驗(yàn)信息是邊界框區(qū)域內(nèi)幾乎被人臉填滿,背景區(qū)域很小;常見的遮擋也不會改變「人臉占據(jù)邊界框絕大部分區(qū)域」這一先驗(yàn)?;谶@一先驗(yàn)可以直接輸出一個(gè)以邊界框矩形區(qū)域?yàn)檎龢颖?、其余區(qū)域?yàn)樨?fù)樣本的 Mask,并將其視為一個(gè)「有 Noise 的 Segmentation Label」作為實(shí)際網(wǎng)絡(luò)的 groundtruth。我們也嘗試根據(jù)該矩形截取一個(gè)橢圓作為 Mask,但實(shí)驗(yàn)結(jié)果表明基本沒有區(qū)別。
這樣的groundtruth真能達(dá)到效果嗎?通過可視化已學(xué)到的 Attention Map,發(fā)現(xiàn)它確實(shí)可以規(guī)避開部分遮擋區(qū)域,比如一個(gè)人拿著話筒講話,Attention Map 會高亮人臉區(qū)域,繞開話筒區(qū)域。我們相信,如果采用更復(fù)雜的手段去清洗 Segmentation Label,實(shí)際效果將有更多提高。
5 結(jié)語
本論文旨在通過人臉檢測算法的研究,把控人臉采集數(shù)據(jù)源,以適應(yīng)攝像機(jī)分辨率不斷提升導(dǎo)致的圖像尺寸變化,及適應(yīng)諸如三場一站等高密度人群、遮擋人群的人像采集,為人臉布控、人臉比對、人臉檢索以及基于人臉的分析研判提供高可用的人臉圖片數(shù)據(jù)。
參考文獻(xiàn):
[1] 趙昕晨,楊楠.基于頭部姿態(tài)分析的攝像頭視線追蹤系統(tǒng)優(yōu)化技術(shù)[J].計(jì)算機(jī)應(yīng)用,2020(7).
[2] 楊思燕,苗凱彬,王鋒,等.視頻圖像中人臉自動檢測與統(tǒng)計(jì)算法[J].電子科技,2020,33(8):1-9.
【通聯(lián)編輯:代影】