王成濟,羅志明,鐘準,李紹滋
(1. 廈門大學 智能科學與技術系,福建 廈門 361005; 2. 廈門大學 福建省類腦計算技術及應用重點實驗室,福建 廈門361005)
人臉識別技術作為智能視頻分析的一個關鍵環(huán)節(jié),在視頻監(jiān)控、網(wǎng)上追逃、銀行身份驗證等方面有著廣泛的應用。人臉檢測是人臉識別的基礎關鍵環(huán)節(jié)之一,在智能相機、人機交互等領域也有著廣泛的應用。人臉檢測是在輸入圖像中判斷是否存在人臉,同時確定人臉的具體大小、位置和姿態(tài)的過程。作為早期計算機視覺的應用之一,人臉檢測的相關研究可以追溯到1970年[1]。由于真實場景中人臉的復雜性和背景的多樣性,人臉檢測技術在復雜場景下還存在著許多挑戰(zhàn)。
近年來深度卷積神經(jīng)網(wǎng)絡(CNN)使圖像識別、目標檢測等計算機視覺任務取得長足進步[2-4]。目標檢測問題可以看作兩個子問題的組合:目標定位問題和目標分類問題。目標定位問題主要確定物體在圖像中的具體位置,目標分類問題將確定目標相應的類別。受ren等[4]提出的區(qū)域候選框提取網(wǎng)絡(region proposal network, RPN)的啟發(fā),Huang等[5]和Yu等[6]認為用于解決圖像分割問題的框架同樣適用于目標檢測問題,它們對于圖片中的每一個像素點都判斷該像素是否屬于人臉區(qū)域以及當屬于人臉區(qū)域時相對于人臉區(qū)域邊界坐標的偏移量(當前像素點與人臉邊界在空間坐標上的相對偏移)。UnitBox[6]將用于圖像分類的VGG16[7]網(wǎng)絡改造為全卷積神經(jīng)網(wǎng)絡(FCN)[8],在pool4特征層的基礎上預測像素點的分類得分,在pool5特征層的基礎上預測人臉區(qū)域內像素點坐標的偏移量。UnitBox[6]首次使用重疊率評價人臉區(qū)域內像素點坐標偏移量回歸的好壞,重疊率損失函數(shù)將人臉區(qū)域內每個像素點的上下左右4個偏移量當作一個整體,利用了這4個偏移量之間的關聯(lián)性。Yu[6]認為用于預測人臉區(qū)域內像素點坐標偏移量的特征需要比預測人臉分類的特征有更大的感受野,所以他們僅利用了pool5層特征預測坐標偏移量,在預測每一個像素點的分類得分時UnitBox使用橢圓形的人臉區(qū)域的標注,在測試時在分類得到的得分圖上做橢圓檢測,然后提取檢測出的橢圓的中心點對應的矩形框作為最終檢測結果。在實驗中我們發(fā)現(xiàn)在使用橢圓標注訓練得到的得分圖像無法擬合出標準的橢圓,尤其當多個人臉區(qū)域有重疊時,無法分開多個人臉區(qū)域。實驗中還發(fā)現(xiàn),使用pool5層的特征雖然有很好的感受野但在處理小人臉時會因為感受野過大造成小人臉區(qū)域內坐標偏移量回歸不準確,影響最終檢測結果。
基于以上工作,本文使用矩形的人臉區(qū)域標注,擯棄了UnitBox[6]后處理中的橢圓檢測的部分, 轉而使用非極大值抑制算法過濾大量重復的矩形框;當兩個人臉區(qū)域重疊率超過非極大值抑制算法的閾值時,以前的非極大值抑制算法只能夠保留一個人臉會造成漏檢,為了避免這個問題,本文根據(jù)矩形框的重疊率對預測矩形框的得分加權降低非最大矩形框的置信度,然后使用置信度閾值來過濾矩形框,這樣當兩個人臉檢測出的矩形框重疊率大于制定閾值時也不會直接過濾掉, 避免漏檢。在特征的感受野過大的問題上,本文重新探索了不同卷積層在人臉檢測任務中的重要性,同比較不同大小感受野的特征組合方法對準確率的影響, 發(fā)現(xiàn)結合pool4層的特征和pool5層的特征能同時處理大人臉和小人臉。
人臉檢測大致可以分為3個部分:候選框提取、圖像分類、邊框坐標回歸。傳統(tǒng)方法采用滑動窗口提取候選框,然后使用Harr_[9]、SIFT[10]、HOG[11]等手工提取的特征結合SVM[12]、boosting[9,13]等機器學習算法對候選框進行分類。這種窮舉的策略雖然包含了目標所有可能出現(xiàn)的位置,但是缺點也是明顯的:1)基于滑動窗口的區(qū)域選擇策略沒有針對性,時間復雜度高,窗口冗余;2)手工設計的特征對于多樣性的變化并沒有很好的魯棒性。
為了解決滑動窗口計算復雜度高的問題,出現(xiàn)了利用圖像中的紋理、邊緣、顏色等信息的基于區(qū)域候選框的解決方案[14-15],這種方案可以保證在選取較少窗口的情況下保持較高的召回率。這大大降低了后續(xù)操作的時間復雜度,并且獲取的候選窗口要比滑動窗口的質量更高。Ross B. Girshick等[2]提出的RCNN框架,使得目標檢測的準確率取得極大提升,并開啟了基于深度學習目標檢測的熱潮。Fast RCNN[3]方法利用特征圖提取候選框極大地降低了基于深度學習目標檢測方法的時間復雜度。Faster R-CNN[4]方法更進一步,首次提出了自動提取圖片中區(qū)域候選框的RPN網(wǎng)絡,并將傳統(tǒng)的提取候選框的操作集成到特征學習網(wǎng)絡中,使得目標檢測問題可以達到end-to-end。CascadeCNN[16]使用3個獨立的卷積神經(jīng)網(wǎng)絡分級過濾候選框。DDFD[17]首次將全卷積神經(jīng)網(wǎng)絡[8]成功地應用于人臉檢測問題中。
2014年J. Long等[8]提出全卷積神經(jīng)網(wǎng)絡(fully convolution network, FCN)并成功地應用在圖像分割任務中,直到現(xiàn)在FCN依然是圖像分割的主流框架。全卷積神經(jīng)網(wǎng)絡(FCN)與卷積神經(jīng)網(wǎng)絡(convolution neural network, CNN)的主要不同是FCN將CNN中的全連接層通過卷積層實現(xiàn),并使用反卷積操作得到與輸入同樣大小的輸出,因此網(wǎng)絡的輸出由原始CNN的關于整張圖像上的分類結果變成了FCN中關于整張圖像的像素級的分類,也就是輸入圖像的每一個像素點都對應有一個分類的輸出結果。FCN是直接對像素點進行操作,在經(jīng)過一系列的卷積和反卷積的操作后得到與原始輸入圖像同樣大小的中間結果,最后經(jīng)過softmax操作輸出類別概率。FCN的主要網(wǎng)絡是在現(xiàn)有的AlexNet[18]、VGGNet[7]和ResNet[19]等用于圖像分類的CNN網(wǎng)絡模型上增加反卷積操作來實現(xiàn)的。DenseBox[5]在文獻[15]基礎上將人臉區(qū)域坐標回歸問題視為在特征圖的每一個像素位置預測這個像素坐標相對于人臉區(qū)域邊界坐標的偏移量的問題,然后使用類似圖像分割的方法來處理,并采用了l2損失函數(shù)作為坐標回歸的損失函數(shù),UnitBox[6]認為同一個像素的4個偏移量之間是相互關聯(lián)的,為了體現(xiàn)這種關聯(lián)性提出了使用重疊率損失函數(shù),通過不斷優(yōu)化預測人臉矩形框與真實人臉矩形框的重疊率,使得最終預測的矩形框與真實矩形框的重疊率不斷增加。
本節(jié)主要介紹整體算法流程,如圖1所示。在訓練階段有3個輸入:RGB的訓練圖片、單通道的區(qū)域像素分類標簽和四通道的人臉區(qū)域內像素點坐標偏移標簽。經(jīng)過FCN網(wǎng)絡后有兩個輸出:第一個是像素級分類得分的概率圖,判斷該像素點是否屬于某個人臉區(qū)域;另一個是1個4通道的像素點坐標偏移圖,4通道的像素點坐標偏移圖中的4個通道分別對應每一個像素值與離它最近的人臉區(qū)域的上下左右4個邊框坐標的偏移量。最后使用交叉熵損失函數(shù)和重疊率損失函數(shù)指導網(wǎng)絡訓練,我們使用聯(lián)合訓練。標簽形式見2.1節(jié),網(wǎng)絡的具體細節(jié)見2.2節(jié)。每一個像素都需要計算交叉熵損失,但僅僅對包含在標注的人臉區(qū)域內的像素點計算重疊率損失。在測試階段輸入圖片經(jīng)過訓練好的FCN模型輸出每一個像素點的分類得分和人臉區(qū)域內像素點坐標偏移量,對每一個得分大于閾值的像素點我們從對應四通道坐標偏移圖取出該像素點相對于離它最近的人臉區(qū)域邊界坐標的偏移量,假設像素點 p(xi,yi)的預測得分si大于閾值且預測的坐標偏移為則像素點 p(xi,yi)的預測矩形框坐標為使用 NMS算法過濾重復檢測的矩形框,得到最終檢測結果。
圖 1 算法流程Fig. 1 Algorithm procedure
訓練標簽如圖2所示。
圖 2 訓練標簽Fig. 2 Ground truth
對于每一張訓練的圖像,將圖像上每一個人臉標注的矩形區(qū)域,以1填充,其他區(qū)域填充0,作為每一個像素點的人臉置信度得分。假設像素點p(xi,yi)包含在某個人臉區(qū)域中,假設這個人臉區(qū)域左上角坐標為pt(xt,yt),右下角坐標為pb(xb,yb),則像素 點 p(xi,yi)的標簽向量形式:
網(wǎng)絡模型結構如圖3所示,使用的是去掉了全連接層和softmax層的VGG16網(wǎng)絡[7]作為模型共享的特征提取網(wǎng)絡。在共享的特征提取網(wǎng)絡的基礎上,在pool4特征層后添加了兩個獨立的卷積層sc_conv4和bbx_conv4,每一個卷積層包括32個3×3的卷積核,并保持特征圖分辨率大小不變,在pool5特征層后同樣添加了含有32個3×3的卷積核的卷積層bbx_conv5。因為pool4特征層的分辨率是輸入的1/16,為了得到與輸入同樣大小的輸出,對sc_conv4和bbx_conv4分別做了步長為16的反卷積操作,將sc_conv4和bbx_conv4兩個特征層的分辨率放大16倍并保持特征維度不變,對bbx_conv5使用反卷積放大32倍使分辨率與輸入相同。sc_conv4層輸出的特征首先被放大16倍,輸入到含有32個3×3卷積核的卷積層和1個卷積核大小為1×1的卷積層,最后輸入到sigmoid激活函數(shù)得到每一個像素點的類別分類得分。為了得到預測的4維坐標偏移圖,將反卷積后的bbx_conv4和bbx_conv5兩個特征層串聯(lián)后經(jīng)過連續(xù)兩層含有32個3×3卷積核的卷積層得到4維人臉區(qū)域內的坐標偏移圖。
圖 3 模型結構Fig. 3 Model structure
在卷積神經(jīng)網(wǎng)絡中pooling層主要起降低分辨率的作用,越往后特征層的分辨率會越小,也越能夠提取出抽象的語義信息,但越抽象的特征細節(jié)信息丟失越多,在處理像素級分類任務時僅使用高層抽象的特征會導致邊緣部分分類不準確。但是若完全依靠前面層的特征,雖然能夠提高對人臉區(qū)域邊緣的像素點的分類能力,但是由于淺層特征的抽象能力不夠使得整體上分類結果不準確。文獻[8,20]的研究表明通過融合不同的特征層能夠顯著提升網(wǎng)絡的效果,F(xiàn)CN[8]中的實驗也證明融合不同特征層特征的有效性,主要融合方式有FCN-32、FCN-16、FCN-8。UnitBox[6]認為人臉區(qū)域邊框回歸需要抽象的語義信息,所以僅使用了pool5層的特征用于處理邊框回歸任務,但實際實驗中表明融合pool5和pool4兩個特征層的特征能顯著提升結果。
本文的模型共享特征層后對于不同的任務添加了多個3×3的獨立卷積操作,像素級分類得分的標簽是[0, 1],而人臉區(qū)域內坐標偏移量的標簽是[0,+w](這里的w代表所有標注人臉區(qū)域的寬或高的最大值),pool5特征層的分辨率是輸入的1/32,pool4是輸入的1/16,使用與輸出同樣數(shù)量的卷積操作會丟失大量信息,不僅不會幫助模型訓練反而會將前面學習到的錯誤結果放大降低網(wǎng)絡的性能,而使用更多的卷積操作雖然會增加模型的表達能力但也會增加模型的時間復雜度。
人臉檢測問題可以看作兩個子問題的組合:人臉區(qū)域定位問題和圖像分類問題。圖像分類是對整張輸入圖像分一個類別,而圖像分割是標注圖片每一個像素到對應類別的任務,本文將人臉檢測問題中的圖像分類問題看成人臉區(qū)域分割問題。當將圖像中的每一個像素都分配一個對應的候選框,那么人臉檢測問題可以分解為圖像分割問題和候選框回歸問題兩個子問題,分別對應候選框得分和候選框回歸。每一個像素的分類得分也是這個像素對應預測矩形框的得分。本文使用多任務聯(lián)合訓練,主要包括人臉區(qū)域分割任務和人臉區(qū)域內像素點坐標偏移回歸任務。針對分類任務我們使用的是交叉熵損失函數(shù) Lce,人臉區(qū)域的坐標偏移量回歸使用重疊率損失函數(shù) Liou,為了使兩個損失函數(shù)在訓練的過程中的梯度保持在同一個量級上,我們引入了一個權值λ,使得最終的損失函數(shù)L為
像素級分類問題是要得到每一個像素輸入屬于每個類別的概率,人臉檢測問題是二分類問題,即人臉與非人臉。本文使用sigmoid激活函數(shù)實現(xiàn)從特征空間到[0, 1]概率空間的映射,得到每一個像素分類得分的概率,然后使用交叉熵損失函數(shù)指導網(wǎng)絡訓練。sigmoid激活函數(shù)為
式中的 wjx+bj表示在激活函數(shù)前的卷積核大小為1×1的卷積層。假設像素點 p(xi,yi)被預測為人臉的概率為 pfi,則非人臉的概率為1 ?pfi,若該像素點在人臉區(qū)域內該像素點的標簽 gi=1,否則 gi=0。具體的交叉熵損失函數(shù)為
l2損失函數(shù)為
重疊率損失函數(shù)為
圖 4 重疊率Fig. 4 Intersection-over-union
非極大值抑制方法(non-maximum suppression,NMS)是目標檢測中常用的后處理方法,當算法對同一個目標檢測出多個重疊率較高的框,需要使用NMS來選取重疊區(qū)域里分數(shù)最高的矩形框(人臉的概率最大),非極大值抑制方法采用的是排序—遍歷—消除的過程,在這個過程中檢測出來的矩形框的得分不變,在一定程度上會影響算法性能。N.Bodla等[21]發(fā)現(xiàn)在排序階段對重疊率高于閾值且得分較低的預測框的得分進行加權,再過濾掉得分低的矩形框能有效解決非極大值抑制算法導致的漏檢問題。
受文獻[21]的啟發(fā),我們在非極大值抑制的過程中使用兩次遍歷和消除過程,在第一次遍歷過程中,當兩個框的重疊率大于時,將得分較低的窗口的得分乘以一個權值,然后根據(jù)加權后的得分過濾掉低于的窗口,完成后再次使用沒有加權的非極大值抑制方法得到最終檢測結果。在實驗過程中,測試了兩種不同的加權方法:線性加權和高斯加權。兩種加權方法的具體計算:當兩個窗口交并比小于 α,則得分低的窗口的得分要乘以權值weight。
線性加權為
高斯加權為
為了驗證方法的有效性,我們使用Wider Face數(shù)據(jù)集[22]的訓練集訓練,并在FDDB數(shù)據(jù)集[23]和Wider Face數(shù)據(jù)集[22]的驗證集上評測結果,并與當前領先的算法進行比較,此外本文還比較了使用不同加權方式的非極大值抑制方法的性能。
FDDB人臉評測[23]平臺的測試集有2 845張圖片,共有5 171張標注人臉,范圍包括不同姿態(tài)、不同分辨率、不同遮擋情況的圖像。評測指標是檢測出的矩形區(qū)域和標注區(qū)域的重疊率,重疊率大于等于0.5表示檢測正確。
Wider Face數(shù)據(jù)集[22]是由香港中文大學公開發(fā)布的人臉檢測基準數(shù)據(jù)集,包含訓練集、驗證集和測試集3部分,是現(xiàn)有FDDB數(shù)據(jù)集中標注的圖像數(shù)量的10倍。共包含3.2萬張圖像,39.3萬張手工標注的人臉,平均每張圖像有12個標注的人臉。Wider Face數(shù)據(jù)集中的人臉姿態(tài)、大小、遮擋情況變化多樣,數(shù)據(jù)集以小人臉為主且人臉區(qū)域的分辨率偏低。整個Wider Face數(shù)據(jù)集中的圖像分為61個事件類別,根據(jù)標注人臉的大小,數(shù)據(jù)集中的人臉檢測任務分為3個難度等級Easy、Medium、Hard,所以有3條評測曲線。
本文使用的訓練數(shù)據(jù)來自Wider Face[22]的訓練集,總共有12 880張圖像,統(tǒng)一將訓練圖像的寬和高用ImageNet[24]上的圖像均值填充為32的倍數(shù),測試時同樣對圖像填充為32的倍數(shù)。訓練是以標注的人臉區(qū)域中心周圍占整個人臉區(qū)域3/5的區(qū)域為正樣本,該區(qū)域關于標注的人臉區(qū)域中心對稱。其他像素點設為負樣本。由于原始的UnitBox[6]論文沒有公布測試模型和源代碼,在本文中我們復現(xiàn)了UnitBox[6]代碼作為比較對象。在使用多任務聯(lián)合訓練,由于人臉區(qū)域分類的損失和人臉區(qū)域邊框回歸的損失函數(shù)不在同一個數(shù)量級上,本文對分類損失賦權0.001。訓練是在WiderFace訓練集上訓練,每次使用一張圖像,使用Adam算法[25]在整個數(shù)據(jù)集上迭代訓練30輪,本文使用加權的非極大值抑制算法做后處理。
圖5中比較了本文的算法與原始UnitBox[6]算法在FDDB數(shù)據(jù)集上的性能,同時對比了另外7個經(jīng)典的人臉檢測算法:DDFD[17]、CascadeCNN[16]、ACF-multiscale[26]、Pico[27]、HeadHunter[28]、Joint-Cascade[29]、Viola-Jones[9],實驗表明本文的多級特征串聯(lián)能明顯提升算法性能。本文的方法在共享的卷積層和串聯(lián)的特征層后都添加了卷積層,同時本文單獨對pool5層的特征添加同樣的卷積層作為對比實驗(UnitBox-refine)。從圖5 中可以看出,僅僅在pool5層輸出的特征后添加卷積操作的結果為0.859,而在結合pool4和pool5層特征后再添加卷積操作的結果為0.906,說明僅僅對單層特征進行多次卷積和池化操作不能有效提升檢測結果。
圖 5 FDDB數(shù)據(jù)集ROC曲線Fig. 5 ROC Curve on FDDB dataset
同樣的,在WiderFace數(shù)據(jù)集的驗證集上測試比較了本文算法與其他領先算法的性能。圖6展示了本文算法在WiderFace驗證集的Easy、Medium和Hard三個難易程度上的性能曲線。還對比了多個先進的人臉檢測算法:LDCF+[30]、Multiscale Cascade CNN[22]、Faceness-WIDER[31]、ACF-WIDER[26],在Easy難度上本文算法比LDCF+[30]高0.5個百分點,在UnitBox[6]的基礎上提高了9個百分點,在Medium難度上取得了0.737的檢測結果,在Hard難度上比UnitBox[6]提升了9.8個百分點。圖7展示了本文算法的部分檢測結果。
圖 6 WiderFace驗證集上的準確率-召回率曲線Fig. 6 Percision-recall curve on Wider Face Val set
表1比較了加權得分的非極大值抑制方法和不加權的極大值抑制方法的后處理結果,這里高斯加權中使用的方差sigma=0.5??梢钥闯鲈贔DDB數(shù)據(jù)集中使用高斯加權和線性加權獲得的提升一樣,在WiderFace數(shù)據(jù)中使用高斯加權的提升明顯大于線性加權,說明高斯加權的方法更適合于小人臉檢測問題。在圖8中我們展示了部分不同的NMS方法的處理結果。
圖 7 檢測結果Fig. 7 Detection results
表 1 NMS對比實驗準確率Table 1 The accuracy of contrast experiment
圖 8 不同NMS的后處理結果對比Fig. 8 The comparesion of NMS methods
目標檢測和圖像分割問題是計算機視覺中兩個重要的基本問題, 本文的人臉檢測方法試圖將解決圖像分割問題的算法框架嘗試應用于人臉檢測問題。在前人的基礎上本文探索了不同的特征串聯(lián)方法對人臉區(qū)域坐標回歸的影響,通過實驗發(fā)現(xiàn)并不是特征組合得越多結果越好,本文使用pool4和pool5兩個特征層的特征取得了很大的提升。在后處理階段,本文通過比較分析不同的非極大值抑制策略的性能,發(fā)現(xiàn)通常使用的不加權的非極大值抑制方法雖然高效,但會在一定程度上影響目標檢測方法的性能。本文在人臉區(qū)域分類問題和人臉區(qū)域內像素點坐標偏移量回歸兩個問題實際上是分開處理,在今后的研究中如何發(fā)現(xiàn)并使用這兩個問題之間的關聯(lián)性是一個很重要的研究思路。本文雖然使用加權得分的方法在一定程度上緩解了非極大值抑制方法檢測算法的影響,但沒有得出一般性的結論,這個問題同樣值得深入研究。
[1]ZAFEIRIOU S, ZHANG Cha, ZHANG Zhengyou. A survey on face detection in the wild: past, present and future[J]. Computer vision and image understanding, 2015, 138:1–24.
[2]GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH,USA, 2014: 580–587.
[3]GIRSHICK R. Fast R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago,Chile, 2015: 1440–1448.
[4]REN Shaoqing, HE Kaiming, GIRSHICK R, et al. Faster RCNN: towards real-time object detection with region proposal networks[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems.Montreal, Canada, 2015, 1: 91–99.
[5]HUANG Lichao, YANG Yi, DENG Yafeng, et al. Dense-Box: unifying landmark localization with end to end object detection[J]. arXiv preprint arXiv: 1509.04874, 2015.
[6]YU Jiahui, JIANG Yuning, WANG Zhangyang, et al. Unit-Box: An advanced object detection network[C]//Proceedings of the 2016 ACM on Multimedia Conference. Amsterdam, The Netherlands, 2016: 516–520.
[7]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//Proceedings of the International Conference on Learning Representations. Oxford, USA, 2015.
[8]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 3431–3440.
[9]VIOLA P, JONES M. Rapid object detection using a boosted cascade of simple features[C]//Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Kauai, HI, USA, 2001, 1: I-511–I-518.
[10]LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision,2004, 60(2): 91–110.
[11]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA, 2005, 1: 886–893.
[12]OSUNA E, FREUND R, GIROSIT F. Training support vector machines: an application to face detection[C]//Proceedings of the 1997 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Juan,Argentina, 1997: 130–136.
[13]FRIEDMAN J, HASTIE T, TIBSHIRANI R. Additive logistic regression: a statistical view of boosting (with discussion and a rejoinder by the authors)[J]. The annals of statistics, 2000, 29(5): 337–407.
[14]ZITNICK C L, DOLLáR P. Edge boxes: locating object proposals from edges[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland,2014: 391–405.
[15]UIJLINGS J R R, VAN DE SANDE K E A, GEVERS T,et al. Selective search for object recognition[J]. International journal of computer vision, 2013, 104(2): 154–171.
[16]LI Haoxiang, LIN Zhe, SHEN Xiaohui, et al. A convolutional neural network cascade for face detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA, 2015: 5325–5334.
[17]FARFADE S S, SABERIAN M J, LI Lijia. Multi-view face detection using deep convolutional neural networks[C]//Proceedings of the 5th ACM on International Conference on Multimedia Retrieval. Shanghai, China, 2015: 643–650.
[18]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Proceedings of the 26th Annual Conference on Neural Information Processing Systems 2012. Lake Tahoe,Nevada, USA, 2012: 1097–1105.
[19]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA, 2016: 770–778.
[20]HARIHARAN B, ARBELáEZ P, GIRSHICK R, et al. Hypercolumns for object segmentation and fine-grained local-ization[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA,2015: 447–456.
[21]BODLA N, SINGH B, CHELLAPPA R, et al. Improving object detection with one line of code[J]. arXiv preprint arXiv: 1704.04503, 2017.
[22]YANG Shuo, LUO Ping, LOY C C, et al. Wider Face: A face detection benchmark[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas, NV, USA, 2016: 5525–5533.
[23]JAIN V, LEARNED-MILLER E. FDDB: A benchmark for face detection in unconstrained settings[R]. UMass Amherst Technical Report UMCS-2010-009, 2010.
[24]DENG Jia, DONG Wei, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA, 2009: 248–255.
[25]KINGMA D P, BA J L. Adam: A method for stochastic optimization[C]//Proceedings of International Conference on Learning Representations. Toronto, Canada, 2015.
[26]YANG Bin, YAN Junjie, LEI Zhen, et al. Aggregate channel features for multi-view face detection[C]//Proceedings of the 2014 IEEE International Joint Conference on Biometrics (IJCB). Clearwater, FL, USA, 2014: 1–8.
[27]MARKUS N, FRLJAK M, PANDZIC I S, et al. A method for object detection based on pixel intensity comparisons organized in decision trees[J]. CoRR, 2014.
[28]MATHIAS M, BENENSON R, PEDERSOLI M, et al.Face detection without bells and whistles[C]//Proceedings of the 13th European Conference on Computer Vision.Zurich, Switzerland, 2014: 720–735.
[29]CHEN Dong, REN Shaoqing, WEI Yichen, et al. Joint cascade face detection and alignment[C]//Proceedings of the 13th European Conference on Computer Vision. Zurich,Switzerland, 2014: 109–122.
[30]OHN-BAR E, TRIVEDI M M. To boost or not to boost?On the limits of boosted trees for object detection[C]//Proceedings of the 23rd International Conference on Pattern Recognition (ICPR). Cancun, Mexico, 2016: 3350–3355.
[31]YANG Shuo, LUO Ping, LOY C C, et al. From facial parts responses to face detection: A deep learning approach[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago, Chile, 2015: 3676–3684.