張 劍 賀 鑫 王孝雄
(大連理工大學,遼寧 大連116024)
現(xiàn)有的人臉檢測和人臉對齊方法大多忽略了這兩個任務之間的內(nèi)在聯(lián)系。雖然已有幾篇論文試圖共同解決這些問題,但這些作品仍然存在局限性。但是,使用的手工特征限制了它的性能。多視點人臉檢測,但由于弱人臉檢測器產(chǎn)生的初始檢測窗口,檢測精度受到限制。
另一方面,在訓練過程中,挖掘訓練中的硬樣本對增強檢測能力至關重要。然而,傳統(tǒng)的硬樣本挖掘通常采用離線方式,這大大增加了手工操作。設計一種能自動適應當前訓練過程的在線硬樣本人臉檢測與對準方法。
我們提出了一種通過多任務學習利用統(tǒng)一級聯(lián)CNN 實現(xiàn)這兩種任務集成的新框架。所提出的CNNs 由三個階段組成。
在第一階段,它通過淺層CNN 快速生成候選窗口。然后,通過更復雜的CNN 對窗口進行細化,以拒絕大量非人臉窗口。最后,它使用更強大的CNN 來細化結果并輸出面部標志的位置。由于這種多任務學習框架,該算法的性能可以顯著提高。
我們的應用技術概括如下:
(1)提出一種基于級聯(lián)CNN 的人臉檢測與對準框架,并詳細介紹了該框架。
(2)本文提出了一種有效的在線硬樣本挖掘方法,以提高挖掘性能。
(3)在具有挑戰(zhàn)性的基準上進行了廣泛的實驗,以顯示所提議的Ap-proach 在臉部檢測和臉部對齊任務方面與現(xiàn)有技術相比有顯著的性能改進。
在目前已有的技術里,設計了多個CNS 用于人臉檢測。然而,我們注意到它的性能可能受到以下事實的限制:
一些濾波器缺乏權重的多樣性,這可能限制了它們產(chǎn)生區(qū)別描述。
與其他多類目標檢測和分類任務相比,人臉檢測是一項具有挑戰(zhàn)性的二值分類任務,因此可能需要較少的濾波器數(shù)量,但需要更多的濾波器區(qū)分。為此,我們減少濾波器的數(shù)量,并將5×5 濾波器改為3×3 濾波器,以減少計算量,同時增加深度以獲得更好的性能。
有了這些改進,以前的體系結構相比,我們可以以更少的運行時間獲得更好的應用效果。對于公平的比較,我們使用相同的數(shù)據(jù)為這兩種方法。見圖。
多級聯(lián)卷積網(wǎng)絡圖
我們利用三個任務來訓練CNN 檢測器:人臉/非人臉分類、邊界盒回歸和人臉標志定位。
學習目標被制定為兩類分類問題。對于每個樣本,我們使用交叉熵損失:
對于每個候選窗口,我們預測它與最近的地面真值之間的偏移即,邊界框的左頂部、高度和寬度)。我們把學習目標歸結為一個回歸問題。每個樣本的歐幾里得損失:
不同于傳導傳統(tǒng)的硬樣本挖掘是在對原始分類器進行訓練之后,在人臉分類任務中進行在線硬樣本挖掘以適應訓練過程。
在本文中,我們提出了基于一種多任務級聯(lián)CNN 結構框架的面部檢測分割的方法。實驗結果表明,我們的方法在同時進行多個任務時,始終相比其他方式更加出色,同時實現(xiàn)640x480的實時性能最小人臉尺寸為20x20 的VGA 圖像。主要出色表現(xiàn)的三個方面分別為精心設計的級聯(lián)CNN 架構、檢測中困難樣本挖掘、人臉對齊聯(lián)合學習。