王 亞,朱 明,劉成林
(中國(guó)科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,合肥 230027)
智能視頻監(jiān)控系統(tǒng)利用計(jì)算機(jī)視覺(jué)、圖像處理等技術(shù)自動(dòng)對(duì)監(jiān)控視頻內(nèi)容進(jìn)行識(shí)別分析與理解,是視頻監(jiān)控系統(tǒng)的發(fā)展趨勢(shì).而人臉識(shí)別模塊是智能視頻監(jiān)控系統(tǒng)中的重要組成部分.經(jīng)過(guò)近60年的發(fā)展,可限制條件下人臉識(shí)別方法已逐漸成熟,成果眾多[1].但是基于監(jiān)控視頻的人臉識(shí)別技術(shù)仍面臨許多挑戰(zhàn).一方面,監(jiān)控環(huán)境中存在光照、背景等不斷變化; 另一方面,視頻中的人是自由行動(dòng)的.因此監(jiān)控視頻中采集到的人臉經(jīng)常會(huì)存在光照或姿態(tài)或表情變化大,甚至由于運(yùn)動(dòng)而模糊的低質(zhì)量人臉圖像.雖然很多方法[2–4]被提出來(lái)以增強(qiáng)人臉識(shí)別算法對(duì)低質(zhì)量圖像的魯棒性,但是很明顯,大多數(shù)識(shí)別算法在高質(zhì)量的人臉圖像上會(huì)實(shí)現(xiàn)更好的效果[5].以人臉驗(yàn)證為例,在2010年由NIST組織的MBE中,在高質(zhì)量人臉數(shù)據(jù)庫(kù)上測(cè)試時(shí),人臉驗(yàn)證錯(cuò)誤率為0.3%[6],而在非限制數(shù)據(jù)集LFW[7]上的錯(cuò)誤率不少于18%[8].將低質(zhì)量的人臉圖像用于人臉識(shí)別,不僅會(huì)降低整個(gè)系統(tǒng)的人臉識(shí)別率,而且由于人臉識(shí)別過(guò)程中特征計(jì)算復(fù)雜,造成計(jì)算資源浪費(fèi).解決此問(wèn)題的方法之一就是進(jìn)行人臉質(zhì)量評(píng)估,篩選出高質(zhì)量的人臉圖像用于后續(xù)識(shí)別.
本文接下來(lái)的結(jié)構(gòu)安排如下: 第1節(jié)介紹了常見(jiàn)的人臉圖像質(zhì)量評(píng)估方法; 第2節(jié)詳細(xì)闡述了本文方法的算法思想及步驟; 相關(guān)實(shí)驗(yàn)設(shè)置及結(jié)果分析在第3節(jié)進(jìn)行被說(shuō)明; 第4節(jié)總結(jié)了本文的工作.
圖像質(zhì)量評(píng)估方法可分為主觀評(píng)價(jià)和客觀評(píng)價(jià)兩種.主觀評(píng)價(jià)是以人為視覺(jué)感知為主,輔以事先制定的一些評(píng)價(jià)尺度[9],又可分為絕對(duì)評(píng)價(jià)和相對(duì)評(píng)價(jià).絕對(duì)評(píng)價(jià)時(shí),評(píng)估者直接按照視覺(jué)感受給出圖像質(zhì)量判斷或分?jǐn)?shù).而相對(duì)評(píng)價(jià)是給出一組圖像,評(píng)估者進(jìn)行相對(duì)比較,按照從低到高的分類做出評(píng)估.主觀評(píng)價(jià)方法符合人的主觀感受,但它耗時(shí)耗力,且容易受評(píng)估者本身的專業(yè)背景、動(dòng)機(jī)和情緒等主觀因素影響.客觀評(píng)價(jià)方法是根據(jù)人類視覺(jué)特性,利用數(shù)學(xué)算法,對(duì)圖像質(zhì)量做出客觀量化的評(píng)價(jià)值,能方便地被集成到實(shí)際的相關(guān)系統(tǒng)中.客觀評(píng)價(jià)方法主要用到方差、梯度、信息熵、峰值信噪比、均方誤差等技術(shù)指標(biāo),根據(jù)對(duì)參考圖像的依賴程度,可分為全參考、半?yún)⒖己蜔o(wú)參考圖像質(zhì)量評(píng)估方法.
人臉圖像質(zhì)量評(píng)估屬于圖像質(zhì)量評(píng)估的一個(gè)分支,既要考慮傳統(tǒng)圖像質(zhì)量評(píng)價(jià)中所關(guān)注的因素,如圖像對(duì)比度、清晰度、光照等,又要考慮人臉?biāo)赜械囊蛩?如姿態(tài)、表情、遮擋等.2005年,國(guó)際標(biāo)準(zhǔn)化組織制定了關(guān)于人臉圖像質(zhì)量的標(biāo)準(zhǔn),對(duì)多種參數(shù)做出了規(guī)定[10].在此基礎(chǔ)上,許多人臉圖像質(zhì)量評(píng)估方法被提出來(lái).大致可以分為兩種,基于多因素融合的方法和基于全局學(xué)習(xí)的方法.在多因素融合方法中,先單獨(dú)分析某種圖像特性,如對(duì)比度、光照、人臉姿態(tài)等,然后加權(quán)融合形成最后的質(zhì)量分?jǐn)?shù).例如,Nasrollahi等將姿態(tài)、對(duì)比度、亮度、分辨率的分?jǐn)?shù)進(jìn)行加權(quán)融合[11];Castro將對(duì)稱性分析與兩種對(duì)比度度量方法相結(jié)合[12];一種基于人臉位置、圖像對(duì)比度、清晰度和明亮度的綜合人臉圖像質(zhì)量評(píng)價(jià)方法被蔣剛毅等人提出[13].鄒國(guó)鋒等先對(duì)包含人臉的原始圖像進(jìn)行第一級(jí)評(píng)價(jià),再提取人臉有效區(qū)域進(jìn)行第二級(jí)評(píng)價(jià)[14].多因素融合大方法易受各因素影響,一個(gè)因素評(píng)價(jià)失誤將導(dǎo)致整個(gè)評(píng)價(jià)出現(xiàn)偏差.并且,各因素難以被全面考慮,且對(duì)人臉圖像質(zhì)量的影響權(quán)重難以確定.另外,需要分別進(jìn)行多個(gè)因素的質(zhì)量評(píng)估,計(jì)算較為繁瑣.基于全局學(xué)習(xí)的方法是指通過(guò)訓(xùn)練學(xué)習(xí)自動(dòng)將各個(gè)因素進(jìn)行融合得到質(zhì)量分?jǐn)?shù).Ozay使用一個(gè)貝葉斯網(wǎng)絡(luò)來(lái)擬合圖像特征和質(zhì)量分?jǐn)?shù)之間的關(guān)系[15].Deng[16]利用三個(gè)人臉圖像存在明顯差異的數(shù)據(jù)集,采用學(xué)習(xí)排序的方法進(jìn)行質(zhì)量評(píng)估,效果顯著.基于全局學(xué)習(xí)的方法操作更為簡(jiǎn)便,特征自動(dòng)融合,質(zhì)量評(píng)估結(jié)果相對(duì)更為可靠.
CNN(卷積神經(jīng)網(wǎng)絡(luò))具有強(qiáng)大的特征學(xué)習(xí)能力,通過(guò)端到端的訓(xùn)練,逐層得到由簡(jiǎn)單到抽象的特征,在識(shí)別、檢測(cè)、跟蹤等各個(gè)領(lǐng)域取得了許多突破性的成果.Kang等人[17]便提出了一個(gè)簡(jiǎn)單的CNN結(jié)構(gòu)用作圖像質(zhì)量評(píng)估,并取得了非常好的效果.Liu等人[18]首先利用VGG網(wǎng)絡(luò)提取大量圖像特征,再通過(guò)稀疏字典學(xué)習(xí)選擇有效的特征,最后用SVR回歸預(yù)測(cè)人臉圖像質(zhì)量分?jǐn)?shù).在自制監(jiān)控?cái)?shù)據(jù)集上實(shí)驗(yàn)發(fā)現(xiàn),此方法能夠挑選到高質(zhì)量的人臉圖像,從而提高識(shí)別率.但學(xué)習(xí)步驟較為繁瑣,且每一個(gè)步驟都是獨(dú)立的,沒(méi)有端到端的統(tǒng)一調(diào)整.
監(jiān)控視頻中的人臉圖像具有光照、姿態(tài)、表情等多種變化,傳統(tǒng)的圖像質(zhì)量評(píng)估方法難以對(duì)其進(jìn)行全方面的評(píng)估.CNN的泛化能力顯著優(yōu)于其他方法,因此本文提出了一種基于CNN的監(jiān)控視頻中人臉圖像質(zhì)量評(píng)估方法.
網(wǎng)絡(luò)模型來(lái)源于Alexnet模型[19],并對(duì)其進(jìn)行了改進(jìn).Hariharan等人證明,使用CNN網(wǎng)絡(luò)中多個(gè)層次的特征更有利于完成特定任務(wù)[20].而且,低水平特征對(duì)于圖像質(zhì)量有很重要的影響.而CNN的中間卷積層包含了大量的邊緣、幾何等低水平特征.于是,將Alexnet的中間卷積層與全連接層進(jìn)行連接,從而融合簡(jiǎn)單特征與抽象特征.
圖1是Alexnet的基本結(jié)構(gòu),包括5個(gè)卷積層和3個(gè)全連接層.為了實(shí)現(xiàn)多尺度特征融合,把Conv2、Conv3、Conv4的輸出特征圖分別先進(jìn)行池化,并裁剪至與Conv5輸出尺寸一致,再連同Conv5一起與fc6層連接.最后,SVR函數(shù)被選為損失函數(shù).如圖2所示.
圖1 Alexnet網(wǎng)絡(luò)結(jié)構(gòu)
具體參數(shù)為:
輸入: 227×227的三通道圖像;
Conv1: 96個(gè)11×11的卷積核,步長(zhǎng)為4; 最大池化,核大小為3,步長(zhǎng)為2;
Conv2: 256個(gè)5×5的卷積核,步長(zhǎng)為1,填充值為2; 最大池化,核大小為3,步長(zhǎng)為2;
Conv3: 384個(gè)3×3的卷積核,步長(zhǎng)為1,填充值為1;
Conv4: 384個(gè)3×3的卷積核,步長(zhǎng)為1,填充值為1;
Conv5: 256個(gè)3×3的卷積核,步長(zhǎng)為1,填充值為1; 最大池化,核大小為3,步長(zhǎng)為2;
新增加兩個(gè)pool層: 最大池化,核大小為3,步長(zhǎng)為2;
Fc6和Fc7分別輸出4096維特征,Fc8輸出1維的質(zhì)量分?jǐn)?shù).
圖2 本文網(wǎng)絡(luò)結(jié)構(gòu)
傳統(tǒng)的人臉圖像質(zhì)量評(píng)估方法使用了人類視覺(jué)系統(tǒng)的先驗(yàn)知識(shí),于是得到的人臉圖像質(zhì)量分?jǐn)?shù)只與人的視覺(jué)感受相一致.但實(shí)際上,評(píng)估人臉圖像質(zhì)量時(shí),應(yīng)考慮到人臉識(shí)別系統(tǒng)本身的運(yùn)行機(jī)制,將質(zhì)量分?jǐn)?shù)與識(shí)別算法聯(lián)系起來(lái).例如,圖3(a)是一張光照偏暗的正臉圖像,圖3(b)是一張光照均勻的側(cè)臉圖像.對(duì)于一個(gè)對(duì)人臉姿態(tài)魯棒性很好的識(shí)別算法來(lái)說(shuō),圖3(b)的質(zhì)量分?jǐn)?shù)自然要高于圖3(a).而若識(shí)別算法對(duì)光照并不敏感,則圖3(a)比圖3(b)更適合用于識(shí)別.
圖3 不同變化因素的人臉圖像
因此,本文采用具體的人臉識(shí)別算法來(lái)對(duì)人臉圖像進(jìn)行質(zhì)量分?jǐn)?shù)的標(biāo)定.在這里,我們選擇VGGFace模型[21]加余弦相似度的識(shí)別算法,以余弦相似度作為質(zhì)量分?jǐn)?shù).同時(shí),這種標(biāo)定方式也解決了訓(xùn)練CNN模型所需大量帶標(biāo)簽訓(xùn)練樣本的問(wèn)題.具體操作步驟如圖4所示.
圖4 結(jié)合識(shí)別算法的人臉圖像標(biāo)定過(guò)程
Color FERET數(shù)據(jù)集[22]是由美國(guó)Feret項(xiàng)目組收集的人臉數(shù)據(jù)庫(kù),包含994個(gè)類別多姿態(tài)、光照的人臉圖像,共11 338張.其可分為三部分: fa子集是統(tǒng)一光照的正臉圖像集; fb子集也是統(tǒng)一光照的正臉圖像,但其表情與fa集有差距; 其他是各種姿態(tài)變化的人臉圖像.PIE人臉數(shù)據(jù)庫(kù)[23]由美國(guó)卡耐基梅隆大學(xué)創(chuàng)建,在嚴(yán)格控制條件下采集了41 368張包含姿態(tài)、光照變化的人臉圖像.
另外,本文通過(guò)學(xué)校監(jiān)控系統(tǒng)平臺(tái),收集到實(shí)際場(chǎng)景下的監(jiān)控視頻數(shù)據(jù)集.數(shù)據(jù)集中包含183個(gè)類別,每類別有100張左右的人臉圖像,包括姿態(tài)、光照、表情、分辨率等多種變化因素.平均尺寸在56×56左右.圖5其中的一些人臉圖像示例.
圖5 實(shí)際監(jiān)控視頻中的人臉圖像樣例
為了驗(yàn)證本文方法對(duì)人臉圖像質(zhì)量評(píng)估的準(zhǔn)確性,綜合Color FERET和PIE數(shù)據(jù)集,進(jìn)行了以下實(shí)驗(yàn).
3.2.1 數(shù)據(jù)準(zhǔn)備
為了增加訓(xùn)練樣本數(shù)量以及樣本多樣性,先對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng).將fb子集中的每張圖片做如下變換:(1)水平與豎直方向分別平移 0,±2,±4,±6,±8 個(gè)像素;(2)平面內(nèi)正逆時(shí)針?lè)謩e旋轉(zhuǎn) 0°,±10°,±20°,±30°;(3)分別在0.7~1.3不同尺度截取人臉; (4)先將人臉圖像縮放為原來(lái)的0.25,0.75,1.25,1.75倍,再恢復(fù)到原尺寸.這四種變換為數(shù)據(jù)庫(kù)分別加入了對(duì)齊誤差和清晰度變化.Color FERET 中包含有 15°,22.5°,45°,67.5°不同姿態(tài)的人臉圖像,被用來(lái)評(píng)估姿態(tài)對(duì)圖像質(zhì)量的影響.而針對(duì)光照對(duì)人臉圖像質(zhì)量的影響,選取了PIE 中光源角度為 54°~67°的人臉圖像.最后,形成一個(gè)大約包含35萬(wàn)張不同光照、姿態(tài)、分辨率的人臉圖像數(shù)據(jù)集.部分人臉圖像如圖6~圖8所示.
圖6 Color FERET中人臉姿態(tài)變化樣本示例
圖7 Color FERET中fb子集人臉圖像變化示例
圖8 PIE中人臉圖像光照變化樣本示例
用上文提到的標(biāo)定方法對(duì)數(shù)據(jù)集進(jìn)行標(biāo)定.對(duì)于Color FERET數(shù)據(jù)集,fa被選為基準(zhǔn)圖像,而PIE數(shù)據(jù)集中正面光照條件下采集的圖像被選為基準(zhǔn)圖像.圖9展示了部分標(biāo)定結(jié)果.由圖可知,被水平或豎直移動(dòng)變換的圖像質(zhì)量分?jǐn)?shù)依然較高,而被旋轉(zhuǎn)或尺度縮小的圖像質(zhì)量分?jǐn)?shù)變低.這與本文所采用的人臉識(shí)別算法對(duì)于人臉?biāo)交蜇Q直移動(dòng)敏感度較小,而對(duì)旋轉(zhuǎn)及尺度變化較為敏感的特性相符合.從而說(shuō)明了本文的圖像質(zhì)量分?jǐn)?shù)標(biāo)定方法與識(shí)別算法的本身特性聯(lián)系緊密.
圖9 結(jié)合識(shí)別算法的樣本標(biāo)注示例
3.2.2 模型訓(xùn)練
將數(shù)據(jù)集分成訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分.訓(xùn)練前,對(duì)所有圖片進(jìn)行歸一化,并統(tǒng)一尺寸為227×227.訓(xùn)練時(shí),采用了調(diào)優(yōu)的方法.初始參數(shù)模型是已在Imagenet數(shù)據(jù)庫(kù)訓(xùn)練好的Alexnet模型[21],然后重新學(xué)習(xí)新的全連接層.設(shè)置新的學(xué)習(xí)率為0.0001,batchsize為64,采用SGD優(yōu)化方法,迭代了12 000次,大約6個(gè)epoch,最終達(dá)到收斂.
3.2.3 結(jié)果展示及分析
將訓(xùn)練好的人臉圖像質(zhì)量評(píng)估模型在測(cè)試集上進(jìn)行測(cè)試,部分測(cè)試圖像的質(zhì)量分?jǐn)?shù)如圖10所示.由圖可知,對(duì)于姿態(tài)、光照、清晰度或光照變化,我們模型給出的質(zhì)量分?jǐn)?shù)都能有效進(jìn)行區(qū)分.
圖10 人臉圖像質(zhì)量評(píng)估結(jié)果
圖像質(zhì)量評(píng)估算法常見(jiàn)評(píng)價(jià)指標(biāo)有LCC (線性相關(guān)系數(shù))和SROCC (秩相關(guān)系數(shù)).LCC描述算法評(píng)價(jià)值與參考值之間的相關(guān)性,從而衡量了算法預(yù)測(cè)的準(zhǔn)確性.SROCC衡量算法預(yù)測(cè)的單調(diào)性.在測(cè)試集上計(jì)算這兩項(xiàng)指標(biāo),并與只考慮單一因素的評(píng)估方法進(jìn)行比較,如表1所示.從表中可以發(fā)現(xiàn),基于CNN學(xué)習(xí)的方法比根據(jù)單一因素評(píng)估的方法效果好很多,而本文對(duì)Alexnet進(jìn)行改進(jìn)后,效果更加提升.
表1 Color FERET測(cè)試集上的LCC和SROCC
為了驗(yàn)證本文方法能夠提高監(jiān)控視頻中人臉識(shí)別系統(tǒng)識(shí)別率,在自制的監(jiān)控視頻數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).
首先,用訓(xùn)練好的模型評(píng)估監(jiān)控視頻中的人臉圖像質(zhì)量,結(jié)果如圖11所示.雖然整體質(zhì)量分?jǐn)?shù)偏低(這與監(jiān)控視頻中人臉圖像本身質(zhì)量低也是相符的),但依然能對(duì)姿態(tài) (圖 11(a)、(d)、(e)、(f))、清晰度(圖11(a)、(c))、表情(圖11(a)、(b))變化進(jìn)行區(qū)分.另外,由于人臉檢測(cè)算法存在誤差,檢測(cè)出一些非人臉圖像.但是其質(zhì)量分?jǐn)?shù)非常低,可以通過(guò)質(zhì)量分?jǐn)?shù)將其剔除(圖11(g)、(h)).
圖11 監(jiān)控視頻中人臉圖像質(zhì)量評(píng)估結(jié)果
然后,將質(zhì)量評(píng)估模塊加入人臉識(shí)別系統(tǒng)中,簡(jiǎn)單流程圖如圖12所示.先對(duì)監(jiān)控視頻進(jìn)行人臉檢測(cè)及跟蹤,得到同一個(gè)人的一連串人臉圖像,再對(duì)這些人臉圖像進(jìn)行質(zhì)量評(píng)估并由高到低進(jìn)行排名,分別選出其中質(zhì)量排名為1,2,4,8,16以及所有人臉圖像進(jìn)行后續(xù)人臉識(shí)別,識(shí)別準(zhǔn)確率如圖13所示.由圖可看出,對(duì)于改進(jìn)后的Alexnet,當(dāng)選擇質(zhì)量排名為前8的人臉圖像進(jìn)行人臉識(shí)別時(shí),識(shí)別率最高達(dá)到91%.若不進(jìn)行質(zhì)量評(píng)估,而將所有人臉圖像全部用于識(shí)別,識(shí)別率只有64%.從而證明了本文提出的質(zhì)量評(píng)估方法能提高監(jiān)控視頻中人臉識(shí)別準(zhǔn)確率.
圖12 加入質(zhì)量評(píng)估模塊的人臉識(shí)別系統(tǒng)
圖13 選擇不同質(zhì)量排名的人臉圖像進(jìn)行識(shí)別的結(jié)果
本文提出了一種基于CNN的監(jiān)控視頻中人臉圖像質(zhì)量評(píng)估方法.主要有兩點(diǎn): 一是傳統(tǒng)圖像評(píng)估方法大多只考慮到部分因素對(duì)圖像的影響,且融合過(guò)程需人為設(shè)計(jì).本文通過(guò)將Alexnet的中間卷積層與全連接層連接,自動(dòng)融合多尺度特征進(jìn)行圖像質(zhì)量評(píng)估; 二是網(wǎng)絡(luò)訓(xùn)練需要大量帶標(biāo)簽樣本,人工進(jìn)行標(biāo)定耗時(shí)耗力,且標(biāo)定結(jié)果與人的視覺(jué)系統(tǒng)相一致,而脫離了實(shí)際人臉識(shí)別系統(tǒng).因此采用結(jié)合人臉識(shí)別算法的方法自動(dòng)標(biāo)定.實(shí)驗(yàn)證明,本文方法能夠?qū)ψ藨B(tài)、表情、光照、清晰度變化引起的圖像質(zhì)量變化給予準(zhǔn)確的評(píng)估,篩選出高質(zhì)量的人臉圖像,提高識(shí)別準(zhǔn)確率.