劉勇
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都510065)
愛(ài)美之心,人皆有之,古往今來(lái),不管歷史怎么變化,社會(huì)怎么發(fā)展,人們從未停止對(duì)人臉美麗的探索,早在先秦時(shí)期,詩(shī)經(jīng)中就有很多反映出當(dāng)時(shí)人們對(duì)美的追求,如《碩人》一篇是贊美衛(wèi)莊公夫人莊姜的詩(shī),開(kāi)篇即道:“碩人其頎”,其對(duì)容貌美的形容也為后人熟知,“手如柔荑,膚如凝脂,領(lǐng)如蝤蠐,齒如瓠犀,螓首蛾眉,巧笑倩兮,美目盼兮”。
隨著數(shù)字圖像技術(shù)、人工智能的發(fā)展,很多領(lǐng)域在人工智能的推動(dòng)下蓬勃發(fā)展,人工智能技術(shù)無(wú)論是在過(guò)去、現(xiàn)在還是將來(lái),都作為科學(xué)研究的熱點(diǎn)問(wèn)題之一。人類(lèi)對(duì)自己本身的秘密充滿好奇,隨著生物技術(shù)的飛速發(fā)展,人類(lèi)不斷破譯人體的生命密碼。而以生物科學(xué)為基礎(chǔ)的人工智能技術(shù)也得到了長(zhǎng)足的發(fā)展。人們希望通過(guò)某種技術(shù)或者某些途徑能夠創(chuàng)造出模擬人思維和行為的“替代品”,幫助人們從事某些領(lǐng)域的工作。由于機(jī)器可以通過(guò)樣本學(xué)習(xí)的方式學(xué)習(xí)到隱藏的標(biāo)準(zhǔn)規(guī)則,人臉肯定有一些特征是關(guān)于美麗的,也就是“人臉美麗密碼”。那么是用機(jī)器學(xué)習(xí)技術(shù)來(lái)人工嘗試從機(jī)器的視角輔助人們尋找人臉美的共性,為人臉美麗評(píng)估提供一個(gè)較為客觀的標(biāo)準(zhǔn)也成為可能。
Gunes H 等人[1]結(jié)合醫(yī)學(xué)研究成果“黃金比例”和“三庭”,在215 張圖像上提取了相關(guān)的幾何特征,使用C4.5 決策樹(shù)訓(xùn)練預(yù)測(cè)器,將圖像分為5 個(gè)美麗等級(jí),取得了較好的效果。毛慧蕓等人[2]使用了特征三角中心采樣Gabor 特征和特征點(diǎn)采樣Gabor 特征作為紋理特征提取方法,使用支持向量機(jī)進(jìn)行預(yù)測(cè),取得了不錯(cuò)的成績(jī)。近年來(lái),深度學(xué)習(xí)進(jìn)入高速發(fā)展時(shí)期,在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、自然語(yǔ)言處理領(lǐng)域都取得了突破性進(jìn)展,眾多研究都說(shuō)明了深度學(xué)習(xí)、CNN(卷積神經(jīng)網(wǎng)絡(luò))在圖像處理領(lǐng)域的巨大優(yōu)勢(shì)和潛能,深度學(xué)習(xí)技術(shù)為人臉美麗預(yù)測(cè)問(wèn)題提供了新的解決方法。CNN 在人臉美麗預(yù)測(cè)中研究不是很多。2015 年Xie D 等人開(kāi)源了一個(gè)名為SCUT-FBP 的人臉美麗數(shù)據(jù)集[3],包含了500張亞洲女性高分辨率的面部圖像,他們使用了傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法做了對(duì)比,使用幾何特征和紋理特征相結(jié)合的模型皮爾遜相關(guān)系數(shù)為0.6482。而使用CNN 模型的皮爾遜相關(guān)系數(shù)為0.8187。顯然,深度學(xué)習(xí)在人臉美麗預(yù)測(cè)上有更大的優(yōu)勢(shì)。Xu J 等人[4]在認(rèn)知心理的啟示下提出了用WLS濾波器和人臉圖層分解技術(shù)提取WLS-detail 和WLSlighting 特征,構(gòu)造了PI-CNN 的深層卷積網(wǎng)絡(luò)結(jié)合原始RGB 通道級(jí)聯(lián)微調(diào),最終在SCUT-FBP 數(shù)據(jù)集上達(dá)到了0.83 的皮爾遜相關(guān)系數(shù)。而近期Liu S 等人[5]使用幾種ImageNet 上預(yù)訓(xùn)練的CNN 模型:VGG18、ResNet-50、ResNet-101 等進(jìn)行實(shí)驗(yàn),其中ResNet-50最高取得了0.87 的相關(guān)系數(shù)。
SCUT-FBT 是由華南理工大學(xué)人機(jī)智能交互實(shí)驗(yàn)室的Duorui Xie 等人于2015 年發(fā)布的人類(lèi)美麗數(shù)據(jù)庫(kù)[3]。SCUT-FBT 包含共500 張亞洲女性人臉圖像,未排除其他外部因素影響,本數(shù)據(jù)集圖片都是沒(méi)有遮擋得正面面部肖像,背景比較簡(jiǎn)單。數(shù)據(jù)集包含每張圖像的平均得分,每張人臉圖像經(jīng)過(guò)約75 位志愿者打分并統(tǒng)計(jì)平均值,圖1 是整個(gè)數(shù)據(jù)集的人臉美麗分?jǐn)?shù)的大致分布??梢钥闯鋈四樏利惖姆?jǐn)?shù)大致服從正態(tài)分布,即極端美麗級(jí)別的人臉比較少,大部分人臉得分處于正常美麗級(jí)別。值得說(shuō)明的是該數(shù)據(jù)集增加了美麗級(jí)別為4-5 分的樣本數(shù)量。
圖1 SCUT-FBT數(shù)據(jù)庫(kù)簡(jiǎn)介
在進(jìn)行實(shí)驗(yàn)之前,首先需要對(duì)輸入圖像做一系列預(yù)處理操作。由于數(shù)據(jù)集上人臉圖像尺寸大小和姿勢(shì)都不一致,為了方便之后的模型學(xué)習(xí),提高模型的泛化能力。通過(guò)對(duì)圖像進(jìn)行旋轉(zhuǎn)、縮放等操作,將人臉圖像歸一化成為尺寸一致、人臉在圖像中所占比例大致一致的圖像[6]。對(duì)人臉圖像進(jìn)行歸一化操作之前,首先需要進(jìn)行圖像中人臉的檢測(cè)和人臉關(guān)鍵特征點(diǎn)定位,本文使用ASM 算法[7]進(jìn)行人臉68 個(gè)特征點(diǎn)的定位。
先求得兩眼的連線中點(diǎn)和嘴角連線中點(diǎn)的直線,計(jì)算其與Y 軸的夾角,將人臉進(jìn)行旋轉(zhuǎn)歸一化。然后將兩眼的連線中點(diǎn)和嘴角連線中點(diǎn)的距離固定為90,兩眼的連線中點(diǎn)與圖像頂端距離固定為67,嘴角連線中點(diǎn)與圖像底端距離固定為67,得到歸一化后的尺寸為224×224 大小的圖像。
圖2 圖像預(yù)處理過(guò)程
目前基本上所有基于深度學(xué)習(xí)的人臉美麗預(yù)測(cè)回歸模型回歸預(yù)測(cè)層都使用了同一種方法,即在全連接層之后直接連接一個(gè)神經(jīng)元,如圖3 所示,該網(wǎng)絡(luò)前面可連接卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器,然后將特征輸入通過(guò)全連接層,將特征進(jìn)行重組成更高層次的特征,最后連接在最后一個(gè)節(jié)點(diǎn)上。這樣的直觀感受就是每個(gè)節(jié)點(diǎn)的特征值都會(huì)對(duì)最終得分產(chǎn)生或正面或負(fù)面的影響,具體影響取決于該節(jié)點(diǎn)與預(yù)測(cè)分?jǐn)?shù)節(jié)點(diǎn)連接的權(quán)值,如果權(quán)值為正,則說(shuō)明該特征會(huì)給人臉美麗“加分”,同理權(quán)值為負(fù),則說(shuō)明該特征會(huì)給人臉美麗“減分”,其絕對(duì)值越大說(shuō)明影響程度更大。這種網(wǎng)絡(luò)可解釋性較好,據(jù)分析可知它更傾向于找到每個(gè)人的美麗加分或減分點(diǎn)。本文將傳統(tǒng)的回歸預(yù)測(cè)層稱(chēng)為傳統(tǒng)回歸層,圖3 為傳統(tǒng)回歸層示意圖。
圖3 傳統(tǒng)回歸層示意圖
這種連接方式也有一些缺陷,如由于缺乏約束它的分?jǐn)?shù)預(yù)測(cè)值理論上可以超出1-5 這個(gè)范圍內(nèi),這種回歸連接方式收斂過(guò)程中Loss 值抖動(dòng)比較大。本文提出一種新的回歸預(yù)測(cè)層的思路,該思路受分類(lèi)網(wǎng)絡(luò)啟發(fā),讓網(wǎng)絡(luò)學(xué)習(xí)人臉屬于各美麗級(jí)別的概率,再通過(guò)求數(shù)學(xué)期望的方式得出最后得分,這也正是SCUT-FBP數(shù)據(jù)集標(biāo)簽的生成方式,顯然通過(guò)學(xué)習(xí)人臉美麗級(jí)別的分布更符和問(wèn)題的本質(zhì)。本文將新提出的回歸預(yù)測(cè)層稱(chēng)為概率分布回歸層,圖4 為概率分布回歸層示意圖。
圖4 概率分布回歸層示意圖
概率分布回歸層在傳統(tǒng)回歸層的最后一個(gè)全連接層之間加入了5 個(gè)隱藏節(jié)點(diǎn),并使用了Softmax 函數(shù)進(jìn)行了歸一化處理,這五個(gè)節(jié)點(diǎn)值可以表示輸入圖像在五種美麗級(jí)別上的概率分布,本文用P=[p1,p2,p3,p4,p5]表示,然后通過(guò)一個(gè)特殊全連接層連接到美麗預(yù)測(cè)分?jǐn)?shù)節(jié)點(diǎn),該特殊全連接層本文定義為映射層。映射層參數(shù)w=[1 ,2 ,3,4,5],b=0。在網(wǎng)絡(luò)訓(xùn)練和測(cè)試過(guò)程中,需要將映射層的參數(shù)凍結(jié),不進(jìn)行參數(shù)的更新。概率分布回歸層的損失函數(shù)為求解期望美麗分值和真實(shí)美麗分值之間的均方誤差,其中美麗分?jǐn)?shù)期望可以表示為P?w。下面本文通過(guò)對(duì)比實(shí)驗(yàn)來(lái)比較概率分布回歸層和原始回歸層的性能表現(xiàn)。
為了比較兩種回歸層的預(yù)測(cè)性能,本文使用了圖5所示的相同的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),本文將使用傳統(tǒng)回歸層的網(wǎng)絡(luò)稱(chēng)為L(zhǎng)CNN-reg,將使用概率分布回歸層的網(wǎng)絡(luò)稱(chēng)為L(zhǎng)CNN-cr,并將兩種網(wǎng)絡(luò)結(jié)構(gòu)在SCUT-FBP數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。
本文對(duì)比實(shí)驗(yàn)的實(shí)驗(yàn)步驟主要分為以下幾部分:
(1)將SCUT-FBP 數(shù)據(jù)集圖片進(jìn)行數(shù)據(jù)預(yù)處理,得到標(biāo)準(zhǔn)的圖片。
(2)載入深度學(xué)習(xí)網(wǎng)絡(luò)模型及數(shù)據(jù)樣本,將數(shù)據(jù)集進(jìn)行5 折劃分,配置對(duì)應(yīng)超參數(shù),開(kāi)始訓(xùn)練。
(3)在每一折訓(xùn)練中,在訓(xùn)練集上進(jìn)行訓(xùn)練,過(guò)程每輪迭代完之后對(duì)驗(yàn)證集圖片進(jìn)行預(yù)測(cè)得到模型預(yù)測(cè)序列,與真實(shí)標(biāo)簽序列計(jì)算皮爾遜相關(guān)系數(shù)并記錄歷史相關(guān)系數(shù)的最大值。當(dāng)達(dá)到預(yù)設(shè)的迭代次數(shù)或滿足EarlyStop 的條件時(shí)結(jié)束訓(xùn)練,直到五次訓(xùn)練完成。
本文對(duì)LCNN-reg 和LCNN-cr 配置相同的網(wǎng)絡(luò)超參數(shù),分別進(jìn)行上述實(shí)驗(yàn)過(guò)程。學(xué)習(xí)率為0.0001,優(yōu)化算法使用Adam 算法,本實(shí)驗(yàn)使用了EarlyStop 策略,當(dāng)驗(yàn)證集Loss 在60 次迭代中沒(méi)有下降則停止訓(xùn)練過(guò)程。實(shí)驗(yàn)同時(shí)使用了學(xué)習(xí)率衰減策略,當(dāng)驗(yàn)證集Loss在20 次迭代中沒(méi)有下降則將當(dāng)前學(xué)習(xí)率乘以0.5。
圖5 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
單折數(shù)據(jù)上兩種網(wǎng)絡(luò)的訓(xùn)練情況如圖6 所示,左邊為L(zhǎng)CNN-reg 網(wǎng)絡(luò)的Loss 曲線,右邊為L(zhǎng)CNN-cr 網(wǎng)絡(luò)的Loss 曲線。
圖6 兩種網(wǎng)絡(luò)的Loss曲線圖
可以看出,在同樣的網(wǎng)絡(luò)超參數(shù)配置下,LCNN-cr大概在90 次迭代后收斂,而LCNN-reg 則需要大概130 次迭代收斂。相比于LCNN-reg 的Loss 下降曲線,很明顯可以看出LCNN-cr 的Loss 下降曲線非常平穩(wěn),這說(shuō)明LCNN-cr 更容易收斂至最優(yōu)點(diǎn)附近,網(wǎng)絡(luò)結(jié)構(gòu)比LCNN-reg 更穩(wěn)定。兩種網(wǎng)絡(luò)的五折交叉驗(yàn)證平均系數(shù)如表1 所示。
表1 實(shí)驗(yàn)結(jié)果
可以看出,LCNN-reg 的五折交叉驗(yàn)證平均系數(shù)為0.8374,而LCNN-cr 的五折交叉驗(yàn)證平均系數(shù)為0.8492。提升效果非常明顯。
根據(jù)實(shí)驗(yàn)結(jié)果,本文總結(jié)出概率分布回歸層相比傳統(tǒng)回歸層的幾個(gè)優(yōu)勢(shì):
(1)同樣的網(wǎng)絡(luò)參數(shù)配置下,相比于傳統(tǒng)回歸層,概率分布回歸層有更快的收斂速度和更高的精度。
(2)從概率分布回歸層的結(jié)構(gòu)可以看出,最后輸出的預(yù)測(cè)分?jǐn)?shù)的范圍限制在1-5 之間,相比沒(méi)有輸出約束的傳統(tǒng)回歸層,它的分?jǐn)?shù)表示更加科學(xué)合理。
(3)概率分布回歸層綜合了分類(lèi)和回歸的優(yōu)點(diǎn),一次訓(xùn)練得到兩種網(wǎng)絡(luò)的效果,不僅可以輸出人臉的最后得分,還可以輸出隱藏層的各個(gè)美麗級(jí)別的概率,可解釋性較強(qiáng)。
本文提出了一種針對(duì)深度學(xué)習(xí)人臉美麗回歸預(yù)測(cè)的新的概率分布回歸層結(jié)構(gòu),綜合實(shí)驗(yàn)證明,本文提出的概率分布回歸層在深度學(xué)習(xí)人臉美麗回歸預(yù)測(cè)任務(wù)中相比傳統(tǒng)回歸預(yù)測(cè)層有幾個(gè)顯著的優(yōu)點(diǎn),在深度學(xué)習(xí)回歸網(wǎng)絡(luò)中使用概率分布回歸層替換掉傳統(tǒng)回歸層可以提高模型性能和模型的可解釋性。