張連誼,張亞娜
(中國(guó)傳媒大學(xué)信息與通信工程學(xué)院,北京 100024)
隨著人工智能的市場(chǎng)規(guī)模逐漸擴(kuò)大,據(jù)艾瑞咨詢發(fā)布的《2021年中國(guó)智能產(chǎn)業(yè)研究報(bào)告(IV)》顯示,2021年人工智能的核心規(guī)模估計(jì)達(dá)到1998億元,到2026年,將超過(guò)6000億元[1]。人工智能技術(shù)深刻地改變了人類的生活方式和生產(chǎn)方式,新聞生產(chǎn)與人工智能結(jié)合后推動(dòng)了整體新聞的革新,深刻改寫了技術(shù)與新聞的連接、人類的新聞?wù)J知和新聞使用行為。機(jī)器生產(chǎn)內(nèi)容(Machine Generated Content,MGC),即利用機(jī)器智能生產(chǎn)的新聞,MGC新聞具有成稿件迅速、信息準(zhǔn)確、實(shí)時(shí)監(jiān)測(cè)、技術(shù)交叉等特點(diǎn)。多家媒體機(jī)構(gòu)開發(fā)了生產(chǎn)MGC新聞的智能產(chǎn)品、智能平臺(tái)。2017年,新華社發(fā)布了中國(guó)第一個(gè)媒體人工智能平臺(tái)——“媒體大腦”,并生產(chǎn)了第一條MGC視頻新聞——《新華社發(fā)布國(guó)內(nèi)首條MGC視頻新聞,媒體大腦來(lái)了!》。2020年光明網(wǎng)打造了智能發(fā)稿系統(tǒng),該系統(tǒng)包含稿件收集、內(nèi)容分類、內(nèi)容配圖、多媒體編輯等功能。百度智能云推出了基于百度如流企業(yè)智能工作平臺(tái)的——“智媒平臺(tái)”,期望為媒體行業(yè)打造更貼合傳媒業(yè)務(wù)場(chǎng)景的“新一代媒體工作臺(tái)”。微博綜合采用了自然語(yǔ)言處理、圖像處理、視頻處理、語(yǔ)音識(shí)別等領(lǐng)域的前沿技術(shù),利用“多模態(tài)”智能,構(gòu)建了深度理解媒體內(nèi)容的技術(shù)體系,并在多種應(yīng)用場(chǎng)景中獲得良好效果。
傳統(tǒng)圖文報(bào)道中的新聞配圖通常由攝影記者拍攝,但是攝影記者數(shù)量有限,攝影記者拍攝新聞圖片時(shí)會(huì)受到空間的限制,比如無(wú)法以搖臂攝像機(jī)的視角進(jìn)行拍攝,又或者最佳的正面拍攝機(jī)位已被攝像機(jī)位占據(jù)。此外,攝影記者通常也無(wú)法進(jìn)入演播室內(nèi)工作。由此,在圖文新聞生產(chǎn)中的配圖素材采集環(huán)節(jié),運(yùn)用人工智能技術(shù)直接對(duì)直播視頻流進(jìn)行分析,獲得新聞的配圖能夠有效補(bǔ)充攝影記者的短板,擴(kuò)大新聞配圖的取材范圍。而在新聞配圖中對(duì)于中景、近景和人臉特寫等畫面,人臉的狀態(tài)十分重要。人臉的狀態(tài)判斷包括人臉狀態(tài)美感判斷和人臉表情識(shí)別。其中,人臉狀態(tài)美感判斷任務(wù)是根據(jù)頭部姿態(tài)、面部狀態(tài)、面部遮擋三個(gè)方面挑選狀態(tài)佳的、適合出現(xiàn)在新聞配圖中的“Nice”人臉(如表1所示),盡可能篩除面部狀態(tài)差的人臉(如表2所示)。
表1 “Nice”類的判斷標(biāo)準(zhǔn)
表2 “Unsatisfied”類的判斷標(biāo)準(zhǔn)
對(duì)于人臉表情識(shí)別,目前已有不少的研究成果,Wang[1]等人提出了一種簡(jiǎn)單且高效的自愈網(wǎng)絡(luò)(Self-Cure Network,SCN),該網(wǎng)絡(luò)能夠有效地抑制不確定性,防止深度網(wǎng)絡(luò)對(duì)不確定的人臉圖像進(jìn)行擬合。Li等人[3]提出了一種基于Transformer的MVT(Mask Vision Transformer)模型,該模型由兩個(gè)模塊組成:1)基于Transformer的掩碼生成網(wǎng)絡(luò)能夠生成過(guò)濾復(fù)雜背景和人臉圖像遮擋的掩碼;2)動(dòng)態(tài)重新標(biāo)記模塊能夠糾正數(shù)據(jù)集中不正確的標(biāo)簽。Abdolrashidi等人[4]提出了一種基于注意力的卷積神經(jīng)網(wǎng)絡(luò),利用空間變換模塊(Spatial Transformer Network)學(xué)習(xí)關(guān)注對(duì)表情識(shí)別起到重要作用的面部區(qū)域,從而提高模型的性能。Shi等人[5]提出了一種基于分支交叉連接的卷積神經(jīng)網(wǎng)絡(luò)(MBCC-CNN)識(shí)別人臉表情。MBCC-CNN包括殘差連接、網(wǎng)絡(luò)中的網(wǎng)絡(luò)(Network in Network)和樹形結(jié)構(gòu),網(wǎng)絡(luò)增加了一種快捷的交叉連接,使MBCC-CNN網(wǎng)絡(luò)間的數(shù)據(jù)流更加平滑,提高了模型提取特征的能力。
人臉狀態(tài)美感判斷是一項(xiàng)新的任務(wù),目前未有學(xué)者進(jìn)行研究,因此本文以人臉顏值預(yù)測(cè)(Facial Beauty Prediction,F(xiàn)BP)任務(wù)為參考對(duì)人臉狀態(tài)美感判斷任務(wù)展開研究。兩種任務(wù)具有很多相似的地方,例如都是人臉相關(guān)的分類任務(wù),分類時(shí)都需要考慮面部的狀態(tài)。文獻(xiàn)[6]-[8]通過(guò)多人評(píng)價(jià)的方式,建立人臉顏值預(yù)測(cè)數(shù)據(jù)集。近年來(lái),神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用到圖像、語(yǔ)音等領(lǐng)域,越來(lái)越多的學(xué)者們利用神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)人臉顏值預(yù)測(cè)任務(wù)展開研究。神經(jīng)網(wǎng)絡(luò)中如何利用不同的特征十分重要,文獻(xiàn)[9]提出了一種多尺度的神經(jīng)網(wǎng)絡(luò)模型,模型的輸入在紅色、綠色、藍(lán)色三個(gè)通道的基礎(chǔ)上,引入了亮度通道。甘俊英等人[10]提出了一種將局部二值模式(Local Binary Pattern,LBP)的紋理圖像和原始灰度圖像進(jìn)行通道融合的模型。模型采用1×1卷積操作進(jìn)行通道特征圖的線性組合,實(shí)現(xiàn)跨通道的信息融合。Zhai等人[11]提出了一種基于局部特征融合和寬度學(xué)習(xí)系統(tǒng)(Broad Learning System,BLS)的快速訓(xùn)練方法。Zhai等人[12]提出了一種基于多通道特征融合的遷移學(xué)習(xí)方法,利用數(shù)據(jù)增強(qiáng)方法和遷移學(xué)習(xí)策略來(lái)緩解數(shù)據(jù)不足對(duì)CNN性能的影響。此外,許多學(xué)者利用多任務(wù)學(xué)習(xí)對(duì)人臉顏值預(yù)測(cè)任務(wù)進(jìn)行研究。文獻(xiàn)[13]提出一種具有不同分支的神經(jīng)網(wǎng)絡(luò),將ResNet-18[14]最后的softmax層替換為包含兩個(gè)分支的全連接層,能夠同時(shí)完成分類和回歸任務(wù)。文獻(xiàn)[15]以人臉顏值預(yù)測(cè)為主要任務(wù),性別識(shí)別為輔助任務(wù),采用多任務(wù)減權(quán)自動(dòng)學(xué)習(xí)策略來(lái)提高FBP的性能。文獻(xiàn)利用隨機(jī)森林代替softmax分類器,在SCUT-FBP5500數(shù)據(jù)集上的皮爾遜相關(guān)系數(shù)達(dá)到0.8996。
通過(guò)以上調(diào)研發(fā)現(xiàn)人臉狀態(tài)判斷任務(wù)存在以下挑戰(zhàn):1)對(duì)于人臉狀態(tài)美感判斷任務(wù),需要明晰對(duì)人臉狀態(tài)美感的定義并構(gòu)建相應(yīng)的判斷標(biāo)準(zhǔn)。目前就人臉狀態(tài)美感判斷任務(wù),缺少一個(gè)一致、可靠、客觀的數(shù)據(jù)集,導(dǎo)致無(wú)法完成該任務(wù)的相關(guān)算法和實(shí)現(xiàn)方法的研究;2)如何抽象人臉狀態(tài)美感判斷和人臉表情識(shí)別所需的共識(shí)特征,并構(gòu)建多任務(wù)分類網(wǎng)絡(luò)模型本文要解決的核心和關(guān)鍵所在;3)如何根據(jù)不同任務(wù)的數(shù)據(jù)集特點(diǎn)使用合適的多任務(wù)訓(xùn)練方法是應(yīng)用多任務(wù)學(xué)習(xí)的難點(diǎn)。多任務(wù)學(xué)習(xí)基于共享表示,注重任務(wù)之間的相關(guān)性,通過(guò)并行學(xué)習(xí)改善單個(gè)任務(wù)的性能。不同任務(wù)數(shù)據(jù)集的數(shù)量參差不齊,如何對(duì)多任務(wù)學(xué)習(xí)模型進(jìn)行訓(xùn)練是具有挑戰(zhàn)性的問(wèn)題。
本文針對(duì)以上挑戰(zhàn),做出了如下貢獻(xiàn):
1)通過(guò)制定判斷標(biāo)準(zhǔn)、多人主觀評(píng)價(jià)、數(shù)據(jù)清洗和處理的方式首次構(gòu)建了人臉狀態(tài)美感判斷的數(shù)據(jù)集,數(shù)據(jù)集包括“Nice”類的圖片4729張,“Unsatisfied”類的圖片4806張,男女比例均衡,人種膚色包括黃種人、白種人、極少量棕種人和極少量黑種人,年齡在10-70歲之間。
2)以ResNet-18為基礎(chǔ),提出了新的多任務(wù)CNN模型(Multi-Task Learning and Attention Net,MA-Net),模型可分為特征共享和特定任務(wù)2個(gè)部分,其中特征共享的特征提取部分通過(guò)1個(gè)卷積層和3個(gè)殘差塊提取共同特征,特征共享的自注意力機(jī)制部分能夠?qū)W習(xí)利用共同特征中更加重要的特征,特定任務(wù)部分通過(guò)兩個(gè)分支學(xué)習(xí)不同參數(shù)以完成人臉狀態(tài)美感判斷和表情識(shí)別雙重任務(wù)。
3)提出了交替-聯(lián)合訓(xùn)練方法,使得MA-Net能夠在兩種不同的數(shù)據(jù)集上有效的進(jìn)行訓(xùn)練,解決了由于不同任務(wù)數(shù)據(jù)集數(shù)據(jù)量參差不齊,可能導(dǎo)致模型在一種任務(wù)下的準(zhǔn)確率較高,在另一種任務(wù)下的準(zhǔn)確率較低的問(wèn)題。
對(duì)于神經(jīng)網(wǎng)絡(luò),不同層提取的特征不同,同一層的不同通道的特征也是不同的,有些特征會(huì)對(duì)判斷的結(jié)果影響很大,訓(xùn)練模型使之學(xué)會(huì)利用貢獻(xiàn)較大的特征進(jìn)行分類是十分重要的。和基于單任務(wù)學(xué)習(xí)的模型相比,基于多任務(wù)學(xué)習(xí)的模型的優(yōu)勢(shì)包括:1)多個(gè)任務(wù)共享特征提取部分的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),不僅在訓(xùn)練時(shí)的內(nèi)存占用少,還有效避免了重復(fù)計(jì)算一種特征,從而提高了模型的訓(xùn)練效率;2)基于多任務(wù)學(xué)習(xí)的模型通過(guò)多種任務(wù)的學(xué)習(xí),相當(dāng)于一種數(shù)據(jù)增強(qiáng),能學(xué)習(xí)相關(guān)任務(wù)的共同特征,從而提高模型預(yù)測(cè)準(zhǔn)確率?;谝陨侠碚摚疚脑赗esNet-18[14]的基礎(chǔ)上,構(gòu)建了新的模型MA-Net,實(shí)現(xiàn)了人臉狀態(tài)美感判斷和人臉表情識(shí)別雙重任務(wù)。如圖1所示,MA-Net采用硬參數(shù)共享機(jī)制,主要分為特征共享、特定任務(wù)兩個(gè)部分。兩種任務(wù)共享了特征共享部分的特征,特定任務(wù)部分包含兩個(gè)分支,不同分支學(xué)習(xí)到不同的參數(shù)用于完成不同任務(wù)。
圖1 MA-Net模型的結(jié)構(gòu)圖
特征共享部分,通過(guò)模型訓(xùn)練學(xué)習(xí)可用于人臉狀態(tài)美感判斷和人臉表情識(shí)別兩種任務(wù)的通用特征。特征共享部分包括特征提取、多頭自注意力機(jī)制兩個(gè)部分。特征提取部分包含1個(gè)卷積層C1、1個(gè)殘差塊Ra、2個(gè)殘差塊Rb,殘差塊源自ResNet18[14]。神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程,本質(zhì)上是通過(guò)優(yōu)化權(quán)重,得到輸入和輸出的正確映射。神經(jīng)網(wǎng)絡(luò)的性能與網(wǎng)絡(luò)深度有關(guān),理論上,CNN的層數(shù)越多,提取的特征更加復(fù)雜、抽象,越具有語(yǔ)義信息,越有利于提高模型的性能。但是,在實(shí)際訓(xùn)練過(guò)程中,當(dāng)網(wǎng)絡(luò)層數(shù)的增加到一定數(shù)量時(shí),梯度信息在返回時(shí)很小,當(dāng)梯度信息傳遞到前幾層時(shí),梯度值極小,甚至可能為0,從而導(dǎo)致CNN無(wú)法根據(jù)梯度信息進(jìn)行訓(xùn)練,此現(xiàn)象被稱為梯度消失。和淺層CNN相比,深層CNN的性能反而會(huì)下降,出現(xiàn)了網(wǎng)絡(luò)退化現(xiàn)象。ResNet通過(guò)引入殘差映射,在不產(chǎn)生額外參數(shù)和不增加計(jì)算復(fù)雜度的同時(shí),增大了CNN的前幾層的梯度信息,更加容易優(yōu)化,從而解決了梯度消失的問(wèn)題。經(jīng)過(guò)進(jìn)一步優(yōu)化的ResNet在上千層時(shí)仍然具有很好的表現(xiàn),是一種常用的特征提取網(wǎng)絡(luò)。
殘差塊Ra的結(jié)構(gòu)如圖2(a)所示,由兩個(gè)相同的子塊串聯(lián)而成,每個(gè)子塊含有2個(gè)卷積層、2個(gè)批量歸一化(Batch Normalization,BN)層和1個(gè)線性整流函數(shù)(Rectified Linear Unit,ReLU)層。如圖2(b)所示,殘差塊Rb在分支上加入了1個(gè)卷積層和1個(gè)BN層,殘差塊的卷積層采用了3×3大小的卷積核,BN層的作用是改變輸入、輸出特征的通道數(shù),即調(diào)整輸出的特征圖的數(shù)量。BN層對(duì)輸入數(shù)據(jù)或特征進(jìn)行歸一化,使得其符合標(biāo)準(zhǔn)正態(tài)分布,從而加速神經(jīng)網(wǎng)絡(luò)的收斂速度、防止梯度消失和過(guò)擬合。ReLU是神經(jīng)網(wǎng)絡(luò)中最常用的激活函數(shù),只有加、乘和比較操作,計(jì)算高效,能夠加快訓(xùn)練速度、緩和梯度消失。殘差塊不是直接學(xué)習(xí)理想映射f(x),而是利用圖2(a)虛線框部分學(xué)習(xí)殘差映射f(x)-x,仍可以使用梯度下降法進(jìn)行訓(xùn)練。殘差映射在實(shí)際訓(xùn)練過(guò)程中的優(yōu)化速度更快,輸入數(shù)據(jù)可在跨層的藍(lán)色路線更快的向前傳播。此外,殘差塊能幫助CNN更加關(guān)注細(xì)微的特征變化,更有效的更新網(wǎng)絡(luò)權(quán)重,從而提升模型的性能。
圖2 兩種殘差塊的示意圖[14]
如圖3所示,MA-Net通過(guò)多頭自注意力機(jī)制,對(duì)特征提取部分后的不同特征圖賦予不同權(quán)重,并融合為新的特征。本文只在特征提取部分后引入多頭自注意力機(jī)制,具有如下優(yōu)點(diǎn):
圖3 MA-Net的多頭自注意力機(jī)制模塊
1)由于特征提取部分輸出的特征圖尺度較小,對(duì)其應(yīng)用多頭自注意力機(jī)制能有效降低模型的計(jì)算量,提高了模型的計(jì)算速度。
2)卷積神經(jīng)網(wǎng)絡(luò)在底層只會(huì)學(xué)到簡(jiǎn)單的特征,隨著層數(shù)增加,深層的特征會(huì)更加復(fù)雜、抽象,這種特征是更高級(jí)、對(duì)模型更有意義的特征。因此和底層應(yīng)用多頭自注意力機(jī)制相比,在特征提取部分后應(yīng)用會(huì)更加有效。
最后需要將多頭注意力機(jī)制得到的多個(gè)一維特征轉(zhuǎn)換為多個(gè)二維的特征圖。
使用具有一定相關(guān)性的任務(wù)訓(xùn)練模型,硬參數(shù)共享機(jī)制可達(dá)到較好的效果。對(duì)于人臉狀態(tài)美感判斷任務(wù),判斷的依據(jù)主要是眼睛、嘴巴的開合狀態(tài)。對(duì)于人臉表情識(shí)別任務(wù),判斷的依據(jù)同樣是眼睛、嘴巴的狀態(tài),這兩種任務(wù)具有很強(qiáng)的相關(guān)性,適用于硬參數(shù)共享機(jī)制。特定任務(wù)部分包含兩個(gè)支路(人臉狀態(tài)美感判斷支路和人臉表情識(shí)別支路),分別用于人臉狀態(tài)美感判斷任務(wù)和人臉表情識(shí)別任務(wù)。如圖1所示,每個(gè)支路包含1個(gè)殘差塊Rb、1個(gè)自適應(yīng)平均池化層A1、全連接層F1。每個(gè)支路都利用了特征共享部分提取的通用特征,然后利用特定任務(wù)的模塊學(xué)習(xí)特定的參數(shù)以完成不同的任務(wù),降低小數(shù)據(jù)集過(guò)擬合的風(fēng)險(xiǎn)。人臉狀態(tài)美感判斷是2分類任務(wù),F(xiàn)1層包含2個(gè)神經(jīng)元;人臉表情識(shí)別是8分類任務(wù),F(xiàn)1層包含8個(gè)神經(jīng)元。
訓(xùn)練多任務(wù)學(xué)習(xí)的模型時(shí)通常采用交替訓(xùn)練方法或聯(lián)合訓(xùn)練方法[16]。交替訓(xùn)練方法適用于所有任務(wù)的數(shù)據(jù)集相互獨(dú)立的情況,訓(xùn)練時(shí)首先輸入不同任務(wù)的樣本,然后交替收斂不同任務(wù)的損失。交替訓(xùn)練方法要求不同任務(wù)的訓(xùn)練樣本數(shù)量接近,否則模型會(huì)在訓(xùn)練樣本數(shù)量較大的任務(wù)上的效果較好,在其他任務(wù)上效果較差。聯(lián)合訓(xùn)練方法適用于同一數(shù)據(jù)具有多個(gè)標(biāo)簽的情況,訓(xùn)練時(shí)將每個(gè)任務(wù)的損失相加,最后共同優(yōu)化。本文采用的人臉狀態(tài)美感判斷數(shù)據(jù)集的訓(xùn)練集包含圖片6674張,人臉表情識(shí)別數(shù)據(jù)集FER2013Plus-Classified的訓(xùn)練集包含圖片27190張。鑒于兩種任務(wù)的數(shù)據(jù)不同并且數(shù)據(jù)量相差較大,不適用于以上兩種訓(xùn)練方法,因此本文提出了交替-聯(lián)合訓(xùn)練方法,利用公式(3)和公式(4)計(jì)算兩種任務(wù)的損失之和Lossmtl進(jìn)行優(yōu)化,在一個(gè)批次中分別對(duì)不同的任務(wù)優(yōu)化一次,具體的訓(xùn)練步驟如下:
1)根據(jù)每個(gè)任務(wù)的訓(xùn)練樣本數(shù)量,計(jì)算兩個(gè)任務(wù)的batch-size,保證每個(gè)epoch中每個(gè)任務(wù)的訓(xùn)練次數(shù)是相同,模型針對(duì)每個(gè)任務(wù)進(jìn)行優(yōu)化的次數(shù)是相同。
2)交替輸入不同任務(wù)的樣本。
3)使用交叉熵?fù)p失函數(shù)分別計(jì)算人臉狀態(tài)美感判斷任務(wù)的損失Loss1和人臉表情識(shí)別任務(wù)的損失Loss2。交叉熵?fù)p失函數(shù)如公式(3)所示,m代表樣本的數(shù)量,n代表標(biāo)簽的數(shù)量,yij是一個(gè)符號(hào)函數(shù),當(dāng)樣本的真實(shí)標(biāo)簽和模型預(yù)測(cè)的標(biāo)簽相同時(shí),yij為1,否則為0,pj為模型預(yù)測(cè)樣本i為類別j的概率。
最后,將 Loss1、Loss2乘以權(quán)重系數(shù) w1、w2相加得到聯(lián)合損失Lossmtl,其中w1+w2=1。由于兩種任務(wù)同樣重要,因此w1和w1都設(shè)置為0.5。
本實(shí)驗(yàn)的操作系統(tǒng)為Ubuntu 18.04.6 LTS;CPU:Intel(R)Xeon(R)CPU E5-2620 v4@,主頻2.10GHz;GPU:GTX 1080,顯存為11GB。
本文通過(guò)收集互聯(lián)網(wǎng)以及各種直播的人臉圖像,再經(jīng)過(guò)多人評(píng)價(jià)的方式構(gòu)建了人臉狀態(tài)美感判斷數(shù)據(jù)集。如圖4所示,數(shù)據(jù)集包含適合出現(xiàn)在配圖中的“Nice”類人臉4729張,不適合出現(xiàn)在配圖中的“Unsatisfied”類人臉4806張,其特點(diǎn)如下:
圖4 人臉狀態(tài)美感判斷數(shù)據(jù)集
1)人臉狀態(tài)美感判斷數(shù)據(jù)集不限制種族、性別和年齡,這樣的數(shù)據(jù)有利于訓(xùn)練出適用于不同年齡、性別的模型,數(shù)據(jù)集訓(xùn)練出的模型的應(yīng)用范圍更廣。
2)不同類別的圖片和人的顏值沒(méi)有相關(guān)性,不會(huì)因?yàn)槟贻p、皮膚好而不考慮五官的狀態(tài)。不會(huì)將顏值高的全部作為“Nice”類,顏值較低的普通人也不會(huì)全部作為“Unsatisfied”類。“Nice”和“Unsatisfied”的區(qū)別主要在于眼睛睜開的狀態(tài)、嘴巴張開的狀態(tài)、頭部的姿態(tài)和面部遮擋情況。
如圖5所示,本文使用的人臉表情識(shí)別數(shù)據(jù)集FER2013Plus-Classified來(lái)源于Kaggle人臉表情識(shí)別挑戰(zhàn)賽中的FER2013Plus人臉表情識(shí)別數(shù)據(jù)集。FER2013Plus包含高興、憤怒、悲傷、中性、恐懼、驚訝、厭惡、輕蔑、未知和無(wú)人臉等標(biāo)簽。本文去掉了FER2013Plus中的未知和無(wú)人臉的圖片,得到包含高興、憤怒、悲傷、中性、恐懼、驚訝、厭惡、輕蔑8種表情標(biāo)簽的FER2013Plus-Classified數(shù)據(jù)集。FER2013Plus-Classified的訓(xùn)練集包含圖片27190張,測(cè)試集包含圖片3414張。
圖5 人臉表情識(shí)別數(shù)據(jù)集FER2013Plus-Classified
如表 3 所示,AlexNet[17]在“Nice”類的精確率達(dá)到94.31%,平均準(zhǔn)確率達(dá)到了96.15%;在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)中,ResNet-18對(duì)“Nice”類的精確率是最高的,達(dá)到了97.51%,并且準(zhǔn)確率也是最高的,達(dá)到了97.13%,因此本文選擇在ResNet-18的基礎(chǔ)上進(jìn)行研究;和ResNet-18相比,MA-Net在“Nice”類的精確率提高了1.23%,召回率提高了2.68%,“Unsatisfied”類的精確率提高了2.75%,召回率提高了1.18%,準(zhǔn)確率提高了1.961%,表明MA-Net在人臉狀態(tài)美感判斷任務(wù)的優(yōu)越性。
表3 經(jīng)典神經(jīng)網(wǎng)絡(luò)和MA-Net在人臉狀態(tài)美感判斷數(shù)據(jù)集性能
為了驗(yàn)證交替-聯(lián)合訓(xùn)練方法的有效性,本文將交替訓(xùn)練方法、交替-聯(lián)合訓(xùn)練方法的MA-Net進(jìn)行對(duì)比。如表4所示,和交替訓(xùn)練方法的MA-Net相比,使用交替-聯(lián)合訓(xùn)練方法的MA-Net,雖然對(duì)于“Unsatisfied”類的精確率和“Nice”類的召回率持平,但是在“Nice”類的精確率和“Unsatisfied”類的召回率分別提高了3.15%和3.26%。在實(shí)際應(yīng)用過(guò)程中,希望模型預(yù)測(cè)的“Nice”類圖片中,真正的“Nice”越多越好,即對(duì)“Nice”類的精確率高;對(duì)于所有的“Unsatisfied”類圖片,模型挑選出的“Unsatisfied”類圖片越多越好,即對(duì)“Unsatisfied”類的召回率高,因此MA-Net具有更高的應(yīng)用價(jià)值。此外,交替-聯(lián)合訓(xùn)練方法的MA-Net的準(zhǔn)確率提高了1.608%。因此,本文提出的交替-聯(lián)合訓(xùn)練方法比交替訓(xùn)練方法更有效。
表4 不同訓(xùn)練方法的MA-Net在人臉狀態(tài)美感判斷數(shù)據(jù)集的性能
為了驗(yàn)證MA-Net在人臉表情識(shí)別任務(wù)的有效性,本文將其和 SCN[1]在FER2013Plus-Classfied數(shù)據(jù)集上的準(zhǔn)確率和精確率進(jìn)行對(duì)比。SCN通過(guò)小批量的自注意力機(jī)制、正則化和重新標(biāo)注機(jī)制抑制不確定性,防止網(wǎng)絡(luò)對(duì)某些圖像的過(guò)擬合。本文將SCN在FER2013Plus-Classified數(shù)據(jù)集上重新訓(xùn)練、測(cè)試。兩種算法的性能如表5所示,和SCN相比,MA-Net準(zhǔn)確率更高,達(dá)到了89.01%,高于SCN模型4.36%。另外,MA-Net在識(shí)別憤怒、輕蔑、厭惡、開心、中性、驚訝類具有很明顯的優(yōu)勢(shì),識(shí)別輕蔑表情的精確率達(dá)到100%。這得益于多任務(wù)學(xué)習(xí)和自注意力機(jī)制的共同作用,因此證明了基于多任務(wù)學(xué)習(xí)的MA-Net的有效性。
表5 人臉表情識(shí)別性能對(duì)比
利用人工智能相關(guān)算法從直播視頻流中智能選擇配圖能夠有效擴(kuò)展圖文新聞的配圖來(lái)源渠道。本文面向中景、近景和人臉特寫等畫面,研究了人臉狀態(tài)的美感判斷標(biāo)準(zhǔn)問(wèn)題,設(shè)計(jì)了基于自注意力機(jī)制的共享特征網(wǎng)絡(luò),通過(guò)交替-聯(lián)合訓(xùn)練方法實(shí)現(xiàn)了人臉狀態(tài)美感判斷任務(wù)和人臉表情識(shí)別雙重任務(wù)。實(shí)驗(yàn)證明,本文所提出的模型在人臉狀態(tài)美感判斷數(shù)據(jù)集上的準(zhǔn)確率達(dá)到99.091%,在人臉表情識(shí)別數(shù)據(jù)集的準(zhǔn)確率達(dá)到89.01%。后續(xù)研究將對(duì)表情識(shí)別分類網(wǎng)絡(luò)進(jìn)一步深入分析,尤其對(duì)恐懼和悲傷兩種表情的判定進(jìn)行問(wèn)題解析,以期提高整體表情識(shí)別的準(zhǔn)確率。