董柏巖,李熹橋,金鑫
(北京電子科技學(xué)院,北京 100070)
圖像美學(xué)質(zhì)量評價是利用計算機模擬人類對美的感知與認知,自動評價圖像的“美感”,分析圖像在構(gòu)圖、顏色、光影、景深、虛實等美學(xué)因素影響下所形成的美感刺激[1]。最初的研究基于人工設(shè)計的美學(xué)特征,通過設(shè)計的視覺特征,擬合人類對圖像美學(xué)質(zhì)量的評價,進行圖像的美感分類與評分[2-6]。2014年以來,圖像美學(xué)質(zhì)量評價的研究工作進入了深度學(xué)習(xí)時代,研究人員改造了多種用于圖像識別的卷積神經(jīng)網(wǎng)絡(luò),并且將圖像風(fēng)格、圖像內(nèi)容等額外信息顯式或隱式地建模于改造后的卷積神經(jīng)網(wǎng)絡(luò)中,這種方式構(gòu)建的圖像美學(xué)質(zhì)量評價模型取得了更優(yōu)秀的效果[7-11]。
神經(jīng)網(wǎng)絡(luò)可解釋是人工智能3.0的新要求,目標(biāo)在于使得人工智能算法更加透明可靠,特別是在醫(yī)療、金融和軍事領(lǐng)域。深度學(xué)習(xí)模型在訓(xùn)練過程中,使用了大量的數(shù)據(jù)優(yōu)化模型參數(shù),但是神經(jīng)網(wǎng)絡(luò)中間神經(jīng)元個數(shù)、網(wǎng)絡(luò)的深度、全連接層的設(shè)置等神經(jīng)網(wǎng)絡(luò)參數(shù)會如何影響結(jié)果還需要依賴專業(yè)研究人員的工作經(jīng)驗。目前基于深度卷積神經(jīng)網(wǎng)絡(luò)圖像設(shè)計的美學(xué)評價模型可解釋性不強,這不利于圖像美學(xué)評估的進一步研究。
本文使用深度學(xué)習(xí)解釋性研究中事后解釋性的幾種方法對圖像美學(xué)單一評價模型進行一定的解釋,包括特征圖可視化、類激活圖可視化、層級相關(guān)性傳播方法。通過特征圖可視化理解了淺層和深度網(wǎng)絡(luò)模型的學(xué)習(xí)重點。對模型類激活圖進行可視化,證明了經(jīng)過注意力模型,網(wǎng)絡(luò)模型更加關(guān)注圖像主體。通過相關(guān)性歸因算法,發(fā)現(xiàn)了當(dāng)前模型對圖像中光影、輪廓等高級語義信息敏感度較強。通過對圖像美學(xué)評價模型進行解釋,既可以獲得美學(xué)指導(dǎo),也可以根據(jù)網(wǎng)絡(luò)的特性對模型進行修改。
在許多計算機視覺任務(wù)中,卷積網(wǎng)絡(luò)的性能已經(jīng)遠遠超過傳統(tǒng)模式識別算法。但相比傳統(tǒng)算法,深度卷積網(wǎng)絡(luò)可解釋性低。在一些關(guān)鍵領(lǐng)域,如醫(yī)療、航空和軍事領(lǐng)域,許多實際應(yīng)用都要路經(jīng)模型背后的決策過程和決策依據(jù),才能避免一些嚴(yán)重威脅。如果飛機巡航程序缺乏合理的解釋性,可能會在一些環(huán)境突變的情況下給旅客造成生命危險。在日常生活中,手機面容解鎖已經(jīng)成為公眾接受的方式,但是一些研究表明,構(gòu)造對抗樣本即可將面容識別模型的結(jié)果更改,這其實也是因為面容識別模型的可解釋性低。
為了使人工智能算法更加透明和可靠,更安全地將模型落地,近年來,許多科研人員針對模型可解釋性提出了不同的方案。這些方案可以分為事前解釋和事后解釋兩種。事前解釋一般是通過在算法設(shè)計時加入可解釋模塊進行的。深度卷積神經(jīng)網(wǎng)絡(luò)由于隱含層較多,透明性低。通過在網(wǎng)絡(luò)結(jié)構(gòu)引入注意力機制是一種行之有效的可解釋性方法。注意力機制是對人腦認知方式的模擬,由于大腦信息處理水平的局限性,人類會對輸入信息進行篩選,處理信息中重要部分,忽略不必要信息。神經(jīng)網(wǎng)絡(luò)的注意力機制是建立對輸入的注意矩陣,重要部分權(quán)重大,通過反向傳播,注意矩陣也會不斷調(diào)整,最終體現(xiàn)了對結(jié)果影響最大的區(qū)域。比如在自然語言處理領(lǐng)域,Bahdanau[12]等人將注意力機制引入到基于編碼器-解碼器架構(gòu)的機器翻譯中,有效地提高了“英語-法語”翻譯的性能。在編碼階段,機器翻譯模型采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)將原語言編碼到向量空間中;在解碼階段,注意力機制為解碼器的隱藏狀態(tài)分配不同的權(quán)重,從而允許解碼器在生成法語翻譯的每個步驟選擇性地處理輸入句子的不同部分。最后通過可視化注意力權(quán)重,用戶可以清楚地理解一種語言中的單詞是如何依賴另一種語言中的單詞進行正確翻譯的。
事后解釋主要是在模型訓(xùn)練結(jié)束之后,通過可視化、參數(shù)分析對比實驗解釋模型。分為兩類,一類是全局性解釋,另一類是局域性解釋。全局性解釋通過可視化解釋每個神經(jīng)元的狀況來理解神經(jīng)網(wǎng)絡(luò)的有效性;局域性解釋主要是理解圖片分類的原因,只關(guān)注輸入圖像的部分區(qū)域。
針對神經(jīng)網(wǎng)絡(luò)的常見全局性解釋方法有模型蒸餾、激活最大化等。深度卷積網(wǎng)絡(luò)的復(fù)雜度高,從全局進行解釋的難度高。模型蒸餾是將復(fù)雜的大模型學(xué)習(xí)到的知識遷移到簡單的小模型,其目標(biāo)是在保證模型泛化能力的前提下將復(fù)雜模型進行濃縮。小模型可以采用可解釋性強的模型,比如決策樹、淺層神經(jīng)網(wǎng)絡(luò)。模型蒸餾主要的難題是表達能力弱的小模型難以將從大量數(shù)據(jù)得到復(fù)雜特征進行表達,因而導(dǎo)致小模型性能較低。激活最大化是將卷積神經(jīng)網(wǎng)絡(luò)中間的特征圖進行可視化,從圖像的視覺語義信息直觀地理解神經(jīng)網(wǎng)絡(luò)的內(nèi)部邏輯。常見的局部解釋算法主要有 LIME[13]、Scaliency Maps[14]、LRP[15]、Deep-LIFT[16]幾種,其中LIME是一種和模型無關(guān)的局部可解析性算法。主要思路是基于想要解釋的部分模型及樣本來構(gòu)建局部的簡單模型。該方法適用于特征易于解釋的情況。具體做法是對樣本進行可解釋的擾動,得到若干個擾動樣本,然后再將這些樣本還原到特征空間中,建立局部模型。比如在動物分類任務(wù)中,只保留動物的頭部或者尾巴,生成新樣本。然后對只保留頭部的圖片作出預(yù)測,生成真實值。最后將新樣本和所對應(yīng)真實值進行簡單建模,觀察樣本對于結(jié)果的影響。
圖像美學(xué)質(zhì)量評價從美學(xué)特征提取方式來看可分為基于傳統(tǒng)視覺算法構(gòu)建美學(xué)規(guī)則和基于深度學(xué)習(xí)構(gòu)建美學(xué)模型兩個階段。前期的圖像美學(xué)質(zhì)量評估主要是基于人類對圖像特征和攝影規(guī)則的審美感知來人工設(shè)計特征,包括三分法則[17],圖片的景深[18]和平衡性[19]等。自深度學(xué)習(xí)在計算機視覺其他領(lǐng)域的任務(wù)表現(xiàn)出色之后,國內(nèi)外研究者開始使用深度神經(jīng)網(wǎng)絡(luò)來提取美學(xué)特征[20-22],雖然可解釋性比人工設(shè)計要低,但是基于深度學(xué)習(xí)的圖像質(zhì)量評價的效果得到了大大的改進。
目前圖像美學(xué)質(zhì)量評價的研究主要集中在以下兩類,一類為美學(xué)分類、美學(xué)單一數(shù)值評價、美感分布預(yù)測等數(shù)值型評價研究;一類為與美學(xué)語言評論生成相關(guān)的自然語言處理研究。其中,單一數(shù)值評價是給出原始輸入圖像的美學(xué)評分或者屬性評分。本文所介紹的圖像美學(xué)單一評價模型基于深度學(xué)習(xí),包括了注意力機制以及美學(xué)評分分類化兩個部分。注意力機制是對人類視覺機制的有效模擬,在自然語言處理中,句子中的“美好”和“樂觀”等詞語比“生活”這類詞更有意義地決定了評論的情感。在神經(jīng)網(wǎng)絡(luò)中增加注意力模塊可以有效提高模型的表達能力和模型可解釋性。引入美學(xué)評分分類化則是為了美學(xué)分類指導(dǎo)美學(xué)回歸任務(wù)。主要的依據(jù)是美學(xué)分類是弱分類,類別之間不像物品識別一樣具有嚴(yán)格的界限。因此采取先分類再回歸的方法,可以提高美學(xué)單一數(shù)值評價的性能。
如圖1所示,神經(jīng)網(wǎng)絡(luò)模型主要分為三部分,分別為:特征提取部分、注意力部分以及分類回歸部分。特征提取部分采用效率高的EfficientNet[23],注意力部分采用位置注意力和通道注意力相結(jié)合的方式,分類回歸部分的設(shè)計為先分類再回歸。
圖1 圖像單一數(shù)值評價網(wǎng)絡(luò)模型示意圖
EfficientNet是一種通過網(wǎng)格搜索深度、寬度和分辨率尋找到最佳比例的網(wǎng)絡(luò),其效率高、速度快。對于圖像美學(xué)而言,更多參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)將有助于多主體的圖片特征的提取。模型使用雙路的并行注意力機制,包括位置注意力和通道注意力。原因是圖像美學(xué)質(zhì)量評估中,圖像中各個物體的位置及相對關(guān)系和圖像整體的顏色、光照、深度都會對圖像美學(xué)質(zhì)量結(jié)果有較大的影響。因此使用建立圖像的特征關(guān)系的位置注意力和通過將不同通道的依賴性進行學(xué)習(xí)來增強特征圖的表達能力。在特征提取部分的特征圖通過注意力模塊之后,通過級聯(lián)的方式將特征聚合,綜合了多個位置、多個通道的多尺度信息。分類回歸部分是在聚合特征之后使用全局池化層(Global Average Pooling,GAP),主要原因是使用全連接層會在迭代若干次之后使得模型出現(xiàn)過擬合的現(xiàn)象,而使用GAP層可以實現(xiàn)有效的抗過擬合效果,準(zhǔn)確率變得穩(wěn)定。位置注意力網(wǎng)絡(luò)模型如圖2所示。
圖2 位置注意力示意圖
卷積網(wǎng)絡(luò)在訓(xùn)練中學(xué)習(xí)了圖像中的各種空間結(jié)構(gòu),將特征圖進行可視化有助于更好地理解深度網(wǎng)絡(luò)。在本節(jié)中,將直接可視化網(wǎng)絡(luò)每層的特征圖,觀察特征圖隨著網(wǎng)絡(luò)深度的變化,并且通過轉(zhuǎn)置卷積在輸入圖像中得到映射。
轉(zhuǎn)置卷積操作能夠使特征圖在原始輸入找到對應(yīng)位置,主要是因為神經(jīng)網(wǎng)絡(luò)在前向傳播時,每個卷積的輸出都依賴輸入的區(qū)域。如圖3所示,Layer1綠色區(qū)域以外的值不會影響Layer2綠色區(qū)域的值。
卷積的前向傳播就是轉(zhuǎn)置卷積層的反向傳播過程,兩者正好是相反的。卷積層可以理解為一個稀疏矩陣,卷積核以外的都為0。卷積核內(nèi)部為需要學(xué)習(xí)的參數(shù)。假設(shè)輸入圖像為A,卷積層為X,那么卷積后的結(jié)果為AX=B。
反卷積操作的主要難點是,一般來說,為了提高模型的泛化能力,卷積網(wǎng)絡(luò)會在卷積層之后使用池化操作來降低卷積層輸出的特征向量。最大池化方法是最常用的池化操作之一,是一種不可逆的操作。因此在反卷積之后需要近似的進行反池化,也就是將特征圖最大激活值的位置進行記錄,其他區(qū)域賦值為0。
圖4 反池化示意圖
圖5為特征圖可視化的流程圖,輸入的圖像為一幅沙漠風(fēng)景圖,圖片內(nèi)容顯示正值中午,有幾個人騎著駱駝在沙丘的頂峰行走。通過可視化特征層,并將特征層映射到原始輸入圖像中,可以發(fā)現(xiàn)網(wǎng)絡(luò)淺層部分確實將沙漠、天空、甚至陰影部分的紋理學(xué)習(xí)到了;而深層部分關(guān)注的是沙漠的流動性,并學(xué)習(xí)到了背景和前景的區(qū)別。
圖5 特征圖可視化流程
圖6為有代表性的特征圖??梢缘贸鲆韵聨讞l規(guī)律:
圖6 代表性特征圖
(1)淺層網(wǎng)絡(luò)主要提取紋理、顏色、細節(jié)特征。
(2)深層網(wǎng)絡(luò)主要提取輪廓、形狀特征。
根據(jù)可視化的結(jié)果與對感受野的理解,得出結(jié)論:出現(xiàn)這種情況的原因是淺層網(wǎng)絡(luò)感受野較小,對應(yīng)的像素區(qū)域也較小,能夠利用更多的細粒度特征信息捕獲更多細節(jié)。而深層網(wǎng)絡(luò),由于下采樣或卷積次數(shù)逐步增加,感受野逐漸增加,感受野之間的重疊區(qū)域也不斷增加,此時的像素點代表的信息是一個區(qū)域的信息,獲取的是這塊區(qū)域或相鄰區(qū)域之間的特征信息,對應(yīng)語義信息,細粒度相對不夠。特征圖可視化不能完全解釋神經(jīng)網(wǎng)絡(luò),但通過這種方法可以發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征是呈現(xiàn)分層特征,淺層網(wǎng)絡(luò)抽取圖像的具體特征,而深層網(wǎng)絡(luò)呈現(xiàn)圖像抽象特征,這個過程與人類認知一致。這對未來設(shè)計美學(xué)深度模型提供了指導(dǎo),比如針對圖像色彩評價可以利用淺層特征,有效防止過擬合。
類激活圖可視化,是一種神經(jīng)網(wǎng)絡(luò)解釋方法,通過對輸入圖像生成類激活的熱力圖來表示每個位置對該類別的重要程度,有助于通過可視化把握輸入圖片的不同區(qū)域?qū)︻A(yù)測結(jié)果的影響程度。
類激活圖利用特征圖權(quán)重疊加的原理進行可視化。具體而言,就是將神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中的全連接層更換為全局平均池化加全連接層。全局平均池化層的工作原理是將池化層的滑動窗口設(shè)置為與特征圖的尺寸一致,這種做法可以理解為將特征圖每一通道壓縮為一個值。在神經(jīng)網(wǎng)絡(luò)中使用全局平均池化層可以使得模型參數(shù)大大減少,運行速度更快,有效防止過擬合。
類激活的主要公式為:
重新推導(dǎo)此過程:A表示網(wǎng)絡(luò)最后的卷積層輸出,大小為w*h*n,其中w為最后小全連接層的權(quán)重,C為類別數(shù)。經(jīng)過一個全局池化層得到:1*n,然后經(jīng)過一個權(quán)重為n*c的小全連接層,得到大小為1*c的分類向量。最后高亮圖片中對分類最重要作用的區(qū)域,得到圖像的類激活圖。
在本節(jié)中使用類激活圖可視化方法評測美學(xué)單一評價模型中注意力機制的有效性。圖7中第一列為原始輸入圖像,第二列為輸入圖像只通過特征提取層的結(jié)果,第三列為輸入圖像通過注意力機制后的特征圖。顏色越靠近紅色,說明影響越大;顏色越藍則說明影響越小??梢园l(fā)現(xiàn),在經(jīng)過位置注意力和通道注意力之后,神經(jīng)網(wǎng)絡(luò)可以定位到主體上,且主體對結(jié)果的影響增大。合理利用注意力機制可以有效提升神經(jīng)網(wǎng)絡(luò)性能。
圖7 類激活圖結(jié)果
基于梯度的方法對卷積神經(jīng)網(wǎng)絡(luò)的結(jié)果進行歸因,是可解釋性神經(jīng)網(wǎng)絡(luò)的主要方法。一個成熟的歸因方法要滿足敏感性和實現(xiàn)不變性。敏感性是一個歸因方法對于所有的輸入和基準(zhǔn)輸入都應(yīng)該滿足敏感性,即對不同的輸入特征,產(chǎn)生不同的預(yù)測結(jié)果時,不同的特征所對應(yīng)的歸因(屬性)非0。實現(xiàn)不變性是指如果兩個完全不同的方式實現(xiàn)的網(wǎng)絡(luò)對于所有輸入、輸出都相等,則兩個網(wǎng)絡(luò)在功能上是等效的。
層級相關(guān)性傳播方法是一種試圖將分類器結(jié)果在原始輸入圖像上找到對應(yīng)關(guān)系,得到圖像中每個像素的決策權(quán)重的方法。層級歸因化是一種貢獻傳播方法,該方法首先利用加性模型計算高層特征對模型預(yù)測結(jié)果的貢獻,然后通過反向傳播將高層特征的貢獻逐層傳遞到模型的輸入,以確定每一層的每一個神經(jīng)元節(jié)點對其下一層神經(jīng)元節(jié)點的相對貢獻。該方法將模型高層特征分解為多個多維向量,且每個多維向量對應(yīng)一個相關(guān)性分值,然后將相關(guān)性分值遞歸地傳播到低層?;谔荻确聪騻鞑サ慕忉尫椒m然充分利用了模型的結(jié)構(gòu)特性,但無法實際解決預(yù)測函數(shù)梯度小導(dǎo)致激活函數(shù)失真的問題,因此這類解釋方法依然存在許多人類無法理解的噪音。而基于重要性或相關(guān)性的反向傳播方法不要求激活是可微的,可以有效解決該問題。
本節(jié)運用層級相關(guān)性傳播方法計算標(biāo)簽與輸入圖像的關(guān)聯(lián),并將結(jié)果可視化。如圖8顯示,原始輸入圖像中光影、輪廓等信息對預(yù)測結(jié)果影響權(quán)重大。第一幅圖畫面前景部分為動物,背景為烏云,通過層級相關(guān)性可以發(fā)現(xiàn)這類肖像圖前景主體對結(jié)果的影響比背景大。從第二幅圖像和第三幅圖像的結(jié)果可以看出光影變化的位置比圖像中同色調(diào)的部分對結(jié)果的影響權(quán)重大。第4幅圖是一把輪椅在懸崖上,輪椅的位置在圖像的三分位置,畫面中其余部分表現(xiàn)了一種靜謐陰森的感覺。從可視化結(jié)果來看,模型可以準(zhǔn)確的識別畫面的主體。
圖8 層級相關(guān)性結(jié)果
本文運用當(dāng)前深度學(xué)習(xí)領(lǐng)域前沿的可解性方法對圖像美學(xué)單一數(shù)值模型進行解釋。主要使用了基于梯度的類激活圖可視化、上卷積網(wǎng)絡(luò)提取特征圖、層級歸因算法三種方法,并對三種方法展現(xiàn)的結(jié)果進行解釋。進行可解釋性工作一方面證明了模型性能變好的依據(jù),比如注意力機制使得卷積網(wǎng)絡(luò)更加關(guān)注圖像中主體,而不是關(guān)注圖像中無用信息。一方面在解釋模型之后可根據(jù)輸出結(jié)果的特性對模型進行改進,同時在模型解釋的過程中可以提供對美學(xué)的指導(dǎo)。