趙镥瑤,齊蘇敏,周翔宇,石 珂
(曲阜師范大學(xué),山東 濟(jì)寧 273100)
近年來,深度學(xué)習(xí)在語音識別、圖像識別和自然語言處理等各個(gè)領(lǐng)域都得到了廣泛應(yīng)用[1],各種網(wǎng)絡(luò)模型不斷出現(xiàn),如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[2]、循環(huán)遞 歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[3]等。2014年,Goodfellow 提出了生成式對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)[4],為深度學(xué)習(xí)領(lǐng)域注入了一種新的思想,一定程度上推動了人工智能在認(rèn)知階段的發(fā)展。隨后,各種GAN 衍生模型層出不 窮,如CGAN[5]、InfoGAN[6]、Wasserstein GAN[7]以及DCGAN[8]等。但是,GAN 的生成質(zhì)量難以評估,其中定性評價(jià)和一些傳統(tǒng)的客觀評價(jià)指標(biāo)并不合適[9-10]。鑒于主觀評價(jià)的內(nèi)在缺陷和GAN 的發(fā)展水平[11],采用恰當(dāng)?shù)目陀^指標(biāo)來指導(dǎo)GAN 的發(fā)展至關(guān)重要[12]。
目前,客觀評價(jià)指標(biāo)主要通過衡量真實(shí)分布和生成分布的差異來定量評價(jià)GAN,如Kernel MMD[13]、Inception Score[14]、Fréchet Inception Distance[15]以及GAN Quality Index[16]等。雖然它們能夠在一定程度上評價(jià)GAN,但也存在不足,如無法確定GAN 分?jǐn)?shù)低的原因,依賴于預(yù)訓(xùn)練的模型,無法捕捉圖像特征通道之間的依賴關(guān)系等。針對上述不足,本文設(shè)計(jì)了一個(gè)全面且合理的質(zhì)量評價(jià)指標(biāo)SEGQI。利用SE-ResNet 網(wǎng)絡(luò)引入通道注意力機(jī)制對生成圖像進(jìn)行分類,以更好地評價(jià)GAN。該指標(biāo)能夠分別評價(jià)生成圖像的真實(shí)性和多樣性,得到更準(zhǔn)確的綜合評價(jià)分?jǐn)?shù),是對GQI 的一種改進(jìn)和補(bǔ)充。最后,定量評估經(jīng)典模型DCGAN。實(shí)驗(yàn)表明,與其他指標(biāo)相比,SEGQI 更全面和客觀地評估了其生成圖像的真實(shí)性和多樣性。
DCGAN 將卷積神經(jīng)網(wǎng)絡(luò)(CNN)首次應(yīng)用到GAN,能更好地捕捉圖像特征,廣泛應(yīng)用于圖像生成任務(wù)。如圖1 所示,DCGAN 將服從高斯分布或均勻分布的100 維隨機(jī)噪聲z輸入生成器G,輸出生成圖像G(z);將生成圖像G(z)和真實(shí)圖像x輸入判別器D,輸出G(z)為真的概率。在一定批量的樣本內(nèi),模型根據(jù)輸出概率計(jì)算并反饋損失,使得生成器D 和判別器G 的參數(shù)不斷優(yōu)化。它的目標(biāo)函數(shù)為:
式中,真實(shí)樣本分布為pdata(x),生成樣本分布為pz(z)。
生成器和判別器的優(yōu)化目標(biāo)不同,結(jié)成對抗學(xué)習(xí)關(guān)系。對于判別器D 來說,期望能夠識別出真實(shí)樣本x,即D(x)盡可能靠近1,log[D(x)]越大越好。反之,生成器G 期望生成足以亂真的假樣本G(z)。
圖1 DCGAN 生成圖片的基本模型框架
DCGAN 的生成器和判別器采用改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),去掉了全連接層和池化層,采用逆卷積的方式擴(kuò)展矩陣大小,再經(jīng)過BN 層、ReLU激活函數(shù)得到該層的輸出,即下一層的輸入。100維的隨機(jī)噪聲向量經(jīng)過幾次這樣的過程后,通過輸出層的tanh 激活函數(shù)得到生成圖像。
評價(jià)GAN的兩個(gè)關(guān)鍵標(biāo)準(zhǔn)是真實(shí)性和多樣性。但是,傳統(tǒng)評價(jià)方法不能將兩者分開,對這兩個(gè)標(biāo)準(zhǔn)各有傾向性,因此對GAN 模型的評估不夠合理且指示性不強(qiáng)。所以,本文設(shè)計(jì)了基于深度學(xué)習(xí)的方法來評價(jià)GAN,以分類性能直觀反映其生成圖片的真實(shí)性和多樣性。如果GAN 模型能夠很好地學(xué)習(xí)到真實(shí)分布,那么生成器在特征空間層面上的表現(xiàn)應(yīng)該接近于真實(shí)數(shù)據(jù)。本文利用SE-ResNet對真實(shí)數(shù)據(jù)集和GAN 生成數(shù)據(jù)集分類,定義真實(shí)性指標(biāo)R、多樣性指標(biāo)D和綜合性指標(biāo)CS來評估DCGAN 的生成質(zhì)量。
SE-ResNet[17]在ResNet 網(wǎng)絡(luò)的基礎(chǔ)上嵌入了SE 模塊,通過學(xué)習(xí)特征通道之間的關(guān)系預(yù)測各通道權(quán)重,從而提高了分類任務(wù)的準(zhǔn)確性。與原始的ResNet 相比,SE-ResNet 的TOP-1 錯(cuò)誤率明顯更低。
本文設(shè)計(jì)的基于SE-ResNet 的質(zhì)量評價(jià)模型SEGQM 如圖2 所示。
具體的評價(jià)流程為:
①利用真實(shí)數(shù)據(jù)集Sreal(N×M)、原始生成數(shù)據(jù)集Gfake和分類后的生成數(shù)據(jù)集GCfake訓(xùn)練分類器,分別得到三者的TOP-1 精度ACC(Sreal)、ACC(Gfake)及ACC(GCfake)。
②利用TOP-1 精度的比值計(jì)算真實(shí)性指標(biāo)R和多樣性指標(biāo)D的值。
③將求得的真實(shí)性指標(biāo)R和多樣性指標(biāo)D線性融合,得到綜合性指標(biāo)CS。
圖2 SEGQM 評價(jià)模型
④(R,D,CS)即為最終的SEGQI 評價(jià)指標(biāo)。
真實(shí)性指標(biāo)度量生成數(shù)據(jù)的真實(shí)性程度。
①在真實(shí)數(shù)據(jù)集Sreal(N×M)(N代表類別,M代表每類樣本數(shù))上訓(xùn)練分類器SE-ResNet 和GAN模型,生成大量圖片。
②利用分類器給生成圖片賦標(biāo)簽,可以得到一個(gè)與真實(shí)數(shù)據(jù)集同構(gòu)的生成圖片數(shù)據(jù)集GCfake(N×M)。
③在GCfake(N×M)上訓(xùn)練一個(gè)分類器。兩個(gè)分類器在同一真實(shí)圖片測試集上得到的準(zhǔn)確率分別為ACC(Sreal)和ACC(GCfake)。生成圖像的真實(shí)性指標(biāo)R為:
由于GCfake和Sreal類別均衡、大小相同,因此影響測試集準(zhǔn)確率的因素是生成數(shù)據(jù)集的真實(shí)性。如果生成樣本的分布越接近真實(shí)樣本分布,則設(shè)計(jì)方案的真實(shí)性指標(biāo)R應(yīng)該越高,生成圖片的真實(shí)性應(yīng)該越高。
為了獲得生成圖片的多樣性,令GAN 生成任意圖片,得到一個(gè)新的生成圖片數(shù)據(jù)集Gfake。它的大小與GCfake相同。
同樣,在Gfake上訓(xùn)練一個(gè)分類器SE-ResNet,并在同一真實(shí)數(shù)據(jù)集上測試得到準(zhǔn)確率ACC(Gfake)。
生成圖像的多樣性指標(biāo)D計(jì)算為:
由于Gfake和GCfake類別不均衡、大小相同且都是生成圖片,因此影響測試集準(zhǔn)確率的因素是生成圖片的多樣性。如果生成樣本對各類別樣本分布的學(xué)習(xí)程度越平均,那么設(shè)計(jì)方案的多樣性指標(biāo)D應(yīng)該越高,生成圖片的多樣性應(yīng)該越高。
由式(2)和式(3)可知,真實(shí)性指標(biāo)R和多樣性指標(biāo)D與生成圖片的質(zhì)量都呈正相關(guān)。為了簡便表示,根據(jù)準(zhǔn)確率影響程度設(shè)置了一個(gè)參數(shù)α將兩個(gè)指標(biāo)有效融合在一起,得到綜合性指標(biāo)CS:
式中,α表示視覺保真度對生成圖像質(zhì)量的影響程度。
式(4)表達(dá)了真實(shí)性和多樣性對DCGAN 質(zhì)量的影響程度,CS∈[0,1]。CS越高,GAN 模型生成圖像的質(zhì)量越好,也在一定程度上反映了該GAN模型的生成能力較好。
由真實(shí)性指標(biāo)R、多樣性指標(biāo)D和綜合性指標(biāo)CS組成的三元組稱為SEGQI指標(biāo),可分為4種情況:
①當(dāng)R和D的分?jǐn)?shù)都很高時(shí),CS分?jǐn)?shù)也很高,說明GAN 生成圖像質(zhì)量較高且多樣;
②當(dāng)R的分?jǐn)?shù)越高且D的分?jǐn)?shù)越低時(shí),說明GAN 生成圖像具有高質(zhì)量、低多樣的特點(diǎn),可能出現(xiàn)了模式崩潰現(xiàn)象;
③當(dāng)R的分?jǐn)?shù)越低且D的分?jǐn)?shù)越低時(shí),CS分?jǐn)?shù)也很低,說明GAN 沒有產(chǎn)生有意義的生成圖像;
④當(dāng)R的分?jǐn)?shù)越低且D的分?jǐn)?shù)越高時(shí),說明GAN 生成圖像多樣但不夠逼真。
SEGQI 指標(biāo)反映了GAN 生成分布與實(shí)際數(shù)據(jù)分布之間的差別,對真實(shí)性和多樣性分別進(jìn)行評價(jià),沒有傾向性,可以更好地體現(xiàn)GAN 模型的特性。它不需要了解GAN 模型的內(nèi)部結(jié)構(gòu),利用GAN 生成數(shù)據(jù)集就可以評估GAN 的質(zhì)量。與傳統(tǒng)的質(zhì)量評估方法相比,本文方法更全面、直觀,是對相關(guān)GAN 模型在實(shí)際應(yīng)用中的切實(shí)檢驗(yàn)。
本節(jié)將對主要的幾種指標(biāo)進(jìn)行簡單介紹和比較分析。
Inception 分?jǐn)?shù)(Inception Score,IS)是已有文獻(xiàn)中應(yīng)用最廣泛的指標(biāo),本質(zhì)是利用分類模型評估生成圖片的質(zhì)量,將生成的圖片輸入訓(xùn)練好的Inception 分類網(wǎng)絡(luò),根據(jù)式(6)計(jì)算每張圖片的分類表現(xiàn)。
如果圖片x屬于某個(gè)類的概率分布很大,那么p(y|x)呈尖銳分布,熵很小;如果圖片標(biāo)簽在各類別中均勻分布,那么邊緣分布p(y)的熵很大。理論上,期望概率分布越小越好,邊緣分布越高越好,而這兩個(gè)分布的散度自然越大越好。因此,IS 設(shè)想用DKL衡量這兩個(gè)分布。分布越不像模型,表現(xiàn)越好。
但實(shí)際上,Inception 分?jǐn)?shù)是一個(gè)存在很多問題的指標(biāo)。一方面,它只考慮了生成分布Pg,并不能體現(xiàn)生成分布和真實(shí)分布之間的距離。另一方面,它依賴于預(yù)訓(xùn)練的inception 模型,并不適用于所有數(shù)據(jù)集。
Fréchet Inception 距 離(Fréchet Inception Distance,F(xiàn)ID)利用Inception 網(wǎng)絡(luò)提取特征,然后通過計(jì)算真實(shí)圖片和生成圖片在特征空間層面的距離進(jìn)行評價(jià)。利用兩者的均值μ和協(xié)方差C可計(jì)算FID 分?jǐn)?shù):
在特征空間上,生成樣本和真實(shí)樣本的FID 距離越小,兩者的分布越接近。
FID 比IS 更合理,但并不能確定用FID 來衡量真實(shí)樣本特征和生成樣本特征是否足夠合理。
GAN 質(zhì)量指數(shù)(GAN Quality Index,GQI)很好地利用了分類思想來衡量生成樣本的質(zhì)量,在同一個(gè)網(wǎng)絡(luò)上訓(xùn)練生成樣本和真實(shí)樣本。在真實(shí)數(shù)據(jù)集上測試,根據(jù)式(8)得到兩者的準(zhǔn)確率之比。
這個(gè)比值越大,說明生成樣本分布越接近真實(shí)樣本分布,可以很好地分類真實(shí)樣本。
但是,GAN 質(zhì)量指數(shù)也存在不足。一方面,GQI使用ResNet 作為分類網(wǎng)絡(luò),沒有考慮特征通道之間的關(guān)系。另一方面,GAN 質(zhì)量指數(shù)無法確定影響準(zhǔn)確率的具體因素,如圖片不夠逼真、圖片多樣性不足等。
本文提出的方法設(shè)計(jì)了兩個(gè)分?jǐn)?shù),分別指示生成圖像的真實(shí)性和多樣性,并通過一個(gè)簡單的線性關(guān)系相加融合成一個(gè)有界指標(biāo)[18]。表1 展示了DCGAN 生成圖片的SEGQI 得分(R,D,CS)。
表1 DCGAN 的評價(jià)指標(biāo)對比
CIFAR-10 數(shù)據(jù)集由來自10 個(gè)類的60 000 張圖像組成,分為5 個(gè)訓(xùn)練批次和1 個(gè)測試批次。訓(xùn)練集中有50 000 張圖像,每個(gè)類包含5 000 張;測試集有10 000 張圖像,每個(gè)類包含1 000 張。與之相比,CIFAR-100 分類更加細(xì)致,是更具挑戰(zhàn)性的數(shù)據(jù)集。它包括100 個(gè)類別的圖像,每個(gè)類別分別有500 張訓(xùn)練圖像和100 張測試圖像。從表1 可以看出,設(shè)計(jì)的指標(biāo)與其他指標(biāo)在排名上表現(xiàn)一致。IS 評價(jià)指標(biāo)并不合適,原因是只考慮了生成圖像,刪除某些類對IS 分?jǐn)?shù)影響不大。FID 指標(biāo)和GQI 指標(biāo)變化較大,能夠得到相對合理的評價(jià)分?jǐn)?shù)來指示生成圖像的質(zhì)量,但沒有反映出生成圖像的多樣性表現(xiàn)。而在設(shè)計(jì)的指標(biāo)SEGQI 中真實(shí)性指標(biāo)R明顯下降,同時(shí)影響了多樣性指標(biāo)D,能夠合理全面地指示生成圖像的質(zhì)量。
本文針對GQI 指標(biāo)進(jìn)行了以下3 點(diǎn)改進(jìn):①將ResNet 網(wǎng)絡(luò)替換成SE-ResNet 網(wǎng)絡(luò),學(xué)習(xí)通道之間的關(guān)系,以提高分類準(zhǔn)確率;②分別評價(jià)真實(shí)性和多樣性,更明確地反映GAN 的生成質(zhì)量;③根據(jù)影響程度,將(R,D)分?jǐn)?shù)融合為一個(gè)綜合得分,比GQI 更合理。
分類網(wǎng)絡(luò)準(zhǔn)確率對賦標(biāo)簽的影響因子與真實(shí)性得分R正相關(guān)。同理,它與多樣性D正相關(guān)。如表2 所示,SE-ResNet 在各類真實(shí)數(shù)據(jù)集上的準(zhǔn)確率比ResNet 更高。究其原因,在于SE 模塊對圖片特征通道進(jìn)行了權(quán)重分配,更利于提取有意義的特征。
表2 SEResNet 與ResNet 在不同數(shù)據(jù)集上的分類表現(xiàn)
為了更全面地評價(jià)GAN 生成圖像,將真實(shí)性得分R和多樣性得分D融合為一個(gè)綜合得分CS,如表3 所示。首先,計(jì)算真實(shí)性,用CIFAR-10 數(shù)據(jù)集訓(xùn)練SE-ResNet 網(wǎng)絡(luò),得到93%的準(zhǔn)確率。其次,利用同構(gòu)的生成圖片數(shù)據(jù)集訓(xùn)練同一個(gè)網(wǎng)絡(luò),得到78%的準(zhǔn)確率,因此可以根據(jù)式(2)得到真實(shí)性R=0.84。再次,計(jì)算多樣性,利用同大小的原始生成圖片數(shù)據(jù)集訓(xùn)練同一個(gè)網(wǎng)絡(luò),得到72%的準(zhǔn)確率,因此可以根據(jù)式(3)得到多樣性D=0.92。最后,根據(jù)式(4)計(jì)算可得α=0.71,得到綜合性指標(biāo)CS=0.86。表4 展示了DCGAN 在同數(shù)據(jù)集上的GQI 得分。
表3 DCGAN 在CIFAR-10 數(shù)據(jù)集上的CS 得分
表4 DCGAN 在CIFAR-10 數(shù)據(jù)集上的GQI 得分
目前,對于GAN 模型的評價(jià)來說仍然沒有一個(gè)簡潔而有力的指標(biāo)能夠得到公認(rèn)。本文設(shè)計(jì)了基于深度學(xué)習(xí)的方法來評估GAN 生成圖像的質(zhì)量。提出的評價(jià)模型SEGQM 能夠分別評估生成圖像的真實(shí)性和多樣性兩個(gè)方面,是對GAN 生成質(zhì)量更詳細(xì)、更有針對性的評價(jià)方法,有利于GAN 的規(guī)范性發(fā)展。與其他模型的對比實(shí)驗(yàn)表明,所提的評價(jià)模型SEGQM 能夠合理全面地指示生成圖像的質(zhì)量。后續(xù)驗(yàn)證多樣性和真實(shí)性對模型質(zhì)量的影響權(quán)重,形成統(tǒng)一的指標(biāo),是進(jìn)一步研究的內(nèi)容。