浦煜,王曉峰
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
基于互信息最大化正則的生成式對抗網(wǎng)絡(luò)
浦煜,王曉峰
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
目前生成式對抗網(wǎng)絡(luò)(GAN)面臨的一大難點(diǎn)是模型訓(xùn)練過程中普遍存在著不收斂性,其最為突出的表現(xiàn)即“模式坍塌”現(xiàn)象,從而導(dǎo)致生成的目標(biāo)對象缺乏多樣性。首先從信息論角度簡要解釋原始GAN的理論方法,在此基礎(chǔ)之上,提出一種基于互信息最大化的正則方法,通過最大化隨機(jī)噪聲變量和生成樣本之間的互信息,為生成網(wǎng)絡(luò)的目標(biāo)函數(shù)提供一個(gè)上界函數(shù),迫使生成的數(shù)據(jù)分布更加趨于真實(shí)數(shù)據(jù)分布。對MNIST手寫字符數(shù)據(jù)進(jìn)行的實(shí)驗(yàn)結(jié)果表明,引入互信息正則,有助于提升生成樣本的多樣性。
生成式對抗網(wǎng)絡(luò);模式坍塌;多樣性;互信息;上界函數(shù)
近些年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,無監(jiān)督學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一大分支也進(jìn)步斐然。盡管在大部分情況下,有監(jiān)督學(xué)習(xí)比無監(jiān)督學(xué)習(xí)能獲得更好的效果,但是在實(shí)際應(yīng)用中,有標(biāo)注的數(shù)據(jù)是相對較少的,因此,如何從海量的無標(biāo)注數(shù)據(jù)中抽取高階的數(shù)據(jù)表征是人工智能領(lǐng)域的核心問題。最近,以生成式對抗網(wǎng)絡(luò)[1](Generative Adversarial Nets,GAN)為代表的深度生成模型為解決這一問題提供了新的計(jì)算框架。
生成式對抗網(wǎng)絡(luò)的思想啟發(fā)自博弈論中的零和博弈(zero-sum game),博弈雙方分別由生成式模型G(generative model)和判別式模型 D(discriminative mod?el)充當(dāng)。G通過將輸入的隨機(jī)噪聲映射為新的樣本數(shù)據(jù),來捕捉真實(shí)訓(xùn)練樣本的概率分布;而D本質(zhì)上是一個(gè)二分類器,用于判別輸入的樣本數(shù)據(jù)是采樣自訓(xùn)練集還是生成的樣本集,通過交替訓(xùn)練D和G的參數(shù)化網(wǎng)絡(luò),兩個(gè)模型都會得到提升,最終生成的數(shù)據(jù)分布會收斂于真實(shí)數(shù)據(jù)分布。目前,GAN已經(jīng)在多項(xiàng)任務(wù)中展現(xiàn)了它們的潛力,如圖像生成[2-4],超分辨率圖像重建[5],3D對象生成[6]和視頻預(yù)測[7]等應(yīng)用。
與傳統(tǒng)的生成模型[8-10]相比,GAN不需要真實(shí)數(shù)據(jù)的先驗(yàn)知識和復(fù)雜的建模過程,具有明顯的優(yōu)勢,但是它過于自由的訓(xùn)練方式帶來的缺點(diǎn)也很明顯,例如訓(xùn)練過程不穩(wěn)定,對于參數(shù)極其敏感。除此之外最為突出的問題即“模式坍塌(mode collapse)”現(xiàn)象:生成的數(shù)據(jù)分布無法去擬合真實(shí)分布的完整流形[11,12](僅僅生成了“子流形”)導(dǎo)致樣本集中在少數(shù)幾個(gè)模態(tài)上。為了穩(wěn)定GAN的訓(xùn)練過程,國內(nèi)外的研究者提出了一系列改進(jìn)方法。在理論框架層面,Mirza和Osindero[13]等人通過引入一個(gè)數(shù)據(jù)標(biāo)簽向量同時(shí)作為G和D的額外輸入,將純無監(jiān)督學(xué)習(xí)變成半監(jiān)督學(xué)習(xí),明顯提升了訓(xùn)練的穩(wěn)定性,雖然改進(jìn)方式較為直接,但效果顯著。Nowozin[14]等人從距離度量的角度出發(fā)提出并證明了GAN的優(yōu)化目標(biāo)可以泛化為某種f-divergence的最小化問題,為GAN的理論解釋提供了新的思路。最近,DJ Im[15]等人通過同時(shí)訓(xùn)練多個(gè)GAN,讓它們的判別模型D交替去判別其他生成模型G產(chǎn)生的樣本,使得到的樣本不易丟失模態(tài),但計(jì)算代價(jià)過于龐大。此外,在訓(xùn)練技巧層面,Radford[2]等人基于深度卷積網(wǎng)絡(luò)提出了DCGAN模型,針對GAN這種不穩(wěn)定的學(xué)習(xí)方式,作者引入了步長卷積,批規(guī)范化等技術(shù),使得訓(xùn)練過程更加可控,這一工程性的突破也讓DCGAN成為后續(xù)研究者工作的基礎(chǔ)框架。Salimans[16]等人提出了特征匹配、單邊標(biāo)簽平滑(One-sided Label Smoothing)和minibatch discrimination等一系列策略來提高模型的魯棒性,并且在半監(jiān)督分類問題上取得較好的效果。
與以上工作不同的是,本文在Ferenc Huszár[17]和Yingzhen Li[18]等人的基礎(chǔ)上從信息論角度去闡述生成對抗網(wǎng)絡(luò)。生成模型G和鑒別模型D的相互競爭本質(zhì)上可以看成標(biāo)簽和樣本之間互信息的最小化,原始的目標(biāo)函數(shù)只是最小化互信息的下界而非上界,因此我們在此基礎(chǔ)上再次引入一個(gè)互信息正則項(xiàng),最小化其上界函數(shù),實(shí)驗(yàn)證明這種方法可以有效解決“模式坍塌”問題,生成更具多樣性的樣本。本文工作和Xi Chen[19]等人提出的InfoGAN相關(guān),他們通過拆解GAN先驗(yàn)的方式,對噪聲分布的隱變量加以約束,使其學(xué)習(xí)更加解構(gòu)的
數(shù)據(jù)表示,從而生成的結(jié)果具有可解釋性,而本文更加注重生成樣本的多樣性,避免模態(tài)單一化。
原始GAN模型的基本框架如圖1所示,其主要目標(biāo)是迫使判別模型D輔助生成模型G產(chǎn)生與真實(shí)數(shù)據(jù)分布相似的偽數(shù)據(jù),其中G和D一般為非線性映射函數(shù),通常由多層感知機(jī)或卷積神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)結(jié)構(gòu)來形式化。給定隨機(jī)噪聲變量z服從簡單分布Pz(z)(常為均勻分布或高斯分布),生成模型G通過將z映射為G(z)隱式地定義了一個(gè)生成分布Pg來擬合真實(shí)樣本分布Pdata。判別模型D作為一個(gè)二分類器,分別以真實(shí)樣本x和生成樣本G(z)作為輸入,以一個(gè)標(biāo)量值作為概率輸出,表示D對于當(dāng)前輸入是真實(shí)數(shù)據(jù)還是生成的偽數(shù)據(jù)的置信度,以此來判斷G生成數(shù)據(jù)的好壞。當(dāng)輸入為真實(shí)訓(xùn)練樣本x∽pdata時(shí),D(x)期望輸出高概率(判斷為真實(shí)樣本),當(dāng)輸入為生成樣本G(z)時(shí),D(G(z) )期望輸出低概率(判斷為生成樣本),而對于G來說要盡可能使D(G(z) )輸出高概率(誤判為真實(shí)樣本),讓D無法區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù)。兩個(gè)模型交替訓(xùn)練,從而形成競爭與對抗。整個(gè)優(yōu)化過程可以視為一個(gè)極小極大博弈,表達(dá)式如下:
然而,在實(shí)際訓(xùn)練過程中,(1)式中D(G(z))在初始時(shí)值很小,導(dǎo)致log(1 -D(G(z) ) )的梯度趨向于飽和狀態(tài),所以為了避免梯度消失的情況,本文采用(2)式去優(yōu)化G。
圖1 GAN模型結(jié)構(gòu)圖
令s∈{0 ,1}表示樣本標(biāo)簽,當(dāng)s=1時(shí),以真實(shí)樣本作為判別模型D的輸入,反之s=0時(shí),以生成模型G生成的樣本作為D的輸入。用數(shù)學(xué)語言描述如(3)所示:
其中P(s)為s的先驗(yàn),由于取值的等可能性,服從參數(shù)為0.5的伯努利分布;x表示輸入的樣本。從第一節(jié)可知GAN的理想目標(biāo)是使生成樣本的分布Pg與真實(shí)數(shù)據(jù)的分布Pdata相一致,即D判斷輸入樣本的真假與標(biāo)簽信息s無關(guān)。在信息論中,互信息可以衡量兩個(gè)隨機(jī)變量之間的相關(guān)性。對于給定的兩個(gè)隨機(jī)變量X和Y,它們之間的互信息如(4)式所示:
其中,H()表示隨機(jī)變量的熵值。當(dāng)X和Y的相關(guān)性越強(qiáng),它們之間的互信息就越大。為此可以通過最小化樣本標(biāo)簽變量s和樣本變量x的互信息來消除其之間的相關(guān)性。由于P(x|s)是未知的,無法直接計(jì)算,根據(jù)變分推斷[20]的理論得到互信息的下界函數(shù),具體推導(dǎo)如(5)所示:
由此得到互信息I(x,s)的下界L(P,Q)。其中,Q(s|x)為引入的參數(shù)分布,可以視為對s后驗(yàn)分布P(s|x)的近似,當(dāng)兩者相一致時(shí),kL距離為零,L(P,Q)取得最大值。進(jìn)一步地,若將輔助分布Q(s|x)視為一個(gè)判別模型網(wǎng)絡(luò),(5)式可以展開成(6)式:
其中,由于s的分布已知,H(s)則為固定值。很明顯(6)式的第二項(xiàng)即是GAN最小化的目標(biāo)函數(shù)(見(1)式)。換句話說,GAN實(shí)際上最小化的是互信息的下界函數(shù)而非互信息本身,顯然這會帶來一定偏差,因?yàn)橄啾认陆缱钚』辖绾瘮?shù)可以獲得更加緊的界,以至于模型能更好地收斂到穩(wěn)定點(diǎn)。
為了抵消上述優(yōu)化目標(biāo)帶來的不穩(wěn)定因素,本文方法受InfoGAN[19]的啟發(fā),引入一個(gè)額外的互信息損失函數(shù)作為正則項(xiàng)。在樸素的GAN模型中,生成模型G的輸入是一個(gè)連續(xù)的噪聲分布z,由于缺少約束,G將會以高度糾纏的方式將若干個(gè)不同的輸入z映射到相同的生成樣本G(z),導(dǎo)致G(z)僅僅依賴于z的少數(shù)維度,從而生成的分布只是真實(shí)數(shù)據(jù)分布的“子分布”。為此,我們利用互信息來約束z,讓I(z,G(z) )最大,使z的每一個(gè)維度都盡可能與G(z)產(chǎn)生特定的對應(yīng)關(guān)系,迫使G(z)生成的分布更加趨近于真實(shí)分布。而Info?GAN認(rèn)為生成模型G的輸入應(yīng)由噪聲分布z和一組隱變量c組成,通過最大化隱變量c與生成數(shù)據(jù)的互信息,使得控制c的變化,能生成可解釋的圖像特征。
圖2所示的是GAN的概率圖模型。其中,z是隨機(jī)噪聲變量滿足簡單的連續(xù)分布,s是樣本標(biāo)簽,xreal是真實(shí)的數(shù)據(jù)樣本,xfake是生成的樣本,x表示鑒別器D的輸入樣本,其值取決于標(biāo)簽s,當(dāng)s=1時(shí),x即為真實(shí)樣本,當(dāng)s=0時(shí),x則為生成的樣本。由上文可知,需要最大化z和G()z的互信息。
圖2 GAN概率圖模型
同樣的,由于z的后驗(yàn)P(z|G(z) )無法計(jì)算,所以I(z,G(z) )很難直接最大化,根據(jù)變分推斷的理論,可以得到其下界函數(shù)如(7)式所示:
其中,Q(z|G(z))可視為P(z|G(z))的近似后驗(yàn)。由2.1節(jié)可知GAN的理想目標(biāo)是最小化I(x,s),則引入最大化正則后的目標(biāo)函數(shù)可以表達(dá)成(8)式:
當(dāng)優(yōu)化(8)式的第一項(xiàng),實(shí)質(zhì)上是最小化其互信息的下界,而優(yōu)化其第二項(xiàng)時(shí),由于有負(fù)號,最大化其下界等同于最小化其上界,結(jié)合(1)(5)(6)(7)(8)式,本文方法實(shí)際優(yōu)化的目標(biāo)如(9)所示:
具體的算法描述如下:
輸入:隨機(jī)噪聲分布Pz(z);真實(shí)樣本;判別器D的迭代次數(shù)k(默認(rèn)為1),學(xué)習(xí)率l1;生成器G的學(xué)習(xí)率l2;采樣維度m。
輸出:D的網(wǎng)絡(luò)參數(shù)w,G的網(wǎng)絡(luò)參數(shù)θ。
Step0:初始化:w0,θ0。
Step1:whileθ未收斂 do
Step2:D :Forj=0,1,2,…,kdo
Step3: 從隨機(jī)噪聲分布Pz(z)中采樣m個(gè)噪聲樣本
Step4: 從真實(shí)數(shù)據(jù)分布Pdata中采樣m個(gè)數(shù)據(jù)樣本
Step5:
Step6:w←w+l1?Adam( )w,dw
Step7: end for
Step8: G:從隨機(jī)噪聲分布Pz()z中采樣m個(gè)噪聲樣本
Step9:
Step10:θ←θ-l2?Adam( )θ,dθ
Step11:end while
本文實(shí)驗(yàn)在Ubuntu 14.04平臺上由Tensorflow 0.10編程實(shí)現(xiàn),處理器為Intel Core i5-6300HQ,2.9GHz四核CPU,內(nèi)存為4G,顯卡為GTX960,顯存為4G。
為了驗(yàn)證本文算法的可行性,實(shí)驗(yàn)在公開數(shù)據(jù)集MNIST上進(jìn)行。MNIST[21]是一個(gè)手寫數(shù)字?jǐn)?shù)據(jù)庫,內(nèi)容包含0-9的阿拉伯?dāng)?shù)字,它有60000個(gè)訓(xùn)練樣本圖像和10000個(gè)測試樣本圖像。數(shù)據(jù)集經(jīng)過了統(tǒng)一的標(biāo)準(zhǔn)化處理,每個(gè)字符圖像由28×28的像素構(gòu)成。
在實(shí)際實(shí)驗(yàn)中,為了減少計(jì)算代價(jià),引入的額外參數(shù)分布Q可以形式化為一個(gè)多層神經(jīng)網(wǎng)絡(luò),讓Q與鑒別網(wǎng)絡(luò)D共享大部分卷積層,僅在最后輸出層,以全連接層取代sigmoid層。由于GAN網(wǎng)絡(luò)難以訓(xùn)練,本實(shí)驗(yàn)的基礎(chǔ)網(wǎng)絡(luò)架構(gòu)采用DCGAN模型去穩(wěn)定訓(xùn)練,具體參數(shù)設(shè)置如表1和表2所示。通過與標(biāo)準(zhǔn)GAN模型在MNIST上生成的圖像作對比,得出試驗(yàn)結(jié)果如圖3所示。
表1 網(wǎng)絡(luò)參數(shù)設(shè)置
表2 網(wǎng)絡(luò)超參數(shù)設(shè)置
從圖 3 可以看出,與(a)相比,(b)和(c)生成的圖像質(zhì)量差別不大,較為明顯的是,(b)中生成的數(shù)字重復(fù)較多并且同一數(shù)字形態(tài)相似性較大表現(xiàn)出來更為“規(guī)整”,而反觀(c)中生成的數(shù)字形狀各異與真實(shí)圖像更為貼近。為了形式化表現(xiàn)生成數(shù)字的多樣性,將(b)和(c)中生成的數(shù)字個(gè)數(shù)加以統(tǒng)計(jì),得到圖4的生成數(shù)字分布對比圖。從圖4可以看出,標(biāo)準(zhǔn)GAN模型生成的圖像中,數(shù)字“0”的個(gè)數(shù)占比最高約為21%,而數(shù)字“6”的占比卻為0%。這表明生成器生成的樣本差異性較小,出現(xiàn)了較多的重復(fù)樣本,導(dǎo)致了樣本多樣性的丟失。而采用本文方法生成的數(shù)字分布較為均衡,有效的解決了“模式坍塌”的問題。
圖3 真實(shí)圖像、GAN生成圖像和本文方法生成圖像的對比
圖4 標(biāo)準(zhǔn)GAN和本文方法生成數(shù)字分布對比圖
GAN作為無監(jiān)督生成模型一個(gè)強(qiáng)有力的算法框架,已經(jīng)受到越來越多的廣泛關(guān)注。相對于傳統(tǒng)的生成模型,GAN引入了網(wǎng)絡(luò)對抗訓(xùn)練的機(jī)制,去逼近難以計(jì)算的概率分布,避免了對真實(shí)數(shù)據(jù)似然性的依賴。然而由于GAN訓(xùn)練過程難以收斂,導(dǎo)致在擬合真實(shí)數(shù)據(jù)分布的過程中常常出現(xiàn)模式的丟失或多個(gè)模式趨于同一模式的現(xiàn)象,從而生成的樣本缺乏多樣性。為此,本文受互信息理論的啟發(fā),在InfoGAN的基礎(chǔ)上提出了基于互信息最大化的正則方法,彌補(bǔ)了原始GAN優(yōu)化目標(biāo)的誤差,實(shí)驗(yàn)結(jié)果表明,所提算法在生成的圖像質(zhì)量不降低的前提下,樣本多樣性也更為豐富。下一步將深入研究生成器目標(biāo)函數(shù)對GAN訓(xùn)練的影響,提出更為直觀和穩(wěn)定的優(yōu)化目標(biāo)。
[1]Ian Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron Courville,and Yoshua Bengio.Generative adversarial nets.Advances in Neural Information Processing Systems.2014.2672–2680.
[2]Alec Radford,Luke Metz,Soumith Chintala.Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks.arXiv Preprint arXiv:1511.06434,2015.
[3]Odena,Augustus,Christopher Olah,and Jonathon Shlens.Conditional Image Synthesis With Auxiliary Classifier GANs.arXiv Preprint arXiv:1610.09585,2016.
[4]Reed,S.,Akata,Z.,Yan,X.,Logeswaran,L.,Schiele,B.,&Lee,H.Generative Adversarial Text to Image Synthesis.arXiv Preprint arXiv:1605.05396,2016
[5]Christian Ledig,Lucas Theis,Ferenc Huszar,Jose Caballero,Andrew Aitken,Alykhan Tejani,Johannes Totz,Zehan Wang,Wenzhe Shi.Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network.arXiv Preprint arXiv:1609.04802,2016.
[6]Jiajun Wu,Chengkai Zhang,Tianfan Xue,William T Freeman,Joshua B Tenenbaum.Learning a Probabilistic Latent Space of Object Shapes Via 3d Generative-Adversarial Modeling.In Neural Information Processing Systems(NIPS),2016.
[7]Michael Mathieu,Camille Couprie,Yann LeCun.Deep Multi-Scale Video Prediction Beyond Mean Square Error.arXiv Preprint arXiv:1511.05440,2015.
[8]Bengio,Y.,Thibodeau-Laufer,E.,Yosinski,J.Deep Generative Stochastic Networks Trainable by Backprop.International Conference on Machine Learning,2014.
[9]Hinton,G.E.,Osindero,S.,The,Y.A Fast Learning Algorithm for Deep Belief Nets.Neural Computation,2006,18,1527-1554.
[10]Salakhutdinov,R.and Hinton,G.E.Deep Boltzmann machines.In AISTATS,2009,448-455.
[11]Tong Che,Yanran Li,Athul Paul Jacob,et al.Mode Regularized Generative Adversarial Networks.International Conference on Learning Representations,2017.
[12]Hariharan Narayanan and Sanjoy Mitter.Sample Complexity of Testing the Manifold Hypothesis.In Advances In Neural Information Processing Systems,2010.23,1786-1794.
[13]Mehdi Mirza and Simon Osindero.Conditional Generative Adversarial Nets.arXiv Preprint arXiv:1411.1784,2014.
[14]Sebastian Nowozin,Botond Cseke,Ryota Tomioka.f-gan:Training Generative Neural Samplers Using Variational Divergence Minimization.arXiv Preprint arXiv:1606.00709,2016.
[15]Daniel Jiwoong Im,He Ma,Chris Dongjoo Kim,Graham Taylor.Generative Adversarial Parallelization.arXiv Preprint arXiv:1612.04021,2016.
[16]Tim Salimans,Ian Goodfellow,Wojciech Zaremba,Vicki Cheung,Alec Radford,Xi Chen.Improved Techniques for Training Gans.arXiv Preprint arXiv:1606.03498,2016.
[17]Ferenc Huszar.InfoGAN:using the Variational Bound on Mutual Information(twice).http://www.inference.vc/infogan-variationalbound-on-mutual-information-twice/,2016.
[18]Yingzhen Li.GANs,Mutual Information,and Possibly Algorithm Selection.http://www.yingzhenli.net/home/blog/?p=421.
[19]Chen,Xi,et al.Infogan:Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets.arXiv Preprint arXiv:1606.03657,2016.
[20]D.Barber and F.V.Agakov.The IM Algorithm:A Variational Approach to Information Maximization.In Conference on Neural Information Processing Systems,2003.
[21]LeCun,Y.,Bottou,L.,Bengio,Y.,Haffner,P.Gradient-Based Learning Applied to Document Recognition.Proceedings of the IEEE,1998,86(11),2278-2324.
[22]Diederik P.Kingma and Jimmy Ba.Adam:A Method for Stochastic Optimization.arXiv Preprint arXiv:1412.6980,2014.
Abstract:Currently,one of the great difficulty of Generation adversarial nets(GAN)is the prevalence of non-convergence in the training dynamics of model,and its most prominent manifestation is the mode collapse phenomenon,which leads to the lack of diversity of the target object.First explains the theoretical method of the original GAN from the perspective of information theory.On this basis,proposes a regular method based on maximization of the mutual information.By maximizing the mutual information between the noise source and the generated sam?ples,it provides an upper bound function of the objective that forces the produced data distribution to converge more toward the real data distribution.The experimental results of MNIST data show that the maximization of the mutual information introduced is useful to increase the diversity of samples.
Keywords:Generative Adversarial Nets;Mode Collapse;Diversity;Mutual Information;Upper Bound Function
Generative Adversarial Nets Based on Mutual Information Maximization Regularity
PU Yu,WANG Xiao-Feng
(College of Information Engineering,Shanghai Maritime University,Shanghai 201306)
1007-1423(2017)26-0057-06
10.3969/j.issn.1007-1423.2017.26.015
浦煜(1992-),男,安徽合肥人,碩士研究生,研究方向?yàn)樯疃葘W(xué)習(xí)、數(shù)據(jù)挖掘
王曉峰(1958-),男,遼寧燈塔人,工學(xué)博士,教授,研究方向?yàn)槿斯ぶ悄芗捌湓诮煌ㄐ畔⑴c控制工程中的應(yīng)用、數(shù)據(jù)挖掘與知識發(fā)現(xiàn)
2017-06-02
2017-09-10