• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于實(shí)值RBM 的深度生成網(wǎng)絡(luò)研究*

      2021-02-25 12:15:56丁世飛張成龍
      軟件學(xué)報(bào) 2021年12期
      關(guān)鍵詞:實(shí)值高斯分布流形

      張 健,丁世飛,丁 玲,張成龍

      1(中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州 221116)

      2(礦山數(shù)字化教育部工程研究中心,江蘇 徐州 221116)

      3(中國(guó)礦業(yè)大學(xué) 徐海學(xué)院,江蘇 徐州 221008)

      近年來(lái),深度學(xué)習(xí)引起了廣泛關(guān)注.基于概率圖和神經(jīng)網(wǎng)絡(luò)的受限玻爾茲曼機(jī)(restricted Boltzmann machine,簡(jiǎn)稱RBM)、變分自編碼(variational autoencoder,簡(jiǎn)稱VAE)和生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,簡(jiǎn)稱GAN)被廣泛應(yīng)用于圖像分類和圖像生成任務(wù)中[1,2].與此同時(shí),近年來(lái)對(duì)RBM 的研究遇到了一些困難[3,4],其原因在于,其他方法、特別是GAN 在實(shí)踐中效果更好.事實(shí)上,RBM 及其衍生模型一般都有足夠的特征表達(dá)能力來(lái)學(xué)習(xí)復(fù)雜的數(shù)據(jù)分布,其應(yīng)用和拓展上的困難往往出現(xiàn)在訓(xùn)練過(guò)程中,RBM 訓(xùn)練需要顯式的激活概率和梯度表達(dá)式.因此對(duì)于RBM 而言,在保證顯式梯度前提下構(gòu)建有效的方法來(lái)學(xué)習(xí)數(shù)據(jù)分布是比較困難的.為了建模實(shí)值數(shù)據(jù),人們提出了多種實(shí)值RBM 模型[5-7].但是RBM 模型的特征表達(dá)問(wèn)題和深度拓展問(wèn)題一直沒有得到很好的解決.具體而言,RBM 最常用的訓(xùn)練算法是基于Gibbs 采樣的對(duì)比散度算法(contrastive divergence,簡(jiǎn)稱CD)算法,而在CD 算法中,可見層單元的狀態(tài)x?總是從條件概率p(x|h)中采樣得到,因此,一個(gè)充分參數(shù)化且易學(xué)習(xí)的條件概率p(x|h)對(duì)于建模數(shù)據(jù)分布而言是非常重要的.通常我們希望可見層單元的邊緣概率和條件概率具有足夠的表達(dá)能力,從而最大程度地?cái)M合數(shù)據(jù)分布.然而在大多數(shù)RBM 中,隱藏層單元是二值的,二值隱藏層單元限制了RBM 對(duì)可見層單元條件概率的參數(shù)化能力,因?yàn)榭梢妼訂卧臈l件概率是由基于二值隱藏層單元的高斯分布的組合確定的.

      為了有效地參數(shù)化可見層單元的激活概率并建模數(shù)據(jù)中的流形結(jié)構(gòu),本文在可見層單元和隱藏層單元之間增加二值的輔助單元從而實(shí)值化可見層單元和隱藏層單元,并在RBM 的能量函數(shù)中引入了Laplacian 正則化項(xiàng)來(lái)構(gòu)建特征化的隱藏層單元表達(dá),由此提出了基于輔助單元的受限玻爾茲曼機(jī)(restricted Boltzmann machine with auxiliary units,簡(jiǎn)稱ARBM).具體而言,假設(shè)ARBM 中的可見層單元和隱藏層單元服從截?cái)喔咚狗植?模型參數(shù)化截?cái)喔咚狗植贾械钠谕蛥f(xié)方差.基于實(shí)值隱藏層單元,可見層單元的條件激活概率可以看作是無(wú)限數(shù)量的截?cái)喔咚狗植嫉募訖?quán)和,從而能夠擬合復(fù)雜的數(shù)據(jù)分布.在ARBM 中,基于二值輔助單元和圖正則化項(xiàng),當(dāng)樣本靠近數(shù)據(jù)流形時(shí),它有更高的概率被映射為參數(shù)化的截?cái)喔咚狗植?反之,遠(yuǎn)離流形的樣本更可能被映射為高斯噪聲.輔助單元的另一個(gè)作用是緩解過(guò)擬合問(wèn)題,過(guò)擬合在神經(jīng)網(wǎng)絡(luò)和RBM 的訓(xùn)練中普遍存在,而dropout方法是緩解過(guò)擬合問(wèn)題的常用方法.在基于dropout 方法的RBM 模型中,可見層和隱藏層中的部分單元被隨機(jī)屏蔽,這可能會(huì)影響RBM 的特征提取能力和圖像重構(gòu)能力[8-10].而在ARBM 中,輔助單元控制可見層單元和隱藏層單元的激活概率,并在一定程度上保留了單元的隨機(jī)性.當(dāng)輔助單元被激活時(shí),ARBM 的可見層單元和隱藏層單元以參數(shù)化的條件概率形式被激活.當(dāng)輔助單元滅活時(shí),可見層單元和隱藏層單元的條件概率退化為高斯噪聲.此時(shí)類似于dropout 方法,基于ARBM 的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程可以也看作是一個(gè)去噪過(guò)程.為了建立深度生成模型并獲得銳利的生成圖像,本文基于ARBM 提出了基于附加單元的實(shí)值深度置信網(wǎng)(real-valued deep belief net with auxiliary units,簡(jiǎn)稱ADBN).本文首先驗(yàn)證了ARBM 的性能優(yōu)于常用的RBM 模型,然后利用ADBN 提取的深度特征作為條件,生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial net,簡(jiǎn)稱CGAN)的條件輸入,構(gòu)建了一個(gè)深度生成神經(jīng)網(wǎng)絡(luò).我們稱該模型為基于輔助深度特征的條件生成對(duì)抗網(wǎng)絡(luò)(conditional GAN with auxiliary deep features,簡(jiǎn)稱ACGAN).本文的主要貢獻(xiàn)可以概括如下:

      (1) 在可見層和隱藏層之間引入二值附加單元,提出了ARBM 模型.基于能量函數(shù)中的圖正則化項(xiàng)和附加單元,,靠近數(shù)據(jù)流形的樣本有更高的概率被參數(shù)化為截?cái)喔咚狗植嫉男问?遠(yuǎn)離流形的樣本有更高的概率被映射為高斯噪聲,因此,ARBM 可以有效地學(xué)習(xí)數(shù)據(jù)中的流形結(jié)構(gòu),并將其表示為隱藏層的參數(shù)化特征;

      (2) 為了構(gòu)建有效的深度生成模型,本文將ADBN 提取的深度特征用作CGAN 的附加輸入,提出了ACGAN模型.與傳統(tǒng)的隨機(jī)噪聲相比,這些深度特征能為GAN 提供更穩(wěn)定有效的初始狀態(tài),從而生成高質(zhì)量的圖像、緩解GAN 模型訓(xùn)練不穩(wěn)定的問(wèn)題.

      本文第1 節(jié)介紹基礎(chǔ)理論,包括RBM 和CGAN.第2 節(jié)詳細(xì)介紹ARBM 及其相應(yīng)的深生成模型ADBN 和ACGAN.在第3 節(jié)中,本文通過(guò)實(shí)驗(yàn)驗(yàn)證所提出模型的有效性.最后一部分是結(jié)論和展望.

      1 相關(guān)工作

      1.1 受限玻爾茲曼機(jī)

      典型的RBM 模型由可見層x和隱藏層h組成,RBM 的聯(lián)合概率可以通過(guò)能量函數(shù)來(lái)定義,RBM 模型及其基于Gibbs 采樣的訓(xùn)練過(guò)程示意圖可以表示為圖1 的形式.

      Fig.1 Topology of an RBM and its training process圖1 RBM 的拓?fù)浣Y(jié)構(gòu)及其訓(xùn)練過(guò)程

      在圖1 中,W是可見層和隱藏層之間的權(quán)值矩陣.如果可見層單元和隱藏層單元是二值的,那么能量函數(shù)可以定義如下:

      其中,a和b是RBM 的偏置,x表示可見層向量,h表示隱藏層向量,W是權(quán)值矩陣.基于能量函數(shù)E(x,h),聯(lián)合分布可以表示為p(x,h)=Z-1exp(-E(x,h)),可見層單元和隱藏層單元的激活函數(shù)可以表示如下:

      典型RBM 模型的目標(biāo)是最大化其邊緣分布p(x)的log 似然,這個(gè)目標(biāo)函數(shù)可以表示為

      根據(jù)極大似然估計(jì),似然函數(shù)關(guān)于參數(shù)的梯度可以表示如下:

      將公式(5)表示為期望的形式,可以得到:

      如公式(6)所示:等式右邊的第1 項(xiàng)稱為模型期望,第2 項(xiàng)稱為數(shù)據(jù)期望,兩個(gè)期望的差值決定了似然函數(shù)關(guān)于參數(shù)的梯度.直觀上看,數(shù)據(jù)期望給出了參數(shù)迭代的起始條件,模型期望提供了迭代的終止條件.隨著迭代的進(jìn)行,數(shù)據(jù)期望和模型期望逐漸接近,RBM 的訓(xùn)練隨迭代趨于穩(wěn)定.此時(shí),RBM 模型建模了輸入樣本的分布特性.然而在大樣本下,精確地計(jì)算這兩個(gè)期望是非常困難的,尤其是模型期望.因此,為了降低RBM 訓(xùn)練的復(fù)雜度,需要對(duì)似然函數(shù)的梯度做近似.為此,Hinton 等學(xué)者提出了對(duì)比散度算法(contrastive divergence,簡(jiǎn)稱CD)來(lái)近似似然函數(shù)的梯度.除了對(duì)比散度算法,還有其他一些類型的方法可以用于近似計(jì)算RBM 的梯度[11-13].

      1.2 條件生成對(duì)抗網(wǎng)絡(luò)

      作為近些年最受關(guān)注的生成模型,生成對(duì)抗網(wǎng)絡(luò)(generative adversarial net,簡(jiǎn)稱GAN)得到了廣泛的應(yīng)用.GAN 的優(yōu)勢(shì)在于可以回避難以直接計(jì)算的基于模型分布的積分函數(shù),只使用反向傳播就可以根據(jù)梯度訓(xùn)練生成模型,不需要推理.此外,當(dāng)生成器和判別器在某些額外的條件y的約束下,可以將GAN 擴(kuò)展到條件模型:條件生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial net,簡(jiǎn)稱CGAN).其中,y可以是任何類型的輔助信息,例如類標(biāo)簽或來(lái)自其他模態(tài)的數(shù)據(jù).可以通過(guò)將y作為附加輸入傳遞給判別器和生成器來(lái)執(zhí)行該條件[14].CGAN 的目標(biāo)函數(shù)可以用公式(7)表示:

      圖2 是一個(gè)典型的CGAN 的網(wǎng)絡(luò)結(jié)構(gòu).

      Fig.2 Structure of a CGAN圖2 CGAN 的結(jié)構(gòu)圖

      作為一個(gè)CGAN 模型,其輸入的條件y是非常重要的.模型可以根據(jù)條件y所包含的信息完成特定的任務(wù),不僅可以將CGAN 用于監(jiān)督和半監(jiān)督任務(wù),本文還使用深度特征作為條件輸入,從而增強(qiáng)模型在圖像生成任務(wù)中的有效性.

      2 基于附加單元的受限玻爾茲曼機(jī)及其深度神經(jīng)網(wǎng)絡(luò)擴(kuò)展

      2.1 基于附加單元的受限玻爾茲曼機(jī)

      首先,我們通過(guò)直觀的方式分析二值單元在RBM 特征表達(dá)方面存在的不足.為了方便表述,假設(shè)模型有一個(gè)隱藏層單元,且只考慮單個(gè)樣本的情形.根據(jù)模型的獨(dú)立性假設(shè),在此基礎(chǔ)上,可以很方便地推廣到多樣本多隱藏層單元的情形.二值RBM 不能有效地建模實(shí)值數(shù)據(jù),是因?yàn)閷?duì)實(shí)值數(shù)據(jù)二值化的過(guò)程中,數(shù)據(jù)中一些重要的相關(guān)性信息可能會(huì)丟失.為了建模實(shí)值數(shù)據(jù),傳統(tǒng)的Gaussian-binary RBM 假設(shè)其可見層單元的條件概率服從 高斯分布,其隱藏層單元為二值的.基于極大似然估計(jì),目標(biāo)函數(shù)可以表示為L(zhǎng)= logp(x) = log ∑ip(x,hi),其中,h是二值單元.基于二值隱藏層單元h,可見層單元的條件概率p(x|h)可以表示為兩種形式:p(x|h=0)和p(x|h=1).因此,RBM 可見層單元的邊緣概率可以進(jìn)一步分解為p(x)=p(x|h=0)p(h=0)+p(x|h=1)p(h=1),其中,p(x|h=0)和p(x|h=1)為高斯分布.基于二值的隱藏層單元,可見層單元的邊緣分布可以看作是p(x|h=0)和p(x|h=1)的加權(quán)和.這個(gè)過(guò)程可以表示為圖3 的形式.

      如果一個(gè)分布的密度函數(shù)p(y)可以寫成p(y) =∑ip(yi),當(dāng)i→∞且p(yi)是高斯分布的時(shí)候,p(y)可以用于擬 合任何連續(xù)分布函數(shù).然而在傳統(tǒng)的實(shí)值RBM 中,圖3 中p(x|h=0)和p(x|h=1)的組合(兩個(gè)高斯分布的加權(quán)和)很難擬合一個(gè)復(fù)雜數(shù)據(jù)分布;而當(dāng)RBM的隱藏層單元也是實(shí)值單元時(shí),可見層單元的邊緣概率可以看作是無(wú)數(shù) 高斯分布的加權(quán)和p(x) =∫p(x|h)p(h)dh,理論上可以擬合一個(gè)復(fù)雜連續(xù)的數(shù)據(jù)分布.因此,本文將RBM 的隱藏 層單元由二值單元拓展為實(shí)值單元.然而,高斯分布形式的激活函數(shù)在BP 算法中具有較高的計(jì)算復(fù)雜度且不穩(wěn)定,因此我們假設(shè)可見層單元和隱藏層單元服從截?cái)喔咚狗植?并由此近似神經(jīng)網(wǎng)絡(luò)中的ReLU激活函數(shù).為了建模嵌入在數(shù)據(jù)中的流形結(jié)構(gòu),本節(jié)在可見層和隱藏層之間增加輔助單元,然后將圖正則化項(xiàng)引入到能量函數(shù)中.基于二值輔助單元和圖正則化項(xiàng),流形上的數(shù)據(jù)有更高的概率被映射為參數(shù)化的截?cái)喔咚狗植?同時(shí),遠(yuǎn)離流形的數(shù)據(jù)更可能被映射為高斯噪聲.ARBM 的結(jié)構(gòu)如圖4 所示(其中,可見層單元和附加單元之間的連接值為權(quán)值W,二值輔助單元和實(shí)值隱藏層單元之間是一一對(duì)應(yīng)的關(guān)系).

      Fig.3 A sketch map of Unweighted marginal distribution of the visible units in a Gaussian-binary RBM圖3 Gaussian-binary RBM 中可見層單元未加權(quán)的邊緣分布示意圖

      Fig.4 Structure of the ARBM圖4 ARBM 的結(jié)構(gòu)圖

      ARBM 的能量函數(shù)可以表示如下:

      其中,x和h被截?cái)嘣趨^(qū)間[0,+∞],diag(α)和diag(β)是對(duì)角矩陣,c是偏置,ε是當(dāng)前樣本與其所在mini-batch 內(nèi)其他樣本之間的圖相似性系數(shù).圖相似性系數(shù)可以使用高斯擴(kuò)散核(Gaussian diffusion kernel)的形式計(jì)算:

      其中,d(i,j)是歐氏距離;σ是用于平衡數(shù)量級(jí)的超參數(shù);Σ是N×N的矩陣,且 ε(i) = (1/N)∑j∑(i,j).基于公式(9),聯(lián) 合概率和條件概率可以表示為

      其中,I(·)是示性函數(shù),NT表示截?cái)喔咚狗植?輔助單元用于控制隱藏層單元和可見層單元的激活概率.基于公式(12)和公式(13),可見層單元和隱藏層單元的條件概率可以表示為截?cái)喔咚狗植?實(shí)值隱藏層單元可以為可見層單元的條件概率提供更靈活的期望.接下來(lái),本文從理論上討論流形學(xué)習(xí)和輔助單元的作用.

      命題1.在ARBM 中,可見層單元和隱藏層單元都是條件獨(dú)立的,為了方便表述,我們假設(shè)樣本和特征都是一維的.給定一個(gè)mini-batch 的樣本,截?cái)喔咚狗植嫉钠谕铅?1(xWz)+β-1(f(0)/S(0)),協(xié)方差是β-1-β-1(xWz) (f(0)/S(0))-β-2(f(0)/S(0))2,其中,f(h)=p(h|z,x),S(h)=1-P(h|z,x).對(duì)于一個(gè)樣本而言,當(dāng)它靠近數(shù)據(jù)流形時(shí),其對(duì)應(yīng)的 隱式表達(dá)具有更高的概率密度,并且該樣本以近似為p(z=1|x)的概率被映射到以β-1vW為中心、為鄰域 的區(qū)間內(nèi);反之,當(dāng)樣本點(diǎn)遠(yuǎn)離流形時(shí),它以p(z=0|x)的近似概率被映射為高斯噪聲N(0,β-1).

      證明:假設(shè)一個(gè)mini-batch 包含N個(gè)樣本,基于公式(9),如果樣本x(i)位于流形附近,其相似性系數(shù)ε(i)則會(huì)相對(duì)較高.與x(i)對(duì)應(yīng)的附加單元z(i)以概率p(z(i)=1|x)激活,與相似性系數(shù)ε(i)正相關(guān).因此,流形上的樣本對(duì)應(yīng)于p(z(i)=1|x)的高條件概率.當(dāng)z(i)=1,隱藏層單元的條件概率可以表達(dá)為NT(β-1(xW),β-1).根據(jù)高斯分布置信區(qū)間的概念,從高斯分布中獲得的樣本以超過(guò)99.74%的概率位于區(qū)間[μ-3σ,μ+3σ].因此在本文中,對(duì)于截?cái)喔咚狗植?這個(gè)概率大于99.74%,本節(jié)假設(shè)這個(gè)概率可以近似為1.因此,樣本以近似概率p(z=1|x)被映射到區(qū)間[μ-3σ,μ+3σ],且μ=β-1xW.如果x(j)不在流形附近,其相似性系數(shù)ε(j)會(huì)偏小,其對(duì)應(yīng)的附加單元z(j)更可能以p(z=0|x)激活.當(dāng)z=0,隱藏層單元的條件概率可以表示為NT(0,β-1).因此,基于公式(12),樣本x(j)在近似概率p(z(j)=0|x(j))下被映射到高斯噪聲NT(0,β-1).截?cái)喔咚狗植嫉钠谕梢员硎緸?/p>

      其中,μ=β-1(xWz),f(0)=p(h=0|z,x),σ2=β-1.根據(jù)期望和協(xié)方差的關(guān)系可知,h的協(xié)方差是Var(h|h>0)=E(h2|h>0)-E(h|h>0)2,期望E(h2|h>0)可以表示為

      因此,Var(h|h>0)=σ2-μσ2(f(0)/S(0))-(σ2(f(0)/S(0)))2.

      基于命題1,在ARBM 中,如果樣本位于流形附近,則更有可能映射到參數(shù)化概率,并且可以學(xué)習(xí)到流形特征保留在隱藏層中;反之,如果樣本遠(yuǎn)離流形,則更有可能退化為隱藏層的高斯噪聲.

      ARBM 可以用CD 算法訓(xùn)練,似然函數(shù)關(guān)于參數(shù)的梯度可以表示為

      能量函數(shù)的梯度可以表示為

      在ARBM 中,為了計(jì)算截?cái)喔咚狗植枷碌钠谕?借鑒高斯圖模型,本章采用文獻(xiàn)[15,16]中的方法.ARBM還可以經(jīng)過(guò)逐層堆疊構(gòu)建深度置信網(wǎng),本文將其稱為基于附加單元的深度置信網(wǎng)(deep belief net an auxiliary units deep belief net,簡(jiǎn)稱ADBN).

      2.2 基于ARBM的深度生成模型

      ARBM 本身作為一種概率圖模型,既可以用于判別任務(wù),也可以用于生成任務(wù).本文關(guān)注的重點(diǎn)是基于ARBM 的生成模型.由于ARBM 本身是一種單隱藏層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其特征表達(dá)能力有限,因此我們需要根據(jù)ARBM 模型構(gòu)建相應(yīng)的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).

      首先,我們構(gòu)建了一個(gè)基于ARBM 的深度置信網(wǎng),該神經(jīng)網(wǎng)絡(luò)含有2 個(gè)隱藏層,本文稱其為基于附加單元的實(shí)值深度置信網(wǎng)(real-valued deep belief net with auxiliary units,簡(jiǎn)稱ADBN),該ADBN 的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示.

      Fig.5 Structure of an ADBN圖5 ADBN 模型的結(jié)構(gòu)圖

      ARBM 和ADBN 可以直接用于圖像生成和圖像分類任務(wù),但由于RBM 訓(xùn)練過(guò)程中的標(biāo)準(zhǔn)卷積運(yùn)算和最大池化運(yùn)算是不可逆的,因此ARBM 很難與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合構(gòu)建深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu).為了建立更強(qiáng)大的深度神經(jīng)網(wǎng)絡(luò),我們利用ADBN 提取的深層特征作為條件GAN(CGAN)的條件輸入數(shù)據(jù),建立深層生成神經(jīng)網(wǎng)絡(luò).GAN 被訓(xùn)練以最小化數(shù)據(jù)分布與模型分布之間的距離,而不是最大化似然函數(shù).然而GAN 訓(xùn)練是不穩(wěn)定的,通常觀察到具有相似結(jié)構(gòu)和超參數(shù)的生成器在不同的訓(xùn)練批次中表現(xiàn)出顯著不同的行為.雖然RBM 訓(xùn)練需要使用基于采樣的算法,但RBM 的優(yōu)勢(shì)在于不存在模式丟失問(wèn)題且RBM 訓(xùn)練是穩(wěn)定的.為了充分利用ARBM 的優(yōu)勢(shì),并結(jié)合卷積操作生成清晰銳利的圖像,本文利用ADBN 提取的深度特征作為CGAN 的條件輸入y,建立卷積深度生成神經(jīng)網(wǎng)絡(luò),與傳統(tǒng)的隨機(jī)噪聲相比,這些深層特征能為GAN 提供更穩(wěn)定的初始狀態(tài).我們稱這種深度生成神經(jīng)網(wǎng)絡(luò)為基于輔助深度特征的條件生成對(duì)抗網(wǎng)絡(luò)(conditional GAN with auxiliary deep features,簡(jiǎn)稱ACGAN),其模型結(jié)構(gòu)如圖6 所示.

      Fig.6 Structure of an ACGAN圖6 ACGAN 模型的結(jié)構(gòu)圖

      圖6 是ACGAN 的模型結(jié)構(gòu)圖,模型的訓(xùn)練分為兩部分:首先,根據(jù)輸入圖像訓(xùn)練一個(gè)ADBN 模型,在訓(xùn)練好的ADBN 模型基礎(chǔ)上,將輸入圖像傳遞給ADBN 得到特征;該特征用作CGAN 的附加輸入y傳遞到CGAN 的生成器和判別器,同時(shí),圖像輸入也用作CGAN 判別器中的真實(shí)樣本.模型的目標(biāo)函數(shù)可以表示為

      其中,x來(lái)自于數(shù)據(jù)集.ADBN(x)是由ADBN 得到的特征,該特征作為CGAN 的附加輸入.接下來(lái),本文通過(guò)實(shí)驗(yàn)驗(yàn)證ARBM,ADBN 和ACGAN 的有效性.

      3 實(shí)驗(yàn)分析

      在實(shí)驗(yàn)中,我們嘗試驗(yàn)證基于ARBM 的模型在圖像生成和圖像重構(gòu)任務(wù)中的有效性.實(shí)驗(yàn)主要分為兩部分:一部分是圖像重構(gòu),另一部分是圖像生成.為了驗(yàn)證ARBM 能夠?qū)W習(xí)數(shù)據(jù)分布的流形結(jié)構(gòu),我們首先在3 個(gè)人工數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),其中使用的基于RBM 的模型具有完全相同的網(wǎng)絡(luò)結(jié)構(gòu).結(jié)果如圖7 所示.

      Fig.7 Comparison of ARBM with other models on three artificial datasets圖7 3 個(gè)人工數(shù)據(jù)集上ARBM 與其他模型的比較

      圖7 由4 列樣本組成,其中,

      ? 第1 列樣本是原始數(shù)據(jù);

      ? 第2 列樣本是由Gaussian-binary RBM 重構(gòu)得到的,Gaussian-binary RBM 是一種可見層單元為實(shí)值、隱藏層單元為二值的RBM 模型;

      ? 第3 列樣本由受限截?cái)喔咚箞D模型(RTGMM)重構(gòu)得到.RTGMM 是在2017 年提出的一種無(wú)向概率圖,其可見層單元和隱藏層單元都是實(shí)值的.不同于ARBM,RTGMM 由一個(gè)可見層和一個(gè)隱藏層組成,其可見層單元和隱藏層單元是直接連接的;

      ? 最后一列樣本由ARBM 重構(gòu)得到.

      如圖7 所示,標(biāo)準(zhǔn)的Gaussian-binary RBM 更傾向于把模型密度散布在其支撐數(shù)據(jù)集上.而不同于Gaussian- binary RBM,ARBM 能夠?qū)W習(xí)這3 個(gè)數(shù)據(jù)集的分布特征,并識(shí)別出數(shù)據(jù)分布上的流形結(jié)構(gòu).

      接下來(lái),本實(shí)驗(yàn)在真實(shí)數(shù)據(jù)集上測(cè)試 ARBM 和 ADBN 的圖像重構(gòu)能力.數(shù)據(jù)集有 MNIST,small Norb,Fashion 和Cifar-10.數(shù)據(jù)集的屬性見表1.

      Table 1 Attributes of data sets表1 數(shù)據(jù)集的屬性

      MNIST 數(shù)據(jù)集是由250 名來(lái)自不同人群的實(shí)驗(yàn)人員完成的手寫數(shù)字?jǐn)?shù)據(jù)集,其中包括MNIST 基本數(shù)據(jù)集、MNIST back-rand 數(shù)據(jù)集和MNIST back image 數(shù)據(jù)集等.Norb 是一個(gè)由灰度化的雙視角玩具圖像組成的數(shù)據(jù)集,包含5 類玩具(人、動(dòng)物、汽車、飛機(jī)、卡車),在不同的光照條件下,由相機(jī)系統(tǒng)從不同的角度進(jìn)行成像.本節(jié)實(shí)驗(yàn)將兩幅立體圖像的原始分辨率從108×108×2 降低到32×32×2,以加快實(shí)驗(yàn)速度.Fashion 數(shù)據(jù)集包含了10 個(gè)類別的圖像,分別是t-shirt,trouser,pullover,dress,coat,sandal,shirt,sneaker,bag,ankle boot.Cifar-10 是常用于目標(biāo)識(shí)別的計(jì)算機(jī)視覺數(shù)據(jù)集,它是8 000 萬(wàn)個(gè)微型圖像數(shù)據(jù)集的一個(gè)子集,由60 000 個(gè)32×32 分辨率的彩色圖像組成,包含10 對(duì)象類,每個(gè)類有6 000 個(gè)圖像.

      本實(shí)驗(yàn)在MNIST,small Norb 和Cifar-10 上測(cè)試了這些模型的圖像重構(gòu)能力,原始圖像如圖8 所示.

      Fig.8 Original images of MNIST,small Norb,and Cifar-10圖8 MNIST,small Norb 和Cifar-10 的原始圖像

      與GAN 不同,ARBM 和ADBN 的模式塌陷問(wèn)題并不嚴(yán)重.然而,似然函數(shù)過(guò)平滑的問(wèn)題阻礙了模型生成銳利的圖像.為了保持多模態(tài)特征并產(chǎn)生清晰的圖像,本文將提取的ADBN 特征作為CGAN 的條件輸入,測(cè)試了ACGAN 的生成能力.第1 個(gè)實(shí)驗(yàn)在MNIST 數(shù)據(jù)集上測(cè)試了所提出的ARBM,ADBN 的圖像重構(gòu)能力以及ACGAN 的圖像生成能力.所用的ARBM 具有1 000 個(gè)隱藏層單元,重構(gòu)和生成的圖像如圖9 所示.

      Fig.9 Reconstructed images and generated images on MNIST圖9 在MNIST 上的重構(gòu)圖像和生成的圖像

      在圖9 中,左數(shù)第1 張圖像是由ARBM 重構(gòu)的圖像,第2 張圖像是由ADBN 重構(gòu)的圖像.如圖9 所示,本文提出的ARBM 算法能夠提取手寫體圖像的邊緣特征,得到平滑的圖像.此外,ADBN 重構(gòu)的圖像相比于ARBM而言與原始圖像更為相似.第3 張圖像是由深度卷積生成對(duì)抗網(wǎng)絡(luò)(deep convolutional generative adversarial network,簡(jiǎn)稱DCGAN)生成的[17],DCGAN 是一種引入了深度卷積結(jié)構(gòu)的深度對(duì)抗生成網(wǎng)絡(luò),其目標(biāo)函數(shù)是最小化數(shù)據(jù)分布和模型分布之間的JS 散度.第4 張圖像是由WGAN-GP[18]生成的,WGAN-GP 將JS 散度替換為Wasserstein 距離并優(yōu)化求解方式,從而解決了JS 散度中距離度量問(wèn)題,是目前非常常用的圖像生成算法.第5 張圖像是由ACGAN 生成,可以看出,ACGAN 生成的圖像在細(xì)節(jié)上更接近原始圖像.

      接下來(lái),本文測(cè)試了所提出的模型在 small Norb 數(shù)據(jù)集上的圖像重構(gòu)能力和圖像生成能力.實(shí)驗(yàn)中,ACGAN 中的生成器有2 個(gè)全連接層和2 個(gè)反卷積層,判別器有2 個(gè)卷積層和2 個(gè)全連接層.生成器和判別器均采用leakyReLU 激活函數(shù)以及Batch-Norm.DCGAN,LSGAN 和WGAN-GP 具有與ACGAN 相同的網(wǎng)絡(luò)結(jié)構(gòu).生成器和判別器的初始學(xué)習(xí)率為8e-5.圖10 展示了模型在small Norb 上的重構(gòu)圖像.

      Fig.10 Reconstructed images and generated images on small Norb圖10 small Norb 上的重構(gòu)圖像和生成圖像

      在圖10 中,左數(shù)第1 張圖像由RTGMM 重構(gòu)得到.RTGMM 可以看作是一種實(shí)值單元的RBM 模型,能夠很好地結(jié)合到神經(jīng)網(wǎng)絡(luò)中.第2 張圖像由ARBM 重構(gòu)得到,第3 張圖像由ADBN 重構(gòu)得到.可以看出:相比于傳統(tǒng)的RBM 方法,ARBM 和ADBN 在small Norb 數(shù)據(jù)集上重構(gòu)的圖像更清晰.第4 張圖像是由DCGAN 生成的,第5 張圖像是由WGAN-GP 生成的,最后一張圖像由ACGAN 生成.可以看出,ACGAN 生成的圖像相對(duì)于其他常用的以GAN 為基礎(chǔ)的生成模型更為清晰、更接近于原始的圖像.接下來(lái),我們測(cè)試了模型在Fashion 數(shù)據(jù)集上的圖像重構(gòu)和圖像生成能力,得到的圖像如圖11 所示.

      Fig.11 Reconstructed images and generated images on Fashion圖11 Fashion 上的重構(gòu)圖像和生成圖像

      在圖11 中,第1 張圖像是由ADBN 重構(gòu)得到的.第2 張圖像由DCGAN 生成.第3 張圖像由LSGAN 生成,LSGAN 是一種深度對(duì)抗生成網(wǎng)絡(luò),其中,目標(biāo)函數(shù)被替換為均方誤差的形式.第4 張圖像由WGAN-GP 生成.最后一張圖像由ACGAN 生成.可以看出,ACGN 生成的Fashion 圖像更清晰、更接近原始圖像.

      Cifar-10 對(duì)于32×32 分辨率的圖像生成任務(wù)而言是困難的,因?yàn)镃ifar-10 是彩色的,其背景也更復(fù)雜.特別是對(duì)于沒有卷積結(jié)構(gòu)的淺層網(wǎng)絡(luò)(如ARBM),很難生成Cifar-10 數(shù)據(jù).本節(jié)嘗試使用兩個(gè)隱藏層的ADBN 來(lái)學(xué)習(xí)Cifar-10 數(shù)據(jù)集.在ADBN 中,第1 隱藏層有5 000 個(gè)單元,第2 隱藏層有1 500 個(gè)單元.ADBN 重構(gòu)的圖像和生成的圖像如圖12 所示.

      如圖12 所示:盡管ADBN 提取輸入圖像能夠可視化邊緣特征,但生成的圖像過(guò)于平滑和模糊.我們認(rèn)為,導(dǎo)致圖像模糊的主要原因是卷積運(yùn)算難以加入RBM 模型.因?yàn)樵赗BM 訓(xùn)練過(guò)程中,卷積和池化運(yùn)算是不可逆的.為了建立一個(gè)有效的基于ADBN 的深度卷積生成神經(jīng)網(wǎng)絡(luò),我們利用ADBN 提取的深度特征作為CGAN 的條件輸入數(shù)據(jù)提出ACGAN 模型,我們將ACGAN 生成的圖像與現(xiàn)有模型(例如DCGAN,WGAN-GP 和Real-NVP模型)生成的圖像進(jìn)行比較[19].Real-NVP 模型是一個(gè)非對(duì)抗性可逆生成神經(jīng)網(wǎng)絡(luò).在本實(shí)驗(yàn)中,為了生成彩色圖像,我們首先利用ADBN 模型生成Cifar-10 圖像,然后通過(guò)max-pooling 操作將生成的圖像下采樣到16×16,8×8和4×4 分辨率的特征圖像.這些特征被用作不同分辨率ACGAN 的條件輸入.從圖12 可以看出:盡管ACGAN 與其他模型相比生成相對(duì)清晰的圖像,但是生成圖像的顏色和部分輪廓受到條件輸入的影響,并且所有生成的圖像都不夠清晰.如何在Cifar-10 上生成清晰的圖像,仍然是我們未來(lái)研究的重點(diǎn).最后,我們定量分析了ACGAN模型生成圖像的質(zhì)量,所使用的指標(biāo)是FID,結(jié)果見表2.

      Fig.12 Generated images of DBM,real NVP,DCGAN,WGAN-GP,and ACGANmodels on cifar-10 dataset圖12 DBM,Real NVP,DCGAN,WGAN-GP,以及ACGAN 模型在Cifar-10 數(shù)據(jù)集上的生成圖像

      Table 2 FID of ACGAN and commonly used generative models表2 ACGAN 和常用生成模型的FID

      從表2 可以看出:相較于常用的生成模型,ACGAN 生成的圖像具有相對(duì)更低的FID.

      4 總結(jié)和展望

      本文將輔助變量和流形正則項(xiàng)引入到能量函數(shù)中,并使用實(shí)值隱藏層單元來(lái)模擬可見單位的概率.我們驗(yàn)證了ARBM 和ADBN 在圖像生成任務(wù)中的有效性.為了融合卷積深度神經(jīng)網(wǎng)絡(luò)生成清晰銳利的圖像,本文提出了一種ACGAN 模型.實(shí)驗(yàn)驗(yàn)證了該模型的有效性.但是,ARBM 仍然存在一些問(wèn)題,傳統(tǒng)的算法(PCD 算法和改變Gibbs 采樣)在訓(xùn)練ARBM 時(shí)是非常耗時(shí)的.目前,無(wú)向圖的訓(xùn)練算法主要有變分法、馬爾可夫鏈和基于對(duì)抗損失的訓(xùn)練方法.優(yōu)化無(wú)向圖的訓(xùn)練算法仍然是我們未來(lái)研究的重點(diǎn).

      猜你喜歡
      實(shí)值高斯分布流形
      多粒度實(shí)值形式概念分析
      利用Box-Cox變換對(duì)移動(dòng)通信中小區(qū)級(jí)業(yè)務(wù)流量分布的研究
      2種非對(duì)稱廣義高斯分布模型的構(gòu)造
      緊流形上的Schr?dinger算子的譜間隙估計(jì)
      迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
      Nearly Kaehler流形S3×S3上的切觸拉格朗日子流形
      實(shí)值多變量維數(shù)約簡(jiǎn):綜述
      一種基于改進(jìn)混合高斯模型的前景檢測(cè)
      雙正交周期插值小波函數(shù)的實(shí)值對(duì)稱性
      基于多故障流形的旋轉(zhuǎn)機(jī)械故障診斷
      象山县| 建水县| 陇西县| 邢台市| 汾西县| 始兴县| 孙吴县| 习水县| 乌兰浩特市| 万山特区| 建德市| 北碚区| 清河县| 博兴县| 舞钢市| 鄢陵县| 淮安市| 濮阳县| 临澧县| 延津县| 嘉荫县| 江西省| 赫章县| 泾源县| 邛崃市| 锦屏县| 呈贡县| 八宿县| 西乡县| 深水埗区| 航空| 财经| 紫云| 张家口市| 平山县| 科尔| 广西| 黔江区| 聂荣县| 怀集县| 军事|