孫亮 韓毓璇 康文婧 葛宏偉
實際應用問題中,同一事物通常可以通過不同途徑從不同角度進行表達.例如:多媒體記錄可以通過視頻描述,也可以通過音頻描述;網(wǎng)頁記錄可以通過其本身的信息描述,也可以通過超鏈接包含的信息描述;同一語義對象,可以用多種語言描述.此外,同一事物由于數(shù)據(jù)采集方法不同,也可以有不同的表達方法.例如:人臉識別問題中,人臉數(shù)據(jù)可以采集成二維,也可以采集成三維;指紋識別問題中,同一指紋可以通過不同采集器采集出不同的印痕.上述每一類型數(shù)據(jù)稱為一個特定視圖,多類型數(shù)據(jù)的總體稱為多視圖數(shù)據(jù).針對多視圖數(shù)據(jù)的分析研究,已經(jīng)引起機器學習研究者的關注[1?4].按不同任務,已有方法可分為多視圖子空間學習[5?6]、多視圖字典學習[7?8]、多視圖度量學習[9]等.完成這些任務的重要工作是獲得視圖間的匹配關系,可以通過協(xié)同訓練[10?11]、協(xié)同映射[12?13]、信息傳播[14]等方法實現(xiàn).在實現(xiàn)過程中,通常要求每個實例的所有視圖都是完整的.然而,現(xiàn)實問題中數(shù)據(jù)通常獨立地收集、處理和存儲,受環(huán)境因素的影響,給定一實例,通常很難獲得其所有視圖的數(shù)據(jù).因此,利用已掌握的單一視圖,通過生成式方法獲得其他視圖數(shù)據(jù),能夠更全面地認識事物,對其進行更準確的表達[4],具有重要的意義.
給定單一視圖,首先需要解決的問題是構建它的恰當表示,即表征.傳統(tǒng)的手動提取特征方法需要大量的人力并且依賴于專業(yè)知識,同時還不便于推廣.隨著深度學習技術的發(fā)展,通過深度神經(jīng)網(wǎng)絡(Deep neural networks,DNN)學習事物的表征獲得了成功[15?17],它允許算法使用特征的同時也提取特征,避免了手動提取特征的繁瑣,能夠獲得單一視圖恰當?shù)谋碚鱗18].通過單一視圖的表征構建完整視圖,表征中不僅需要包含其本身的信息,而且這些信息能夠用來構建其他視圖.為解決該問題,已有方法主要在表征空間通過最大化不同視圖間相互關系[1]、最小化不同視圖間差異[19]、為差異添加懲罰因子[20?21]、典型相關分析[22]等方法實現(xiàn).然而,由于現(xiàn)實世界數(shù)據(jù)的復雜性,如何構建適用于多視圖的有效表征,仍然是需要研究和解決的問題.
利用單一視圖的表征,通過生成式方法構建完整視圖依賴于生成模型的好壞,需要根據(jù)學習而來的模型生成新樣本.傳統(tǒng)的生成式方法包括極大似然估計法[23]、近似法[24]、馬爾科夫鏈法[25]等.與此同時,基于DNN構建的生成式模型也獲得了成功,典型的網(wǎng)絡結構包括循環(huán)神經(jīng)網(wǎng)絡(Recurrent neural networks,RNN)[26]、卷積神經(jīng)網(wǎng)絡(Convolutional neural networks,CNN)[27]、變分自編碼器(Variation autoencoders,VAE)[28]、生成對抗網(wǎng)絡(Generative adversarial networks,GAN)[29?30]等.這些方法針對已掌握的數(shù)據(jù)進行分布假設和參數(shù)學習.然而在實際應用過程中,不同視圖(例如圖像、視頻、傳感器等)的數(shù)據(jù)數(shù)量巨大,并且都非常復雜、冗余并且異構[31],如何在生成模型中融入已有視圖的表征信息,仍然是需要研究和解決的問題.
本文的主要工作集中于利用已知單一視圖,通過生成式方法構建其他視圖.為構建適用于多視圖的表征,提出一種新型表征學習方法,該方法通過DNN來實現(xiàn).首先,對于每一視圖,分別搭建DNN,通過逐層轉換與表達,借助DNN的無限擬合能力將數(shù)據(jù)映射至特征空間.通過構建并優(yōu)化訓練過程中的損失函數(shù),將同一實例的不同視圖映射至相同或相近的表征向量.在眾多生成式模型中,生成式對抗網(wǎng)絡(GAN)在結構上受博弈論中二人零和博弈啟發(fā),通過構建生成模型和判別模型捕捉真實數(shù)據(jù)樣本的潛在分布并生成新的數(shù)據(jù)樣本.與其他生成式模型不同,GAN避免了馬爾科夫鏈式的學習機制,使得真實數(shù)據(jù)樣本概率密度不可計算時,模型依然可以應用.為在生成模型中融入已有視圖的表征信息,本文提出基于GAN的生成式模型.對于每一視圖,分別搭建GAN,在生成模型和判別模型的輸入端加入隨機變量和原始數(shù)據(jù)及已有視圖生成的表征信息,使得生成模型能夠生成與已有視圖相對應的新視圖數(shù)據(jù).綜上所述,本文的主要貢獻包括:1)提出基于DNN的多視圖表征學習方法,對于同一實例,將不同視圖數(shù)據(jù)映射至相同或相近的表征向量,避免了視圖間的直接映射;2)對于每一視圖,分別搭建DNN,訓練過程中將每一對視圖的DNN組合訓練,不需要訓練數(shù)據(jù)的完整視圖,解決了訓練數(shù)據(jù)不完整問題;3)提出基于GANs的多視圖數(shù)據(jù)生成方法,將已知視圖的表征向量加入生成模型和判別模型中,解決了新視圖數(shù)據(jù)與已知視圖數(shù)據(jù)正確對應的問題.
本文章節(jié)安排如下:第1節(jié)用數(shù)學模型描述要解決的多視圖重構問題;第2節(jié)提出基于DNN的多視圖表征學習方法;第3節(jié)提出基于GANs的多視圖數(shù)據(jù)生成方法;第4節(jié)通過手寫體數(shù)字數(shù)據(jù)集MNIST,街景數(shù)字數(shù)據(jù)集SVHN和人臉數(shù)據(jù)集CelebA驗證提出方法的有效性,并與其他已有算法進行比較分析;第5節(jié)總結全文,并指出進一步的研究方向.
假定χ為一組包含n個實例,v個視圖的實例集,每一實例表示為其中表示第i個實例的第k個視圖數(shù)據(jù),dk為第k個視圖的維度.與此同時,每一實例對應指示向量表示視圖數(shù)據(jù)可觀測,表示不可觀測.
本文工作的主要目標是通過一組訓練實例χ構建生成模型,給定任意測試實例的源視圖預測其他視圖,使得生成模型獲得的視圖接近真實視圖即最大化條件概率為表述方便,記可觀測的第k個視圖為x(k).
給定第k個視圖數(shù)據(jù)x(k),通過構造DNN編碼模型,可以將其編碼成低維向量c(k),假設網(wǎng)絡的映射函數(shù)為f(k)(x(k)),則c(k)=f(k)(x(k)).為所有視圖分別構造編碼模型,可以得到v個DNN.這種表示不能獲得多視圖相同或相近的表征.因此,借助DNN 能夠逼近任意函數(shù)的能力,將x(1),x(2),···,x(v)映射至相同的表征空間,如圖1(a)所示.為了保證同一實例的不同視圖映射至同一表征向量,在網(wǎng)絡訓練過程中,對任意一對視圖k和r,最小化目標向量間的JS散度,網(wǎng)絡優(yōu)化的目標函數(shù)定義為
其中,θ1,θ2,···,θv分別為v個 DNN 網(wǎng)絡中的所有參數(shù),KL(P1kP2)表示分布函數(shù)P1與P2間的KL散度.實際應用過程中,為保證表征信息的緊湊性,將設置為較低維度.
圖1 多視圖表征向量映射Fig.1Multi-view representative vector mapping
圖1(a)的網(wǎng)絡結構保證了對于任意實例xi的所有視圖能夠通過相應的神經(jīng)網(wǎng)絡映射至相同的表征向量ci,但不能保證表征向量ci中包含實例xi中的重構信息.根據(jù)信息理論,給定隨機變量x包含的信息可以通過下式計算:
隨機變量x與隨機變量y之間的互信息I(x;y)可以定義為隨機變量x中包含隨機變量y的信息量,如圖2(a)所示,可以通過下式計算:
圖2 原始視圖數(shù)據(jù)x,表征向量 c,重構視圖數(shù)據(jù)間的互信息示意圖Fig.2Schematic diagram of mutual information among original view data x,representative vector c,reconstructed data
從圖2(a)可以看出,為最大化x與ccc之間的互信息I(x;c),可以擬合H(x|c)與H(c|x),其中H(c|x)可以通過視圖的DNN編碼模型進行優(yōu)化調(diào)整.然而,H(x|c)很難直接計算.為此本文提出以c為約束條件,構建基于DNN的解碼模型重構,網(wǎng)絡結構如圖1(b)所示.x,,c之間的互信息關系如圖2(b)所示.H(x|c)與H(|c)可以通過比較原始訓練數(shù)據(jù)與重構數(shù)據(jù)獲得.通過編碼模型可以調(diào)整H(c|x),通過解碼模型可以調(diào)整H(|c).不斷調(diào)整H(c|x),H(|c)可以使其逼近H(x|c),從而最大化互信息I(x;c).具體做法如下:從v個視圖中,任選一個視圖,假定為視圖1,為視圖1構建解碼模型,解碼模型的輸入包括來自正態(tài)分布的隨機向量和編碼模型生成的表征向量.解碼模型的輸出為(1).網(wǎng)絡優(yōu)化的目標函數(shù)重新定義為
其中,θdec為解碼模型中的所有參數(shù),
綜上所述,為構建適用于多視圖的表征,本文提出的基于DNN的多視圖表征學習方法概括為:1)為每個視圖分別構建DNN,將同一實例不同視圖的數(shù)據(jù)映射至相同的表征向量;2)搭建條件解碼模型,保證表征向量包含關于實例的重構信息.
給定第2節(jié)提出的基于DNN的多視圖表征學習方法,對于測試實例的任意源視圖,可以獲得關于該實例通用的表征向量.接下來的任務是通過表征向量,重構其他視圖.
生成對抗網(wǎng)絡的思想來源于博弈論中的納什均衡,它利用DNN分別構建生成模型(G)和判別模型(D),通過生成模型和判別模型之間迭代的對抗學習預測真實數(shù)據(jù)的潛在分布并生成新的樣本.網(wǎng)絡優(yōu)化的目標定義為生成模型與判別模型的博弈,目標函數(shù)如下:
為生成多視圖數(shù)據(jù),可以為所有視圖分別構建GAN網(wǎng)絡,并生成相應視圖的數(shù)據(jù).然而,由于標準的GAN生成模型以隨機變量z為輸入,因此,它無法指定生成與表征向量相對應的視圖數(shù)據(jù).為解決這一問題,有效的方法是構建條件生成對抗網(wǎng)絡(Conditional generative adversarial nets,CGAN)[32].其基本思想是在生成模型和判別模型中引入條件變量,利用條件變量指導數(shù)據(jù)的生成.因此,本文提出基于對抗生成網(wǎng)絡的多視圖數(shù)據(jù)生成算法.為每一視圖構建條件生成對抗網(wǎng)絡.在生成模型中和判別模型中分別加入表征向量作為約束條件作為輸入層的一部分,從而實現(xiàn)利用表征向量指導新視圖數(shù)據(jù)的生成.網(wǎng)絡結構如圖3所示.每個GAN網(wǎng)絡的優(yōu)化的目標重新定義為以表征向量為約束條件的生成模型與判別模型的博弈.
圖3 基于生成對抗網(wǎng)絡的多視圖數(shù)據(jù)生成框架Fig.3Framework of the generative adversarial network based multi-view data generation
從圖3可以看出,每個視圖的GAN網(wǎng)絡在訓練開始前,由編碼模型生成表征向量.訓練過程中,生成模型G以采樣自正態(tài)分布的隨機變量作為輸入,同時以表征向量c為約束條件.判別模型D以真實訓練數(shù)據(jù),或生成模型生成的數(shù)據(jù)為輸入,同時以表征向量c為約束條件.生成模型和判別模型通過式(6)中的對抗訓練不斷逼近約束條件c下真實數(shù)據(jù)的潛在分布,并生成新樣本.測試過程中,由源視圖通過編碼模型生成表征向量c,由于式(4)中優(yōu)化目標條件的限制,向量c將包含實例完整的重構信息,并且可以將其做為約束條件傳遞至任意其他視圖的生成模型.對應視圖的生成模型將以隨機變量z為輸入,表征向量c為約束條件,生成與源視圖相匹配的數(shù)據(jù).
為驗證本文所提算法的有效性,在如下數(shù)據(jù)集合上展開實驗.
1)手寫數(shù)據(jù)集合(MNIST dataset of handwritten digits).MNIST包含約7萬幅圖像,每幅圖像對應一個手寫體數(shù)字,大小為28像素×28像素[33];
2)街景數(shù)字集合(Street view house numbers,SVHN).SVHN包含約8.9萬幅圖像,每幅圖像對應一個真實世界的街道門牌號,并且以門牌號的數(shù)字為中心,大小為32像素×32像素[34];
3)人臉數(shù)據(jù)集合(CelebFaces attributes,CelebA).CelebA包含約20萬幅圖像,每幅圖像對應一個真實世界的人臉,大小裁剪為64像素×64像素[35].
為了定量地衡量所提算法,采用結構相似性(Structural similarity index,SSIM)[36]和峰值信噪比(Peak signal to noise ratio,PSNR)[37]作為評價指標衡量真實圖像數(shù)據(jù)與模型生成的圖像數(shù)據(jù)之間的相似度以及生成圖片的質(zhì)量.
SSIM作為一種衡量兩幅圖像相似度的指標,能夠反映圖像間的結構相似性.假定Ix為模型生成的圖像,Iy為真實圖像(Ground truth),Ix與Iy之間的SSIM定義為
其中,μx,μy是Ix和Iy的像素均值,分別是Ix和Iy的方差,σxy是Ix與Iy之間的協(xié)方差.式(7)表明SSIM值越高,Ix與Iy之間的相似性就越高,生成的圖像越接近真實圖像.
PSNR是一種評價圖像的客觀標準.圖像經(jīng)過處理之后,輸出的圖像都會在某種程度與原始圖像不同.將真實圖像與生成圖像對比,得到生成的圖像的PSNR值來測試模型的重構效果.
其中,MSE代表平均均方誤差,In是原始圖像第n個像素值,Pn指處理后圖像第n個像素值,Frame-Size是圖像長×寬×通道數(shù).PSNR的單位為dB.PSNR值越大,表明圖片質(zhì)量越好,失真度越小.
4.3.1 MNIST數(shù)據(jù)集實驗結果
對于MNIST數(shù)據(jù)集,考慮3個視圖,其中原始圖像為視圖1,將圖像遮擋14像素×14像素的區(qū)域作為視圖2,將圖像進行LBP特征提取[38],以特征向量作為視圖3.對原始圖像進行LBP特征提取得到了一個236維的特征向量,將特征向量映射到二維空間,示意圖如圖4(圖4中,灰度條展示了0~9不同數(shù)字對應的灰度,橫縱坐標代表降維后二維特征,共8000張圖片)從圖4可以看出,每個類別的特征向量趨向于聚集在一起,并且類別為7的數(shù)字與類別為1的數(shù)字更加接近.此外,類別之間出現(xiàn)了輕微重疊現(xiàn)象,并且有少量數(shù)據(jù)點分布在坐標系的邊緣.在實驗過程中,首先以訓練數(shù)據(jù)的3個視圖數(shù)據(jù)為輸入,訓練圖1(b)中的編碼模型與解碼模型.訓練過程采用每一對視圖單獨訓練的方式,網(wǎng)絡訓練以式(4)為目標函數(shù).編碼模型與解碼模型訓練完成后,以表征向量為約束條件,每一視圖訓練圖3中的生成對抗網(wǎng)絡.網(wǎng)絡訓練以式(6)為目標函數(shù).測試過程中分別以測試實例的視圖2和視圖3作為源視圖構建表征向量,分別以表征向量作為約束條件利用視圖1的生成模型生成對應的視圖1數(shù)據(jù).
圖4 MNIST視圖3數(shù)據(jù)經(jīng)過PCA后的可視化二維圖Fig.4The 2D-visualization of view 3 on MNIST after PCA
圖5顯示了以視圖2為源視圖在隨機挑選的15幅測試圖像上的實驗結果,第1行表示遮擋一部分的源視圖,第2行表示源視圖對應的真實圖像,第3行表示視圖1生成模型構建的圖像.圖6顯示了以視圖3為源視圖在隨機挑選的15幅測試圖像上的實驗結果,第1行表示源視圖對應的真實圖像,第2行表示視圖1生成模型構建的圖像.
從圖5和圖6可以看出,盡管源視圖2有較大比例遮擋,源視圖3從表達方式方面與原始數(shù)據(jù)有較大差異,本文提出的生成算法仍然能夠有效重構對應視圖1數(shù)據(jù).表明第2節(jié)提出的表征學習方法不僅能獲得圖像中的語義信息,而且能夠獲得包括方向、粗細、傾斜角度等其他信息,同時表明本文提出的生成模型能夠有效根據(jù)表征向量重構完整視圖.
為進一步表明所提出算法的有效性,將提的多視圖生成對抗網(wǎng)絡的實驗結果(Multi-view generative adversarial networks,MVGAN)與條件生成對抗網(wǎng)絡(Conditional generative adversarial nets,CGAN)[30]和條件變分自編碼模型(Conditional variational autoencoders,CVAE)[39]產(chǎn)生的實驗結果進行比較.表1給出了三種算法在測試數(shù)據(jù)上的平均SSIM值與平均PSNR值.從表1可以看出,所提的MVGAN模型以視圖2為源數(shù)據(jù)重構視圖1,SSIM值和PSNR值均高于CGAN和CVAE,表明MVGAN重構的圖像更接近真實圖像,并且失真度最小.在MVGAN模型以視圖3為源數(shù)據(jù)重構視圖1上,SSIM值比CGAN和CVAE的SSIM值低0.09和0.14左右,PSNR值比CGAN和CVAE的PSNR值高0.18dB和0.09dB左右,表明MVGAN模型中以視圖3為源數(shù)據(jù)重構視圖1得到的圖片比CGAN和CVAE得到的圖片失真度小.對圖片做紋理特征提取并應用數(shù)學的統(tǒng)計降維得到的特征向量比原圖片損失了部分信息,由缺失信息的數(shù)據(jù)重構完整數(shù)據(jù)時SSIM值會相對較低.與此同時CGAN和CVAE使用了圖片的完整信息,因此獲得了較高的SSIM值.
表1 MNIST數(shù)據(jù)集上的SSIM和PSNR比較結果Table 1 Comparison results of SSIM and PSNR on MNIST
4.3.2 SVHN數(shù)據(jù)集實驗結果
對于SVHN數(shù)據(jù)集,考慮3個視圖,其中原始圖像為視圖1,將圖像遮擋16像素×16像素的區(qū)域作為視圖2,將圖像進行LBP特征提取,以特征向量作為視圖3.在實驗過程中,展開與在MNIST數(shù)據(jù)集上相似的實驗.首先以訓練數(shù)據(jù)的3個視圖數(shù)據(jù)為輸入,訓練圖1(b)中的編碼模型與解碼模型.訓練過程采用每一對視圖單獨訓練的方式,網(wǎng)絡訓練以式(4)為目標函數(shù).編碼模型與解碼模型訓練完成后,以表征向量為約束條件,每一視圖訓練圖3中的生成對抗網(wǎng)絡.網(wǎng)絡訓練以式(6)為目標函數(shù).測試過程中分別以測試實例的視圖2和視圖3作為源視圖構建表征向量,分別以表征向量作為約束條件利用視圖1的生成模型生成對應的視圖1數(shù)據(jù).
圖5 以視圖2為源數(shù)據(jù)在MNIST上的重構結果Fig.5 Reconstruction results that take view 2 as source data on MNIST
圖6 以視圖3為源數(shù)據(jù)在MNIST上的重構結果Fig.6 Reconstruction results that take view 3 as source data on MNIST
圖7顯示了以視圖2為源視圖在隨機挑選的15幅測試圖像上的實驗結果,第1行表示遮擋一部分的源視圖,第2行表示源視圖對應的真實圖像,第3行表示視圖1生成模型構建的圖像.圖8顯示了以視圖3為源視圖在隨機挑選的15幅測試圖像上的實驗結果,第1行表示源視圖對應的真實圖像,第2二行表示視圖1生成模型構建的圖像.
從圖7和圖8中可以看出,盡管源視圖2有較大比例的遮擋,源視圖3從表達方式上與原始數(shù)據(jù)有較大差異,但是本文提出的生成式算法仍然可以重構視圖1的數(shù)字類別,背景以及形狀等信息.表明提出的算法可以通過共同的表征學習達到重構視圖數(shù)據(jù)的目的.
為了進一步說明算法的有效性,將提出的多視圖生成對抗網(wǎng)絡(MVGAN)的實驗結果與CGAN和CVAE產(chǎn)生的實驗結果進行比較.
表2給出了這三種算法在測試數(shù)據(jù)上的平均SSIM值與平均PSNR值,從表2可以看出,所提的MVGAN模型以視圖2為源數(shù)據(jù)重構視圖1,SSIM值和PSNR值均高于CGAN和CVAE,表明MVGAN重構的圖像更接近真實圖像,并且失真度最小.在MVGAN模型以視圖3為源數(shù)據(jù)重構視圖1上,SSIM值比CGAN和CVAE低0.15和0.16左右,PSNR值比CGAN和CVAE的PSNR值高0.91dB和0.79dB左右.表明MVGAN模型中以視圖3為源數(shù)據(jù)重構視圖1得到的圖片比CGAN和CVAE得到的圖片失真度小,同時因為對圖片做紋理特征提取并應用數(shù)學的統(tǒng)計降維得到的特征向量比原始圖片損失了部分信息,所以由缺失信息的數(shù)據(jù)重構完整數(shù)據(jù)得到的SSIM值會相對較低,與此同時CGAN和CVAE使用了圖片的完整信息,因此獲得了較高的SSIM值.
表2 SVHN數(shù)據(jù)集上的SSIM和PSNR比較結果Table 2 Comparison results of SSIM and PSNR on SVHN
4.3.3 CelebA數(shù)據(jù)集實驗結果
對于CelebA數(shù)據(jù)集,考慮3個視圖,其中原始圖像為視圖1,將圖像遮擋32像素×32像素的區(qū)域作為視圖2,選取圖像的10種屬性作為視圖3.視圖3包含的圖像屬性有禿頂(Bald),劉海(Bangs),黑發(fā)(Black hair),眼鏡(Eyeglass),男性(Male),嘴微張(Mouth slightly open),窄眼(Narrow eyes),無胡須(No beard),蒼白膚色(Pale skin),戴帽(Wearing hat).表3展示了隨機選取的15幅圖片的屬性向量的具體取值,其中“1”表示屬性為真,“?1”表示屬性為假.
圖7 以視圖2為源數(shù)據(jù)在SVHN上的重構結果Fig.7 Reconstruction results that take view 2 as source data on SVHN
圖9顯示了與表3對應的15幅測試圖像上的實驗結果,第1行表示遮擋了一部分數(shù)據(jù)的視圖2,第2行表示視圖對應的真實圖像,第3行表示以視圖2為源數(shù)據(jù)構建視圖1的實驗結果,第4行表示以視圖3為源數(shù)據(jù)構建視圖1的實驗結果.
從圖9可以看出,視圖2雖然有較大比例的遮擋,但是MVGAN能夠依據(jù)視圖2對應的10維屬性信息重構一幅完整的圖像,例如第1張圖像的人物具有戴眼鏡、男性、有胡須的屬性,對應的重構圖像同樣具有戴眼鏡、男性、有胡須的屬性.把原始圖像的10維屬性信息作為視圖3,可以看出新提出的算法可以根據(jù)視圖3的屬性取值重構對應的圖像,例如圖9第2行第2張人物具有黑發(fā)、男性、有胡須的屬性,對應的第4行第2張人物也具有黑發(fā)、男性、有胡須的屬性.表明提出的表征學習方法隱式地獲取了實例中的表征信息,并且能夠通過表征信息重構其他視圖的數(shù)據(jù).
為進一步說明算法的有效性,將MVGAN的實驗結果與CGAN和CVAE產(chǎn)生的實驗結果進行比較.表4給出了三種算法在測試數(shù)據(jù)上的SSIM值與PSNR值,從表4可以看出,MVGAN模型的SSIM值和PSNR值均高于CGAN和CVAE,表明MVGAN重構的圖像比CGAN和CVAE重構的圖像更接近真實圖像且失真度最小.因為MVGAN模型在CelebA數(shù)據(jù)集上以重構10維屬性信息為標準,且SSIM 評價指標是一種衡量兩張圖片相似程度的評價標準,因此與在MNIST與SVHN數(shù)據(jù)集上重構完整視圖信息的實驗結果相比,在CelebA數(shù)據(jù)集上得到了較低的SSIM值.PSNR評價指標是一種衡量圖片失真度的評價標準,可以看出MVGAN模型重構的圖片具有較小的失真度.
圖9 以視圖2為源數(shù)據(jù)在CelebA上的重構結果Fig.9 Reconstruction results that take view 2 and view 3 as source data respectively on CelebA
表3 CelebA視圖2和視圖3對應選中的10維屬性Table 3 The chosen attributes for view 2 and view 3(10 dimensions)
表4 CelebA數(shù)據(jù)集上的SSIM和PSNR比較結果Table 4 Comparison results of SSIM and PSNR on CelebA
在多視圖學習領域,研究如何根據(jù)已有視圖構建完整視圖具有重要意義.其中一個需要解決的問題是構建表征向量映射模型,使得屬于同一實例的不同視圖數(shù)據(jù)能夠映射至相同的表征向量,同時表征向量還需包含關于實例的完整重構信息.針對該問題,本文提出一種基于DNN的多視圖表征學習算法,通過為每一視圖構建DNN,借助DNN能夠擬合任何分布的能力將不同視圖的數(shù)據(jù)映射至通用的表征向量,并且本文提出構建解碼模型保證了表征向量中包含關于實例的完整重構信息.為了依據(jù)表征向量信息重構完整視圖,本文提出一種基于生成對抗網(wǎng)絡的多視圖重構算法.以表征向量為約束條件,通過生成器與判別器的對抗訓練來生成與源視圖匹配的多視圖數(shù)據(jù).實驗結果表明,提出的表征向量學習算法不僅得到了實例本身所帶有的語義信息,而且得到了方向、粗細、傾斜角度等其他重構信息.因此,提出的生成對抗網(wǎng)絡方法能夠根據(jù)低維的表征信息進行有效的重構.
接下來的研究工作將集中于研究如何獲取表征向量的顯式含義信息,并指導多視圖數(shù)據(jù)的生成.
1 Chaudhuri K,Kakade S M,Livescu K,Sridharan K.Multiview clustering via canonical correlation analysis.In:Proceedings of the 26th Annual International Conference on Machine Learning.Montreal,Canada:ACM,2009.129?136
2 Kumar A,Daume III H.A co-training approach for multiview spectral clustering.In:Proceedings of the 28th International Conference on Machine Learning.Washington,USA:Omnipress,2011.393?400
3 Wang W R,Arora R,Livescu K,Bilmes J.On deep multiview representation learning.In:Proceedings of the 32nd International Conference on Machine Learning.Lille,France:ICML,2015.1083?1092
4 Sun S L.A survey of multi-view machine learning.Neural Computing and Applications,2013,23(7?8):2031?2038
5 White M,Yu Y L,Zhang X H,Schuurmans D.Convex multiview subspace learning.In:Proceedings of the 25th Annual Conference on Neural Information Processing Systems.Lake Tahoe,USA:NIPS,2012.1673?1681
6 Guo Y H.Convex subspace representation learning from multi-view data.In:Proceedings of the 27th AAAI Conference on Arti ficial Intelligence.Washington,USA:AIAA,2013.387?393
7 Shekhar S,Patel V M,Nasrabadi N M,Chellappa R.Joint sparse representation for robust multimodal biometrics recognition.IEEE Transactions on Pattern Analysis and Machine Intelligence,2014,36(1):113?126
8 Gangeh M J,Fewzee P,Ghodsi A,Kamel M S,Karray F.Multiview supervised dictionary learning in speech emotion recognition.IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(6):1056?1068
9 Zhai D M,Chang H,Shan S G,Chen X L,Gao W.Multiview metric learning with global consistency and local smoothness.ACM Transactions on Intelligent Systems and Technology,2012,3(3):Article No.53
10 Kumar A,Rai P,Daumé III H.Co-regularized multiview spectral clustering.In:Proceedings of the 24th Annual Conference on Neural Information Processing Systems.Granada,Spain:Curran Associates Inc.,2011.1413?1421
11 Chen M M,Weinberger K Q,Blitzer J C.Co-training for domain adaptation.In:Proceedings of the 24th Annual Conference on Neural Information Processing Systems.Granada,Spain:Curran Associates Inc.,2011.2456?2464
12 Eaton E,desJardins M,Jacob S.Multi-view constrained clustering with an incomplete mapping between views.Knowledge and Information Systems,2014,38(1):231?257
13 Zhang X C,Zong L L,Liu X Y,Yu H.Constrained NMF-based multi-view clustering on unmapped data.In:Proceedings of the 29th AAAI Conference on Arti ficial Intelligence.Austin,Texas,USA:AIAA Press,2015.3174?3180
14 Yu S,Tranchevent L C,Liu X H,Glanzel W,Suykens J A K,De Moor B,et al.Optimized data fusion for kernel k-means clustering.IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(5):1031?1039
15 Yu Kai,Jia Lei,Chen Yu-Qiang,Xu Wei.Deep learning:yesterday,today,and tomorrow.Journal of Computer Research and Development,2013,50(9):1799?1804(余凱,賈磊,陳雨強,徐偉.深度學習的昨天、今天和明天.計算機研究與發(fā)展,2013,50(9):1799?1804)
16 Guo Li-Li,Ding Shi-Fei.Research progress on deep learning.Computer Science,2015,42(5):28?33(郭麗麗,丁世飛.深度學習研究進展.計算機科學,2015,42(5):28?33)
17 Hu Chang-Sheng,Zhan Shu,Wu Cong-Zhong.Image superresolution based on deep learning features.Acta Automatica Sinica,2017,43(5):814?821(胡長勝,詹曙,吳從中.基于深度特征學習的圖像超分辨率重建.自動化學報,2017,43(5):814?821)
18 Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks.Science,2006,313(5876):504?507
19 Farquhar J D R,Hardoon D R,Meng H Y,Shawe-Taylor J,Szedmak S.Two view learning:SVM-2k,theory and practice.In:Proceedings of the 18th Annual Conference on Neural Information Processing Systems.Vancouver,Canada:MIT Press,2005.355?362
20 Sindhwani V,Rosenberg D S.An RKHS for multi-view learning and manifold co-regularization.In:Proceedings of the 25th International Conference on Machine Learning.Helsinki,Finland:ACM,2008.976?983
21 Yu S P,Krishnapuram B,Rosales R,Rao R B.Bayesian cotraining.The Journal of Machine Learning Research,2011,12:2649?2680
22 Andrew G,Arora R,Bilmes J,Livescu K.Deep canonical correlation analysis.In:Proceedings of the 30th International Conference on Machine Learning.Atlanta,GA,USA:JMLR.org,2013.1247?1255
23 Westerveld T,de Vries A,de Jong F.Generative probabilistic models.Multimedia Retrieval,Berlin:Springer,2007.177?198
24 Rezende D J,Mohamed S,Wierstra D.Stochastic backpropagation and approximate inference in deep generative models.arXiv preprint arXiv:1401.4082,2014.
25 Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets.Neural Computation,2006,18(7):1527?1554
26 van den Oord A,Kalchbrenner N,Kavukcuoglu K.Pixel recurrent neural networks.arXiv preprint arXiv:1601.06759,2016.
27 van den Oord A,Kalchbrenner N,Vinyals O,Espeholt L,Graves A,Kavukcuoglu K.Conditional image generation with pixelCNN decoders.In:Proceedings of the 30th Annual Conference on Neural Information Processing Systems.Barcelona,Spain:NIPS,2016.4790?4798
28 Kingma D P,Welling M.Auto-encoding variational Bayes.In:Proceedings of the 2014 International Conference on Learning Representations.Ban ff,Canada:ICLR,2014.
29 Goodfellow I J,Pouget-Abadie J,Mirza M,Xu B,Warde-Farley D,Ozair S,et al.Generative adversarial nets.In:Proceedings of the 27th Annual Conference on Neural Information Processing Systems.Montreal,Canada:MIT Press,2014.2672?2680
30 Wang Kun-Feng,Gou Chao,Duan Yan-Jie,Lin Yi-Lun,Zheng Xin-Hu,Wang Fei-Yue.Generative adversarial networks:the state of the art and beyond.Acta Automatica Sinica,2017,43(3):321?332(王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍.生成式對抗網(wǎng)絡GAN的研究進展與展望.自動化學報,2017,43(3):321?332)
31 Chen Wei-Hong,An Ji-Yao,Li Ren-Fa,Li Wan-Li.Review on deep-learning-based cognitive computing.Acta Automatica Sinica,2017,43(11):1886?1897(陳偉宏,安吉堯,李仁發(fā),李萬里.深度學習認知計算綜述.自動化學報,2017,43(11):1886?1897)
32 Mirza M,Osindero S.Conditional generative adversarial nets.arXiv preprint arXiv:1411.1784,2014.
33 LeCun Y,Bottou L,Bengio Y,Haffner P.Gradient-based learning applied to document recognition.Proceedings of the IEEE,1998,86(11):2278?2324
34 Sermanet P,Chintala S,LeCun Y.Convolutional neural networks applied to house numbers digit classi fication.In:Proceedings of the 21st International Conference on Pattern Recognition(ICPR).Tsukuba,Japan:IEEE,2012.3288?3291
35 Liu Z W,Luo P,Wang X G,Tang X O.Deep learning face attributes in the wild.In:Proceedings of the 2015 IEEE International Conference on Computer Vision(ICCV).Santiago,Chile:IEEE,2015.3730?3738
36 Wang Z,Bovik A C,Sheikh H R,Simoncelli E P.Image quality assessment:from error visibility to structural similarity.IEEE Transactions on Image Processing,2004,13(4):600?612
37 Huynh-Thu Q,Ghanbari M.Scope of validity of PSNR in image/video quality assessment.Electronics Letters,2008,44(13):800?801
38 Xiang Zheng,Tan Heng-Liang,Ma Zheng-Ming.Performance comparison of improved HoG,Gabor and LBP.Journal of Computer-Aided Design and Computer Graphics,2012,24(6):787?792(向征,譚恒良,馬爭鳴.改進的HOG 和Gabor,LBP性能比較.計算機輔助設計與圖形學學報,2012,24(6):787?792)
39 Kingma D P,Rezende D J,Mohamed S,Weling M.Semisupervised learning with deep generative models.In:Proceedings of the 27th Annual Conference on Neural Information Processing Systems.Montreal,Canada:MIT Press,2014.3581?3589