鄭念祖 丁進良
核磁共振氫譜(1H nuclear magnetic resonance spectroscopy,1H NMR)可用于檢測有機化合物中氫原子與周圍化學(xué)官能團的相互作用,在化學(xué)、中藥材質(zhì)量及藥物分析方面早已得到廣泛研究[1?2].近年來,該技術(shù)得到迅速發(fā)展.作為新的原油物性預(yù)測手段之一,該技術(shù)制樣簡單、靈敏度與分辨率較高,提供結(jié)構(gòu)信息豐富,具有良好的發(fā)展?jié)摿εc應(yīng)用前景[3?5].
由于原油物性復(fù)雜多變,常用的建模方法諸如偏最小二乘回歸(Partial least square regression,PLSR)、支持向量機 (Support vector machine,SVM)、卷積神經(jīng)網(wǎng)絡(luò) (Convolutional neural network,CNN)等往往無法適用于實際復(fù)雜的非線性關(guān)系,因此模型的泛化能力在一定程度上受到限制[6?8].近年來,生成對抗網(wǎng)絡(luò)(Generative adversarial network,GAN)以其對抗學(xué)習(xí)成為人工智能領(lǐng)域的一個熱門方向[9],其基本思想在于判別模型D通過對抗學(xué)習(xí)提取樣本空間的潛在特征表示,迫使生成器G的概率分布匹配于未知的真實的數(shù)據(jù)分布.與傳統(tǒng)的生成模型不同,GAN不是直接對樣本空間中每個樣本點進行概率密度估計,而是通過生成器G對樣本分布進行隱式表達.因此,如何將GAN對抗學(xué)習(xí)獲得的潛在特征表示充分利用以提高回歸模型的泛化能力是一個值得思考的問題.
本文嘗試解決預(yù)測回歸問題,同時能夠?qū)W習(xí)得到一個生成模型.近年來,在分類任務(wù)中采用生成模型的研究受到了廣泛的關(guān)注,并取得了許多進展.Kingma等[10]采用變分方法改進深度生成模型和近似貝葉斯推理,使得生成方法適用于半監(jiān)督分類問題;Radford等[11]將判別模型D中全部特征層應(yīng)用于分類,取得了不錯的效果,但其存在判別模型D與分類模型C不能同時聯(lián)合訓(xùn)練的問題;Springenberg等[12]提出CatGAN(Categorical generative adversarial networks)對GAN進行半監(jiān)督形式拓展,通過引入類別損失來進行指導(dǎo)GAN的學(xué)習(xí),其基于熵損失的無監(jiān)督學(xué)習(xí)方法表現(xiàn)較好.然而,以上工作均是應(yīng)用于分類問題中,為此,我們提出一種回歸生成對抗網(wǎng)絡(luò)(Regression generative adversarial network,RGAN)對GAN進行拓展,從而應(yīng)用于回歸問題中,該模型同時訓(xùn)練得到回歸模型R與生成模型G,且R與判別模型D共享首層潛在特征,在RGAN框架下,G,D及R相互促進,使得RGAN模型的預(yù)測精度及生成質(zhì)量均得到提高.
生成對抗網(wǎng)絡(luò)GAN引入一種新的生成模型訓(xùn)練框架,該框架包括兩部分:1)生成模型G捕獲真實樣本的概率分布,學(xué)習(xí)如何產(chǎn)生新的樣本盡可能“欺騙”判別模型;2)判別模型D盡可能判斷輸入的樣本是否來自于生成器G,G和D互相對抗,形成一個最大最小博弈游戲的價值函數(shù).
其中,z表示從特定分布p(z)中隨機采樣所得的向量,pdata(x)表示真實樣本數(shù)據(jù)的概率分布.GAN同樣存在訓(xùn)練過程不穩(wěn)定、模型崩潰等問題.在過去的幾年中,從各個方面提出了很多模型用于提高其性能.DCGAN(Deep convolutional generative adversarial networks)[12]采用反卷積神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)分別構(gòu)造生成模型G與判別模型D,并對如何建立一個穩(wěn)定的GAN網(wǎng)絡(luò)提供了實驗性的指導(dǎo);CGAN(Conditional generative adversarial nets)[13]將條件變量同時加入G與D中,使得樣本數(shù)據(jù)的生成基于條件變量;EBGAN(Energybased generative adversarial network)[14]從能量模型的角度對GAN進行改進;WGAN(Wasserstein GAN)[15]將Wasserstein距離代替JS散度(Jensen-Shannon divergence),用于估計真實樣本數(shù)據(jù)分布與生成樣本分布之間的距離,使得模型的對抗學(xué)習(xí)更加穩(wěn)定,其目標函數(shù)為
其中,fw,gθ分別為判別模型D與生成模型G的參數(shù)形式,考慮WGAN訓(xùn)練的穩(wěn)定性及指示性,因此,RGAN采用Wasserstein距離作為生成樣本概率分布與真實樣本概率分布之間距離的度量.
回歸生成對抗網(wǎng)絡(luò)(RGAN)包括一個生成模型G、一個判別模型D及一個回歸模型R.其基本思想是基于判別模型D通過對抗學(xué)習(xí)得到一系列潛在特征層,而這些特征層對于下游任務(wù)(例如分類或回歸)往往具有促進作用,即通過R與D共享特征層可以提高回歸模型R的性能表現(xiàn).同時,利用回歸模型R估計生成模型G的條件變量與生成樣本之間互信息的下界值,約束生成模型G,并使生成模型G產(chǎn)生更真實的樣本.由于對抗的性質(zhì),G迫使D的判別能力得到提升,這又有利于回歸模型R預(yù)測性能的提升,因此就有可能利用這個閉環(huán).在這個閉環(huán)中G,R,D可以交替訓(xùn)練使得各自模型趨于最優(yōu).但回歸問題與分類問題的不同在于與判別模型共享的特征層不同,對于RGAN,回歸模型R與判別模型D共享首層潛在特征對問題的解決起關(guān)鍵作用,RGAN具體結(jié)構(gòu)如圖1所示.
在圖1中,G的輸入為噪聲z及條件變量c,輸出為生成樣本x0=G(z,c).由于對抗性,D迫使G根據(jù)條件變量產(chǎn)生生成樣本.R根據(jù)判別模型D對輸入樣本提取的首層潛在特征,進行回歸預(yù)測,同時作用于生成模型G的生成過程.G采用反卷積神經(jīng)網(wǎng)絡(luò),D由卷積神經(jīng)網(wǎng)絡(luò)及全連接層組成,R的結(jié)構(gòu)則可根據(jù)具體問題選取,本文取為卷積神經(jīng)網(wǎng)絡(luò).
1.2.1 RGAN的目標函數(shù)
假設(shè)真實樣本的數(shù)據(jù)分布為pdata(x),隨機噪聲z服從已知分布p(z),條件變量c的分布為p(c),fw,gθ和rψ分別為判別模型D,生成模型G 與回歸模型R的參數(shù)形式.根據(jù)Wasserstein距離,將最大最小游戲目標函數(shù)作為G與D的價值函數(shù).
圖1 RGAN模型結(jié)構(gòu)示意圖Fig.1 Diagram of model structure of RGAN
回歸模型R包括兩個部分:
1)當其輸入為真實樣本x,回歸模型R需要盡可能根據(jù)輸入的樣本數(shù)據(jù)做出正確的預(yù)測,采用MSE評估回歸網(wǎng)絡(luò)的預(yù)測效果.
2)當其輸入為生成數(shù)據(jù)G(z,c)時,根據(jù)變分法,采用回歸模型R估計G(z,c)與條件變量c之間的互信息I[c;G(z,c)]的下界值[16?17],該下界值通過最大化Ex~G(z,c),c[logrψ(c|x)]獲得,即最小化rψ(c|gθ(z,c))的負對數(shù)似然性(Negative log likelihood,NLL),通過基于MSE的損失函數(shù)實現(xiàn).
因此,RGAN的目標函數(shù)表示如下:
其中,λ表示平衡判別模型D與回歸模型R對生成模型G的約束作用,然而當λ=0時,RGAN僅僅將判別模型D的首層潛在特征用于回歸問題中,對生成模型G無任何作用.
1.2.2 D與R共享首層潛在特征層
RGAN模型中,判別模型D與回歸模型R共享首層潛在特征層,并非全部特征層.原因是判別模型D與生成模型G通過對抗學(xué)習(xí)逐層對真實樣本進行特征提取,并逐層凸顯有利于D判斷樣本是否來自于生成器G的特征,這些特征逐層越來越有利于分類問題,并且深層特征表示與回歸問題所需要的特征并不一致,因此不能簡單地利用判別模型D的全部特征層來做回歸.但考慮判別模型D的首層潛在特征是對真實樣本空間的淺層表達,有利于回歸問題,因此,將其應(yīng)用于回歸模型以提高其泛化能力與預(yù)測精度.如圖2所示,RGAN分別基于判別模型D的一系列特征層建立回歸模型R,其中Conv1,Conv2及Conv3分別表示回歸模型D中第一卷積層、第二卷積層及第三卷積層,可以看到回歸模型R的訓(xùn)練集及測試集的損失函數(shù)均隨周期數(shù)逐漸減小,同時在預(yù)測精度及訓(xùn)練穩(wěn)定性方面,首層潛在特征Conv1均優(yōu)于其后的特征層.因此D與R共享首層潛在特征對于提高回歸模型的穩(wěn)定性及預(yù)測精度至關(guān)重要.
圖2 基于不同特征層RGAN回歸模型R的表現(xiàn)Fig.2 Performance of regression model R of RGAN based on different feature maps
本實驗所用原油樣本均來自中國某石油化工實際生產(chǎn)過程,采用核磁共振分析儀測定樣品的核磁共振氫譜,共采集479組數(shù)據(jù),如圖3所示,橫坐標為化學(xué)位移值,縱坐標為峰強度.對應(yīng)的原油物性總氫,通過實驗室標準方法測取,其取值范圍為12.95%~13.96%.所有核磁共振氫譜譜圖及物性信息均不經(jīng)過預(yù)處理,僅歸一化至[?1,1].
圖3 原油樣本核磁共振氫譜Fig.3 1H nuclear magnetic resonance spectra of crude oil samples
為了評估回歸模型R的模型預(yù)測精度及泛化能力,本文采用相關(guān)系數(shù)與均方誤差.相關(guān)系數(shù)越大,均方誤差越小,模型性能越好.計算公式如下:
式中,n為測試樣本集中樣本數(shù)目,yi,yi,p,和p分別表示測試樣本集中第i個樣本對應(yīng)物性的化學(xué)值、模型預(yù)測值、樣本集的物性化學(xué)值均值和模型預(yù)測值均值.
根據(jù)RGAN的目標函數(shù)及基本思想,分為三個部分構(gòu)造:1)生成模型G,輸入為服從分布均值為0、方差為0.3的高斯噪聲z及[?1,1]間均勻分布的條件變量c.采用三個反卷積層,卷積核大小均為5×1,中間層和輸出層的激活函數(shù)分別采用ReLU及雙正切函數(shù);2)判別網(wǎng)絡(luò)D采用卷積神經(jīng)網(wǎng)絡(luò),卷積核大小為10×1,條件變量c與上層輸出合并輸入最后一個卷積層,中間層均采用Leaky ReLU函數(shù)作為激活函數(shù),輸出層為線性函數(shù);3)回歸模型R與D共享首個卷積層,輸出層的激活函數(shù)為雙正切函數(shù).G,D與R的中間層均采用批標準化,訓(xùn)練過程中,超參數(shù)λ分別設(shè)置為{0,0.001,1},批次大小為32,優(yōu)化器為ADAM,學(xué)習(xí)率為2×10?4,G,D與R交替訓(xùn)練,經(jīng)過約200周期,RGAN訓(xùn)練過程趨于穩(wěn)定,具體模型結(jié)構(gòu)參數(shù)見表1.
RGAN引入一個額外的超參數(shù)λ,目的是使得回歸模型估計的互信息下界值可以有效作用于生成模型中,并且超參數(shù)λ的取值對譜圖生成與回歸預(yù)測十分重要.當超參數(shù)λ=0,RGAN退化為WGAN,而回歸模型R僅僅利用了判別模型的首層潛在特征,而無法作用于生成模型G.當超參數(shù)λ不為零時,回歸模型R對G的條件變量與生成樣本的互信息估計并最大化,使得生成模型G生成與條件變量相關(guān)且類似于真實樣本,同時由于對抗性質(zhì),G迫使判別模型D提高性能,并使得D特征層能夠與條件變量相關(guān),從而利于基于D首層潛在特征建立的回歸模型R,因此在R,G與D形成相互促進過程中,各自模型的性能得到優(yōu)化,不僅增強了生成模型G的穩(wěn)定性,而且提高了回歸網(wǎng)絡(luò)R的預(yù)測性能.
表1 RGAN網(wǎng)絡(luò)結(jié)構(gòu)及超參數(shù)Table 1 The network structure and hyperparameters of RGAN
超參數(shù)λ對生成G的影響如圖4所示,RGAN生成模型G的損失函數(shù)在初期波動隨λ值的增大而變得劇烈,原因在于在回歸模型的約束作用增強使得生成模型能夠?qū)ι煽臻g進行有效搜索,然后經(jīng)過短暫調(diào)整后快速收斂至上界值,而隨著訓(xùn)練的進行,判別模型“突然記起”某些特征,使得分辨真實樣本與生成樣本十分容易,因此生成模型的損失函數(shù)出現(xiàn)會驟降,同時由于對抗性質(zhì),生成模型隨后學(xué)習(xí)到如何生成這些特征以“欺騙”判別模型以恢復(fù)原來達到納什均衡,此外,生成模型由于回歸模型R的作用的增大,其穩(wěn)態(tài)偏差與驟降范圍均較小,其恢復(fù)能力增強.
圖4 超參數(shù)λ對生成模型G的影響Fig.4 Effect of hyper parameterλ on generative model G
超參數(shù)λ對回歸模型R的影響如圖5所示,隨λ值的增大,回歸模型R初期收斂速度加快,穩(wěn)定偏差范圍變小,模型泛化能力得到增強,從而提高了模型預(yù)測精度.按照一般對等原則,超參數(shù)λ應(yīng)使得GAN目標函數(shù)與R估計的互信息值數(shù)量級一致,太大的λ會導(dǎo)致生成模型G趨于強化條件變量有關(guān)的區(qū)域,從而影響譜圖生成整體效果以致不利于生成模型G與判別模型D取得納什均衡,此外,對回歸模型R也有不利影響,因此超參數(shù)λ的取值往往小于對等原則對應(yīng)的取值,使得回歸模型對生成過程起輔助作用.
圖5 超參數(shù)λ對回歸模型R的影響Fig.5 Effect of hyper parameterλ on regression model R
本文分別構(gòu)造一個卷積神經(jīng)網(wǎng)絡(luò)CNN預(yù)測模型和一個預(yù)訓(xùn)練模型CGAN+R.與RGAN結(jié)構(gòu)參數(shù)一致,CGAN+R不同的是在對抗訓(xùn)練過程完成之后,將CGAN的首層特征應(yīng)用于回歸模型R中.設(shè)定CNN與回歸模型結(jié)構(gòu)參數(shù)相同,CNN與CGAN+R的優(yōu)化器及其相關(guān)訓(xùn)練參數(shù)一致.結(jié)果如表2所示,與CNN預(yù)測模型相比,RGAN明顯提高了預(yù)測相關(guān)系數(shù)Rp,減小了預(yù)測集的均方誤差MSEP,且Rp和MSEP隨λ的增大先分別增大、減小,之后分別減小、增大,表明λ的取值過大會嚴重影響對抗過程的進行,從而不利于回歸模型泛化能力的提高.與預(yù)訓(xùn)練模型CGAN+R相比,RGAN(λ=0)聯(lián)合訓(xùn)練對應(yīng)于動態(tài)尋優(yōu)過程,在G與D相互對抗的過程中,判別模型R以次梯度逼近于全局最優(yōu)解,使得RGAN(λ=0)的預(yù)測效果略優(yōu)于預(yù)訓(xùn)練模型.在數(shù)據(jù)集不進行相關(guān)預(yù)處理的情況下,SVM與PLS應(yīng)用于原油物性預(yù)測模型的建立,PLS的預(yù)測性能高于CNN,低于RGAN,因此RGAN通過共享首層特征,聯(lián)合訓(xùn)練,使得回歸模型的預(yù)測精度及泛化能力得到了有效提升.
將服從高斯分布的隨機噪聲z及服從均勻分布的條件變量c分別采樣,作為RGAN訓(xùn)練得到生成模型G的輸入,G的輸出以譜圖的形式展現(xiàn),如圖6所示,當超參數(shù)λ分別為0,0.001與1時,每組共有320個1H NMR譜圖生成樣本,不經(jīng)過任何挑選,圖6(d)中真實1H NMR樣本有479組.由于采樣的隨機性及缺乏相應(yīng)評價手段,因此無法對NMR譜圖生成的真實度進行定量分析,但可以定性地觀察到隨著RGAN中回歸模型R對生成模型G的作用逐漸增強,生成的NMR譜圖在化學(xué)位移值500左右的區(qū)域波形逐漸豐富,抑制了生成譜圖中“假峰”及“雜波”的產(chǎn)生,因此產(chǎn)生的特征峰更類似于真實譜圖,表明RGAN通過回歸模型R對G的約束作用,使得生成模型G的NMR譜圖生成性能得到了提高.
表2 RGAN與不同預(yù)測模型的比較Table 2 Comparison between RGAN and different prediction models
圖6 超參數(shù)λ對NMR譜圖生成的影響Fig.6 Effect of hyper parameter λ on generation of1H nuclear magnetic resonance spectrum
近年來,GAN在圖像生成領(lǐng)域中已取得令人矚目的成就,本文提出一種新的GAN網(wǎng)絡(luò)的拓展結(jié)構(gòu)—RGAN,將GAN模型由圖像領(lǐng)域應(yīng)用到核磁共振氫譜原油物性定量分析中.RGAN通過判別模型與生成模型的對抗學(xué)習(xí),使得判別模型提取了NMR譜圖的一系列的潛在特征,采用判別模型的首層潛在特征建立回歸模型,提高回歸模型預(yù)測精度及泛化能力.通過增加互信息約束,采用回歸模型估計其下界,生成模型產(chǎn)生更類似于真實的生成樣本.RGAN各模型聯(lián)合訓(xùn)練,相互促進,趨于各自最優(yōu).實驗表明,RGAN提高了原油物性回歸模型的預(yù)測精度及其穩(wěn)定性,同加快了生成模型的收斂速度,提高了譜圖的生成質(zhì)量.
1 Jackman L M,Sternhell S.Application of Nuclear Magnetic Resonance Spectroscopy in Organic Chemistry:International Series in Organic Chemistry(2nd edition).Amsterdam:Elsevier,2013.
2 Simmler C,Napolitano J G,McAlpine J B,Chen S N,Pauli G F.Universal quantitative NMR analysis of complex natural samples.Current Opinion in Biotechnology,2014,25:51?59
3 Molina V D,Angulo R,Due?nez F Z,Gunmán A.Partial least squares(PLS)and multiple linear correlations between heithaus stability parameters(P0)and the colloidal instability indices(CII)with the 1H nuclear magnetic resonance(NMR)spectra of Colombian crude oils.Energy and Fuels,2014,28(3):1802?1810
4 Adams A,Piechatzek A,Schmitt G,Siegmund G.Singlesided nuclear magnetic resonance for condition monitoring of cross-linked polyethylene exposed to aggressive media.Analytica Chimica Acta,2015,887:163?171
5 Chen J J,Hürlimann M,Paulsen J,Freed D,Mandal S,Song Y Q.Dispersion of T1 and T2 nuclear magnetic resonance relaxation in crude oils.ChemPhysChem,2014,15(13):2676?2681
6 Duarte L M,Filgueiras P R,Dias J C M,Oliveira L M S L,Castro E V R,de Oliveira M A L.Study of distillation temperature curves from Brazilian crude oil by 1H nuclear magnetic resonance spectroscopy in association with partial least squares regression.Energy and Fuels,2017,31(4):3892?3897
7 Zhang Y D,Chen S F,Wang S H,Yang J F,Phillips P.Magnetic resonance brain image classi fication based on weighted-type fractional Fourier transform and nonparallel support vector machine.International Journal of Imaging Systems and Technology,2015,25(4):317?327
8 LeCun Y,Bengio Y,Hinton G.Deep learning.Nature,2015,521(7553):436?444
9 Goodfellow I J,Pouget-Abadie J,Mirza M,Xu B,Warde-Farley D,Ozair S,et al.Generative adversarial nets.In:Proceedings of the 27th International Conference on Neural Information Processing Systems.Montréal,Canada:NIPS,2014.2672?2680
10 Kingma D P,Rezende D J,Mohamed S,Welling M.Semisupervised learning with deep generative models.In:Proceedings of the 27th International Conference on Neural Information Processing Systems.Montréal,Canada:NIPS,2014.3581?3589
11 Radford A,Metz L,Chintala S.Unsupervised representation learning with deep convolutional generative adversarial networks.arXiv preprint arXiv:1511.06434,2015.
12 Springenberg J T.Unsupervised and semi-supervised learning with categorical generative adversarial networks.arXiv preprint arXiv:1511.06390,2015.
13 Mirza M,Osindero S.Conditional generative adversarial nets.arXiv preprint arXiv:1411.1784,2014.
14 Zhao J B,Mathieu M,LeCun Y.Energy-based generative adversarial network.arXiv preprint arXiv:1609.03126,2016.
15 Arjovsky M,Chintala S,Bottou L.Wasserstein gan.arXiv preprint arXiv:1701.07875,2017.
16 Chen X,Duan Y,Houthooft R,Schulman J,Sutskever I,Abbeel P.Infogan:interpretable representation learning by information maximizing generative adversarial nets.In:Proceedings of the 29th International Conference on Neural Information Processing Systems.Barcelona,Spain:NIPS,2016.2172?2180
17 Kingma D P,Welling M.Auto-encoding variational Bayes.arXiv preprint arXiv:1312.6114,2013.