朱聯(lián)祥,仝文東,牛文煜,邵浩杰
(西安石油大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710065)
巖石是具有穩(wěn)定外形的固態(tài)集合體。通過研究其特性可對(duì)該地區(qū)油氣藏分布情況進(jìn)行評(píng)估預(yù)測(cè)。巖石顯微圖像在巖性識(shí)別、儲(chǔ)集層評(píng)價(jià)等方面起著直觀可視的重要作用。不僅能滿足觀察烴類與巖石的需要,而且能清晰地顯示出儲(chǔ)集層空間的微觀結(jié)構(gòu)特點(diǎn)及烴類物質(zhì)在儲(chǔ)集層中的存在方式,揭示巖石中油氣分布與巖石結(jié)構(gòu)、構(gòu)造、次生縫洞之間的關(guān)系,為準(zhǔn)確識(shí)別油氣層提供了可靠依據(jù)[1]。巖石薄片顯微圖像超分辨處理可獲得更加清晰的巖石圖像,從而更有利于相關(guān)研究工作的展開。
圖像超分辨率重建[2]是將低分辨率圖像通過軟件處理,從而生成具有較高分辨率圖像的技術(shù)。目前圖像超分辨率重建主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法兩大類別。傳統(tǒng)方法主要包括基于插值、基于重建和基于學(xué)習(xí)三種[3],相對(duì)來講操作簡(jiǎn)單,但重建的圖像通常也比較模糊?;谏疃葘W(xué)習(xí)的方法將圖像輸入到復(fù)雜的神經(jīng)網(wǎng)絡(luò)中,通過獲取低分辨率圖像與高分辨率圖像間的復(fù)雜映射關(guān)系來實(shí)現(xiàn)圖像重建,雖然訓(xùn)練周期往往較長(zhǎng),但因具有更好的重建效果而得到更為廣泛的重視[4]。
2016年,Dong Chao等人提出SRCNN[5]結(jié)構(gòu),將深度學(xué)習(xí)引入到單張圖像的超分辨率重建領(lǐng)域,為圖像超分辨率重建技術(shù)的研究開辟了一條嶄新路徑[6]。2017年,Leding等人首次將GAN應(yīng)用于圖像超分辨率重建,提出了SRGAN[7]算法。該網(wǎng)絡(luò)由生成器和判別器構(gòu)成,其原理是使生成器生成的圖像盡可能騙過判別器,而判別器則盡可能區(qū)分出生成器生成的圖像與真實(shí)的高分辨率圖像。通過生成器與判別器的競(jìng)爭(zhēng)博弈,在很大程度上克服了卷積模型恢復(fù)圖像質(zhì)量差的缺點(diǎn)。
SRGAN之后陸續(xù)出現(xiàn)了一系列基于生成對(duì)抗網(wǎng)絡(luò)的超分辨算法。Wang等人研究了類條件圖像的超分辨率重建,在2018年提出了SFT-GAN,解決了圖像紋理信息恢復(fù)不好的問題。但因超分辨率等底層視覺任務(wù)往往需要考慮更多的圖像空間信息,并在不同的位置進(jìn)行不同的處理,Wang Xintao等人通過對(duì)SRGAN的進(jìn)一步改進(jìn),提出了ESRGAN[8]。該網(wǎng)絡(luò)從三個(gè)方面對(duì)SRGAN進(jìn)行了改進(jìn):生成網(wǎng)絡(luò)殘差模塊改進(jìn)、判別器網(wǎng)絡(luò)替換、損失函數(shù)優(yōu)化,從而使得其超分辨重建的效果更加自然,使用PSNR和SSIM等指標(biāo)的評(píng)價(jià)更好。
使用逐層抽象的方式來提取目標(biāo)的特征時(shí),高層網(wǎng)絡(luò)的感受野較大,語義信息的表征能力更強(qiáng)。但相對(duì)地,其特征圖的分辨率卻較低,幾何信息的表征能力偏弱。低層網(wǎng)絡(luò)則與之相反:感受野較小,幾何細(xì)節(jié)信息表征能力強(qiáng),雖分辨率較高但語義信息表征能力偏弱。多尺度特征融合[9]的思想便是,在對(duì)每層網(wǎng)絡(luò)進(jìn)行卷積操作之前,將其上一層的特征圖與該層特征圖相加,從而部分保留上一層的信息,減少信息的丟失。
該文以ESRGAN為基礎(chǔ),通過多尺度特征融合的思想,對(duì)從卷積神經(jīng)網(wǎng)絡(luò)不同層獲得的不同尺度的特征進(jìn)行融合,并對(duì)所得的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化調(diào)整,達(dá)到了重建圖像在細(xì)節(jié)性能上的提升。使用該方法對(duì)巖石顯微圖像進(jìn)行超分辨率處理,并采用峰值信噪比(PSNR)、結(jié)構(gòu)相似性(SSIM)和感知系數(shù)(PI)等指標(biāo)對(duì)該方法的超分辨性能進(jìn)行了評(píng)價(jià)。
生成對(duì)抗網(wǎng)絡(luò)[10]是Ian J. Goodfellow等人提出的一個(gè)通過對(duì)抗過程估計(jì)生成模型的新框架。該模型由生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D構(gòu)成。生成網(wǎng)絡(luò)不斷學(xué)習(xí)訓(xùn)練集中的數(shù)據(jù)概率分布,目標(biāo)是通過輸入隨機(jī)噪聲生成可以以假亂真的圖像。判別網(wǎng)絡(luò)則用于區(qū)分一個(gè)圖像是否為真實(shí)的圖像,目標(biāo)是將生成網(wǎng)絡(luò)產(chǎn)生的圖像與訓(xùn)練集中的圖像成功區(qū)分[11]。
在訓(xùn)練過程中,二者的對(duì)抗形式如式(1)所示:
Ez~Pz(z)[log(1-D(G(z)))]
(1)
對(duì)于來自真實(shí)概率分布Pdata的x,生成對(duì)抗網(wǎng)絡(luò)希望其判別網(wǎng)絡(luò)的輸出D(x)盡可能接近于1,即logD(x)越大越好。而在生成網(wǎng)絡(luò)中,對(duì)于通過噪聲z生成的數(shù)據(jù)G(z),則需要使判別網(wǎng)絡(luò)D盡可能地區(qū)分出真假數(shù)據(jù),因此D(G(z))應(yīng)盡量接近于0[12]。
ESRGAN是在SRGAN基礎(chǔ)上進(jìn)一步改進(jìn)得到的增強(qiáng)超分辨生成對(duì)抗網(wǎng)絡(luò)。該模型通過移除SRGAN生成網(wǎng)絡(luò)中的BN[13]層來緩解重建圖像的偽影,具體如圖1所示。圖中,左側(cè)為SRGAN的殘差塊結(jié)構(gòu),右側(cè)則為去除BN層之后的ESRGAN殘差塊結(jié)構(gòu)。
去除BN層的殘差塊用密集連接[14]的方式組成密集塊(DenseBlock),其中含有5個(gè)3*3的卷積層。將3個(gè)密集塊的輸出經(jīng)過β倍的殘差縮放后輸入主殘差網(wǎng)絡(luò),以此構(gòu)成密集殘差塊RRDB。如圖2所示,該結(jié)構(gòu)具有更深更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),更容易訓(xùn)練。
圖2 RRDB結(jié)構(gòu)
在判別網(wǎng)絡(luò)中則使用了可估計(jì)真實(shí)圖像相對(duì)于生成的虛假圖像逼真程度的相對(duì)平均判別器,用概率值作為其度量,從而可保證生成數(shù)據(jù)樣本的穩(wěn)定與高質(zhì)量。
ESRGAN的完整網(wǎng)絡(luò)模型如圖3所示,LR圖像經(jīng)過3*3的卷積提取低層特征后,輸入到23個(gè)RRDB塊中由低到高逐層提取特征,最后通過逐級(jí)上采樣獲得4x高分辨率圖像。
圖3 ESRGAN網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)層數(shù)加深的過程,是從低層到高層提取語義特征的過程。對(duì)于巖石顯微圖像的特征提取,低層網(wǎng)絡(luò)提取的只是一些輪廓特征。隨著網(wǎng)絡(luò)層數(shù)的深入,提取到的特征可能會(huì)包含孔隙、顆粒等更高的語義特征[15]。而當(dāng)網(wǎng)絡(luò)到達(dá)最深層時(shí),則可提取到整張巖石顯微圖像的特征。
對(duì)于原有的ESRGAN模型,隨著網(wǎng)絡(luò)層數(shù)的加深,每一層都會(huì)有一些信息丟失。結(jié)果便是,等到了最后一層時(shí),會(huì)有太多的信息已經(jīng)丟失。為解決這一問題,該文考慮引入特征融合的思想,即是從第二層開始,在對(duì)每層網(wǎng)絡(luò)進(jìn)行卷積操作之前,將上一層的特征圖與該層的特征圖相加,從而部分保留上一層的信息,減少信息的丟失。
而使用基于多分支卷積的多尺度融合策略,則可以提取到不同尺度的特征并將其融合,從而有效提升網(wǎng)絡(luò)的特征提取能力。由于ESRGAN本身不具備多尺度的特征提取能力,因而造成了重建圖像的細(xì)節(jié)模糊問題[16]。如果能將多尺度的特征提取與融合引入到ESRGAN的RRDB塊,則可使網(wǎng)絡(luò)能夠提取到不同尺度的特征信息并進(jìn)行殘差計(jì)算,進(jìn)而提升其對(duì)圖像高頻信息的重建性能。
圖4為具有多尺度特征融合的卷積結(jié)構(gòu),由三個(gè)并行分支組成。首先對(duì)來自上一層輸出的特征圖分別進(jìn)行1*1、3*3和5*5的卷積核處理及隨后的3*3空洞卷積,膨脹率分別為1、3和5,從而可獲得具有不同感受野的多個(gè)分支,分別代表不同尺度的特征[17]。繼而將所有不同尺度的特征圖通過相加運(yùn)算連接起來,經(jīng)過1*1的卷積核壓縮后,與來自上一層的特征圖相加,作為本層的輸出。
圖4 多尺度特征融合模型
基于以上分析,提出的生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。其中,LR為輸入到生成網(wǎng)絡(luò)的低分辨率巖石顯微圖像,經(jīng)過1個(gè)3*3*64的卷積核對(duì)其進(jìn)行特征提取之后輸入到新的RRDB。該文使用4個(gè)相同的多分支卷積模塊替換原網(wǎng)絡(luò)的卷積層+LReLU結(jié)構(gòu),以此構(gòu)成新的密集塊(New-DB),再由3個(gè)密集塊構(gòu)成新的RRDB塊。因多分支卷積模塊中具有1*1、3*3、5*5三種不同大小的卷積核,故可提取不同尺度的特征,再經(jīng)過一個(gè)1*1的卷積核可對(duì)三種不同尺度的特征進(jìn)行壓縮融合。經(jīng)過23個(gè)New-RRDB結(jié)構(gòu)進(jìn)行殘差計(jì)算后,進(jìn)入上采樣部分對(duì)圖像進(jìn)行放大。
圖5 生成網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)所采用的相對(duì)平均判別器DRa原理如式(2)所示:
(2)
其中,xr是真實(shí)圖像,即訓(xùn)練集;xf為生成圖像,C(x)為別器激活前的輸出;σ為sigmoid函數(shù),用于激活判別器;E(x)為一個(gè)小批次的真實(shí)圖像或生成圖像取平均值。
(3)
感知損失是Johnson等人在SRGAN中提出的損失項(xiàng),其通常定義在預(yù)先訓(xùn)練好的(VGG)深層網(wǎng)絡(luò)的激活層上。受此啟發(fā),ESRGAN提出了一種更為有效的感知損失Lpercep方法,即利用激活層之前的特征來計(jì)算感知損失,從而使重建圖像在細(xì)節(jié)上有更好的視覺效果[18]。
Exf[log(DRa(xf,xr))]
(4)
其中,DRa判別網(wǎng)絡(luò)的輸出,是一個(gè)概率值,Ex表示一個(gè)小批次的真實(shí)圖片或假圖片取平均。
內(nèi)容損失項(xiàng)L1計(jì)算公式如式(5)所示,反映了生成網(wǎng)絡(luò)的輸出G(x)數(shù)據(jù)集中的高分辨率圖像y的1范數(shù)距離。
L1=‖G(xi)-y‖1
(5)
文中方法在Tesla P100-PCIE 11 GB的GPU上進(jìn)行實(shí)驗(yàn),使用了基于Python語言的PyTorch深度學(xué)習(xí)框架,實(shí)驗(yàn)所用到的軟硬件環(huán)境如表1所示。訓(xùn)練過程中,批訓(xùn)練樣本數(shù)設(shè)置為16,訓(xùn)練圖像切塊大小為200*200,初始學(xué)習(xí)率為0.000 1,且每迭代5 000次學(xué)習(xí)率減半,總迭代次數(shù)為500 000。
表1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)所使用的數(shù)據(jù)集是新南威爾士大學(xué)的巖石顯微圖像數(shù)據(jù)集DRSRD1_2D[19],該數(shù)據(jù)集由碳酸巖(carbonate)和砂巖(sandstone)組成,每類包含1 000張3.1μm×3.1μm圖像,并將其劃分為訓(xùn)練集(800張)、驗(yàn)證集(100張)和測(cè)試集(100張)三部分,同時(shí)還提供了800*800的高分辨率圖像,以及對(duì)應(yīng)的兩倍和四倍縮小的低分辨圖像。
該文主要進(jìn)行放大倍數(shù)為4的超分辨研究,在實(shí)驗(yàn)前使用了隨機(jī)裁剪的方法來增加數(shù)據(jù)并增加模型穩(wěn)定性,對(duì)高分辨率圖像和四倍縮小的低分辨圖像分別進(jìn)行隨機(jī)裁剪,獲得480*480和120*120的子圖像。
圖像質(zhì)量評(píng)價(jià)是圖像處理的重要內(nèi)容。該文使用以客觀質(zhì)量評(píng)價(jià)為主的評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)價(jià),如峰值信噪比(PSNR)、結(jié)構(gòu)相似性(SSIM)和感知系數(shù)(PI)等。
(1)峰值信噪比(Peak Signal to Noise Ratio,PSNR)。
PSNR是最普遍、最廣泛使用的評(píng)價(jià)圖像質(zhì)量的客觀指標(biāo)[20],不過許多實(shí)驗(yàn)結(jié)果都顯示,有可能PSNR較高的圖像看起來反而比PSNR較低的圖像差。這是因?yàn)橹饔^評(píng)價(jià)的方法受很多因素影響,不能準(zhǔn)確地判斷出差異。PSNR計(jì)算公式如式(6)所示:
(6)
式中,MSE表示均方誤差,(2n-1)2是信號(hào)最大值的平方,n是每個(gè)采樣值的比特?cái)?shù)。其以分貝為單位,一般在20 dB~40 dB間,PSNR越大表示圖像失真越小,圖像質(zhì)量越好。
(2)結(jié)構(gòu)相似性(Structural Similarity Index,SSIM)。
結(jié)構(gòu)相似性是一種衡量?jī)煞鶊D像相似度的指標(biāo)。結(jié)構(gòu)相似性指數(shù)從圖像組成的角度將結(jié)構(gòu)信息定義為獨(dú)立于亮度、對(duì)比度的,反映場(chǎng)景中物體結(jié)構(gòu)的屬性,并將失真建模為亮度、對(duì)比度和結(jié)構(gòu)三個(gè)不同因素的組合。用均值作為亮度的估計(jì),標(biāo)準(zhǔn)差作為對(duì)比度的估計(jì),協(xié)方差作為結(jié)構(gòu)相似程度的度量[21]。給定兩個(gè)圖像m、n[11],結(jié)構(gòu)相似性的計(jì)算方法如式(7)所示:
(7)
(3)感知指數(shù)(Perceptual Index,PI)。
感知系數(shù)PI可評(píng)價(jià)圖像的主觀感知質(zhì)量,它更符合人類視覺的感知特征,計(jì)算方法如式(8)所示:
(8)
其中,Ma為馬氏評(píng)分,其使用空間域和頻域的統(tǒng)計(jì)數(shù)據(jù)作為SR圖像的特征,并將特征集成在回歸樹中進(jìn)行訓(xùn)練,利用線性回歸模型對(duì)預(yù)測(cè)質(zhì)量進(jìn)行評(píng)分。NIQE(Natural Image Quality Evaluator)為圖像評(píng)價(jià)質(zhì)量,其原理:將圖像特征輸入到多元高斯模型中計(jì)算均值、方差,再將HR圖像與SR圖像擬合得到均值、方差,從而計(jì)算SR圖像分布與HR圖像分布間的差異。PI值越低,代表圖像感知質(zhì)量越好[14]。
實(shí)驗(yàn)分別在DRSRD1_2D數(shù)據(jù)集的碳酸巖類(carbonate)和砂巖類(sandstone)上進(jìn)行測(cè)試,放大因子為4的實(shí)驗(yàn)結(jié)果如圖6、7所示。其中作為隨機(jī)圖示樣例所選用的碳酸巖圖像和砂巖圖像分別為DRSRD1_2D數(shù)據(jù)集中的carbonate_0905和sandstone_0910。從圖中可以看到,文中方法在視覺效果上有著不錯(cuò)的表現(xiàn),重建圖像的巖石顆粒、孔隙更加明顯,紋理清晰,邊緣銳利。
圖6 各算法在碳酸巖圖像上的重建效果比較
圖7 各算法在砂巖圖像上的重建效果比較
此外,從實(shí)驗(yàn)結(jié)果圖不難發(fā)現(xiàn),文中算法在碳酸巖圖像上的重建效果更為突出。這是因?yàn)樘妓釒r相比砂巖具有更加復(fù)雜的物理結(jié)構(gòu),其表面具有更多、更細(xì)小的高頻特征。這也反映出引入多尺度特征融合方法的文中算法對(duì)圖像高頻特征重建的效果顯著。為直觀對(duì)比不同方法的超分辨重建效果,將文中算法與傳統(tǒng)插值算法Bicubic[22]及深度學(xué)習(xí)算法SRGAN[7]、SFT-GAN[23]、ESRGAN[8]在碳酸巖類和砂巖類上的客觀評(píng)價(jià)指標(biāo)進(jìn)行對(duì)比,結(jié)果如表2、3所示。表中加深字體為最優(yōu)值,下劃線為次優(yōu)值??梢钥闯?在碳酸巖數(shù)據(jù)集上,文中方法的三項(xiàng)指標(biāo)在幾種算法中均為最優(yōu)。其中PSNR表現(xiàn)尤為突出,達(dá)到了24.66 dB,較ESRGAN有0.61 dB的提升。在砂巖數(shù)據(jù)集上,文中方法的PSNR和PI指標(biāo)最優(yōu),SSIM指標(biāo)則為次優(yōu)。
表2 測(cè)試集carbonate中的對(duì)比實(shí)驗(yàn)結(jié)果
表3 測(cè)試集sandstone中的對(duì)比實(shí)驗(yàn)結(jié)果
從實(shí)驗(yàn)結(jié)果可以看出,ESRGAN在加入多尺度特征融合方法后,超分辨重建的結(jié)果在視覺效果和客觀指標(biāo)上都有了不同程度的提升,生成的圖像具有更好的細(xì)節(jié)特征、更加接近原高分辨率圖像。此外,文中方法在具有更多高頻信息的碳酸巖圖像上的重建效果更為明顯,這也從客觀上證實(shí)了多尺度特征融合對(duì)提升超分辨細(xì)節(jié)特征重建的有效性。
此外,為進(jìn)一步測(cè)試多尺度特征融合ESRGAN在訓(xùn)練時(shí)間和占用空間上的影響,實(shí)驗(yàn)還對(duì)其改進(jìn)前后的訓(xùn)練時(shí)間與內(nèi)存占用情況進(jìn)行了對(duì)比,結(jié)果如表4所示??梢钥闯?加入多尺度特征融合的ESRGAN相對(duì)于加入之前,模型大小增加了2.8%,訓(xùn)練時(shí)間則增加了5%。這樣比例的代價(jià)增加,相對(duì)于所取得的效果,還是值得的。
在ESRGAN的基礎(chǔ)上,通過引入多尺度特征融合,解決了原網(wǎng)絡(luò)由于提取特征的尺度單一而造成的重建圖像高頻信息丟失問題,使得重建后的圖像在視覺效果和評(píng)價(jià)指標(biāo)上均有了不同程度的改善。改進(jìn)方法在巖石顯微圖像的超分辨重建輸出具有更加清晰的紋理和孔隙特征,視覺感知的質(zhì)量也更好。而這樣的改善并沒有過多影響到算法模型的訓(xùn)練時(shí)間及GPU內(nèi)存占用,是相當(dāng)值得的。
下一步的研究工作將著重于網(wǎng)絡(luò)訓(xùn)練效率的提升,以及針對(duì)巖石顯微圖像特點(diǎn)的更加有效的損失函數(shù)項(xiàng)設(shè)計(jì),以期進(jìn)一步提升其超分辨重建的效果。