摘 要:傳統(tǒng)基于擴散的圖像超分辨率方法通常需要大量采樣步驟,并且優(yōu)化功能強大的擴散模型需要耗費大量運算時間.為了在有限的計算資源上實現(xiàn)訓(xùn)練,現(xiàn)有的加速采樣技術(shù)往往會犧牲部分圖像質(zhì)量,導(dǎo)致超分辨率結(jié)果模糊.為了解決這一問題,提出了一種改進的、高效的殘差超分辨擴散模型.通過構(gòu)建馬爾可夫鏈,在高分辨率圖像和低分辨率圖像之間移動殘差來實現(xiàn)圖像之間的轉(zhuǎn)移,有效減少擴散步驟的數(shù)量.該方法保證了超分辨率結(jié)果的質(zhì)量和靈活性,同時也提高了轉(zhuǎn)移效率,消除了推理過程中需要的后加速及其相關(guān)圖像細節(jié)特征的退化.實驗證明,即使只執(zhí)行15個采樣步驟,所提的方法在合成數(shù)據(jù)集和真實數(shù)據(jù)集上也可以獲得優(yōu)于或至少可以與當(dāng)前最先進方法相當(dāng)?shù)膱D像質(zhì)量.
關(guān)鍵詞:遙感;超分辨率;圖像生成;殘差移動;殘差擴散模型
中圖分類號:TP751 文獻標(biāo)志碼:A文章編號:1000-2367(2025)03-0058-08
圖像生成是近年來計算機視覺領(lǐng)域備受關(guān)注的一個重要領(lǐng)域,也是計算需求最高的領(lǐng)域之一.在視覺處理中,圖像超分辨率是一個關(guān)鍵問題,其旨在從低分辨率圖像中恢復(fù)出高分辨率圖像.特別是在遙感領(lǐng)域,超分辨率(super-resolution,SR)技術(shù)具有廣闊的應(yīng)用前景.隨著對細粒度遙感應(yīng)用需求的增長,高分辨率(high resolution,HR)遙感影像可以增強低分辨率(low resolution,LR)遙感圖像[1],有助于建筑物提取、小目標(biāo)檢測等后續(xù)任務(wù)的完成[2].然而,受光學(xué)和傳感器技術(shù)限制以及設(shè)備更新成本較高的影響,對地觀測衛(wèi)星的光譜和空間分辨率可能無法滿足預(yù)期要求,導(dǎo)致遙感圖像在大尺度或長時間序列應(yīng)用中存在不足和質(zhì)量問題[3].超分辨率技術(shù)為遙感應(yīng)用研究提供了一種有效且經(jīng)濟的替代方法,旨在從現(xiàn)有低分辨率觀測數(shù)據(jù)中重建潛在的高分辨率圖像的高頻信息.
目前,基于深度學(xué)習(xí)的遙感超分辨率技術(shù)備受青睞,它通過學(xué)習(xí)低分辨率和高分辨率圖像之間的空間映射,可以高效地預(yù)測低分辨率圖像中缺失的高頻信息[4].與其他生成模型相比,擴散模型(diffusion model,DM)即使在無條件情況下也能輕松應(yīng)用于修復(fù)、著色或基于筆畫的合成任務(wù)[5-7].作為基于可能性的模型,擴散模型避免了模式崩潰和訓(xùn)練不穩(wěn)定性問題,通過充分利用參數(shù)共享,能夠更好地建模自然圖像的復(fù)雜分布,而無需像其他模型那樣涉及數(shù)十億個參數(shù).
DM是一種概率模型類,它表現(xiàn)出模式覆蓋行為,容易對數(shù)據(jù)中難以察覺的細節(jié)進行過度建模,導(dǎo)致計算資源過多.為了解決這個問題,研究人員提出了一種重新加權(quán)的變分目標(biāo)方法[8],該方法通過對初始去噪步驟進行欠采樣來減少計算負擔(dān).然而,即使使用這種方法,DM模型仍然需要大量計算,因為訓(xùn)練和評估這樣的模型涉及RGB圖像的高維空間中的重復(fù)函數(shù)評估和梯度計算.遙感圖像具有覆蓋范圍廣、分辨率高、多光譜信息、時間動態(tài)和數(shù)字處理能力等特點,圖像具有復(fù)雜的高頻特征,導(dǎo)致擴散模型采樣期間計算資源呈指數(shù)級增加.為了增強這個強大的模型類的可訪問性,同時顯著減少其資源消耗,需要一種方法來減少訓(xùn)練和采樣期間的計算需求.
本文提出了一種適用于遙感圖像超分辨率的殘差擴散模型(residual diffusion model,ResDM),包含更短馬爾可夫鏈的有效擴散模型,用于在HR圖像和相應(yīng)的LR圖像之間進行轉(zhuǎn)換.馬爾可夫鏈的初始狀態(tài)收斂于HR圖像的近似分布,而最終狀態(tài)收斂于LR圖像的近似分布.同時本文設(shè)計了一個過渡內(nèi)核,通過擴散模型迭代步長遞進式地學(xué)習(xí)HR圖像在不同噪聲強度下的噪聲分布,并以LR圖像為條件逐步轉(zhuǎn)移HR與LR噪聲圖像之間的殘差.該方法比現(xiàn)有的基于擴散的SR方法更有效,因為殘差信息可以在幾十步內(nèi)快速傳遞.此外,本文的設(shè)計還允許對證據(jù)下界進行分析和簡潔的表達,從而簡化了對訓(xùn)練優(yōu)化目標(biāo)的歸納.在此基礎(chǔ)上,本文進一步設(shè)計了一種高度靈活的噪聲調(diào)度方案,該方案控制各步殘差的移動速度和噪聲強度.通過調(diào)整噪聲調(diào)度超參數(shù),能夠有效促進恢復(fù)結(jié)果的逼真度與現(xiàn)實度的權(quán)衡.
綜上所述,本文的工作做出了以下貢獻:①本文的方法對高維數(shù)據(jù)的擴展更適用,使用LR圖像近似分布引導(dǎo)的擴散,以提高擴散模型在高頻細節(jié)上的集中度;②與標(biāo)準的擴散模型相比,本文提出的殘差擴散模型方法能夠有效減少訓(xùn)練計算量,顯著降低了推理成本;③有效減少了圖像生成時間,模型僅需15步就能達到很好的生成質(zhì)量效果.
1 相關(guān)工作
1.1 遙感超分辨率
遙感超分辨率技術(shù)旨在將觀測到的低分辨率圖像重建成對應(yīng)的高分辨率圖像,有助于提升高級遙感視覺任務(wù)的效果,如圖像分割、目標(biāo)識別和目標(biāo)檢索[9].傳統(tǒng)的遙感超分辨率方法通常采用插值技術(shù),僅根據(jù)圖像像素信息進行重建,但無法保證重建圖像的質(zhì)量.近年來,深度學(xué)習(xí)方法在遙感超分辨率技術(shù)中得到廣泛應(yīng)用,主要分為基于卷積網(wǎng)絡(luò)、基于流、GAN驅(qū)動和面向峰值信噪比(peak signal-to-noise ratio,PSNR)4種類型[11].
例如,超分辨率卷積神經(jīng)網(wǎng)絡(luò)(super-resolution convolutional neural network,SRCNN)[10]能夠?qū)W習(xí)圖像之間的線性映射,通過簡單的卷積網(wǎng)絡(luò)提取圖像片段的特征映射,從而提高了重建質(zhì)量并實現(xiàn)了快速的推理速度.然而,這種方法通過插值方法增加目標(biāo)尺寸,無法實現(xiàn)端到端的低分辨率重建.另外,利用卷積層或殘差網(wǎng)絡(luò)等卷積結(jié)構(gòu)直接從LR圖像中提取特征,極大地提高了重建效率和質(zhì)量.盡管基于卷積神經(jīng)網(wǎng)絡(luò)的高分辨率重建方法取得了一定成果,但由于遙感圖像相較于自然圖像更加復(fù)雜,要求模型對圖像細節(jié)特征處理能力更高.因此,在遙感領(lǐng)域的超分辨率技術(shù)仍面臨挑戰(zhàn),需要進一步研究和改進,以更好地適應(yīng)遙感圖像的特殊性.
LUGMAYR等[11]提出的超分辨率流(super-resolution flow,SRFLOW)是一種基于流的方法,旨在學(xué)習(xí)高分辨率圖像的條件分布,以實現(xiàn)具有自然和多樣輸出的高質(zhì)量圖像超分辨率.該方法使用可逆編碼器將高分辨率圖像映射到流空間潛在表示,并通過連接編碼器、解碼器和可逆流模塊來避免訓(xùn)練不穩(wěn)定性.然而,這種方法需要較高的訓(xùn)練成本,并提供較低的感知質(zhì)量.
另外,XIONG等[12]提出了超分辨率生成對抗網(wǎng)絡(luò)(super-resolution generative adversarial network,SRGAN),采用感知損失函數(shù)生成高質(zhì)量圖像.類似地,WANG等[13]介紹了增強型超分辨率生成對抗網(wǎng)絡(luò)(enhanced super-resolution generative adversarial network,ESRGAN),結(jié)合了增強的超分辨率GAN和上級損失函數(shù),以提高感知質(zhì)量.基于GAN的方法將內(nèi)容損失與對抗損失相結(jié)合,使其能夠生成清晰的邊緣和更豐富的紋理.
1.2 擴散模型
近年來,對生成擴散模型的研究引起了廣泛的關(guān)注.擴散模型是由非平衡態(tài)熱力學(xué)驅(qū)動的生成模型,可以分為正向過程和逆向過程.在2020年,谷歌[5]開發(fā)了去噪擴散概率模型,采用U-Net結(jié)構(gòu)的自編碼器來預(yù)測噪聲,并通過獨立的分支網(wǎng)絡(luò)學(xué)習(xí)高斯分布.OpenAI也提出了一種類別導(dǎo)向的擴散模型—Guided diffusion[14],以加強去噪擴散概率模型的網(wǎng)絡(luò)結(jié)構(gòu).該方法通過計算目標(biāo)類別與分類分數(shù)之間的交叉熵損失來確定梯度.并通過大量實驗證明擴散模型可以實現(xiàn)比當(dāng)前最先進的生成模型更高質(zhì)量的圖像樣本.
最近,一些研究已經(jīng)探討了擴散模型在超分辨率(SR)中的應(yīng)用.一種流行的方法是在每個步驟中將低分辨率(LR)圖像與噪聲結(jié)合,并重新訓(xùn)練擴散模型.LI等 [15]提出了擴散概率模型的單圖像超分辨率,這是第一個基于擴散的單圖像超分辨率(single image super-resolution,SISR)模型,證明了利用擴散模型進行SISR任務(wù)是可行且有前景的.
現(xiàn)階段比較流行的方法是利用無條件的預(yù)訓(xùn)練擴散模型作為先驗,并結(jié)合額外的約束來指導(dǎo)反向過程.ROMBACH等[7]提出了潛在擴散模型(latent diffusion model,LDM).他們將擴散模型轉(zhuǎn)化為強大而靈活的生成器,可用于一般的條件輸入,如文本或邊界框,并在卷積方式速率合成中實現(xiàn)高分辨率.然而,由于在訓(xùn)練過程中需要多次通過整個網(wǎng)絡(luò)進行前向和反向傳遞,仍然需要高昂的計算成本.
在本文中提出的ResDM設(shè)計了一個離散的馬爾可夫鏈來描述高分辨率圖像和低分辨率圖像之間的過渡,不僅提高了迭代訓(xùn)練速度,加快了收斂速度,還針對數(shù)據(jù)量進行了壓縮,節(jié)省了大量的計算空間.
2 殘差偏移的擴散模型
本文提出了一種適宜于遙感超分辨率的擴散模型ResDM.為了降低訓(xùn)練擴散模型以合成高分辨率圖像所需的計算成本,采用了LR圖像與HR圖像之間的殘差訓(xùn)練方法.該模型允許通過對相應(yīng)損失項進行欠采樣來忽略在感知上不相關(guān)的細節(jié).在擴散模型內(nèi)部,采用了U-resNet網(wǎng)絡(luò)進行參數(shù)訓(xùn)練,并引入了雙重注意力機制,以連接編碼器和解碼器中的特征信息,從而保留更多的圖像高頻細節(jié)信息.
為了便于描述,LR圖像和HR圖像分別用y和x表示.此外,模型訓(xùn)練時預(yù)設(shè)y和x具有相同的空間分辨率,通過在必要時使用最近鄰插值對LR圖像y進行預(yù)上采樣以便實現(xiàn)相同空間分辨率的預(yù)處理操作,預(yù)處理后的y和x將分別表示為y0和x0.圖1展示了本文提出的模型架構(gòu)圖.
擴散模型的迭代生成范式已被證明在捕獲復(fù)雜分布方面非常有效,這啟發(fā)了本文以迭代方式處理超分辨率(SR)問題.本文提出了一個包含更短馬爾可夫鏈的有效擴散模型,用于在高分辨率(HR)圖像和相應(yīng)的低分辨率(LR)圖像之間進行轉(zhuǎn)換.馬爾可夫鏈的初始狀態(tài)收斂于HR圖像的近似分布,而最終狀態(tài)收斂于LR圖像的近似分布.接下來將詳細介紹為實現(xiàn)超分辨率而構(gòu)建這樣一個馬爾可夫鏈的過程.
前向過程:本文的殘差偏移借鑒了ResShift[16]的想法,將LR和HR圖像之間的殘差表示為e0=y0-x0.通過一個長度為T的馬爾可夫鏈逐漸移動它們的殘差e0來從x0過渡到y(tǒng)0. 首先引入了一個移動序列{ηt}Tt=1,它隨時間步長T單調(diào)增加,滿足η1→0,ηT→1.其殘差概率分布表示為:
q(xt|xt-1,y0)=N(xt;xt-1+αte0,κ2αtI),t=1,2,…,T,(1)
其中,αt=ηt-ηt-1,t>1,α1=η1.ResShift[16]證明了在任何時間步長t的邊際分布都是解析可積的,即
q(xt|x0,y0)=N(xt;x0+ηte0,κ2ηcI),t=1,2,…,T,(2)
κ是一個控制噪聲強度的超參數(shù).關(guān)于標(biāo)準差καt,目的是xt和xt-1之間過渡平滑,這是因為假設(shè)圖像數(shù)據(jù)落在[0,1]的范圍內(nèi),xt和xt-1之間的預(yù)期距離可以由αt來限制.
max[(x0+ηte0)-(x0+ηt-1e0)]=max[αte0]<αt<αt,
其中,max[·]表示像素最大化操作.關(guān)于均值參數(shù),即x0+αte0,推導(dǎo)出方程(2)中的邊緣分布,并且x1和xT邊緣分布分別收斂為μx0(·)和N(·;y0,κ2I),分別作為HR圖像和LR圖像的兩個近似分布.通過這樣一種方式構(gòu)造馬爾可夫鏈,可以通過對給定的LR圖像y0進行反采樣來處理SR任務(wù).
反向過程:反向過程旨在估計后驗分布p(x0|y0),通過以下公式表示,
pθ(x0|y0)=∫p(xT|y0)∏T/t=1pθ(xt-1|xt,y0)dx1∶T,(3)
其中,p(xT|y0)≈N(xT|y0,κ2I),pθ(xt-1|xt,y0)是具有可學(xué)習(xí)參數(shù)θ從xt到xt-1逆躍遷核.本文假設(shè)pθ(xt-1|xt,y0)=N(xt-1;μθ(xt,y0,t),∑θ(xt,y0,t)).θ的優(yōu)化是通過最小化負證據(jù)下界來實現(xiàn)的,即
min/θ∑/tDKL[q(xt-1|xt,x0,y0)‖pθ(xt-1|xt,y0)],(4)
其中,DKL[*||*]表示Kullback-Leibler (KL)散度.其中更多的數(shù)學(xué)細節(jié)可以在文獻[5,17]中找到.
方程(4)結(jié)合方程(1)和方程(2),根據(jù)貝葉斯公式獲得目標(biāo)分布q(xt-1|xt,x0,y0)的后驗分布,顯式表示如下:
q(xt-1|xt,x0,y0)=N(xt-1|(ηt-1/η)xt+(αt/ηt)x0,κ2(ηt-1/ηt)αtI),(5)
該推導(dǎo)的詳細過程參考文獻[16].考慮到方差參數(shù)與xt和y0無關(guān),因此設(shè)置∑θ(xt,y0,t)=κ2(ηt-1/ηt)αtI.對于均值參數(shù)μθ(xt,y0,t)t)=κ2(ηt-1/ηt)αtI,重參數(shù)化表示如下:
μθ(xt,y0,t)=(ηt-1/ηt)xt+(αt/ηt)fθ(xt,y0,t),(6)
其中,fθ是一個具有參數(shù)θ的深度神經(jīng)網(wǎng)絡(luò),旨在預(yù)測x0.本文嘗試了不同的μθ參數(shù)化形式,并發(fā)現(xiàn)方程(6)表現(xiàn)出更強的穩(wěn)定性和性能.基于方程(6),將方程(5)中的目標(biāo)函數(shù)簡化如下:
min/θ∑t‖fθ(xt,y0,t)-x0‖22.(7)
3 實驗結(jié)果
本節(jié)首先介紹了使用的數(shù)據(jù)集、實驗細節(jié)以及評估指標(biāo).隨后展示了擴散模型ResDM在生成高分辨率圖像方面的效果.此外,本文進行了大量的消融實驗,對ResDM模型的性能進行了系統(tǒng)性比較.圖2為模型訓(xùn)練使用的部分數(shù)據(jù)集以及模型訓(xùn)練完成后所生成的圖像.最后,對視覺實驗和評價指標(biāo)進行了綜合比較.
3.1 數(shù)據(jù)集
本研究的實驗采用了NWPU-RESISC45數(shù)據(jù)集,這是一個被廣泛應(yīng)用于遙感圖像分類的數(shù)據(jù)集,由西北工業(yè)大學(xué)收集和維護.該數(shù)據(jù)集包含來自45個不同場景類別(如城市、農(nóng)田、森林、沙漠等)的大量高分辨率遙感圖像樣本.每個類別包含700張圖像,每張圖像的大小為256×256像素,具有圖像規(guī)模大、信息豐富等特點.在本研究中,用于訓(xùn)練的分辨率為256×256的高分辨率圖像是從NWPU數(shù)據(jù)集中的沙灘分類中提取的.具體而言,訓(xùn)練集包含600張圖像,測試集包含70張圖像,驗證集包含30張圖像.
3.2 實驗細節(jié)
本研究的所有實驗均在一臺NVIDIA Tesla V100圖形處理器上進行.首先,將大型圖像統(tǒng)一裁剪為256×256分辨率,作為神經(jīng)網(wǎng)絡(luò)的輸入,并利用數(shù)據(jù)增強方法,如翻轉(zhuǎn)和鏡像,以提高模型的魯棒性.LR圖像是通過核估計和噪聲注入實現(xiàn)的真實世界超分辨率的降解管道合成的.采用Adam算法對ResDM進行訓(xùn)練,默認設(shè)置為PyTorch-1.13.1,每輪訓(xùn)練使用8張圖像.在訓(xùn)練過程中,采用參數(shù)化方法對擴散模型進行線性初始化,步長為15.學(xué)習(xí)速率固定為5e-5,并在5×105次迭代中更新權(quán)值參數(shù).在網(wǎng)絡(luò)架構(gòu)方面,骨干網(wǎng)絡(luò)采用attUNet,包括16層殘差網(wǎng)絡(luò)、8層帶有注意機制的殘差網(wǎng)絡(luò)、5層下采樣網(wǎng)絡(luò)和5層上采樣網(wǎng)絡(luò).為了確保實驗評價的穩(wěn)定性,對最終的模型參數(shù)進行了3次實驗,并取平均值以獲得公平的性能評估.
3.3 評價指標(biāo)
在本實驗中,采用了4個指標(biāo)來評價模型的性能.
Inception分數(shù)[18](inception score,IS↑):IS指標(biāo)通過評估生成圖像的清晰度和多樣性來衡量圖像質(zhì)量.它利用生成圖像在所有類別中邊緣分布的熵來描述樣本的多樣性,并通過計算它們的KL散度來評估圖像質(zhì)量.KL散度越大,圖像質(zhì)量越好.
Fréchet Inception距離[19](fréchet inception distance,F(xiàn)ID↓):FID是生成模型的常用評估指標(biāo)之一,用于評估生成樣本的質(zhì)量.它是一種衡量兩組圖像數(shù)據(jù)集相似性的方法,通過計算真實圖像和生成圖像特征向量之間的距離來評估.
峰值信噪比(peak signal-to-noise ratio,PSNR↑):PSNR是衡量圖像或視頻質(zhì)量的指標(biāo),通常用于比較原始圖像和經(jīng)過壓縮或其他處理后的圖像之間的差異.PSNR數(shù)值越高,表示圖像質(zhì)量越好.
結(jié)構(gòu)相似性指數(shù)(structural similarity index,SSIM↑):SSIM是一種用于衡量圖像相似性的指標(biāo),考慮了亮度、對比度和結(jié)構(gòu)等方面.SSIM的取值范圍在-1到1之間,數(shù)值越接近1表示圖像越相似.
3.4 比較方法
為了驗證該方法在RS超分辨率生成任務(wù)上的有效性,本文將ResDM與其他領(lǐng)先模型進行了定性和定量比較,比較模型如下.
迭代細化的擴散模型(image super-resolution via iterative refinement,SR3):這是一種通過重復(fù)細化實現(xiàn)圖像超分辨率的方法,將去噪擴散概率模型應(yīng)用于條件圖像生成,并通過隨機迭代去噪過程執(zhí)行超分辨率.在不同放大倍數(shù)的超分辨率任務(wù)中,SR3展現(xiàn)出強大的性能.
細節(jié)補充的擴散模型(diffusion model with detail complement for super-resolution of remote sensing,DMDC)[20]:不同于傳統(tǒng)優(yōu)化模型對圖像理解不足的情況,將擴散模型作為生成模型首次引入到遙感超分辨率任務(wù)中,并將低分辨率圖像作為條件信息來指導(dǎo)圖像生成.考慮到生成模型可能無法準確地恢復(fù)特定的小對象和復(fù)雜的場景,提出了細節(jié)補充任務(wù),以提高恢復(fù)能力,同時提出了聯(lián)合像素約束損失和去噪損失來優(yōu)化逆擴散方向.該方法證明在小而密集目標(biāo)的遙感超分辨率中具有優(yōu)越性.
潛在擴散模型(high-resolution image synthesis with latent diffusion models,LDM):通過將圖像輸入到功能強大的預(yù)訓(xùn)練自動編碼器的潛在空間中,然后將生成過程分解為一系列去噪自動編碼器的順序應(yīng)用.這種方法允許引導(dǎo)機制來控制圖像生成過程,而無需重新訓(xùn)練模型.與基于像素的方法相比,這種方法顯著降低了計算需求.
殘差移位的擴散模型(efficient diffusion model for image super-resolution by residual shifting,ResShift):通過在高分辨率圖像和低分辨率圖像之間傳輸殘差,模型顯著提高了傳輸效率.這種方法能夠明顯減少擴散步驟的數(shù)量,從而消除了推理過程中的后處理加速及其相關(guān)的性能下降.
3.5 擴散步長和超參數(shù)
在實驗部分,使用方程1中提出的轉(zhuǎn)移分布來減少馬爾可夫鏈中的擴散步驟T.通過調(diào)整超參數(shù)p來靈活控制殘差移位的速度.本文對相同的超參數(shù)進行控制,并比較了10~50步長的圖像生成質(zhì)量.同時,本文還比較了相同步長下不同噪聲強度的超分辨率圖像生成質(zhì)量.具體結(jié)果如表1所示.
3.6 綜合數(shù)據(jù)評價
根據(jù)NWPU-RESISC45數(shù)據(jù)集上的實驗結(jié)果對本文提出的方法與最先進方法進行比較分析,如表2所示,可以得出以下觀點:本文提出的方法ResDM在PSNR指標(biāo)上表現(xiàn)最佳,表現(xiàn)出較優(yōu)的圖像重建質(zhì)量.在保持結(jié)構(gòu)相似性方面,SSIM僅略低于ResShift方法,表現(xiàn)出色.這一優(yōu)勢主要源于本文設(shè)計精良的擴散模型,該模型從LR圖像的微小擾動開始,而非傳統(tǒng)假設(shè)的白色高斯噪聲.相比其他方法,F(xiàn)ID分數(shù)最低,表明生成的圖像更接近真實圖像;IS得分最高,顯示出生成的圖像多樣化且分類自信.從實驗結(jié)果來看,本文的ResDM在大多數(shù)指標(biāo)上表現(xiàn)出色,PSNR、FID和IS 3個指標(biāo)表現(xiàn)更好,表明其提供了高質(zhì)量的圖像重建,具有良好的多樣性和分類置信度.
3.7 生成效率
表3對比了本文方法與其他擴散模型在不同生成步長下的運行時間性能.結(jié)果顯示,在測試的所有方法相同生成步長下,本文方法均表現(xiàn)出比其他擴散模型更快的運行速度.隨著步數(shù)的增加,ResDM相對于其他DM的效率改善變得更加顯著.這一改善主要歸功于高分辨率圖像和低分辨率圖像之間傳輸殘差縮短了模型的迭代次數(shù),減少了大量的計算規(guī)模.需要注意的是,由于傳統(tǒng)擴散模型受到像素級別噪音推理的限制,本文方法在15步長就能達到傳統(tǒng)擴散模型100步長甚至更多步長的效果.因此,可以推斷出ResDM在生成效率方面具有顯著優(yōu)勢,特別是在圖像生成過程更復(fù)雜且步數(shù)更多時.因此,在對速率要求高且資源有限的應(yīng)用中,本文的ResDM是更為理想的選擇.
3.8 訓(xùn)練效率
在本文的研究中,對比了不同擴散模型方法在每輪訓(xùn)練的平均用時,如表4所示.每個方法均采用3次訓(xùn)練迭代后的平均用時,其中步長采用原論文中推薦步長.在迭代訓(xùn)練過程中,由于內(nèi)存限制,ResDM模型在迭代訓(xùn)練時,每輪訓(xùn)練能夠有效減少訓(xùn)練時間和計算資源的消耗.由于受到內(nèi)存限制,每輪的8張圖像無法完全加載,因此每輪分為4個小批次,每次加載2張圖像,結(jié)果可以看到ResDM模型能夠顯著減少訓(xùn)練時間.這一結(jié)果驗證了本文提出的方法在擴散模型訓(xùn)練中的有效性.
3.9 實驗總結(jié)
由于擴散模型圖像生成受到噪聲概率影響,無法確保生成的圖像達到統(tǒng)一的圖像質(zhì)量,因此在圖像生成效率和模型訓(xùn)練效率測試中生成的圖像質(zhì)量略有差異.同樣,無論是圖像生成質(zhì)量還是生成效率,也無法完全統(tǒng)一模型訓(xùn)練效率.這是因為本文提出的包含更短馬爾可夫鏈的殘差擴散模型,馬爾可夫鏈的初始狀態(tài)收斂于HR圖像的近似分布,而最終狀態(tài)收斂于LR圖像的近似分布,這導(dǎo)致模型隨著擴散步長增大會出現(xiàn)模型訓(xùn)練過擬合現(xiàn)象,模型會過多地記住訓(xùn)練數(shù)據(jù)的細節(jié),而無法良好地泛化到測試數(shù)據(jù),出現(xiàn)在訓(xùn)練數(shù)據(jù)上表現(xiàn)很好,但在測試數(shù)據(jù)集上表現(xiàn)不佳的現(xiàn)象.表1中數(shù)據(jù)證明了ResDM模型隨著步長的增加生成圖像整體質(zhì)量反而有所下降,表2中ResDM模型步長為1 000時的圖像質(zhì)量數(shù)據(jù)橫向?qū)Ρ纫踩珙A(yù)期一樣,不如ResDM模型步長為15的圖像質(zhì)量,因此也可以得出結(jié)論,在相似生成效率情況下ResDM與其他擴散模型圖像質(zhì)量各有優(yōu)劣,但是在ResDM方法理想條件下生成的圖像具有良好的多樣性和分類置信度.
總的來說,基于以上實驗結(jié)果,本文提出的ResDM方法有以下優(yōu)勢:①有效改善了擴散模型在遙感圖像生成領(lǐng)域難以適配圖片、訓(xùn)練周期長、生成圖像慢的不足.本文提出的方法能有效減少訓(xùn)練計算量. ②在優(yōu)化大量訓(xùn)練時間和內(nèi)存消耗后,依然能夠提供高質(zhì)量的遙感超分辨圖像、提高圖像生成速度的同時還具有良好的多樣性和分類置信度.
4 結(jié) 論
本文提出了一種高效的SR擴散模型 ResDM.與現(xiàn)有基于擴散的SR方法需要大量迭代才能獲得滿意結(jié)果不同,本文的方法通過在高分辨率圖像和低分辨率圖像之間移動殘差來實現(xiàn)圖像之間的轉(zhuǎn)移.能夠有效減少訓(xùn)練時間和計算資源的消耗.在不降低生成圖像質(zhì)量的前提下,ResDM顯著提高了模型的訓(xùn)練和采樣效率.本文方法的核心思想是將擴散模型的高分辨率圖像破壞為低分辨率圖像,而不是高斯白噪聲,從而有效地縮短擴散模型的長度.
實驗證明了本文提出的方法在合成數(shù)據(jù)集和真實數(shù)據(jù)集上的優(yōu)越性.然而,由于遙感圖像類型多樣,研究發(fā)現(xiàn)在進行超分辨圖像生成時,針對單一類遙感圖像能夠取得較好的結(jié)果.但訓(xùn)練多類型圖像效果還有待改進,目前來說,雖然擴散模型與其他圖像生成模型相比在生成多類型圖像方面表現(xiàn)更好,并且已有研究人員提出改進的訓(xùn)練技術(shù),可以用擴散模型生成多類型的自然圖像,但擴散模型在針對遙感多類型圖像生成領(lǐng)域還沒有成熟的相關(guān)解決方法,在未來也是一個很好的研究方向.因此,后續(xù)研究工作將進一步探索對生成遙感圖像場景的控制,以在更加復(fù)雜的情況下更好地渲染更大的圖像.本文的研究工作為發(fā)展更有效的擴散模型以解決遙感SR問題提供了有價值的理論支撐.
參 考 文 獻
[1] FERNANDEZ-BELTRAN R,LATORRE-CARMONA P,PLA F.Single-frame super-resolution in remote sensing:a practical overview[J].International Journal of Remote Sensing,2017,38(1):314-354.
[2]毛盼娣,徐道連.高效單圖像超分辨率重建:深監(jiān)督對稱蒸餾網(wǎng)絡(luò)[J].河南師范大學(xué)學(xué)報(自然科學(xué)版),2023,51(6):57-65.
MAO P D,XU D L.Efficient single-image super-resolution:deeply-supervised symmetric distillation network[J].Journal of Henan Normal University (Natural Science Edition),2023,51(6):57-65.
[3]WANG Y,BASHIR S M A,KHAN M,et al.Remote sensing image super-resolution and object detection:benchmark and state of the art[J].Expert Systems with Applications,2022,197:116793.
[4]SAHARIA C,HO J,CHAN W,et al.Image super-resolution via iterative refinement[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2023,45(4):4713-4726.
[5]HO J,JAIN A,ABBEEL P.Denoising diffusion probabilistic models[J].Advances in Neural Information Processing Systems,2020,33:6840-6851.
[6]DHARIWAL P,NICHOL A.Diffusion models beat GANs on image synthesis[EB/OL].[ 2024-02-15].https://arxiv.org/abs/2105.05233v4.
[7]ROMBACH R,BLATTMANN A,LORENZ D,et al.High-resolution image synthesis with latent diffusion models[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).New Orleans:IEEE Press,2022 .
[8]GABBUR P.Improved DDIM sampling with moment matching Gaussian mixtures[EB/OL].[ 2024-02-13].https://arxiv.org/abs/2311.04938v2.
[9]YUAN Z Q,ZHANG W K,TIAN C Y,et al.Remote sensing cross-modal text-image retrieval based on global and local information[J].IEEE Transactions on Geoscience and Remote Sensing,2022,60:5620616.
[10]DONG C,LOY C C,HE K M,et al.Learning a deep convolutional network for image super-resolution[M].Cham:Springer International Publishing,2014:184-199.
[11]LUGMAYR A,DANELLJAN M,VAN GOOL L,et al.SRFlow:learning the super-resolution space with normalizing flow[M].Cham:Springer International Publishing,2020:715-732.
[12]XIONG Y F,GUO S X,CHEN J S,et al.Improved SRGAN for remote sensing image super-resolution across locations and sensors[J].Remote Sensing,2020,12(8):1263.
[13]WANG X T,YU K,WU S X,et al.ESRGAN:enhanced super-resolution generative adversarial networks[M].Cham:Springer International Publishing,2019:63-79.
[14]NICHOL A Q,DHARIWAL P.Improved denoising diffusion probabilistic models [C]//International conference on machine learning.[S.l.]:PMLR,2021.
[15]LI H Y,YANG Y F,CHANG M,et al.SRDiff:Single image super-resolution with diffusion probabilistic models[J].Neurocomputing,2022,479:47-59.
[16]YUE Z S,WANG J Y,LOY C C.Resshift: Efficient diffusion model for image super-resolution by residual shifting[EB/OL]. [2024-02-16].https://arxiv.org/pdf/2307.12348.pdf.
[17]SOHL-DICKSTEIN J,WEISS E,MAHESWARANATHAN N,et al.Deep unsupervised learning using nonequilibrium thermodynamics [C]//International conference on machine learning.[S.l.]:PMLR,2015.
[18]BARRATT S,SHARMA R.A note on the inception score[EB/OL]. [2024-02-16].https://arxiv.org/pdf/1801.01973.
[19]YU Y,ZHANG W,DENG Y.Frechet inception distance (fid) for evaluating gans,2021[EB/OL]. [2024-02-16].https://www.researchgate.net/publication/354269184.
[20]LIU J,YUAN Z Q,PAN Z Y,et al.Diffusion model with detail complement for super-resolution of remote sensing[J].Remote Sensing,2022,14(19):4834.
Remote sensing super-resolution image generation based on residual diffusion model
Zuo Xianyua,b, Tian Zhanshuoa,b, Yin Menghana, Dang Lanxuea,b, Qiao Baojuna,b, Liu" Yanga,b, Xie Yia,b
(a. School of Computer and Information Engineering; b. Henan Provincial Key Laboratory of Big Data Analysis
and Processing, Henan University, Kaifeng 475004, China)
Abstract: Traditional diffusion-based image super-resolution methods usually require a large number of sampling steps and a lot of computational time to optimize powerful diffusion models." In order to realize training on limited computational resources, existing accelerated sampling techniques often sacrifice image quality and lead to ambiguous super-resolution results." To address this problem, a improved and efficient residual super-resolution diffusion model is proposed in this paper." The transfer between images is achieved by constructing a Markov chain that shifts the residuals between high-resolution images and low-resolution images, significantly reducing the number of diffusion steps." The method ensures the quality and flexibility of the super-resolution results, while improving the transfer efficiency and eliminating the post-acceleration and its associated image detail feature degradation required in the inference process." It is experimentally demonstrated that even with only 15 sampling steps, the method in this paper achieves image quality better than or at least comparable to current state-of-the-art methods on both synthetic and real datasets.
Keywords: remote sensing;" super-resolution;" image generation;" residual shifting;" residual diffusion model
[責(zé)任編校 劉洋 楊浦]