張文政,吳長悅,趙 文,滿衛(wèi)東,2,3,4,5,劉明月,2,3,4,5
(1.華北理工大學(xué) 礦業(yè)工程學(xué)院,河北 唐山 063210;2.唐山市資源與環(huán)境遙感重點實驗室,河北 唐山 063210;3.河北省礦區(qū)生態(tài)修復(fù)產(chǎn)業(yè)技術(shù)研究院,河北 唐山 063210;4.礦產(chǎn)資源綠色開發(fā)與生態(tài)修復(fù)協(xié)同創(chuàng)新中心,河北 唐山 063210;5.河北省礦業(yè)開發(fā)與安全技術(shù)重點實驗室,河北 唐山 063210)
隨著無人機(UAV)技術(shù)的不斷發(fā)展和應(yīng)用的深入,UAV測量作為一種新興的測量手段,已經(jīng)在測繪領(lǐng)域得到了普遍的應(yīng)用。相比于傳統(tǒng)的測繪方法,UAV航拍測量具有多項特點,包括高視角、細節(jié)捕捉、高分辨率和時間序列觀測等,特別是在大規(guī)模測繪和難以到達的地形區(qū)域測量方面具有獨特的優(yōu)勢[1-2]。
在實際作業(yè)中,UAV在拍攝時可能存在3種類型的相對運動:平移、旋轉(zhuǎn)和運動畸變,這些運動引起了圖像中的像素位置變化,導(dǎo)致圖像失去清晰度和細節(jié),從而產(chǎn)生模糊現(xiàn)象。然而,UAV航拍測量的精度很大程度上依靠機載相機對地物高分辨的細節(jié)捕捉。因此,去除圖像模糊、恢復(fù)圖像特征對于提高測量精度和效率具有重要意義。
針對模糊圖像的處理方法主要分為傳統(tǒng)方法和基于深度學(xué)習(xí)的方法[3-6]。傳統(tǒng)方法通常包括圖像濾波、去模糊算法等,如高斯濾波、維納濾波(Wiener Filter)和盲源分離等。這些方法具有簡單、直接、易于實現(xiàn)等優(yōu)點,但是在處理復(fù)雜的模糊圖像時存在一定的局限性。近年來,隨著深度學(xué)習(xí)技術(shù)的進一步發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)[7]的圖像去模糊方法成為了研究熱點。Shao等[8]首先將CNN引入到圖像去模糊領(lǐng)域中,提出了DeBlurNet方法,但其對于高速運動模糊的處理效果不佳。Goodfellow等提出的生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)通過學(xué)習(xí)真實圖像分布,可以生成高質(zhì)量、較真實的圖像,因此被廣泛應(yīng)用于圖像增強和圖像復(fù)原任務(wù)[9]?;贕AN的DeblurGAN和DeblurGANv2方法也應(yīng)運而生,成為當(dāng)前比較流行的端到端學(xué)習(xí)方法的去模糊網(wǎng)絡(luò)[10],其中DeblurGANv2[11]相對于其前身DeblurGAN表現(xiàn)更加突出,且在GoPro數(shù)據(jù)集上的SSIM-FLOPS權(quán)衡圖上也明顯優(yōu)于尺度循環(huán)網(wǎng)絡(luò)(Scale-Recurrent Network,SRN)[12]以及其他運動模糊模型。這些方法的引入和不斷優(yōu)化,為圖像去模糊任務(wù)帶來了巨大的進步和突破。
然而,在UAV測量領(lǐng)域中,由于圖像中存在一定程度的運動模糊和透視變換等問題,傳統(tǒng)方法和基于深度學(xué)習(xí)的方法在處理UAV測量圖像時存在一定的不適用性。因此,針對UAV測量中的模糊圖像問題,需要進一步深入探究相應(yīng)的圖像處理方法。
本文工作主要包括三方面:① 將DeblurGANv2網(wǎng)絡(luò)引入到UAV測量模糊圖像的恢復(fù)任務(wù)中,并設(shè)計一種自適應(yīng)指數(shù)移動平均損失函數(shù)(Adaptive Exponential Moving Average Loss Function,AEMALF);
② 將維納濾波后的圖像存在振鈴效應(yīng)進行高頻抑制并通過色彩映射等方法恢復(fù)原圖像部分細節(jié);③ 建立了模擬仿真的UAV測量運動過程模糊圖像數(shù)據(jù)集。
維納濾波是一種線性濾波器,常用于信號處理和圖像處理領(lǐng)域,是一種基于最小均方誤差準則的濾波器,能夠提高信號質(zhì)量并處理具有固有模糊的圖像和信號。該濾波器通過估計信號和噪聲的功率譜密度,將信號在頻域中加以濾波,以達到降噪和去除模糊的目的[13]。其原理可以概括為:通過對一個待處理信號進行加權(quán)平均的方式,抑制噪聲,同時增強信號。其核心思想是先通過對信號和噪聲的功率譜密度的估計,來提高信號的質(zhì)量。將信號和噪聲的功率譜密度作為輸入,對信號進行線性濾波處理,從而抑制噪聲并增強信號的特征[14]。其具體組成部分如圖1所示。
圖1 去振鈴效應(yīng)維納濾波組成部分Fig.1 De-ringing effect Wiener filtering components
在離散時間信號的情況下,維納濾波的數(shù)學(xué)公式為:
(1)
式中:H(u,v)為維納濾波器的頻率響應(yīng),Sf(u,v)為輸入圖像的傅里葉變換,K為一個正常數(shù),它代表了噪聲和信號功率譜之間的比率。在實際應(yīng)用中,K的值通常需要根據(jù)具體情況來確定。
維納濾波的具體流程如下。
① 對原始圖像進行傅里葉變換,得到頻域圖像G(u,v):
(2)
② 計算模糊函數(shù)H(u,v)的傅里葉變換:
(3)
式中:h(x,y)為模糊函數(shù)。
③ 分別計算Sη(u,v)和Sf(u,v)的功率譜:
(4)
式中:η(x,y)為噪聲圖像,f(x,y)為未經(jīng)模糊和噪聲處理的原始圖像。
④ 根據(jù)維納濾波公式計算每個頻率分量的加權(quán)系數(shù),得到加權(quán)后的頻域圖像F(u,v):
(5)
式中:K為一個常數(shù),用于控制噪聲的強度。
⑤ 對加權(quán)后的頻域圖像進行傅里葉反變換,得到去模糊后的圖像fdeblur(x,y):
fdeblur(x,y)=-1F(u,v)G(u,v),
(6)
將維納濾波引入到UAV圖像恢復(fù)中,用于對模糊圖像進行預(yù)處理。然而維納濾波對于模糊核的估計要求較高以及輸出圖像存在一定的振鈴效應(yīng),因此采用如圖1所示的以高截斷方式補償這一缺陷的方法。
DeblurGANv2是一種圖像去模糊方法,是DeblurGAN的改進版,其流水線架構(gòu)如圖2所示。GAN是一種基于博弈論的機器學(xué)習(xí)技術(shù),由生成器和判別器2個網(wǎng)絡(luò)構(gòu)成。生成器網(wǎng)絡(luò)接受輸入的模糊圖像并嘗試生成清晰的圖像,判別器網(wǎng)絡(luò)則嘗試區(qū)分生成器生成的圖像是否真實。生成器和判別器通過不斷地對抗學(xué)習(xí)來提高性能。GAN能夠從大量的數(shù)據(jù)中學(xué)習(xí)到真實圖像的分布特征,從而生成具有相似特征的圖像,因此在圖像去模糊任務(wù)中,使用GAN可以獲得更好的效果。其推出了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,FPN)放入到去模糊任務(wù)中,作為GANv2生成器的核心構(gòu)建塊,可以靈活地與廣泛的骨干網(wǎng)絡(luò)合作,在性能和效率之間取得平衡,例如使用輕量級主干(MobileNet[15]及其變體)。GANv2網(wǎng)絡(luò)中的帶有梯度懲罰的沃瑟斯坦距離生成式對抗網(wǎng)絡(luò)(Wasserstein GAN with Gradient Penalty,WGAN-GP)[16]是一種用于判別器的損失函數(shù),它是基于沃瑟斯坦距離的對抗網(wǎng)絡(luò)(Wasserstein GAN,WGAN)的一個改進版本,可以解決WGAN的梯度爆炸和消失問題。WGAN-GP使用梯度懲罰技術(shù),迫使生成器生成的圖像更加逼真,并且在訓(xùn)練過程中可以自適應(yīng)地調(diào)整懲罰系數(shù)。WGAN-GP的公式為:
圖2 DeblurGANv2流水線架構(gòu)Fig.2 DeblurGANv2 pipeline architecture
(7)
式中:D(G(z))為判別器對生成器生成圖像的輸出,D(x)為判別器對真實圖像的輸出,λ為懲罰系數(shù),GP為梯度懲罰項,用于防止梯度消失或爆炸。
(8)
λ是一個很重要的超參數(shù),主要用于控制生成器和判別器之間的平衡,使GAN網(wǎng)絡(luò)的訓(xùn)練更加穩(wěn)定和高效。為確保判別器的梯度具有連續(xù)性。在WGAN-GP中,λ的值通常設(shè)置為10,以確保梯度懲罰在損失函數(shù)中的權(quán)重得到平衡。值一直為10的情況可能會導(dǎo)致GAN模型中生成器和判別器之間的平衡失調(diào)。如果判別器表現(xiàn)不佳,無法準確地區(qū)分真實和生成的樣本,將影響生成器的訓(xùn)練效果,導(dǎo)致生成器無法生成真實的樣本。如果判別器表現(xiàn)很好,生成器將生成接近真實樣本的樣本,但此時如果值一直為10,則損失函數(shù)會過于強調(diào)對生成樣本的誤差,可能導(dǎo)致生成的樣本過于保守或缺乏多樣性。因此,為了得到更好的訓(xùn)練效果,通常需要根據(jù)模型效果時刻調(diào)整λ值,使其適應(yīng)當(dāng)前訓(xùn)練的狀態(tài),達到一個更好的平衡。
為了解決UAV高速飛行時拍攝的圖像產(chǎn)生運動模糊的問題,提出了一種基于維納濾波模塊的自適應(yīng)DeblurGANv2網(wǎng)絡(luò)?;谥笖?shù)移動平均值(Exponential Moving Average,EMA)[17-18]對GANv2網(wǎng)絡(luò)中損失函數(shù)的超參數(shù)λ(懲罰系數(shù))進行改進,設(shè)計一種AEMALF。圖3為損失函數(shù)中ASEMA調(diào)節(jié)過程。
圖3 損失函數(shù)中AEMALF調(diào)節(jié)過程Fig.3 Conditioning process of AEMALF in the loss function
其中,對損失函數(shù)中λ超參數(shù)引入ASEMA算法。
一組模糊圖像和清晰圖像對,其中模糊圖像為x,清晰圖像為y。AEMA算法流程如下。
① 對每個模糊圖像x,使用模型f生成一個估計的清晰圖像y′。
② 計算當(dāng)前模糊圖像x和生成的估計清晰圖像y′之間的均方誤差損失L(x,y′)。
MSE(x,y′)表示輸入圖像x和生成圖像y′之間的均方誤差:
(9)
③ 對所有模糊圖像x的損失進行指數(shù)移動平均,得到EMA損失LEMA:
LEMA=α*L(x,y′)+(1-α)*LEMAprevious,
(10)
式中:LEMA為EMA損失,L(x,y′)為當(dāng)前批次的均方差損失,α為EMA系數(shù),LEMAprevious為上一次迭代的EMA損失。
④ 計算EMA損失的標準差Lstd:
(11)
式(11)的意義是在每次模型迭代時,將當(dāng)前的MSE損失函數(shù)與上一次的EMA損失函數(shù)進行加權(quán)平均,以得到更加平滑、穩(wěn)定的損失函數(shù)值。具體地,根據(jù)式(10),LEMA在每次迭代中以一定的權(quán)重(1-α)保留上一次的值,同時以另一個權(quán)重(α)考慮當(dāng)前的MSE損失函數(shù)。這樣,EMA損失函數(shù)值不僅包含了當(dāng)前迭代步的信息,還包含了之前迭代步的信息,使得該函數(shù)更加平穩(wěn)、更能夠反映模型的整體性能。
首先,提出先用維納濾波模塊對模糊圖像進行預(yù)處理并傅里葉變換后將高頻信息截斷能有效的抑制振鈴效應(yīng)的產(chǎn)生;然后,對Mobilenetv2輕量網(wǎng)絡(luò)增加提取特征深度和寬度以此作為DeblurGANv2的主干網(wǎng)絡(luò),并且對判別器損失函數(shù)中的超參數(shù)自適應(yīng)化;最后,本文對模糊圖像進行2次恢復(fù),使恢復(fù)的圖像更加清晰。
用大疆精靈4RTK版UAV進行航線規(guī)劃飛行,飛行過程中將快門速度降低以及拍攝照片中存在一些快速移動的物體用來模擬常規(guī)拍攝中可能存在的模糊現(xiàn)象,并且采用了一種基于物理模型的方法來生成訓(xùn)練樣本。該模型采用高斯過程模擬運動軌跡,在這個模型中運動軌跡上的每一點都與上一點的位置和速度有關(guān)。對運動軌跡進行子像素插值,得到對應(yīng)的模糊核。
采集1 000對無人機圖像,并按照5∶1的比例將其劃分為訓(xùn)練集和測試集。圖4展示了部分訓(xùn)練數(shù)據(jù),其中圖4(a)為清晰圖,圖4(b)為清晰圖的局部細節(jié)圖,圖4(c)為模糊圖,圖4(d)為模糊圖的局部細節(jié)放大圖。此外,為了提高模型的魯棒性、泛化能力和多樣性,在采集過程中盡可能涵蓋不同場景、不同光照等情況;另外為使模型更好地適應(yīng)常規(guī)作業(yè)中不同程度的模糊圖像,在訓(xùn)練集中放入多種模糊度的圖像。
圖4 部分訓(xùn)練數(shù)據(jù)Fig.4 Partial training data
使用2種圖像相似度評估算法對生成圖像和標準圖像進行比較,分別是峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structural Similarity,SSIM)評估算法[19-21]。
PSNR是一種用于表示信號最大可能功率和表示精度之間比值的工程術(shù)語,通常用對數(shù)(單位dB)表示,由于許多信號具有非常寬的動態(tài)范圍,因此PSNR具有廣泛的應(yīng)用。
(12)
式中:MAX是表示像素點顏色的最大數(shù)值,8 b表示的圖像中MAX為255。信噪比數(shù)值越大,代表圖像越清晰失真越少。
SSIM是一種用于比較2幅圖像相似程度的指標,當(dāng)一幅圖像為無失真圖像,另一幅圖像為失真后的圖像時,2幅圖像之間的SSIM值可以作為失真圖像的圖像品質(zhì)衡量指標。相較于傳統(tǒng)的圖像品質(zhì)衡量指標,SSIM更能符合人眼對圖像品質(zhì)的判斷,因為它不僅考慮了圖像的亮度信息,還考慮了圖像的結(jié)構(gòu)信息。給定2個圖像x和y,SSIM指標通過比較2幅圖像的亮度、對比度和結(jié)構(gòu)信息來衡量它們的相似性,二者的SSIM定義為:
SSIM=[l(x,y)]α[c(x,y)]β[s(x,y)]γ,
(13)
式中:l(x,y)表示圖像的亮度,c(x,y)表示圖像的對比度,s(x,y)表示圖像的結(jié)構(gòu)信息,α、β、γ用于調(diào)整這些因素的相對重要性。當(dāng)SSIM指標的值越大時,表示2幅圖像的相似度越高。
本文通過實驗設(shè)計了3種模型,并與DeblurGANv2模型進行對比。這3種模型分別為去振鈴效應(yīng)維納濾波(Ring Artifact-free Wiener Filter, RLW)、基于自適應(yīng)指數(shù)移動平均函數(shù)的對抗網(wǎng)絡(luò)(DeblurGANv2-AEMALF)以及融合對抗網(wǎng)絡(luò)和去振鈴效應(yīng)的維納濾波網(wǎng)絡(luò)(RLW-DeblurGANv2-AEMALF, RLW-DG-AEMALF)。對比結(jié)果如表1所示,其中DeblurGANv2模型為消融實驗對照組。
表1 評估結(jié)果
圖5為去模糊效果對比。可以看出,RLW方法雖然相較模糊圖像有一定程度上的改善,但仍然存在少量的振鈴效應(yīng),而DeblurGANv2生成的圖像較為平滑且沒有振鈴效應(yīng),但在局部細節(jié)上仍然存在模糊現(xiàn)象?;赗LW的自適應(yīng)損失函數(shù)所生成的圖像紋理信息更加豐富,更加貼近于清晰圖像。
圖5 去模糊效果對比Fig.5 Contrast of deblurring effects
根據(jù)表1的評估結(jié)果,本文所提出的RLW-DG-AEMALF模型相比于DeblurGANv2模型,在訓(xùn)練過程中需要更多的時間,但是預(yù)測單張照片的平均處理時間差距不大。此外RLW-DG-AEMALF模型在去除圖像模糊方面表現(xiàn)更優(yōu),展現(xiàn)出更好的去模糊效果。盡管RLW模型仍存在一定的振鈴效應(yīng),但后續(xù)的深度學(xué)習(xí)網(wǎng)絡(luò)可以彌補這一缺陷。
實驗結(jié)果表明,相對于原始的DeblurGANv2和維納濾波模型,RLW-DG-AEMALF模型在圖像平均PSNR分別提高了1.56、1.99 dB,SSIM分別提高了6%、9%
GoPro數(shù)據(jù)集是目前為數(shù)不多的公開運動模糊圖像數(shù)據(jù)集之一。該數(shù)據(jù)集使用GOPRO4 HERO Black相機拍攝街景視頻,每秒拍攝240幀,并對連續(xù)的7~13幀進行平均以獲得不同程度的模糊圖像。數(shù)據(jù)集中將中間位置的一幀定義為對應(yīng)的清晰圖像,共包含3 214對圖像,其中2 103對用于訓(xùn)練,1 111對用于測試,圖像分辨率為1 280 pixel×720 pixel。由于去模糊任務(wù)是將模糊圖像恢復(fù)為清晰圖像,因此在訓(xùn)練集中添加少量經(jīng)過維納濾波的圖像可以更好地幫助模型學(xué)習(xí)圖像之間的對應(yīng)關(guān)系,并提高模型的泛化能力。但需要注意的是,添加維納濾波后的圖像時需要控制數(shù)量,以避免過多的維納濾波后圖像影響模型的多樣性,從而導(dǎo)致模型過擬合。GoPro數(shù)據(jù)集實驗的評估結(jié)果如表2所示。
表2 GoPro數(shù)據(jù)集評估結(jié)果
針對復(fù)雜的街景環(huán)境下的運動模糊,本文使用GoPro數(shù)據(jù)集進行實驗,結(jié)果如圖6所示??梢钥闯?僅使用RLW或DeblurGANv2-AEMALF方法的效果并不明顯,且使用RLW方法恢復(fù)的圖像中振鈴效應(yīng)更加明顯,對于一張圖像中存在多種模糊圖像的恢復(fù)效果更差。具體原因在于,RLW方法是一種用于運動模糊去除的方法,需要對模糊核進行準確的估計。但在復(fù)雜場景下,模糊核可能會因為運動模糊和其他因素的影響而變得復(fù)雜,導(dǎo)致精度更高的估計變得更加困難。因此,即使使用RLW方法,也可能無法獲得足夠好的恢復(fù)效果。然而,RLW-DG-AEMALF模型結(jié)合了自適應(yīng)損失函數(shù)和DeblurGANv2的優(yōu)點,能夠通過多次復(fù)原對模糊圖像進行有效地恢復(fù),因此仍然可以獲得較高的PSNR值。
圖6 GoPro數(shù)據(jù)集去模糊效果Fig.6 GoPro dataset deblurring effects
實驗結(jié)果表明,與DeblurGANv2相比,本文構(gòu)建的RLW-DG-AEMALF模型在GoPro數(shù)據(jù)集中展現(xiàn)了一些顯著的優(yōu)勢。雖然該模型的訓(xùn)練時間相對較長,但是預(yù)測單張圖片方面與DeblurGANv2幾乎相同,而且對運動模糊的圖像顯示出了很高的復(fù)原能力。相較于同類算法DeblurGANv2和維納濾波,RLW-DG-AEMALF模型恢復(fù)后的圖像平均PSNR分別提高了0.84、1.7 dB,SSIM分別提高了1%、12%。
針對UAV航拍測量中產(chǎn)生的圖像運動模糊這一場景,并為了充分捕捉圖像中地物的細節(jié),提出了一種新的模型,將AEMALF與DeblurGANv2模型相結(jié)合,設(shè)計了DeblurGANv2-AEMALF模型,用于UAV模糊圖像恢復(fù)任務(wù)。又由于DeblurGANv2模型在不同尺度上學(xué)習(xí)圖像細節(jié)和輪廓特征的能力,將高頻信息截斷后的維納濾波與DeblurGANv2-AEMALF網(wǎng)絡(luò)相結(jié)合,首次提出了RLW-DG-AEMALF網(wǎng)絡(luò)模型。實驗表明,該模型通過對模糊圖像進行2次復(fù)原,使圖像的恢復(fù)更加清晰,同時能夠有效抑制維納濾波后出現(xiàn)的振鈴效應(yīng)。在消融實驗中,RLW-DG-AEMALF網(wǎng)絡(luò)模型在構(gòu)建的UAV數(shù)據(jù)集和GoPro數(shù)據(jù)集上表現(xiàn)出比原始DeblurGANv2網(wǎng)絡(luò)模型更好的模糊圖像復(fù)原效果。相較于同類算法DeblurGANv2和維納濾波,此算法恢復(fù)的圖像平均PSNR和SSIM均有顯著提高。然而,本文算法并沒有針對UAV航拍測量中可能出現(xiàn)的圖像霧化問題進行處理,為了改進算法,后續(xù)考慮在相應(yīng)的模塊中引入大氣散射模型進行處理。