• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合多尺度信息和混合注意力的遙感圖像重建

      2023-11-13 07:45:52曹春萍
      軟件工程 2023年11期
      關(guān)鍵詞:特征提取尺度注意力

      曹春萍, 李 昂

      (上海理工大學光電信息與計算機工程學院, 上海 200093)

      0 引言(Introduction)

      遙感圖像是通過使用遙感技術(shù)(包括飛機、火箭、衛(wèi)星或其他空間平臺)從空中遠距離對地面目標物進行觀測而獲取到的圖像。目前,遙感圖像數(shù)據(jù)在許多領(lǐng)域都得到有效應(yīng)用,例如農(nóng)林業(yè)資源調(diào)查、環(huán)境監(jiān)測、災(zāi)害監(jiān)測和評估、城市規(guī)劃等。然而,在遙感圖像獲取的過程中會不可避免地受到外在因素的影響,包括大氣湍流、通道傳輸能力限制、遠距離成像困難等,導致獲取的遙感圖像存在分辨率比較低的問題。綜合考慮硬件成本,可以使用遙感圖像超分辨率技術(shù)獲取到更高質(zhì)量和分辨率的遙感圖像。

      1 相關(guān)技術(shù)概述(Overview of related technologies)

      傳統(tǒng)的遙感圖像超分辨率技術(shù)有基于插值的方法[1]、基于重構(gòu)的方法[2]和基于深度學習的方法[3]?;诓逯档姆椒m然計算復雜度較低,但是在進行遙感圖像重建時,只能恢復圖像的低頻信息,圖像效果較差?;谥貥?gòu)的方法通常需要足夠的先驗知識,而且重建速度較慢,在先驗知識不足的情況下重建效果不理想?;谏疃葘W習的方法從低分辨率圖像提取特征圖,再將特征圖與高分辨率圖像之間建立映射,重建高分辨率圖像,通過這種方法重建的圖像在客觀評價指標和視覺效果方面均明顯優(yōu)于基于插值的方法和基于重構(gòu)的方法。

      DONG等[4]率先提出了經(jīng)典的超分辨率卷積神經(jīng)網(wǎng)絡(luò)(Super-Resolutional Convolution Neural Networks,SRCNN),利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)學習低分辨率(Low-Resolution,LR)圖像與高分辨率(High-Resolution,HR)圖像進行特征映射。隨后,DONG等[5]在SRCNN的基礎(chǔ)上提出了FSRCNN(Fast Super-Resolutional Convolution Neural Networks)模型,增加了模型的網(wǎng)絡(luò)層數(shù),有效重建出更多的高頻細節(jié),但模型的訓練難度也有所增加。KIM等[6]提出深度卷積網(wǎng)絡(luò)超分模型(Very Deep Super-Resolutional Neural Networks,VDSR),利用多層CNN連接實現(xiàn)特征級聯(lián),大大提升了學習率,加快了網(wǎng)絡(luò)收斂速度,證明了超分模型的網(wǎng)絡(luò)深度對超分辨率重建的重要性。隨著網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)在訓練過程中會出現(xiàn)梯度消失和梯度爆炸等問題,研究者們?yōu)榱吮苊獯藛栴}的發(fā)生,開始鉆研新的結(jié)構(gòu)。HE等[7]提出殘差網(wǎng)絡(luò)(Residual Network,ResNet),通過在網(wǎng)絡(luò)結(jié)構(gòu)中引入殘差單元,避免了梯度問題,保證了模型的順利收斂,為后續(xù)的研究者提供了搭建深層卷積網(wǎng)絡(luò)的思路。LIM等[8]提出EDSR(Enhanced Deep Super-Resolution Network),通過堆疊殘差塊構(gòu)建了更深的網(wǎng)絡(luò)結(jié)構(gòu),重建出質(zhì)量更高的圖像。隨后,在遙感圖像超分辨率重建中,人們不斷構(gòu)建出越來越深的卷積神經(jīng)網(wǎng)絡(luò)用于捕捉更多圖像的深層信息。然而隨著網(wǎng)絡(luò)層數(shù)的不斷加深,超分重建再次進入了瓶頸,研究者們發(fā)現(xiàn)網(wǎng)絡(luò)到達一定的深度后,想通過增加網(wǎng)絡(luò)層數(shù)提升網(wǎng)絡(luò)性能,效果微乎其微。為了重建出更好的圖像,研究者繼續(xù)探索新的方法。當前,大多數(shù)模型對待通道特征是平等的,然而實際上各通道特征對圖像重建的重要性并不相同,因此充分利用通道特征成為提升重建圖像質(zhì)量的新的突破點。HU等[9]通過在網(wǎng)絡(luò)中加入壓縮-激勵(Squeeze-and-Excitation,SE)模塊構(gòu)建壓縮-激勵網(wǎng)絡(luò)(Squeeze-and-Excitation Network,SENet),計算不同通道之間的權(quán)重,將通道注意力用于圖像處理中,重建出更優(yōu)質(zhì)的圖像。受通道注意力的啟發(fā),WOO等[10]在網(wǎng)絡(luò)中加入通道注意力和空間注意力,并將兩者進行融合,提出了瓶頸注意力模塊(Bottleneck Attention Module,BAM)和卷積注意力模塊(Convolutional Block Attention Module,CBAM),ZHANG等[11]在殘差塊中融入通道注意力,提出殘差通道注意力網(wǎng)絡(luò)(Residual Channel Attention Network,RCAN),WOO等和ZHANG等提出的模塊和網(wǎng)絡(luò)模型都取得了更好的重建效果。

      當前的遙感圖像重建模型大多使用單一尺寸的卷積核,在應(yīng)用于遙感圖像的重建提取特征時,由于遙感圖像目標物體尺寸差異較大,學習能力有限,捕捉到的特征不足,因此無法重建出高質(zhì)量的圖像。

      為了解決上述問題,本文提出融合多尺度信息和混合注意力網(wǎng)絡(luò)(Fusion of Multi-Scale Information and Hybrid Attention Networks,FMSIHAN),設(shè)計了兩種多尺度特征提取塊,通過多尺度信息融合和混合注意力塊(Multi-Scale Information Fusion and Hybrid Attention Block,MSIFHAB)和多尺度類金字塔特征提取塊(Multi-Scale Pyramid-Like Feature Extraction Block,MSPLFEB)提取多尺度特征,并通過MSIFHAB中的混合注意力塊對提取的多尺度特征自適應(yīng)地分配權(quán)重,有助于捕捉圖像的高頻和低頻信息,進而獲得更好的重建效果。

      2 網(wǎng)絡(luò)結(jié)構(gòu)(Network structure)

      融合多尺度信息和混合注意力網(wǎng)絡(luò)由淺層特征提取塊、多尺度特征提取塊(Multi-Scale Feature Extraction Block,MSFEB)、全局特征融合塊和重建模塊組成,網(wǎng)絡(luò)總體結(jié)構(gòu)如圖1所示。

      圖1 網(wǎng)絡(luò)總體結(jié)構(gòu)Fig.1 Overall network architecture

      2.1 淺層特征提取塊

      淺層特征提取塊為一個3×3的卷積層,用來提取輸入LR遙感圖像的淺層特征,并將特征圖的通道數(shù)由3變?yōu)?4,這個過程可以表示如下:

      F0=fConv3×3(ILR)

      (1)

      其中:ILR代表模型輸入的低分辨率遙感圖像;fConv3×3(·)代表卷積操作,用來提取ILR的淺層特征;F0代表ILR經(jīng)過淺層特征提取塊提取到的淺層特征圖。

      2.2 多尺度特征提取塊

      每個MSFEB由若干個多尺度信息融合和混合注意力塊、若干個多尺度類金字塔特征提取塊組成,多尺度特征提取塊結(jié)構(gòu)圖如圖2所示。輸入特征圖經(jīng)過多尺度特征提取塊的過程可以表示如下:

      圖2 多尺度特征提取塊結(jié)構(gòu)圖Fig.2 Structure diagram of multi-scale feature extraction block

      Fi=fMSPLFEB1(fMSIFHAB1(fMSPLFEB2(fMSIFHAB2(fMSPLFEB3(Fi-1)))))

      (2)

      其中:Fi-1代表輸入多尺度特征提取塊的特征圖;fMSPLFEB1(·)、fMSPLFEB2(·)、fMSPLFEB3(·)代表多尺度類金字塔特征提取塊的多尺度特征提取操作;fMSIFHAB1(·)、fMSIFHAB2(·)代表多尺度信息融合和混合注意力塊的多尺度特征提取操作;Fi代表經(jīng)過多尺度特征提取塊后輸出的特征圖。

      2.2.1 多尺度信息融合和混合注意力塊

      針對大多數(shù)圖像,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)通常采用單一的卷積層提取圖像特征,重建得到的高分辨率圖像質(zhì)量可以達到使用者的要求。然而,通過衛(wèi)星等遙感技術(shù)獲取的遙感圖像,其內(nèi)部包含的物體尺寸差異較大,在對這類圖像進行超分辨率重建時,若使用較小尺寸的卷積核提取特征,由于感受野較小,所以對高頻信息的提取能力不足;若使用較大尺寸的卷積核提取特征,將丟失一部分圖像像素信息。也就是說,使用單一尺寸的卷積核進行特征提取時,學習能力有限,無法重建出高質(zhì)量的圖像。因此,本文設(shè)計了多尺度信息融合和混合注意力塊,通過使用卷積層、下采樣操作和平均池化層提取特征圖中的高頻和低頻特征,再通過混合注意力機制,自適應(yīng)地調(diào)整多尺度特征的權(quán)重。多尺度信息融合和混合注意力塊結(jié)構(gòu)圖如圖3所示,圖3中的W、H、C分別代表特征圖的寬度、高度、通道數(shù)。

      圖3 多尺度信息融合和混合注意力塊結(jié)構(gòu)圖Fig.3 Architecture of MSIFHAB

      構(gòu)建多尺度信息融合和混合注意力塊的步驟所示。

      首先,將輸入特征圖分別送入三個不同的卷積層,其中第一個卷積層從下采樣操作后的特征圖中提取低頻特征;第二個卷積層從原始尺寸的特征圖中經(jīng)過平均池化層提取低頻特征;第三個卷積層從原始尺寸的特征圖中提取高頻特征。經(jīng)過下采樣操作得到的特征圖經(jīng)過反卷積恢復到下采樣操作前的原始尺寸。經(jīng)過三個不同的卷積操作后,得到三種尺度不同的特征信息,這個過程可以表示如下:

      FC=ReLU(TConv4×4(Downs(FMSI-in)))+AvgConv3×3(FMSI-in)+

      ReLU(fConv3×3(FMSI-in))

      (3)

      其中:FMSI-in代表輸入特征圖;Downs(·)代表下采樣操作;TConv4×4(·)代表反卷積操作;AvgConv3×3(·)代表平均池化操作;FC為輸出的多尺度特征圖。

      其次,為了充分利用多尺度特征信息,本文提出混合注意力機制,混合注意力塊(Hybrid Attention Block,HAB)結(jié)構(gòu)圖如圖4所示,通過對不同的尺度特征自適應(yīng)地分配不同的權(quán)重,使網(wǎng)絡(luò)能學習到對圖像重建更有價值的特征,這個過程可以表示如下:

      FS=[CA(FC)+FC]+SA(CA(FC))+[SA(FC)+CA(FC)]

      (4)

      其中:CA(·)代表通道注意力機制,與CBAM中的通道注意力保持一致;SA(·)代表空間注意力機制,和CBAM中的空間注意力保持一致;FS代表輸出的加權(quán)多尺度特征圖。

      最后,通過一個3×3的卷積層將加權(quán)后得到的特征圖和加權(quán)前的多尺度特征圖融合為多尺度信息融合特征圖,并且通過跳躍連接避免模型在訓練過程中出現(xiàn)梯度消失等問題,這個過程可以表示如下:

      FMSI-out=FMSI-in+FC+fConv3×3(FS)

      (5)

      其中,FMSI-out為輸出的多尺度信息融合特征圖。

      2.2.2 多尺度類金字塔特征提取塊

      多尺度類金字塔特征提取塊結(jié)構(gòu)圖如圖5所示,K為卷積核尺寸,N為輸入通道數(shù),D為擴張率。多尺度類金字塔特征提取塊由四個部分組成,第一部分包含四個不同感受野的卷積層,第二部分包含三個不同感受野的卷積層,第三部分是一個將通道數(shù)恢復到64的1×1的卷積層,第四部分是一個跳躍連接。

      圖5 多尺度類金字塔特征提取塊結(jié)構(gòu)圖Fig.5 Architecture of MSPLFEB

      構(gòu)建多尺度類金字塔特征提取塊的步驟如下。

      首先,將輸入特征圖分別送入多尺度類金字塔特征提取塊第一部分的四個不同感受野的卷積層,這四個卷積層的輸入通道數(shù)為64,輸出通道數(shù)為16,卷積核尺寸分別為1×1、3×3、3×3和3×3,擴張率分別為1、1、2和3,這個過程可以表示如下:

      (6)

      其次,將FMSP1分別送入多尺度類金字塔特征提取塊第二部分的三個不同感受野的卷積層,這三個卷積層的輸入通道數(shù)為16,輸出通道數(shù)為32,卷積核尺寸分別為1×1、3×3和3×3,擴張率分別為1、1和2,這個過程可以表示如下:

      (7)

      最后,將FMSP2送入多尺度類金字塔特征提取塊第三部分的卷積層,并通過跳躍連接將第三部分的輸出結(jié)果與多尺度類金字塔特征提取塊的輸入特征圖進行殘差連接,這個過程可以表示如下:

      (8)

      2.3 全局特征融合塊

      經(jīng)過n個多尺度特征提取塊得到多尺度特征圖后,通過一個3×3的卷積層將其整合,這個過程可以表示如下:

      FMF=fConv3×3(Fn)

      (9)

      其中:Fn代表經(jīng)過n個多尺度特征提取塊得到的多尺度特征圖;FMF代表整合后得到的多尺度特征整合圖。

      通過一個跳躍連接,將通過淺層特征提取塊得到的淺層特征圖和多尺度特征整合圖進行融合,得到全局特征融合圖,這個過程可以表示如下:

      FGF=F0+FMF

      (10)

      其中,FGF代表全局特征融合圖。

      2.4 重建模塊

      本文所提模型中重建模塊的作用是將全局特征融合圖映射成超分辨率圖像,由兩個部分組成,包括亞像素卷積層和一個3×3的卷積層。全局特征融合圖經(jīng)過亞像素卷積層上采樣后,再通過一個3×3的卷積層重建得到高分辨率圖像:

      ISR=fConv3×3(Pixel(FGF))

      (11)

      其中:Pixel(·)代表亞像素卷積操作;ISR代表低分辨率遙感圖像經(jīng)過本文模型重建得到的高分辨率遙感圖像。

      2.5 損失函數(shù)

      本文模型使用的損失函數(shù)是平均絕對誤差(Mean Absolute Error, MAE),它是目前深度學習領(lǐng)域遙感圖像進行超分辨率重建廣泛使用的損失函數(shù):

      (12)

      3 實驗(Experiment)

      3.1 數(shù)據(jù)集

      本文實驗使用的兩個數(shù)據(jù)集均是真實遙感數(shù)據(jù)集,分別為NWPU-RESISC45和UCMerced-LandUse。NWPU-RESISC45數(shù)據(jù)集是西北工業(yè)大學公布的用于遙感圖像場景分類的大規(guī)模公開數(shù)據(jù)集,數(shù)據(jù)集共有31 500幅圖像,其中包含45個類別,每個類別分別包含700幅圖像。UCMerced-LandUse數(shù)據(jù)集是由UC Merced計算機視覺實驗室公布的用于遙感圖像場景分類的公開數(shù)據(jù)集,共有2 100幅圖像,其中包含21個類別,每個類別分別包含100幅圖像。本文從NWPU-RESISC45數(shù)據(jù)集中airplane類別的700幅圖像中隨機選取500幅圖像作為訓練集,剩余的200幅圖像隨機選取一半設(shè)置為驗證集,另一半設(shè)置為測試集,命名為NTest[12]。設(shè)置UCMerced-LandUse數(shù)據(jù)集中airplane類別的100幅圖像為第二個測試集,命名為UTest。

      通過將圖像進行隨機水平翻轉(zhuǎn)以及隨機旋轉(zhuǎn)90°、180°、270°增強數(shù)據(jù)集,獲得更多的訓練數(shù)據(jù)。

      3.2 實驗設(shè)置

      本文實驗的硬件環(huán)境為Intel(R) Xeon(R) Platinum 8255C CPU處理器及NVIDIA RTX 2080TI 11 GB GPU;軟件環(huán)境為PyTorch 1.8.1框架、Python 3.8和64位Ubuntu18.04操作系統(tǒng)。本文所提模型采用ADAM算法進行優(yōu)化,優(yōu)化器參數(shù)設(shè)置為beta1=0.9,beta2=0.999,ε=10-8,訓練批大小設(shè)置為16。訓練開始時,學習速率設(shè)置為10-4,在迭代200個epoch后,學習速率降低一半,總迭代次數(shù)為400個epoch。在實驗過程中,使用峰值信噪比(Peak Signal to Noise Ratio, PSNR)和結(jié)構(gòu)相似性(Structural Similarity,SSIM)作為評估指標,PSNR值和SSIM值越大,則重建效果越好。

      圖6給出了訓練過程中損失函數(shù)的變化趨勢,橫坐標代表迭代次數(shù),縱坐標代表訓練的損失,可以看出當?shù)螖?shù)達到300個epoch后,損失趨于穩(wěn)定。

      圖6 訓練過程中損失函數(shù)的變化趨勢Fig.6 Trend of loss function during training

      3.3 消融實驗

      為驗證本文所提模型中使用的多尺度信息融合和混合注意力塊(MSIFHAB)、多尺度類金字塔特征提取塊(MSPLFEB)及混合注意力塊(HAB)的有效性,通過組合不同的塊設(shè)置消融實驗。消融實驗中,本文所提模型中的多尺度特征提取塊(MSFEB)的個數(shù)設(shè)置為1個,放大因子設(shè)置為2,總共迭代200個epoch。不同的塊組合及實驗結(jié)果如表1所示。其中:M1模型為去除MSPLFEB塊和MSIFHAB塊中的HAB塊;M2模型為去除MSPLFEB塊;使用和CBAM相同的通道注意力機制(CA)和空間注意力機制(SA)替換MSIFHAB塊中的HAB塊;M3模型為去除MSPLFEB塊;M4模型為去除MSIFHAB塊;M5模型為同時包含MSPLFEB塊和MSIFHAB塊。

      從表1中M1、M2、M3模型在測試集上得到的PSNR值不難看出,沒有注意力機制的M1模型重建得到的圖像在兩個測試集上得到的PSNR值均為最低且明顯低于其他模型。加入CA和SA后的M2模型重建得到的圖像在測試集上得到的PSNR值相比M1模型有了明顯提升,而加入HAB的M3模型在兩個測試集上得到的PSNR值比M2模型提高了0.07 dB和0.08 dB。由此可見,注意力機制在遙感圖像超分辨率重建網(wǎng)絡(luò)中發(fā)揮了重要的作用,而本文提出的HAB相比其他注意力機制表現(xiàn)出更優(yōu)的性能。從表1中M3、M4、M5模型在測試集上得到的PSNR值可以看出,本文模型單獨保留MSPLFEB塊或MSIFHAB塊后的指標均低于同時包含兩個塊的模型,證明了本文模型各塊的有效性。

      表1 不同塊組合在測試集上的平均PSNR值

      3.4 對比實驗

      為了驗證本文模型的有效性,本文選取了7個具有代表意義的重建模型(包括SRCNN、IDN[13]、LGCNet[14]、RCAN、MPSR、IRN[15]和DSSR[16])設(shè)置對比實驗,分別從客觀評價指標和主觀視覺效果兩個方面進行分析。

      3.4.1 客觀評價指標

      表2和表3分別給出了放大因子為2、3、4時,各模型在兩個測試集上的PSNR值和SSIM值,表中的黑體數(shù)字表示模型的最佳結(jié)果。

      表2 各模型在測試集上的PSNR值

      從表2和表3中可以看出,出現(xiàn)最早的SRCNN模型在所有場景下得到的PSNR值和SSIM值均為最低。其他模型隨著模型層數(shù)的加深以及更加有效的塊的加入,PSNR值和SSIM值相對于SRCNN模型均有明顯增長。在所有場景里,本文提出的模型性能均為最優(yōu)。

      3.4.2 主觀視覺效果

      本文選取了兩個測試集中的三幅遙感圖像的重建結(jié)果進行展示,圖7、圖8和圖9分別為各模型在放大因子為2、3、4時的重建效果對比圖。在這三幅圖片中,左邊的大圖為高清圖像,在高清圖像中用方框標記了關(guān)鍵區(qū)域,右邊八個小圖則是不同模型重建后的圖像的標記區(qū)域的放大圖。通過仔細對比發(fā)現(xiàn),本文所提模型重建得到的遙感圖像在飛機邊緣和紋理細節(jié)等方面,均優(yōu)于其他模型重建后的遙感圖像。在放大因子為4時可以看到SRCNN、IDN、LGCNET等模型重建后的圖像整體仍比較模糊,無法看到清晰的邊界,而本文所提模型重建后的圖像已經(jīng)可以清晰地看到飛機的邊緣輪廓。通過主動視覺效果對比實驗,證明了本文所提模型中的多尺度特征提取塊能更清晰地恢復遙感圖像的高頻信息,重建得到的高清遙感圖像擁有更好的主觀視覺效果。

      圖7 放大因子為2時各模型重建效果對比Fig.7 Comparison of reconstruction effects among different models when the amplification factor is 2

      圖8 放大因子為3時各模型重建效果對比Fig.8 Comparison of reconstruction effects among different models when the amplification factor is 3

      圖9 放大因子為4時各模型重建效果對比Fig.9 Comparison of reconstruction effects among different models when the amplification factor is 4

      4 結(jié)論(Conclusion)

      本文提出了一種基于融合多尺度信息和混合注意力的遙感圖像超分辨率重建模型。多尺度信息融合和混合注意力塊能充分提取多尺度特征,并利用混合注意力機制自適應(yīng)地調(diào)整多尺度特征通道之間和空間區(qū)域的權(quán)重,增強了網(wǎng)絡(luò)重建的性能。多尺度類金字塔特征提取塊通過使用不同尺寸、不同擴張率的卷積核增大了網(wǎng)絡(luò)的感受野,使網(wǎng)絡(luò)可以學習到更多的高頻特征。本文設(shè)計了豐富的消融實驗以及對比實驗,并對實驗結(jié)果進行了定性、定量分析,證明了本文所提模型的有效性和魯棒性。未來的研究將致力于優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和縮短模型的訓練時間及進一步提高圖像重建效果。

      猜你喜歡
      特征提取尺度注意力
      讓注意力“飛”回來
      財產(chǎn)的五大尺度和五重應(yīng)對
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      Bagging RCSP腦電特征提取算法
      A Beautiful Way Of Looking At Things
      宇宙的尺度
      太空探索(2016年5期)2016-07-12 15:17:55
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      9
      Walsh變換在滾動軸承早期故障特征提取中的應(yīng)用
      軸承(2010年2期)2010-07-28 02:26:12
      昌乐县| 旺苍县| 青田县| 临夏县| 浠水县| 琼中| 衡东县| 乐都县| 望城县| 肃南| 通渭县| 噶尔县| 确山县| 中江县| 合山市| 白河县| 墨竹工卡县| 抚顺市| 海安县| 邵武市| 乌拉特中旗| 广东省| 聊城市| 米易县| 沙河市| 南宫市| 西城区| 陆河县| 南昌市| 武强县| 万源市| 福清市| 东乡族自治县| 原阳县| 新乡县| 新建县| 昭平县| 横峰县| 卢湾区| 大宁县| 南乐县|