• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多任務(wù)學(xué)習(xí)的無參考超分辨圖像質(zhì)量評估

      2021-08-24 08:41:02劉錫澤李志龍何欣澤
      關(guān)鍵詞:小塊注意力分?jǐn)?shù)

      劉錫澤 ,李志龍 ,何欣澤 ,范 紅

      (1.東華大學(xué) 信息科學(xué)與技術(shù)學(xué)院,上海 201620;2.OPPO研究院,上海 200030;3.上海大學(xué) 通信與信息工程學(xué)院,上海 200444)

      0 引言

      單幅圖像超分辨率重建(Single Image Super-Resolution Reconstruction,SISR)是圖像復(fù)原的一種,其通過信號處理或者圖像處理的方法,將低分辨率(Low-Resolution,LR)圖像轉(zhuǎn)化為高分辨率(High-Resolution,HR)圖像[1]。目前,SISR被廣泛應(yīng)用在醫(yī)學(xué)影像、遙感圖像、視頻監(jiān)控等領(lǐng)域當(dāng)中。近年來,許多SISR算法相繼被提出,因此需要一種可靠的方式來衡量各種算法重建圖像的質(zhì)量好壞。

      最可靠的圖像質(zhì)量評估方式是主觀評分,但這種方式需要耗費大量的人力和時間,所以往往使用客觀評價指標(biāo)來對超分辨(Super-Resolution,SR)圖像進行質(zhì)量評估。最常用的圖像客觀評價指標(biāo)是峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structural Similarity,SSIM)。但在 SISR領(lǐng)域中,這兩個指標(biāo)與人眼感知的一致性較低[2]。因此研究者們提出了一系列基于人類視覺系統(tǒng)(Human Visual System,HVS)的圖像質(zhì)量評估算法,如信息保真度(Information Fidelity Criterion,IFC)[3]、特征相似度(Feature Similarity,F(xiàn)SIM)[4]等算法,在圖像質(zhì)量評估數(shù)據(jù)庫中的性能超過了PSNR、SSIM等傳統(tǒng)算法。

      由于以上算法都是全參考圖像質(zhì)量評估算法,需要HR圖像的信息,在顯示中HR圖像往往是不可獲得的,因此需要開發(fā)一種有效的無參考圖像質(zhì)量評估算法。Ma等人[5]針對SR圖像提出了一種基于兩階段回歸模型的圖像質(zhì)量評估算法,并創(chuàng)建了第一個SR圖像質(zhì)量評估數(shù)據(jù)庫,包含用9種SR算法重建的1 680張SR圖像與每張圖像的主觀質(zhì)量分?jǐn)?shù)。近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)被廣泛應(yīng)用在圖像質(zhì)量評估任務(wù)當(dāng)中:Fang等人[6]首先提出了基于 CNN的 SR圖像質(zhì)量評估網(wǎng)絡(luò),Bare等人[7]和 Lin等人[8]分別在 CNN中引入殘差連接和注意力機制,并取得了先進的性能。最近,Zhou等人[9]提出了用于SR圖像質(zhì)量評估的QADS數(shù)據(jù)集,包含用21種SR算法重建的980張SR圖像。

      本文提出一種基于多任務(wù)學(xué)習(xí)的無參考SR圖像質(zhì)量評估網(wǎng)絡(luò),并在其中融合先進的協(xié)調(diào)注意力模塊,在QADS數(shù)據(jù)集中的結(jié)果表明,本文算法的結(jié)果與圖像主觀評分保持了較高的一致性。

      1 提出方法

      1.1 網(wǎng)絡(luò)結(jié)構(gòu)

      本文提出的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)的輸入是從SR圖像中裁剪的大小為32×32的小塊,小塊首先經(jīng)過由8個卷積層、3個最大池化層、4個協(xié)調(diào)注意力模塊(Coordinate Attention Block,CAB)組成的特征提取階段,此階段輸出大小為 256×4×4的特征圖張量,然后按通道維度進行全局平均池化、全局最大池化、全局最小池化操作,再在通道維度進行拼接,輸出大小為 768×1×1的張量,之后輸入到全連接層,進行兩個任務(wù)的預(yù)測。

      圖1 網(wǎng)絡(luò)總體結(jié)構(gòu)圖

      其中,任務(wù)2用來預(yù)測每個小塊的質(zhì)量分?jǐn)?shù),是網(wǎng)絡(luò)的主要任務(wù)。在預(yù)測一張圖像的分?jǐn)?shù)時,用圖像裁剪出的所有32×32小塊的質(zhì)量分?jǐn)?shù)的平均值作為整張圖像的質(zhì)量分?jǐn)?shù)。任務(wù)1用來預(yù)測每個小塊的局部頻率特征,輸出為27維的特征向量,任務(wù)1中第一個全連接層會與任務(wù)2中的第一個全連接層進行拼接操作。任務(wù)1的目的是用圖像的局部頻域特征來輔助網(wǎng)絡(luò)進行圖像質(zhì)量分?jǐn)?shù)的預(yù)測,實驗證明這種多任務(wù)學(xué)習(xí)的方式可以使網(wǎng)絡(luò)預(yù)測的分?jǐn)?shù)有更好的準(zhǔn)確性和泛化性。

      1.2 局部頻率特征

      Ma等人[5]預(yù)測SR圖像質(zhì)量分?jǐn)?shù)時,將圖像分為不重疊的7×7大小的小塊,進行離散余弦變換(Discrete Cosine Transform,DCT),并用廣義高斯分布(Generalized Gaussian Distribution,GGD)[10]擬合 DCT 系數(shù),最后取所有小塊DCT特征的平均值作為圖像的局部頻率特征。對每個訓(xùn)練圖像都計算其局部頻率特征當(dāng)作模型任務(wù)1的標(biāo)簽。用GGD擬合DCT系數(shù)的過程如式(1)所示:

      進一步,將每個小塊按圖2分為三組,計算每組 的 歸 一 化 偏 差(i=1,2,3),然 后 計 算的 方 差 作為DCT塊的第三個統(tǒng)計特征。

      圖2 DCT小塊分塊示意圖

      分別在原始訓(xùn)練圖像、經(jīng)σ=0.5的高斯濾波器濾波一次和兩次的訓(xùn)練圖像中以7×7大小分塊提取三種DCT特征,再取所有小塊的平均值、前10%平均值、后10%平均值作為最終的局部頻率特征,最終的特征為27維的向量。

      1.3 協(xié)調(diào)注意力模塊

      SE-block[11]、CBAM[12]等注意力模塊已經(jīng)被證明能在圖像分類、圖像超分辨率等任務(wù)中提高網(wǎng)絡(luò)的性能[13-14]。文獻[8]首先將 SE-block模塊融合到 SR圖像質(zhì)量評估網(wǎng)絡(luò)當(dāng)中。為解決傳統(tǒng)的SE-block等注意力模塊只考慮圖像的通道信息,忽略空間信息、使用全局池化導(dǎo)致丟失過多信息等缺點,文獻[15]提出了一種新的協(xié)調(diào)注意力模塊(Coordinate Attention Block,CAB)。本文將協(xié)調(diào)注意力模塊融合到提出的網(wǎng)絡(luò)中,提高了預(yù)測分?jǐn)?shù)的準(zhǔn)確率。協(xié)調(diào)注意力模塊如圖3所示。

      圖3 CAB示意圖

      與傳統(tǒng)的SE-block不同,CAB在第一步將二維的全局平均池化操作分解成兩個一維的池化操作,生成W、H兩個方向上的特征描述符。這樣做可以保留特征的空間位置信息,使網(wǎng)絡(luò)更精確地捕捉感興趣的目標(biāo)。高度為h時第c個通道的輸出可以用式(2)表示:

      寬度為w時第c個通道的輸出可以用式(3)表示:

      第二步,CAB將兩個方向上的特征描述符連接起來,用收縮率為r的1×1卷積層進行卷積操作,此過程如式(4)所示:

      其中,f為包含 W、H兩個方向信息的特征圖,δ為ReLU函數(shù),F(xiàn)1為 1×1卷積操作。

      第三步,將f按空間維度分解成兩個特征張量fh和fw,再用兩組1×1卷積層對特征圖進行卷積,形成W、H兩個方向上的注意力權(quán)重 gh與 gw,此過程如式(5)、式(6)所示:

      其中 Fh與 Fw為 1×1卷積操作,σ為 Sigmoid激活函數(shù)。

      最后,將W、H兩個方向上的注意力權(quán)重與CAB的輸入進行加權(quán),最終的輸出如式(7)所示:

      2 實驗結(jié)果及分析

      2.1 數(shù)據(jù)與實驗準(zhǔn)備

      本次實驗采用QADS數(shù)據(jù)集作為訓(xùn)練和測試數(shù)據(jù)集。數(shù)據(jù)集包括20張原始 HR圖像,包含 2、3、4三種放大倍數(shù),21種SISR方法重建的980張SR圖像和它們的主觀質(zhì)量分?jǐn)?shù),質(zhì)量分?jǐn)?shù)區(qū)間在[0,1]區(qū)間內(nèi),分?jǐn)?shù)越高表明圖片質(zhì)量越好。

      實驗前,先將QADS數(shù)據(jù)集中的980張SR圖像裁剪為不重疊的 32×32小塊,再按文獻[7]種提出的標(biāo)簽分發(fā)方式計算每一個小塊的質(zhì)量分?jǐn)?shù),計算方式如式(8)所示:

      其中Sp為小塊的質(zhì)量分?jǐn)?shù),Simage為SR圖像的質(zhì)量分?jǐn)?shù),MSEp為原始HR圖像和SR圖像在小塊的32×32區(qū)域上的均方誤差,MSEaverage為一張 SR圖像所有小塊與原始HR圖像均方誤差的平均值。在數(shù)據(jù)集中隨機選取90%圖像作為訓(xùn)練集,10%圖像作為測試集,進行10折交叉驗證,最后記錄所有實驗的平均結(jié)果。

      實驗采用Windows 10操作系統(tǒng),PyTorch 1.7.1深度學(xué)習(xí)框架,結(jié)合并行計算框架CUDA10.1對實驗進行加速。采用的硬件設(shè)備為運行內(nèi)存為8 GB的 Intel?Xeon?CPU E5-2678 v3@2.50 GHz處理器,顯存為12 GB的NVIDIA Tesla K80顯卡。

      模型訓(xùn)練時,設(shè)置每次迭代的batch size為32,總共迭代 40個 epoch,每迭代 10個 epoch將學(xué)習(xí)率將為原來的十分之一。模型使用帶動量項的SGD作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.01,momentum參數(shù)設(shè)置為 0.9,weight_decay參數(shù)設(shè)置為 0.000 1,為了防止梯度爆炸,將超過0.1的梯度值固定為0.1。

      訓(xùn)練時,損失函數(shù)使用L1損失,表達(dá)式如式(9)所示:

      其中 N 為 batch size,y1、y′1分別代表任務(wù) 1 的實際值和預(yù)測值,y2、y′2分別代表任務(wù) 2的實際值和預(yù)測值。λ為控制任務(wù)1所占權(quán)重的超參數(shù)。

      2.2 對比實驗分析

      實驗選擇使用斯皮爾曼等級相關(guān)系數(shù)(Spearman Rank Order Coefficient,SROCC)、 肯 德 爾 等 級 相 關(guān) 系(Kendal Rank Order Coefficient,KROCC)、皮 爾 遜 線 性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)來評估算法結(jié)果與真實標(biāo)簽的一致性,三種系數(shù)越大,表明一致性越好。

      2.2.1 消融研究

      為了研究多任務(wù)學(xué)習(xí)和協(xié)調(diào)注意力模塊對模型性能的影響,采用不含多任務(wù)學(xué)習(xí)與協(xié)調(diào)注意力模塊的模型作為第一種基線模型,在此基礎(chǔ)上加入?yún)f(xié)調(diào)注意力模塊作為第二種注意力模型,用兩種模型與本文提出的模型在相同的訓(xùn)練數(shù)據(jù)與參數(shù)對比下進行實驗,結(jié)果如表1所示。

      表1 三種模型在QADS數(shù)據(jù)集中的平均SROCC

      結(jié)果顯示,含有注意力機制和多任務(wù)學(xué)習(xí)的模型效果最好,僅含有注意力機制的模型次之,基線模型效果最差,表明在網(wǎng)絡(luò)中加入?yún)f(xié)調(diào)注意力模塊與多任務(wù)學(xué)習(xí)均可提升模型的預(yù)測效果。

      2.2.2 值選取

      在損失函數(shù)中,λ為控制兩種任務(wù)權(quán)重的超參數(shù),λ越大,任務(wù)1在模型訓(xùn)練時所占的權(quán)重越高。為了選取最佳權(quán)重,本文對不同λ值的模型進行對比實驗,結(jié)果如表2所示。

      表2 不同λ值的模型在數(shù)據(jù)集中的各種指標(biāo)對比

      結(jié)果顯示,λ值取0.5時,模型性能達(dá)到了最優(yōu)。原因可能是當(dāng)λ值太大時,局部頻率特征預(yù)測任務(wù)所占權(quán)重越高,對質(zhì)量分?jǐn)?shù)預(yù)測任務(wù)產(chǎn)生不良的影響;當(dāng)λ值太小時,局部頻率特征預(yù)測任務(wù)對質(zhì)量分?jǐn)?shù)預(yù)測任務(wù)的幫助有限。因此本文最終選擇的λ值為 0.5。

      2.3 與其他算法的對比

      本文選取了文獻[6]、文獻[7]、文獻[8]三種目前有先進性能的無參考SR圖像質(zhì)量評估算法作為對比算法,為了保持訓(xùn)練數(shù)據(jù)和訓(xùn)練環(huán)境的一致,按原始論文參數(shù)設(shè)置在我們的環(huán)境中重新訓(xùn)練網(wǎng)絡(luò),在10折交叉驗證中每折的訓(xùn)練數(shù)據(jù)是一致的。最終的實驗結(jié)果如表3所示。

      表3 不同方法在數(shù)據(jù)集中的各種指標(biāo)對比

      結(jié)果顯示,本文算法在各種指標(biāo)上的結(jié)果都明顯超過了對比的三種算法,表明本文算法與人眼主觀打分保持了最優(yōu)的一致性。

      3 結(jié)論

      本文提出了一種基于多任務(wù)學(xué)習(xí)的無參考SR圖像質(zhì)量評估網(wǎng)絡(luò),將局部頻率特征預(yù)測任務(wù)融合到模型當(dāng)中,輔助模型進行圖像質(zhì)量分?jǐn)?shù)的預(yù)測,提升模型預(yù)測準(zhǔn)確率。進一步,本文在模型中加入先進的協(xié)調(diào)注意力模塊,使模型可以更精確地定位到對分?jǐn)?shù)預(yù)測影響更大的目標(biāo)像素。本文對比實驗證明了將多任務(wù)學(xué)習(xí)與注意力模塊加入到模型當(dāng)中的有效性,與其他算法的對比結(jié)果證明了本文算法與主觀打分保持了較高的一致性。下一步的工作目標(biāo)是發(fā)掘更有效的圖像特征來進行多任務(wù)學(xué)習(xí)的預(yù)測。

      猜你喜歡
      小塊注意力分?jǐn)?shù)
      讓注意力“飛”回來
      分?jǐn)?shù)的由來
      無限循環(huán)小數(shù)化為分?jǐn)?shù)的反思
      可怕的分?jǐn)?shù)
      算分?jǐn)?shù)
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      燉羊肉的小竅門
      女士(2016年6期)2016-05-14 13:40:56
      能否分成奇數(shù)個全等的非長方形小塊?
      西瓜冰棒
      舞阳县| 安吉县| 左权县| 天门市| 禹城市| 文成县| 阿合奇县| 青田县| 探索| 铜鼓县| 堆龙德庆县| 高淳县| 仪陇县| 土默特左旗| 旺苍县| 汕尾市| 班戈县| 平塘县| 资阳市| 丹寨县| 佛冈县| 稻城县| 陆良县| 安龙县| 都江堰市| 琼海市| 平塘县| 绥滨县| 三河市| 凤翔县| 淮阳县| 夏津县| 楚雄市| 临清市| 东阳市| 祁连县| 靖安县| 邵阳市| 栾川县| 社会| 南丰县|