A dual-branch no-reference image quality assessment network guided by Transformer and a weight token
GUO Ying-Cong,TANG Tian-Hang,LIU Yi-Guang (College of Computer Science,Sichuan University,Chengdu 6lOo65,China)
Abstract: No-Reference Image Quality Assessment (NR-IQA) is a fundamental task in the field of computer vision,which aims to generate quality evaluation results consistent with human perception.However, image quality is jointlydetermined bycontent and distortion,and their complex interactions pose significant challenges for accurate prediction.This paper proposes a dual-branch network for image quality assessment, which separately extracts content and distortion features.The model incorporates a Transformer and a weight token for feature encoding and decoding,thereby accurately capturing quality-related semantics. Specifically, the content branch employs a ResNet5O backbone pre-trained on ImageNet to extract multi-level content features.For thedistortion branch,adistortion-aware dataset is specificallyconstructed,and adistortion feature extractor is trained using a Siamese network architecture.In addition,a Deformable Channel Atention (DCA)module is introduced to sample key features in both spatial and channel dimensions,facilitating efficient feature integration.Finaly,a Transformer with a weight token is utilized to capture global interactions between content and distortion features,guiding the original features to acquire quality-weighted representations.Experimental results demonstrate that across six public image quality assessment datasets,the model achieves average SRCC and PLCC values of O. 9O8 and O.919,outperforming mainstream methods.
Keywords: No-reference Image quality assessment;Content-distortion feature fusion; Pretraining;Dualbranch;Transformer;Weight token
1引言
隨著信息廣泛共享,互聯(lián)網(wǎng)上充斥著海量的數(shù)字圖像.這些圖像在獲取、壓縮、存儲(chǔ)和顯示過程中不可避免地受到各種失真的影響[1].因此,準(zhǔn)確的圖像質(zhì)量評(píng)價(jià)對(duì)于提升用戶體驗(yàn)至關(guān)重要.當(dāng)前,客觀圖像質(zhì)量評(píng)價(jià)算法可以分為3類2:全參考、部分參考和無參考.由于參考信息難以獲取,前兩種算法的應(yīng)用場(chǎng)景受到較大限制.本文聚焦于無參考圖像質(zhì)量評(píng)價(jià)算法.
針對(duì)無參考圖像質(zhì)量評(píng)價(jià),已有大量研究進(jìn)行了探索.早期方法[3-6主要設(shè)計(jì)手工特征進(jìn)行質(zhì)量回歸預(yù)測(cè).但由于手工特征的表達(dá)能力有限,往往導(dǎo)致性能欠佳或僅適用于特定失真類型.近年來,許多基于深度學(xué)習(xí)的方法相繼提出,并取得了顯著進(jìn)展.這些方法大致分為兩類.
第1類方法設(shè)計(jì)專用于質(zhì)量任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)[7-10],并直接進(jìn)行模型訓(xùn)練.例如,Guo等[11]從不同視角提取特征,并利用內(nèi)容感知超網(wǎng)絡(luò)和一致性監(jiān)督策略進(jìn)行特征映射以增強(qiáng)模型對(duì)不同圖像內(nèi)容和失真類型的適應(yīng)能力.Wei等[12提出了多尺度密集網(wǎng)絡(luò),將失真特征和多尺度的內(nèi)容特征進(jìn)行細(xì)粒度空間對(duì)齊,并通過跨尺度壓縮融合機(jī)制構(gòu)建質(zhì)量表征.但是,圖像質(zhì)量標(biāo)注需要耗費(fèi)大量人力,導(dǎo)致現(xiàn)有質(zhì)量評(píng)價(jià)數(shù)據(jù)集的規(guī)模相對(duì)較小,在數(shù)據(jù)不足的情況下,這些缺乏先驗(yàn)知識(shí)的模型表現(xiàn)并不理想.
第2類方法從視覺相關(guān)任務(wù)上提取知識(shí)先驗(yàn)[13-15],然后進(jìn)行語義微調(diào).受自由能原理[16]的啟發(fā),一些研究[17.18]嘗試結(jié)合圖像恢復(fù)技術(shù)進(jìn)行質(zhì)量評(píng)價(jià).例如,Pan等[19]提出了一種全新的特征補(bǔ)償網(wǎng)絡(luò)用于圖像恢復(fù),然后通過恢復(fù)圖像和失真圖像的特征信息共同構(gòu)建質(zhì)量表征.雖然取得了一定成效,但對(duì)恢復(fù)效果的依賴性限制了此類方法的性能.Su等20]利用在分類任務(wù)上訓(xùn)練的ResNet5021提取多層次內(nèi)容特征,然后從高級(jí)語義特征構(gòu)建質(zhì)量回歸準(zhǔn)則來聚合不同層次特征.Golestaneh等[22]進(jìn)一步引人Transformer[23]捕捉特征間的全局依賴關(guān)系,并結(jié)合秩序約束損失校準(zhǔn)質(zhì)量排序.然而,分類任務(wù)更多關(guān)注物體內(nèi)容語義,這導(dǎo)致上述模型缺乏對(duì)失真信息的感知,研究表明[24],圖像質(zhì)量主要由其內(nèi)容和失真共同決定,如圖1所示.圖1中的圖像均源自KADID數(shù)據(jù)集[25].對(duì)圖1a和c施加相同強(qiáng)度的白噪聲,圖1a中更復(fù)雜的紋理有效減弱了失真的影響,因而得分高于圖1c.相反,當(dāng)對(duì)圖1b和d施加相同強(qiáng)度的色域偏移時(shí),復(fù)雜紋理加劇了圖1b中的偽影效應(yīng),導(dǎo)致其得分更低.基于此,一些研究嘗試從內(nèi)容和失真兩個(gè)角度設(shè)計(jì)預(yù)訓(xùn)練任務(wù).
Zhou等[26通過自編碼器和畸變校準(zhǔn)器提取內(nèi)容和失真特征,但其融合模塊僅使用卷積和線性投影計(jì)算特征權(quán)重,導(dǎo)致特征間缺乏全面的交互,從而丟失了全局依賴信息.Re-IQA采用自監(jiān)督學(xué)習(xí)應(yīng)對(duì)質(zhì)量標(biāo)簽缺乏的問題,并在大量失真圖像中聚類特征.然而,該方法在聚類過程中使用相似內(nèi)容場(chǎng)景的裁剪塊作為同類樣本,這導(dǎo)致模型在失真特征提取過程中受到內(nèi)容信息的干擾,難以有效地分離特征.此外,這些方法僅使用合成失真數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,限制了模型提取失真特征的泛化能力.DBCNN28]雖然通過雙分支分別捕捉真實(shí)失真和合成失真,但其真實(shí)失真分支采用的是面向分類任務(wù)的網(wǎng)絡(luò)骨干,更多關(guān)注內(nèi)容信息,而未能有效提取真實(shí)失真特征,因此在真實(shí)失真數(shù)據(jù)集上表現(xiàn)欠佳.
針對(duì)上述問題,我們提出了1種基于Transformer權(quán)重令牌增強(qiáng)的雙分支圖像質(zhì)量評(píng)價(jià)網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠精確提取內(nèi)容和失真特征,并捕捉特征間全局交互關(guān)系,主要貢獻(xiàn)如下:(1)提出了一種獨(dú)立于內(nèi)容信息的失真感知數(shù)據(jù)集構(gòu)建策略,制作了包含更廣泛失真特征的預(yù)訓(xùn)練數(shù)據(jù)集.此外,設(shè)計(jì)孿生網(wǎng)絡(luò)框架訓(xùn)練失真提取器,用于捕捉與內(nèi)容無關(guān)的失真特征;(2)采用雙分支架構(gòu)分別提取多尺度的內(nèi)容和失真特征,并提出可變形通道注意力模塊,在特征空間和通道維度采樣關(guān)鍵信息,減少特征冗余;(3)利用Transformer捕獲內(nèi)容特征和失真特征之間的全局交互關(guān)系,構(gòu)建權(quán)重令牌,進(jìn)而引導(dǎo)不同特征語義自適應(yīng)融合,生成更精準(zhǔn)的質(zhì)量表征.
2方法
2.1 模型整體結(jié)構(gòu)
本節(jié)詳細(xì)介紹所提出的方法.網(wǎng)絡(luò)整體結(jié)構(gòu)如圖2所示.內(nèi)容分支采用在ImageNet[29]上訓(xùn)練的ResNet5O作為特征提取器,失真分支則基于經(jīng)過失真預(yù)訓(xùn)練任務(wù)優(yōu)化的EfficientNet-BO[30].隨后,利用可變形通道注意力模塊(DeformableChannelAttentionMoudle,DCA)分別整合兩分支的多尺度特征,以減少特征冗余.為實(shí)現(xiàn)特征自適應(yīng)加權(quán),我們引入權(quán)重令牌,將其與兩個(gè)分支的特征拼接后輸人Transformer編碼器以捕獲內(nèi)容特征與失真特征之間的全局交互關(guān)系,并將交互信息嵌入到權(quán)重令牌中.在解碼階段,通過查詢權(quán)重令牌生成加權(quán)后的特征表示,用于質(zhì)量分?jǐn)?shù)的回歸預(yù)測(cè).
2.2失真感知數(shù)據(jù)集構(gòu)建
我們組合2個(gè)合成失真數(shù)據(jù)集CID-IQ[31]、VCL@FER2以及1個(gè)真實(shí)失真數(shù)據(jù)集LIVEFB[33]構(gòu)建失真感知數(shù)據(jù)集,使其包含更加豐富的失真特征.CID-IQ數(shù)據(jù)集包含23張參考圖像,每張圖像經(jīng)過6種失真類型的處理,涵蓋JPEG壓縮、JP2K壓縮、泊松噪聲、模糊以及兩種色域映射,每種失真具有5個(gè)退化級(jí)別.VCL@FER數(shù)據(jù)集也由23張參考圖像組成,每張圖像經(jīng)過4種失真類型的處理,包括JPEG壓縮、JP2K壓縮、高斯噪聲和白噪聲,每種失真擁有6個(gè)退化級(jí)別.LIVEFB是一個(gè)大規(guī)模真實(shí)失真數(shù)據(jù)集,包含39810張失真圖像.圖像質(zhì)量評(píng)價(jià)數(shù)據(jù)集的詳細(xì)信息如表1所示.
為了讓失真特征提取器在不同內(nèi)容場(chǎng)景下關(guān)注于失真退化差異,對(duì)于合成失真數(shù)據(jù)集,我們選擇相同失真類型,不同內(nèi)容的圖像,并依據(jù)退化級(jí)別,來構(gòu)建失真圖像對(duì) .i, i′∈[1,N ]表示不同內(nèi)容的圖像, j∈[1,C ]表示相同類型的失真,l,l′∈[1,L] 表示不同的退化程度.配對(duì)過程如圖3所示,其圖左右分別表示合成失真和真實(shí)失真數(shù)據(jù)集的配對(duì)方式.設(shè) N 為參考圖像數(shù), c 為失真類型數(shù), L 為退化級(jí)別數(shù),則生成的失真對(duì)數(shù)可計(jì)算為 :(N-1)×N×L×(L+1)×C/2. 對(duì)于CID-IQ數(shù)據(jù)集,上述過程共生成了45540對(duì)圖像.類似地,VCL@FER數(shù)據(jù)集產(chǎn)生了42504對(duì)圖像.
真實(shí)失真數(shù)據(jù)集采集于網(wǎng)絡(luò)或者真實(shí)攝影,缺乏明確的失真類型,因此無法直接生成不同失真退化級(jí)別的圖像對(duì).這里假設(shè)質(zhì)量分?jǐn)?shù)較低的圖像通常退化級(jí)別較高;反之,分?jǐn)?shù)較高的圖像一般擁有較低的退化級(jí)別.基于此,我們用質(zhì)量得分作為退化級(jí)別的近似,從LIVEFB數(shù)據(jù)集中選擇質(zhì)量得分最高的300張圖像和質(zhì)量得分最低的300張圖像構(gòu)建真實(shí)失真圖像對(duì),在剔除灰度圖像和分辨率小于224像素的圖像后,共獲得87607對(duì)圖像.
我們隨機(jī)選擇失真圖像在對(duì)中的位置以避免數(shù)據(jù)偏置.若對(duì)中第1張圖像的退化級(jí)別更低則為該對(duì)分配標(biāo)簽1,否則分配標(biāo)簽0.最后,將合成失真對(duì)與真實(shí)失真對(duì)隨機(jī)混合,得到失真預(yù)訓(xùn)練數(shù)據(jù)集.
2.3 特征預(yù)訓(xùn)練
鑒于孿生網(wǎng)絡(luò)[34]在特征差異識(shí)別中的優(yōu)越性,以及EfficientNet輕量高效的特點(diǎn),我們?cè)O(shè)計(jì)了基于EfficientNe-BO骨干的孿生網(wǎng)絡(luò)進(jìn)行失真感知預(yù)訓(xùn)練.模型總體框架如圖4所示.
設(shè)EfficientNet-BO骨干網(wǎng)絡(luò)為 E ,輸入圖像對(duì)為 Ipair=(I1,I2),I1,I2∈R3×224×224 首先將 Ipair 送入 E 中進(jìn)行特征編碼:
其中, we 表示 E 的網(wǎng)絡(luò)參數(shù).輸入圖像 I1,I2 共享權(quán)重 并分別得到多尺度特征圖 f1,f2 .EfficientNet-BO共有9個(gè)特征階段,為了兼顧高層次和低層次語義信息,我們選取第3、4、8、9階段的特征圖用于特征差異感知.對(duì) fj ,使用
表示上述4個(gè)階段的特征圖,其中 j∈{1,2} , i∈{1,2,3,4} ,特征圖具體尺寸如表2所示.
將特征圖逐元素作差,得到特征差異圖: Fi= .隨后,通過非對(duì)稱卷積塊提取失真特征的細(xì)節(jié)信息.具體過程如下.
其中, ?Km×n 表示核大小為 m×n 的卷積操作; ⊕ 表示逐元素加法; σ 表示激活函數(shù)RELU; bn 表示批量歸一化,對(duì)不同尺度的特征圖應(yīng)用不同卷積步幅,得到輸出特征圖 將 Fouti 沿通道拼接后進(jìn)行池化、回歸,最終得到失真退化預(yù)測(cè)概率如下式.
其中,Concat表示拼接操作;MLP為多層感知機(jī);AvgPool表示平均池化;Sigmoid激活函數(shù)用于約束概率值在 0~1 之間.
在預(yù)訓(xùn)練階段,我們使用二元交叉熵作為損失函數(shù):
其中, ?Pi 和 gi 分別表示第 i 個(gè)圖像對(duì)中第1張圖片退化程度更低的概率預(yù)測(cè)值和真值; N 表示批量大小.
訓(xùn)練好的EfficientNet-BO將作為質(zhì)量預(yù)測(cè)網(wǎng)絡(luò)的失真特征提取器.對(duì)于內(nèi)容分支,則使用在ImageNet上訓(xùn)練的ResNet5O骨干作為特征提取器.由于ImageNet數(shù)據(jù)集涵蓋了豐富多樣的物體場(chǎng)景,預(yù)訓(xùn)練的ResNet5O能夠有效捕捉的內(nèi)容語義.ResNet50有4個(gè)特征階段,在質(zhì)量預(yù)測(cè)網(wǎng)絡(luò)中,提取其前3階段特征圖以及EfficientNet-B0第3、4、8階段的特征圖,分別作為內(nèi)容特征(204號(hào) 和失真特征
,其中k∈{1,2,3}
2.4可變形通道注意力模塊DCA
DCA模塊用于高效整合多尺度特征,減少特征冗余.如圖5所示,DCA結(jié)合可變形卷積[35]和通道注意力機(jī)制[36],能夠在空間和通道維度上動(dòng)態(tài)捕捉關(guān)鍵特征,從而有效提升特征表達(dá)能力.
首先,對(duì)內(nèi)容特征 Cfk 和失真特征 Dfk 應(yīng)用可變形卷積,使用不同步幅統(tǒng)一特征圖空間尺寸為 7x 7.可變形卷積通過動(dòng)態(tài)偏移調(diào)整卷積點(diǎn)的位置,公式如下.
其中, ?0 表示卷積中心點(diǎn); ρn 表示原始卷積點(diǎn)的位置.若卷積核的尺寸為 3×3 ,則 R2∈{-1,0,1}× {-1,0,1}.Δpn 是一個(gè)二維偏移量,表示原始卷積點(diǎn)在寬高方向上的偏移; w 表示卷積核; x 為輸人特征圖.接著,使用通道注意力增強(qiáng)特征,表示如下式.
CAttn(x)=Sigmoid(MLP(MaxPool(x))+
MLP(AvgPool(x)))?x
其中, ? 表示逐元素相乘;MaxPool表示最大池化.此外,DCA模塊中使用了普通卷積構(gòu)建殘差連接來避免特征退化.
由于內(nèi)容特征 Cfk 通道維度較大,我們使用不同通道壓縮率的可變形卷積,使得經(jīng)過DCA模塊的三階段 Cf′k 通道維度分別為64、96、224.同時(shí),將失真分支輸出記為 Df′R 在通道級(jí)聯(lián)后,融合的內(nèi)容特征 Cf=Concat(Cf′1,Cf′2,Cf′3) 和失真特征 Df= Concat(D,D2,D3)擁有相同維度R384×7×7.
2.5基于Transformer權(quán)重令牌的特征編解碼
為更好地捕捉質(zhì)量評(píng)估中失真特征與內(nèi)容特征的全局交互關(guān)系,我們引入權(quán)重令牌和Transformer進(jìn)行特征編解碼.以失真特征 Df∈RC×H×W 為例,將其展平為 Df∈RN×c N=H×W 接下來,構(gòu)造權(quán)重令牌 WT∈R1×c 用于建模內(nèi)容特征與失真特征在質(zhì)量評(píng)價(jià)中的交互關(guān)系.拼接 WT 、Df 和 Cf 后得到 Fcd∈R(2N+1)×C 并輸人Transformer編碼器,編碼過程如下.
Fcd=MHSA(LN(Fcd),LN(Fcd),
LN(Fcd))+Fcd
Fcd′=MLP(LN(Fcd))+Fcd
其中,MHSA表示多頭自注意力,計(jì)算公式為:
其中, W 為線性投影矩陣.對(duì)于 h 個(gè)注意力頭,有Q={Q1,Q2,…,Qh}∈RN×c, 其中 Qi∈RN×d d= C/h : K 和 V 的情況類似.LN表示層歸一化; Fcd′ 為編碼器的輸出.類似于 ViT[37] ,我們使用 Fcd′ 的第一維度表示學(xué)習(xí)到的權(quán)重令牌 WT ,即 WT= Fcd′[0].
在解碼階段,使用 Df,Cf 作為查詢,并以 WT 作為鍵和值分別執(zhí)行交叉注意力解碼,生成質(zhì)量加權(quán)特征. Df 解碼過程如下.
Df′=MHSA(LN(Df),WT,WT)+Df
類似地,對(duì) Cf 進(jìn)行權(quán)重令牌解碼獲得 Fcw 將Fdw 和 Fcw 維度重塑為 Rc×H×W ,沿通道維連接后進(jìn)行特征池化,最后使用多層感知機(jī)預(yù)測(cè)質(zhì)量得分.
3實(shí)驗(yàn)
3.1 數(shù)據(jù)集及評(píng)估準(zhǔn)則
我們?cè)?個(gè)公開的IQA數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括4個(gè)合成失真的數(shù)據(jù)集: LIVE[38] 、CSIQ[39]TID2013[40]和KADID[25],以及兩個(gè)真實(shí)失真的數(shù)據(jù)集:LIVEC[41]和 KonIQ[42] .合成失真數(shù)據(jù)集通過對(duì)原始圖像施加多種類型的失真生成,每種失真類型包含多個(gè)退化級(jí)別;真實(shí)失真數(shù)據(jù)集從互聯(lián)網(wǎng)收集或由相機(jī)在多樣化場(chǎng)景中拍攝所得,不具有特定的失真類型.這些數(shù)據(jù)集詳情見表1.按照慣例,我們采用皮爾遜線性相關(guān)系數(shù)(PLCC)和斯皮爾曼等級(jí)相關(guān)系數(shù)(SRCC)作為評(píng)估指標(biāo),其公式分別為:
其中, ?Pi 和 gi 分別表示第 i 張圖像的預(yù)測(cè)分?jǐn)?shù)和真實(shí)分?jǐn)?shù); 和
為其均值; di 是 ??i 和 gi 在各自序列中位次的差值; N 表示預(yù)測(cè)圖像總數(shù),這兩個(gè)指標(biāo)范圍均為[一1,1],值越高則預(yù)測(cè)越準(zhǔn)確.
在預(yù)訓(xùn)練階段,每對(duì)圖像隨機(jī)裁剪出10個(gè)大小為 224×224 像素的新圖像對(duì),并繼承原始標(biāo)簽.采用Adam優(yōu)化器,學(xué)習(xí)率設(shè)置為 2×10-5 ,權(quán)重衰減為 1×10-5 ,批量大小為8,共訓(xùn)練30個(gè)周期.
在質(zhì)量預(yù)測(cè)階段,每張圖像隨機(jī)裁剪出25個(gè)224×224 像素的圖像塊.合成失真數(shù)據(jù)集按參考圖像隨機(jī)劃分為 80% 的訓(xùn)練集和 20% 的測(cè)試集;真實(shí)失真數(shù)據(jù)集則直接按比例劃分.訓(xùn)練同樣使用Adam優(yōu)化器,學(xué)習(xí)率為 2×10-4 ,權(quán)重衰減為5×10-5 ,批量大小為32.模型采用余弦退火策略調(diào)整學(xué)習(xí)率,訓(xùn)練10個(gè)周期,第1個(gè)周期使用線性預(yù)熱.模型架構(gòu)上,編碼器和解碼器的深度分別為3和1,嵌入維度為384,注意力頭數(shù)為6.訓(xùn)練過程中分支提取器(ResNet5O和EfficientNet-BO)的參數(shù)被凍結(jié),損失函數(shù)使用SmoothL1Loss.
所有實(shí)驗(yàn)均在1張NVIDIA4070TiGPU上進(jìn)行,每個(gè)數(shù)據(jù)集重復(fù)10次實(shí)驗(yàn),取PLCC和SRCC的中位數(shù)作為算法整體性能指標(biāo).
3.2與其他模型的比較
我們將本文模型與8種先進(jìn)的深度模型進(jìn)行了比較.這些模型嚴(yán)格按照原論文實(shí)現(xiàn),部分方法使用了自身的先驗(yàn)權(quán)重訓(xùn)練方式,因此實(shí)驗(yàn)中的對(duì)比模型未在構(gòu)建的失真感知數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練.實(shí)驗(yàn)結(jié)果如表3所示.本文表中數(shù)值第1和第2的分別用加粗和下劃線表示.可以看到,本文模型在絕大多數(shù)數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于MEON和P2P-BM.與同樣采用Transformer結(jié)構(gòu)的TIQA相比,得益于雙分支結(jié)構(gòu)對(duì)特征更精細(xì)的提取,本文模型在CSIQ上的SRCC和TID2013上的PLCC分別提升了 15.4% 和 4.1% .VCRNet通過圖像恢復(fù)任務(wù)提升失真感知,但在真實(shí)失真數(shù)據(jù)集LIVEC和KonIQ上,復(fù)雜失真顯著增加了恢復(fù)的難度,影響了性能表現(xiàn),相比之下,本文模型在這兩個(gè)數(shù)據(jù)集上的得分明顯高于VCRNet.Re-IQA通過自監(jiān)督學(xué)習(xí)增強(qiáng)失真感知能力,但其融合策略較為簡(jiǎn)單,未能平衡失真語義和內(nèi)容語義.因此在大多數(shù)數(shù)據(jù)集上,本文模型依然保持領(lǐng)先.綜合來看,本文模型在6個(gè)數(shù)據(jù)集上具有最高的平均SRCC和PLCC得分,分別為0.908和O.919,驗(yàn)證了其在無參考圖像質(zhì)量評(píng)價(jià)任務(wù)中的優(yōu)異性能.
3.3 交叉驗(yàn)證實(shí)驗(yàn)
為了評(píng)估模型的泛化能力,我們?cè)O(shè)計(jì)了跨數(shù)據(jù)集驗(yàn)證實(shí)驗(yàn),結(jié)果如表4所示.在CSIQ數(shù)據(jù)集上訓(xùn)練并在LIVEC數(shù)據(jù)集上測(cè)試時(shí),本文模型取得了最高的SRCC值,達(dá)到O.905.此外,在真實(shí)失真數(shù)據(jù)集KonIQ和LIVEC的交叉驗(yàn)證中,本文模型表現(xiàn)出平均最優(yōu)的性能.相比之下,大多數(shù)對(duì)比方法在數(shù)據(jù)規(guī)模較小的LIVEC上訓(xùn)練后,在數(shù)據(jù)規(guī)模較大的KonIQ上表現(xiàn)較差;而所提出的模型在這一場(chǎng)景下仍能保持出色的表現(xiàn),表明其從小數(shù)據(jù)集到大數(shù)據(jù)集的遷移能力較強(qiáng).總體而言,所提出模型在4組實(shí)驗(yàn)中的3組中取得了最佳或接近最佳的結(jié)果,展示了其良好的泛化能力.
3.4單類型失真實(shí)驗(yàn)
在真實(shí)場(chǎng)景中,圖像通常包含多種類型失真.為了驗(yàn)證模型在復(fù)雜場(chǎng)景中處理各種失真的能力,我們針對(duì)CSIQ數(shù)據(jù)集的6種失真類型包括JP2K壓縮、JPEG壓縮、白噪聲(WN)、高斯模糊(GB)粉紅高斯噪聲(PN)和對(duì)比度衰減(CC)進(jìn)行了單獨(dú)測(cè)試.SRCC的測(cè)試結(jié)果如表5所示.我們的模型幾乎在所有失真類型上均優(yōu)于其他方法.特別是,在處理JPEG、JP2K和WN失真時(shí)表現(xiàn)出色.對(duì)于GB,實(shí)驗(yàn)結(jié)果與VCRNet相當(dāng).值得注意的是,即使是預(yù)訓(xùn)練數(shù)據(jù)集中未包含的PN和CC失真類型,本文模型依然取得了最佳表現(xiàn).這表明,本文所提出的模型不僅能精準(zhǔn)感知已知失真,還能有效適應(yīng)新的失真類型,體現(xiàn)了其出色魯棒性.
3.5 消融實(shí)驗(yàn)
本文所提出的模型主要包括失真分支DB、內(nèi)容分支CB、DCA模塊以及基于Transformer的權(quán)重令牌編解碼模塊WED.這些模塊的消融實(shí)驗(yàn)結(jié)果如表6所示,實(shí)驗(yàn)表明,無論是缺少內(nèi)容分支還是失真分支,都會(huì)顯著影響模型的性能,因?yàn)閮烧咴谔崛∨c質(zhì)量相關(guān)特征方面至關(guān)重要.在去除WED模塊后,LIVE數(shù)據(jù)集的SRCC下降了1. 2% ,TID2013數(shù)據(jù)集的SRCC下降了 7.3% .在TID2013數(shù)據(jù)集上下降幅度較大,可能是由于該數(shù)據(jù)集包含更多的失真類型,在這種情況下,捕捉內(nèi)容和失真特征之間的全局交互尤為重要.另一方面,去除DCA模塊后,模型在兩個(gè)數(shù)據(jù)集上的性能均有所下降,驗(yàn)證了該模塊在提取并整合關(guān)鍵特征方面的高效性.總體而言,當(dāng)所有模塊組合使用時(shí),模型性能達(dá)到最佳,充分驗(yàn)證了各組件的必要性.
此外,我們探究了編碼器和解碼器深度對(duì)模型表現(xiàn)的影響,實(shí)驗(yàn)結(jié)果見表7.在LIVEC和KonIQ數(shù)據(jù)集上,當(dāng)編碼器深度為3層、解碼器深度為1層時(shí),模型表現(xiàn)優(yōu)異.盡管增加層數(shù)略微提升了模型在KonIQ上的得分,但效果不顯著,同時(shí)也增加了模型參數(shù)量.因此,我們使用3層編碼器和1層解碼器作為默認(rèn)配置,以實(shí)現(xiàn)性能與復(fù)雜度的平衡.
我們進(jìn)一步對(duì)失真特征圖層次的選取進(jìn)行了實(shí)驗(yàn)驗(yàn)證.從失真預(yù)訓(xùn)練階段用于特征差異感知的特征層3、4、8、9中選取部分層次作為失真感知特征.由于組合情況較多,我們進(jìn)行了適量的測(cè)試實(shí)驗(yàn),結(jié)果見表8.當(dāng)選取的層數(shù)較少時(shí),不管是低級(jí)特征層3、4還是高級(jí)特征層9都缺乏足夠的特征信息,導(dǎo)致模型性能顯著下降;而在使用所有層次特征圖的情況下,雖然性能較優(yōu),但相較于選取3、4、8層,提升幅度有限,同時(shí)增加了訓(xùn)練負(fù)擔(dān).因此,我們選擇默認(rèn)層次配置3、4、8作為最終方案.
3.6特征可視化分析
我們對(duì)經(jīng)過DCA模塊后的內(nèi)容特征、失真特征以及權(quán)重令牌質(zhì)量加權(quán)后的融合特征進(jìn)行了可視化,結(jié)果分別對(duì)應(yīng)于圖6的第2、3、4列.以圖6c失真圖像為例,內(nèi)容特征聚焦于圖中蝴蝶作為主體內(nèi)容,而對(duì)周圍花朵上的模糊效應(yīng)并不敏感;失真特征則對(duì)整幅圖像上的失真區(qū)域均有關(guān)注,但并不以主體內(nèi)容為中心;經(jīng)過加權(quán)融合后的特征圖則同時(shí)關(guān)注了內(nèi)容與失真信息,并將重點(diǎn)集中在圖像主體內(nèi)容及其周圍區(qū)域,更符合人類的質(zhì)量感知.由此可見,通過權(quán)重令牌引導(dǎo)內(nèi)容和失真特征加權(quán)融合,能夠使模型精準(zhǔn)捕捉與質(zhì)量相關(guān)的特征表示.
4結(jié)論
為了提升無參考圖像質(zhì)量評(píng)價(jià)的精確度,本文提出了一種基于雙分支結(jié)構(gòu)的圖像質(zhì)量評(píng)價(jià)網(wǎng)絡(luò),通過預(yù)訓(xùn)練任務(wù)提升模型對(duì)內(nèi)容和失真特征的感知能力.具體而言,內(nèi)容分支采用在ImageNet上預(yù)訓(xùn)練的ResNet5O作為骨干網(wǎng)絡(luò);對(duì)于失真分支,則專門構(gòu)建內(nèi)容無關(guān)的失真圖像對(duì),并基于孿生網(wǎng)絡(luò)訓(xùn)練特征提取器,使其專注于失真語義.接著,引人DCA模塊高效整合多尺度特征,增強(qiáng)特征表達(dá)能力.最后,利用Transformer編解碼器和權(quán)重令牌捕捉特征之間的全局交互,實(shí)現(xiàn)加權(quán)融合,從而生成更加精確的質(zhì)量表征.大量實(shí)驗(yàn)表明,本文所提出的模型在多個(gè)公開數(shù)據(jù)集上表現(xiàn)出色,并且展現(xiàn)出良好的泛化性能,消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了各模塊的有效性.
參考文獻(xiàn):
[1]Zhai G,Min X.Perceptual image quality assessment:A survey[J].Science China Information Sciences,2020,63:1.
[2] TangL,Yuan L,ZhengG,et al.Dtsn:No-reference image quality assessment via deformable transformer and semantic network [C]//Proceedings of the IEEE International Conference on Image Processing.Abu Dhabi,United Arab:IEEE,2024: 1207.
[3] Mital A,Moorthy A K,Bovik A C.No-reference image quality assessment in the spatial domain [J]. IEEE Transactions on Image Processing,2012,21: 4695.
[4] Saad M A, Bovik A C, Charrier C. Blind image qualityassessment:A natural scene statistics approach in the DCT domain[J]. IEEE Transactions on Image Processing,2012,21:3339.
[5] Wang Z,Sheikh HR,Bovik A C.No-reference per ceptual quality assessment of JPEG compressed images[C]//International Conference on Image Processing.Rochester: IEEE,2002:1.
[6]Zhang L,Zhang L,Bovik A C.A feature-enriched completely blind image quality evaluator[J]. IEEE Transactions on Image Processing,2015,24: 2579.
[7]Bosse S,Maniry D,Muller KR,et al.Deep neural networks for no-reference and full-reference image quality assessment[J]. IEEE Transactions on Image Processing,2017,27:206.
[8]Ke J,Wang Q,Wang Y,et al. Musiq:Multi-scale image quality transformer[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Montreal: IEEE,2021:5148.
[9]Pan Z,Yuan F,WangX,et al.No-reference image quality assessment via multibranch convolutional neural networks[J]. IEEE Transactions on Artificial In telligence,2022,4:148.
[10]Zhou M,Lan X,Wei X,et al. An end-to-end blind image quality assessment method using a recurrent network and self-attention[J]. IEEE Transactions on Broadcasting,2022,69:369.
[11]Guo N,Qingge L,Huang Y C,et al. Blind image quality assessment via multiperspective consistency [J]. International Journal of Intelligent Systems, 2023,1:4631995.
[12]Wei Y,Liu B,Luan P,et al. Multi-scale dense description for blind image quality assessment [C]// Proceedings of the IEEE International Conference on Multimedia and Expo.Niagara Falls: IEEE,2024:1.
[13]Zhao K,Yuan K,Sun M,et al. Quality-aware pretrained models for blind image qualityassessment[C]//Proceedings of the IEEE/CVF Confer ence on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:22302.
[14]Zhang W,Zhai G,Wei Y,et al.Blind image quality assessment via vision-language correspondence:A multitask learning perspective[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.Vancouver:IEEE, 2023:14071.
[15] Zhou T,Tan S, Zhao B,et al. Multitask deep neural network with knowledge-guided attention for blind image quality assessment [J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024,34: 7577.
[16]Friston K,Kilner J,Harrison L.A free energy principlefor the brain[J]. Journal of physiology-Paris, 2006,100:70.
[17]Lin K Y,Wang G.Hallucinated-IQA:No-reference image quality assessment via adversariallearning [C]// Proceedings of the IEEE Conference on Computer Vision and Pattrn Recognition. Salt Lake City: IEEE,2018:732.
[18]Lan X,Zhou M,XuX,et al.Multilevel feature fusion for end-to-end blind image quality assess ment[J].IEEE Transactionson Broadcasting, 2023,69:801.
[19]Pan Z,Yuan F,Lei J,et al. VCRNet:Visual compensation restoration network for no-reference image quality assessment [J]. IEEE Transactions on Image Processing,2022,31:1613.
[20]Su S,Yan Q, Zhu Y,et al. Blindly assess image quality in the wild guided by a self-adaptive hyper network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE,2020: 3667.
[21]He K,Zhang X,Ren S,et al. Deep residual 1- earning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.LasVegas:IEEE,2O16:770.
[22]Golestaneh S A,Dadsetan S,Kitani K M. Noreference image quality assessment via transformers,relative ranking,and self-consistency[C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.Waikoloa,HI, USA:IEE,ZUZZ:1ZZV.
[23]Vaswani A,ShazeerN,ParmarN,etal.Attention is all you need[C]//Advances in Neural Information Processing Systems. Long Beach: MIT Press, 2017: 5998.
[24]LiD,JiangT,LinW,et al.Which has better visual quality:The clear blue sky or a blurry animal?[J]. IEEE Transactions on Multimedia,2018,21:1221.
[25]Lin H,Hosu V,Saupe D.KADID-1Ok:A largescale artificially distorted IQA database[C]//2019 Eleventh International Conference on Quality of Multimedia Experience.Berlin: IEEE,2019:1.
[26]Zhou Z,Zhou F,Qiu G.Blind image quality assessment based on separate representations andadaptive interaction of content and distortion[J].IEEE Transactions on Circuits and Systems for Video Technology,2023,34: 2484.
[27]Saha A,Mishra S,Bovik A C.Reiqa:Unsupervised learning for image quality assessment in the wild[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Vancouver:IEEE,2023:5846.
[28]Zhang W,Ma K,Yan J,et al. Blind image quality assessment using a deep bilinear convoluteonal neural network[J].IEEE Transactions on Circuits and Systems forVideo Technology,2018,30:36.
[29]Deng J,Dong W,Socher R,et al. Imagenet:A large-scale hierarchical image database[C]//Proceedings of the IEEE Conference on Computer Vision and Patternrecognition.Miami:IEEE,20o9:248.
[30]Tan M,Le Q. Efficientnet:Rethinking model scaling for convolutional neural networks[C]//Proceedings of the International Conference on Machine Learning.Baltimore,Maryland:PMLR,2Ol9:6105.
[31]Liu X,Pedersen M,Hardeberg J Y.CID: IQ-a new limage quality database[C]//Proceedings of the 6th International ConferenceImage and Signal Processing.Cherbourg,F(xiàn)rance:Springer,2Ol4:193.
[32]Zaric A,Tatalovic N,BrajkovicN,etal.VCL@FER image quality assessment database [J]. Automatika,2012,53:344.
[33]Ying Z, Niu H,Gupta P,et al.From patches to pictures(PaQ-2-PiQ):Mapping the perceptual space of picture quality[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle:IEEE,2020:3575.
[34]Koch G,Zemel R,Salakhutdinov R. Siamese ncuial nCtwUIns iUI UIC-sHut Iagt IccUguUIl[C」/ Proceedings of the ICML Deep Learning Workshop. Lille,F(xiàn)rance:ACM,2015:1.
[35]Dai J,Qi H,Xiong Y,et al.Deformable convolutional networks[C]//Proceedings of the IEEE International Conference On Computer Vision.Venice:IEEE,2017:764.
[36]Hu J,Shen L,Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt LakeCity:IEEE,2018:7132.
[37]Dosovitskiy A,Beyer L,Kolesnikov A,et al. An imageis worth 16X16 words:Transformers for image recognition at scale [EB/OL]. [2024-12-10]. https://arxiv.org/pdf/2010.11929.pdf.
[38]Sheikh H R,Sabir MF,Bovik A C.A statistical evaluation of recent full reference image qualityassessment algorithms [J]. IEEE Transactions on Image Processing,2006,15:3440.
[39]Larson E C,Chandler D M. Most apparent distortion:full-reference image quality assessment and the role of strategy[J]. Journal of Electronic Imaging,2010,19:011006.
[40]Ponomarenko N,Ieremeiev O,Lukin V,et al. Color image database TID2Ol3:Peculiarities and preliminary results[C]//European Workshop on VisualInformationProcessing(EUVIP). Paris: IEEE,2013:106.
[41]Ghadiyaram D,Bovik A C. Massive online crowdsourced study of subjective and objective picture quality[J]. IEEE Transactions on Image Processing, 2015,25:372.
[42]Hosu V,Lin H,Sziranyi T,et al. KonIQ-10k:An ecologically valid database for deep learning of blind image quality assessment[J]. IEEE Transactions on Image Processing,2020,29:4041.
[43]MaK,LiuW,ZhangK,et al.End-to-end blind image quality assessment using deep neural networks[J]. IEEE Transactions on Image Processing, 2017,27: 1202.
[44]You J, Korhonen J. Transformer for image quality assessment[C]//Proceedings of the IEEE International Conference on Image Processing. Anchorage: IEEE,2021:1389.
(責(zé)任編輯:伍少梅)
四川大學(xué)學(xué)報(bào)(自然科學(xué)版)2025年4期