吳志山,張帥,牛玉貞
(福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州350108)
人們越來越依賴移動(dòng)設(shè)備進(jìn)行工作和娛樂,例如可以通過展開或閉合屏幕以改變屏幕尺寸的可折疊屏幕設(shè)備。因此,如何調(diào)整圖像大小以適應(yīng)具有不同大小和寬高比的顯示設(shè)備屏幕,成為與用戶體驗(yàn)相關(guān)的重要問題。
已經(jīng)有許多成熟的圖像重定向方法被提出。為了理解圖像重定向方法,圖1展示了原始圖像以及MIT數(shù)據(jù)庫中應(yīng)用8個(gè)重定向方法的結(jié)果圖像,包括裁剪(CR)、多操作符(MOP)[1]、縫裁剪(SC)[2]、線性縮放(SCL)、移位映射(SM)[3]、拉伸 和 放 縮(SNS)[4]、視 頻 流(SV)[5]和 變 形(WARP)[6]。操作方法后的括號(hào)內(nèi)是對應(yīng)圖像的主觀投票數(shù),數(shù)值越大表示該圖像質(zhì)量越好。每幅重定向圖像保持原始圖像的高度并將寬度減小到原始圖像的一半。從圖1可以看出,不同的重定向方法具有不同的關(guān)注點(diǎn),并且重定向圖像的主觀平均意見分?jǐn)?shù)(Mean Opinion Scores,MOSs)也不同。主觀地評(píng)估每幅重定向圖像的質(zhì)量成本太高。因此,有必要開發(fā)有效的客觀重定向圖像質(zhì)量評(píng)估(Retargeted Image Quality Assessment,RIQA)方法。為了促進(jìn)對客觀RIQA方法的研究,Rubinstein[7]和Ma[8]等建立了2個(gè)包含重定向圖像和相應(yīng)的主觀評(píng)分的數(shù)據(jù)庫。
目前,許多RIQA方法被研究出來。早期的RIQA方法通常使用相似性度量。Simakov等[9]提出了一種基于優(yōu)化視覺數(shù)據(jù)的雙向相似性(Bidirectional Similarity,BDS)度量方法。Liu等[10]提出了一種逆序(自上而下)的方法來組織圖像從全局到局部的特征,并通過基于顏色度量的相似性(Color metric-based Similarity,CSim)評(píng)估重定向圖像。
圖1 重定向操作方法示例Fig.1 Examples of retargeting operation method
近年來,已經(jīng)出現(xiàn)了基于原始圖像和重定向圖像之間配準(zhǔn)的RIQA度量。Zhang等[11]提出了局部塊的寬高比相似性(Aspect Ratio Similarity,ARS)度量來描述圖像的結(jié)構(gòu)失真。Zhang等[12]提出了基于多級(jí)特征(Multiple-Level Feature,MLF)的RIQA方法。MLF考慮ARS、臉部塊變形、邊緣組相似性特征并使用回歸學(xué)習(xí)來預(yù)測重定向圖像的感知質(zhì)量。
盡管現(xiàn)有的RIQA方法表現(xiàn)出很好的評(píng)估性能,但主觀和客觀RIQA之間的一致性仍有待提高。由于高級(jí)語義失真,如成分變化和顯著對象丟失,以及初級(jí)細(xì)節(jié)失真,如局部內(nèi)容丟失和局部形狀變化可能出現(xiàn)在圖像的不同尺度上,本文從多個(gè)尺度的圖像塊中提取失真感知特征。具體而言,本文提出了原始圖像和重定向圖像之間的ARS的改進(jìn)度量。此外,本文使用融合的視覺注意力圖,其結(jié)合了顯著性圖以及臉部和線條特征,以模擬人類視覺系統(tǒng)對圖像的主觀關(guān)注。
本文提出的多尺度失真感知特征(Multi-Scale Distortion-Aware,MSDA)度量可以分為3個(gè)階段。第1階段,計(jì)算視覺注意力融合圖[13],通過后向配準(zhǔn)方法[11]建立原始圖像和重定向圖像之間的像素級(jí)對應(yīng)關(guān)系。第2階段,圖像重定向過程中的失真由建立的像素級(jí)對應(yīng)關(guān)系進(jìn)行模擬。改進(jìn)的ARS[11]結(jié)合視覺注意力融合圖可以更好地捕獲每個(gè)局部塊的信息丟失和視覺失真。本文還使用邊緣組相似度[12]和臉部塊相似性特征[12]來分別表示對邊緣組和臉部塊的失真度量。邊緣組相似性度量邊緣空間排列的變化。圖2展示了邊緣組檢測結(jié)果。臉部塊相似性用于描述臉部變形程度。圖3展示了臉部塊檢測結(jié)果,臉部塊用矩形框標(biāo)出。最后,機(jī)器學(xué)習(xí)方法用于將特征映射到主觀MOSs并獲得訓(xùn)練模型以預(yù)測所測試重定向圖像的客觀質(zhì)量分?jǐn)?shù)。
圖2 邊緣組檢測結(jié)果Fig.2 Edge group detection results
圖3 臉部塊檢測結(jié)果Fig.3 Face block detection results
本文采用ARS[11]作為初級(jí)特征,并改進(jìn)局部塊的ARS度量。首先將原始圖像劃分成規(guī)則網(wǎng)格塊(例如16像素×16像素)。使用后向配準(zhǔn)方法[11]計(jì)算重定向圖像中與原始圖像相對應(yīng)的變形塊。圖4展示了后向配準(zhǔn)示例,(a)為原始圖像所劃分的塊,(b)為由原始圖像經(jīng)過多操作符方法得到的結(jié)果圖像,為了便于展示后向配準(zhǔn)結(jié)果,圖像塊劃分為64×64。如圖4(b)所示,重定向后所對應(yīng)的塊不再是規(guī)則的網(wǎng)格塊,通過塊的形狀變化來度量由重定向操作引入的變形。對于重定向前后的每一對圖像塊,原始ARS計(jì)算公式為
那么整張圖像的ARS分?jǐn)?shù)可以表示為QAR,計(jì)算公式為
式中:N1為原始圖像當(dāng)中規(guī)則塊的數(shù)量;w(i)為第i塊所對應(yīng)的權(quán)重;Sar(i)為第i塊的ARS值。
考慮到式(1)無法在所有情況下正確度量形狀畸變。例如,當(dāng)原始圖像的某個(gè)塊在重定向圖像中沒有匹配到相應(yīng)的塊時(shí),即rw=rh=0,式(1)計(jì)算的視覺失真等于1,這意味著該情況下,ARS沒有考慮視覺失真。因此,當(dāng)在重定向期間移除整個(gè)塊時(shí),本文引入?yún)?shù)λ作為視覺失真的懲罰因子。改進(jìn)的ARS度量表示為Siar,計(jì)算公式為
圖4 后向配準(zhǔn)示例Fig.4 An example of backward registration
此外,式(2)中的權(quán)重w(i)在RIQA方法中起重要作用。通常通過視覺顯著性檢測方法來計(jì)算權(quán)重。文獻(xiàn)[14]指出,RIQA方法結(jié)合不同的顯著性檢測算法通常表現(xiàn)出不同的性能。Zhang等[13]提出了一種視覺注意融合框架(VAF),該框架首先結(jié)合了不同顯著性檢測算法計(jì)算得到的顯著性圖,然后增強(qiáng)了圖像中的臉部和線條特征,最終得到更加全面的顯著性圖。因此,本文將VAF計(jì)算得到的顯著性圖作為融合ARS塊分?jǐn)?shù)的權(quán)重。
對于整張圖像,改進(jìn)的ARS度量表示為QIAR,計(jì)算公式為
圖5為VAF示例。圖5(b)所示顯著性融合圖是通過分別對基于離散余弦變換(Discrete Cosine Transform,DCTS)[15]和 基 于 元 胞 自 動(dòng) 機(jī)(Background-based map optimized via Single-layer Cellular Automata,BSCA)[16]方法計(jì)算得到的顯著性圖進(jìn)行均衡化處理,并將2幅結(jié)果圖進(jìn)行融合,即在相同位置像素點(diǎn)的顯著性值取2幅結(jié)果圖的平均值。圖5(c)所示面線增強(qiáng)圖是通過對重定向圖像進(jìn)行面部檢測,同時(shí)檢測大于對圖像角線三分之一的直線,并對這些檢測結(jié)果位置的顯著性進(jìn)行增強(qiáng)。
圖5 VAF示例Fig.5 An example of VAF
塊是ARS度量的最小單位。不同尺度的塊包含不同的信息。因此,ARS在不同尺度塊上捕捉到的失真信息是不同的。為了獲得最佳評(píng)估性能,需要確定最佳的圖像塊尺度。然而,每幅重定向圖像的失真類型不同,與之對應(yīng)的最佳塊尺度也有差異。難以為每幅圖像確定最佳尺度,因此使用多尺度方案來解決該問題。由不同尺度捕獲的失真彌補(bǔ)單尺度捕獲失真的不足,從而取得更好的評(píng)估性能。本文使用8×8和16×16兩個(gè)尺度的塊獲取圖像ARS特征。和分別表示由式(4)計(jì)算得到的塊尺度為8和16的2個(gè)改進(jìn)后的ARS度量。QEGS[12]和QFBS[12]分別表示邊緣組相似性分?jǐn)?shù)和臉部塊相似性分?jǐn)?shù)。對于每幅重定向圖像,分別計(jì)算該圖像的、、QFBS、QEGS這4個(gè)相似性分?jǐn)?shù),并將這4個(gè)特征作為訓(xùn)練特征,主觀MOSs作為訓(xùn)練標(biāo)簽,利用支持向量機(jī)(SVM)進(jìn)行回歸學(xué)習(xí),最后,向?qū)W習(xí)好的模型輸入待評(píng)估圖像的這4個(gè)特征,并輸出該圖像的客觀重定向質(zhì)量評(píng)估分?jǐn)?shù)。
本文按照MLF方法進(jìn)行實(shí)驗(yàn),在CUHK數(shù)據(jù)庫[8]上采用基于徑向基函數(shù)(RBF)內(nèi)核的支持向量回歸模型。由于MIT數(shù)據(jù)庫[7]提供的是成對比較投票,投票表明來源于同一幅原始圖像的重定向圖像之間的排名,這與CUHK數(shù)據(jù)庫提供的MOSs不同。因此,使用基于RBF內(nèi)核的SVMrank[17]對MIT數(shù)據(jù)庫圖像進(jìn)行排名回歸而不是直接應(yīng)用支持向量回歸。
本節(jié)將介紹MIT[7]和CUHK[8]數(shù)據(jù)庫及其性能評(píng)估指標(biāo),然后將提出的方法與這2個(gè)公共數(shù)據(jù)庫上的客觀RIQA方法進(jìn)行比較,包括BDS[9]、SIFT(Scale-Invariant Feature Transform)flow[18]、EMD(Earth-Mover's Distance)[19]、CSim[10]、PGDIL(Perceptual Geometric Distortion and Information Loss)[20]、ARS[11]和 MLF[12]。實(shí) 驗(yàn) 結(jié) 果 表明,與其他方法相比,所提出的MSDA方法與人類主觀感知更為一致。
1)MIT數(shù)據(jù)庫
MIT數(shù)據(jù)庫包含37幅原始圖像。每幅圖像由8種典型的重定向操作方法進(jìn)行重定向,如圖1所示。經(jīng)過8種重定向操作后,原始圖像共生成296幅重定向圖像。210名參與者參加了主觀測試,該測試成對進(jìn)行,受試者從2個(gè)并排的重定向圖像中選擇他們喜歡的圖像。重定向圖像被選擇的次數(shù)用作客觀質(zhì)量評(píng)估的主觀分?jǐn)?shù)并用于數(shù)據(jù)庫實(shí)驗(yàn)評(píng)估。本文使用肯德爾排名相關(guān)系數(shù)(Kendall Rank Correlation Coefficient,KRCC)[21]來衡量客觀分?jǐn)?shù)與主觀排名之間的相關(guān)性。KRCC計(jì)算公式為
式中:n為排名序列長度;nc和nd分別為與主觀排序一致和不一致的圖像對數(shù)量。
2)CUHK數(shù)據(jù)庫
該數(shù)據(jù)庫包含57幅原始圖像和171幅重定向圖像。除了MIT數(shù)據(jù)庫中使用的8種圖像重定向方法外,CUHK數(shù)據(jù)庫還包括優(yōu)化的縫雕刻和縮放(Seam Carving and Scaling,SCSC)[22]和基于能量變形(Energy-based deformation,ENER)[23]方法。CUHK數(shù)據(jù)庫采用5級(jí)質(zhì)量量化策略分別對每幅重定向圖像進(jìn)行評(píng)分,以獲得主觀意見得分。最后,通過平均獲得每個(gè)重定向圖像的MOSs。4個(gè)常用的性能評(píng)估指標(biāo),包括皮爾遜線性相關(guān)系數(shù)(Pearson Linear Correlation Coefficient,PLCC)、斯皮爾曼秩次相關(guān)系數(shù)(Spearman Rank-order Correlation Coefficient,SRCC)、均方根誤差(Root Mean Squared Error,RMSE)和異常值比率(Outlier Ratio,OR)[24],用于評(píng)估RIQA方法的性能。PLCC可以通過Sheikh等[25]提出的非線性回歸映射函數(shù)獲得,方程式為
式 中:β1,β2,…,β5為 需 要 進(jìn) 行 擬 合 的 參 數(shù)。SRCC用于測量RIQA度量預(yù)測的客觀分?jǐn)?shù)的單調(diào)性。通過計(jì)算非線性回歸后主觀MOSs與客觀評(píng)估得分之間的均方根誤差,即RMSE。OR為異常值的數(shù)量與客觀評(píng)估得分總數(shù)的比率。異常值是在非線性回歸之后落在區(qū)間[MOS-2σ,MOS+2σ]之外的分?jǐn)?shù),其中σ為客觀評(píng)價(jià)分?jǐn)?shù)的標(biāo)準(zhǔn)偏差。較大的PLCC值和SRCC值表明客觀評(píng)估得分與主觀MOSs值之間的相關(guān)性較高,而較小的RMSE和OR值表明RIQA方法的預(yù)測分?jǐn)?shù)與主觀分?jǐn)?shù)越接近。
本文使用基于RBF內(nèi)核的SVMrank[17]在MIT數(shù)據(jù)庫上采用LOOCV(Left One-Out Cross-Validation)方式進(jìn)行多尺度失真感知特征融合。對于每幅原始圖像,使用原始圖像作為查詢,并將8幅重定向圖像的主觀投票作為排名順序。將原始圖像和8幅重定向圖像歸為一組,共計(jì)37組。對于每組,使用剩余的36組進(jìn)行訓(xùn)練,然后對該組進(jìn)行測試。最后,評(píng)估結(jié)果。將提出的MSDA方法與現(xiàn)有方法進(jìn)行比較。給出每個(gè)RIQA度量的平均KRCC和標(biāo)準(zhǔn)偏差,以及具有特定屬性的圖像子集的平均KRCC。表1給出MSDA方法在MIT各子集的KRCC指標(biāo),其中p-val是指在一個(gè)概率模型中,統(tǒng)計(jì)摘要(如兩組樣本均值差)與實(shí)際觀測數(shù)據(jù)相同,或甚至更大這一事件發(fā)生的概率。實(shí)驗(yàn)結(jié)果顯示,本文提出的MSDA方法性能是每個(gè)子集中所有對比方法的前兩名,并且平均性能比MLF方法提高4.1%。
為進(jìn)一步研究所提方法的有效性,表2給出在MIT數(shù)據(jù)庫上的特征分析實(shí)驗(yàn)。邊緣組相似性和臉部塊相似性特征的有效性已在MLF[12]中得到驗(yàn)證,因此僅對多尺度特征進(jìn)行實(shí)驗(yàn),該實(shí)驗(yàn)使用VAF計(jì)算的顯著性圖。表2第1組實(shí)驗(yàn)為不使用改進(jìn)的ARS度量的情況下,僅將ARS方法的顯著性檢測方法更改為VAF方法進(jìn)行實(shí)驗(yàn)。第2、3組為使用單一尺度的改進(jìn)寬高比特征和進(jìn)行實(shí)驗(yàn),相比于MLF,性能均有提升,而使用MSDA方法,性能進(jìn)一步提高,說明2個(gè)尺度的ARS特征具有互補(bǔ)的作用,可以更好地捕獲重定向圖像失真。此外,VAF對MLF性能的提高為2.5%,在VAF的基礎(chǔ)上和多尺度特征分別提高1.1%和1.5%,說明顯著性檢測算法對評(píng)估結(jié)果影響較大。
表1 MIT數(shù)據(jù)庫性能對比Table 1 Per formance comparison on MIT database
表2 MIT數(shù)據(jù)庫特征分析Table 2 Feature analysis on MIT database
本文在CUHK數(shù)據(jù)庫上采用SVR 5折交叉驗(yàn)證模型。數(shù)據(jù)庫隨機(jī)分為2個(gè)子集,80%作為訓(xùn)練集,20%作為測試集。訓(xùn)練集和測試集之間沒有重疊。重復(fù)隨機(jī)訓(xùn)練測試過程1 000次并記錄1 000次迭代的中值。從表3可以看出,盡管RMSE和OR的指標(biāo)低于MLF方法,但MSDA的PLCC和SRCC 指標(biāo)相對MLF方法分別提高1.8%和4.5%,總體具有更好的主觀感知一致性和預(yù)測性能。
表3 CUHK數(shù)據(jù)庫性能對比Table 3 Performance comparison on CUHK database
與MIT數(shù)據(jù)庫實(shí)驗(yàn)類似,本文同樣給出在驗(yàn)CUHK數(shù)據(jù)庫上的特征分析實(shí)驗(yàn),實(shí)驗(yàn)采用的特征與MIT數(shù)據(jù)庫的對比實(shí)驗(yàn)相同,實(shí)驗(yàn)過程與表3相同。表4給出CUHK數(shù)據(jù)庫上的特征分析結(jié)果,可以得到與MIT數(shù)據(jù)庫上相同的結(jié)論,進(jìn)一步說明MSDA方法的有效性。
表4 CUHK數(shù)據(jù)庫特征分析Table 4 Featur e analysis on CUHK database
為了研究不同尺度組合對評(píng)估性能的影響,本文對不同尺度塊的改進(jìn)ARS特征組合進(jìn)行實(shí)驗(yàn)。表5和表6分別為MIT和CUHK數(shù)據(jù)庫的不同特征組合的對比實(shí)驗(yàn)。本文在這個(gè)實(shí)驗(yàn)中提取的塊尺度特征分別為、和,由于塊尺度過大會(huì)導(dǎo)致ARS度量忽略細(xì)節(jié)失真,另一方面,選擇的塊尺度變化過小,則對實(shí)驗(yàn)結(jié)果影響不明顯。因此,塊尺度取8、16、32。從實(shí)驗(yàn)結(jié)果可以看出,當(dāng)塊尺度組合為8和16時(shí),RIQA方法結(jié)果具有最高的主觀感知一致性。
表5 MIT數(shù)據(jù)庫不同塊尺度特征組合Table 5 Different block scale featur e combinations on MIT database
表7和表8給出MSDA方法分別在2個(gè)數(shù)據(jù)庫上結(jié)合不同顯著性檢測算法的對比實(shí)驗(yàn)結(jié)果,采用當(dāng)前最新的級(jí)聯(lián)部分解碼器(CPD)[26]以及ARS方法使用的DCTS[15]顯著性檢測算法。由表7和表8實(shí)驗(yàn)結(jié)果可以得出,VAF在3種不同顯著性檢測算法當(dāng)中性能表現(xiàn)最好。并且最新的顯著性檢測算法并沒有表現(xiàn)出好的性能,其原因在于CPD方法的檢測結(jié)果雖然可以很好地檢測顯著性區(qū)域,但該方法并沒有對顯著性區(qū)域和次顯著性區(qū)域進(jìn)行區(qū)分,即顯著性區(qū)域都賦予同樣的顯著性值。而VAF方法則對不同顯著性區(qū)域賦予不同的顯著性值,特別是對人臉和線條部分進(jìn)行顯著性增強(qiáng),使得該顯著性檢測算法更符合重定向圖像在質(zhì)量評(píng)估上的需求。
本文對ARS特征進(jìn)行深入研究,λ的取值為0~1,λ取值越大表示對重定向圖像中被移除塊的視覺失真懲罰越小,而不同圖像被移除塊對重定向圖像的影響不同,因此有必要對λ進(jìn)行實(shí)驗(yàn),尋找最佳的參數(shù)設(shè)置。圖6給出了不同λ取值對實(shí)驗(yàn)結(jié)果的影響,從柱狀圖可以看出,λ=0.66時(shí),MSDA方法性能最好。
表6 CUHK數(shù)據(jù)庫不同塊尺度特征組合Table 6 Different block scale feature combinations onCUHK database
表7 MIT數(shù)據(jù)庫不同顯著性檢測算法實(shí)驗(yàn)結(jié)果對比Table 7 Comparison of exper imental results of detection algorithms with different saliency on MIT database
表8 CUHK數(shù)據(jù)庫不同顯著性檢測算法實(shí)驗(yàn)結(jié)果對比Table 8 Comparison of experimental results of detection algorithms with different saliency on CUHK database
圖6 不同λ值對實(shí)驗(yàn)結(jié)果的影響Fig.6 Influence of differentλvalues on experimental results
本文提出了一個(gè)MSDA方法來預(yù)測客觀重定向圖像質(zhì)量,并使用視覺注意力融合圖結(jié)合4個(gè)有效特征來捕獲圖像重定向期間產(chǎn)生的失真。在2個(gè)公共數(shù)據(jù)庫MIT和CUHK上,所提出的MSDA方法比對比方法具有更高的主觀感知一致性。本文深入研究細(xì)節(jié)失真特征并通過實(shí)驗(yàn)可得以下結(jié)論:
1)相比于改進(jìn)的ARS度量以及多尺度方法,顯著性檢測算法對實(shí)驗(yàn)結(jié)果影響更大。
2)改進(jìn)的ARS度量原始圖像中整塊像素在重定向過程中全部被移除的情況,該度量與VAF計(jì)算的顯著性圖相結(jié)合可以更好地捕捉細(xì)節(jié)失真,從而提高M(jìn)SDA方法性能。
3)多尺度方法為RIQA度量提供更全面的失真信息,彌補(bǔ)單尺度捕獲失真的不足,從而提高RIQA方法與人類主觀感知一致性。
雖然所提出的MSDA方法表現(xiàn)出良好的性能,但無論是細(xì)節(jié)失真特征、語義失真特征以及顯著性檢測算法,都需要進(jìn)一步研究以更好地進(jìn)行客觀RIQA。