宋 巍,師麗彪,耿立佳,馬振玲*,杜艷玲
(1.上海海洋大學(xué) 信息學(xué)院,上海 201306;2.國(guó)家海洋局 東海標(biāo)準(zhǔn)計(jì)量中心,上海 201306)
廣角鏡頭由于其寬闊的視野,被廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)中,包括深度估計(jì)[1]、視頻監(jiān)控[2]、物體檢測(cè)與識(shí)別[3]等。然而廣角鏡頭大多數(shù)存在鏡頭畸變,影響目標(biāo)測(cè)量與特征提取精度。因此,圖像幾何畸變校正是許多計(jì)算機(jī)視覺應(yīng)用的關(guān)鍵預(yù)處理步驟。
相機(jī)標(biāo)定法[4-6]是最常用的圖像畸變校正方法,該方法可以借助特定的標(biāo)定板來(lái)求解相機(jī)的內(nèi)參數(shù)、外參數(shù)和畸變參數(shù),也可以基于圖像的幾何特征建立約束條件進(jìn)行求解。Sun 等人[7]提出了基于兩條正交平行線消失點(diǎn)優(yōu)化的校正方法。Workman 等人[8]估計(jì)了單幅圖像中的地平線。文獻(xiàn)[9]利用雙正交消失點(diǎn)優(yōu)化方法結(jié)合直線在畸變校正后也應(yīng)為直線的特性來(lái)完成相機(jī)標(biāo)定工作。這類方法需要事先已知相機(jī)鏡頭畸變類型,并能用數(shù)學(xué)模型進(jìn)行描述,然而現(xiàn)在傳感器類型眾多,成像環(huán)境復(fù)雜,圖像畸變類型復(fù)雜,很難用固定的數(shù)學(xué)模型對(duì)畸變進(jìn)行描述,因此該校正方法的適用性受到限制。
隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺方向的快速發(fā)展,該技術(shù)也逐漸被學(xué)者應(yīng)用到圖像的幾何畸變校正工作上。早期使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進(jìn)行徑向畸變校正的相關(guān)工作是2016年由Rong等人[10]提出的。該方法基于單參數(shù)模型[11],將一個(gè)固定范圍的畸變參數(shù)離散為400 種類別,并以此為基礎(chǔ)生成訓(xùn)練數(shù)據(jù)集,將畸變校正任務(wù)轉(zhuǎn)變?yōu)榛儏?shù)分類任務(wù)。文獻(xiàn)[12]也是基于畸變參數(shù)分類的思想,使用具有自校準(zhǔn)運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(Structure From Motion,SFM)重建圖像序列來(lái)獲得相機(jī)的畸變參數(shù)和二者的函數(shù)關(guān)系來(lái)簡(jiǎn)化畸變模型,利用CNN 網(wǎng)絡(luò)提取徑向畸變的特征,最后將兩個(gè)畸變參數(shù)預(yù)測(cè)問題轉(zhuǎn)為單個(gè)參數(shù)的分類問題。2019 年,Liao 等人[13]提出了一個(gè)畸變校正生成對(duì)抗網(wǎng)絡(luò),這是首個(gè)采用端到端對(duì)抗網(wǎng)絡(luò)來(lái)學(xué)習(xí)兩幅圖像之間的結(jié)構(gòu)差異然后進(jìn)行畸變校正的方法,該方法與Rong 等人方法[10]對(duì)比實(shí)現(xiàn)了無(wú)標(biāo)簽訓(xùn)練。2019 年,Li[14]提 出了一種校正框架實(shí)現(xiàn)盲幾何畸變校正,同時(shí)提供了一種幾何畸變數(shù)據(jù)集的構(gòu)建方法。該方法中使用CNN 來(lái)學(xué)習(xí)校正圖像和畸變圖像之間像素坐標(biāo)位移的變化,將圖像的校正工作轉(zhuǎn)為像素坐標(biāo)位移變化的預(yù)測(cè)。2020 年,文獻(xiàn)[15]基于單參數(shù)模型提出了一種新的模型,構(gòu)建了徑向畸變合成層和校正層(Radial Distortion Synthesis and Correction layers,RDS&RDC),該方法數(shù)據(jù)的合成和校正速度得到了提升。2021 年,文獻(xiàn)[16]設(shè)計(jì)了一個(gè)多層次的校正流程,將校正任務(wù)分解為結(jié)構(gòu)恢復(fù)、語(yǔ)義嵌入和紋理渲染3 個(gè)層次,使用分層結(jié)構(gòu)實(shí)現(xiàn)漸進(jìn)式校正圖像并取得了較好的結(jié)果。文獻(xiàn)[17]提出了一種將圖像校正問題映射為從圖像中學(xué)習(xí)序數(shù)畸變的方法,序數(shù)畸變表示了圖像中像素的畸變程度,它從圖像中心點(diǎn)向外依次增加。目前基于深度學(xué)習(xí)的圖像幾何畸變校正方法大多針對(duì)單一畸變類型,而相機(jī)獲取的影像包含徑向畸變、切向畸變等多種混合畸變,因此當(dāng)前方法在解決混合畸變校正時(shí)存在明顯局限性。
針對(duì)傳統(tǒng)校正方法依賴畸變數(shù)學(xué)模型適用性較差和深度學(xué)習(xí)方法在校正混合畸變存在局限性的問題,本文提出了一種結(jié)合空間注意力機(jī)制與U-Net 網(wǎng)絡(luò)來(lái)校正混合畸變的方法。本文綜合考慮圖像徑向和切向混合畸變構(gòu)建了畸變圖像數(shù)據(jù)集,使用畸變圖像和無(wú)畸變圖像之間的像素坐標(biāo)位移變化來(lái)表示畸變,將校正問題轉(zhuǎn)為預(yù)測(cè)畸變圖像的逐像素坐標(biāo)位移變化。利用U-Net 編解碼器結(jié)構(gòu)網(wǎng)絡(luò)來(lái)學(xué)習(xí)畸變圖像的多尺度特征及重建畸變圖像坐標(biāo)位移圖,同時(shí)引入空間注意力機(jī)制來(lái)響應(yīng)畸變圖像中不同位置畸變程度的影響,設(shè)計(jì)了坐標(biāo)差損失和圖像重采樣損失兩種損失函數(shù)來(lái)提高校正精度。與最新基于深度學(xué)習(xí)的畸變校正方法的對(duì)比實(shí)驗(yàn)表明,本方法的校正效果最優(yōu),圖像校正坐標(biāo)向量的平均絕對(duì)誤差約為0.251 9,主觀評(píng)價(jià)的評(píng)分為4.597。
攝像機(jī)成像的基本原理是針孔相機(jī)模型,但是由于相機(jī)的制造精度和組裝工藝等的偏差會(huì)引入畸變,導(dǎo)致圖像的成像模型不滿足針孔相機(jī)模型,因此需要考慮成像幾何畸變問題。大多數(shù)透鏡的畸變主要由徑向畸變和切向畸變構(gòu)成[18]。徑向畸變是圖像像素點(diǎn)以畸變中心為中心點(diǎn),沿著徑向產(chǎn)生的位置偏差;切向畸變由透鏡本身與相機(jī)傳感器平面不平行引起。在物理坐標(biāo)系下,實(shí)際像點(diǎn)p(x,y)與理想無(wú)畸變像點(diǎn)的數(shù)學(xué)關(guān)系表述為:
式中:r2=x2+y2,k1、k2、k3是徑向畸變系數(shù),p1、p2是切向畸變系數(shù)。徑向畸變與切向畸變?yōu)閞的多項(xiàng)式表達(dá)式,根據(jù)林德曼-魏爾斯特拉斯定理,任何函數(shù)(混合畸變)都可以由多項(xiàng)式擬合得到[19],因此,本文選擇徑向畸變和切向畸變的多項(xiàng)式數(shù)學(xué)表達(dá)式來(lái)描述混合畸變。
為了訓(xùn)練本文網(wǎng)絡(luò)來(lái)完成幾何畸變校正工作,需要準(zhǔn)備大量的數(shù)據(jù)集作為預(yù)備數(shù)據(jù)集。目前基于深度學(xué)習(xí)的方法對(duì)畸變圖像校正的研究工作中,數(shù)據(jù)集都是單一的徑向畸變而且畸變圖像的分辨率較小,多為256 pixel×256 pixel,會(huì)損失掉畸變程度較大的圖像邊緣信息。考慮到包含徑向畸變的圖像,其畸變距離圖像中心越遠(yuǎn)畸變程度越大,因此為了保留較多的畸變特征需要生成較大分辨率的畸變圖像。
首先需要選擇圖像數(shù)據(jù)源。基于上述考慮,本文選擇了place365 圖像數(shù)據(jù)集[20],并將數(shù)據(jù)集中的圖像裁剪為512 pixel×512 pixel 的大小。對(duì)于具有明顯的幾何結(jié)構(gòu)的圖像,如直線、弧線、地平線等,可以提供大量的幾何信息供網(wǎng)絡(luò)學(xué)習(xí),因此我們進(jìn)一步對(duì)此類圖像進(jìn)行了篩選,利用霍夫變換篩選出來(lái)具有明顯直線結(jié)構(gòu)的圖像,篩選條件定義為:
式中:C為圖像的分辨率大小,l表示檢測(cè)的直線長(zhǎng)度,α為最短直線段的長(zhǎng)度。本文中指定α=80,約為圖像分辨率的1/6;λ為數(shù)據(jù)集的選擇因子,該值由源數(shù)據(jù)集圖像數(shù)量和需求數(shù)據(jù)集圖像數(shù)量來(lái)確定,值越大篩選的圖像直線越多,相應(yīng)地篩選出的圖像數(shù)量越少,最終選擇λ=4 篩選了1 800 張圖像作為數(shù)據(jù)集。
其次,基于傳統(tǒng)相機(jī)標(biāo)定的思想,棋盤格圖像可以為圖像幾何畸變校正提供最顯著的幾何特征,因此本文通過設(shè)定不同的方格大小和圖像的旋轉(zhuǎn)角度來(lái)多樣化棋盤格的特征,生成1 800 張棋盤格圖像(512 pixel×512 pixel)擴(kuò)充數(shù)據(jù)集。
不同于Li[14]基于單參數(shù)畸變模型的徑向畸變數(shù)據(jù)集構(gòu)建方法,本文提供了一種混合畸變類型的數(shù)據(jù)集構(gòu)建方法。由公式(1)可知,本文使用的畸變模型包含兩種畸變類型,該模型對(duì)于徑向畸變的描述由多個(gè)畸變參數(shù)k來(lái)確定,而且還可以通過添加切向分量來(lái)擴(kuò)展以處理非徑向?qū)ΨQ的畸變,而單參數(shù)模型僅只能描述徑向?qū)ΨQ的畸變。數(shù)據(jù)集的具體構(gòu)建流程如下:
首先,對(duì)GoPro 相機(jī)的不同模式進(jìn)行相機(jī)標(biāo)定工作,獲取4 種不同的相機(jī)內(nèi)參數(shù)fx、fy、cx、cy和畸變參數(shù)k1、k2、k3、p1、p2,詳細(xì)參數(shù)如表1 所示。然后,依據(jù)公式(1)中坐標(biāo)的映射關(guān)系生成混合畸變圖像(512 pixel×512 pixel)數(shù)據(jù)集I和其對(duì)應(yīng)的坐標(biāo)差數(shù)據(jù)集V,坐標(biāo)差數(shù)據(jù)集V記錄了在像素坐標(biāo)系下畸變圖像中的像素點(diǎn)p(x,y)與其相對(duì)應(yīng)的無(wú)畸變的圖像中的像素點(diǎn)的差值。由于生成的畸變圖像在邊緣存在黑邊,且考慮盡量保留遠(yuǎn)離圖像中心的信息,因此在圖像中心裁剪出352 pixel×352 pixel 大小的圖像和坐標(biāo)差向量作為最終的數(shù)據(jù)集,最終生成畸變圖像14 400 張,其中12 000 張用于訓(xùn)練模型,2 400 張用于測(cè)試模型。合成數(shù)據(jù)集的部分圖像如圖1 所示。
圖1 合成數(shù)據(jù)集的部分圖像Fig.1 Part of the images in the synthetic dataset
表1 相機(jī)內(nèi)參數(shù)與畸變參數(shù)Tab.1 Camera inner parameters and distortion parameters
本文設(shè)計(jì)的畸變校正網(wǎng)絡(luò)架構(gòu)如圖2 所示。圖中(a)為輸入畸變圖像,(b)是U-net 主干網(wǎng)絡(luò),(c1)是模型預(yù)測(cè)的坐標(biāo)差矩陣,(c2)是坐標(biāo)差矩陣的標(biāo)簽,(d1)是模型校正后的圖像,(d2)是圖像的標(biāo)簽。本文使用U-Net[21]作為主干網(wǎng)絡(luò)模型來(lái)提取圖像的特征,并讓網(wǎng)絡(luò)學(xué)習(xí)從畸變圖像域到校正坐標(biāo)域的映射。校正坐標(biāo)域與輸入的畸變圖像具有相同大小的二維向量,通過預(yù)測(cè)的校正坐標(biāo)域向量進(jìn)行圖像重采樣來(lái)獲得校正后的圖像。校正坐標(biāo)域的預(yù)測(cè)值和校正圖像的精度相關(guān),因此本文重點(diǎn)設(shè)計(jì)了損失函數(shù)來(lái)提高模型的預(yù)測(cè)精度。
圖2 網(wǎng)絡(luò)架構(gòu)Fig.2 Network architecture
U-Net[21]網(wǎng)絡(luò)最初由Ronneberger 在2015 年發(fā)表,應(yīng)用在醫(yī)學(xué)圖像分割領(lǐng)域中并取得了良好的分割效果。該網(wǎng)絡(luò)基于Encoder-Decoder 結(jié)構(gòu),是一種U 形對(duì)稱結(jié)構(gòu),主要結(jié)構(gòu)包括下采樣、上采樣和跳躍連接。在網(wǎng)絡(luò)的下采樣部分,對(duì)圖像進(jìn)行編碼,由尺寸為3×3 的卷積層、ReLU 函數(shù)和尺寸為2×2 的池化層構(gòu)成,對(duì)輸入的圖像進(jìn)行4 次下采樣操作,每次下采樣操作后特征圖的尺寸下降,同時(shí)通道數(shù)翻倍。在網(wǎng)絡(luò)的上采樣部分,對(duì)圖像進(jìn)行解碼,通過4 次尺寸為2×2 的反卷積層實(shí)現(xiàn)上采樣,擴(kuò)大特征圖尺寸,恢復(fù)到輸入圖像尺寸大小。網(wǎng)絡(luò)的跳躍連接結(jié)構(gòu)將解碼層中的高層特征和編碼層中的低層特征進(jìn)行融合、抽象特征與細(xì)節(jié)特征進(jìn)行融合,實(shí)現(xiàn)了多尺度特征融合,使得捕獲的特征圖既包含全局信息,又包含局部信息,提高了特征的表現(xiàn)力。
選擇U-Net 網(wǎng)絡(luò)可以更好地提取畸變圖像的特征,且模型的訓(xùn)練速度也得到了提升。將一張三通道的畸變圖像輸入到網(wǎng)絡(luò),經(jīng)過模型的學(xué)習(xí)輸出一個(gè)具有和輸入圖像相同尺寸大小的二維坐標(biāo)差向量。
在畸變圖像中,畸變程度由中心向圖像四周逐漸擴(kuò)大,因此本文在編碼器網(wǎng)絡(luò)輸出層加入了空間注意力機(jī)制(Spatial Attention,SA)[22],既保證了主干網(wǎng)絡(luò)充分提取圖像的特征,又從空間維度細(xì)化了提取到的特征圖??臻g注意力模塊如圖3 所示,將輸入的特征圖在每一個(gè)特征點(diǎn)的通道上取最大值和平均值,將結(jié)果堆疊,再通過一個(gè)卷積核為7×7 大小的卷積層得到通道數(shù)為1 的特征圖,然后將該特征圖通過sigmoid 函數(shù)后與輸入特征圖相乘得到輸出特征圖。其具體計(jì)算公式如式(3)所示:
圖3 空間注意力模塊結(jié)構(gòu)Fig.3 Structure of the spatial attention module
式中:I代表輸入特征圖,O代表輸出特征圖,f7(· )表示卷積核為7×7 的卷積運(yùn)算,cat 表示堆疊操作,δ是Sigmoid 函數(shù)。
在Li[14]的方法中,損失函數(shù)(Endpoint Error,EPE)表示為預(yù)測(cè)的坐標(biāo)差向量與真值之間的歐氏距離,網(wǎng)絡(luò)估計(jì)的坐標(biāo)差向量Vpred是對(duì)畸變圖像的逐個(gè)像素進(jìn)行預(yù)測(cè),表示了畸變圖像的像素應(yīng)該如何移動(dòng)到原始無(wú)畸變圖像中對(duì)應(yīng)的像素。本文首先使用平均絕對(duì)誤差(Mean Absolute Error,MAE)作為損失函數(shù),表示預(yù)測(cè)的坐標(biāo)差向量Vpred與真值Vgt之間的平均絕對(duì)誤差,其定義為:
式中,n為坐標(biāo)差向量元素總數(shù)。
經(jīng)過對(duì)預(yù)測(cè)坐標(biāo)差向量分析,發(fā)現(xiàn)預(yù)測(cè)向量呈現(xiàn)出偏離中心越遠(yuǎn)預(yù)測(cè)誤差越大的特征,因此我們?cè)O(shè)計(jì)了權(quán)重向量M來(lái)優(yōu)化上述損失函數(shù),使得網(wǎng)絡(luò)能夠提高對(duì)坐標(biāo)差向量邊緣的預(yù)測(cè)精度。以坐標(biāo)差向量對(duì)應(yīng)的真值向量Vpred的逐像素點(diǎn)到坐標(biāo)(0,0)的歐氏距離作為權(quán)重指標(biāo),將歐式距離歸一化后得到權(quán)重向量M,M具有和預(yù)測(cè)坐標(biāo)差向量Vpred相同的形狀,其定義由公式(5)給出:
式中,G是歸一化函數(shù)。
最終,坐標(biāo)差損失函數(shù)定義為:
式中:n為坐標(biāo)差向量元素總數(shù),M為權(quán)重向量。
最終的校正圖像由預(yù)測(cè)的坐標(biāo)差向量對(duì)畸變圖像進(jìn)行重采樣得到。為了進(jìn)一步提高校正效果,本文設(shè)計(jì)了一個(gè)圖像重采樣損失函數(shù)L2,表示由預(yù)測(cè)坐標(biāo)差向量重采樣后得到的校正圖像Ipred與無(wú)畸變圖像Igt之間的逐像素點(diǎn)的歐式距離。將其定義為:
式中,n表示像素點(diǎn)的個(gè)數(shù)。
最終本文的損失函數(shù)定義為:
其中:權(quán)重μ在坐標(biāo)差預(yù)測(cè)和重采樣損失之間提供了權(quán)衡,本文中μ=0.5。
本文實(shí)驗(yàn)在Tesla-P100 GPU 上進(jìn)行,選用Pytorch 深度學(xué)習(xí)框架進(jìn)行算法實(shí)現(xiàn),運(yùn)行環(huán)境為Python3.6、Pytorch1.8、cuda10.1。批尺寸(Batch size)的值為24,優(yōu)化器使用Adam(Adaptive Moment Estimation),學(xué)習(xí)率設(shè)定為1×10-4,共迭代200 epoch 后收斂。
本文采用3 個(gè)評(píng)價(jià)指標(biāo)。第一個(gè)指標(biāo)定義為網(wǎng)絡(luò)預(yù)測(cè)的坐標(biāo)差向量Vpred與真值Vgt之間的平均絕對(duì)誤差,該指標(biāo)直接反應(yīng)了模型的預(yù)測(cè)精度。該值越接近于0 表明網(wǎng)絡(luò)預(yù)測(cè)的坐標(biāo)差向量精度越高,相應(yīng)地重采樣生成的圖像校正效果越好。其他兩個(gè)指標(biāo)沿用了圖像校正研究常用的評(píng)價(jià)指標(biāo)[23-24],這兩種指標(biāo)反應(yīng)了校正后圖像的質(zhì)量以及校正精度;峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似性指數(shù)(Structural Similarity,SSIM)。PSNR 值高于20 dB 圖像質(zhì)量才能被接受,該值越大,表明圖像失真越少。SSIM值的范圍為0~1,值越大代表校正后的圖像質(zhì)量越接近原圖。
為了驗(yàn)證本文方法的有效性,對(duì)比了兩種最新基于深 度學(xué)習(xí) 的Li[14]和Hosono[25]的幾何 畸變圖像校正方法以及3 種采用不同主干網(wǎng)絡(luò)U-Net[20]、PSPNet[26]、DeepLabV3+[27]的模型。
雖然近年來(lái)有多種基于深度學(xué)習(xí)的幾何畸變圖像校正方法被陸續(xù)提出,但由于沒有公開代碼不便進(jìn)行對(duì)比。因此,本文選擇了有公開代碼的Li[14](2019 年)和Hosono[23](2021 年)的方法,并使用本文構(gòu)建的數(shù)據(jù)集對(duì)其進(jìn)行了訓(xùn)練和測(cè)試。Li提出的盲目校正多類型幾何畸變的方法采用了編解碼網(wǎng)絡(luò)來(lái)學(xué)習(xí)畸變圖像的特征,以預(yù)測(cè)的坐標(biāo)差向量與真值之間的歐氏距離作為損失函數(shù),通過預(yù)測(cè)的坐標(biāo)差向量來(lái)重采樣畸變圖像實(shí)現(xiàn)校正。Hosono 的方法以VGG 網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建了畸變參數(shù)評(píng)估網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)畸變圖像的畸變參數(shù)進(jìn)而實(shí)現(xiàn)校正,利用扭曲的直線校正后仍為直線的特性提出了線條重構(gòu)誤差損失來(lái)提高網(wǎng)絡(luò)的預(yù)測(cè)精度。這兩種方法有一定的代表性。
此外,考慮到主干網(wǎng)絡(luò)結(jié)構(gòu)對(duì)性能的影響,在本文輸入、輸出及損失函數(shù)不變的前提下,替換主干網(wǎng)絡(luò)后進(jìn)行訓(xùn)練和測(cè)試。對(duì)比的主干網(wǎng)絡(luò)包括在細(xì)粒度特征學(xué)習(xí)方面表現(xiàn)優(yōu)秀的PSPNet、DeepLabV3+網(wǎng)絡(luò)以及本文選擇的基礎(chǔ)網(wǎng)絡(luò)UNet。PSPNet 通過整合全局上下文信息的金字塔池化模塊增強(qiáng)了多尺度信息的融合,減小了局部和全局的損失。DeepLabV3+通過引入空洞卷積,在不損失信息的情況下,加大了感受野,讓每個(gè)卷積輸出都包含較大范圍的信息。
4.3.1 定量數(shù)據(jù)分析
使用本文方法所提出的數(shù)據(jù)集,從測(cè)試集中選取了2 400張圖像進(jìn)行了幾何畸變校正實(shí)驗(yàn)。根據(jù)3 個(gè)評(píng)價(jià)指標(biāo)MAE、PSNR 和SSIM 來(lái)定量地評(píng)價(jià)不同方法的校正效果,結(jié)果如表2 所示。
表2 不同方法在測(cè)試數(shù)據(jù)集上的評(píng)價(jià)結(jié)果Tab.2 Evaluation results of different methods on the test dataset
表2 的定量結(jié)果表明,本文方法在預(yù)測(cè)坐標(biāo)差向量的精度、圖像校正和結(jié)構(gòu)恢復(fù)方面都優(yōu)于其他方法,在定量評(píng)估中取得了最高分。原因有:(1)U-Net 網(wǎng)絡(luò)相比于其他網(wǎng)絡(luò)模型可以更好地提取畸變圖像的幾何特征,提高網(wǎng)絡(luò)的學(xué)習(xí)能力;(2)空間注意力機(jī)制的應(yīng)用進(jìn)一步輔助U-Net網(wǎng)絡(luò)學(xué)習(xí)圖像的空間信息;(3)兩種損失函數(shù)增強(qiáng)了網(wǎng)絡(luò)的預(yù)測(cè)精度。
4.3.2 主觀評(píng)價(jià)分析
為了進(jìn)一步驗(yàn)證本文方法的校正效果,根據(jù)雙激勵(lì)損傷尺度(Double Stimulus Impairment Scale,DSIS)圖像質(zhì)量主觀評(píng)價(jià)方法[28]設(shè)計(jì)了針對(duì)圖像校正的主觀評(píng)價(jià)實(shí)驗(yàn),具體過程如下:
(1)數(shù)據(jù)準(zhǔn)備。從測(cè)試數(shù)據(jù)集中按照4 種畸變類型,每類隨機(jī)選擇2 張棋盤格圖像和3 張普通圖像,共20 張畸變圖像,然后選擇對(duì)應(yīng)的標(biāo)簽圖像作為主觀評(píng)價(jià)中的參考圖像。將這20 張圖像分別采用表2 中所提及的6 種方法進(jìn)行校正,得到校正圖像。以參考圖像和每張校正圖像為一組進(jìn)行測(cè)試,共形成120 組測(cè)試圖像對(duì)。
(2)評(píng)級(jí)劃分。參考DSIS中的評(píng)級(jí)方法,采用5級(jí)評(píng)分制(1~5分)表示校正圖像相對(duì)于參考圖像的質(zhì)量損失程度,具體等級(jí)劃分說(shuō)明如表3所示。
表3 評(píng)分等級(jí)說(shuō)明Tab.3 Description of the grading scale
(3)評(píng)價(jià)實(shí)施。邀請(qǐng)20 位在校研究生參與實(shí)驗(yàn),其中女生8人,男生12人,且都沒有圖像畸變校正相關(guān)背景。在開始實(shí)驗(yàn)之前,為受試者做一個(gè)簡(jiǎn)短的培訓(xùn),說(shuō)明評(píng)分細(xì)則,然后進(jìn)行3 組測(cè)試實(shí)驗(yàn),熟悉測(cè)試實(shí)驗(yàn)流程(測(cè)試實(shí)驗(yàn)不記入正式實(shí)驗(yàn)結(jié)果)。每位受試者觀察一對(duì)測(cè)試組合(參考圖像與根據(jù)所使用方法編號(hào)后的校正圖像)并進(jìn)行評(píng)分。
(4)評(píng)價(jià)結(jié)果。經(jīng)相關(guān)性分析,將相關(guān)性系數(shù)小于0.75 的2 組數(shù)據(jù)剔除掉,接受18 位受試者的主觀評(píng)價(jià)數(shù)據(jù)。計(jì)算這18 位受試者的平均意見得分(Mean Opinion Score,MOS)和方差(Variance),如表4所示。主觀評(píng)價(jià)結(jié)果表明,本文方法的MOS分值最高且方差最低,說(shuō)明方法的校正效果最佳且較為穩(wěn)定。同時(shí),經(jīng)過T-test 的成對(duì)統(tǒng)計(jì)檢驗(yàn),本文方法的主觀評(píng)價(jià)分?jǐn)?shù)均顯著高于其他方法(p<0.05)。
表4 不同方法主觀評(píng)價(jià)分?jǐn)?shù)Tab.4 Subjective evaluation scores of different methods
圖4 給出了部分測(cè)試樣例。在圖4 中可以直觀地看到本文方法在普通圖像和棋盤格圖像都取得了良好的校正效果,且畸變程度較大的圖像邊緣部分也得到了較好的校正。Hosono 方法對(duì)于測(cè)試圖像整體校正效果較差,而且校正后的圖像像素不平滑。其他方法對(duì)棋盤格圖像都有較好的校正效果,對(duì)于普通圖像,Li方法、PSPNet網(wǎng)絡(luò)、U-Net 網(wǎng)絡(luò)在圖像的邊緣校正效果明顯下降,而DeepLabV3+網(wǎng)絡(luò)則是對(duì)圖像中心進(jìn)行了過度的校正,導(dǎo)致畸變程度最小的圖像中心發(fā)生了扭曲。主觀觀察結(jié)果與主觀評(píng)價(jià)結(jié)果(表4)較為一致。
圖4 主觀評(píng)價(jià)實(shí)驗(yàn)數(shù)據(jù)的樣例圖Fig.4 Examples of the subjective evaluation experiment
本節(jié)進(jìn)行了消融實(shí)驗(yàn)研究,以評(píng)估所提出的損失函數(shù)的有效性。保持其他訓(xùn)練條件相同,僅改變損失函數(shù),以MAE、PSNR、SSIM 3 種指標(biāo)來(lái)定量地對(duì)比不同損失函數(shù)對(duì)網(wǎng)絡(luò)預(yù)測(cè)的精度和畸變圖像校正的影響。實(shí)驗(yàn)結(jié)果如表5 所示。
表5 損失函數(shù)的消融實(shí)驗(yàn)Tab.5 Ablation experiments of loss function
表5 結(jié)果表明,使用平均絕對(duì)誤差損失L0比Li 方法中使用的EPE 損失有更高的預(yù)測(cè)精度,而且坐標(biāo)差損失通過權(quán)重向量M優(yōu)化可以進(jìn)一步提高模型的預(yù)測(cè)精度,降低預(yù)測(cè)坐標(biāo)差向量Vpred的邊緣預(yù)測(cè)誤差。圖像的重采樣損失L2同樣發(fā)揮了作用,與坐標(biāo)差損失L1相互補(bǔ)充,進(jìn)一步提高了畸變圖像的校正效果。
除以上在測(cè)試集上的性能驗(yàn)證外,還將Li 的方法、Hosono 的方法和本文的方法應(yīng)用于GoPro相機(jī)獲取的真實(shí)影像的校正,實(shí)驗(yàn)結(jié)果如圖5 所示。圖5(a)為使用GoPro 相機(jī)拍攝的“魚眼”畸變的圖像(壓縮為352 pixel×352 pixel)、圖5(b)為L(zhǎng)i 方法校正后的圖像、圖5(c)為Hosono 方法校正后的圖像、圖5(d)為本文方法校正后的圖像。從圖中可直觀地看出,本文方法校正效果優(yōu)于其他兩種方法,說(shuō)明所提出方法的泛化性能較好,可以直接應(yīng)用于對(duì)GoPro 相機(jī)拍攝圖像的校正。
圖5 GoPro 相機(jī)光學(xué)影像的校正對(duì)比實(shí)驗(yàn)Fig.5 Correction and comparison experiment of optical images of GoPro cameras
本文提出了一種混合畸變的數(shù)據(jù)集構(gòu)建方法,使用深度學(xué)習(xí)的方法將畸變圖像校正問題轉(zhuǎn)為預(yù)測(cè)畸變圖像的逐像素坐標(biāo)變化問題,擺脫了傳統(tǒng)方法中復(fù)雜的數(shù)學(xué)模型計(jì)算等問題,增加了校正方法的適用性。實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)于普通圖像和棋盤格圖像都有良好的校正效果,所提出的兩種損失函數(shù)對(duì)于模型預(yù)測(cè)的準(zhǔn)確度和圖像的校正都起到了重要的作用。其中,MAE 為0.251 9,SSIM 為0.930 6,PSNR 為35.796 8 dB。GoPro 影像的校正實(shí)驗(yàn)進(jìn)一步證明了本文方法的適用性和實(shí)用性。