趙全宜,張 澤
(1.湖北工業(yè)大學(xué),湖北 武漢 430068;2.湖北工業(yè)大學(xué)工業(yè)設(shè)計(jì)學(xué)院,湖北 武漢 430068)
相關(guān)調(diào)查結(jié)果顯示,人類所獲取的大部分信息都是通過(guò)視覺信息得到的。隨著多媒體技術(shù)的飛速發(fā)展,圖像、視頻等技術(shù)受到了人們的廣泛關(guān)注。人們對(duì)于信息的獲取、描述、發(fā)送等方面都發(fā)生了較大的變化,信息中的內(nèi)容并不是單一的,它主要是由聲音、圖像等部分組成,豐富的信息內(nèi)容促使傳統(tǒng)信息變得更加豐富多彩[1-2]。多視點(diǎn)視頻圖像陣列在此過(guò)程中發(fā)揮重要作用,信息的全部操作過(guò)程都采用“數(shù)字化”進(jìn)行處理,傳統(tǒng)的模擬信號(hào)需要進(jìn)行轉(zhuǎn)換,需要將其轉(zhuǎn)換為數(shù)字信號(hào)以方便后續(xù)的操作。在多媒體信息中,視覺信息中包含最直觀以及最生動(dòng)的形象,它是人類獲取信息的主要途徑[3]。
文獻(xiàn)[4]提出了一種基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)和圖像分塊聚類的圖像和視頻一維統(tǒng)一編碼框架。首先,采用一種改進(jìn)的K均值聚類算法對(duì)圖像塊進(jìn)行聚類,得到深度人工神經(jīng)網(wǎng)絡(luò)的緊輸入。其次,為了更好地重建原始圖像塊,引入了經(jīng)典的深度非線性自動(dòng)編碼器的線性化版本。最后將不同類別的視頻加入到分塊聚類算法的輸入中,建立了一個(gè)統(tǒng)一的圖像、幀內(nèi)、幀間、多視點(diǎn)視頻、三維視頻和多視點(diǎn)三維視頻的一維編碼。文獻(xiàn)[5]提出基于多尺度局部特征編碼與多通道特征融合的圖像場(chǎng)景分類,首先在場(chǎng)景分類中獲取圖像的局部信息,同時(shí)將編碼特征與多通道特征融合處理,最后獲取更清晰的多視點(diǎn)視頻圖像的列陣自編碼。文獻(xiàn)[6]提出基于深度自編碼學(xué)習(xí)的視頻圖像超分辨率重建算法。超分辨率圖像重建技術(shù)從低分辨率圖像中重建出高分辨率圖像。深度學(xué)習(xí)在多媒體處理領(lǐng)域得到了迅速發(fā)展,基于深度學(xué)習(xí)的圖像超分辨率復(fù)原技術(shù)逐漸成為主流技術(shù)。針對(duì)現(xiàn)有圖像超分辨率算法存在的參數(shù)較多、計(jì)算量大、訓(xùn)練時(shí)間長(zhǎng)、圖像紋理模糊等問(wèn)題,采用深度自編碼學(xué)習(xí)方法對(duì)圖像超分辨率算法進(jìn)行改進(jìn)。從網(wǎng)絡(luò)類型、網(wǎng)絡(luò)結(jié)構(gòu)、培訓(xùn)方法等方面分析了現(xiàn)有技術(shù)的優(yōu)缺點(diǎn),并對(duì)現(xiàn)有技術(shù)的發(fā)展進(jìn)行了梳理。
雖然上述研究取得一定進(jìn)展,信息技術(shù)需求不斷增加,但是仍然無(wú)法滿足社會(huì)的發(fā)展需求,為了滿足現(xiàn)階段的技術(shù)發(fā)展需求,本文設(shè)計(jì)并提出基于串匹配的多視點(diǎn)視頻圖像陣列自編碼方法。相關(guān)研究結(jié)果表明,所提方法能夠快速完成多視點(diǎn)視頻圖像陣列自編碼。
幀內(nèi)預(yù)測(cè)主要是指多視點(diǎn)視頻圖像陣列自編碼宏塊對(duì)已經(jīng)編碼且重建后的數(shù)據(jù)進(jìn)行編碼預(yù)測(cè)的過(guò)程。目前,主要通過(guò)幀間預(yù)測(cè)的相關(guān)數(shù)據(jù)進(jìn)行參考對(duì)比,同時(shí)將運(yùn)動(dòng)估計(jì)以及補(bǔ)償相結(jié)合,有效實(shí)現(xiàn)預(yù)測(cè)編碼[7]。在進(jìn)行預(yù)測(cè)的過(guò)程中,最為核心的技術(shù)就是運(yùn)動(dòng)矢量以及樹狀結(jié)構(gòu)補(bǔ)償。
在進(jìn)行幀間預(yù)測(cè)編碼的過(guò)程中,各個(gè)宏塊以及子塊都能夠獲取對(duì)應(yīng)的運(yùn)動(dòng)矢量。將亮度成分中運(yùn)動(dòng)矢量的百分之二十五像素精度設(shè)定為單位,同時(shí)將色度成分中運(yùn)動(dòng)矢量的百分之一像素也設(shè)定為對(duì)應(yīng)的單位。其中亞像素的亮度像素以及色度像素在實(shí)際操作過(guò)程中并不是真實(shí)存在的,所以在后續(xù)操作的過(guò)程中,通過(guò)鄰近像素進(jìn)行內(nèi)插得到,結(jié)合上述分析,獲取以下的權(quán)重計(jì)算式
(1)
式中,Ro表示多幀鄰近像素點(diǎn),E表示多幀鄰近基本層低頻信息,F(xiàn)表示多幀鄰近基本層高頻信息。
以下給出鄰近像素內(nèi)插方法獲取半像素點(diǎn),具體的計(jì)算式如下
(2)
式中,G表示鄰近像素內(nèi)的值域。不同的子宏塊以及分割塊中都含有單一的運(yùn)動(dòng)矢量,不同的運(yùn)動(dòng)矢量以及分割尺寸都需要選用編碼壓縮的方式進(jìn)行信息傳輸。其中,宏塊的分割尺寸越大,則說(shuō)明運(yùn)動(dòng)矢量需要選取較少的比特,但是在實(shí)際操作的過(guò)程中運(yùn)動(dòng)補(bǔ)償殘差會(huì)有一定程度的提高。
幀間預(yù)測(cè)是根據(jù)多視點(diǎn)視頻圖像陣列現(xiàn)階段已有的幀,將已經(jīng)編碼的重建幀設(shè)定為參考幀,同時(shí)結(jié)合相關(guān)的理論知識(shí)對(duì)其進(jìn)行準(zhǔn)確預(yù)測(cè)。在具體操作的過(guò)程中,需要通過(guò)參考幀來(lái)獲取目前編碼塊的最佳匹配塊,具體的計(jì)算式如下
J=MV+λM×R(a+b)
(3)
式中,MV代表候選的運(yùn)動(dòng)矢量;λM代表拉格朗日常數(shù);R代表運(yùn)動(dòng)矢量差分編碼所消耗的比特?cái)?shù)量。
其中絕對(duì)差值SAD的計(jì)算式具體如下所示
SAD=s(x,y)-c[x-MV,y-MY]
(4)
式中,s代表現(xiàn)階段需要進(jìn)行編碼的初始數(shù)據(jù);c代表編碼重建過(guò)程中的參考幀數(shù)據(jù),MY代表選定的運(yùn)動(dòng)矢量。
多視點(diǎn)視頻圖像陣列自編碼的室內(nèi)預(yù)測(cè)主要是指在單視點(diǎn)視頻內(nèi)的預(yù)測(cè)流程,通常情況下需要通過(guò)視點(diǎn)內(nèi)幀預(yù)測(cè)以及幀間預(yù)測(cè)兩者相結(jié)合來(lái)實(shí)現(xiàn)[8]。攝像機(jī)在實(shí)際拍攝的過(guò)程中,會(huì)設(shè)定具體的時(shí)間間隔進(jìn)行物體拍攝,在拍攝的過(guò)程中能夠形成最佳視頻序列[9]。
視頻圖像主觀質(zhì)量評(píng)價(jià)主要在事先設(shè)定好的約束條件下觀察得到對(duì)應(yīng)的圖像,對(duì)各個(gè)圖像的優(yōu)劣進(jìn)行對(duì)比,然后再對(duì)視頻質(zhì)量的評(píng)估,大致能夠劃分以下兩類:
1)直觀質(zhì)量評(píng)價(jià);
2)客觀質(zhì)量評(píng)價(jià)。
視頻圖像的主觀質(zhì)量評(píng)定通常情況下采用平均判分方法,觀察者通過(guò)給定的視頻圖像序列和另外的圖像序列進(jìn)行質(zhì)量對(duì)比。
在客觀質(zhì)量評(píng)價(jià)中一般選用峰值信號(hào)以及噪聲之比作為測(cè)試標(biāo)準(zhǔn)[10],通過(guò)取值大小能夠在一定程度上準(zhǔn)確反映視頻質(zhì)量的好壞,以下給出具體的計(jì)算式
(5)
式中,X代表圖像的寬度;Y代表圖像的高度;o(x,y)代表初始圖像在坐標(biāo)為(x,y)的像素點(diǎn)采樣值;r(x,y)代表恢復(fù)圖像中坐標(biāo)為(x,y)的像素點(diǎn)采樣值。
在計(jì)算機(jī)中進(jìn)行圖像處理大部分是以像素為單位,如果設(shè)定坐標(biāo)系φ中的點(diǎn)m的坐標(biāo)為(u,v),該點(diǎn)在坐標(biāo)系ψ中對(duì)應(yīng)點(diǎn)的坐標(biāo)為(x,y),坐標(biāo)系的ψ原點(diǎn)在φ中的坐標(biāo)為(u0,v0),不同像素在坐標(biāo)系ψ的兩個(gè)坐標(biāo)軸方向上的物理尺寸為(dx,dy),則(u,v)和(x,y)之間的轉(zhuǎn)換能夠通過(guò)以下公式進(jìn)行計(jì)算
(6)
選用齊次坐標(biāo)以及矩陣的形式,能夠?qū)⑹?6)轉(zhuǎn)換為以下的形式
(7)
將上述的變換過(guò)程稱為透視投影,它主要是指圖像從三維到二維之間的轉(zhuǎn)換,整個(gè)轉(zhuǎn)換過(guò)程也是相機(jī)成像過(guò)程中最為重要的轉(zhuǎn)換。通過(guò)相似三角的相關(guān)成像原理,能夠獲取以下的推理計(jì)算式
(8)
根據(jù)齊次坐標(biāo)以及矩陣的形式,則能夠?qū)⑹?8)轉(zhuǎn)換為以下的形式
(9)
其中,世界坐標(biāo)系是一個(gè)基準(zhǔn)坐標(biāo)系,它能夠用來(lái)描述場(chǎng)景中任何物體坐標(biāo)位置以及相機(jī)的準(zhǔn)確位置[11-12],各個(gè)坐標(biāo)之間的轉(zhuǎn)換能夠通過(guò)變換矩陣T來(lái)表示,也就是從世界坐標(biāo)系到相機(jī)坐標(biāo)系的變換矩陣。
設(shè)定基礎(chǔ)矩陣用F表示,其中通過(guò)不同的參數(shù)的變化情況決定矩陣取值的大小。
其中矩陣F主要包含以下幾方面的性質(zhì):
1)F矩陣是一個(gè)3×3,并且秩為2的矩陣,設(shè)定自由度的取值,在設(shè)定的研究范圍,它的取值是唯一的。
2)對(duì)極線能夠選用基礎(chǔ)矩陣表示。
點(diǎn)m在另外一幅圖像中的對(duì)極線能夠表示為以下的形式
l′=F×m
(10)
點(diǎn)m′在另外一幅圖像上的對(duì)極線能夠表示以下的形式
l=FT×m
(11)
假設(shè)攝像機(jī)投影矩陣并沒有明確給出,則需要恢復(fù)基礎(chǔ)矩陣F,此時(shí)需要組建兩幅圖像特征點(diǎn)之間的對(duì)應(yīng)關(guān)系,實(shí)際就是組建符合要求的匹配點(diǎn)集。在得到最佳的匹配點(diǎn)集后,則需要利用上述匹配點(diǎn)開計(jì)算矩陣F。
特征點(diǎn)是圖像灰度在x、y兩個(gè)方向上都存在較大的變化,它通常情況下是角點(diǎn)或者平滑的圖像區(qū)域內(nèi)的孤立點(diǎn),具體的操作步驟如下:
使用現(xiàn)階段使用較為廣泛的特征點(diǎn)——角點(diǎn)。通過(guò)兩條或者多條直線之間的交點(diǎn)或者結(jié)合點(diǎn),能夠獲取圖像上不同方向的梯度值,通過(guò)矩陣M獲取以下的計(jì)算式
(12)
以下給出角點(diǎn)函數(shù)的表達(dá)式
R=M-k(Mtrace)2
(13)
式中,Mtrace代表圖像的亮度值,本文選用灰度值表示,則會(huì)出現(xiàn)四個(gè)節(jié)點(diǎn)A、B、C、D。
令
(14)
(15)
(16)
(17)
則矩陣能夠表示為以下的形式
(18)
為了得到不同尺度空間的極值點(diǎn),不同采樣點(diǎn)和相鄰近的點(diǎn)之間進(jìn)行對(duì)比,以下需要對(duì)比不同圖像的圖像域以及尺度域之間的相鄰極值點(diǎn)取值大小。
在上述分析的基礎(chǔ)上,能夠利用擬合三維二次函數(shù)確定不同關(guān)鍵點(diǎn)的具體坐標(biāo)位置以及尺度,同時(shí)刪除無(wú)用的響應(yīng)點(diǎn),增強(qiáng)匹配穩(wěn)定性,同時(shí)進(jìn)一步提升整個(gè)算法的抗噪能力。
在得到匹配點(diǎn)以后,能夠通過(guò)描述子來(lái)準(zhǔn)確描述這些特征點(diǎn),匹配不同的描述子信息,獲取符合標(biāo)準(zhǔn)的匹配點(diǎn)集。
在上述分析的基礎(chǔ)上,需要利用尺度空間獲取極值點(diǎn)進(jìn)行方向匹配,通過(guò)關(guān)鍵點(diǎn)鄰域像素的梯度方向分布特性為各個(gè)關(guān)鍵點(diǎn)指定對(duì)應(yīng)的方向參數(shù)。
在實(shí)際應(yīng)用的過(guò)程中,需要設(shè)定關(guān)鍵點(diǎn)為中心商務(wù)鄰域窗口,在該窗口內(nèi)完成數(shù)據(jù)采樣,同時(shí)通過(guò)直方圖統(tǒng)計(jì)各個(gè)鄰域內(nèi)像素的梯度值方向。
在得到關(guān)鍵點(diǎn)在尺度空間的位置以及方向需要提取多個(gè)尺度,獲取各個(gè)尺度的主方向,同時(shí)計(jì)算在設(shè)定范圍內(nèi)的水平梯度以及垂直梯度。
計(jì)算輸入圖像中H個(gè)梯度方向圖Gi,不同的梯度方向?qū)?yīng)一個(gè)量化方向;G0(u,v)代表圖像(u,v)在方向o上的梯度模值,則能夠?qū)⑻荻确较驁D寫成以下的形式
(19)
式中,I代表輸入圖像;o代表方向?qū)?shù)的具體方向。
在上述分析的基礎(chǔ)上,需要對(duì)各個(gè)梯度方向圖進(jìn)行不同的高斯核函數(shù)卷積,則能夠獲取以下的計(jì)算式
(20)
將原有的視差搜索從二維降到一維,以達(dá)到多視點(diǎn)視頻圖像陣列自編碼的目的。
綜上所述,完成了基于串匹配的多視點(diǎn)視頻圖像陣列自編碼。
為了驗(yàn)證所提基于串匹配的多視點(diǎn)視頻圖像陣列自編碼方法的綜合有效性,需要進(jìn)行仿真,仿真環(huán)境為:普通臺(tái)式機(jī),處理器為Intel(R)Core(TM)i7-4590CPU,3.30GHz,16G內(nèi)存,64位Windows7操作系統(tǒng)。
1)編碼效率/%
以下將文獻(xiàn)[4]方法、文獻(xiàn)[5]方法和文獻(xiàn)[6]方法以及本文所提方法的編碼效率對(duì)比結(jié)果,具體如圖1所示。
圖1 不同編碼方法的編碼效率對(duì)比結(jié)果
分析圖1的實(shí)驗(yàn)數(shù)據(jù)可知,不同編碼方法的編碼效率會(huì)隨著樣本數(shù)量的變化而變化,其中本文方法的編碼效率一直呈直線上升趨勢(shì);文獻(xiàn)[4]方法的編碼效率呈直線下降趨勢(shì);文獻(xiàn)[5]方法的編碼效率一直處于較為平穩(wěn)的狀態(tài);文獻(xiàn)[6]方法的編碼效率波動(dòng)明顯;相比文獻(xiàn)[4]方法、文獻(xiàn)[5]方法以及文獻(xiàn)[6]方法,本文方法的編碼效率有了較為明顯的上升趨勢(shì)。其原因是本文方法在進(jìn)行編碼效率檢驗(yàn)是通過(guò)視點(diǎn)內(nèi)幀預(yù)測(cè)以及幀間預(yù)測(cè)兩者相結(jié)合來(lái)實(shí)現(xiàn)。
2)響應(yīng)時(shí)間/ms
為了進(jìn)一步驗(yàn)證所提方法的有效性,不同編碼方法的響應(yīng)時(shí)間設(shè)定為衡量指標(biāo),以下分別給出本文方法、文獻(xiàn)[4]方法、文獻(xiàn)[5]方法以及文獻(xiàn)[6]方法的對(duì)比結(jié)果,具體結(jié)果如表1所示。
表1 不同方法的響應(yīng)時(shí)間變化情況
由表1可知,本文方法所需響應(yīng)時(shí)間在四種編碼方法中最少,本文所提方法在傳統(tǒng)方法的基礎(chǔ)上引入了串匹配算法,通過(guò)該算法能夠有效提升整個(gè)方法的性能,同時(shí)減少所提方法的響應(yīng)時(shí)間。
視頻技術(shù)迅速發(fā)展,在人們?nèi)粘I钪械玫綇V泛應(yīng)用以及普及?,F(xiàn)階段已有的多視點(diǎn)視頻圖像陣列自編碼方法主要傾向于真實(shí)以及清晰的表述自然景物特征。針對(duì)傳統(tǒng)的多視點(diǎn)視頻圖像陣列自編碼方法存在響應(yīng)時(shí)間較長(zhǎng)、編碼效率較低等問(wèn)題,本文設(shè)計(jì)并提出基于串匹配的多視點(diǎn)視頻圖像陣列自編碼方法。仿真結(jié)果表明,所提方法能夠有效減少響應(yīng)時(shí)間,提升編碼效率。
未來(lái)階段,將重點(diǎn)針對(duì)以下幾方面展開研究:
1)由于受到時(shí)間的限制,本文并沒有對(duì)多個(gè)視點(diǎn)之間的視覺幾何關(guān)系進(jìn)行搜索范圍約束,后續(xù)將展開該方面的研究。
2)所提編碼方法現(xiàn)階段仍然存在一定的不足之處,后續(xù)將進(jìn)一步提升圖像的質(zhì)量以及綜合性能。