• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于卷積神經(jīng)網(wǎng)絡(luò)的視差圖生成技術(shù)

    2018-03-20 00:43:05朱俊鵬趙洪利楊海濤
    計(jì)算機(jī)應(yīng)用 2018年1期
    關(guān)鍵詞:視差視圖卷積

    朱俊鵬,趙洪利,楊海濤

    (1.裝備學(xué)院 研究生管理大隊(duì),北京 101416; 2.裝備學(xué)院 訓(xùn)練部,北京 101416; 3.裝備學(xué)院 復(fù)雜電子系統(tǒng)仿真實(shí)驗(yàn)室,北京 101416)(*通信作者電子郵箱523587076@qq.com)

    0 引言

    裸眼三維技術(shù),是基于硬件顯示技術(shù)的發(fā)展而興起的顯示方法,即人們?cè)诓皇褂萌S輔助眼鏡的前提下,通過(guò)裸眼觀(guān)看到立體三維的效果,它有著比二維和普通三維顯示更加逼真的便捷體驗(yàn)方式,目前在游戲、電影、廣告、醫(yī)療、交通、軍事等領(lǐng)域有著廣泛的應(yīng)用。從本質(zhì)上說(shuō)裸眼三維顯示技術(shù)和普通的需要借助三維眼鏡的三維顯示技術(shù)最大的不同是前者將三維眼鏡“戴”到了屏幕上,人眼在相應(yīng)的范圍里觀(guān)看屏幕就能產(chǎn)生裸眼三維的效果,而并非兩者在三維圖像生成算法上的區(qū)別,同樣的算法借助不同的方式,都能實(shí)現(xiàn)三維顯示。

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)作為機(jī)器學(xué)習(xí)的一個(gè)分支,它是一個(gè)含有多隱層的人工神經(jīng)網(wǎng)絡(luò),有著十分強(qiáng)大的特征提取能力,通過(guò)建立的訓(xùn)練模型從原始輸入端輸入的數(shù)據(jù)中提取更具體、更本質(zhì)的事物特征,從而有利于解決事物特征的分類(lèi)和可視化分析。同時(shí)通過(guò)無(wú)監(jiān)督學(xué)習(xí)算法實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的分級(jí)表達(dá),這樣就能降低深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度和訓(xùn)練規(guī)模[1]。

    1 研究現(xiàn)狀與趨勢(shì)

    1.1 三維圖像生成主流技術(shù)

    結(jié)合計(jì)算機(jī)圖像處理技術(shù),目前常見(jiàn)的裸眼三維視頻生成方法主要有:基于水平視差的三維顯示算法[2]、基于深度圖像視點(diǎn)繪制(Depth Image-Based Rendering, DIBR)算法等主要的方法[3-4]。

    基于水平視差的三維顯示主要利用人眼的特性,在人們裸眼觀(guān)察的前提下使顯示設(shè)備呈現(xiàn)出具有空間深度的影像,在轉(zhuǎn)換的過(guò)程中,通過(guò)平滑置換算法將右視圖以全局視差δ移動(dòng),通過(guò)反向映射得到左視圖。水平視差方法在處理過(guò)程中存在計(jì)算量過(guò)大、易出現(xiàn)空洞等現(xiàn)象且圖像效果欠佳。

    具體的工作流程如圖1所示,由原圖生成的視差灰度圖通過(guò)平滑置換方法生成視差序列圖,由于視差圖會(huì)產(chǎn)生空洞所以通過(guò)平滑粘連補(bǔ)圖方法對(duì)視差圖進(jìn)行補(bǔ)圖處理,將生成的左、右平滑灰度圖再次通過(guò)置換生成左、右視差序列圖,產(chǎn)生了粘連效果,接著通過(guò)消除粘連方法最終生成左眼視差圖和右眼視差圖,借助特殊的三維硬件顯示設(shè)備就能實(shí)現(xiàn)圖片的三維效果。

    DIBR技術(shù)的主要工作原理是通過(guò)參考圖像及其相應(yīng)的深度圖合成具有新視點(diǎn)的視圖,稱(chēng)之為新視圖,新視圖后續(xù)能夠構(gòu)成立體圖像對(duì),通過(guò)相關(guān)算法產(chǎn)生新視圖,參考圖像和深度圖可分別通過(guò)普通攝像機(jī)和深度攝像機(jī)拍攝獲得。在實(shí)際操作中,DIBR技術(shù)通過(guò)三維圖像變換生成新視圖,但新視圖往往出現(xiàn)空洞現(xiàn)象。還需要在后續(xù)的操作中對(duì)圖像進(jìn)行補(bǔ)圖處理。

    DIBR算法工作流程如圖2所示,將參考圖片和相應(yīng)的深度圖作為輸入,輸入給DIBR,在DIBR算法中根據(jù)適當(dāng)?shù)膮?shù)生成多個(gè)視點(diǎn)的視圖,在生成的視圖中通常都包含了左視圖、右視圖以及在空間位置上對(duì)稱(chēng)的圖像。再將生成的視圖融合成一幅圖像,通過(guò)硬件裸眼三維顯示器,就能夠?qū)崿F(xiàn)裸眼三維的效果。

    圖1 水平視差算法流程

    圖2 DIBR算法工作流程

    1.2 三維圖像生成趨勢(shì)

    隨著機(jī)器學(xué)習(xí)時(shí)代、大數(shù)據(jù)時(shí)代的到來(lái),卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像處理方面的能力得到了廣泛的應(yīng)用,相比傳統(tǒng)的方法,卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像的處理能夠避免出現(xiàn)圖像空洞的問(wèn)題,且具備計(jì)算速度更快、學(xué)習(xí)效果良好的優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)模型提供了一種端到端的學(xué)習(xí)模型,模型中的參數(shù)可以通過(guò)傳統(tǒng)的梯度下降方法進(jìn)行訓(xùn)練,經(jīng)過(guò)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到圖像中的特征,并且完成對(duì)圖像特征的提取、分類(lèi)以及預(yù)測(cè)。在圖像分類(lèi)、姿態(tài)估計(jì)、圖像分割等多個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域中有著大量的研究和成果[5]。

    將卷積神經(jīng)網(wǎng)絡(luò)引入視差圖像的生成是未來(lái)圖像處理的一個(gè)全新方法,對(duì)于正在興起的裸眼三維來(lái)說(shuō)將起到極大的促進(jìn)作用。卷積神經(jīng)網(wǎng)絡(luò)模型通過(guò)學(xué)習(xí)后對(duì)輸入圖像進(jìn)行視差圖片的生成過(guò)程,相比現(xiàn)有的方法既不會(huì)在轉(zhuǎn)換過(guò)程中出現(xiàn)空洞,也不用對(duì)特征圖進(jìn)行補(bǔ)圖處理,不僅確保精確性也提高了效率,從而降低對(duì)內(nèi)部資源的消耗。

    2 卷積神經(jīng)網(wǎng)絡(luò)

    目前開(kāi)源的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)有很多,本文使用的MXNet(Mix Net)學(xué)習(xí)系統(tǒng)包含卷積神經(jīng)網(wǎng)絡(luò),是一種為了滿(mǎn)足對(duì)二維輸入數(shù)據(jù)的處理而專(zhuān)門(mén)設(shè)計(jì)的一種多層人工神經(jīng)網(wǎng)絡(luò),每層網(wǎng)絡(luò)都由多個(gè)二維平面組成,每個(gè)平面也由相對(duì)獨(dú)立的多個(gè)神經(jīng)元組成,兩層相鄰的神經(jīng)元互相連接。卷積神經(jīng)網(wǎng)絡(luò)有著一個(gè)權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)使其更貼近生物神經(jīng)網(wǎng)絡(luò),與此同時(shí)通過(guò)調(diào)整網(wǎng)絡(luò)的深度和廣度可以改變網(wǎng)絡(luò)的容量,因此,使其能更加有效地降低網(wǎng)絡(luò)模型的復(fù)雜程度,具備更少的權(quán)值參數(shù)和網(wǎng)絡(luò)層數(shù),計(jì)算更加容易[6]。

    典型的卷積神經(jīng)網(wǎng)絡(luò)主要由輸入層、卷積層、上采樣層、全連接層和輸出層組成[5]。在本文中,將原始圖像W作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),用Si表示卷積神經(jīng)網(wǎng)絡(luò)的第i層特征圖,那么即有:

    Si=W

    (1)

    假設(shè)Si是卷積層,那么Si的產(chǎn)生過(guò)程可以如下描述:

    Si=f(Si-1?Hi+bi)

    (2)

    其中:Hi表示第i層卷積核的權(quán)值向量;“?”符號(hào)表示卷積核與第i-1層特征圖進(jìn)行卷積運(yùn)算,由于卷積運(yùn)算的結(jié)果是存在一定偏移的,所以需要與第i層的偏移向量bi相加,最后經(jīng)過(guò)非線(xiàn)性的激勵(lì)函數(shù)f(x)最終得到第i層的特征圖Si。

    卷積層之后通常是上采樣層,上采樣層根據(jù)相關(guān)的上采樣規(guī)則對(duì)卷積完成后的特征圖進(jìn)行采樣,這一層的主要任務(wù)是對(duì)特征圖進(jìn)行相應(yīng)的降維處理,其次還要保持特征圖的尺度不變特點(diǎn)[7]。假設(shè)Si是上采樣層,即有:

    Si=upsampling(Si-1)

    (3)

    經(jīng)過(guò)多層卷積層和上采樣層的交替?zhèn)鬟f,通過(guò)全連接網(wǎng)絡(luò)對(duì)提取出來(lái)的特征進(jìn)行相關(guān)的分類(lèi),總結(jié)出輸入的概率分布Y。卷積神經(jīng)網(wǎng)絡(luò)實(shí)際上就是一個(gè)讓原始矩陣(H0)進(jìn)行多層數(shù)據(jù)變換和降維的過(guò)程,最后將得到的結(jié)果映射到新的數(shù)學(xué)特征表達(dá)模型中。如下:

    Y(i)=P(L=li|S0:(H,b))

    (4)

    其中l(wèi)i為第i個(gè)標(biāo)簽類(lèi)別,從式(4)中分析可得卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)進(jìn)行訓(xùn)練的主要目的是最小化損失函數(shù)L(H,b)。輸入S0經(jīng)過(guò)前向傳導(dǎo)后通過(guò)損失函數(shù)計(jì)算出與期望值之間的差異,通常稱(chēng)為“殘差”。常見(jiàn)的損失函數(shù)有均方誤差(Mean Squared Error, MSE)函數(shù)以及負(fù)對(duì)數(shù)似然(Negative Log Likelihood, NLL)函數(shù)等[8]:

    (5)

    (6)

    在計(jì)算過(guò)程中會(huì)出現(xiàn)權(quán)值過(guò)度擬合的問(wèn)題,損失函數(shù)最后通過(guò)增加L范數(shù)來(lái)控制權(quán)值的過(guò)擬合,由參數(shù)λ控制過(guò)擬合作用的強(qiáng)度[9]:

    (7)

    在訓(xùn)練過(guò)程中,通過(guò)使用梯度下降方法進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化。殘差通過(guò)梯度下降進(jìn)行反向傳播,傳播過(guò)程中更新卷積神經(jīng)網(wǎng)絡(luò)每一層的可訓(xùn)練參數(shù)(H,b)。學(xué)習(xí)速率參數(shù)η主要控制殘差反向傳播的強(qiáng)度[9]:

    (8)

    (9)

    卷積神經(jīng)網(wǎng)絡(luò)的工作流程分為三步進(jìn)行,主要是網(wǎng)絡(luò)模型定義、網(wǎng)絡(luò)訓(xùn)練和網(wǎng)絡(luò)預(yù)測(cè)[6]。網(wǎng)絡(luò)模型定義,指網(wǎng)絡(luò)模型主要根據(jù)業(yè)務(wù)需求和數(shù)據(jù)的特征進(jìn)行網(wǎng)絡(luò)深度、功能的設(shè)計(jì)。網(wǎng)絡(luò)訓(xùn)練,由于殘差的反向傳播能夠?qū)W(wǎng)絡(luò)中的參數(shù)進(jìn)行訓(xùn)練,導(dǎo)致訓(xùn)練中出現(xiàn)過(guò)擬合和梯度的消逝與爆炸等問(wèn)題,最終影響了訓(xùn)練的收斂性能;目前針對(duì)此問(wèn)題提出了很多方法,隨著網(wǎng)絡(luò)規(guī)模和數(shù)據(jù)結(jié)構(gòu)的不斷擴(kuò)大,也對(duì)相應(yīng)的網(wǎng)絡(luò)訓(xùn)練方法有了更高的要求。網(wǎng)絡(luò)預(yù)測(cè)就是將輸入數(shù)據(jù)通過(guò)前向傳輸,在每一層輸出相應(yīng)的特征圖,最終將這些特征圖作為全連接網(wǎng)絡(luò)的輸入,而全連接網(wǎng)絡(luò)的輸出就是基于輸入的條件概率分布過(guò)程。

    3 關(guān)鍵技術(shù)

    將卷積神經(jīng)網(wǎng)絡(luò)引入裸眼三維圖像的生成研究中,通過(guò)此網(wǎng)絡(luò)訓(xùn)練生成特征圖,將其疊加得到深度圖,具有保真度高的特征。

    當(dāng)前對(duì)于裸眼三維圖像生成的工作主要包含兩步,從左視圖估計(jì)一個(gè)準(zhǔn)確的深度圖,并使用DIBR算法渲染正確的右視圖。接著直接對(duì)右視圖進(jìn)行回歸處理,由于深度圖采用了水平視差法故存在背景空洞,導(dǎo)致在DIBR計(jì)算過(guò)程中出現(xiàn)了像素空洞。

    本文中建立卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)預(yù)測(cè)概率視差序列圖,并將視差序列圖疊加得到深度圖,并將其作為中間媒介輸入,接著與輸入圖像進(jìn)行卷積再疊加,通過(guò)使用各層的選擇層來(lái)模擬DIBR方法的過(guò)程。在訓(xùn)練過(guò)程中,視差序列圖由模型生成,且不存在背景空洞的現(xiàn)象,在生成后不用跟實(shí)際的視差圖進(jìn)行比較分析,整個(gè)訓(xùn)練過(guò)程以水平視差的表達(dá)和繪圖展現(xiàn)的雙重目的而結(jié)束。此模型通過(guò)各層的選擇層能夠進(jìn)行端到端的訓(xùn)練。

    3.1 模型構(gòu)建

    最近的研究證明,把全連接輸入層的特征圖結(jié)合起來(lái),將有利于進(jìn)行圖片像素的預(yù)測(cè),這在人臉識(shí)別、姿態(tài)估計(jì)、物體檢測(cè)等應(yīng)用的特征提取上有著較高的準(zhǔn)確率[10-11]。鑒于本文研究?jī)?nèi)容中對(duì)無(wú)背景空洞、無(wú)背景粘連深度圖的需求,為了保證生成裸眼三維的高效性和準(zhǔn)確性,因此把卷積神經(jīng)網(wǎng)絡(luò)引入到本文中,通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)與DIBR法進(jìn)行結(jié)合,構(gòu)建一種新的模型。

    模型設(shè)計(jì)如圖3所示,將左視圖作為輸入,分別通過(guò)多個(gè)卷積層。由于在卷積訓(xùn)練中得到的是分辨率遠(yuǎn)小于原始圖片的特征碎片,這些特征碎片在對(duì)新的圖像進(jìn)行特征預(yù)測(cè)時(shí)會(huì)產(chǎn)生大量不同的卷積特征映射圖,對(duì)這些圖要經(jīng)過(guò)相應(yīng)的處理。

    在每個(gè)卷積層后有一個(gè)分支,通過(guò)解卷積對(duì)上一層輸出的圖像進(jìn)行上采樣,上采樣層的操作即為池化層,將每一卷積計(jì)算過(guò)后的特征映射圖進(jìn)行聚合統(tǒng)計(jì)計(jì)算,不僅能對(duì)特征圖進(jìn)行降維處理,還保證了每一層圖片尺寸的穩(wěn)定。

    在全連接層中,首先將每一層的特征映射圖進(jìn)行疊加得到最終的特征圖,再將每一層得到的每個(gè)特征圖進(jìn)行疊加,得到與輸入圖像尺寸要求一致的深度圖,并將其作為選擇層的輸入。再將此深度圖在每一個(gè)空間位置的通道上分別進(jìn)行運(yùn)算得到多個(gè)概率視差圖,將概率視差圖和左視圖輸入選擇層,每一個(gè)概率視差圖都與左視圖進(jìn)行一次卷積運(yùn)算,再將所有的運(yùn)算結(jié)果進(jìn)行疊加,最終得到右視圖。

    本文建立了12層的卷積計(jì)算層,在對(duì)樣本數(shù)據(jù)訓(xùn)練期間,每一卷積層的圖像訓(xùn)練都存在區(qū)別,從圖片的近景到遠(yuǎn)景進(jìn)行特征學(xué)習(xí)。故每一卷積層掌握的特征是不一樣的。

    訓(xùn)練結(jié)束后,每一層都對(duì)新輸入圖像特征進(jìn)行提取,結(jié)合訓(xùn)練所得特征,對(duì)輸入圖像依次從近景到遠(yuǎn)景進(jìn)行特征的提取,在實(shí)際操作中,卷積層的層數(shù)較少,卷積網(wǎng)絡(luò)對(duì)輸入圖像特征提取的不完全,卷積層數(shù)較多會(huì)產(chǎn)生過(guò)擬合現(xiàn)象,降低卷積神經(jīng)網(wǎng)絡(luò)的泛化能力。4.2節(jié)對(duì)本文模型中每一層的計(jì)算效果經(jīng)過(guò)上采樣處理后進(jìn)行了展示,從中可以看出每一層的變化情況以及本文12層卷積網(wǎng)絡(luò)的合理性。

    初始化的解卷積層相當(dāng)于能夠促進(jìn)訓(xùn)練的雙線(xiàn)性插值,具體而言,通過(guò)因子S進(jìn)行上采樣,核心的ω值[12]定義為:

    (10)

    (11)

    圖3 模型結(jié)構(gòu)

    3.2 選擇層重構(gòu)原理

    選擇層是傳統(tǒng)裸眼三維生成的DIBR算法,用傳統(tǒng)的算法對(duì)選擇層進(jìn)行重新構(gòu)造,一方面能保證右視圖生成的便捷性,一方面保證了卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的完整性。在傳統(tǒng)的裸眼三維圖像生成過(guò)程中,通過(guò)左視圖I和深度圖Z,能夠計(jì)算出視差圖D,具體計(jì)算公式如下所示:

    D=B(Z-f)/Z

    (12)

    其中:B為兩眼之間的間距,Z為輸入深度,f為兩眼到交點(diǎn)平面的距離,如圖4所示。右視圖O則表示為:

    Oij=Iij+Dij

    (13)

    通過(guò)兩眼之間的距離B以及焦平面與兩眼之間的距離f,結(jié)合式(12)能計(jì)算視差圖。當(dāng)人眼的焦點(diǎn)離人眼越近時(shí),生成的視差圖效果較差,反之較好。

    然而,由于視差圖D并非可區(qū)分層次的,所以還不能直接通過(guò)選擇層計(jì)算。本文所采用的網(wǎng)絡(luò)在計(jì)算每個(gè)像素位置Dij時(shí),可能存在差異值d的概率分布,對(duì)所有的i,j來(lái)說(shuō)滿(mǎn)足:

    (14)

    同時(shí)將左視圖的移動(dòng)產(chǎn)生的堆棧定義為:

    (15)

    那么通過(guò)下式由選擇層構(gòu)造右視圖:

    (16)

    目前Dij是能夠區(qū)分層次的,因此能夠計(jì)算輸出和真實(shí)右視圖Y之間的損耗M,并將此作為訓(xùn)練的目標(biāo)。計(jì)算公式如下:

    M=|O-Y|

    (17)

    圖4 視差圖生成物理模型

    3.3 模型設(shè)置

    在實(shí)驗(yàn)過(guò)程中,采用不帶有時(shí)序信息的單個(gè)圖片作為輸入,這樣可以確保與傳統(tǒng)算法的進(jìn)行比較的公平性。

    訓(xùn)練數(shù)據(jù)集主要來(lái)自KITTI[13],KITTI數(shù)據(jù)集是目前最大的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集。在訓(xùn)練期間,每個(gè)輸入左幀被調(diào)整為432×180像素,生成200個(gè)8×8大小的特征碎片,由此特征碎片對(duì)輸入的圖像做計(jì)算,最終由上采樣層進(jìn)行降維處理,生成384×160的預(yù)測(cè)圖像。

    生成的右視圖為384×160的分辨率,這對(duì)于一般圖片的使用來(lái)說(shuō)是無(wú)法接受的分辨率。為了解決這個(gè)問(wèn)題,首先通過(guò)卷積網(wǎng)絡(luò)的視差圖通常有很多比原始彩色圖像要少的高頻內(nèi)容,因此能夠?qū)㈩A(yù)測(cè)得到的視差圖進(jìn)行擴(kuò)展,并將其與原始的高分辨率左視圖相結(jié)合呈現(xiàn)出高分辨率的右視圖。以這種方式呈現(xiàn)右視圖與4倍上采樣頻率相比,具有更好的圖像質(zhì)量。

    對(duì)于定量分析,本文主要采用384×160分辨率的圖像作為輸入和輸出;對(duì)于定性分析,本文采用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖片進(jìn)行卷積和上采樣,通過(guò)利用卷積網(wǎng)絡(luò)的權(quán)值初始化主分支上的卷積層(圖3立體方塊部分),并以標(biāo)準(zhǔn)偏差為0.01的正態(tài)分布初始化所有其他權(quán)值。

    為了使全連接輸入層的圖像特征信息、尺寸信息更加完整,在合并各層后,創(chuàng)建一個(gè)側(cè)面分支,將多層(本文創(chuàng)建了12層)卷積層進(jìn)行批量的歸一化處理。接著通過(guò)解卷積層進(jìn)行初始化處理,如式(10)~(11)所示,此解卷積的輸出尺寸也匹配最終的輸出尺寸。通過(guò)批量歸一化處理的卷積網(wǎng)絡(luò)層與隨機(jī)的初始化層進(jìn)行連接,這樣就能夠解決由于卷積網(wǎng)絡(luò)的龐大和不均勻的激活量所造成的像素尺寸重構(gòu)數(shù)值不穩(wěn)定的問(wèn)題[14-15]。

    在硬件方面,需要通過(guò)Nvidia的獨(dú)立顯卡進(jìn)行顯示,通過(guò)Nvidia GTX Titan GPU計(jì)算,卷積神經(jīng)網(wǎng)絡(luò)可以以每秒100幀的速度重建新的右視圖。而本文使用的主要是MXNet架構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),MXNet為開(kāi)源的網(wǎng)絡(luò)架構(gòu)模型,支持C++、Python、R、Matlab、Javascript等語(yǔ)言,可運(yùn)行在CPU、GPU或移動(dòng)設(shè)備上[16]。

    4 實(shí)驗(yàn)對(duì)比分析

    為了驗(yàn)證算法的可靠性,提高實(shí)驗(yàn)的可信度以及對(duì)視差圖效果進(jìn)行優(yōu)劣判斷,本文通過(guò)基于水平視差的三維顯示、DIBR算法與卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行比較,驗(yàn)證本文方法與傳統(tǒng)方法的優(yōu)缺點(diǎn),采用定量分析和定性分析兩種方法進(jìn)行綜合評(píng)價(jià)。定量分析主要比較生成右視圖像素尺寸重構(gòu)的平均絕對(duì)誤差,誤差越小,效果越好。定性分析通過(guò)直觀(guān)比較DIBR方法生成的視差圖和卷積神經(jīng)網(wǎng)絡(luò)生成的視差圖來(lái)判斷,由1.1節(jié)可知DIBR生成的視差圖是目前主流方法中應(yīng)用最廣、空洞效果改善最好的,將本文的方法與其進(jìn)行比較將更好說(shuō)明本文方法的優(yōu)劣。通過(guò)這兩種評(píng)估方法最終驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行裸眼三維圖像生成的可行性。

    4.1 定量分析

    本文取像素尺寸重構(gòu)誤差值的平均絕對(duì)誤差進(jìn)行定量分析,由于在生成右視圖時(shí),都會(huì)對(duì)圖片的每一個(gè)像素進(jìn)行重新排列,故與原圖會(huì)出現(xiàn)一定的尺寸誤差,尺寸誤差越小就說(shuō)明生成的右視圖與原圖匹配效果更好。分析平均絕對(duì)誤差(Mean Absolute Error, MAE)通過(guò)計(jì)算進(jìn)行,如式(18):

    (18)

    其中:x為右視圖,y為左視圖,g(·)表示生成相應(yīng)的模型,H和W分別為圖像的高度和寬度??紤]到卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的不穩(wěn)定性,為保證實(shí)驗(yàn)的準(zhǔn)確性,本文對(duì)3種方法進(jìn)行11次的定量分析,結(jié)果如圖5所示。

    圖5 MAE值比較

    由于卷積神經(jīng)網(wǎng)絡(luò)存在不穩(wěn)定性,故MAE并非一個(gè)定值,本文在3.2節(jié)中對(duì)其存在的不穩(wěn)定性結(jié)果進(jìn)行了解卷積處理,由實(shí)驗(yàn)結(jié)果來(lái)看其MAE值在一個(gè)合理的區(qū)域內(nèi)變動(dòng),卷積神經(jīng)網(wǎng)絡(luò)相對(duì)于水平視差和DIBR方法來(lái)說(shuō),其誤差值分別平均降低了12.82%和10.52%。由于考慮到修正誤差會(huì)降低模型計(jì)算速度,由圖分析可知誤差的范圍是在合理范圍中,故不需要對(duì)誤差進(jìn)行修正。

    4.2 定性分析

    為了更好地理解本文所提的方法,文中展示了定性分析的結(jié)果,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)特征進(jìn)行提取,展現(xiàn)出較強(qiáng)的立體感,并通過(guò)12個(gè)卷積層從近到遠(yuǎn)的分配視差圖,如圖6所示。

    從圖6中可以觀(guān)察到卷積神經(jīng)網(wǎng)絡(luò)方法能夠通過(guò)輸入圖片中對(duì)隱含的信息的特征提取得到特征圖,主要包括圖片的尺寸、遮擋物以及圖片中物體的幾何構(gòu)架。由卷積網(wǎng)絡(luò)計(jì)算出來(lái)的這12幅圖像都是384×160大小的尺寸,這得益于上采樣層的處理。隨著卷積計(jì)算的進(jìn)行,在卷積計(jì)算的后幾層,無(wú)論是近景的人物還是任務(wù)背后遠(yuǎn)景的湖、山、天空、云彩都得到了很好的體現(xiàn),這說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)很好地提取到原始圖像中的各個(gè)特征元素,并能很好地表現(xiàn)出來(lái)。

    從圖6中分析可見(jiàn)對(duì)圖片的預(yù)測(cè)由近到遠(yuǎn)進(jìn)行分析,每一個(gè)層面的視差圖都不一樣,隨著卷積層數(shù)的深入,得到的視差圖存在過(guò)擬合的趨勢(shì),使得后期視差圖會(huì)出現(xiàn)失真的現(xiàn)象,然而,這并不影響最后整體生成圖像的質(zhì)量。這是因?yàn)槊恳慌诺南袼氐闹迪嗤夜潭?,任何視差圖的分配都將按照固定的像素大小進(jìn)行排列,所以視差的計(jì)算只需要精確的垂直邊緣,在實(shí)驗(yàn)中也能夠看出深度學(xué)習(xí)框架的學(xué)習(xí)的主體主要也集中在這個(gè)區(qū)域當(dāng)中。

    圖6 CNN方法定性分析結(jié)果(各層視差圖)

    同時(shí)通過(guò)卷積神經(jīng)網(wǎng)絡(luò)生成的右視圖和DIBR方法生成右視圖的灰度圖進(jìn)行對(duì)比分析,如圖7所示。

    圖7 原圖、DIBR和CNN方法效果比較

    圖7展示了不同樣本圖片經(jīng)過(guò)DIBR和卷積網(wǎng)絡(luò)的效果,從左至右依次為原圖、DIBR深度圖、卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)視差圖。從圖中分析可以得出,卷積神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)視差圖方法能夠更好地勾勒?qǐng)D片中物體的輪廓,能夠勾勒出圖中的遠(yuǎn)景的山、湖泊、樓房、天空的輪廓,近景的字跡、人物形態(tài);而由傳統(tǒng)方法DIBR的深度圖其背景之間產(chǎn)生了粘連,遠(yuǎn)景分不清景物的輪廓,也看不清石碑上的刻字,圖像特征不能直接區(qū)分。因此由圖7可以清楚地對(duì)比出由卷積神經(jīng)網(wǎng)絡(luò)生成的視差圖更加清晰,特征提取更加明顯,很好地克服了傳統(tǒng)方法的缺點(diǎn)。

    5 結(jié)語(yǔ)

    本文使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)裸眼三維圖像生成進(jìn)行了研究,通過(guò)輸入相應(yīng)的左視圖圖像進(jìn)行多層的訓(xùn)練得到特征圖,通過(guò)模擬DIBR得到相應(yīng)的右視圖。此方法相比傳統(tǒng)的三維生成方法,特征圖沒(méi)有背景空洞現(xiàn)象,準(zhǔn)確率高。在實(shí)驗(yàn)中使用的圖像都來(lái)自于靜止圖像,未考慮帶有時(shí)態(tài)信息的視頻,在普通二維視頻生成裸眼三維視頻的過(guò)程中,可通過(guò)時(shí)間信息來(lái)提高特征提取的性能,并結(jié)合該網(wǎng)絡(luò)對(duì)視頻進(jìn)行了研究,發(fā)現(xiàn)幾乎沒(méi)有定量性能的增益,且視頻的連貫性受到了影響,此問(wèn)題也是下一步需要對(duì)本文的設(shè)計(jì)需要進(jìn)行提高的一個(gè)研究方向。

    References)

    [1] 劉建偉,劉媛,羅雄麟.深度學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2014,31(7):1921-1930.(LIU J W, LIU Y, LUO X L. Research and development on deep learning [J]. Application Research of Computers, 2014, 31(7): 1921-1930.)

    [2] 趙天奇.裸眼3D內(nèi)容生成和顯示若干關(guān)鍵技術(shù)研究[D].北京:北京郵電大學(xué),2015:22-43.(ZHAO T Q. Research on key technologies of naked eye there-dimensional display and its content generation [D]. Beijing: Beijing University of Posts and Telecommunications, 2015: 22-43.)

    [3] 李博樂(lè).基于DIBR的裸眼3D顯示系統(tǒng)研究與實(shí)現(xiàn)[D].重慶:重慶大學(xué),2015:7-40.(LI B L. Research and implementation of glasses-free 3D display system based on DIBR [D]. Chongqing: Chongqing University, 2015: 7-40.)

    [4] 譚偉敏.裸眼3D顯示關(guān)鍵技術(shù)研究[D].重慶:重慶大學(xué),2014:32-43.(TAN W M. Research on key technologies of glasses-free 3D display [D]. Chongqing: Chongqing University, 2014: 32-42.)

    [5] 李彥冬,郝宗波,雷航.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用,2016,36(9):2508-2515.(LI Y D, HAO Z B, LEI H. Survey of convolutional neural network [J]. Journal of Computer Applications, 2016, 36(9): 2508-2515.)

    [6] 盧宏濤,張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理,2016,31(1):1-17(LU H T, ZHANG Q C. Application of deep convolutional neural network in computer vision [J]. Journal of Data Acquisition and Processing, 2016, 31(1): 1-17)

    [7] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search [J]. Nature, 2016, 529(7587): 484-489.

    [8] ZEILER M D, FERGUS R. Stochastic pooling for regularization of deep convolutional neural networks [EB/OL]. [2017- 01- 11]. http://www.matthrwzeiler.com/pubs/iclr2013/iclr2013.pdf.

    [9] MURPHY K P. Machine Learning: A Probabilistic Perspective [M]. Cambridge, MA: MIT Press, 2012: 82-92.

    [10] TATARCHENKO M, DOSOVITSKIY A, BROX T. Single-view to multi-view: reconstructing unseen views with a convolutional network [J]. Knowledge & Information Systems, 2015, 38(1): 231-257.

    [11] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 2758-2766.

    [12] RICHTER S R, VINEET V, ROTH S, et al. Playing for data: ground truth from computer games [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016: 102-118.

    [13] GEIGER A, LENZ P, STILLER C, et al. Vision meets robotics: the KITTI dataset [J]. International Journal of Robotics Research, 2013, 32(11): 1231-1237.

    [14] WANG C, YAN X, SMITH M, et al. A unified framework for automatic wound segmentation and analysis with deep convolutional neural networks [C]// EMBC 2015: Proceedings of the 37th Annual International Conference of the IEEE Engineering in Medicine and Biology Society. Piscataway, NJ: IEEE, 2015: 2415-2418.

    [15] HE K, ZHANG X, REN S, et al. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification [C]// Proceedings of the 2016 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2016: 1026-1034.

    [16] ATHEY S, IMBENS G. Machine learning methods for estimating heterogeneous causal effects [J]. Statistics, 2015, 113(27): 7353-7360.

    This work is partially supported by the Academy of Equipment School Level Basic Research Project (DXZT-JC-ZZ- 2013- 009).

    ZHUJunpeng, born in 1993, M. S. candidate. His research interests include information network security.

    ZHAOHongli, born in 1964, Ph. D., professor. His research interests include information network security.

    YANGHaitao, born in 1979, Ph. D., associate research fellow. His research interests include information network security.

    猜你喜歡
    視差視圖卷積
    基于自適應(yīng)窗的立體相機(jī)視差圖優(yōu)化方法研究
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于梯度域引導(dǎo)濾波的視差精煉迭代算法
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    5.3 視圖與投影
    視圖
    Y—20重型運(yùn)輸機(jī)多視圖
    SA2型76毫米車(chē)載高炮多視圖
    基于分割樹(shù)的視差圖修復(fù)算法研究
    綦江县| 沂源县| 武乡县| 伊春市| 上杭县| 治县。| 堆龙德庆县| 象山县| 夏邑县| 沧源| 嵊泗县| 彭泽县| 邵阳县| 多伦县| 桐柏县| 潮州市| 库尔勒市| 岚皋县| 盐池县| 始兴县| 当雄县| 达孜县| 余庆县| 湖北省| 岑巩县| 民勤县| 庆云县| 锦屏县| 青浦区| 商洛市| 密云县| 华蓥市| 仲巴县| 昌邑市| 定安县| 昌图县| 阳东县| 汪清县| 德庆县| 洪泽县| 光山县|