李喬
?
由單視場(chǎng)到立體圖像的轉(zhuǎn)換技術(shù)研究
李喬
國(guó)家知識(shí)產(chǎn)權(quán)局專(zhuān)利局專(zhuān)利審查協(xié)作河南中心,河南 鄭州 450001
由于由單視場(chǎng)到立體圖像轉(zhuǎn)換的重要性,對(duì)單視場(chǎng)到立體圖像轉(zhuǎn)換的概念、意義、主要技術(shù)及其演變歷程進(jìn)行研究和分析,為以后的研究打下堅(jiān)實(shí)的基礎(chǔ)。
單視場(chǎng);立體圖像;深度;視差;語(yǔ)義;關(guān)鍵幀
2D/3D轉(zhuǎn)換的基本原理是利用了立體視覺(jué)原理。人用肉眼觀察景物時(shí),根據(jù)近大遠(yuǎn)小、光線明暗、景物遮擋等因素產(chǎn)生空間感。人的左右眼看同樣景物,因兩眼所見(jiàn)角度不同,在視網(wǎng)膜上形成的像也不完全相同,這種左右觀察的差異就是通常所說(shuō)的雙目視差。左右眼圖像經(jīng)過(guò)大腦復(fù)現(xiàn)成3D心理圖像后,就能區(qū)分物體的上下、左右、前后和遠(yuǎn)近,從而產(chǎn)生立體視覺(jué)[1]。
3D技術(shù)除了可以用于娛樂(lè)方面,在軍事、醫(yī)療、工業(yè)生產(chǎn)等方面也都廣泛應(yīng)用。在工業(yè)生產(chǎn)上,三星、菲利普等公司推出了多款3D顯示器,也提出了多種3D顯示方法;在軍事方面,可利用3D技術(shù)模擬虛擬戰(zhàn)場(chǎng);在醫(yī)療方面,可借助3D技術(shù)幫助診斷病灶等。因此3D技術(shù)已經(jīng)深入我們的生活,并在我們的生活中起到不可或缺的作用。因此2D轉(zhuǎn)3D技術(shù)的研究具有非常重要的意義[2]。
2.1 目前3D視頻節(jié)目的主要方式
在實(shí)際應(yīng)用中,雖然3D顯示技術(shù)已經(jīng)成熟,具備走進(jìn)百姓生活的條件,但是現(xiàn)有的3D視頻素材較少,3D視頻節(jié)目源的數(shù)量嚴(yán)重不足。目前制作 3D 視頻節(jié)目主要有以下幾種方式:(1)使用多目或雙目立體攝像機(jī)拍攝 3D 視頻。它將多個(gè)攝像機(jī)按照人眼兩瞳孔之間的距離(約 64mm)排列,分別模擬人眼的瞳距和角度進(jìn)行拍攝,從而得到不同角度的左眼視差圖,合成3D視頻。事實(shí)上,目前人們收看的絕大多數(shù)3D視頻節(jié)目都是使用這種方式拍攝制作的。(2)使用單路普通攝像機(jī)和深度攝像機(jī)相結(jié)合的方式拍攝 3D 視頻。它在使用單路攝像機(jī)采集普2D視頻的同時(shí),使用深度攝像機(jī)同步采集2D視頻場(chǎng)景對(duì)應(yīng)的深度數(shù)據(jù),根據(jù)視頻場(chǎng)景對(duì)應(yīng)的深度信息生成左右眼的視差圖,合成3D視頻。(3)對(duì)現(xiàn)有的2D視頻進(jìn)行深度估計(jì)轉(zhuǎn)換為3D視頻。它利用2D視頻圖像中蘊(yùn)含的景物大小、遮擋等深度感知線索,估計(jì)視頻場(chǎng)景中各個(gè)景物之間的相對(duì)位置關(guān)系,得到2D視頻圖像對(duì)應(yīng)的深度圖,從而合成3D視頻[3]。
2.2 3D 視頻轉(zhuǎn)換技術(shù)的發(fā)展歷程
2.2.1 萌芽期
最初的3D視頻轉(zhuǎn)換技術(shù)是根據(jù)立體幾何學(xué)的原理,從2D視頻中重建整個(gè)場(chǎng)景的3D模型,從而得到3D視頻。然而利用立體幾何學(xué)進(jìn)行2D轉(zhuǎn)3D時(shí),往往很難獲得現(xiàn)實(shí)場(chǎng)景的三維模型。
2.2.2 發(fā)展期
1994年,人們不滿足于此種單一的方法,提出了采用了雙目立體技術(shù)的渲染,它十分類(lèi)似于傳統(tǒng)的3D電影的渲染方式,通過(guò)采用某種方法從單一的視頻幀中直接重建出具有視差的左右眼圖像對(duì)。隨之掀起了對(duì)雙目立體技術(shù)的渲染技術(shù)的研究。
雖然基于雙目立體技術(shù)的渲染在3D電影中居于主流,但為了實(shí)現(xiàn)高效的壓縮傳輸效率以及與不同設(shè)備的兼容性,1996年,人們提出了另一類(lèi)2D轉(zhuǎn)3D技術(shù)——基于深度圖的渲染。具體算法流程如圖1所示:
圖1 具體算法流程圖
由于這兩種主流算法的關(guān)鍵在于提取深度線索,因此在這兩種主流算法的基礎(chǔ)上,在1996到2008年間,人們紛紛探索研究提取何種深度線索來(lái)提高3D觀看的體驗(yàn)性,于是各種深度線索,如邊緣、運(yùn)動(dòng)、色度、灰度值、對(duì)比度、紋理、亮度、聚焦特性等都被應(yīng)用于深度線索的提取中。
接著研究者們?cè)?009年提出了基于語(yǔ)義計(jì)算深度的方法,它首先人工對(duì)圖像進(jìn)行分類(lèi),將圖像分為室外、室內(nèi)、肖像等不同的類(lèi)別,然后將圖像分為若干區(qū)域,讓用戶(hù)從一組預(yù)先設(shè)定好的分類(lèi)標(biāo)簽中標(biāo)志各個(gè)區(qū)域的特性,如天空、大地、建筑物等,最后根據(jù)景物之間的構(gòu)圖關(guān)系按照特定的規(guī)則估計(jì)圖像的深度信息。
2.3 2D/3D高級(jí)轉(zhuǎn)換技術(shù)
隨著2D轉(zhuǎn)3D技術(shù)的高速發(fā)展,學(xué)者們已經(jīng)在生理學(xué)、心理學(xué)、神經(jīng)科學(xué)和計(jì)算機(jī)視覺(jué)等領(lǐng)域進(jìn)行了長(zhǎng)期的研究。根據(jù)觀眾在收看電視節(jié)目時(shí)的認(rèn)知心理,觀眾的注意力主要集中在視頻描述的核心景物上,它們一般位于視頻場(chǎng)景的中央、面積較大并與周?chē)尘皩?duì)比鮮明或者具有明顯的運(yùn)動(dòng)特征等;反之,對(duì)于其他屬于背景的景物,人腦在處理眼睛捕獲的視頻信息時(shí),會(huì)自動(dòng)將其弱化。因此,在對(duì)2D視頻進(jìn)行深度估計(jì)時(shí),無(wú)需費(fèi)時(shí)費(fèi)力地利用各種方法恢復(fù)整個(gè)場(chǎng)景的深度信息,只需要著重處理觀眾感興趣的視頻前景即可。使用基于視覺(jué)感知原理的2D轉(zhuǎn)3D方法時(shí),首先需要將2D視頻分割為觀眾感興趣的視頻前景和不關(guān)注的背景場(chǎng)景分別進(jìn)行處理。通常情況下,使用視頻運(yùn)動(dòng)前景檢測(cè)和視覺(jué)注意力模型來(lái)分析提取視頻中運(yùn)動(dòng)的、顏色鮮艷的、觀眾感興趣的前景目標(biāo)。
隨著單視場(chǎng)到立體圖像轉(zhuǎn)換技術(shù)不斷發(fā)展,對(duì)各種由單視場(chǎng)到立體圖像轉(zhuǎn)換技術(shù)進(jìn)行研究和分析,詳細(xì)闡述了由單視場(chǎng)到立體圖像轉(zhuǎn)換技術(shù)的演變過(guò)程,為研究由單視場(chǎng)到立體圖像轉(zhuǎn)換技術(shù)的學(xué)者提供更好的技術(shù)支持以及研究建議。
[1]楊博文,張麗艷,葉南,等.面向大視場(chǎng)視覺(jué)測(cè)量的攝像機(jī)標(biāo)定技術(shù)[J].光學(xué)學(xué)報(bào),2012(9):159-167.
[2]單潔,唐垚,邵朝,等.一種改進(jìn)的立體圖像實(shí)時(shí)相位匹配算法[J].西安郵電大學(xué)學(xué)報(bào),2014(4):21-25.
[3]Fiorucci,基于航空和衛(wèi)星圖像的季節(jié)性滑坡填圖與滑坡活動(dòng)性評(píng)估[J].水文地質(zhì)工程地質(zhì)技術(shù)方法動(dòng)態(tài),2011(5):72-84.
TP391.41
A
1009-6434(2016)02-0044-01