• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度學(xué)習(xí)的三維物體重建方法研究綜述

    2022-09-23 11:42:36路金曉柏基權(quán)范洪輝
    關(guān)鍵詞:體素三維重建視圖

    郁 錢(qián),路金曉,柏基權(quán),范洪輝

    (1.江蘇理工學(xué)院 計(jì)算機(jī)工程學(xué)院,江蘇 常州 213001;2.江蘇理工學(xué)院 機(jī)械工程學(xué)院,江蘇 常州 213001)

    從有限的輸入中重建三維物體是計(jì)算機(jī)視覺(jué)和計(jì)算機(jī)圖形學(xué)領(lǐng)域重要的研究課題。為了便于計(jì)算機(jī)處理,三維物體通常用一些方式來(lái)表征,主要包括點(diǎn)云、體素、隱域場(chǎng)和網(wǎng)格4種,其它的表征方式都可以等價(jià)為這4種。三維物體重建的方法可以分為基于多視圖幾何理論的方法[1]和基于學(xué)習(xí)方式的方法兩類?;诙嘁晥D幾何理論的方法一般需要輸入大量不同的視圖,才能重構(gòu)出物體的整體結(jié)構(gòu),但是不需要大量的數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,重建出的初步結(jié)果一般是點(diǎn)云。在實(shí)際環(huán)境下,視圖之間的匹配會(huì)受到光照等因素的嚴(yán)重影響,從而導(dǎo)致匹配不準(zhǔn)。此時(shí),基于多視圖幾何理論的三維重建方法便失效。基于學(xué)習(xí)方式的三維物體重建方法,可以輸出具有不同表征的重建結(jié)果,應(yīng)用面較廣。與基于多視圖幾何理論的方法相比,該方法可充分利用機(jī)器學(xué)習(xí)和推斷能力,從單張圖片或少量信息中推斷出物體的結(jié)構(gòu),但是需要大量的訓(xùn)練數(shù)據(jù)和運(yùn)算量。

    本文主要對(duì)基于深度學(xué)習(xí)的三維物體重建方法進(jìn)行了綜述。首先,描述了三維物體的主要表征形式,討論了基于多視圖幾何理論的三維物體重建方法和基于深度學(xué)習(xí)的三維物體重建方法,簡(jiǎn)要分析了兩種方法相結(jié)合的三維物體重建。其次,討論了利用深度學(xué)習(xí)方法進(jìn)行三維物體重建時(shí)的損失函數(shù)、網(wǎng)絡(luò)架構(gòu)和數(shù)據(jù)集。最后,探討了關(guān)于深度學(xué)習(xí)方法在三維物體重建運(yùn)用方面的研究趨勢(shì)。

    1 三維物體的表征方式

    三維物體的表征方式主要包括點(diǎn)云、體素、隱域場(chǎng)和網(wǎng)格等。點(diǎn)云由均勻分布在三維物體表面的點(diǎn)構(gòu)成,是表示三維物體最直接和便捷的方式;可通過(guò)激光雷達(dá)等設(shè)備掃描物體或在已有的三維模型上采樣獲取,因而也是最容易獲取的三維表征方式。但是,點(diǎn)云具有不規(guī)則性和離散性,存在點(diǎn)之間相鄰?fù)負(fù)潢P(guān)系缺失的問(wèn)題,因此還需在后處理步驟中將點(diǎn)云變成顯式的網(wǎng)格表示。

    為了獲取三維物體的三維體素表征,需要將三維物體所在的空間柵格化,柵格化得到的最小單元被稱為體素。如果體素落在物體內(nèi)部或者與物體表面相交,那么就是有效的,通常賦值為1,落在物體外部的為0。三維體素表征通常分為密集體素和稀疏體素。稀疏體素表征不能細(xì)致地刻畫(huà)三維物體,而密集體素表征則需要大量的存儲(chǔ)資源。

    隱域場(chǎng)是三維物體的一種隱式表征,表示空間中任何一點(diǎn)在物體的內(nèi)部還是外部,或者到物體表面的距離。隱域場(chǎng)也可以離散化為非二值的體素,用Marching Cubes[2]算法生成網(wǎng)格結(jié)構(gòu)。隱域場(chǎng)一般可由神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)和表示。

    三維物體的網(wǎng)格表征可看成是一個(gè)顯式的圖表示。相對(duì)于其它3種表征,網(wǎng)格的表征最逼真,也有利于三維物體的渲染。圖1展示了三維物體常見(jiàn)的表征方式。從表征角度看,三維物體重建就是實(shí)現(xiàn)從二維表征到三維表征,或者從一種三維表征到其他三維表征的過(guò)程。

    圖1 三維物體的常見(jiàn)表征方式

    2 三維物體重建的研究現(xiàn)狀

    2.1 基于多視圖幾何理論的重建方法

    基于多視圖幾何理論三維物體重建的代表性方法為SFM(Structure from Motion)和MVS(Multi View Stereo)。SFM是一類基于視圖的代表性稀疏重建方法[4-5],是指從不同視角拍攝的圖像中,利用多視圖幾何方法計(jì)算出攝像機(jī)的參數(shù),重建三維物體結(jié)構(gòu)的方法;其流程包括二維局部特征的匹配、攝像機(jī)參數(shù)和三維結(jié)構(gòu)信息的初始值計(jì)算、Bundle adjustment[6-7]及數(shù)據(jù)擬合。薛俊詩(shī)等人[8]提出的混合式SFM重建方法,首先對(duì)場(chǎng)景進(jìn)行聚類,接著重建每個(gè)子場(chǎng)景,最后將重建的子場(chǎng)景進(jìn)行組合。因?yàn)镾FM構(gòu)建的三維物體模型往往是稀疏的,所以需要利用MVS來(lái)建立三維物體的稠密模型。

    MVS是利用攝像機(jī)拍攝的圖像集合重建完整的3D物體稠密模型??娋热薣9]提出基于稀疏點(diǎn)云的分段平面場(chǎng)景MVS重建方法,能夠獲得物體的三維結(jié)構(gòu)。王偉等人[10]提出快速、魯棒的分段平面MVS重建算法?;诙嘁晥D幾何理論的三維物體重建方法的重要應(yīng)用之一是Visual SLAM(Simultaneous Localization and Mapping),SFM和MVS是其重要的三維重建方法[11]。

    在利用SFM重建三維物體形狀時(shí),二維局部特征的匹配是成敗的關(guān)鍵。實(shí)際情況下,由于不同視圖之間的重疊較小、物體紋理缺失或物體存在光照反射,因此二維局部特征的匹配往往會(huì)出現(xiàn)嚴(yán)重的錯(cuò)誤。另外,由于基于多視圖幾何理論的三維重建方法缺乏推斷的能力,不能解決輸入信息較少情況下三維物體結(jié)構(gòu)補(bǔ)全的問(wèn)題,而深度學(xué)習(xí)方法具有很好的學(xué)習(xí)和推斷能力,所以基于深度學(xué)習(xí)的三維重建方法越來(lái)越受到人們的關(guān)注。

    2.2 基于深度學(xué)習(xí)的重建方法

    2.2.1 基于點(diǎn)云的三維物體重建

    Fan等人[12]首次提出從單視圖到三維點(diǎn)云的重建方法,而不是直接生成三維結(jié)構(gòu)的體素和網(wǎng)格表征。該方法首次建立了復(fù)雜的三維點(diǎn)云生成網(wǎng)絡(luò)(Point Set Generation Network)。另外,為了解決單視圖三維重建的不適定問(wèn)題,該方法使用了變分自編碼器來(lái)生成可能的三維形狀。Yang等人[13]提出了FoldingNet,將二維單位元的網(wǎng)格點(diǎn)用兩段多層感知器進(jìn)行類似折疊的變換來(lái)生成點(diǎn)云;但是,F(xiàn)oldingNet的生成結(jié)果容易受到二維單位元網(wǎng)格點(diǎn)相鄰?fù)負(fù)潢P(guān)系的影響。Pang等人[14]提出了TearingNet,通過(guò)剪裁二維單位元的網(wǎng)格面,從而避免初始網(wǎng)格點(diǎn)的拓?fù)潢P(guān)系對(duì)生成點(diǎn)云的影響。為了能夠較好地生成三維點(diǎn)云,對(duì)抗損失也被引入到三維物體重建中。Achlioptas等人[15]首次將對(duì)抗生成網(wǎng)絡(luò)[16]引入到三維點(diǎn)云的生成和重建中。Jiang等人[17]提出了幾何對(duì)抗損失函數(shù),以保證重建的三維點(diǎn)云與真實(shí)物體保持一致。三維點(diǎn)云的補(bǔ)全也可以看成是基于點(diǎn)云的三維物體重建的特殊情況。Yu等人[18]首次將Transformer[19]應(yīng)用到三維點(diǎn)云的補(bǔ)全問(wèn)題中,取得了非常好的效果。

    三維形狀的點(diǎn)云表征與體素表征相比,需要的存儲(chǔ)資源少;與網(wǎng)格表征相比,不要考慮點(diǎn)之間的關(guān)系;與隱域場(chǎng)表征相比,不需要后繼顯式網(wǎng)格生成的步驟。因此,三維形狀的點(diǎn)云表征更加便捷,應(yīng)用場(chǎng)景也較多,比如自動(dòng)駕駛等。但是,三維物體的點(diǎn)云表征相對(duì)粗糙,點(diǎn)與點(diǎn)之間的真實(shí)相鄰關(guān)系很難確定,在點(diǎn)數(shù)不夠多的情況下,物體的細(xì)節(jié)信息也很難被表達(dá)出來(lái)。因此,如何有效保持點(diǎn)云重建的細(xì)節(jié)信息和點(diǎn)之間的相鄰?fù)負(fù)潢P(guān)系,是值得探索和研究的問(wèn)題。

    2.2.2 基于體素的三維物體重建

    Yan等人[20]提出無(wú)監(jiān)督的三維體素重建方法,能夠?qū)崿F(xiàn)輸入二維圖像,輸出其某個(gè)視角三維結(jié)構(gòu)的投影,再通過(guò)加入輸入、輸出相等的約束,預(yù)測(cè)出物體的三維體素結(jié)構(gòu)。Tulsiani[21]提出類似的方法,利用多視圖約束實(shí)現(xiàn)三維體素的重建。Yang等人[22]提出半監(jiān)督的單視圖三維體素重建方法,對(duì)輸入的圖像加入了有限的姿勢(shì)信息后,三維形狀重建的精度得到進(jìn)一步提升。

    一般情況下,單視圖的三維重建存在形狀先驗(yàn)信息的不確定性,很難得到較好的物體結(jié)構(gòu),因此學(xué)者們嘗試將單視圖和多視圖的三維重建統(tǒng)一到一個(gè)方法框架中。Kar等人[23]提出多視圖立體視覺(jué)機(jī)器,提升了方法重建物體細(xì)節(jié)的能力。Choy等人[24]利用三維遞歸神經(jīng)網(wǎng)絡(luò)處理視圖序列,從而得到三維物體的體素。H?ne等人[25]提出層次化的曲面重建方法,能夠得到更高分辨率的體素表達(dá)。

    為了能夠在有限的體素下實(shí)現(xiàn)高精準(zhǔn)的三維物體重建,研究者引入了新的技術(shù)。Wu等人[26]用對(duì)抗生成網(wǎng)絡(luò)將形狀先驗(yàn)信息加入三維物體的體素生成過(guò)程,很好地解決了基于單視圖三維體素重建的不適定問(wèn)題。Ma等人[27]提出分離通道時(shí)空卷積網(wǎng)絡(luò),并首次將注意力機(jī)制引入到三維體素的重建中。Yang等人[28]提出基于記憶機(jī)制的三維體素重建方法。該方法首先預(yù)存儲(chǔ)三維體素的特征;然后,找到與輸入圖像相似的體素特征并將其輸入到長(zhǎng)短記憶網(wǎng)絡(luò),得到融合后的特征;最后,利用該特征解碼出物體的三維體素結(jié)構(gòu)。這種基于記憶的方法充分利用了已有三維物體的體素信息來(lái)優(yōu)化重建,但是當(dāng)三維體素的分辨率升高時(shí),該方法同樣面臨著存儲(chǔ)資源消耗巨大的問(wèn)題。

    雖然以上方法能夠利用輸入的信息重建與之對(duì)應(yīng)的三維物體體素結(jié)構(gòu),但是受到三維體素分辨率的限制,重建結(jié)果存在細(xì)節(jié)信息缺失嚴(yán)重、分辨率較低的問(wèn)題。

    2.2.3 基于隱域場(chǎng)的三維物體重建

    OccNet[29]是一種占有網(wǎng)絡(luò),用其表示三維物體的隱域場(chǎng)時(shí),它的一個(gè)等值面可看作物體的表面。在該方法中,首先提取輸入信息的特征表示,然后將空間中的任意一點(diǎn)和輸入特征拼接后,輸入由多個(gè)全連接殘差網(wǎng)絡(luò)構(gòu)成的占有網(wǎng)絡(luò)中,計(jì)算出輸入點(diǎn)是在物體的表面還是其外部。與OccNet類似,IM-NET[30]是一個(gè)跨連接的多層感知器,可用來(lái)學(xué)習(xí)任意一個(gè)空間點(diǎn)隱域場(chǎng)的值,因此OccNet和IM-NET被看作是一個(gè)二分類器。

    為了使傳統(tǒng)的模型也能夠?qū)崿F(xiàn)三維物體的重建,學(xué)者們提出了Deep level sets[31]和deep marching cubes[32]等方法。這些方法能夠很好地建模三維物體的隱域場(chǎng),但是利用輸入的局部信息對(duì)重建結(jié)果的優(yōu)化卻不夠。為此,ConvOccNet[33]和IFNet[34]被提了出來(lái)。在這兩個(gè)模型里,首先建立一個(gè)特征空間,然后在檢索點(diǎn)位置提取該點(diǎn)的局部特征,最后將這些特征信息輸入神經(jīng)網(wǎng)絡(luò),用于隱域場(chǎng)的學(xué)習(xí)和重建。當(dāng)輸入信息是二維圖像時(shí),要有效提取檢索點(diǎn)的局部特征并用于計(jì)算檢索點(diǎn)隱域場(chǎng)的值,是一個(gè)非常困難的問(wèn)題。Xu等人[35]將已有的攝像機(jī)參數(shù)作為一部分訓(xùn)練信息,訓(xùn)練一個(gè)計(jì)算攝像機(jī)矩陣的網(wǎng)絡(luò);用訓(xùn)練后的矩陣對(duì)檢索點(diǎn)進(jìn)行變換,將變換后的檢索點(diǎn)所對(duì)應(yīng)的各層卷積特征全部提取出來(lái)作為檢索點(diǎn)的特征。Remelli等人[36]和Lin等人[37]充分利用物體的輪廓信息來(lái)優(yōu)化重建的隱域場(chǎng),取得了很好的重建效果。

    以上方法都是將物體的曲面看作等值面,因此重建的物體模型在細(xì)節(jié)方面可能存在不足。Liu等人[38]首次將八叉樹(shù)神經(jīng)網(wǎng)絡(luò)O-CNN和滑動(dòng)最小二乘(Moving least-squares)結(jié)合起來(lái),提出了IMLSNet[39]。該網(wǎng)絡(luò)用O-CNN提取葉子節(jié)點(diǎn)的信息,用滑動(dòng)最小二乘模型擬合三維物體曲面,在O-CNN足夠深的情況下,能夠重建出更加平滑和細(xì)節(jié)較好的物體表面。為了使隱域場(chǎng)模型能夠適用于非剛性物體及場(chǎng)景的重建,人們提出了各種局部隱域場(chǎng)模型[40-42]。另外,Mildenhall[43]提出的神經(jīng)輻射場(chǎng)NRF(Neural Radiance Fields)可用于三維物體的視圖合成,也可以認(rèn)為是一種更加復(fù)雜的隱域場(chǎng)。

    2.2.4 基于網(wǎng)格的三維物體重建

    如果增加三維體素的分辨率,三維形狀的體素表征則會(huì)消耗大量的存儲(chǔ)資源和處理時(shí)間,而點(diǎn)云和隱域場(chǎng)表征最終都要轉(zhuǎn)化為網(wǎng)格結(jié)構(gòu),才能表示物體的表面結(jié)構(gòu)。三維形狀的網(wǎng)格表征不僅能和紋理結(jié)合表示真實(shí)物體的表面結(jié)構(gòu),而且能極大降低對(duì)存儲(chǔ)資源的需求,加快三維形狀的處理速度,因此基于網(wǎng)格的三維物體重建就成為了研究的熱點(diǎn)。Kar等人[44]首次基于學(xué)習(xí)的方法在單視圖三維重建方面取得進(jìn)展,但是輸出的三維網(wǎng)格結(jié)構(gòu)比較粗糙。Kato等人[45]提出從視覺(jué)圖像到三維網(wǎng)格的神經(jīng)網(wǎng)絡(luò)渲染器(Neural 3D Mesh Renderer),從一個(gè)具有642點(diǎn)的球面網(wǎng)格開(kāi)始,通過(guò)不斷的迭代改變網(wǎng)格上每個(gè)點(diǎn)的位置,使最終的網(wǎng)格趨向于物體的結(jié)構(gòu)。在迭代過(guò)程中,生成的網(wǎng)格被渲染到圖像上,與真實(shí)的渲染圖像作對(duì)比,使渲染后的圖像盡量與真實(shí)圖像一致。Wang等人[46]提出一種迭代模型Pixel2Mesh,從具有156點(diǎn)的球面網(wǎng)格開(kāi)始,利用圖卷積網(wǎng)絡(luò)和感知特征池化技術(shù)計(jì)算出每個(gè)點(diǎn)的新特征和位置,并且使用反池化技術(shù)不斷提高網(wǎng)格的頂點(diǎn)數(shù),取得了很好的重建效果。Wang等人[47]還提出一種類似三維形變的網(wǎng)絡(luò),能夠從任意網(wǎng)絡(luò)出發(fā),通過(guò)不斷形變生成目標(biāo)網(wǎng)格。

    如果重建的物體與初始網(wǎng)格具有相同的拓?fù)浣Y(jié)構(gòu),那么通過(guò)以上迭代方法生成的重建結(jié)果將具有較高的精度。但是,大多物體的拓?fù)浣Y(jié)構(gòu)與初始網(wǎng)格不一樣,在這種情況下,基于網(wǎng)格的三維物體重建在細(xì)節(jié)信息方面將可能發(fā)生嚴(yán)重的錯(cuò)誤。因此,在基于網(wǎng)格的三維重建中,如何使網(wǎng)格的拓?fù)浣Y(jié)構(gòu)具有自適應(yīng)能力,就成為一個(gè)值得研究的問(wèn)題。為了解決網(wǎng)格重建中的拓?fù)渥兓?,Groueix等人[48]提出了AtlasNet。該網(wǎng)絡(luò)由若干個(gè)多層感知器構(gòu)成,每個(gè)多層感知器負(fù)責(zé)生成三維形狀的一部分點(diǎn)云結(jié)構(gòu)。從實(shí)驗(yàn)結(jié)果看,AtlasNet取得了很好的點(diǎn)云和網(wǎng)格重建效果。但是,Atlas-Net中的多層感知器對(duì)應(yīng)的生成區(qū)域具有不確定性,并且生成的網(wǎng)格塊與塊之間存在不連續(xù)性。

    2.2.5 深度學(xué)習(xí)與多視圖幾何相結(jié)合的方法

    深度學(xué)習(xí)和多視圖方法結(jié)合起來(lái)進(jìn)行三維重建的主要途徑有兩種:(1)用深度學(xué)習(xí)對(duì)基于多視圖幾何的三維重建算法中的深度圖進(jìn)行計(jì)算[49-51];(2)用深度學(xué)習(xí)實(shí)現(xiàn)端到端的多視圖三維物體重建。基于神經(jīng)網(wǎng)絡(luò)端到端的MVS系統(tǒng)結(jié)合深度學(xué)習(xí),可以得到MVS的深度信息[49-51]。Wen等人[52]提出的Pixel2Mesh++可完全替代SFM和MVS的過(guò)程。與傳統(tǒng)方法相比,深度學(xué)習(xí)和多視圖幾何方法的結(jié)合使得深度圖的計(jì)算更加方便,準(zhǔn)確度也更高,且具有一定的推斷能力,但是該方法同樣需要輸入大量的視圖。

    2.2.6 基于深度學(xué)習(xí)三維物體重建的網(wǎng)絡(luò)架構(gòu)

    多層感知器(Multi-layer Perceptron,MLP)是用于三維物體重建的最主要神經(jīng)網(wǎng)絡(luò),代表性網(wǎng)絡(luò)包括點(diǎn)云生成的FoldingNet[3]、隱域場(chǎng)生成的IM-NET[30]和DeepSDF[53],以及網(wǎng)格生成的Atlas-Net[48]。其它一些模型也是基于多層感知器設(shè)計(jì)而來(lái),例如提取點(diǎn)云特征的PointNet[54],以及具有反饋機(jī)制的TearingnNet[14]。循環(huán)神經(jīng)網(wǎng)絡(luò)也被用來(lái)進(jìn)行三維體素的重建[23]和結(jié)構(gòu)化的分析[55]。卷積神經(jīng)網(wǎng)絡(luò),如AlexNet[56]、VGGNet[57]、GoogleNet[58]、ResNet[59],一般用于提取輸入圖像和視頻的特征?;诰矸e操作設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模塊也被運(yùn)用到三維物體的重建中,例如卷積神經(jīng)網(wǎng)絡(luò)循環(huán)單元[23]和用于三維點(diǎn)云特征提取的八叉樹(shù)卷積網(wǎng)絡(luò)[38]。圖卷積神經(jīng)網(wǎng)絡(luò)[60-61]首次被應(yīng)用到Pixel2Mesh[46]中,以實(shí)現(xiàn)對(duì)網(wǎng)格的漸進(jìn)改變。

    2.2.7 基于深度學(xué)習(xí)三維物體重建的損失函數(shù)

    神經(jīng)網(wǎng)絡(luò)的訓(xùn)練離不開(kāi)損失函數(shù),訓(xùn)練的過(guò)程就是最小化損失函數(shù)的過(guò)程。損失函數(shù)表示重建的三維物體與真實(shí)物體的差異。目前,用于三維物體重建的損失函數(shù)主要分為以下三類:

    (1)點(diǎn)云距離損失。當(dāng)用點(diǎn)云表示三維物體時(shí),常 用 搬 土 距 離(Earth Mover’s Distance,EMD)[12]和倒角距離(Chamfer Distance,CD)[12]作為損失函數(shù)。EMD指兩個(gè)集合點(diǎn)與點(diǎn)距離之和的最小值。CD指重建點(diǎn)云與真實(shí)點(diǎn)云點(diǎn)與點(diǎn)最近距離的平均值。

    (2)對(duì)抗損失。對(duì)抗損失主要包括生成損失和判別損失兩個(gè)部分。生成損失可以使生成的三維物體和真實(shí)的三維物體盡可能相似,而判別損失的作用恰恰相反。

    (3)其它損失。為了進(jìn)一步提升三維物體重建的精度,Jin等人[62]提出了一種可微分的視覺(jué)相似度量損失函數(shù)(DR-KFS),從各個(gè)視角保證生成物體與真實(shí)物體的一致性。

    3 3D數(shù)據(jù)集的概況

    三維物體的信息很難獲取,因此能夠被用于三維重建的數(shù)據(jù)集并不是很多。常見(jiàn)3D數(shù)據(jù)集如表1所示,其中ShapeNet[56]和PartNet[58]常用于三維重建,ModelNet[57]常用于三維物體分類。

    表1 常見(jiàn)3D數(shù)據(jù)集的主要特征

    ShapeNet[63]數(shù)據(jù)集由物體的三維CAD模型組成,是目前為止包含豐富注釋的最大三維模型數(shù)據(jù)集。它包含超過(guò)300萬(wàn)個(gè)模型,其中22萬(wàn)個(gè)模型被歸為3 135個(gè)類別。ModelNet[64]數(shù)據(jù)集是當(dāng)前規(guī)模較大、模型類別較多的一個(gè)大型CAD數(shù)據(jù)集,收集了各類3D CAD網(wǎng)站的660類共計(jì)151 125個(gè)CAD模 型。Mo等人[65]提出 的PartNet數(shù)據(jù) 集 是 一個(gè)一致的、大規(guī)模的3D物體數(shù)據(jù)集,使用了細(xì)粒度、實(shí)例級(jí)和層次化的3D零件信息進(jìn)行注釋。該數(shù)據(jù)集由573 585個(gè)零件實(shí)例和26 671個(gè)3D模型組成,涵蓋了24個(gè)類別。IKEA[66]數(shù)據(jù)集包括從Flickr網(wǎng)站收集的代表典型室內(nèi)場(chǎng)景的圖像和從谷歌3D倉(cāng)庫(kù)收集的3D模型,提供了800張圖像和225個(gè)3D模型,用90個(gè)不同的3D模型對(duì)800張圖像進(jìn)行了充分的注釋。Pix3D[67]是一個(gè)大規(guī)模數(shù)據(jù)集,包含真實(shí)圖像和具有精確2D-3D對(duì)齊的真實(shí)形狀;包括9個(gè)類別395個(gè)3D形狀,每個(gè)形狀都與一組在不同環(huán)境中拍攝的精確物體的圖像關(guān)聯(lián)。PASCAL 3D+[68]是基于PASCAL VOC2012[69]的12種剛體類別生成的三維物體數(shù)據(jù)集,每類平均有3 000個(gè)左右的物體實(shí)例。該數(shù)據(jù)集主要用于三維物體的檢測(cè)和姿勢(shì)估計(jì),也可用于三維物體的重建。

    4 三維物體重建的研究趨勢(shì)

    4.1 非剛性物體的重建

    近年來(lái),深度學(xué)習(xí)技術(shù)開(kāi)始應(yīng)用于非剛性物體的重建。Kokkinos等人[70]基于非剛性物體SFM[71]來(lái)自我監(jiān)督單目三維類別的重建,通過(guò)運(yùn)動(dòng)的循環(huán)損失強(qiáng)制三維重建的一致性。Yang等人[72]提出從單目視頻中進(jìn)行關(guān)節(jié)形狀重建的方法,不需要先驗(yàn)?zāi)0寤蝾悇e信息,可利用密集的兩幀光流來(lái)克服非剛性結(jié)構(gòu)和運(yùn)動(dòng)估計(jì)問(wèn)題中的固有模糊性。相比其它非剛性物體,人體的重建具有更大的實(shí)用價(jià)值。Yang等人[73]將行人的形狀、姿勢(shì)等表示為直接從數(shù)據(jù)中學(xué)習(xí)的神經(jīng)隱函數(shù),無(wú)需擬合人體參數(shù)身體模型,就能夠處理行人的各種形狀和姿勢(shì)。該方法能夠處理更廣泛的人體幾何形狀和拓?fù)浣Y(jié)構(gòu)。Wan等人[74]提出的基于視頻3D人體形狀和姿勢(shì)估計(jì)的多級(jí)注意力編碼器-解碼器網(wǎng)絡(luò),包括一個(gè)時(shí)空編碼器和一個(gè)運(yùn)動(dòng)拓?fù)浣獯a器,在一個(gè)統(tǒng)一的框架中對(duì)多級(jí)注意力進(jìn)行建模。

    4.2 真實(shí)感物體的重建

    對(duì)現(xiàn)實(shí)中的物體或場(chǎng)景進(jìn)行三維重建已廣泛應(yīng)用于虛擬現(xiàn)實(shí)、文物保護(hù)、醫(yī)療診斷、自動(dòng)駕駛等領(lǐng)域。這些重建不僅要得到物體和場(chǎng)景的形狀信息,更需要獲得包括紋理在內(nèi)的真實(shí)感信息。在最近的研究中,Zhang等人[75]認(rèn)為現(xiàn)實(shí)世界絕大多數(shù)場(chǎng)景都是由定義明確的表面組成,因此引入基于神經(jīng)輻射場(chǎng)的隱式模型來(lái)模擬表面,通過(guò)學(xué)習(xí)與球體微分同胚的封閉表面神經(jīng)形狀表示,就能保證重建的質(zhì)量。Henderson等人[76]提出的紋理3D網(wǎng)格生成模型允許在沒(méi)有任何3D信息的情況下從2D圖像集合中重建具有真實(shí)感的物體。Reizenstein等人[77]提出的“3D通用對(duì)象”大規(guī)模數(shù)據(jù)集包含了真實(shí)的多視圖圖像,并用相機(jī)姿勢(shì)和地面實(shí)況的3D點(diǎn)云注釋;同時(shí),也提出了一種新穎的神經(jīng)渲染方法,可利用強(qiáng)大的Transformer模型,在給定少量視圖的情況下重建對(duì)象。

    4.3 結(jié)構(gòu)化重建

    為了重建出更加精細(xì)的三維物體,并學(xué)習(xí)到三維物體中的部分語(yǔ)義信息,一些結(jié)構(gòu)化重建方法被人們提出。Deng等人[78]采用一種近似幾何的方法,將三維物體看作一組凸多邊形組合,并引入網(wǎng)絡(luò)結(jié)構(gòu)來(lái)表示。Paschalidou等人[79]提出可同時(shí)重建三維物體幾何形狀和潛在層次結(jié)構(gòu)的方法。Mezghanni等人[80]在幾何或視覺(jué)合理性的基礎(chǔ)上,考慮了物理或結(jié)構(gòu)的約束,引入一個(gè)學(xué)習(xí)框架和一個(gè)損失框架,以保證生成物體的連接性和物理穩(wěn)定性。Mo等人[81]通過(guò)符號(hào)部分樹(shù)來(lái)表示并生成三維點(diǎn)云幾何形狀。Wu等人[55]通過(guò)順序零件裝配模型和PQ-NET自動(dòng)編碼器,將零件特征序列編碼成一個(gè)潛在的、固定大小的特征向量,解碼器再利用該向量重建出三維零件形狀序列,最后將這些序列組裝成一個(gè)完整的三維物體。目前,結(jié)構(gòu)化三維重建面臨的問(wèn)題是缺乏大量的標(biāo)注數(shù)據(jù),解決這個(gè)問(wèn)題的可能方法是將分離表征[82]和結(jié)構(gòu)化三維重建相結(jié)合。

    4.4 基于無(wú)監(jiān)督學(xué)習(xí)的重建

    由于三維監(jiān)督信息的獲取昂貴、費(fèi)時(shí),因此一些人致力于通過(guò)無(wú)監(jiān)督學(xué)習(xí)來(lái)進(jìn)行三維物體的重建。Wu等人[83]提出無(wú)監(jiān)督單視圖的學(xué)習(xí)方法,首先利用自編碼器將輸入圖像分解為深度、反照率、視點(diǎn)和光照,然后利用物體對(duì)稱的假設(shè),通過(guò)預(yù)測(cè)對(duì)稱概率圖來(lái)完成對(duì)物體的建模。該方法可從單視圖中精確地重建出人臉、貓臉和汽車的三維形狀,但是只適用于對(duì)稱物體。Ho等人[84]提出了不受對(duì)稱性約束的無(wú)監(jiān)督方法,可用于更多物體的三維重建,而且采用了一種新的反照率損失,以改善重建的細(xì)節(jié)和真實(shí)性。此外,Pan等人[85]嘗試通過(guò)迭代策略,利用GAN圖像流形中不同視角和照明變化的信息,以無(wú)監(jiān)督的方式從單個(gè)二維圖像中恢復(fù)人臉、汽車和建筑等的高精度三維形狀。目前,自監(jiān)督學(xué)習(xí)已經(jīng)在傳統(tǒng)的計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理中取得了出色成績(jī)[86],它是無(wú)監(jiān)督學(xué)習(xí)的一類重要方式。如何將自監(jiān)督學(xué)習(xí)應(yīng)用到三維重建并提高重建質(zhì)量,將是一個(gè)非常值得研究的問(wèn)題。

    5 總結(jié)

    本文根據(jù)三維物體表征方式的不同,對(duì)基于深度學(xué)習(xí)的三維物體重建方法進(jìn)行了分類綜述,分析了已有方法的特點(diǎn)及不足,凝練了四種重要的研究趨勢(shì)。值得注意的是,一些與三維物體重建相關(guān)的重要問(wèn)題,如三維數(shù)據(jù)的補(bǔ)全和采樣、三維重建質(zhì)量的評(píng)判、基于遷移學(xué)習(xí)的三維重建、三維場(chǎng)景重建、三維物體和場(chǎng)景的理解等,同樣值得深入研究。

    猜你喜歡
    體素三維重建視圖
    基于超體素聚合的流式細(xì)胞術(shù)自動(dòng)門(mén)控方法
    基于多級(jí)細(xì)分的彩色模型表面體素化算法
    運(yùn)用邊界狀態(tài)約束的表面體素加密細(xì)分算法
    基于Mimics的CT三維重建應(yīng)用分析
    軟件(2020年3期)2020-04-20 00:56:34
    基于體素格尺度不變特征變換的快速點(diǎn)云配準(zhǔn)方法
    5.3 視圖與投影
    視圖
    Y—20重型運(yùn)輸機(jī)多視圖
    SA2型76毫米車載高炮多視圖
    基于關(guān)系圖的無(wú)人機(jī)影像三維重建
    溧阳市| 井冈山市| 吉林市| 博客| 庆安县| 腾冲县| 麻江县| 东乡| 辽阳市| 泰顺县| 内黄县| 繁昌县| 炉霍县| 嘉祥县| 松滋市| 永福县| 河池市| 霍城县| 临夏县| 贡觉县| 永州市| 淄博市| 上杭县| 泰来县| 昌黎县| 普定县| 义乌市| 河北区| 宜川县| 修水县| 车致| 达孜县| 济宁市| 江口县| 海原县| 淄博市| 平远县| 北川| 正阳县| 山丹县| 云和县|