李明陽,陳 偉+,王珊珊,黎 捷,田子建,張 帆
1.中國礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州221116
2.中國礦業(yè)大學(xué) 礦山數(shù)字化教育部工程研究中心,江蘇 徐州221116
3.中國礦業(yè)大學(xué)(北京)機(jī)電與信息工程學(xué)院,北京100083
三維數(shù)字內(nèi)容是虛擬仿真、混合現(xiàn)實(shí)等的基本構(gòu)成要素[1]。三維重建作為計(jì)算機(jī)圖形學(xué)的基本問題,在近些年逐漸結(jié)合計(jì)算機(jī)視覺深度學(xué)習(xí)技術(shù)后又得到長(zhǎng)足的發(fā)展。在基于視覺進(jìn)行三維重建前,傳統(tǒng)三維重建利用傳統(tǒng)測(cè)量工具和方法對(duì)待測(cè)物體逐一進(jìn)行測(cè)量,操作困難、繁瑣。
得益于光電技術(shù)的發(fā)展,主動(dòng)式感知技術(shù)進(jìn)行三維重建的方法取得一些突破[2]。在采集三維圖像結(jié)構(gòu)過程中和場(chǎng)景發(fā)生互動(dòng),比較常用的兩個(gè)方法是結(jié)構(gòu)光和激光掃描。結(jié)構(gòu)光指設(shè)備會(huì)主動(dòng)發(fā)出一種提前編輯好的固定的光波,這個(gè)光波會(huì)因?yàn)橐恍┪矬w表面深度的不同而發(fā)生扭曲,通過分析這些光的形變就可以得到物體的表面幾何結(jié)構(gòu)。如Kinect儀器和iPhone 手機(jī)用的就是結(jié)構(gòu)光的技術(shù)。激光掃描是大家比較熟悉的技術(shù),在自動(dòng)駕駛中應(yīng)用激光掃描方式比較多。它的原理就是發(fā)生一束和多束激光,然后通過計(jì)算激光發(fā)射和回收的時(shí)間差,可以知道與反射點(diǎn)的距離。
由于三維激光掃描儀的價(jià)格十分昂貴,Garcia 利用結(jié)構(gòu)光進(jìn)行三維重建[3],但是得到準(zhǔn)確的深度圖依舊是十分困難和復(fù)雜的一項(xiàng)工作。相比起來,通過視覺方法重建獲取目標(biāo)三維數(shù)據(jù),再根據(jù)實(shí)際需要解算、提取所需信息會(huì)更加便捷與可靠[4]。
典型的視覺三維重建方法,例如基于單幅圖像三維重建,僅靠單張數(shù)碼影像提取目標(biāo)的顏色、形狀、共面性等二維、三維幾何信息[5]。雙目立體視覺技術(shù)進(jìn)行三維重建是通過模仿人眼視覺系統(tǒng)對(duì)物體進(jìn)行三維感知,基本原理是從兩個(gè)或多個(gè)視點(diǎn)觀察同一景物,以獲取在不同視角下的感知圖像,通過三角測(cè)量原理計(jì)算圖像像素間的位置偏差來獲取景物的三維信息[6]。相比于主動(dòng)式感知技術(shù),雙目立體視覺技術(shù)具有設(shè)備簡(jiǎn)單、成本低和效率高的優(yōu)勢(shì),因此雙目立體匹配技術(shù)在數(shù)十年里是計(jì)算機(jī)視覺領(lǐng)域中的熱點(diǎn)問題,并且獲得一系列的進(jìn)展[1]。
傳統(tǒng)的三維重建方法雖然已經(jīng)廣泛地應(yīng)用于生產(chǎn)生活中,然而傳統(tǒng)機(jī)器學(xué)習(xí)方法由于學(xué)習(xí)方式、學(xué)習(xí)設(shè)備等條件的制約,存在如下難以避免的缺點(diǎn):傳統(tǒng)的三維重建方法需要較多的人力資源進(jìn)行監(jiān)督;同時(shí)面對(duì)多個(gè)形狀修改與生成任務(wù)時(shí),無法精確地識(shí)別對(duì)象形狀的幾何與拓?fù)浣Y(jié)構(gòu)差異;出現(xiàn)精細(xì)的幾何細(xì)節(jié)時(shí),由于無法實(shí)現(xiàn)全局性操作,三維重建的準(zhǔn)確性不夠高;由于無法輸出各個(gè)部件的關(guān)系,對(duì)3D形狀的結(jié)構(gòu)編號(hào)進(jìn)行建模的難度較高。隨著深度學(xué)習(xí)方法的迅速發(fā)展,有研究者將其與傳統(tǒng)三維重建相結(jié)合,取得較好的結(jié)果。深度學(xué)習(xí)在數(shù)據(jù)處理、幾何推斷、結(jié)構(gòu)推理、語義理解等多個(gè)層次為三維重建帶來深刻變革和全新挑戰(zhàn)[1]。Eigen 團(tuán)隊(duì)[7]是使用深度學(xué)習(xí)進(jìn)行深度圖估計(jì)的開山團(tuán)隊(duì),本文總結(jié)自2014 年David 第一次使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)進(jìn)行三維重建開始,深度學(xué)習(xí)領(lǐng)域基于視覺的三維物體重建最新方法及未來趨勢(shì),探討深度學(xué)習(xí)是如何實(shí)現(xiàn)更加智能、靈活和通用的三維內(nèi)容生成,實(shí)現(xiàn)從三維表征重建到高層幾何結(jié)構(gòu)推理的完整建模,如圖1 所示。
在三維重建的完整過程中,生成的三維模型采取的數(shù)據(jù)結(jié)構(gòu)是基于深度學(xué)習(xí)的三維重建至關(guān)重要的基礎(chǔ)[8]。三維數(shù)據(jù)結(jié)構(gòu)的表達(dá)方式主要分為:
(1)將三維幾何體表示為多視點(diǎn)投影的二維圖像;
(2)直接在原始的三維數(shù)據(jù)上進(jìn)行描述表示,例如體素、點(diǎn)云、曲面網(wǎng)格、隱式曲面等,如圖2 所示。
Su 等人[9]最早設(shè)計(jì)多視圖卷積神經(jīng)網(wǎng)絡(luò)(multiview CNN,MVCNN)模型提取二維投影圖像的卷積特征,通過多視點(diǎn)融合來實(shí)現(xiàn)三維表征學(xué)習(xí),并且將物體的三維數(shù)據(jù)從不同“視角”所得到的二維渲染圖作為原始的訓(xùn)練數(shù)據(jù)。該團(tuán)隊(duì)證明用經(jīng)典、成熟的二維圖像卷積網(wǎng)絡(luò)訓(xùn)練出的模型,對(duì)三維物體的識(shí)別、分類效果好于用三維數(shù)據(jù)直接訓(xùn)練出的模型。隨后Qi 等人在MVCNN 的基礎(chǔ)上,通過增加更多的訓(xùn)練樣本和設(shè)計(jì)新的多分辨率的組件,改進(jìn)MVCNN的結(jié)果[10]。
Maturana 等人最早提出的VoxNet 網(wǎng)絡(luò),利用三維卷積神經(jīng)網(wǎng)絡(luò)來對(duì)被目標(biāo)物體占用的網(wǎng)格體素進(jìn)行處理,可以每秒對(duì)幾百個(gè)實(shí)例進(jìn)行標(biāo)注[11]。Wu 等人[12]直接在三維體素上設(shè)計(jì)3D ShapeNets 模型進(jìn)行三維卷積操作,如圖3 所示,從原始CAD 數(shù)據(jù)中學(xué)習(xí)復(fù)雜的3D 形狀在不同對(duì)象類別和任意姿勢(shì)中的分布,并自動(dòng)發(fā)現(xiàn)分層組成部分表示。
圖3 3D ShapeNets示意圖Fig.3 3D ShapeNets diagram
體素輸出允許使用規(guī)則體素網(wǎng)格對(duì)三維形狀進(jìn)行參數(shù)化。因此,在圖像分析中使用的二維卷積可以很容易地?cái)U(kuò)展到三維。盡管可以得到顯著優(yōu)于傳統(tǒng)三維重建方法的結(jié)果,但是使用體素作為存儲(chǔ)結(jié)構(gòu),卷積的計(jì)算和存儲(chǔ)開銷非常大。為應(yīng)對(duì)體素存儲(chǔ)方法導(dǎo)致的這些問題,Qi 等人[10]在Wu 等人研究的基礎(chǔ)上,提升模型的分類精度,避免維數(shù)災(zāi)難[13]。Li等人[14]將三維形狀表示成體素場(chǎng)來解決三維體素表示的稀疏性問題,并提出用一個(gè)場(chǎng)探索濾波器取代CNN 中的卷積層來學(xué)習(xí)特征。微軟亞洲研究院的Wang 等人[15]設(shè)計(jì)O-CNN 以八叉樹的數(shù)據(jù)結(jié)構(gòu)自適應(yīng)體卷積技術(shù),將對(duì)平面的計(jì)算限定在平面的附近。該方法有效地將八叉樹信息和CNN 特征存儲(chǔ)到圖形存儲(chǔ)器中,大幅度節(jié)省體素計(jì)算的開銷。
Qi 等人設(shè)計(jì)一種直接對(duì)三維點(diǎn)云進(jìn)行卷積操作的新型神經(jīng)網(wǎng)絡(luò)PointNet[16],如圖4 所示,其分類網(wǎng)絡(luò)以N個(gè)點(diǎn)為輸入,進(jìn)行輸入變換和特征變換,通過最大池化來聚合點(diǎn)特征,輸出是K個(gè)分類分?jǐn)?shù)。分類網(wǎng)絡(luò)保證了輸入點(diǎn)的置換不變性,獲得了比其他模型更好的結(jié)果。
圖4 PointNet結(jié)構(gòu):多層感知機(jī)Fig.4 PointNet structure:multilayer perceptron
在計(jì)算機(jī)圖形學(xué)領(lǐng)域中,三角形網(wǎng)格是最通用的三維幾何表示[1]。Sinha 等人[17]將三維形狀參數(shù)化到球形表面,進(jìn)而將球形表面投影到八面體后展開成二維平面,最后采用卷積神經(jīng)網(wǎng)絡(luò)從二維平面中學(xué)習(xí)特征表示。Rakotosaona 等人[18]提出從點(diǎn)云中重建三角形網(wǎng)格?,F(xiàn)有的基于學(xué)習(xí)的網(wǎng)格重建方法大多單獨(dú)生成三角形,因此很難創(chuàng)建流形網(wǎng)格。首先估計(jì)每個(gè)點(diǎn)周圍的局部測(cè)地線鄰域,利用2D Delaunay三角剖分的屬性從流形表面元素構(gòu)建網(wǎng)格。該方法與當(dāng)前重建具有任意拓?fù)浣Y(jié)構(gòu)的網(wǎng)格的方法相比可以實(shí)現(xiàn)更好的整體流形。
深度隱式曲面函數(shù)(deep implicit functions surface,DIF)是三維形狀表示的一種方法,因結(jié)構(gòu)緊湊,表示能力強(qiáng),在三維視覺領(lǐng)域越來越受歡迎。但與其他模型不同,如何在DIF 表示的形狀之間推理出密集的對(duì)應(yīng)關(guān)系或其他語義關(guān)系仍然是一個(gè)難題。Mescheder 團(tuán)隊(duì)[19]提出基于深度學(xué)習(xí)的三維重建新方法Occupancy Networks,將三維表面隱式表示為深度神經(jīng)網(wǎng)絡(luò)分類器的連續(xù)決策邊界,且對(duì)于從單個(gè)圖像、嘈雜的點(diǎn)云和粗糙的離散體素網(wǎng)格進(jìn)行三維重建的挑戰(zhàn)性任務(wù)都取得優(yōu)秀的成果。Zheng 等人[20]提出全新的3D 形狀表示法DIT(deep implicit templates),如圖5 所示。DIF 支持深層隱式表征中的顯式對(duì)應(yīng)推理,同時(shí)也更具可解釋性。
圖5 DIT 的顯式對(duì)應(yīng)推理過程Fig.5 Explicit correspondence reasoning process of DIT
Erler等人[21]提出Points2Surf模型,這是一種新穎的基于塊的學(xué)習(xí)框架,可直接從沒有法線的點(diǎn)云中生成準(zhǔn)確的隱式曲面。在不可見的類別上比最先進(jìn)的方案具有明顯的優(yōu)勢(shì),代價(jià)是計(jì)算復(fù)雜,并且在小規(guī)模拓?fù)湓肼暵杂性黾印?/p>
三維數(shù)據(jù)結(jié)構(gòu)表達(dá)方式總結(jié)如表1 所示。
表1 三維數(shù)據(jù)結(jié)構(gòu)表達(dá)方式總結(jié)Table 1 Summary of 3D data structure expression
三維數(shù)據(jù)的深度特征表示給深度學(xué)習(xí)的三維重建奠定基礎(chǔ)。隨著數(shù)據(jù)結(jié)構(gòu)研究的深入,三維重建的網(wǎng)絡(luò)構(gòu)建也在不斷地發(fā)展。根據(jù)生成模型的數(shù)據(jù)結(jié)構(gòu)的不同對(duì)網(wǎng)絡(luò)構(gòu)建進(jìn)行分類,還根據(jù)訓(xùn)練時(shí)的監(jiān)督情況和對(duì)同一物體采用的視角數(shù)量(單/多)來進(jìn)行分類,如表2 所示。
表2 三維表征重建分類Table 2 Classification of 3D representation reconstruction
基于體素卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建深度置信網(wǎng)絡(luò),美國普林斯頓大學(xué)的Wu 等人[12]提出第一個(gè)深度三維生成模型3D ShapeNets。基于Wu的工作,Girdhar等人[22]提出一種稱為TL 嵌入網(wǎng)絡(luò)的新架構(gòu),可以基于單幅影像處理從二維圖像生成三維體素模型。同類型的工作還有,Choy 等人[23]設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)基于體素的物體三維重建,提出一個(gè)擴(kuò)展的標(biāo)準(zhǔn)長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)[24]框架,稱為三維遞歸重建神經(jīng)網(wǎng)絡(luò)。OGN(octree generating networks)[25]直接在體素網(wǎng)格上預(yù)測(cè)輸出,允許使用八叉樹來有效地表示八叉空間從而預(yù)測(cè)更高分辨率的形狀。Google的Rezende等人[26]提出一種無監(jiān)督學(xué)習(xí)的三維重建模型,可以同時(shí)應(yīng)用于體素和網(wǎng)格三維數(shù)據(jù)結(jié)構(gòu)。
Stutz 等人[27]提出一種基于弱監(jiān)督學(xué)習(xí)的三維形狀補(bǔ)全方法。首先在合成數(shù)據(jù)上經(jīng)過一次訓(xùn)練,然后使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行最大似然擬合,從而在不犧牲準(zhǔn)確性的情況下實(shí)現(xiàn)有效的形狀補(bǔ)全,既不需要緩慢優(yōu)化也不需要直接監(jiān)督。同樣是無監(jiān)督學(xué)習(xí)三維重建,Yan 等人[28]提出利用投影變換作為正則化的編-解碼器網(wǎng)絡(luò)進(jìn)行3D 形狀和2D 圖像交互。
來自MIT 的Wu等人[29]提出的3D-GAN 首次通過生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[30]的方式學(xué)習(xí)得到三維形狀空間,實(shí)現(xiàn)三維模型的隨機(jī)生成。與之前取得突破性進(jìn)展的基于體素卷積神經(jīng)網(wǎng)絡(luò)的方法相比,可以合成具有詳細(xì)幾何圖形的高分辨率三維體素結(jié)構(gòu)。
同樣是MIT 的Wu 等人[31]采用分解思想提出MarrNet,將三維重建轉(zhuǎn)換為先估計(jì)2.5D 的草圖再估計(jì)3D 形狀。優(yōu)點(diǎn)是在2.5D 的草圖更容易從2D 圖像中生成,同時(shí)2.5D 草圖的模型轉(zhuǎn)移到真實(shí)數(shù)據(jù)要更簡(jiǎn)單。
Ji 團(tuán)隊(duì)[32]提出SurfaceNet 框架,關(guān)鍵優(yōu)勢(shì)在于能夠以端到端的方式直接學(xué)習(xí)光一致性以及表面結(jié)構(gòu)的幾何關(guān)系,通過計(jì)算相機(jī)參數(shù)和使用體素表示三維物體,實(shí)現(xiàn)多視圖立體視覺。
Kar等人[33]提出可微分的多視圖立體幾何(multiview stereo,MVS),如圖6 所示,用于學(xué)習(xí)從多視點(diǎn)圖像生成三維幾何,為后來大量以MVS 為基礎(chǔ)的深度學(xué)習(xí)工作奠定基礎(chǔ)。雙目立體視覺技術(shù)具有成本低、適用性廣的優(yōu)點(diǎn),在物體識(shí)別、目標(biāo)檢測(cè)等方面應(yīng)用廣泛,成為計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn)[34]。Huang團(tuán)隊(duì)[35]在MVS 的基礎(chǔ)上,提出用于多視圖立體重建的深度卷積神經(jīng)網(wǎng)絡(luò)DeepMVS,效果優(yōu)于最先進(jìn)的傳統(tǒng)MVS 算法和其他基于卷積神經(jīng)網(wǎng)絡(luò)的方法。但是同年同樣是基于MVS,香港科技大學(xué)的權(quán)龍教授團(tuán)隊(duì)[36]提出的MVSNet 在戶外數(shù)據(jù)集Tanks and Temples[37]上取得優(yōu)異的成績(jī),采用雙目立體匹配的深度估計(jì)方法[38],擴(kuò)展到多張圖片的深度估計(jì),使用三維卷積操作基于可微分的單應(yīng)性變換的代價(jià)匹配體(cost volume)。權(quán)龍團(tuán)隊(duì)又在第二年對(duì)MVSNet做出進(jìn)一步改進(jìn)[39],將三維卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)為GRU時(shí)序網(wǎng)絡(luò)[40],大幅度降低顯存的消耗。
圖6 MVSNet網(wǎng)絡(luò)設(shè)計(jì)Fig.6 Network design of MVSNet
點(diǎn)云可以被視為來自三維點(diǎn)分布的樣本,其密度集中在形狀的表面附近,點(diǎn)云生成相當(dāng)于將隨機(jī)采樣點(diǎn)移動(dòng)到高密度區(qū)域。隨著三維數(shù)據(jù)的深度特征表示的發(fā)展,在2017 年Qi 團(tuán)隊(duì)提出PointNet[16]后,基于體素卷積神經(jīng)網(wǎng)絡(luò)去構(gòu)建深度學(xué)習(xí)網(wǎng)絡(luò)逐漸被基于點(diǎn)云和曲面網(wǎng)格的神經(jīng)網(wǎng)絡(luò)所取代,之后的模型訓(xùn)練和結(jié)果輸出大都基于點(diǎn)云和曲面網(wǎng)格?;赑ointNet 模型,F(xiàn)an 團(tuán)隊(duì)[41]成功引入點(diǎn)云結(jié)構(gòu)作為三維重建的輸出結(jié)果,不僅可以在基于單幅圖像的三維重建基準(zhǔn)上優(yōu)于最先進(jìn)的方法,也展現(xiàn)出強(qiáng)大的三維形狀補(bǔ)全性能和合理預(yù)測(cè)的潛力。
Achlioptas 等人[42]針對(duì)點(diǎn)云幾何數(shù)據(jù),引入具有最先進(jìn)三維重建效果和泛化能力的深度自編碼器(autoencoder)[43]網(wǎng)絡(luò)。通過簡(jiǎn)單的代數(shù)操作實(shí)現(xiàn)形狀編輯,在原始點(diǎn)云上對(duì)Wu 團(tuán)隊(duì)提出的3D-GAN 進(jìn)行顯著改進(jìn)。Yang 等人[44]在PointNet 模型的基礎(chǔ)上提出一種新的端到端深度自動(dòng)編碼器FoldingNet 來解決點(diǎn)云上的無監(jiān)督學(xué)習(xí)挑戰(zhàn)。提出的解碼器僅使用具有完全連接的神經(jīng)網(wǎng)絡(luò)的解碼器大約7%的計(jì)算量,實(shí)現(xiàn)更高的線性支持向量機(jī)(support vector machine,SVM)[45]分類精度。
Yang團(tuán)隊(duì)[46]提出使用概率框架(probabilistic framework)構(gòu)建的生成模型PointFlow,學(xué)習(xí)一個(gè)兩級(jí)分布層次(two-level hierarchy),其中第一級(jí)是形狀的分布,第二級(jí)是給定形狀的點(diǎn)的分布。對(duì)形狀進(jìn)行采樣并從形狀中采樣任意數(shù)量的點(diǎn),通過連續(xù)的歸一化流學(xué)習(xí)分布的每個(gè)級(jí)別,以無監(jiān)督的方式進(jìn)行三維重建,在點(diǎn)云生成中實(shí)現(xiàn)當(dāng)時(shí)最先進(jìn)的性能。點(diǎn)云三維重建的方法往往會(huì)生成模糊的點(diǎn)云并且無法生成孔洞,針對(duì)這一問題Kimura 團(tuán)隊(duì)[47]提出Chart-PointFlow 生成模型,這是一種基于流的生成模型,具有多個(gè)潛在標(biāo)簽并將每個(gè)標(biāo)簽都以無監(jiān)督的方式進(jìn)行分配用于三維點(diǎn)云,使得提出的模型能夠保留邊界清晰的拓?fù)浣Y(jié)構(gòu)。同時(shí)ChartPointFlow 使用圖表將對(duì)象劃分為語義子部分,在無監(jiān)督分割的情況下表現(xiàn)出卓越的性能。Klokov 團(tuán)隊(duì)[48]引入一個(gè)潛在變量模型,該模型建立在具有仿射耦合層的標(biāo)準(zhǔn)化流的基礎(chǔ)上,可以在給定潛在形狀表示的情況下生成任意大小的3D 點(diǎn)云。與最近基于連續(xù)流的工作相比,Klokov 團(tuán)隊(duì)的模型在訓(xùn)練和推理時(shí)間方面提供顯著的加速,以獲得相似或更好的性能。
與MVS 方法大都采用代價(jià)匹配體方法不同的是,Chen團(tuán)隊(duì)[49]提出PointMVSNet改進(jìn)多視圖立體幾何深度框架,將目標(biāo)場(chǎng)景處理為點(diǎn)云。這種基于點(diǎn)的架構(gòu)比基于代價(jià)匹配體的架構(gòu)具有更高的準(zhǔn)確性、更高的計(jì)算效率和更大的靈活性。Luo 等人[50]提出的P-MVSNet 對(duì)MVSNet 的改進(jìn)主要在于首先用一個(gè)聚合模塊(patch-wise)提取特征的像素級(jí)對(duì)應(yīng)信息以生成匹配的置信量,然后混合3D U-Net 從中推斷出深度概率分布和預(yù)測(cè)深度圖。
Xie 團(tuán)隊(duì)[51]針對(duì)無序點(diǎn)云提出基于能量的生成模型Generative PointNet。通過基于馬爾科夫鏈蒙特卡洛(Markov chain Monte Carlo)的最大似然學(xué)習(xí)進(jìn)行訓(xùn)練,而無需任何輔助網(wǎng)絡(luò)的幫助;不需要任何手工制作的點(diǎn)云生成距離度量,根據(jù)能量函數(shù)定義的統(tǒng)計(jì)屬性匹配觀察到的例子來合成點(diǎn)云,生成的點(diǎn)云表示三維模型十分適用于點(diǎn)云語義分割。
Spurek 團(tuán)隊(duì)[52]提出一種利用超網(wǎng)絡(luò)特性生成三維點(diǎn)云的新模型HyperCloud,其主要思想是構(gòu)建一個(gè)超網(wǎng)絡(luò),經(jīng)過訓(xùn)練將點(diǎn)從統(tǒng)一的單位球分布映射到3D 形狀,允許以生成方式找到3D 對(duì)象的基于網(wǎng)格的表示,同時(shí)通過最先進(jìn)的方法提供高質(zhì)量的點(diǎn)云。Cai團(tuán)隊(duì)[53]提出通過在未歸一化的概率密度上執(zhí)行隨機(jī)梯度上升來生成點(diǎn)云,從而將采樣點(diǎn)移向高似然區(qū)域[54],直接預(yù)測(cè)對(duì)數(shù)密度場(chǎng)的梯度,并且可以使用從基于分?jǐn)?shù)的生成模型改編的簡(jiǎn)單目標(biāo)進(jìn)行訓(xùn)練。Luo 等人[55]將點(diǎn)云中的點(diǎn)視為與熱浴接觸的熱力學(xué)系統(tǒng)中的粒子,將點(diǎn)云生成視為學(xué)習(xí)將噪聲分布轉(zhuǎn)換為所需形狀分布的反向擴(kuò)散過程,將點(diǎn)云的反向擴(kuò)散過程建模為以特定形狀為條件的馬爾可夫鏈[56],推導(dǎo)出封閉形式的變分界用于訓(xùn)練并提供模型的實(shí)現(xiàn),取得有競(jìng)爭(zhēng)力的性能。
Groueix 等人[57]提出一種生成三維曲面網(wǎng)格表面的生成框架AtlasNet,將三維形狀表示為參數(shù)化曲面元素的集合,自然地推斷出形狀的曲面表示。該方法相比于生成體素網(wǎng)格或點(diǎn)云的方法具有顯著的優(yōu)勢(shì),比如更高的準(zhǔn)確性、更好的泛化能力,以及在生成任意分辨率的形狀時(shí)避免內(nèi)存占用問題。Wang 等人[58]提出Pixel2Mesh 模型,可以從單色圖像生成曲面三維三角形網(wǎng)格,通過利用從輸入圖像中提取的感知特征逐漸變形橢圓體來產(chǎn)生正確的幾何形狀。該方法不僅定性地生成具有更好細(xì)節(jié)的網(wǎng)格模型,而且還實(shí)現(xiàn)了更高的三維重建精度。Kong 等人[59]采用正交匹配追蹤[60]快速選擇字典中與投影圖像最接近的單個(gè)CAD 模型,在合成三維網(wǎng)格重建方面取得了不錯(cuò)的效果。
Chen 等人[61]提出用隱式場(chǎng)來構(gòu)建形狀學(xué)習(xí)的生成模型(如圖7 所示),并引入一種稱為IM-NET 的隱式場(chǎng)解碼器替換傳統(tǒng)解碼器進(jìn)行表示學(xué)習(xí)和形狀生成,得到在生成形狀建模、插值和單視圖三維重建等任務(wù)中領(lǐng)先的結(jié)果。Niemeyer 等人[62]提出一種用于隱式形狀和紋理表示的可微分渲染[63]公式。其主要觀點(diǎn)是,可以使用隱式微分的概念通過分析推導(dǎo)出深度梯度,使人們能夠直接從RGB 圖像中學(xué)習(xí)隱式形狀和紋理表示。Jiang 等人[64]專為可擴(kuò)展性和通用性而設(shè)計(jì)的新三維形狀表示設(shè)計(jì)局部隱式網(wǎng)格。該團(tuán)隊(duì)將解碼器用作形狀優(yōu)化中的一個(gè)組件,在重疊裁剪的規(guī)則網(wǎng)格上求解一組潛在代碼,以便解碼后的局部形狀的插值與部分或嘈雜的觀察相匹配,證明這種從稀疏點(diǎn)觀察進(jìn)行三維表面重建的方法比替代方法有明顯更好的結(jié)果。
圖7 IM-NET 網(wǎng)絡(luò)示意圖Fig.7 Network diagram of IM-NET
隱式場(chǎng)表示提供有效的三維重建方法,它基于專用于訓(xùn)練集中所有對(duì)象的單個(gè)神經(jīng)網(wǎng)絡(luò),導(dǎo)致在現(xiàn)實(shí)世界中其訓(xùn)練過程和應(yīng)用十分繁瑣。更重要的是,隱式解碼器僅采用在體素內(nèi)采樣的點(diǎn),這會(huì)在分類邊界產(chǎn)生問題并導(dǎo)致渲染網(wǎng)格內(nèi)出現(xiàn)空白空間。針對(duì)這些問題,Proszewska 團(tuán)隊(duì)[65]引入基于區(qū)間算術(shù)網(wǎng)絡(luò)的HyperCube 架構(gòu),它可以直接處理三維體素,使用超網(wǎng)絡(luò)范式進(jìn)行訓(xùn)練以強(qiáng)制模型收斂,允許輸入以其凸包坐標(biāo)表示的整個(gè)體素(三維立方體),由超網(wǎng)絡(luò)構(gòu)建的目標(biāo)網(wǎng)絡(luò)將其分配給內(nèi)部或外部類別。
三維表征重建總結(jié)如表3 所示。
表3 三維表征重建總結(jié)Table 3 Summary of 3D representation reconstruction
前文總結(jié)的基于深度學(xué)習(xí)的三維表征重建方法主要針對(duì)基于結(jié)構(gòu)無關(guān)的幾何表示,目的是生成準(zhǔn)確的三維表征數(shù)據(jù),對(duì)模型的拓?fù)浜徒Y(jié)構(gòu)的合理性并沒有做過多的關(guān)注。大部分此類工作生成的是非結(jié)構(gòu)化的三維物體,但是結(jié)構(gòu)相關(guān)的三維表示應(yīng)是部件相關(guān)(part-aware)的[1,69]。結(jié)構(gòu)化的表達(dá)對(duì)于感知和理解三維物體是很重要的,如物體不同組件的構(gòu)成、關(guān)系等。針對(duì)深度學(xué)習(xí)進(jìn)行三維模型幾何構(gòu)建的挑戰(zhàn)在于如何適應(yīng)不同的形狀變化,包括零件的連續(xù)變形以及結(jié)構(gòu)或離散變化,這些變化包括增加、去除或修改形狀成分和組成結(jié)構(gòu)。
Li 等人[70]提出GRASS(generative recursive autoencoders for shape structures)模型(如圖8 所示),最早將模型用一組具有層級(jí)結(jié)構(gòu)的體素來表述三維模型部件,通過遞歸神經(jīng)網(wǎng)絡(luò)編碼為一串隱向量特征,然后進(jìn)行模型混合,最后把層級(jí)結(jié)構(gòu)模型復(fù)原為連續(xù)的模型,使網(wǎng)絡(luò)學(xué)習(xí)到部件本身的拓?fù)浜徒Y(jié)構(gòu)特征?;贚i 等人[70]的研究,該遞歸神經(jīng)網(wǎng)絡(luò)模型被Han 等人[71]應(yīng)用于單幅圖像的三維幾何結(jié)構(gòu)合成,利用兩個(gè)獨(dú)立的全連接層分支,為雙線性人臉重建生成獨(dú)立的系數(shù)和子集,實(shí)現(xiàn)低成本交互式面部建模。
圖8 GRASS 模型遞歸神經(jīng)網(wǎng)絡(luò)Fig.8 Neural network recurred by GRASS model
Gao 等人[72]提出生成結(jié)構(gòu)化可變形網(wǎng)格的深度生成神經(jīng)網(wǎng)絡(luò)(deep generative network for structured deformable mesh,SDM-NET),一個(gè)兩級(jí)變分自編碼器(variational auto encoder,VAE)[43]。該網(wǎng)絡(luò)聯(lián)合學(xué)習(xí)形狀集合的零件結(jié)構(gòu)和零件幾何形狀,確保全局形狀結(jié)構(gòu)和表面細(xì)節(jié)之間的一致性。SDM-NET 在生成具有視覺質(zhì)量、靈活拓?fù)浜陀幸饬x結(jié)構(gòu)的網(wǎng)格方面的優(yōu)越性,有利于形狀插值和其他后續(xù)建模任務(wù)。Wu 等人[73]同樣是使用VAE 構(gòu)建一種用于3D 形狀的結(jié)構(gòu)感知生成模型(structure-aware generative network,SAGNET)。該網(wǎng)絡(luò)將幾何形狀和拓?fù)浣Y(jié)構(gòu)通過自動(dòng)編碼器聯(lián)合學(xué)習(xí)并嵌入到潛在空間中,解碼器解開特征并重建3D模型的幾何和結(jié)構(gòu)。Sitzmann團(tuán)隊(duì)[74]提出場(chǎng)景表示網(wǎng)絡(luò)(scene representation network,SRN),一種連續(xù)的具有3D 結(jié)構(gòu)意識(shí)的場(chǎng)景表示,可對(duì)幾何形狀和外觀進(jìn)行編碼,并將場(chǎng)景表示為連續(xù)函數(shù),將世界坐標(biāo)映射到局部場(chǎng)景屬性的特征表示。通過將圖像生成為可微分的光線行進(jìn)算法,SRN 可以僅從2D 圖像及其相機(jī)姿態(tài)進(jìn)行端到端訓(xùn)練,但是無法獲得深度或形狀。
Mo 等人[75]提出分層圖網(wǎng)絡(luò)StructureNet,通過圖神經(jīng)網(wǎng)絡(luò),提出N元圖的順序不變編碼,在網(wǎng)絡(luò)訓(xùn)練期間聯(lián)合考慮部件幾何和部件間拓?fù)潢P(guān)系,具有生成新穎、多樣且逼真的三維形狀以及相關(guān)零件語義和結(jié)構(gòu)的能力。第二年,該團(tuán)隊(duì)又提出新的網(wǎng)絡(luò)StructEdit[76],一種以源形狀為條件基于編碼和解碼形狀增量的條件變分自動(dòng)編碼器,可以有效和穩(wěn)健地在多個(gè)形狀修改和生成任務(wù)中學(xué)習(xí)對(duì)普通對(duì)象形狀的幾何和拓?fù)浣Y(jié)構(gòu)的差異。
Chen 等人[77]設(shè)計(jì)BSP-Net模型,利用空間數(shù)據(jù)結(jié)構(gòu)二進(jìn)制空間分區(qū)(binary space partitioning,BSP)對(duì)空間進(jìn)行遞歸細(xì)分以獲得凸集表示三維形狀的網(wǎng)絡(luò)。BSP-Net 推斷出的凸面可以很容易地提取形成多邊形網(wǎng)格,而無需任何等值曲面,同時(shí)其生成的網(wǎng)格很緊湊,非常適合表示銳利的幾何圖形。
Chen 等人[78]提出多分辨率深度隱式函數(shù)(multiresolution deep implicit functions,MDIF),一種采用分層表示且同時(shí)表示不同層次的細(xì)節(jié)并允許漸進(jìn)解碼的深度隱函數(shù)模型。該模型可以恢復(fù)精細(xì)的幾何細(xì)節(jié),同時(shí)能夠執(zhí)行形狀完成等全局操作;可以表示具有潛在網(wǎng)格層次結(jié)構(gòu)的復(fù)雜3D 形狀,將其解碼為不同的細(xì)節(jié)級(jí)別,并且還可以獲得更好的準(zhǔn)確性。
Wu 等人[79]提出PQ-NET(part seq2seq network),一個(gè)基于序列化部件組裝的三維形狀表達(dá)和生成網(wǎng)絡(luò),以線性結(jié)構(gòu)而非層級(jí)結(jié)構(gòu)來表達(dá)結(jié)構(gòu)化的三維形狀。PQ-NET 一個(gè)最大的缺點(diǎn)是并沒有輸出各個(gè)部件之間的關(guān)系,例如對(duì)稱、相鄰等。這些關(guān)系更容易通過層級(jí)結(jié)構(gòu)來表達(dá),但代價(jià)是需要足夠多的標(biāo)注數(shù)據(jù)。Li 等人[80]使用零件感知深度生成網(wǎng)絡(luò)對(duì)三維形狀變化進(jìn)行建模。該網(wǎng)絡(luò)由一組所有部件的變分自編碼器生成對(duì)抗網(wǎng)絡(luò)組成,生成構(gòu)成完整形狀的語義部件,然后對(duì)模塊進(jìn)行部件組裝成一個(gè)合理的結(jié)構(gòu)。通過將零件組成和零件放置的學(xué)習(xí)委托給單獨(dú)的網(wǎng)絡(luò),降低對(duì)3D 形狀的結(jié)構(gòu)變化進(jìn)行建模的難度。
最新的研究將遷移學(xué)習(xí)3D 數(shù)據(jù)的預(yù)訓(xùn)練引入三維幾何重建中來。Eckart 團(tuán)隊(duì)[81]提出一種用于3D 自監(jiān)督表示學(xué)習(xí)的通用方法,將3D 點(diǎn)輕輕地分割成離散數(shù)量的幾何分區(qū)。該團(tuán)隊(duì)在這些軟分區(qū)中,隱式參數(shù)化生成潛在高斯混合模型[82],并且在該生成模型建立的數(shù)據(jù)似然函數(shù)的解釋下,形成自監(jiān)督損失。通過最大化由無監(jiān)督逐點(diǎn)分割網(wǎng)絡(luò)形成的軟分區(qū)的數(shù)據(jù)可能性,鼓勵(lì)學(xué)習(xí)的表示組成豐富的幾何信息。
三維模型幾何構(gòu)建方法總結(jié)如表4 所示。
表4 三維模型幾何構(gòu)建方法總結(jié)Table 4 Summary of 3D model geometry construction methods
Dai團(tuán)隊(duì)[83]最早通過體積深度神經(jīng)網(wǎng)絡(luò)和三維形狀合成的組合來進(jìn)行三維補(bǔ)全。引入一個(gè)由3D 卷積層組成的3D 編碼預(yù)測(cè)網(wǎng)絡(luò)推斷出低分辨率但完整的輸出。在測(cè)試時(shí)將這些中間結(jié)果與來自真實(shí)目標(biāo)的三維幾何相關(guān)聯(lián)。最后提出一種基于塊匹配(Patch-Based)[84]的三維形狀合成方法。該方法將來自真實(shí)目標(biāo)的三維幾何圖形作為粗略網(wǎng)格的約束。這種合成過程使人們能夠在獲得的全局網(wǎng)格結(jié)構(gòu)的同時(shí)重建精細(xì)尺度的細(xì)節(jié)并生成高分辨率輸出。Han團(tuán)隊(duì)[85]在這種數(shù)據(jù)驅(qū)動(dòng)方法的基礎(chǔ)上,結(jié)合全局結(jié)構(gòu)推理網(wǎng)絡(luò)和局部幾何細(xì)化網(wǎng)絡(luò)構(gòu)建新的深度學(xué)習(xí)架構(gòu)。全局結(jié)構(gòu)推理網(wǎng)絡(luò)包含一個(gè)長(zhǎng)短期記憶上下文融合模塊(long short-term memory-networks for machine reading,LSTM-CF)[86],該模塊根據(jù)作為輸入的一部分提供的多視圖深度信息來推斷形狀的全局結(jié)構(gòu)。在全局結(jié)構(gòu)網(wǎng)絡(luò)的引導(dǎo)下,局部幾何細(xì)化網(wǎng)絡(luò)將缺失區(qū)域周圍的局部三維補(bǔ)丁作為輸入,并逐步產(chǎn)生高分辨率的模型,通過體素編-解碼器架構(gòu)完成三維補(bǔ)全。
Yuan 團(tuán)隊(duì)[87]提出一種基于學(xué)習(xí)的形狀完成新方法——點(diǎn)完成網(wǎng)絡(luò)(point completion network,PCN)。與現(xiàn)有的點(diǎn)云形狀補(bǔ)全方法不同,PCN 直接對(duì)原始點(diǎn)云進(jìn)行操作,在沒有任何關(guān)于底層形狀的結(jié)構(gòu)假設(shè)或注釋情況下設(shè)計(jì)解碼器,保持少量參數(shù)的同時(shí)生成細(xì)粒度的點(diǎn)云。PCN 在具有各種不完整性和噪聲水平的輸入的缺失區(qū)域中生成具有真實(shí)結(jié)構(gòu)的密集、完整的點(diǎn)云。
全局表示經(jīng)常受到不完整點(diǎn)云局部區(qū)域結(jié)構(gòu)細(xì)節(jié)信息丟失的影響,為解決這個(gè)問題,Wen 等人[88]提出用于3D點(diǎn)云補(bǔ)全的SA-Net(skip-attention network)模型。Wen 等人提出一種skip-attention 機(jī)制,以在缺失部分的推理過程中有效地利用不完整點(diǎn)云的局部結(jié)構(gòu)細(xì)節(jié),并且提出一種新穎的結(jié)構(gòu)保留解碼器,以實(shí)現(xiàn)在不同分辨率下充分利用由跳過注意機(jī)制編碼的選定幾何信息。通過在相同分辨率下使用跳過注意的幾何圖形,逐步詳細(xì)說明局部區(qū)域來保留上層生成的完整點(diǎn)云的結(jié)構(gòu)。
點(diǎn)云的無序特性會(huì)降低高質(zhì)量3D 形狀的生成,因?yàn)閮H使用潛在代碼的生成過程很難捕獲離散點(diǎn)的詳細(xì)拓?fù)浜徒Y(jié)構(gòu)。Wen 團(tuán)隊(duì)[89]將形狀補(bǔ)全表述為點(diǎn)云變形過程,設(shè)計(jì)一個(gè)新型神經(jīng)網(wǎng)絡(luò)來移動(dòng)不完整輸入的每個(gè)點(diǎn)以完成點(diǎn)云,其中點(diǎn)移動(dòng)路徑[90]的總距離最短。網(wǎng)絡(luò)根據(jù)點(diǎn)移動(dòng)的總距離的約束為每個(gè)點(diǎn)預(yù)測(cè)唯一的點(diǎn)移動(dòng)路徑,可以捕捉到不完整形狀和完整目標(biāo)之間的詳細(xì)拓?fù)浜徒Y(jié)構(gòu)關(guān)系,從而提高預(yù)測(cè)的完整形狀的質(zhì)量。以往的非配對(duì)補(bǔ)全方法只注重學(xué)習(xí)從不完整形狀到完整形狀的幾何對(duì)應(yīng)關(guān)系,而忽略反方向的學(xué)習(xí)。為解決這個(gè)問題,Wen 團(tuán)隊(duì)[91]又提出Cycle4Completion 網(wǎng)絡(luò),通過學(xué)習(xí)從互補(bǔ)的形狀中生成完整或不完整的形狀來促進(jìn)網(wǎng)絡(luò)理解3D 形狀,實(shí)現(xiàn)完整形狀和不完整形狀的潛在空間之間的兩個(gè)同時(shí)循環(huán)轉(zhuǎn)換。
Huang 等人[66]提出一種新的基于深度學(xué)習(xí)的點(diǎn)云精確高保真完成方法PFNet。該方法不同于現(xiàn)有的點(diǎn)云補(bǔ)全網(wǎng)絡(luò),它從不完整的點(diǎn)云中生成點(diǎn)云的整體形狀,在保留不完整點(diǎn)云的空間布局的同時(shí)預(yù)測(cè)出缺失點(diǎn)云的詳細(xì)幾何結(jié)構(gòu)。
Park 等人[92]引入DeepSDF(deep signed distance functions)模型,將不完整和低質(zhì)量的三維輸入數(shù)據(jù)進(jìn)行高質(zhì)量的形狀生成、插值和補(bǔ)全。與之前的工作相比,該方法極大地提升三維形態(tài)再生成的性能,同時(shí)還將模型大小減少一個(gè)數(shù)量級(jí)。Liu 等人[93]通過引入隱式移動(dòng)最小二乘法(implicit moving leastsquares functions,IMLS)[94]表面公式將離散點(diǎn)云轉(zhuǎn)換為平滑表面,將IMLS 表面生成結(jié)合到深度神經(jīng)網(wǎng)絡(luò)中,以繼承點(diǎn)云的靈活性和隱式表面的高質(zhì)量,在三維重建質(zhì)量和計(jì)算效率方面取得突破性進(jìn)展。
Genova 等人[95]引入局部深度隱函數(shù)(local deep structured implicit functions,LDIF)結(jié)構(gòu)化的隱式場(chǎng),采用多個(gè)隱式函數(shù)的融合來表示三維幾何,同時(shí)蘊(yùn)含幾何和拓?fù)湫畔ⅰT摲椒梢詫?shí)現(xiàn)準(zhǔn)確的三維表面重建、緊湊的存儲(chǔ)、高效的計(jì)算、相似形狀的一致性、跨不同形狀類別的泛化以及從深度相機(jī)觀察中進(jìn)行推斷。
三維補(bǔ)全與修復(fù)方法總結(jié)如表5 所示。
表5 三維補(bǔ)全與修復(fù)方法總結(jié)Table 5 Summary of 3D completion and repair methods
使用深度學(xué)習(xí)表示對(duì)剛性3D 對(duì)象進(jìn)行建模取得重大進(jìn)展,然而對(duì)于動(dòng)態(tài)非剛體重建依舊面臨重重挑戰(zhàn)。人體是復(fù)雜的,人體三維重建最大的挑戰(zhàn)在于學(xué)習(xí)一個(gè)能夠以看不見的、高度清晰的姿勢(shì)表達(dá)看不見的主體的身體形狀變化。
動(dòng)態(tài)人體的自由視角視頻有很多應(yīng)用,包括電影工業(yè)、體育直播和遠(yuǎn)程視頻會(huì)議。在一些綜藝類節(jié)目中實(shí)現(xiàn)類似子彈時(shí)間的特效,對(duì)于靜態(tài)物體,這是可以做到的,一般是對(duì)著靜止的物體拍一圈圖片。為拍攝稠密多視角視頻,之前的方法需要昂貴的相機(jī)陣列來進(jìn)行捕捉。視角合成方法主要是神經(jīng)隱式表示(neural implicit representation,NeRF)[96]的技術(shù)手段,實(shí)現(xiàn)這個(gè)技術(shù)的設(shè)備特別昂貴,而且使用還很不方便,一般只在電影拍攝時(shí)用到。NeRF[96]只能處理靜態(tài)場(chǎng)景?,F(xiàn)在大部分視角合成工作是對(duì)每個(gè)靜態(tài)場(chǎng)景訓(xùn)練一個(gè)網(wǎng)絡(luò),對(duì)于動(dòng)態(tài)場(chǎng)景,上百幀需要訓(xùn)練上百個(gè)網(wǎng)絡(luò),成本很高。并且對(duì)于動(dòng)態(tài)場(chǎng)景來說,工作人員無法要求演員靜止來讓人們給他拍一圈 圖。Kinect Fusion 提 出 的Dynamic Fusion[97],使 用單個(gè)Kinect進(jìn)行深度序列拍攝,創(chuàng)造性地將體融合三維重建技術(shù)和嵌入式變形圖模型的表面非剛性跟蹤技術(shù)糅合在一起,在GPU 上演算,進(jìn)而實(shí)現(xiàn)實(shí)時(shí)單視角動(dòng)態(tài)場(chǎng)景三維重建。但是Kinect 傳感器同樣也存在著設(shè)備昂貴、操作復(fù)雜的缺點(diǎn)。
Corona團(tuán)隊(duì)[98]設(shè)計(jì)一種新穎的生成模型SMPLicit,用于聯(lián)合表示身體姿勢(shì)、形狀和服裝幾何形狀。與需要為每種類型的服裝訓(xùn)練特定模型的基于深度學(xué)習(xí)的三維重建方法相比,該模型能夠以統(tǒng)一的方式表示不同的服裝拓?fù)洌瑫r(shí)控制其他屬性,如服裝尺寸或松緊或松散,并且在潛在空間的語義上可解釋并與服裝屬性對(duì)齊,模型是完全可微的,可用于更大的端到端可訓(xùn)練系統(tǒng)。
隱式曲面首次引入人體三維重建是來自日本的Saito 團(tuán)隊(duì)[99]。該團(tuán)隊(duì)引入一種高效的隱式表示像素對(duì)齊隱式函數(shù),將2D 圖像的像素與其對(duì)應(yīng)的3D 對(duì)象的全局上下文局部對(duì)齊,提出一種端到端的深度學(xué)習(xí)方法,可用于重建穿著完整衣服的人。該方法可以從單個(gè)圖像和可選的多個(gè)輸入圖像推斷3D 表面和紋理,并且可以生成高分辨率表面,包括大部分看不見的區(qū)域,例如人的背部。相比體素表示三維模型,隱式曲面方法的內(nèi)存效率高,可以處理任意拓?fù)洌⑶疑傻谋砻媾c輸入圖像在空間上對(duì)齊。Chibane 等人[68]提出隱式特征網(wǎng)絡(luò)IF-Nets 實(shí)現(xiàn)三維形態(tài)再生成,可以處理多種三維數(shù)據(jù)結(jié)構(gòu),以及缺失或稀疏輸入數(shù)據(jù)的完整形狀,保留最新深度學(xué)習(xí)隱式函數(shù)的良好特性和它出現(xiàn)在輸入數(shù)據(jù)中的細(xì)節(jié),并且可以清晰地重建人體。
將參數(shù)化3D 身體模型[100-101]擬合到穿著衣服的人體掃描是容易處理的,而身體拓?fù)浣Y(jié)構(gòu)與掃描的表面配準(zhǔn)通常則不然,因?yàn)橐路赡軙?huì)顯著偏離身體形狀?;谶@一發(fā)現(xiàn),時(shí)隔兩年,Saito 團(tuán)隊(duì)[102]又提出SCANimate(skinned clothed Avatar networks)框架,一種弱監(jiān)督學(xué)習(xí)方法。該方法通過在沒有基于模板的表面配準(zhǔn)的情況下解開鉸接變形來將掃描對(duì)齊到規(guī)范姿勢(shì),引入局部姿勢(shì)感知隱式函數(shù),使用學(xué)習(xí)的姿勢(shì)來補(bǔ)全和建模人體。在訓(xùn)練數(shù)據(jù)有限的情況下,局部姿態(tài)調(diào)節(jié)相比全局姿態(tài)嵌入顯著降低遠(yuǎn)程虛假相關(guān)性[103]并提高對(duì)未知姿態(tài)的泛化能力,可以應(yīng)用于姿勢(shì)感知外觀建模以生成完全紋理化的頭像。
Mihajlovic 團(tuán)隊(duì)[104]提出一種新型的人體神經(jīng)占用表示。給定一組骨骼變換(即關(guān)節(jié)位置和旋轉(zhuǎn))和空間中的一個(gè)查詢點(diǎn),首先通過學(xué)習(xí)的線性混合蒙皮函數(shù)將查詢點(diǎn)映射到規(guī)范空間,然后通過占用網(wǎng)
絡(luò)有效地查詢占用值,對(duì)規(guī)范空間中的準(zhǔn)確身份和姿勢(shì)相關(guān)變形進(jìn)行建模。該網(wǎng)絡(luò)極大程度提高了學(xué)習(xí)的占用表示對(duì)各種人體形狀和姿勢(shì)的泛化能力。
人臉建模在視覺計(jì)算領(lǐng)域備受關(guān)注。在多種場(chǎng)景下,包括卡通人物、社交化身媒體、3D 面部漫畫以及與面部相關(guān)的藝術(shù)和設(shè)計(jì)都需要進(jìn)行人體重建,尤其是針對(duì)業(yè)余三維建模用戶,深度學(xué)習(xí)對(duì)于面部低成本交互式人臉三維重建是革命性的。
由于手工建模耗費(fèi)大量的人力,三維成像儀器也得到長(zhǎng)期的研究和發(fā)展?;诮Y(jié)構(gòu)光和激光儀器的三維成像儀是其中的典型代表,這些基于儀器采集的三維模型,精度可達(dá)毫米級(jí),是物體的真實(shí)三維數(shù)據(jù),也正好用來為基于圖像深度學(xué)習(xí)的建模方法提供評(píng)價(jià)數(shù)據(jù)庫,缺點(diǎn)是儀器的成本太高。
人臉的三維模型以RGB 圖像作為輸入,重建相應(yīng)的三維人臉網(wǎng)格。傳統(tǒng)方法為使得到的3D 模型更接近真實(shí)圖像,一般采用圖形學(xué)中基于柵格化的渲染來進(jìn)行模型參數(shù)的優(yōu)化。一方面,為盡可能地使模型逼近圖像,會(huì)采用更高自由度的參數(shù)化模型表達(dá)人臉的表面紋理;另一方面,在渲染結(jié)果比對(duì)上會(huì)采用模糊化的方式使渲染結(jié)果與圖像之間的差異以一種可微分的方式傳遞給3D 模型。
5.2.1 3DMM 技術(shù)
早期基于深度學(xué)習(xí)的三維人臉重建都是基于三維形變模型(3D morphable model,3DMM)的技術(shù)來實(shí)現(xiàn)。3DMM 就是一個(gè)允許形變的三維模型,原理是將世界上的所有人臉都看作由一個(gè)標(biāo)準(zhǔn)的人臉模型經(jīng)過一些變形而生成。其強(qiáng)大之處在于不是依靠人工,而是給定兩組系數(shù),分別是形狀系數(shù)、顏色系數(shù)。不同的3DMM 模型定義的系數(shù)有些許差別,如表6 所示,實(shí)際上,后面還延伸出一種表情系數(shù)。
表6 3DMM 系數(shù)定義及其含義Table 6 Definition and meaning of 3DMM coefficient
Zhu 團(tuán)隊(duì)[105]最早通過級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)將密集的3D 可變形人臉模型(3DMM)[106]擬合到圖像,提出三維密集面部對(duì)齊(3D dense facial alignment,3DDFA)的新對(duì)齊框架,利用3D 信息在個(gè)人資料視圖中合成人臉圖像。Feng 團(tuán)隊(duì)[107]提出直接同時(shí)重建3D 面部結(jié)構(gòu)并提供密集對(duì)齊,設(shè)計(jì)一種稱為UV 位置圖的二維表示,它記錄UV 空間中完整人臉的3D 形狀,然后訓(xùn)練一個(gè)簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)以從單個(gè)2D 圖像中對(duì)其進(jìn)行回歸。將權(quán)重掩碼集成到損失函數(shù)中,以提高網(wǎng)絡(luò)的性能,同時(shí)不依賴于任何先前的人臉模型,并且可以重建完整的人臉幾何形狀以及語義。
大部分方法都屬于有監(jiān)督學(xué)習(xí),需要大量的標(biāo)注數(shù)據(jù),而帶有真實(shí)3D 人臉形狀的圖片是相對(duì)比較稀少的,而且這種標(biāo)注也費(fèi)時(shí)費(fèi)力,很難完成?;?DMM 技術(shù),Deng 團(tuán)隊(duì)[108]設(shè)計(jì)一種同時(shí)考慮重建的人臉模型渲染得到的圖片和輸入圖片的像素值應(yīng)盡可能一致,以及重建的人臉模型渲染得到的圖片和輸入圖片的內(nèi)在特征應(yīng)盡可能一致的魯棒的損失函數(shù)。Genova 團(tuán)隊(duì)[109]提出一種僅使用未標(biāo)記照片訓(xùn)練從圖像像素到3D 可變形模型坐標(biāo)的回歸網(wǎng)絡(luò)的方法。訓(xùn)練損失基于來自面部識(shí)別網(wǎng)絡(luò)的特征,通過使用可微渲染器預(yù)測(cè)的面部來即時(shí)計(jì)算。實(shí)現(xiàn)三個(gè)目標(biāo),鼓勵(lì)輸出分布與可變形模型的分布相匹配的批量分布損失,確保網(wǎng)絡(luò)可以正確重新解釋其自身輸出的環(huán)回?fù)p失,以及多視角身份損失,從多個(gè)視角比較預(yù)測(cè)的3D人臉和輸入照片的特征。Tewari團(tuán)隊(duì)[110]將卷積編碼器網(wǎng)絡(luò)與用作解碼器的專家設(shè)計(jì)的生成模型相結(jié)合,構(gòu)建新的可微參數(shù)解碼器。該團(tuán)隊(duì)基于生成模型分析性地封裝圖像形成,將具有精確定義的語義的代碼向量作為輸入,對(duì)詳細(xì)的面部姿勢(shì)、形狀、表情、皮膚反射率和場(chǎng)景照明進(jìn)行編碼,以無監(jiān)督的方式進(jìn)行端到端的訓(xùn)練,使得對(duì)非常大的真實(shí)世界數(shù)據(jù)的訓(xùn)練變得可行。
3D 人臉形狀重建的關(guān)鍵挑戰(zhàn)是在可變形網(wǎng)格和單個(gè)輸入圖像之間建立正確的密集人臉對(duì)應(yīng)關(guān)系。以前的人臉三維重建工作嚴(yán)重依賴先驗(yàn)知識(shí)(例如3DMM)來減少深度歧義。盡管最近3D 人臉重建取得令人印象深刻的結(jié)果,但投影的面部形狀更好地與每個(gè)面部區(qū)域(即眼睛、嘴巴、鼻子、臉頰等)在圖像上對(duì)應(yīng)關(guān)系仍然有很大改進(jìn)的空間。
Zhu 團(tuán)隊(duì)[111]為進(jìn)一步減少歧義,提出一種稱為強(qiáng)化可微屬性的新框架,它比以前的可微渲染更通用和有效。首先從顏色擴(kuò)展到更廣泛的屬性,包括深度和面部解析掩碼。之后通過一組具有多尺度內(nèi)核大小的卷積操作使渲染更具可區(qū)分性。進(jìn)一步引入一個(gè)新的位于3DMM 之上的自由變形層,以提供先驗(yàn)知識(shí)和進(jìn)行空間外建模。
針對(duì)在卡通動(dòng)漫領(lǐng)域的面部三維重建,Han 團(tuán)隊(duì)[71]提出一種基于深度學(xué)習(xí)的草圖用于3D 面部和漫畫建模的系統(tǒng)。用戶徒手繪制代表面部特征輪廓的不精確的二維線條,基于CNN 的深度回歸網(wǎng)絡(luò)設(shè)計(jì)用于從2D 草圖推斷3D 人臉模型。該網(wǎng)絡(luò)融合輸入草圖的CNN 和基于形狀的特征,并且有兩個(gè)獨(dú)立的全連接層分支,為雙線性人臉表示生成獨(dú)立的系數(shù)子集。同時(shí)該團(tuán)隊(duì)還構(gòu)建具有不同身份、表情和夸張程度的顯著擴(kuò)展的人臉數(shù)據(jù)庫,以促進(jìn)對(duì)人臉建模技術(shù)的進(jìn)一步研究和評(píng)估。
Dai 團(tuán)隊(duì)[112]提出Scan2Mesh 模型,將非結(jié)構(gòu)化且可能不完整的范圍掃描轉(zhuǎn)換為結(jié)構(gòu)化3D 網(wǎng)格表示。將3D 網(wǎng)格生成為一組頂點(diǎn)和面索引,生成模型建立在一系列頂點(diǎn)、邊和面的代理損失上。通過卷積和圖神經(jīng)網(wǎng)絡(luò)架構(gòu)的組合實(shí)現(xiàn)預(yù)測(cè)數(shù)據(jù)點(diǎn)和地面實(shí)況數(shù)據(jù)點(diǎn)之間的一對(duì)一離散映射,能夠預(yù)測(cè)緊湊的網(wǎng)格表示,實(shí)現(xiàn)類似于使用三維建模軟件手工創(chuàng)建的三維網(wǎng)格表示。
5.2.2 GAN 技術(shù)
利用深度卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)大功能,研究人員已經(jīng)進(jìn)行大量工作來從單個(gè)圖像重建3D 面部結(jié)構(gòu)。然而最新的工作中,紋理特征要么對(duì)應(yīng)于線性紋理空間的組件,要么由自動(dòng)編碼器直接從大量圖像中學(xué)習(xí)。在所有情況下,面部紋理重建的質(zhì)量仍然無法對(duì)具有高頻細(xì)節(jié)的面部紋理進(jìn)行建模。于是研究人員選擇采用一種截然不同的方法,利用生成對(duì)抗網(wǎng)絡(luò)的強(qiáng)大功能,從單個(gè)圖像重建面部紋理和形狀。
同樣是基于生成式對(duì)抗網(wǎng)絡(luò),Gecer 團(tuán)隊(duì)[113]訓(xùn)練一個(gè)非常強(qiáng)大的面部紋理先驗(yàn),提出新的基于自我監(jiān)督回歸的方法,利用非線性優(yōu)化找到最佳潛在參數(shù),在新的視角初始化出具有魯棒性的人臉并加快擬合過程。
尖端的3D 人臉重建方法使用非線性可變形人臉模型結(jié)合基于GAN 的解碼器來捕捉人的肖像和細(xì)節(jié),但無法生成漫射光照條件下中性表情和皮膚紋理,這對(duì)于在變化照明的虛擬環(huán)境中三維圖像重建是至關(guān)重要的。
受到StyleGAN[114]的啟發(fā),Piao 團(tuán)隊(duì)[115]構(gòu)建一種從輸入三維模型到生成圖像的平滑梯度,能夠以低精度建模獲得渲染質(zhì)量更高的圖像,與此同時(shí),采用生成網(wǎng)絡(luò)式的渲染器反向傳播算法,能夠獲得更具有圖像細(xì)節(jié)特征的重建人臉3D 模型。設(shè)計(jì)一個(gè)基于3D 人臉幾何信息的渲染模塊,在保持用隨機(jī)隱變量生成紋理的同時(shí)顯示地加入人臉的幾何信息。同樣是基于StyleGAN,Luo 團(tuán)隊(duì)[116]通過將非線性可變形人臉模型嵌入到StyleGAN2 網(wǎng)絡(luò)中來采用高度穩(wěn)健的歸一化3D 人臉生成器,這使得模型能夠生成詳細(xì)但標(biāo)準(zhǔn)化的面部資產(chǎn)。推理之后是感知細(xì)化步驟,該步驟使用生成的資產(chǎn)作為正則化來應(yīng)對(duì)歸一化人臉的有限可用訓(xùn)練樣本。
與傳統(tǒng)的二維深度學(xué)習(xí)任務(wù)一樣,基于視覺深度學(xué)習(xí)的三維重建算法的研究同樣也十分依賴于數(shù)據(jù)集的進(jìn)步和發(fā)展。對(duì)于需要監(jiān)督學(xué)習(xí)的三維重建算法,三維數(shù)據(jù)集除需要包含二維圖像外,還需要對(duì)應(yīng)的、采用合適的深度特征表示的三維數(shù)據(jù)。除此以外,無監(jiān)督學(xué)習(xí)和弱監(jiān)督學(xué)習(xí)同樣也依賴于二維圖像外部參數(shù),例如攝像機(jī)的參數(shù)和拍攝位置信息等。
數(shù)據(jù)集的質(zhì)量和全面程度極大地影響著深度學(xué)習(xí)三維重建的發(fā)展。對(duì)于部分三維數(shù)據(jù)集,只有很小一部分?jǐn)?shù)據(jù)有著對(duì)應(yīng)的、精確的三維模型;而部分?jǐn)?shù)據(jù)集,只有每類目標(biāo)對(duì)應(yīng)的三維數(shù)據(jù),沒有相應(yīng)的二維數(shù)據(jù)(因?yàn)檫@部分三維數(shù)據(jù)最初是用來完成三維目標(biāo)檢索等任務(wù)的)。當(dāng)研究人員在選用數(shù)據(jù)集進(jìn)行深度學(xué)習(xí)網(wǎng)絡(luò)研究時(shí),還需考慮三維數(shù)據(jù)采用的深度特征表示是否適配網(wǎng)絡(luò)。
許多研究人員在早期可以選擇的數(shù)據(jù)集并不多的情況下,有些人會(huì)通過多種數(shù)據(jù)集組合到一起進(jìn)行實(shí)驗(yàn),還有一部分人會(huì)對(duì)現(xiàn)有的三維圖像進(jìn)行相應(yīng)的三維幾何變換(例如平移、旋轉(zhuǎn)和縮放等)。盡管這些方法豐富了數(shù)據(jù)集的數(shù)量,但還是導(dǎo)致數(shù)據(jù)集出現(xiàn)不夠統(tǒng)一或者相似性變高等問題[8]。還有研究人員在數(shù)據(jù)集沒有二維圖像的情況下,從各種視角、姿勢(shì)和照明條件生成新的2D 或深度圖像。這導(dǎo)致在深度學(xué)習(xí)中需要考慮域適應(yīng)的問題,即合成圖像不同于真實(shí)圖像,在合成圖像上進(jìn)行訓(xùn)練通常會(huì)導(dǎo)致在真實(shí)圖像測(cè)試時(shí)性能會(huì)發(fā)生下降。
數(shù)據(jù)集的發(fā)展依賴著三維重建算法的研究,同樣也促進(jìn)著三維重建算法。選用、組建合適的數(shù)據(jù)集去進(jìn)行實(shí)驗(yàn),會(huì)極大地幫助深度學(xué)習(xí)網(wǎng)絡(luò)研究成功,也是研究結(jié)果具備說服力的重要條件之一。表7列舉了近年來經(jīng)常被研究人員采用的數(shù)據(jù)集及主要參數(shù)。
表7 常見的三維重建數(shù)據(jù)集及其部分參數(shù)Table 7 Datasets and parameters of common 3D reconstruction
相比于ImageNet 等千萬量級(jí)的二維圖像數(shù)據(jù)集,傳統(tǒng)的三維形狀數(shù)據(jù)集很小。最早的由Silberman等人[117]提出的NYU 數(shù)據(jù)集包含1 449 個(gè)RGBD 圖像,捕獲464 個(gè)不同的室內(nèi)場(chǎng)景,并帶有詳細(xì)的注釋。
近年來發(fā)布的較大的數(shù)據(jù)集有用于形狀分類與檢索的ModelNet 數(shù)據(jù)集[12]和ShapeNet 數(shù)據(jù)集[120]。ModelNet 數(shù)據(jù)集[12]包含來自662 類的127 915 個(gè)三維形狀,其子集Model10 包含來自10 類的4 899 個(gè)三維形狀,ModelNet40 包含來自40 類的12 311 個(gè)三維形狀。ShapeNet數(shù)據(jù)集[120]包含約300 萬個(gè)形狀,其子集ShapeNetCore包含來自55 類的51 300 個(gè)形狀。
7.1.1 影像娛樂工業(yè)
三維重建在影像娛樂工業(yè)領(lǐng)域已經(jīng)發(fā)展很多年。從業(yè)人員希望把更多的精力放到游戲或者程序本身的交互上,同時(shí)又希望對(duì)模型動(dòng)畫有足夠的掌控能力,大多數(shù)企業(yè)需要整理數(shù)據(jù)量驚人的模型貼圖動(dòng)畫資源庫,因此壓縮建模貼圖動(dòng)畫等工作十分重要。
資源庫主要還是通用的素材,針對(duì)特定要求仍需付出費(fèi)用和時(shí)間進(jìn)行重新建模,同時(shí)還要控制質(zhì)量。在模型重建方面,研究人員通過三維掃描進(jìn)行突破,但過程并不順利。早期三維掃描儀價(jià)格昂貴,精度低下,軟件配套也并不完備,對(duì)于如何處理破面、重疊等問題非常不理想。MeshMixer 技術(shù)[130]出來之后,極大促進(jìn)該技術(shù)的整體發(fā)展。三維軟件在這方面得到比較實(shí)用的解決方案,早期的光學(xué)掃描,對(duì)大尺寸物件基本無解,只能對(duì)昆蟲之類的小物件進(jìn)行掃描,而且對(duì)于多角度掃描的拼接操作復(fù)雜,耗時(shí)久。之后,手持掃描的出現(xiàn)極大地提高了精度,不足的是需要貼點(diǎn),成本高昂,且對(duì)不同類型的物件需適配不同型號(hào)才能達(dá)到較好效果。
同時(shí),人臉三維重建逐漸在影像娛樂工業(yè)領(lǐng)域得到廣泛應(yīng)用。最早的三維人臉重建并沒有針對(duì)人臉本身的特征,而是將成熟的通用三維重建方法應(yīng)用到人臉重建中。從2016 年開始,電影、游戲廠商開始大規(guī)模地采用照片重建進(jìn)行游戲人物和物品的建立,《如龍》等游戲海量地采用照片重建。
7.1.2 數(shù)字孿生與元宇宙
數(shù)字孿生指對(duì)機(jī)械或系統(tǒng)的精確虛擬復(fù)制,結(jié)合傳感器采集的實(shí)時(shí)數(shù)據(jù),盡可能全要素在計(jì)算機(jī)中映射某項(xiàng)產(chǎn)品、流程或服務(wù)。數(shù)字孿生系統(tǒng)具備的動(dòng)態(tài)仿真功能,能夠?qū)υO(shè)計(jì)模型在制造環(huán)節(jié)前進(jìn)行仿真,提前估計(jì)可行性、效率性,以及發(fā)現(xiàn)問題并反饋至設(shè)計(jì)進(jìn)行修改。在這個(gè)環(huán)節(jié)中,三維掃描能夠在某些領(lǐng)域,例如汽車油泥模型的設(shè)計(jì),提升物理實(shí)體和數(shù)字實(shí)體的轉(zhuǎn)化效率。在以數(shù)字孿生驅(qū)動(dòng)的設(shè)計(jì)中,數(shù)字模型是基礎(chǔ)。深度學(xué)習(xí)三維重建具備高效的建模能力,能在幾分鐘之內(nèi)快速創(chuàng)建實(shí)體的數(shù)字模型,并支持導(dǎo)入數(shù)字孿生系統(tǒng)。很多大型公司已經(jīng)在使用數(shù)字孿生發(fā)現(xiàn)問題并提高效率[131]。
在數(shù)字孿生的過程中,缺失或錯(cuò)誤的數(shù)據(jù)和采集頻率可能會(huì)扭曲結(jié)果,掩蓋故障。如果為某個(gè)物體或系統(tǒng)構(gòu)建數(shù)字孿生體,研究者必須為其各個(gè)部分建模。很多數(shù)字孿生都需要組合使用,例如一架虛擬飛機(jī)可能包含一個(gè)三維機(jī)身模型、一個(gè)三維故障診斷系統(tǒng)和一個(gè)三維監(jiān)測(cè)空氣和壓強(qiáng)的系統(tǒng)。德國生產(chǎn)商西門子為其產(chǎn)品和生產(chǎn)線創(chuàng)建許多數(shù)學(xué)模型和虛擬表達(dá),其中包括三維幾何模型和有限元分析,后者可以追蹤溫度、應(yīng)力和應(yīng)變。故障診斷和生命周期則交由其他模型處理。這些為不同目的所寫的軟件在被手工整合的時(shí)候,如果沒有標(biāo)準(zhǔn)或指南,大概率會(huì)出現(xiàn)其他錯(cuò)誤,就很難驗(yàn)證最終模型的精度。
7.1.3 醫(yī)學(xué)三維重建
在目前圖像處理領(lǐng)域中醫(yī)學(xué)三維重建技術(shù)得到廣泛應(yīng)用,在醫(yī)學(xué)研究方面具有創(chuàng)新意義,同時(shí)在醫(yī)學(xué)教育方面也發(fā)揮著指導(dǎo)作用。隨著科學(xué)技術(shù)的進(jìn)步和不斷地更新迭代,三維重建方法對(duì)臨床醫(yī)學(xué)產(chǎn)生深遠(yuǎn)影響。
外科手術(shù)中的三維重建過程是將患者原始數(shù)據(jù)導(dǎo)入三維重建軟件,再進(jìn)行三維建模,形成三維可視化模型,為醫(yī)生提供更豐富更直觀的病灶信息,使得醫(yī)生的診斷結(jié)果更精確?;谌S重建模型的手術(shù)操作模擬,讓醫(yī)生在術(shù)前掌握手術(shù)過程,有利于醫(yī)生提前進(jìn)行手術(shù)風(fēng)險(xiǎn)的評(píng)估和手術(shù)設(shè)計(jì)方案的規(guī)劃。對(duì)于經(jīng)驗(yàn)不足的醫(yī)生,三維重建可以幫助診斷患者病情,對(duì)于患者來說也很容易看明白自己病情的具體情況。除此以外,三維重建還可以作為術(shù)中導(dǎo)航。從精準(zhǔn)醫(yī)療來講,多一種驗(yàn)證手段保證手術(shù)的精準(zhǔn)度是可取的,通過三維重建技術(shù)建立“逼真”的模型,分割標(biāo)識(shí)出患者病灶區(qū)域的腫瘤、血管、神經(jīng)、骨質(zhì)等各個(gè)組織結(jié)構(gòu),利于醫(yī)生觀察與診斷,并數(shù)字化模擬手術(shù)操作過程,以優(yōu)化手術(shù)方案。術(shù)前與術(shù)后的數(shù)字化模擬對(duì)比,能夠預(yù)測(cè)手術(shù)效果,檢驗(yàn)手術(shù)設(shè)計(jì)方案。三維影像在不同科室應(yīng)用重點(diǎn)略有不同,三維影像可以做量化分析,比如對(duì)于肝膽外科進(jìn)行肝膽切除的應(yīng)用,術(shù)前精準(zhǔn)定位占位的分區(qū),評(píng)估余肝體積。
在外科之外,三維重建還有許多應(yīng)用。醫(yī)療機(jī)器人同樣依賴于三維重建的發(fā)展。醫(yī)療機(jī)器人是一種智能型服務(wù)機(jī)器人,它能獨(dú)自編制操作計(jì)劃,依據(jù)實(shí)際情況確定動(dòng)作程序,然后把動(dòng)作變?yōu)椴僮鳈C(jī)構(gòu)的運(yùn)動(dòng)。它具有廣泛的感覺系統(tǒng)、智能和精密執(zhí)行機(jī)構(gòu),從事醫(yī)療或輔助醫(yī)療工作。在醫(yī)學(xué)美容產(chǎn)業(yè)中,三維重建超越傳統(tǒng)模擬整形,從各角度立體動(dòng)態(tài)模擬,實(shí)現(xiàn)有效溝通,可以直觀地看到整形后的效果與對(duì)比變化。
7.1.4 文物重建
文物數(shù)字化已成為趨勢(shì)。文物古跡是人類不可再生、不可永生的寶貴資源,是人類文明發(fā)展的見證。文物古跡測(cè)繪不僅是一種保存文物數(shù)據(jù)的方法,也是展示人類文明的有效途徑。隨著科技的發(fā)展和文明的進(jìn)步,文化遺產(chǎn)的三維數(shù)字化重建將有更多的應(yīng)用場(chǎng)景,為弘揚(yáng)和傳承傳統(tǒng)文化起到促進(jìn)作用。
在當(dāng)今的文化遺產(chǎn)數(shù)字化保護(hù)領(lǐng)域,利用三維數(shù)字化掃描重建和虛擬現(xiàn)實(shí)技術(shù)已經(jīng)成為主要的手段。針對(duì)不同的對(duì)象,為獲得最佳的數(shù)據(jù)內(nèi)容,需要研究和利用對(duì)象的特點(diǎn),并結(jié)合最新的技術(shù)成果制定有針對(duì)性的技術(shù)方案。對(duì)于表面色彩信息豐富的對(duì)象,為再現(xiàn)真實(shí)的形態(tài)和表現(xiàn)色彩,目前一般采用三維掃描的方法獲取文物高精度點(diǎn)云位置信息,經(jīng)點(diǎn)云配準(zhǔn)、去噪和修補(bǔ)等優(yōu)化操作得到完整的網(wǎng)格模型,通過數(shù)碼相機(jī)多角度拍攝該文物的紋理圖像,經(jīng)人工貼圖技術(shù)和紋理映射方式,將紋理圖像貼在網(wǎng)格模型對(duì)應(yīng)的位置上,得到最終含紋理信息的數(shù)字模型。
近些年得益于民用無人機(jī)行業(yè)發(fā)展,相對(duì)于傳統(tǒng)航測(cè),利用無人機(jī)設(shè)備采集大型文物的數(shù)字影像的成本大大降低,并且無人機(jī)還提供高精度的影像位置信息,簡(jiǎn)化數(shù)據(jù)處理流程。利用軟件進(jìn)行三維建模效果很驚艷,如今的攝影測(cè)量解決方案已經(jīng)十分成熟,但是受光照條件影響,在精度和陰影部位等方面仍需要更多改進(jìn)。
7.1.5 自動(dòng)駕駛
隨著人工智能技術(shù)的不斷發(fā)展,自動(dòng)駕駛為解決交通擁堵、事故頻發(fā)等問題提供一種新途徑。自動(dòng)駕駛中如何對(duì)道路及障礙物進(jìn)行準(zhǔn)確識(shí)別或三維重建成為自動(dòng)駕駛的一個(gè)重要課題。
主動(dòng)式三維形狀獲取主要依靠傳感器收發(fā)數(shù)據(jù)。激光雷達(dá)是自動(dòng)駕駛中最重要的傳感器之一。激光雷達(dá)三維點(diǎn)云蘊(yùn)涵著豐富的空間位置信息,如空間各點(diǎn)之間相鄰結(jié)構(gòu)關(guān)系、被掃描物體表面的紋理細(xì)節(jié)等,極大地拓展自動(dòng)駕駛環(huán)境感知方法。三維激光雷達(dá)數(shù)據(jù)模擬生成是自動(dòng)駕駛汽車虛擬測(cè)試中的重要任務(wù)。建立高效、真實(shí)性強(qiáng)的障礙物三維激光點(diǎn)云仍然是自動(dòng)駕駛汽車虛擬測(cè)試的難點(diǎn)問題[132]。
汽車作為民用消費(fèi)品,激光雷達(dá)傳感器費(fèi)用昂貴,高性能視覺傳感器結(jié)合視覺算法實(shí)現(xiàn)被動(dòng)式三維重建逐漸走入自動(dòng)駕駛工業(yè)界視野。隨著計(jì)算機(jī)視覺領(lǐng)域三維重建的研究,通過提升算法的性能,提高三維模型的準(zhǔn)確率和時(shí)效性,逐漸滿足現(xiàn)在交通場(chǎng)景的要求。然而在優(yōu)化視覺三維重建的抗干擾性能和數(shù)據(jù)處理速度方面仍然有待改善,若是能夠充分考慮這些方向,將對(duì)自動(dòng)駕駛汽車的舒適性、安全性、穩(wěn)定性產(chǎn)生巨大的影響。輕量級(jí)三維幾何深度生成模型,可用于實(shí)時(shí)、在線的室外場(chǎng)景導(dǎo)航、建圖和語義理解、生成、預(yù)測(cè)及臆想,是目前三維視覺的研究熱點(diǎn),對(duì)于面向語義任務(wù)的導(dǎo)航規(guī)劃具有重要意義。
三維深度學(xué)習(xí)強(qiáng)大的表征學(xué)習(xí)能力和幾何推理能力,為基于單視點(diǎn)圖像或不完整幾何數(shù)據(jù)的三維重建或恢復(fù)帶來實(shí)質(zhì)性推動(dòng)。目前主流方法大致有兩種:一是基于幾何推理的判別式模型,訓(xùn)練端到端神經(jīng)網(wǎng)絡(luò),將輸入圖像或幾何數(shù)據(jù)直接映射到目標(biāo)三維模型;二是面向形狀空間訓(xùn)練深度生成模型,學(xué)習(xí)三維對(duì)象的形狀空間,然后基于度量學(xué)習(xí)將輸入圖像或幾何數(shù)據(jù)嵌入到該形狀空間中,最后從該嵌入向量解碼出三維模型,從而實(shí)現(xiàn)對(duì)輸入的三維重建。
深度學(xué)習(xí)技術(shù)的成功在很大程度上取決于訓(xùn)練數(shù)據(jù)的可用性,大規(guī)模三維數(shù)據(jù)集的構(gòu)建是數(shù)據(jù)驅(qū)動(dòng)三維建模發(fā)展的關(guān)鍵。與分類和識(shí)別等任務(wù)中使用的訓(xùn)練數(shù)據(jù)集相比,包括圖像及其3D 注釋的公開可用的數(shù)據(jù)集很少,且其中多數(shù)依賴于基于輪廓的監(jiān)督,只能重建視覺表征。目前國際上公開的三維數(shù)據(jù)集已有不少,單個(gè)物體和室內(nèi)外場(chǎng)景都有覆蓋,但大多都是國外團(tuán)隊(duì)創(chuàng)建的。國內(nèi)在三維數(shù)據(jù)集方面的貢獻(xiàn)還有待加強(qiáng),在未具備足夠的訓(xùn)練數(shù)據(jù)的情況下,三維深度學(xué)習(xí)能力必將受到限制。因此構(gòu)建充足、精確的三維數(shù)據(jù)集是一項(xiàng)非常重要的任務(wù)。
事實(shí)上,三維重建方法的最終目標(biāo)是能夠從任意圖像中重建出任意的三維形狀。然而,基于學(xué)習(xí)的技術(shù)僅在訓(xùn)練集覆蓋的目標(biāo)種類和對(duì)象上表現(xiàn)良好。在2D 圖像的表示上,遷移學(xué)習(xí)取得成功,但如何將這些技術(shù)應(yīng)用于數(shù)據(jù)結(jié)構(gòu)較少的3D 領(lǐng)域仍不清楚,這將激發(fā)人們未來對(duì)專門針對(duì)3D 數(shù)據(jù)特質(zhì)設(shè)計(jì)的新型任務(wù)進(jìn)行研究。因而未來一個(gè)有實(shí)際意義的研究方向是將深度學(xué)習(xí)和遷移學(xué)習(xí)的技術(shù)相結(jié)合,以提高后者的普適性。
同時(shí)研究人員也期望在未來看到特定種類的知識(shí)建模和基于深度學(xué)習(xí)的3D 重建之間的更多協(xié)同作用,以便特定領(lǐng)域的應(yīng)用。例如當(dāng)前對(duì)人體模型的3D 重建借助拓?fù)浣Y(jié)構(gòu)與身體相似的衣服,這種方法將不適用于與身體顯著偏離的衣服,如裙子等。同時(shí),衣服褶皺往往是隨機(jī)的,對(duì)于特定的姿勢(shì),它們會(huì)存在不同的排序方式。然而,當(dāng)前的模型是確定性的,這無法處理類似褶皺的隨機(jī)的附加變量。針對(duì)這一問題,未來的工作可以將表面紋理考慮到反照率、形狀和照明中,以實(shí)現(xiàn)更逼真的掃描重建。學(xué)習(xí)服裝多樣性的生成模型應(yīng)該是可能的,但需要不同姿勢(shì)的各種服裝的訓(xùn)練數(shù)據(jù),這對(duì)國內(nèi)三維數(shù)據(jù)集的構(gòu)建又提出較為嚴(yán)格的要求。事實(shí)上,人們對(duì)專門針對(duì)特定類別物體的重建方法越來越感興趣,如人體(文中已簡(jiǎn)要介紹)、車輛、動(dòng)物、樹木和建筑物。專門的方法利用先驗(yàn)的和領(lǐng)域特定的知識(shí)來優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)及其培訓(xùn)過程,因此它們通常比一般框架執(zhí)行得更好。然而,類似于基于深度學(xué)習(xí)的3D 重建,建模先驗(yàn)知識(shí)(例如使用高級(jí)統(tǒng)計(jì)形狀模型)需要3D 注釋,這對(duì)于許多類別的形狀(例如野生動(dòng)物)不容易獲得。短期內(nèi)自動(dòng)建模無法完全取代人工建模,發(fā)揮數(shù)據(jù)驅(qū)動(dòng)方法的優(yōu)勢(shì),研究智能化的三維獲取與重建,需重點(diǎn)關(guān)注數(shù)據(jù)驅(qū)動(dòng)的主動(dòng)式三維獲取,針對(duì)形狀復(fù)雜、成像困難物體(如透明、反光物體)的三維重建,以及數(shù)據(jù)驅(qū)動(dòng)的語義理解。
結(jié)構(gòu)化三維表征學(xué)習(xí)是當(dāng)前三維深度學(xué)習(xí)的熱點(diǎn)。現(xiàn)有方法一般需要較強(qiáng)的監(jiān)督信息,例如對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行實(shí)例分割和部件標(biāo)注。如何設(shè)計(jì)無監(jiān)督或自監(jiān)督的深度網(wǎng)絡(luò),以無結(jié)構(gòu)三維表示為輸入,生成結(jié)構(gòu)化的三維表示,是值得關(guān)注的研究課題。
大趨勢(shì)上,三維重建領(lǐng)域逐漸向著商用化、實(shí)用化逐步邁進(jìn),對(duì)重建的實(shí)時(shí)性和重建質(zhì)量,以及對(duì)運(yùn)動(dòng)和渲染的真實(shí)感的要求越來越高;同時(shí)逐步由室內(nèi)簡(jiǎn)單環(huán)境下的人體三維重建,向著野外復(fù)雜環(huán)境下的三維重建過渡;所用設(shè)備逐步簡(jiǎn)單化,從多臺(tái)昂貴的攝像機(jī)向單目攝像機(jī),繼而向著消費(fèi)者級(jí)別的單目攝像機(jī),甚至是移動(dòng)端相機(jī)發(fā)展;同時(shí)重建目標(biāo)從單目標(biāo)向著多目標(biāo)的方向發(fā)展。近年來,越來越有效的自監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)方法不斷涌現(xiàn)。
三維重建是計(jì)算機(jī)視覺的重要任務(wù)之一。本文調(diào)查自2014 年以來使用深度學(xué)習(xí)重建通用對(duì)象的三維形狀的研究進(jìn)展,分別以輸入數(shù)據(jù)深度特征表示、網(wǎng)絡(luò)架構(gòu)以及它們使用的訓(xùn)練機(jī)制進(jìn)行分類,詳細(xì)闡述每類方法的發(fā)展過程和改進(jìn)。然后討論每個(gè)類別方法的優(yōu)缺點(diǎn)及重大改進(jìn)。同時(shí)還梳理近年出現(xiàn)的三維重建新領(lǐng)域,例如三維補(bǔ)全和修復(fù)、人體三維重建的發(fā)展脈絡(luò),并簡(jiǎn)單進(jìn)行分類和比較。深度學(xué)習(xí)三維重建這個(gè)計(jì)算機(jī)視覺新興領(lǐng)域的數(shù)據(jù)集體量小,標(biāo)準(zhǔn)混亂,本文對(duì)三維數(shù)據(jù)集的應(yīng)用場(chǎng)景、重要參數(shù)進(jìn)行總結(jié),同時(shí)也期待有更全面、更完善的數(shù)據(jù)集出現(xiàn)。本文著力于通過深度學(xué)習(xí)的方法從一幅或多幅RGB 圖像中復(fù)原物體的3D 幾何形狀的3D重建,還有許多其他相關(guān)問題有著相似的解決方案本文并沒有過多地討論,比如SLAM(simultaneous localization and mapping)[133]、SfM(structure-frommotion)[134]、點(diǎn)云語義分割等,這些領(lǐng)域在過去五年中有很多最新進(jìn)展,需要單獨(dú)進(jìn)行深入調(diào)查。