張肇軒,王誠(chéng)斌,楊 鑫,樸星霖,王鵬杰,尹寶才
基于模板替換的室內(nèi)場(chǎng)景建模方法研究
張肇軒1,王誠(chéng)斌1,楊 鑫1,樸星霖2,王鵬杰3,尹寶才1
(1. 大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2. 鵬城實(shí)驗(yàn)室,廣東 深圳 518055;3.大連民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,遼寧 大連 116600)
當(dāng)前,室內(nèi)場(chǎng)景建模相關(guān)研究已經(jīng)取得很多進(jìn)展,特別是基于多視角融合的建??蚣芘c基于單視角的建模框架的提出,增強(qiáng)了機(jī)器人的環(huán)境感知能力。但仍然存在以下不足:①基于多視角融合的建模方式預(yù)處理時(shí)間長(zhǎng),建模完成后需線下優(yōu)化過程,不能滿足特定條件下的建模需求;②基于單視角的建模算法輸出一般為體素,建模質(zhì)量較低,信息缺失嚴(yán)重,對(duì)于場(chǎng)景細(xì)節(jié)無(wú)法精確刻畫,難以滿足機(jī)器人交互的要求。特提出一種基于模板替換的室內(nèi)場(chǎng)景建模方法研究。首先,預(yù)處理由設(shè)備采集到的三維點(diǎn)云場(chǎng)景,分割出存在點(diǎn)云缺失的單個(gè)對(duì)象,并利用虛擬掃描技術(shù)采樣對(duì)象表面點(diǎn)并計(jì)算法向量與曲率。采用八叉樹網(wǎng)格結(jié)構(gòu),將點(diǎn)云的法向量與曲率信息分別存入網(wǎng)格中,再利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取高維特征向量,將其與數(shù)據(jù)庫(kù)中三維對(duì)象特征進(jìn)行歐氏距離比較,得到檢索序列。從序列中挑選出最相似的對(duì)象,利用迭代就近點(diǎn)(ICP)配準(zhǔn)方法,與掃描場(chǎng)景進(jìn)行配準(zhǔn),完成場(chǎng)景優(yōu)化。對(duì)提出的網(wǎng)絡(luò)模型在2個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行測(cè)試并表現(xiàn)出良好的性能。
機(jī)器人;室內(nèi)場(chǎng)景建模;卷積神經(jīng)網(wǎng)絡(luò);迭代就近點(diǎn)配準(zhǔn);點(diǎn)云
三維模型的質(zhì)量?jī)?yōu)劣對(duì)機(jī)器人交互、場(chǎng)景理解、無(wú)人駕駛等領(lǐng)域的研究有重要的影響。近些年隨著三維采集設(shè)備的更新及建模算法性能的提高,建模質(zhì)量有較大提高。但是,由于采集過程中一些客觀條件限制,如圖1所示,模型存在缺失、噪音的情況時(shí)有發(fā)生,模型的精度還不能達(dá)到要求。為解決這一問題,需要對(duì)掃描得到的模型進(jìn)行優(yōu)化。目前,解決該問題的方法主要有 2種:①模型補(bǔ)全,即利用缺失區(qū)域周圍的點(diǎn)云信息將殘缺部分?jǐn)M合;②模型替換,即在數(shù)據(jù)庫(kù)中尋找與掃描模型最為相似的模型,再將檢索出的數(shù)據(jù)庫(kù)模型與原掃描場(chǎng)景進(jìn)行配準(zhǔn)。本文采用模型替換的方法。深度學(xué)習(xí)技術(shù)的發(fā)展,為解決計(jì)算機(jī)視覺領(lǐng)域傳統(tǒng)問題提供了新的思路和方法。深度學(xué)習(xí),特別是卷積神經(jīng)網(wǎng)絡(luò)在二維圖像領(lǐng)域表現(xiàn)出強(qiáng)大的學(xué)習(xí)與抽象能力,在許多與二維圖片相關(guān)的視覺任務(wù)(分割、識(shí)別)中表現(xiàn)出色。正是這種高性能的表現(xiàn),使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)與三維對(duì)象進(jìn)行分析成為新的研究熱點(diǎn)。利用CNN對(duì)三維對(duì)象進(jìn)行分析與處理,得到更具一般化、信息更豐富、表示更加濃縮的三維對(duì)象特征,利用這些特征來(lái)解決三維領(lǐng)域一系列有挑戰(zhàn)性的工作。SU等[1]提出基于多視角CNN提取三維對(duì)象特征的方法,將三維對(duì)象多角度渲染為多張輪廓圖,利用CNN將其特征進(jìn)行融合,得到更加豐富的高維特征信息,用于分割與分類任務(wù),但該方法較依賴于視角選擇的合理性。MATURANA和SCHERER[2]將三維數(shù)據(jù)0~1體素化以滿足卷積操作要求,通過體素化的方式可以直接在三維空間進(jìn)行卷積、下采樣操作,其網(wǎng)絡(luò)模型雖解決了三維數(shù)據(jù)稀疏性高、不規(guī)則的問題,但是分辨率較低,對(duì)于模型的細(xì)節(jié)不夠敏感。TATARCHENKO等[3]針對(duì)0~1體素分辨率不高的問題,采用八叉樹網(wǎng)格重新對(duì)數(shù)據(jù)進(jìn)行組織,以提高網(wǎng)絡(luò)處理數(shù)據(jù)的分辨率,但是該方法進(jìn)行卷積、下采樣操作需要消耗大量的時(shí)間,時(shí)間成本較高。CHARLES等[4]通過使用CNN提取了二維投影的特征信息,并將其融合至三維體素信息中,最終得到高維特征。SONG等[5]同樣使用了CNN對(duì)輸入的單張深度圖像進(jìn)行了特征提取、融合,從而恢復(fù)出完整的場(chǎng)景體素表達(dá)。本文提出的模型采用八叉樹網(wǎng)格對(duì)數(shù)據(jù)進(jìn)行重新組織,將點(diǎn)云的2個(gè)具有代表性的特征,法線方向與曲率存入網(wǎng)格之中,通過CNN的卷積與下采樣操作,將三維對(duì)象映射于高維向量空間,將模型相似度與高維空間中的點(diǎn)之間的距離相關(guān)聯(lián),以達(dá)到模型檢索的目的,本文模型在ModelNet40[6]及ShapeNetCore55[7]基準(zhǔn)集上做測(cè)試,表現(xiàn)出良好的性能。本文方法采用的特征提取模型相較于基于多視角與基于體素的方法,多項(xiàng)測(cè)試指標(biāo)均有較大的提高,同時(shí)由于采用八叉樹的組織方式,網(wǎng)絡(luò)訓(xùn)練與測(cè)試時(shí)間大大縮短,時(shí)間成本進(jìn)一步減少。檢索出相似模型后,本文利用迭代就近點(diǎn)(iterative closest point, ICP)配準(zhǔn)[8]的方法,將模型與原場(chǎng)景進(jìn)行拼接與配準(zhǔn),完成精細(xì)化建模任務(wù)。
本文采用DAI等[9]提出的單視角建??蚣埽紫葘?duì)室內(nèi)場(chǎng)景進(jìn)行初次建模。該算法提出一種新穎的、實(shí)時(shí)的、端到端重建框架來(lái)完成建模任務(wù),對(duì)原有的姿態(tài)估計(jì)與幀優(yōu)化策略進(jìn)行改進(jìn),采用基于彩色圖與深度圖作為輸入的高效分層方法。但該算法受限于視角稀疏與自我遮擋等客觀條件,建模場(chǎng)景存在點(diǎn)云缺失的情況,如圖2所示。由于本文提出的建??蚣茚槍?duì)單個(gè)目標(biāo)對(duì)象進(jìn)行數(shù)據(jù)庫(kù)中模型檢索、替換與配準(zhǔn),故需對(duì)原始場(chǎng)景進(jìn)行分割以得到信息缺失的目標(biāo)對(duì)象。本文采用文獻(xiàn)[4]提出的點(diǎn)云分割算法得到目標(biāo)點(diǎn)云對(duì)象。
圖2 場(chǎng)景中存在信息缺失的目標(biāo)對(duì)象
該方法使用點(diǎn)對(duì)稱函數(shù)與目標(biāo)對(duì)稱網(wǎng)絡(luò)解決點(diǎn)云順序不固定與點(diǎn)云旋轉(zhuǎn)的難題,通過引入新的損失項(xiàng)來(lái)約束由于參數(shù)量大而導(dǎo)致的矩陣正交情況。最終,網(wǎng)絡(luò)使用多層感知機(jī)為每個(gè)點(diǎn)生成高維度特征向量,經(jīng)由非線性分類器處理,輸出每個(gè)點(diǎn)的分類向量,以完成對(duì)場(chǎng)景的分割。分割后目標(biāo)對(duì)象如圖3所示。
圖3 場(chǎng)景對(duì)象分割
為滿足CNN輸入的要求,需對(duì)分割完成后的目標(biāo)對(duì)象與數(shù)據(jù)庫(kù)中的模型進(jìn)行預(yù)處理以達(dá)到規(guī)則化的數(shù)據(jù)要求。預(yù)處理步驟如下:
步驟1.提取目標(biāo)對(duì)象表面法向量與曲率信息;
步驟2.使用八叉樹將點(diǎn)云對(duì)象網(wǎng)格化,并建立相應(yīng)的哈希索引表。
本文采用虛擬掃描技術(shù)對(duì)點(diǎn)云密集區(qū)域進(jìn)行采樣,選擇法向量方向變化最大的點(diǎn)作為采樣點(diǎn)的特征點(diǎn),將該點(diǎn)的法向量與曲率信息作為點(diǎn)云區(qū)域的底層特征。同時(shí)將14個(gè)虛擬相機(jī)放置在點(diǎn)云截?cái)嗲蝮w中心位置,朝向不同的方向,并在每個(gè)方向發(fā)射出16 000束平行光線,當(dāng)光線與點(diǎn)云的表面相交時(shí),即可將相交點(diǎn)視為對(duì)表面點(diǎn)的采樣。在采樣點(diǎn)周圍區(qū)域選取法向量變化最大的點(diǎn)作為該區(qū)域的特征點(diǎn),并計(jì)算某點(diǎn)與其臨近點(diǎn)之間法向量夾角的算術(shù)平均值為
確定的法向量之后,取臨近個(gè)點(diǎn)的曲率并求平均值,作為的曲率信息,即
其中,C為個(gè)臨近點(diǎn)的曲率。
八叉樹具有自適應(yīng)尺寸的三維網(wǎng)格結(jié)構(gòu),是二維的四叉樹結(jié)構(gòu)在三維空間的拓展,與傳統(tǒng)的體素網(wǎng)格相比,可以在相同分辨率下顯著減少對(duì)存儲(chǔ)的消耗。傳統(tǒng)的八叉樹結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)均含有指向子節(jié)點(diǎn)的指針,從而使訪問某節(jié)點(diǎn)的時(shí)間與樹的深度呈線性比例關(guān)系,最終導(dǎo)致處理結(jié)點(diǎn)間的運(yùn)算需要大量的時(shí)間,尤其是在處理高分辨率對(duì)象的情況下。為此,本文采用WANG等[10]提出的較新的八叉樹生成算法解決上述問題。該算法建立多個(gè)哈希表,表中分別存儲(chǔ)八叉樹中結(jié)點(diǎn)位置與狀態(tài)信息,通過表中的鍵值可快速查找節(jié)點(diǎn)的父子節(jié)點(diǎn)與兄弟節(jié)點(diǎn)位置信息,大大的縮短卷積操作所需的時(shí)間。圖4為用一個(gè)二層的四叉樹結(jié)構(gòu)表示二維圖形。
本文在建??蚣苤校瑢?chǎng)景中目標(biāo)對(duì)象與數(shù)據(jù)庫(kù)對(duì)象分別以八叉樹的形式進(jìn)行表達(dá)。首先將點(diǎn)云模型置于單位長(zhǎng)度的正方體包圍盒中,并對(duì)其進(jìn)行廣度優(yōu)先遞歸操作。遞歸過程如下:當(dāng)遍歷至八叉樹的第層時(shí),遞歸訪問所有包含模型邊界的節(jié)點(diǎn),并將包含模型邊界的包圍盒進(jìn)行8等分作為該節(jié)點(diǎn)的+1層子節(jié)點(diǎn),若某節(jié)點(diǎn)中不包含模型的任一部分時(shí),停止對(duì)該節(jié)點(diǎn)的劃分操作。八叉樹創(chuàng)建完成后,為減少進(jìn)行卷積、下采樣等操作所需要的時(shí)間,本文借鑒WANG等[10]提出的算法,為八叉樹的每一層節(jié)點(diǎn)均建立多個(gè)哈希表,且存儲(chǔ)一層中所有樹節(jié)點(diǎn)的位置信息及標(biāo)記信息,進(jìn)而保證子節(jié)點(diǎn)可以通過訪問散哈希中的鍵值快速找到父節(jié)點(diǎn)與兄弟節(jié)點(diǎn)位置。
哈希表可按類型分為以下2類:
(1) 散列哈希表:表中的鍵值表示第層節(jié)點(diǎn)與其第–1層父節(jié)點(diǎn)的相對(duì)位置關(guān)系,并按照升序
排列存入向量中,求鍵值得到
其中,xyz為八叉樹體素空間的坐標(biāo)位置。
(2) 標(biāo)記哈希表:表中第[]位置的鍵值為,該層[]節(jié)點(diǎn)為層的第個(gè)非空節(jié)點(diǎn),如節(jié)點(diǎn)為空則鍵值為0。使用標(biāo)記哈希表可快速的得到父節(jié)點(diǎn)的子節(jié)點(diǎn),例如八叉樹的層結(jié)點(diǎn)的標(biāo)簽向量,對(duì)于索引為的非空節(jié)點(diǎn),其第1個(gè)子節(jié)點(diǎn)的位置為=8×([]–1),同時(shí)[,+1,…,+7]為第1個(gè)子節(jié)點(diǎn)的相鄰節(jié)點(diǎn)。
在哈希表中進(jìn)行卷積計(jì)算過程為
其中,Oijk為被卷積的相鄰節(jié)點(diǎn);T(n)(·)為Oijk節(jié)點(diǎn)中存儲(chǔ)的n通道特征向量;為卷積層的權(quán)值,如果Oijk不存在,T(Oijk)設(shè)置為0。
特征提取網(wǎng)絡(luò)目標(biāo)為抽象出三維對(duì)象更加一般化的特征,將包含有法向量與曲率信息的八叉樹網(wǎng)格作為輸入,輸出高維特征向量作為檢索的依據(jù)。本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 檢索網(wǎng)絡(luò)結(jié)構(gòu)
特征提取網(wǎng)絡(luò)的目標(biāo)在于將輸入點(diǎn)云模型映射為高維空間中的一個(gè)向量,為可分別輸入存儲(chǔ)曲率信息與法向量信息的八叉樹網(wǎng)格,首先對(duì)上述 2個(gè)網(wǎng)格進(jìn)行4次卷積與下采樣操作,從而得到 2個(gè)64維特征向量;然后,對(duì)2個(gè)特征進(jìn)行融合,并將其輸入至后續(xù)的特征提取網(wǎng)絡(luò),經(jīng)過2次卷積與下采樣操作后,得到256維向量;最后,將256維特征向量輸入至全連接層,經(jīng)softmax操作后得到55維向量,此向量即為特征提取網(wǎng)絡(luò)的輸出結(jié)果。本文在卷積操作之后對(duì)數(shù)據(jù)進(jìn)行批標(biāo)準(zhǔn)化,從而可以消除數(shù)據(jù)分布對(duì)網(wǎng)絡(luò)訓(xùn)練的影響,同時(shí)在下采樣操作之前加入了非線性激活函數(shù)即為修正線性單元激活函數(shù),從而提高了模型的表達(dá)能力。為防止過擬合的情況發(fā)生,本文在全連接層之后加入Dropout層。將卷積操作、批標(biāo)準(zhǔn)化、修正線性單元激活函數(shù)、下采樣操作合并為一個(gè)基本操作單元用Q表示,特征提取網(wǎng)絡(luò)中每一層的特征圖數(shù)目設(shè)定為2max(1,9–),卷積層的卷積核設(shè)定為3。最終,淺層特征提取可表述為
訓(xùn)練特征提取網(wǎng)絡(luò)所使用的損失函數(shù)為交叉熵?fù)p失函數(shù),即
其中,為期望的輸出;為神經(jīng)元實(shí)際輸出;()為權(quán)重衰減項(xiàng)。
其中,和為旋轉(zhuǎn)平移矩陣,該算法能夠比較準(zhǔn)確地得到兩幀點(diǎn)云間的變換矩陣,為了克服其對(duì)于點(diǎn)云場(chǎng)景初始位置比較敏感的限制,特別是當(dāng)點(diǎn)云的初始變換矩陣選取得極不合理而導(dǎo)致陷入局部最優(yōu)點(diǎn)的問題。本文在預(yù)處理階段將掃描模型與數(shù)據(jù)庫(kù)模型正方向朝向一致,并通過將目標(biāo)對(duì)象與數(shù)據(jù)庫(kù)對(duì)象進(jìn)行配準(zhǔn)以獲取相應(yīng)的位姿參數(shù),最終通過融合的方式完成場(chǎng)景建模的過程。
本文的特征提取網(wǎng)絡(luò)可應(yīng)用于三維對(duì)象分類與檢索任務(wù)中,本文在ModelNet40[6]數(shù)據(jù)集上進(jìn)行三維模型分類的實(shí)驗(yàn)以檢驗(yàn)網(wǎng)絡(luò)模型在分類任務(wù)上的表現(xiàn),ModelNet40[6]數(shù)據(jù)集包含有40個(gè)大類,12 311個(gè)三維模型用于訓(xùn)練與測(cè)試。網(wǎng)絡(luò)在分類任務(wù)上性能表現(xiàn)及與其他模型對(duì)比實(shí)驗(yàn)結(jié)果見表1,其中的精確度計(jì)算如下
其中,f為網(wǎng)絡(luò)預(yù)測(cè)的三維對(duì)象標(biāo)簽信息;y為對(duì)象的真實(shí)標(biāo)簽信息;1(·)為符號(hào)函數(shù)為測(cè)試集合對(duì)象的總數(shù)目。
分析實(shí)驗(yàn)數(shù)據(jù)可知,本文提出的網(wǎng)絡(luò)模型在三維分類任務(wù)中的精確度優(yōu)于利用自編碼網(wǎng)絡(luò)進(jìn)行特征提取的3DShapeNet[6],同樣與基于CNN但使用0~1體素網(wǎng)格的VoxNet[2]相比,精準(zhǔn)度有明顯提升,說明八叉樹結(jié)構(gòu)與法向量、曲率特征使得三維對(duì)象間更有區(qū)分度。與基于多視角特征融合的GIFT[11]方法相比,精準(zhǔn)度有明顯提高,說明本網(wǎng)絡(luò)結(jié)構(gòu)可以直接從三維點(diǎn)云學(xué)習(xí)到數(shù)據(jù)分布規(guī)律。與利用一系列濾波器提取體素的淺層特征的FPNN[12]相比,分類預(yù)測(cè)的精準(zhǔn)度較高,說明本文的特征提取網(wǎng)絡(luò)能得到更具有代表性的特征。
表1 三維對(duì)象分類實(shí)驗(yàn)精準(zhǔn)度統(tǒng)計(jì)表
為驗(yàn)證特征提取網(wǎng)絡(luò)在檢索任務(wù)中的表現(xiàn),本文采用5個(gè)通用的指標(biāo)衡量網(wǎng)絡(luò)的性能。實(shí)驗(yàn)使用ShapeNetcore55[7]數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),測(cè)試集中每個(gè)對(duì)象均作為查詢模型,整個(gè)測(cè)試集作為待檢索目標(biāo)集合。檢索實(shí)驗(yàn)中,對(duì)于生成的檢索序列中的每一個(gè)對(duì)象,為其設(shè)置一個(gè)狀態(tài)值,當(dāng)網(wǎng)絡(luò)對(duì)目標(biāo)模型預(yù)測(cè)的類標(biāo)簽與序列中的已知的類標(biāo)簽一致時(shí),狀態(tài)值為1,反之狀態(tài)值為0,其準(zhǔn)確率與回歸率分別表示為
其中,t為在檢索序列中正值的數(shù)目;f為在檢索序列中與目標(biāo)模型類標(biāo)簽不一致的對(duì)象的數(shù)目;f為在該序列中沒有被檢索出的對(duì)象模型;t+f為數(shù)據(jù)集合中該類模型的總數(shù)。
準(zhǔn)確率和回歸率的計(jì)算并沒有什么必然的相關(guān)性關(guān)系,但是,在大規(guī)模數(shù)據(jù)集合中,這2個(gè)指標(biāo)往往是相互制約的。在實(shí)際中需要根據(jù)具體情況做出取舍,本實(shí)驗(yàn)引入F-Score綜合權(quán)衡這2個(gè)指標(biāo),即
當(dāng)=1時(shí),稱為F1-Score,此時(shí)精確率和回歸率權(quán)重相同,視為同等重要。
本實(shí)驗(yàn)引入平均精度均值指標(biāo)衡量檢索模型的性能,即
其中,為每個(gè)類的平均檢索精度;為需要預(yù)測(cè)類的總數(shù),且的計(jì)算為
其中,precision為類中每一對(duì)象的精確度;N為每一類對(duì)象的總數(shù)。
本文利用歸一化折損累積增益NDCG指標(biāo)衡量得到檢索序列的相關(guān)度指標(biāo),與檢索目標(biāo)相關(guān)度越高的對(duì)象在序列中排名靠前,且NDCG值越高,即
其中,為折扣累積獲得,即
其中,1為檢索序列中每一項(xiàng)的得分,分值與序列中每一項(xiàng)與檢索目標(biāo)對(duì)象類與子類標(biāo)簽是否一致有關(guān),當(dāng)類和子類一致時(shí)計(jì)為2分,只有主類別相同,子類別不同的項(xiàng)計(jì)為1,完全不匹配的為0。本文體征提取網(wǎng)絡(luò)完成模型檢索實(shí)驗(yàn)后,利用檢索結(jié)果計(jì)算得到相應(yīng)的5個(gè)測(cè)試指標(biāo)結(jié)果,并與相應(yīng)的算法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果見表2。
表2 三維模型檢索實(shí)驗(yàn)效果評(píng)估
實(shí)驗(yàn)結(jié)果表明,本文模型在檢測(cè)檢索性能的各項(xiàng)數(shù)據(jù)上均優(yōu)于基于多視角與0-1體素的方法,特別是NDCG指標(biāo)準(zhǔn)確率可達(dá)90%,表明檢索中備選對(duì)象的排名順序準(zhǔn)確度較高。與CM-CNN,Channel-Wise,ZFDR[13]等基于二維視角融合與逐通道進(jìn)行特征提取的算法相比,本實(shí)驗(yàn)的檢索準(zhǔn)確度更高。
在經(jīng)過特征提取網(wǎng)絡(luò)得到相應(yīng)的特征之后,待替換對(duì)象通過與數(shù)據(jù)庫(kù)模型進(jìn)行特征的匹配與檢索,得到最相似的模型集合,人為挑選出最相似的模型進(jìn)行下一步的配準(zhǔn)。首先將2個(gè)模型的正方向保持一致,然后通過最近點(diǎn)匹配算法不斷地進(jìn)行 2個(gè)點(diǎn)集的匹配以完成場(chǎng)景配準(zhǔn)任務(wù),配準(zhǔn)結(jié)果如圖6所示,場(chǎng)景內(nèi)的椅子與桌子均被數(shù)據(jù)庫(kù)中最相似模型進(jìn)行替換。
圖6 場(chǎng)景建模結(jié)果圖
綜上所述,本文提出的基于模板替換的室內(nèi)場(chǎng)景建??蚣埽脭?shù)據(jù)庫(kù)中相似的三維模型替換信息缺失的目標(biāo)對(duì)象再經(jīng)過場(chǎng)景配準(zhǔn)完成場(chǎng)景建模任務(wù)。該框架對(duì)于場(chǎng)景中存在結(jié)構(gòu)損失嚴(yán)重,有大部分缺失的目標(biāo)對(duì)象時(shí)有較好的建模效果,原因在于基于模板替換的方式使用整體替換的方式進(jìn)行建模,只要特征提取網(wǎng)絡(luò)能得到較好的特征,并且能檢索出相似的模型,有利于得到較好的場(chǎng)景復(fù)原效果。所以當(dāng)場(chǎng)景中信息缺失較嚴(yán)重時(shí),采用模板替換的建模方式往往有不錯(cuò)的效果。但是,當(dāng)要完成的任務(wù)需要比較精細(xì)化的建模效果時(shí),且對(duì)于真實(shí)性要求較高或?qū)ξ恢眯畔⒈容^敏感時(shí),基于模板替換的建??蚣苡捎跀?shù)據(jù)庫(kù)容量的限制會(huì)造成檢索出的模型與真實(shí)對(duì)象有較大的偏差。同時(shí),由于本文使用場(chǎng)景配準(zhǔn)的方式進(jìn)行重建,配準(zhǔn)的誤差也將影響模型的質(zhì)量,當(dāng)配準(zhǔn)的誤差較大時(shí),將導(dǎo)致三維對(duì)象的位置與位姿將有較大的偏差而不能滿足交互的要求。
三維建模是智能機(jī)器人導(dǎo)航與環(huán)境感知的重要技術(shù)前提,通過對(duì)場(chǎng)景進(jìn)行詳盡的描述與建模,機(jī)器人能通過這些信息進(jìn)行下一步交互。對(duì)不同應(yīng)用環(huán)境下進(jìn)行場(chǎng)景建模,進(jìn)而對(duì)場(chǎng)景進(jìn)行分析而做出準(zhǔn)確的場(chǎng)景評(píng)估,對(duì)精確評(píng)估場(chǎng)景狀況、有效提供下一步交互動(dòng)作具有重要意義。針對(duì)現(xiàn)存研究工作的不足,本文將重建結(jié)果的表現(xiàn)形式定位為點(diǎn)云,解決了傳統(tǒng)方法因輸出為體素導(dǎo)致的分辨率較低的問題,同時(shí)利用CNN對(duì)特征進(jìn)行提取,加速了模型匹配的進(jìn)程,從而可以在較短時(shí)間內(nèi)完成重建。
本文的主要工作為基于數(shù)據(jù)庫(kù)模板替換的方式對(duì)三維場(chǎng)景進(jìn)行重建。通過CNN提取目標(biāo)對(duì)象的高維度特征并依據(jù)特征相似度,在數(shù)據(jù)庫(kù)中檢索出最相似三維目標(biāo)模型,通過配準(zhǔn)的方式完成場(chǎng)景重建。
本文的創(chuàng)新點(diǎn)是利用數(shù)據(jù)驅(qū)動(dòng)的方式,以CNN提取更加具有抽象性、更加具有一般性的特征,利用此高維度特征作為檢索的依據(jù),能在數(shù)據(jù)庫(kù)中檢索出更加相似的模型,完成重建。
本文的不足在于數(shù)據(jù)庫(kù)模板替換的方式雖然可將不可見部分進(jìn)行補(bǔ)全,但是受限于數(shù)據(jù)庫(kù)的容量限制,建模的細(xì)節(jié)往往與真實(shí)場(chǎng)景有較大 差距。
[1] SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition[C]//2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 945-953.
[2] MATURANA D, SCHERER S. VoxNet: a 3D convolutional neural network for real-time object recognition[C]//2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2015: 922-928.
[3] TATARCHENKO M, DOSOVITSKIY A, BROX T. Octree generating networks: efficient convolutional architectures for high-resolution 3D outputs[C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 2088-2096.
[4] CHARLES R Q, SU H, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 652-660.
[5] SONG S R, YU F, ZENG A, et al. Semantic scene completion from a single depth image[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 1746-1754.
[6] WU Z, SONG S R, KHOSLA A, et al. 3D ShapeNets: a deep representation for volumetric shapes[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1912-1920.
[7] CHANG A X, FUNKHOUSER T, GUIBAS L, et al. Shapenet: an information-rich 3D model repository[EB/OL]. (2015-12-09) [2019-08-15].https://arxiv.org/abs/1512.03012.
[8] RUSINKIEWICZ S, LEVOY M. Efficient variants of the ICP algorithm[C]//Proceedings 3rd International Conference on 3-D Digital Imaging and Modeling. New York: IEEE Press, 2001:145-152.
[9] DAI A, NIE?NER M, ZOLLH?FER M, et al. Bundlefusion: real-time globally consistent 3D reconstruction using on-the-fly surface reintegration[J]. ACM Transactions on Graphics (ToG), 2017, 36(3): 24-32.
[10] WANG P S, LIU Y, GUO Y X, et al. O-CNN: octree-based convolutional neural networks for 3D shape analysis[J]. ACM Transactions on Graphics (TOG), 2017: 36(4): 72-80.
[11] BAI S, BAI X, ZHOU Z C, et al. GIFT: a real-time and scalable 3D shape search engine[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 5023-5032.
[12] LI Y, PIRK S, SU H, et al. Fpnn: field probing neural networks for 3D data[C]//Advances in Neural Information Processing Systems. New York: Curran Associates, 2016: 307-315.
[13] LI B, JOHAN H. 3D model retrieval using hybrid features and class information[J]. Multimedia Tools and Applications, 2013, 62(3): 821-846.
Indoor scene modeling method based on template replacement
ZHANG Zhao-xuan1, WANG Cheng-bin1, YANG Xin1, PIAO Xing-lin2, WANG Peng-jie3, YIN Bao-cai1
(1.School of Computer Science and Technology, Dalian University of Technology, Dalian Liaoning 116024, China;2. Peng Cheng Laboratory, Shenzhen Guangdong 518055, China;3. School of Computer Science and Engineering, Dalian Nationalities University, Dalian Liaoning 116600, China)
Nowadays, much progress has been made in the research of indoor scene modeling, especially the modeling frameworks based on multiple perspectives and single perspective, which has enhanced the robot’s environment perception. However, the following shortcomings still exist: ①The modeling method based on multiple perspectives requires a long pre-processing time, and the offline optimization process is required after the modeling is completed, which cannot meet the modeling requirements under specific conditions. ②The modeling algorithm based on single perspective is mainly output with voxels, so the modeling quality is low, and the information is missing seriously. The details of the scene cannot be accurately characterised, and it is difficult to meet the requirements of robot interaction. In view of the above deficiencies, this paper puts forward a method of indoor scene modeling based on template replacement. First, the three-dimensional point cloud scene is preprocessed to segment a single object with missing point cloud, and then the virtual scanning technology is used to sample the surface points of the object and calculate the corresponding normal vector and curvature. Next, the octree mesh is used to store the normal vector and the curvature information respectively. Furthermore, the high-dimensional feature vectors are extracted by the convolutional neural network (CNN), and the Euclidean distance is compared with the features of three-dimensional object in the database, so as to obtain the retrieval sequence. Finally, the most similar objects are selected from the sequence, and the iterative closest point (ICP) registration method is used to register with the scanning scene to complete the scene optimization. In this paper, the proposed network model is tested on two benchmark data sets and shows good performance.
robot; indoor scene modeling; convolutional neural network; iterative closest point registration; point cloud
TP 391
10.11996/JG.j.2095-302X.2020020270
A
2095-302X(2020)02-0270-07
2019-08-16;
2019-09-21
國(guó)家自然科學(xué)基金項(xiàng)目(91748104,61972067,61632006,U1811463,U1908214,61751203);國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018AAA0102003)
張肇軒(1994–),男,吉林松原人,博士研究生。主要研究方向?yàn)橛?jì)算機(jī)視覺。E-mail:zhaoxuanzhang@mail.dlut.edu.cn
楊 鑫(1984–),男,吉林四平人,教授,博士,博士生導(dǎo)師。主要研究方向?yàn)橛?jì)算機(jī)圖形學(xué)。E-mail:xinyang@dlut.edu.cn