郭威強(qiáng) 胡立生
摘 要: 從天基安全系統(tǒng)的信息采集與目標(biāo)識別的角度出發(fā),使用神經(jīng)網(wǎng)絡(luò)的方法對目標(biāo)物的三維重構(gòu)進(jìn)行研究。實(shí)現(xiàn)了從物體二維圖像到三維立體的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),該神經(jīng)網(wǎng)絡(luò)由特征編碼、循環(huán)學(xué)習(xí)、解碼三個部分組成,并對網(wǎng)絡(luò)輸出的體素概率模型進(jìn)行Delaunay三角剖分和Loop細(xì)分,最終得到了目標(biāo)物點(diǎn)集致密、細(xì)節(jié)良好的重構(gòu)模型。該方法應(yīng)用于天基安全智能打擊系統(tǒng),有效減少了對照片數(shù)量的要求、減輕運(yùn)算壓力,提高偵察安全性。
關(guān)鍵詞: 天基安全智能打擊; 神經(jīng)網(wǎng)絡(luò); 三維重構(gòu)
中圖分類號: TP311 ? ? ?文獻(xiàn)標(biāo)志碼: A
3D Reconstruction Based on Neural Network
GUO Weiqiang, HU Lisheng
(School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240)
Abstract: In terms of information collection and target recognition of space-based security systems, the method of 3-dimensional reconstruction using neural network is studied. The neural network structure from 2-dimensional images to 3-dimensional object is realized. It consists of three parts: feature coding, loop learning and decoding. The probabilistic model is outputted and the prime methods of optimizing it are Delaunay Triangulation and Loop Subdivision. Finally, a reconstruction model with detailed dense details is obtained. In the space-based security system, this method can effectively reduce the number of photos needed and calculating pressure, and improve the security of reconnaissance.
Key words: Space-based security strike system; Neural networks; 3D reconstruction
0 引言
天基信息系統(tǒng)是指由通信衛(wèi)星、偵察衛(wèi)星、導(dǎo)航衛(wèi)星及相應(yīng)的地面控制系統(tǒng)組成的,利用外層空間的航天器進(jìn)行信息獲取的系統(tǒng)。隨著空間信息日益融入政治、軍事、社會和文化,以及空間軍事化進(jìn)程的加速,空間安全已經(jīng)成為國家安全的重要領(lǐng)域。天基信息系統(tǒng)對于空間安全至關(guān)重要。在天基安全智能打擊任務(wù)中,需要對敵方衛(wèi)星進(jìn)行指向性打擊,破壞其圖像采集模塊,對敵方衛(wèi)星進(jìn)行快速、有效的識別成為該任務(wù)中的關(guān)鍵。
傳統(tǒng)的信息采集需要偵察衛(wèi)星對目標(biāo)衛(wèi)星進(jìn)行環(huán)繞飛行,通過采集到的目標(biāo)衛(wèi)星的圖像信息,判斷哪些位置可以成為指向打擊目標(biāo)。在此過程中,需要多角度下的目標(biāo)圖像才可以獲悉衛(wèi)星整體結(jié)構(gòu),再對目標(biāo)單元的相對位置進(jìn)行判斷。在此過程中,由于敵方衛(wèi)星的飛行軌跡等的不確定性,給繞飛飛行的軌跡規(guī)劃帶來了很大的困難性。因此,在此基礎(chǔ)上,本文提出利用神經(jīng)網(wǎng)絡(luò)完成三維成像任務(wù),在對目標(biāo)衛(wèi)星采集較少圖像的基礎(chǔ)上,實(shí)現(xiàn)目標(biāo)衛(wèi)星的三維重構(gòu)。與利用視覺進(jìn)行三維重構(gòu)相比,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行三維重構(gòu)可以大大減少對目標(biāo)物圖像數(shù)量的需求,很大程度上將減少設(shè)計采集圖像路線的繁瑣,確保了安全性、隱蔽性,提高了作戰(zhàn)時的靈活性。
三維物體重構(gòu)的核心目標(biāo),就是在物體的圖像數(shù)據(jù)的基礎(chǔ)上,利用計算機(jī)對這些圖像數(shù)據(jù)進(jìn)行處理分析,結(jié)合計算機(jī)視覺知識得到真實(shí)環(huán)境中物體的三維信息,重建物體的三維模型。一般地,三維重建技術(shù)可以分為兩大類,一種是將激光、聲波等介質(zhì)發(fā)射至目標(biāo)物體,利用物體的回波信息來獲得物體深度信息,這種方式被稱為主動式三維重建技術(shù);另一種便是被動式三維重建技術(shù),其利用自然光的反射獲得相機(jī)圖像,經(jīng)過特征匹配等算法從圖像中獲得物體的三維信息,主要分為如下三類:紋理恢復(fù)形狀法(Shape From Texture,SFT),陰影恢復(fù)形狀 (Shape From Shading,SFS),立體視覺法(Multi-View Stereo,MVS)。在二十世紀(jì)后期,在U.R.Dhond[1]等學(xué)者的推動下,基于雙目視覺的三維重構(gòu)方法在三維重構(gòu)領(lǐng)域取得了巨大成功。
上述的各種三維重構(gòu)相關(guān)的技術(shù)或者研究,都可以被歸納為實(shí)現(xiàn)三維重構(gòu)的傳統(tǒng)方法。不少研究深度學(xué)習(xí)的學(xué)者開始從深度學(xué)習(xí)出發(fā)實(shí)現(xiàn)三維重構(gòu),希望利用神經(jīng)網(wǎng)絡(luò)對圖片信息的處理優(yōu)勢,避免傳統(tǒng)方法對相片數(shù)量、質(zhì)量、運(yùn)算資源的依賴,提高重構(gòu)效果。Maxim Tatarchenko[2]等人使用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了利用單視角二維圖像獲得該物體的其他指定視角的圖像。Wu[3]等人在獲得深度圖的基礎(chǔ)上,利用深度置信網(wǎng)絡(luò)來預(yù)測三維立體體素出現(xiàn)概率,從而實(shí)現(xiàn)三維重構(gòu),但是該方法要求獲得目標(biāo)物的深度圖,對成像設(shè)備要求較高。Vetter[4]等學(xué)者利用高質(zhì)量的面部掃描圖像,在大量關(guān)鍵點(diǎn)標(biāo)注和特征區(qū)域分割的前提下,也實(shí)現(xiàn)了單張照片重構(gòu)人臉信息,但是該方法只能獲得單一視角下的三維信息,并且對于圖像標(biāo)注要求較高。
在現(xiàn)有研究的基礎(chǔ)上,本文使用ShapeNet[5]數(shù)據(jù)集,旨在用生活中常出現(xiàn)的物體進(jìn)行方法可行性的探究,在單張照片輸入或者少量照片輸入的情況下,提取二維圖像的特征向量,再利用該特征完成三維立體的重建。之后,對重建出來的三維體素信息進(jìn)行可視化優(yōu)化,經(jīng)過Delaunay三角剖分和Loop細(xì)分,得到點(diǎn)集致密的三維物體表面。該過程體現(xiàn)出了利用神經(jīng)網(wǎng)絡(luò)進(jìn)行三維重構(gòu)方法的可行性。
1 網(wǎng)絡(luò)介紹
本文所使用的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
包含了特征編碼、循環(huán)學(xué)習(xí)、解碼三大部分。特征編碼部分提取照片中的特征信息,循環(huán)學(xué)習(xí)部分獲得多張照片之間的聯(lián)系,解碼部分將循環(huán)學(xué)習(xí)的結(jié)果解碼為物體的三維結(jié)構(gòu)。
1.1 卷積部分
1962年,Hubel和Wiesel[6]發(fā)現(xiàn)初級視覺皮層中的神經(jīng)元會響應(yīng)視覺環(huán)境中特定的簡單特征(尤其是有向的邊)。他們對簡單細(xì)胞(它們只在非常特定的空間位置對它們偏好的方向起最強(qiáng)烈的響應(yīng))和復(fù)雜細(xì)胞(它們的響應(yīng)有更大的空間不變性)的發(fā)現(xiàn),發(fā)展成為了卷積神經(jīng)網(wǎng)絡(luò)的兩個重要基礎(chǔ):對特定特征的選擇性、前饋連接增大空間不變性。模仿人觀察物體時的視覺神經(jīng)元的工作機(jī)理,本文首先使用卷積神經(jīng)網(wǎng)絡(luò)對物體圖像進(jìn)行處理,利用卷積神經(jīng)網(wǎng)絡(luò)局部感知、權(quán)值共享的處理方式,對物體圖像特征實(shí)現(xiàn)抽象化提取。合理有效的特征提取方式是實(shí)現(xiàn)三維重構(gòu)任務(wù)的前提與保障。
1.2 循環(huán)學(xué)習(xí)部分
人在觀察物體時,通過轉(zhuǎn)換角度,獲得多角度的物體視圖,從而不斷豐富對物體的認(rèn)知。對于神經(jīng)網(wǎng)絡(luò)來說,同樣需要獲得多張輸入圖像之間的相互聯(lián)系。因此本文參考Choy[7]提出的3D-R2N2模型,設(shè)計的網(wǎng)絡(luò)核心部分為3D-LSTM,如圖2所示。
傳統(tǒng)LSTM單元在每個時刻,可以獲取該時刻的輸入和上一時刻的記憶細(xì)胞的隱藏狀態(tài);不同的是,3D-LSTM在獲取卷積網(wǎng)絡(luò)得到的特征向量輸入和上一時刻的記憶細(xì)胞的隱藏狀態(tài)的同時,還會獲得周圍空間的LSTM單元的上一時刻的隱藏狀態(tài),這三部分信息都將作為該單元當(dāng)前時刻的輸入信息。
3D-LSTM可以利用其他照片中的區(qū)域信息實(shí)現(xiàn)該部分重構(gòu)結(jié)果的完善,最終每個單元負(fù)責(zé)重構(gòu)一部分三維物體,共同完成物體的重構(gòu)工作。其運(yùn)算如下,其中,ft和it分別代表了遺忘門和輸入門,因?yàn)樵摼W(wǎng)絡(luò)只需要在最后進(jìn)行輸出,因此相比傳統(tǒng)的LSTM,也減少了輸出門。st和ht分別代表了神經(jīng)元狀態(tài)和隱藏層,同時ht也為輸出向量。T(xt)為第t張照片經(jīng)過第一部分的卷積處理得到的特征向量和周圍單元的隱藏狀態(tài)的組合,矩陣W表示待訓(xùn)練參數(shù)。該部分包含有兩種激活函數(shù):σ(·)表示Sigmoid函數(shù),tanh·表示雙曲正切函數(shù)。ft=σ(WfTxt+Ufht-1+bf)
(1)
it=σ(WiTxt+Uiht-1+bi)
(2)
st=ft⊙st-1+it⊙tanh(WsTxt+Usht-1+bs)
(3)
ht=tanh(st)
(4) ?從3D-LSTM單元的運(yùn)算過程可以看出,每個運(yùn)算單元既可以獲得與周圍單元的聯(lián)系,也可以獲得與其他照片中的空間單元的聯(lián)系。在增加輸入照片數(shù)量的情況下,該設(shè)計可以使得不同視角下的物體結(jié)構(gòu)信息互相補(bǔ)充。相較于傳統(tǒng)的點(diǎn)云配準(zhǔn)方法,由于網(wǎng)絡(luò)的設(shè)計更加具有普遍性,因此在增加照片數(shù)量的情況下,神經(jīng)網(wǎng)絡(luò)的快速性得以體現(xiàn)。同時,在單圖像輸入的情況下,雖然無法獲得與其他照片中空間單元的聯(lián)系,該部分仍可以實(shí)現(xiàn)從特征向量到初始立體模型的轉(zhuǎn)變。
1.3 反卷積部分
在神經(jīng)網(wǎng)絡(luò)的研究中,反卷積更多的是充當(dāng)可視化作用。研究者以各層輸出的特征圖作為反卷積網(wǎng)絡(luò)的輸入,通過反卷積的還原,可以對卷積核的效果有清晰的可視化,以驗(yàn)證顯示各層提取到的特征圖的正確性。從某種角度來說,卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了從圖像到特征的轉(zhuǎn)換,這個過程是在降維,那么為了獲得物體的三維結(jié)構(gòu),則需要利用反卷積實(shí)現(xiàn)升維。
因此,本文利用反卷積網(wǎng)絡(luò)實(shí)現(xiàn)了這一過程。在經(jīng)過上層網(wǎng)絡(luò)提供的特征向量之后,反卷積網(wǎng)絡(luò)對特征向量演變得到的初始的立體模型層層細(xì)化,使得立體模型的分辨率不斷增加,最后輸出三維立體。反卷積解碼模塊主要由3D卷積層、非線性層以及3D反池化層組成,由LSTM單元輸出的隱藏層狀態(tài)ht通過反卷積各層,形成三維立體V,并且通過進(jìn)一步的反卷積增加分辨率,直到立體分辨率達(dá)到32×32×32時停止反卷積操作。
1.4 損失函數(shù)與評價指標(biāo)
在把LSTM輸出的隱藏層狀態(tài)ht轉(zhuǎn)化為存在三維體素概率模型之后,使用了基于體素單元的softmax,同時使每個體素(i,j,k)的概率值都服從伯努利分布[1-p(i,j,k),p(i,j,k)],其中輸入χ=xtt∈{1,…,T}的依賴項被忽略,定義每個輸入相對應(yīng)的真實(shí)預(yù)測值為y=(i,j,k)∈0,1,定義重構(gòu)網(wǎng)絡(luò)的損失為體素交叉熵的和。最終得到的損失函數(shù)的計算公式如下,其中i,j,k表示輸出三維體素的空間位置。 Lχ,y=∑i,j,kyi,j,klogpi,j,k+
1-yi,j,klog1-pi,j,k
(5) ?針對網(wǎng)絡(luò)輸出為三維立體的特點(diǎn),網(wǎng)絡(luò)使用了空間IoU(Intersection over Union),即網(wǎng)絡(luò)輸出三維模型與真實(shí)物體模型的重合度作為網(wǎng)絡(luò)的評價指標(biāo),該指標(biāo)有效地體現(xiàn)了重構(gòu)結(jié)果的準(zhǔn)確性高低。對于二維圖像來說,其表示含義如圖3所示。
對于本網(wǎng)絡(luò)中的重構(gòu)出來的三維立體,其計算方法如式(6)。
IoU=DetectionResult∩GroundTruthDetectionResult∪GroundTruth
(6)
2 可視化優(yōu)化及效果
網(wǎng)絡(luò)最終輸出為32×32×32個位置上存在體素的概率值。在此基礎(chǔ)上,首先利用設(shè)定閾值的方法,得到三維物體的體素模型,利用體素立方體表示的方法對三維物體進(jìn)行展示。該方法可以基本實(shí)現(xiàn)三維物體的展示,但細(xì)節(jié)表現(xiàn)不足。之后本文進(jìn)一步使用網(wǎng)格化和細(xì)分表示的方法,對表現(xiàn)效果進(jìn)行了優(yōu)化。
2.1 體素立方體表示
在經(jīng)過神經(jīng)網(wǎng)絡(luò)之后,可以得到圖像中物體的三維體素概率模型,每個體素的概率對應(yīng)了該位置存在體素單元的可能性,以0.6作為閾值,可以得到離散點(diǎn)構(gòu)成的三維模型,散點(diǎn)模型如圖4所示。
但是點(diǎn)沒有體積也沒有面積,點(diǎn)與點(diǎn)之間的空隙給人認(rèn)知物體地來了很大困難,同時沒有物體線與面的信息,整個物體的形態(tài)無法直觀獲得。
自然地,在此基礎(chǔ)上,得到了體素立方體的表示法。將三維模型離散信息中的體素單元用一個小立方體表示,像搭積木一樣將整個模型“搭建”起來,便可以獲得如圖4中的體素立方體表示。整體來看,網(wǎng)絡(luò)模型線、面結(jié)構(gòu)清晰,可以獲得物體的整體形狀。但是用立方體表示,使得模型在線、面表示上多出來很多凹凸部分,尤其是對于曲線型的棱邊以及曲面時,用體素立方體表示必定會帶來不平整感。
2.2 網(wǎng)格化表示
網(wǎng)格化體素,即將部分點(diǎn)用平面代替,便可以用盡可能少的點(diǎn)來表示模型,在這個過程中,用網(wǎng)格來表現(xiàn)物體外表面,不需要關(guān)注內(nèi)部的體素信息,計算速度得到提升,模型表達(dá)得以優(yōu)化。對于獲得的空間體素信息,使用空間Delaunay方法對點(diǎn)進(jìn)行體素點(diǎn)的三角剖分。得到三角化表示結(jié)果,如圖5所示。
之后,為了優(yōu)化最終結(jié)果,對網(wǎng)格進(jìn)行Loop細(xì)分。Loop細(xì)分由Loop在1987年提出,是一種面向三角形網(wǎng)格的細(xì)分方法。其采用面分裂的方式,在三角形網(wǎng)格的每條邊上插入點(diǎn),然后各點(diǎn)連接,形成了小三角形。從數(shù)量上進(jìn)行統(tǒng)計,每進(jìn)行一次細(xì)分,網(wǎng)格中的三角形數(shù)量都會變?yōu)樵瓉淼?倍。
如圖5中的Loop細(xì)分結(jié)果,可以看出經(jīng)過Loop細(xì)分之后,三維物體表面的點(diǎn)信息得到了大量擴(kuò)充,在大量點(diǎn)信息的基礎(chǔ)上,可以構(gòu)建出豐富的面,由細(xì)致的三角形網(wǎng)格組成的三維立體,除了在平面、棱角處有著很好的重構(gòu)精度外,在曲面的恢復(fù),棱角的轉(zhuǎn)折處也有著很好表現(xiàn)。
3 總結(jié)
從整體來看,本文利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了在單張圖片輸入情況下的三維重構(gòu)任務(wù),并且針對網(wǎng)絡(luò)輸出的三維體素概率模型進(jìn)行可視化優(yōu)化,效果良好。用ShapeNet中的測試集對本文網(wǎng)絡(luò)進(jìn)行測試,該測試集包含有13類物體共8 725個模型,最終實(shí)現(xiàn)了在單張照片輸入輸入情況下,IoU可以達(dá)到60.1%,再增加輸入圖象數(shù)的時,重構(gòu)精度也有明顯提升。
在目前研究的基礎(chǔ)上發(fā)現(xiàn),在單照片輸入或少照片輸入的情況下,可以有效地實(shí)現(xiàn)目標(biāo)物體的三維重構(gòu)。與傳統(tǒng)的目標(biāo)物信息獲取方式相比,該方式對輸入照片的數(shù)量、角度要求低,同時也有效降低了運(yùn)算壓力。由此可見,利用神經(jīng)網(wǎng)絡(luò)進(jìn)行三維重構(gòu)在天基信息系統(tǒng)的目標(biāo)檢測問題中有著巨大優(yōu)勢,但是就具體衛(wèi)星的類型、目標(biāo)原件的位置等問題仍有不少難點(diǎn),將繼續(xù)進(jìn)行進(jìn)一步研究。
參考文獻(xiàn)
[1] U R Dhond, J K Aggarval. Struct from Stereo—A Review[J]. IEEE Transactionson Systems, Man, and Cybemeties,1989,19(6): 1489-1510.
[2] Tatarchenko M, Dosovitskiy A, Brox T. Multi-view 3D Models from Single Images with a Convolutional Network[J]. Knowledge & Information Systems, 2015, 38(1):231-257.
[3] Z Wu, S Song, A. Khosla, et al. 3d shapenets: A deep representation for volumetric shapes[C]. In CVPR, pages 1912-1920, 2015.
[4] Blanz V. A morphable model for the synthesis of 3D faces[J]. Acm Siggraph, 2002: 187-194.
[5] Chang A X, Funkhouser T, Guibas L, et al. ShapeNet: An Information-Rich 3D Model Repository[J]. Computer Science, 2015, 4(6): 113-119.
[6] Choy Christopher B, Xu Danfei, Gwak Jun Young. 3D-R2N2: A Unified Approach for Single and Multi-view 3D Object Reconstruction[J]. 2016, 3(2): 628-644.
[7] Hubel D H, Wiesel T N. Early exploration of the visual cortex[J]. Neuron, 1998, 20(3):401.
(收稿日期: 2019.01.23)
作者簡介:郭威強(qiáng)(1994-),男,碩士研究生,研究方向:基于神經(jīng)網(wǎng)絡(luò)的三維重構(gòu)研究。
胡立生(1970-),男,教授,博士,研究方向:過程控制、控制性能評估與故障診斷等。文章編號:1007-757X(2020)02-0082-04