北方工業(yè)大學信息學院 童立靖 楊鑫坡
人體形狀重建是一個廣泛的研究領域,通常與位姿重建共同進行。許多應用需要自動生成個性化的3D人體模型,包括虛擬現(xiàn)實和增強現(xiàn)實、娛樂、電話會議、虛擬試穿、生物識別或監(jiān)控。許多人類重建方法嘗試從一個或多個圖像中估計幾何形狀,所以被拍攝物體表面細節(jié)的成像效果對人體重建有著關鍵性的影響。但是受到輸入圖像成像效果的影響,導致丟失人體關鍵的圖像特征信息等影響。另外一方面,實驗所采用的模型主要使用各種深度掃描工具進行直立掃描獲取,透視投影較弱,這就會造成重建誤差、重建質量降低。
針對目前三維人體重建方法對于圖像成像效果影響,以及特定場景、模型掃描等限制,本文給出了基于相機標定的紋理映射方法。首先增加相機標定模塊,求解相機透視投影成像過程。推導出相機透視投影方程,計算圖像坐標系中的像素點與相機坐標系中的三維點之間的映射關系。對輸入的紋理圖像進行畸變校正,消除相機透視投影過程中造成的空間幾何變形,得到世界坐標系中待重建的真實人體位置、形狀和比例。最后通過單眼預測三維模型曲面和紋理預測,得到一個表面真實感更強的帶紋理特征的人體模型。
BodyNet[1]首先展示了使用SMPL[2]作為約束,僅需單張圖像作為輸入即可重建三維人體的技術。DeepHuman[2]采用SMPL[3]作為體積初始化,對復雜姿態(tài)獲得穩(wěn)定的結果。在早期的工作中,2D姿態(tài)已經(jīng)完全或部分手動點擊,后來的過程是自動,從深度神經(jīng)網(wǎng)絡進行2D地標檢測。在最近的工作中,SMPL模型已經(jīng)被集成到網(wǎng)絡架構中。這進一步地改進了自動化的這個過程。這些工作主要集中在魯棒姿態(tài)檢測上。形狀的估計通常局限于表面與骨長度的相關性。最重要的是,其形狀僅限于SMPL模型空間。
從單張圖像重建三維模型時,很難從單張照片中提取到我們重建所需的紋理數(shù)據(jù),尤其是對于圖像中物體的不可見區(qū)域,但是可以很容易地從輸入中對模型可見區(qū)域進行采樣取得可見區(qū)域的紋理。對于遮擋區(qū)域的紋理,由于不可通過輸入圖像采樣獲得,為了重建模型的完整紋理,只可設計另外的方法處理不可見區(qū)域[4]。引入了一種視圖合成技術對人體網(wǎng)格的紋理進行推理,能夠實現(xiàn)從單一視圖預測不可見區(qū)域視圖,然后融合兩個區(qū)域的視圖。但是這種方法的缺點是不能處理模型側視圖紋理,不能完美融合各個視圖之間的拼接區(qū)域。
本項研究為消除透視效應對三維姿態(tài)估計的影響,通過張正友棋盤相機標定方法獲取相機內(nèi)外參數(shù)。增加相機透視投影成像過程,我們設計利用相機位姿參數(shù),對紋理圖像進行校正。提升三維人體曲面重建和紋理映射的精度。該方法對觀看條件具有魯棒性,并且不需要一個詳細的場景模型。
由于世界坐標系被定義在棋盤格上,所以已知棋盤格標定板平面上的任意一點的Z軸坐標值為0。為圖
圖1 圖像校正并填充后結果展示圖Fig.1 Result images after image correction and filling
如圖2所示,為基于相機標定的紋理映射方法對不同視角的標定圖像進行人體表面網(wǎng)格的重建結果對比圖。從左到右:實驗過程中拍攝的標定圖像;三維人體網(wǎng)格重建和紋理映射整體效果;人體頭部、腿部、衣服表面等細節(jié)部分的網(wǎng)格重建效果。
圖2 俯視圖、側視圖人體表面紋理重建結果對比圖(上:[5]中單視圖重建方法,下:本文方法)Fig.2 Reconstruction results of human body surface texture in top view and side view(above:single view reconstruction method, next: our method)
圖2中展示了不同視角對人體表面進行網(wǎng)格重建的結果對比。明顯看出對于側視角和俯視角的網(wǎng)格重建結果,人體形變更加嚴重。而本文提出的基于相機標定的紋理映射方法,通過對俯視角、側視角的成像圖像進行校正,恢復人體真實比例和姿態(tài)等重要幾何特征,可以很明顯的看出重建后的人體比例更加接近真實情況。
通過實驗證明本文設計的基于相機標定的紋理映射方法,人體網(wǎng)格重建結果包含更多的局部表面細節(jié)。即使圖片中的人體身著的衣服款式各種各樣,設計的模型依然能夠相當精準的重建對應的3D模型。并且對于高度偏離訓練數(shù)據(jù)的輸入圖像,基于相機標定的紋理映射方法可以在三維人體重建的過程中校正圖像的畸變。解決了輸入圖像由于相機透視投影效應對紋理映射的影響,更進一步驗證了本文設計的基于相機位姿估計的紋理映射方法的有效性。未來的工作可能包括合并人類特定的先驗(例如,語義分割、姿態(tài)和參數(shù)三維人臉模型),并添加隱式表面的二維監(jiān)督,以進一步支持野外輸入。
引用
[1] VAROL G,CEYLAN D,RUSSELL B,et al.Bodynet:Volumetric Inference of 3d Human Body Shapes[C]//Proceedings of the European Conference on Computer Vision(ECCV),2018:20-36.
[2] ZHENG Z R,YU T,WEI Y X,et al.Deephuman:3d human reconstruction from a single image[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision,2019:7739-7749.
[3] LOPER M,MAHMOOD N,ROMERO J,et al.SMPL:A Skinned Multi-person Linear Model[J].ACM Transactions on Graphics(TOG), 2015,34(6):1-16.
[4] HSU S C.Blending 3D Model Textures by Image Projection:US,US201213479952[P].2015-12-29.
[5] SAITO S,HUANG Z,NATSUME R,et al.PIFu:Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision,2019:2304-2314.