中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-0033(2025)04-0047-05
Abstract:In view of the limitedaccuracy of humanbody 3Dmodeling technology,such as the lack of accurate projection to human body image contour and pose depth information,a human body 3D modeling algorithm is proposed based on stereo visionand Kinect camera.By matching the point cloud data set collected by Kinect camera with the initial human body model established under stereo vision technology, the model parameters are optimized constantly to realize the 3D modeling of human body based on a single image.The experimental results show that the root-mean-square eror of the proposed model is reduced by 31% on average compared with the Hmr algorithm,and the proposed model can be more accurately projected into the human body contour in the color image,and a more accurate human body 3D model can be reconstructed.
Key words:human body 3D modeling;computer vision;Kinect
隨著計(jì)算機(jī)視覺(jué)和圖形處理技術(shù)的迅速發(fā)展,基于圖像的三維人體建模技術(shù)在諸多領(lǐng)域有著越來(lái)越廣泛的應(yīng)用。針對(duì)人體三維建模方法,研究者們展開(kāi)了深入且廣泛的研究。目前在三維重建方面,較多采用的是通過(guò)參數(shù)化的模型構(gòu)建出人體的姿態(tài)信息。Wei等將采集到的二維關(guān)鍵點(diǎn)信息與人體的先驗(yàn)信息進(jìn)行融合,根據(jù)相應(yīng)的模型參數(shù)重建出人體的三維模型。魏雪霞等[3根據(jù)HMR深度學(xué)習(xí)模型預(yù)測(cè)SMPL-X模型的初始參數(shù),通過(guò)對(duì)模型參數(shù)的優(yōu)化求解擬合出人體的三維模型。鄭承緒等4根據(jù)特征金字塔網(wǎng)絡(luò)(FPN)和多層感知器(MLP)提取圖像上人體的多級(jí)特征圖,創(chuàng)建出誤差較小的人體三維模型,該模型具有良好的效果。耿璇等借助深度相機(jī)獲取人體的多幀圖像,運(yùn)用雙邊濾波算法對(duì)深度圖像缺失的信息加以補(bǔ)充,進(jìn)而重建出人體的三維模型。汪磊等采用卷積神經(jīng)網(wǎng)絡(luò)從圖像中提取出人體的表面特征,并將其與標(biāo)準(zhǔn)的人體模型進(jìn)行融合,該方法所生成的人體模型表現(xiàn)力較強(qiáng),但一些細(xì)節(jié)信息不夠逼真。錢融等使用SMPL模型和預(yù)估的關(guān)節(jié)點(diǎn)匹配,重建出與目標(biāo)人物姿勢(shì)、形態(tài)接近的三維模型,該方法生成的模型輪廓信息容易缺失。周瑾等[使用Kinect相機(jī)掃描出人體的深度點(diǎn)云,將可變?nèi)梭w模型與點(diǎn)云數(shù)據(jù)融合,快速生成三維人體模型,但是在融合的過(guò)程中會(huì)造成人體姿態(tài)、深度等信息的缺失。張廣翩等建立了一個(gè)將點(diǎn)云圖轉(zhuǎn)化為二值圖像的生成對(duì)抗網(wǎng)絡(luò)模型,根據(jù)采集的圖片和二維點(diǎn)云信息建立了三維人體模型,該方法建模的快速性較好。Cheng等[13利用采集的視頻對(duì)目標(biāo)人物進(jìn)行了三維重建,該方法需要目標(biāo)人物長(zhǎng)時(shí)間處于同一個(gè)姿態(tài),難以應(yīng)用到實(shí)際場(chǎng)景中。目前雖然研究人體三維建模技術(shù)的較多,但在人體三維重建技術(shù)中仍存在精度有限、精確投影至人體圖像輪廓、姿態(tài)深度信息缺失等問(wèn)題。針對(duì)此問(wèn)題,本文提出一種基于立體視覺(jué)和Kinect相機(jī)的人體三維建模算法,通過(guò)將Kinect相機(jī)采集的點(diǎn)云數(shù)據(jù)集與立體視覺(jué)技術(shù)下建立最初的人體模型相匹配,不斷優(yōu)化模型參數(shù),建立精確度更高的人體三維模型。
1算法總體設(shè)計(jì)
在人體三維建模技術(shù)中,要從二維圖像中重建出人體的三維模型,關(guān)鍵問(wèn)題在于依據(jù)有限的二維數(shù)據(jù)特征匹配出最優(yōu)的人體模型參數(shù),從而擬合出精度較高的人體三維模型,為達(dá)成這種目標(biāo),本文設(shè)計(jì)了一種基于立體視覺(jué)和Kinect相機(jī)的人體三維建模算法,該算法可以根據(jù)Kinect相機(jī)采集到的點(diǎn)云數(shù)據(jù)與立體視覺(jué)技術(shù)下建立最初的人體模型相匹配,利用相關(guān)算法不斷優(yōu)化模型參數(shù),快速精確地重建出精度高、姿態(tài)深度信息完整的人體三維模型。本文所提出的人體三維重建算法流程如圖1所示。
算法流程主要分為三個(gè)部分:第一步進(jìn)行數(shù)據(jù)預(yù)處理;第二步借助圖像進(jìn)行人體姿態(tài)估計(jì)獲得初始人體模型;第三步利用點(diǎn)云的距離約束對(duì)初始模型加以優(yōu)化,從而得到最終結(jié)果。
數(shù)據(jù)預(yù)處理:使用Kinect相機(jī)采集彩色圖和深度圖,利用Openpose[14]方法與Grabcut[15]方法對(duì)彩色圖像進(jìn)行人體關(guān)鍵點(diǎn)檢測(cè)與輪廓分割,并通過(guò)深度圖生成點(diǎn)云,采用閾值分割法去除點(diǎn)云中背景、其他物體等冗余數(shù)據(jù),得到單側(cè)
人體點(diǎn)云。
初始模型獲取:通過(guò)深度學(xué)習(xí) Hmr 算法進(jìn)行人體姿態(tài)估計(jì),得到初始體型和姿態(tài)參數(shù),再利用人體輪廓約束對(duì)兩個(gè)參數(shù)進(jìn)行修正,建立最初的人體三維模型。
建立最終模型:基于配準(zhǔn)算法,將最初的人體三維模型與測(cè)得的點(diǎn)云數(shù)據(jù)集進(jìn)行匹配,隨后借助能量函數(shù)不斷優(yōu)化模型參數(shù),使所建立的人體三維模型與點(diǎn)云數(shù)據(jù)間距離最短,進(jìn)而實(shí)現(xiàn)最終人體三維模型的構(gòu)建。
2人體三維建模算法
2.1立體視覺(jué)下基于 Hmr 算法的人體姿態(tài)估計(jì)
目前,CNN是建立人體相關(guān)部位較為成功的深度學(xué)習(xí)模型,雖然CNN可以在一定程度上解決三維姿態(tài)估計(jì)中維度缺失的問(wèn)題,但其泛化能力不足,所以本文利用立體視覺(jué)下人體輪廓項(xiàng)的約束對(duì)基于CNN的 Hmr 算法所得的結(jié)果進(jìn)行修正,主要解決改進(jìn)算法中存在的姿態(tài)估計(jì)不準(zhǔn)確、貼合圖像不準(zhǔn)確等問(wèn)題。
為了提高 Hmr 算法的泛化能力,減小其誤差,本文在Smplify算法的基礎(chǔ)上進(jìn)行改進(jìn)。將Hmr 算法的輸出作為人體輪廓優(yōu)化環(huán)節(jié)的輸入,并利用人體輪廓約束與人體關(guān)鍵點(diǎn)來(lái)優(yōu)化SMPL模型參數(shù)以貼合二維圖片中的人體圖像輪廓。本文使用的能量函數(shù)為:
E(β,θ)=Ei(β,θ;KJJes)+λθEθ(θ)+λaEa(θ)+λspEsp(θ;β)+ λβEβ(β)+λshEsh(θ) (1)其中, Jest 為通過(guò)Openpose方法得到二維關(guān)節(jié)點(diǎn)的位置, λθ,λa,λsp,λβ,λsh 分別為對(duì)應(yīng)能量項(xiàng)的權(quán)重參數(shù), Ei(β,θ;KJJest),Eθ(θ),Ea(θ),Esp(θ;β),Eβ(β) 均為Smlify算法使用的能量函數(shù),在此基礎(chǔ)上本文增添了能量項(xiàng) Esh(θ)
其中, Rr(θ) 是圖片中人體輪廓中渲染的人體模型,C 和 為人體輪廓分割圖的距離變換及其逆, w 為權(quán)重,利用4個(gè)不同層次高斯金字塔 G 來(lái)保證算法在求解局部最小值時(shí)具有魯棒性。模型參數(shù)均通過(guò)基于梯度的 Dogleg 進(jìn)行優(yōu)化,其中所有梯度均使用Python-Chumpy庫(kù)進(jìn)行自動(dòng)微分計(jì)算。所生成的人體三維模型如圖2所示,其中圖2(a)為人體模型投影到RGB圖片的人體輪廓所得結(jié)果,圖 2(b) 為人體模型與點(diǎn)云數(shù)據(jù)配準(zhǔn)結(jié)果圖。
2.2基于Kinect相機(jī)點(diǎn)云數(shù)據(jù)的人體三維建模在圖 2(b) 中的人體模型與點(diǎn)云數(shù)據(jù)配準(zhǔn)結(jié)果圖中可以看出,由于二維數(shù)據(jù)本身數(shù)據(jù)缺失的問(wèn)題,會(huì)致使所建立的三維模型精度受限,因此僅僅利用彩色圖像并不能夠精確的反應(yīng)人體的真實(shí)姿態(tài)。本文在基于圖像的人體姿態(tài)估計(jì)基礎(chǔ)上,通過(guò)剛體的兩視點(diǎn)云配準(zhǔn)方法進(jìn)行匹配,利用求得的能量函數(shù)調(diào)整模板模型,使得模板和所測(cè)得的點(diǎn)云間的距離最短,此時(shí)體型參數(shù)和姿態(tài)參數(shù)能夠準(zhǔn)確地描述出點(diǎn)云數(shù)據(jù)中的人體體型和姿態(tài)信息。能量函數(shù)構(gòu)造為:
E(β,θ)=λm2sEm2s+λβEβ(β)+λθEθ
其中, Em2s 為距離約束項(xiàng), Eβ 為體型先驗(yàn)約束項(xiàng),Eθ 為姿態(tài)約束。
在實(shí)現(xiàn)此算法時(shí),使用Kinect采集單幀點(diǎn)云數(shù)據(jù),進(jìn)行去噪后將部分點(diǎn)云數(shù)據(jù)作為模型輸入,對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行下采樣后,利用K最近鄰算法求解實(shí)測(cè)人體點(diǎn)云和模板間距離最小的對(duì)應(yīng)點(diǎn),并求解出體型參數(shù)和姿態(tài)參數(shù),實(shí)現(xiàn)人體三維建模。生成模型如圖3(a)所示,圖3(b)為重建模型和Kinect實(shí)測(cè)數(shù)據(jù)的配準(zhǔn)結(jié)果圖。
3結(jié)果與分析
本文算法利用Kinect相機(jī)采集的點(diǎn)云數(shù)據(jù)集與立體視覺(jué)技術(shù)下建立最初的人體模型相匹配,利用能量函數(shù)不斷優(yōu)化模型參數(shù),可以在很大程度上解決人體姿態(tài)深度信息缺失的問(wèn)題。為了驗(yàn)證本文算法可以廣泛應(yīng)用于基于單幅圖片人體的三維重建中,本文采取了人體常見(jiàn)不同姿態(tài)的數(shù)據(jù),所生成的結(jié)果如圖4所示,圖4中的圖 (a1)~(a4) 為Kinect相機(jī)采集的人體不同姿態(tài)下的深度點(diǎn)云數(shù)據(jù),圖 (b1)~ (b4) 為 Hmr 算法從二維數(shù)據(jù)中重建出的三維人體模型,圖 (c1)~(c4) 為 Hmr 算法重建出的模型投影到實(shí)測(cè)點(diǎn)云的相對(duì)位置圖,圖 (d1)~ (d4) 為本文算法從二維數(shù)據(jù)中重建出的三維人體模型,圖 (e1)~(e4) 為本文算法重建出的模型投影到實(shí)測(cè)點(diǎn)云的相對(duì)位置圖,對(duì)比相應(yīng)的點(diǎn)云數(shù)據(jù)結(jié)果。
將本文算法與 Hmr 算法相比較,從圖4中的圖 (b2)~(b4) 和圖 (d2)~(d4) 中可以看出, Hmr 算法重建出的人體三維模型在細(xì)節(jié)上存在一定誤差,存在姿態(tài)深度信息丟失的問(wèn)題,在人體關(guān)節(jié)幅度較大時(shí),不能很好地還原關(guān)節(jié)形態(tài),而本文算法重建出的人體三維模型可以將人體關(guān)節(jié)等細(xì)微處的姿態(tài)很好地體現(xiàn)。從圖4中的圖 (c2)~ Σ(c4) 和圖 Π(e2)~Π(e4) 可以看出, Hmr 算法將建立的三維模型投影到彩色圖像輪廓中時(shí)存在一定誤差,而本文算法可以較為準(zhǔn)確地將所建立的三維模型投影到彩色圖像中的人體輪廓,重建出比較精準(zhǔn)的人體三維模型。
為進(jìn)一步比較兩種算法在建模精度與建模效率上的差異,本文選取Huasdorff距離計(jì)算模型與點(diǎn)云的均方根誤差,用于描述本文算法與Hmr 算法所建立的模型與點(diǎn)云數(shù)據(jù)的擬合程度,并在時(shí)間性能上對(duì)兩種算法進(jìn)行比較。對(duì)比結(jié)果如表1所示。
均方根誤差越小說(shuō)明所建立的模型與所測(cè)點(diǎn)云數(shù)據(jù)擬合程度越好,所建立的模型精度越高,從表1的建模精度與建模效率的對(duì)比表中可以看出,本文算法在建模耗費(fèi)時(shí)間相差不多的情況下,均方根誤差相較于 Hmr 算法平均減少了 31% ,綜上所述,本文算法能夠有效地重建出高質(zhì)量的人體三維模型,有望在相關(guān)領(lǐng)域得到應(yīng)用。
4結(jié)論
本文聚焦于人體三維建模技術(shù)的現(xiàn)存瓶頸,深度剖析精度受限、輪廓投影偏差及姿態(tài)深度信息缺失等問(wèn)題,提出基于立體視覺(jué)與Kinect相機(jī)的人體三維建模算法。算法通過(guò)關(guān)鍵點(diǎn)檢測(cè)與人體輪廓約束構(gòu)建基準(zhǔn)模型,并借助Kinect采集的點(diǎn)云數(shù)據(jù)迭代優(yōu)化模型參數(shù),實(shí)現(xiàn)了從單幅圖像到高精度三維模型的跨越。試驗(yàn)結(jié)果充分驗(yàn)證了該算法的有效性與先進(jìn)性。相較于傳統(tǒng)Hmr算法,本文算法在建模精度上實(shí)現(xiàn)顯著突破,均方根誤差平均降低 31% ,有效解決了模型細(xì)節(jié)缺失與姿態(tài)還原不足的難題,尤其在人體關(guān)節(jié)等復(fù)雜部位的重建中,能夠精準(zhǔn)捕捉細(xì)微姿態(tài)變化。同時(shí),算法在輪廓投影環(huán)節(jié)表現(xiàn)優(yōu)異,可準(zhǔn)確將三維模型投影至彩色圖像人體輪廓,大幅提升模型與真實(shí)場(chǎng)景的契合度。在效率方面,本文算法耗時(shí)與 Hmr 算法相近,保證了實(shí)際應(yīng)用中的可行性與實(shí)時(shí)性。此外,本文算法對(duì)不同人體姿態(tài)數(shù)據(jù)的廣泛適應(yīng)性,彰顯了其在復(fù)雜場(chǎng)景下的穩(wěn)健性能,為虛擬現(xiàn)實(shí)、人機(jī)交互、醫(yī)學(xué)診療等領(lǐng)域提供了更可靠的技術(shù)支撐。未來(lái)研究將進(jìn)一步探索算法在動(dòng)態(tài)場(chǎng)景、多視角數(shù)據(jù)融合等方向的優(yōu)化,拓展其在工業(yè)設(shè)計(jì)、體育分析等更多場(chǎng)景的應(yīng)用邊界,持續(xù)推動(dòng)人體三維建模技術(shù)的發(fā)展。
參考文獻(xiàn):
[1]LIAO R J,LI Z,BHATTACHARYYA S,et al. PoseMapGait: a model-based gait recognition method withpose estimation maps and graph convolutional networks[J].Neurocomputing,2022,501:514-528.
[2]WEI S, RAMAKRISHNA V,KANADE T,et al. Convolutional posemachines[C/Proceedings of theIEEE Conference on ComputerVisionand Pattern necogmu0n,z010:4/24-4/52.
[3]魏雪霞,徐增波,王巧麗.基于二維圖像的參數(shù)化人體 建模[J].服裝學(xué)報(bào),2023,8(1):24-30.
[4]鄭承緒,姚劍敏,嚴(yán)群,等.基于序列幀的三維人體重建[J] 傳感器與微系統(tǒng),2022,41(12):33-37.
[5]SHEN WS,YUX F,LINJY,et al.Faster RCNN target detection algorithm integrating CBAM and FPN[J]. Applied Sciences,2023,13(12):2076-3417,1569.
[6]MORADI S, GERDOOEI M, VAREDI-KOULAEI S M, et al.MLP neural network with an optimal architecture for modeling the ECAP-C procesJ].Neural Computing and Applications,2022,35(3):2701-2715.
[7]耿璇,王召巴,金永,等.基于單個(gè)深度相機(jī)的人體三維 重建[J].國(guó)外電子測(cè)量技術(shù),2020,39(9):143-146.
[8] 汪磊,嚴(yán)群,姚劍敏,等.基于圖卷積神經(jīng)網(wǎng)絡(luò)的人體三 維重建[J].廣播電視網(wǎng)絡(luò),2021,28(4):34-38.
[9]錢融,王勇,王瑛.利用單目圖像重建人體三維模型[J]. 信息與電腦(理論版),2021,33(5):60-64.
[10]周瑾,潘建江,童晶,等.使用Kinect快速重建三維人體[J] 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2013,25(6):873-879.
[11]張廣翩,計(jì)忠平.基于二維點(diǎn)云圖的三維人體建模方 法[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(19):205-215.
[12] ZHOU H, ZENG X,LIN B,et al. Polarization motivating high-performance weak targets'imaging based on adual-discriminator GAN[J].Optics Express,2024,32(3): 3835-3851.
[13]CHENGZ,CHENY,MARTINRR,etal.Parametric modeling of 3D human body shape———A survey [J]. Computersamp; Graphics,2018,71:88-100.
[14] ENDO Y,YAGI K,MORI Y,et al. Tele-Snap: a joint impedance estimation system using snap motor and openpose for remote rehabilitation diagnosis[J].Advanced Robotics,2023,37(8):528-539.
[15] WU H,LIU YL, XU XR, et al. Object detection based on the grabcut method for automatic mask generation [J].Micromachines,2022,13(12):2095.
(責(zé)任編輯:李堆淑)