中圖分類號:TS941.2 文獻(xiàn)標(biāo)志碼:A文章編號:2095-414X(2025)03-0022-05
0引言
隨著虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)技術(shù)的深入發(fā)展,三維人體重建的需求從靜態(tài)重建逐步擴(kuò)展至動態(tài)重建,重建模型精度不斷提升。SMPL系列參數(shù)化模型[-2最初通過調(diào)節(jié)姿態(tài)與形狀參數(shù)實(shí)現(xiàn)三維人體模型的重建,而SMPL-X[3-4的推出則在面部與手部的重建細(xì)節(jié)方面進(jìn)行了進(jìn)一步豐富。圖像處理算法結(jié)合單視角和多視角圖像的深度學(xué)習(xí)方法,通過構(gòu)建分割與編碼網(wǎng)絡(luò),提取人體參數(shù)信息[5-?;谙袼貙R的隱式函數(shù)PIFu和PIFuHD,采用局部匹配二維圖像像素與三維物體全局上下文的方式,實(shí)現(xiàn)了從圖像數(shù)據(jù)到三維表面及紋理信息的精準(zhǔn)推導(dǎo)[7-8]。針對全局特征提取過程中可能出現(xiàn)的遮擋問題,Densepos技術(shù)通過建模遮擋區(qū)域,生成精細(xì)的人體掩碼;PeeledHuman方法則利用剝離深度RGB圖像重建紋理信息;PARE方法通過部位可視化索引,在關(guān)注區(qū)域內(nèi)聚合特征信息,從而精確建模遮擋區(qū)域]?;谏鲜鋈S人體重建技術(shù)的發(fā)展,本研究提出通過單張圖像進(jìn)行三維人體動態(tài)建模的方法,以實(shí)現(xiàn)對運(yùn)動過程中人體狀態(tài)的重建。
1數(shù)據(jù)的獲取與處理
本文選取三名女性受試者,要求其運(yùn)動表現(xiàn)達(dá)到女性平均水平。受試者需挽起長發(fā),穿著運(yùn)動背心和緊身瑜伽長褲,避免佩戴飾品,以確保點(diǎn)云數(shù)據(jù)采集的準(zhǔn)確性和人體輪廓的清晰度。在受試者完成熱身并達(dá)到穩(wěn)定狀態(tài)后,使用Kinect設(shè)備采集150幀運(yùn)動數(shù)據(jù),涵蓋兩種運(yùn)動狀態(tài):以 5km/h 速度跑步和開合跳。為提高數(shù)據(jù)采集效率并標(biāo)準(zhǔn)化流程,Kinect與受試者之間的水平距離設(shè)定為 1.5m ,垂直對齊受試者胸部(圖1)。使用三腳架液壓云臺固定體感儀,確保數(shù)據(jù)采集過程穩(wěn)定。
使用MeshLab對原始數(shù)據(jù)進(jìn)行初步編輯,剔除毛發(fā)等雜質(zhì)。采用掩蔽泊松重建方法對三維掃描網(wǎng)格數(shù)據(jù)進(jìn)行預(yù)處理,修復(fù)噪聲和錯(cuò)位,生成無縫表面。考慮到三維點(diǎn)云數(shù)據(jù)中的冗余信息,采用二次邊緣提取降采樣策略,減少網(wǎng)格面數(shù),簡化模型以替代精細(xì)模型。通過迭代收縮頂點(diǎn)對和二次矩陣方法,保持曲面誤差在可接受范圍內(nèi)。最終,將處理后的彩色信息與深度信息融合,生成彩色點(diǎn)云數(shù)據(jù)集。
2 三維模型初始化
YOLOv8[是最新的目標(biāo)檢測算法,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,采用端到端深度學(xué)習(xí)架構(gòu),兼顧高效性與準(zhǔn)確性。與傳統(tǒng)的目標(biāo)檢測方法不同,YOLOv8通過單一網(wǎng)絡(luò)同時(shí)進(jìn)行目標(biāo)分類與位置回歸,顯著提高了推理速度和檢測精度。該算法在多個(gè)數(shù)據(jù)集上均表現(xiàn)優(yōu)異,適用于實(shí)時(shí)目標(biāo)檢測任務(wù),并支持目標(biāo)檢測、實(shí)例分割和關(guān)鍵點(diǎn)識別等多種功能,展現(xiàn)出強(qiáng)大的多任務(wù)學(xué)習(xí)能力。
實(shí)例分割是計(jì)算機(jī)視覺中的重要任務(wù),旨在實(shí)現(xiàn)對圖像中每個(gè)目標(biāo)的像素級分割,不僅能區(qū)分同一類別中的不同實(shí)例,還能準(zhǔn)確識別各實(shí)例的邊界。與語義分割不同,實(shí)例分割需要在同一類別的多個(gè)實(shí)例之間進(jìn)行區(qū)分。YOLOv8在目標(biāo)檢測的基礎(chǔ)上,結(jié)合實(shí)例分割技術(shù),能夠精確分割圖像中各個(gè)實(shí)例,提升檢測的精度和效率。
本文采用YOLOv8算法執(zhí)行實(shí)例分割與三維重建任務(wù),該流程融合了目標(biāo)檢測、語義分割、精細(xì)實(shí)例區(qū)分和三維人體姿態(tài)與形狀估計(jì)。YOLOv8通過損失函數(shù)和回歸技術(shù),將深度特征圖上的關(guān)鍵點(diǎn)精確對齊至人體目標(biāo)的中心位置。通過損失函數(shù)量化預(yù)測中心點(diǎn)與實(shí)際中心點(diǎn)之間的差異,計(jì)算L1和L2損失,并通過反向傳播優(yōu)化網(wǎng)絡(luò)參數(shù)[13。模型生成與特征圖尺寸一致的預(yù)測映射,其中每個(gè)像素編碼目標(biāo)中心點(diǎn)的概率或偏移量?;谠撔畔?,模型確定目標(biāo)中心點(diǎn)位置,并通過回歸頭精確估計(jì)邊界框尺寸及相對于中心點(diǎn)的偏移。結(jié)合非極大值抑制(NMS)算法[14],精確篩選高置信度邊界框,抑制冗余框,確保目標(biāo)人體的準(zhǔn)確界定。基于這些匹配的中心點(diǎn)和邊界框信息,結(jié)合深度特征圖,生成與輸入圖像尺寸一致的實(shí)例分割掩碼矩陣,二值化元素精確區(qū)分了人體與非人體區(qū)域。分割后的實(shí)例掩碼被傳輸至預(yù)先訓(xùn)練的SMPLer-X模型中,該模型由蔡中昂等人于2023年提出,是一種基于大數(shù)據(jù)與大模型的人體姿態(tài)和形狀估計(jì)(EHPS)方法[15]。SMPLer-X模型通過多數(shù)據(jù)集訓(xùn)練和模型擴(kuò)展,展現(xiàn)出高普適性和準(zhǔn)確性,能夠同時(shí)恢復(fù)身體、面部和手部的形狀與姿態(tài),尤其在處理多人物中心任務(wù)時(shí)表現(xiàn)出色。SMPLer-
X模型部分架構(gòu)如圖3所示,Neck模塊對手部與臉部特征圖進(jìn)行獨(dú)立分割處理,提升動態(tài)表現(xiàn)和細(xì)微表情的估計(jì)精度。特征映射作為線性變化過程,通過權(quán)重矩陣與偏置向量將圖像特征有效映射至SMPL模型參數(shù)空間,完成三維模型的初始化重建。該流程確保了人體的精確檢測與分割,并實(shí)現(xiàn)了對人體姿態(tài)、結(jié)構(gòu)和輪廓的深刻理解,為后續(xù)的圖像處理、分析和三維視覺任務(wù)提供了有力支持。
在獲取人體參數(shù)估計(jì)算法的輸出結(jié)果后,將其作為輸入?yún)?shù)導(dǎo)入SMPL-X模型框架,以啟動三維人體模型的初始化構(gòu)建3]。為了優(yōu)化三維模型在視覺表現(xiàn)上的精度與逼真度,使用相應(yīng)的Render類處理渲染步驟,該類接收包含頂點(diǎn)信息與面信息的模型數(shù)據(jù)作為輸人。在渲染初期,通過幾何變換將模型頂點(diǎn)從模型坐標(biāo)空間轉(zhuǎn)換至世界坐標(biāo)空間,并進(jìn)一步映射至相機(jī)坐標(biāo)空間。隨后,采用視錐體裁剪算法剔除視錐體外的頂點(diǎn)數(shù)據(jù),確保渲染結(jié)果的有效性。對于保留的頂點(diǎn),執(zhí)行投影變換計(jì)算其二維坐標(biāo),并依據(jù)頂點(diǎn)索引構(gòu)建三角形網(wǎng)格。通過應(yīng)用掃描線算法遍歷并填充每個(gè)三角形,利用插值方法精確計(jì)算三角形內(nèi)部像素的顏色、深度及紋理坐標(biāo)等參數(shù),確保遮擋關(guān)系正確,完成光柵化處理。所得二維渲染圖像將為后續(xù)的模型擬合提供指導(dǎo),旨在提升模型與真實(shí)人體形態(tài)的貼合程度。渲染完成后,基于光柵化處理得到的頂點(diǎn)與面信息,生成模型的深度圖與法向圖(圖4)。這些深度圖與法向圖將在后續(xù)的模型配準(zhǔn)、姿態(tài)估計(jì)及形狀分析等環(huán)節(jié)中發(fā)揮重要作用。
3SMPL-X模型的迭代擬合
基于單視角二維圖像提取的形狀與姿態(tài)參數(shù),初始化SMPL-X模型,并對點(diǎn)云數(shù)據(jù)與SMPL-X模型進(jìn)行精細(xì)化配準(zhǔn),以實(shí)現(xiàn)與實(shí)驗(yàn)對象的三維貼合重建。采用混合模型方法,建立輸入點(diǎn)云頂點(diǎn)與SMPL-X模型頂點(diǎn)間的對應(yīng)關(guān)系,并引入距離函數(shù)的擬合損失L 。該損失函數(shù)基于輸入點(diǎn)云頂點(diǎn) vn 構(gòu)成的高斯混合分布定義,點(diǎn)云頂點(diǎn) vn 構(gòu)建的高斯混合模型如公式1所示,其中 N,M 分別為點(diǎn)云與SMPL-X模型頂點(diǎn)數(shù), μ 為異常值比例, πmn 表示點(diǎn)云頂點(diǎn) vn 與SMPL-X模型頂點(diǎn) Mm 的對應(yīng)概率。通過定義條件分布 來衡量輸入點(diǎn)云頂點(diǎn) vn 與SMPL-X模型頂點(diǎn) M?m 的匹配程度,從而實(shí)現(xiàn)精細(xì)化對應(yīng)關(guān)系的建立,為后續(xù)三維重建提供支撐。
同時(shí)引入能量函數(shù) 的優(yōu)化策略,其中 Θ 代表SMPL-X模型的參數(shù)集, σ2 表示高斯分布的方差。通過迭代地調(diào)整參數(shù) Θ 和 σ2 ,最小化能量函數(shù)
,以實(shí)現(xiàn)對SMPL-X模型參數(shù)及高斯分布方差的優(yōu)化。為精確評估SMPL-X模型與輸入點(diǎn)云的差異,定義損失函數(shù) L (公式2),該函數(shù)融合了頂點(diǎn)間的后驗(yàn)概率 p(k)(m∣vn(θ)) 及歐氏距離平方的加權(quán)和。通過最小化該損失函數(shù),實(shí)現(xiàn)模型與點(diǎn)云的高精度對齊,提升三維重建的精確度。
為重建出更加精準(zhǔn)的三維模型,在基于頂點(diǎn)之間的配準(zhǔn)擬合后,定義關(guān)節(jié)點(diǎn)、輪廓、法向量、深度幾個(gè)維度的損失函數(shù)對模型進(jìn)行迭代優(yōu)化,損失函數(shù)計(jì)算流程如圖5所示。根據(jù)損失函數(shù)梯度,反向更新三維模型指導(dǎo)新一輪擬合的過程。將SMPL模型中三維關(guān)節(jié)點(diǎn)坐標(biāo)與二維關(guān)節(jié)地表核心關(guān)節(jié)信息歸一化于字典中,執(zhí)行精細(xì)坐標(biāo)映射,將原始圖像關(guān)節(jié)點(diǎn)與SMPL模型關(guān)節(jié)點(diǎn)對齊,計(jì)算位置偏差均值以表征關(guān)節(jié)點(diǎn)損失。利用torch.abs函數(shù)來計(jì)算預(yù)測輪廓掩碼數(shù)組與真實(shí)輪廓掩碼之間的逐像素差異,并通過.mean(函數(shù)計(jì)算整個(gè)圖像上的平均差異值,以此作為輪廓損失的量化指標(biāo)。對比輸入深度圖與SMPL模型渲染深度圖之間的絕對差異,通過邏輯與運(yùn)算將輸入掩碼與渲染掩碼相結(jié)合,確定共同覆蓋的有效人體區(qū)域。利用形態(tài)學(xué)操作來去除邊緣區(qū)域的小噪聲或不規(guī)則部分,從而精確計(jì)算出有效人體區(qū)域的深度損失。各損失函數(shù)計(jì)算代碼如表1所示,圖6為基于多維度擬合的過程
采用經(jīng)過優(yōu)化的三維人體模型進(jìn)行渲染處理,該過程依據(jù)所提取的頂點(diǎn)坐標(biāo)、法線向量等幾何信息,并可能涉及紋理貼圖、光照條件等多種渲染參數(shù)的配置。將這些詳盡的數(shù)據(jù)輸入至高性能渲染引擎中,渲染結(jié)果如圖7所示。該過程將人體網(wǎng)格(mesh)精準(zhǔn)地映射至SMPL-X模型之上,生成兼具精細(xì)人體紋理的三維模型。
4結(jié)語
本文融合圖像分割技術(shù)對單視角圖像進(jìn)行人體參數(shù)提取,構(gòu)建形態(tài)和多個(gè)關(guān)鍵點(diǎn)損失函數(shù)對SMPL-X模型進(jìn)行精細(xì)化迭代擬合,提出一種新的三維動態(tài)人體重建思路,精準(zhǔn)捕捉并重建人體運(yùn)動狀態(tài),為運(yùn)動力學(xué)研究和運(yùn)動位移分析提供了高質(zhì)量的原始數(shù)據(jù)。未來針對復(fù)雜運(yùn)動場景和遮擋情況的處理,將繼續(xù)探索更高效、更精確的三維人體重建算法進(jìn)一步提高三維人體重建精度和效率,探索三維人體重建技術(shù)在虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)等領(lǐng)域的應(yīng)用,推動人機(jī)交互技術(shù)的發(fā)展。
參考文獻(xiàn):
[1]LoperM,Mahmood N,Romero J,et al.SMPL:A Skinned Multi-personLinearModel[J].ACMTransactionsonGraphics (TOG),2015,34(6):1-16.
[2]BogoF,Kanazawaa,LassnerC,etal.Keep itSMPL:AutomaticEstimation of 3DHuman Pose and Shape froma Single Image[C].Proc of the European Conference on Computer Vision. Berlin: Springer,2016:561-578.
[3]Pavlakos G,ChoutasV,Ghorbani N,etal.Expressive body capture:3d hands,face,andbody fromasingle image[C].Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:10975-10985.
[4]Cai Z, YinW,ZengA,etal. Smpler-x:ScalingupExpressive Human Pose and ShapeEstimation[J].Advancesin Neural Information Processing Systems,2024,36.
[5]張冀,任志鵬,張榮華等.單目RGB穿衣人體的手部精細(xì)化 重建[J].計(jì)算機(jī)應(yīng)用研究,2024,41(12):300-306.
[6]牛澤海.多視角三維人體姿態(tài)估計(jì)方法研究[D].中國科學(xué) 院大學(xué)(中國科學(xué)院大學(xué)工程科學(xué)學(xué)院),2024.
[7]SaitoS,HuangZ,NatsumeR,etal.Pifu:Pixel-aligned ImplicitFunctionforHigh-resolution Clothed Human Digitization[C].Proceedings of the IEEE/CVF International Conference on ComputerVision.2019:2304-2314.
[8]Saito S,SimonT,SaragihJ,etal.Pifuhd:Multi-level Pixelaligned Implicit FunctionforHigh-resolution3DHuman Digitization[C] Proceedings of theIEEE/CVF Conference on ComputerVision and Pattern Recognition,2O2O: 84-93.
[9]UlerRA,Neverova N,KokkinosI.Densepose:DenseHuman PoseEstimation in the Wild[C]. Proceedings of the IEEE Conferenceon ComputerVisionand Pattern Recognition,2018: 7297- 7306.
[10]JinkaSS,ChackoR,SharmaA,etal.Peeledhuman:Robust ShapeRepresentation for Textured 3D Human Body Reconstruction[C].2O20 International Conference on 3D Vision (3DV)IEEE.2020:879-888.
[11]KOCABAS M, HUANG C-H P, HILLIGES O, et al. PARE: Part Attention Regressorfor 3D Human Body Estimation[C] Proceedings of the IEEE/CVF International Conference on ComputerVision.2021:11127-11137.
[12]Muhammad Hussain. YOLOv5,YOLOv8 and YOLOv10: The Go-To Detectors for Real-time Vision[J].Computer Visionand PatternRecognition,2024.
[13]邢燕,徐冬,洪沛霖,等.基于單視圖的帶紋理三維人體網(wǎng) 格參數(shù)化重建[J].合肥工業(yè)大學(xué)學(xué)報(bào)(自然科學(xué)版),2024, 47(3):347-353.
[14]ShaoqingR,KaimingH,RossG,etal.Faster R-CNN: TowardsReal-Time Object Detection With Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6): 1137-1149.
[15]Cai Z,Yin W,ZengA,et al. Smpler-x:Scalingup Expressive Human Pose and Shape Estimation[J].Advancesin Neural Information Processing Systems,2O24,36.
Abstract:Thre-dimensionalreconstructiontecholgycanomprehensivelyandacuratelyobserethelawsofmotionfromatee-di mensionalperspetive,ichisidelusediaticolbodymeasurements,withlativelylitleeseachonteodelingofte tionprocess.3Dhumanbodydynamicreconstructioncanefectivelycharacterisethehumanbody'smovementstateduringthemovement processadprovideimportantawdataforthestudyofmanmovementmehanics.Ithispapereproposeaparametric3Dumandy namicreconstructionmethodbasedonsingle-viewimage.YOLOv8technologyisusedtoinstantiatethesegmentationofthecapturedimage,extractthekeypointiformationoftheumanbodyinteRGBDimageinordertoitialisethSMPL-Xmodel,anddofinealign mentbetweenthepointclouddataandtheSMPL-Xmodelbasedothehybridmodelcorespondingtoteverticesof teoriginalpoint cloudandertift-odeldeailfthtlodataeperietalecttoghttsou depthsandnoralvectors,soastoachievethehapeandposeofthS-Xmodelandteexperimentalbjectmodelandtheexpientalbjecttoachievetheoptimalmatchingofshapeandpose.Thispaperprovidesanewideafordynamic3umanreconstruction,andthe motionanalysisbasedonthereconstructedmodelcanprovidepracticalsolutionsforehablitationtherapyandathetes'perfoanceenhancementIdiotisetdproideicaluppotfotasticiofractesatualtectioia ality,and personalised display in virtual fiting systems.
Keywords:three-dimensional human reconstruction; dynamic reconstruction; parametric modelling; SMPL-X
(責(zé)任編輯:李強(qiáng))