摘" 要:為了更好地傳承傳統(tǒng)文化皮影戲,提出了一套基于人體姿態(tài)估計(jì)的多維交互智能皮影系統(tǒng),包括皮影機(jī)器人和虛擬皮影人。該系統(tǒng)應(yīng)用了人體姿態(tài)估計(jì)網(wǎng)絡(luò),使用運(yùn)動(dòng)算法計(jì)算骨骼旋轉(zhuǎn)角度,并設(shè)計(jì)了一款類(lèi)人體機(jī)械結(jié)構(gòu)應(yīng)用到皮影上,可以與觀眾進(jìn)行多維交互。為了優(yōu)化皮影系統(tǒng)的流暢性,文章提出了針對(duì)皮影戲表演特點(diǎn)的基于透視投影約束的三維關(guān)鍵點(diǎn)優(yōu)化方案和防遮擋策略。在輸出上,增加了卡爾曼濾波,在Jetson AGX上將模型輕量化,并實(shí)現(xiàn)了TensorRT加速。經(jīng)過(guò)這些模塊處理后,皮影系統(tǒng)的識(shí)別準(zhǔn)確度和動(dòng)作流暢度都得到了不小于30%的提升,幀速率達(dá)到了33幀/秒。
關(guān)鍵詞:深度學(xué)習(xí);人體姿態(tài)估計(jì);多維交互;皮影戲
中圖分類(lèi)號(hào):TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)03-0056-06
Multi-dimensional Interactive Intelligent Shadow Play System Based on Human Pose Estimation
ZHAO Jianwen1, ZENG Junying1, QIN Chuanbo1, ZHANG Zhongheng1, WU Jiantao1, WU Liu2, NI Zijun1
(1.School of Electronics and Information Engineering, Wuyi University, Jiangmen" 529020, China;
2.Guangzhou Preschool Teachers College, Guangzhou" 511300, China)
Abstract: In order to better inherit traditional culture shadow play, a multi-dimensional interactive intelligent shadow play system based on human pose estimation is proposed, including shadow play robot and virtual shadow play person. The system applies a human pose estimation network, uses a motion algorithm to calculate the rotation angle of the bone, and designs a human-like mechanical structure applied to the shadow play, which can interact with the audience in multiple dimensions. In order to optimize the fluency of the shadow play system, this paper proposes a three-dimensional key point optimization scheme and anti-occlusion strategy based on perspective projection constraint for the characteristics of shadow play performances. In the output, the Kalman filter is added, the model is lightweight on Jetson AGX, and TensorRT acceleration is realized. After processing by these modules, the recognition accuracy and action fluency of the shadow play system are improved by no less than 30%, and the frame rate reaches 33 FPS.
Keywords: Deep Learning; human pose estimation; multi-dimensional interaction; shadow play
0" 引" 言
當(dāng)今社會(huì),受社會(huì)環(huán)境影響,優(yōu)秀傳統(tǒng)文化逐漸淡出人們的視野,以皮影戲?yàn)榇淼膬?yōu)秀傳統(tǒng)文化面臨著傳播形式缺乏創(chuàng)新、吸引力不足等難題。本文將人工智能融入非遺文化傳承,旨在為新時(shí)代傳統(tǒng)文化發(fā)展注入新動(dòng)力[1-2]。近年來(lái),深度學(xué)習(xí),尤其是人體姿態(tài)估計(jì)網(wǎng)絡(luò)的發(fā)展[3-5],為皮影戲的創(chuàng)新提供了有力的工具。傳統(tǒng)的皮影戲需要熟練的藝人手工操作,而皮影機(jī)器人和虛擬皮影數(shù)字人的創(chuàng)新使得操作變得更加簡(jiǎn)便,觀眾可以通過(guò)自身動(dòng)作與皮影機(jī)器人或虛擬數(shù)字人進(jìn)行交互。目前,基于深度學(xué)習(xí)的機(jī)器人已得到較為廣泛的應(yīng)用,主流方式為機(jī)械臂運(yùn)動(dòng),例如采用一種可拓展的皮影機(jī)器人裝置[6],崔鑫等[7]采用了機(jī)電一體化的設(shè)計(jì)。然而,隨著時(shí)代的進(jìn)步,上述方式已經(jīng)不能滿(mǎn)足當(dāng)代需求,它們無(wú)法進(jìn)行多維交互,而且皮影機(jī)器人的動(dòng)作顯得生硬。針對(duì)皮影戲傳承難的問(wèn)題,本文提出基于人體姿態(tài)評(píng)估的多維交互智能皮影系統(tǒng),期望能通過(guò)該系統(tǒng)提高人們對(duì)傳統(tǒng)文化的重視程度,活化傳統(tǒng)文化,從而增強(qiáng)人們的文化自信。
1" 智能皮影系統(tǒng)設(shè)計(jì)
本文提出的智能皮影系統(tǒng),主要包括圖像采集模塊、語(yǔ)音識(shí)別模塊、顯示終端、Jetson AGX、皮影機(jī)器人、虛擬數(shù)字人等。系統(tǒng)流程圖如圖1所示。
本套智能皮影系統(tǒng)可以進(jìn)行多維交互,包括實(shí)時(shí)交互、視頻交互、語(yǔ)音交互、手勢(shì)交互等多種交互方式。該系統(tǒng)可以滿(mǎn)足用戶(hù)的以下需求:
1)實(shí)時(shí)交互。利用USB攝像頭或CSI攝像頭通過(guò)實(shí)時(shí)拍攝獲取人體姿態(tài)估計(jì)檢測(cè)所需要的數(shù)據(jù),其分辨率不低于710P,傳輸速率不低于每秒30幀。攝像頭捕獲到畫(huà)面后,傳輸至Jetson AGX的MediaPipe Holistic進(jìn)行人體關(guān)鍵點(diǎn)提取。
2)視頻交互。通過(guò)輸入一段包含人體運(yùn)動(dòng)的視頻到Jetson AGX,在Jetson AGX上將導(dǎo)入的視頻流輸入到MediaPipe Holistic做人體關(guān)鍵點(diǎn)提取,機(jī)器人據(jù)此表演視頻中的人物動(dòng)作。實(shí)時(shí)交互和視頻交互均需對(duì)視頻流信息進(jìn)行人體姿態(tài)估計(jì),然后將關(guān)鍵點(diǎn)信息進(jìn)行基于幾何算法、坐標(biāo)系變換、向量法求角等的處理,算出各個(gè)關(guān)節(jié)之間的旋轉(zhuǎn)角度,再通過(guò)串口通信,傳送至下位機(jī),實(shí)現(xiàn)皮影機(jī)器人與用戶(hù)實(shí)時(shí)交互。
3)語(yǔ)音識(shí)別。皮影表演系統(tǒng)配備了語(yǔ)音設(shè)備模塊,用戶(hù)可錄入特定的語(yǔ)音。開(kāi)啟語(yǔ)音識(shí)別表演模式后,LD3320語(yǔ)音識(shí)別模塊接收到特定的語(yǔ)音信息,皮影表演機(jī)器人會(huì)做出系統(tǒng)預(yù)先編排好的表演動(dòng)作。
4)手勢(shì)交互。基于攝像頭模塊,采用2D攝像頭進(jìn)行二維手勢(shì)識(shí)別,同時(shí)使用了動(dòng)態(tài)手勢(shì)識(shí)別技術(shù)。手勢(shì)識(shí)別的實(shí)現(xiàn),采用了MediaPipe Hands的手勢(shì)識(shí)別框架[7-9],在開(kāi)啟手勢(shì)識(shí)別表演模式時(shí),攝像頭采集手勢(shì)圖像信息再進(jìn)行深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的識(shí)別。識(shí)別特定手勢(shì)后,皮影機(jī)器人會(huì)表演特定的姿勢(shì)或者做出預(yù)先設(shè)定好的動(dòng)作。
1.1" 皮影機(jī)器人
皮影機(jī)器人的機(jī)械結(jié)構(gòu)主要由機(jī)械臂與BLDC三相無(wú)刷直流電機(jī)[10]組成。與傳統(tǒng)皮影相比,皮影機(jī)器人采用夾層式設(shè)計(jì),將八個(gè)三相無(wú)刷直流電機(jī)設(shè)置在機(jī)器人內(nèi)部,實(shí)現(xiàn)正反面的靈活轉(zhuǎn)換,增加了表演的多樣性。
機(jī)器人在內(nèi)部設(shè)置燈珠作為機(jī)器人表演時(shí)的透射光源,機(jī)身材料采用透明亞克力,既增加了機(jī)身透明度,又提高了機(jī)器人的表演效果,避免了傳統(tǒng)皮影表演中光源遮擋被的缺陷。此外,機(jī)器人的機(jī)械臂桿采用了鏤空設(shè)計(jì),以減小機(jī)械臂的質(zhì)量,從而達(dá)到減輕電機(jī)負(fù)載的目的。
這種設(shè)計(jì)有效地減輕了機(jī)器人長(zhǎng)時(shí)間表演產(chǎn)生的負(fù)載過(guò)大、發(fā)熱嚴(yán)重的問(wèn)題。將三相無(wú)刷直流電機(jī)、機(jī)械臂與皮影三者組裝在一起,通過(guò)單片機(jī)產(chǎn)生的三相電流控制三相無(wú)刷直流電機(jī)達(dá)到固定的速度、處于固定的位置狀態(tài)并實(shí)現(xiàn)特定的擺動(dòng)曲線(xiàn)。圖2為皮影機(jī)器人機(jī)械平面結(jié)構(gòu)圖。
皮影機(jī)器人采用STM32H723VGT6作為主控芯片,電機(jī)驅(qū)動(dòng)電路由DRV8313三相無(wú)刷電機(jī)驅(qū)動(dòng)器構(gòu)成。當(dāng)上位機(jī)傳來(lái)角度數(shù)據(jù)包時(shí),本系統(tǒng)會(huì)對(duì)其進(jìn)行解包,計(jì)算出電機(jī)需要達(dá)到的角度和力矩大小,再通過(guò)磁場(chǎng)定向控制(Field Oriented Control, FOC)算法模型[11]計(jì)算出所需的三相電壓與電流。式(1)、式(2)可以表示三相電壓Ua、Ub、Uc的計(jì)算過(guò)程,這些電壓值將被用于驅(qū)動(dòng)電機(jī),使皮影機(jī)器人完成預(yù)定的動(dòng)作。
(1)
(2)
1.2" 虛擬皮影人
一個(gè)皮影虛擬人模型是由大量的頂點(diǎn)組成的,頂點(diǎn)與頂點(diǎn)之間的位置是相對(duì)固定的。因此,手動(dòng)將每一幀如此大量的頂點(diǎn)移動(dòng)到指定位置,顯然是一項(xiàng)難以完成的任務(wù)。
在這個(gè)虛擬骨骼結(jié)構(gòu)中,每一個(gè)骨頭都控制著附近區(qū)域的頂點(diǎn)。通過(guò)建立父子關(guān)系,使一個(gè)物體的移動(dòng)服從另一個(gè)物體。這樣,當(dāng)骨頭移動(dòng)時(shí),它控制的頂點(diǎn)也會(huì)隨之移動(dòng)。這種設(shè)計(jì)使得我們只需要移動(dòng)部分骨骼,就可以達(dá)到符合人體動(dòng)力學(xué)的效果。
通過(guò)蒙皮操作將骨骼和模型結(jié)合起來(lái),最后通過(guò)刷新權(quán)重,分配這些骨頭對(duì)每個(gè)頂點(diǎn)的控制權(quán),以防止模型發(fā)生不自然的扭曲,從而實(shí)現(xiàn)更為自然的動(dòng)畫(huà)效果。最終,我們可以通過(guò)驅(qū)動(dòng)骨骼來(lái)調(diào)整人物模型的動(dòng)作。圖3為虛擬皮影人框架圖。
本文在Unity3D中建立虛擬皮影人開(kāi)發(fā),方便部署到各個(gè)平臺(tái)應(yīng)用,如Linux、Android等。同時(shí),配置了物理引擎,加入了質(zhì)量、速度、摩擦、空氣阻力等各種物理量,可高度模擬真實(shí)世界中的物理效果,有效還原皮影的打斗場(chǎng)景及打斗動(dòng)作效果。為了實(shí)現(xiàn)這一目標(biāo),本文將Unity3D與關(guān)鍵點(diǎn)識(shí)別模型MediaPipe Holistic進(jìn)行了端對(duì)端的連接。本系統(tǒng)可以實(shí)時(shí)接收模型識(shí)別到的三維坐標(biāo)點(diǎn)信息,并通過(guò)預(yù)設(shè)的算法實(shí)現(xiàn)預(yù)測(cè)坐標(biāo)到骨骼坐標(biāo)的轉(zhuǎn)換。這種轉(zhuǎn)換是通過(guò)關(guān)鍵點(diǎn)的三維坐標(biāo)信息到Unity3D的映射操作實(shí)現(xiàn)的。
通過(guò)這種映射,系統(tǒng)可以實(shí)時(shí)更新皮影人物模型的骨骼坐標(biāo)狀態(tài),從而驅(qū)動(dòng)皮影人物模型進(jìn)行模仿運(yùn)動(dòng)。這個(gè)模型不僅具有高度的真實(shí)感,而且具有很強(qiáng)的交互性,為用戶(hù)提供了一種全新的皮影戲觀賞體驗(yàn),如圖4所示。
在Unity3D中,需要自己逐個(gè)計(jì)算關(guān)節(jié)與關(guān)節(jié)之間形成的夾角。為解決使用歐拉角計(jì)算旋轉(zhuǎn)時(shí)會(huì)出現(xiàn)的萬(wàn)向鎖問(wèn)題,可使用四元數(shù)矩陣來(lái)表示骨骼相對(duì)于父骨骼的旋轉(zhuǎn)。通過(guò)使用四元數(shù)矩陣,可以在骨骼層次結(jié)構(gòu)中更穩(wěn)定地計(jì)算和應(yīng)用旋轉(zhuǎn)變換,確保物體在旋轉(zhuǎn)過(guò)程中不會(huì)出現(xiàn)不自然的扭曲或翻轉(zhuǎn)。在動(dòng)畫(huà)和姿勢(shì)控制中,通過(guò)計(jì)算骨骼的四元數(shù)偏移量,可以更精確地調(diào)整骨骼的朝向,使其更符合期望的動(dòng)作效果。
式(3)則表示在三維空間中一個(gè)四元數(shù)的表示,其中a,b,c,d為實(shí)數(shù)部分和虛數(shù)部分的系數(shù)。四元數(shù)的實(shí)數(shù)部分a通常用于表示旋轉(zhuǎn)的角度,而虛數(shù)部分則表示旋轉(zhuǎn)軸的方向。一個(gè)單位四元數(shù)表示一個(gè)旋轉(zhuǎn)。四元數(shù)的旋轉(zhuǎn)運(yùn)算可以通過(guò)式(4)表示,其中,θ為旋轉(zhuǎn)的角度,I,J,K為單位向量,表示旋轉(zhuǎn)軸的方向。
(3)
(4)
旋轉(zhuǎn)的基本原理是通過(guò)四元數(shù)的乘法來(lái)進(jìn)行組合。給定兩個(gè)四元數(shù)和,它們的乘積可以通過(guò)式(5)~式(8)計(jì)算:
(5)
(6)
(7)
(8)
通過(guò)將兩個(gè)旋轉(zhuǎn)用四元數(shù)表示,可以通過(guò)乘法運(yùn)算合并它們的旋轉(zhuǎn)效果。四元數(shù)的使用有助于避免由歐拉角帶來(lái)的問(wèn)題,提供更可靠和精確的旋轉(zhuǎn)表示。
1.3" 算法設(shè)計(jì)
在算法設(shè)計(jì)中,采用MediaPipe Holistic算法作為人體關(guān)鍵點(diǎn)提取模型,以解決關(guān)鍵點(diǎn)三維坐標(biāo)信息的識(shí)別與提取問(wèn)題,并處理視頻流分辨率、幀率問(wèn)題。后續(xù),對(duì)提取到的坐標(biāo)信息基于物理動(dòng)學(xué)方程使用向量法進(jìn)行分析與計(jì)算,以得到關(guān)節(jié)運(yùn)動(dòng)時(shí)的角度信息[12-15]。
系統(tǒng)的運(yùn)動(dòng)算法采用向量法計(jì)算關(guān)節(jié)轉(zhuǎn)動(dòng)角度,通過(guò)二維向量角公式求解對(duì)應(yīng)骨骼之間的角度信息,這簡(jiǎn)化了算法模型,降低了計(jì)算過(guò)程中的參數(shù)量,提升了運(yùn)算效率。本文設(shè)計(jì)了一套皮影運(yùn)動(dòng)算法,用于確定任務(wù)模型骨骼旋轉(zhuǎn)量,計(jì)算并估計(jì)根關(guān)節(jié)的位置以及各個(gè)關(guān)節(jié)的旋轉(zhuǎn)信息。算法中,節(jié)點(diǎn)的Z軸和Y軸方向在運(yùn)動(dòng)過(guò)程中始終保持相互垂直,以達(dá)到精準(zhǔn)指向。為保證運(yùn)動(dòng)方向的正確,將所有的關(guān)節(jié)都利用初始旋轉(zhuǎn)量(InitRotation)做了當(dāng)前關(guān)節(jié)的旋轉(zhuǎn)量(LookRotation)對(duì)齊,得到了一個(gè)中間矩陣(Intermediate matrix),通過(guò)Intermediate matrix,就能夠在骨骼驅(qū)動(dòng)的過(guò)程中使各個(gè)骨骼點(diǎn)的坐標(biāo)系統(tǒng)一起來(lái)。對(duì)于某些特定的關(guān)節(jié),需要單獨(dú)設(shè)置用計(jì)算中間變換矩陣關(guān)節(jié)旋轉(zhuǎn)量(LookRotation)信息,在實(shí)際模型中做了軀干、頭和手掌的獨(dú)立中間變換矩陣。式(9)可表示為L(zhǎng)ookRotation計(jì)算公式,LR表示當(dāng)前關(guān)節(jié)旋轉(zhuǎn)量(LookRotation),IR表示初始旋轉(zhuǎn)量(InitRotation),IM表示中間矩陣(Intermediate matrix)。
(9)
通過(guò)LookRotation公式,得到了每個(gè)關(guān)節(jié)的對(duì)齊矩陣信息,再通過(guò)Rotation(旋轉(zhuǎn)量)計(jì)算公式,得到每個(gè)關(guān)節(jié)的當(dāng)前旋轉(zhuǎn)信息,對(duì)齊矩陣是從初始姿態(tài)中獲取的,通過(guò)深度學(xué)習(xí)預(yù)測(cè)的3D關(guān)節(jié)坐標(biāo)中計(jì)算對(duì)應(yīng)的LookRotation參數(shù),再通過(guò)Rotation計(jì)算公式,計(jì)算出實(shí)時(shí)的關(guān)節(jié)旋轉(zhuǎn)量,模型即可根據(jù)實(shí)時(shí)的當(dāng)前Rotation進(jìn)行動(dòng)作模仿。式(10)可表示為Rotation計(jì)算公式,R表示旋轉(zhuǎn)量(Rotation),LR表示當(dāng)前關(guān)節(jié)旋轉(zhuǎn)量(LookRotation),IM表示中間矩陣(Intermediate matrix)。
(10)
2" 系統(tǒng)改進(jìn)與測(cè)試
對(duì)于原始的模型來(lái)說(shuō),皮影系統(tǒng)的幀速率(FPS)和交互性能還達(dá)不到理想的要求,對(duì)此本文進(jìn)行了一系列的改進(jìn)。
在人體姿態(tài)估計(jì)中,姿態(tài)、照明、遮擋和低分辨率等情況都是任務(wù)中的關(guān)鍵障礙。為此,針對(duì)皮影的表演特點(diǎn),本文提出了新的人體關(guān)鍵點(diǎn)防遮擋策略。當(dāng)人體的某一個(gè)關(guān)鍵點(diǎn)被物體遮擋時(shí),防遮擋算法可以將遮擋點(diǎn)的對(duì)稱(chēng)點(diǎn)反轉(zhuǎn)到遮擋點(diǎn),具體做法為將對(duì)稱(chēng)點(diǎn)的關(guān)節(jié)轉(zhuǎn)動(dòng)量反映到遮擋點(diǎn)的關(guān)節(jié)轉(zhuǎn)動(dòng)量上,可以實(shí)現(xiàn)對(duì)稱(chēng)點(diǎn)與遮擋點(diǎn)同步運(yùn)動(dòng)。即使人體某個(gè)關(guān)鍵點(diǎn)被物體短暫地遮擋了,依然可以預(yù)測(cè)人體關(guān)鍵點(diǎn)的位置,不至于丟失關(guān)鍵點(diǎn)位置,實(shí)現(xiàn)了皮影機(jī)器人能夠更流暢地做出動(dòng)作。
同時(shí),在實(shí)際應(yīng)用場(chǎng)景中,皮影系統(tǒng)的攝像頭選用的是成本更低的單目攝像頭,因此系統(tǒng)應(yīng)將二維的檢測(cè)點(diǎn)轉(zhuǎn)換成三維立體的信息。
本文提出了針對(duì)皮影基于透視投影約束的三維關(guān)鍵點(diǎn)優(yōu)化方案[16]。首先,對(duì)輸入圖像中的噪聲利用透視投影矯正方法進(jìn)行優(yōu)化處理;其次,在更緊湊的運(yùn)動(dòng)空間中,用人體拓?fù)鋵?duì)關(guān)節(jié)運(yùn)動(dòng)進(jìn)行顯式分解,得到更緊湊、更易于估計(jì)的三維靜態(tài)結(jié)構(gòu),進(jìn)一步估計(jì)三維關(guān)鍵點(diǎn)信息;最后,剔除處理得到的不可靠估計(jì)的3D關(guān)鍵點(diǎn)信息并細(xì)化關(guān)鍵點(diǎn)信息。
通過(guò)三維關(guān)鍵點(diǎn)優(yōu)化方案,系統(tǒng)能夠在不同環(huán)境中識(shí)別人體運(yùn)動(dòng),減少了背景和噪聲的干擾,更準(zhǔn)確地捕捉到人體姿態(tài)和動(dòng)作,同時(shí)忽略背景干擾,從而提高了系統(tǒng)的穩(wěn)定性和可靠性,能夠適應(yīng)更極端的環(huán)境,為各種實(shí)際應(yīng)用場(chǎng)景提供了更為可靠的解決方案。
式(11)為投影變換矩陣M,其中N為攝像頭到近裁剪平面的距離,F(xiàn)為攝像頭到遠(yuǎn)裁剪平面的距離。
(11)
帶有噪聲的情況下,仍然可以實(shí)現(xiàn)實(shí)時(shí)人體姿態(tài)估計(jì)的效果。在加入卡爾曼濾波處理后,能夠有效消除皮影系統(tǒng)出現(xiàn)過(guò)多抖動(dòng)的情況,使皮影系統(tǒng)的動(dòng)作更加流暢。式(12)~式(16)分別為計(jì)算向前推算狀態(tài)變量、卡爾曼增益、zk更新估計(jì)、誤差協(xié)方差、向前推算誤差協(xié)方差的計(jì)算式:
(12)
(13)
(14)
(15)
(16)
在算法計(jì)算層面,采用了權(quán)值共享和權(quán)重矩陣剪枝策略。在權(quán)值量化層面,將模型的權(quán)值參數(shù)從32位浮點(diǎn)數(shù)量化為8位的定點(diǎn)數(shù),使參數(shù)大小縮小為原來(lái)的1/4,整個(gè)模型的大小也隨之縮小為原來(lái)的1/4,從而有效地減少網(wǎng)絡(luò)參數(shù)計(jì)算量,加快運(yùn)算速度[17-19]。
由于本皮影系統(tǒng)選用的上位機(jī)為Jetson AGX,因此本文使用TensorRT進(jìn)行加速[20-21],使得訓(xùn)練的模型在測(cè)試階段的速度加快。由于在Jetson AGX上實(shí)時(shí)推理人體姿態(tài)模型的檢測(cè)速度較慢,在應(yīng)用TensorRT加速后,能夠有效地提升模型在Jetson AGX上的運(yùn)行速度。
為確保本文所提出的各個(gè)模塊是有效的,針對(duì)各個(gè)模塊進(jìn)行了實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)對(duì)比結(jié)果顯示,原模型MediaPipe的準(zhǔn)確率為95.42%,幀速率為23幀/秒;在添加了卡爾曼濾波處理、模型輕量化處理、TensorRT加速混合模塊后,準(zhǔn)確率為96.23%,幀速率FPS為33,說(shuō)明本文添加的模塊是可行且有效的。實(shí)驗(yàn)結(jié)果如表1所示。
3" 結(jié)" 論
本文提出了一套基于人體姿態(tài)估計(jì)的多維交互智能皮影系統(tǒng)。首先,該皮影系統(tǒng)由皮影機(jī)器人和虛擬皮影兩大部分組成,具備實(shí)時(shí)交互、視頻交互、語(yǔ)音交互、手勢(shì)交互等多種交互方式。由于皮影運(yùn)動(dòng)對(duì)實(shí)時(shí)性要求較高,因此本文訓(xùn)練出的人體姿態(tài)估計(jì)模型具有較高的精度和較快的幀速率。同時(shí),本研究提出了防遮擋策略、基于透視投影約束的三維關(guān)鍵點(diǎn)優(yōu)化方案、卡爾曼濾波等多模塊,并將它們應(yīng)用到皮影系統(tǒng)上。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,本文所提出的模型在皮影系統(tǒng)上的準(zhǔn)確率和幀速率(FPS)均優(yōu)于原模型,由此論證了本文模型改進(jìn)的正確性。
本文的主要貢獻(xiàn)如下:一是創(chuàng)造性地將類(lèi)人體機(jī)械結(jié)構(gòu)與傳統(tǒng)皮影相結(jié)合,開(kāi)發(fā)了新的機(jī)械結(jié)構(gòu),為未來(lái)的研究提供了新的發(fā)展方向;二是利用人體姿態(tài)估計(jì)模型和運(yùn)動(dòng)算法計(jì)算骨骼旋轉(zhuǎn)角度,使皮影系統(tǒng)具有較高的自由度。基于人體姿態(tài)估計(jì)的皮影系統(tǒng)為傳統(tǒng)文化傳承提供了新的思路,具有重要的應(yīng)用價(jià)值。
參考文獻(xiàn):
[1] 歐陽(yáng)軍喜,崔春雪.中國(guó)傳統(tǒng)文化與社會(huì)主義核心價(jià)值觀的培育 [J].山東社會(huì)科學(xué),2013(3):11-15.
[2] 李宗桂.試論中國(guó)優(yōu)秀傳統(tǒng)文化的內(nèi)涵 [J].學(xué)術(shù)研究,2013(11):35-39.
[3] 張宇,溫光照,米思婭,等.基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)綜述 [J].軟件學(xué)報(bào),2022,33(11):4173-4191.
[4] 孔英會(huì),秦胤峰,張珂.深度學(xué)習(xí)二維人體姿態(tài)估計(jì)方法綜述 [J].中國(guó)圖象圖形學(xué)報(bào),2023,28(7):1965-1989.
[5] 曹曉瑜,夏端峰.基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)方法綜述 [J].現(xiàn)代信息科技,2022,6(23):1-6.
[6] 廖海燕,王婧怡,希治遠(yuǎn),等.一種用于皮影戲表演的可擴(kuò)展機(jī)器人裝置 [J].電子制作,2022,30(18):83-85+89.
[7] 崔鑫,王新懷,徐茵,等.機(jī)電一體化的智能皮影表演系統(tǒng) [J].電子產(chǎn)品世界,2020,27(9):50-52.
[8] 倪廣興,徐華,王超.融合改進(jìn)YOLOv5及Mediapipe的手勢(shì)識(shí)別研究[J].計(jì)算機(jī)工程與應(yīng)用,2024,60(7):108-118.
[9] 陳敬宇,徐金,羅容,等.基于手勢(shì)識(shí)別的3D人機(jī)交互系統(tǒng) [J].現(xiàn)代信息科技,2023,7(22):88-91.
[10] 王楓.無(wú)傳感器無(wú)刷直流電機(jī)控制系統(tǒng)研究與設(shè)計(jì) [D].蘇州:蘇州大學(xué),2020.
[11] LIU Z C,LI Y D,ZHENG Z D. A Review of Drive Techniques for Multiphase Machines [J].CES Transactions on Electrical Machines and Systems,2018,2(2): 243-251.
[12] 王楚.仿人機(jī)械臂的運(yùn)動(dòng)規(guī)劃與優(yōu)化算法研究 [D].杭州:浙江大學(xué),2018.
[13] 袁蒙恩.基于單目視覺(jué)估計(jì)的機(jī)械臂運(yùn)動(dòng)規(guī)劃算法 [D].開(kāi)封:河南大學(xué),2020.
[14] 黃水華.多約束下的機(jī)械臂運(yùn)動(dòng)控制算法研究 [D].杭州:浙江大學(xué),2016.
[15] 朱宇輝.基于Kinect的機(jī)械臂人機(jī)交互控制系統(tǒng)設(shè)計(jì) [D].綿陽(yáng):西南科技大學(xué),2016.
[16] 張峻寧,蘇群星,劉鵬遠(yuǎn),等.一種基于透視投影的單目3D目標(biāo)檢測(cè)網(wǎng)絡(luò) [J].機(jī)器人,2020,42(3):278-288.
[17] 符惠桐.基于深度學(xué)習(xí)的目標(biāo)識(shí)別輕量化模型研究 [D].西安:西安工業(yè)大學(xué),2022.
[18] 袁哲明,袁鴻杰,言雨璇,等.基于深度學(xué)習(xí)的輕量化田間昆蟲(chóng)識(shí)別及分類(lèi)模型 [J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2021,51(3):1131-1139.
[19] XIONG B,SUN Z Z,WANG J,et al. A Lightweight Model for Ship Detection and Recognition in Complex-Scene SAR Images [J]. Remote Sensing,2022,14(23):6053.
[20] LIU Z Q,DING D. TensorRT Acceleration Based on Deep Learning OFDM Channel Compensation [J/OL].Journal of Physics: Conference Series,2022,2303(1):012047[2025-02-14].https://iopscience.iop.org/article/10.1088/1742-6596/2303/1/012047.
[21] YEGULALP S. Nvidia's New TensorRT Speeds Machine Learning Predictions [EB/OL].[2025-02-14].https://www.infoworld.com/article/2253746/nvidias-new-tensorrt-speeds-machine-learning-predictions.html.
作者簡(jiǎn)介:趙健文(2004—),男,漢族,廣東江門(mén)人,碩士研究生在讀,研究方向:深度學(xué)習(xí)理論與應(yīng)用、計(jì)算機(jī)視覺(jué);曾軍英(1977—),男,漢族,江西贛州人,教授,博士,研究方向:圖像處理、深度學(xué)習(xí)理論與應(yīng)用、信息處理、機(jī)器視覺(jué);通信作者:秦傳波(1982—),男,漢族,安徽宿州人,副教授,博士,研究方向:醫(yī)學(xué)影像處理、生物特征識(shí)別。