摘" 要: 為了精確捕捉人體在各種復(fù)雜動作中的姿態(tài)變化,并減少動作輪廓捕捉的誤判和漏判情況,研究一種基于條件GAN的人體復(fù)雜動作輪廓智能捕捉方法。構(gòu)建人體復(fù)雜動作圖像前景模型,利用該前景模型去除人體復(fù)雜動作圖像內(nèi)的干擾背景,獲得其前景圖像。將人體復(fù)雜動作前景圖像輸入到條件GAN模型內(nèi),該模型使用生成器,依據(jù)疊加條件提取人體復(fù)雜動作前景圖像特征,并生成人體復(fù)雜動作輪廓圖像,將該輪廓圖像輸入到判別器內(nèi),判別器對生成器生成的人體復(fù)雜動作輪廓圖像進行判別,輸出其判別值;同時,生成器依據(jù)該判別值對人體復(fù)雜動作輪廓圖像進行調(diào)整和優(yōu)化。生成器和判別器不斷對抗,當(dāng)條件GAN模型的損失函數(shù)達(dá)到最小時,生成器輸出最終人體復(fù)雜動作輪廓圖像,實現(xiàn)人體復(fù)雜動作輪廓智能捕捉。實驗結(jié)果表明,所提方法可有效捕捉人體復(fù)雜動作輪廓,且智能捕捉的人體復(fù)雜動作輪廓周長與其實際輪廓周長差異較小。
關(guān)鍵詞: 條件GAN; 人體復(fù)雜動作; 輪廓圖像; 智能捕捉; 前景模型; 生成器; 判別器
中圖分類號: TN915?34; TP183" " " " " " " " " 文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " " "文章編號: 1004?373X(2024)24?0172?05
Research on conditional based GAN intelligent capture of complex
human motion contours
WANG Pengbo, LIU Han
(Yunnan Minzu University, Kunming 650500, China)
Abstract: In order to accurately capture the posture changes of the human body in various complex movements and reduce the misjudgment and omission of motion contour capture, a conditional GAN based intelligent capture of complex human motion contour is studied. A foreground model for complex human motion images is constructed, and the foreground model is used to remove interfering backgrounds within the complex human motion images, to obtain their foreground images. The complex human motion foreground image is input into the conditional GAN model. This model can use the generator to extract the features of the complex human motion foreground image according to the superposition conditions, and generate the complex human motion contour image. The contour image is input into the discriminator, which can judge the complex human motion contour image generated by the generator and output its discrimination value. The generator can adjust and optimize the complex human motion contour image according to the discrimination value. The generator and discriminator constantly compete, and when the loss function of the conditional GAN model reaches its minimum, the generator can output the final complex human motion contour image, achieving the intelligent capture of complex human motion contours. The experimental results show that the proposed" method can effectively capture complex human motion contours, and the difference between the circumference of the intelligently captured complex human motion contour and its actual contour circumference is small.
Keywords: conditional GAN; complex human motion; contour image; intelligent capture; prospect model; generator; discriminator
0" 引" 言
在科技飛速發(fā)展背景下,人體動作捕捉被應(yīng)用在運動分析、醫(yī)療康復(fù)等多個領(lǐng)域,其重要性日益凸顯[1?2]。然而,由于人體動作的多樣性和復(fù)雜性,實現(xiàn)高精度、高效率的人體復(fù)雜動作輪廓捕捉仍然面臨諸多挑戰(zhàn)。當(dāng)前在相關(guān)領(lǐng)域內(nèi)有很多國內(nèi)外學(xué)者研究人體動作捕捉方法,如文獻(xiàn)[3]中先建立人物姿態(tài)模型,在該模型的基礎(chǔ)上使用BEMD?MTS算法來提取人體姿態(tài)特征,根據(jù)特征提取結(jié)果使用邊緣輪廓提取方法獲得人體姿態(tài)輪廓。如果人物姿態(tài)模型的構(gòu)建不夠精細(xì)或準(zhǔn)確,會無法完全反映真實人體的復(fù)雜性和多樣性,這可能導(dǎo)致在提取人體姿態(tài)特征時出現(xiàn)偏差,影響輪廓捕捉的準(zhǔn)確性。文獻(xiàn)[4]使用尺度不變點特征變換方法來提取人體動作特征,然后建立人體外觀模型,通過該模型獲得人體動作幀的輪廓線。在使用人體外觀模型進行輪廓提取時,需要將提取的特征與模型進行匹配;然而,由于人體動作的復(fù)雜性和多樣性,匹配過程中可能產(chǎn)生誤差,導(dǎo)致提取的輪廓線不準(zhǔn)確。文獻(xiàn)[5]將人體圖像輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中,并在該模型中引入特征注意力機制,通過選擇人體輪廓特征并迭代后輸出人體輪廓提取結(jié)果。但該方法注意力分配過于集中在某些非關(guān)鍵區(qū)域,導(dǎo)致輪廓提取結(jié)果出現(xiàn)偏差。文獻(xiàn)[6]在提取人體動作的骨骼關(guān)節(jié)點后,使用改進LM算法對人體動作骨骼關(guān)節(jié)點進行動態(tài)調(diào)整,以此獲取人體骨骼關(guān)節(jié)點輪廓捕捉結(jié)果。骨骼關(guān)節(jié)點的提取精度受到圖像處理技術(shù)和算法的限制,如果提取算法不夠精確,可能導(dǎo)致關(guān)節(jié)點位置存在偏差,影響后續(xù)的動作捕捉和輪廓生成效果。
條件GAN是一種GAN(生成對抗網(wǎng)絡(luò))的變體,它在原有的基礎(chǔ)上加入了額外的輸入,這些輸入被稱為條件變量。這些條件變量可以是分類標(biāo)簽、文本描述或其他輔助性信息[7]。生成器可以根據(jù)這些條件生成具有特定特征或?qū)儆谔囟悇e的樣本,而判別器則能夠根據(jù)這些條件更準(zhǔn)確地判斷樣本的真實性。通過這種方式,GAN實現(xiàn)了對生成樣本的更細(xì)致調(diào)控,使得生成的樣本能夠滿足特定的需求或?qū)傩?。本文以條件GAN作為基礎(chǔ),提出一種人體復(fù)雜動作輪廓智能捕捉方法,以深入了解人體的運動規(guī)律和特點,為體育訓(xùn)練、康復(fù)治療等領(lǐng)域提供科學(xué)依據(jù)。
1" 人體復(fù)雜動作輪廓智能捕捉
1.1" 人體復(fù)雜動作圖像前景模型構(gòu)建
在對人體復(fù)雜動作輪廓捕捉之前,需要先提取出人體復(fù)雜動作的前景圖像,避免人體復(fù)雜動作背景對該動作輪廓捕捉的干擾。人體復(fù)雜動作圖像前景模型構(gòu)建流程如下。
令[p(x,y)]表示人體復(fù)雜動作圖像背景中的像素,顏色標(biāo)準(zhǔn)差由[τ(x,y)]表示,則人體復(fù)雜動作圖像的背景圖像[O]表達(dá)公式如下:
[O=I(x,y)·N(S(x,y),τ2(x,y))] (1)
式中:[N(?)]為高斯正態(tài)分布函數(shù);[I(x,y)]為顏色分量;[S(x,y)]為顏色均值。
由公式(1)可知,人體復(fù)雜動作圖像的背景圖像中每個顏色分布在某個時間段內(nèi)均呈正態(tài)分布狀態(tài),其可描述人體復(fù)雜動作圖像背景受攝像機拍攝過程中的白噪聲引起的變化特征[8],當(dāng)人體復(fù)雜動作前景圖像進入到背景圖像內(nèi)后,背景圖像內(nèi)的某些像素點顏色變化范圍會明顯增加,因此可獲取到當(dāng)前人體復(fù)雜動作圖像中的前景對象。選取連續(xù)[n]幀人體復(fù)雜動作圖像,則人體復(fù)雜動作圖像內(nèi)像素點[p(x,y)]的所有樣本值[Qn(x,y)]的計算公式為:
[Qn(x,y)=Ii(x,y)i=1,2,…,n] (2)
人體復(fù)雜動作圖像內(nèi)像素點[p(x,y)]的樣本均值[Qn(x,y)]和樣本標(biāo)準(zhǔn)差[Bn(x,y)]的計算公式分別為:
[Qn(x,y)=1ni=1nIi(x,y)] (3)
[Bn(x,y)=i=1n1n-1(Ii(x,y)-Qn(x,y))2] (4)
像素點[p(x,y)]的樣本均值和標(biāo)準(zhǔn)差是當(dāng)前人體復(fù)雜動作圖像總體均值和總體標(biāo)準(zhǔn)差的無偏估計[9],利用二者描述人體復(fù)雜動作圖像顏色分量整體分布的均值[S(x,y)]和標(biāo)準(zhǔn)差[τ(x,y)]。
在上述公式基礎(chǔ)上,使用假設(shè)檢驗方法對人體復(fù)雜動作圖像的前景和背景圖像進行分類,獲得人體復(fù)雜動作圖像的前景圖像。計算與人體復(fù)雜動作圖像相鄰幀數(shù)為[E]的圖像在像素點[p(x,y)]位置處的顏色分量均值,由[SE(x,y)]表示,假設(shè)該顏色分量均值為:
1) [SE(x,y)=S(x,y)];
2) [SE(x,y)≠S(x,y)]。
該顏色分量均值的檢驗統(tǒng)計量[J]為:
[J=O-SE(x,y)-S(x,y)] (5)
設(shè)在條件1)為真時,拒絕條件1)的最大概率為[α],則其拒絕域為[J≥Jτ2],此時拒絕條件1)接受條件2)。依據(jù)上述條件驗證過程,若當(dāng)前人體復(fù)雜動作圖像的像素在所有顏色分量上任一假設(shè)檢驗被拒絕,則判斷該像素屬于前景對象;反之,判斷像素仍為背景圖像。
經(jīng)過上述推斷,判斷當(dāng)前人體復(fù)雜動作圖像的前景和背景后,輸出前景圖像,為后續(xù)人體復(fù)雜動作輪廓智能捕捉提供基礎(chǔ)。
以1幅體操運動員人體復(fù)雜動作圖像作為對象,使用本文方法獲取該人體復(fù)雜動作的前景圖像,結(jié)果如圖1所示。
分析圖1結(jié)果,本文所提方法在體操人體復(fù)雜動作圖像的前景提取上表現(xiàn)出色,能夠精準(zhǔn)地去除背景像素的干擾,從而凸顯出體操人體的動作細(xì)節(jié)。這一特性不僅提升了圖像處理的清晰度,還顯著降低了人體復(fù)雜動作圖像輪廓智能捕捉的運算量,使得處理過程更加高效。此外,該方法的成功應(yīng)用也進一步證明了其在智能捕捉人體復(fù)雜動作過程中的可靠性和實用性。
1.2" 條件GAN動作輪廓智能捕捉模型構(gòu)建
條件GAN是在生成對抗網(wǎng)絡(luò)的基礎(chǔ)上引入條件信息后的改進網(wǎng)絡(luò),由生成器和判別器組成。在其損失函數(shù)內(nèi)引入條件信息對生成器和判別器損失進行約束,可以使條件GAN輸出的結(jié)果更為準(zhǔn)確。在此利用條件GAN對1.1節(jié)得到的人體復(fù)雜動作圖像的前景圖像進行生成和判別,實現(xiàn)對人體復(fù)雜動作輪廓的智能提取。
1.2.1" 生成器構(gòu)建
條件GAN的生成器作用是接收1.1節(jié)輸入的人體復(fù)雜動作前景圖像和隨機噪聲,然后生成與輸入的人體復(fù)雜動作前景圖像對應(yīng)的目標(biāo)輪廓圖像。該生成器以卷積神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ),由3個卷積層、6個殘差網(wǎng)絡(luò)、6個密集連接層、1個采樣層和1個卷積注意力機制層組成。其中卷積層負(fù)責(zé)提取人體復(fù)雜動作前景圖像特征[10],利用殘差網(wǎng)絡(luò)直接傳播生成器梯度,使生成器快速收斂;然后使用密集網(wǎng)絡(luò)連接融合卷積層輸出的人體復(fù)雜動作前景圖像特征后,通過采樣層采集人體復(fù)雜動作前景圖像特征;最后使用卷積注意力機制層進一步提取人體復(fù)雜動作的前景圖像特征。生成器的卷積注意力機制層內(nèi)包括通道注意力模塊和空間注意力模塊,通道維度上的人體復(fù)雜動作前景圖像特征[Oc1(F)]公式為:
[Oc1(F)=σ(κ(AvgPool(F))+κ(MaxPool(F)))] (6)
式中:[σ(?)]表示Sigmoid激活函數(shù);[κ(?)]表示多層感知器;[F]表示人體復(fù)雜動作前景圖像;[AvgPool(?)]、[MaxPool(?)]表示平均池化和最大池化操作;[c1]表示通道維度。
空間維度上的人體復(fù)雜動作前景圖像特征[Oc2(F)]表達(dá)公式為:
[Oc2(F)=σ(Cat(Oc1(F)))] (7)
式中:[Cat(?)]表示多重特征融合處理結(jié)果;[c2]表示空間維度。
經(jīng)過上述公式后,再次對公式(7)得到的人體復(fù)雜動作前景圖像特征進行卷積操作,生成器輸出生成的人體復(fù)雜動作前景圖像的輪廓圖像[F]。
1.2.2" 判別器構(gòu)建
條件GAN的判別器是對生成器生成的人體復(fù)雜動作前景圖像的輪廓圖像[F]進行判別,其輸出數(shù)值區(qū)間[11?12]為0~1,其輸出的數(shù)值越接近1,表明生成器生成的人體復(fù)雜動作前景圖像的輪廓圖像越真實有效,且判別器對生成器的判別值盡可能趨近于0,使生成器不斷對生成的人體復(fù)雜動作前景圖像的輪廓圖像進行調(diào)整和優(yōu)化。判別器的訓(xùn)練過程如下。
條件GAN的判別器通過Fisher判別方法實現(xiàn)判別,令[ηTj]表示第[j]個判別系數(shù),其中[T]表示正態(tài)分布,則Fisher判別函數(shù)表達(dá)公式為:
[f(x)=ηTjδ] (8)
式中:[f(x)]表示Fisher判別函數(shù);[δ]為判別疊加條件。
判別器的邏輯回歸函數(shù)為[softmax]函數(shù),在公式(8)的基礎(chǔ)上,令[Φ1]、[Φ2]表示判別器隱含層和輸出層激活函數(shù),判別器的判別輸出結(jié)果[?]表達(dá)公式如下:
[?=fΦ2(μmj?Φ1(μjn?F))] (9)
式中:[μmj]、[μjn]表示判別器內(nèi)第[j]個神經(jīng)元與隱含層第[m]個和輸出層第[n]個神經(jīng)元之間的連接權(quán)重。
1.2.3" 損失函數(shù)
條件GAN的損失函數(shù)是由生成器損失函數(shù)和判別器損失函數(shù)組成的,生成器和判別器均在其疊加條件的基礎(chǔ)上生成人體復(fù)雜動作前景圖像的輪廓圖像和對該輪廓圖像的判別。因此,條件GAN的損失函數(shù)在傳統(tǒng)GAN生成器和判別器損失函數(shù)的基礎(chǔ)上添加一個疊加條件[13]即可。條件GAN的總損失函數(shù)公式如下:
[minGmaxDV(D,G)=?F~P(F)[?logD(L)]+" " " " " " " " "?z~P(z)[?log(1-D(G(L)))]] (10)
式中:[G]、[D]分別表示生成器和判別器;[V(D,G)]為條件GAN目標(biāo)函數(shù);[?F~P(F)[?]]、[?z~P(z)[?]]分別表示從人體復(fù)雜動作前景圖像內(nèi)采集的特征和在噪聲[z]的影響下對人體復(fù)雜動作前景圖像的輪廓圖像進行判別;[D(L)]、[G(L)]分別表示判別器和生成器的損失函數(shù)。
利用該損失函數(shù)使生成器和判別器進行對抗,能夠使整個條件GAN輸出的人體復(fù)雜動作前景圖像的輪廓圖像損失最小,且得到的結(jié)果最為真實,從而實現(xiàn)對人體復(fù)雜動作輪廓的智能捕捉。
2" 實驗分析
以公開圖像庫內(nèi)人體復(fù)雜動作作為實驗對象,在深度學(xué)習(xí)云環(huán)境中對本文方法進行模擬訓(xùn)練和測試。其中條件GAN模型在Ubuntu 22.04環(huán)境下,使用Python編寫代碼,條件GAN模型訓(xùn)練過程中,設(shè)置訓(xùn)練步數(shù)為100步。以1幅網(wǎng)球人體復(fù)雜動作圖像作為實驗對象,使用本文方法智能捕捉其輪廓,捕捉結(jié)果如圖2所示。
分析圖2結(jié)果,本文提出的方法展現(xiàn)出卓越的人體復(fù)雜動作輪廓捕捉能力。智能捕捉的輪廓與實際圖像中的輪廓高度吻合,驗證了該方法的高效性和準(zhǔn)確性,也進一步表明本文方法在實際應(yīng)用中具備強大的智能捕捉性能。
本文方法使用條件GAN實現(xiàn)人體復(fù)雜動作智能捕捉,條件GAN內(nèi)的生成器和判別器通過互相對抗,得到最終的人體復(fù)雜動作智能捕捉結(jié)果。以1幅跳高運動員人體復(fù)雜動作圖像作為實驗對象,輸出生成器和判別器互相對抗時對人體復(fù)雜動作智能捕捉的過程,結(jié)果如圖3所示。通過分析圖3所展示的條件GAN在迭代過程中的表現(xiàn),可以清晰地看到其在生成人體復(fù)雜動作輪廓方面的能力逐步增強。在初始的30步迭代時,生成器產(chǎn)生的輪廓較為模糊,難以準(zhǔn)確辨識。然而,隨著判別器對生成結(jié)果的反饋,生成器不斷調(diào)整其內(nèi)部參數(shù),進而優(yōu)化生成效果。當(dāng)?shù)綌?shù)達(dá)到60步時,生成的人體復(fù)雜動作輪廓已經(jīng)變得相對清晰,這表明網(wǎng)絡(luò)模型正在逐步學(xué)習(xí)和掌握人體動作的復(fù)雜特征。最終,在迭代100步時,條件GAN模型成功收斂,能夠穩(wěn)定地輸出清晰、準(zhǔn)確的人體復(fù)雜動作輪廓。這一結(jié)果充分證明了本文所提方法的有效性,即運用條件GAN模型可以智能地捕捉和生成人體復(fù)雜動作輪廓,為其在不同領(lǐng)域應(yīng)用提供基礎(chǔ)。
再進一步驗證本文方法對人體復(fù)雜動作輪廓智能捕捉能力,以10幅人體復(fù)雜動作圖像作為實驗對象,使用本文方法對這10幅圖像的人體復(fù)雜動作輪廓進行智能捕捉,以人體復(fù)雜動作輪廓的周長作為衡量該方法提取人體復(fù)雜動作輪廓能力的指標(biāo),驗證其應(yīng)用效果,測試結(jié)果如表1所示。分析表1數(shù)據(jù)發(fā)現(xiàn),不同人體復(fù)雜動作在圖像中的動作輪廓周長存在顯著差異,這直接反映了圖像內(nèi)人體動作的復(fù)雜性。而采用本文提出的方法智能捕捉人體復(fù)雜動作輪廓后,所得輪廓的周長與實際動作輪廓周長之間的最小差值達(dá)到了0 mm,最大差值也僅為0.03 mm,這一極小的差異值充分說明了本文方法在捕捉人體復(fù)雜動作輪廓方面的高精度。該方法不僅能夠有效識別并捕捉復(fù)雜的人體動作,還能確保捕捉到的輪廓與實際動作輪廓高度一致,為后續(xù)的圖像處理和分析提供了可靠的基礎(chǔ)。
3" 結(jié)" 論
本文基于條件GAN對人體復(fù)雜動作輪廓智能捕捉技術(shù)進行了深入探索。通過精心設(shè)計的實驗和模型優(yōu)化,證明了本文方法在精確捕捉人體動作輪廓方面表現(xiàn)出色,為動作識別、虛擬現(xiàn)實、動畫制作等領(lǐng)域提供了高效且可靠的解決方案。本文研究亮點在于,通過條件GAN的結(jié)構(gòu)成功實現(xiàn)了對動作輪廓的高保真度提取,且模型能夠有效地學(xué)習(xí)到動作的時空特征,即使在高速運動和復(fù)雜動作場景中,也能保持較高的捕捉精度。此外,本文方法在處理連續(xù)動作序列時,展現(xiàn)出了良好的連貫性和穩(wěn)定性,為后續(xù)的動作分析提供了堅實的基礎(chǔ)。
注:本文通訊作者為劉菡。
參考文獻(xiàn)
[1] 馬驍,閆育東.基于多尺度時空特征的籃球場景中人體姿態(tài)估計[J].中南民族大學(xué)學(xué)報(自然科學(xué)版),2023,42(1):95?102.
[2] 吉晨鐘,次旺晉美,張偉,等.改進2D CNN時空特征提取的動作識別研究[J].小型微型計算機系統(tǒng),2024,45(1):168?176.
[3] 馬璿,張會慶.基于BEMD?MTS算法的肢體動作輪廓智能捕捉方法[J].計算機仿真,2023,40(10):224?227.
[4] POKHREL S R, KUA J, SATISH D, et al. Deakin RF?sensing: experiments on correlated knowledge distillation for monitoring human postures with radios [J]. IEEE sensors journal, 2023, 23(22): 28399?28410.
[5] 楊紅,張賀,靳少寧.融合卷積與多頭注意力的人體姿態(tài)遷移模型[J].計算機應(yīng)用,2023,43(11):3403?3410.
[6] 張欣宇,邱國鵬.融合改進LM算法及動態(tài)時間規(guī)整算法的人體動作捕捉研究[J].西南大學(xué)學(xué)報(自然科學(xué)版),2024,46(5):175?185.
[7] 茍先太,陶明江,李欣,等.基于寬接收域的實時人體姿態(tài)估計網(wǎng)絡(luò)[J].計算機工程與設(shè)計,2023,44(1):247?254.
[8] 劉星,王宇晶.基于雙循環(huán)Transformer的三維人體姿態(tài)估計[J].傳感技術(shù)學(xué)報,2024,37(7):1236?1243.
[9] 方益,石守東,方靖森,等.基于空間交叉卷積的輕量級人體姿態(tài)估計算法[J].傳感技術(shù)學(xué)報,2024,37(3):439?445.
[10] 高坤,李汪根,束陽,等.融入密集連接的多尺度輕量級人體姿態(tài)估計[J].計算機工程與應(yīng)用,2022,58(24):196?204.
[11] 吉斌,潘燁,金小剛,等.用于視頻流人體姿態(tài)估計的時空信息感知網(wǎng)絡(luò)[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2022,34(2):189?197.
[12] 陳路飛,張勇,唐永正,等.FP?Net:基于任意角度單幅人體圖像的正面姿態(tài)估計[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2022,34(10):1604?1612.
[13] 黃程遠(yuǎn),宋曉寧,馮振華.ARGP?Pose:基于關(guān)鍵點間關(guān)系分析與分組預(yù)測的3D人體姿態(tài)估計[J].計算機應(yīng)用研究,2022,39(7):2178?2182.
作者簡介:王鵬博(1999—),男,河南沈丘人,在讀碩士研究生,研究方向為計算機算法、動作識別。
劉" 菡(1989—),女,河南周口人,在讀博士研究生,助理研究員,研究方向為運動圖像處理。