林浩翔,李萬益,鄔依林,譚燁希
(廣東第二師范學(xué)院計(jì)算機(jī)學(xué)院,廣州 510303)
三維人體姿態(tài)估計(jì)目前是一項(xiàng)比較新的研究課題,該課題的技術(shù)研究已經(jīng)成功運(yùn)用到以計(jì)算機(jī)視覺為基礎(chǔ)的多項(xiàng)高級人工智能技術(shù),比如音樂舞蹈等運(yùn)動(dòng)形體化教學(xué)[1-2]、制作3D人物的立體電影[3-5]、人體運(yùn)動(dòng)形態(tài)類型識(shí)別[6-7]等等,這些技術(shù)的應(yīng)用都是以視頻圖像的三維姿態(tài)估計(jì)為基礎(chǔ),進(jìn)行深入拓展的高級應(yīng)用。目前,國內(nèi)外學(xué)者對三維人體姿態(tài)估計(jì)的研究有一定進(jìn)展,前期研究具有一定局限性。初始研究階段,該技術(shù)研究用于數(shù)據(jù)樣本的非監(jiān)督學(xué)習(xí),用有限三維數(shù)據(jù)樣本生成新的三維數(shù)據(jù)樣本[8],然而該研究實(shí)用性有限。后來,由于實(shí)際應(yīng)用需要從二維圖像重構(gòu)出三維姿態(tài)來獲取更多人體姿態(tài)參數(shù),就從多個(gè)視角圖像進(jìn)行預(yù)處理,利用一些啟發(fā)式智能算法來估計(jì)相應(yīng)的三維姿態(tài)[9],其對于一些簡單運(yùn)動(dòng)形態(tài)可以較好的估計(jì),但是對于稍微復(fù)雜的運(yùn)動(dòng)形態(tài)效果較差,并且運(yùn)行時(shí)間比較長,算法收斂性差。近兩年,該項(xiàng)技術(shù)的研究發(fā)展到了單視角估計(jì)[10],用深度學(xué)習(xí)的方法對圖像進(jìn)行處理。然而,近期的技術(shù)處理的效果也有一定的局限性,比如估計(jì)對象的自遮擋處理、二維到三維映射歧義,以及空間位置無法處理等問題。因此,本文針對以上的一些問題,提出一種半監(jiān)督學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)單視角含有空間位置信息的三維姿態(tài)估計(jì)。
本文所提出的半監(jiān)督學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型可以較好地處理自遮擋問題、圖像映射歧義問題,可以估計(jì)出三維模型所在的空間位置信息,該方法的模型核心框架如圖1所示,底部為骨架模型的二維映射圖像,頂部是相應(yīng)三維圖像,通過若干神經(jīng)網(wǎng)絡(luò)的神經(jīng)元構(gòu)建相互映射關(guān)系。經(jīng)過實(shí)驗(yàn)測試,其結(jié)果可以驗(yàn)證本文提出方法的有效,并且效果也可以從視覺效果得到很好的驗(yàn)證。
圖1 半監(jiān)督學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)映射關(guān)系
本文提出的半監(jiān)督神經(jīng)網(wǎng)絡(luò)模型是依賴最初神經(jīng)網(wǎng)絡(luò)模型進(jìn)行建立的,其最基本的運(yùn)算方法也是對運(yùn)行進(jìn)行卷積計(jì)算,提取二維圖像特征,建立三維骨架模型與相應(yīng)視角投影模型,這個(gè)過程也可以稱為二維關(guān)鍵點(diǎn)檢測,如圖2所示。該檢測關(guān)鍵點(diǎn)需作為所提出模型的輸入,該點(diǎn)需在二維圖像的人體肢體上進(jìn)行準(zhǔn)確標(biāo)注出。該數(shù)據(jù)是個(gè)張量,并且也可以被看做是圖像的標(biāo)簽數(shù)據(jù)。
圖2 二維圖像的姿態(tài)關(guān)鍵點(diǎn)檢測
半監(jiān)督方法用于完善神經(jīng)網(wǎng)絡(luò)模型的映射關(guān)系,因此需要用部分真實(shí)二維關(guān)鍵點(diǎn)檢測數(shù)據(jù)和相應(yīng)三維骨架模型先進(jìn)行訓(xùn)練,其方法框架圖如圖3所示,WMPJPE和MPJPE函數(shù)可以參考文獻(xiàn)[10]。
圖3 半監(jiān)督學(xué)習(xí)方法框架
在半監(jiān)督模型建立之后,我們需要建立神經(jīng)網(wǎng)絡(luò)模型,神經(jīng)網(wǎng)絡(luò)模型的參數(shù)、層數(shù)以及相關(guān)具體框架如圖4所示。該模型是訓(xùn)練全局空間位置樣本以及姿態(tài)樣本的核心模型,參數(shù)的選取以及層數(shù)的設(shè)置比較重要,因此,圖4中給出了模型主要參數(shù)。在圖4中,BatchNorm為每次訓(xùn)練規(guī)模參數(shù),ReLU為偏移計(jì)算層,Dropout為丟棄數(shù)據(jù)的比例參數(shù),Slice為所選數(shù)據(jù)切片。這里的神經(jīng)網(wǎng)絡(luò)訓(xùn)練需要多次,因?yàn)樵诎氡O(jiān)督學(xué)習(xí)過程就是調(diào)整和收集額外有效訓(xùn)練樣本的過程,需要不斷更新我們初始說建立的神經(jīng)網(wǎng)絡(luò),使得神經(jīng)網(wǎng)絡(luò)的映射關(guān)系不斷完善。半監(jiān)督學(xué)習(xí)一定的真實(shí)配套數(shù)據(jù)后,用測試數(shù)據(jù)進(jìn)行預(yù)測,把預(yù)測值和測試數(shù)據(jù)再代入神經(jīng)網(wǎng)絡(luò)訓(xùn)練,實(shí)現(xiàn)映射關(guān)系的更新。
圖4 神經(jīng)網(wǎng)絡(luò)模型框架
當(dāng)模型建立并完成訓(xùn)練后,我們開始用數(shù)據(jù)對所提出的模型進(jìn)行測試。我們選取Human 3.6M數(shù)據(jù)庫[3]、Humaneva數(shù)據(jù)庫[11]以及其他日常生活視頻的數(shù)據(jù)進(jìn)行測試。測試內(nèi)容有二維關(guān)鍵點(diǎn)檢測,以及相應(yīng)三維姿態(tài)估計(jì)的三維骨架模型。我們選取每種運(yùn)動(dòng)形態(tài)的任意幀估計(jì)結(jié)果進(jìn)行展示,實(shí)驗(yàn)過程中input為輸入二維關(guān)鍵點(diǎn)檢測圖像,Reconstruction為估計(jì)出的三維姿態(tài)骨架模型,Ground truth為真實(shí)的三維姿態(tài)骨架模型。
首先測試Human 3.6M數(shù)據(jù)庫的數(shù)據(jù)。該數(shù)據(jù)庫帶有真實(shí)數(shù)據(jù)集,含有實(shí)測真實(shí)的三維姿態(tài)骨架模型,是一套比較完善的數(shù)據(jù)庫。我們選擇放手走路姿態(tài)進(jìn)行估計(jì),測試結(jié)果選取任意3幀(圖5)。在圖5的視角效果比較中我們發(fā)現(xiàn),把選取部分相關(guān)二維關(guān)鍵點(diǎn)進(jìn)行肢體相連后,估計(jì)出的三維姿態(tài)骨架模型(Reconstruction)與真實(shí)的骨架模型(Ground truth)基本一致,并且投影到輸入的二維關(guān)鍵點(diǎn)檢測圖像(input)后,視覺上也相當(dāng)?shù)钠ヅ洹_@里所估計(jì)的三維骨架模型和真實(shí)的骨架模型具有空間位置信息,從所投影的二維圖像可知,模型所處的位置就與二維圖像的關(guān)鍵點(diǎn)位置相對應(yīng)。由于繪圖篇幅有些,這里就測試結(jié)果就顯示其所在的空間局部。
市委管文教的林副市長,他老婆下午去世。我和他哥們。這人,還瞞著。我去陪陪他,對了,今晚可能回不來了。他急匆匆地出門了。
圖5 Human3.6數(shù)據(jù)庫測試結(jié)果
然后對Humaneva數(shù)據(jù)庫一些常用運(yùn)動(dòng)類型的數(shù)據(jù)進(jìn)行測試。數(shù)據(jù)庫中的測試數(shù)據(jù)也有真實(shí)數(shù)據(jù)配套,我們?nèi)匀粡墓烙?jì)的視角效果來觀察,但這次保留原始檢測的二維關(guān)鍵點(diǎn)進(jìn)行測試,測試結(jié)果選取任意3幀(圖6)。
圖6 Humaneva數(shù)據(jù)庫測試結(jié)果
在圖6中我們發(fā)現(xiàn),所估計(jì)的三維姿態(tài)估計(jì)模型(Reconstruction)的效果也比較理想,與真實(shí)的骨架模型(Ground truth)非常接近,并且左右肢體沒有相反的現(xiàn)象。這些結(jié)果證明,一些自遮擋、二維到三維圖像的映射歧義問題能克服。二維圖像(input)的關(guān)鍵點(diǎn)檢測也較準(zhǔn)確,符合所估計(jì)模型的投影位置。這些現(xiàn)象都表明所提方法的準(zhǔn)確性和穩(wěn)定性較好。同樣的,這里所估計(jì)的三維骨架模型和真實(shí)的骨架模型也具有空間位置信息,可以從所投影的二維圖像關(guān)鍵點(diǎn)可知,模型所處的位置就與二維圖像的位置也有較理想的對應(yīng)。這里同樣也是為了適應(yīng)測試顯示的繪圖篇幅,選取三維骨架模型的局部空間來顯示測試結(jié)果。
最后,我們選取日常生活的視頻數(shù)據(jù)進(jìn)行處理,每個(gè)日常生活的視頻選一幀,測試結(jié)果如圖7所示。這里測試的數(shù)據(jù)沒有標(biāo)準(zhǔn)數(shù)據(jù)庫那樣的真實(shí)數(shù)據(jù)配套,測試估計(jì)三維姿態(tài)是不合空間位置信息的,所以估計(jì)的只有不含空間位置信息三維姿態(tài)骨架模型(Reconstruction),以及二維圖像(input)的關(guān)鍵點(diǎn)檢測結(jié)果。從視覺效果上看,所提方法得到的結(jié)果再次驗(yàn)證其具有良好的數(shù)據(jù)通用性和準(zhǔn)確性。
圖7 日常生活的視頻測試
本文提出了一種半監(jiān)督學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)模型來對單視角的二維圖像進(jìn)行三維姿態(tài)估計(jì),其三維姿態(tài)用三維骨架模型表示,并且給骨架模型可以轉(zhuǎn)換為很多細(xì)膩的人體體型模型[4]。本文提出的方法較好地解決了前人研究成果的一些局限性,比如自遮擋、圖像映射的歧義以及空間位置處理等問題都能較好解決。經(jīng)過實(shí)驗(yàn)測試的驗(yàn)證,本文提出的方法具有良好的穩(wěn)定性、準(zhǔn)確性,以及數(shù)據(jù)通用性。本文所提出的方法是深度學(xué)習(xí)理論在計(jì)算機(jī)視覺的發(fā)展理論成果,同時(shí)為實(shí)現(xiàn)三維姿態(tài)估計(jì)提供一種思路,可供相關(guān)研究人員參考。本文所提出的方法含有的神經(jīng)網(wǎng)絡(luò)模型具有半監(jiān)督學(xué)習(xí)功能,同時(shí)也是繼承了機(jī)器學(xué)習(xí)的部分理論基礎(chǔ),發(fā)揮其應(yīng)有的性能優(yōu)勢。