沈江霖, 魏 丹, 王子陽(yáng)
(上海工程技術(shù)大學(xué)機(jī)械與汽車工程學(xué)院, 上海 201620)
在無人駕駛中,通過對(duì)行人下一步動(dòng)作的預(yù)測(cè)可以提前完成汽車加速或者減速的決策,同時(shí)可以減小事故發(fā)生的概率[1]。如果不能準(zhǔn)確的預(yù)測(cè)行人的下一步動(dòng)作,人車系統(tǒng)安全將無從談起。CHEN等[2]提出了一種用于動(dòng)作預(yù)測(cè)的循環(huán)語(yǔ)義保留生成方法,開發(fā)了一個(gè)生成體系結(jié)構(gòu)補(bǔ)充骨架序列用于預(yù)測(cè)動(dòng)作,該方法未考慮行人部位遮擋及背景干擾問題。LI等[3]研究了基于骨架數(shù)據(jù)的動(dòng)作預(yù)測(cè),提出了一種基于對(duì)抗學(xué)習(xí)的自適應(yīng)圖卷積網(wǎng)絡(luò),學(xué)習(xí)局部序列中潛在的全局信息,該網(wǎng)絡(luò)對(duì)行人姿態(tài)變化和外觀差異等因素不具有魯棒性。針對(duì)上述問題,本文提出一種新的基于網(wǎng)格劃分骨骼的行為預(yù)測(cè)方法,通過對(duì)行人進(jìn)行網(wǎng)格劃分并提取相應(yīng)關(guān)節(jié)點(diǎn)的行為特征,對(duì)比前后幀的行為特征,進(jìn)而判斷行人的運(yùn)動(dòng)方向及運(yùn)動(dòng)速度。
基于網(wǎng)格劃分骨骼的行為預(yù)測(cè)方法主要分為兩個(gè)部分:行人網(wǎng)格劃分和行人骨骼行為特征提取。具體來說,就是將行人進(jìn)行網(wǎng)格劃分和對(duì)行人骨骼進(jìn)行估計(jì),提取出網(wǎng)格特征、關(guān)節(jié)點(diǎn)角度及骨骼特征,將三者結(jié)合形成行人的行為動(dòng)作特征,通過前后幀的對(duì)比,計(jì)算下一幀行人動(dòng)作發(fā)生的概率。基于網(wǎng)格劃分骨骼的行為預(yù)測(cè)方法的流程如圖1所示。
圖1 基于網(wǎng)格劃分骨骼的行為預(yù)測(cè)方法的流程圖Fig.1 Flow chart of action prediction method based on grid partition of skeleton
給定一個(gè)測(cè)試視頻,初始化其定位算法,在單幀中使用自下而上的骨骼估計(jì),并使用之前幀的多個(gè)時(shí)空約束細(xì)化位姿。本文將測(cè)試視頻幀進(jìn)行密集網(wǎng)格劃分,利用每個(gè)劃分網(wǎng)格內(nèi)計(jì)算的特征,學(xué)習(xí)1個(gè)基于劃分網(wǎng)格的外觀模型,該模型通過訓(xùn)練1個(gè)在每個(gè)位姿邊界框內(nèi)的網(wǎng)格特征作為前景,其余劃分的網(wǎng)格特征作為背景的判別分類器,區(qū)分前景和背景。同時(shí),由于骨骼關(guān)節(jié)點(diǎn)角度和前一幀骨骼關(guān)節(jié)點(diǎn)角度是一致的,基于此可以計(jì)算當(dāng)前時(shí)間步長(zhǎng)姿態(tài)假設(shè)的條件概率。將每個(gè)時(shí)間步長(zhǎng)的概率結(jié)果結(jié)合后,通過在關(guān)節(jié)點(diǎn)位置、行人外觀及姿勢(shì)比例上施加一致性改進(jìn)姿勢(shì)。
一旦在當(dāng)前的時(shí)間步長(zhǎng)中估計(jì)并改進(jìn)了姿勢(shì),就會(huì)更新基于網(wǎng)格特征的外觀模型,以避免出現(xiàn)視覺漂移。因此,骨骼估計(jì)不但提供了初始化具有判別力的外觀模型,而且可以包含任何行人全身或多個(gè)關(guān)節(jié)點(diǎn)的交互或執(zhí)行操作。
本文采取文獻(xiàn)[4]中介紹的自下而上的方法進(jìn)行行人骨架估計(jì),行人骨架估計(jì)結(jié)果如圖2左部分和圖3左部分所示。行人骨架估計(jì)完成后,本文將骨架特征單獨(dú)提取出來,如圖2右部分和圖3右部分所示,并規(guī)定了8個(gè)關(guān)節(jié)點(diǎn)作為行為角度特征的基點(diǎn),分別為左右肘關(guān)節(jié)點(diǎn)(A,a,C,c)、左右手關(guān)節(jié)點(diǎn)(B,b,D,d)、左右膝關(guān)節(jié)點(diǎn)(E,e,I,i)、左右腳關(guān)節(jié)點(diǎn)(F,f,J,j)。本文通過網(wǎng)格劃分得到的網(wǎng)格中心o作為二維坐標(biāo)系的原點(diǎn),以o為原點(diǎn)學(xué)習(xí)8個(gè)關(guān)節(jié)點(diǎn)到原點(diǎn)的距離度量特征和角度度量特征。通過與前一幀的距離度量特征和角度度量特征進(jìn)行對(duì)比,判斷各個(gè)關(guān)節(jié)點(diǎn)的變化趨勢(shì)。
圖2 前一幀行人骨骼估計(jì)及其角度特征Fig.2 Pedestrian skeleton estimation and its angle characteristics in the previous frame
圖3 后一幀行人骨骼估計(jì)及其角度特征Fig.3 Post-frame pedestrian skeleton estimation and its angular characteristics
當(dāng)行人行走時(shí),o點(diǎn)與頭部、肩部和胯部相應(yīng)關(guān)節(jié)點(diǎn)的距離度量和角度度量變化不大,不能體現(xiàn)行人的姿態(tài)變化,更無法通過o點(diǎn)與頭部、肩部和胯部相應(yīng)關(guān)節(jié)點(diǎn)的距離度量和角度度量預(yù)測(cè)行人下一幀的動(dòng)作變化。與頭部、肩部和胯部相應(yīng)的關(guān)節(jié)點(diǎn)不同的是,行人行走時(shí)的左右肘關(guān)節(jié)點(diǎn)、左右手關(guān)節(jié)點(diǎn)、左右膝關(guān)節(jié)點(diǎn)、左右腳關(guān)節(jié)點(diǎn)與o點(diǎn)的距離度量和角度度量變化幅度很大;而且行人行走時(shí),手臂的擺幅、跨步的距離都是行人行走習(xí)慣的表現(xiàn),通過對(duì)左右肘關(guān)節(jié)點(diǎn)、左右手關(guān)節(jié)點(diǎn)、左右膝關(guān)節(jié)點(diǎn)、左右腳關(guān)節(jié)點(diǎn)與o點(diǎn)的距離度量和角度度量的學(xué)習(xí),可以得到行人的行走習(xí)慣,從而判斷下一幀行人的動(dòng)作變化。
不同幀捕捉到行人的左右肘關(guān)節(jié)點(diǎn)、左右手關(guān)節(jié)點(diǎn)、左右膝關(guān)節(jié)點(diǎn)和左右腳關(guān)節(jié)點(diǎn)的距離度量特征和角度度量特征不同,通過對(duì)比前后幀的距離度量特征和角度度量特征計(jì)算出下一幀關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)類型發(fā)生概率。本文利用公式(1)計(jì)算出關(guān)節(jié)點(diǎn)的距離度量特征doi:
doi=xTMx
(1)
本文定義的行為特征包括距離度量特征和角度度量特征,由于關(guān)節(jié)點(diǎn)與原點(diǎn)o的角度不易計(jì)算,因此本文利用關(guān)節(jié)點(diǎn)角度的正弦值表示關(guān)節(jié)點(diǎn)的角度。本文利用公式(2)計(jì)算角度度量特征θi:
(2)
行人行為特征的距離度量特征doi和角度度量特征θi都是基于相同關(guān)節(jié)點(diǎn)計(jì)算得出,兩者具有相關(guān)性。本文利用公式(3)計(jì)算出兩者的關(guān)聯(lián)度τi:
(3)
其中,ρ為分辨系數(shù),一般ρ=0.5。通過關(guān)聯(lián)度τi將兩個(gè)特征關(guān)聯(lián)后得到行人的行為特征Ti,行為特征Ti可以用公式(4)表示:
Ti=sinθi+τidoi
(4)
計(jì)算出行人行為特征后,利用公式(5)計(jì)算下一幀該關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)特征出現(xiàn)概率:
(5)
利用上述公式計(jì)算出8個(gè)關(guān)節(jié)點(diǎn)下一幀運(yùn)動(dòng)類型的概率,然后結(jié)合8個(gè)關(guān)節(jié)點(diǎn)下一幀的運(yùn)動(dòng)類型判斷下一幀行人動(dòng)作。為了更準(zhǔn)確地判斷行人運(yùn)動(dòng),本文將行人劃分為無數(shù)密集網(wǎng)格,結(jié)果如圖4所示,通過提取劃分網(wǎng)格的特征,對(duì)比前后幀的8個(gè)關(guān)節(jié)點(diǎn)的網(wǎng)格特征變化,判斷行人前進(jìn)或者后退,以及行動(dòng)加速、勻速或者減速。以上判斷都是基于MATLAB代碼實(shí)現(xiàn)的。
在3個(gè)行為動(dòng)作預(yù)測(cè)數(shù)據(jù)集sub-JHMDB、UCF-Sports和MSR-II上對(duì)本文所提方法進(jìn)行驗(yàn)證。
sub-JHMDB數(shù)據(jù)集[5]的每幀都可以看到所有人體關(guān)節(jié),共包含316個(gè)視頻、12個(gè)動(dòng)作類??紤]到行人關(guān)節(jié)的復(fù)雜變化,每一幀行人的識(shí)別和定位變得極具挑戰(zhàn)性,故在JHMDB數(shù)據(jù)集基礎(chǔ)上,使用sub-JHMDB數(shù)據(jù)集。
UCF-Sports數(shù)據(jù)集[6-7]包含150個(gè)視頻和10個(gè)動(dòng)作類。使用文獻(xiàn)[8]提出的方法對(duì)本文所提方法進(jìn)行評(píng)估。
MSR-II數(shù)據(jù)集[9]包含54個(gè)未修剪的視頻和3個(gè)動(dòng)作類。本文采用跨數(shù)據(jù)集估值,并使用KTH數(shù)據(jù)集對(duì)MSR-II數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試。在數(shù)據(jù)集iDTFs使用大小為K=1 000的碼數(shù)訓(xùn)練支持向量機(jī)。本文使用精確回憶曲線和最先進(jìn)的離線方法進(jìn)行定量比較,同時(shí)為了與其他數(shù)據(jù)集保持一致,本文也使用受試者工作特征曲線(Receiver Operating Characteristic, ROC)和ROC曲線下面區(qū)域的面積(Area Under Curve, AUC)報(bào)告結(jié)果。
受早期行為識(shí)別和預(yù)測(cè)的啟發(fā),本文將行為和交互的觀察比值作為性能量化指標(biāo)。該評(píng)價(jià)指標(biāo)以不同的觀測(cè)視頻/動(dòng)作比值(0,0.1,0.2,…,1)采樣,進(jìn)行視頻的定位和預(yù)測(cè)。預(yù)測(cè)任務(wù)的準(zhǔn)確性類似于分類和識(shí)別,對(duì)于未修剪的視頻,預(yù)測(cè)精度的評(píng)估難度較大。為此,首先將預(yù)測(cè)結(jié)果作為觀測(cè)比值函數(shù)的真實(shí)視頻行動(dòng),該操作相當(dāng)于修剪情況。其次使用動(dòng)作/交互的平均持續(xù)時(shí)間,通過在每個(gè)視頻中每5幀滑動(dòng)一個(gè)窗口提取時(shí)間上重疊的剪輯,其中,一些包含真實(shí)動(dòng)作,另一些則代表未修剪視頻的背景部分。最后將計(jì)算預(yù)測(cè)精度作為函數(shù)的觀測(cè)比值。這種方法可以捕捉誤報(bào),并為未修剪的視頻提供更全面的評(píng)估。
在實(shí)驗(yàn)部分,本文以連續(xù)3幀為例,通過學(xué)習(xí)前兩幀的行為特征估計(jì)下一幀的8個(gè)關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)類型發(fā)生的概率,根據(jù)8個(gè)關(guān)節(jié)點(diǎn)運(yùn)動(dòng)類型的加權(quán)后得到行人下一幀的運(yùn)動(dòng)類型。
通過上述方法可以計(jì)算出8個(gè)關(guān)節(jié)點(diǎn)的運(yùn)動(dòng)類型發(fā)生的概率,結(jié)果如表1所示。從表1中可以推測(cè)出,行人的左臂在下一幀向上運(yùn)動(dòng),行人的右臂在下一幀向下運(yùn)動(dòng),行人的左腿在下一幀向下運(yùn)動(dòng),行人的右腿在下一幀向上運(yùn)動(dòng)。根據(jù)劃分網(wǎng)格特征判斷行人向前勻速運(yùn)動(dòng),其中左右手臂和左右腿的運(yùn)動(dòng)方向也是向前運(yùn)動(dòng)。
表 1 關(guān)節(jié)點(diǎn)運(yùn)動(dòng)類型及概率Tab.1 Type and probability of joint movement
研究人員在3個(gè)行人動(dòng)作數(shù)據(jù)集sub-JHMDB、UCF-Sports、MSR-II上驗(yàn)證在不同觀察比值情況下不同重疊率的動(dòng)作預(yù)測(cè)準(zhǔn)確率。具體實(shí)驗(yàn)結(jié)果如圖5至圖7所示。其中,當(dāng)動(dòng)作觀察比值為0.4、重疊率為30%時(shí),在sub-JHMDB數(shù)據(jù)集上的準(zhǔn)確率能達(dá)到56%;當(dāng)動(dòng)作觀察比值為0.2、重疊率為10%時(shí),在UCF-Sports數(shù)據(jù)集上的準(zhǔn)確率能達(dá)到54%;當(dāng)動(dòng)作觀察比值為0.1、重疊率為10%時(shí),在MSR-Ⅱ數(shù)據(jù)集上的準(zhǔn)確率能達(dá)到46%,不同數(shù)據(jù)集上最大準(zhǔn)確率和動(dòng)作觀察比值見表2。
圖5 不同觀察比值在sub-JHMDB數(shù)據(jù)集上的準(zhǔn)確率Fig.5 The accuracy of different observation ratios on sub-JHMDB dataset
圖6 不同觀察比值在UCF-Sports數(shù)據(jù)集上的準(zhǔn)確率Fig.6 The accuracy of different observation ratios on UCF-Sports dataset
圖7 不同觀察比值在MSR-II數(shù)據(jù)集上的準(zhǔn)確率Fig.7 The accuracy of different observation ratios on MSR-II dataset
表 2 不同數(shù)據(jù)集上最大準(zhǔn)確率和動(dòng)作觀察比值Tab.2 Maximum accuracy and action observation ratios on different datasets
本研究以累積的方式計(jì)算AUC,50%的準(zhǔn)確率意味著從一開始就定位一個(gè)動(dòng)作,直到觀察到視頻的一半。這可以深入了解本文所提模型性能是如何隨著時(shí)間或測(cè)試視頻中觀察到的比值的變化而變化的。從圖5至圖7可以看出,在視頻開始播放時(shí),定位一個(gè)動(dòng)作是很有挑戰(zhàn)性的,因?yàn)樗惴ú]有觀察到足夠的判別運(yùn)動(dòng)用于區(qū)分不同的動(dòng)作。此外,本研究首先從行人骨架姿態(tài)中學(xué)習(xí)外觀模型,并隨著時(shí)間的推移不斷進(jìn)行改進(jìn)和細(xì)化。這提高了基于劃分網(wǎng)格特征的外觀可信度,進(jìn)而提高了預(yù)測(cè)的準(zhǔn)確性,穩(wěn)定了AUC。
本文提出一種新的基于網(wǎng)格劃分骨骼的行為預(yù)測(cè)方法,該方法主要分為兩個(gè)部分,首先使用自下而上的方法提取行人的骨骼信息,規(guī)定左右肘、左右手、左右膝以及左右腳8個(gè)關(guān)節(jié)點(diǎn)作為提取行為習(xí)慣的關(guān)節(jié)點(diǎn),并且通過學(xué)習(xí)8個(gè)關(guān)節(jié)點(diǎn)的距離度量特征和角度度量特征提取行人的行為特征。對(duì)8個(gè)關(guān)節(jié)點(diǎn)分別對(duì)比前后幀的行為特征,判斷下一幀單個(gè)關(guān)節(jié)點(diǎn)運(yùn)動(dòng)類型發(fā)生的概率,通過對(duì)下一幀8個(gè)關(guān)節(jié)點(diǎn)運(yùn)動(dòng)類型的加權(quán)判斷下一幀行人的動(dòng)作。其次為了更好地評(píng)估行人下一幀的動(dòng)作,本文通過對(duì)行人進(jìn)行網(wǎng)格劃分并提取相應(yīng)關(guān)節(jié)點(diǎn)的劃分網(wǎng)格特征,對(duì)比前后幀的劃分網(wǎng)格特征,判斷行人的運(yùn)動(dòng)方向及運(yùn)動(dòng)速度。實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。