蘇 航 湯武驚
(中山大學(xué)深圳研究院,廣東 深圳 518057)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,物聯(lián)網(wǎng)技術(shù)的應(yīng)用及發(fā)展成為當(dāng)前不可阻擋的潮流,行為識(shí)別作為底層部分,在網(wǎng)域步態(tài)分析流程中起著關(guān)鍵作用。在行為識(shí)別過程中,要求計(jì)算機(jī)能夠協(xié)助用戶執(zhí)行多種類型的識(shí)別操作,以提高用戶的處理效率,即在進(jìn)行特征數(shù)據(jù)采集的同時(shí)可以對(duì)目標(biāo)對(duì)象進(jìn)行行為識(shí)別。當(dāng)前,人工智能領(lǐng)域的行為識(shí)別技術(shù)主要使用光流信息來確定目標(biāo)對(duì)象在圖像幀中的時(shí)間信息以及空間信息,從而解析目標(biāo)對(duì)象的行為狀態(tài),因此計(jì)算量較大且過程較復(fù)雜,該處理流程大大提高了運(yùn)算設(shè)備的計(jì)算成本且還會(huì)降低識(shí)別效率?;谝陨媳锥?,該文提出了一種基于步態(tài)的行為識(shí)別方法,并在此基礎(chǔ)上提供了相關(guān)的終端設(shè)備及儲(chǔ)存介質(zhì),以解決現(xiàn)有行為識(shí)別研究中存在的成本高且效率低的問題,該方法將目標(biāo)幀特征數(shù)據(jù)導(dǎo)入池化融合網(wǎng)絡(luò)中,并通過神經(jīng)網(wǎng)絡(luò)等算法輸出目標(biāo)圖像數(shù)據(jù)對(duì)應(yīng)的特征數(shù)據(jù),再確定所述目標(biāo)視頻數(shù)據(jù)中目標(biāo)對(duì)象與環(huán)境對(duì)象之間的相互位置關(guān)系,進(jìn)而確定特征的步態(tài)行為數(shù)據(jù)[1]。
該文的步態(tài)識(shí)別數(shù)據(jù)分析流程如圖1所示,由于采用以上方法需要確定步態(tài)數(shù)據(jù)的時(shí)間信息和空間信息,因此需要使用預(yù)設(shè)的幀間動(dòng)作提取網(wǎng)絡(luò),以確定相鄰圖像間的動(dòng)作特征信息;需要使用池化融合網(wǎng)絡(luò),以確定目標(biāo)特征對(duì)應(yīng)的融合特征數(shù)據(jù),這就使得到的數(shù)據(jù)為混有其他無關(guān)信息的初始數(shù)據(jù),要精確識(shí)別目標(biāo)對(duì)象的步態(tài)特征信息,就需要從中找出較穩(wěn)定且能夠表征步態(tài)的特征信息,在提取特征前,需要對(duì)初始數(shù)據(jù)進(jìn)行篩選,先從中去除可能造成影響的干擾信號(hào), 例如噪聲、雜波以及光暈等影響識(shí)別精度的無關(guān)信息,在進(jìn)行識(shí)別前,對(duì)其進(jìn)行預(yù)處理,再開始提取目標(biāo)特征。因此需要通過特征組合,并使用神經(jīng)網(wǎng)絡(luò)算法,最后通過模式分類識(shí)別特征。
圖1 動(dòng)作特征提取流程圖
目前,絕大多數(shù)基于步態(tài)的行為識(shí)別方法均需要進(jìn)行特征分類,該文的幀間動(dòng)作特征數(shù)據(jù)提取單元可以將所述目標(biāo)視頻數(shù)據(jù)導(dǎo)入預(yù)設(shè)的幀間動(dòng)作提取網(wǎng)絡(luò),從而得到幀間動(dòng)作特征數(shù)據(jù)。所述幀間動(dòng)作特征數(shù)據(jù)用于確定所述目標(biāo)圖像數(shù)據(jù)中相鄰的目標(biāo)對(duì)象圖像幀之間的動(dòng)作特征信息。在確定目標(biāo)對(duì)象的動(dòng)作特征后,需要確定特征點(diǎn)坐標(biāo)對(duì)應(yīng)的空間信息,即位移數(shù)據(jù),該文使用的行為識(shí)別方法如下:根據(jù)所述位移相關(guān)矩陣確定各個(gè)所述特征點(diǎn)坐標(biāo)在所述2個(gè)連續(xù)的圖像幀間的最大位移距離,并根據(jù)所得到的最大位移距離確定目標(biāo)對(duì)象的位移矩陣,該方法的原理是利用所描述特征點(diǎn)的最大位移量建立目標(biāo)物體在2D平面上的位移場,并通過激活Softmax對(duì)所述位移場進(jìn)行池化降維,得到一維置信度張量,最后對(duì)得到的一維置信度張量進(jìn)行融合,構(gòu)建用于表達(dá)三維空間的位移矩陣,而融合特征數(shù)據(jù)單元將所述幀間動(dòng)作特征數(shù)據(jù)導(dǎo)入池化融合網(wǎng)絡(luò),輸出所述目標(biāo)視頻數(shù)據(jù)對(duì)應(yīng)的融合特征數(shù)據(jù)。該文使用的特征組合流程如圖1所示。
該動(dòng)作特征提取流程主要分為4個(gè)步驟:1) 設(shè)定原始特征空間。在初始狀態(tài)下,對(duì)特征原始數(shù)據(jù)設(shè)定對(duì)應(yīng)空間(X={x|t,t+1}),該空間內(nèi)包括動(dòng)作提取網(wǎng)絡(luò)的輸入數(shù)據(jù)為2個(gè)單獨(dú)的視頻圖像幀,即圖像t以及圖像t+1。2) 特征向量轉(zhuǎn)換。X空間中包括的2個(gè)視頻圖像幀是幀序號(hào)相鄰的2個(gè)視頻圖像幀,電子設(shè)備可以通過向量轉(zhuǎn)換模塊對(duì)上述2個(gè)視頻圖像幀進(jìn)行向量轉(zhuǎn)換,將其轉(zhuǎn)換為用圖像幀向量模式表示的信息。3) 池化降維處理。通過池化層對(duì)轉(zhuǎn)換后的向量模式信息進(jìn)行降維處理,并采用激活層和位移計(jì)算模塊確定2個(gè)視頻圖像幀對(duì)應(yīng)的向量標(biāo)識(shí)之間的位移信息,從而通過動(dòng)作識(shí)別單元確定2個(gè)視頻圖像幀間的動(dòng)作信息。4) 步態(tài)特征識(shí)別。提取降維后得到位移和動(dòng)作信息,即2個(gè)二維坐標(biāo)點(diǎn),采用4層卷積核過濾雜波等干擾信息,從而進(jìn)行二維步態(tài)識(shí)別。其中,動(dòng)作識(shí)別單元具體可以由多個(gè)卷積層構(gòu)成(圖2),可以包括基于1*7*7的卷積核構(gòu)成的第一卷積層、基于1*3*3的卷積核構(gòu)成的第二卷積層、基于1*3*3的卷積核構(gòu)成的第三卷積層以及基于1*3*3的卷積核構(gòu)成的第四卷積層。
圖2 模式分類流程圖
由于上述幀間動(dòng)作識(shí)別流程由各提取模塊間各迭代求解輸出,因此獲得的各個(gè)動(dòng)作特征信息是離散的,為了在后面流程中便于動(dòng)作特征識(shí)別,需要在此基礎(chǔ)上對(duì)特征數(shù)據(jù)進(jìn)行特征融合,該文提供的終端設(shè)備可以將幀間動(dòng)作特征數(shù)據(jù)導(dǎo)入上述池化融合網(wǎng)絡(luò)中,以進(jìn)行池化降維處理和特征融合操作,從而輸出對(duì)應(yīng)的融合特征數(shù)據(jù)。其中,特征融合的數(shù)據(jù)計(jì)算方式如公式(1)所示[2]。式中:Maxpool為融合特征數(shù)據(jù);Avtioni為第i個(gè)圖像幀對(duì)應(yīng)的動(dòng)作數(shù)據(jù)信息;N為所述目標(biāo)視頻數(shù)據(jù)中的總幀數(shù)。
現(xiàn)有研究特征識(shí)別流程中的模式分類大多數(shù)使用神經(jīng)網(wǎng)絡(luò)算法和貝葉斯網(wǎng)絡(luò)[3],該文在此基礎(chǔ)上,采用同源雙線性池化網(wǎng)絡(luò),其具體計(jì)算流程如下:通過計(jì)算不同空間位置特征的外積,從而生成1個(gè)對(duì)稱矩陣,然后再對(duì)該矩陣做平均池化,以獲得雙線性特征,它可以提供比線性模型更強(qiáng)的特征表示,并且可以以端到端的方式進(jìn)行優(yōu)化。傳統(tǒng)的全局平均池化(GAP)只捕獲一階統(tǒng)計(jì)信息,而忽略了對(duì)行為識(shí)別有用的更精細(xì)的細(xì)節(jié)特征,針對(duì)這個(gè)問題,擬借鑒細(xì)粒度分類中所使用的雙線性池化方法并與GAP方法融合[4],使對(duì)相似度較高的行為可以提取更精細(xì)的特征,從而得到更好的識(shí)別結(jié)果,進(jìn)而得到所述目標(biāo)對(duì)象的行為類別。模式分類流程如圖2所示。
該文采用雙向端與端間的訓(xùn)練過程并結(jié)合神經(jīng)網(wǎng)絡(luò)算法,可以在一定程度上降低模式分類過程中的訓(xùn)練難度,其最終的計(jì)算結(jié)果可以通過激活函數(shù)(Activation Function)輸出。
該文根據(jù)所提方法并結(jié)合當(dāng)前時(shí)常需求提供了一種終端設(shè)備,其包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)數(shù)據(jù)采集、特征融合以及數(shù)據(jù)庫訓(xùn)練的功能(即最終的步態(tài)識(shí)別系列過程)。
該文基于識(shí)別方法提供的程序系統(tǒng)可以應(yīng)用于智能手機(jī)、服務(wù)器、平板電腦、筆記本電腦、超級(jí)移動(dòng)個(gè)人計(jì)算機(jī)(Ultra-Mobile Personal Computer,UMPC)以及上網(wǎng)本等能夠?qū)σ曨l數(shù)據(jù)進(jìn)行行為識(shí)別的終端設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特點(diǎn)是當(dāng)處理器運(yùn)行該電腦程序時(shí),能夠滿足各種權(quán)利需求,其核心組件如圖3所示。
圖3 硬件設(shè)備結(jié)構(gòu)圖
通過該硬件系統(tǒng)采集的數(shù)據(jù)會(huì)經(jīng)過其核心的算法進(jìn)行特征、模式分類計(jì)算并擬合,終端設(shè)備在得到擬合后的特征數(shù)據(jù)后,會(huì)將其導(dǎo)入鏈接層,確定擬合數(shù)據(jù)與行為類別訓(xùn)練數(shù)據(jù)庫間的置信度,最后選取置信度最高的特征數(shù)據(jù)作為該目標(biāo)對(duì)象的行為識(shí)別結(jié)果,由于該過程存在的行為識(shí)別數(shù)據(jù)長度足夠長,因此該識(shí)別數(shù)據(jù)中包括多個(gè)類型的動(dòng)作特征,會(huì)導(dǎo)致計(jì)算時(shí)效增長,從而導(dǎo)致識(shí)別結(jié)果嚴(yán)重滯后,而該文提供的終端設(shè)備可以根據(jù)各個(gè)行為特征出現(xiàn)的先后次序,按時(shí)間信息輸出1個(gè)行為序列,該序列包括多個(gè)元素,而其中的每一個(gè)元素都會(huì)對(duì)應(yīng)一個(gè)行為類別[5],以此類推,可以高效識(shí)別目標(biāo)對(duì)象的步態(tài)行為信息,其系統(tǒng)結(jié)構(gòu)如圖4所示。
圖4 系統(tǒng)結(jié)構(gòu)示意圖
現(xiàn)有研究中存在的 3D 卷積神經(jīng)網(wǎng)絡(luò)的末尾使用的全局平均池化層在一定程度上影響時(shí)間信息的豐富性。針對(duì)該問題,該文選擇深度雙向轉(zhuǎn)換器(Transformer)來替代全局平均池化。從輸入視頻中采樣的K幀通過 3D 卷積編碼器編碼,得到的特征圖(Feature Map)在網(wǎng)絡(luò)的最后不使用全局平均池化,而是將特征向量分割成固定長度的 tokens 序列[6],再將學(xué)習(xí)的位置編碼添加到提取的特征中,以保證特征位置信息得以保存。融合位置編碼后利用深度雙向轉(zhuǎn)換器中的 Transformer 塊對(duì)時(shí)間信息進(jìn)行建模,通過深度雙向轉(zhuǎn)換器的多頭注意力機(jī)制得出的特征向量融合了時(shí)間信息,然后將這些向量進(jìn)行連接,通過多層感知機(jī)進(jìn)行特征維度變換,再通過計(jì)算對(duì)比損失完成端到端的訓(xùn)練[7]。最終得到一個(gè)泛化性能良好的預(yù)訓(xùn)練模型。
該文的數(shù)據(jù)采集試驗(yàn)選取人的3種行為步態(tài)信息(漫步、原地踏步以及跑步)進(jìn)行識(shí)別,并征集60名志愿者參與試驗(yàn),分別為適齡兒童10名、中青年10名以及老年人10名(男女各30人),保障人數(shù)均衡且覆蓋面足夠廣泛,為了保證識(shí)別結(jié)果的準(zhǔn)確性,分別選擇試驗(yàn)場地的白天(光線足夠)、晚上(光線暗淡)2個(gè)時(shí)間點(diǎn)進(jìn)行數(shù)據(jù)采集,如圖5所示。
圖5(a)為步態(tài)特征映像圖,利用機(jī)器識(shí)別采用卷積神經(jīng)網(wǎng)絡(luò)、sobel算子進(jìn)行邊緣檢測識(shí)別計(jì)算,并針對(duì)平面卷積進(jìn)行差分近似計(jì)算;圖5(b)展示了整個(gè)計(jì)算過程的耗時(shí),即經(jīng)過池化層降維處理后的特征識(shí)別計(jì)算效率提高。試驗(yàn)設(shè)計(jì)了3種步態(tài)模式,共設(shè)置2組,每組各30人,每種模式重復(fù)采集10次,形成1 800組數(shù)據(jù)樣本,且每次步態(tài)模式轉(zhuǎn)換時(shí)需要志愿者停頓2 s~3 s,以便設(shè)備切換并提取不同步態(tài)的模式信號(hào),將所有的數(shù)據(jù)整理好,建立一個(gè)目標(biāo)對(duì)象的步態(tài)數(shù)據(jù)庫,數(shù)據(jù)采集如圖6所示。
圖5 步態(tài)數(shù)據(jù)采集處理
圖6 步態(tài)采集數(shù)據(jù)解析示意圖
通過以上試驗(yàn)對(duì)形成的數(shù)據(jù)樣本進(jìn)行檢索識(shí)別,從識(shí)別結(jié)果上可以看出,該識(shí)別裝置對(duì)3種步態(tài)識(shí)別精度為(適齡兒童女/男)97%/98.1%、(中青年女/男)98%/98.6%以及(老年人女/男)98.8%/98.5%,比現(xiàn)有的采用貝葉斯算法BayesNet識(shí)別方式高,詳細(xì)分析結(jié)果見表1。
表1 數(shù)據(jù)采集結(jié)果分析表
在表1中,組別1為適齡兒童,組別2為中青年,組別3為老年人群體。由于試驗(yàn)分為3種年紀(jì)的6組試驗(yàn),因此為了讓結(jié)果更具通用性,使用同一組男女識(shí)別數(shù)據(jù)的平均值,且取其中10組的值進(jìn)行計(jì)算。
根據(jù)試驗(yàn)結(jié)果可知,該方法具有可行性,且使用該方法集成的數(shù)據(jù)采集系統(tǒng)簡潔、靈活,識(shí)別精度提高至98.7%,機(jī)器學(xué)習(xí)性能度量低至1.96%,在提高識(shí)別精度的同時(shí)有效提高了計(jì)算效率。
該文基于現(xiàn)有研究存在的問題提供了一套檢測識(shí)別方法,并基于該方法提供了1套終端設(shè)備,通過試驗(yàn)證明了該方法及試驗(yàn)設(shè)備的可行性和靈活性,在一定程度上為該領(lǐng)域的后續(xù)研究提供借鑒,但是該文局限于試驗(yàn)數(shù)據(jù)樣本較少,存在訓(xùn)練結(jié)果與識(shí)別結(jié)果有較小偏差的情況,因此需要在后續(xù)研究中基于多種場景、各類群體以及多種氣象條件進(jìn)行數(shù)據(jù)采集及樣本訓(xùn)練,以提高設(shè)備識(shí)別精度,擴(kuò)大方法的實(shí)際應(yīng)用前景。