裴永強(qiáng), 王家偉, 湯雪芹
(重慶交通大學(xué) 信息科學(xué)與工程學(xué)院, 重慶 400064)
伴隨信息化水平的提升, 視頻行為識(shí)別已成為國(guó)內(nèi)外人工智能領(lǐng)域研究熱點(diǎn), 在智能家庭設(shè)計(jì)、 無(wú)人駕駛方面均有廣泛的應(yīng)用[1-2]。時(shí)間信息是行為識(shí)別的重要組成部分, 對(duì)識(shí)別系統(tǒng)性能的好壞有決定性作用。但因?yàn)樽藨B(tài)、 視角等元素的影響, 高效率提取信息具備一定的挑戰(zhàn)性, 所以規(guī)劃涵蓋視頻語(yǔ)義的精準(zhǔn)表達(dá)形式是十分必要的。
針對(duì)行為識(shí)別的相關(guān)問(wèn)題, 王萍等[3]提出一種基于視頻分段的實(shí)時(shí)雙通道卷積神經(jīng)網(wǎng)絡(luò)行為識(shí)別方法。首先將視頻劃分為多個(gè)等長(zhǎng)不重疊的分段, 對(duì)各個(gè)分段隨機(jī)采樣獲得代表視頻靜態(tài)特征的幀圖像和代表運(yùn)動(dòng)特征的堆疊光流圖像, 將兩種圖像依次輸入空域和時(shí)域卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取, 在兩個(gè)通道分別融合各視頻分段特征, 獲得空域和時(shí)域的類別預(yù)測(cè)特征, 集成雙通道的預(yù)測(cè)特征實(shí)現(xiàn)視頻行為識(shí)別。但該方法識(shí)別結(jié)果精度較低, 很難應(yīng)用于真實(shí)場(chǎng)景。鹿天然等[4]提出一種線性序列差異分析方法, 應(yīng)用ViBe算法對(duì)視頻幀進(jìn)行背景減除操作, 得到行為區(qū)域, 在該區(qū)域內(nèi)提取稠密軌跡特征去除背景數(shù)據(jù)干擾。使用Fisher Vector對(duì)特征編碼后進(jìn)行線性序列差異分析, 采用動(dòng)態(tài)線性規(guī)整算法計(jì)算序列類別間相似度, 將特征從高維空間投影至低維空間, 利用降維后的特征訓(xùn)練支持向量機(jī), 達(dá)到人體行為識(shí)別目標(biāo)。但該方法識(shí)別效率較低, 即時(shí)性不高。
總結(jié)上述方法不足, 筆者提出一種基于超限學(xué)習(xí)機(jī)的深度網(wǎng)絡(luò)時(shí)間分組行為識(shí)別方法。建立基于多尺度特征行為識(shí)別模型, 獲取大致的人體運(yùn)動(dòng)行為特征; 利用視頻分組稀疏抽樣手段, 防止時(shí)間建模過(guò)程產(chǎn)生信息丟失; 應(yīng)用超限學(xué)習(xí)機(jī)方法實(shí)現(xiàn)深度網(wǎng)絡(luò)時(shí)間分組行為的準(zhǔn)確識(shí)別。
為得到人體運(yùn)動(dòng)行為的簡(jiǎn)略特征, 降低方法復(fù)雜度, 將行為運(yùn)動(dòng)軌跡當(dāng)作大尺度特征, 擇取每個(gè)瞬時(shí)運(yùn)動(dòng)人體剪影的最小外接矩形框的中心[5], 模擬人體軌跡坐標(biāo)。在每個(gè)瞬間時(shí)段, 一個(gè)軌跡相對(duì)的是人體質(zhì)心方位的x、y坐標(biāo)構(gòu)成的二維N元矢量{(Xk,Yk),k=1,2,…,N}。使用統(tǒng)一模式編碼軌跡, 關(guān)于n幀序列, 各個(gè)幀的運(yùn)動(dòng)人體都是通過(guò)二維圖像坐標(biāo)(xi,yi)進(jìn)行表達(dá), 并滿足
fi=(xi,yi)
(1)
將人體運(yùn)動(dòng)行為軌跡的流矢量序列記作
T0={f1,f2,…,fi,…,fn-1,fn}
(2)
目標(biāo)軌跡基本可以形成一個(gè)二維信號(hào), 視頻持續(xù)幀內(nèi)的運(yùn)動(dòng)目標(biāo)是一個(gè)參數(shù)曲線。
關(guān)于一個(gè)完整軌跡劃分獲得的5條子軌跡擁有不同的序列長(zhǎng)度li。假設(shè)m是各個(gè)子軌跡內(nèi)的采樣點(diǎn)個(gè)數(shù), 且li>m, 則在此段子軌跡內(nèi)均勻收集m個(gè)坐標(biāo)點(diǎn), 即m幀的圖像序列。若li 利用邊緣輪廓小波矩特征表示在小尺度內(nèi)一個(gè)姿態(tài)的細(xì)節(jié)特征, 此特征構(gòu)建在多段定向距離向量傅里葉因子的前提下, 具備平移、 縮放及旋轉(zhuǎn)不變形特性。 按照行為的相關(guān)特性, 每個(gè)行為事件均是通過(guò)諸多主要姿態(tài)進(jìn)行表示的, 這些主要姿態(tài)平均分布在一個(gè)行為事件每段子軌跡構(gòu)成的子事件內(nèi), 剩余姿態(tài)就是主要姿態(tài)的過(guò)渡[6-8]。主要姿態(tài)數(shù)量在一定意義上決定了識(shí)別率的高低及計(jì)算量的多少, 若主要姿態(tài)數(shù)量太少, 就不能準(zhǔn)確表示出人體的行為特征, 從而降低行為識(shí)別精度; 若主要姿態(tài)數(shù)量太多, 則計(jì)算數(shù)量會(huì)成倍增長(zhǎng), 對(duì)計(jì)算的穩(wěn)定性造成威脅。因此, 筆者將行為劃分為5個(gè)主要姿態(tài), 它們依次源于5段子軌跡。 λ(1,2)=(A(1),B(1),π(1),A(2),B(2),π(2),H(1,2)) (3) 式(3)是行為識(shí)別模型的無(wú)回路無(wú)狀態(tài)拓?fù)浣Y(jié)構(gòu), 每個(gè)狀態(tài)都不具備返回前一狀態(tài)的功能,A(i)、B(i)和π(i)依次是相對(duì)層的狀態(tài)移動(dòng)矩陣、 原始狀態(tài)分布概率矩陣。以下為具體運(yùn)算過(guò)程。 (4) (5) (6) 前向變量αt(i,j)是t時(shí)段在某個(gè)狀態(tài)(i,j)內(nèi)生成觀察序列的概率, 使用前向方法計(jì)算 (7) (8) (9) 通過(guò)式(7)~式(9), 可得模型的似然概率 (10) (11) (12) 時(shí)間建模方式有兩種: 短期建模與長(zhǎng)期建模[9]。 長(zhǎng)期建模針對(duì)某些時(shí)間跨度較長(zhǎng)的復(fù)雜動(dòng)作具有較優(yōu)表現(xiàn)?,F(xiàn)階段, 深度網(wǎng)絡(luò)中最關(guān)鍵的問(wèn)題就是無(wú)法對(duì)長(zhǎng)時(shí)間結(jié)構(gòu)實(shí)施模型構(gòu)建, 這是因?yàn)樵谠O(shè)計(jì)過(guò)程中, 僅在單個(gè)幀或短片段內(nèi)進(jìn)行運(yùn)作, 致使時(shí)間覆蓋程度擁有較多的局限性[10]。關(guān)于某個(gè)時(shí)間跨度較長(zhǎng)的復(fù)雜動(dòng)作, 想要解決其識(shí)別性能較差的問(wèn)題, 筆者使用視頻分組稀疏抽樣方法, 能在不受序列長(zhǎng)度制約的狀態(tài)下, 達(dá)到對(duì)全部視頻采取長(zhǎng)期時(shí)間建模的目標(biāo)。 將視頻V進(jìn)行等時(shí)長(zhǎng)分組, 分組個(gè)數(shù)是K, 即將視頻分割成K個(gè)相同時(shí)長(zhǎng)的片段{S1,S2,…,SK}, 對(duì)該片段集進(jìn)行建模 M(T1,T2,…,TK)=H(g(F(T1,W),…,F(TK,W))) (13) 其中(T1,T2,…,TK)是一個(gè)片段序列, 各個(gè)片段TK均為其相對(duì)分段SK內(nèi)的隨機(jī)部分,F(TK,W)是使用W當(dāng)作參數(shù)的卷積網(wǎng)絡(luò)作用在短片段TK時(shí), 返回全部類型片段分?jǐn)?shù)的比例, 共識(shí)函數(shù)g將作用于多個(gè)片段級(jí)判斷分?jǐn)?shù)聚合, 從而產(chǎn)生視頻級(jí)判斷分?jǐn)?shù)。H是預(yù)判函數(shù), 該函數(shù)能對(duì)全部視頻相對(duì)的各個(gè)動(dòng)作類別概率進(jìn)行預(yù)判, 概率最高的類型就是視頻的所屬類型。 值得注意的是,K個(gè)分組之間的參數(shù)存在交互關(guān)系, 在引入H函數(shù)前, 需要融合視頻級(jí)空間與時(shí)間的判斷結(jié)果[11-14], 代入標(biāo)準(zhǔn)分類交叉熵?fù)p失原則, 將損失函數(shù)解析式描述為 (14) 其中C是動(dòng)作類型數(shù)量,yi是第i類的實(shí)際標(biāo)簽。將片段數(shù)K設(shè)置為3, 則共識(shí)函數(shù)為 G=g(F(T1,W),F(T2,W),…,F(TK,W)) (15) 采用標(biāo)準(zhǔn)反向傳播方法[15], 通過(guò)多個(gè)片段融合優(yōu)化模型參數(shù)W, 在進(jìn)行反向傳播時(shí), 可將模型參數(shù)梯度記作 (16) 應(yīng)用隨機(jī)梯度下降優(yōu)化方法進(jìn)行模型參數(shù)優(yōu)化時(shí), 式(16)可確保參數(shù)更新是通過(guò)從全部片段級(jí)預(yù)判結(jié)果中獲取的分?jǐn)?shù)。 通過(guò)上述過(guò)程, 可最大限度保證時(shí)間建模過(guò)程中信息的完整性, 減少動(dòng)作識(shí)別計(jì)算成本, 使所提方法更具優(yōu)越性。 ELM(Extreme Learning Machine)的數(shù)學(xué)公式為 (17) 其中L是隱含節(jié)點(diǎn)個(gè)數(shù),ai∈Rn與bi∈R分別是隱含層參變量,βi∈Rm是第i個(gè)隱含節(jié)點(diǎn)關(guān)于輸出節(jié)點(diǎn)的權(quán)值系數(shù)[16],G(ai,bi,x)是第i個(gè)隱含節(jié)點(diǎn)的輸出函數(shù)。因此, 將加性隱含節(jié)點(diǎn)函數(shù)定義為 G(ai,bi,x)=g(aix+bi) (18) 其中ai是第i個(gè)隱含節(jié)點(diǎn)的輸入權(quán)重,bi是第i個(gè)隱含層節(jié)點(diǎn)的誤差,g(·)是激活函數(shù)。 (19) 將式(19)變換成矩陣模式, 將其描述為 Hβ=Y (20) 其中 (21) (22) (23) 其中訓(xùn)練誤差εl能防止出現(xiàn)過(guò)擬合問(wèn)題, 按照相關(guān)定義, 將式(23)的求解過(guò)程變換為雙重優(yōu)化問(wèn)題, 具體描述為 (24) 同時(shí)按照式(24)推算β最優(yōu)解 (25) 通過(guò)式(25)可知, 超限學(xué)習(xí)機(jī)內(nèi)的β關(guān)鍵是通過(guò)式(22)內(nèi)的兩個(gè)矩陣H、Y和正則化因子λ決定的[18],H的維數(shù)取決于訓(xùn)練樣本個(gè)數(shù)N及隱含節(jié)點(diǎn)數(shù)量L,Y是訓(xùn)練樣本相對(duì)的輸出。N與Y都是已知的, 但隱含節(jié)點(diǎn)數(shù)量及正則化因子需要人為計(jì)算, 這兩個(gè)值對(duì)RELM(Regularized Extreme Learing Machine)的性能具備關(guān)鍵作用。 如果RELM是一個(gè)二分類問(wèn)題, 則其決策公式的解通過(guò) (26) 進(jìn)行推算。假設(shè)RELM是一個(gè)多分類問(wèn)題, 則其決策公式解的計(jì)算解析式為 (27) 針對(duì)RELM, 除了正則化因子外, 隱含節(jié)點(diǎn)數(shù)量L也會(huì)對(duì)其行為識(shí)別精度產(chǎn)生較大影響。所以, 設(shè)計(jì)一個(gè)可以反映出RELM不同隱含節(jié)點(diǎn)關(guān)鍵性的靈敏度推導(dǎo)公式, 再按照不同隱含節(jié)點(diǎn)的靈敏度參數(shù)對(duì)隱含節(jié)點(diǎn)進(jìn)行排序, 繼而剔除次要節(jié)點(diǎn)[19-20], 得到最優(yōu)的RELM隱含節(jié)點(diǎn)數(shù)量L, 增強(qiáng)深度網(wǎng)絡(luò)時(shí)間行為識(shí)別準(zhǔn)確性。 如果剔除第j個(gè)隱含節(jié)點(diǎn), 1≤j≤L, 則可將式(19)轉(zhuǎn)換為 (28) 其中kpi對(duì)照于式(19)內(nèi)的G(ap,bp,xi)。 (29) 關(guān)于第i個(gè)樣本, 去除第j個(gè)隱含節(jié)點(diǎn)生成的偏差是kji的絕對(duì)值和βj的乘積。所以, 針對(duì)全部樣本N, 將殘差對(duì)照的第j個(gè)隱含節(jié)點(diǎn)的靈敏度記作 (30) 其中Rj的值越大, 即證明第j個(gè)隱含節(jié)點(diǎn)引發(fā)的殘差越高, 也就是該隱含節(jié)點(diǎn)的關(guān)鍵性越強(qiáng)。 通過(guò)上述過(guò)程, 可進(jìn)一步提升網(wǎng)絡(luò)表達(dá)能力, 完成深度網(wǎng)絡(luò)視頻行為動(dòng)作的準(zhǔn)確、 高效率識(shí)別。 圖1 行為識(shí)別精度對(duì)比示意圖 為驗(yàn)證筆者方法的可靠性, 將筆者方法與文獻(xiàn)[3]、 文獻(xiàn)[4]方法進(jìn)行仿真實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)所用的運(yùn)動(dòng)數(shù)據(jù)均源自CMU(Carnegie Mellon University)運(yùn)動(dòng)數(shù)據(jù)庫(kù), 識(shí)別的行為主要包含以下幾種: 行走、 彎腰及跳躍。為了降低訓(xùn)練復(fù)雜度, 且保證不丟失行為特征, 對(duì)運(yùn)動(dòng)捕捉數(shù)據(jù)根據(jù)15幀/s進(jìn)行稀疏采樣。 圖1是3種方法的行為識(shí)別精度對(duì)比。從圖1可以看出, 筆者方法行為識(shí)別正確率明顯優(yōu)于文獻(xiàn)方法, 且伴隨實(shí)驗(yàn)次數(shù)的增加, 曲線依舊呈現(xiàn)較為穩(wěn)定的狀態(tài), 證明筆者方法具備較高的準(zhǔn)確性和穩(wěn)定性, 可適用于多種復(fù)雜環(huán)境下的視頻行為動(dòng)作識(shí)別。文獻(xiàn)[3]方法識(shí)別精度約為70%, 略遜于筆者方法, 文獻(xiàn)[4]方法在初始階段與筆者方法性能相差不多, 但在后續(xù)實(shí)驗(yàn)次數(shù)增多的情況下, 其算法穩(wěn)定性逐漸降低。 表1是3種方法行為識(shí)別時(shí)間均值對(duì)比, 從表1中可知, 筆者方法的行為識(shí)別效率最高, 用時(shí)最短, 而文獻(xiàn)[3]與文獻(xiàn)[4]方法在行為識(shí)別過(guò)程中, 所耗時(shí)長(zhǎng)均高于筆者方法。綜合比較而言, 筆者方法實(shí)用性最強(qiáng), 魯棒性能優(yōu)良。 表1 行為識(shí)別消耗時(shí)間均值對(duì)比 為了有效提升視頻行為識(shí)別正確率, 提出一種基于超限學(xué)習(xí)機(jī)的深度網(wǎng)絡(luò)時(shí)間分組行為識(shí)別方法。通過(guò)模擬人體軌跡坐標(biāo), 并對(duì)處理后的子軌跡數(shù)據(jù)分別進(jìn)行主成分分析, 獲取人體運(yùn)動(dòng)行為簡(jiǎn)略特征, 降低算法冗余度; 采用視頻分組稀疏抽樣方式, 大幅提高時(shí)間建模過(guò)程中信息完整性; 運(yùn)用基于超限學(xué)習(xí)機(jī)的深度網(wǎng)絡(luò)時(shí)間分組行為識(shí)別方法, 改善視頻行為動(dòng)作識(shí)別精度不高的問(wèn)題, 為行為識(shí)別領(lǐng)域的發(fā)展提供參考與借鑒。2 視頻分組稀疏抽樣
3 超限學(xué)習(xí)機(jī)下深度網(wǎng)絡(luò)時(shí)間分組行為識(shí)別
4 仿真實(shí)驗(yàn)
5 結(jié) 語(yǔ)