文|全美在線(北京)教育科技股份有限公司 朱國平、江蘇省住房和城鄉(xiāng)建設(shè)廳執(zhí)業(yè)資格考試與注冊中心 蔣曉曦 徐鋒
【關(guān)鍵字】機(jī)器學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);視頻識(shí)別;行為識(shí)別;無紙化考核
計(jì)算機(jī)視覺(Computer Vision)是研究計(jì)算機(jī)如何像人類視覺系統(tǒng)一樣,從數(shù)字圖像或視頻中理解其高層內(nèi)涵的一門學(xué)科,簡言之就是研究如何讓計(jì)算機(jī)看懂世界,包括對數(shù)字圖像或視頻進(jìn)行預(yù)處理、特征提取、特征分類、分析理解幾個(gè)過程,將現(xiàn)實(shí)世界中的高維數(shù)據(jù)向低維符號(hào)信息的映射,進(jìn)而觸發(fā)自主決策。
考試在中國源遠(yuǎn)流長,而有考試,一般來說,就會(huì)有作弊。隨著科學(xué)技術(shù)的逐步發(fā)展,基于深度學(xué)習(xí)的視頻行為/動(dòng)作/物體識(shí)別的技術(shù)可以在考試中進(jìn)行應(yīng)用,通過監(jiān)控鏡頭加上運(yùn)算分析,代替監(jiān)控人員實(shí)時(shí)的監(jiān)督整個(gè)考試的過程,對發(fā)現(xiàn)的違紀(jì)行為、違紀(jì)物品進(jìn)行報(bào)警。
本文將探索使用DL 方法解決考試監(jiān)控視頻中行為識(shí)別/動(dòng)作識(shí)別的問題。從算法介紹、算法實(shí)現(xiàn)、具體應(yīng)用效果等方面進(jìn)行闡釋。
針對考場監(jiān)控場景使用卷積神經(jīng)網(wǎng)絡(luò),需要對監(jiān)控視頻在時(shí)間和空間維度都進(jìn)行多幀連續(xù)特征計(jì)算,捕捉有效特征。
傳統(tǒng)卷積:
表示I 層第j 特征map 的x,y 位置的單元值,其中tanh 為雙曲正切函數(shù),bij 為這個(gè)特征map 的偏差,
三維卷積:
三維卷積是多個(gè)連續(xù)的幀組成一個(gè)立方體,使用三維卷積核卷積。采用多種卷積核,提取多種特征,捕獲動(dòng)作信息。
網(wǎng)絡(luò)結(jié)構(gòu):
使用7 幀 60x40 大小幀序列作為輸入,第一層為硬編碼的卷積核,然后進(jìn)行兩次卷積和下采樣,最后得到一個(gè)128 維的特征集合。
在這里,我們采用一個(gè)線性分類器來對這128 維的特征向量進(jìn)行分類,實(shí)現(xiàn)行為識(shí)別。模型中所有可訓(xùn)練的參數(shù)都是隨機(jī)初始化的,然后通過在線BP 算法進(jìn)行訓(xùn)練。
1.系統(tǒng)將考生人體骨骼向量化。
(1)以w*h 大小的彩色圖像作為輸入 ;
(2)經(jīng)過VGG 的前10 層網(wǎng)絡(luò)得到一個(gè)特征度F ;
(3)網(wǎng)絡(luò)分成兩個(gè)循環(huán)分支,一個(gè)分支用于預(yù)測置信圖S:關(guān)鍵點(diǎn)(人體關(guān)節(jié)),一個(gè)分支用于預(yù)測L:像素點(diǎn)在骨架中的走向(肢體) ;
(4)第一個(gè)循環(huán)分支以特征圖F 作為輸入,得到一組S1,L1 ;
(5)之后的分支分別以上一個(gè)分支的輸出St-1,Lt-1 和特征圖F 作為輸入 ;
(6)網(wǎng)絡(luò)最終輸出S,L ;
(7)損失函數(shù)計(jì)算S,L 的預(yù)測值與groundtruth(S*,L*)之間的L2 范數(shù);
2.關(guān)鍵點(diǎn)檢測(關(guān)節(jié)) 計(jì)算方法:
(1)通過第k 個(gè)人的兩個(gè)關(guān)建點(diǎn)Xj1,k,Xj2,k 之間任意像素p 的單位向量計(jì)算L 的groundtruth(Lc*)//其中k 表示第k 個(gè)人,j1 和j2 表示兩個(gè)能夠相連的關(guān)節(jié)(例如手肘和手腕直間通過手臂相連),c 表示第c 種肢體。
計(jì)算方法:計(jì)算圖像中第k 個(gè)人的關(guān)鍵點(diǎn)Xj1,k 指向Xj2,k 的單位向量Lc,k*(P)=v(v 大小和方向固定)。
其中像素P 是否落在肢體上需要滿足兩個(gè)條件
每張圖像中第c 中肢體的Lc*,為k 個(gè)人在位置p 的向量平均值
(2)評估兩個(gè)關(guān)鍵點(diǎn)之間的相關(guān)性。
關(guān)鍵點(diǎn)dj1,dj2 和PAF 已知之后,計(jì)算兩個(gè)關(guān)鍵點(diǎn)連線向量和兩關(guān)鍵點(diǎn)連線上各像素的PAF 向量之間的點(diǎn)積的積分作為兩個(gè)關(guān)鍵點(diǎn)之間的相關(guān)性。
3.多人檢測:
關(guān)鍵點(diǎn)和關(guān)鍵點(diǎn)之間的相關(guān)性PAF 已知,將關(guān)鍵點(diǎn)作為圖的頂點(diǎn),將關(guān)鍵點(diǎn)之間的相關(guān)性PAF 看為圖的邊權(quán),則將多人檢測問題轉(zhuǎn)化為二分圖匹配問題,并用匈牙利算法求得相連關(guān)鍵點(diǎn)最優(yōu)匹配。
Dj1,Dj2 是兩種關(guān)節(jié)的集合,Zc 是第c 種肢體的集合,Emn 是兩種關(guān)鍵點(diǎn)之間的相關(guān)性,求最優(yōu)的zc 集合。
最終通過系統(tǒng)反應(yīng)出考生人體結(jié)構(gòu),并對其具體是否違規(guī)予以判別。
如下圖所示,我們通過對考場內(nèi)監(jiān)控視頻進(jìn)行了計(jì)算機(jī)化的圖像識(shí)別。通過訓(xùn)練,系統(tǒng)能夠自動(dòng)識(shí)別視頻中的人體與物品,同時(shí)對視頻內(nèi)的多個(gè)人體進(jìn)行識(shí)別:
在人體有明顯動(dòng)作違規(guī)行為時(shí),能夠進(jìn)行自動(dòng)判定。
下一步,系統(tǒng)將在如下幾方面深入開展研究:
1.結(jié)合移動(dòng)網(wǎng)絡(luò)通信和云計(jì)算技術(shù),創(chuàng)建在不同終端(PC、手持設(shè)備、車載設(shè)備等)下的視頻識(shí)別方案,著眼實(shí)時(shí)的可視化、數(shù)據(jù)化考核管理研究。
2.進(jìn)一步深化動(dòng)態(tài)數(shù)據(jù)分析模型,采取合理的數(shù)據(jù)挖掘技術(shù)輔助決策工作;同時(shí)實(shí)時(shí)通過系統(tǒng)數(shù)據(jù)分析決策過程的實(shí)施情況,利用數(shù)據(jù)對決策結(jié)果進(jìn)行監(jiān)控,為制定政策、形勢預(yù)判提供有力的技術(shù)支撐。
3.對考生的在考試監(jiān)控中的行為動(dòng)作和物別識(shí)別進(jìn)一步優(yōu)化,為后續(xù)建立全面無人值守考場夯實(shí)基礎(chǔ)。