鄒開達(dá)
【關(guān)鍵詞】異常行為檢測(cè);圖卷積網(wǎng)絡(luò);特定場(chǎng)景
隨著人工智能和圖像視覺(jué)分析技術(shù)的發(fā)展[1],在芯片及算力的支持下,傳統(tǒng)的安防行業(yè)已經(jīng)進(jìn)入到了智能時(shí)代,視頻異常行為檢測(cè)是智能監(jiān)控系統(tǒng)[2]的核心,在學(xué)術(shù)界和工業(yè)界都有較高的研究和應(yīng)用價(jià)值。最新調(diào)查研究顯示[3],我國(guó)近50%的老年人為“空巢老人”,居家養(yǎng)老為主要養(yǎng)老模式,居家安全問(wèn)題的發(fā)生率高達(dá)38.03%。如何及時(shí)發(fā)現(xiàn)獨(dú)居老人在家發(fā)生的異常行為,做到第一時(shí)間保證老人的生命健康,成為當(dāng)今社會(huì)的重要課題之一。近年來(lái),家庭場(chǎng)景下視頻監(jiān)控的普及為解決獨(dú)居老人的安全問(wèn)題提供了新的方案,傳統(tǒng)的視頻監(jiān)控只能依靠人工的方式確認(rèn)老人的健康狀態(tài),無(wú)法做到及時(shí)性與實(shí)時(shí)性。針對(duì)這個(gè)問(wèn)題,本文提出了一套智能化的監(jiān)控算法及實(shí)現(xiàn),通過(guò)將圖卷積網(wǎng)絡(luò)與注意力機(jī)制相結(jié)合,對(duì)視頻序列進(jìn)行特征提取與對(duì)比,適用于在醫(yī)院、獨(dú)居老人或者養(yǎng)老院等看護(hù)人員數(shù)量不足或者缺失的場(chǎng)景下,對(duì)一些特殊人群的行為進(jìn)行實(shí)時(shí)檢測(cè),如果發(fā)生跌倒、揮手、擊打和抽煙等事先設(shè)定的異常行為類別,則向終端輸出發(fā)生的異常行為的類別和時(shí)間,最大限度上減少生命及財(cái)產(chǎn)損失。
人體骨架是人身體的內(nèi)在框架,骨架由人體的關(guān)節(jié)點(diǎn)和骨骼組成。在空間域上,將這些關(guān)鍵點(diǎn)按照人體結(jié)構(gòu)進(jìn)行連接可以得到人體輪廓圖。在時(shí)域上,根據(jù)關(guān)節(jié)點(diǎn)坐標(biāo)信息變化即可對(duì)人體行為進(jìn)行訓(xùn)練與分類。把骨架簡(jiǎn)化為一個(gè)由點(diǎn)和邊所構(gòu)成的無(wú)向圖G(V,E)來(lái)表示N個(gè)關(guān)節(jié)點(diǎn)與T幀的人體骨架序列中點(diǎn)(V)與邊(E)在空間與時(shí)間上的連接關(guān)系,圖中藍(lán)色的點(diǎn)代表人體骨骼關(guān)鍵點(diǎn)V,它們之間按照人體結(jié)構(gòu)進(jìn)行連接,藍(lán)線構(gòu)成幀內(nèi)連線,綠線是同一個(gè)關(guān)鍵點(diǎn)在相鄰幀之間的連線,通過(guò)對(duì)比在時(shí)域上造成的藍(lán)綠線條的運(yùn)動(dòng)變化從而實(shí)現(xiàn)對(duì)運(yùn)動(dòng)目標(biāo)行為的檢測(cè)和識(shí)別。
在t時(shí)刻,有N個(gè)關(guān)鍵點(diǎn)Vt組成的邊Es(t)={vtivtj | (i,j)∈H}作為圖卷積網(wǎng)絡(luò)的輸入,輸入圖像為fin,定義節(jié)點(diǎn)vti其臨近節(jié)點(diǎn)集合B(vti)={vtj |d(vtj,vti)≤D其中d(vtj,vti)表示從vtj到vti的最小長(zhǎng)度。即圖卷積的形式:
其中歸一化項(xiàng)Zti(vtj)=|{vtk |lti(vtk)=lti(vtj)}|等于對(duì)應(yīng)子集的基數(shù),平衡不同子集對(duì)輸出的貢獻(xiàn),w(lti(vtj))為訓(xùn)練過(guò)程中更新的權(quán)重規(guī)則函數(shù),由于人體骨架在空間上是局部性的,所以在劃分過(guò)程中利用這種特定的空間結(jié)構(gòu),設(shè)計(jì)一種將鄰域集劃分為三個(gè)子集的策略:(1)根節(jié)點(diǎn)本身;(2)向心集合:距離骨架重心較根節(jié)點(diǎn)近的鄰域節(jié)點(diǎn);(3)其他所有節(jié)點(diǎn)被分為離心集合。形式上表示為:
為了提高模型的性能,本文對(duì)圖卷積網(wǎng)絡(luò)層進(jìn)行疊加圖注意力機(jī)制模塊,使模型通過(guò)權(quán)值分配的方式優(yōu)化網(wǎng)絡(luò)學(xué)習(xí)參數(shù),得到更加適合描述行為的圖結(jié)構(gòu),例如人體揮手的動(dòng)作其主要關(guān)節(jié)點(diǎn)變化是在手部和肘部,其余關(guān)節(jié)點(diǎn)包含運(yùn)動(dòng)特征信息很少,所以引入圖注意力機(jī)制后,手部和肘部的關(guān)節(jié)點(diǎn)其權(quán)重相對(duì)其他關(guān)節(jié)點(diǎn)會(huì)變大,權(quán)值矩陣與圖卷積層輸出的特征圖相乘達(dá)到特征評(píng)估的目的。
在上一節(jié)中,我們得到的人體關(guān)節(jié)點(diǎn)與邊構(gòu)成一張無(wú)向圖G(V,E),其中V={1,2n,...,n}|為節(jié)點(diǎn)集合,節(jié)點(diǎn)的特征用X=x1,x2,...,xn來(lái)表示,使用圖卷積公式G'=G-0.5AD-0.5X新的節(jié)點(diǎn)的特征X',其中A為關(guān)節(jié)點(diǎn)的鄰接矩陣,D是圖的度矩陣,圖注意力機(jī)制的目的就是對(duì)節(jié)點(diǎn)的特征進(jìn)行加權(quán)平均。用公式表示即:
其中alearn(i,j)代表圖G的鄰接矩陣A的第i行第j列的值,即(i,j)邊的可學(xué)習(xí)權(quán)重,由于Graph的邊是簡(jiǎn)單、固定的,因此Convolution加權(quán)平均過(guò)程中鄰居節(jié)點(diǎn)的權(quán)值也是簡(jiǎn)單、固定的。本文采用基于相似度的注意力計(jì)算方式,其權(quán)值更新公式為:
首先將輸入的骨架用一個(gè)BatchNorm層來(lái)規(guī)范化網(wǎng)絡(luò)模型,一共由9層圖卷積單元塊組成,前三層輸出通道為64,中間三層輸出通道為128,最后三層輸出通道為256,每個(gè)層的時(shí)間卷積核大小為9,每一個(gè)圖卷積塊都使用了殘差結(jié)構(gòu),并使用概率為0.5的Dropout,防止過(guò)擬合在第4層和第7層將時(shí)域的stride設(shè)為2作為池化層,最后對(duì)得到的張量進(jìn)行全局池化得到256維的特征向量,最后提供給softmax分類。采用SGD,learningrate設(shè)為0.01,10個(gè)epochs學(xué)習(xí)率自乘0.1。為了模擬相機(jī)的運(yùn)動(dòng),對(duì)所有幀的骨架序列進(jìn)行隨機(jī)仿射變換。這種變換被插入到中間幀中,以產(chǎn)生一種在拍攝過(guò)程中平滑地移動(dòng)視角一樣的效果。訓(xùn)練中隨機(jī)抽取原始骨架序列的片段,并在測(cè)試中使用所有幀。網(wǎng)絡(luò)最后的全局池化使網(wǎng)絡(luò)能夠處理長(zhǎng)度不定的輸入序列。最后訓(xùn)練好的模型在NTU-RGB+D數(shù)據(jù)集上驗(yàn)證精度,將最終的模型與主流的行為識(shí)別方法進(jìn)行比較,比較結(jié)果顯示在表1中。本文模型達(dá)到了更高的準(zhǔn)確率,具有更好的性能,這有效地證明了本文模型的優(yōu)越性。
行為識(shí)別算法的落地具有較高的研究及應(yīng)用價(jià)值,不僅適用于當(dāng)下火熱的無(wú)人駕駛技術(shù),在醫(yī)療監(jiān)護(hù)、社會(huì)治安等領(lǐng)域也有廣泛的應(yīng)用前景。本文提出了一種基于圖卷積網(wǎng)絡(luò)與注意力機(jī)制結(jié)合的算法,將視頻幀序列進(jìn)行特征提取并嵌入網(wǎng)絡(luò)模型,完成了在監(jiān)護(hù)人員不足或者確定的場(chǎng)景下對(duì)特定的檢測(cè)人群進(jìn)行實(shí)時(shí)行為分析與識(shí)別,如果發(fā)生指定的異常行為類別,則向終端輸出異常信息保障第一時(shí)間減輕人體安全和財(cái)產(chǎn)的損失。未來(lái)的工作可以集中在如何更好地融合和利用RGB數(shù)據(jù)和骨架數(shù)據(jù)上,進(jìn)一步改善和提高模型的性能。