徐闖 徐祥振
關(guān)鍵詞: 視頻異常行為檢測;弱監(jiān)督學(xué)習(xí);多示例學(xué)習(xí);視頻特征;全連接網(wǎng)絡(luò)
0 引言
視頻異常行為檢測是利用正常和異常行為特征表示之間的差異來檢測異常,在安保上具有重要意義。最初的視頻異常行為檢測方法是設(shè)計(jì)一種通用的模型,然后用不同場景下的異常視頻去訓(xùn)練這個(gè)模型,但異常行為的認(rèn)定與監(jiān)控場景緊密關(guān)聯(lián),單一模型缺少相關(guān)場景信息。近年來,深度學(xué)習(xí)在各鄰域表現(xiàn)出色,研究人員利用深度學(xué)習(xí)方法來提取視頻特征,再用提取的視頻特征去訓(xùn)練模型。
基于深度學(xué)習(xí)的視頻異常行為檢測根據(jù)訓(xùn)練數(shù)據(jù)標(biāo)簽的不同,可分為基于有監(jiān)督學(xué)習(xí)的異常檢測,基于無監(jiān)督學(xué)習(xí)的異常檢測和基于弱監(jiān)督的異常檢測。目前監(jiān)督學(xué)習(xí)技術(shù)已經(jīng)取得了很大的成功,隨著視頻數(shù)據(jù)的不斷增多,數(shù)據(jù)標(biāo)注的成本變得過高,對視頻的標(biāo)注工作變得越來越困難,許多任務(wù)因此不能獲取全部的真實(shí)標(biāo)簽信息,給后續(xù)視頻行為檢測造成了更大的挑戰(zhàn)。無監(jiān)督的訓(xùn)練太過復(fù)雜和困難,且準(zhǔn)確率偏低,因此無監(jiān)督方法發(fā)展緩慢。相較而言弱監(jiān)督更適合視頻檢測領(lǐng)域。弱監(jiān)督學(xué)習(xí)不需要標(biāo)注所有訓(xùn)練數(shù)據(jù),只有部分帶有標(biāo)簽,這樣不僅能夠節(jié)省人力成本,還能有效地利用數(shù)據(jù),提升模型的性能。近年來,弱監(jiān)督的方法在計(jì)算機(jī)視覺領(lǐng)域逐漸受到重視,出現(xiàn)了一些基于弱監(jiān)督學(xué)習(xí)的圖像視頻分析方法,這為弱監(jiān)督方法在視頻行為檢測領(lǐng)域的實(shí)現(xiàn)提供了更多可能[1]。
本文基于Sultani等人[2]提出的多示例學(xué)習(xí)算法進(jìn)行改進(jìn),在原有良好性能的基礎(chǔ)上提出了一種改進(jìn)多示例學(xué)習(xí)(Modified Multiple Instance Learning,MMIL) 算法,實(shí)驗(yàn)表明MMIL相較于原來的MIL算法有更高的準(zhǔn)確率和更低的誤報(bào)率。
1 相關(guān)工作
弱監(jiān)督學(xué)習(xí)主要分為三種類型,分別為不完全監(jiān)督、不確切監(jiān)督和不精確監(jiān)督。本文使用的是不確切監(jiān)督,即訓(xùn)練的數(shù)據(jù)只帶有粗粒度標(biāo)簽,把輸入數(shù)據(jù)比作一個(gè)包,每個(gè)包里面包含很多個(gè)示例,包的標(biāo)簽是可知的,但每個(gè)示例的標(biāo)簽未知。
多示例學(xué)習(xí)(Multiple Instance Learning,MIL) 是在弱監(jiān)督領(lǐng)域常用的一種方法。該方法把多個(gè)數(shù)據(jù)合在一起叫作一個(gè)包,每個(gè)包都有一個(gè)標(biāo)記。當(dāng)一個(gè)包的標(biāo)記為負(fù)時(shí),這個(gè)包里面所有樣本的標(biāo)記都是負(fù)的。當(dāng)一個(gè)包的標(biāo)記為正時(shí),這個(gè)包里面至少有一個(gè)樣本的標(biāo)記為正,包的標(biāo)簽并不能代表里面的樣本屬于這個(gè)類。Zhou[3]整理了機(jī)器學(xué)習(xí)中常用的一些多示例學(xué)習(xí)算法。Carbonneau等人[4]對多示例學(xué)習(xí)的一些問題和應(yīng)用進(jìn)行了調(diào)查。Sultani等人[2]提出了一種利用弱標(biāo)記的訓(xùn)練視頻進(jìn)行異常檢測的多示例學(xué)習(xí)算法。該算法利用一種對深度學(xué)習(xí)網(wǎng)絡(luò)具有稀疏性和平滑性約束的MIL排序損失來學(xué)習(xí)視頻片段的異常分?jǐn)?shù),最后學(xué)習(xí)得到一個(gè)分類器,使得對新輸入的樣本,可以給出它的正負(fù)標(biāo)記。
2 MMIL 算法
MMIL把16個(gè)連續(xù)幀作為一個(gè)視頻剪輯片段,對整個(gè)視頻的視頻剪輯片段提取特征后進(jìn)行重復(fù)隨機(jī)采樣,最后每個(gè)視頻都含有N 個(gè)包,每個(gè)包含有M 個(gè)視頻剪輯片段的特征,這樣就對不同長度的視頻進(jìn)行了歸一化。將提取的特征作為全連接層的輸入,最后得到對應(yīng)的異常得分為S,結(jié)構(gòu)如圖1所示。Vn和Va分別表示包含異常和不含異常的視頻。Bn和Ba為Vn和Va視頻片段組成的包。Sn和Sa則是Bn和Ba中視頻片段的異常得分,范圍為0~1。
因?yàn)槿鄙倜總€(gè)視頻片段的標(biāo)簽,無法使用Sai> Sni來判斷異常,因此采用多示例排序損失的方法,只對正包和負(fù)包中異常得分最高的示例進(jìn)行排名,正包中最高得分的視頻剪輯片段是有可能含有異常片段的,包中最高得分的片段則是正常的,當(dāng)正負(fù)示例的異常得分相差比較大時(shí)效果最好。
3 實(shí)驗(yàn)
3.1 ShanghaiTech 數(shù)據(jù)集
ShanghaiTech數(shù)據(jù)集包括13 個(gè)不同的異常場景,在不同的照明條件下,由多個(gè)不同視角的相機(jī)拍攝437 個(gè)視頻片段,都是可疑的活動,例如在人行道上打鬧、追逐、溜冰、騎單車和推手推車等。ShanghaiTech 數(shù)據(jù)集是為無監(jiān)督學(xué)習(xí)而提出的,為了適應(yīng)弱監(jiān)督學(xué)習(xí),Zhong 等人[5]將視頻重新分為238 個(gè)訓(xùn)練視頻和199個(gè)測試視頻。
本文計(jì)算幀級受試者工作特征曲線(Receiver Op?erating Characteristic Curve,ROC) 的曲線下面積(AreaUnder Curve,AUC) 作為主要評估指標(biāo),其中AUC越大意味著識別能力越高。并且還通過異常視頻的誤報(bào)率(False Alarm Rate,F(xiàn)AR) 來評估魯棒性。
3.2 相關(guān)實(shí)驗(yàn)配置
本文使用I3D[6]作為特征提取網(wǎng)絡(luò),提取視頻流中的外觀RGB特征,并將其作為模型的輸入,對MMIL 模型進(jìn)行訓(xùn)練,本文把16個(gè)連續(xù)幀作為一個(gè)視頻剪輯片段,然后通過I3D網(wǎng)絡(luò)提取視頻剪輯片段的特征,最后取視頻剪輯片段特征的平均值,把這些特征值作為全連接神經(jīng)網(wǎng)絡(luò)的輸入。全連接層的單元數(shù)分別是512、32和1。MMIL模型在全連接層引入了隨機(jī)失活(Dropout) 來防止過擬合,Dropout 丟失率設(shè)置為0.6。使用ReLU激活函數(shù)分別對第一個(gè)和第二個(gè)全連接層進(jìn)行激活,選擇了Adagrad優(yōu)化器,并引入了L2范數(shù)正則化,權(quán)重衰減設(shè)置1e-3,以獲得最佳性能,訓(xùn)練1000個(gè)epochs。
3.3 結(jié)果分析
本文在ShanghaiTech數(shù)據(jù)集上對提出的MMIL算法進(jìn)行了驗(yàn)證,并與目前現(xiàn)有的基于多示例的弱監(jiān)督視頻異常行為檢測算法進(jìn)行了對比。如表1所示,實(shí)驗(yàn)結(jié)果表明,MMIL算法具有更高的準(zhǔn)確率和更低的誤報(bào)率。
4 結(jié)論
本文提出了一種基于多示例學(xué)習(xí)的MMIL算法。改進(jìn)的算法對損失函數(shù)進(jìn)行了優(yōu)化,并對全連接層進(jìn)行了調(diào)整,引入了Dropout,能夠更好地防止過擬合。本文在數(shù)據(jù)集shanghaiTech上對改進(jìn)后的模型進(jìn)行了驗(yàn)證,通過實(shí)驗(yàn)發(fā)現(xiàn),本文提出的MMIL模型與現(xiàn)有的弱監(jiān)督學(xué)習(xí)方法相比,能夠獲得更好的效果。