鄺永年,王 豐
(廣東工業(yè)大學 信息工程學院, 廣東 廣州 510006)
視頻異常行為檢測是計算機視覺應用的重要領域。針對復雜的視頻監(jiān)控應用場景,文獻[1]提出異常行為應被定義為發(fā)生概率低的行為,文獻[2]提出異常行為是不可預測的行為。傳統(tǒng)的視頻異常行為檢測方法[1-5],主要基于視頻數據的動作特征和外觀特征。如基于動態(tài)紋理的概率模型[4]以及混合概率[5]的主成分分析,建模光流捕捉局部運動特征,實現(xiàn)視頻異常行為檢測。
近年來,涌現(xiàn)出很多基于深度學習網絡的視頻異常行為檢測方法[6-12]?;诎氡O(jiān)督訓練深度學習技術成為主流的視頻異常檢測方法?;诎氡O(jiān)督訓練的視頻異常檢測方法需要重點設計重構架構或預測架構。文獻[6]提出用卷積自動編碼器學習長時間視頻中運動模式的規(guī)律特征,并通過重構誤差判斷是否存在異常行為。文獻[7]對自動編碼器添加記憶模塊,用于查詢檢索與重構圖像最接近的內存項;文獻[8]在自動編碼器中添加卷積長短記憶網絡,補充時間信息。為檢測物體的外觀和運動信息,文獻[9]構建由卷積自動編碼器和U型網絡(U-Net) 組成的深度卷積神經網絡。在預測架構中,以連續(xù)的視頻幀作為輸入,以一幀預測幀作為輸出。文獻[2]基于生成對抗網絡,以U-Net為生成器,馬爾可夫判別器(Patch Generative Adversarial Networks, Patch GAN)[13]為判別器,并加入運動約束。文獻[10]向外觀自編碼器和動作自編碼器分別輸入連續(xù)幀圖和幀差圖進行預測。文獻[11]結合自動編碼器,補充深度學習神經網絡所欠缺的可解釋性,增強檢測視頻異常幀的能力。文獻[12]基于時空自注意力機制,通過增強圖卷積網絡,捕捉人體關節(jié)的局部和全局信息,進而檢測判斷異常行為的發(fā)生。
值得注意的是,當前基于半監(jiān)督訓練深度學習技術的視頻異常幀異常行為檢測方法,主要是基于峰值信噪比(Peak Signal-to-Noise Ratio, PSNR)準則,檢測準確率和運行時間有待改善。為改進半監(jiān)督訓練深度學習網絡對視頻異常行為的檢測性能,本文通過區(qū)分視頻幀的前景與背景,增強前景信息和弱化背景信息,提出基于前景區(qū)域的峰值信噪比(Foreground area Peak Signal-to-Noise Ratio, F-PSNR)準則,能有效改進現(xiàn)有網絡的視頻異常行為檢測性能,并降低檢測運行時間。
本文采用的深度學習網絡如圖1所示。將視頻流分解和處理成具有連續(xù)時間序列和相同尺寸的視頻幀。給定輸入連續(xù)t幀視頻幀,按順序輸入生成器網絡,生成對應第t+1幀實際幀的預測幀。通過加入強度、梯度、運動以及對抗約束,構建出生成器網絡的損失函數。
圖1 網絡架構Fig.1 Network architecture
U-Net網絡作為生成器網絡,其包括編碼模塊和解碼模塊。編碼模塊通過卷積操作提取所需的圖像特征;解碼模塊通過反卷積操作恢復圖像幀。每次卷積或反卷積操作都會出現(xiàn)梯度消失以及信息缺失的問題。使用U-Net作為生成器網絡,通過其特有的連接操作可以有效減少梯度消失以及信息缺失。每個卷積層的特征與其對應的同分辨率的反卷積層的特征進行連接,作為下一個反卷積層的輸入。這種連接操作使網絡將淺層特征圖的信息通過與更高層的特征圖結合起來,保證了上下文信息的完整性。
為使生成器網絡的預測視頻幀盡可能接近對應的實際視頻幀,本文訓練條件生成對抗網絡,最小化其損失函數LG。其中,損失函數LG包含強度損失Lp、梯度損失Lg、 光流損失Lo以 及對抗損失LGa;λp、λg、λo、λa分 別為強度損失Lp、梯度損失Lg、光流損失Lo以及對抗損失LG
a 在總損失函數中所占的權重,滿足λp+λg+λo+λa=1。
具體的損失函數LG建模如下。
式中:F?t+1、Ft+1分 別為生成的第t+1幀預測視頻幀和其相對應實際幀。強度損失函數用來約束預測視頻幀F(xiàn)? 與實際視頻幀F(xiàn)之間的內容差異,即保持生成的預測視頻幀的像素值在RGB空間上盡可能與實際視頻幀的像素值保持相似,建模如下。
式中:F?、F分別為生成的預測視頻幀和其相對應實際幀的像素數據;F?i,j,k、Fi,j,k為該預測視頻幀其相對應實際幀的在空間索引為 (i,j)處 第k通道的像素值;Row、C ol 為視頻幀行、列像素數,C nl為視頻幀顏色通道數。
梯度損失函數Lg用來約束預測視頻幀與實際視頻幀之間的邊緣梯度信息,銳化生成圖像,突出邊緣信息,建模如下。
為了提取視頻中的運動信息,通過光流網絡(FlowNet) 模型生成光流圖。f(Ft+1,Ft)表示光流網絡計算連續(xù)2幀F(xiàn)t和Ft+1的光流圖。2幀視頻幀行、列像素數均為R ow、 Col。光流網絡生成的行、列像素數為Row、C ol,2個通道數的光流圖,第1個通道表示幀在水平方向即行方向的光流分量,第2個通道表示幀在垂直方向即列方向的光流分量。光流損失函數Lo建模如下。
式中:fi,j,k(Ft+1,Ft)為 光流網絡計算2幀F(xiàn)t和Ft+1的光流圖在空間索引為(i,j)第k光流方向通道的光流分量值。
生成對抗網絡由生成器網絡和判別器網絡組成。生成器網絡的作用是通過學習訓練集視頻的特征,在判別器網絡的指導下,輸出盡可能擬合為訓練集視頻幀的真實分布,從而生成具有訓練集特征的相似數據。而判別器網絡則負責區(qū)分輸入判別器網絡的視頻幀是真實視頻幀的還是生成器網絡生成的虛假視頻幀,并通過對抗學習中的對抗損失反饋給生成器網絡。生成器網絡和判別器網絡交替訓練,生成器網絡和判別器網絡的對抗損失減少,判別器網絡能有效識別生成器網絡輸出的低質量視頻幀,促使生成器網絡輸出判別器網絡難以識別的高質量視頻幀。生成器網絡輸出視頻幀的質量和判別器網絡的判別能力達到均衡。
生成對抗網絡架構能有效用于預測。在視頻異常行為檢測任務中,生成器網絡學習正常行為的連續(xù)視頻幀并預測下一幀,盡可能將預測幀擬合為其對應的實際幀。加入判別器網絡,形成生成對抗網絡架構后,總體結構模型簡單,提高了生成器生成預測幀圖像質量,從而實現(xiàn)了較高的異常行為檢測精度。
對抗學習通過區(qū)分實際視頻幀和生成的預測視頻幀,優(yōu)化生成對抗網絡的生成器與判別器。判別器的判別結果分為0和1,其中0和1分別代表假標簽以及真標簽。訓練生成器網絡的目標是通過學習正常視頻幀的特征生成出更加接近實際視頻幀的預測視頻幀,即生成使判別器判斷為真標簽的視頻幀。因此,生成網絡的對抗損失函數建模為
式中:D(·)i,j為判別器判斷視頻幀中空間索引(i,j)處為真標簽的概率,D(·)i,j∈[0,1]。
本文生成對抗網絡的判別器網絡采用Patch GAN[13]。Patch GAN把一幅圖像劃分為若干圖像塊,最后輸出一個對應圖像塊的判別結果的矩陣,判別結果分為0類和1類,其中0和1分別代表假標簽以及真標簽。像素點的判別結果即為其所屬圖像塊的判別結果。整張圖像的判別結果取所有圖像塊的判別結果的平均值。
訓練判別器時,生成器的權重是固定的。判別器網絡的目標是將生成器生成的視頻幀判斷為假標簽,將實際視頻幀判斷為真標簽。建模判別器的對抗損失函數為
本文提出的視頻異常行為檢測方法感興趣的區(qū)域為前景區(qū)域,因此需要先將前景區(qū)域提取出來。如圖2所示。本文中使用的前景提取方法為背景差分法的混合高斯模型(Mixture of Gaussians, MOG)算法[14],實際視頻幀通過前景提取獲取到前景掩碼后,再與掩碼進行與運算后得到實際視頻幀的前景區(qū)域。生成視頻幀通過與所對應的實際視頻幀的前景掩碼進行與運算后得到生成視頻幀的前景區(qū)域。
以幀F(xiàn)t+1說明前景掩碼矩陣Gt+1:前景提取器判斷圖像的像素點是否為前景,如該像素點為前景,則掩碼該像素點的值置1所對應的地方,如為背景,則掩碼該像素點的值置0所對應的地方,以此獲得前景掩碼二值矩陣Gt+1,Gt+1∈RRow×Col。
本文采用前景區(qū)域峰值信噪比F-PSNR作為計算兩幀差異值的判斷準則。定義前景區(qū)域峰值信噪比F-PSNR如下。
當峰值信噪比數值越大時,預測視頻幀和實際視頻幀的相似度越高,表明該實際視頻幀是正常行為幀的概率越大;當峰值信噪比越小時,表示該視頻幀為異常行為幀的概率越大。
將測試集的F-PSNR數值作歸一化處理,定義歸一化異常行為檢測得分函數S(t)如下。
考慮視頻異常行為檢測任務的經典數據集UCSDPed1[4]數據集、UCSD-Ped2[4]數據集以及CUHKAvenue[15]數據集。
(1) UCSD-Ped1[4]數據集:包含34個正常視頻訓練集以及36個異常視頻測試集,正常行為定義為正常行走的路人,異常行為有騎車、溜冰、機動車等行為,該數據集的所有視頻分辨率為320×240。
(2) UCSD-Ped2[4]數據集:包含16個正常視頻訓練集以及14個異常視頻測試集,正常行為定義為正常行走的路人,異常行為有騎車、溜冰、機動車等行為。數據集的所有視頻分辨率為320×240。
(3) CUHK-Avenue[15]數據集:包含15個正常視頻訓練集以及21個異常視頻測試集,正常行為定義為正常行走的路人,異常行為有奔跑、隨手拋棄垃圾、橫跨草坪等行為。數據集的視頻分辨率為640×360。
使用的深度學習訓練框架為 Pytorch,所有的實驗都基于NVIDIA RTX3080。將輸入的視頻幀大小調整到 256×256 以滿足網絡的輸入標準。訓練時使用自適應矩估計梯度下降法進行參數優(yōu)化。訓練次數設置為80 000輪次,每組訓練批次有4組數據,每組數據輸入連續(xù)4幀實際幀并輸出1幀預測幀。以訓練后得到的生成器網絡為基準網絡進行后續(xù)實驗。
本文采用U-Net生成器網絡。輸入連續(xù)的4幀256×256的RGB三顏色通道圖像,輸出1幀256×256的RGB三顏色通道圖像。其中,卷積層以及反卷積層使用的卷積核的尺寸為3×3,最大池化層所使用的卷積核的尺寸為2×2。
本文采用Patch GAN判別器網絡。輸入1幀256×256的RGB三顏色通道圖像,輸出8×8的二值矩陣。其中,前5層卷積層卷積核的尺寸為3×3、步長為2的卷積層,最后一層卷積核的尺寸為1×1。
本實驗刻畫接受者操作特征(Receiver Operating Characteristic, ROC)曲線,取曲線下面積(Area Under Curve,AUC)作為視頻異常幀檢測性能評價指標。AUC值越高,表示該網絡的異常行為檢測效果越好。本文考慮以下2種對比方案。
對比方案1:通過生成器得出預測幀,計算PSNR后歸一化得出異常得分;
對比方案2:通過生成器得出預測幀,對實際幀以及預測幀進行前景提取后的圖像,計算PSNR后歸一化得出異常得分。
圖3顯示了UCSD-Ped1測試集的ROC曲線。對比方案1的AUC值為0.794 6,對比方案2的AUC值為0.794 4,本文方案的AUC值為0.802 3。這表明了本文基于前景區(qū)域的異常行為幀檢測方案的有效性。根據圖3的ROC曲線前段,對比方案1相較于本文所提方案的效果好,原因在于生成器對于某些小畫幅的正常行為不能很好地預測。這表明F-PSNR相較于PSNR對異常行為的預測更加敏感。
圖3 UCSD-Ped1測試集實驗結果Fig.3 Experience result in UCSD-Ped1
圖4顯示了UCSD-Ped1測試集的第2段視頻,該視頻含有200幀,存在的異常行為是人行道中騎自行車。相比于基于PSNR準則,本文基于F-PSNR準則的方案對正常行為的檢測取得更高的異常檢測得分,而對異常行為的檢測取得較低的異常檢測得分,使異常檢測得分具有更高的分辨率,故能很好地對正常行為以及異常行為進行區(qū)分。
圖4 UCSD-Ped1測試集第2段視頻實驗結果Fig.4 Experience result of the 2nd test video in UCSD-Ped1
圖5顯示了UCSD-Ped1測試集某視頻幀前景提取的實驗結果。圖5(a)是原視頻幀,圖5(b)是原視頻幀通過前景提取的前景區(qū)域,圖5(c)是本實驗提取前景的掩碼??梢钥吹?,在UCSD-Ped1測試集的場景下,前景提取能很好地提取出前景區(qū)域,表明F-PSNR能實現(xiàn)較好的視頻異常行為檢測性能。圖6顯示了UCSD-Ped2測試集的ROC曲線。對比方案1的AUC值為0.868 8,對比方案2的AUC值為0.866 1,本文方案的AUC值為0.878 8。本文基于前景增強異常行為檢測方案具有顯著的性能增益。圖6的ROC曲線后段,對比方案1相較于本文所提方案的效果好,這是因為網絡對于某些小畫幅的正常行為無法有效地預測。此外,相比于檢測全景區(qū)域的峰值信噪比PSNR準則,僅檢測前景區(qū)域的峰值信噪比FPSNR準則對異常行為具有較強的檢測敏感性,導致F-PSNR誤判了預測幀的正常行為。
圖5 UCSD-Ped1測試集前景分析Fig.5 Foreground analysis in UCSD-Ped1
圖6 UCSD-Ped2測試集實驗結果Fig.6 Experience result in UCSD-Ped2
圖7顯示了UCSD-Ped2測試集的第4段視頻,該視頻含有180幀,存在的異常行為是人行道中騎自行車以及駕駛機動車。相比于基于PSNR準則,本文基于F-PSNR準則的方案對異常行為的檢測取得較低的異常檢測得分,使異常檢測得分具有更高的分辨率,能很好地對正常行為以及異常行為進行區(qū)分,因而具有較好的視頻異常行為檢測性能。
圖7 UCSD-Ped2測試集第4段視頻實驗結果Fig.7 Experience result of the 4th test video in UCSD-Ped2
圖8顯示了UCSD-Ped2測試集某視頻幀前景提取的實驗結果。圖8(a)是原視頻幀,圖8(b)是原視頻幀通過前景提取的前景區(qū)域,圖8(c)是本實驗提取前景的掩碼。在UCSD-Ped2測試集的場景下,前景提取能很好地提取出前景區(qū)域, F-PSNR具有較好的視頻異常行為檢測性能。
圖8 UCSD-Ped2測試集前景分析Fig.8 Foreground analysis in UCSD-Ped2
圖9顯示了CUHK-Avenue測試集的ROC曲線。對比方案1的AUC值為0.850 6,對比方案2的AUC值為0.810 8,本文方案的AUC值為0.873 2。本文方案相比對比方案1以及對比方案2均有提升。對比方案2相比于對比方案1性能下降的原因在于前景提取未能很好地將前景提取出來。但部分前景信息的缺失并未導致本文方案F-PSNR評估的準確率下降。實驗結果表明,部分前景信息的缺失對實驗結果并未造成明顯的影響,本文方案依舊優(yōu)于傳統(tǒng)方案。
圖9 CUHK-Avenue測試集實驗結果Fig.9 Experience result in CUHK-Avenue
圖10顯示了CUHK-Avenue測試集某視頻幀前景提取的實驗結果。圖10(a)是原視頻幀,圖10(b)缺失了圖10(a)紅框內的前景人物的前景區(qū)域,圖10(c)是本實驗提取前景的掩碼。因背景與前景融合在一起,前景提取未能有效提取前景,這導致CUHK-Avenue測試集中前景信息的缺失。圖10實驗結果表明,視頻異常行為檢測方案的設計重點是前景信息提取。
圖10 CUHK-Avenue測試集前景分析Fig.10 Foreground analysis in CUHK-Avenue
表1顯示了PSNR與F-PSNR在3個數據集中的測試集檢測時間。在CUHK-Avenue測試集中,F(xiàn)PSNR相比PSNR檢測時間減少了46.23%;在UCSDPed1測試集中,F(xiàn)-PSNR相比PSNR檢測時間減少了44.37%;在UCSD-Ped2測試集中,F(xiàn)-PSNR相比PSNR檢測時間減少了41.41%。相比于傳統(tǒng)的PSNR準則,F(xiàn)-PSNR準則能有效降低計算復雜度。
表1 檢測時間對比Table 1 Detection time comparison table
本文提出了基于前景區(qū)域生成對抗網絡的視頻異常行為檢測的改進方案,通過建立F-PSNR準則,計算視頻幀的異常得分,進而完成視頻異常行為檢測任務。所提方案能有效提升視頻異常行為檢測的準確率,并降低檢測運行時間。實驗結果表明,所提基于F-PSNR準則的檢測方法的性能在UCSDPed1數據集及UCSD-Ped2、CUHK-Avenue數據集上有所提升。未來將改進視頻異常行為檢測的深度學習網絡模型,提高前景區(qū)域信息的有效利用率。