付孟丹,宣士斌,,王 婷,李培杰
(1.廣西民族大學(xué) 電子信息學(xué)院,廣西 南寧 530006;2.廣西民族大學(xué) 人工智能學(xué)院,廣西 南寧 530006)
隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,社會(huì)進(jìn)入了嶄新的數(shù)字化時(shí)代。面對(duì)生活中的海量信息,傳統(tǒng)的監(jiān)控系統(tǒng)只負(fù)責(zé)存儲(chǔ)記錄視頻信息,便于以后調(diào)查,需要大量的人工,耗時(shí)耗力,而監(jiān)控視頻中的異常事件以及人體異常行為的檢測(cè)能夠有效降低檢測(cè)成本,所以視頻異常檢測(cè)技術(shù)成為人工智能應(yīng)用領(lǐng)域的一個(gè)重要研究方向。
視頻異常檢測(cè)是指通過(guò)算法檢測(cè)視頻中不符合預(yù)期的行為,比如人行道上的車輛等異常事件[1]?;谝曨l的異常檢測(cè)存在諸多難點(diǎn):視頻幀內(nèi)具有很強(qiáng)的空間連續(xù)性和時(shí)間連續(xù)性;異常事件具有不可預(yù)測(cè)性、多樣性等特點(diǎn);也具有很強(qiáng)的場(chǎng)景依賴性,不同的場(chǎng)景對(duì)異常行為的定義不同,部分場(chǎng)景下的異常事件在其他的場(chǎng)景下可能會(huì)變成正常事件。因此,往往通過(guò)半監(jiān)督或者無(wú)監(jiān)督的方法進(jìn)行異常檢測(cè),先對(duì)僅包含正常樣本的訓(xùn)練集進(jìn)行訓(xùn)練,利用訓(xùn)練好的模型,再對(duì)測(cè)試集進(jìn)行檢測(cè)。
ViT(vision transformer)成功將自然語(yǔ)言處理的Transformer用于計(jì)算機(jī)視覺(jué)。該方法將輸入的圖片分成多個(gè)塊(patch),每個(gè)塊投影成固定長(zhǎng)度的向量,獲取這些塊的線性嵌入序列后,輸入到Transformer編碼器中進(jìn)行圖像分類的訓(xùn)練。
該文引入基于時(shí)間和空間注意力機(jī)制[2]的異常檢測(cè)學(xué)習(xí)方法。相較于處理圖片數(shù)據(jù)的ViT,該方法增加了時(shí)間和空間注意力機(jī)制,先從各個(gè)視頻幀圖片中分離出圖像塊,再將這些塊的線性嵌入序列輸入到Transformer編碼器。Transformer自注意力需要計(jì)算所有標(biāo)記對(duì)(token)的相似性,由于視頻中存在大量的圖像塊,為了降低相似性計(jì)算的復(fù)雜度,在時(shí)空體積上引入了可擴(kuò)展的自注意力機(jī)制,同時(shí)學(xué)習(xí)視頻幀上圖像塊序列的時(shí)空特征。尤其在視頻數(shù)據(jù)集的實(shí)際檢測(cè)過(guò)程中,異?,F(xiàn)象總是出現(xiàn)在某一時(shí)間段內(nèi),引入時(shí)間注意力能更好地關(guān)注異常時(shí)間片段,從而提高檢測(cè)效率。視頻中的異常區(qū)域作為前景,正常區(qū)域作為背景,在檢測(cè)過(guò)程中容易出現(xiàn)背景沖淡異常區(qū)域的現(xiàn)象,因此模型應(yīng)該更加側(cè)重于學(xué)習(xí)前景區(qū)域的特征,抑制無(wú)關(guān)背景的特征,提取整個(gè)圖片的興趣點(diǎn),更好地關(guān)注局部區(qū)域,則引入空間注意力,提高檢測(cè)效率。實(shí)驗(yàn)結(jié)果表明,在UCSD Ped2[3]、The CUHK Avenue[4]數(shù)據(jù)集上,該方法取得了較好的效果。
貢獻(xiàn)如下:
(1)針對(duì)MNAD(learning Memory-guided Normality for Anomaly Detection)[5]中的記憶模塊容量受到限制,特征信息易丟失的問(wèn)題,以及記憶模塊與Transformer關(guān)注的信息相沖突,在原模型中引入時(shí)空注意力模塊代替記憶模塊,學(xué)習(xí)高層特征信息和圖像局部信息。
(2)考慮到異常檢測(cè)任務(wù)精度取決于時(shí)間和空間兩個(gè)因素,在原模型中加入時(shí)間注意力和空間注意力,關(guān)注時(shí)間和空間上下文信息。關(guān)注異常時(shí)間片段,同時(shí)集中關(guān)注局部區(qū)域,從而提高檢測(cè)效率。
(1)傳統(tǒng)的異常檢測(cè)方法。
傳統(tǒng)異常檢測(cè)使用手工提取特征空間,然后用機(jī)器學(xué)習(xí)方法檢測(cè)異常。常用的特征提取方法有:方向直方圖、光流直方圖等,將提取的視頻事件特征表示作為輸入,利用經(jīng)典的機(jī)器學(xué)習(xí)方法進(jìn)行建模。比如,文獻(xiàn)[6]將表示異常事件的特征向量輸入單類別支持向量機(jī)(support vector machine,SVM)建立異常檢測(cè)模型。
(2)基于深度學(xué)習(xí)的異常檢測(cè)方法。
深度學(xué)習(xí)網(wǎng)絡(luò)在圖像和視頻的復(fù)雜數(shù)據(jù)中自動(dòng)學(xué)習(xí)特征,并使用端到端的神經(jīng)網(wǎng)絡(luò)模型檢測(cè)異常。主要分為兩種:①基于重構(gòu)的異常檢測(cè)方法,如遞歸神經(jīng)網(wǎng)絡(luò)[7];②基于預(yù)測(cè)的方法。
在異常檢測(cè)過(guò)程中,傳統(tǒng)方法并不能很好地處理高維數(shù)據(jù)的復(fù)雜分布問(wèn)題。為了提升異常檢測(cè)效率,目前很多方法都結(jié)合CNN,并提出重構(gòu)模型進(jìn)行訓(xùn)練。由于卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的表征能力,容易造成數(shù)據(jù)的誤判。針對(duì)捕捉序列數(shù)據(jù)的長(zhǎng)期依賴關(guān)系,利用長(zhǎng)短期記憶以及本地存儲(chǔ)單元的方法,然而,記憶性能有限。針對(duì)這些問(wèn)題,Gong等人[8]利用增強(qiáng)自動(dòng)編碼器(MemAE)進(jìn)行異常檢測(cè),使用CNN功能。盡管這些方法已經(jīng)取得了好的效果,但是沒(méi)有考慮正常樣本的多樣性。而MNAD[5]使用連續(xù)的內(nèi)存表示和鍵值對(duì)讀/寫(xiě)存儲(chǔ)器,提出特征緊湊性明確區(qū)分記憶項(xiàng)目,充分利用正常樣本的多樣性,同時(shí)削弱神經(jīng)網(wǎng)絡(luò)的表示能力,達(dá)到區(qū)分正常幀和異常幀的目的。該方法存在容量受限,信息丟失問(wèn)題。
(3)Transformer。
Transformer結(jié)構(gòu)[9]在捕捉單詞之間的長(zhǎng)期依賴關(guān)系以及訓(xùn)練可伸縮性方面表現(xiàn)很出色,因此也引入到圖像分類、目標(biāo)檢測(cè)等領(lǐng)域。文獻(xiàn)[10]將Transformer運(yùn)用到圖像分類中,利用監(jiān)督方法對(duì)模型進(jìn)行圖像分類訓(xùn)練。
記憶模塊更多關(guān)注的是全局信息,而Transformer關(guān)注的是視頻幀的局部和全局的時(shí)序信息,兩者作用產(chǎn)生沖突,并不能很好地處理局部特征信息。因此,引入基于Transformer的時(shí)間和空間注意力機(jī)制[2]取代記憶模塊部分,將注意力集中于各視頻幀主要的特征部分,各視頻幀之間的聯(lián)系更加緊密,有助于更好地預(yù)測(cè),避免特征信息丟失。并且能夠很好地結(jié)合空間和時(shí)間上下文信息,應(yīng)用于視頻,將注意力機(jī)制從圖像空間擴(kuò)展到時(shí)空三維空間。
模型主要由兩部分組成:編碼器、解碼器。圖1(a)展示了預(yù)測(cè)任務(wù)的模型框架,圖1(b)展示了Time-Space Transformer block(Temporal and Spatial attention mechanism)模塊,從數(shù)據(jù)集中取出連續(xù)的五幀視頻幀,輸入前四幀視頻幀到編碼器,每幀圖像大小為H×W×C,由CNN提取特征,輸出H×W×C的特征圖。為了得到圖像中的關(guān)鍵區(qū)域,將特征圖分解為N個(gè)不重疊的特征塊(patch),每個(gè)小塊的大小為P×P,將每個(gè)塊投影成固定長(zhǎng)度的向量,然后將這些塊的線性嵌入序列輸入到Time-Space Transformer block的編碼器中,對(duì)數(shù)據(jù)序列進(jìn)行歸一化處理以及時(shí)間和空間注意力機(jī)制的加權(quán)處理,能夠提取全局的時(shí)間和空間上的關(guān)鍵信息,多層感知機(jī)(MLP)將輸出轉(zhuǎn)換為與輸入同樣大小的維度,然后輸入到解碼器進(jìn)行重構(gòu),計(jì)算第五幀和輸出預(yù)測(cè)下一幀之間的誤差。對(duì)于重構(gòu)任務(wù),輸入單個(gè)視頻幀到CNN中提取特征,得到特征圖后,經(jīng)過(guò)注意力模塊提取全局的關(guān)鍵信息,然后讀取到解碼器中重構(gòu)視頻幀,計(jì)算重構(gòu)視頻幀與輸入視頻幀之間的誤差。圖1展示了模型框架,重構(gòu)輸入幀和預(yù)測(cè)下一幀,以便進(jìn)行無(wú)監(jiān)督的異常檢測(cè)。然后連續(xù)輸入四個(gè)視頻幀來(lái)預(yù)測(cè)第五個(gè)視頻幀。由于可以利用之前的預(yù)測(cè)對(duì)未來(lái)框架進(jìn)行重構(gòu),因此使用幾乎相同的網(wǎng)絡(luò)結(jié)構(gòu),下文將描述重構(gòu)任務(wù)細(xì)節(jié)。
圖1 基于時(shí)間和空間注意力機(jī)制的異常檢測(cè)
2.1.1 編碼器和解碼器
提出的模型利用U-Net[11]架構(gòu)(廣泛用于重構(gòu)[12]和未來(lái)幀預(yù)測(cè)[13])從輸入視頻幀中提取特征元素,并獲取重構(gòu)幀。由于ReLU截?cái)嗔素?fù)值,限制不同的特征表示,因此編碼器前半部分的CNN層應(yīng)用該架構(gòu),并刪除最后一批歸一化[14]和ReLU層[15],添加了L2正則化層,使特征具有共同的比例。另外,U-Net架構(gòu)中的跳躍連接無(wú)法從視頻幀中提取有用的特征。因此,移除重構(gòu)任務(wù)的跳躍連接,同時(shí)保留輸入視頻幀來(lái)預(yù)測(cè)未來(lái)的幀。
2.1.2 時(shí)間和空間注意力
每個(gè)Space-Time Transformer block中的計(jì)算過(guò)程主要由Attention和MLP兩部分組成。其主要流程如圖2所示。
圖2 時(shí)間和空間注意力機(jī)制
2.1.3 Attention部分
原模型編碼器提取特征后輸出是批次、幀數(shù)*通道數(shù)(channel)、寬、高,為了更好地關(guān)注局部和全局信息,文中方法利用MLP來(lái)處理維度之間變換,將幀數(shù)和通道數(shù)分開(kāi)處理,方便注意力機(jī)制層對(duì)視頻幀的操作,分別從時(shí)間和空間關(guān)聯(lián)角度對(duì)視頻幀提取特征信息。
視頻幀的輸入:時(shí)間和空間注意力模塊[3]從原始視頻中采樣,模型輸入為X∈RH×W×3×F,表示大小H×W的F幀RGB圖像。
分解成塊:將每一幀分解為N個(gè)大小為P×P的非重疊塊的序列,即N=HW/P2。然后將這些塊拉平為向量x(p,t)∈R3P2,其中p=1,2,…,N表示空間位置,t=1,2,…,F表示坐標(biāo)系上的索引。
(1)
(2)
(3)
(4)
(5)
(6)
softmax操作結(jié)束后,把得到的注意力值a和value值相乘、求和,按照公式(7)計(jì)算得到當(dāng)前的塊與相鄰空間和時(shí)間上塊的關(guān)聯(lián)信息。
最后,時(shí)間和空間注意力模塊中的每個(gè)編碼器中都對(duì)應(yīng)多個(gè)多頭注意力的加權(quán)和,并經(jīng)由殘差神經(jīng)網(wǎng)絡(luò)輸出。其中,把單個(gè)注意力結(jié)構(gòu)的s連接起來(lái),然后乘上權(quán)重Wo,與第l-1個(gè)編碼器輸出的z(l-1)相加,如公式(8)。
(8)
MLP部分按公式(9)計(jì)算,通過(guò)感知機(jī)嵌套LN計(jì)算得到的值與計(jì)算注意力得到的z'(l)值相加,得到輸出值z(mì)(l)
(9)
對(duì)于z(l),所提方法剔除類別值,轉(zhuǎn)置后,利用MLP轉(zhuǎn)換維度,然后輸入到解碼器中進(jìn)行重構(gòu)。
(10)
(11)
εt分?jǐn)?shù)高于閾值γ時(shí),將其視為異常樣本,并且該權(quán)重函數(shù)能夠關(guān)注重構(gòu)誤差較大的區(qū)域。
(12)
異常分值[16]表示量化視頻幀的正?;虍惓3潭鹊囊环N度量。在檢測(cè)視頻幀的異常分值時(shí),公式(13)重新計(jì)算輸入視頻與其對(duì)應(yīng)重構(gòu)幀之間的峰值信噪比(Peak Signal to Noise Ratio,PSNR),N表示視頻幀的像素?cái)?shù),視頻幀出現(xiàn)異常情況時(shí),PSNR值會(huì)很低,利用最小-最大均方差將誤差歸一化到[0,1]范圍內(nèi)。最終,視頻幀的異常分值st可按公式(15)計(jì)算。其中公式(14)中g(shù)(·)為整個(gè)視頻幀的最小最大歸一化公式:
(13)
(14)
(15)
在兩個(gè)基準(zhǔn)數(shù)據(jù)集USCD Ped2和The CUHK Avenue上進(jìn)行評(píng)估。USCD Ped2行人數(shù)據(jù)集[3]包含ped1和ped2,分別為16個(gè)訓(xùn)練視頻以及12個(gè)測(cè)試視頻,每幀像素為240×360。該文使用ped2數(shù)據(jù)集,其中包含12個(gè)不規(guī)則事件,包括騎自行車、滑板等。The CUHK Avenue數(shù)據(jù)集[4]包含由16個(gè)訓(xùn)練視頻和21個(gè)測(cè)試視頻組成的47個(gè)異常事件,比如錯(cuò)誤行走方向、跑步等,像素大小為360×640。
將每個(gè)視頻幀的大小調(diào)整為256×256,將其標(biāo)準(zhǔn)化為[-1,1]的范圍。設(shè)定特征圖的高度H和寬度W,以及特征通道數(shù)C,分別為32、32、512。使用Adam Optimize[16],β1=0.9和β2=0.999。在UCSD Ped2[3]、The CUHK Avenue[4]上epoch分別設(shè)置為40、60,batch_size設(shè)置為1,設(shè)置重構(gòu)任務(wù)的初始學(xué)習(xí)率分別為2e-5和2e-4。重構(gòu)任務(wù)和預(yù)測(cè)任務(wù),分別設(shè)置第一次步長(zhǎng)為1和5,結(jié)合余弦退火法[17],設(shè)置閾值分別是γ=0.015和γ=0.1。所有模型都使用Quadro RTX 8000進(jìn)行端到端訓(xùn)練。
在視頻異常檢測(cè)領(lǐng)域中,為了進(jìn)行定量比較,實(shí)驗(yàn)中通常計(jì)算相應(yīng)受試者工作的特征曲線ROC(receiver operating characteristic)下的面積AUC(area under the corresponding ROC curve)和等錯(cuò)誤率EER(equal error rate)來(lái)評(píng)估性能。
曲線下面積(area under curve,AUC):用于測(cè)量ROC曲線下的面積。取值在0~1,值越大,分類性能越好。ROC曲線橫坐標(biāo)為假陽(yáng)率(FPR),縱坐標(biāo)為真陽(yáng)率(TPR)。其中,P、N代表實(shí)際值為正例和反例,TP:預(yù)測(cè)為正例實(shí)際為正例的樣本個(gè)數(shù),FP:預(yù)測(cè)為正例實(shí)際為反例的樣本個(gè)數(shù),FN:預(yù)測(cè)為反例實(shí)際為正例的樣本個(gè)數(shù),TN:預(yù)測(cè)為反例實(shí)際為反例的樣本個(gè)數(shù),如公式(16)和公式(17):
(16)
(17)
AUC計(jì)算如公式(18):
(18)
其中,(xi,yi)為ROC曲線坐標(biāo),xi代表FPR,yi代表TPR。
等錯(cuò)誤率:FPR與假陰性率(false negative rate,FNR)相等時(shí)的錯(cuò)誤率。當(dāng)分類器中真陽(yáng)率和假陽(yáng)率滿足FPR=1-TPR時(shí),被錯(cuò)分的視頻幀數(shù)量占所有視頻數(shù)量的比例,其數(shù)值越小表明方法的性能越好。
模型在UCSD Ped2和The CUHK Avenue上與異常檢測(cè)的最新技術(shù)進(jìn)行了比較。“—”中展示了其他檢測(cè)方法的結(jié)果,“Recon”和“Pred”表示重構(gòu)和預(yù)測(cè)任務(wù),表1展示了實(shí)驗(yàn)結(jié)果對(duì)比。
表1 視頻異常檢測(cè)算法AUC對(duì)比 %
(1)不同方法對(duì)比。
在UCSD Ped2[3]和The CUHK Avenue[4](Avenue)數(shù)據(jù)集上,文中的模型任務(wù)達(dá)到了最好的效果,平均AUC分別是95.4%和85.8%,展示了利用基于時(shí)間和空間上的注意力機(jī)制進(jìn)行異常檢測(cè)的方法的有效性。在The CUHK Avenue數(shù)據(jù)集上,與其他重構(gòu)方法相比,文中模型的重構(gòu)能力具有更強(qiáng)的競(jìng)爭(zhēng)性。
UCSD Ped2數(shù)據(jù)集包括的異常事件主要有汽車、騎自行車等情景。提出模型的預(yù)測(cè)能力在該數(shù)據(jù)集上表現(xiàn)得尤為突出,但是在重構(gòu)任務(wù)中表現(xiàn)欠佳,主要原因是由于注意力機(jī)制具有單向性或?qū)δ承┉h(huán)境不敏感。
文獻(xiàn)[25]中提出了加入注意力的模型,對(duì)特征圖重新分配權(quán)重,達(dá)到抑制無(wú)關(guān)背景區(qū)域,突出前景運(yùn)動(dòng)的目標(biāo),沒(méi)有有限的時(shí)間軸相關(guān)性的局限性。該文提出的時(shí)間和空間注意力模塊能很好地關(guān)注異常時(shí)間段中異常運(yùn)動(dòng)目標(biāo),提升模型的檢測(cè)效果。在The CUHK Avenue數(shù)據(jù)集中,文中檢測(cè)模型的視頻異常檢測(cè)效果更好,AUC精度會(huì)高出0.5%,由于視頻中環(huán)境的差異性和模型適用性,在UCSD Ped2數(shù)據(jù)集中,文獻(xiàn)[25]提出的模型檢測(cè)精度好一些。
文獻(xiàn)[7]提出了一種時(shí)間相干稀疏編碼(TSC)強(qiáng)制使用相似的重建系數(shù)對(duì)相似的相鄰幀數(shù)進(jìn)行編碼,用堆疊遞歸神經(jīng)網(wǎng)絡(luò)映射TSC優(yōu)化了參數(shù)并加速了異常預(yù)測(cè),適用于一段時(shí)間內(nèi)的特征處理。該文結(jié)合Transformer的思想,在異常檢測(cè)過(guò)程中增加時(shí)間和空間注意力的方法,解決了時(shí)間軸相關(guān)性的局限性,適用于處理中長(zhǎng)視頻,對(duì)中長(zhǎng)時(shí)間的時(shí)空特點(diǎn)進(jìn)行建模。在兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)表明,提出的方法能夠提高異常判別性和樣本檢測(cè)效率。
圖3和圖4是關(guān)于數(shù)據(jù)集UCSD Ped2評(píng)估指標(biāo)(曲線下面積ROC、等錯(cuò)誤率)的對(duì)比。
圖3 繪制ROC曲線
圖4 繪制等錯(cuò)誤率的曲線
如圖3所示,關(guān)于曲線下面積的對(duì)比,左圖為文中方法,右圖為文獻(xiàn)[5]的方法,橫坐標(biāo)代表FPR,縱坐標(biāo)代表TPR。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比,文中方法的檢測(cè)效果會(huì)更好。如圖4所示,關(guān)于等錯(cuò)誤率的對(duì)比,左圖為文中方法,右圖為文獻(xiàn)[5]的方法,縱軸代表誤識(shí)率,橫軸代表拒識(shí)率。EER是ROC曲線與ROC空間中對(duì)角線的交點(diǎn)。由實(shí)驗(yàn)對(duì)比可知,文中方法的錯(cuò)誤率值更小,表示方法的性能好,檢測(cè)效果更好。
(2)可視化展示。
針對(duì)文獻(xiàn)[5]中記憶模塊容量受限,相關(guān)特征信息丟失,造成誤判,在檢測(cè)中發(fā)現(xiàn)很多異常數(shù)據(jù)樣本的異常得分很低等現(xiàn)象,提出帶有時(shí)間和空間注意力機(jī)制的異常行為識(shí)別模型。檢測(cè)結(jié)果可視化如圖5所示。
圖5 關(guān)于UCSD Ped2數(shù)據(jù)集和The CUHK Avenue數(shù)據(jù)集視頻序列的下一幀預(yù)測(cè)的實(shí)驗(yàn)結(jié)果(左面為輸入幀,右面標(biāo)記出了不正常的區(qū)域,其余的為正常區(qū)域)
圖5清晰展示了UCSD Ped2數(shù)據(jù)集中04和06視頻序列,The CUHK Avenue數(shù)據(jù)集中03和11視頻序列關(guān)于模型預(yù)測(cè)任務(wù)的實(shí)驗(yàn)結(jié)果,結(jié)果展示了視頻序列里面的一些異?,F(xiàn)象,例如人行道中的汽車、自行車等異常情況。在MNAD檢測(cè)方法會(huì)出現(xiàn)連續(xù)幀中的異常檢出率低,并且有的視頻幀異常分?jǐn)?shù)得分很低的情況,而文中方法能夠很好地將連續(xù)幀中的異常區(qū)域突顯出來(lái),在The CUHK Avenue數(shù)據(jù)集03視頻序列中的間隔幀中的異常區(qū)域也預(yù)測(cè)的很好,說(shuō)明了文中方法的有效性,有效緩解因容量受限,信息丟失造成的誤判、漏檢等問(wèn)題。
為了進(jìn)行可視化,利用文獻(xiàn)[16]的像素異常得分,當(dāng)異常得分較大的區(qū)域大于幀內(nèi)平均值時(shí)就將其標(biāo)記。
(3)消融實(shí)驗(yàn)。
圖6給出了所提模型在訓(xùn)練時(shí)不同的注意力關(guān)注特征信息的不同模式。在表2中,展示了所提模型在UCSD Ped2數(shù)據(jù)庫(kù)上重構(gòu)和預(yù)測(cè)任務(wù)模型的消融實(shí)驗(yàn)AUC性能變化。
表2 實(shí)驗(yàn)結(jié)果AUC %
圖6 不同方式計(jì)算每個(gè)塊注意力值的效果
圖6展示了基于空間的注意力以及基于時(shí)間和空間注意力的模式??臻g注意力:只取視頻里同一幀內(nèi)的圖像塊進(jìn)行注意力機(jī)制。分散時(shí)空注意力:先對(duì)不同幀中相同位置的塊進(jìn)行注意力機(jī)制,再對(duì)同一幀中所有圖像塊進(jìn)行注意力機(jī)制。說(shuō)明前者只能關(guān)注一幀圖片上的局部信息,忽視了連續(xù)視頻幀的相關(guān)性。后者加入時(shí)間相關(guān)性,能夠更好的關(guān)注視頻幀的時(shí)間上下文信息。
如表2所示,在記憶模塊的基礎(chǔ)上加入了時(shí)間和空間的注意力機(jī)制,結(jié)果使用PSNR計(jì)算異常分?jǐn)?shù)94.8%,而所提模型的效果在這個(gè)基礎(chǔ)上提高0.6%。這是由于Transformer更多的是關(guān)注視頻幀圖像中局部的特征信息,而記憶模塊更多是關(guān)注視頻里面的全局信息,導(dǎo)致兩者共同作用時(shí)發(fā)生沖突。(1)如果只有空間上下文提取信息,在表2中第一行可以看到異常檢測(cè)效果降低了很多,說(shuō)明了時(shí)間注意力的重要性。(2)第二行則是沒(méi)有記憶模塊部分,加入時(shí)間和空間的注意力機(jī)制,結(jié)果顯示,該文提出的方案會(huì)比上面的方案更有效。在使用時(shí),會(huì)有時(shí)間和空間注意力順序問(wèn)題,實(shí)驗(yàn)發(fā)現(xiàn),只有時(shí)間先的方式,效果要略好一些。
基于文中模型框架,將只加入空間注意力機(jī)制和加入基于時(shí)間和空間的注意力機(jī)制相比,基于時(shí)間和空間的注意力機(jī)制效果更好,它提供了0.6%的AUC增益。從以上實(shí)驗(yàn)得出,基于時(shí)間和空間注意力機(jī)制相輔相成,其中異常評(píng)分St,使用PSNR量化異常的程度發(fā)揮到更好。
考慮到基于記憶的異常檢測(cè)模型中的記憶模塊容量有限,在加入Transformer時(shí)會(huì)產(chǎn)生沖突的實(shí)際情況,提出基于時(shí)間和空間的自注意力機(jī)制來(lái)替換記憶模塊。在公共數(shù)據(jù)集上展示了該方法的有效性,實(shí)驗(yàn)表明,該模型優(yōu)于最新技術(shù)。該模型具有以下優(yōu)點(diǎn):(1)基于Transformer的理念,相對(duì)簡(jiǎn)單且容易理解;(2)通過(guò)提取空間上下文信息來(lái)建立視頻幀中的目標(biāo)之間的聯(lián)系實(shí)現(xiàn);(3)可以應(yīng)用于長(zhǎng)期視頻建模。但是模型的重構(gòu)任務(wù)在適用環(huán)境上受到限制。因此,該模型并不能同時(shí)滿足所有的場(chǎng)景,有待進(jìn)一步完善。