中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)07-042-2234-07
doi:10.19734/j. issn.1001-3695.2024.08.0371
Abstract:Inthefieldofvideoanomalydetection,anomalouseventsoftendemonstratetemporalcontinuityandsimlarityExisting unsupervised methods typicallysegment videos into multipleclipsandrandomlyselectsubsets for training,disrupting the continuityofanomalouseventsandcausing thelossofcriticalspatiotemporalinformation.AditionallycurrntEuclidean space-basedmethodsencounterlimitationsinembeddngspacedimensionalitymakingitdificulttoefectivelycapturethelatent geometrichierarchyofvideodata.Toaddress these isues,thispaper introducedanovelunsupervisedvideoanomalydetection methodbasedonhyperbolic space.Itdesignedaspatiotemporalfeatureconstruction(STFC)module toextract temporalcorrelationsand featuresimilaritiesamong videosegments,mbedding themintoLorentzandPoincaréballhyperbolicspaces to learnrichervideorepresentationsthatmoreefectivelydistinguishnormalfromabnormal events.Experimentsshowthatthis method achieves AUC scores of 93.26% and 77.55% on the Shanghai Tech and UCF-Crime datasets,respectively,outperforming existingunsupervised video anomalydetectionmethods.Theseresultsconfirmtheadvantageof hyperbolic spaceincapturingthelatentgeometrichierarchyofvideodataandhighlightitspotential inenhancinganomalydetectioncapabilities.
KeyWords:unsupervised;video anomaly detection;Lorentz hyperbolicspace;Poincaréballhyperbolic space
0 引言
隨著國(guó)家公共安全意識(shí)的不斷增強(qiáng),監(jiān)控?cái)z像頭在街道、十字路口、銀行和購(gòu)物中心等公共場(chǎng)所的使用日益普及,旨在提高整體的公共安全水平。然而,隨著監(jiān)控設(shè)備的廣泛部署,監(jiān)控視頻數(shù)據(jù)量急劇增加,使得人工篩查異常事件(如打斗、虐待、交通事故、盜竊等)變得極為困難。在這樣的背景下,視頻異常檢測(cè)技術(shù)應(yīng)運(yùn)而生,它通過(guò)智能化手段自動(dòng)識(shí)別視頻序列中的異常行為或事件。
然而,由于視頻背景復(fù)雜、異常類(lèi)型界定模糊,加之異常事件種類(lèi)繁多且難以窮盡,視頻異常檢測(cè)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域的一項(xiàng)艱巨任務(wù)。為簡(jiǎn)化模型,早期的研究1\~4采用了單類(lèi)分類(lèi)方法,僅利用正常視頻數(shù)據(jù)進(jìn)行訓(xùn)練,使模型學(xué)習(xí)正常數(shù)據(jù)的分布,并通過(guò)預(yù)測(cè)未來(lái)幀或重建視頻幀來(lái)檢測(cè)異常事件。然而,這種方法存在明顯局限性:任何偏離正常分布的樣本都可能被誤判為異常,導(dǎo)致對(duì)未見(jiàn)過(guò)的正常事件的錯(cuò)誤檢測(cè)。因此,弱監(jiān)督學(xué)習(xí)方法開(kāi)始在視頻異常檢測(cè)領(lǐng)域受到關(guān)注。該方法通過(guò)使用視頻級(jí)標(biāo)簽,降低了獲取細(xì)粒度人工標(biāo)注的成本:如果視頻的部分內(nèi)容異常,則標(biāo)記為異常;如果視頻的所有內(nèi)容都正常,則標(biāo)記為正常。盡管這種標(biāo)注方式比逐幀標(biāo)注更高效,但仍需要逐個(gè)視頻篩查以確定是否包含異常事件。
近年來(lái),無(wú)監(jiān)督方法的發(fā)展為視頻異常領(lǐng)域開(kāi)辟了新的研究方向,吸引了眾多研究者的關(guān)注。Zaheer等人[5]首次提出了生成合作學(xué)習(xí)方法(GCL)的無(wú)監(jiān)督方法,該方法由生成器和鑒別器兩個(gè)關(guān)鍵組件組成。生成器負(fù)責(zé)生成偽標(biāo)簽,鑒別器則估計(jì)實(shí)例異常的概率,并通過(guò)兩者的協(xié)作實(shí)現(xiàn)對(duì)未標(biāo)注視頻的異常檢測(cè)。Tur等人[6利用擴(kuò)散模型的重建能力,提出了一種用于無(wú)監(jiān)督視頻異常檢測(cè)的生成模型,將視頻切分為多個(gè)特征片段,訓(xùn)練時(shí)隨機(jī)選擇批量大小的片段輸入到擴(kuò)散模型中重建視頻特征,并通過(guò)重建誤差的大小判斷異常事件。潘振鵬等人[7設(shè)計(jì)了時(shí)間能量擴(kuò)散模塊和外觀能量擴(kuò)散模塊,結(jié)合自注意力層和交叉注意力層,增強(qiáng)了模型對(duì)時(shí)間信息和外觀信息的學(xué)習(xí)能力,從而提升了正常與異常樣本的區(qū)分度。Al-Lahham等人[8]提出了C2FPL框架,通過(guò)高斯聚類(lèi)生成粗粒度標(biāo)簽,并進(jìn)一步利用統(tǒng)計(jì)假設(shè)檢驗(yàn)生成細(xì)粒度標(biāo)簽,使得模型可以進(jìn)行全監(jiān)督訓(xùn)練。
盡管無(wú)監(jiān)督視頻異常檢測(cè)技術(shù)近年來(lái)取得了顯著進(jìn)展,但仍面臨一些挑戰(zhàn)。一方面,現(xiàn)有文獻(xiàn)[5,6]在訓(xùn)練時(shí)將視頻劃分為多個(gè)非重疊片段,并隨機(jī)選取批次進(jìn)行訓(xùn)練,這種處理方式雖然消除了批內(nèi)和批間的相關(guān)性,卻破壞了視頻片段的連續(xù)性,導(dǎo)致關(guān)鍵時(shí)序信息丟失。另一方面,已有的視頻異常檢測(cè)方法都局限于在歐幾里德空間中使用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)視頻特征表示。雖然基于歐氏空間的方法已取得較好的性能,但在應(yīng)對(duì)高度相似的正負(fù)實(shí)例時(shí)仍存在不足。
雙曲神經(jīng)網(wǎng)絡(luò)近年來(lái)在建模復(fù)雜數(shù)據(jù)結(jié)構(gòu)(如單詞嵌入[9]、生物序列[10]、社交網(wǎng)絡(luò)[1]、推薦系統(tǒng)[12]等)方面展現(xiàn)了巨大潛力。與歐氏空間相比,雙曲空間中的距離隨深度呈指數(shù)增長(zhǎng),更適合反映正負(fù)實(shí)例之間的差異。如圖1所示,在歐氏空間中彼此距離較近的兩點(diǎn),在樹(shù)型結(jié)構(gòu)中其實(shí)際距離為各自到根節(jié)點(diǎn)的路徑之和。受此啟發(fā),本文提出了在雙曲空間中學(xué)習(xí)視頻表示的方法,利用雙曲空間的指數(shù)增長(zhǎng)特性能夠有效拉開(kāi)歐氏空間中相似的正負(fù)實(shí)例之間的距離。針對(duì)無(wú)監(jiān)督方法在訓(xùn)練中忽視時(shí)序信息的問(wèn)題,本文設(shè)計(jì)了時(shí)間特征構(gòu)建模塊。由于異常事件通常具備時(shí)間上的連續(xù)性和特征上的相似性,STFC模塊通過(guò)分析視頻片段間的特征相似性和時(shí)間相關(guān)性提取時(shí)序信息,從而幫助模型更好地區(qū)分異常和正常片段。本文的主要貢獻(xiàn)總結(jié)如下:
a)提出了一種基于雙曲空間的無(wú)監(jiān)督異常檢測(cè)方法,該方法在無(wú)任何數(shù)據(jù)標(biāo)簽的情況下實(shí)現(xiàn)了視頻異常檢測(cè)。在ShanghaiTech和UCF-Crime公共數(shù)據(jù)集上,AUC分別達(dá)到了93.26% 和 77.55% ,達(dá)到了新的最佳結(jié)果。
b)首次將雙曲空間引入無(wú)監(jiān)督視頻異常檢測(cè)領(lǐng)域,在雙曲空間中學(xué)習(xí)視頻特征表示,利用其非線性特性更精確地捕捉異常與正常視頻片段間的潛在結(jié)構(gòu)差異,提高了視頻異常檢測(cè)的準(zhǔn)確性。
c)設(shè)計(jì)了時(shí)間特征構(gòu)建模塊,以彌補(bǔ)傳統(tǒng)無(wú)監(jiān)督方法在訓(xùn)練過(guò)程中因隨機(jī)批次選擇導(dǎo)致的時(shí)序信息缺失問(wèn)題。STFC模塊有效提取視頻片段間的時(shí)間相關(guān)性與特征相似性,增強(qiáng)了模型的時(shí)序分析能力。
1方法
1.1 雙曲幾何
雙曲幾何是一種具有恒定負(fù)曲率的非歐幾里德幾何,曲率表示幾何對(duì)象偏離平面的程度,因此雙曲空間相比歐氏空間更加“廣闊”,能夠提供更多的“空間”。洛倫茲模型和龐加萊球模型是雙曲空間中常見(jiàn)的兩種模型,一般地,具有常數(shù)負(fù)曲率的 n 維洛倫茲模型可表示為 ,而 TxLKn 表示以 x 為中心的正切空間,具體定義如下:
其中: 為常數(shù)負(fù)曲率; gxK 是黎曼度量; ??,??c 為洛倫茲內(nèi)積,可表示為
在雙曲幾何中,龐加萊球模型可表示為 ρn=(βn,gx) ,其中 βn={x∈Rn , 是黎曼度量:
雙曲空間的一個(gè)重要特性是比歐幾里德空間擴(kuò)展快,歐幾里德空間是呈多項(xiàng)式級(jí)的增長(zhǎng),而雙曲空間呈指數(shù)級(jí)增長(zhǎng)。在龐加萊球中任意兩點(diǎn) u,v∈βd 的距離計(jì)算公式如下:
此外,雙曲空間和歐氏空間可以通過(guò)指數(shù)映射和對(duì)數(shù)映射相互轉(zhuǎn)換。例如在洛倫茲模型中,設(shè) x∈LKn,v∈TxLKn,x∈LKn 可使用指數(shù)映射和對(duì)數(shù)映射實(shí)現(xiàn)互相轉(zhuǎn)換:
1.2 總體框架
本文基于雙曲空間的無(wú)監(jiān)督異常檢測(cè)方法主要由生成器和鑒別器兩個(gè)子結(jié)構(gòu)組成。由于無(wú)監(jiān)督方法不依賴(lài)任何標(biāo)注信息,在訓(xùn)練過(guò)程中無(wú)法直接判斷視頻片段是否異常。所以,為了實(shí)現(xiàn)有效訓(xùn)練,本文方法首先通過(guò)生成器 G 根據(jù)重建誤差的大小生成偽標(biāo)簽用于訓(xùn)練鑒別器 D 接著,鑒別器 D 使用預(yù)測(cè)的異常分?jǐn)?shù)生成新的偽標(biāo)簽來(lái)優(yōu)化生成器 G 在后續(xù)的每一輪訓(xùn)練中,生成器和鑒別器通過(guò)不斷利用對(duì)方生成的偽標(biāo)簽來(lái)協(xié)作學(xué)習(xí),逐步提升模型性能,實(shí)現(xiàn)完全無(wú)監(jiān)督的異常檢測(cè)。
整體框架如圖2所示,生成器 G 采用自編碼結(jié)構(gòu):首先通過(guò)多個(gè)卷積層提取輸入視頻的低維特征,然后通過(guò)多個(gè)反卷積層重建視頻特征,最后通過(guò)計(jì)算輸入視頻與重建特征之間的重建誤差,生成用于訓(xùn)練鑒別器 D 的偽標(biāo)簽。而鑒別器D 將視頻特征輸入到STFC模塊中提取時(shí)空信息,并在洛倫茲雙曲空間和龐加萊球雙曲空間中學(xué)習(xí)視頻表示,并通過(guò)分類(lèi)器預(yù)測(cè)每個(gè)片段的異常分?jǐn)?shù)。由于洛倫茲雙曲空間和龐加萊球雙曲空間在幾何結(jié)構(gòu)上的差異,將兩個(gè)空間學(xué)到的視頻表示進(jìn)行拼接,可以提高分類(lèi)器預(yù)測(cè)正常和異常視頻異常分?jǐn)?shù)的準(zhǔn)確性。
1.3 特征提取
本文遵循先前弱監(jiān)督方法的工作[13\~19],首先將視頻 V 拆分為幀級(jí)序列 X={xi}i=1n ,并將序列 X 均勻分為 T 個(gè)不重疊的片段 V={vt}t=1T ,每個(gè)片段包括16個(gè)連續(xù)幀。然后將每個(gè)片段輸入到在Kinetics數(shù)據(jù)集上預(yù)訓(xùn)練的 I3D[20] 網(wǎng)絡(luò)中,提取RGB 特征 FRGBN×D ,其中 D 表示特征維數(shù), ,N 表示片段個(gè)數(shù)。由于視頻的時(shí)長(zhǎng)差異較大,從幾秒鐘到幾個(gè)小時(shí)不等,導(dǎo)致每個(gè)視頻的片段數(shù)也不盡相同。此外,受限于GPU內(nèi)存,直接基于批處理進(jìn)行訓(xùn)練并不可行。因此,在訓(xùn)練階段,通過(guò)統(tǒng)一的間隔將提取到的特征 FRGBN×D 重新劃分為 T 個(gè)片段,使每個(gè)視頻表示為 FRGBT×D 。在測(cè)試階段,批處理的大小設(shè)為1,無(wú)須再將視頻等間隔劃分為 T 個(gè)片段。
1.4 生成器網(wǎng)絡(luò)
自編碼器通常以最小化正常數(shù)據(jù)的重構(gòu)誤差來(lái)學(xué)習(xí)正常數(shù)據(jù)的分布,并將重建誤差作為異常檢測(cè)的指標(biāo)。文獻(xiàn)[1\~4]提出的方法僅使用正常數(shù)據(jù)進(jìn)行訓(xùn)練,這種策略雖然能夠使網(wǎng)絡(luò)在處理未見(jiàn)過(guò)的異常數(shù)據(jù)時(shí)產(chǎn)生較大的重建誤差,但在面對(duì)未見(jiàn)過(guò)的正常數(shù)據(jù)時(shí)也可能出現(xiàn)較大的重建誤差,從而導(dǎo)致正常與異常數(shù)據(jù)之間的區(qū)分能力不足。為了解決這一問(wèn)題,本文在訓(xùn)練生成器時(shí)同時(shí)使用了正常數(shù)據(jù)和異常數(shù)據(jù)。在重建視頻特征的過(guò)程中,生成器通過(guò)縮小正常特征片段的重建誤差,同時(shí)放大異常特征片段的重建誤差,以實(shí)現(xiàn)對(duì)異常數(shù)據(jù)的有效識(shí)別。重建誤差定義如下:
根據(jù)文獻(xiàn)[15],異常片段的特征幅值通常大于正常片段的特征幅值,這意味著異常片段的特征相對(duì)于正常片段更加復(fù)雜。在重建過(guò)程中,異常片段的重建誤差通常會(huì)比正常片段的誤差更大。因此,本文利用生成器的重建誤差作為建立偽標(biāo)簽的依據(jù),將重建誤差大于閾值 LGth 的片段視為異常:
其中 :LGth=u+βσ,u 和 σ 分別表示均值和方差 Δ,β 是超參數(shù)。
1.5 鑒別器網(wǎng)絡(luò)
在傳統(tǒng)的歐氏空間中,圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)將圖中的節(jié)點(diǎn)嵌入到歐幾里德空間中,當(dāng)處理具有無(wú)標(biāo)度或?qū)哟谓Y(jié)構(gòu)的真實(shí)圖時(shí),這種嵌入方式無(wú)法準(zhǔn)確反映節(jié)點(diǎn)間的距離關(guān)系,往往會(huì)導(dǎo)致較大的失真[21]。例如,在對(duì)社交網(wǎng)絡(luò)、引文網(wǎng)絡(luò)等復(fù)雜數(shù)據(jù)建模時(shí),歐氏空間中的球體積呈多項(xiàng)式增長(zhǎng),難以捕捉數(shù)據(jù)中的潛在幾何層次結(jié)構(gòu)。而雙曲空間由于其體積呈指數(shù)增長(zhǎng),是樹(shù)狀圖的近似空間,能夠更好地容納層次化的復(fù)雜數(shù)據(jù)。本文將視頻拆分為 T 個(gè)片段,并將每個(gè)片段視為圖中的節(jié)點(diǎn)。這種圖結(jié)構(gòu)與雙曲空間中的層次結(jié)構(gòu)十分契合,因此在雙曲空間中使用GCN學(xué)習(xí)視頻表示相較于歐氏空間更具優(yōu)勢(shì)。
本文所提鑒別器由時(shí)空特征構(gòu)建(STFC)模塊、雙曲圖卷積模塊和分類(lèi)器三部分組成。STFC模塊用于生成時(shí)間關(guān)系矩陣和特征相似矩陣,雙曲圖卷積模塊基于洛倫茲雙曲空間和龐加萊球雙曲空間實(shí)現(xiàn)了圖卷積神經(jīng)網(wǎng)絡(luò),用來(lái)學(xué)習(xí)視頻特征表示。分類(lèi)器由全連接層組成,預(yù)測(cè)每個(gè)特征片段的異常分?jǐn)?shù),并利用生成器 G 生成的偽標(biāo)簽進(jìn)行監(jiān)督訓(xùn)練。
1.5.1時(shí)空特征構(gòu)建模塊
異常事件往往在一段連續(xù)的時(shí)間內(nèi)發(fā)生,同時(shí),同種類(lèi)型的事件之間可能存在一定的相似性。為了解決文獻(xiàn)[5,6]中時(shí)序信息缺失的問(wèn)題,本文引入了STFC模塊,該模塊從特征相似性和時(shí)間相關(guān)性?xún)蓚€(gè)方面構(gòu)建鄰接矩陣,其結(jié)構(gòu)如圖3所示。視頻經(jīng)過(guò)I3D網(wǎng)絡(luò)后得到特征表示 FT×D ,其中 T 為視頻切分的片段數(shù), D 為每個(gè)片段的維度。為避免維度災(zāi)難,STFC模塊使用兩個(gè)卷積層將特征維度降低到128,并在此基礎(chǔ)上構(gòu)建時(shí)間相關(guān)性矩陣和特征相似性矩陣。
通常情況下,異常事件和正常事件在視頻中不會(huì)在短時(shí)間內(nèi)發(fā)生劇烈變化,相鄰的視頻片段之間具備一定的時(shí)間關(guān)聯(lián)。通過(guò)分析視頻片段間的時(shí)間順序及其鄰近關(guān)系可構(gòu)建時(shí)間關(guān)系圖 G=(V,E) ,其中 V={vi,i=1,2,…,T} 表示視頻片段構(gòu)成的節(jié)點(diǎn)集合, ?E 表示片段之間的時(shí)間關(guān)系?;跁r(shí)間相關(guān)性的鄰接矩陣 AijT∈RT×T 的計(jì)算公式如下所示。
其中:δ是用來(lái)控制時(shí)間范圍的超參數(shù)。
盡管異常事件種類(lèi)繁多且各不相同,但同一類(lèi)型的異常片段在特征上往往具有一定的相似性聯(lián)系?;谔卣飨嗨菩缘泥徑泳仃?AijS∈RT×T 的計(jì)算公式如下:
AijS=softmax(f(xi,xj)))
其中:函數(shù) f(xi,xj) 用來(lái)測(cè)量?jī)蓚€(gè)片段之間的特征相似性:
為消除雙曲空間中的弱相似關(guān)系,函數(shù) f(xi,xj) 還定義了閾值運(yùn)算:
1.5.2龐加萊球雙曲圖卷積
在歐幾里德空間中,圖卷積運(yùn)算由線性變換、鄰域聚合和非線性激活三個(gè)步驟組成。在龐加萊球雙曲空間中執(zhí)行這三個(gè)步驟時(shí),需要將輸入向量通過(guò)映射轉(zhuǎn)換到對(duì)應(yīng)點(diǎn)的切線空間,然后在歐氏空間中完成相關(guān)的運(yùn)算后,最后將結(jié)果再映射回雙曲空間中,從而實(shí)現(xiàn)雙曲空間下的卷積操作,確保雙曲幾何特性在計(jì)算過(guò)程中保留,同時(shí)使得圖卷積操作得以在歐氏空間中進(jìn)行。
a)線性變換:線性變換需要將嵌入向量乘以一個(gè)權(quán)重矩陣,然后進(jìn)行偏差平移。為了計(jì)算矩陣向量乘法,需要將該向量映射到它所在位置的正切平面(切線空間)。在切線空間中,可以使用標(biāo)準(zhǔn)的歐氏矩陣運(yùn)算來(lái)執(zhí)行線性變換,即將嵌入向量與權(quán)重矩陣 W 相乘,并加上偏置項(xiàng) b 。
其中: o 是雙曲空間中的原點(diǎn); P(?) 是平行轉(zhuǎn)移運(yùn)算。
b)鄰域聚合:鄰域聚合是圖卷積神經(jīng)網(wǎng)絡(luò)中最重要的一個(gè)步驟,其核心思想是整合節(jié)點(diǎn)自身及其所有鄰居的特征信息。在雙曲空間中,對(duì)于點(diǎn) xiH 和其鄰居 xj?H ,首先需要將它們映射到雙曲空間中的切線空間,這樣可以將雙曲幾何轉(zhuǎn)換為歐氏幾何來(lái)處理,計(jì)算完成后,再將結(jié)果映射回雙曲空間。鄰域聚合公式如下:
其中: 表示節(jié)點(diǎn) i 的鄰居。
c)非線性激活:為了在雙曲空間中使用非線性激活函數(shù),需先在切線空間中應(yīng)用非線性激活函數(shù),然后將結(jié)果映射回雙曲空間。其過(guò)程可表示為
其中: σ 是非線性激活函數(shù)。
總結(jié)以上三個(gè)操作,在龐加萊球雙曲圖卷積層中,第 l-1 層到第 l 層的運(yùn)算步驟可表示如下:
hil=(?Wl?xil-1)?bl
yil=AGG(hil)
xil=σ(yil)
1.5.3洛倫茲雙曲圖卷積
文獻(xiàn)[22]通過(guò)調(diào)整洛倫茲變換(包括升壓和旋轉(zhuǎn))來(lái)形式化神經(jīng)網(wǎng)絡(luò)的基本運(yùn)算,提出了一種基于洛倫茲模型的全雙曲型神經(jīng)網(wǎng)絡(luò),無(wú)須從雙曲空間到歐氏空間的切換,并提供了雙曲線性層具有激活、放棄、偏差和歸一化的特征變換的通用公式:
其中: x∈LKn W∈Rd×(n+1) v∈Rn+1 表示洛倫茲變換中的速度(與光速的比值), φ 可表示dropout,激活函數(shù)或者歸一化函數(shù)。在洛倫茲雙曲圖卷積中,鄰域聚合定義為
在洛倫茲雙曲圖卷積層中,由于式(20)已經(jīng)內(nèi)嵌了非線性激活函數(shù),所以第l-1層到第 ξl 層的過(guò)程中不再需要額外的非線性激活步驟:
yi=HL(xil-1)
xil=HyperAgg(yi)
1.6 損失函數(shù)
視頻特征 F 經(jīng)過(guò)鑒別器 D 中的雙曲圖卷積模塊后,在兩個(gè)不同的雙曲空間中分別獲得了新的特征表示 FL (洛倫茲)和FP (龐加萊球)。由于洛倫茲空間和龐加萊球空間在幾何結(jié)構(gòu)上的差異,它們能夠從不同視角對(duì)視頻內(nèi)容進(jìn)行學(xué)習(xí)與表征。所以,將這兩種特征表示融合后輸入到分類(lèi)器中,有助于更準(zhǔn)確地預(yù)測(cè)每個(gè)視頻片段的異常分?jǐn)?shù) s
S=sigmoid(FC(concat(FL,F(xiàn)P))))
借助生成器 G 生成的偽標(biāo)簽,鑒別器 D 的損失函數(shù)定義如下:
其中: Si,j 表示第 i 個(gè)視頻中的第 j 個(gè)片段的預(yù)測(cè)分?jǐn)?shù)。
在訓(xùn)練過(guò)程中,由于同時(shí)引入了正常數(shù)據(jù)和異常數(shù)據(jù),生成器會(huì)無(wú)差別地重建輸入特征。為提高生成器 G 在重建正常和異常視頻特征時(shí)的區(qū)分能力,以鑒別器 D 輸出的異常分?jǐn)?shù)為依據(jù),將異常分?jǐn)?shù)超過(guò)設(shè)定閾值的視頻片段特征 f′ 替換為全1的特征向量 ,而正常視頻的重建特征 f′ 保持不變:
其中: SDth=u+ασ,u 和 σ 分別表示均值和方差, α 是超參數(shù)。訓(xùn)練生成器 D 的損失函數(shù)如下:
其中: T 是視頻片段數(shù); B 為批量大小。
此外,為了確保視頻被切分為多個(gè)片段后,相鄰片段之間的異常分?jǐn)?shù)能夠呈現(xiàn)出平滑的變化趨勢(shì),本文引入一個(gè)平滑約束。該約束通過(guò)最小化相鄰片段間異常分?jǐn)?shù)的差異來(lái)實(shí)現(xiàn),強(qiáng)制相鄰片段在時(shí)間序列上的異常分?jǐn)?shù)變化保持平滑。在生成器和鑒別器的損失函數(shù)基礎(chǔ)上加入平滑約束后,總的訓(xùn)練損失函數(shù)定義如下:
其中: λ 是一個(gè)超參數(shù),用于平衡平滑損失與其他損失之間的權(quán)重。
2實(shí)驗(yàn)
2.1 數(shù)據(jù)集
ShanghaiTech是一個(gè)中等規(guī)模的視頻監(jiān)控?cái)?shù)據(jù)集,由大學(xué)校園中13個(gè)固定角度拍攝的視頻組成。該數(shù)據(jù)集最初用于OCC(單類(lèi)分類(lèi))方法,僅使用正常視頻用于訓(xùn)練。后來(lái),Li等人[18]重新組織了該數(shù)據(jù)集,使其適用于弱監(jiān)督方法的訓(xùn)練。在重新劃分后,訓(xùn)練集包含63個(gè)異常視頻和175個(gè)正常視頻,測(cè)試集則包括44個(gè)異常視頻和155個(gè)正常視頻。本文采用了與文獻(xiàn)[18]中相同的數(shù)據(jù)集劃分方式。
UCF-Crime數(shù)據(jù)集是收集了來(lái)自真實(shí)監(jiān)控視頻的大規(guī)模數(shù)據(jù)集,涵蓋了13類(lèi)異常事件,包括虐待、逮捕、縱火、襲擊、事故、入室盜竊、爆炸、打架、搶劫、槍擊、盜竊、商店行竊和破壞行為。該數(shù)據(jù)集共包含1900個(gè)視頻樣本,其中訓(xùn)練集包括800個(gè)正常視頻和810個(gè)異常視頻,測(cè)試集則由150個(gè)正常視頻和140個(gè)異常視頻組成。與ShanghaiTech數(shù)據(jù)集相比,UCF-Crime的視頻場(chǎng)景更加復(fù)雜多變,且場(chǎng)景類(lèi)型多樣,是一個(gè)更具挑戰(zhàn)性的數(shù)據(jù)集。
2.2 評(píng)價(jià)指標(biāo)
與之前的方法[13\~19]保持一致,本文采用受試者工作特征曲線(receiveroperatingcharacteristiccurve,ROC)下的曲線面積(areaundercurve,AUC)作為ShanghaiTech和UCF-Crime數(shù)據(jù)集的評(píng)估指標(biāo)。在視頻異常檢測(cè)任務(wù)中,AUC根據(jù)數(shù)據(jù)集中測(cè)試視頻的幀級(jí)標(biāo)簽計(jì)算得到,幀級(jí)AUC越大,代表網(wǎng)絡(luò)識(shí)別能力越強(qiáng),并且在各種判別閾值下的性能越穩(wěn)健。
2.3 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)環(huán)境:本文所有的實(shí)驗(yàn)在12thGenIntel@Core TMi5 12400F的機(jī)器上完成,GPU采用NVIDIARTX3060Ti(8GB),內(nèi)存16GB。編程環(huán)境為CUDA11.7,Python3.6,PyTorch1.13。
實(shí)現(xiàn)細(xì)節(jié):在生成器的設(shè)計(jì)中,使用了3個(gè)一維卷積層和3個(gè)一維反卷積層對(duì)輸入的視頻特征進(jìn)行重建。生成器的層次結(jié)構(gòu)為[1024,512,256,128,256,512,1024],逐步提取特征并恢復(fù)到原始維度。在鑒別器的設(shè)計(jì)中,每個(gè)雙曲空間包含時(shí)間相似度和特征相似度的兩個(gè)分支,每個(gè)分支由兩層雙曲圖卷積層組成。第一層將輸入的128維特征映射到32維,第二層則保持32維輸出不變。隨后,四個(gè)分支的32維輸出特征向量融合成一個(gè)128維的視頻特征向量輸入到分類(lèi)器中。分類(lèi)器由一個(gè)全連接層組成,其輸入維度為128維,輸出為1維,用于預(yù)測(cè)視頻特征的異常分?jǐn)?shù)。生成器的閾值 β 和鑒別器的閾值α 分別設(shè)置為2.0和1.5。由于UCF-Crime比ShanghaiTech的規(guī)模更大,視頻時(shí)長(zhǎng)更長(zhǎng),UCF-Crime數(shù)據(jù)集的訓(xùn)練輪數(shù)為15,學(xué)習(xí)率為0.00001,視頻片段 T 為50,而ShanghaiTech數(shù)據(jù)集的訓(xùn)練輪數(shù)為50,學(xué)習(xí)率為0.00002,視頻片段 T 為20。優(yōu)化器選擇RMSprop,dropout設(shè)置為0.5,雙曲空間的曲率為0.03,批量大小設(shè)置為64。
2.4 方法對(duì)比
本文在ShanghaiTech和UCF-Crime數(shù)據(jù)集上對(duì)比了現(xiàn)有的單類(lèi)分類(lèi)方法、弱監(jiān)督方法以及無(wú)監(jiān)督方法,結(jié)果分別展示在表1和2中。本文方法用下畫(huà)線標(biāo)出,而加粗的數(shù)字則表示在相應(yīng)監(jiān)督類(lèi)型下的最佳表現(xiàn)。在ShanghaiTech數(shù)據(jù)集上,本文方法表現(xiàn)出色,超越了所有現(xiàn)有的無(wú)監(jiān)督方法和單類(lèi)分類(lèi)方法。與目前最佳的無(wú)監(jiān)督方法相比,本文方法提高了5.08% ,達(dá)到了該數(shù)據(jù)集的最高水平。在UCF-Crime數(shù)據(jù)集上,本文方法相較于文獻(xiàn)[5\~7」分別實(shí)現(xiàn)了 6.51% .12.33% 、2.85% 的AUC提升。盡管未能超過(guò)最新的無(wú)監(jiān)督方法C2FPL[8]和CLAP,但差距在可接受的范圍內(nèi)。這些結(jié)果證實(shí)了本文方法在雙曲空間中學(xué)習(xí)視頻表示的有效性,為視頻異常檢測(cè)領(lǐng)域提供了新的視角和方法。未來(lái)的研究可進(jìn)一步探討基于雙曲空間的自注意力機(jī)制,以期進(jìn)一步提升在該數(shù)據(jù)集上的表現(xiàn)。雙曲空間的自注意力機(jī)制通過(guò)計(jì)算節(jié)點(diǎn)之間的相對(duì)重要性來(lái)自適應(yīng)地捕捉節(jié)點(diǎn)之間的長(zhǎng)程依賴(lài)關(guān)系,在視頻異常檢測(cè)中幫助模型聚焦于異常關(guān)鍵特征,提高模型對(duì)復(fù)雜動(dòng)態(tài)變化的敏感度,從而提升檢測(cè)的精度與效率。
2.5消融實(shí)驗(yàn)
本節(jié)對(duì)時(shí)空特征構(gòu)建模塊中的時(shí)間相關(guān)性和特征相似性進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表3所示。在ShanghaiTech數(shù)據(jù)集上,同時(shí)使用時(shí)間相關(guān)性和特征相似性的網(wǎng)絡(luò)比未使用這兩個(gè)特性的網(wǎng)絡(luò)分別提高了 12.84% 和 0.44% 。在UCF-Crime數(shù)據(jù)集中,網(wǎng)絡(luò)性能也相應(yīng)地提升了 12.33% 和 6.38% 。時(shí)間相關(guān)性側(cè)重于異常事件的時(shí)間關(guān)系,考慮事件發(fā)生的連續(xù)性,而特征相似性則關(guān)注全局片段之間的相似關(guān)系。視頻本質(zhì)上是一種時(shí)間序列數(shù)據(jù),時(shí)間關(guān)系在視頻數(shù)據(jù)中起著重要作用,STFC模塊有效捕獲了視頻片段之間的時(shí)間相關(guān)性和特征相似性,有助于更精確地區(qū)分和識(shí)別異常事件。
為了進(jìn)一步驗(yàn)證雙曲空間在異常檢測(cè)中的有效性,本文在ShanghaiTech和UCF-Crime數(shù)據(jù)集上分別使用歐氏空間、龐加萊球雙曲空間、洛倫茲雙曲空間及兩者組合訓(xùn)練網(wǎng)絡(luò)模型。結(jié)果如表4所示,采用雙曲空間組合的模型在ShanghaiTech數(shù)據(jù)集上的性能提升了 10.79% ,在UCF-Crime數(shù)據(jù)集上的性能提升了 16.57% 。此外,圖4展示了在UCF-Crime數(shù)據(jù)集上這四種組合方式的ROC曲線對(duì)比。從圖中可以明顯看出,采用雙曲空間組合模型的ROC曲線幾乎完全覆蓋了使用歐氏空間模型的曲線,這進(jìn)一步證實(shí)了雙曲空間在視頻表示學(xué)習(xí)中的優(yōu)勢(shì)。將視頻特征嵌人到龐加萊球雙曲空間和洛倫茲雙曲空間中,能夠利用這兩種空間的幾何差異,類(lèi)似于從不同的視角分析異常事件。龐加萊球和洛倫茲雙曲空間的組合方式,相當(dāng)于從更多角度全面分析正常與異常特征,因此有效減少了異常檢測(cè)中的盲區(qū),顯著提高了對(duì)異常行為的識(shí)別效果。
偽標(biāo)簽的生成與均值和方差的閾值密切相關(guān)。為了研究閾值組合對(duì)模型性能的影響,實(shí)驗(yàn)針對(duì)生成器和鑒別器設(shè)置了不同的閾值組合,并將結(jié)果匯總于表5中,其中縱軸為生成器的閾值 β 設(shè)定,橫軸為鑒別器的閾值 α 設(shè)定。從表5可以看出,鑒別器的閾值 α 對(duì)模型性能的影響相對(duì)較小,而生成器的閾值 β 對(duì)性能有較大影響。具體來(lái)說(shuō),在ShanghaiTech數(shù)據(jù)集上,隨著 β 從0.1逐步增加至2.0,AUC值實(shí)現(xiàn)了顯著的15. 77% 增長(zhǎng);在UCF-Crime數(shù)據(jù)集上,AUC值也提升了19. 43% 。然而,當(dāng) β 進(jìn)一步增大時(shí),兩個(gè)數(shù)據(jù)集的AUC值均開(kāi)始下降。因此,本文將鑒別器的閾值 β 設(shè)為2.0,鑒別器的閾值 α 設(shè)置為1.5。
圖5展示了在不同閾值下,生成器和鑒別器的可視化結(jié)果(見(jiàn)電子版)。其中,真實(shí)異常區(qū)域以粉紅色標(biāo)示,藍(lán)色曲線表示生成器生成的偽標(biāo)簽:偽標(biāo)簽值為1時(shí),該片段被判定為異常;值為0時(shí),該片段被視為正常。隨著閾值 β 的增大,生成的異常標(biāo)簽數(shù)量逐漸減少,并且準(zhǔn)確性有所提升。適當(dāng)增加閾值β 有助于模型更準(zhǔn)確地識(shí)別異常區(qū)域,并減少假陽(yáng)性(即將正常區(qū)域誤判為異常)。然而,當(dāng)閾值設(shè)置過(guò)高時(shí)(圖5(f)),雖然能夠減少異常誤判區(qū)域,但也會(huì)導(dǎo)致部分真實(shí)的異常區(qū)域未被標(biāo)記為異常,造成異常標(biāo)簽的數(shù)量不足。但是,在異常標(biāo)簽不足的情況下,鑒別器依然能夠保持較好的性能穩(wěn)定性,準(zhǔn)確識(shí)別出大致的異常區(qū)域,表明鑒別器具有良好的魯棒性和穩(wěn)定性。
2.6 可視化分析
為了更全面地評(píng)估Hyper-UVAD模型的性能,圖6展示了在ShanghaiTech和UCF-Crime兩個(gè)數(shù)據(jù)集上的可視化檢測(cè)結(jié)果。粉色區(qū)域標(biāo)記了視頻中的真實(shí)異常事件,而藍(lán)色曲線則表示模型對(duì)測(cè)試視頻每一幀的異常分?jǐn)?shù)預(yù)測(cè)(見(jiàn)電子版)。為了更直觀地對(duì)比異常與正常行為,分別使用紅色和綠色矩形框標(biāo)注了視頻中的異常幀和正常幀。圖6中的(a)(b)子圖源自ShanghaiTech數(shù)據(jù)集,而(c)\~(f)則取自UCF-Crime數(shù)據(jù)集。在圖6(a)中,異常事件為行人在馬路上打鬧,視頻中共包含三段異常情況;圖6(b)展示的是騎自行車(chē)者穿過(guò)人行道的異常現(xiàn)象;圖6(c)(d)分別是盜竊和破壞兩個(gè)異常行為。從可視化結(jié)果來(lái)看,模型的預(yù)測(cè)分?jǐn)?shù)與實(shí)際標(biāo)簽高度吻合:模型對(duì)異常片段預(yù)測(cè)了較高的異常分?jǐn)?shù),而對(duì)正常片段預(yù)測(cè)了較低的分?jǐn)?shù)。
進(jìn)入和離開(kāi)房間時(shí)的動(dòng)作十分相似,模型將嫌疑人離開(kāi)房間也誤判為異常。在圖6(f)中,雖然模型成功檢測(cè)到了爆炸,但未能將爆炸前的煙霧識(shí)別為異常,這可能是由于訓(xùn)練集中缺乏煙霧場(chǎng)景,導(dǎo)致網(wǎng)絡(luò)的泛化能力受限。盡管在某些特定場(chǎng)景下,模型的檢測(cè)性能仍有提升空間,但總體而言,本文方法在異常檢測(cè)方面展現(xiàn)出了良好的性能,能準(zhǔn)確識(shí)別出視頻中的異常區(qū)域,為無(wú)監(jiān)督視頻異常檢測(cè)提供了一種新的解決方案。
3結(jié)束語(yǔ)
本文提出了一種基于雙曲空間的無(wú)監(jiān)督異常檢測(cè)方法,在ShanghaiTech和UCF-Crime數(shù)據(jù)集上分別取得了 93.26% 、77.55% 的AUC值,取得了現(xiàn)有無(wú)監(jiān)督方法的最佳結(jié)果,證明了在雙曲空間中學(xué)習(xí)視頻表示相較于歐氏空間更具有優(yōu)勢(shì),這是首次使用雙曲空間在無(wú)監(jiān)督視頻異常檢測(cè)領(lǐng)域的探索。本文方法通過(guò)固定閾值來(lái)生成偽標(biāo)簽,但這種方法不可避免地在訓(xùn)練過(guò)程中引入了一定誤差。未來(lái)的研究將聚焦于自適應(yīng)閾值的設(shè)計(jì)和基于雙曲空間的自注意力機(jī)制,進(jìn)一步探索雙曲空間在異常檢測(cè)領(lǐng)域的應(yīng)用,以期提高無(wú)監(jiān)督模型的泛化能力與整體性能,這將有助于在更多實(shí)際場(chǎng)景中實(shí)現(xiàn)更加準(zhǔn)確和穩(wěn)定的異常檢測(cè)。
參考文獻(xiàn):
[1]Liu Wen,Luo Weixin,Lian Dongze,et al.Future frame prediction for anomalydetection—anewbaseline[C]//Procof IEEE/CVFConferenceon ComputerVision and Pattern Recognition.Piscataway,NJ: IEEEPress,2018:6536-6545.
[2]Gong Dong,Liu Lingqiao,LeV,et al.Memorizing normality to detect anomaly:memory-augmenteddeepautoencoderforunsupervisedanomalydetection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:1705-1714.
[3]陳澄,胡燕.融合記憶增強(qiáng)的視頻異常檢測(cè)[J].計(jì)算機(jī)工程與應(yīng) 用,2022,58(15):253-259.(Chen Cheng,Hu Yan.Video anomaly detection combining memory-augmented[J].Computer Engineering and Applications,2022,58(15):253-259.)
[4]Hirschorn O,Avidan S.Normalizing flows for human pose anomaly detection[C]//Proc of IEEE/CVF International Conference on ComputerVision.Piscataway,NJ:IEEE Press,2023:13499-13508.
[5]Zaheer M Z,Mahmood A,Khan MH,etal.Generative cooperative learning forunsupervised video anomaly detection[C]//Procof IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2022:14724-14734.
[6]TurA O,Dal'Asen N,Beyan C,et al.Exploring diffusion models for unsupervised video anomaly detection[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ: IEEE Press, 2023:2540-2544.
[7]潘振鵬,李志軍,薛超然,等.一種時(shí)間-外觀能量擴(kuò)散Transformer 的無(wú)監(jiān)督視頻異常檢測(cè)[J].微電子學(xué)與計(jì)算機(jī),2025,42(2):68- 76.(Pan Zhenpeng,Li Zhijun,Xue Chaoran,et al.A time-appearance diffusion Transformer for unsupervised video anomaly detection[J]. Microelectronicsamp;Computer,2025,42(2):68-76.)
[8]Al-Lahham A,Tastan N,Zaheer M Z,et al. A coarse-to-fine pseudolabeling(C2FPL) framework for unsupervisedvideo anomalydetection [C]//Proc of IEEE/CVF Winter Conference on Applications of ComputerVision.Piscataway,NJ:IEEEPress,2024:6779-6788.
[9]Tifrea A,Becigneul G,Ganea O E. Poincare glove:hyperbolic word embeddings[C]//Proc of International Conference on Learning Representations.2018.
[10]CorsoG,YingZhitao,PandyM,etal.Neural distanceembeddingsfor biological sequences[C]//Advances in Neural Information Processing Systems.2021:18539-18551.
[11]Gerald T,Zatiti H,Hajri H,et al.A hyperbolic approach for learning communities on graphs[J]. Data Mining and Knowledge Discovery,2023,37(3):1090-1124.
[12]Wang Liping,Hu Fenyu,Wu Shu,et al.Fully hyperbolic graph convolution network for recommendation[C]//Proc of the 30th ACM International Conference on Information amp; Knowledge Management. New York : ACM Press,2021 :3483-3487.
[13]Sultani W,Chen Chen,Shah M. Real-world anomaly detection in surveillance videos[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2018 : 6479-6488.
[14]Wan Boyang,F(xiàn)ang Yuming,Xia Xue,et al. Weakly supervised video anomaly detection via center-guided discriminative learning[C]// Proc of IEEE International Conference on Multimediaand Expo.Piscataway,NJ:IEEE Press,2020:1-6.
[15]Tian Yu,Pang Guansong,Chen Yuanhong,et al.Weakly-supervised video anomaly detection with robust temporal feature magnitude learning[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,N:IEEPress,21:4954966
[16]Zhou Hang,Yu Junqing,Yang Wei.Dual memory units with uncertainty regulation for weakly supervised video anomaly detection[C]// Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA: AAAI Press,2023:3769-3777.
[17]Chen Yingxian,Liu Zhengzhe,Zhang Baoheng,etal. MGFN: magnitude-contrastive glance-and-focus network for weakly-supervised video anomaly detection[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2023:387-395.
[18]Li Nannan,Zhong Jiaxing,Shu Xiujun,et al. Weakly-supervised anomaly detection in video surveillance via graph convolutional label noisecleaning[J].Neurocomputing,2022,481:154-167.
[19]李文中,吳克偉,孫永宣,等.基于對(duì)比記憶網(wǎng)絡(luò)的弱監(jiān)督視頻異 常檢測(cè)[J].計(jì)算機(jī)應(yīng)用研究,2023,40(10):3162-3167,3172.(Li Wenzhong,Wu Kewei,Sun Yongxuan,et al. Video anomaly detection combining with contrastive memory network[J].Application Research of Computers,2023,40(10) :3162-3167,3172.)
[20] Carreira J,Zisserman A. Quo vadis,action recognition? A new model and the kinetics dataset[C]//Proc of IEEE Conference on Computer Visionand Pattern Recognition.Piscataway,NJ: IEEE Press,2017: 4724-4733.
[21]Chami I, Ying R,Ré C,et al. Hyperbolic graph convolutional neural networks[C]//Advances in Neural Information Processing Systems. 2019:4869-4880.
[22]Chen Weize,Han Xu,Lin Yankai,et al.Fully hyperbolic neural networks[C]//Proc of the 6Oth Annual Meeting of the Association for Computational Linguistics.2022;5672-5686.
[23]Liu Zhian,Nie Yongwei,Long Chengjiang,et al.A hybrid video anomalydetection framework via memory-augmented flow reconstruction and flow-guided frame prediction[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2021:13568-13577.
[24] Georgescu MI,Ionescu R T,Khan F S,et al. A background-agnostic framework withadversarial training for abnormal event detection in video[J]. IEEE Trans on Pattern Analysisand Machine Intelligence,2022,44(9):4505-4523.
[25]Nie Yongwei,Huang Hao,Long Chengjiang,et al.Interleaving oneclassand weakly-supervised models with adaptive thresholding for unsupervised video anomaly detection[EB/OL].(2024-01-24)[2024- 08-26]. https://arxiv.org/abs/2401.13551.
[26]Wang Jue, Cherian A.GODS:generalized one-class discriminative subspaces for anomaly detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEEPress, 2019;8200-8210.
[27] Sun Che,Jia Yunde,Hu Yao,et al.Scene-aware context reasoning for unsupervised abnormal event detection invideos[C]//Proc of the 28th ACM International Conference on Multimedia.New York: ACM Press,2020:184-192.
[28]Al-lahham A,Zaheer M Z,Tastan N,et al. Collaborative learning of anomalies with privacy(CLAP) for unsupervised video anomaly detection:a new baseline[C]//Proc of IEEE/CVF Conference on Computer Vision andPattem Recognition.Piscataway,NJ:IEEE Press,2024: 12416-12425.