摘 要:運動人群在交叉路口或通道形成獨特的運動行為模式——人群匯流,易引發(fā)諸如擁擠推攘、跌倒踩踏等潛在公共安全風(fēng)險,然而目前尚未有針對該人群匯流檢測的計算模型研究工作報道。針對該問題,提出了一種生物啟發(fā)的人群匯流行為檢測神經(jīng)網(wǎng)絡(luò)(CCBDNN)?;诨认x視覺神經(jīng)結(jié)構(gòu)特性,該神經(jīng)網(wǎng)絡(luò)感知視野域中人群活動引發(fā)的視覺運動線索;借助哺乳動物視網(wǎng)膜方向感知機制提取人群局部運動方向線索;通過蝗蟲小葉巨型運動檢測器(LGMD)危險感知機理,構(gòu)建尖峰調(diào)諧機制并輸出表征人群匯流行為感知的神經(jīng)尖峰響應(yīng)。系統(tǒng)性實驗研究表明,CCBDNN能有效檢測視覺場景中的人群匯流行為,并產(chǎn)生具有獨特偏好特性的輸出響應(yīng)。該工作涉及生物視感神經(jīng)機制啟發(fā)的動態(tài)視覺信息加工處理,可為人工智能中的人群活動檢測與行為識別研究提供新方法、新思想。
關(guān)鍵詞:人群匯流檢測;神經(jīng)尖峰響應(yīng);LGMD;方向感知;蝗蟲視覺神經(jīng);人工智能
中圖分類號:TP391"" 文獻標志碼:A"" 文章編號:1001-3695(2025)03-035-0911-09
doi:10.19734/j.issn.1001-3695.2024.05.0224
Neural network for detecting crowd convergence behavior based on locust visual nerve
Yang Xutaoa,b,Qin Jina,b,Hu Bina,b,c
(a.State Key Laboratory of Public Big Data,b.College of Computer Science amp; Technology,c.Artificial Intelligence Research Institute,Guizhou University,Guiyang 550025,China)
Abstract:
Moving crowd in public place can generate a unique movement pattern known as crowd convergence behavior at intersections or passageways,which can lead to potential public risks,such as crowding,pushing,and trampling.However,no computational models have been reported against to detecting crowd convergence.To fill this gap,this paper investigated a bio-inspired artificial visual neural network which named crowd convergence behavior detection neural network(CCBDNN).Based on the visual neural structure characteristics of locusts,CCBDNN perceives visual motion cues produced by crowd activities within the field of view and extracted local motion direction cues of crowd using the direction perception mechanism of mammalian retinas,and then constructed a spike mechanism and output neural spiking responding to represent the perception of crowd convergence behavior by the danger perception mechanism of LGMD neurons in locusts’ vision systems.Systematic experiments show that CCBDNN can effectively detect crowd convergence behavior in visual scenes and produce output tuning with unique preference characteristics.This paper is involved the dynamic visual information processing inspired by biological neural me-chanisms,which can provide new methods and ideas for crowd activity detection and behavior recognition in artificial intelligence.
Key words:crowd convergence detection;neural spike responses;LGMD;direction perception;locust vision nerves;artificial intelligence
0 引言
人群匯流行為是指在交叉路口,諸如十字路口或多個通道合并的區(qū)域位置,形成的一種獨特人流匯合運動行為。已有的一些踩踏事故表明,人群匯流行為是發(fā)生人群擁堵,甚至災(zāi)難事件的先兆[1]。例如,2001年日本明石市踩踏事件造成39人死亡,其原因是天橋附近出現(xiàn)了人群匯流;曾經(jīng)在沙特阿拉伯麥加米娜地區(qū)發(fā)生的踩踏事故,就是由于朝圣過程中兩股高密度人群在T型路口匯流造成的。如果能在災(zāi)難事故發(fā)生前檢測與預(yù)警公共場所中出現(xiàn)的人群匯流行為,可以有效預(yù)防潛在的踩踏事故發(fā)生。然而,由于公共場所中匯流人群的運動隨機性強、目標遮擋嚴重,現(xiàn)有傳統(tǒng)計算機視覺技術(shù)較難檢測運動人群的匯流行為,亟需借助新方法尋求突破。
在自然界中,動物的大腦經(jīng)歷漫長的進化,產(chǎn)生了高度成熟可靠的視覺系統(tǒng)以應(yīng)對各種視覺挑戰(zhàn)。其中,蝗蟲的視覺系統(tǒng)特別引人注目?;认x視覺神經(jīng)系統(tǒng)結(jié)構(gòu)簡單,卻能夠高效地感知運動目標,因此受到了學(xué)者們的廣泛關(guān)注。例如,Hu等人[2~5]基于蝗蟲神經(jīng)系統(tǒng)的生物啟發(fā)構(gòu)建人工視覺神經(jīng)網(wǎng)絡(luò)模型,用于感知與識別視野域中目標對象的運動模式,模型具有對其產(chǎn)生偏好響應(yīng)的特定視覺特性;劉倡等人[6]基于哺乳動物視網(wǎng)膜視覺信號處理神經(jīng)結(jié)構(gòu),提出了一種用于感知人群局部聚集行為的神經(jīng)網(wǎng)絡(luò)(crowd gathering behavior perception neural network,CGBPNN),該網(wǎng)絡(luò)感知時空能量收斂變化以檢測人群的局部聚集;張本康等人[7]提出了一種基于蝗蟲復(fù)眼中ON/OFF通路的運動小目標行人檢測神經(jīng)網(wǎng)絡(luò),所提出的網(wǎng)絡(luò)借助人類大腦情景記憶認知機制以實現(xiàn)對運動小目標行人的偏好性響應(yīng)。上述文獻中提出的仿生視覺模型為解決當(dāng)前面臨的問題提供了寶貴的啟示。
本文基于蝗蟲視覺系統(tǒng)逐層視覺信息處理的結(jié)構(gòu)特性,借助蝗蟲視葉中的小葉巨型運動檢測(lobula giant movement detector,LGMD)神經(jīng)元視覺響應(yīng)特性和哺乳動物視網(wǎng)膜的方向感知機制,構(gòu)建了一種人群匯流行為檢測神經(jīng)網(wǎng)絡(luò)(crowd convergence behavior detection neural network,CCBDNN)模型與算法。其主要貢獻如下:
a)首次從生物視覺感知機制建模的角度研究了人群匯流行為檢測問題,并構(gòu)建了一種人群匯流行為檢測神經(jīng)網(wǎng)絡(luò)(CCBDNN)模型與算法。與傳統(tǒng)的計算機視覺模型相比,CCBDNN無須進行模型訓(xùn)練與光流計算。
b)不同于已有的生物啟發(fā)式方向感知模型僅能計算全局視野域的平移運動方向,本文將方向感知機制用于計算局部感受野內(nèi)的對象平移運動方向。
c)對CCBDNN展開了系統(tǒng)性的實驗測試,證明了模型在人群匯流行為檢測的有效性。
需要指出的是,CCBDNN不同于上文提到的CGBPNN模型[6]。兩者的主要區(qū)別如下:a)人群的運動行為模式存在不同,人群的聚集行為往往是指人群向一特定地點運動后密集停留,而人群匯流是指不同運動方向的人流朝著特定方向集中移動的動態(tài)行為;b)CGBPNN模型借助LGMD神經(jīng)元提取局部聚集人群的時空能量收斂特征,難以適用于持續(xù)運動的人群匯流行為檢測;c)CCBDNN模型主要提取局部運動方向線索和匯流區(qū)域運動量特征,不對視覺場景中的時空能量收斂產(chǎn)生響應(yīng)。
1 相關(guān)工作
1.1 傳統(tǒng)人群行為研究模型
目前,研究人員從傳統(tǒng)的計算機視覺角度構(gòu)建了人群運動行為的檢測模型,同時也從行人動力學(xué)的角度對人群匯流行為進行了物理特征與行為分析,下面分別對其展開介紹。
基于計算機視覺技術(shù)的方法主要基于圖像處理技術(shù)提取人群的運動光流特征,或借助深度學(xué)習(xí)等方法開展模型訓(xùn)練,以實現(xiàn)人群的運動行為檢測。例如:針對人群異常行為檢測,胡學(xué)敏等人[8]提出了一種基于深度時空卷積神經(jīng)網(wǎng)絡(luò)的方法,該模型將視頻幀分為若干子區(qū)域以獲取靜態(tài)圖像的空間特征,再借助遷移學(xué)習(xí)的方法構(gòu)建樣本較多的數(shù)據(jù)集預(yù)訓(xùn)練模型以微調(diào)與優(yōu)化網(wǎng)絡(luò)模型,實現(xiàn)了人群的異常行為檢測;高新聞等人[9]將YOLOv3目標檢測模型與基于SORT的多目標跟蹤算法相結(jié)合,融合了目標的運動特征與外觀特征,該模型能夠自動識別視頻監(jiān)控場景中的行人、停車和車輛變道的行為異常情況;Pathade等人[10]提出了一種基于手工與深度特征融合的模型,該模型將光流與密度特征與深度學(xué)習(xí)網(wǎng)絡(luò)提取的特征進行融合,實現(xiàn)了公共場所中的人群聚集與分散行為檢測;Ghorbanpour等人[11]提出了一種基于運動特征點跟蹤的方法,該模型在跟蹤特征點的基礎(chǔ)上自動識別特征點鄰域間的相似性,并對相鄰的特征點進行聚類,最后通過動態(tài)閾值檢測運動人群的行為屬性。
行人動力學(xué)的人群匯流研究工作主要是基于仿真模型和基于物理模型的兩種研究方法?;诜抡婺P偷姆椒ㄐ枰獦?gòu)建數(shù)學(xué)模型對行人的運動規(guī)則、行為偏好和交互作用等進行描述,然后利用計算機程序?qū)⑦@些數(shù)學(xué)模型轉(zhuǎn)換為可執(zhí)行的仿真模擬環(huán)境。例如:Lian等人[1]在不同的道路寬度下研究了行人流的匯流特性,并借助時空圖探討了人群匯流的擁堵傳播速度以及行人速度與位置的關(guān)系;Jiang等人[12]探究了特殊角度條件下人群匯流的宏觀和微觀特征,并分析了匯流行為中的主流和支流的行人行為特征。而基于物理模型的方法通常依賴于能夠?qū)崟r捕捉行人位置坐標和運動軌跡的技術(shù)設(shè)備,通過這些設(shè)備采集的數(shù)據(jù)可以觀察和分析人群流量變化和匯流區(qū)域的擁擠程度等物理特征。例如,Shi等人[13]借助社會力模型模擬了地鐵車站匯流通道中的人群自組織現(xiàn)象,并基于行人的加速超越行為構(gòu)建了匯流區(qū)域的行人運動模型;Jin等人[14]提出了一種新的改進型社會力模型,并引入了偏轉(zhuǎn)距離作為社會力模型新參數(shù),實現(xiàn)了模擬人群高密度的雙向匯流。
傳統(tǒng)的計算機視覺技術(shù)需要計算光流矢量或開展模型訓(xùn)練,存在著計算資源消耗大、光線敏感、魯棒性低與訓(xùn)練成本高等問題?;趧恿W(xué)的研究方法需要離線數(shù)據(jù)收集和大量的數(shù)據(jù)資源,難以適用于公共場所中人群匯流行為的檢測和預(yù)警。盡管如此,匯流人群的行人動力學(xué)研究工作為理解和解決人群匯流檢測問題提供了重要的啟示:在公共場所中,人群匯流行為往往呈現(xiàn)出運動人群多方向匯聚的特征,并且匯流區(qū)域存在人群運動的視覺信息量。因此,人群匯流行為檢測問題可轉(zhuǎn)換為視覺運動線索在運動方向匯聚區(qū)域的時空能量感知問題。
1.2 蝗蟲LGMD視覺響應(yīng)特性
在運動和捕食的過程中,避免碰撞對于蝗蟲的生存來說至關(guān)重要[15,16]。研究發(fā)現(xiàn),在蝗蟲的視覺神經(jīng)系統(tǒng)中,位于視葉第三神經(jīng)層的高階視覺神經(jīng)元LGMD神經(jīng)元,在感知中發(fā)揮著重要作用[17]。在危險感知過程中,LGMD神經(jīng)元會對感受野內(nèi)逐漸靠近的運動目標展現(xiàn)出強烈的神經(jīng)響應(yīng),這展現(xiàn)了LGMD神經(jīng)元感知視野域內(nèi)潛在危險的偏好性響應(yīng)特性。
在LGMD神經(jīng)元中,存在著一條負責(zé)獲取運動線索的視覺運動感知通路,分別為感光細胞層(retina,R)、神經(jīng)節(jié)細胞層(lamina,L)、外髓細胞層(medulla,M)、小葉細胞層(lobula,Lo)和小葉板細胞層(lobula plate,LP)。在這條通路中,視覺信號在神經(jīng)通路中逐層處理和傳遞,從而產(chǎn)生特定的視覺線索,以幫助蝗蟲感知危險行為并產(chǎn)生神經(jīng)尖峰響應(yīng)。LGMD神經(jīng)元在蝗蟲大腦中的視覺信號處理主要分為四個步驟,即:a)蝗蟲的復(fù)眼負責(zé)感知外界環(huán)境中的光線變化;b)感知視覺運動量和抑制量;c)整合視覺興奮量和視覺抑制量;d)感知危險行為并產(chǎn)生神經(jīng)尖峰響應(yīng)。蝗蟲的視覺神經(jīng)系統(tǒng)借助視覺信號逐層處理的神經(jīng)結(jié)構(gòu),賦予了LGMD神經(jīng)元感知危險行為的能力。因此,基于上述的視感機制啟發(fā),由于人群匯流區(qū)域存在運動量變化,可將人群匯流行為檢測問題表征為匯流區(qū)域的運動時空能量神經(jīng)尖峰響應(yīng)。
1.3 哺乳動物方向感知機制
在生物視覺系統(tǒng)中,檢測視覺運動方向的神經(jīng)元無處不在,并且長期以來一直是神經(jīng)科學(xué)領(lǐng)域的研究焦點,這類神經(jīng)細胞能夠從視網(wǎng)膜上接收到的視覺場景中提取有關(guān)物體運動和方向的信息。例如:Tang等人[18]研究發(fā)現(xiàn),在哺乳動物的視網(wǎng)膜中,方向選擇性神經(jīng)細胞能夠?qū)μ囟ǚ较虻倪\動產(chǎn)生強烈的反應(yīng),而對相反方向的運動則幾乎不產(chǎn)生反應(yīng)。這種選擇性反應(yīng)的背后機制主要涉及星突細胞的功能。星突細胞在視網(wǎng)膜中通過橫向抑制作用減少相反方向運動的神經(jīng)興奮,同時增強對首選方向運動的興奮響應(yīng)。
基于上述的機制,Yue等人[19]提出了一種方向選擇神經(jīng)網(wǎng)絡(luò)(direction selection neural network,DSNN),DSNN模型內(nèi)部由四個子神經(jīng)網(wǎng)絡(luò)組成,四個方向選擇子神經(jīng)網(wǎng)絡(luò)能夠?qū)σ曇坝蛑心繕瞬煌钠揭七\動方向產(chǎn)生偏好性響應(yīng)。然而,DSNN模型僅適用于感知全局視場中的目標的四個平移運動方向。本研究借助哺乳動物的方向感知機制,在DSNN模型基礎(chǔ)上改進為感知八個平移運動方向,并用于獲取局部感受野內(nèi)的行人平移運動方向線索,以此感知運動人群的匯流區(qū)域。
2 人工視覺神經(jīng)網(wǎng)絡(luò)設(shè)計
本文基于蝗蟲視覺系統(tǒng)的結(jié)構(gòu)特性,借助哺乳動物的運動方向感知機制和蝗蟲視葉中LGMD神經(jīng)元的危險感知機理,設(shè)計與實現(xiàn)了一種生物啟發(fā)式的行人匯流行為感知神經(jīng)網(wǎng)絡(luò)模型CCBDNN。CCBDNN模型視覺信息加工數(shù)據(jù)流如圖1所示。視覺信息加工流程包括視頻信號、人流分割、方向提取、匯流感知和尖峰調(diào)諧五個模塊。
其中:視頻信號模塊輸入視頻圖像序列,并將其傳入人流分割模塊;人流分割模塊加工處理接受的圖像序列,并提取出人群前景目標,隨后將存在人群的區(qū)域進行網(wǎng)格劃分;方向提取模塊借助哺乳動物的方向感知機制提取局部網(wǎng)格內(nèi)的運動方向線索;匯流感知模塊匯聚各網(wǎng)格的運動方向,以感知運動人群的匯流區(qū)域;尖峰調(diào)諧模塊借助LGMD神經(jīng)元的尖峰閾值機制[20]整合調(diào)諧人群匯流區(qū)域的時空能量信息,向外輸出脈沖信號以表征檢測到的人群匯流行為。
基于上述的信息處理流程,CCBDNN的結(jié)構(gòu)如圖2所示。CCBDNN內(nèi)部包含五個神經(jīng)層和九個功能神經(jīng)元,分別是感光細胞層R、神經(jīng)節(jié)細胞層L、外髓細胞層M、小葉細胞層Lo、小葉板細胞層LP、八個方向選擇神經(jīng)元(L、LD、D、RD、R、RU、U、LU)和人群匯流行為檢測(crowd convergence behavior detection,CCBD)神經(jīng)元。CCBDNN模型的R神經(jīng)層對應(yīng)于圖1中的視頻信號模塊、L神經(jīng)層與M神經(jīng)層對應(yīng)人流分割模塊、Lo神經(jīng)層和八個方向選擇神經(jīng)元對應(yīng)方向提取模塊、LP神經(jīng)層對應(yīng)匯流感知模塊、CCBD神經(jīng)元對應(yīng)尖峰調(diào)諧模塊。
2.1 R層
R層是由感光細胞構(gòu)成,其功能在于獲取視野域范圍內(nèi)的運動人群前景視覺信號。R層每個感光細胞接收視頻圖像對應(yīng)像素點的亮度值I(x,y,t),然后,這些感光細胞的放電激勵被視為該層的輸出,具體公式如下:
3 實驗與分析
3.1 實驗設(shè)置
3.1.1 參數(shù)設(shè)置
實驗在臺式計算機Windows 11的64位操作系統(tǒng)、2.90 GHz的CPU頻率和RAM/16 GB內(nèi)存環(huán)境下運行,CCBDNN輸入視頻序列幀調(diào)整為分辨率640×360像素的8位灰度圖。根據(jù)當(dāng)前實驗經(jīng)驗和已有的研究[3,5,25],CCBDNN參數(shù)設(shè)置如表1所示。
3.1.2 數(shù)據(jù)集
為測試CCBDNN的性能特性,實驗選用PDDA數(shù)據(jù)集[26]和PETS2009數(shù)據(jù)集[27]中的人群匯流場景視頻序列進行實驗有效性驗證。此外,為驗證模型對人群匯流行為模型的偏好響應(yīng)特性,選用PETS2009、UMN[28]、UCSD Pedestrian[29]和Crowd Violence[30]數(shù)據(jù)集中非人群匯流行為,即人群活動中的隨機運動、同向運動、聚集行為、逃逸行為、徘徊行為、逆行行為、暴力行為和晃動行為視頻序列進一步挑戰(zhàn)CCBDNN。所使用的視頻數(shù)據(jù)中,PDDA是由高級模擬研究所建立的一個用于收集、存儲和共享行人行為數(shù)據(jù)的平臺,其中包含T型路口行人流和十字路口行人流等多個行人流視頻測試數(shù)據(jù);PETS2009是在英國雷丁大學(xué)拍攝的多視角戶外監(jiān)控視頻,其中包含了三段人群匯流行為的實驗視頻數(shù)據(jù);UMN是用于人體行為識別的公開數(shù)據(jù)集,包含了多段人群異常行為的測試視頻樣本;UCSD Pedestrian是一個用于評估行人檢測算法性能的標準數(shù)據(jù)集,其包含來自不同場景和角度的攝像頭拍攝的500個視頻序列,被廣泛應(yīng)用于計算機視覺領(lǐng)域的研究中;Crowd Violence是從YouTube網(wǎng)站中收集,包含了多段在不受控制的野外條件下制作的人群暴力行為和非暴力行為視頻。這些視頻序列記錄了視覺場景下的諸多不同人群行為活動模式,可用于開展實驗研究工作。
3.1.3 評價指標
為了評估性能,本文采用人群檢測中廣泛使用的評估指標:精確率(precision)、誤檢率(FAR)和查全率(recall)對模型的性能進行定量分析。
其中:TP是正確檢測發(fā)生匯流的幀數(shù);FP是檢測錯誤的幀數(shù);FN是漏檢的幀數(shù);TN是正確檢測沒有發(fā)生匯流的幀數(shù)。精確率和查全率的值越高,誤檢率越低,表示模型的檢測性能越好。
3.2 神經(jīng)層增益測試
CCBDNN對視覺信號逐層加工處理,以感知視野域中發(fā)生的人群匯流運動行為。為驗證模型各神經(jīng)層的響應(yīng)輸出,本節(jié)對CCBDNN開展神經(jīng)層增益測試,選用了來自PDDA數(shù)據(jù)集[26]中的室內(nèi)T型匯流場景作為測試視頻,如圖3所示。
圖4主要展示了L層、M層、Lo層、方向選擇神經(jīng)元和LP神經(jīng)層的膜電位輸出結(jié)果。圖4(a)~(d)膜電位結(jié)果分別對應(yīng)于輸入測試視頻的第400幀、800幀、1 000幀和1 400幀。圖4(a)和(b)實驗結(jié)果顯示,L層負責(zé)提取運動人群的前景目標,而M層則主要接收L層的視覺信號,用于感知存在運動的局部感受野,這兩層共同作用于提取人群運動引發(fā)的低階視覺線索。在圖4(c)和(d)輸出結(jié)果中,展示了模型提取運動人群高階運動信息的能力。圖4(c)中展示了Lo層和方向神經(jīng)元負責(zé)感知局部感受野內(nèi)人群目標的平移運動方向,其輸出結(jié)果用箭頭展示,箭頭方向表示局部感受野感知的運動方向線索;由圖4(d)的實驗結(jié)果可知,LP層主要用于感知運動人群的匯聚區(qū)域。
3.3 有效性測試
為驗證CCBDNN檢測視覺場景中人群匯流行為的有效性,本節(jié)使用PDDA數(shù)據(jù)集[26]和PETS2009數(shù)據(jù)集[27]中的六種不同行人匯流場景的視頻序列進行測試,如圖5所示。該測試視頻序列記錄了運動人群的匯流行為活動在圖5(a)展示的視頻序列中,行人在T型交匯區(qū)域從左右兩側(cè)向中間運動,匯流后共同向下運動,視頻的第390~1 520幀,人群出現(xiàn)匯流行為;在圖5(b)的視頻序列中,行人在Y型交匯區(qū)域從左上方、右上方和下方共同向中間運動,人群的匯流行為出現(xiàn)在視頻的第128~1 720幀;在圖5(c)的視頻序列中,行人在十字路口型交匯區(qū)域從左側(cè)、右側(cè)和上下兩側(cè)向視野域中間運動,人群的匯流行為出現(xiàn)在視頻的第345~1 420幀;在圖5(d)的視頻序列中,行人在室外的場景從視野域左下側(cè)、右上側(cè)和右下側(cè)向中間運動,匯合后共同向左上方運動,人群的匯流行為出現(xiàn)在視頻的第30~89幀;在圖5(e)的視頻序列中,在視野域的左側(cè)和右側(cè)的行人流與來自左下側(cè)的行人流匯合后向右上側(cè)運動,人群的匯流行為出現(xiàn)在視頻的第33~108幀;在圖5(f)的視頻序列中,左側(cè)和右側(cè)的行人與道路中間的行人流匯合,人群的匯流行為出現(xiàn)在視頻的第38~108幀。
本節(jié)分別展示了CCBDNN的LP層膜電位可視化和CCBD神經(jīng)元尖峰輸出曲線和有效性測試統(tǒng)計結(jié)果,如圖6、7和表2所示。從圖6的膜電位輸出可以看出,CCBDNN能夠定位出人群的匯流區(qū)域。圖7表示CCBD神經(jīng)元的輸出神經(jīng)尖峰曲線,當(dāng)檢測到存在人群匯流時,CCBD神經(jīng)元會產(chǎn)生強烈的神經(jīng)尖峰響應(yīng)信號。表2實驗結(jié)果表明,CCBDNN在六段測試視頻中的檢測精確率和查全率均為84%以上,證明了模型在人群匯流行為上具備良好的檢測效果。
3.4 人群密度測試
為測試不同的運動人群密度對CCBDNN模型檢測人群匯流行為的影響,本節(jié)從PDDA數(shù)據(jù)集[26]中選取在同一T型路口區(qū)域不同人群密度下的行人匯流視頻數(shù)據(jù)測試模型性能,人群密度分為低、中和高三種等級,如圖8所示。
圖9和10分別展示了CCBDNN模型的LP層膜電位輸出可視化和CCBD神經(jīng)元輸出的神經(jīng)尖峰曲線,表3表示CCBDNN模型在人群密度測試實驗中的統(tǒng)計結(jié)果。圖10的神經(jīng)尖峰輸出結(jié)合表3中的統(tǒng)計數(shù)據(jù),可以觀察到CCBDNN模型在測試視頻中表現(xiàn)出了不同的性能。具體來說,在普通人群密度和高人群密度的測試視頻中,模型的性能表現(xiàn)良好。然而,在低密度人群的測試視頻中,模型的性能下降,原因在于測試視頻中從右上區(qū)域往左側(cè)區(qū)域運動的行人數(shù)量非常少,難以構(gòu)成完整的人群流,導(dǎo)致該測試視頻的視覺場景中并不存在連續(xù)的人群匯流運動,如圖8(a)所示。綜上所述,盡管運動人群的匯流密度不同,但CCBDNN仍能對匯流行為產(chǎn)生神經(jīng)尖峰響應(yīng)。
3.5 偏好性測試
為驗證CCBDNN只對人群匯流行為產(chǎn)生偏好響應(yīng),本節(jié)選取了八段不同的非人群匯流運動行為視頻序列對模型偏好性開展測試,八段視頻序列的人群活動行為分別為人群隨機運動、人群同向運動、人群聚集行為、人群逃逸行為、人群徘徊行為、人群逆行行為、人群暴力行為和人群晃動行為,如圖11所示。圖11(a)~(c)的視頻取自數(shù)據(jù)集PETS 2009[27]。圖11(a)包含426幀,描繪了人群流向四周隨機運動;圖11(b)包含90幀,描繪了人群從視野域的左下方向右上方運動,行人的運動方向相同;圖11(c)的視頻序列包含130幀,展現(xiàn)了人群的聚集行為。圖11(d)(e)的視頻取自數(shù)據(jù)集UMN[28],圖10(d)的視頻序列包含40幀,記錄了人群在第1幀開始向四周逃逸,直至視覺場景中沒有運動行人;圖11(e)包含316幀,展現(xiàn)了人群從視頻的第1幀開始在視覺場景中徘徊。圖11(f)的視頻取自UCSD Pedestrian[29],包含60個視頻序列幀,描繪了部分行人的運動方向與主流人群運動方向相反。圖11(g)、(h)的視頻取自數(shù)據(jù)集Crowd Violence[30]。圖11(g)的視頻序列包含129幀,記錄了運動人群中發(fā)生的多人暴力行為;圖11(h)的視頻序列包含77幀,展現(xiàn)了大量人群從第1幀開始在原地站立并左右晃動,直至視頻結(jié)束。
CCBDNN的CCBD神經(jīng)元輸出曲線如圖12所示。在圖12(a)(b)和圖12(d)~(h)的測試視頻中,模型雖能提取出人群的運動量信息,但各人群局部感受野提取的運動方向線索并不存在多個方向的匯聚區(qū)域,導(dǎo)致CCBDNN的LP層不產(chǎn)生興奮響應(yīng)。在圖12(c)的測試視頻中,人群聚集行為的視覺運動量小,無法激活CCBDNN中的L層感知運動人群的興奮響應(yīng),因此人群聚集行為測試視頻在模型中無響應(yīng)輸出。上述測試視頻均未滿足CCBDNN模型的輸出條件,由此可知,CCBDNN對非人群匯流行為不會產(chǎn)生神經(jīng)尖峰響應(yīng)。
3.6 比較實驗分析
目前,并未存在針對人群匯流行為檢測問題的計算模型報道。因此,將CCBDNN模型與基于蝗蟲視覺神經(jīng)結(jié)構(gòu)的同源模型和人群行為檢測模型進行比較實驗分析,對比實驗?zāi)P头謩e為:a)用于碰撞檢測的人工視覺神經(jīng)網(wǎng)絡(luò)CDNN[31];b)用于人群逃逸行為檢測的人工視覺神經(jīng)網(wǎng)絡(luò)CEBDNN[4];c)用于人群聚集行為檢測的人工視覺神經(jīng)網(wǎng)絡(luò)CGBPNN[6];d)Pathade等人[10]提出的基于手工和深度特征的人群聚集與分散行為檢測模型;e)Ghorbanpour等人[11]提出的基于運動特征點跟蹤的人群行為檢測模型。在橫向的實驗對比中,選用了人群在T型區(qū)域匯流的視覺場景,如圖3所示。同時,統(tǒng)計了各對比模型的實驗結(jié)果并對同源模型的輸出曲線進行了展示,如表4和圖13所示。
表4給出了六種對比實驗?zāi)P偷慕Y(jié)果統(tǒng)計數(shù)據(jù),可以看到,CCBDNN模型與其他五種模型相比,在人群匯流行為檢測上具備較好的性能效果。圖13展示了同源模型CDNN、CEBDNN、CGBPNN和所提出的模型神經(jīng)尖峰輸出曲線。圖13的輸出結(jié)果表明,CDNN對人群匯流行為無輸出響應(yīng),因為CDNN只對運動目標逼近時才會產(chǎn)生偏好性響應(yīng)。CEBDNN模型并未對人群匯流運動產(chǎn)生響應(yīng)輸出,這是由于CEBDNN模型需要提取人群中突發(fā)的視覺運動量,而人群在匯流時并無突發(fā)的能量變化。CGBPNN在對人群匯流行為的檢測中存在較多誤檢情況,這是因為CGBPNN模型需要從視野域中提取人群活動引發(fā)的時空能量收斂變化特征,但人群在匯流過程中一直處于運動狀態(tài),并不存在時空能量的收斂;然而,在測試視頻中,由于人群匯流導(dǎo)致了一定程度的人群局部聚集,所以CGBPNN模型也產(chǎn)生了部分響應(yīng)。
4 結(jié)束語
本文受生物視腦系統(tǒng)的神經(jīng)結(jié)構(gòu)與視覺響應(yīng)特性啟發(fā),提出了一種生物啟發(fā)的人群匯流行為檢測神經(jīng)網(wǎng)絡(luò)模型(CCBDNN)。該模型基于蝗蟲神經(jīng)系統(tǒng)的信號逐層處理結(jié)構(gòu)特性,首先提取人群前景目標用于激活局部感受野;在此之后,借助哺乳動物視網(wǎng)膜的方向感知機制計算激活局部感受野的運動方向;隨后,通過局部運動方向線索感知人群匯流區(qū)域;最后,借助LGMD神經(jīng)元尖峰調(diào)諧機制整合人群匯流區(qū)域的視覺運動量,以檢測人群中出現(xiàn)的匯流行為。在不同場景下的人群匯流行為視頻序列實驗證明了CCBDNN模型的有效性,且模型具有良好的性能特性。在未來的工作中,將深入挖掘生物視覺神經(jīng)感知機制,引入最新的生物視感機理以進一步提升模型性能。
參考文獻:
[1]Lian Liping,Mai Xu,Song Weiguo,et al.Characteristics of merging behavior in large crowds[J].Journal of Statistical Mechanics:Theory and Experiment,2022,2022(1):013403.
[2]Hu Bin,Yue Shigang,Zhang Zhuhong.A rotational motion perception neural network based on asymmetric spatiotemporal visual information processing[J].IEEE Trans on Neural Networks and Learning Systems,2017,28(11):2803-2821.
[3]Hu Bin,Zhang Zhuhong.Bio-plausible visual neural network for spatio-temporally spiral motion perception[J].Neurocomputing,2018,310:96-114.
[4]Hu Bin,Zhang Zhuhong,Li Lun.LGMD-based visual neural network for detecting crowd escape behavior[C]//Proc of the 5th IEEE International Conference on Cloud Computing and Intelligence Systems.Piscataway,NJ:IEEE Press,2018:772-778.
[5]Hu Bin,Zhang Zhuhong.Bio-inspired visual neural network on spatio-temporal depth rotation perception[J].Neural Computing and Applications,2021,33(16):10351-10370.
[6]劉倡,胡濱.生物啟發(fā)的人群突發(fā)局部聚集感知神經(jīng)網(wǎng)絡(luò)[J].計算機工程與應(yīng)用,2022,58(16):164-174.(Liu Chang,Hu Bin.Bio-inspired neural network for perceiving suddenly localized crowd gathering[J].Journal of Computer Engineering amp; Applications,2022,58(16):164-174.)
[7]張本康,胡濱.基于情景記憶的運動小目標行人檢測神經(jīng)網(wǎng)絡(luò)[J].計算工程與應(yīng)用,2022,58(15):169-183.(Zhang Benkang,Hu Bin.Neural network for moving small target pedestrian detection based on episodic memory[J].Journal of Computer Engineering amp; Applications,2022,58(15):169-183.)
[8]胡學(xué)敏,陳欽,楊麗,等.基于深度時空卷積神經(jīng)網(wǎng)絡(luò)的人群異常行為檢測和定位[J].計算機應(yīng)用研究,2020,37(3):891-895.(Hu Xuemin,Chen Qin,Yang Li,et al.Abnormal crowd behavior detection and localization based on deep spatial-temporal convolutional neural network[J].Application Research of Computers,2020,37(3):891-895.)
[9]高新聞,沈卓,許國耀,等.基于多目標跟蹤的交通異常事件檢測[J].計算機應(yīng)用研究,2021,38(6):1879-1883.(Gao Xinwen,Shen Zhuo,Xu Guoyao,et al.Traffic anomaly detection based on multi-target tracking[J].Application Research of Computers,2021,38(6):1879-1883.)
[10]Pathade M,Khambete M.Recognition of crowd abnormal activities using fusion of handcrafted and deep features[J].Indonesian Journal of Electrical Engineering and Computer Science,2022,28(2):1076-1087.
[11]Ghorbanpour A,Nahvi M.Unsupervised group-based crowd dynamic behavior detection and tracking in online video sequences[J].Pattern Analysis and Applications,2024,27(2):1-17.
[12]Jiang Jiajia,Jiang Nan,Li Fan,et al.Experimental study on the cha-racteristics of multimerging pedestrians through macroscopic and microscopic analysis[J].International Journal of Modern Physics C,2022,33(11):2250144.
[13]Shi Yihan,Xu Jie,Zhang Hui,et al.Walking model on passenger in merging passage of subway station considering overtaking behavior[J].Physica A:Statistical Mechanics and Its Applications,2022,585:126436.
[14]Jin Chengjie,Shi Keda,Jiang Rui,et al.Simulation of bi-directional pedestrian flow under high densities using a modified social force model[J].Chaos,Solitons amp; Fractals,2023,172:113559.
[15]Rind F C.Recent advances in insect vision in a 3D world:looming stimuli and escape behaviour[J].Current Opinion in Insect Science,2024,63:101180.
[16]Chang Zefang,F(xiàn)u Qinbing,Chen Hao,et al.A look into feedback neural computation upon collision selectivity[J].Neural Networks,2023,166:22-37.
[17]Wernitznig S,Rind F C,Zankel A,et al.The complex synaptic pathways onto a looming-detector neuron revealed using serial block-face scanning electron microscopy[J].Journal of Comparative Neurology,2022,530(2):518-536.
[18]Tang C,Todo Y,Ji Junkai,et al.A novel motion direction detection mechanism based on dendritic computation of direction-selective ganglion cells[J].Knowledge-Based Systems,2022,241:108205.
[19]Yue Shigang,Rind F C.Visual motion pattern extraction and fusion for collision detection in complex dynamic scenes[J].Computer Vision and Image Understanding,2006,104(1):48-60.
[20]Taherkhani A,Belatreche A,Li Y,et al.A review of learning in biologically plausible spiking neural networks[J].Neural Networks,2020,122:253-272.
[21]Serres J R,Viollet S.Insect-inspired vision for autonomous vehicles[J].Current Opinion in Insect Science,2018,30:46-51.
[22]Cheong H S J,Siwanowicz I,Card G M.Multi-regional circuits underlying visually guided decision-making in Drosophila[J].Current Opinion in Neurobiology,2020,65:77-87.
[23]Khani M H,Gollisch T.Linear and nonlinear chromatic integration in the mouse retina[J].Nature Communications,2021,12(1):1-21.
[24]Ezugwu A E,Shukla A K,Agbaje M B,et al.Automatic clustering algorithms:a systematic review and bibliometric analysis of relevant lite-rature[J].Neural Computing and Applications,2021,33(11):6247-6306.
[25]Fu Qinbing,Hu Cheng,Liu Tian,et al.Collision selective LGMDs neuron models research benefits from a vision-based autonomous micro robot[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ:IEEE Press,2017:3996-4002.
[26]Forschungszentrum Jyulich:pedestrian dynamics data archive[EB/OL].(2022)[2024-06-23].http://ped.fz-juelich.de/da/doku.php.
[27]Ferryman J,Shahrokni A.PETS2009:dataset and challenge[C]//Proc of the 12th IEEE International Workshop on Performance Evaluation of Tracking and Surveillance.Piscataway,NJ:IEEE Press,2009:1-6.
[28]Mehran R,Oyama A,Shah M.Abnormal crowd behavior detection using social force model[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:935-942.
[29]Chan A B,Vasconcelos N.Modeling,clustering,and segmenting video with mixtures of dynamic textures[J].IEEE Trans on Pattern Analy-sis and Machine Intelligence,2008,30(5):909-926.
[30]Hassner T,Itcher Y,Kliper-Gross O.Violent flows:real-time detection of violent crowd behavior[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2012:1-6.
[31]Yue Shigang,Rind F C.Collision detection in complex dynamic scenes using an LGMD-based visual neural network with feature enhancement[J].IEEE Trans on Neural Networks,2006,17(3):705-716.