摘 要:
事件相機(jī)具有超高動(dòng)態(tài)范圍和超低延遲等優(yōu)勢(shì),通過事件流分割、過濾與事件表示來(lái)提取事件相機(jī)輸出數(shù)據(jù)的有效時(shí)空特征是發(fā)揮其優(yōu)勢(shì)的關(guān)鍵。現(xiàn)有基于時(shí)間戳采用指數(shù)核函數(shù)計(jì)算時(shí)間面的事件表示方法,可以保留事件中更多的有效信息,但仍然存在事件冗余度高、容易受到噪聲事件的影響等問題。針對(duì)現(xiàn)有的事件流分割與過濾方法存在冗余度高的問題,提出一種新的基于密度排序的事件降尺度算法,通過分析事件流中的時(shí)空鄰域關(guān)系計(jì)算時(shí)空關(guān)聯(lián)密度,并根據(jù)時(shí)空關(guān)聯(lián)密度進(jìn)行密度排序,從而減少冗余事件,降低計(jì)算資源的消耗。針對(duì)現(xiàn)有事件表示易受噪聲事件影響的問題,提出一種基于時(shí)空鄰域關(guān)聯(lián)去噪時(shí)間面的事件數(shù)據(jù)表示,考慮時(shí)空間上的關(guān)聯(lián)性來(lái)形成時(shí)間面上的事件簇,從而篩選出有效事件,在提高時(shí)間面信噪比的同時(shí)降低計(jì)算復(fù)雜度。該方法在三個(gè)主流的神經(jīng)形態(tài)數(shù)據(jù)集上取得了SOTA的分類準(zhǔn)確率。對(duì)事件相機(jī)目標(biāo)分類的事件流數(shù)據(jù)降維和事件表示方向進(jìn)行研究,有效提高了事件相機(jī)目標(biāo)分類的效率和精度。
關(guān)鍵詞:事件相機(jī);目標(biāo)分類;事件表示
中圖分類號(hào):TP391.41"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1001-3695(2024)12-025-3716-06
doi: 10.19734/j.issn.1001-3695.2024.04.0117
Event data representation based on spatiotemporal neighborhood-associated denoising time surfaces
Lin Kaibin, Chen Yunhua, Zhong Jinyu, Wei Pengfei
(School of Computer Science, Guangdong University of Technology, Guangzhou 510006, China)
Abstract:
Event cameras possess advantages such as ultra-high dynamic range and ultra-low latency. Extracting effective spatio-temporal features from the output data of event cameras through event stream segmentation, filtering and event representation is crucial to leverage these advantages. While existing event representation methods based on timestamps and exponential kernel functions for calculating time surfaces can preserve more informative details in events, they still face issues like high event redundancy and vulnerability to noise events. To address the high redundancy in existing event stream segmentation and filtering methods, this paper proposed a novel event downscaling algorithm based on density sorting. This algorithm analyzed the spatio-temporal neighborhood relationships within the event stream to calculate spatio-temporal correlation density and performed density sorting accordingly, thereby reducing redundant events and minimizing the consumption of computational resources. Furthermore, to address the vulnerability of existing event representations to noise events, this paper introduced an event data representation method based on spatio-temporal neighborhood correlation for denoising on the time surface. This method considered spatio-temporal correlations to form event clusters on the time surface, effectively selecting valid events and enhancing the signal-to-noise ratio while reducing computational complexity. The proposed methods had achieved state-of-the-art (SOTA) classification accuracy on three mainstream neuromorphic datasets. In summary, this paper focused on the research of event stream data dimensionality reduction and event representation for event camera object classification, effectively improving the efficiency and accuracy of event camera object classification.
Key words:event camera; target classification; event representation
0 引言
事件相機(jī)[1]是一種生物啟發(fā)式動(dòng)態(tài)視覺傳感器,能夠以像素為單位實(shí)時(shí)捕捉動(dòng)態(tài)場(chǎng)景中光線的變化,具有微秒級(jí)的超低響應(yīng)延遲和高達(dá)120 dB的超高動(dòng)態(tài)范圍。相比于傳統(tǒng)相機(jī),事件相機(jī)不僅能夠捕捉到高速運(yùn)動(dòng)的物體,而且能夠同時(shí)“看到”曝光過度和曝光不足的區(qū)域。這使得事件相機(jī)相較于傳統(tǒng)相機(jī),更適用于對(duì)響應(yīng)延遲要求苛刻且光照條件復(fù)雜的場(chǎng)景。
在ADAS(advanced driver assistance systems)[1]自動(dòng)駕駛感知系統(tǒng)中,事件相機(jī)被廣泛應(yīng)用于實(shí)時(shí)環(huán)境感知和場(chǎng)景理解。然而,由于事件相機(jī)產(chǎn)生的事件數(shù)據(jù)具有高動(dòng)態(tài)分辨率和豐富的信息量,傳統(tǒng)的數(shù)據(jù)處理分析方法往往面臨計(jì)算資源消耗高、處理效率低的挑戰(zhàn)。此外,現(xiàn)有的事件檢測(cè)和分類方法在行人和障礙物等目標(biāo)的識(shí)別上準(zhǔn)確率和效率仍然存在提升空間。因此,對(duì)事件流數(shù)據(jù)的處理和事件表示進(jìn)行研究對(duì)于提升ADAS系統(tǒng)的性能至關(guān)重要。
首先,通過對(duì)事件數(shù)據(jù)的處理,能夠有效地減少數(shù)據(jù)的維度和冗余信息,從而提高數(shù)據(jù)處理的效率和速度。其次,采用有效的事件表示方法,可以從事件數(shù)據(jù)中提取關(guān)鍵的時(shí)空特征,如運(yùn)動(dòng)目標(biāo)、周圍環(huán)境等信息。這些特征對(duì)于自動(dòng)駕駛車輛進(jìn)行實(shí)時(shí)的行人識(shí)別、車道線檢測(cè)等任務(wù)至關(guān)重要,有助于提升ADAS系統(tǒng)的感知能力和交通安全性。因此,開展事件數(shù)據(jù)的降維和事件表示的研究不僅能夠優(yōu)化ADAS系統(tǒng)的數(shù)據(jù)處理性能,還能夠提升其在復(fù)雜交通場(chǎng)景下的感知能力和自動(dòng)駕駛性能。
但由于事件相機(jī)產(chǎn)生的是一個(gè)稀疏離散的事件流,事件流中的事件僅包含了位置坐標(biāo)、時(shí)間戳和極性信息,單個(gè)事件包含的信息非常有限。因此如何提取事件數(shù)據(jù)中的時(shí)空信息特征是一個(gè)難點(diǎn)問題?,F(xiàn)有的事件數(shù)據(jù)表示通常包含兩個(gè)階段:a)事件流分割與事件過濾;b)事件表示。
事件相機(jī)具有微秒級(jí)的低延遲響應(yīng)和高動(dòng)態(tài)范圍的特性,一個(gè)像素每秒最多可以產(chǎn)生100多萬(wàn)個(gè)事件,且數(shù)據(jù)以流的方式輸出。傳統(tǒng)的數(shù)據(jù)處理方式難以應(yīng)對(duì)稀疏離散的大量事件數(shù)據(jù),因此需要對(duì)事件流進(jìn)行分割和過濾。在事件流分割方面,常見的方法包括Liu等人[2]提出的固定時(shí)間分割和Moeys等人[3]提出的固定事件數(shù)量分割。固定時(shí)間分割雖能輕松劃分出長(zhǎng)度一致的時(shí)間塊,但當(dāng)運(yùn)動(dòng)目標(biāo)速度差異顯著時(shí),可能導(dǎo)致時(shí)間間隔劃分不當(dāng)。而固定事件數(shù)量分割則面臨全局性的挑戰(zhàn),對(duì)于特征數(shù)量變化巨大的場(chǎng)景,難以設(shè)定一個(gè)合適的全局閾值。根據(jù)Gruel等人[4]對(duì)現(xiàn)有事件過濾方法進(jìn)行的研究總結(jié),當(dāng)前的事件過濾技術(shù)主要包括Lenz等人[5]提出的空間降尺度和Gruel等人[4]提出的事件計(jì)數(shù)方法??臻g降尺度方法通過減少像素區(qū)域來(lái)簡(jiǎn)化數(shù)據(jù)量,但這種方法可能犧牲邊緣信息等關(guān)鍵細(xì)節(jié)。事件計(jì)數(shù)方法雖然考慮了事件的數(shù)量信息,卻忽略了事件數(shù)據(jù)的時(shí)空密度等高級(jí)特性,這可能導(dǎo)致關(guān)鍵信息的遺漏。
事件表示是將稀疏離散的事件數(shù)據(jù)處理成網(wǎng)絡(luò)輸入所需的格式,關(guān)鍵在于準(zhǔn)確提取事件數(shù)據(jù)中的時(shí)空特征信息。事件表示主要有以下幾種:文獻(xiàn)[6]提出了活動(dòng)事件表面(SAE),這種方法保留了最近事件的時(shí)間信息,但忽略了事件的時(shí)空歷史關(guān)聯(lián)性;Gehrig等人[7]則使用可學(xué)習(xí)的核函數(shù)處理事件的時(shí)間戳,提出事件脈沖張量(EST),EST實(shí)現(xiàn)了事件數(shù)據(jù)的端到端學(xué)習(xí),但引入了計(jì)算損耗并且在聚合的過程中存在丟失事件信息的問題;Zhu等人[8]通過固定核函數(shù)將事件轉(zhuǎn)換成體素網(wǎng)格(voxel grid)表示,這種表示保留了事件在時(shí)空維度上的分布,但忽略了事件的極性信息;Baldwin等人[9]通過保留最近K個(gè)事件的信息構(gòu)建一個(gè)兩通道的時(shí)間排序的最近事件表示(TORE),然而,Baldwin的方法拋棄了事件流中大量寶貴的時(shí)間信息。另一類方法是基于時(shí)間戳采用指數(shù)核函數(shù)來(lái)計(jì)算時(shí)間面(time surface)[10]進(jìn)行事件表示,旨在保留事件中更多的有效信息。這類方法不需要額外的事件計(jì)數(shù)通道,更能體現(xiàn)出事件相機(jī)低延遲低功耗的特性。Lagorce等人[10]提出了層次結(jié)構(gòu)的時(shí)間面,保留事件在時(shí)空上的分布信息,但忽略了時(shí)空上的關(guān)聯(lián)性,將整個(gè)時(shí)空鄰域作為有效值進(jìn)行計(jì)算,引入了計(jì)算損耗和延遲。Baldwin等人[11]根據(jù)事件的時(shí)間序列關(guān)系,提出了感知事件時(shí)間面(IETS),但沒有考慮到事件的空間關(guān)聯(lián)性,可能導(dǎo)致細(xì)節(jié)信息的丟失。Sironi等人[12]基于空間鄰域關(guān)聯(lián)關(guān)系,提出了平均直方圖時(shí)間面,該方法雖然剔除了空間上冗余的事件點(diǎn),但未能充分考慮時(shí)間上的冗余事件點(diǎn),導(dǎo)致時(shí)間面的值容易受到噪聲事件的影響。
在綜合現(xiàn)有文獻(xiàn)的深入分析后,本文發(fā)現(xiàn)當(dāng)前事件數(shù)據(jù)的處理和時(shí)間面方法存在以下顯著不足:a)現(xiàn)有事件數(shù)據(jù)處理方法僅僅采用降低像素尺度或者計(jì)算事件數(shù)量的方式,忽視了事件數(shù)據(jù)中的時(shí)空密度關(guān)聯(lián)等關(guān)鍵信息的重要性和作用;b)現(xiàn)有時(shí)間面方法雖基于空間或時(shí)間關(guān)系編碼信息,但缺乏對(duì)時(shí)空關(guān)系上冗余點(diǎn)和噪點(diǎn)進(jìn)行有效過濾的機(jī)制,導(dǎo)致表示結(jié)果不準(zhǔn)確,進(jìn)而影響了分類等后續(xù)任務(wù)的準(zhǔn)確度。
基于以上問題,本文作出以下幾點(diǎn)貢獻(xiàn):a)針對(duì)需要降低事件數(shù)量尺度且保留關(guān)鍵信息的問題,分析并計(jì)算了事件流時(shí)空信息分布密度,提出了基于密度排序的事件流降尺度方法,有效地去除了冗余事件,降低了計(jì)算資源損耗;b)針對(duì)現(xiàn)有時(shí)間面噪點(diǎn)冗余點(diǎn)多和表示不準(zhǔn)確的問題,提出了基于事件簇的時(shí)空鄰域關(guān)聯(lián)去噪時(shí)間面方法,降低了噪聲的影響,準(zhǔn)確地提取了事件的時(shí)空信息;c)在三個(gè)主流的神經(jīng)形態(tài)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了SOTA的效果。
1 算法框架
本文提出時(shí)空關(guān)聯(lián)去噪時(shí)間面STDTS(spatio-temporal denoised time surface),是一種基于時(shí)空領(lǐng)域篩選時(shí)間面的事件數(shù)據(jù)分類方法,共包括事件流自適應(yīng)分割、密度估計(jì)事件降維、時(shí)間面表示和網(wǎng)絡(luò)分類四個(gè)模塊,其算法整體框架如圖1所示。
該算法框架的模塊分為數(shù)據(jù)加載、事件流處理、基于時(shí)空鄰域關(guān)聯(lián)去噪時(shí)間面以及直接訓(xùn)練脈沖神經(jīng)網(wǎng)絡(luò)分類四個(gè)主要模塊。整個(gè)算法是端到端的事件數(shù)據(jù)目標(biāo)分類。
訓(xùn)練過程首先由數(shù)據(jù)加載模塊負(fù)責(zé)從訓(xùn)練集中加載多個(gè)樣本的事件流數(shù)據(jù)。然后,這些數(shù)據(jù)被傳入事件流處理模塊,進(jìn)行事件數(shù)據(jù)的分割和降尺度操作,以獲得降尺度和分割后的事件點(diǎn)集。由事件表示模塊處理這些事件點(diǎn),包括關(guān)聯(lián)事件簇的計(jì)算,從而得到相關(guān)的簇計(jì)算結(jié)果。隨后,基于時(shí)空鄰域關(guān)聯(lián)去噪時(shí)間面模塊計(jì)算時(shí)間值,并將多個(gè)不同樣本的數(shù)據(jù)計(jì)算得到的時(shí)間面組織成多個(gè)維度為[T,B,2,H,W]的幀序列,作為數(shù)據(jù)輸入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練。最后,訓(xùn)練完的模型加載測(cè)試集的事件數(shù)據(jù)進(jìn)行分類,輸出分類結(jié)果。
2 事件流處理
在每個(gè)時(shí)刻,當(dāng)像素的亮度變化超過閾值θ時(shí),事件相機(jī)就會(huì)生成一個(gè)單獨(dú)的事件。其表示方式如下:
log(I(x,y,t+Δt))-log(I(x,y,t))gt;pθ(1)
其中:Δt代表同一像素坐標(biāo)產(chǎn)生的當(dāng)前事件距離上一個(gè)事件的時(shí)間差;(x,y)表示事件在像素坐標(biāo)上的位置;t表示事件輸出的時(shí)刻;p表示事件的極性;+1表示光照強(qiáng)度增加;-1表示光照強(qiáng)度減小。
2.1 事件流自適應(yīng)分割
在事件表示之前通常需要進(jìn)行事件流分割。本文采用了 Li等人[13]提出的自適應(yīng)事件采樣方法進(jìn)行事件流分割,其具體步驟如下:首先,從每個(gè)標(biāo)簽的起始時(shí)間戳開始積累事件,并根據(jù)預(yù)設(shè)閾值進(jìn)行分割。一旦時(shí)空窗口Ωi中的事件數(shù)Ni接近自適應(yīng)閾值時(shí),將觸發(fā)一個(gè)新的時(shí)間分段Si={xn,yn,tn∈Γi:n=1,…,Ni}。該自適應(yīng)閾值計(jì)算公式為
Δ t*i=argminΔ ti|θ+η(Δ ti-1-Δ ti)+#{Ne|Ne∈Γi} |(2)
其中:Δti是生成時(shí)間塊的持續(xù)時(shí)間,單位為μs;#{}表示時(shí)空窗口Γi中的事件計(jì)數(shù);θ是預(yù)設(shè)閾值;η是用于調(diào)整持續(xù)時(shí)間{Δt1,Δt2,…,Δtn} 以保持時(shí)間一致性的時(shí)間反饋控制參數(shù)。在初始化階段,本文將η設(shè)置為0,并在事件數(shù) N0達(dá)到θ時(shí)觸發(fā)第一個(gè)時(shí)間塊。自適應(yīng)采樣方案將事件流分割為時(shí)間塊,這些塊可以是不連續(xù)的或彼此重疊的。
2.2 基于密度排序的事件流降尺度
根據(jù)事件相機(jī)的特性,每秒鐘輸入到硬件中的事件數(shù)量可達(dá)25 M。然而,現(xiàn)有的事件表示方法,例如時(shí)間面[10],在處理155 K事件數(shù)時(shí),平均需要1.12 s的延遲。過多的事件數(shù)量會(huì)給硬件帶來(lái)極大的計(jì)算負(fù)擔(dān)。因此,需要在對(duì)事件進(jìn)行事件表示前舍棄冗余事件,提取有用的事件數(shù)據(jù)。
經(jīng)過自適應(yīng)時(shí)間分割后的事件塊包含了同一時(shí)間段內(nèi)的所有事件。大多數(shù)現(xiàn)有的方法都是通過簡(jiǎn)單地縮小空間尺度來(lái)減少事件數(shù)據(jù),這實(shí)際上是事件域中的最大池化操作。然而,事件相機(jī)中采集的目標(biāo)事件往往集中在特定的空間區(qū)域。通過對(duì)事件點(diǎn)的空間密度進(jìn)行分析,可以避免在稀疏的區(qū)域上進(jìn)行多余的計(jì)算,從而提高處理效率。因此,本文提出了基于密度排序的事件過濾方法,包含事件核密度估計(jì)和排序選擇兩個(gè)部分,如圖2所示。
1)事件核密度估計(jì)
計(jì)算公式表示為
f(x)=1N∑Ni=1K((x-Xi)(t-Ti)H)(3)
其中: f(x)為在坐標(biāo)x處的密度估計(jì); n為事件塊的事件數(shù)量;Xi 為事件塊中其余事件的空間位置;Ti為事件塊中其余事件的時(shí)間戳;K為高斯核函數(shù);H為帶寬參數(shù)。步驟如圖2所示,經(jīng)過事件塊的計(jì)算,得到了各個(gè)事件塊的空間密度值。
2)核密度估計(jì)排序
在獲得了各個(gè)事件塊的空間密度值之后,本文根據(jù)這些估計(jì)的空間密度值對(duì)事件塊進(jìn)行排序,如圖2(b)所示。為了篩選出有效的事件,本文引入了一個(gè)比例參數(shù)R,用于指定本文所需的事件比例。公式表示為
{Se}=select(sort(f(Si))ni=1)top(R×Ne)(4)
其中:Se為最終選擇的事件集合,通過選取R比例的事件,可以濾除其余的事件,從而減少計(jì)算消耗和降低延遲。
經(jīng)過在CIFAR10-DVS、DVS128 Gestures數(shù)據(jù)集上多次對(duì)比實(shí)驗(yàn),R取1/3時(shí),性能最優(yōu)。
3 時(shí)空鄰域關(guān)聯(lián)去噪時(shí)間面
Lagorce等人[10]引入時(shí)間面的概念,用于描述事件周圍的局部時(shí)空模式。時(shí)間面可以被形式化為一個(gè)作用于事件ei的局部空間算子Tei(ζ,q):[-p,p]2×{-1,+1},其中p是用于計(jì)算事件面空間鄰域的半徑。Lagorce中的時(shí)間面僅考慮時(shí)間面上像素xi鄰域內(nèi)最后接收到的事件的時(shí)間值來(lái)構(gòu)建描述符,這會(huì)導(dǎo)致描述符對(duì)噪聲或事件流中的微小變化過于敏感,Sironi等人[12]通過考慮大小為Δt的時(shí)間窗口內(nèi)的歷史事件來(lái)計(jì)算時(shí)間面,以事件點(diǎn)數(shù)量的平均時(shí)間值作為時(shí)間面的取值,但是當(dāng)事件數(shù)較少時(shí),與噪聲的區(qū)分度就會(huì)降低。
因此,本文提出了時(shí)空鄰域關(guān)聯(lián)去噪時(shí)間面的方法(圖3),包括基于時(shí)空鄰域關(guān)聯(lián)的事件簇和時(shí)空鄰域去噪時(shí)間面的計(jì)算兩部分。通過考慮事件的時(shí)空鄰域的關(guān)聯(lián)性,從而選擇出有效的正確事件點(diǎn)來(lái)計(jì)算時(shí)間面的值,實(shí)現(xiàn)去除事件點(diǎn)噪聲[14]的效果,提高事件表示的準(zhǔn)確性。
3.1 基于時(shí)空鄰域關(guān)聯(lián)的事件簇
給定一個(gè)事件集合:
{Se}={ei|ei=[xi,ti,pi]T,i∈[1,m]}(5)
其中:?jiǎn)蝹€(gè)事件ei=[xi,ti,pi]; xi=(xi,yi)∈[1,…,M]×[1,…,N]是產(chǎn)生事件的像素的坐標(biāo);ti≥0是事件的時(shí)間戳,滿足當(dāng)ti≤tj,i≤j。對(duì)于ilt;j,pi∈{-1,+1} 是事件的極性,-1 和+1分別表示 OFF 和 ON 事件,N是事件的總數(shù),用{ei}來(lái)指代一組事件。
噪聲事件比起非噪聲事件[15]有著較強(qiáng)的時(shí)空間孤立性,因此本方法將考慮時(shí)空上的關(guān)聯(lián)性來(lái)篩選有效事件。事件的鄰域被定位為半徑為ε的圓形區(qū)域,有效事件數(shù)大于等于Ns的事件簇稱為有效事件簇。
具體步驟描述如下:
a)選擇時(shí)間窗口Δt中的同一極性p的事件ei作為形成事件簇的處理窗口。
b)對(duì)于事件流{ei|i∈(1,2,…,n)}中的每個(gè)事件e,如果半徑ε的鄰域內(nèi)至少包含min_samples事件,則稱e為核心事件。
c)如果點(diǎn)ej在點(diǎn)ek的ε鄰域內(nèi),并且點(diǎn)ek為核心點(diǎn),則稱事件ej為ek的直接鄰接事件。
d)如果存在一組事件e1,e2,…,en,其中e1=ek,en=ej,且對(duì)于任意1≤i≤n-1,都有ei 和 ei+1 是直接鄰接,則稱點(diǎn)ej是ek的間接鄰接事件。
e)由鄰接關(guān)系得到的最大的鄰接集合即為一個(gè)簇,當(dāng)簇的事件數(shù)量N≥Ns時(shí),則認(rèn)定為有效事件簇。
計(jì)算過程如算法1所示。
算法1 基于時(shí)空鄰域關(guān)聯(lián)的事件簇去噪算法
輸入:事件集合ei,鄰域半徑eps,簇群最小數(shù)min_samples。
輸出:過濾后的事件集合e*i。
//1~8行:初始化參數(shù)并統(tǒng)一時(shí)空間尺度
1 e*i←;
2 for each e in ei do
3 "Pointe←(e.x,e.y,e.t);
4 "xd max←(Pointe.x)-min(Pointe.x);
5 "td max←(Pointe.t)-min(Pointe.t);
6 "tscale←td/xd;
7 "Normalize(Pointe,tscale);
8 Neighbor_Model←NearestNeighbors(eps,algorithm);
//9~13行:構(gòu)建最近鄰模型,形成有效事件簇
9 for each Point in Pointse do
10 NeighborModel.Fit(Point);
11 Neighborhood←Neighbor_model.radius(Point);
12 core_samples←Found(Neighborhood,eps);
13 Neighbor_Model.fit(core_samples);
//14~20行:過濾噪聲事件并選擇非噪聲事件
14Mask←zeros_like(Neighbor_Model.Label);
15Create_Mask(Mask,Neighbor_model.indices);
16Pointfilt←filter(Pointse,Mask)
17for (i,e) in enumerate (ei) do
18 if Mask[i] do
19" "e*i.add (e);
20return e*i
下面對(duì)算法1的時(shí)間復(fù)雜度和空間復(fù)雜度進(jìn)行分析。對(duì)每個(gè)事件點(diǎn)進(jìn)行最近鄰模型的構(gòu)建和查詢,其時(shí)間復(fù)雜度為O(n×log(n)),其中 n 為事件點(diǎn)的數(shù)量。過濾操作需要遍歷所有事件點(diǎn),其時(shí)間復(fù)雜度為 O(n),因此,時(shí)間復(fù)雜度為 O(n×log(n))。算法中需要存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)主要是事件點(diǎn)集合以及最近鄰模型,它們的空間復(fù)雜度分別為 O(n) 和 O(n),整個(gè)算法的空間復(fù)雜度為 O(n)。
3.2 時(shí)空鄰域關(guān)聯(lián)去噪時(shí)間面計(jì)算
現(xiàn)有的時(shí)間面方法在計(jì)算時(shí)間面時(shí)通常使用單個(gè)指數(shù)核對(duì)多個(gè)事件進(jìn)行卷積。單個(gè)指數(shù)核的響應(yīng)主要取決于時(shí)間與當(dāng)前時(shí)間點(diǎn)之間的時(shí)間差,這意味著對(duì)事件的時(shí)間順序不敏感。因此,當(dāng)事件數(shù)據(jù)中存在快速連續(xù)的變化時(shí),單個(gè)指數(shù)核可能無(wú)法有效區(qū)分這些事件,導(dǎo)致信息損失,無(wú)法適應(yīng)更細(xì)粒度時(shí)間分辨率的應(yīng)用場(chǎng)景。本文通過引入多個(gè)指數(shù)核,能夠更好地捕獲事件數(shù)據(jù)中的時(shí)間變化,并且對(duì)于不同時(shí)間尺度的變化能夠有針對(duì)性地進(jìn)行響應(yīng),從而更準(zhǔn)確地表示事件的時(shí)間動(dòng)態(tài)特性。
根據(jù)時(shí)空鄰域關(guān)聯(lián)簇篩選,得到降噪事件點(diǎn)集合e*i。對(duì)于由(xi,yi,ti,pi)給出的事件ei,以及 (z,q)∈[-p,p]2×-1,+1,時(shí)間面的值Tei為
Euclid Math OneTApei(z,q)=e-ti-t′(xi+z,q)τ1-τ1τ2e-ti-t′(xi+z,q)τ2 if pi=q0otherwise (6)
其中:ti-t′(xi+z,q)表示當(dāng)前事件的時(shí)間與局部?jī)?nèi)存中其他事件的時(shí)間之間的差異;τ1和τ2是衰減因子,指數(shù)衰減擴(kuò)大了過去事件的活動(dòng)范圍,并強(qiáng)調(diào)了鄰近區(qū)域活動(dòng)歷史的相關(guān)信息,公式中包括一個(gè)正核和一個(gè)負(fù)核,這兩個(gè)核的作用是相互平衡。當(dāng)事件數(shù)據(jù)的頻率保持一致時(shí),這兩個(gè)核的計(jì)算和會(huì)使得最終的輸出為零。該內(nèi)核通過過濾掉恒定發(fā)放率的脈沖,對(duì)隨時(shí)間變化的發(fā)射率脈沖序列產(chǎn)生了較高的響應(yīng)速度。該時(shí)間面公式能更穩(wěn)健地描述場(chǎng)景的真實(shí)動(dòng)態(tài),同時(shí)抵御噪聲和事件的微小變化,正確表達(dá)目標(biāo)事件的時(shí)間動(dòng)態(tài)信息。
4 實(shí)驗(yàn)與結(jié)果分析
4.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)
為了驗(yàn)證本文方法的有效性,在公開的CIFAR10-DVS、DVS128 Gesture和N-Caltech 101數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。這些數(shù)據(jù)集由事件相機(jī)采集而成,包含了不同類型的目標(biāo),如表1所示。
CIFAR10-DVS數(shù)據(jù)集是用于物體分類的事件流數(shù)據(jù)集,其分辨率為128×128像素,包含10個(gè)不同類別的物體。
DVS128 Gesture數(shù)據(jù)集用于手勢(shì)識(shí)別,分為11個(gè)類別,每個(gè)類別包含120個(gè)樣本。
N-Caltech 101數(shù)據(jù)集是用于對(duì)象分類的事件流數(shù)據(jù)集,由ATIS事件相機(jī)采集得到。它保留了Caltech 101數(shù)據(jù)集的類別和標(biāo)簽。
事件相機(jī)數(shù)據(jù)集的可視化效果如圖4所示。
4.2 實(shí)驗(yàn)配置
實(shí)驗(yàn)使用了顯存為40 GB的NVIDIA A100 Tensor Core GPU進(jìn)行訓(xùn)練和測(cè)試。訓(xùn)練階段采用了Adam優(yōu)化器進(jìn)行網(wǎng)絡(luò)訓(xùn)練,設(shè)置批量大小(batch_size)為10,并進(jìn)行了1 024個(gè)epochs的迭代訓(xùn)練,學(xué)習(xí)率設(shè)置為0.001。本文采用準(zhǔn)確度(accuracy,acc)作為評(píng)估模型性能的指標(biāo),準(zhǔn)確度表示模型在測(cè)試集上正確分類的樣本比例,計(jì)算公式如下:
accuracy=TrueTotal(7)
其中:True表示模型在測(cè)試集上正確分類的樣本數(shù)量;Total 表示測(cè)試集的總樣本數(shù)量。
4.3 實(shí)驗(yàn)方法
4.3.1 數(shù)據(jù)導(dǎo)入
利用PyTorch框架的數(shù)據(jù)讀取庫(kù)對(duì)所使用的公共數(shù)據(jù)集進(jìn)行批量讀取,并將數(shù)據(jù)集文件分割成訓(xùn)練集和測(cè)試集,以備后續(xù)數(shù)據(jù)處理和網(wǎng)絡(luò)訓(xùn)練測(cè)試使用。
4.3.2 數(shù)據(jù)預(yù)處理與事件表示
數(shù)據(jù)讀取后,進(jìn)行事件流處理和事件表示。事件流被分割并降維,存儲(chǔ)為事件塊,并進(jìn)行時(shí)間面的表示。最終,時(shí)間面通過矩陣變換組織為維度為X=[T, B, 2, H, W]的數(shù)據(jù)格式,其中T為時(shí)間步,B為批量大小,2表示事件數(shù)據(jù)的極性(正極性和負(fù)極性),H和W分別為時(shí)間面的高度和寬度。
4.3.3 直接訓(xùn)練的脈沖神經(jīng)網(wǎng)絡(luò)分類
本文采用VGGNet-11直接訓(xùn)練的脈沖神經(jīng)網(wǎng)絡(luò)進(jìn)行分類。網(wǎng)絡(luò)結(jié)構(gòu)為Input-AP2-64C3-128C3-AP2-256C3-256C3-AP2-512C3-512C3-AP2-512C3-512C3-AP2-512FC-output (類別數(shù))。
4.3.4 損失函數(shù)與分類結(jié)果
本文采用spike mean-square-error (SMSE)作為損失函數(shù),可通過以下公式計(jì)算:
L=1T∑T-1t=0Lt=1T∑T-1t=01C∑C-1i=0(st,i-gt,i)2(8)
其中:T表示模擬時(shí)間步長(zhǎng);C是標(biāo)簽數(shù);S表示網(wǎng)絡(luò)輸出;g表示獨(dú)熱編碼的目標(biāo)標(biāo)簽。為了估計(jì)分類準(zhǔn)確率,定義預(yù)測(cè)標(biāo)簽lp是具有最高發(fā)放率的神經(jīng)元的索引lp=maxi1T∑T-1t=0st,i,通過比較索引和標(biāo)簽類別的統(tǒng)計(jì)結(jié)果來(lái)計(jì)算實(shí)驗(yàn)準(zhǔn)確率。
4.4 事件流處理的消融實(shí)驗(yàn)
本節(jié)將本文提出的基于密度估計(jì)排序的事件流降維方法與現(xiàn)有的事件降維方法在DVS128 Gesture數(shù)據(jù)集上進(jìn)行比較。統(tǒng)計(jì)了不同降維方法后的平均事件數(shù)量,并計(jì)算了在相同時(shí)間面表示下不同降維方法的計(jì)算時(shí)間。同時(shí),本文采用了VGG-11結(jié)構(gòu)直接訓(xùn)練的脈沖神經(jīng)網(wǎng)絡(luò)進(jìn)行分類精度的對(duì)比,如表2所示。
在現(xiàn)有方法中,SEF(simple event funnelling)通過聚合具有相似空間或時(shí)間特征的事件,從中提取信息或特征,但其對(duì)提取信息的降維可能會(huì)導(dǎo)致高密度事件信息的損失。而Tonic方法則通過控制粒度來(lái)聚合事件信息形成更大的時(shí)間窗口或空間區(qū)域,但其參數(shù)設(shè)置可能會(huì)影響聚合關(guān)注的特征信息,從而降低事件數(shù)據(jù)的完整性和準(zhǔn)確性。相比之下,本文方法采用基于密度估計(jì)排序的方式,通過對(duì)時(shí)空密度進(jìn)行排序,能夠有效選取高價(jià)值的信息進(jìn)行處理。
從表2的結(jié)果可以看出,本文方法在降低事件數(shù)量的同時(shí),其分類精度均優(yōu)于之前的事件流降維方法。
4.5 時(shí)間面的消融實(shí)驗(yàn)
本節(jié)對(duì)本文提出的基于時(shí)空鄰域關(guān)聯(lián)去噪的時(shí)間面方法與目前事件相機(jī)目標(biāo)分類方法中代表性的事件時(shí)間面表示方法進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)采用了公開數(shù)據(jù)集CIFAR10-DVS、DVS128 Gesture和N-Caltech 101,并在VGG-11結(jié)構(gòu)直接訓(xùn)練的脈沖神經(jīng)網(wǎng)絡(luò)上進(jìn)行了分類。對(duì)比實(shí)驗(yàn)結(jié)果如表3所示。
根據(jù)表3的實(shí)驗(yàn)結(jié)果,可以得出結(jié)論:本文提出的時(shí)空鄰域關(guān)聯(lián)去噪時(shí)間面事件表示方法在三個(gè)數(shù)據(jù)集上的分類精度均表現(xiàn)最優(yōu)。具體而言,在公共的數(shù)據(jù)集DVS128 Gesture上,分類精度達(dá)到了99.05%;在CIFAR10-DVS上,達(dá)到了81.30%;在N-Caltech 101上,達(dá)到了82.11%。這些結(jié)果均優(yōu)于之前采用的時(shí)間面方法。
從圖5可以看出,當(dāng)事件數(shù)量相同時(shí),本文提出的時(shí)間面方法在CIFAR10-DVS公開數(shù)據(jù)集上取得了最高的分類精度。同時(shí),在延遲方面,本文的本地降噪時(shí)間面在事件數(shù)量增多的情況下,能夠?qū)崿F(xiàn)最低的時(shí)間延遲。
本文算法在CIFAR10-DVS公開數(shù)據(jù)集上的降噪效果如圖6所示。圖6(a)為原始圖像未經(jīng)過時(shí)間面降噪的結(jié)果,圖6(b)為經(jīng)過時(shí)間面降噪后的效果??梢杂^察到,在事件數(shù)量龐大且存在大量噪點(diǎn)的情況下,本文算法成功篩選出了目標(biāo)物體的紋理特征,并有效消除了大量的噪點(diǎn)事件。
綜上所述,本文提出的時(shí)間面方法能夠充分利用時(shí)間信息并提高分類精度。這是因?yàn)闀r(shí)空鄰域關(guān)聯(lián)時(shí)間面不僅保留了事件時(shí)序關(guān)系,還計(jì)算了事件之間的時(shí)空關(guān)聯(lián)性,從而舍棄了無(wú)關(guān)的事件,提取出了更為精確的事件目標(biāo)特征。
4.6 本文算法與其他算法對(duì)比
本節(jié)對(duì)本文算法與多個(gè)事件相機(jī)數(shù)據(jù)分類方法進(jìn)行了比較,包括HFirst[16]、HOTS[10]、HATS[12]和Gabor-SNN[17]等。
HFirst[16]方法中,事件表示方法僅考慮第一個(gè)到達(dá)的事件,忽略了后續(xù)事件,導(dǎo)致處理效果不佳。而Gabor-SNN結(jié)合了Gabor濾波器,利用傳統(tǒng)的計(jì)算機(jī)視覺算法來(lái)提取特征信息,但其參數(shù)的選擇可能會(huì)導(dǎo)致模型在不同數(shù)據(jù)集上的過擬合,進(jìn)而影響表示效果。相比之下,HATS和HOTS等方法在處理事件時(shí)考慮了所有事件,包括噪點(diǎn)事件和冗余事件,導(dǎo)致事件表示方法的準(zhǔn)確性不高。這些方法所采用的分類器結(jié)構(gòu)較為簡(jiǎn)單,無(wú)法取得很好的分類效果。
通過對(duì)比實(shí)驗(yàn)結(jié)果(表4)可知,本文方法在三個(gè)數(shù)據(jù)集上的分類準(zhǔn)確度明顯高于HFirst、HOTS等傳統(tǒng)事件表示方法。
對(duì)比使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行事件表示的方法,EST算法通過將事件點(diǎn)采樣到網(wǎng)格中構(gòu)建事件表示,但在處理大量的事件數(shù)據(jù)時(shí)會(huì)增加空間上的內(nèi)存負(fù)擔(dān),降低處理效率。STES則通過編碼事件流的時(shí)空特征來(lái)進(jìn)行學(xué)習(xí),IETS通過時(shí)間面到事件數(shù)據(jù)集,然而,以上兩個(gè)方法都沒有考慮到噪聲對(duì)時(shí)間面特征的影響,在噪聲干擾環(huán)境下表現(xiàn)不佳,TORE提出時(shí)間排序的方法來(lái)處理異步事件并計(jì)算事件的時(shí)間值,但其數(shù)據(jù)結(jié)構(gòu)限制了時(shí)間靈敏度,導(dǎo)致事件信息的丟失。相比之下,本文方法通過對(duì)事件流數(shù)據(jù)進(jìn)行降維,并考慮了事件數(shù)據(jù)中時(shí)空關(guān)聯(lián),構(gòu)造具有降噪功能的時(shí)間面,在計(jì)算損耗較低的情況下,本文方法能夠有效地去除噪聲事件,并保留時(shí)間數(shù)據(jù)的特征。通過對(duì)比實(shí)驗(yàn)結(jié)果(表4)可知,本文方法在三個(gè)數(shù)據(jù)集上的分類準(zhǔn)確度都達(dá)到了最高水平。
綜上所述,與現(xiàn)有的事件表示方法相比,本文方法取得了在數(shù)據(jù)集N-Caltech 101、CIFAR10-DVS和DVS128 Gesture上的SOTA分類精度。
5 結(jié)束語(yǔ)
綜合上述內(nèi)容,本文研究了事件相機(jī)分類任務(wù)中事件數(shù)據(jù)的冗余噪點(diǎn)和事件表示等問題。為解決事件數(shù)據(jù)冗余所導(dǎo)致的大量計(jì)算損耗以及事件表示中的噪點(diǎn)影響問題,本文提出了一種針對(duì)事件數(shù)據(jù)的新的事件表示方法。該方法包括基于密度估計(jì)排序的事件流處理和基于時(shí)空鄰域關(guān)聯(lián)降噪時(shí)間面,旨在節(jié)省計(jì)算資源并更好地提取事件流中的重要信息,從而提高響應(yīng)速度和分類精度。通過在不同數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證,本文的方法在延遲和分類精度方面表現(xiàn)出明顯的優(yōu)勢(shì),進(jìn)一步證實(shí)了方法的有效性和優(yōu)越性。
參考文獻(xiàn):
[1]桑永勝, 李仁昊, 李耀仟, 等. 神經(jīng)形態(tài)視覺傳感器及其應(yīng)用研究 [J]. 物聯(lián)網(wǎng)學(xué)報(bào), 2019, 3(4): 63-71. (Sang Yongsheng, Li Renhao, Li Yaoqian, et al. Yao MAO. Research on neuromorphic vision sensor and its applications [J]. Chinese Journal on Internet of Things, 2019, 3(4): 63-71.)
[2]Liu Min, Delbruck T. Adaptive time-slice block-matching optical flow algorithm for dynamic vision sensors [C]// Proc of British Mahine Vision Conference(BMVC). Berlin: Springer, 2018.
[3]Moeys D P, Corradi F, Kerr E, et al. Steering a predator robot using a mixed frame/event-driven convolutional neural network [C]// Proc of the 2nd International Conference on Event-based Control, Communication, and Signal Processing (EBCCSP). Piscataway, NJ: IEEE Press, 2016: 1-8.
[4]Gruel A, Martinet J, Linares-Barranco B, et al. Performance compa-rison of DVS data spatial downscaling methods using spiking neural networks [C]// Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2023: 6494-6502.
[5]Lenz G, Chaney K, Shrestha S B, et al. Tonic: event-based datasets and transformations [EB/OL]. (2021). https://tonic.readthedocs.io.
[6]Chen Yunhua, Mai Yingchao, Feng Ren, et al. An adaptive thres-hold mechanism for accurate and efficient deep spiking convolutional neural networks [J]. Neurocomputing, 2022, 469: 189-197.
[7]Gehrig D, Loquercio A, Derpanis K G, et al. End-to-end learning of representations for asynchronous event-based data [C]// Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2019: 5633-5643.
[8]Zhu A Z, Yuan Liangzhe, Chaney K, et al. EV-FlowNet: self-supervised optical flow estimation for event-based cameras [EB/OL]. (2018-02-19). https://arxiv.org/abs/1802.06898.
[9]Baldwin R W, Liu Ruixu, Almatrafi M, et al. Time-ordered recent event (TORE) volumes for event cameras [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022, 45(2): 2519-2532.
[10]Lagorce X, Orchard G, Galluppi F, et al. HOTS: a hierarchy of event-based time-surfaces for pattern recognition [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2016, 39(7): 1346-1359.
[11]Baldwin R W, Almatrafi M, Kaufman J R, et al. Inceptive event time-surfaces for object classification using neuromorphic cameras [C]// Proc of the 16th International Conference, ICIAR. Cham: Springer, 2019: 395-403.
[12]Sironi A, Brambilla M, Bourdis N, et al. HATS: histograms of ave-raged time surfaces for robust event-based object classification [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 1731-1740.
[13]Li Jianing, Li Jia, Zhu Lin, et al. Asynchronous spatio-temporal memory network for continuous event-based object detection [J]. IEEE Trans on Image Processing, 2022, 31: 2975-2987.
[14]肖進(jìn)勝, 姜紅, 彭紅, 等. 一種改進(jìn)的3維塊匹配視頻去噪算法 [J]. 工程科學(xué)與技術(shù), 2014, 46(4): 81-86. (Xiao Jinsheng, Jiang Hong, Peng Hong, et al. An improved video denoising algorithm based on 3D block matching[J]. Advanced Engineering Sciences, 2014, 46: 81-86.)
[15]肖進(jìn)勝, 李文昊, 姜紅, 等. 基于雙域?yàn)V波的三維塊匹配視頻去噪算法 [J]. 通信學(xué)報(bào), 2015, 36(9): 91-97. (Xiao Jinsheng, Li Wenhao, Jiang Hong, et al. Three dimensional block-matching video denoising algorithm based on dual-domain filtering [J]. Journal on Communications, 2015, 36(9): 91-97.)
[16]Orchard G, Meyer C, Etienne-Cummings R, et al. HFirst: a temporal approach to object recognition [J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2015, 37(10): 2028-2040.
[17]Deng Yongjian, Chen Hao, Li Youfu. MVF-Net: a multi-view fusion network for event-based object classification [J]. IEEE Trans on Circuits and Systems for Video Technology, 2021, 32(12): 8275-8284.
[18]Dong Junfei, Jiang Runhao, Xiao Rong, et al. Event stream learning using spatio-temporal event surface [J]. Neural Networks, 2022, 154: 543-559.
[19]Liu Min, Delbruck T. Block-matching optical flow for dynamic vision sensors: algorithm and FPGA implementation [C]// Proc of IEEE International Symposium on Circuits and Systems (ISCAS). Pisca-taway, NJ: IEEE Press, 2017: 1-4.
[20]Lichtensteiner P, Posch C, Delbruck T. A 128x128 120 dB 15μs latency asynchronous temporal contrast vision sensor [J]. IEEE Journal of Solid-State Circuits, 2008 (2): 566-576.
[21]孔德磊, 方正. 基于事件的視覺傳感器及其應(yīng)用綜述 [J]. 信息與控制, 2021, 50(1): 1-19. (Kong Delei, Fang Zheng. A review of event-based vision sensors and their applications [J]. Information and Control, 2021, 50(1): 1-19.)
[22]Bi Yin, Chadha A, Abbas A, et al. Graph-based spatio-temporal feature learning for neuromorphic vision sensing [J]. IEEE Trans on Image Processing, 2020, 29: 9084-9098.
[23]Li Zhengqi, Niklaus S, Snavely N, et al. Neural scene flow fields for space-time view synthesis of dynamic scenes [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 6498-6508.
[24]Maqueda A I, Loquercio A, Gallego G, et al. Event-based vision meets deep learning on steering prediction for self-driving cars [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 5419-5427.
[25]Bai Weijie, Chen Yunhua, Feng Ren, et al. Accurate and efficient frame-based event representation for AER object recognition [C]// Proc of International Joint Conference on Neural Networks. Piscataway, NJ: IEEE Press, 2022: 1-6.
[26]肖進(jìn)勝, 張舒豪, 陳云華, 等. 雙向特征融合與特征選擇的遙感影像目標(biāo)檢測(cè) [J]. 電子學(xué)報(bào), 2022, 50(2): 267-272. (Xiao Jinsheng, Zhang Shuhao, Chen Yunhua, et al. Remote sensing image object detection based on bidirectional feature fusion and feature selection [J]. Acta Electronica Sinica, 2022, 50(2): 267-272.)