路 紅,楊 晨,費樹岷
1.南京工程學院 自動化學院,南京 211167
2.東南大學 自動化學院,南京 210096
多目標檢測(如行人檢測、車輛檢測等)是計算機視覺領域研究熱點[1],也是目標跟蹤[2-3]、圖像理解[4]、目標分類[5]和識別[6]系統(tǒng)的關鍵技術。由于目標檢測能夠自動發(fā)現(xiàn)視覺顯著或異常區(qū)域,在視頻監(jiān)控[7-8]、醫(yī)學診斷[4]和視覺導航[9]等領域具有廣泛應用。準確性和魯棒性是評估檢測算法有效性的兩個重要方面[10]。然而,實際場景中,背景中相似目標干擾、遮擋、場景光照變化等,使得多目標場景中的目標個體定位變得困難;當目標與所處背景或其他鄰近目標具有相似的外觀特征(如色彩)時,將會引起檢測區(qū)域擴大或不完整檢測;多目標互遮擋時,經(jīng)常引起合并檢測,影響實際應用系統(tǒng)的目標個體定位準確性。同時,實際室外場景中非均勻光照和陰影等也會影響檢測性能。因此,實現(xiàn)準確、魯棒的多目標檢測仍然是一項挑戰(zhàn)性任務。
經(jīng)典的基于場景運動分析的多目標檢測方法有背景差分[8,11-12]、幀間差分[13]和光流法[14-15]等。其中,背景差分法由于能快速獲得相對完整的目標區(qū)域,得到了廣泛應用,但是該方法需要魯棒的背景更新以適應場景變化,當目標與背景特征相似時,容易引起檢測丟失或檢測不完整問題。Xin等[16]利用GF-Lasso(Generalized Fused Lasso)前景建模方法實現(xiàn)魯棒的目標檢測。文獻[11]通過實時獲取自適應閾值,在一定程度上克服了背景光線變化等引起的檢測丟失問題。幀間差分根據(jù)連續(xù)鄰幀間運動變化檢測目標,不需要重構背景,但是難以獲得暫時靜止的目標(比如車輛暫時停下來載客)信息;對于外觀色彩等特征均勻的目標,往往只能檢測到目標邊緣。光流法耗時多,不適合實時視頻處理;針對這個問題,文獻[15]利用局部光流法提取運動特征,有效降低了計算復雜度。相比之下,基于目標外觀特征的檢測算法可以克服上述基于運動分析方法的局限,如基于色彩匹配的Mean Shift算法,通過利用目標鄰域的梯度信息和核密度估計以搜索和定位目標。相對于窮盡搜索方法,Mean Shift可以快速收斂到目的目標位置[12,17];相對運動分析方法,Mean Shift不需要依賴運動信息。然而,鄰域中相似特征干擾和模糊外觀等會使得Mean Shift定位到局部最優(yōu),從而出現(xiàn)誤檢測。因此,為了提高檢測質(zhì)量,多算法融合逐漸成為研究熱點,如基于背景差分和結構紋理特征融合的檢測算法[18]、Mean Shift與Particle Filter融合的檢測算法等[19]。最近的多目標檢測方法集中在顯著區(qū)域檢測方面[9,20-22]。其中,Gabor濾波由于其生物學合理性和魯棒性受到關注[23]。類似于人類的視覺感受野,Gabor濾波具有良好的方向選擇性和空間定位能力,有利于局部顯著區(qū)域的檢測,因此被廣泛地應用于仿生顯著性計算框架中[24],并在目標檢測和識別方面得到深入研究。Brenning等[20]基于Gabor濾波器組和紋理特征檢測巖石冰川流結構,并利用推廣的線性模型和SVM識別結構模式。文獻[9]針對艦船目標檢測和提取,利用多通道Gabor濾波模糊綜合評價融合以增強目標區(qū)域,抑制海水背景的干擾。Dahmane等[21]利用一組Gabor濾波器提取面部基準點特征,并提出了一種條件Gabor相位算法以實現(xiàn)面部跟蹤和行為識別。文獻[22]基于多尺度多方向Gabor濾波器虛部提取圖像灰度變化信息,檢測圖像興趣點。然而,不同的Gabor濾波器組改進方法針對的是具體的應用環(huán)境和目標,針對不同場景中的任意目標,目前還沒有普遍適用的方法。
本文針對實際交通場景中的多運動車輛,研究多目標自動檢測方法。實驗中發(fā)現(xiàn),車輛的視覺顯著特征具有方向敏感性,即同一個目標在某個方向上受背景噪聲干擾嚴重,而在其他方向上卻可能具有高信噪比。另外,不同方向檢測結果的公共交集中包含目標有效像素。如果能根據(jù)這些規(guī)律,合理評價不同方向的目標顯著特征對檢測輸出的貢獻,將有利于提高多目標檢測質(zhì)量和效率?;谶@個思想,本文針對道路交通多車輛檢測,提出一種基于多方向顯著子區(qū)域檢測、子區(qū)域交集判斷和置信表決的多目標檢測方法。提出的基于多閾值條件的目標子區(qū)域選擇、交集狀態(tài)判斷和有效交集子區(qū)域置信表決檢測方案,在多目標交互干擾和遮擋、相似色彩干擾并伴隨非均勻光照影響、陰影等情況下,能有效定位最優(yōu)目標區(qū)域。實驗結果表明,本文方法在實際的視頻圖像序列多目標檢測中,具有較高的準確性和魯棒性。
圖1 多目標檢測算法流程
圖2 顯著特征點檢測
本文的多目標檢測算法主要包括:多方向顯著特征點檢測、基于多閾值條件的目標有效子區(qū)域提取、交集計算及有效交集子區(qū)域確定和置信表決。算法流程如圖1所示。首先將序列圖像I(t)轉(zhuǎn)化為灰度圖像,并利用Gabor濾波提取目標區(qū)域的四方向顯著特征點,其中t為幀序號。然后利用灰度形態(tài)學濾波和區(qū)域填充等,連接鄰近的斷裂顯著區(qū)域,同時抑制噪聲影響。進一步利用二值化和多閾值方案獲得第si個目標有效子區(qū)域通過計算有效子區(qū)域間交集C(x,t)獲得有效交集子區(qū)域Ei(l,t)和第l個交集子區(qū)域的交集狀態(tài)κi(l,t)。最后通過加權融合交集面積占空比和有效交集子區(qū)域相對面積占空比,進行置信表決。其中,x=(x,y)為圖像像素坐標。κi(l,t)=1,表示方向i存在有效交集子區(qū)域,否則,該方向不存在有效交集子區(qū)域。最后通過對Ei(l,t)置信表決以獲得目標最優(yōu)檢測。
實驗中發(fā)現(xiàn),剛體目標(這里主要指交通車輛)在0、π/4、π/2和3π/4方向上,比其他方向具有更強的顯著性和目標描述有效性。為了提高計算效率,選擇方向數(shù)m=4,并利用i∈{ }1,2,…,m 描述第i個方向。si=1,2,…,ni表示沿i方向的二值前景子區(qū)域,ni表示子區(qū)域總數(shù)。
二維Gabor核函數(shù)定義如式(1)所示,其中x'=(x',y')經(jīng)空間坐標 (x,y)旋轉(zhuǎn) θi得到,即 x'=x cosθi+y sinθi,y'=-x sinθi+y cosθi。w0為中心頻率,用于控制頻率尺度和濾波器的中心位置。θi決定濾波器方向,σ為標準差。
這里,二維Gabor核函數(shù)進一步描述為偶對稱濾波器Gi,e和奇對稱濾波器Gi,o,如式(2)和(3)所示。λ為波長,θi對應0、π/4、π/2和3π/4方向。
對Gi,e和Gi,o線性插值并分別與I(t)進行卷積,得到I(x,t)的分量幅度特征和。根據(jù)式(4)融合奇、偶分量幅度特征,計算每個像素坐標的幅度輸出值,獲得圖2所示的顯著特征點分布。
圖3 前景檢測
圖4 有效子區(qū)域和交集狀態(tài)
圖3中,第1行前景車輛目標相對背景路面之間具有明顯的辨識度,顯著特征點提取受背景干擾較小。雖然在0和π/2兩個方向背景中車道線和樹枝陰影也比較顯著,但是在π/4和3π/4兩個方向上,這些干擾明顯得到了抑制。第2~3行場景中,前景車輛與路面背景色彩相似或與路牙色彩相似,在π/4、π/2和3π/4方向子圖中,顯著特征點提取受噪聲干擾比較嚴重,目標自身發(fā)生了檢測不完整、片段檢測等問題。值得注意的是,這種情況下,Gabor濾波器在0方向上對噪聲干擾敏感性較小,具有良好的目標區(qū)域特征點檢測能力,因此可以依賴該方向顯著特征檢測結果獲得目標的有效檢測。
由于Gabor濾波器對不同方向特征具有不同敏感性,2.3節(jié)得到的同一目標的有效子區(qū)域間具有較大差異,如圖4所示。另外,實際場景中,有效子區(qū)域可能會由于混入噪聲而擴大檢測區(qū)域,或者由于不完整檢測只是提取了目標部分區(qū)域。因此,不是所有的有效子區(qū)域都是目標的最優(yōu)檢測,需要合理評價不同方向的目標有效子區(qū)域?qū)z測輸出的貢獻,以優(yōu)選目標最佳檢測結果。
為了計算任意目標對應的有效檢測的數(shù)目,也即確定存在任意目標有效子區(qū)域檢測的濾波器方向數(shù)目,利用式(9)計算有效子區(qū)域間交集圖像C(x,t)。并利用面積濾波等消除由于子區(qū)域間輕微合并產(chǎn)生的小面積交集(此時視為無效交集),獲得第l個二值交集區(qū)域C(x,l,t),其中“1”表示交集像素,“0”表示非交集像素;l=1,2,…,N,N為連通域總數(shù)目(對應輸出檢測的目標數(shù)目)。
設xl,t和AC(l,t)分別為C(x,l,t)的中心坐標和面積。本文利用式(10)和(11),通過判斷xl,t是否屬于第i個方向中第si個有效子區(qū)域Bi(si,t),以確定有效交集子區(qū)域Ei(l,t)和交集狀態(tài)κi(l,t)。如果 xl,t∈Bi(si,t),則κi(l,t)=1,表示方向i存在有效交集子區(qū)域(如圖4第5列矩形框),否則該方向不存在有效交集子區(qū)域(如圖4第5列第3行左邊白色車,沿π/4、π/2和3π/4方向不存在有效交集子區(qū)域)。
圖5 最優(yōu)檢測結果
某些交通場景中,靜止的背景區(qū)域,如密集分布的綠島等,也具有視覺顯著特性,因此會作為顯著目標被檢測到。為了提高檢測效率,有效定位目標(如運動車輛),本文對被檢測場景的背景進行了事先學習和標定,有效抑制了背景顯著區(qū)域的檢測輸出。
初始化參數(shù)λ、σ和T1~T5,輸入序列圖像I(t),執(zhí)行以下步驟。
步驟1根據(jù)式(4)計算,獲得顯著特征像素點。
步驟2采用形態(tài)學濾波、面積濾波和二值化等,得到前景圖像
步驟3計算面積最小化對應的子區(qū)域外接矩形框尺度,并根據(jù)式(8)的多閾值條件,選擇目標有效子區(qū)域Bi(x,si,t)。
步驟4根據(jù)式(10)和(11)判斷有效交集子區(qū)域Ei(l,t)和交集狀態(tài)κi(l,t)。
步驟5加權融合交集面積占空比和有效交集子區(qū)域相對面積占空比,根據(jù)式(12)計算i方向的置信表決系數(shù)vi(l,t)。
步驟6利用式(13)計算最大vi(l,t),獲得目標最優(yōu)檢測輸出O(l,t)。
為了評估本文方法在實際場景中多目標檢測的準確性和魯棒性,以及對不同目標運動和外觀狀態(tài)變化的自適應性,實驗部分采用了作者自己拍攝的兩個某市交通場景視頻圖像序列,分辨率分別為720×1280(圖6)和480×640(圖7)像素。交通場景中目標運動狀態(tài)包括:相鄰目標間交互干擾、遮擋、相似色彩干擾、非均勻光照和陰影影響等。多目標序貫駛入和退出視場,運動過程中,由于所處景深不同,每個運動車輛的尺度和外觀特征發(fā)生實時變化。權衡檢測效率和準確性,選取λ=5.5,σ=5.5,其他實驗參數(shù)根據(jù)經(jīng)驗設置。實驗結果和對比如圖6和圖7所示,表1給出了本文檢測算法的性能分析和對比。本文方法設置了目標區(qū)域的面積閾值,以檢測車輛目標,因此面積較小的行人作為噪聲被濾除。
圖6 圖像序列1的多目標檢測結果和對比
圖7 圖像序列2的多目標檢測結果和對比
本文方法與經(jīng)典幀間差分、閾值自適應背景差分和GF-Lasso方法進行了對比。為了對比公平,背景差分和幀間差分方法都采用與本文方法相同的圖像濾波、二值化和消噪處理方法以獲得前景目標區(qū)域,涉及的閾值參數(shù)也都調(diào)整到了恰當值,以盡可能降低誤檢測率。另外,由于背景差分、幀間差分和GF-Lasso方法容易將鄰近的多個目標合并檢測為一個區(qū)域,通常不滿足本文方法的多閾值條件,如尺度率,從而大幅降低檢測率,這里沒有對這三種方法采用多閾值條件。圖6和圖7中,第1行為原圖,第2行為本文方法沿四方向檢測的目標有效子區(qū)域(紅、綠、藍、紫紅色矩形框標記不同方向有效子區(qū)域)。第3~6行為本文方法、背景差分、幀間差分和GF-Lasso方法檢測結果(紅色外接矩形標記)。
圖6給出了交通視頻圖像序列1的檢測結果。該視頻的主要挑戰(zhàn)是鄰近目標間交互干擾、目標陰影和背景噪聲等。從左向右分別對應第4、26、44和72幀。與前面分析的結論一致,某些方向上存在目標有效檢測,但在其他方向上并不一定具有該目標的有效顯著特征。如第4幀中,綠色框標注的目標沿θi=π/4是顯著的,但是該目標在其他方向如θi={ }0,π/2上并不具有效顯著特征。第26和44幀中,所有目標沿θi=π/2方向都未檢測到目標有效交集子區(qū)域,但是通過對其他方向子區(qū)域進行置信表決可以得到最優(yōu)檢測輸出。相比之下,背景差分和GF-Lasso算法主要檢測運動的目標,因此目標陰影(與目標一起運動)被作為前景檢測出來。背景差分方法下,目標間交互干擾引起的合并檢測,背景中相似色彩引起檢測空洞甚至丟失檢測等是不可避免的。如第44幀中,白色和藍色汽車被合并檢測為同一個目標,而GF-Lasso算法則較好地解決了這個問題,實現(xiàn)了目標的獨立檢測。第72幀中,由于目標距離太近,背景差分、幀間差分和GF-Lasso方法均將黃色車和兩個紅色車合并為一個檢測輸出。幀間差分算法對目標位移和運動速度敏感,將鄰近多目標檢測為擴大了的合并框。盡管研究者們針對幀間差分的上述局限提出了很多改進算法,由于相鄰目標間具有相近的運動像素,合并檢測問題仍然是存在的。由于抑制了背景顯著區(qū)域的檢測輸出,第2行中本文方法沿四方向檢測到的顯著區(qū)域(右上角的綠島、右下角的視頻字幕),并未在第3行的最終檢測結果中出現(xiàn)。盡管本文方法在少量幀中存在若干合并檢測(如第72幀中兩個合并檢測的紅色車輛),但總體取得了較好的檢測性能。另外,本文方法能夠有效抑制目標陰影影響。
交通視頻圖像序列2的檢測結果如圖7所示。該視頻的主要挑戰(zhàn)是非均勻光照,背景中相似色彩干擾,運動目標間交互遮擋等,從左向右分別對應第48、108、124和154幀。在第48幀中,黑色車在三個方向(即θi={π/4,π/2,3π/4})上具有有效顯著檢測,而白色車和棕色車僅在兩個方向(分別標記了兩種色彩矩形框)上表現(xiàn)出了有效顯著性。盡管在第48和154幀中,處于場景陰影下的相鄰兩輛車的距離很近,發(fā)生了交互遮擋,本文方法仍然能夠單獨地檢測和定位每個目標,如圖7第3行所示。第108幀中,被陰影覆蓋的背景路面與前景中兩個黑色車具有相似的色彩特征。從實驗結果可以看出,3π/4方向(右上角黑色車)或π/2方向(右下角黑色車)的目標顯著性比較弱,因此最優(yōu)檢測需要通過其他方向的有效交集子區(qū)域進行置信表決得到。第124幀中,盡管背景中的白色路牙與白色車輛具有相似的色彩特征,本文方法仍能準確定位目標。同樣場景情況下,背景差分方法在第108幀中丟失了右下角目標;GF-Lasso方法在第48和108幀中均丟失了右下角目標。由于場景陰影影響,運動像素與背景像素混淆,導致背景差分和幀間差分法都發(fā)生了合并檢測,如第48、124和154幀所示。GF-Lasso方法在第48和124幀中展現(xiàn)出較好的目標獨立檢測性能,但在第154幀發(fā)生斷裂檢測(右前方一個目標被標記為兩個目標)和合并檢測(右邊兩個目標被合并為一個目標)。然而本文方法在上述情況下均能獲得每個目標的獨立檢測并較好地定位目標個體。
表1給出了檢測結果分析和性能對比。本文定義目標有效檢測如式(14)所示。其中,AO(l,t)?R(l,t)為最優(yōu)檢測O(l,t)和實際目標區(qū)域R(l,t)的交集面積;AR(l,t)為R(l,t)的面積,R(l,t)為離線手動獲得。獨立檢測這里定義為目標與檢測矩形框間“一對一”對應關系;合并檢測定義為多個目標與同一個檢測矩形框間的“多對一”對應關系;獨立檢測率為獨立檢測到的目標數(shù)目占有效目標檢測總數(shù)目的比率;合并檢測率為合并檢測的目標數(shù)目占有效目標檢測總數(shù)目的比率。合并檢測率較高,說明所采用的檢測算法在實際應用系統(tǒng)中,對單個目標區(qū)域的定位或捕捉能力較差。
由于合并檢測的矩形框尺度和面積通常不滿足多閾值條件,對應同一個檢測框的多個目標將被視為無效檢測,從而引起背景差分、幀間差分和GF-Lasso方法獲得的有效檢測率大幅降低。為此,在對這三種方法統(tǒng)計目標有效檢測數(shù)目時,去掉了多閾值條件限制。盡管如此,視頻圖像序列1的實驗結果中,背景差分和幀間差分方法的有效目標檢測數(shù)目相比本文方法仍然是偏低的(分別為248個和242個);GF-Lasso方法檢測比較敏銳,獲得了比本文方法多的有效目標數(shù)目。但是由于上述三種方法均存在較多的合并檢測(合并檢測率分別為14.5%和19.0%和14.9%),使得目標獨立檢測率都低于本文方法(92.1%)。如表1所示。
表1 檢測結果分析和性能對比
視頻圖像序列2中,幀間差分法比本文方法檢測到了稍多的有效目標數(shù)目(210個),但是其獨立檢測率僅為86.7%,低于本文方法(檢測率為98.1%)。由于一些幀中黑色車輛目標與背景陰影色彩相似,導致GF-Lasso方法產(chǎn)生檢測不完整和斷裂檢測較多,使得有效目標檢測數(shù)目較低,但是其獨立檢測率(94.4%)僅次于本文方法。同樣的場景干擾體現(xiàn)在背景差分法較低的獨立檢測率(93.0%)上。兩個實驗視頻中,本文方法均給出了較低的合并檢測率(分別為7.9%和1.9%)。
所有的對比實驗均在Windows 7操作系統(tǒng),Matlab環(huán)境下執(zhí)行。視頻序列1平均運行時間為1.15 s/幀,檢測每個目標所耗費的平均時間為0.29 s/幀。視頻序列2平均運行時間為1.02 s/幀,檢測每個目標所耗費的平均時間為0.51 s/幀。相比常用的八方向Gabor濾波,本文采用的四方向Gabor濾波在特征提取階段降低了近一半的運算量。相比背景差分、幀間差分和GF-Lasso方法,本文方法在多方向子區(qū)域檢測、交集判斷和置信表決方面有一定時間耗費,這是以獲得更高的魯棒、準確檢測性能為代價的。編碼優(yōu)化和實時檢測是進一步的研究重點。
本文針對智能交通監(jiān)控系統(tǒng)中的路面多運動車輛提出一種新的多目標檢測算法。采用四方向Gabor濾波提取目標顯著特征,以較少的方向數(shù)獲得目標顯著像素,以提高計算速度。根據(jù)多閾值條件和最小面積外接矩形限制獲得目標有效子區(qū)域參數(shù),有利于提高后續(xù)面積占空比計算的準確性。判斷有效交集子區(qū)域數(shù)目和交集狀態(tài),并根據(jù)有效交集子區(qū)域置信表決獲得目標最優(yōu)檢測,提高了復雜交通場景中多車輛交互干擾、背景相似色彩干擾、非均勻光照及陰影影響等情況下的檢測定位性能。盡管本文方法在現(xiàn)有的場景下取得了魯棒的檢測結果,后續(xù)還需要進一步針對更加復雜場景中的多目標檢測進行性能測試。將本文算法融入多目標跟蹤框架,提高交互遮擋和混淆目標的跟蹤魯棒性等是下一步的工作。