楊志光 張永林 謝經(jīng)明 陳幼平
1.武漢輕工大學(xué),武漢,4300232.華中科技大學(xué)國家數(shù)控技術(shù)工程研究中心,武漢,430074
?
基于雙目視覺和約束條件的行人目標(biāo)定位
楊志光1張永林1謝經(jīng)明2陳幼平2
1.武漢輕工大學(xué),武漢,4300232.華中科技大學(xué)國家數(shù)控技術(shù)工程研究中心,武漢,430074
針對行人檢測中計算量大、訓(xùn)練分類器耗時和無法滿足實時性要求等問題,提出了一種基于雙目視覺的行人目標(biāo)定位方法。該方法利用圖像處理技術(shù)獲取候選輪廓,將輪廓的幾何特征作為約束條件來篩選候選輪廓;利用雙目視覺獲取輪廓的深度信息后,將深度信息作為約束條件對候選輪廓進行進一步篩選。通過深度信息和幾何信息的共同約束,識別出行人的頭部輪廓,從而實現(xiàn)對行人目標(biāo)的定位。實驗結(jié)果表明,該方法減小了計算量,提高了檢測精度。
雙目視覺;圖像處理;行人檢測;目標(biāo)定位
機器視覺利用攝像機代替人眼對物體進行檢測、跟蹤和識別[1]。當(dāng)前,獲取實時客流量對地鐵部門提高工作效率有著重要的現(xiàn)實意義[2]。因此,筆者將機器視覺運用于客流量統(tǒng)計系統(tǒng),提出一種基于雙目視覺的目標(biāo)定位方法,實現(xiàn)對行人的檢測。
傳統(tǒng)行人檢測技術(shù)易受到行人姿態(tài)、光照、背景、陰影、遮擋等因素的影響[3],使得行人檢測成為機器視覺領(lǐng)域的難點。目前,行人檢測方法一般分為外觀特征提取和分類器學(xué)習(xí)兩種。外觀特征提取算法又可分為標(biāo)量特征運算和矢量特征運算。其中,標(biāo)量特征運算的速度快、實時性好,但易受外部光線因素的影響,魯棒性較差[4];矢量特征運算主要考慮特征的梯度向量,魯棒性較好,但計算量大,難以滿足系統(tǒng)實時性的要求。常用的分類學(xué)習(xí)方法有支持向量機[5]、神經(jīng)網(wǎng)絡(luò)[6]和自適應(yīng)增強算法[7]?;诜诸悓W(xué)習(xí)的檢測方法具有較好的魯棒性,正確率也較高,但分類器的訓(xùn)練比較耗時,且算法復(fù)雜度較高,難以滿足實時監(jiān)控的需求。
本方法的實際應(yīng)用環(huán)境——地鐵站的光照條件穩(wěn)定,故以標(biāo)量特征運算為基礎(chǔ),提出一種基于雙目視覺的行人定位方法。通過雙目視覺系統(tǒng)來獲取物體相對于攝像機的深度信息,利用深度信息排除低于指定高度的目標(biāo),如行李箱、手提袋、寵物等,并增加一個目標(biāo)輪廓幾何約束,來排除輪廓較小或者較大的目標(biāo)輪廓。上述兩個約束的篩選提高了系統(tǒng)對行人目標(biāo)的辨識率。故本方法在提高標(biāo)量特征運算魯棒性的同時,又保證了系統(tǒng)的實時性。
1.1 圖像的獲取與技術(shù)流程圖
筆者利用2個CCD相機(采取相互平行的拍攝方式)來實現(xiàn)圖像和視頻的采集。目標(biāo)識別的技術(shù)流程如圖1所示。
圖1 技術(shù)流程圖
1.2 攝像機的標(biāo)定
攝像機標(biāo)定過程涉及4個坐標(biāo)系:世界坐標(biāo)系、攝像機坐標(biāo)系、圖像物理坐標(biāo)系和圖像像素坐標(biāo)系[8],它們之間的位置關(guān)系如圖2所示。
圖2 坐標(biāo)系之間的關(guān)系
(1)圖像像素坐標(biāo)系O0UV。該坐標(biāo)系以圖像左上角O0為原點,某個像素的坐標(biāo)(u,v)為該像素在圖像上所對應(yīng)的列數(shù)與行數(shù),坐標(biāo)軸的單位為像素。
(2)圖像物理坐標(biāo)系O1XY。將攝像機光軸與攝像機成像平面的交點作為原點O1(圖像像素坐標(biāo)系的中心位置),坐標(biāo)軸的單位為mm。圖像物理坐標(biāo)系主要用來描述點在圖像中的物理位置。
(3)攝像機坐標(biāo)系OcXcYcZc。將攝像機的光心Oc作為原點,攝像機的光軸作為Zc軸,平面OcXcYc與攝像機成像平面平行,坐標(biāo)軸的單位為mm。攝像機光心到成像平面的距離稱為攝像機的焦距f,f=OcO1。
(4)世界坐標(biāo)系OwXwYwZw。世界坐標(biāo)系用來描述物體的具體位置,可以根據(jù)實際要求,設(shè)定世界坐標(biāo)系的原點與方向,坐標(biāo)軸的單位為mm。
略去詳細(xì)的數(shù)學(xué)推導(dǎo),圖像像素坐標(biāo)系與世界坐標(biāo)系之間的轉(zhuǎn)換關(guān)系可表示為
(1)
fx=f/dxfy=f/dy0T=[0 0 0]
其中,單位像素的尺寸(mm×mm)為dx×dy,O1在圖像像素坐標(biāo)系中的坐標(biāo)為(u0,v0)。R和T由攝像機坐標(biāo)系和世界坐標(biāo)系的相對位置關(guān)系決定,R為3×3的正交旋轉(zhuǎn)矩陣,T為3×1的平移向量。根據(jù)三角測量原理,Zc可通過計算兩幅圖像的視差得到。fx、fy、u0、v0均只與攝像機的內(nèi)部結(jié)構(gòu)有關(guān),稱為內(nèi)部參數(shù)。R和T由攝像機坐標(biāo)系和世界坐標(biāo)系的相對位置關(guān)系決定,稱為外部參數(shù)。
1.3 幾何信息約束的特征提取
本文以行人為研究對象,通過圖像處理,提取行人的外部輪廓,將原來復(fù)雜的圖像簡化成便于識別的特征信息,并利用約束條件,對圖像中的輪廓進行分類、識別和處理。
1.3.1 運動物體目標(biāo)提取
本文采用運動物體目標(biāo)檢測算法來識別行走中的行人。最常見的運動目標(biāo)檢測算法有光流法、幀差法、背景減法。背景減法的主要思想是建立一個背景模型,將視頻中的每幀圖像減去背景模型,得到該幀圖像與背景模型之間的差異,即找出運動的目標(biāo)[9]。該算法對背景的穩(wěn)定性要求較高,但算法的復(fù)雜性相對較低。程序的工作場景為地鐵站,地鐵站內(nèi)的照明條件良好,背景模型的穩(wěn)定性較高。故本文采取背景減法來檢測運動目標(biāo),降低算法的復(fù)雜度,縮短算法的計算時間。
本文將運動物體目標(biāo)提取分為以下幾個步驟:
(1)根據(jù)算法建立背景模型。由于場景并非靜止不變,故將背景模型按照一定的速率進行更新,利用高斯濾波處理背景,提高背景模型的魯棒性[10]。
(2)讀取視頻中的一幀圖像,通過對圖像進行處理,減弱噪聲對圖像的影響。
(3)將當(dāng)前幀的圖像減去背景模型,得到只含有運動目標(biāo)的圖像,并對其進行二值化處理。
(4)為了減小二值化處理后噪聲的干擾,再次利用圖像處理來優(yōu)化圖像。
1.3.2 幾何信息約束的圖像特征提取
本研究中先采取形態(tài)學(xué)操作來處理圖像,再用矩形來標(biāo)記圖像中的每個輪廓,最后利用幾何約束來篩選矩形所代表的輪廓。
形態(tài)學(xué)運算的基本思想是用具有一定形態(tài)的結(jié)構(gòu)元素找到圖像中的對應(yīng)形狀,以達(dá)到圖像分割識別的目的,其基本操作有膨脹、腐蝕、開啟和關(guān)閉。在人群擁擠的情況下,若直接對每個行人進行輪廓提取,則當(dāng)兩個人挨在一起時,系統(tǒng)會誤將兩人認(rèn)作一人,從而降低算法的精確度[6]。本文通過形態(tài)學(xué)處理,簡化每個目標(biāo)的基本形狀,提高算法精度。
用于標(biāo)記的矩形為圖像中輪廓的外接矩形,本文通過外接矩形的參數(shù)來描述每個輪廓的相關(guān)信息。輪廓的相關(guān)信息包括輪廓的相對位置坐標(biāo)和輪廓的相對大小。本文設(shè)置幾何信息約束,利用幾何信息約束對目標(biāo)進行篩選,將處于規(guī)定面積范圍內(nèi)的輪廓信息提取出來。目標(biāo)特征提取的流程分為以下幾個步驟:
(1)對圖像進行形態(tài)學(xué)操作,通過形態(tài)學(xué)操作來填補待測目標(biāo)上的空洞,讓待測目標(biāo)變得更加完整。
(2)對圖像進行形態(tài)學(xué)腐蝕操作,通過腐蝕操作減小待測目標(biāo)之間發(fā)生干涉的可能性。
(3)用外接矩形依次標(biāo)記圖像中的輪廓曲線,記錄外接矩形的相關(guān)參數(shù)。
(4)利用設(shè)置閾值來篩選外接矩形的大小,進而判斷該輪廓曲線是否為行人的頭部輪廓曲線。
1.4 立體匹配
立體匹配是指在不同攝像機所采集的素材中找到同一目標(biāo)所對應(yīng)的特征點。在對圖像特征點進行匹配時,需要添加約束準(zhǔn)則,一般采用的約束準(zhǔn)則有:極線約束、唯一性約束、相似性約束、順序性約束。
由于實際場景中的待匹配輪廓不多,故本文采用順序性約束。左側(cè)攝像機拍攝的圖像稱為左圖像,右側(cè)攝像機拍攝的圖像稱為右圖像。順序性約束采取的準(zhǔn)則:用數(shù)字依次標(biāo)記左右圖像中的每個外接矩形框,標(biāo)記的順序遵循從上到下、從左到右的規(guī)律,左右圖像中標(biāo)記數(shù)字相同的特征點被認(rèn)為是來自同一目標(biāo)。
1.5 深度信息約束
實際應(yīng)用場景存在許多除行人以外的物體,如手提袋、行李箱、嬰兒車等,這些物體會對系統(tǒng)的精確度造成影響。由于這些物體與行人頭部存在高度上的差別,故本文利用雙目視覺系統(tǒng)來計算圖像中每個輪廓的深度信息,通過深度信息對圖像中的輪廓進行篩選,提取處于某一高度范圍內(nèi)的目標(biāo)輪廓。
通過立體匹配,我們可以得到同一目標(biāo)在左右相機中的位置坐標(biāo),將該坐標(biāo)代入式(1)進行計算,即可獲取目標(biāo)相對于相機安裝位置的深度信息。再用相機安裝位置的高度減去該目標(biāo)的深度信息,得到該目標(biāo)的實際高度。設(shè)置深度信息約束,利用深度信息約束對目標(biāo)高度進行篩選,將處于規(guī)定高度范圍內(nèi)的輪廓信息視為行人的頭部輪廓。
本文實驗采用微視公司的MSS2 CCD攝像頭(2個),通過相機拍攝圖像的方式模擬從視頻幀中獲取某幀圖像,以對算法進行初步的驗證,最后用實時采集視頻的方式來驗證算法的穩(wěn)定性。
本文利用張友正標(biāo)定法[10],選用棋盤平面靶標(biāo),該標(biāo)定板的參數(shù)如下:每個格子的規(guī)格為15 mm×15 mm。在MATLAB中利用TOOLBOX_calib標(biāo)定工具箱實現(xiàn)相機的標(biāo)定。左相機的內(nèi)參數(shù)矩陣為
右相機的內(nèi)參數(shù)矩陣為
對比左右相機的內(nèi)參數(shù)矩陣可以看出,左右相機的焦距近似相等。實驗圖像的分辨率(單位為像素)為1280×1024,相機的主點坐標(biāo)(光心坐標(biāo))的理論值(單位為像素)應(yīng)為(640,512),左右相機的主點坐標(biāo)的誤差約為30像素。
以下為標(biāo)定相機所得外參數(shù),其中,旋轉(zhuǎn)矩陣為
平移矩陣為
[-82.34 -1.01 -2.90]T
由于采取的拍攝方式為兩相機平行拍攝,故外參數(shù)的旋轉(zhuǎn)矩陣?yán)碚撝禐?階單位矩陣,從標(biāo)定結(jié)果上看,該旋轉(zhuǎn)矩陣近似等于3階單位矩陣。平移矩陣中第一個參數(shù)應(yīng)為兩相機的安裝距離,另外兩個參數(shù)應(yīng)為0,即外參數(shù)的理論平移矩陣為[x0 0]T。從標(biāo)定結(jié)果上看,平移矩陣同樣接近理論值,故相機標(biāo)定的實驗結(jié)果較為理想。
為了測試算法的性能,在VS2010平臺下進行了算法的測試。圖3所示為背景模型,圖4為實時采集的圖像。
圖3 背景模型 圖4 實時采集圖像
由圖5可以看出,通過背景減法可以提取出場景中的目標(biāo)。由于本文旨在提取行人頭部的輪廓,故通過提高相機的曝光量來減小外界光線對圖像產(chǎn)生的影響。從圖6可以看出,形態(tài)學(xué)處理后,圖5中的空洞填滿了,并且圖像中的輪廓更加平滑,減小了輪廓之間發(fā)生干涉的可能性。圖7所示為利用canny算子提取的目標(biāo)輪廓,通過輪廓的外接矩形來標(biāo)記每一個輪廓,并用外接矩形的參數(shù)來描述目標(biāo)輪廓的相關(guān)信息。外接矩形的參數(shù)如表1所示。由表1可以看出,輪廓2的矩形框面積遠(yuǎn)大于其他輪廓。從圖8可以看出,通過幾何約束的篩選,本方法可以將不符合幾何信息約束條件的輪廓2排除。
圖5 背景減法處理結(jié)果 圖6 形態(tài)學(xué)處理結(jié)果
圖7 提取輪廓邊界結(jié)果 圖8 幾何約束篩選結(jié)果
輪廓矩形框中心坐標(biāo)(像素,像素)矩形框面積(像素2)1(171,113.5)99002(382.5,157)207483(466.5,116.5)136734(409.5,412)13462
通過立體匹配,我們可以若判斷出同一目標(biāo)在左右圖像中的坐標(biāo),將2個坐標(biāo)代入式(1)進行計算,獲得目標(biāo)在世界坐標(biāo)系下的相對位置坐標(biāo),通過世界坐標(biāo)即可獲取該目標(biāo)的深度信息,如表2所示。
表2 計算世界坐標(biāo)系下相關(guān)參數(shù)
筆者將世界坐標(biāo)系的原點設(shè)在左相機的光心處。世界坐標(biāo)系的坐標(biāo)軸方向與相機坐標(biāo)系的坐標(biāo)軸方向一致,通過計算目標(biāo)在世界坐標(biāo)系下的坐標(biāo),獲取目標(biāo)相對于左相機安裝位置的位置信息。相機的安裝高度約是2300 mm,減去3個行人頭部世界坐標(biāo)的Z軸坐標(biāo)516.8 mm、503.6 mm和582.4 mm,計算出參與測試人員的身高為1783.2 mm、1796.4 mm和1717.6 mm。測試人的實際身高約為1.78 m、1.81 m和1.70 m,故本方法可以較準(zhǔn)確地獲取目標(biāo)的深度信息。實驗欲提取位于高度為1.75~1.85 m的輪廓信息,故將深度信息約束的范圍設(shè)置為450~550 mm。從圖9可以看出,通過深度信息的篩選,本方法可以將不符合深度信息約束條件的輪廓4排除。
圖9 深度信息篩選結(jié)果
為了檢測本方法的穩(wěn)定性,在實驗室內(nèi)對算法進行了測試,實時采集視頻,模板檢測法與本文檢測方法的檢測結(jié)果如表3所示。
表3 兩種方法比較結(jié)果
本文利用2個相機同時觀測物體時存在視差的原理來得到物體的深度信息,通過深度信息和幾何特征信息的共同約束將行人頭部輪廓從圖像中識別出來。通過對比實驗可以看出,本方法比模板檢測法更省時,滿足了實時檢測的要求。但該方法對只有部分身體位于相機視場下的行人還存在一定的誤報。因此,在后續(xù)的研究中,將著重測試該方法在實際場合下的有效性,使其更加貼近實際應(yīng)用。
[1] 關(guān)勝曉.機器視覺及其應(yīng)用發(fā)展[J].新型儀器與智能儀表,2005(9):88-92. Guan Shengxiao.Machine Vision and Its Application[J]. New Type of Instrument and Intelligent Instrument,2005(9):88-92.
[2] 劉潤莉.地鐵運營客流量計算模型研究[D].成都:電子科技大學(xué),2012.
[3] 顧德軍,伍鐵軍.一種基于人頭特征的人數(shù)統(tǒng)計方法研究[J].機器制造與自動化,2010,39(4):134-138. Gu Dejun, Wu Tiejun. Research of Statistical Method Based on the Number of Head Features[J]. Machine Building & Automation, 2010,39(4):134-138.
[4] 顧騁,錢惟賢,陳錢,等.基于雙目立體視覺的快速人頭檢測方法[J].中國激光,2014,42 (1):1-6. Gu Cheng, Qian Weixian, Chen Qian, et al. Rapid Head Detection Method Based on Binocular Stereo Vision[J]. Chinese Journal of Lasers, 2014,42 (1):1-6.
[5] 陳雙玉,王海輝,吳云韜,等.基于雙目立體視覺和SVM算法行人檢測方法[J].華中科技大學(xué)學(xué)報,2015,43(增刊1):140-143. Chen Shuangyu,Wang Haihui,Wu Yuntao,et al. Approach of Pedestrian Detection Based on Binoc-ular Stereo Vision and SVM Algorithm[J]. Journal of Huazhong University of Science and Technology,2015,43(S1):140-143.
[6] Zhao L, Thorpe C E. Stereo and Neural Network-based Pedestrian Detection [J]. IEEE Transactions on Intelligent Transportation Systems, 2000, 1(3): 148-154.
[7] 楊英,劉衛(wèi)國,鐘令,等.基于AdaBoost行人檢測優(yōu)化算法的研究[J].機電工程,2014,31(10):1347-1351. Yang Ying,Liu Weiguo,Zhong Ling,et al. Based on AdaBoost Pedestrian Detection Research of Optimization Algorithm[J]. Mechanicaland Electrical Engineering,2014,31(10):1347-1351.
[8] 李鵬,王軍寧.攝像機標(biāo)定方法綜述[J].山西電子技術(shù),2007(4):78-79. Li Peng,Wang Junning. Overview of Camera Calibration Methods[J].Shanxi Electronic Technology,2007(4):78-79.
[9] 王奎奎,玉振明.融合背景減法和幀差法的運動目標(biāo)檢測[J]. 視頻應(yīng)用與工程,2015,39(24):94-99. Wang Kuikui,Yu Zhenming. Moving Object Detection Combining Background Subtraction and Frame Difference[J].Video Application & Project, 2015,39(24):94-99.
[10] Zhang Zhenyou, Deriche R,F(xiàn)augeras O. A Robust Technique for Matching Two Uncalibrated Images through the Recovery of the Unknown Epipolar Geometry[J].Artificial Intelligence,1995,78(1/2):87-119.
(編輯 張 洋)
Target Positioning of Pedestrian Based on Binocular Vision and Constraints
Yang Zhiguang1Zhang Yonglin1Xie Jingming2Chen Youping2
1.Wuhan Polytechnic University,Wuhan,430023 2.National NC System Engineering Research Center, Huazhong University of Science and Technology,Wuhan,430074
When confronting the problems in pedestrian detection such as large amount of calculation, time-consuming of classifier training and unfulfilled real-time requirements, a pedestrian detection method was proposed based on binocular vision. In this method, a lot of candidate contours might be obtained by processing image, and the geometrical characteristics of contours were used as a constraint to filter candidate contours. In the meantime, binocular camera might be used to get depth informations of the candidate contours, and the depth informations were used as a constraint to filter the candidate contours. By the constraints of depth informations and geometrical informations, contours of pedestrians’ heads might be identified and the pedestrians’ localization might get. The experimental results show that the method reduces the amount of calculation, and enhances the detection accuracy.
binocular vision; image processing; pedestrian detection; target positioning
2016-07-29
湖北省科技計劃資助項目(2014BEC056)
TP216
10.3969/j.issn.1004-132X.2016.23.009
楊志光,男, 1991 年生。武漢輕工大學(xué)機械工程學(xué)院碩士研究生。主要研究方向為機器視覺。張永林,男, 1962 年生。武漢輕工大學(xué)機械工程學(xué)院教授、博士研究生導(dǎo)師。謝經(jīng)明,男, 1965 年生。華中科技大學(xué)機械科學(xué)與工程學(xué)院副教授。陳幼平,男, 1957年生。華中科技大學(xué)機械科學(xué)與工程學(xué)院教授、博士研究生導(dǎo)師。