鄧燕子,盧朝陽,李 靜
(西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點實驗室,陜西西安 710071)
交通場景的多視覺特征圖像分割方法
鄧燕子,盧朝陽,李 靜
(西安電子科技大學(xué)綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點實驗室,陜西西安 710071)
針對場景分割中基于像素分類計算較為復(fù)雜,使用特征類別較少難以提高分類精度的缺點,提出一種新的基于超像素多種視覺特征來學(xué)習(xí)場景幾何結(jié)構(gòu)類別的模型.首先,在圖像超像素基礎(chǔ)上進行多視覺特征提取;然后,利用這些特征對超像素進行分類,再計算相鄰超像素視覺特征的差異,推斷相鄰超像素類別的一致性;最后,用初始分類和一致性分類結(jié)果構(gòu)造基于馬爾科夫隨機場模型的能量函數(shù),使用基于圖割的優(yōu)化方法確定超像素的類別.實驗結(jié)果表明,該方法對特征的選擇以及分類優(yōu)化算法能夠有效提高分類的精度,對交通場景能夠?qū)崿F(xiàn)較好的分割效果.
場景分割算法;超像素;多視覺特征提取;隨機森林回歸;馬爾科夫隨機場
交通場景理解是實現(xiàn)圖像檢索、智能監(jiān)控、智能路障檢測和無人車導(dǎo)航等應(yīng)用的關(guān)鍵技術(shù)之一,交通場景圖像分割是將圖像中的物體分割出來并判斷其種類,也稱為圖像解析[1].與普通的圖像分割[2]不同,場景分割算法的目的是將圖像轉(zhuǎn)化為有利于目標表達更抽象的表現(xiàn)形式,簡化場景的表示方式,使高層的場景理解和分析變得容易.交通場景分割的困難在于自然環(huán)境的光照不均勻、場景結(jié)構(gòu)不均勻和內(nèi)容復(fù)雜多變等因素.文中研究場景的空間結(jié)構(gòu)分割方法,即將圖像標記成不同的幾何結(jié)構(gòu)類別.文獻[3]最早對自然場景圖像的空間幾何結(jié)構(gòu)進行闡述,通常將其分為天空、地面和地面上的各類垂直物[3];對交通場景空間幾何結(jié)構(gòu)的分割也是將圖像分成天空、地面和垂直物,重建圖像的表面布局.
近年來,學(xué)者們提出了很多場景分割算法.傳統(tǒng)方法一般是基于像素的[4-6],用分類器逐像素進行分類后,使用馬爾科夫隨機場(Markov Random Field,MRF)或條件隨機場(Conditional Random Field,CRF)將所有類別組合在一起;該方法的缺點是需要對每類進行訓(xùn)練,對每個像素進行分類是比較復(fù)雜和耗時的過程,無法做到實時.目前比較流行的是基于超像素的方法[3,7-9].超像素是圖像中具有相同視覺特性的連續(xù)區(qū)域,使用超像素特征對其進行分類,可以解決逐像素進行操作造成運算復(fù)雜的缺點,不僅能夠提高分割算法的計算效率,且能夠提供較好的空間結(jié)構(gòu)支持[1].
選擇正確的特征來表示超像素能夠提高分類精度,筆者主要的思想是基于超像素的表面特征來學(xué)習(xí)這些幾何結(jié)構(gòu)類別的模型;創(chuàng)新點是提出適用于交通場景分割的多視覺特征提取表示方法以及基于MRF模型的分類結(jié)果優(yōu)化方法.首先,在圖像的超像素基礎(chǔ)上進行多視覺特征提取;然后,利用這些特征對超像素進行分類,并利用相鄰超像素視覺特征的差異計算相鄰超像素類別的一致性;最后,用初始分類和一致性分類結(jié)果構(gòu)造MRF模型的能量函數(shù),使用圖割的優(yōu)化方法確定超像素的類別,實現(xiàn)場景空間結(jié)構(gòu)分割.實驗結(jié)果表明,筆者提出的方法對交通場景的空間幾何結(jié)構(gòu)能進行較好的分割.
使用超像素來表示圖像,可通過對超像素進行分類實現(xiàn)場景的分割.超像素分割是一種過分割方法,能夠?qū)D像劃分成連續(xù)均勻的小塊區(qū)域.用超像素表示圖像的優(yōu)點很多,如圖像超像素數(shù)量遠遠小于像素個數(shù),可極大減少分類的計算量,但圖像中像邊緣和物體輪廓等這些重要特性仍能較好地保留.文中采用文獻[10]的方法進行超像素分割,若使用這種方法參數(shù)設(shè)置的不當,則很難捕獲真實的物體邊界,分的過粗會丟失小的物體,分的過細許多超像素的特征則難以區(qū)分.具體參數(shù)的設(shè)置:σ=0.8,K=100,M=100,一幅800×600大小的交通場景圖像通常分割出大約500個超像素.圖1是圖像進行超像素分割后的結(jié)果.
圖像中不同物體具有不同的視覺特性,常用于描述物體的視覺特征有顏色、紋理、位置和形狀等.由于交通場景具有復(fù)雜性,包含的物體種類很多,一些較大的物體如天空、建筑物、樹木等沒有固定的形狀,而較小的物體如行人和車輛等,形狀比較固定,但顏色和紋理等都各不相同[11].為實現(xiàn)對超像素的正確分類,需要用多種特征來表示超像素.在采用顏色、紋理和位置形狀的基礎(chǔ)上,為更好地描述交通場景各類物體的幾何結(jié)構(gòu),加入了結(jié)構(gòu)信息特征.目前很多場景理解方法[12-13]通過結(jié)構(gòu)信息對物體進行分類.結(jié)構(gòu)信息可通過一些光照不變性特征來描述,如尺度不變特征轉(zhuǎn)換(Scale-Invariant Feature Transform,SIFT)[14]和方向梯度直方圖(Histogram of Oriented Gradient,HOG)特征[15].
這里兩種結(jié)構(gòu)信息特征都采用稠密的提取方式,對圖像的每個點根據(jù)周圍的鄰域信息計算特征向量,超像素的特征向量是其中所有像素特征向量的均值,得到超像素的SIFT特性向量為128維,HOG特性向量為31維.表1列出了用于描述超像素的視覺特征,包含顏色(C1~C4)、紋理(T1,T2)、結(jié)構(gòu)信息(S1,S2)和位置形狀(L1~L5)這4類特征,最終構(gòu)成211維的特征描述符.超像素的特征向量fs=[C1,…,C4,T1,T2,S1,S2,L1,…,L5]∈R211.
表1 描述超像素的視覺特征
在得到圖像所有的超像素并提取多視覺特征后,利用超像素的特征對其進行分類,得到每個超像素的幾何結(jié)構(gòu)類別.傳統(tǒng)的分類方法通常給分類器輸入正負樣本,輸出是代表某一類別的離散值,比如常見的0和1二值輸出.由于實驗中采用所有訓(xùn)練圖像的超像素多視覺特征作為訓(xùn)練樣本,采用傳統(tǒng)方法既無法保證每幅測試圖像的超像素都能被正確分類,也無法保證所有測試圖像的分類結(jié)果都有穩(wěn)定的正確率.為此,文中訓(xùn)練了隨機森林回歸器[16],其優(yōu)點是效率較高且能夠輸出連續(xù)的標簽值,代表和真實值的接近程度;之后,使用這些“軟標簽”作為待優(yōu)化的能量函數(shù)的數(shù)據(jù)項,將超像素分成天空、地面和垂直物3類,因此,需要訓(xùn)練3個回歸器,用于估計超像素屬于這3種類別的程度,所有的訓(xùn)練過程都使用相同的特征.訓(xùn)練方法以“天空”類別為例,將所有訓(xùn)練圖像的超像素特征分成兩類,屬于天空的特征集合Fsky和非天空的特征集合Fnonsky,并賦予標簽值1和-1,訓(xùn)練得到回歸器Hsky.測試時輸入超像素特征fs,對應(yīng)的輸出值是介于-1到 1之間的實數(shù),Hsky(fs)∈[-1,1].用同樣的訓(xùn)練方法得到另外兩個回歸器Hvertical和Hground.
圖1 交通場景的超像素分割
利用超像素的多視覺特征進行分類,只考慮了超像素本身的屬性,忽略了它們之間的關(guān)系.在進行超像素分割時,一些相同屬性類別的物體會被分成多個超像素.這些相鄰的同類超像素的特征具有相似性,而相鄰的不同類別的超像素之間特征差異很大.如圖1所示,街道上相鄰的超像素看上去一樣,而街道和兩邊墻壁相鄰的超像素看上去差別很大.當初始分類結(jié)果不能判斷超像素的類別時,希望能通過相鄰的超像素之間的關(guān)系來確定其類別,因此,需要訓(xùn)練分類器來推斷相鄰超像素類別的一致性.這里設(shè)計了相鄰超像素的對比特征來訓(xùn)練這種一致性分類器.對比特征定義為相鄰超像素視覺特征的差異,設(shè)兩個相鄰超像素si和sj的視覺特征分別為和,g表示對比特征,對比特征.由于視覺特征包含4類不同特征,需要采用不同方法計算差異.采用文獻[3]中的計算方法,對顏色均值、LM濾波器響應(yīng)、SIFT和HOG特征,計算兩個特征向量x1和x2的絕對差值,即
其中,h1和h2代表兩個直方圖,h1i和h2i分別是向量h1和h2中的元素,n是h1和h2向量中元素的個數(shù).
計算兩個超像素特征差異后得到一個188維的向量,用其訓(xùn)練一致性分類器Hsame,訓(xùn)練方法和前面所用的隨機森林回歸器相同.對訓(xùn)練集的所有圖像,統(tǒng)計所有相鄰的超像素對,并計算對比特征.超像素對屬同一類時的對比特征為正樣本,屬不同類別時的特征為負樣本,標簽分別為1和-1.一致性分類器輸出也是連續(xù)值Hsame(g(si,sj))∈[-1,1],代表相鄰的超像素是否一致的程度.
得到初始分類和一致性分類結(jié)果后,希望用其計算超像素最終的分類結(jié)果,為此,文中提出了基于MRF能量函數(shù)最小化的分類結(jié)果優(yōu)化方法.將分類問題表示成能量函數(shù)的最小化,在像素級類別標記問題中應(yīng)用非常廣泛.通常給定一組像素和標簽集合,找到這些像素最佳的標簽,使設(shè)計的能量函數(shù)值最小.能量函數(shù)一般包含數(shù)據(jù)項和平滑項,分別是標簽變量的一元和二元函數(shù),數(shù)據(jù)項體現(xiàn)真實值和觀測值的一致程度,平滑項體現(xiàn)圖像的局部空間內(nèi)平滑特性[17].
對超像素進行分類時采用MRF能量函數(shù)最小化方法,對一幅輸入圖像,設(shè)超像素集合Sp={sk},類別標簽的集合L={G,V,S},G、V、S分別表示標簽“地面”、“垂直物”、“天空”,目的是為每個超像素找到最佳標簽,使MRF能量函數(shù)最小,函數(shù)定義為
其中,N是所有相鄰超像素對的集合,系數(shù)λ≥0用于調(diào)節(jié)數(shù)據(jù)項和平滑項的比重,數(shù)據(jù)項函數(shù)Ds(·)表示將超像素si標記為某個類別的代價,平滑項函數(shù)Vsi,sj(·)表示將相鄰超像素對標記為兩個類別時的代價.這里采用potts模型[18]作為平滑項代價函數(shù),平滑項函數(shù)的定義為
其中,權(quán)值K是非負常數(shù),其取值和兩個超像素的特征相關(guān),函數(shù)T(·)中的條件表達式為真時,函數(shù)值為1;反之,其值為0.相鄰的超像素取不同標簽時得到不同的代價值,能夠起到保持邊緣的作用[18].由于平滑項是非凸函數(shù),能量函數(shù)的優(yōu)化求解比較困難,文中使用圖割算法[19]對能量函數(shù)最小化問題進行求解.通過初始分類和一致性分類,可得到每個超像素屬于3個類別的程度值,以及相鄰超像素對屬于同一類別的程度值,將它們分別作為能量函數(shù)的數(shù)據(jù)項和平滑項的權(quán)值.上述分類結(jié)果取值范圍都是[-1,1],圖割算法中的數(shù)據(jù)項和平滑項都需要是正數(shù),需要把這些數(shù)值變?yōu)檎?具體設(shè)置為
整個能量函數(shù)構(gòu)造完成后,采用a-expansion算法[19]對最小化問題進行求解,得到超像素最終的分類標簽.
當所施加外應(yīng)力值介于最后一級荷載和長期強度值之間時,將巖石試樣根據(jù)常規(guī)三軸壓縮時,計算出強度參數(shù)C和φ值代入α和k的函數(shù)中,然后代入式(4)中,得
整個分類及優(yōu)化算法的步驟如下:
(1)輸入圖像進行過分割得到超像素塊,提取它的多視覺特征,并同時計算相鄰超像素對的對比特征.
(2)將多視覺特征輸入到3種屬性(地面、垂直物和天空)分類器,得到初始分類結(jié)果;利用對比特征計算出一致性分類結(jié)果.
(3)構(gòu)建圖模型,所有超像素為普通節(jié)點,3個類別為頂點;利用相鄰的超像素之間的連接以及所有超像素到3個頂點的連接,構(gòu)成邊集合;所有相鄰的超像素對構(gòu)成圖的鄰域結(jié)構(gòu).
(4)將初始分類結(jié)果作為數(shù)據(jù)項,一致性分類結(jié)果作為平滑項的權(quán)值,并代入能量函數(shù).
(5)執(zhí)行基于a-expansion的圖割算法.
(6)輸出所有超像素的類別標簽.
文中算法在Hoiem[3]提供的數(shù)據(jù)庫上進行實驗,計算機的配置為Intel E7400/2G RAM,MatlabR2012a,在混合編程情況下完成.Hoiem 3-類幾何上下文(3-class GC)數(shù)據(jù)庫中每幅圖像的超像素都標記了真值,從中挑選空間結(jié)構(gòu)比較完整的100幅交通場景圖像作為實驗數(shù)據(jù),其中,訓(xùn)練圖像60幅,測試圖像40幅.實驗部分將和現(xiàn)有的基于區(qū)域分割方法進行比較,為了說明加入特征的有效性,將這兩種情況下訓(xùn)練出來的分類器的性能進行對比.評價方法采用受試者工作特征(Receiver Operation Characteristics,ROC)曲線法,3種屬性分類器的ROC曲線如圖2所示.
圖2 不同特征訓(xùn)練的3種屬性分類器ROC曲線
對3種分類器分別比較不同特征的ROC曲線,可以看到,“天空”分類器在兩種情況下的性能沒有明顯變化,而“地面”和“垂直物”分類器在使用結(jié)構(gòu)信息特征后性能均得到提升.這是因為大部分圖像天空區(qū)域較均勻,結(jié)構(gòu)信息并不豐富,而不同環(huán)境下地面和垂直物區(qū)域圖像的內(nèi)容比較復(fù)雜,含有較多的紋理結(jié)構(gòu)信息.說明筆者對特征的選擇對場景的分類是有效的.
將文中提出的分類優(yōu)化方法與文獻[3]的方法進行比較,評價方法與文獻[3]相同,使用混淆矩陣和正確率,其中,正確率定義為測試圖像正確分類的像素占所有像素的百分比.圖3所示是文中方法和文獻[3]方法分類結(jié)果的混淆矩陣,從圖3中可以看出,文中方法對3類幾何結(jié)構(gòu)分類的效果比文獻[3]的都有提升.
為了驗證文中方法對普通室外場景分割的有效性,將方法在3-class GC數(shù)據(jù)庫[3]上的總體分類正確率與文獻[3,7]進行對比,比較結(jié)果如表2所示.可以看到,文中方法在分類精度上優(yōu)于文獻[3,7]的方法.
圖3 文中方法和文獻[3]方法分類的混淆矩陣
表2 文中方法和文獻[3,7]方法正確率的對比
文中方法的部分實驗結(jié)果如圖4所示.天空、地面和垂直物3種類別分別用黑、白、灰3種顏色標記.從圖4中可以看出,文中方法的分類結(jié)果和真實值非常接近,但有些細節(jié)部分出現(xiàn)錯誤,如樹枝中間的天空標記成了垂直物,天空區(qū)域中的電線等較細的結(jié)構(gòu)沒有標記成垂直物.對圖像交通場景中細微物體的處理應(yīng)該是下一步需要改進的地方.從圖4可以看到,文中采用的圖像空間結(jié)構(gòu)比較完整,即3種幾何類別在圖像中所占比例較均勻.而實驗發(fā)現(xiàn)若場景結(jié)構(gòu)比較復(fù)雜,如圖像大部分路面被車輛遮擋時,分類效果較差.因此,文中方法對這種空間結(jié)構(gòu)較完整的圖像分割效果較好.
圖4 文中方法分割的結(jié)果
筆者提出一種新的交通場景空間幾何結(jié)構(gòu)分割方法,輸入圖像在分割出的超像素基礎(chǔ)上提取多視覺特征,包括顏色、紋理、結(jié)構(gòu)信息和位置形狀這4類特征,用特征訓(xùn)練3種幾何結(jié)構(gòu)分類器對超像素進行初始分類;再計算相鄰超像素的對比特征,用于訓(xùn)練一致性分類器來推斷相鄰超像素之間的關(guān)系;最后,用初始分類和一致性分類結(jié)果構(gòu)造基于MRF模型的能量函數(shù),使用圖割的優(yōu)化方法確定超像素的類別.實驗結(jié)果表明,筆者對特征的選擇以及提出的分類優(yōu)化方法能夠有效提高分類的精度,能夠有效用于空間結(jié)構(gòu)較完整的交通場景圖像分割.
[1]Tighe J,Lazebnik S.Superparsing:Scalable Nonparametric Image Parsing with Superpixels[J].International Journal ofComputer Vision,2013,101(2):329-349.
[2] 王衛(wèi)衛(wèi),楊塨鵬,呂暢,等.一種新的水平集圖像分割模型[J].西安電子科技大學(xué)學(xué)報,2013,40(6):39-45. Wang Weiwei,Yang Gongpeng,LüChang,et al.New Image Segmentation Model Based on the Level Set Method[J]. Journal of Xidian University,2013,40(6):39-45.
[3]Hoiem D,Efros A A,Hebert M.Recovering Surface Layout from an Image[J].International Journal of Computer Vision,2007,75(1):151-172.
[4]LadickyL’,Russell C,Kohli P,et al.Inference Methods for CRFs with Co-occurrence Statistics[J].International Journal of Computer Vision,2013,103(2):213-225.
[5]Shotton J,Johnson M,Cipolla R.Semantic Texton Forests for Image Categorization and Segmentation[C]//Proceedings of 26th IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2008:1-8.
[6]He X,Zemel R S,Carreira-Perpindn MA.Multiscale Conditional Random Fields for Image Labeling[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society,2004:Ⅱ-695-702.
[7]Gould S,Fulton R,Koller D.Decomposing a Scene into Geometric and Semantically Consistent Regions[C]// Proceedings of the IEEE Conference on Computer Vision.Piscataway:IEEE,2009:1-8.
[8]Galleguillos C,McFee B,Belongie S,et al.Multi-class Object Localization by Combining Local Contextual Interactions [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2010:113-120.
[9]Socher R,Lin C C,Manning C D,et al.Parsing Natural Scenes and Natural Language with Recursive Neural Networks [C]//Proceedings of the 28th International Conference on Machine Learning.New York:ACM,2011:129-136.
[10]Felzenszwalb P F,Huttenlocher D P.Efficient Graph-based Image Segmentation[J].International Journal of Computer Vision,2004,59(2):167-181.
[11]Tighe J,Lazebnik S.Finding Things:Image Parsing with Regions and Per-exemplar Detectors[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Washington:IEEE Computer Society,2013:3001-3008. [12]Geiger A,Lauer M,Wojek C,et al.3D Traffic Scene Understanding from Movable Platforms[J].Pattern Analysis and Machine Intelligence,2014,36(5):1012-1025.
[13]Zhao P,Fang T,Xiao J X,et al.Rectilinear Parsing of Architecture in Urban Environment[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Piscataway:IEEE,2010:342-349.
[14]Lowe D G.Distinctive Image Features from Scale-invariant Key Points[J].International Journal of Computer Vision,2004,60(2):91-110.
[15]Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society,2005:886-893.
[16]Moosmann F,Triggs B,Jurie F.Fast Discriminative Visual Codebooks Using Randomized Clustering Forests[C]// Advances in Neural Information Processing Systems.Canada:NIPS,2007:985-992.
[17]Wang C,Komodakis N,Paragios N.Markov Random Field Modeling,Inference&Learning in Computer Vision& Image Understanding:a Survey[J].Computer Vision and Image Understanding,2013,117(11):1610-1627.
[18]Gridchyn I,Kolmogorov V.Potts Model,Parametric Max-flow and k-sub-modular Functions[C]//Proceedings of the IEEE Conference on Computer Vision.Piscataway:IEEE,2013:2320-2327.
[19]Boykov Y,Veksler O,Zabih R.Fast Approximate Energy Minimization via Graph Cuts[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2001,23(11):1222-1239.
(編輯:齊淑娟)
Segmentation of the image with multi-visual features for a traffic scene
DENG Yanzi,LU Zhaoyang,LI Jing
(State Key Lab.of Integrated Service Networks,Xidian Univ.,Xi’an 710071,China)
Scene segmentations based on the pixel classifying calculation are complicated,and they use insufficient features,thus resulting in a low accuracy,so a new model is proposed to overcome these shortcomings,which is to learn these geometric classes based on multi-visual features of super-pixels.First,various features are extracted from the super-pixels of an input image.These features are used for classifying the super-pixels.Then the difference between the adjacent super-pixels is calculated to predict their consistency.The initial classification result and the consistency are synthesized to the Markov Random Field energy function,which is then minimized based on the graph-cuts algorithm to get the final labels of the super-pixels.Experimental results prove the effectiveness of the multi-visual features and the optimization method proposed,with superior performance achieved for traffic scenes.
scene segmentation algorithm;super-pixels;multi-visual feature extraction;random forest regression;Markov random fields
TP391
A
1001-2400(2015)06-0011-06
10.3969/j.issn.1001-2400.2015.06.003
2014-11-24
時間:2015-03-13
中央高校基本科研業(yè)務(wù)費專項資金資助項目(K50510010007)
鄧燕子(1983-),女,西安電子科技大學(xué)博士研究生,E-mail:dyzamour@163.com.
http://www.cnki.net/kcms/detail/61.1076.TN.20150313.1719.003.html