曹 攀, 董洪偉, 錢軍浩
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)
在計(jì)算機(jī)視覺領(lǐng)域,圖像語義分割主要的任務(wù)是識(shí)別圖像中每個(gè)像素對應(yīng)的類別,能夠有效地表達(dá)整幅圖像涵蓋的全部信息,并聯(lián)合解決目標(biāo)檢測和多類別標(biāo)注問題。由于圖像經(jīng)常會(huì)受到不同光照強(qiáng)度,物體的遮擋以及物體種類繁多和復(fù)雜的場景問題,使得提取的像素特征不能很好地表達(dá)像素的語義信息,導(dǎo)致像素標(biāo)記錯(cuò)誤,所以,如何有效地提取圖像中對象的整體信息,描述圖像中對象的輪廓,一直以來都是值得研究的關(guān)鍵問題。
對于傳統(tǒng)的圖像分割[1],依據(jù)分割原理的標(biāo)準(zhǔn)不同,普遍分為以下分割算法:基于閾值[2]、基于邊緣[3]、基于區(qū)域、基于小波變換以及基于數(shù)學(xué)形態(tài)的方法。其中,基于數(shù)學(xué)形態(tài)的分水嶺算法[4]較為經(jīng)典。結(jié)合分水嶺算法,Arbelaez P 等人提出了一種輪廓檢測算法[5],運(yùn)用全局像素邊界(global pixel boundary,GPB)算法計(jì)算每一個(gè)像素作為邊緣的概率,再通過超度量輪廓圖(ultrametric contour map,UCM)算法生成輪廓圖。李昌興[6]提出了一種譜聚類圖像分割算法,引入加速均值算法代替原有的K均值算法,縮短了時(shí)間損耗。現(xiàn)有的圖像語義分割方法[7~9]直接在像素的基礎(chǔ)上訓(xùn)練模型,單純在像素上訓(xùn)練模型很難描述對象輪廓,從而使得語義分割難以獲得理想效果。本文提出了一種基于分割塊的圖像語義分割(image semantic segmentation method based on the block of image segmentation,BIS-ISS)方法,有效解決了基于像素模型下的對象缺失及不完整的情況,并且算法在精確度、魯棒性和速率方面均有良好表現(xiàn)。
BIS-ISS方法,具體步驟如下:
1)采用結(jié)構(gòu)森林法[10]生成圖像各像素的邊緣概率;
2)將生成的邊緣概率圖經(jīng)由分水嶺算法將圖像劃分為初始區(qū)域塊;
3)為防止分水嶺算法過度分割,通過UCM算法選取閾值,將初始區(qū)域塊細(xì)分為需要的圖模型;
4)對圖模型中的分割塊提取特征,利用隨機(jī)森林訓(xùn)練分割塊得到語義分割結(jié)果,實(shí)現(xiàn)了一種具有較高精確度、魯棒性及速率的圖像語義分割方法。
邊緣檢測能夠很好地表達(dá)圖像中對象的輪廓信息,輪廓形狀是目標(biāo)對象幾何形態(tài)描述的重要表現(xiàn)內(nèi)容。傳統(tǒng)的水平集模型建模過程不僅耗時(shí),而且可導(dǎo)致計(jì)算結(jié)果不穩(wěn)定。對此,考慮到一般的圖像塊對圖像的局部特征有很好的表現(xiàn)效果,例如直線或者是T型交叉點(diǎn)。本文利用圖像塊對邊緣有很強(qiáng)的學(xué)習(xí)能力,采用結(jié)構(gòu)森林[10]的學(xué)習(xí)方法建立隨機(jī)決策森林,學(xué)習(xí)每個(gè)像素的邊緣概率,不但解決了耗時(shí)問題,更取得了很好的邊緣檢測效果。效果如圖1。圖1(a)和圖1(c)為輸入圖像,圖1(b)和圖1(d)為對應(yīng)的邊緣圖像。
圖1 邊緣圖像
在邊緣檢測的基礎(chǔ)上,利用分水嶺算法將邊緣圖轉(zhuǎn)換為初始分割塊,考慮到過度分割問題,利用UCM算法將初始分割塊轉(zhuǎn)換成圖模型
G=(Pi,Ki,W(Ki))
(1)
式中Pi為分割塊;Ki為弧,W(Ki)為該弧的強(qiáng)度。該圖以分割塊作為節(jié)點(diǎn),若兩個(gè)分割塊相鄰,則其對應(yīng)的兩個(gè)節(jié)點(diǎn)相連,連接強(qiáng)度為W(Ki)為
(2)
式中Pi為分割塊之間相鄰像素的邊緣概率值;n為相鄰分割塊間像素個(gè)數(shù)。以兩兩節(jié)點(diǎn)之間的W(Ki)作為衡量標(biāo)準(zhǔn),按照W(Ki)升序排列,依次將W(Ki)小的節(jié)點(diǎn)合并,直到最后僅余一個(gè)節(jié)點(diǎn),在完成遍歷的同時(shí)生成圖模型。
傳統(tǒng)語義分割方法針對像素進(jìn)行訓(xùn)練,無法準(zhǔn)確把握圖像中對象的輪廓信息。訓(xùn)練時(shí)單純對像素提取特征忽略了像素間的局部空間信息,不能很好地表達(dá)圖像中對象像素之間的區(qū)域結(jié)構(gòu)信息。本文采用核描述、核匹配方法,通過2×2網(wǎng)格模型提取像素的紋理特征、顏色特征和梯度特征,對應(yīng)于同一分割塊的像素特征加權(quán)合并為分割塊特征,使得分割塊帶有局部空間信息。隨機(jī)提取10塊分割塊生成特征圖,如圖2所示。本文利用隨機(jī)森林算法對圖模型中的分割塊進(jìn)行訓(xùn)練,針對圖模型中的特征冗余信息較多和特征的重要性不同,對特征進(jìn)行加權(quán)。
圖2 分割塊特征圖
隨機(jī)森林F={Ti}中的每一棵樹Tt都被獨(dú)立訓(xùn)練。從每個(gè)圖片,提取一組分割塊
{Pi=(Ii,Ci)}
(3)
式中Ii為上文提取的條件特征;Ci為每個(gè)分割塊的類別。在本文中,Ii被定義為
(4)
式中n為第i個(gè)分割塊特征的維數(shù)。隨機(jī)森林的學(xué)習(xí)方法對過度擬合一直有很好的效果,本文設(shè)計(jì)的隨機(jī)森林在每個(gè)節(jié)點(diǎn)會(huì)隨機(jī)產(chǎn)生一個(gè)閾值τ,進(jìn)一步防止訓(xùn)練時(shí)出現(xiàn)數(shù)據(jù)過度擬合。針對每一個(gè)節(jié)點(diǎn),都將有一個(gè)分割塊的集合P通過閾值τ劃分到PL和PR,左、右兩個(gè)子孩子當(dāng)中
(5)
PR=P-PL
(6)
樹的構(gòu)建關(guān)鍵在于每個(gè)節(jié)點(diǎn)的分裂φi,在每個(gè)節(jié)點(diǎn)會(huì)重復(fù)多次分裂,每次分裂左、右孩子節(jié)點(diǎn)之后,通過計(jì)算信息增益IG判斷每一次分裂φi的優(yōu)劣性,公式如下
φ*=argmaxIG(φi),1≤i≤n
(7)
(8)
(9)
式中 對于每個(gè)節(jié)點(diǎn)的分裂過程,采用類別比例計(jì)算熵。
本文采用了如下2種條件來確定葉子節(jié)點(diǎn),當(dāng)節(jié)點(diǎn)滿足如下任一條件,則視該節(jié)點(diǎn)為葉子節(jié)點(diǎn):1)節(jié)點(diǎn)達(dá)到預(yù)設(shè)定的深度;2)節(jié)點(diǎn)的信息增益值達(dá)到預(yù)設(shè)的閾值。直至所有樣本到達(dá)葉子節(jié)點(diǎn),訓(xùn)練終止。
為了驗(yàn)證方法的有效性,本文的圖像數(shù)據(jù)集采用Stanford Background數(shù)據(jù)庫[11],數(shù)據(jù)庫共715幅復(fù)雜的戶外場景圖片,每張圖像大小為320像素×240像素,并附有逐像素標(biāo)注好的正確語義圖片。每個(gè)像素被劃分一類,共8個(gè)類別,總計(jì)5 491萬多像素標(biāo)記樣本。類別分別為:天空、樹、馬路、草地、水、建筑物、山脈和前景對象。實(shí)驗(yàn)效果如圖3。圖3(a)為輸入的測試圖像,圖3(b)為預(yù)標(biāo)記的像素正確標(biāo)記的圖像,圖3(c)為本文算法預(yù)測的語義分割圖像,圖3(d)為本文算法語義標(biāo)注失準(zhǔn)圖像,以像素為單位,標(biāo)記錯(cuò)誤的像素為黑色,正確的為白色。圖下方8個(gè)色塊分別代表8個(gè)不同的類別。
圖3 實(shí)驗(yàn)效果
5.2.1 精度分析
隨機(jī)提取5組訓(xùn)練測試集進(jìn)行實(shí)驗(yàn),并計(jì)算圖像像素精確度,對所有測試樣本測試的結(jié)果得到的精確度與其他方法對比如表1所示。本文通過對邊緣檢測的方法得到的分割塊進(jìn)行訓(xùn)練,相對其他對像素進(jìn)行訓(xùn)練的方法[7~9],在把握對象輪廓上有明顯優(yōu)勢,使得在精確度上相對其他方法有明顯改善。
表1 像素精確度 %
5.2.2 魯棒性分析
根據(jù)上述實(shí)驗(yàn),可以得到每種類別的像素所預(yù)測的類別分布,如圖4所示??梢钥闯鎏炜?、樹、馬路、草地、建筑物以及前景對象這6類的像素均對本身的類別有較好的識(shí)別性。但是水類的精確度過低,并且大部分被誤認(rèn)為馬路類別,這是因?yàn)樗愂芄庹盏扔绊懞苋菀捉瓶闯神R路類。同時(shí),由于山脈類自身像素個(gè)數(shù)較少,導(dǎo)致精確度不夠,這也是實(shí)驗(yàn)的不足之處。
圖4 預(yù)測類別分布
通過取不同閾值的分割塊進(jìn)行訓(xùn)練,閾值的選取采用公共閾值[0.1 0.2 0.3 0.4 0.5]。計(jì)算每個(gè)閾值下的平均精度與全局像素邊界算法GPB[5]對比如圖5所示。實(shí)驗(yàn)證明:GPB算法在不同閾值下像素精確度相差較大,這是由于GPB在不同閾值下分割塊數(shù)量波動(dòng)較大,導(dǎo)致GPB精確度下滑。本文提出的BIS-ISS方法,能夠穩(wěn)定生成分割塊,所以在不同閾值的情況下算法均有良好的表現(xiàn)。
圖5 穩(wěn)定性對比
5.2.3 速率分析
采用BIS-ISS方法生成分割塊,保持了良好的分割效果的同時(shí),在速度上相對Arbelaez P[5]提出的GPB/UCM算法也有提升,對比如表2。表2基于斯坦福數(shù)據(jù)集[11],將現(xiàn)有算法與本文算法分割塊的生成速率對比。其中,S為單一尺度,M為多尺度。
表2 分割塊速率
5.2.4 細(xì)節(jié)分析
對于多尺度深度網(wǎng)絡(luò)方法[7],局限于將圖像分為多個(gè)固定大小的方框,并對其進(jìn)行語義預(yù)測,使得不能對事物對象的輪廓很好地概括,是其對像素最終語義標(biāo)注正確率相對較低的重要原因之一。對此,本文利用的結(jié)構(gòu)森林/UCM結(jié)構(gòu)對事物輪廓有很強(qiáng)的概括能力,圖6給出了部分語義分割效果,在對人物,車輛等對象的輪廓細(xì)節(jié)上有較好地描述,從而提升像素精確度。
圖6 細(xì)節(jié)分析
針對像素訓(xùn)練模型容易忽略的圖像空間結(jié)構(gòu)信息,無法描述對象輪廓,提出了一種基于分割塊的圖像語義分割算法。通過結(jié)構(gòu)森林/UCM結(jié)構(gòu),生成分割塊,再構(gòu)建條件隨機(jī)森林樹模型,訓(xùn)練得到語義分割結(jié)果。實(shí)驗(yàn)表明:該算法能夠減少生成圖像分割塊的時(shí)間損耗,同時(shí)擁有較好的魯棒性,并在最終的結(jié)果中獲得良好的精確度和對象輪廓信息。由于特征描述采用核描述提取特征,對于部分分割塊無法有效地提取特征,導(dǎo)致部分分割塊預(yù)測出現(xiàn)誤差,影響總體精確度。下一步的工作目標(biāo)將是提高有效特征的提取,以獲取更高的精確度及較好的語義分割效果。
參考文獻(xiàn):
[1] 王愛明,沈蘭蓀.圖像分割研究綜述[J].測控技術(shù),2000,19(5):1-6.
[2] 宋亞玲,歐聰杰.Tsallis熵的參數(shù)在圖像閾值分割中的應(yīng)用[J].傳感器與微系統(tǒng),2015,34(11):150-153.
[3] 鈕圣虓,王 盛,楊晶晶,等.完全基于邊緣信息的快速圖像分割算法[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2012,24(11):1410-1419.
[4] Vincent L,Soille P.Watersheds in digital spaces:An efficient algorithm based on immersion simulations[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1991,13(6):583-598.
[5] Arbelaez P,Maire M,Fowlkes C,et al.Contour detection and hierarchical image segmentation[J] .IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,33(5):898-916.
[6] 李昌興,黃艷虎,支曉斌,等.基于加速k均值的譜聚類圖像分割算法改進(jìn)[J].傳感器與微系統(tǒng),2016,35(9):137-140.
[7] 馬成虎,董洪偉.一種基于深度學(xué)習(xí)的多尺度深度網(wǎng)絡(luò)的場景標(biāo)注算法[J].計(jì)算機(jī)工程與科學(xué),2016,38(7):58-63.
[8] 孫麗坤,劉 波.基于分層區(qū)域合并的自然場景理解[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2014,23(11):116-121.
[9] Taygun K,Emonet R,Fromont E,et al.Contextually constrained deep networks for scene labeling [C]∥Proc of British Machine Vision Conference,2014:1.
[10] Dollar P,Zitnick C L.Structured forests for fast edge detec-tion[C]∥IEEE International Conference on Computer Vision(ICCV),2013:1841-1848.
[11] Gould S,Fulton R,Koller D.Decomposing a scene into geometric and semantically consistent regions[C]∥IEEE International Conference on Computer Vision(ICCV),2009:1-8.