摘要:本文研究了一種基于CRF的判別模型來學(xué)習(xí)不同類別標(biāo)簽的后驗(yàn)條件概率分布,并通過最大化該后驗(yàn)概率來得到最佳標(biāo)簽。CRF能量函數(shù)紋理模塊利用形狀濾波器來描述圖像的底層紋理特征以及基于周圍像素紋理特征的上下文信息;采用Joint-boosting算法迭代構(gòu)造一個強(qiáng)分類器對圖像進(jìn)行初步的標(biāo)注。在MRSC 21-object class數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)來評估我們建立的模型的性能。實(shí)驗(yàn)結(jié)果表明,該模型基于像素點(diǎn)的分割精度能達(dá)到71.6%,在識別準(zhǔn)確率以及分割效果方面,具有較強(qiáng)的競爭力。
關(guān)鍵詞:語義分割;條件隨機(jī)場;分段訓(xùn)練
中圖分類號:TP391.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 09-0000-03
一、引言
近些年,關(guān)于對象識別與分割的領(lǐng)域相當(dāng)活躍。CRF模型是一種基于無向圖的概率模型,用來對序列數(shù)據(jù)進(jìn)行標(biāo)記,具有很強(qiáng)的概率推理能力。與經(jīng)典的馬爾可夫隨機(jī)場模型(MRF)相比,CRF模型主要有兩個優(yōu)點(diǎn):第一,對觀測序列沒有獨(dú)立性要求;第二,能對長間隔序列的復(fù)雜上下文關(guān)系進(jìn)行描述。因此在本文中我們使用CRF模型來解決多類對象的識別與分割問題。我們的實(shí)驗(yàn)是在MSRC 21-object class數(shù)據(jù)集上完成的。該數(shù)據(jù)集由分屬于21類對象(包括:建筑物、草地、樹、牛、羊、天空、花、標(biāo)志、鳥、書、椅子、路、貓、狗等)的591張圖像組成。我們在數(shù)據(jù)庫隨機(jī)地選取45%的圖像作為訓(xùn)練集,10%的圖像作為驗(yàn)證集,10%的圖像作為測試集。
二、基于條件隨機(jī)場的多特征模型
給定一幅圖像,我們使用CRF模型來學(xué)習(xí)類別標(biāo)簽的條件分布。使用CRF我們能將形狀、紋理、顏色、位置和邊緣信息結(jié)合在整個的模型里。為了計算方便,我們對公式兩邊同時取對數(shù):
其中 表示紋理模塊, 表示顏色模塊, 表示位置模塊, 表示邊緣模塊, 是對應(yīng)于各部分的參數(shù)集。
(一)模塊描述與參數(shù)訓(xùn)練
該模型綜合考慮紋理、邊緣、顏色、位置四個特征,采用分段訓(xùn)練[11]的方法對模型中各模塊的參數(shù)進(jìn)行單獨(dú)的學(xué)習(xí),我們通過為各個模塊設(shè)置固定的權(quán)值來減輕各模塊組合構(gòu)成整個模型時出現(xiàn)的過擬合的問題。在本文中,我們?yōu)槲恢煤皖伾K增加了權(quán)值參數(shù),并且對它們分別進(jìn)行優(yōu)化。
1.紋理模塊
在本文中,紋理特征使用一種新穎的描述方法——形狀濾波器來描述像素點(diǎn)的底層紋理特征以及周圍像素點(diǎn)的基于紋理上下文信息,并對基于該特征的多個弱分類器通過Joint-boosting算法得到一個強(qiáng)分類器。紋理模塊作為單獨(dú)的一元模塊進(jìn)行處理。紋理模塊的特征函數(shù)描述如下:
其中參數(shù)集的定義以及學(xué)習(xí)過程在第三節(jié)將會有詳細(xì)描述。
2.邊緣模塊
在本文中,我們使用Potts模型來對邊緣特征建模。邊緣模塊的函數(shù)表達(dá)為:
其中, 是邊緣特征的特征函數(shù),用來描述相鄰像素間顏色值的差異。
通過在整數(shù)集中人工將兩個相關(guān)參數(shù)進(jìn)行比對并選擇的方法,以使在驗(yàn)證集上的錯誤率盡可能低來獲得,在本實(shí)驗(yàn)中,取 。
3.顏色模塊
在本文中,使用混合高斯模型(HMM)對顏色特征進(jìn)行建模,采用EM算法將圖像中顏色特征近似的像素點(diǎn)聚類為 個高斯部分。像素點(diǎn) 的顏色特征的條件概率由下式給出:
其中, 是用來表示像素點(diǎn) 所屬高斯部分的隨機(jī)變量, 與Σk分別是第 個高斯部分的均值與方差。顏色模塊的函數(shù)表達(dá)形式為:
其中,參數(shù) 表示第 個高斯部分屬于標(biāo)記為類別 的概率分布; 表示像素點(diǎn) 屬于第 個高斯部分的概率分布。
由于我們需要對每張圖像的顏色模塊的參數(shù)分別進(jìn)行學(xué)習(xí),每張圖像對應(yīng)得到的參數(shù)都是互不影響的,因此顏色模塊參數(shù)的學(xué)習(xí)工作不需要在訓(xùn)練集上完成。在測試時,使用條件迭代模式(ICM)對每幅圖像的顏色模塊參數(shù) 迭代地進(jìn)行學(xué)習(xí)。首先給定出一個初始的類別標(biāo)簽 ,然后顏色參數(shù) 使用下式進(jìn)行更新。參數(shù)被重新設(shè)定后,會推斷出新的類別標(biāo)簽,并反復(fù)迭代這個過程。
需要說明的是,為了避免過擬合的發(fā)生,我們對顏色模塊參數(shù) 和位置模塊參數(shù) 進(jìn)行狄利克雷平滑。在實(shí)驗(yàn)中, 經(jīng)過2次迭代得到。其中,對顏色特征進(jìn)行高斯混合建模時,通過比對,我們設(shè)置高斯部分的數(shù)目K=15;設(shè)置公式中狄利克雷平滑項(xiàng) =0.1,權(quán)值項(xiàng) =3。
4.位置模塊
在本文中,我們使用位置特征來描述類別標(biāo)簽對像素絕對位置的弱依賴關(guān)系,不同類別的對象在圖像中的絕對位置信息用位置特征來表示。位置模塊的函數(shù)表達(dá)形式為:
其中, 是像素點(diǎn)在歸一化圖像中的位置,由于我們采用相同尺寸大小的圖像集來進(jìn)行實(shí)驗(yàn),因此, 即圖像中像素點(diǎn)的絕對位置 。參數(shù) 表示在歸一化位置 處的各類別標(biāo)簽的概率分布。
對位置模塊參數(shù)的學(xué)習(xí),我們采用統(tǒng)計的方法來得到:
其中, 為訓(xùn)練集里所有圖像中在位置 處且類別標(biāo)簽為 的像素點(diǎn)的數(shù)目; 為訓(xùn)練集里所有圖像中在位置 處的像素點(diǎn)的數(shù)目;同樣的,通過手動比對,我們設(shè)置狄利克雷平滑項(xiàng) =1,權(quán)值項(xiàng) =0.1。
(二)使用CRF模型進(jìn)行推理
使用CRF模型對參數(shù)集進(jìn)行學(xué)習(xí)后,我們通過最大化條件概率來得到各像素的最佳標(biāo)簽。在我們研究的CRF模型中,初始的類別標(biāo)簽由紋理模塊的標(biāo)注結(jié)果來給出,然后使用圖割理論[10]對模型進(jìn)行優(yōu)化,從而實(shí)現(xiàn)準(zhǔn)確的分割。圖割是一種基于圖論的組合優(yōu)化技術(shù),能用來在對象識別中求解能量函數(shù)最小化的問題。利用圖割理論能將圖像映射為網(wǎng)絡(luò)圖,并建立關(guān)于類別標(biāo)簽的能量函數(shù),運(yùn)用最大流最小割算法對圖像進(jìn)行準(zhǔn)確分割。圖割能使能量函數(shù)的解收斂到全局最小。
CRF模型的條件后驗(yàn)概率 (公式3-5)的最大化等價于CRF模型能量值的最小化。因此我們將能量函數(shù)設(shè)置為:
其中μ為權(quán)重參數(shù)。對上式中能量函數(shù) 的最小化的工作,可用圖割理論中的alpha-expansion算法來高效解決。
三、紋理模塊的特征描述與分類器構(gòu)造
在CRF能量函數(shù)中,最重要的部分是我們描述紋理特征的模塊,在這個模塊中,不僅包含圖像的紋理特征,還包括基于紋理的上下文信息。
(一)紋理特征
使用紋理特征來實(shí)現(xiàn)圖像的語義分割。首先,用一個17維的濾波器組對訓(xùn)練集中的所有圖像進(jìn)行卷積運(yùn)算來進(jìn)行濾波,也就是對圖像進(jìn)行紋理編碼。然后對訓(xùn)練集中的所有圖像使用馬氏距離根據(jù)濾波器響應(yīng)進(jìn)行K均值聚類,圖像中的每個像素都被分配到最近的聚類中心,對每幅圖像中所有像素點(diǎn)標(biāo)記其相應(yīng)的聚類中心編號,得到相應(yīng)的紋理圖像。
像素點(diǎn)所屬的類別不只取決于本身的紋理信息,還取決于周圍像素的紋理信息,即紋理上下文信息。比如,某個像素周圍有類別“bird”的紋理特征出現(xiàn),那么該像素分類為“sky”的概率就比較大。
因此,我們建立一個既包括第i個位置的像素點(diǎn)自身紋理特征,又包括與周圍像素紋理上下文信息的一個特征函數(shù),定義如下:
其中,
其中,分類器 由多個弱分類器相加得到的。
(二)特征提取與分類器構(gòu)造方法
我們使用Joint-boosting算法來實(shí)現(xiàn)形狀濾波器參數(shù)的優(yōu)化選取以及強(qiáng)分類器 的構(gòu)造。該算法迭代地產(chǎn)生多個弱分類器,并求和得到一個強(qiáng)分類器。
利用形狀濾波器來描述像素點(diǎn)自身的底層紋理特征,以及周圍像素點(diǎn)的紋理特征的上下文信息,從而得到強(qiáng)分類器 。每個形狀濾波器由一個三元組 來描述,其中t紋理編號,r為矩形區(qū)域,能用一個四元組 來表示這個矩形區(qū)域,其中width和height為矩形的寬度和長度,x和y為矩形左上角相對于像素點(diǎn)i的偏移量,矩形r的四個頂點(diǎn)都是從固定的邊界集中隨機(jī)選取的。對應(yīng)于像素點(diǎn)i的形狀濾波器的響應(yīng)值為:
其中, 表示對應(yīng)于像素點(diǎn)i的紋理編號, 表示矩形區(qū)域的面積。
強(qiáng)分類器 的構(gòu)造,是通過Joint-boosting算法來得到的。我們將M個帶權(quán)值的弱分類器求和得到強(qiáng)分類器 :
其中,每個弱分類器 都是一個決策函數(shù):
其中, 為優(yōu)化選取得到的紋理特征, 為控制特征值的閾值函數(shù),N為共享該紋理特征的類別標(biāo)簽的集合。 在這里用來減弱各類別在樣本中分布不均勻的影響。每次迭代都會產(chǎn)生一個弱分類器 。我們能對下面的目標(biāo)函數(shù)進(jìn)行優(yōu)化:
其中,n為訓(xùn)練集中所有像素點(diǎn)的個數(shù), 為訓(xùn)練樣本中像素點(diǎn)i的類別標(biāo)簽,當(dāng)屬于共享標(biāo)簽集N時,其值為1;當(dāng)不屬于共享標(biāo)簽集N時,其值為-1。 權(quán)重控制項(xiàng),,對分錯的樣本相應(yīng)設(shè)置一個較大的權(quán)值,對分對的樣本相應(yīng)設(shè)置一個較小的權(quán)值,從而提高整個分類器的準(zhǔn)確率。
通過Joint-boosting算法就能迭代得到強(qiáng)分類器 ,并優(yōu)化得到參數(shù)集 。
在訓(xùn)練階段,逐個像素進(jìn)行訓(xùn)練需要大量的存儲空間和訓(xùn)練時間,這是不切實(shí)際的。因此,有效的取樣和隨機(jī)特征選擇是必不可少的。通過設(shè)置Δ×Δ網(wǎng)格(本文中選取5×5網(wǎng)格),計算網(wǎng)格的濾波器響應(yīng)將會大大減少計算開銷。在測試階段,形狀濾波器能逐個像素進(jìn)行計算以使每個像素都能實(shí)現(xiàn)準(zhǔn)確的分類。上述采樣過程會產(chǎn)生小程度的平移,將會導(dǎo)致對象分割時邊界的不準(zhǔn)確性。但是,但應(yīng)用在CRF中時,邊緣模塊和顏色模塊都會準(zhǔn)確確定對象的邊緣。
即使采用子采樣方式,在boosting的每一次迭代中對所有的紋理特征進(jìn)行窮舉搜索都是不可能實(shí)現(xiàn)的。但是,我們的算法只對特征中的一小部分(τ?1)進(jìn)行搜索,并在每一次迭代中隨機(jī)選取。設(shè)定τ=0.003,幾千次的迭代后,基本上能保證對所有的特征都至少測試過一次。