陸宏菊
(濟南市技師學(xué)院 信息工程學(xué)院,濟南 250115)
圖像分割是計算機視覺中最基礎(chǔ)的研究問題之一,其目的是根據(jù)相關(guān)性原則將圖像分成若干互不重疊的區(qū)域,并將感興趣的區(qū)域與背景標(biāo)記出來[1]。圖像分割算法中,交互式分割研究相對比較成熟,包括基于邊界的和基于區(qū)域的方法[2]。其中,基于邊界的方法通過用戶獲得邊界信息,例如Snake 模型[3]、GAC 模型[4]和LSM 模型[5]?;趨^(qū)域的方法預(yù)定義或交互標(biāo)記不同的目標(biāo)和背景,通過相似性計算完成分割,如Intelligent Paint[6]和Marker Drawing[7]。為了降低用戶干預(yù),Dambreville等人[8]提出KPCA 算法在GAC 中引入形狀先驗?zāi)P?。Liao 等人[2]提出結(jié)合顯著性特征和星型形狀先驗進(jìn)行前景特征點定位。盡管已經(jīng)獲得較好的分割結(jié)果,交互式分割算法仍存在時間長、操作繁瑣和結(jié)果易受標(biāo)記點位置影響的問題。
在上述方法中,局部特征相似性計算在像素級分割算法中起著關(guān)鍵的作用,但也隨即帶來了較高的計算代價。對于某些參數(shù)依賴和模型依賴的算法,數(shù)據(jù)標(biāo)簽化成本也很高,且只適用于特定種類和指定的數(shù)據(jù)集。針對這些問題,本文提出一種無監(jiān)督學(xué)習(xí)的多模態(tài)特征語義分割模型。受FCN 模型的啟發(fā),多種像素級特征(顏色、顯著性、空間、深度等)聯(lián)合進(jìn)行圖像表示能夠獲得更加完整的圖像描述。針對不同類型的圖像,多種特征在圖像分割解空間的貢獻(xiàn)度不同。本文提出特征選擇矩陣S,能夠?qū)⒍嗄B(tài)特征在解空間進(jìn)行映射,從而獲得低維、平滑的解平面用于圖像分割,通過引入語義檢索模型簡化求解難度。
目前,出現(xiàn)了眾多針對圖像特征的描述子,例如顯著性特征、景深特征、空間特征和顏色特征等。這些特征針對圖像的不同側(cè)面進(jìn)行了描述和表示。在圖像分割中,采用顯著性特征表示對于包含有明顯主題物體的圖像、采用景深特征表示對于具有距離深度的圖像非常有效。每一種特征單獨表示能對于相關(guān)類型圖像具有良好的分割效果。本文提出假設(shè):采用多模態(tài)特征融合的方法進(jìn)行圖像分割,相對于單一特征描述,分割效果則會更佳。因此,本文提出基于多模態(tài)特征的無監(jiān)督學(xué)習(xí)算法進(jìn)行圖像前景和背景的分割。
特征合并是多特征學(xué)習(xí)算法常用的策略,即將不同模態(tài)的特征通過合并(多維特征組成一維特征)進(jìn)行分割訓(xùn)練。這種方法簡單易行,但是未考慮不同模態(tài)特征對于最終分割問題解平面的貢獻(xiàn)度不同。比如說在空曠風(fēng)景照中景深特征會對于區(qū)分前景和背景貢獻(xiàn)度較大;對于人的肖像照,顯著性特征和顏色特征貢獻(xiàn)度較大。圖像及其多模態(tài)特征表示如圖1 所示。因此本文提出通過學(xué)習(xí)策略獲得特征選擇矩陣S。針對不同類型的圖像,矩陣S能夠合理地將不同模態(tài)特征在分割解空間內(nèi)進(jìn)行投影,使得貢獻(xiàn)度大的特征能夠在投影中占據(jù)主導(dǎo)。
圖1 圖像及其多模態(tài)特征表示Fig.1 The image and multi-modality representation of the features
在規(guī)模為n的鄰域內(nèi),像素多模態(tài)特征Ω可以表示為所有特征組成的高維向量,Ω={Cri,j,Cgi,j,Cbi,j,Xposition,Yposition,ftexture,flightness,fsaliency,…}。每個像素的特征向量表示為n鄰域范圍內(nèi)所有像素的特征集合。本文中提出的“語義”與FCN中的語義有所不同,本文中主要是指在高維特征空間內(nèi),針對目標(biāo)函數(shù)的特征的投影,也就是本文提出的特征語義。因此,可以將分割問題表示為:
其中,tr(.)為跡運算。經(jīng)過化簡,L∈?(n+1)×(n+1)體現(xiàn)了在n維空間內(nèi)的相似度度量目標(biāo)函數(shù)。對于L的估算仍舊很難進(jìn)行,經(jīng)過分析發(fā)現(xiàn),雖然不同的特征對于不同類型圖像的貢獻(xiàn)度不同,但是可以認(rèn)為其貢獻(xiàn)度皆為非負(fù)的。本文研究提出存在一個潛在的特征選擇矩陣S,通過S可以將多模態(tài)特征進(jìn)行全局映射,即:Ωpi=ΩSn。
因此,公式(1)可以進(jìn)一步化簡為:
將公式(1)帶入到公式(2)中可以得到:
本文采用文獻(xiàn)[9]中的方法對式(3)進(jìn)行求解。學(xué)習(xí)出的模型(Φk(x),λk)可以用來將高維的特征矩陣Ω映射到由用戶指定相似距離閾值θ的解空間上。
經(jīng)過式(3)可以針對目標(biāo)圖像學(xué)習(xí)出其相應(yīng)的特征模式(modes),并尋找到相似度最小的像素集,如圖2 所示。
圖2 目標(biāo)興趣點集Fig.2 Object interesting pixels set
針對目標(biāo)興趣點集完成自動分割,首先利用檢測出的興趣點產(chǎn)生種子區(qū)域。通過圖像的顏色距離dc和位置距離ds[10],將與興趣點像素“同質(zhì)”的像素計算出來。因此,本文提出的算法代碼的設(shè)計表述如下。
輸入:圖像I,特征n,距離閾值θ
輸出:分割結(jié)果
3:[特征向量,特征值]←Ln;
4:訓(xùn)練學(xué)習(xí)出特征模式,從而得到興趣點;
5:通過式(3)和距離閾值,根據(jù)興趣點得到興趣區(qū)域;
6:根據(jù)興趣區(qū)域獲得分割結(jié)果。
本文實驗環(huán)境為Windows 10,I9CPU,32GB 內(nèi)存,英偉達(dá)GTX 1080Ti 11G。實驗選取圖像的顯著性[11]、Focal 長度[12]、空間特征[13]和顏色直方圖[14]四種不同模態(tài)的圖像特征進(jìn)行對比實驗。實驗選用的是BSD 數(shù)據(jù)集。與3 種最新方法,即高斯混合模型(GMM)[15]、Level-set 算法[16]和LSC 超像素分割算法[17]進(jìn)行定性比較。
本文進(jìn)行了分割結(jié)果的可視化定性比較,對比結(jié)果如圖3 所示。圖3(a)是從BSD500 數(shù)據(jù)集選定的待分割圖像。圖3(b)受復(fù)雜背景圖像的影響,有部分區(qū)域被誤分類為前景區(qū)域,對于邊界保持也并不令人滿意。圖3(c)受初始位置的選擇影響,當(dāng)初始位置選擇合理時,分割結(jié)果較好,例如“鴕鳥”圖像;反之則不然,例如“飛機”圖像。圖3(d)為LSC超像素算法的結(jié)果,在前景物體分割上出現(xiàn)錯誤。圖3(e)為本文算法、采用了多模態(tài)的特征,對于2幅“飛機”圖像,景深特征的作用可以確保前景邊界信息的完整?!袄先恕眻D像中,顯著性特征能夠有效分割出老人與椅子背景區(qū)域。本節(jié)實驗呈現(xiàn)結(jié)果并不是在相同模式下,所有代碼均來自于作者本人自主研發(fā)。經(jīng)過視覺對比可以明顯看出,本文方法在場景圖像、人物圖像、動物圖像等不同類型圖像前景背景分割中均獲得了理想的結(jié)果。
圖3 定性對比Fig.3 The qualitative comparison
在定量對比方面,本文主要設(shè)置2 組實驗:采用參數(shù)PRI、GCE和VOI指標(biāo)的對比;采用F -measure與BSD500 數(shù)據(jù)集中的標(biāo)定數(shù)據(jù)進(jìn)行對比。對此擬展開探討分述如下。
(1)采用PRI、GCE、VOI指標(biāo)的對比。在BSD500圖庫中抽取30 幅圖像進(jìn)行定量分析對比實驗。采用PRI[18](probabilistic rand index)、GCE[19](Global Consistency Error)和VOI(Variation of Information)評價指標(biāo)進(jìn)行評估[20]。其中,PRI計算分割結(jié)果與真實標(biāo)記相一致的像素數(shù)的比例,其值越大、分割結(jié)果與參考值間的屬性共生一致性也就越好。VOI是信息差異指標(biāo),計算像素點分割產(chǎn)生的信息熵的變化程度。在概率論和信息論中,信息或共享信息距離的變化是對2 個聚類(元素分區(qū))間距離的度量,且與相互信息密切相關(guān);實際上,這就是一個包含相互信息的簡單線性表達(dá)式,其值越小越好。GCE衡量分割結(jié)果之間互相包括的概率,其值越小越好。本次研究中,計算50 次的平均值作為最終結(jié)果,見表1。由表1 中可以看出,本文算法在3 項指標(biāo)上皆高于文中選擇的對比方法。
表1 PRI、GCE和VOI 的平均值Tab.1 The average value of PRI,GCE and VOI
(2)采用F -measure指標(biāo)的對比。采用F -measure衡量本文分割方法與BSD500 中提供的6 個人工標(biāo)注數(shù)據(jù)之間的性能比較,數(shù)學(xué)定義式具體如下:
其中,β2=0.3[21]。
與BSD 標(biāo)定數(shù)據(jù)性能對比結(jié)果見表2。在表2中,本文從BSD500 數(shù)據(jù)集中選取20 個圖像,求其平均準(zhǔn)確率、召回率和F -measure數(shù)值。通過實驗可以看出,這些指標(biāo)大多超過95%。實驗結(jié)果表明本文方法的效果接近BSD500 所提供的6 個人工標(biāo)注分割結(jié)果。
表2 與BSD 標(biāo)定數(shù)據(jù)性能對比Tab.2 The quantitative comparison with BSD labels
深度學(xué)習(xí)模型是當(dāng)下研究熱點,本文思路也是受深度模型多層次、多特征加工啟發(fā)產(chǎn)生,因此,本文針對目前廣泛應(yīng)用的FCN[22]進(jìn)行對比實驗。FCN 通過梯度累積、正則化loss函數(shù)和標(biāo)準(zhǔn)化動量方式進(jìn)行訓(xùn)練,比較結(jié)果如圖4 所示。本次研究中,選取了FCN8s(2 stream,8 pixel prediction)、FCN16s(2 stream,16 pixel prediction)和FCN32s(1 stream,32 pixel prediction)模型進(jìn)行對比實驗。
由圖4 可知,F(xiàn)CN8s 模型效果明顯好于其他2個。但是由于FCN 模型的主要目的是進(jìn)行語義分割(Semantic segmentation),即將具有相同語義的物體進(jìn)行分割和標(biāo)注。因此,在對于邊緣分割準(zhǔn)確率方面也并不精確。在這一方面,本文算法的結(jié)果較FCN 更加準(zhǔn)確。
圖4 FCN 模型分割對比Fig.4 FCN models segmentation comparison
在1.3 節(jié)提到的本文算法中,相似度距離閾值θ為超參,表示相似度距離,也就是當(dāng)相似度距離小于θ就表示2 個像素同質(zhì),否則表示2 個像素異質(zhì)。
參數(shù)分析結(jié)果如圖5 所示。圖5中,圖5(a)~(c)中的各子圖從左至右的θ取值依次為8,9,10,11,12。從圖5 中可以看出,當(dāng)θ取值趨向于0,檢測到的興趣點像素就非常多,但包含有大量的噪聲,從而出現(xiàn)過分割。當(dāng)θ取值很大時,相似度距離會比較嚴(yán)格,檢測出的興趣點會減少,從而出現(xiàn)欠分割現(xiàn)象??傊线m的相似度距離閾值θ對于結(jié)果是非常重要的,本文中選取的θ在[9,11]之間,一般情況下θ=10。
圖5 參數(shù)分析結(jié)果Fig.5 The parameters analysis results
本文提出一種基于無監(jiān)督的多模態(tài)特征映射策略,將傳統(tǒng)的圖像分割問題轉(zhuǎn)化為在全局范圍內(nèi)尋找相似距離最小的最優(yōu)化問題。通過引入特征選擇矩陣和語義哈希模型,簡化了計算復(fù)雜度,降低了計算代價,實現(xiàn)了對不同種類圖像的前景-背景分割。通過與其他無監(jiān)督算法和深度學(xué)習(xí)模型進(jìn)行對比,驗證了本文方法的可行性。
本文方法中還有很多需要改進(jìn)的地方。首先,雖然多模態(tài)特征映射采用的是無監(jiān)督學(xué)習(xí)策略,但相似度距離閾值θ是由用戶指定的。如何能夠在學(xué)習(xí)過程中將閾值參數(shù)加入到目標(biāo)函數(shù)中是未來工作亟待解決的問題。通過引入顯著性、景深、空間和顏色特征,本文方法展現(xiàn)出對于多類型圖像分割的魯棒性。在當(dāng)前框架下,如何引入新的特征能夠適應(yīng)更加泛化的圖像類型將成為本文后續(xù)工作的重點。