趙樹梅
(煙臺理工學(xué)院,山東煙臺)
近年來,視覺顯著性模型在圖像分割任務(wù)中得到了廣泛應(yīng)用。視覺顯著性指的是圖像中那些在人類視覺感知中具有顯著性的區(qū)域,通常與前景目標(biāo)相關(guān)。利用視覺顯著性可以幫助分割算法更好地捕捉目標(biāo)邊界并減少背景噪聲的干擾。與此同時,圖割作為一種經(jīng)典的圖像分割方法,具有良好的分割準(zhǔn)確性和可擴(kuò)展性。將視覺顯著性與圖割相結(jié)合,可以進(jìn)一步提高圖像分割的性能。本文旨在提出一種基于視覺顯著性與圖割的圖像分割算法,以解決傳統(tǒng)分割方法在復(fù)雜場景下的局限性。
基于低級特征的視覺顯著性模型是一種常用的方法,其基于圖像的低級特征(如顏色、紋理和邊緣等)來推測圖像中的顯著性區(qū)域。這些低級特征通常能夠捕捉到人眼在感知圖像時的注意力變化。顏色特征是基于人眼對顏色的敏感性來計(jì)算圖像顯著性的一種方法。通過比較圖像中的像素與整體顏色分布之間的差異,可以獲得顯著性信息[1]。例如,一些算法會將與周圍像素具有較大顏色差異的像素標(biāo)記為顯著性區(qū)域,因?yàn)檫@些顏色較為突出。
紋理特征是通過分析圖像的局部紋理特性來計(jì)算顯著性的。通常情況下,紋理變化較大的區(qū)域更容易引起注意,因此紋理特征在顯著性模型中得到了廣泛應(yīng)用。例如,Gabor 濾波器可以捕捉到圖像中的紋理信息,通過計(jì)算濾波后的響應(yīng)來判斷顯著性。邊緣特征是指圖像中的邊緣信息,由于邊緣是圖像中物體之間的界限,因此在顯著性模型中具有重要作用。通過檢測圖像的邊緣并分析其特性,可以得到圖像的顯著性信息。例如,使用Canny算子可以提取出圖像中的邊緣,并將其作為顯著性區(qū)域的候選。
綜合利用顏色、紋理和邊緣等低級特征,可以構(gòu)建一個基于低級特征的視覺顯著性模型。這些模型通常使用各個特征的加權(quán)組合來計(jì)算顯著性值,并將較高顯著性值的區(qū)域作為顯著性區(qū)域。例如,將顏色、紋理和邊緣特征進(jìn)行融合,可以通過計(jì)算特征相似性加權(quán)和來確定顯著性值。舉例分析:對于一張自然風(fēng)景圖片,基于低級特征的視覺顯著性模型可以從圖像中提取顏色、紋理和邊緣信息。假設(shè)在圖像中存在一片明亮的紅色花朵,該模型可以檢測到花朵的顏色與周圍環(huán)境的差異較大,紋理比周圍區(qū)域更多樣化,并且花朵邊緣清晰,因此給出較高的顯著性值,將花朵標(biāo)記為顯著性區(qū)域。這樣的顯著性信息可用于后續(xù)的圖像分割任務(wù)。視覺顯著性模型如圖1 所示。
圖1 視覺顯著性模型
隨著深度學(xué)習(xí)的發(fā)展,基于深度學(xué)習(xí)的視覺顯著性模型在圖像分割任務(wù)中取得了重大突破。深度學(xué)習(xí)模型可以自動從大規(guī)模數(shù)據(jù)集中學(xué)習(xí)到圖像中的高級特征,具有較強(qiáng)的表達(dá)能力和泛化能力[2]?;谏疃葘W(xué)習(xí)的視覺顯著性模型通常采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行特征提取和顯著性預(yù)測。CNN 可以學(xué)習(xí)到圖像的局部和全局特征,能夠捕捉到更高層次的語義信息。一般來說,基于深度學(xué)習(xí)的視覺顯著性模型的設(shè)計(jì)可以分為兩個主要步驟:特征提取和顯著性預(yù)測。
在特征提取階段,可以使用預(yù)訓(xùn)練的深度網(wǎng)絡(luò)(如VGG、ResNet 等)作為特征提取器,通過提取網(wǎng)絡(luò)的中間層特征作為輸入。這樣的特征通常包含了豐富的語義信息,可以更好地表示圖像的顯著性。除了傳統(tǒng)的RGB圖像特征外,還可以使用多模態(tài)特征,如深度特征、顏色分布特征等。特征提取過程可以表示為:
[F_{ ext{features}}= ext{CNN}(I)]
其中,(F_ { ext {features}}) 表示提取的特征,( ext{CNN})表示用于特征提取的卷積神經(jīng)網(wǎng)絡(luò),(I)是輸入圖像。在顯著性預(yù)測階段,可以通過添加適當(dāng)?shù)姆诸惼骰蚧貧w器來預(yù)測圖像中的顯著性分布??梢栽诰W(wǎng)絡(luò)末端添加全連接層和激活函數(shù),輸出每個像素的顯著性概率。顯著性預(yù)測可以表示為:
[M= ext{Classifier}(F_{ ext{features}})]
其中,(M)表示顯著性映射,( ext{Classifier})表示用于顯著性預(yù)測的分類器?;谏疃葘W(xué)習(xí)的視覺顯著性模型的優(yōu)勢在于其能夠利用大規(guī)模的標(biāo)注數(shù)據(jù)進(jìn)行端到端的訓(xùn)練,從而學(xué)習(xí)到具有較強(qiáng)泛化能力的顯著性模型。此外,該模型還能夠根據(jù)特定任務(wù)需求進(jìn)行靈活調(diào)整和優(yōu)化。例如,對于一張汽車駕駛場景的圖片,基于深度學(xué)習(xí)的視覺顯著性模型可以通過訓(xùn)練后的深度網(wǎng)絡(luò),自動學(xué)習(xí)到汽車、行人等顯著性對象的特征表示。該模型能夠?qū)⒆⒁饬性隈{駛場景中的主要物體上,例如汽車、行人,而將背景、建筑等非顯著性區(qū)域置于次要位置。這樣的顯著性信息可以為目標(biāo)檢測和駕駛輔助系統(tǒng)提供重要的先驗(yàn)知識。基于深度學(xué)習(xí)算法模型如圖2 所示。
圖2 基于深度學(xué)習(xí)圖像分割模型算法
圖割算法是一種用于圖像分割的方法,其原理基于圖論中的最小割/最大流問題。圖割的目標(biāo)是將圖像分割成若干個互不重疊的區(qū)域,使得相似的像素歸為一類。將圖像表示為一個圖(Graph)的形式,其中圖的節(jié)點(diǎn)表示圖像的像素,邊表示像素之間的關(guān)系。常見的圖表示方式是使用鄰接矩陣或鄰接表。圖割算法通過計(jì)算圖中的邊的權(quán)重來評估像素之間的相似性。一般來說,相似的像素之間的邊權(quán)重較低,不相似的像素之間的邊權(quán)重較高。圖割算法通過最小割或最大流的方式將圖像分割成兩個部分。最小割是指找到一條割(Cut),使得割中邊的權(quán)重之和最小。最大流是指在圖中找到一個流(Flow),使得從源節(jié)點(diǎn)到匯節(jié)點(diǎn)的流量最大。最小割等價于最大流問題。通過調(diào)整割的位置,圖割算法可以將圖像分成多個區(qū)塊,從而實(shí)現(xiàn)圖像的分割。例如有一幅圖像,其中包含一個紅色蘋果和一個綠色橘子。我們可以將整個圖像視為一個圖,并用邊連接相鄰的像素。然后,通過計(jì)算邊的相似性來找到最小割,從而將圖像分割成紅色蘋果和綠色橘子兩個部分。圖割算法能夠根據(jù)像素之間的相似性自動完成這個分割過程。
為了提高圖割算法的效率和精度,人們進(jìn)行了許多優(yōu)化工作,源于圖割算法的種子點(diǎn)選擇。在圖割算法中,初始種子點(diǎn)的選擇對結(jié)果有很大的影響。一種常見的優(yōu)化是通過手工選取或自動定位種子點(diǎn),以確保種子點(diǎn)落在正確的目標(biāo)區(qū)域上。圖割算法的圖構(gòu)建和邊權(quán)重計(jì)算也是重要的優(yōu)化方向[3]。通常,可以根據(jù)像素的顏色、紋理、梯度等特征來計(jì)算像素之間的相似性,并將其作為邊的權(quán)重。通過設(shè)計(jì)合適的相似性度量和權(quán)重計(jì)算方法,可以提高圖割算法的準(zhǔn)確性和魯棒性。圖割算法中的圖割過程也可以進(jìn)行優(yōu)化。另一種常見的優(yōu)化方法是使用迭代優(yōu)化技術(shù),例如圖割迭代法(Graph-cuts Iteration)和α- 擴(kuò)展算法(α-expansion algorithm)。這些算法通過多次迭代優(yōu)化割的位置,從而逐步改善分割結(jié)果。
針對大規(guī)模圖像分割問題,可以使用近似算法來加速計(jì)算。例如,基于圖割的超像素分割算法(Graph-cuts-based superpixel segmentation)將圖像分割成多個超像素塊,并在這些塊上進(jìn)行圖割計(jì)算,從而大大減少了計(jì)算量。還可以結(jié)合其他算法和技術(shù)進(jìn)行圖割算法的優(yōu)化。例如,可以使用機(jī)器學(xué)習(xí)技術(shù)來輔助圖像分割過程,通過訓(xùn)練分類器來指導(dǎo)割的過程。此外,還可以將圖割算法與其他圖像處理技術(shù),如邊緣檢測、區(qū)域生長等方法結(jié)合起來,從而提高圖割算法的效果和穩(wěn)定性。圖割算法通過最小割/最大流原理實(shí)現(xiàn)圖像分割,通過優(yōu)化算法的種子點(diǎn)選擇、圖構(gòu)建和邊權(quán)重計(jì)算、圖割過程等方面,可以提高算法的效率和精度。這些優(yōu)化方法不僅可以應(yīng)用于圖像分割領(lǐng)域,還可以推廣到其他相關(guān)領(lǐng)域,如計(jì)算機(jī)視覺、圖像處理等。圖割算法優(yōu)化方法見表1。
表1 圖割算法優(yōu)化方法
視覺顯著性區(qū)域檢測是一項(xiàng)用于識別圖像中突出、吸引人注意力的區(qū)域的技術(shù)。其目標(biāo)是模擬人類視覺系統(tǒng)的關(guān)注機(jī)制,準(zhǔn)確地找出圖像中的顯著性區(qū)域。常見的視覺顯著性區(qū)域檢測方法包括基于局部對比度、全局對比度、頻域分析以及機(jī)器學(xué)習(xí)方法等。舉例來說,基于局部對比度的方法使用圖像中每個像素周圍的鄰域信息來計(jì)算像素的顯著性分?jǐn)?shù)。通過比較像素與其鄰域的顏色、紋理、亮度等特征差異,可以判斷像素的顯著性。例如,一些像素與其周圍相似的像素相比具有更高的對比度,因此被認(rèn)為是顯著性區(qū)域的一部分。視覺顯著性區(qū)域檢測如圖3。
圖3 視覺顯著性區(qū)域檢測
圖割分割是一種圖像分割方法,它將圖像分成不同的區(qū)域或?qū)ο?。圖割分割過程基于圖像的像素間關(guān)系以及預(yù)先提供的用戶定義的標(biāo)記信息來確定哪些像素屬于同一分割區(qū)域[4]。主要步驟包括圖構(gòu)建和最小割求解。在圖構(gòu)建中,將圖像中的像素視為圖中的節(jié)點(diǎn),并連接彼此相鄰的像素。這創(chuàng)建了一個具有像素連接關(guān)系的圖。然后,為圖中的邊分配權(quán)重,權(quán)重反映了相鄰像素之間的相似性。這些權(quán)重可以基于像素之間的顏色、紋理、空間距離等特征計(jì)算得出。在最小割求解中,通過定義一些節(jié)點(diǎn)作為種子節(jié)點(diǎn),并給它們分配預(yù)先定義的標(biāo)記(屬于前景或背景),通過最小化割來確定哪些像素被分配給前景或背景。最小割求解可以通過圖論算法,如Ford-Fulkerson 算法或最大流最小割算法來實(shí)現(xiàn)。這樣就可以根據(jù)用戶定義的標(biāo)記信息進(jìn)行有效的圖像分割。圖割分割的具體步驟見表2。
表2 圖割分割的具體步驟
分割結(jié)果后處理技術(shù)旨在進(jìn)一步提高分割結(jié)果的質(zhì)量,并消除可能存在的噪聲或錯誤分割。常見的后處理技術(shù)包括邊緣平滑、連通性分析和形態(tài)學(xué)運(yùn)算等。邊緣平滑是一種常用的后處理方法,可以通過對分割結(jié)果中的邊緣進(jìn)行平滑處理來消除邊緣中的噪聲或不連續(xù)性。一種常見的方法是使用濾波器或平滑算子對邊緣進(jìn)行模糊處理,以減少邊緣的銳度和噪聲。
連通性分析可以通過將相鄰的像素或區(qū)域連接在一起來修復(fù)分割中的不連續(xù)性。這可以通過像素或區(qū)域的連接性和空間鄰近性來實(shí)現(xiàn)。例如,可以將相鄰的像素合并成一個區(qū)域,或者將不相鄰但具有相似特征的區(qū)域合并在一起。形態(tài)學(xué)運(yùn)算是一種基于像素值的形態(tài)學(xué)操作,用于消除分割結(jié)果中的噪聲或填補(bǔ)分割中的空洞。常見的形態(tài)學(xué)運(yùn)算包括膨脹和腐蝕[5]。膨脹可以擴(kuò)張分割結(jié)果的區(qū)域,填充空洞,而腐蝕可以收縮區(qū)域,去除噪聲或細(xì)小的分割錯誤。這些分割結(jié)果的后處理技術(shù)可以幫助提高分割結(jié)果的準(zhǔn)確性和一致性,使得分割結(jié)果更符合實(shí)際場景。
本文提出了一種基于視覺顯著性與圖割的圖像分割算法,并通過實(shí)驗(yàn)證明了該算法的有效性和準(zhǔn)確性。該算法在捕捉目標(biāo)邊界和減少背景噪聲方面取得了顯著的改進(jìn)。然而,仍存在一些挑戰(zhàn),例如算法在復(fù)雜場景下的魯棒性和計(jì)算效率等方面的改進(jìn)。未來的研究可以進(jìn)一步探索如何結(jié)合更多的上下文信息和深度學(xué)習(xí)技術(shù)來提升圖像分割算法的性能??傊?,本文所提出的基于視覺顯著性與圖割的圖像分割算法在實(shí)際圖像處理任務(wù)中具有潛在的應(yīng)用價值,并為進(jìn)一步研究圖像分割問題提供了有益的啟示和參考。