摘 要:文中提出了一種新的基于小波特征聚類(lèi)的圖像二值化方法,它能有效地解決傳統(tǒng)圖像二值化方法受紋理和光照變化干擾較大的問(wèn)題。文章首先分析了現(xiàn)有圖像二值化方法的優(yōu)缺點(diǎn),提出結(jié)合小波變換和拉普拉斯-高斯變換來(lái)提取紋理特征,將它們作為像素聚類(lèi)的輸入向量,以達(dá)到更好的二值化效果。此外,通過(guò)采樣輸入來(lái)代替完整的輸入,顯著提升了算法的計(jì)算效率,同時(shí)也降低了圖像中極端變化區(qū)域?qū)φw二值化效果的影響。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,所提出的方法運(yùn)行速度較快;在保留原始圖像信息的同時(shí),能較好地處理紋理和光照信息。與參考基準(zhǔn)方法相比,該方法峰值信噪比較高,并且視覺(jué)效果有顯著的提升。
關(guān)鍵詞:圖像二值化;小波濾波器;小波特征聚類(lèi);拉普拉斯-高斯濾波器;紋理特征;K-Means聚類(lèi)
中圖分類(lèi)號(hào):TP751.1 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2025)03-0-04
0 引 言
隨著科技的發(fā)展,數(shù)字圖像在計(jì)算機(jī)視覺(jué)領(lǐng)域中變得越來(lái)越重要,數(shù)字圖像的二值化技術(shù)也在圖像處理領(lǐng)域得到了廣泛應(yīng)用[1-2]。圖像二值化是指將彩色或灰度圖像轉(zhuǎn)化為二值圖像,由此可以簡(jiǎn)化后續(xù)的圖像處理過(guò)程并提高計(jì)算效率,同時(shí)也有助于提取關(guān)鍵信息。目前圖像二值化技術(shù)常用于文檔掃描和識(shí)別OCR的預(yù)處理,機(jī)器視覺(jué)中基于輪廓和形狀的目標(biāo)識(shí)別預(yù)處理,以及對(duì)彩色圖像黑白顯示和打印的優(yōu)化等領(lǐng)域。圖像二值化算法將圖像中的像素值設(shè)定為0或255,從而將圖像處理成黑白兩種顏色。由于現(xiàn)實(shí)圖像的多樣性,圖像紋理和光照變化會(huì)對(duì)當(dāng)前的主要圖像二值化方法產(chǎn)生一定的影響。如果紋理較為復(fù)雜,那么在二值化過(guò)程中可能會(huì)出現(xiàn)更多的誤判,導(dǎo)致一些重要信息被遺漏。如果光照角度和強(qiáng)度發(fā)生變化會(huì)影響圖像的整體色調(diào)和亮度,導(dǎo)致圖像變得過(guò)于明亮或過(guò)于暗淡,二值化過(guò)程中也會(huì)導(dǎo)致一些重要的信息丟失。這是關(guān)于圖像二值化的一個(gè)重要研究問(wèn)題,而當(dāng)前主要的圖像二值化算法并不能很好地處理紋理和光照問(wèn)題。本文旨在提出一種基于小波變換聚類(lèi)的圖像二值化方法,以消除紋理和光照變化帶來(lái)的干擾。這種方法不僅能夠保持二值化的高效性和準(zhǔn)確性,還能夠應(yīng)對(duì)復(fù)雜場(chǎng)景下的圖像處理需求。通過(guò)對(duì)算法的實(shí)際應(yīng)用和性能評(píng)估,證實(shí)了所提出方法的有效性和優(yōu)越性。
1 相關(guān)研究
OSTU算法[3-4]是一種自適應(yīng)的全局二值化方法,算法的核心思想是在一個(gè)由灰度級(jí)數(shù)組成的直方圖內(nèi),對(duì)每個(gè)灰度級(jí)數(shù)計(jì)算累積概率,動(dòng)態(tài)地確定最佳閾值,這個(gè)最佳的閾值使得圖像中的前景和背景有足夠的區(qū)分度。OSTU全局二值化能更好地保留圖像的前景信息,且具有較好的視覺(jué)效果。
局部自適應(yīng)閾值OSTU方法[5-6]在全局二值化和局部二值化之間找到了一種平衡。這種方法的主要思路是對(duì)于每個(gè)像素,計(jì)算其相鄰像素的局部OSTU統(tǒng)計(jì)特性,然后根據(jù)這些特性來(lái)確定局部最佳閾值進(jìn)行二值化處理,局部自適應(yīng)閾值OSTU方法能夠在保留圖像結(jié)構(gòu)和細(xì)節(jié)的基礎(chǔ)上提高二值化的準(zhǔn)確性。
基于聚類(lèi)的圖像二值化方法[7-9]將圖像中的像素聚類(lèi)成兩個(gè)類(lèi)別,每個(gè)類(lèi)別內(nèi)部像素點(diǎn)的顏色相近,而類(lèi)和類(lèi)之間則差異明顯。這種方法的二值化結(jié)果受到聚類(lèi)算法的選擇、算法輸入數(shù)據(jù)的選擇等因素的影響,且由于聚類(lèi)算法具有迭代特征,需要較高的計(jì)算成本。
基于深度學(xué)習(xí)的二值化方法[10-11]采用深度神經(jīng)網(wǎng)絡(luò)來(lái)對(duì)輸入圖像進(jìn)行自動(dòng)特征提取和二值化計(jì)算,其大多應(yīng)用于古籍文本圖像、醫(yī)學(xué)圖像、二值化等較為抽象的領(lǐng)域。除了底層的二值化操作,更多地考慮了語(yǔ)義的知識(shí),比如對(duì)文字和物體的識(shí)別,對(duì)紋理、光照、噪聲等的抑制,在二值化的同時(shí)消除了較多的底層信息。這種方法在進(jìn)行推理前,需要對(duì)不同的應(yīng)用進(jìn)行不同的數(shù)據(jù)處理和網(wǎng)絡(luò)訓(xùn)練。
總體來(lái)說(shuō),當(dāng)前使用較為普遍的圖像二值化方法包括全局二值化、局部二值化和基于聚類(lèi)的二值化,這類(lèi)方法流程簡(jiǎn)潔,計(jì)算效率高,并且能夠保留較多的底層信息,所以在實(shí)際應(yīng)用中得到了普及。本文還重點(diǎn)關(guān)注作為圖像處理底層操作的圖像二值化方法,并以這類(lèi)方法作為主要參考對(duì)象。
2 小波聚類(lèi)二值化方法
本文提出的二值化方法主要解決了基于聚類(lèi)的二值化方法聚類(lèi)不準(zhǔn)確和運(yùn)算效率不高的問(wèn)題。影響圖像二值化聚類(lèi)不準(zhǔn)確的原因主要有2個(gè):輸入的聚類(lèi)數(shù)據(jù)僅包含顏色或灰度信息,不能較好地表示圖像的復(fù)雜特征,比如圖像紋理和光照變化;圖像中劇烈變化的部分,如邊緣和角點(diǎn)像素,在聚類(lèi)時(shí)會(huì)傾向于單獨(dú)分為一類(lèi),從而干擾整體的二分類(lèi)效果。
紋理特征是圖像或視頻中某一片區(qū)域的局部結(jié)構(gòu)信息[2,12]。它反映了圖像中物體的材質(zhì)、形狀、色彩分布等信息,在通常情況下,光照變化也可當(dāng)作一種特殊的紋理信息。本文采用LoG變換和Gabor變換提取紋理特征。LoG變換可提取圓形區(qū)域的特征,其濾波器定義如下:
(1)
LoG濾波器通常有2個(gè)參數(shù):半徑R和拉普拉斯算子σ。
小波變換是一種時(shí)頻分析方法,它可以將信號(hào)在時(shí)間和頻率域上進(jìn)行分析,同時(shí)具有良好的局部化能力和多分辨率分析能力,可以提取不同方向的紋理特征。其中Gabor小波在紋理分析中性能優(yōu)異,所以本文采用Gabor小波來(lái)提取不同方向的紋理特征。Gabor小波濾波器的定義如下:
(2)
x′=xcosθ+ysinθ (3)
y′=-xsinθ+ycosθ (4)
式中:γ表示濾波的波長(zhǎng);θ表示Gabor核的傾斜角度;φ表示相位偏移;σ表示高斯函數(shù)標(biāo)準(zhǔn)差;λ表示長(zhǎng)寬比,即橢圓度。
小波濾波器提取紋理特征通常調(diào)節(jié)2個(gè)參數(shù):角度θ、高斯函數(shù)標(biāo)準(zhǔn)差σ,最終形成包含多個(gè)濾波器的濾波器集。
本文將小波特征引入像素聚類(lèi)的輸入向量F,F(xiàn)定義如下:
F=FilterBank(im)
FilterBank=[f1, f2, f3, f4, f5, f6, f7]
f1=1
f2=LoG(R=3, σ=0.5)
f3=LoG(R=5, σ=1.0)
f4=Gabor(θ=pi/2, σ=2.5)
f5=Gabor(θ=0, σ=2.5)
f6=Gabor(θ=pi/4, σ=2.5)
f7=Gabor(θ=-pi/4, σ=2.5)
引入紋理特征后,可對(duì)圖像中所有像素的特征向量進(jìn)行二分類(lèi)的K-means聚類(lèi),從而將圖中像素分為兩類(lèi)。在這個(gè)過(guò)程中,為了消除圖像中的劇烈變化部分,如邊緣和角點(diǎn)像素對(duì)聚類(lèi)的干擾,聚類(lèi)算法的輸入為從圖像的像素中按位置信息隨機(jī)采樣N個(gè)像素的特征向量,N約等于全部像素個(gè)數(shù)的1/400。該操作既能將其中的邊緣和角點(diǎn)像素點(diǎn)減少至忽略不計(jì),同時(shí)還能大大縮短聚類(lèi)算法的運(yùn)算時(shí)間。在通過(guò)聚類(lèi)獲得采樣像素的分類(lèi)信息后,根據(jù)其余像素特征向量的相似度,將它們歸類(lèi)到最相似的采樣像素的分類(lèi)中。完整算法的偽碼如下:
算法1 :小波聚類(lèi)二值化算法
輸入:灰度圖G,長(zhǎng)度R,寬度C
輸出:二值化圖像B,長(zhǎng)度R,寬度C
1:用濾波器集合FilterBank中的濾波器處理灰度圖得到小波特征向量集F;
2:用大小為7×7的均值濾波器對(duì)小波特征向量集F進(jìn)行均值濾波得到平均小波特征向量集H,H的形狀為(R, C, F=7);
3:在H中增加一個(gè)將灰度圖G乘10的特征向量集,H的形狀為(R, C, F=8);
4:將三維(R, C, F)向量集H形狀變換為二維(R×C, F)向量集H2;
5:從(R×C, F)大小的二維向量集H2中隨機(jī)選取一個(gè)(N, F)大小的子集向量集Hn;
6:對(duì)向量集Hn進(jìn)行分類(lèi)數(shù)為2的K-means聚類(lèi),得到每個(gè)向量的分類(lèi)號(hào)和每個(gè)分類(lèi)的平均灰度值g1、g2;
7:將平均灰度g1和g2求平均得到全局灰度閾值g;
8:在二值圖像B中,將灰度圖G中灰度大于g的像素點(diǎn)位置設(shè)為255,否則設(shè)為0;
9:輸出二值化結(jié)果圖像B。
3 實(shí)驗(yàn)結(jié)果和分析
本文將提出的基于小波特征聚類(lèi)的二值化方法(小波)和標(biāo)準(zhǔn)OSTU方法[3](OSTU)、自適應(yīng)閾值OSTU方法[5](OSTU+)和基于顏色聚類(lèi)的二值化方法[7](顏色聚類(lèi))進(jìn)行了比較。其中基于顏色聚類(lèi)的二值化方法的輸入為RGB彩色圖像,其他3種方法的輸入均為灰度圖。本文采用二值化圖像和原始灰度圖的峰值信噪比PSNR作為二值化的性能指標(biāo),峰值信噪比越高,說(shuō)明二值化保留的有用信息越多,結(jié)果更準(zhǔn)確。實(shí)驗(yàn)的測(cè)試圖片采用伯克利大學(xué)的BSDS500數(shù)據(jù)集,這個(gè)公開(kāi)數(shù)據(jù)集包含了較為全面的自然圖像,是業(yè)界廣泛使用的測(cè)試數(shù)據(jù)集。采用4種算法分別對(duì)每幅測(cè)試圖片重復(fù)運(yùn)算100次,記錄其運(yùn)行結(jié)果。為保證實(shí)驗(yàn)的公平性,所有算法均采用同一開(kāi)發(fā)語(yǔ)言實(shí)現(xiàn),實(shí)驗(yàn)平臺(tái)為3.2 GHz CPU主頻、32 GB內(nèi)存的臺(tái)式機(jī)。不同算法的平均信噪比結(jié)果見(jiàn)表1。
由表1可以看出,本文提出方法的PSNR均值非常接近OSTU方法且標(biāo)準(zhǔn)差低于OSTU方法,本文方法的PSNR均值高于OSTU+和顏色聚類(lèi)方法,這說(shuō)明本文方法的準(zhǔn)確度較高且處理結(jié)果較穩(wěn)定。
統(tǒng)計(jì)不同算法與OSTU基準(zhǔn)算法的信噪比比率的分布,如圖1所示。
對(duì)于OSTU+方法,信噪比比率小于1的較多,說(shuō)明大部分圖片的信噪比低于OSTU基準(zhǔn);對(duì)于顏色聚類(lèi)方法,信噪比比率大多接近1,且比率低于1的圖片多于比率高于1的圖片,說(shuō)明大部分圖片的信噪比低于或接近OSTU基準(zhǔn);對(duì)于本文提出方法,信噪比比率大多接近1,且比率低于1的圖片和比率高于1的圖片數(shù)量差異不大,說(shuō)明大部分圖片的信噪比接近OSTU基準(zhǔn)。
為了對(duì)二值化處理后的輪廓信息保留程度進(jìn)行定量的衡量,本文將原圖的輪廓圖與二值化圖像和原圖與二值化圖像的疊加后的Canny邊緣圖進(jìn)行比較,計(jì)算其邊緣檢測(cè)的精確度Precision和召回率Recall,實(shí)驗(yàn)結(jié)果見(jiàn)表2。
由表2可以看出,對(duì)不加處理的原圖邊緣能夠正確檢測(cè)到約81.05%(Recall)的正確輪廓,但在其判定的輪廓中只有12.28%(Precision)是正確的。OSTU方法、顏色聚類(lèi)方法和小波聚類(lèi)方法的精確度和召回率接近。OSTU+方法召回率較高,精確度較低。本文提出的方法與對(duì)比方法相比,在精確度和召回率方面做了較好的平衡,兩者均無(wú)明顯劣勢(shì)。
為分析本文方法對(duì)紋理和光照的處理效果,將本文的方法與OSTU基準(zhǔn)方法處理的結(jié)果進(jìn)行比較,選取其中平均差異大于15的分歧圖片進(jìn)行人工分析,這些分歧圖片的典型處理結(jié)果如圖2所示。
由圖2可以看出,本文提出的方法能較好地處理紋理和光照,并且保留了較多的原始圖像信息,視覺(jué)效果明顯優(yōu)于對(duì)比方法。OSTU+方法和圖像聚類(lèi)方法雖然能處理紋理和光照,但效果并不理想。OSTU+方法對(duì)原始圖像信息的改動(dòng)較大,丟失了較多信息;顏色聚類(lèi)方法對(duì)顏色差異敏感,對(duì)結(jié)構(gòu)紋理和光照不敏感。18張分歧圖片的處理結(jié)果見(jiàn)圖3。由圖3可以看出,本文提出的方法在大多數(shù)情況下都能較好地處理紋理和光照,視覺(jué)效果顯著優(yōu)于對(duì)比方法。
本文對(duì)幾種算法的運(yùn)行時(shí)間進(jìn)行了統(tǒng)計(jì)。在本文實(shí)驗(yàn)中,OSTU方法的運(yùn)行速度最快,平均0.01 s處理一副圖片;OSTU+方法的運(yùn)行速度其次,平均0.02 s處理一幅圖片;本文提出的方法平均0.1 s處理一幅圖片;顏色聚類(lèi)方法平均0.5 s處理一幅圖片。
4 結(jié) 語(yǔ)
本文提出了一種基于小波特征聚類(lèi)的圖像二值化方法,解決了傳統(tǒng)圖像二值化方法無(wú)法有效處理紋理和光照變化的問(wèn)題。文中分析了現(xiàn)有的圖像二值化方法的優(yōu)缺點(diǎn),然后基于小波變換和拉普拉斯-高斯變換提取紋理特征,并將它們引入到像素聚類(lèi)的輸入向量中,有效地抑制了紋理和光照變化對(duì)整體二值化效果的影響。此外,本文以采樣輸入代替完整輸入,提高了算法的計(jì)算效率,同時(shí)降低了圖中劇烈變換區(qū)域?qū)φw二值化效果的影響。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,相較于其他方法,本文方法能夠以較小的計(jì)算代價(jià),較好地處理紋理和光照信息,峰值信噪比較高,同時(shí)處理結(jié)果保留了更多原始圖像的信息,視覺(jué)效果得到明顯改善。
注:本文通訊作者為萬(wàn)長(zhǎng)林。
參考文獻(xiàn)
[1] BURGER W, BURGE M J. Digital image processing: an algorithmic introduction [M]. Cham: Springer, 2022.
[2]高玉凱,劉開(kāi)緒.小波分析在信號(hào)處理中的應(yīng)用[M].北京:電子工業(yè)出版社,2018.
[3] OTSU N. A threshold selection method from gray-level histograms [J].IEEE transactions on systems, man, and cybernetics,1979,9(1):62-66.
[4]梁添才,劉建平,羅攀峰.一種改進(jìn)拉普拉斯能量的文檔圖像二值化方法[J].計(jì)算機(jī)仿真,2015,32(9):276-280.
[5] BRADLEY D, ROTH G. Adapting thresholding using the integral image [J]. Journal of graphics tools, 2007, 12(2): 13-21.
[6]劉朋遠(yuǎn),田瑞,周媛奉,等.基于自適應(yīng)混合閾值的智能電表圖像二值化[J].計(jì)算機(jī)應(yīng)用與軟件,2023,40(1):210-215.
[7]任建新,張士雄,李昂,等.基于顏色空間模型的稻谷脫殼率檢測(cè)方法研究[J].糧食與油脂,2023,36(12):154-157.
[8]唐濤,覃曉,易宗劍,等.基于k中心點(diǎn)聚類(lèi)的圖像二值化方法[J].計(jì)算機(jī)科學(xué)與探索,2015,9(2):234-241.
[9]李波,覃征,石美紅.利用小波變換和FCM算法進(jìn)行多特征紋理分割[J].計(jì)算機(jī)工程,2005,31(24):148-150.
[10]熊煒,王鑫睿,王娟,等.融合背景估計(jì)與U-Net的文檔圖像二值化算法[J].計(jì)算機(jī)應(yīng)用研究,2020,37(3):896-900.
[11]吳鑫鑫,肖志勇,劉辰.低尺度血管檢測(cè)在視網(wǎng)膜血管分割中的應(yīng)用[J].計(jì)算機(jī)科學(xué)與探索,2020,14(1):171-180.
[12]李亞標(biāo),王寶光,李溫溫.基于小波變換的圖像紋理特征提取方法及其應(yīng)用[J].傳感技術(shù)學(xué)報(bào),2009,22(9):1308-1311.