, , ,
(1.石家莊鐵道大學(xué) 電氣與電子工程學(xué)院,河北 石家莊 050043;2. 中國(guó)鐵路北京局集團(tuán)有限公司,北京 100000)
k-means 算法是 Mac Queen J提出的一種經(jīng)典的聚類算法。聚類分析又是數(shù)據(jù)挖掘中的重要研究領(lǐng)域,廣泛應(yīng)用于數(shù)據(jù)壓縮、模式識(shí)別、圖像識(shí)別、客戶分類、空間數(shù)據(jù)處理等。算法依據(jù)經(jīng)驗(yàn)給出聚類數(shù)k值,結(jié)果受初始中心影響大,魯棒性不強(qiáng)。因此有必要對(duì)k值的獲取進(jìn)行研究,提高聚類的準(zhǔn)確性。
k值的選擇,沒(méi)有固定的選取方法,一般根據(jù)具體情況具體分析。文獻(xiàn)[1]運(yùn)用距離代價(jià)函數(shù),選取檢測(cè)距離代價(jià)函數(shù)最小值時(shí)的聚類結(jié)果。文獻(xiàn)[2]提出一種基于參考區(qū)域的初始化方法,用于k-means文本聚類算法自動(dòng)閾值確定。劉婷等通過(guò)評(píng)價(jià)算法分類程度好壞的適度函數(shù)獲得k值,并應(yīng)用人工數(shù)據(jù)集進(jìn)行驗(yàn)證[3]。2012年,劉小丹、牛少敏提出結(jié)合蟻群算法的分割方法,進(jìn)行k值獲取和聚類中心選定[4]。但由于蟻群算法的自組織性,同時(shí)算法復(fù)雜、程序運(yùn)行時(shí)間長(zhǎng)和易受環(huán)境變化的影響,實(shí)際應(yīng)用效果并不理想。2014年,和敬涵等提出基于k-mean聚類的電氣設(shè)備紅外圖像故障識(shí)別方法[5],但文中僅僅給出設(shè)定k值,分割效果也有待提升,并且成像背景中不含有樹木、建筑、電纜、電線桿等復(fù)雜背景因素。本文結(jié)合紅外圖像特點(diǎn),選取用灰度級(jí)直方圖進(jìn)行估計(jì)。
紅外圖像具有對(duì)比度低、邊緣模糊(設(shè)備自身熱傳導(dǎo),尤其同材質(zhì)接觸情況下更為嚴(yán)重)、信噪比低、成分比較復(fù)雜的特點(diǎn)[6],并且受傳感器自身性能影響,不能較好地反應(yīng)局部細(xì)節(jié)差異。另外,紅外成像因其被動(dòng)工作,在成像儀感應(yīng)到的物體表面的紅外能量較弱并且在反射干擾(成像儀中會(huì)對(duì)反射與輻射能量一并計(jì)算)等情況下,檢測(cè)物邊緣雜波含量大,使得圖像信噪比降低和形狀信息不足,也使識(shí)別更加困難[7]。因此,根據(jù)紅外圖像自身特點(diǎn),使用FLUKE TI400熱成像儀,現(xiàn)場(chǎng)獲取變壓器紅外數(shù)字圖像,根據(jù)直方圖選取k值,然后進(jìn)行均衡化,調(diào)節(jié)灰度圖像明暗對(duì)比度,再結(jié)合模糊集理論進(jìn)行圖像增強(qiáng),更有利于提高k-means算法后續(xù)數(shù)據(jù)的處理,有效提高了分割的準(zhǔn)確性。
k-means算法主要思想是通過(guò)迭代過(guò)程把數(shù)據(jù)集劃分為不同的類別,并逐次更新聚類中心直至達(dá)到要求的精度[8],下文中將給出具體過(guò)程說(shuō)明與程序流程圖。
(1)相似度測(cè)度的選擇。計(jì)算數(shù)據(jù)相似度時(shí),根據(jù)實(shí)際需要選擇歐氏距離,也可以根據(jù)具體情況選擇曼哈頓距離或者明考斯距離作為相似性度量[9]。設(shè)數(shù)據(jù)集為X={xm|m=1,2,…,total},X含有的數(shù)據(jù)用d個(gè)屬性A1,A2,…,Ad(維度)來(lái)描述。數(shù)據(jù)樣本為xi=(xi1,xi2,…,xid),xj=(xj1,xj2,…,xjd),其中,xi1,xi2,…,xid和xj1,xj2,…,xjd分別是樣本xi和xj對(duì)應(yīng)d個(gè)描述屬性A1,A2,…,Ad的具體取值。d值越大,相似度越小,反之亦然。歐式距離
(1)
(2)選擇評(píng)價(jià)聚類性能的準(zhǔn)則函數(shù)。聚類分析是數(shù)據(jù)挖掘的重要工具,其有效性評(píng)價(jià)方法選用也各有不同。這里選用誤差平方和準(zhǔn)則函數(shù)作為聚類性能的評(píng)價(jià)標(biāo)準(zhǔn)
(2)
式中,X為數(shù)據(jù)集,Xi聚類子集(k個(gè)),mi聚類子集的聚類中心,E為所有對(duì)象均方差之和,p為對(duì)象的空間中的點(diǎn)。
(3)簇中數(shù)據(jù)相似度計(jì)算。①把所有數(shù)據(jù)對(duì)象隨機(jī)分配到k個(gè)非空的簇中;②計(jì)算各個(gè)簇的平均值,并用該平均值代表相應(yīng)的簇;③根據(jù)每個(gè)數(shù)據(jù)與聚類中心的距離,分配給最近的簇;④轉(zhuǎn)到步驟②,重新計(jì)算各個(gè)簇的平均值,新的聚類中心被計(jì)算出。不斷重復(fù)此過(guò)程,直到滿足準(zhǔn)則函數(shù)為止。
k-means算法對(duì)大數(shù)據(jù)集挖掘,具有相對(duì)可伸縮性,是一種高效的聚類算法[10]。但是k-means算法需要設(shè)定初始k值,結(jié)果受初始中心影響大,并對(duì)“噪聲”和孤立點(diǎn)數(shù)據(jù)敏感,魯棒性不強(qiáng)。
紅外圖像對(duì)比度較低,低端熱成像產(chǎn)品往往不能兼具良好的溫度分辨率與較好的成像質(zhì)量,而國(guó)外高端產(chǎn)品價(jià)格昂貴,并且通常降低性能進(jìn)行出口限制。紅外圖像對(duì)比度低、目標(biāo)識(shí)別與分割較為困難[11],尤其戶外情況下紅外成像背景相較于變電站更為復(fù)雜,易受天氣、陽(yáng)光反射和“天空陷阱”等因素影響。目前許多研究所與企業(yè)都在進(jìn)行無(wú)人機(jī)電力巡線開發(fā)試驗(yàn),對(duì)戶外復(fù)雜情況下紅外圖像的處理,也將更具有實(shí)際使用價(jià)值。
2.1.1 直方圖均衡化
直方圖均衡化是一種利用灰度變換,自動(dòng)調(diào)節(jié)圖像對(duì)比度的方法,是一種以累計(jì)分布函數(shù)變換法為基礎(chǔ)的直方圖修正法。在低對(duì)比度紅外圖像中應(yīng)用效果更加明顯,如圖1,處理后的變壓器紅外圖像目標(biāo)物輪廓更為清晰。理論關(guān)系式為
(3)
式中,T(r)為變換函數(shù),T(r)需滿足1≥T(r)≥0,pr(r)為圖像概率密度函數(shù)。數(shù)字圖像處理中離散形式為
(4)
下面分析變壓器紅外圖像的灰度直方圖,由圖2(a)可以發(fā)現(xiàn)灰度集中分布于灰度級(jí)210、230、240附近,低灰度級(jí)也存在少部分,因此估計(jì)k=3。
圖1 紅外原始圖像增強(qiáng)后效果對(duì)比圖
2.1.2 基于模糊集的圖像增強(qiáng)步驟
(1)圖像模糊特征的提取。通過(guò)式(5)實(shí)現(xiàn)圖像空間域到模糊域的變換
(5)
式中,gmn為當(dāng)前像素點(diǎn)的灰度值;基本參數(shù)Fe和Fd為變換系數(shù);gmax為當(dāng)前圖像中最大灰度值。
(2)隸屬度修正。 運(yùn)用模糊增強(qiáng)算子(INT)的回歸調(diào)用來(lái)修正隸屬度
(6)
模糊增強(qiáng)是在模糊特征平面上對(duì)μmn進(jìn)行非線性變換,其關(guān)鍵在于用模糊增強(qiáng)算子增大(當(dāng)μmn≥0.5)μmn的值和減小(當(dāng)μmn≤0.5)μmn的值。
(3)增強(qiáng)處理后的模糊域逆變換。通過(guò)式(7)將圖像數(shù)據(jù)從模糊域逆變換回空間域
(7)
形態(tài)學(xué)具有完備的數(shù)學(xué)基礎(chǔ)理論,較空域和頻域處理也具有明顯優(yōu)勢(shì),并且提取邊緣光滑、抗噪性好,易用于圖像并行處理的實(shí)現(xiàn)。通過(guò)開運(yùn)算去除圖像中較小的點(diǎn),并增強(qiáng)圖像整體性。
結(jié)構(gòu)元素B對(duì)A的開運(yùn)算,記作AοB:
AοB=(AΘB)⊕B
(8)
圖2變壓器紅外原始圖像與改進(jìn)后圖像的直方圖對(duì)比圖
(1)根據(jù)原始變壓器紅外圖像直方圖估計(jì)k值。
(2)直方圖均衡化、模糊集增強(qiáng)后,為每個(gè)聚類確定一個(gè)初始聚類中心,這樣就有k個(gè)初始聚類中心。
(3)將樣本集中的樣本按照最小距離原則分配到最鄰近聚類。
(4)使用每個(gè)聚類中的樣本均值作為新的聚類中心。
(5)重復(fù)步驟(2)、(3)直到聚類中心不再變化。
(6)結(jié)束,得到k個(gè)聚類,再結(jié)合形態(tài)學(xué)開運(yùn)算進(jìn)行細(xì)節(jié)處理,應(yīng)用邊緣檢測(cè)進(jìn)行圖像分割。
在數(shù)字圖像處理中常應(yīng)用Matlab或vs2015+opencv進(jìn)行編程算法改進(jìn),其中Matlab也集成了大量?jī)?nèi)部函數(shù),編寫程序比較簡(jiǎn)單,新版本的opencv已由C語(yǔ)言轉(zhuǎn)向C++/python/C語(yǔ)言開發(fā),開發(fā)難度相對(duì)較大。在Matlab中通過(guò)imhist()函數(shù)計(jì)算和顯示灰度直方圖,通過(guò)histeq()函數(shù)進(jìn)行直方圖均衡化。也可以根據(jù)灰度集中分布于灰度級(jí)210、230、240附近,取k=3。
圖3 改進(jìn)算法變壓器紅外圖像分割結(jié)果對(duì)比圖
誤差概率是一種常見的衡量圖像分割結(jié)果優(yōu)劣的加權(quán)方法。同樣適用于紅外圖像分割。誤差概率可用下式計(jì)算
PE=P(O)P(B|O)+P(B)P(O|B)
(9)
式中,P(B|O)是將目標(biāo)錯(cuò)分為背景的概率;P(O|B)是將背景錯(cuò)分為目標(biāo)的概率;P(O)和P(B)分別是圖像中目標(biāo)和背景所占比例的先驗(yàn)概率。原始圖像分割基本不能判別目標(biāo),均衡化后,計(jì)算得PE=6.41%。
下面對(duì)比幾個(gè)常用的圖像分割評(píng)價(jià)指標(biāo):邊界邊緣重合度(EBC)、目標(biāo)分割率(OSP)、分割冗余度(SRR)、分割有效測(cè)度(SEM)、dice系數(shù)(衡量分割的完整性)。
(10)
式中,B為由邊緣檢測(cè)算子對(duì)分割參考圖像提取的像素點(diǎn)集合;E為某分割算法分割出邊界的像素點(diǎn)的集合。
(11)
式中,RT為真實(shí)目標(biāo)區(qū)域;RS為實(shí)際結(jié)果分割區(qū)域。
(12)
(13)
表1 圖像分割評(píng)價(jià)指標(biāo)
從表1中數(shù)據(jù)分析圖像邊緣重合度、目標(biāo)分割率、分割有效測(cè)度、dice系數(shù)都有較大提升,分割冗余度(SRR)體現(xiàn)了目標(biāo)的偏移程度,本文方法在一定程度上使偏移增大,但可以看出增長(zhǎng)并不明顯,基本可以忽略其對(duì)分割效果的影響。
為驗(yàn)證算法的魯棒性,人為設(shè)定k=2,5,10時(shí)的原始圖像分割結(jié)果與改進(jìn)后分割結(jié)果,來(lái)做對(duì)比分析。從實(shí)驗(yàn)結(jié)果分析,k=2~9之間都可以較好地分割出變壓器,改進(jìn)后k=2時(shí)分割結(jié)果更加清晰;k=5時(shí),改進(jìn)后方法對(duì)由變壓器底部拍攝到的鋼支撐架部分(彩色原圖中可以發(fā)現(xiàn)支撐鋼梁的位置),也做出了有效分割,并且受物體的發(fā)射率及外界光線強(qiáng)度等外部因素影響小。k=9時(shí)變壓器散熱油管也能較好地分割,并且反映了變壓箱體溫度范圍的分布情況。從圖4 (m)中明顯可以看出4個(gè)溫度層次,下文將應(yīng)用smartview軟件對(duì)變壓器溫度范圍進(jìn)行溫度統(tǒng)計(jì)與分析。
圖4 分割結(jié)果圖與驗(yàn)證算法的魯棒性分割效果對(duì)比圖
圖5在原始紅外圖像中標(biāo)記與統(tǒng)計(jì)了部分溫度代表點(diǎn),主要有4個(gè)集中分布于溫度100.0、96.8、95.5、92.2(°F)附近及背景溫度。從k=9的分割圖中可以辨別溫度區(qū)間分布上高下低。為突出變壓器溫度細(xì)節(jié)分布,在分割區(qū)域內(nèi)屏蔽模糊增強(qiáng),增加細(xì)節(jié)區(qū)分度(如圖4 (m))。實(shí)驗(yàn)中,通過(guò)直方圖溫度統(tǒng)計(jì)和3D-IR溫度統(tǒng)計(jì)圖(以三維方式顯示像素溫度,X與Y軸由圖像像素位置組成,Z軸是圖像上(X,Y)位置的溫度值)驗(yàn)證變壓器表面溫度分布情況,同時(shí)驗(yàn)證了k=9時(shí)改進(jìn)方法的溫度細(xì)節(jié)表現(xiàn)性。若在已分割區(qū)域?qū)Ψ指钅繕?biāo),做針對(duì)性的細(xì)節(jié)增強(qiáng)處理,將更好地體現(xiàn)細(xì)節(jié)區(qū)分性,同時(shí)也將更好地應(yīng)用于紅外圖像的電氣設(shè)備溫度故障判別工作中。
圖5 變壓器紅外圖像溫度分布標(biāo)記與綜合統(tǒng)計(jì)圖
針對(duì)k-means 算法k值選定和復(fù)雜背景下紅外圖像誤分割問(wèn)題,提出了根據(jù)灰度級(jí)直方圖估計(jì)k值方法,并利用直方圖均衡化和模糊集進(jìn)行圖像增強(qiáng),然后通過(guò)k-means 算法結(jié)合數(shù)學(xué)形態(tài)學(xué)的開運(yùn)算,再進(jìn)行圖像分割。通過(guò)Matlab編寫程序,并與原來(lái)算法處理結(jié)果比較,表明該改進(jìn)算法分割更為準(zhǔn)確并且魯棒性好,又使用FLUKE的smartview軟件對(duì)紅外圖像中溫度分布進(jìn)行統(tǒng)計(jì),驗(yàn)證了該算法的溫度分布細(xì)節(jié)的表現(xiàn)能力。
參 考 文 獻(xiàn)
[1]楊善林,李永森,胡笑旋,等. K-MEANS算法中的K值優(yōu)化問(wèn)題研究[J]. 系統(tǒng)工程理論與實(shí)踐,2006,2:97-101.
[2]索紅光,王玉偉. 基于參考區(qū)域的k-means文本聚類算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2009,2:401-403+407.
[3]劉婷,郭海湘,諸克軍,等. 一種改進(jìn)的遺傳k-means聚類算法[J]. 數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2007,8:104-111.
[4]劉小丹,牛少敏.一種改進(jìn)的k-means聚類彩色圖像分割方法[J]. 湘潭大學(xué)自然科學(xué)學(xué)報(bào),2012,34(2):90-93.
[5]和敬涵,楊洋,張沛,等.基于k-means聚類旳電氣設(shè)備紅外圖像故障識(shí)別[C]//中國(guó)高等學(xué)校電力系統(tǒng)及其自動(dòng)化專業(yè)學(xué)術(shù)年會(huì)論文集.北京:北京交通大學(xué),2014.
[6]顧建雄. 紅外圖像增強(qiáng)算法研究[D].蘭州:蘭州大學(xué),2009.
[7]余小英. 云背景下紅外弱小目標(biāo)檢測(cè)算法研究[D].西安:西安電子科技大學(xué),2009.
[8]任景彪. K-均值聚類算法的研究與分析[D]. 天津:天津工業(yè)大學(xué), 2010.
[9]Fahim A M,Salme A M,Torkey F A,et al. An efficient enhanced k-means clustering algorithm[J]. Journal of Zhejiang University Science A:Science in Engineering,2006,10:1626-1633.
[10]Chen Na,Xu Zeshui,Xia Meimei. Hierarchical hesitant fuzzy K-means clustering algorithm[J]. Applied Mathematics:A Journal of Chinese Universities(Series B),2014,1:1-17.
[11]周西柳, 章潔. 基于聚類余弦變換的圖像增強(qiáng)算法研究[J]. 計(jì)算機(jī)仿真, 2012, 29(2):216-219.