吳爽
(河海大學(xué)計算機(jī)與信息學(xué)院,江蘇南京211100)
身體的各個器官和組織都與血液密切相關(guān),甚至全身各組織的疾病都可以表現(xiàn)在血液中。血液中包含白細(xì)胞、紅細(xì)胞、血小板和其他雜質(zhì),其中白細(xì)胞在血液中的作用尤其重大,因為白細(xì)胞能吞噬異物產(chǎn)生的抗體,在機(jī)體損傷治愈、抗御病原的入侵和對疾病的免疫方面起著重要作用。通過對血液中的各類白細(xì)胞數(shù)量的統(tǒng)計,來幫助醫(yī)生診斷疾病。因此,白細(xì)胞的識別分類在醫(yī)學(xué)臨床檢測上有著重要的實際意義。目前國內(nèi)大多數(shù)醫(yī)院的血液白細(xì)胞的檢驗以人工操作為主,使得白細(xì)胞的檢測質(zhì)量和效率受到一定的影響。而將計算機(jī)圖像處理和模式識別理論用于白細(xì)胞的檢測,可以提高白細(xì)胞檢測質(zhì)量和效率,因此,提出基于支持向量機(jī)SVM的白細(xì)胞識別研究算法。
白細(xì)胞大致分成淋巴細(xì)胞、單核細(xì)胞、中性粒細(xì)胞、嗜酸性粒細(xì)胞、嗜堿性粒細(xì)胞等5大類。假定已經(jīng)得到一幅預(yù)處理過的血液細(xì)胞圖像,識別其中的白細(xì)胞的步驟:首先是分割細(xì)胞核,并進(jìn)一步以細(xì)胞核的中心為基礎(chǔ),分割出細(xì)胞漿,從而提取出完整的單個白細(xì)胞;然后根據(jù)需要,對提取得到的白細(xì)胞圖像進(jìn)行統(tǒng)計和計算,得到相應(yīng)的白細(xì)胞特征,最后由分類器根據(jù)細(xì)胞特征確定該細(xì)胞的所屬類別,完成細(xì)胞識別的任務(wù)。由此,可以得到如圖1所示的完整的細(xì)胞識別流程[1]。
圖1 白細(xì)胞分類識別流程Fig.1 Flow chart of classification and recognition of white blood cell
從圖1可以看出,白細(xì)胞的準(zhǔn)確分割是保證后續(xù)工作的前提,它是最基本、最關(guān)鍵的一環(huán),其準(zhǔn)確性和穩(wěn)定性直接影響到白細(xì)胞的分類。
支持向量機(jī)SVM是由Vapnik[2]等人在統(tǒng)計學(xué)習(xí)理論(SLT)和結(jié)構(gòu)風(fēng)險最小化原理的基礎(chǔ)上根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,通過選擇適當(dāng)?shù)倪x擇函數(shù)子集及其函數(shù)子集中的判別函數(shù),使學(xué)習(xí)機(jī)器的實際風(fēng)險降到最小,保證了通過有限訓(xùn)練樣本得到的小誤差分類器對獨(dú)立測試集的測試誤差仍然較小。因而,SVM是一個具有最優(yōu)分類能力和推廣能力的學(xué)習(xí)機(jī)器,其基本思想:把在輸入空間中的線性不可分的數(shù)據(jù)集,通過內(nèi)積核函數(shù),非線性映射到高維特征空間后,變?yōu)榫€性可分的數(shù)據(jù)集,隨后在高維特征空間建立一個不但能將兩類正確分開,而且使分類間隔最大的最優(yōu)分類面。目前,支持向量機(jī)SVM[3]已廣泛應(yīng)用于各個領(lǐng)域,包括模式識別、回歸分析、密度估計和時間序列預(yù)測等。SVM原理圖[4-5]如圖2所示。
圖2 SVM原理圖Fig.2 Principle figure of SVM
給定一個樣本集x=(x1,y1),(x2,y2),…,(xn,yn),其中xi∈Rd,yi∈{-1,1},是兩類問題的標(biāo)簽,n是樣本數(shù),SVM的基本思想就是為了尋找一個兩類之間的最優(yōu)分類面w·x+b=0,如圖3所示。
圖3 最優(yōu)分類面Fig.3 The optimal classification surface
訓(xùn)練數(shù)據(jù)的約束條件為:
式中,αi為Lagrange系數(shù)。
αi>0的樣本稱為支持向量,由此得到支持向量機(jī)(即判決函數(shù))為
式(3)中的求和實際上只對支持向量進(jìn)行。b*是分類閾值,可以用任意一個支持向量求得,或通過兩類中任意一對支持向量取中值求得。
對于分類問題線性不可分的情況,引入一個松馳變量ξi≥0,使得目標(biāo)函數(shù)Q(w,ξ懲罰參數(shù),約束條件變?yōu)?≤αi≤C就可以解決樣本點(diǎn)線性不可分的情況了,預(yù)測函數(shù)的形式與式(3)一樣。
對于這種情況,可將其輸入向量經(jīng)非線性變換映射到一個高維空間,使其線性可分。在變換后的空間中尋找一個最優(yōu)超平面,使其推廣能力最好,然后進(jìn)行線性分類。引入的核函數(shù)只需要滿足Mercer條件即可,常用的核函數(shù)是徑向基核函數(shù)。
白細(xì)胞的分割,即是將白細(xì)胞與周圍的紅細(xì)胞、血小板、雜質(zhì)等背景分離。傳統(tǒng)的分割方法[6]有閾值分割、經(jīng)典迭代法、形態(tài)學(xué)和分水嶺分割方法、區(qū)域生長與分裂合并以及近年來提出的基于最大信息熵法分割方法等,這些方法雖然有的達(dá)到了分割的要求,但其魯棒性和分割的完整性不能達(dá)到很好的要求。因此,本文利用SVM的方法分割白細(xì)胞,其速度和準(zhǔn)確率都達(dá)到了保證。由于所獲取的圖片是RGB彩色圖片,不符合人的視覺特性,應(yīng)將其轉(zhuǎn)換為符合人眼視覺的HSI彩色空間中[7]。根據(jù)HSI空間中色調(diào)分量對光照的變化不敏感,對用不同顏色的染色劑得到的細(xì)胞圖像能夠保持良好的一致性,有助于后續(xù)處理。
其算法步驟:
1)將彩色圖像轉(zhuǎn)換為灰度圖像;
2)構(gòu)造SVM分類器。由于白細(xì)胞區(qū)域圖像色彩顏色比周圍背景的顏色較深,并且灰度變換比較明顯,而背景區(qū)域的灰度變化比較平穩(wěn)(與前景區(qū)比較),因此選取對比度(即灰度標(biāo)準(zhǔn)差和均值的比值)以及由當(dāng)前像素鄰域的灰度共生矩陣導(dǎo)出的一組局部紋理參數(shù)作為SVM的輸入向量。為了獲取局部特征,需要將當(dāng)前像素的鄰域形成一個子圖像,然后在子圖提取相應(yīng)的局部灰度統(tǒng)計特征和局部紋理特征作為當(dāng)前像素的特征向量。將血液細(xì)胞圖像分成9×9大小的圖像塊,對每個圖像塊B(i,j)按式(4)計算對比度[8]:
式中,分子分母分別是由圖像塊B(i,j),B(i,j+1),B(i+1,j),B(i+1,j+1)組成的灰度標(biāo)準(zhǔn)差和均值,w是小塊的邊長。
紋理特征[9-11]選取如下:
考慮到圖像紋理的方向性,θ分別取0°、45°、90°及135°當(dāng)前像素的灰度共生矩陣的局部紋理特征的均值。由于所提取的特征可能在量值上有很大的差異,對所提取的特征進(jìn)行歸一化非常重要,采用式(9)對特征進(jìn)行歸一化:
經(jīng)過歸一化處理后,各特征值的范圍被限制在[-1,1]之間。以圖像各塊的對比度和紋理特征為特征,構(gòu)造特征向量,作為訓(xùn)練SVM的輸入向量。對于輸入的特征向量,如果SVM的輸出g(x)=1,則表示背景;若g(x)=-1,則表示前景。以上構(gòu)成的SVM的樣本數(shù)據(jù)集,經(jīng)訓(xùn)練得到α*,b和支持向量SV表示的SVM模型,用于白細(xì)胞圖像分割。
本文主要采用的是由臺灣大學(xué)林智仁教授編寫的LIBSVM工具箱,在MATLAB平臺上對圖像進(jìn)行分割實驗的,并與經(jīng)典迭代法、最大信息熵法[12]進(jìn)行了對照。為了很好的對比,恢復(fù)了檢出區(qū)域的彩色信息。實驗結(jié)果如圖4所示。
圖4 各種方法分割圖Fig.4 Several ways of segmentation
圖4中,圖像從左至右分別為:原圖像,經(jīng)典迭代法,最大信息熵法和SVM法。用經(jīng)典迭代法即是根據(jù)迭代計算得出閾值來進(jìn)行分割圖像,最大信息熵法是根據(jù)香農(nóng)定理求熵最大以此來獲得閾值,SVM法是根據(jù)提取特征向量構(gòu)造分類器來獲得分割圖的。根據(jù)第一組圖像,可以得出:基于SVM的分割效果比經(jīng)典迭代法、最大信息熵法效果要好。而第二組圖像,這3種方法的差別不大。通過比較可以看出不同的算法適用于不同的圖像對象,并且即使同一種算法對不同的圖像的分割效果也有好壞。由于圖像的分割效果沒有統(tǒng)一的判斷標(biāo)準(zhǔn),所以最終結(jié)果的評價主要采用主觀判斷作為分割質(zhì)量的評價標(biāo)準(zhǔn)。
基于統(tǒng)計學(xué)習(xí)理論,提出了應(yīng)用SVM方法對白細(xì)胞圖像進(jìn)行分割的方法,為后續(xù)的白細(xì)胞識別分類奠定基礎(chǔ)??v觀近幾年來出現(xiàn)的白細(xì)胞圖像分割的各種算法與研究,可以看出目前圖像分割領(lǐng)域的發(fā)展趨勢,將其他學(xué)科的新技術(shù)應(yīng)用于該領(lǐng)域,力求尋找一種通用的算法,對于環(huán)境具有較好的魯棒性,結(jié)合應(yīng)用現(xiàn)有不同的算法,優(yōu)勢互補(bǔ)。雖然SVM等一些其他方法對白細(xì)胞圖像分割都取得了比較理想的結(jié)果,但由于白細(xì)胞圖像檢測主要應(yīng)用于臨床,準(zhǔn)確性非常重要,所以今后還必須繼續(xù)尋找更適合于白細(xì)胞圖像的分割方法。
[1]吳建斌,李家志,李太全.基于支持向量機(jī)的白細(xì)胞自動識別[J].計算機(jī)工程與設(shè)計,2008,29(1):184-186.
WU Jian-bin,LI Jia-zhi,LI Tai-quan.Based on support vector machine automatic classification[J].Computer Engineering and Design,2008,29(1):184-186.
[2]Vapnik V N.Statistical learning theory[M].New York,W iley,1998.
[3]鄧乃揚(yáng),田英杰.支持向量機(jī)——理論、算法與拓展[M].北京:科學(xué)出版社,2009.
[4]Omar Selmi,Pinti A,Abdelmalik Taleb-Ahmed,et al.Use of support vector machines for color image segmentation[C]//IMACS Multiconference on“Computational Engineering in Systems Applications”(CESA),2006:574-577.
[5]Jerdnimo Arenas-Garcia,F(xiàn)ernando Ptrez-Cruz.Multi-class support vector machines:a new approach[J].IEEE,2003:781-784.
[6]Gonzalez R C,Woods R E,Eddins S L.數(shù)字圖像處理:MATLAB版[M].阮秋琦,譯.北京:電子工業(yè)出版社,2008.
[7]王敏,儲榮,曾曉勤.基于邊界支持向量的白細(xì)胞檢出新方法[EB/J].中國科技論文在線,2009,4(2):146-151.
WANG Min,CHU Rong,ZENG Xiao-qin.New method for white blood cell detection based on boundary support vectors[EB/J].Chinese scientific papers online,2009,4(2):146-151.
[8]魏鴻磊,歐宗瑛,張建新.采用支持向量機(jī)的指紋圖像分割[J].系統(tǒng)仿真學(xué)報,2007,19(10):2362-2364.
WEI Hong-Lei,OU Zong-Ying,ZHANG Jian-xin.Using support vector machines for fingerprint image segmentation[J].System Simulation,2007,19(10):2362-2364.
[9]張德豐.MATLAB數(shù)字圖像處理[M].北京:機(jī)械工業(yè)出版社,2009.
[10]ZHI Zheng-liang,TUO Zhao.Feature selection for linear support vector machines[C]//The 18th International Conference on Pattern Recognition(ICPR'06),2006.
[11]XU Peng,DAI Min,Chan A K.Texture classification using optimized support vector machines[J].IEEE,2004:544-547.
[12]嚴(yán)學(xué)強(qiáng),葉秀清,劉濟(jì)林.基于量化圖像直方圖的最大熵閾值處理算法[J].模式識別與人工智能,1998,11(3):352-358.
YAN Xue-qiang,YE Xiu-qing,LIU Ji-lin.Quantization histogram based on the maximum entropy thresholding algorithm[J].Pattern Recognition and Artificial Intelligence,1998,11(3):352-358.