張 明 黃發(fā)忠 辛化梅 冷 嚴
(山東師范大學物理與電子科學學院 濟南 250014)
基于模糊聚類的微弱蛋白點分割算法*
張 明 黃發(fā)忠 辛化梅 冷 嚴
(山東師范大學物理與電子科學學院 濟南 250014)
通過分析凝膠蛋白圖像的特點,提出一種基于模糊核C均值聚類(KFCM)分割算法的改進算法。首先使用引導濾波器對圖像進行濾波并增強圖像對比度,然后通過KFCM算法對圖像聚類,最后采用最大隸屬原則去模糊化,實現(xiàn)最優(yōu)分割,在此過程中引入樣本方差來計算σ值。凝膠蛋白圖像分割實驗表明,算法具有更好的自適應性和分割精度。
凝膠圖像; 圖像分割; 模糊聚類
Class Number TP391
“蛋白質(zhì)組學”這一概念是20世紀90年代中期由澳大利亞科學家Wilkins和Williams首次提出[1],蛋白質(zhì)組為我們提供了更多關(guān)于活細胞的工作信息,在眾多疾病的機理闡明和攻克等方面做出了重大貢獻。雙向凝膠電泳技術(shù)廣泛的應用在蛋白質(zhì)組學中,主要是根據(jù)蛋白質(zhì)等電點和分子量差異,將不同種類的蛋白質(zhì)進行高分辨率分離[2~3]。隨后使用掃描設備對蛋白質(zhì)凝膠進行掃描,得到數(shù)字化凝膠圖像。在圖像上蛋白質(zhì)呈現(xiàn)出形狀、大小和灰度各不相同的點,其中每一個點代表了一個特定的蛋白質(zhì)。分割是圖像分析的重要步驟,凝膠圖像的研究需要從圖像中提取出蛋白點并分析蛋白質(zhì)的不同狀態(tài)[4]。
國內(nèi)外對于凝膠圖像蛋白點的分割有一定的研究?;谶吘墮z測的分割算法[5],通過檢測不同區(qū)域的邊緣來進行分割,對于邊緣定位精度和邊界的確定有很好的分割效果,但易受到噪聲和圖像自身模糊程度的影響。畢于慧等[6]針對分水嶺算法過分割現(xiàn)象,提出了基于分水嶺拓撲地貌曲率的合并方法,該方法對于凝膠電泳圖像更具針對性。張彥清等[7]提出的基于馬爾科夫隨機場的凝膠電泳圖像分割算法,提高了對微弱蛋白點的分割,在一定程度上實現(xiàn)了對重疊蛋白點的分割。Rashwan S et.al.[8]將FCM算法和模糊關(guān)系應用于凝膠蛋白圖像上,并且能夠檢測出更多的蛋白點。由于FCM算法對線性不可分的樣本分離效果并不理想,文獻[9~10]通過非線性映射,將樣本從低維映射到高維特征空間,實現(xiàn)聚類。本文結(jié)合凝膠圖像中蛋白點的特性,提出了一種基于模糊核C均值聚類的改進算法,并且給出了σ值確定方法。
2.1 模糊核C均值算法
模糊核C均值聚類算法[10~12]是將輸入空間數(shù)據(jù)通過非線性映射到高維空間中。假設,輸入的圖像數(shù)據(jù)Xi,i=1,2,3,…,N在高維特征空間定義為Φ(Xj),j=1,2,…,M,其中Φ(·)是非線性映射函數(shù):Φ:RP→Rq,p< (1) (2) KFCM算法的具體步驟: 1) 初始化參數(shù),設置聚類數(shù)c,加權(quán)指數(shù)m(通常情況下m=2),迭代終止閾值ε,最大迭代次數(shù)T,迭代計數(shù)器l=0; 2) 初始化聚類中心v0; 3) 按照下式計算或更新隸屬度矩陣: (3) 4) 按照下式計算或更新聚類中心: (4) 2.2 基于KFCM算法凝膠蛋白圖像分割問題的實現(xiàn) 雙向凝膠電泳圖像中,蛋白點的邊界與背景對比度較低,分布呈現(xiàn)多樣性且分布不均,因此使用模糊核聚類算法對圖像進行分割。核函數(shù)中的徑向?qū)挾圈叶x為衰減系數(shù),不同的參數(shù)值對圖像的分割結(jié)果有很大的影響,但是σ的選擇卻沒有明確的理論指導和固定的方法,通常情況下依賴于經(jīng)驗和人工嘗試的辦法進行選擇,具有很大的隨意性。 (5) 然后,使用蛋白點樣本方差來合理的確定σ值: (6) 凝膠蛋白圖像分割算法實現(xiàn)步驟: 1) 凝膠蛋白圖像的預處理:采用引導濾波器對圖像進行濾波并對濾波后的圖像進行增強,增強圖像的對比度; 2) 初始化參數(shù):聚類數(shù)c=2,加權(quán)指數(shù)m=3,ε=0.0001; 3) 使用式(6)計算出核函數(shù)的徑向?qū)挾戎担?/p> 4) 使用模糊核C均值算法對凝膠蛋白圖像進行聚類。 5) 根據(jù)最大隸屬度原則去模糊化,得到最終的分割結(jié)果。 本文主要使用模擬凝膠蛋白圖像和真實凝膠圖像進行實驗測試,并與傳統(tǒng)的FCM算法分割以及其他σ估計值分割算法進行實驗比較。 3.1 模擬凝膠蛋白圖像實驗測試 首先在模擬凝膠圖像中加入均值為0,方差為0.02的高斯噪聲,在原始KFCM算法中σ的默認值為150。在圖1模擬凝膠蛋白圖像分割結(jié)果對比圖中,(a)為表示加入噪聲后的模擬凝膠蛋白圖像,(b)為模糊C均值聚類(FCM)算法分割結(jié)果,(c)為原始KFCM算法分割結(jié)果,(d)為基于距離方差σ估計值并去噪后的算法分割結(jié)果,(e)為本文算法的分割結(jié)果。 圖1 模擬凝膠蛋白圖像分割結(jié)果對比圖 根據(jù)模擬凝膠蛋白圖像分割結(jié)果(b)~(e)來看,KFCM算法分割結(jié)果與距離方法分割結(jié)果分離出的模擬蛋白點的數(shù)量是一樣的,FCM算法分割出的蛋白點最少,本文算法比其他幾種算法分割出的點更多,并且對輕度重疊蛋白點也有較好的分離效果。 3.2 真實凝膠蛋白圖像的實驗測試 圖2真實凝膠蛋白圖像分割結(jié)果對比圖中,對原始凝膠圖像(a)進行預處理后的圖像為(b),(c)為FCM算法對真實凝膠圖像分割的結(jié)果,(d)為原始的KFCM算法對真實圖像的分割結(jié)果,(e)為基于距離方差σ估計值對真實圖像的分割結(jié)果,(f)為本文分割算法的實驗結(jié)果。 對于真實的凝膠蛋白圖像來說,從上述圖像(c)~(f)的分割結(jié)果來看,本文算法與其他三種算法相比,能夠分離相對較弱的蛋白點,因此分離出的蛋白點更多。但是對于一定具有重疊度的蛋白點不能很好的分割。 3.3 算法的分割結(jié)果評估 從圖像分析可以發(fā)現(xiàn),上述幾種算法無論是對模擬還是真實的凝膠蛋白圖像,在一定程度上都可以實現(xiàn)有效的分割,但是相比之下,本文的分割算法能夠分割出更多的微弱蛋白點,提高了凝膠蛋白圖像的分割效果。 表1是對上述幾種算法分割結(jié)果的進行客觀分析,主要通過分割精度、分割系數(shù)Vpc和分割熵Vpe[13]進行對比研究。 1) 分割系數(shù)的數(shù)學表達式表示為 (7) 2) 分割熵的數(shù)學表達式表示為 (8) 表1分別是在模擬和真實凝膠圖像上對上述幾種算法分割結(jié)果的客觀分析比較,其中分割系數(shù)值越大,分割熵越小時,聚類分割達到最佳的效果。但這并非具有絕對性,結(jié)合分割精度,從整體上來看,本文提出的算法分割出來的蛋白點更多,提高了算法的分割精度,具有較高的準確性。 表1 上述幾種算法分割結(jié)果的客觀分析比較 本文結(jié)合凝膠蛋白圖像的特點,提出了一種基于模糊核C均值聚類分割的改進算法,首先使用引導濾波器對圖像進行濾波并增強濾波后圖像的對比度,然后使用樣本方差設置σ值并結(jié)合隸屬度最大原則進行聚類分割,最終實現(xiàn)凝膠蛋白點的最優(yōu)分割。實驗結(jié)果表明,本文所提出的算法提高了消除噪聲的能力,并且具有較高的分割精度,同時本文給出σ值確定的方法,避免了在不同凝膠蛋白圖像中通過大量實驗進行人為設定的麻煩,使得聚類具有自適應性,易于實現(xiàn)。 [1] Wilkins M R, Pasquali C, Appel R D, et al. From Proteins to Proteomes: Large Scale Protein Identification by Two-Dimensional Electrophoresis and Arnino Acid Analysis[J]. Nature Biotechnology,1996,14(1):61-65. [2] G?rg A, Weiss W. Chapter 2-Protein Profile Comparisons of Microorganisms, Cells and Tissues using 2D Gels[J]. Proteome Analysis, 2004:19-73. [3] Wilkins M R, Sanchez J C, Gooley A A, et al. Progress with proteome projects: why all proteins expressed by a genome should be identified and how to do it[J]. Biotechnology and Genetic Engineering Reviews,1996,13(1):19-50. [4] Tsakanikas P, Manolakos I. Effective denoising of 2D gel proteomics images using contourlets[C]//2007 IEEE International Conference on Image Processing. IEEE,2007,6:VI-269-VI-272. [5] Basak J, Chanda B, Majumder D D. On edge and line linking with connectionist models[J]. IEEE transactions on systems, man, and cybernetics,1994,24(3):413-428. [6] 畢于慧, 崔賽華. 基于分水嶺算法的雙向凝膠電泳圖像分割[J].太原理工大學學報,2005,36(2):164-166. BI Yuhui, CUI Saihua. 2D-gel Electrophoresis Image Segmentation Algorithm Based on Watershed[J]. Journal of Taiyuan University of Technology,2005,36(2):164-166. [7] 張彥清,侯偉,李玲,等.基于改進MRF的凝膠圖像分割算法[J].科技創(chuàng)新與應用,2014(7):1-2. ZHANG Yanqing, HOU Wei, LI Ling, et al. Gel image segmentation algorithm based on improved MRF[J]. Science and technology innovation and Application,2014(7):1-2. [8] RASHWAN S, FAHEEM T, SARHAN A, et al. A Relational Fuzzy C-Means Algorithm for Detecting Protein Spots in Two-Dimensional Gel Images[J]. Advances in experimental medicine and biology,2010,680:215-227. [9] Liao L, Lin T, Li B. MRI brain image segmentation and bias field correction based on fast spatially constrained kernel clustering approach[J]. Pattern Recognition Letters, 2008, 29(10):1580-1588. [10] Wu Z, Xie W, Yu J. Fuzzy c-means clustering algorithm based on kernel method[C]//Computational Intelligence and Multimedia Applications, 2003. ICCIMA 2003. Proceedings. Fifth International Conference on. IEEE, 2003: 49-54. [11] Girolami M. Mercer kernel-based clustering in feature space[J]. IEEE Transactions on Neural Networks, 2002, 13(3): 780-784. [12] 管洲洋.基于模糊C均值的醫(yī)學圖像分割改進算法研究[D].西安:西安電子科技大學,2014. GUAN Zhouyang. Research on improved algorithm of medical image segmentation based on fuzzy C-means[D].Xi’an: Xidian University,2014. [13] Bezdek J C. Mathematical models for systematics and taxonomy[C]//Proceedings of eigth international conference on numerical taxonomy, San Francisco. 1975: 143-166. Segmentation Algorithm of Weak Protein Spots Based on Fuzzy Clustering ZHANG Ming HUANG Fazhong XIN Huamei LENG Yan (School of Physics and Electronics, Shandong Normal University, Jinan 250014) An improved algorithm based on kernel fuzzy C-means clustering segmentation algorithm (KFCM) is proposed by analysis of the characteristics of protein gel image. First, the guide filter is used to enhance the image contrast. Then the KFCM algorithm is used for the image clustering. Finally, the maximum membership principle is applied for de-blurring and the optimal segmentation. In this process, the sample variance is introduced to calculate the value of sigma. Experiment results show that the algorithm has better adaptability and segmentation accuracy. gel image, image segmentation, fuzzy clustering 2016年9月7日, 2016年10月17日 國家自然科學基金(編號:61401259);中國博士后科學基金(編號:2015M582128)資助。 張明,女,碩士研究生,研究方向:信號與信息處理。黃發(fā)忠,男,碩士,副教授,研究方向:信號與信息處理。辛化梅,女,博士,副教授,研究方向:信號與信息處理。冷嚴,女,博士,講師,研究方向:信號與信息處理。 TP391 10.3969/j.issn.1672-9722.2017.03.0233 凝膠蛋白圖像分割仿真及分析
4 結(jié)語