山東大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系(250012) 王 璐 張 濤 劉 佳 劉盈君 公曉云 薛付忠
模糊聚類法在動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)趨勢聚類中的應(yīng)用*
山東大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計(jì)學(xué)系(250012) 王 璐 張 濤 劉 佳 劉盈君 公曉云 薛付忠△
目的探討模糊C均值聚類方法(FCM)在動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)不同動(dòng)態(tài)趨勢聚類中的應(yīng)用。方法使用模糊C均值聚類方法,分別對(duì)模擬的動(dòng)態(tài)數(shù)據(jù)和動(dòng)態(tài)基因表達(dá)進(jìn)行聚類,識(shí)別不同的變化模式。結(jié)果對(duì)模擬數(shù)據(jù)的分析顯示,F(xiàn)CM可以準(zhǔn)確地識(shí)別模擬設(shè)定的不同動(dòng)態(tài)變化趨勢,并將其聚為一類;同時(shí),通過設(shè)定隸屬度閾值我們可以避免對(duì)噪聲變量的聚類。而對(duì)動(dòng)態(tài)基因組表達(dá)數(shù)據(jù)的實(shí)例分析表明FCM可以有效地將具有相同表達(dá)模式的基因聚類,并且能給出類間關(guān)系。結(jié)論模糊C-均值聚類可以用于動(dòng)態(tài)組學(xué)數(shù)據(jù)不同動(dòng)態(tài)變化模式的聚類,幫助我們更有效地探索生物信息。
動(dòng)態(tài)組學(xué)數(shù)據(jù) 模糊C均值聚類
生命過程是動(dòng)態(tài)連續(xù)的,且存在一定的趨勢和規(guī)律。傳統(tǒng)的組學(xué)研究多為基于靜態(tài)采樣設(shè)計(jì)的分類研究,很難追蹤生物體的縱向變化趨勢。而動(dòng)態(tài)組學(xué)研究設(shè)計(jì)是指在一個(gè)連續(xù)時(shí)間段內(nèi)的多個(gè)時(shí)間點(diǎn)上對(duì)生物樣本進(jìn)行采樣并測量的設(shè)計(jì)類型[1]。它使得分析生物體在疾病或外界干預(yù)刺激下的動(dòng)態(tài)變化規(guī)律變?yōu)榭赡?。相比于靜態(tài)采樣,動(dòng)態(tài)采樣使得我們可以測量和控制不同類型的變異,例如代謝動(dòng)力學(xué)的個(gè)體差異,生理節(jié)奏,以及響應(yīng)快慢的差異等,從而幫助我們更準(zhǔn)確地找到隨時(shí)間變化的關(guān)鍵標(biāo)記物。例如,通過測量酵母菌細(xì)胞周期不同時(shí)間點(diǎn)的基因組表達(dá)水平,我們可以識(shí)別同酵母菌細(xì)胞周期相關(guān)的關(guān)鍵基因并了解其變化規(guī)律,從而為我們理解細(xì)胞周期的調(diào)控過程提供新的線索。
近年來,動(dòng)態(tài)設(shè)計(jì)的組學(xué)研究逐漸成為熱點(diǎn)。而如何識(shí)別動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)中隨時(shí)間變化的關(guān)鍵生物標(biāo)記物及其變化趨勢,是統(tǒng)計(jì)分析的關(guān)鍵。動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)除具有縱向數(shù)據(jù)的特點(diǎn)外,還具有一般組學(xué)數(shù)據(jù)的高維、小樣本特性,并且其中存在許多變化趨勢相似的變量以及不隨時(shí)間變化的噪聲變量。利用單變量統(tǒng)計(jì)分析,例如重復(fù)測量方差分析,我們可以識(shí)別隨時(shí)間變化的標(biāo)記物,但是無法識(shí)別其復(fù)雜的變化趨勢,且忽略了變量間的相關(guān)性。而使用無監(jiān)督的聚類分析,能夠同時(shí)考察所有變量,將其中變化趨勢一致的生物標(biāo)記物識(shí)別出來,這對(duì)于生物機(jī)制的研究具有重要意義。模糊聚類允許將聚類對(duì)象模糊歸類,即使其以不同的隸屬度屬于不同的類,避免了隨機(jī)化變量的歸類,因而對(duì)噪聲更加穩(wěn)?。?],適合于分析存在著大量噪聲的組學(xué)數(shù)據(jù)。同時(shí)該算法允許類間重疊,并給出各個(gè)類之間的關(guān)系,因此能幫助我們更有效地挖掘生物樣本數(shù)據(jù)中蘊(yùn)含的復(fù)雜的生物網(wǎng)絡(luò)調(diào)控信息。目前模糊C均值聚類算法已經(jīng)被應(yīng)用于組學(xué)數(shù)據(jù)的聚類分析中[3-5]。
本文在簡要介紹模糊C均值聚類原理的基礎(chǔ)上,通過對(duì)模擬數(shù)據(jù)和實(shí)際數(shù)據(jù)的分析介紹其在動(dòng)態(tài)組學(xué)數(shù)據(jù)中的應(yīng)用,考核其識(shí)別不同變化趨勢的效果。
模糊C均值算法(fuzzy C-means clustering,F(xiàn)CM)是通過計(jì)算隸屬度來確定每個(gè)數(shù)據(jù)點(diǎn)屬于各個(gè)類的程度的一種聚類算法。該算法于1973年由Bezdek[6]提出,作為早期硬C均值聚類(HCM)方法的一種改進(jìn)。
FCM的核心思想為:按照隸屬度模糊劃分,將n個(gè)向量xi(i=1,2,…,n)分為c個(gè)模糊組,并求每組的聚類中心,使目標(biāo)函數(shù)達(dá)到最小。模糊C均值算法與K均值聚類相似,主要區(qū)別在于FCM使用模糊劃分,對(duì)于每個(gè)數(shù)據(jù)點(diǎn)用取值在(0,1)間的隸屬度來確定其屬于各個(gè)組的程度。隸屬矩陣U中的元素uij取值在0到1之間,表示個(gè)體xj隸屬于組i的程度,并且滿足每個(gè)給定數(shù)據(jù)點(diǎn)xj的隸屬度和等于1:
FCM的目標(biāo)函數(shù)為:
上式中dj=‖xj-cj‖為樣本xj到模糊組i聚類中心vi的歐氏距離;m為模糊參數(shù),滿足m∈[1,∞)。推導(dǎo)使目標(biāo)函數(shù)最小化的條件,可以得到更新質(zhì)心的計(jì)算公式:
和更新隸屬度矩陣的計(jì)算公式
FCM算法過程如下:
(1)初始化隸屬矩陣U,使其滿足式(1)中的約束條件;
(2)使用(3)式,計(jì)算每個(gè)聚類的質(zhì)心ci,i=1,…,c。
(3)根據(jù)新的質(zhì)心,使用(4)式更新隸屬度矩陣U。
(4)計(jì)算目標(biāo)函數(shù)。如果它小于某個(gè)確定的閾值,或它相對(duì)上次目標(biāo)函數(shù)值的改變量小于某個(gè)閾值,則算法停止。否則返回步驟(2)。
上述算法也可以先初始化聚類中心,再進(jìn)行迭代。FCM算法不能確保算法收斂于最優(yōu)解,其性能依賴于聚類中心的初始位置。同時(shí),算法需要預(yù)先設(shè)定聚類數(shù)目c和模糊系數(shù)m。對(duì)于c的設(shè)定,我們可以借助多種非監(jiān)督簇評(píng)估度量來近似確定正確的聚類個(gè)數(shù)。m是決定模糊聚類性能的重要參數(shù),隨著m值增大,劃分會(huì)變得越來越模糊,則聚類效果越差;而如果m過小,聚類結(jié)果則會(huì)接近于硬聚類,當(dāng)m=1時(shí),聚類將完全退化為硬聚類。對(duì)于如何更好地確定初始聚類中心,及合適的聚類個(gè)數(shù)和模糊系數(shù),一直是研究的重點(diǎn)和難題。
FCM算法的輸出為c個(gè)聚類中心點(diǎn)向量,和一個(gè)c×n的隸屬度矩陣。聚類中心表示的是每個(gè)類的平均特征,可以認(rèn)為是該類的代表點(diǎn)。隸屬度矩陣中包含每個(gè)樣本屬于各個(gè)類的隸屬度,我們可以按照最大隸屬原則或通過設(shè)置隸屬度閾值確定每個(gè)樣本點(diǎn)的歸類。
目前FCM方法已經(jīng)廣泛應(yīng)用于多個(gè)領(lǐng)域,有簡便的實(shí)現(xiàn)方法,例如MATLAB軟件中的FCM命令,R軟件中用于基因組數(shù)據(jù)聚類分析的M fuzz包[7]。本文將使用R中的M fuzz包進(jìn)行分析。
1.模擬數(shù)據(jù)設(shè)置。為考察模糊C均值聚類能否將具有不同變化趨勢的變量分別聚類,我們設(shè)置了5種變化趨勢的變量。設(shè)t表示時(shí)間點(diǎn),為取值[1,12]間的整數(shù),e服從標(biāo)準(zhǔn)正態(tài)分布,5種變量隨時(shí)間變化的模型如下:
①單調(diào)遞增y=t+e
②單調(diào)遞減y=-t+e
③先減后增y=β×cos(w×t)+e
④先增后減y=-β×cos(w×t)+e
⑤周期波動(dòng)y=-β×cos(2×w×t)+e
設(shè)置其中β=3,w=2π/12,每個(gè)變量都包含有12個(gè)時(shí)間點(diǎn)的數(shù)據(jù),而每種趨勢的變量個(gè)數(shù)為30個(gè)。同時(shí)設(shè)置500個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的噪聲變量,共650個(gè)變量。最后將數(shù)據(jù)標(biāo)準(zhǔn)化,使其每個(gè)變量均值為0,標(biāo)準(zhǔn)差為1。
2.模糊C均值聚類法分析過程
(1)模糊參數(shù)的選擇
m的設(shè)置既要防止噪聲變量被歸類,又要避免分類過于模糊從而使聚類效果變差。根據(jù)這一原則,可以使用文獻(xiàn)[8]提供的簡便方法直接計(jì)算,得到最優(yōu)m取值為1.27。不同的文獻(xiàn)對(duì)m的取值提出了不同的計(jì)算方法,有一種常用的方法是直接設(shè)m為2。我們使用模擬數(shù)據(jù)比較不同m值時(shí)的聚類效果。設(shè)置聚類個(gè)數(shù)為5,進(jìn)行FCM聚類,以隸屬度大于0.5作為變量被歸類的閾值,聚類結(jié)果如表1所示。結(jié)果顯示,m值增加,噪聲變量的歸類減少,但趨勢變量聚類效果變差。而在m取值1.27時(shí),既保證了所有的趨勢變量都被正確聚類,又最大程度防止了噪聲數(shù)據(jù)的聚類。
表1 模擬數(shù)據(jù)在設(shè)定不同m值時(shí)的FCM聚類結(jié)果
(2)模糊聚類個(gè)數(shù)選擇
我們通過繪制最小類間距離隨聚類個(gè)數(shù)變化的曲線來近似確定聚類個(gè)數(shù)。由于隨著聚類個(gè)數(shù)的增加,最小類間距離下降,當(dāng)聚類數(shù)目達(dá)到最佳時(shí),其最小類間距離下降變慢,因此根據(jù)圖中的拐點(diǎn)我們可以大致確定數(shù)據(jù)中存在的簇個(gè)數(shù)。如圖1所示,當(dāng)聚類數(shù)目達(dá)到5時(shí),其最小類間距離便基本不再有明顯下降,提示我們可將聚類數(shù)目設(shè)為5,這與我們的設(shè)定也是一致的。
圖1 模擬數(shù)據(jù)的最小類間距離隨聚類個(gè)數(shù)變化曲線
(3)模糊C均值聚類分析結(jié)果
算法的輸出為各個(gè)類的聚類中心及隸屬度矩陣。結(jié)果顯示,模擬設(shè)定的5種趨勢變量分別以較大的隸屬度屬于5個(gè)不同的簇,而噪聲變量則均以較小的隸屬度隨機(jī)歸入各類。為了避免噪聲變量的歸類,我們進(jìn)一步設(shè)定隸屬度閾值,即變量只有在對(duì)某一類的隸屬度大于某一閾值時(shí)才將其歸入該類。如表2所示為設(shè)定不同隸屬度閾值時(shí)的聚類結(jié)果。結(jié)果顯示,當(dāng)隸屬度閾值增大時(shí),噪聲變量被歸類的情況相應(yīng)減少。如圖2所示為隸屬度閾值0.8時(shí)的趨勢聚類結(jié)果。
表2 模擬數(shù)據(jù)在設(shè)定不同隸屬度閾值時(shí)的FCM聚類結(jié)果
圖2 設(shè)定隸屬度閾值0.8時(shí)的趨勢聚類結(jié)果
為進(jìn)一步說明模糊C均值聚類在動(dòng)態(tài)組學(xué)數(shù)據(jù)動(dòng)態(tài)趨勢聚類中的應(yīng)用,本文使用公開的細(xì)胞周期全基因組表達(dá)數(shù)據(jù)[9]。該資料包含在酵母菌細(xì)胞周期的17個(gè)時(shí)間點(diǎn)上測量的3000個(gè)基因表達(dá)數(shù)據(jù),研究基因表達(dá)水平與細(xì)胞有絲分裂周期的關(guān)系。在進(jìn)行FCM分析時(shí),以不同基因作為聚類對(duì)象,基因在每個(gè)時(shí)間點(diǎn)上的均值作為其特征,數(shù)據(jù)格式如表3所示。
表3 酵母菌基因表達(dá)數(shù)據(jù)
分析步驟如下:
1.數(shù)據(jù)預(yù)處理
(1)缺失值處理。去除缺失大于25%的變量,共有49個(gè)變量被排除,對(duì)于其余的缺失值以該變量的均值填補(bǔ);
(2)噪聲濾除。為了更好排除噪聲影響,我們將其中變異較小的變量(變量標(biāo)準(zhǔn)差小于0.5)濾除,以提高聚類效果,共有2379個(gè)變量被排除,最終變量數(shù)為572個(gè);
(3)數(shù)據(jù)標(biāo)準(zhǔn)化。使每個(gè)變量其均數(shù)為0,標(biāo)準(zhǔn)差為1,以保證變化趨勢相似的基因在歐氏空間上距離相近。
2.模糊系數(shù)的選擇,計(jì)算可以防止隨機(jī)變量歸類的最小m值,得到最優(yōu)m為1.15。
3.聚類個(gè)數(shù)的選擇,通過繪制聚類個(gè)數(shù)的最小類間距離曲線(如圖3所示),找到曲線拐點(diǎn)位置,確定最優(yōu)聚類個(gè)數(shù)為12。
圖3 動(dòng)態(tài)基因表達(dá)數(shù)據(jù)FCM聚類最小類間距離隨聚類個(gè)數(shù)變化曲線
4.設(shè)置m為1.15,C為12,使用FCM算法對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行聚類。
得到隸屬度矩陣,設(shè)置最小隸屬度閾值0.8,則最終有325個(gè)變量被聚類,聚類1~聚類12的變量個(gè)數(shù)依次為:31、25、16、50、33、39、28、23、14、26、19、21,變量個(gè)數(shù)如表4,相應(yīng)的聚類效果如圖4所示。通過聚類效果圖,我們可以清楚地看到各個(gè)類基因隨時(shí)間變化的趨勢,其中聚類2、聚類4和聚類9可以看到明顯的周期趨勢,可能為與細(xì)胞周期有關(guān)的關(guān)鍵基因。
更進(jìn)一步分析,我們可以根據(jù)隸屬度矩陣可以計(jì)算類間相關(guān)關(guān)系,計(jì)算公式為:其中Vkl表示第k類和第l類的相關(guān)關(guān)系,N為所有變量數(shù),在這里為572,uik表示第i個(gè)體對(duì)第k類的隸屬度。即對(duì)同時(shí)對(duì)于兩類隸屬度大的變量越多,則兩類相關(guān)性越強(qiáng)。根據(jù)類間的關(guān)系,我們便可以獲得全局的聚類結(jié)構(gòu)。如圖5所示為根據(jù)聚類中心矩陣進(jìn)行PCA降維得到的全局聚類結(jié)構(gòu),其中類間連線表示類間相關(guān),連線越粗表示相關(guān)性越強(qiáng)??梢?,第6類和第9類相關(guān)性較強(qiáng),第10類同時(shí)與第3類和第12類相關(guān)性較強(qiáng),提示這些類的基因可能存在生物學(xué)關(guān)聯(lián)。
圖4 動(dòng)態(tài)基因表達(dá)數(shù)據(jù)趨勢聚類結(jié)果
圖5 動(dòng)態(tài)基因表達(dá)數(shù)據(jù)聚類中心降維得到的全局聚類結(jié)構(gòu)
本文通過對(duì)模擬數(shù)據(jù)及實(shí)例的分析驗(yàn)證了模糊C均值聚類法對(duì)于動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)中變量動(dòng)態(tài)趨勢識(shí)別的有效性。在模擬實(shí)驗(yàn)中FCM法準(zhǔn)確的識(shí)別了我們設(shè)定的不同變化趨勢,并且通過閾值的設(shè)定我們可以避免噪聲的隨機(jī)歸類。而對(duì)于真實(shí)動(dòng)態(tài)基因表達(dá)數(shù)據(jù)的分析顯示了FCM方法可以識(shí)別表達(dá)模式相似的基因。組學(xué)數(shù)據(jù)維數(shù)較高,因此在聚類前進(jìn)行濾除掉變異較小的變量,可以更好地避免噪聲干擾,得到更理想的聚類結(jié)果。觀察不同變化模式的聚類效果圖,我們可以發(fā)現(xiàn)變化趨勢更有意義的基因,例如與細(xì)胞周期相關(guān)的基因,并對(duì)其進(jìn)行進(jìn)一步研究。同時(shí),由于聚為同一類的基因多具有相同功能,我們還可以根據(jù)已知功能的代謝物,推知某些未知基因,從而獲得更多的生物信息[10]。因此說,F(xiàn)CM可以有效用于動(dòng)態(tài)設(shè)計(jì)組學(xué)數(shù)據(jù)的預(yù)分析,幫助我們探索變化趨勢相同的生物標(biāo)記物,揭示變量之間的關(guān)系,為進(jìn)一步探索生物信息提供依據(jù)。
但是模糊聚類法在也存在著一些問題,如需要設(shè)置模糊系數(shù)m和聚類數(shù)目C,及對(duì)初始聚類中心敏感,這些一直都是研究的重點(diǎn)和難點(diǎn)。對(duì)于m的設(shè)置,有一種普遍的做法是將m直接設(shè)置為2[11],而本文通過對(duì)模擬數(shù)據(jù)的分析表明這種武斷的做法會(huì)使聚類效果下降。而正確的方法應(yīng)該是在防止隨機(jī)變量被聚類和保證聚類效果之間取得平衡。對(duì)于聚類數(shù)目的設(shè)定,本文中使用簇個(gè)數(shù)的最小類間距離曲線[11],對(duì)模擬數(shù)據(jù)的分析證明了其有效性。雖然這種方法在時(shí)間點(diǎn)過少,或類間重疊較大時(shí)并不總是有效的,但是仍然能幫助我們洞察數(shù)據(jù)中的簇個(gè)數(shù)。針對(duì)FCM的聚類效果對(duì)于初始聚類中心敏感,易陷入局部最優(yōu)的問題,許多學(xué)者已經(jīng)進(jìn)行了大量的改進(jìn),如引入遺傳算法,模擬退火等優(yōu)化技術(shù)[12-13],或通過對(duì)不同的初始聚類中心多次執(zhí)行FCM算法選取最優(yōu)結(jié)果。這些方法如何運(yùn)用到動(dòng)態(tài)組學(xué)數(shù)據(jù)分析并提高聚類效果還需要進(jìn)一步研究。
1.Nicholson JCLK.Handbook of Metabonomic and Metabolomics.London:Elsevier,2007:174-179.
2.Futschik ME,Carlisle B.Noise-robust soft clustering of gene expression time-course data.J Bioinform Comput Biol,2005,3(4):965-988.
3.Gasch AP,Eisen MB.Exploring the conditional coregulation of yeast gene expression through fuzzy k-means clustering.Genome Biol,2002,3(11):RESEARCH0059.
4.Dembele D,Kastner P.Fuzzy C-means method for clustering microarray data.Bioinformatics,2003,19(8):973-980.
5.Li X,Lu X,Tian J,et al.Application of fuzzy c-means clustering in data analysis of metabolomics.Anal Chem,2009,81(11):4468-4475.
6.Bezdek JC.Pattern Recognition with Fuzzy Objective Function Algorithms.Norwell:Kluwer Academic Press,1981.
7.Kumar L,E FM.Mfuzz:a software package for soft clustering of microarray data.Bioinformation,2007,2(1):5-7.
8.Schwammle V,Jensen ON.A simple and fast method to determine the parameters for fuzzy c-means cluster analysis.Bioinformatics,2010,26(22):2841-2848.
9.Cho RJ,Campbell MJ,Winzeler EA,et al.A genome-wide transcriptional analysis of the mitotic cell cycle.Mol Cell,1998,2(1):65-73.
10.Eisen MB,Spellman PT,Brown PO,et al.Cluster analysis and display of genome-wide expression patterns.Proc Natl Acad Sci USA,1998,95(25):14863-14868.
11.Tan P,Steinbach M.數(shù)據(jù)挖掘?qū)д?北京:人民郵電出版社,339,361.
12.聶生東,張英力,陳兆學(xué).改進(jìn)的遺傳模糊聚類算法及其在MR腦組織分割中的應(yīng)用.中國生物醫(yī)學(xué)工程學(xué)報(bào),2008(6):860-866.
13.Richardt FK,Müller C.Connections between fuzzy theory,simulated annealing,and convex dualit.Fuzzy Sets and Systems,1998.
(責(zé)任編輯:郭海強(qiáng))
Clustering the Dynamic Profile of Dynamic Omics Data Using Soft Clustering Method
Wang Lu,Zhang Tao,Liu Jia,et al(Department of Biostatistics,School of Public Health,Shandong University(250012),Jinan)
ObjectiveWe applied fuzzyC-means soft clustering to the clustering of dynamic profiles in dynamic omics data.MethodsSoft clustering was implemented here using the fuzzyC-means algorithm to reveal the dynamic profiles in both the simulated dynamic data and real dynamic gene expression data.Procedures to find optimal clustering parameters were developed.ResultsFCM was able to detect the dynamic profiles in both simulated data and real gene expression data.In addition,it can define the overall relation between clusters,and thus a global clustering structure.ConclusionFuzzyC-means clustering is an efficient tool to reveal the hidden structure in dynamic omics data.
Dynamic Omics data;FuzzyC-means cluster
本研究獲國家自然科學(xué)基金資助(81302514)、山東省自然科學(xué)基金(ZR2013HQ056)
△通信作者:薛付忠,E-mail:xuefzh@sdu.edu.cn