楊華蘭,龐朝陽,董體智,胡本瓊,4
(1.四川師范大學(xué)數(shù)學(xué)與軟件科學(xué)學(xué)院,四川成都610066; 2.四川師范大學(xué)計算機科學(xué)學(xué)院,四川成都610066; 3.東華軟件股份公司,陜西西安710068; 4.成都理工大學(xué)管理科學(xué)學(xué)院,四川成都610059)
基于PCA的模糊C均值聚類算法識別AD候選致病基因
楊華蘭1,龐朝陽2*,董體智3,胡本瓊3,4
(1.四川師范大學(xué)數(shù)學(xué)與軟件科學(xué)學(xué)院,四川成都610066; 2.四川師范大學(xué)計算機科學(xué)學(xué)院,四川成都610066; 3.東華軟件股份公司,陜西西安710068; 4.成都理工大學(xué)管理科學(xué)學(xué)院,四川成都610059)
研究表明阿爾茨海默病(AD)的致病機理可能與基因有關(guān).利用計算方法對AD基因表達數(shù)據(jù)進行挖掘,以獲得AD候選致病基因,尋找治愈AD方法.結(jié)合生物信息理論應(yīng)用基于主成分分析(PCA)方法的模糊C均值算法處理基因表達數(shù)據(jù):觀察到AD基因表達數(shù)據(jù)具有線性相關(guān)性后,先用PCA對數(shù)據(jù)降維,再利用一維分類方法對降維后的數(shù)據(jù)聚類,然后將結(jié)果提供給模糊C均值算法作為其初始聚類數(shù)目和聚類中心.通過算法,最終識別出9個AD候選致病基因.
基因表達數(shù)據(jù);AD候選致病基因;模糊C均值算法;主成分分析
AD是一種危害性極大的癡呆癥.目前為止,科研工作者已成功識別出3種不同的早發(fā)性AD致病基因:APP基因、PSEN1基因、PSEN2基因及一種晚發(fā)性AD致病風(fēng)險因子APOE基因[1-3].對致病基因進行研究后研發(fā)的相關(guān)藥物,對治療AD有一定的效果.研究表明AD可能為多基因遺傳病,為徹底根治AD,擴充和健全AD致病基因系統(tǒng)顯得必要.
由于已有的AD基因表達數(shù)據(jù)量大、維數(shù)高、噪音多.很難直接從中獲取有用的生物信息.為此,本文利用計算方法對數(shù)據(jù)聚類.將與AD致病基因具有相同或相似功能的基因聚為一類,同一類中的基因表達模式類似稱作共表達基因[4-5].若一些基因在AD病發(fā)歷程中(AD病發(fā)歷程共包括正常階段、輕度、中度、重度4個階段)一直與致病基因同屬一類,那么這樣的基因就被識別出來作為AD候選致病基因.
1.1 AD基因表達數(shù)據(jù)的組織形式 本文所使用的AD基因表達數(shù)據(jù)下載于 NCBI的GEO數(shù)據(jù)庫[6].原始數(shù)據(jù)是通過對9個正常、7個輕度、8個中度、7個重度階段 AD樣本(患者)中相同的22 283個基因?qū)嶒灥玫剑嫉幕虮磉_數(shù)據(jù)組成4個不同的矩陣.(1)式顯示的是正常階段下基因表達數(shù)據(jù)組成的矩陣(n=22 283,p=9).
式中,矩陣的行表示同一基因在p個樣本中的表達.列是同一樣本中n個基因的表達情況.類似,輕度階段的基因表達數(shù)據(jù)構(gòu)成22 283×7的矩陣,中度階段的數(shù)據(jù)構(gòu)成22 283×8的矩陣,重度階段的基因表達數(shù)據(jù)構(gòu)成22 283×7的矩陣.
1.2 AD基因表達數(shù)據(jù)預(yù)處理 由于基因表達數(shù)據(jù)矩陣中的每列數(shù)據(jù)是在不同樣本中獲得.為避免量綱對實驗結(jié)果的影響,采用標準化處理數(shù)據(jù)的方式[7]預(yù)處理數(shù)據(jù).記預(yù)處理后的矩陣為Y.
這里
2.1 AD基因表達數(shù)據(jù)的特征 基因表達數(shù)據(jù)矩陣中,不同列的數(shù)據(jù)來源于不同的樣本.但由于樣本所處的狀態(tài)相同,且矩陣的行數(shù)據(jù)是同一個基因的表達情況.因此,認為基因表達數(shù)據(jù)矩陣的不同列間的數(shù)據(jù)也應(yīng)該存在某種相關(guān)性.事實上,這種相關(guān)性確實存在.
以正常階段下基因表達數(shù)據(jù)矩陣(1)式X為例.將X中的每列數(shù)據(jù)都看作是對應(yīng)一個變量.這樣,X中任意2列數(shù)據(jù)就對應(yīng)2個不同的變量.將這兩個變量分別記為x,y.那么同一基因的2個變量所對應(yīng)的基因表達數(shù)據(jù)就構(gòu)成空間中的二維點(x,y).圖1[8]顯示了X中第一、二列數(shù)據(jù)構(gòu)成的二維點的分布情況.由圖1可以看到所有的點都落在一條直線的周圍,這意味著同一階段下相同基因在不同的樣本中的表達數(shù)據(jù)是具有線性相關(guān)性的.
為使這種相關(guān)性得以更清楚的表達,計算并得出了X的相關(guān)系數(shù)矩陣T(見表1).
表1 正常階段下基因表達數(shù)據(jù)的相關(guān)系數(shù)值[8]Table 1 The correlation coefficients of gene expression data in the normal stage of AD
將上述數(shù)值構(gòu)成相關(guān)系數(shù)矩陣T=(tij)9×9,T是通過將X中的列數(shù)據(jù)分別記為向量x1,…,x9后,計算
所得到.(xi×xj表示向量內(nèi)積,‖xj‖表示向量的范數(shù)).
表1表明X中任意兩列數(shù)據(jù)間相關(guān)系數(shù)大于0.85.這進一步驗證了同一階段中相同基因在不同的樣本中的表達數(shù)據(jù)是具有線性相關(guān)性.這種相關(guān)性的存在使得對數(shù)據(jù)降維有意義.
2.2 應(yīng)用主成分分析方法對AD基因表達數(shù)據(jù)降維 AD基因表達數(shù)據(jù)量大,維數(shù)高.而列數(shù)據(jù)間線性相關(guān)性的存在使得對基因表達數(shù)據(jù)降維有意義.主分量分析(PCA)方法是常用的降維方法,該方法用少數(shù)新變量來解釋原變量,新變量是原變量的線性組合且攜帶了原變量的多于85%的信息.
PCA對AD基因表達數(shù)據(jù)降維處理的具體步驟如下(以正常階段數(shù)據(jù)為例).
步驟一:計算公式(2)中Y的相關(guān)系數(shù)矩陣R.
這里
cov(i,j)是xi與xj的協(xié)方差是第j列的平均值,Sj是第j列的標準差.
步驟二:計算R的特征值和特征向量.相關(guān)系數(shù)矩陣R是p行p列的實對稱矩陣.設(shè)它的p個特征值為(λ1,λ2,…,λp).滿足λ1>λ2>…>λp.特征值所對應(yīng)正交化的特征向量為
步驟三:計算貢獻率及累計貢獻率,確定主成分的個數(shù).
貢獻率:
按照累計貢獻率大于85%的原則,選擇前k個主成分.
步驟四:計算主成分的載荷和得分.載荷矩陣為p行p列的矩陣Z.
元素
得分矩陣C=X×Z,這里Z是p行p列的矩陣.按照上述步驟,利用PCA對正常、輕度、中度、重度4種不同階段的AD基因表達數(shù)據(jù)進行處理后,發(fā)現(xiàn)數(shù)據(jù)呈現(xiàn)出2個特征(以正常階段為例).
特征一:第一主成分的貢獻率遠大于其他主成分的貢獻率,如圖2所示.這表明第一主成分攜帶多于85%的原始生物信息.因而后續(xù)思考或者計算用第一主成分來代替原始數(shù)據(jù)顯得合理和有意義.
特征二:第一主成分得分數(shù)據(jù)的分布具有明顯的分類特征且類與類間有比較明顯的邊界,如圖3
識別已知的AD致病基因的共表達基因是有生物學(xué)意義的,這是因為共表達基因表達模式類似,且在功能上具有相似性或相關(guān)性[4-5].對基因表達數(shù)據(jù)聚類可以將具有共調(diào)控關(guān)系和功能上彼此關(guān)聯(lián)的基因聚在一起.截止目前,一些經(jīng)典的聚類算法比如 K-Means聚類算法[8]、層次聚類算法[9]等均被應(yīng)用到 AD候選致病基因的識別過程中.
雖然在AD候選致病基因識別過程中應(yīng)用這些聚類算法是有意義的,但文獻[4]指出生命活動中,一些蛋白在功能上具有多樣性,而其功能的發(fā)揮是通過與不同蛋白協(xié)調(diào)工作達到的.不同條件下,編碼這些蛋白的基因與多組不同的基因共表達.這一生物特點的存在會使得聚類過程中出現(xiàn)各個類別重疊的情況.識別與多組不同基因共表達(表達模式相似)的基因用一般非模糊聚類算法是很難達到的.尤其是當數(shù)據(jù)是由不同實驗條件下的數(shù)據(jù)合并而成時,這種缺陷更加明顯.而模糊聚類算法的出現(xiàn)卻較好地解決了該問題.模糊聚類算法借助隸屬度概念對基因進行分類,這種聚類方法相比其他聚類方法柔性更好,更適合對基因進行聚類.模糊聚類算法中最經(jīng)典的為模糊C均值算法—FCM算法.
3.1 模糊C均值聚類算法簡介 FCM算法作為傳統(tǒng)的硬劃分(HCM)的改進,是一種模擬人類思維的方法,該算法融合模糊集中的隸屬度概念[10-11].相對HCM算法來說FCM算法本身具有一定的柔性,理論上更適用于生物計算.FCM算法利用隸屬度uij判別基因的所屬類別,uij表示第j個基因?qū)儆诘趇個類的可能性.給定一個相對合理的閾值,如果隸屬度uik大于閾值則將第k個基因劃分到第i個類.FCM算法的最優(yōu)聚類在目標函數(shù)J(U,V)取最小值時得到.
(4)式中,模糊指數(shù)m(m>1),U是c×n的隸屬度矩陣,uij是第j個樣本隸屬于第i類的隸屬度值(i= 1,…,c;j=1,…,n),V是s×c的聚類中心矩陣,dij為樣本點xj到中心點vi的距離(dij=|xj-xi|),目標函數(shù)是關(guān)于自變量(U,V)的優(yōu)化約束問題.利用KT極值的必要條件有(6)和(7)式所顯示的迭代方程的存在:
記
利用FCM算法對數(shù)據(jù)聚類,需要先初始化聚類中心或隸屬度矩陣,然后利用(6)和(7)式不斷更新聚類中心和隸屬度矩陣,直到滿足設(shè)置的終止條件,算法具體步驟如下:
Step 1:設(shè)置模糊指數(shù)m,收斂值ε>0,迭代次數(shù)k=0,初始化聚類中心V(0);
Step 2:利用隸屬矩陣的迭代公式計算u(0);
Step 3:計算目標函數(shù)J(0),k=k+1;
……
Step k:更新聚類中心得到V(m);
Step k+1:更新隸屬度矩陣得到U(m);
Step k+2:計算目標函數(shù)J(m).若
則算法停止.輸出聚類中心和隸屬度矩陣.否則,返回step k,算法繼續(xù).
FCM算法是一種具有柔性的模糊劃分方式,在生物學(xué)基因識別方面應(yīng)用合理.但是,該算法的缺點在于要求事先確定初始聚類中心.而一般情況下,初始聚類中心的選擇是隨機的,具有不確定性.這會給最后的實驗結(jié)果帶來誤差.為了解決該問題,我們對FCM算法做了一定的改進:引用文獻[8]提出的一維分類方法來確定FCM算法的初始聚類中心和聚類數(shù)目.
3.2 一維分類算法確定FCM初始聚類中心和聚類數(shù)目 主成分分析方法處理數(shù)據(jù)后,第一主成分被選為主要的研究對象.觀察第一主成分的得分數(shù)據(jù)發(fā)現(xiàn)它們具有明顯的分類特征(圖3).為確定類的個數(shù).可對這些數(shù)據(jù)進行聚類,聚類遵循的原則:類間樣本點間距小,類類樣本點間距大.基于此,考慮到了第一主成分得分數(shù)據(jù)的間距且獲得它們由大到小排列的分布直方圖(圖4).觀察圖像,間距由大到小的變化過程可被看做是類類間距向類間間距的過度過程,而判據(jù)應(yīng)該集中在曲線與直線的交點附近.為找到該交點,確定類的數(shù)目.我們引用文獻[9]提出的一維分類算法.該方法具體實驗步驟如下:
Step 1:設(shè)第一主成分得分集為X*.
Step 2:對X*升序排列,記排列后的得分集為Y,索引號為ID.
Step 3:對Y做向前差分,得到前后相鄰2個基因間的距離矩陣Y1.
Step 4:計算所有距離的平均值,篩選出大于平均值的距離,將其個數(shù)記做l.將它們組合成新的矩陣Y2.
Step 5:定義并計算門限值Lepso.
Step 6:利用Lepso對X*分類.設(shè)n1=1,若di<Lepso,則nj+1=nj.否則,
便得到初始分類矩陣N.
依據(jù)索引號ID={idx1,idx2,…,idxn},將N中索引號對應(yīng)到X*,取出相應(yīng)的分類集合N*.表示第i個類別,k表示類別數(shù)目.
Step 7:計算N*中每個類的類別中心n(0),
應(yīng)用基于PCA的模糊C均值算法對AD基因表達數(shù)據(jù)聚類,由如下步驟得到聚類結(jié)果.
3.3 基于PCA的模糊C均值算法對AD基因表達數(shù)據(jù)聚類的具體步驟 以正常階段的基因表達數(shù)據(jù)為例,其他3種情況類似.
Step 1:設(shè)正常階段下的數(shù)據(jù)矩陣為X,預(yù)處理后得到矩陣Y.
Step 2:對Y作PCA降維處理.降維后的第一主成分得分集為
Step 3:用一維分類法對X*聚類(詳細過程見3.2),得到聚類結(jié)果
上述方法確定出來的n(0)和類別數(shù)k,作為FCM算法的初始聚類中心和聚類數(shù)目.由于FCM算法中的模糊指數(shù)m控制算法的柔性.目前對m的最佳取值,并沒有統(tǒng)一的規(guī)定.研究者在對m進行選擇時,通常都是結(jié)合各自的研究目的和數(shù)據(jù)特點給出m的取值或取值范圍:文獻[12]給出[1,1.5],聚類效果最佳;而文獻[13]又從物理學(xué)角度出發(fā)解釋m=2,聚類結(jié)果最優(yōu);而文獻[14]從漢字識別的應(yīng)用背景出發(fā)得到[1.25,1.75]聚類效果最好;隨后,文獻[15]再一次從收斂角度出發(fā)提出m的取值與
Step 4:用FCM算法對基因進行聚類(詳細過程見3.1),得到聚類結(jié)果
由于共表達基因分享同一表達模式,屬于同一類.這種類別的屬性是不隨外界條件改變而改變的.因此,本文中那些與致病基因同屬一類并在AD發(fā)展進程中一直與致病基因?qū)儆谕活惖幕虮銥锳D候選致病基因.換言之,若基因H0與致病基因ZAD同屬一類,H0被判定為AD候選致病基因的依據(jù)為
H0∈F(ZAD)=
Fc(ZAD)∩Fi(ZAD)∩Fm(ZAD)∩Fs(ZAD),F(xiàn)(ZAD)表示 AD候選致病基因集合.Fc(ZAD)、Fi(ZAD)、Fm(ZAD)、Fs(ZAD)分別表示正常、輕度、中度、重度4種不同階段下與致病基因ZAD同屬一類的基因的集合.
通過基于PCA的模糊C均值算法對AD基因表達數(shù)據(jù)聚類及AD候選致病基因的判定依據(jù).本文最終篩選出9個符合條件的AD候選致病基因(表2).
表2 識別出的候選致病基因列表Table 2 The list of identified candidate genes of AD
識別出的9個候選致病基因中,ap2b1、Rere、PUF60、TBCB作為APOE的共表達基因在AD進程中一直與APOE同屬一類.而eif4g2、rpl24、Sepw1、trim2、loc12729作為APP的共表達基因在AD病發(fā)四個階段一直與APP屬于同一類.由于共表達基因功能上的相關(guān)性,因此認為識別出的候選致病基因在AD整個過程中與致病基因一樣或許發(fā)揮了相同或者相似的功能.因而對候選基因進行生物學(xué)驗證具有意義.
本文從已知的AD候選致病基因出發(fā),對已有的基因表達數(shù)據(jù)進行分析.企圖獲取在AD病發(fā)整個歷程中均與已知的AD致病基因同屬一類的基因.另外,由于基因功能上的多面性,文章應(yīng)用基于PCA的模糊C均值聚類算法對基因聚類:觀察到AD基因表達數(shù)據(jù)具有線性相關(guān)性后,先用主成分分析(PCA)方法對數(shù)據(jù)降維,選擇蘊含大部分原始數(shù)據(jù)信息的第一主成分作為主要的研究數(shù)據(jù),將第一主成分投影到一維子空間發(fā)現(xiàn)第一主成分的得分數(shù)據(jù)具有明顯的分類特征.為此,利用文獻[8]提出的一維分類算法對數(shù)據(jù)進行聚類,并將結(jié)果提供給FCM算法作為其初始聚類數(shù)目和聚類中心.
應(yīng)用算法,文章最終識別出9個AD候選致病基因分別為 ap2b1、Rere、PUF60、TBCB、eif4g2、rpl24、Sepw1、trim2、loc12729.
由于候選基因與已知致病基因功能上的相關(guān)性,后續(xù)工作可以對識別出的AD候選致病基因進一步分析或驗證.
[1]LARS B,ROUDOLPH E T.Thirty years of Alzheimer’s disease genetics:the implications of systematic meta-analyses[J].Nature Reviews Neuroscience,2008,9(10):768-778.
[2]HAROLD D,ABRAHAM R.Genome-wide association study identifies variants at CLU and PICALM associated withAlzheimer’s disease[J].Nature Genetics,2009,41(10):1088-1093.
[3]LAMBERT J C,HEATH S,EVEN G,et al.Genome-wide association study identifies variants at CLU and CR1 associated with Alzheimer’s disease[J].Nature Genetics,2009,41(10):1094-1099.
[4]岳峰,孫亮.基因表達數(shù)據(jù)的聚類分析研究進展[J].自動化學(xué)報,2008,34(2):113-120
[5]EISEN M B,SPELLMAN P T,BROWN P O,et al.Cluster analysis and display of genome-wide expression patterns[J].Proceed National AcADemy Sci United States Am,1998,95(25):14863-14868.
[6]美國國家生物信息技術(shù)中心.阿爾茨海默病基因數(shù)據(jù)[EB/OL].[2013-9]Available:http://www.ncbi.nlm.nih.gov/ gds/?term=alzheimer(2013-10-10)
[7]PANG C Y,HU W,HU B Q,et al.A special local clustering algorithm for identifying the genes associated with Alzheimer’s disease[J].IEEE Trans Nanobioscience,2010,9(1):44-50.
[8]PANG C Y,YANG L,ZHANG D X,et al.The strong correlation of gene expression data on Alzheimer’s disease and co-regulation of gene[C]//Taiwang:2011 IEEE International Conference on Granular Computing,2011:855-858.
[9]PANG C Y,LIU S Q,LI Y,et al.The nonlinear correlation character of gene expression data on Alzheimer’s disease and hierarchy clustering of co-regulated gene[C]//Taiwang:2011 IEEE International Conference on Granular Computing,2011:859-862.
[10]莫智文,舒蘭,許彪.模糊數(shù)學(xué)理論及其應(yīng)用評述[J].四川師范大學(xué)學(xué)報(自然科學(xué)版),1998,21(3):330-335
[11]莊劉,曾艷.基于模糊C-均值聚類的最優(yōu)量化器設(shè)計[J].四川師范大學(xué)學(xué)報(自然科學(xué)版),2010,33(4):559-562.
[12]BEZDEK J C.Pattern Recognition with Fuzzy Objective Function Algorithms[M].New York:Plenum Press,1981.
[13]BEZDEK J C.A physical interpretation of fuzzy ISODATA[J].IEEE Trans Syst Man Cybern,1976,6(3):387-390.
[14]CHENG Y S,CHAN K P.Modified fuzzy ISODATA for the classification of handwriting chinese characters[C]//Singapore:Proc Int Conf Chinese Comput,1986:361-364.
[15]BEZDEK J C,HATHAWAY R.Convergence theory for fuzzy c-means:counterexamples and repairs[J].IEEE Trans Syst Man Cybern,1987,17(5):873-877.
[16]FUKUNAGA K,HOSTETLER L.The Estimation of the G radient of a Density Function with Application in Pattern Recognition[J].IEEE Transactions on Information Theory,1975,21(1):32-40.
Applying FCM Algorithm Based on PCA to Identify the Candidate Genes of Alzheimer’s Disease
YANG Hualan1,PANG Chaoyang2,DONG Tizhi3,HU Benqiong3,4
(1.College of Mathematics and Software Science,Sichuan Normal University,Chengdu 610066,Sichuan; 2.College of Computer Science,Sichuan Normal University,Chengdu 610066,Sichuan; 3.Donghua Software company,Xi’an 710068,Shaanxi; 4.College of ManagementScience,Chengdu University of Technology,Chengdu 610059,Sichuan)
Researches show that the pathogenesis of Alzheimer’s disease(AD)may be associated with genes.It’s significant to identify the candidate genes of AD and find the way of curing AD at last by mining the AD gene expression data.Combing the theory of biological information,the Fuzzy C-Means(FCM)clustering algorithm based on Principal Component Analysis(PCA)is chosen to process the gene expression data.After observing the fact that there is a linear correlation between AD gene expression data,we use the way of PCA to reduce the dimensions of data.Then a dimensional classification algorithm is put forward and is applied to cluster the AD gene expression data.Simultaneously,the clustering results are provided to FCM as its initial clustering centers and numbers.Finally,9 candidate genes of AD are identified.
gene expression;the candidate genes of AD;Fuzzy C-Means clustering;principal component analysis
O24
A
1001-8395(2016)04-0496-07
10.3969/j.issn.1001-8395.2016.04.006
(編輯 陶志寧)
2014-03-29
中國航空科學(xué)基金(2012ZD11)
*通信作者簡介:龐朝陽(1973—),男,教授,主要從事基因計算與量子力學(xué)的研究,E-mail:cypang402@126.com
2010 MSC:62H25;62H30