朱貴瓊, 龐朝陽, 茍仕蓉, 楊培會
( 1. 四川師范大學(xué) 計算機(jī)科學(xué)學(xué)院, 四川 成都 610101;2. 電子科技大學(xué) 網(wǎng)絡(luò)與數(shù)據(jù)安全四川省重點(diǎn)實(shí)驗(yàn)室, 四川 成都 610054; 3. 四川郵電職業(yè)技術(shù)學(xué)院, 四川 成都 610067 )
阿爾茨海默病(AD)是發(fā)生在老年期及老年前期的一種慢性進(jìn)行性的致死性神經(jīng)退行性疾病,其病死率高,僅次于心血管疾病、腦血管疾病、癌癥,同時阿爾茨海默病致殘率也高.因此,AD被稱為21世紀(jì)威脅人類的最嚴(yán)重疾病之一[1-4].
現(xiàn)代醫(yī)學(xué)研究證明,除外傷外,幾乎所有的疾病都和基因有關(guān)系.在成千上萬條基因中,只有小部分基因與疾病的表型密切相關(guān),這類基因往往在不同樣本中差異表達(dá),稱其為致病基因或特征基因.借助包含豐富AD基因信息的cDNA微陣列數(shù)據(jù),選取尋找AD致病基因的理論和方法,發(fā)現(xiàn)與AD相關(guān)的基因,以及弄清楚致病基因的功能及關(guān)聯(lián)等,從而實(shí)現(xiàn)對該病的預(yù)測、早期診斷及治療,這對AD患者及其家庭和社會都具有十分重要的意義和不可估量的經(jīng)濟(jì)價值[5-8].
設(shè)計合適的算法對基因數(shù)據(jù)進(jìn)行分析處理,以此減少識別與AD相關(guān)基因的時間,具有很大的意義.以往的算法有K均值聚類算法(K-Means算法)[9-10]、主成分分析算法(PCA算法)[11-12]、蟻群算法(ACO算法)[13-14]、獨(dú)立主成分分析算法(ICA算法)[15]、差分進(jìn)化算法(DE算法)、夾角余弦度量和切比雪夫不等式算法[16-17]等.上述算法中,K-Means算法必須事先給出K(要生成的簇的數(shù)目),聚類結(jié)果的好壞依賴于初始點(diǎn)的選取,且運(yùn)行時間較長,計算結(jié)果不夠穩(wěn)定.主成分分析算法當(dāng)主成分的因子負(fù)荷的符號有正有負(fù)時,綜合評價函數(shù)意義就不明確,命名清晰性低.蟻群算法是典型的概率算法,算法中的參數(shù)設(shè)定通常由實(shí)驗(yàn)方法確定,導(dǎo)致方法的優(yōu)化性能與人的經(jīng)驗(yàn)密切相關(guān),很難使算法性能最優(yōu)化.差分進(jìn)化算法存在求解精度低及進(jìn)化后期收斂速度慢等缺陷.夾角余弦度量和切比雪夫不等式算法在于選擇與AD確定有關(guān)的少數(shù)幾個基因作為主基因,查找這些主基因的伴隨基因,導(dǎo)致基因查找不夠全面,且切比雪夫不等式在計算概率時比較粗糙.
因AD基因表達(dá)庫中有22 283個基因,31個樣本,故具有小樣本的特點(diǎn).針對AD基因表達(dá)譜數(shù)據(jù)特有的維數(shù)高/樣本小/非線性的特點(diǎn),本文對基因特征提取和分類進(jìn)行研究,提出用T檢驗(yàn)方法引入基因的特征提取過程.T檢驗(yàn)是檢驗(yàn)差異顯著性的十分重要的統(tǒng)計工具,這種差異顯著性的檢驗(yàn)是樣本均值間的比較,適用于樣本容量較小的組與組之間平均值差異程度的檢驗(yàn)方法.在本文的算法中取理論性較好的顯著性水平α=0.05,篩選出有表達(dá)差異的基因,再根據(jù)AD病理及發(fā)病機(jī)制假說,對篩選出的各基因進(jìn)行相關(guān)的生物學(xué)意義分析,從中識別出對AD有生物學(xué)意義的典型基因,以這些基因作為AD候選致病基因.
1.1數(shù)據(jù)來源及組織形式本文所采用的基因芯片數(shù)據(jù)來源于NCBI的基因綜合表達(dá)數(shù)據(jù)庫GEO.該數(shù)據(jù)包含9個正常、7個輕度、8個中度和7個重度階段AD樣本中相同的22 283個基因的表達(dá)水平,將表達(dá)水平值根據(jù)樣本患病程度不同分別用4個基因表達(dá)數(shù)據(jù)矩陣進(jìn)行表示,設(shè)矩陣用
T=(xij)m×n
表示,其中xij表示第i個基因在第j個樣本中的表達(dá)水平值,m是基因數(shù),n為樣本數(shù),稱為基因表達(dá)譜,即矩陣中每一行代表一個基因,每一列代表一個樣本.
本文中記正常階段的矩陣為Mctrl、輕度階段的矩陣為Mincip、中度階段的矩陣為Mmod和重度階段的矩陣為Msev,在這4個矩陣中m=22 283,但n的值分別為9,7,8,7,在這4個矩陣中具有m?n的特點(diǎn),這導(dǎo)致AD的基因表達(dá)譜數(shù)據(jù)具有大規(guī)模、高噪聲、高維度的特點(diǎn).為了盡量減少芯片實(shí)驗(yàn)結(jié)果中篩選出的差異基因的錯誤和假陽性,以及為了能滿足使用T檢驗(yàn)的要求樣本服從正態(tài)分布且樣本間方差齊性,本文在進(jìn)行差異基因篩選前,進(jìn)行數(shù)據(jù)預(yù)處理,這樣使T檢驗(yàn)算法能更準(zhǔn)確識別出顯著差異表達(dá)的基因.
1.2數(shù)據(jù)的預(yù)處理在基因數(shù)據(jù)矩陣M=(xij)m×n中,每列數(shù)據(jù)是從同一種實(shí)驗(yàn)條件下獲得的數(shù)據(jù),每行數(shù)據(jù)是在不同實(shí)驗(yàn)環(huán)境下獲得的數(shù)據(jù),故首先對4種AD狀態(tài)的基因表達(dá)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,去除數(shù)據(jù)的量級差異并保持?jǐn)?shù)據(jù)的性質(zhì)和相關(guān)關(guān)系不變,使得經(jīng)過預(yù)處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布N(0,1),為后續(xù)的T檢驗(yàn)比較提供具有差異統(tǒng)計意義的標(biāo)準(zhǔn)化數(shù)據(jù)[16-18].
Z-Score標(biāo)準(zhǔn)化數(shù)學(xué)公式為
(1)
其中
(2)
1.3T檢驗(yàn)查找差異表達(dá)基因差異表達(dá)的基本思想是比較分別來自正常人的基因表達(dá)水平和生病情況下的基因表達(dá)水平的總體期望值,觀察二者差異,從而確定哪些基因是與疾病有關(guān)的.
令樣本均值
(3)
樣本方差
(4)
構(gòu)造t統(tǒng)計量
(5)
對于給定的顯著性水平α,設(shè)
P{|t|>tα/2(n1+n2-2)}=α,
tα/2(n1+n2-2),
(6)
將(6)式化為
(7)
記
(8)
當(dāng)選定不同顯著性水平α,得到的上調(diào)或下調(diào)基因數(shù)量會不同,α越小,選出的基因數(shù)量越小,最佳α是使數(shù)據(jù)分析結(jié)果達(dá)到最優(yōu)的值.在本文中,經(jīng)過不同的實(shí)驗(yàn)測試發(fā)現(xiàn),當(dāng)顯著性水平α=0.05時得到的效果最理想.
1) 滿足
和
的基因稱為一致上調(diào)的基因;
2) 滿足
和
的基因稱為一致下調(diào)的基因.
本文對AD微陣列基因表達(dá)數(shù)據(jù)運(yùn)用 (1)和(2)式對基因數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,使得各基因的樣本數(shù)據(jù)標(biāo)準(zhǔn)化為標(biāo)準(zhǔn)正態(tài)分布N(0,1),運(yùn)用(3)~(5)式計算出t統(tǒng)計量,選擇α=0.05,確定臨界值tα/2(n1+n2-2),運(yùn)用(7)及(8)式給出具有差異的基因表達(dá).應(yīng)用Matlab軟件對該算法進(jìn)行實(shí)現(xiàn),產(chǎn)生差異表達(dá)的基因子集,共有40個一致上調(diào)基因和30個一致下調(diào)基因.
2.1T檢驗(yàn)實(shí)現(xiàn)篩選基因結(jié)果本文對篩選出的70個基因進(jìn)行基因相關(guān)生物學(xué)分析,最終篩選出符合條件的AD致病基因共30個,其中一致上調(diào)的基因有16個,如表1;一致下調(diào)的基因有14個,如表2.
表 1 識別出的一致上調(diào)候選致病基因列表
表 2 識別出的一致下調(diào)候選基因列表
在上述T檢驗(yàn)算法篩選的基因中有10個基因被AD文獻(xiàn)證實(shí)與AD有關(guān)[10-12],這個結(jié)果預(yù)示著本文識別出來的一致表達(dá)基因很有可能與AD有關(guān).
2.2候選基因與AD的生物關(guān)系分析AD的病因目前尚不清楚,20世紀(jì)80年代以來,人們提出了許多關(guān)于AD的假說,包括Aβ產(chǎn)物過多、Tau蛋白的異常磷酸化、神經(jīng)遞質(zhì)障礙、過氧化作用、炎癥/免疫反應(yīng)、神經(jīng)突觸損傷、神經(jīng)元凋亡和其他因素(如高血壓、糖尿病、高脂血癥、高血清同型半胱氨酸、心房顫動、腦外傷、重金屬(鋁、鐵、鋅、錳等)接觸史等因素也能參與AD的發(fā)病)[4,7,18-20].
對比上述假說,30個候選基因在各種AD發(fā)病機(jī)制的假說中的分布情況如圖1.
圖 1 候選致病基因的比例分布
在圖1中有些基因既參與了炎癥/免疫反應(yīng),也參與了細(xì)胞凋亡等功能活性,它們的活性是多種多樣的,所以在基因的生物分析中需要考慮其多種功能活性.
依據(jù)AD發(fā)病機(jī)制的多種假說,對T檢驗(yàn)算法實(shí)現(xiàn)的基因篩選結(jié)果進(jìn)行生物學(xué)的分析,共得到以下6個特征.
特征1與Wnt信號通路中的β-連環(huán)蛋白活性有關(guān)的基因有5個[18-22].
1) TBL1X,分布在細(xì)胞核上,它與其受體TBL1XR1綁定在由Wnt信號誘導(dǎo)的Wnt目標(biāo)因子的啟動子上,與β-連環(huán)蛋白相互作用,其表達(dá)的異常變化會引起β-連環(huán)蛋白的表達(dá)差異.
2) YES1,在免疫細(xì)胞信號傳導(dǎo)和活化中催化多種底物蛋白質(zhì)酪氨酸殘基磷酸化,促進(jìn)YAP1的磷酸化,YAP1的磷酸化會抑制細(xì)胞系和動物模式中依賴的β-連環(huán)蛋白合成.
3) CTNNBL1,分布在細(xì)胞核中,是一個與記憶相關(guān)的基因,其蛋白質(zhì)結(jié)構(gòu)與β-連環(huán)蛋白有著同源性,從而有相似的生物作用.
4) BLZF1,分布在細(xì)胞核、細(xì)胞質(zhì)、高爾基堆疊,它具有神經(jīng)保護(hù)性質(zhì),它調(diào)控axin的降解和Wnt信號,axin和p53都是腫瘤抑制因子,可以控制細(xì)胞生長、凋亡和發(fā)育.
5) TFDP1,分布在細(xì)胞核、轉(zhuǎn)錄因子復(fù)合體,它與E2F一起抑制Wnt/β-catenin信號通路,通過抑制Dvl-AXin的相互作用和增進(jìn)β-catenin的泛素化反向調(diào)節(jié)Wnt/β-catenin信號.
而其中Wnt信號通路能調(diào)節(jié)GSK-3β對β-連環(huán)蛋白磷酸化,Wnt信號異常減弱引起的PKB活性減弱、GSK-3β活性增強(qiáng),可使Tau蛋白磷酸化及微管去穩(wěn)定、β-連環(huán)蛋白過度降解和神經(jīng)元死亡.從而這些基因的異常表達(dá)可能是誘發(fā)AD的重要因素.
特征2與神經(jīng)系統(tǒng)中Tau蛋白有關(guān)的基因是BAG2[23],它可以調(diào)節(jié)神經(jīng)中的Tau蛋白的表達(dá)水平,其下降表達(dá)會增加磷酸化Tau的內(nèi)在水平,而Tau蛋白的磷酸化是確認(rèn)的AD發(fā)病的病理機(jī)制之一.
特征3與人體免疫/炎癥反應(yīng)有關(guān)的基因有5個[24-28].
1) PIGR,分布在融入質(zhì)膜、膜,它在黏膜表面招募和運(yùn)輸DIGA,從而形成人類完美的免疫系統(tǒng).它屬于一致上調(diào)的基因,所以表現(xiàn)為AD病人的免疫系統(tǒng)有自我保護(hù)和增強(qiáng)的功能.
2) PTAFR,分布在融入質(zhì)膜、膜,其生物過程作用范圍較廣,與細(xì)胞內(nèi)多種信號通路有關(guān)聯(lián),包括通過增加細(xì)胞內(nèi)鈣調(diào)節(jié)實(shí)現(xiàn)P38MAPK和PI3-K通路,參與炎癥應(yīng)激反應(yīng)調(diào)節(jié).
3) LTB4R,分布在融入質(zhì)膜、膜,它參與細(xì)胞運(yùn)動性、肌收縮、炎癥應(yīng)答,是花生四烯酸5-脂氧合酶代謝的炎癥介質(zhì),具有很強(qiáng)的趨化作用和炎癥調(diào)節(jié)作用.
4) IL9R,分布在胞外區(qū)、融入質(zhì)膜、膜、融入膜,它參與信號傳導(dǎo)、細(xì)胞增殖,是IL9的受體.IL9是一種多功能細(xì)胞活素,其作用不僅在于對免疫和炎癥反應(yīng),而且也在于促進(jìn)生長和阻止細(xì)胞凋亡.
5) TNFRSF25,分布在胞漿、質(zhì)膜、融入質(zhì)膜、膜,它參與細(xì)胞凋亡、免疫應(yīng)答、信號轉(zhuǎn)導(dǎo)、細(xì)胞表面受體連接信號轉(zhuǎn)導(dǎo)、胞外信號引導(dǎo)細(xì)胞凋亡、調(diào)控細(xì)胞凋亡.在活性T細(xì)胞凋亡中起著作用,其缺失導(dǎo)致致命的自身免疫疾病.
特征4與神經(jīng)細(xì)胞組織及信號有關(guān)的基因有10個[29-34].
1) PLD2,分布在質(zhì)膜,它是一種細(xì)胞內(nèi)信號傳遞的酶,參與了多條細(xì)胞信號傳導(dǎo)途徑,它在細(xì)胞各種功能中起著重要的作用,與細(xì)胞的分裂、分化、炎癥、組織損傷及細(xì)胞分泌有關(guān).在多篇文章中提出PLD2在神經(jīng)退行性疾病中發(fā)揮作用.PLD2在減輕神經(jīng)細(xì)胞的凋亡,誘導(dǎo)神經(jīng)細(xì)胞分化填補(bǔ)損傷區(qū)域及促進(jìn)神經(jīng)遞質(zhì)釋放方面都起到一定的作用.
2) DLGAP2,分布在神經(jīng)中間纖維、膜,它參與細(xì)胞信號轉(zhuǎn)導(dǎo)、神經(jīng)突觸傳遞,在神經(jīng)元軸突組織及神經(jīng)細(xì)胞發(fā)送信號起著重要作用.
3) PAX3,分布在細(xì)胞核,它位于腦脊髓和腦特定區(qū)域,表達(dá)于神經(jīng)嵴,從參與神經(jīng)嵴衍生物,包括脊神經(jīng)節(jié)等發(fā)展,與多種神經(jīng)類疾病有關(guān).
4) B4AGLT6,分布在高爾基堆疊、膜、融入膜,它與鎂離子、錳離子、鈣離子、半乳糖基轉(zhuǎn)移酶和轉(zhuǎn)移糖基結(jié)合,主要參與糖代謝.有生物實(shí)驗(yàn)得出在精神分裂癥中該基因的表達(dá)量減少,而在本文它屬于表達(dá)一直下調(diào)的基因.
5) COL4A1,分布在膠原、膠原IV、細(xì)胞質(zhì),該基因的變異會引起圍產(chǎn)期腦出血和腦穿通畸形,從而表現(xiàn)出智力低下、腦性癱瘓等神經(jīng)性疾病.
6) EPS15,分布在衣被小凹,它與鈣離子結(jié)合,在中樞神經(jīng)系統(tǒng)的神經(jīng)元起著增強(qiáng)的作用,它降低AKT信號,并可能導(dǎo)致減少神經(jīng)元的存活.
7) NRXN1,分布在融入質(zhì)膜、膜、融入膜,它是一個突觸神經(jīng)元黏附分子,參與細(xì)胞附著、軸突引導(dǎo).有文獻(xiàn)提出:NRXN1基因的缺失與各種孤獨(dú)癥、精神分裂癥、自閉癥等神經(jīng)發(fā)育障礙有關(guān),表現(xiàn)為智力低下,語音延遲,肌張力低下.
8) PCDH11Y,分布在膜,它與鈣離子結(jié)合,在細(xì)胞與細(xì)胞識別及中樞神經(jīng)系統(tǒng)的功能上起著基本作用.
9) STX1A,分布在膜、融入膜,它參與神經(jīng)遞質(zhì)運(yùn)輸,有文獻(xiàn)指出:該基因在自閉癥中的表達(dá)有顯著降低,故認(rèn)為其可能在孤獨(dú)癥、自閉癥等神經(jīng)基本發(fā)病機(jī)制中起著作用.
10) TAC1,分布在胞外區(qū),它會產(chǎn)生P物質(zhì)和神經(jīng)激肽,神經(jīng)肽物質(zhì)在感覺神經(jīng)元的神經(jīng)炎癥中起著關(guān)鍵的調(diào)節(jié)作用.
特征5與細(xì)胞凋亡有關(guān)的基因有5個[35-37].
1) RAB14,分布位置廣,它參與高爾基內(nèi)體運(yùn)輸、小GTP酶介導(dǎo)信號轉(zhuǎn)導(dǎo)、神級遞質(zhì)分泌、蛋白運(yùn)輸、膜泡介導(dǎo)運(yùn)輸、細(xì)胞內(nèi)運(yùn)輸,有文獻(xiàn)特別提出該基因參與凋亡細(xì)胞的降解過程.
2) TRIM24,分布在細(xì)胞內(nèi)、核,它與鋅離子等金屬離子結(jié)合,參與細(xì)胞凋亡、周期調(diào)控、細(xì)胞對病毒的應(yīng)答等重要生命過程.在文獻(xiàn)[35]中對其參與細(xì)胞凋亡和降解的過程進(jìn)行了詳細(xì)闡述.
3) KIAA1967,分布在核、細(xì)胞質(zhì)、線粒體基質(zhì),它與鈣離子結(jié)合,是SIRT1和p53的抑制劑,而SIRT1參與細(xì)胞增殖、分化、衰老、凋亡和代謝密切相關(guān).
4) DPYSL4,它參與神經(jīng)系統(tǒng)發(fā)育,是海馬趾神經(jīng)發(fā)育的調(diào)控者,它通過基因毒性應(yīng)激參與神經(jīng)細(xì)胞凋亡的誘導(dǎo).
5) KCNIP1,它與鈣離子、鉀離子結(jié)合,參與信號傳導(dǎo)、突觸傳遞,是能調(diào)節(jié)神經(jīng)元通道活性的鉀通道作用的蛋白家族的一個成員,有文獻(xiàn)提出,該基因在視神經(jīng)病變中參與細(xì)胞凋亡,并是高度下調(diào)的基因中之一.
特征6AVPR2有文獻(xiàn)提出該基因缺失時會導(dǎo)致糖尿病.
綜合上述基因生物學(xué)分析,可以得出利用T檢驗(yàn)法識別出的AD候選基因幾乎都符合其發(fā)病機(jī)制假說,說明說得出的識別基因可以作為AD的候選致病基因.
DNA微陣列技術(shù)是對基因表達(dá)及基因功能研究的有力工具,對基因表達(dá)數(shù)據(jù)的分析方法仍處于不斷探索階段.目前已有很多種方法,但還沒有一種通用的方法較其他方法更優(yōu)越.因AD基因表達(dá)數(shù)據(jù)具有樣本少維度高的特征,同時希望計算效率低,故本文采用T檢驗(yàn)法進(jìn)行AD微陣列基因數(shù)據(jù)進(jìn)行篩選,并結(jié)合AD疾病機(jī)制的假設(shè)和基因生物學(xué)分析得出了30個候選基因,并且?guī)缀趺總€基因都與AD疾病的假說有關(guān),從最終的分析結(jié)果可以看出T分布檢驗(yàn)算法挖掘的特征基因與大多數(shù)的研究結(jié)果相吻合.同時這些基因可以作為AD的致病基因,能夠?yàn)锳D進(jìn)一步生物實(shí)驗(yàn),及早期診斷、治療等提供方向和建議.經(jīng)過基因芯片驗(yàn)證的基因結(jié)果是可靠的,但仍不排除基因芯片中假陽性結(jié)果的可能.運(yùn)營基因芯片能篩選出有意義的差異基因,但其結(jié)果仍需要進(jìn)一步的基因生物驗(yàn)證.