梁 燕,史藝賓,田衛(wèi)東
(復(fù)旦大學(xué) 生命科學(xué)學(xué)院 生物統(tǒng)計研究所,上海 200433)
精神分裂癥是最嚴(yán)重的精神疾病之一,以思維過程障礙以及情緒反應(yīng)遲鈍為特征.患者的精神活動與環(huán)境不協(xié)調(diào),最常見的表現(xiàn)為幻聽、妄想、胡言亂語等,從而造成個性、思維、行為以及情感等方面的分裂[1].精神分裂癥是第七大治療成本最高的疾病,影響著全世界0.5%~1%的人口[2].精神分裂癥的年萬人發(fā)病率為2~4人,終身發(fā)病率高達(dá)1%[1],先天遺傳率高達(dá)80%~85%[3].由于精神分裂癥疾病的復(fù)雜性,對它的研究一直是生物學(xué)和醫(yī)學(xué)的熱點,尋找精神分裂癥相關(guān)的基因,對開發(fā)潛在的藥物靶標(biāo)及治療該疾病具有重大意義.在基于遺傳家系的連鎖分析方法(Linkage Analysis)、基于高通量基因芯片的病例對照全基因組關(guān)聯(lián)分析(GWAS)甚至全基因組測序等新方法的廣泛應(yīng)用下,像精神分裂癥這類復(fù)雜疾病致病基因的鑒定已取得了很大進(jìn)展,但其表型往往多樣而且鮮有明顯遺傳家系,限制了連鎖分析的應(yīng)用,通過GWAS獲得的疾病易感基因也不能解釋其全部的表型[4],因此致病基因鑒定以及分子機(jī)制研究仍然還是遺傳學(xué)領(lǐng)域的難題.
由于傳統(tǒng)方法的限制,利用生物信息學(xué)模型預(yù)測候選基因成為尋找精神分裂癥相關(guān)基因的另一思路.近幾年來,針對精神分裂癥的候選基因預(yù)測和篩選的工作正逐漸進(jìn)入視野,Sun等使用綜合優(yōu)勢比的方法[5]對SZGene網(wǎng)站中已報道的和精神分裂有潛在相關(guān)性的1008個候選基因進(jìn)行了排序;隨著基因組數(shù)據(jù)庫的完善及精神分裂癥基因組關(guān)聯(lián)研究的增多,2009年Sun等通過整合4個數(shù)據(jù)庫調(diào)整排序比重篩選出同精神分裂癥最為相關(guān)的優(yōu)先基因[6].這些預(yù)測復(fù)雜疾病相關(guān)基因的生物信息模型除在精神分裂癥得到運用以外,也被用于其他復(fù)雜疾病上,如自閉癥(Autism)[7]和抑郁癥(Depression)[8]等精神類復(fù)雜疾?。?003年Frances S Turner等人也運用基因功能注釋關(guān)聯(lián)的生物信息學(xué)算法[9],對29種人類孟德爾遺傳數(shù)據(jù)庫(OMIM,Online Mendalian Inheritance in Man)收錄的疾病進(jìn)行了疾病基因預(yù)測.這些預(yù)測得到的疾病基因于未來研究該疾病的致病機(jī)理、生化路徑和藥物靶點等有很大的指導(dǎo)作用.也為后來進(jìn)行復(fù)雜疾病基因預(yù)測提供了生物信息學(xué)模型的借鑒.
已知同一疾病表型的致病基因往往在功能水平上具有較緊密的聯(lián)系,如都參與同一條生物通路、之間存在蛋白相互作用或遺傳相互作用等.如果能在基因組中尋找到與已知致病基因有功能關(guān)聯(lián)的基因,那就可縮小需要驗證的候選相關(guān)基因的數(shù)目.高通量技術(shù)手段的快速發(fā)展已產(chǎn)生了包括基因組、表觀遺傳組、轉(zhuǎn)錄組及蛋白質(zhì)組等各個水平上的大規(guī)模組學(xué)數(shù)據(jù),這使得利用生物信息學(xué)方法對這些數(shù)據(jù)進(jìn)行整合、分析和建模后,從基因組層次上研究基因功能和基因相互作用關(guān)系成為了可能.在之前的研究工作中,我們已開發(fā)了一套整合組學(xué)數(shù)據(jù)預(yù)測基因功能的生物信息學(xué)方法,并成功應(yīng)用于酵母[10]和小鼠[11]基因的功能預(yù)測.在該模型中隨機(jī)森林模型具有最優(yōu)秀的預(yù)測表現(xiàn),在此基礎(chǔ)上,我們可通過整合最新的組學(xué)數(shù)據(jù)來預(yù)測與已知精神分裂癥相關(guān)基因有功能關(guān)聯(lián)的候選基因(圖1).
近幾年的全基因組關(guān)聯(lián)研究發(fā)現(xiàn),精神分裂癥不僅同常見等位基因的SNP位點[12]及罕見等位基因變異相關(guān)[13],迄今為止發(fā)表的4項拷貝數(shù)全基因組關(guān)聯(lián)研究發(fā)現(xiàn)精神分裂癥同一些基因拷貝數(shù)異常(CNV,Copy Number Variation)也有很大關(guān)系[12,14-17].雖然已有多項精神分裂癥GWAS研究,但找到的顯著性SNP位點和基因卻不多.截至目前只找到兩個基因間區(qū)位點以及一個未知功能的基因ZNF804A(22q11.2)拷貝數(shù)缺失[15,18].令人感到沮喪的是,也有一些研究宣告和反駁曾經(jīng)被深入研究的精神分裂癥同基因組相關(guān)區(qū)域的關(guān)聯(lián)[19,20];同時,對于已被學(xué)界關(guān)注的精神分裂癥易感基因或易感基因組區(qū)域,它們的基因組結(jié)構(gòu)、功能調(diào)控關(guān)聯(lián)以及進(jìn)化模式都十分復(fù)雜,缺乏進(jìn)一步探究的規(guī)律性.這些都是大規(guī)模的、且成本高昂的全基因組關(guān)聯(lián)研究在疾病基因預(yù)測方面所遇到的障礙和難題.
基于上述功能關(guān)聯(lián)基因預(yù)測以及全基因組關(guān)聯(lián)研究的優(yōu)缺點,本文試圖利用目前不斷公開的大規(guī)模數(shù)據(jù),架設(shè)連接功能預(yù)測和全基因組關(guān)聯(lián)研究的橋梁,優(yōu)選出精神分裂癥相關(guān)基因,為精神分裂癥基因探究的領(lǐng)域提供新思路.
圖1 利用大規(guī)模數(shù)據(jù)預(yù)測精神分裂癥相關(guān)基因的流程圖Fig.1 Framework for schizophrenia related gene prediction
對于復(fù)雜多基因疾病的相關(guān)基因,目前沒有如OMIM[21]的直接數(shù)據(jù)來源,但文獻(xiàn)搜索可以較為全面的搜集到復(fù)雜疾病的相關(guān)基因,且這一方法已被學(xué)界認(rèn)可并得到廣泛應(yīng)用[22].我們使用Genecards[23]、SZgene[24]、SZGR[25]這3個數(shù)據(jù)平臺結(jié)合文獻(xiàn)搜索搜集精神分裂癥相關(guān)基因作為訓(xùn)練集.首先在SZgene數(shù)據(jù)庫中搜索到在文獻(xiàn)中提及的同精神分裂癥相關(guān)的基因1008個,通過genecards數(shù)據(jù)庫從中篩選出334個基因在疾病注釋上與精神分裂癥相關(guān),然后結(jié)合SZGR數(shù)據(jù)庫的基因信息,最終得到205個“同精神分裂癥相關(guān)”為表型的基因(見第268頁附表1).
附表1 精神分裂癥相關(guān)基因列表SupplementTab.1 Schizophrenia related gene list
本文生物信息學(xué)預(yù)測模型中運用的大規(guī)模組學(xué)數(shù)據(jù)詳情如表1.主要包括了基因功能注釋、同源蛋白數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)域、miRNA、藥物靶點、重復(fù)序列以及表觀遺傳學(xué)上的CpG島、轉(zhuǎn)錄因子、組蛋白甲基化和乙?;揎?、轉(zhuǎn)錄因子、組蛋白H2AZ修飾、DNA聚合酶I敏感位點等方面的數(shù)據(jù)類型.對于所有下載的數(shù)據(jù),所有基因以對應(yīng)到Ensembl數(shù)據(jù)庫中的基因編號為準(zhǔn),所有屬性依次編號,最終整合成一個基因?qū)?yīng)一個屬性的二元數(shù)據(jù)格式,共21147個基因及75752個屬性,應(yīng)用于隨機(jī)森林模型預(yù)測候選基因.
表1 隨機(jī)森林預(yù)測模型中所用的數(shù)據(jù)類型Tab.1 Multiple datasets utilized in the random forests model to predict schizophrenia related genes
本預(yù)測模型是以隨機(jī)森林(Random Forests)為機(jī)器學(xué)習(xí)算法進(jìn)行精神分裂癥基因的預(yù)測[26],數(shù)據(jù)是如上所述的基于每個基因在不同數(shù)據(jù)庫中被標(biāo)注的功能特征或者基因組特征.我們將“同精神分裂癥相關(guān)”作為一種基因功能屬性來做預(yù)測,因而共得75753個屬性.隨機(jī)森林分類器是一個包含多個決策樹(Decision Tree)的分類器,其樹根節(jié)點(Root Node)是通過Bootstrap取樣(非放回取樣法,Sampling Without Replacement)方法得到的訓(xùn)練基因數(shù)據(jù)(Training Gene Data),在每一節(jié)點,一部分對象特征被用于分離對象數(shù)據(jù),分割的原理是通過某一個特征的預(yù)測變量遞歸方式(Recursively Splitting)分離對象,這個用于分離對象的變量依照基尼不純度測定(Gini Impurity Measure)而確定,該方法被用于遵循給定變量來測試對象的一致性程度[27].對于給出最大Gini Impurity減少量的預(yù)測變量值,我們按照以下方法計算相對應(yīng)其的超幾何分布概率(Hypergeometric Distribution Probability):
其中N表示母節(jié)點(Parent Node)的基因個數(shù),NR和NF分別表示被標(biāo)注和沒有被標(biāo)注有某一個基因功能(如某一個GO或自定義的“同精神分裂癥相關(guān)”功能)的基因個數(shù),NTL,NTR,NFL和NFR是相對應(yīng)的分離后左右子節(jié)點(Daughter Node)的基因數(shù).如果P>α(除特殊說明外,默認(rèn)情況下取α=0.01),則該分離被棄去,并將這個節(jié)點作為葉節(jié)點(Leaf Node).最后某一個給定基因關(guān)于一個給定基因注釋(GO)的分?jǐn)?shù)既為將這個基因歸類為陽性(Positive)的決策樹的比例.關(guān)于隨機(jī)森林算法的詳細(xì)內(nèi)容可參考文獻(xiàn)[26].
由于用于預(yù)測變量的大規(guī)模數(shù)據(jù)(75753個特征數(shù)據(jù))會影響到隨機(jī)森林方法的效率,我們用“特征篩選”(Feature Selection)的方法移除不提供信息的變量(Marginally Uninformative Variables).最終得到的某一個給定基因關(guān)于一個給定基因注釋(GO)的RF值為:在所有GO注釋的決策樹中,該基因位于葉節(jié)點的平均概率.對于隨機(jī)森林分類器這一模型來說,有3個參數(shù),它們分別是:每個分離點的隨機(jī)變量值(the Number of Random Variables at Each Split),特征選擇的臨界值(the Threshold for Feature Selection)和提前終止的臨界值(the Threshold for Early Stopping).為了優(yōu)化這些參數(shù),我們也采用了交叉驗證(Cross Validation)的方法.在本次預(yù)測精神分裂癥相關(guān)基因的模型中,我們選擇了200棵樹,α值默認(rèn)為0.01.關(guān)于該模型的具體介紹請參見文獻(xiàn)[10]中的Random Forest部分.預(yù)測結(jié)果的查準(zhǔn)率(Precision)和召回率(Recall,又稱查全率)定義為:
在這一模型中,TP(FP)定義為目前(沒有)被注釋為與精神分裂相關(guān)的、預(yù)測值大于臨界值的基因數(shù)量;FN(TN)定義為目前(沒有)被注釋為與精神分裂癥相關(guān)的、預(yù)測值小于臨界值的基因數(shù)量.依據(jù)查準(zhǔn)率和召回率得到查準(zhǔn)率-召回率曲線(Precision Recall Curve)和AUC(Area Under Curve)分值來評估該模型的預(yù)測表現(xiàn).同時根據(jù)基因特征和功能數(shù)據(jù)的預(yù)測,得到每個基因的預(yù)測表現(xiàn)數(shù)值,作為相關(guān)性高低的評估.
為了驗證隨機(jī)森林預(yù)測模型得到的候選基因是否確實在功能上同精神分裂癥相關(guān),GWAS中的顯著性SNP位點能夠作為有力的證據(jù),我們結(jié)合GWAS數(shù)據(jù)做進(jìn)一步的數(shù)據(jù)挖掘來驗證預(yù)測得到的候選基因的SNP顯著性.截至目前,已有8個大規(guī)模的關(guān)于精神分裂癥的全基因組關(guān)聯(lián)研究(見第269頁附表2),但迄今為止公開的精神分裂癥GWAS數(shù)據(jù)庫只有兩個,CAITE數(shù)據(jù)庫(Clinical Antipsychotic Trials of Intervention Effectiveness)和GAIN數(shù)據(jù)庫(Genetic Association Information Network[28]).本文采用GAIN數(shù)據(jù)庫中的兩個數(shù)據(jù)集,數(shù)據(jù)庫具體信息詳見ftp:∥ftp.ncbi.nlm.nih.gov/dbgap/GAIN/Schizophreni a/phs000021.v3.p2/manifest/.總共4591個樣本,包括1217個白種病人樣本(European Ancestry Cases)和1442個白種人對照樣本(European Ancestry Controls),953個印第安血統(tǒng)病人(American Ancestry Cases)和979個印第安血統(tǒng)對照樣本(American Ancestry Controls)用于普通研究數(shù)據(jù),另有475個混合樣本(187European Ancestry Cases,288American Ancestry Cases)數(shù)據(jù)用于精神分裂癥和相關(guān)疾病研究數(shù)據(jù).這兩個GWAS數(shù)據(jù)都來自于AFFYMETRIX AFFY_6.0平臺對934940個SNP位點進(jìn)行篩查.我們試圖通過這兩個樣本的GWAS數(shù)據(jù)來對候選基因的SNP顯著性做驗證并得到優(yōu)選的精神分裂癥相關(guān)基因.
通過方法1.1我們找到了205個同精神分裂癥相關(guān)的基因(見第268頁附表1).我們用Fisher精確檢驗(Fisher's Exact Test)對這些基因的GO做了富集分析,根據(jù)P值的顯著性(P<0.01)由小到大排序,我們得到了205個已知精神分裂癥相關(guān)基因顯著富集的功能注釋,GO的生物通路(BP,Biological Process)、分子功能(MF,Molecular Function)、細(xì)胞成分(CC,Cellular Component)分析結(jié)果分別如表2、表3、表4(見第259~261頁)(只列出前30個富集的GO).結(jié)果表明,205個基因有200個都已有功能注釋,且富集的GO數(shù)目非常多(P<0.01,共有474個富集的基因功能:362個BP、61個MF、51個CC).結(jié)果顯示,同神經(jīng)系統(tǒng)密切相關(guān)的生物功能在這些基因中有非常明顯的富集.以BP為例(表2),富集的功能主要集中在神經(jīng)元的發(fā)生、發(fā)育及發(fā)育調(diào)控,神經(jīng)沖動、神經(jīng)遞質(zhì)、突觸等傳遞與調(diào)控,也涉及核苷酸、環(huán)化酶、裂解酶等物質(zhì)的生物合成、代謝與調(diào)控,在行為上也涉及行為、學(xué)習(xí)、認(rèn)識等功能注釋.由此可見搜集到的精神分裂癥相關(guān)基因在功能上具有很大的相似性,彼此之間的生理功能緊密相連,且同神經(jīng)系統(tǒng)密切相關(guān).這一結(jié)果表明通過尋找到與已知致病基因有功能關(guān)聯(lián)的基因來預(yù)測精神分裂癥候選基因這一思路是可行的.
?
表2 已知的精神分裂癥相關(guān)基因富集的GO(前30個生物通路注釋)Tab.2 Enriched GO terms for known schizophrenia related genes(top 30BP)
表3 已知的精神分裂癥相關(guān)基因富集的GO(前30個分子功能注釋)Tab.3 Enriched GO terms for known schizophrenia related genes(top 30MF)
(續(xù)表)
表4 已知的精神分裂癥相關(guān)基因富集的GO(前30個細(xì)胞成分注釋)Tab.4 Enriched GO terms for known schizophrenia related genes(top 30CC)
(續(xù)表)
圖2 隨機(jī)森林模型預(yù)測精神分裂癥相關(guān)基因的ROC曲線(AUC=0.1948)Fig.2 ROC curve of schizophrenia related gene prediction(AUC=0.1948)
將205個精神分裂癥相關(guān)基因作為“同精神分裂癥相關(guān)”這一表型輸入到隨機(jī)森林預(yù)測模型,通過預(yù)測分?jǐn)?shù)篩選得到一組精神分裂癥候選相關(guān)基因(Candidate Genes).預(yù)測模型的Precision Recall Curve如圖2,AUC值為0.1948,說明通過該模型預(yù)測得到的精神分裂癥相關(guān)基因相比隨機(jī)基因的集中度達(dá)到19.48%,預(yù)測效果較好.
在本模型中共包含21147個基因,按照預(yù)測分?jǐn)?shù),要從這個基因庫中選取同精神分裂癥相關(guān)度較高的候選基因進(jìn)行重點分析.在這21147個基因中,預(yù)測分?jǐn)?shù)最大為0.6377,最小為0.0052,為了獲取最可靠的候選基因,我們傾向于選擇較高的預(yù)測分?jǐn)?shù)為閾值.結(jié)合查準(zhǔn)率 召回率曲線(圖2),預(yù)測分?jǐn)?shù)為0.20時對應(yīng)的查準(zhǔn)率為0.48,召回率為0.16,因此選擇預(yù)測分?jǐn)?shù)0.20為篩選候選基因的閾值,既保證了非常高的預(yù)測準(zhǔn)確率,又能保證良好的召回率.篩選所有預(yù)測分?jǐn)?shù)大于0.20的基因,共得到精神分裂癥候選相關(guān)基因33個.若需要更多的精神分裂癥候選基因進(jìn)行進(jìn)一步驗證,即降低查準(zhǔn)率,提高召回率,亦可自主選擇更低的閾值以滿足需求.按預(yù)測值從高到低排列,這33個候選基因的列表見表5.
為了驗證這些基因同精神分裂癥的相關(guān)性,我們在Pubmed門戶網(wǎng)站中對其進(jìn)行文獻(xiàn)檢索,發(fā)現(xiàn)其中20個基因在其他研究中被發(fā)現(xiàn)是精神分裂癥的疑似相關(guān)或者易感基因[29-48],其中4個基因被發(fā)現(xiàn)同其他神經(jīng)系統(tǒng)疾病如躁動癥(Bipolar Disease)等相關(guān)[33,49-51].研究這33個基因的功能注釋,發(fā)現(xiàn)這些候選基因基本上都同神經(jīng)系統(tǒng)及其相關(guān)功能有較密切的聯(lián)系.綜上所述,我們初步證明了隨機(jī)森林模型預(yù)測得到的候選基因的可靠性.
表5 隨機(jī)森林模型預(yù)測的候選基因列表Tab.5 Candidate genes predicted by random forests model
使用白種人血統(tǒng)(EA,European Ancestry)和印第安人血統(tǒng)(AA,African Ancestry)的兩組數(shù)據(jù),篩選出位于以上33個候選基因上下游各100bp區(qū)域的SNP顯著性位點(P<0.01).在這33個基因中,總共篩選到位于其中10個基因上的58個顯著SNP位點(EE:28個,AE:30個),具體位點和基因列表如表6.33個基因中有10個被GWAS數(shù)據(jù)驗證,驗證率為30.3%.這10個具有顯著SNP位點的基因被定義為最終優(yōu)選的精神分裂癥候選相關(guān)基因.
觀察這58個SNP位點,發(fā)現(xiàn)在其他文獻(xiàn)或研究中提及,與精神分裂癥這一疾病或相近的疾?。ㄈ缭暧舭YBipolar Schizoaffective Disorder)有關(guān)聯(lián)的SNP有28個[32,52-56],占預(yù)測得到的顯著SNP位點個數(shù)的48.2%.得到驗證的SNP位點主要集中在GADL1,GRIN2B,GRM7,SLC6A2這幾個基因中.結(jié)合預(yù)測數(shù)值的結(jié)果,我們發(fā)現(xiàn)這四個基因的預(yù)測分?jǐn)?shù)分別為0.2003(GADL1),0.2914(GRIN2B),0.4797(GRM7),0.4093(SLC6A2),按照預(yù)測數(shù)值從高到低排序分別排在第3位(GRM7),第6位(SLC6A2),第21位(GRIN2B),第32位(GADL1).這一結(jié)果表明,通過模型預(yù)測得到的精神分裂癥相關(guān)度和通過GWAS數(shù)據(jù)得到的顯著性SNP位點和精神分裂癥的相關(guān)性存在一致性.借助兩種結(jié)果共同分析和驗證,我們著重挑選GRM7和SLC6A2這兩個基因,既在基因功能上存在同精神分裂癥的密切關(guān)系,在大規(guī)模全基因關(guān)聯(lián)研究中也能證明其SNP位點的顯著性,值得進(jìn)一步做相關(guān)性的研究.
結(jié)合GWAS研究中顯著的SNP位點,我們在之前通過預(yù)測模型富集到的33個核心基因中進(jìn)一步得到有SNP顯著性位點的10個基因,其中9個有同精神分裂癥相關(guān)的基因功能注釋.這些分析說明該復(fù)雜疾病相關(guān)基因的預(yù)測模型能夠優(yōu)選到相關(guān)度較高的疾病基因,可以作為篩選基因的手段,同時為進(jìn)一步研究精神分裂癥的相關(guān)基因提供了范圍和基礎(chǔ).
表6 具有顯著SNP位點的候選基因列表Tab.6 Candidate genes with significant SNP site according to GWAS data
借助數(shù)據(jù)庫和文獻(xiàn)搜索,我們得到了205個同精神分裂癥相關(guān)的基因,通過隨機(jī)森林的生物信息預(yù)測模型,取預(yù)測臨界值0.20初篩得到33個候選基因.通過兩個GWAS數(shù)據(jù)集驗證得到其中10個基因存在58個SNP顯著性位點.其中發(fā)現(xiàn)SNP顯著性位點集中在GRM7,SLC6A2,GRIN2B和GADL1這四個基因區(qū)域,結(jié)合已有的研究和文獻(xiàn),發(fā)現(xiàn)GRM7基因有較為可靠的證據(jù)證明可能同精神分裂癥相關(guān),2010年O'Connor RM等提到GRM7基因是相關(guān)神經(jīng)認(rèn)知和情感的基因[57],另外除GAIN的兩個數(shù)據(jù)集外還有其他全基因組關(guān)聯(lián)研究證明GRM7同精神分裂癥的相關(guān)性[58-59].對于SCL6A2基因,目前已進(jìn)行的關(guān)聯(lián)研究并沒有發(fā)現(xiàn)該基因同精神分裂癥的直接關(guān)系,但它同情緒紊亂的發(fā)病機(jī)制可能相關(guān),并被認(rèn)為是驚恐障礙的相關(guān)基因[60].探究GRIN2B同精神分裂癥關(guān)聯(lián)的研究已經(jīng)比較深入,都認(rèn)為可以將其作為精神分裂癥的易感基因[61-64].同時還有一些研究可以證明GRIN2B還與其他一些復(fù)雜的神經(jīng)類疾病相關(guān),如帕金森綜合征(Parkinson Disease)[65]、躁動癥(Bipolar Disease)[62]、老年癡呆癥(Alzheimer's Disease)[66].GADL1作為一個功能還沒有被研究透徹的基因,只有為數(shù)不多的研究檢測到其精神分裂癥和躁動癥的顯著性位點.這些文獻(xiàn)結(jié)果表明本文結(jié)合隨機(jī)森林模型預(yù)測以及GWAS驗證分析得到的優(yōu)選基因同精神分裂癥這一疾病的相關(guān)度是很高的.
除了關(guān)注以上文獻(xiàn)中有提及的優(yōu)選候選基因以外,我們也應(yīng)該關(guān)注一些新被篩選出的基因(Novelty Disease Genes),這些基因位于預(yù)測分?jǐn)?shù)的前列,同時也存在顯著性的SNP位點,比如GRIN3A和DLG2,經(jīng)過更多的研究和驗證,他們可能會成為新的疾病靶位基因.
值得一提的是,雖然本疾病基因預(yù)測模型建立在功能相關(guān)和基因組關(guān)聯(lián)SNP顯著位點這兩個特性的結(jié)合,但仍然存在一些問題值得探討.一方面,在GAIN GWAS的數(shù)據(jù)庫選擇上,由于目前開放的GWAS數(shù)據(jù)庫沒有完全整合,數(shù)據(jù)較為松散和不規(guī)整,本研究中只選取了兩個數(shù)據(jù)集(EA和AA)作為驗證候選基因的數(shù)據(jù)庫,并得到了10個優(yōu)選基因.我們認(rèn)為,隨著GWAS數(shù)據(jù)平臺建立的成熟和GWAS數(shù)據(jù)公開性的擴(kuò)展,能夠得到更多有價值的顯著性SNP位點,幫助進(jìn)一步優(yōu)選模型中預(yù)測的候選基因.另一方面,除了通過SNP位點進(jìn)行分析驗證以外,CNV也是一個驗證方向.GWAS數(shù)據(jù)也包括CNV數(shù)據(jù),有不少研究表明精神分裂癥同基因拷貝數(shù)的異常相關(guān)(附錄表2中已列出),如有研究發(fā)現(xiàn)1q21.1,15q11.2和15q13.3三個位點同精神分裂癥相關(guān)[12].因此,從基因拷貝數(shù)異常的顯著性來優(yōu)選精神分裂癥相關(guān)基因這一方向也可以進(jìn)一步做探究.
從隨機(jī)森林模型的預(yù)測表現(xiàn)來看,AUC值為0.1948,意味著相比隨機(jī)選取,基因優(yōu)選度達(dá)到19.48%.相比其他優(yōu)選復(fù)雜疾病基因的生物信息學(xué)方法[6],本模型使用的數(shù)據(jù)庫類型更為多樣,依托機(jī)器學(xué)習(xí)的計算生物學(xué)方法,更有助于從功能注釋與關(guān)聯(lián)以及全基因組關(guān)聯(lián)研究兩個層面預(yù)測復(fù)雜疾病的相關(guān)基因.
[1]Mueser K T,McGurk S R.Schizophrenia[J].Lancet,2004,363(9426):2063-2072.
[2]Christopher A,Ross R L M,Sarah A J.Neurobiology of Schizophrenia[J].Neuron,2006,52:14.
[3]Shi J,Levinson D F,Duan J,et al.Common variants on chromosome 6p22.1are associated with schizophrenia[J].Nature,2009,460(7256):753-757.
[4]Schork N J,Murray S S,F(xiàn)razer K A,et al.Common vs.rare allele hypotheses for complex diseases[J].Current Opinion in Genetics &Development,2009,19(3):212-219.
[5]Sun J,Kuo P H,Riley B P,et al.Candidate genes for schizophrenia:A survey of association studies and gene ranking[J].American Journal of Medical Genetics Part B:Neuropsychiatric Genetics,2008,147B(7):1173-1181.
[6]Sun J,Jia P,F(xiàn)anous A H,et al.A multi-dimensional evidence-based candidate gene prioritization approach for complex diseases-schizophrenia as a case[J].Bioinformatics,2009,25(19):2595-6602.
[7]Yonan A L,Palmer A A,Smith K C,et al.Bioinformatic analysis of autism positional candidate genes using biological databases and computational gene network prediction[J].Genes Brain Behav,2003,2(5):303-320.
[8]Reif A,Kao C F,F(xiàn)ang Y S,et al.Prioritization and evaluation of depression candidate genes by combining multidimensional data resources[J].PLoS ONE,2011,6(4):e18696.
[9]Turner F S,Clutterbuck D R,Semple CAM.POCUS:mining genomic sequence annotation to predict disease genes[J].Genome Biology,2003,4(11):R75.
[10]Tian W D,Zhang L V,Murat-Ta?an M,et al.Combining guilt-by-association and guilt-by-profiling to predict Saccharomyces cerevisiae gene function[J].Genome Biology,2008,9:S7.
[11]Ta?an M,Tian W D,Hill D P,et al.An en masse phenotype and function prediction system for Mus musculus[J].Genome Biology,2008,9:S8.
[12]Stefansson H,Rujescu D,Cichon S,et al.Large recurrent microdeletions associated with schizophrenia[J].Nature,2008,455(7210):232-261.
[13]McClellan J M,Susser E,King M C.Schizophrenia:a common disease caused by multiple rare alleles[J].British Journal of Psychiatry,2007,190:194-199.
[14]Xu B,Roos J L,Levy S,et al.Strong association of de novo copy number mutations with sporadic schizophrenia[J].Nature Genetics,2008,40(7):880-885.
[15]McCarthy M I,Need A C,Ge D,et al.A genome-wide investigation of SNPs and CNVs in schizophrenia[J].PLoS Genetics,2009,5(2):e1000373.
[16]Stone J L,O'Donovan M C,Gurling H,et al.Rare chromosomal deletions and duplications increase risk of schizophrenia[J].Nature,2008,455(7210):237-241.
[17]Walsh T,McClellan J M,McCarthy S E,et al.Rare structural variants disrupt multiple genes in neurodevelopmental pathways in schizophrenia[J].Science,2008,320(5875):539-543.
[18]Stefansson H,Ophoff R A,Steinberg S,et al.Common variants conferring risk of schizophrenia[J].Nature,2009,460(7256):744-799.
[19]Sanders A R,Duan J,Levinson D F,et al.No significant association of 14candidate genes with schizophrenia in a large European ancestry sample:implications for psychiatric genetics[J].American Journal of Psychiatry,2008,165(4):497-506.
[20]Munafo M R,Bowes L,Clark T G,et al.Lack of association of the COMT(Val158/108Met)gene and schizophrenia:a meta-analysis of case-control studies[J].Mol Psychiatry,2005,10(8):765-770.
[21]McKusick V A.Mendelian inheritance in man:a catalog of human genes and genetic disorders[M].12th edition.Baltimore:Johns Hopkins University Press,1998.
[22]Jensen L J,Saric J,Bork P.Literature mining for the biologist:from information retrieval to biological discovery[J].Nature Reviews Genetics,2006,7(2):119-129.
[23]Safran M,Dalah I,Alexander J,et al.GeneCards Version 3:the human gene integrator[DB/OL].2010-12-01.http:∥www.genecards.org/.
[24]Allen N C,Bagade S,McQueen M B,et al.Systematic meta-analyses and field synopsis of genetic association studies in schizophrenia:the SzGene database[J].Nature Genetics,2008,40(7):827-834.
[25]Jia P,Sun J,Guo A Y,et al.SZGR:a comprehensive schizophrenia gene resource[J].Molecular Psychiatry,2010,15(5):453-462.
[26]Breiman L.Random forest[J].Machine Learn,2001(45):5-32.
[27]Breiman L.Classification and regression trees.The Wadsworth statistics/probibility series[M].Belmont,Calif.:Wadsworth International Group,1984:358.
[28]Manolio T A,Rodriguez L L,Brooks L,et al.New models of collaboration in genome-wide association studies:the genetic association information network[J].Nature Genetics,2007,39(9):1045-1051.
[29]Jockers-Scherubl M C,Rentzsch J,Danker-Hopfe H,et al.Adequate antipsychotic treatment normalizes serum nerve growth factor concentrations in schizophrenia with and without cannabis or additional substance abuse[J].Neurosci Lett,2006,400(3):262-266.
[30]Liu Y R,Loh E W,Lan TH,et al.ADRA1Agene is associated with BMI in chronic schizophrenia patients exposed to antipsychotics[J].Pharmacogenomics J,2010,10(1):30-39.
[31]Lai I C,Mo G H,Chen M L,et al.Analysis of genetic variations in the dopamine D1receptor(DRD1)gene and antipsychotics-induced tardive dyskinesia in schizophrenia[J].Eur J Clin Pharmacol,2011,67(4):383-388.
[32]Deng X,Sagata N,Takeuchi N,et al.Association study of polymorphisms in the neutral amino acid transporter genes SLC1A4,SLC1A5and the glycine transporter genes SLC6A5,SLC6A9with schizophrenia[J].BMC Psychiatry,2008,8:58.
[33]Michelon L,Meira-Lima I,Cordeiro Q,et al.Association study of the INPP1,5HTT,BDNF,AP-2beta and GSK-3beta GENE variants and restrospectively scored response to lithium prophylaxis in bipolar disorder[J].Neurosci Lett,2006,403(3):288-293.
[34]Fallin M D,Lasseter V K,Avramopoulos D,et al.Bipolar I disorder and schizophrenia:a 440-singlenucleotide polymorphism screen of 64candidate genes among Ashkenazi Jewish case-parent trios[J].Am J Hum Genet,2005,77(6):918-936.
[35]Klimek V,Rajkowska G,Luker S N,et al.Brain noradrenergic receptors in major depression and schizophrenia[J].Neuropsychopharmacology,1999,21(1):69-81.
[36]Saus E,Brunet A,Armengol L,et al.Comprehensive copy number variant(CNV)analysis of neuronal pathways genes in psychiatric disorders identifies rare variants within patients[J].J Psychiatr Res,2010,44(14):971-978.
[37]Treutlein J,Muhleisen TW,F(xiàn)rank J,et al.Dissection of phenotype reveals possible association between schizophrenia and Glutamate Receptor Delta 1(GRID1)gene promoter[J].Schizophr Res,2009,111(1-3):123-130.
[38]Smith R E,Haroutunian V,Davis K L,et al.Expression of excitatory amino acid transporter transcripts in the thalamus of subjects with schizophrenia[J].Am J Psychiatry,2001,158(9):1393-1399.
[39]Choi K H,Zepp M E,Higgs B W,et al.Expression profiles of schizophrenia susceptibility genes during human prefrontal cortical development[J].J Psychiatry Neurosci,2009,34(6):450-458.
[40]Jagannathan K,Calhoun V D,Gelernter J,et al.Genetic associations of brain structural networks in schizophrenia:apreliminary study[J].Biol Psychiatry,2010,68(7):657-666.
[41]Cacabelos R,Martinez-Bouza R.Genomics and pharmacogenomics of schizophrenia[J].CNS Neurosci Ther,2010,17(5):541-565.
[42]Makino C,Shibata H,Ninomiya H,et al.Identification of single-nucleotide polymorphisms in the human N-methyl-D-aspartate receptor subunit NR2Dgene,GRIN2D,and association study with schizophrenia[J].Psychiatr Genet,2005,15(3):215-221.
[43]Maclaren E J,Charlesworth P,Coba M P,et al.Knockdown of mental disorder susceptibility genes disrupts neuronal network physiology in vitro[J].Mol Cell Neurosci,2011,47(2):93-99.
[44]Haavik J,Blau N,Thony B.Mutations in human monoamine-related neurotransmitter pathway genes[J].Hum Mutat,2008,29(7):891-902.
[45]Meary A,Brousse G,Jamain S,et al.Pharmacogenetic study of a typical antipsychotic drug response:involvement of the norepinephrine transporter gene[J].Am J Med Genet B Neuropsychiatr Genet,2008,147B(4):491-494.
[46]Myers R A,Casals F,Gauthier J,et al.A population genetic approach to mapping neurological disorder genes using deep resequencing[J].PLoS Genet,2011,7(2):e1001318.
[47]Lauriat T L,Dracheva S,Chin B,et al.Quantitative analysis of glutamate transporter mRNA expression in prefrontal and primary visual cortex in normal and schizophrenic brain[J].Neuroscience,2006,137(3):843-851.
[48]Ikeda M,Yamanouchi Y,Kinoshita Y,et al.Variants of dopamine and serotonin candidate genes as predictors of response to risperidone treatment in first-episode schizophrenia[J].Pharmacogenomics,2008,9(10):1437-1443.
[49]Lipsky R H,Goldman D.Genomics and variation of ionotropic glutamate receptors[J].Ann N Y Acad Sci,2003,1003:22-35.
[50]Skogh E,Sjodin I,Josefsson M,et al.High correlation between serum and cerebrospinal fluid olanzapine concentrations in patients with schizophrenia or schizoaffective disorder medicating with oral olanzapine as the only antipsychotic drug[J].J Clin Psychopharmacol,2011,31(1):4-9.
[51]Bevilacqua L,Doly S,Kaprio J,et al.A population-specific HTR2Bstop codon predisposes to severe impulsivity[J].Nature,2010,468(7327):1061-1066.
[52]Holmans P A,Riley B,Pulver A E,et al.Genomewide linkage scan of schizophrenia in a large multicenter pedigree sample using single nucleotide polymorphisms[J].Molecular Psychiatry,2009,14(8):786-795.
[53]Hamshere M L,Green E K,Jones I R,et al.Genetic utility of broadly defined bipolar schizoaffective disorder as a diagnostic concept[J].British Journal of Psychiatry,2009,195(1):23-29.
[54]Yeh Y W,Lu R B,Tao P L,et al.A possible association of the norepinephrine transporter gene in the development of heroin dependence in Han Chinese[J].Pharmacogenetics and Genomics,2011,21(4):197-205.
[55]Shibata H,Tani A,Chikuhara T,et al.Association study of polymorphisms in the group III metabotropic glutamate receptor genes,GRM4and GRM7,with schizophrenia[J].Psychiat Res,2009,167(1-2):88-96.
[56]Neale B M,F(xiàn)araone S V.Perspective on the genetics of attention deficit/hyperactivity disorder[J].American Journal of Medical Genetics Part B-Neuropsychiatric Genetics,2008,147B(8):1334-1336.
[57]O'Connor R M,F(xiàn)inger B C,F(xiàn)lor P J,et al.Metabotropic glutamate receptor 7:At the interface of cognition and emotion[J].European Journal of Pharmacology,2010,639(1-3):123-131.
[58]Ganda C,Schwab S G,Amir N,et al.A family-based association study of DNA sequence variants in GRM7with schizophrenia in an Indonesian population[J].Int J Neuropsychoph,2009,12(9):1283-1289.
[59]Ohtsuki T,Koga M,Ishiguro H,et al.A polymorphism of the metabotropic glutamate receptor mGluR7(GRM7)gene is associated with schizophrenia[J].Schizophrenia Research,2008,101(1-3):9-16.
[60]Sand P G,Mori T,Godau C,et al.Norepinephrine transporter gene(NET)variants in patients with panic disorder[J].Neuroscience Letters,2002,333(1):41-44.
[61]Di Maria E,Gulli R,Begni S,et al.Variations in the NMDA receptor subunit 2Bgene(GRIN2B)and schizophrenia:A case-control study[J].American Journal of Medical Genetics Part B-Neuropsychiatric Genetics,2004,128B(1):27-29.
[62]Martucci L,Wong A H C,De Luca V,et al.N-methyl-D-aspartate receptor NR2Bsubunit gene GRIN2B in schizophrenia and bipolar disorder:polymorphisms and mRNA levels[J].Schizophrenia Research,2006,84(2-3):214-221.
[63]Li D W,He L.Association study between the NMDA receptor 2Bsubunit gene(GRIN2B)and schizophrenia:A HuGE review and meta-analysis[J].Genet Med,2007,9(1):4-8.
[64]Ohtsuki T,Sakurai K,Dou H,et al.Mutation analysis of the NMDAR2B(GRIN2B)gene in schizophrenia[J].Molecular Psychiatry,2001,6(2):211-216.
[65]Tsai S J,Liu H C,Liu T Y,et al.Association analysis for genetic variants of the NMDA receptor 2b subunit(GRIN2B)and Parkinson's disease[J].J Neural Transm,2002,109(4):483-488.
[66]Tsai S J,Liu H C,Liu T Y,et al.Association analysis for the genetic variants of the NMDA receptor subunit 2band Alzheimer's disease[J].Dement Geriatr Cogn,2002,13(2):91-94.
[67]Lencz T,Morgan T V,Athanasiou M,et al.Converging evidence for a pseudoautosomal cytokine receptor gene locus in schizophrenia[J].Molecular Psychiatry,2007,12(6):572-580.
[68]Sullivan P F,Lin D,Tzeng J Y,et al.Genomewide association for schizophrenia in the CATIE study:results of stage 1[J].Molecular Psychiatry,2008,13(6):570-584.
[69]O'Donovan M C,Craddock N,Norton N,et al.Identification of loci associated with schizophrenia by genome-wide association and follow-up[J].Nature Genetics,2008,40(9):1053-1055.
[70]Shifman S,Johannesson M,Bronstein M,et al.Genome-wide association identifies a common variant in the reelin gene that increases the risk of schizophrenia only in women[J].PLoS Genetics,2008,4(2):e28.
[71]Kirov G,Zaharieva I,Georgieva L,et al.A genome-wide association study in 574schizophrenia trios using DNA pooling[J].Molecular Psychiatry,2009,14(8):796-803.
[72]Stefansson H,Ophoff R A,Steinberg S,et al.Common variants conferring risk of schizophrenia[J].Nature,2009,460(7256):744-747.
[73]Purcell S M,Wray N R,Stone J L,et al.Common polygenic variation contributes to risk of schizophrenia and bipolar disorder[J].Nature,2009,460(7256):748-752.