伍度志,楊 帆,趙 靜
(1.重慶工商大學融智學院 重慶 巴南區(qū) 401320;2.陸軍勤務學院數(shù)學教研室 重慶 沙坪壩區(qū) 401331;3.上海中醫(yī)藥大學交叉科學研究院 上海 浦東新區(qū) 201203)
加權(quán)基因關(guān)聯(lián)網(wǎng)絡(weighted gene association network, WGAN)是表示基因間功能相關(guān)關(guān)系的復雜網(wǎng)絡[1],其中節(jié)點代表基因,邊代表基因間的相互作用,權(quán)重代表相互作用的可信度。WGAN網(wǎng)絡的構(gòu)建是為了克服目前已有的生物學實驗數(shù)據(jù)與實際存在的基因功能相關(guān)關(guān)系相比嚴重不足、以及高通量實驗的結(jié)果存在嚴重噪聲的問題。通常采用計算方法整合與基因的功能聯(lián)系相關(guān)的各種生物學特征的數(shù)據(jù)源,推斷基因之間的關(guān)聯(lián)關(guān)系,并對每一對關(guān)聯(lián)關(guān)系賦予置信分,作為網(wǎng)絡中邊的權(quán)重,從而構(gòu)建加權(quán)的基因關(guān)聯(lián)網(wǎng)絡。因此這類網(wǎng)絡既包含了一些特定類型的基因或蛋白間的相互作用信息,如蛋白-蛋白相互作用[2](PPI)、基因共表達[3]、轉(zhuǎn)錄調(diào)控[4]、信號通路[5]等,又比特定類型的分子網(wǎng)絡包含更廣泛的信息。
目前,基因相關(guān)關(guān)系的數(shù)據(jù)融合方法主要分為主觀打分融合方法、相似性融合方法和統(tǒng)計推斷打分方法3種類型。通過這些方法已經(jīng)構(gòu)建了一些WGAN網(wǎng)絡,就人類基因組而言,有HIPPIE[6]、HumanNet[7]、STRING[8]以及FunCoup[9]網(wǎng)絡等。文獻[6]收集了現(xiàn)有的蛋白-蛋白相互作用數(shù)據(jù)庫BioGrid[10]、IntAct[11]、MINT[12]、DIP[13]、BIND[14]等中的數(shù)據(jù),基于試驗方法的先進性、支持基因間關(guān)聯(lián)關(guān)系的文獻數(shù)目以及在非人類物種中存在該連接的基因?qū)?shù)目3種不同的信息,自定義了一種基因?qū)Φ拇蚍址椒ǎ瑢γ恳粚蜷g的關(guān)聯(lián)關(guān)系的可靠性進行打分,從而構(gòu)建了HIPPIE網(wǎng)絡。文獻[7]基于概率似然比提出一種統(tǒng)一的網(wǎng)絡邊權(quán)打分方法,該方法以基因本體注釋數(shù)據(jù)庫GO(gene ontology)[15]為背景網(wǎng)絡,對21個基因功能數(shù)據(jù)集中的每一條邊進行重新打分,得到了HumanNet網(wǎng)絡。文獻[8]通過建立樸素貝葉斯分類器模型方法,融合多種與基因關(guān)聯(lián)關(guān)系相關(guān)的生物學數(shù)據(jù)源,得到了一個加權(quán)基因關(guān)聯(lián)網(wǎng)絡STRING網(wǎng)絡。文獻[9]選取了八大真核生物體的大規(guī)模數(shù)據(jù),通過樸素貝葉斯模型方法融合得到了FunCoup網(wǎng)絡。
基于網(wǎng)絡的復雜疾病病理學和藥理學的研究,廣泛應用人類全基因組加權(quán)基因關(guān)聯(lián)網(wǎng)絡作為背景網(wǎng)絡,以識別疾病相關(guān)基因、探測藥物對應的網(wǎng)絡藥靶,從而加深復雜疾病的醫(yī)學認識、改進復雜疾病的治療??梢韵胍?,背景網(wǎng)絡的質(zhì)量,與相關(guān)研究結(jié)果的精確度是相關(guān)的?,F(xiàn)有的人類全基因組基因關(guān)聯(lián)網(wǎng)絡如HumanNet、STRING和FunCoup等,各自在生物學基礎研究及疾病研究中都有成功應用的案例[16-18]。然而,這些網(wǎng)絡間卻存在著巨大差異。它們雖然包含了80%以上相同的基因,但擁有的相同的關(guān)聯(lián)邊卻很少,低于各自總邊數(shù)的10%。如果在這些已有的WGAN的基礎上,進一步識別其中包含的正確信息,將它們?nèi)诤铣梢粋€信息更全、更準確的加權(quán)基因關(guān)聯(lián)網(wǎng)絡,對于更好地從系統(tǒng)水平理解細胞內(nèi)部生物學過程、以及研究復雜疾病的病理,都是很有意義的。
本文利用信息熵[19]刻畫基因連邊權(quán)重的不確定度,提出了基于信息熵理論的融合策略,在現(xiàn)有4個人類全基因組WGAN基礎上,充分利用多個網(wǎng)絡中所有連邊的信息來構(gòu)造包含更多節(jié)點和邊的WGAN。本文將原有網(wǎng)絡及新構(gòu)建的網(wǎng)絡分別用于肥胖癥的疾病基因預測[20],以檢驗新網(wǎng)絡的應用價值。
熵是衡量某一個體系混亂程度的變量,它在不同領(lǐng)域被引申為更為具體的解釋。在研究隨機現(xiàn)象的過程中,熵用來描述隨機現(xiàn)象發(fā)生的平均不確定度,為評估隨機現(xiàn)象發(fā)生的不確定程度提供了一個定量的指標。同樣,這一指標也被廣泛應用于信息理論的研究領(lǐng)域,被稱為信息熵。
對于某一隨機現(xiàn)象X,若X包含n種可能的結(jié)果,且分布率為則隨機現(xiàn)象X發(fā)生的不確定程度可以通過信息熵定義如下:
本文擬將此方法應用于WGAN網(wǎng)絡的融合。對于WGAN網(wǎng)絡,可以通過適當?shù)臍w一化方法,使它的邊權(quán)取之于區(qū)間(0,1]。因此,在后面的描述中,總假設WGAN網(wǎng)絡中的邊權(quán)取之于區(qū)間(0,1]。 假設現(xiàn)有m個WGAN網(wǎng)絡N1,N2,…,Nm,它們具有相同的基因,其中網(wǎng)絡Nk中i、j基因節(jié)點的連邊權(quán)重記為則融合這m個WGAN網(wǎng)絡就是要將網(wǎng)絡中任意基因?qū)、j的連邊權(quán)重融合成一個新的權(quán)重,作為融合后網(wǎng)絡中基因?qū)、j的連邊權(quán)重W(ij)。由于現(xiàn)有的融合算法主要限于線性融合,因此,上面的融合問題轉(zhuǎn)化為尋找融合系數(shù)使:
為了尋找合理的融合系數(shù),需要對每一組基因?qū)B邊進行深入分析。由于WGAN網(wǎng)絡中的邊權(quán)取之于區(qū)間(0,1],因此,W(ij)可以理解為WGAN網(wǎng)絡中基因i、j連邊的概率,由此可以定義如下隨機現(xiàn)象Y:
因此,WGAN網(wǎng)絡中基因i、j連邊的不確定程度可以通過式(3)來刻畫。顯然,式(2)中融合系數(shù)的設計與連邊自身的不確定程度密切相關(guān),這為融合系數(shù)設計提供了有價值的途徑。
在實際情況中,同一對基因可能在一些網(wǎng)絡中存在連邊,而在另一些網(wǎng)絡中不存在連邊,對于后者,用式(3)來刻畫其連邊的不確定性顯然是不合適的,因為式(3)中要求連邊概率W(ij)大于零。為了處理這種情況,需要對基因?qū)Φ倪B邊做適當?shù)奶幚?,從而使得融合更加合理。本文先求得背景網(wǎng)絡的連邊并集N,則N中的每一條連邊都對應著h個權(quán)重且h≤m,對于那些在一些網(wǎng)絡中存在連邊,而在另一些網(wǎng)絡中不存在連邊的基因?qū)?,假設其在對應背景網(wǎng)絡上也存在連邊并將其權(quán)重設為一個非常小的數(shù)值ε。通過這種處理,N中每一條連邊都存在m個權(quán)值,從而可以利用式(3)來設計融合系數(shù)。同時,如果網(wǎng)絡的一組基因?qū)Φ倪B邊權(quán)重為1,則重新修改它的權(quán)重為1?ε。從而,通過預處理后的各WGAN網(wǎng)絡中的基因?qū)B邊的最小權(quán)值為ε。
圖1 網(wǎng)絡融合過程簡略圖
對第k個WGAN網(wǎng)絡Nk的每一組基因?qū)、j的連邊權(quán)重利用式(3),可以定義該連邊的不確定程度越大,則該連邊的不確定程度越大,因此,在確定融合系數(shù)時,應該賦以相應連邊的融合系數(shù)一個比較小的值,反之則賦以一個比較大的融合系數(shù)。為此,對各網(wǎng)絡的每一組基因?qū)、j的連邊,引入如下函數(shù):
式中,θ>0為調(diào)整因子,主要用于調(diào)整基因?qū)、j連邊的不確定程度對函數(shù)的影響程度。在實際應用中,可以通過訓練的方法來選擇適當?shù)膮?shù)θ(見1.4節(jié))。不難分析出,函數(shù)是基因?qū)、j連邊的不確定程度單調(diào)遞減函數(shù),因此可以利用它來定義相應的融合系數(shù)。通過對函數(shù)做歸一化處理,定義m個WGAN網(wǎng)絡中基因?qū)、j連邊的融合系數(shù)為:
則對這m個WGAN網(wǎng)絡融合后的網(wǎng)絡中基因?qū)、j連邊的連邊權(quán)重為。圖1為兩個網(wǎng)絡的融合過程簡略圖。
根據(jù)基因本體注釋數(shù)據(jù)庫GO中全體人類基因的功能信息,構(gòu)建GO網(wǎng)絡,并將它作為測試網(wǎng)絡,確定融合模型的參數(shù)。GO數(shù)據(jù)庫是基因本體聯(lián)合會(Gene Onotology Consortium)所建立的數(shù)據(jù)庫,該數(shù)據(jù)庫對大量物種中的每個基因和蛋白質(zhì)的功能用標準的生物學詞匯條目(GO term)進行描述。本文構(gòu)建的GO網(wǎng)絡中節(jié)點代表人類基因,若兩個基因至少有一個共同的GO term, 則它們對應的節(jié)點有連邊,連邊的權(quán)重為這兩個基因共有的GO term的數(shù)目,并將其歸一化到(0,1]區(qū)間。因此GO網(wǎng)絡中基因的連邊代表兩個基因在生物功能上有相關(guān)性,邊權(quán)則代表這個相關(guān)性的強弱程度。
θ為調(diào)節(jié)信息熵對融合系數(shù)影響程度的調(diào)整因子。為了選擇較為合適的調(diào)整區(qū)間,本文通過分析式(4)的函數(shù)模型,分別選取不同的θ(0~5,以0.1為步長)以及不同的信息熵值H(0.05~1,以0.05為步長)作為自變量,觀測比較了θ和H對融合系數(shù)的影響程度,如圖2所示。
圖2 θ和H對融合系數(shù)的影響
由圖2可以看出,當邊權(quán)的信息熵值H比較小時,θ只有取值略小,才能使融合系數(shù)具有有效的區(qū)分度;當邊權(quán)的信息熵值H比較大時,θ只有取值稍大,才能使融合系數(shù)具有有效的區(qū)分度;由于加權(quán)基因網(wǎng)絡的邊權(quán)信息熵值大小分布不均,為了使融合系數(shù)都具有有效的區(qū)分度,因此建議選擇θ的調(diào)整區(qū)間為(0,3)。
本文將把融合后網(wǎng)絡的權(quán)值與GO網(wǎng)絡的權(quán)值進行比較分析,計算其共同連邊權(quán)值對應的差平方和,并且在這個值達到最小時選取對應的模型參數(shù)θ,從而將模型參數(shù)的確定轉(zhuǎn)化為優(yōu)化的求解問題:
式中,Wθ表示參數(shù)條件下的融合后網(wǎng)絡連邊權(quán)值;WGONet表示GO網(wǎng)絡連邊權(quán)值。
本文針對提出的網(wǎng)絡融合模型,對4個現(xiàn)有的人類全基因組加權(quán)基因關(guān)聯(lián)網(wǎng)絡,即HIPPIE、HumanNet、FunCoup和STRING進行融合。將這4個原始WGAN網(wǎng)絡分別記為4個網(wǎng)絡的基因數(shù)和連邊信息如表1所示。
表1 4個原始網(wǎng)絡的基本信息
因為4個網(wǎng)絡的連邊信息和節(jié)點信息各不相同,因此首先需要按照1.2節(jié)中的方法處理。先求得4個基因網(wǎng)絡的并集網(wǎng)絡N,再按照1.2節(jié)中的方法來補充定義某些基因?qū)Φ倪B邊權(quán)重。經(jīng)過這種處理,4個網(wǎng)絡的每一條連邊都對應著4個權(quán)值,即分別為4個子網(wǎng)絡所對應的權(quán)值。截取并集網(wǎng)絡的一部分表2所示。
表2 并集網(wǎng)絡N的部分數(shù)據(jù)
表2中,Gene ID表示某個基因的Entrez ID,W表示各背景網(wǎng)絡中對應邊的權(quán)重。本文研究中,取ε=0.001。
根據(jù)式(4)、式(5),需要計算各網(wǎng)絡中每一組基因?qū)、j連邊的函數(shù)和融合系數(shù)為了選取比較合適的調(diào)整因子,本文選取了GO網(wǎng)絡作為訓練網(wǎng)絡,分步長對融合系數(shù)函數(shù)中的θ參數(shù)進行訓練。通過比較分析,實驗結(jié)果得到的θ和f(θ)變化關(guān)系如圖3所示。
由圖3可以看出,f(θ)隨θ的變化先呈現(xiàn)遞減后遞增的趨勢,在θ取0.3時,f(θ)達到最小。
在取θ為0.3的情況下,利用式(4)、式(5),可以將4個網(wǎng)絡每一組基因?qū)Φ膇、j連邊進行融合,從而得到一個新的網(wǎng)絡FN, 其節(jié)點數(shù)為19 490,邊數(shù)為7 092 510。
圖3 參數(shù)θ的訓練
然后,比較融合前后網(wǎng)絡與GO網(wǎng)絡的共同連邊數(shù)以及共同連邊權(quán)重的Person相關(guān)系數(shù),得到圖4。
圖4 融合前后網(wǎng)絡與GO網(wǎng)絡的比較
從圖4可以看出,相比原始網(wǎng)絡,融合后的網(wǎng)絡FN連邊信息更加豐富,并且其權(quán)重經(jīng)過融合后,與GO共同連邊權(quán)重的Person相關(guān)系數(shù)相比原始網(wǎng)絡有顯著提高,說明FN的邊權(quán)比原始網(wǎng)絡的邊權(quán)有更強的生物學相關(guān)性。
生物系統(tǒng)是由多分子和基因相互作用的結(jié)果。復雜疾病的基因不是孤立存在的,基因與基因之間有相互作用。加權(quán)基因關(guān)聯(lián)網(wǎng)絡的研究為系統(tǒng)生物學和疾病分子預測提供了一個嶄新的平臺,對預測疾病相關(guān)基因做出了較大的貢獻。由于相同的疾病基因在基因關(guān)聯(lián)網(wǎng)絡中具有鄰近性,因此基于網(wǎng)絡的預測方法被廣泛應用于疾病基因預測研究中。為了檢驗融合后網(wǎng)絡的實用性,本文分別將融合前后的網(wǎng)絡作為背景網(wǎng)絡,進行肥胖癥的疾病基因預測。
基于網(wǎng)絡的疾病基因預測方法將已知的疾病基因作為先驗信息組成種子集,根據(jù)候選基因與種子基因在網(wǎng)絡上的拓撲關(guān)系,預測候選基因是疾病基因的可能性。本文采用直接鄰居法[21],該方法是把與已知疾病致病基因直接相連的基因作為疾病的可能致病基因,基于全網(wǎng)絡對每一個基因進行打分,得出其與已知致病基因直接相連的總得分Si,即與致病基因直接相連的邊的權(quán)重總和。其模型為:
式中,Wij表示基因i和致病基因j的連邊權(quán)重;seed表示已知致病基因集。由此可得全網(wǎng)絡中的每一個基因的得分值,再將所有基因依據(jù)其分值由大到小進行排序。本文截斷出排名前n個基因,計算預測準確值,即測試集中的基因在這n個基因中所占的比例。
本文從人類孟德爾遺傳在線數(shù)據(jù)庫OMIM(online Mendelian inheritance in man, OMIM)[22]和文獻中收集已知的肥胖癥(obesity)的致病基因。其中從OMIM數(shù)據(jù)庫獲得24個肥胖癥致病基因,從文獻[23]中獲得與肥胖癥相關(guān)的373個基因。
本文用兩種方法檢驗疾病基因的預測效果,一種是留一交互驗證法[24], 另一種是模擬尋找疾病基因的方法[21]。
圖5 用留一交叉驗證比較融合前后網(wǎng)絡的疾病基因預測效果
在留一交叉驗證法中,將OMIM中的24個疾病基因與文獻中的373個疾病基因合并,得到已知的肥胖癥疾病基因集合。每次利用此集合中的一個疾病基因構(gòu)成測試集,剩余的疾病基因構(gòu)成種子集。用式(7)對背景網(wǎng)絡中的每個基因打分,驗證算法是否能夠成功地預測測試基因為致病基因。圖5顯示了按分值排名截取不同比例的網(wǎng)絡基因組總基因數(shù)時,以不同網(wǎng)絡為背景網(wǎng)絡所得到的預測準確率,即在不同的比例下,合并疾病基因集中被預測到的疾病基因占集合總基因數(shù)的比值??梢钥闯?,融合后的網(wǎng)絡FN與網(wǎng)絡STRING取得了最好的預測準確率。
在模擬尋找疾病基因的方法中,本文以OMIM中的24個疾病基因構(gòu)成種子集,文獻[23]中的373個疾病相關(guān)基因作為測試集,對網(wǎng)絡進行打分。分別選擇得分最高的20和200個基因為預測的疾病基因,比較融合前后背景網(wǎng)絡下被預測到的疾病相關(guān)基因所占比例。以排名的截斷值為橫坐標,以預測準確值為縱坐標將融合前的4個網(wǎng)絡HIPPIE、HumanNet、FunCoup、STRING和融合后的網(wǎng)絡FN做疾病基因預測效果對比分析,如圖6所示。
圖6 融合前后的網(wǎng)絡預測效果比較
由圖6可以看出,當截斷值為20時,融合后的網(wǎng)絡FN的預測準確值比4個原始網(wǎng)絡高;當截斷值為200時,融合后的網(wǎng)絡FN的預測準確值和STRING相當,顯著高于其他3個網(wǎng)絡的預測效果。
這些結(jié)果說明,本文融合后的網(wǎng)絡FN可以成功地用于疾病基因預測。
本文研究是加權(quán)基因關(guān)聯(lián)網(wǎng)絡數(shù)據(jù)融合方面的一個新的嘗試,提出了一種基于信息熵的WGAN網(wǎng)絡數(shù)據(jù)融合方法,將現(xiàn)有的人類加權(quán)基因關(guān)聯(lián)網(wǎng)絡的信息進行整合。通過此方法,本文構(gòu)建了一個包含現(xiàn)有網(wǎng)絡所有節(jié)點和邊信息的融合網(wǎng)絡FN。通過與GO網(wǎng)絡對比顯示,F(xiàn)N的邊權(quán)比原始網(wǎng)絡中的邊權(quán)有更強的生物學相關(guān)性。將FN與原始網(wǎng)絡同時用于肥胖癥的疾病基因預測,發(fā)現(xiàn)FN的預測效果高于或相當于效果最好的原始網(wǎng)絡STRING,說明此網(wǎng)絡可以用于疾病基因預測。此工作在生物網(wǎng)絡數(shù)據(jù)整合以及疾病基因預測的研究方面都有重要的價值。
[1]周濤, 張子柯, 陳關(guān)榮, 等.復雜網(wǎng)絡研究的機遇與挑戰(zhàn)[J].電子科技大學學報, 2014, 43(1): 1-5.ZHOU Tao, ZHANG Zi-ke, CHEN Guan-rong, et al.The opportunities and challenges of complex network research[J].Journal of University of Electronic Science and Technology of China, 2014, 43(1): 1-5.
[2]WILLIAMSON M P, SUTCLIFFE M J.Protein-protein interactions[J].Biochemical Society Transactions, 2010,38(4): 875-878.
[3]ZHANG B, HORVATH S.A general framework for weighted gene co-expression network analysis[J].Statistical Applications in Genetics and Molecular Biology, 2005, 4(1):1128.
[4]CILIBERTO G, COLANTUONI V, DE FRANCESCO R, et al.Transcriptional control of gene expression in hepatic cells[M]//KARIN M.Gene Eexpression: General and Cell-Type-Specific.[S.l.]: Birkh?user, 1993.
[5]MARTINI P, SALES G, MASSA M S, et al.Along signal paths: an empirical gene set approach exploiting pathway topology[J].Nucleic Acids Research, 2013, 41(1): e19.
[6]SCHAEFER M H, FONTAINE J F, VINAYAGAM A, et al.HIPPIE: Integrating protein interaction networks with experiment based quality scores[J].PloS One, 2012, 7(2):e31826.
[7]LEE I, BLOM U M, WANG P I, et al.Prioritizing candidate disease genes by network-based boosting of genome-wide association data[J].Genome Research, 2011, 21(7):1109-1121.
[8]FRANCESCHINI A, SZKLARCZYK D, FRANKILD S, et al.STRING v9.1: Protein-protein interaction networks, with increased coverage and integration[J].Nucleic Acids Research, 2013, 41(D1): D808-D815.
[9]ALEXEYENKO A, SONNHAMMER E L.Global networks of functional coupling in eukaryotes from comprehensive data integration[J].Genome Research, 2009, 19(6): 1107-1116.
[10]CHATR-ARYAMONTRI A, BREITKREUTZ B J,OUGHTRED R, et al.The BioGRID interaction database:2015 update[J].Nucleic Acids Research, 2015, 43(D1):D470-D478.
[11]HERMJAKOB H,MONTECCHI‐PALAZZI L,LEWINGTON C, et al.IntAct: an open source molecular interaction database[J].Nucleic Acids Research, 2004,32(suppl 1): D452-D455.
[12]CHATR-ARYAMONTRI A, CEOL A, PALAZZI L M, et al.MINT: the molecular INTeraction database[J].Nucleic Acids Research, 2007, 35(suppl 1): D572-D574.
[13]XENARIOS I, SALWINSKI L, DUAN X J, et al.DIP, the database of interacting proteins: a research tool for studying cellular networks of protein interactions[J].Nucleic Acids Research, 2002, 30(1): 303-305.
[14]BADER G D, BETEL D, HOGUE C W V.BIND: the biomolecular interaction network database[J].Nucleic Acids Research, 2003, 31(1): 248-250.
[15]Gene Ontology Consortium.The gene ontology (GO)database and informatics resource[J].Nucleic Acids Research, 2004, 32(suppl 1): D258-D261.
[16]RE M, VALENTINI G.Random walking on functional interaction networks to rank genes involved in cancer[C]//IFIP International Conference on Artificial Intelligence Applications and Innovations.Berlin,Heidelberg: Springer, 2012: 66-75.
[17]TABOADA B, VERDE C, MERINO E.High accuracy operon prediction method based on STRING database scores[J].Nucleic Acids Research, 2010, 38(12): e130.
[18]ZHAO J, WANG C L, YANG T H, et al.A comparison of three weighted human gene functional association networks[C]//2012 IEEE 6th International Conference on Systems Biology (ISB).[S.l.]: IEEE, 2012: 26-31.
[19]COVER T M, THOMAS J A.Elements of information theory[M].[S.l.]: John Wiley & Sons, 2012.
[20]呂琳媛.復雜網(wǎng)絡鏈路預測[J].電子科技大學學報,2010, 39(5): 651-661.Lü Lin-yuan.Link prediction on complex network[J].Journal of University of Electronic Science and Technology of China, 2010, 39(5): 651-661.
[21]LINGHU B, SNITKIN E S, HU Z, et al.Genome-wide prioritization of disease genes and identification of disease-disease associations from an integrated human functional linkage network[J].Genome Biology, 2009,10(9): 1-17.
[22]HAMOSH A, SCOTT A F, AMBERGER J S, et al.Online mendelian inheritance in man (OMIM), a knowledgebase of human genes and genetic disorders[J].Nucleic Acids Research, 2005, 33(suppl 1): D514-D517.
[23]HANCOCK A M, WITONSKY DB, GORDON A S, et al.Adaptations to climate in candidate genes for common metabolic disorders[J].PLoS Genetics, 2008, 4(2): e32.
[24]REFAEILZADEH P, TANG L, LIU H.Crossvalidation[M]//Encyclopedia of Database Systems.[S.l.]:Springer US, 2009: 532-538.