[摘要] 本文旨在對(duì)于近視眼發(fā)病過(guò)程中的遺傳學(xué)因素的影響的大小進(jìn)行評(píng)估,利用統(tǒng)計(jì)學(xué)上的主成分分析方法,對(duì)于選取的9個(gè)人群的11個(gè)風(fēng)險(xiǎn)基因進(jìn)行了定量的統(tǒng)計(jì)分析,PCA圖譜上兩個(gè)與風(fēng)險(xiǎn)相關(guān)的區(qū)域被發(fā)現(xiàn),該發(fā)現(xiàn)區(qū)域與低視力頻率呈線(xiàn)性關(guān)系。分析結(jié)果支持近視眼發(fā)病與遺傳因素的緊密聯(lián)系。
[關(guān)鍵詞] 近視眼;遺傳因素;主成分分析;人群聚集
[中圖分類(lèi)號(hào)] R77 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673-9701(2013)32-0001-04
An analysis on the causation of myopia based on genetics
CHE Yan
Chemistry Department,University of California,Berkeley CA94709,USA
[Abstract] The paper aims to evaluate genetic contribution of myopia in developing the disease via principal component analysis(PCA). In this paper,PCA studies were conducted on 11 potential myopia risk loci among 9 different populations and the result shows a close relationship between myopia and the genetic structure.
[Keywords] Myopia;Genetic aspect;PCA;Population aggregation
近視癥,俗稱(chēng)“近視眼”,是一種十分常見(jiàn)的眼科疾病。目前近視眼已經(jīng)成為世界上最為常見(jiàn)的眼科疾病之一,在中國(guó)發(fā)病率已達(dá)到33%(2010年數(shù)據(jù)),在美國(guó)發(fā)病率更是達(dá)到了41.6%[1](2004年數(shù)據(jù))。
然而,近視眼的主要成因卻是一個(gè)富有爭(zhēng)議的話(huà)題。一般認(rèn)為近視眼是有遺傳傾向的。Fotouhi的研究表明近視眼的發(fā)病具有很強(qiáng)的家族聚集傾向性,兄弟姐妹之間的發(fā)生率可達(dá)2.09~3.86[2]。
在另一方面,也有一些人提出爭(zhēng)議,認(rèn)為在近視眼的發(fā)病過(guò)程中,遺傳并不是主要的因素。Rachel Nowak在她的文章Lifestyle causes myopia, not genes中提到人“受到環(huán)境因素的巨大影響以至于可以徹底抵消遺傳的因素影響”[3]。除此以外,Rose 和Morgan的研究中指出環(huán)境因素的改變?cè)谑澜绶秶鷥?nèi)的近視眼流行過(guò)程中起到?jīng)Q定性作用[4]。
本文通過(guò)主要成分分析在9個(gè)不同人群的11個(gè)潛在的近視眼風(fēng)險(xiǎn)位點(diǎn)進(jìn)行分析,以評(píng)估遺傳因素在近視眼發(fā)展中的作用大小。
1 資料與方法
1.1位點(diǎn)數(shù)據(jù)收集
潛在的風(fēng)險(xiǎn)位點(diǎn)信息是從網(wǎng)站“A Catalog of Published Genome-Wide Association Studies[5]和“23andme” website[6]上得到的。見(jiàn)表1。
1.2 人群數(shù)據(jù)收集
分區(qū)的個(gè)體單體型數(shù)據(jù)是從國(guó)際的“Hapmap”項(xiàng)目[7]中得到的。選中的9個(gè)不同的人群見(jiàn)表2。
1.3統(tǒng)計(jì)學(xué)方法
主成分分析(PCA)是一種可以將一組相關(guān)的觀(guān)測(cè)轉(zhuǎn)化為一組線(xiàn)性無(wú)關(guān)的變量的正交線(xiàn)性變換[8]。在本文中,主成分分析中的R package主要用于過(guò)濾噪音數(shù)據(jù)以及減少數(shù)據(jù)的維度。
2 結(jié)果
根據(jù)表1、表2,分析如下。
2.1風(fēng)險(xiǎn)相關(guān)位點(diǎn)的連鎖不平衡和P值的比較
圖1顯示不同風(fēng)險(xiǎn)位點(diǎn)對(duì)于近視眼發(fā)病風(fēng)險(xiǎn)的貢獻(xiàn)。
圖1 選中風(fēng)險(xiǎn)位點(diǎn)的關(guān)聯(lián)
從左到右點(diǎn)的分布為:rs4373767、rs4557020、rs1137、rs282544、rs93180836、rs10034228,rs1585471、rs6685224、rs577948、rs560766、rs939661。相互之間r2值在0.8 到1之間的SNPs在圖中是紅色的,與其他10個(gè)位點(diǎn)r2值<0.01的SNPs在圖中是藍(lán)色的。
從圖1顯示,不同的等位基因?qū)τ诮曆郯l(fā)病風(fēng)險(xiǎn)的貢獻(xiàn)各不相同。 其中影響最大的rs9318083的p值為2×10-16。從圖譜中我們還可以注意到另一個(gè)特點(diǎn)就是缺少遺傳上的連鎖不平衡, 這一點(diǎn)也可以從11個(gè)風(fēng)險(xiǎn)相關(guān)等位基因的相關(guān)性圖像中看出。
圖2即顯示了不同風(fēng)險(xiǎn)等位基因之間的相關(guān)性。
圖2 選定的近視風(fēng)險(xiǎn)等位基因的相關(guān)性
x軸和y軸都是位點(diǎn)位置的任意單位。紅色表示高連鎖不平衡(r2=1),而黑色表示不相關(guān)(r2=0)。只有兩個(gè)位點(diǎn)(rs4373767和rs1137)的 r2數(shù)值>0.8(r2=0.83),而其他的等位基因都是完全不連鎖的。
2.2近視眼的人群聚集
圖3為9個(gè)人群450個(gè)個(gè)體遺傳數(shù)據(jù)的PCA圖像。
圖3 近視眼的人中聚集
圖3 450個(gè)個(gè)體的遺傳數(shù)據(jù)在主成分軸1(PC1)和主成分軸2(PC2)中。顏色標(biāo)記:紅色,ASW;綠色,CEU;藍(lán)色,CHB;黃色,CHD;橘色,GIH;紫紅色,JPT;黑色,MEX;灰色,TSI;棕色,YRI。
圖3顯示出了在人群層面上缺乏聚集傾向。來(lái)自不同人群的個(gè)體混雜在一起難以分辨,但是人群整體可以被分在兩個(gè)主要區(qū)域中(上述標(biāo)出的區(qū)域A與區(qū)域B中)。大多數(shù)來(lái)自于A(yíng)SW和YRI人群的較少的一些個(gè)體,在PC1~0 中形成了一個(gè)更小的聚集群。由于中間的聚集群與區(qū)域A和區(qū)域B比較相對(duì)較小,所以在本研究以下部分中中間區(qū)域所帶來(lái)的效應(yīng)被忽略。
為了確認(rèn)種群聚集是否完全不存在,進(jìn)行了成對(duì)數(shù)據(jù)主成分分析。見(jiàn)圖4、圖5。
圖4 CHD 和YRI的PCA
顏色: CHD,紅色;YRI,綠色
圖5 CHD和ASW的PCA
顏色:CHD,紅色;ASW,綠色
從圖4和圖5中,可以看出ASW 和YRI 人群與CHD人群配在一起時(shí)的聚集情況,盡管它們之間的界限并不明確。這個(gè)觀(guān)察說(shuō)明了種群聚集確實(shí)存在,但是它們之間的親緣關(guān)系比較近,這也是圖3中沒(méi)有顯示出種群聚集情況的原因之一。另一個(gè)需要指出的特點(diǎn)就是ASW和YRI人群的種群聚集的形態(tài)與位置十分相似,所以可以推測(cè)ASW與YRI人群在遺傳上是十分相關(guān)的。
人口集群的存在也在CHD與其他不相關(guān)的人群比對(duì)時(shí)發(fā)現(xiàn)。見(jiàn)圖6、圖7。
與ASW 和 YRI人群相似,集群可以被識(shí)別出來(lái),但是它們之間的邊界比較模糊。但是,人群集群在CHD與和它緊密聯(lián)系的種群CHB和JPT一起在圖中比較時(shí)消失:
2.3近視眼發(fā)病中遺傳因素貢獻(xiàn)的大小
在PCA 分析過(guò)程中, 2個(gè)主要的、獨(dú)立于人群之外的種群聚集區(qū)域被發(fā)現(xiàn)。 說(shuō)明了風(fēng)險(xiǎn)相關(guān)的等位基因作為一個(gè)遺傳的整體在近視眼發(fā)病過(guò)程中起作用而且造成了兩個(gè)遺傳的產(chǎn)物,即A和B。至于遺傳因素對(duì)于表型的貢獻(xiàn)有多大,我們應(yīng)該找到種群聚集區(qū)域與世界上近視眼發(fā)病率之間的關(guān)系。單體基因型與表型統(tǒng)計(jì)之間的一個(gè)強(qiáng)有力的關(guān)系可以揭示出基因型與表現(xiàn)型之間緊密的聯(lián)系,也就是說(shuō)遺傳還是在近視眼發(fā)病中的主要因素。
人群被分成5個(gè)不同的區(qū)域,這5個(gè)不同的區(qū)域的近視眼發(fā)病率可以從聯(lián)合國(guó)世界衛(wèi)生組織的數(shù)據(jù)中查到[9]。人群TSI和CEU來(lái)源于非常相似的地理位置而且遺傳上緊密聯(lián)系。由于TSI包括了一個(gè)特殊范圍的個(gè)體,故在此處忽略其數(shù)據(jù)以防止一個(gè)小區(qū)域內(nèi)的遺傳波動(dòng)(漂變)影響整體的結(jié)果。同理,CHB的數(shù)據(jù)也被排除在外。見(jiàn)表3。
表3 人群及其所屬的區(qū)域
低視力因子衡量了一個(gè)個(gè)體在一個(gè)特定區(qū)域內(nèi)視力低下的相對(duì)概率,其值越高患有近視的風(fēng)險(xiǎn)就越大。筆者統(tǒng)計(jì)了圖3中區(qū)域A和區(qū)域B中的單體型并且獲得了他們相應(yīng)的頻率。見(jiàn)表4和圖10。
表4 低視力因素和在圖3中單體型的分布
圖10 區(qū)域A中個(gè)體發(fā)病頻率vs低視力因子
圖10 說(shuō)明了低視力因子隨著區(qū)域A中的單體型頻率線(xiàn)性增加,r2值大約0.926。因此,一個(gè)個(gè)體在PCA圖上落入?yún)^(qū)域A的可能性越大,其近視眼的發(fā)病可能性越大。于是,區(qū)域A被發(fā)現(xiàn)是一個(gè)“高風(fēng)險(xiǎn)”區(qū)域。見(jiàn)圖11、圖12。
圖11 區(qū)域B中個(gè)體頻率vs低視力因子
圖12 區(qū)域B中個(gè)體的頻率vs低視力因子
*除去非洲的數(shù)據(jù)
圖11顯示,相關(guān)關(guān)系在一定程度上是線(xiàn)性的,而來(lái)自非洲人群的數(shù)據(jù)對(duì)整體的趨勢(shì)偏離最大。當(dāng)刪除了非洲的數(shù)據(jù)后,擬合結(jié)果的r2值可達(dá)0.9581。 與我們發(fā)現(xiàn)的區(qū)域A相反,區(qū)域B中單體型的頻率越高會(huì)導(dǎo)致低視力因子的下降,使得區(qū)域B成為一個(gè)“低風(fēng)險(xiǎn)”區(qū)。
3討論
近視眼風(fēng)險(xiǎn)相關(guān)的等位基因包括了大小相差很大的一組P值而且基本上是不連鎖的。這有可能是近視風(fēng)險(xiǎn)相關(guān)基因的物理位置各不相同,大多數(shù)等位基因并不位于一個(gè)染色體上。即使對(duì)于位于一條染色體上的基因,比如rs10034228和rs1585471 (在4號(hào)染色體上), 它們?cè)谌旧w上的距離足夠大以至于可以被認(rèn)為是不連鎖的。不同等位基因?qū)τ诮暡煌呢暙I(xiàn)和它們之間的不連鎖表明了近視是一個(gè)復(fù)雜的、多個(gè)風(fēng)險(xiǎn)等位基因效果綜合在一起的過(guò)程,而不能簡(jiǎn)單看做一個(gè)單基因位點(diǎn)的疾病。
近視眼有著十分弱的種群聚集傾向。一種可能的解釋是近視眼的等位基因在人群中的分布是極其普遍的。這些風(fēng)險(xiǎn)基因中的絕大多數(shù)有一個(gè)單倍體的最小頻率大約為0.4,意味著對(duì)于每一個(gè)單獨(dú)的風(fēng)險(xiǎn)基因而言大約世界上一半的人都是其攜帶者。考慮到總共有11個(gè)基因,簡(jiǎn)單估算便可知道幾乎所有的個(gè)體都至少攜帶其中的一個(gè)基因??傮w較高的基因頻率使得在不同種群之間找到那些相對(duì)較小的改變變得不易。此外,本研究中的樣本量還不是太大,這減弱了PCA的敏感性。而在本研究中觀(guān)察到的不相關(guān)的種群之間很弱的聚集現(xiàn)象或許是環(huán)境選擇的作用。 PCA圖上兩個(gè)與風(fēng)險(xiǎn)相關(guān)的區(qū)域被發(fā)現(xiàn)出來(lái)。它們與低視力頻率的線(xiàn)性對(duì)應(yīng)關(guān)系揭示了遺傳因素在近視發(fā)病過(guò)程中的重要作用。反駁了近視眼中后天環(huán)境變化因素影響遠(yuǎn)遠(yuǎn)超過(guò)遺傳因素的觀(guān)念。
本研究也有許多的局限性。首先,如上所述樣本容量相對(duì)較小,一組由50個(gè)數(shù)據(jù)構(gòu)成的樣本可能不能準(zhǔn)確地反映300萬(wàn)人口的基因組成,而且任何異常的個(gè)案都可能影響最終的結(jié)果。在本研究中選取的基因位點(diǎn)也十分有限,這也許是PCA圖結(jié)果中種群聚集較弱的原因之一。在第三部分中人群的分組分區(qū)是一個(gè)近似(不準(zhǔn)確)的過(guò)程,也有可能造成結(jié)果的偏差。如JPT 被分入中國(guó)地區(qū),而這與事實(shí)有出入。此外,由于我們無(wú)法找到相關(guān)近視率數(shù)據(jù),我們不得不使用低視力因子對(duì)于表型進(jìn)行評(píng)估。但是,除了近視眼外,低視力還可能由沙眼、糖尿病視網(wǎng)膜病變、黃斑變性和其他異常所引起。在今后的研究改進(jìn)中還需收集更多的個(gè)體數(shù)據(jù)以及準(zhǔn)確的近視眼發(fā)病率數(shù)據(jù)。
[參考文獻(xiàn)]
[1] Vitale S, Sperduto RD, Ferris FL III. Increased Prevalence of Myopia in the United States Between 1971-19721999-2004[J]. Arch Ophthalmol,2009,127 (12):1632-1639.
[2] Fotouhi A. Familial aggregation of myopia in the Tehran eye study: estimation of the siblingparent-offspring recurrence risk ratios[J]. Br J Ophthalmol,2007,91:1440-1444.
[3] http://www.newscientist.com/article/dn6117-lifestyle-causes-myopia-not-genes.html.
[4] Morgan I, Rose K. How genetic is school myopia[J]. Prog Retin Eye Res,2005,24:1-38.
[5] A Catalog of Published Genome-Wide Association Studies. http://www. genome. Gov/gwastudies/
[6] 23andme. https://www.23andme.com/
[7] International Hapmap Project. http://hapmap.ncbi.nlm.nih.gov/
[8] Jolliffe I.T. Principal Component Analysis, 2nd ed. NY: Springer, 2002, XXIX, 487 p. 28.
[9] World Health organization,global data on visual impairments 2010. http://www.who.int/en/
(收稿日期:2013-09-23)