【摘要】 背景 輕度認(rèn)知障礙(MCI)是干預(yù)和延緩癡呆進(jìn)展的重要階段,既往研究發(fā)現(xiàn)MCI與遺傳因素存在緊密關(guān)聯(lián),且載脂蛋白E(APOE)ε4是醫(yī)學(xué)界公認(rèn)的MCI重要風(fēng)險(xiǎn)等位基因。由于缺少M(fèi)CI的全基因組關(guān)聯(lián)研究(GWAS)匯總數(shù)據(jù),當(dāng)前普遍以阿爾茨海默?。ˋD)的GWAS匯總數(shù)據(jù)作為Base數(shù)據(jù)集來(lái)計(jì)算MCI的多基因風(fēng)險(xiǎn)評(píng)分(PRS),致使MCI的PRS遺傳風(fēng)險(xiǎn)預(yù)測(cè)效果并不理想。目的 本研究以多基因遺傳風(fēng)險(xiǎn)綜合評(píng)分(metaPRS)與APOEε4作為重要預(yù)測(cè)因子,從廣義線(xiàn)性模型與機(jī)器學(xué)習(xí)角度,探索并優(yōu)化MCI的遺傳風(fēng)險(xiǎn)統(tǒng)計(jì)建模策略。方法 計(jì)算MCI的12個(gè)亞表型PRS,并利用彈性網(wǎng)狀Logistic回歸模型將其整合為MCI的metaPRS。利用年齡矯正的APOEε4效應(yīng)量計(jì)算APOEε4加權(quán)總和(SCOREAPOE)。以metaPRS、SCOREAPOE及基本人口學(xué)信息(年齡、性別、受教育程度)構(gòu)建不同的預(yù)測(cè)因子納入策略,以XGBoost、GBM、Logistic回歸及Lasso回歸作為統(tǒng)計(jì)建模方法,采用AUC及F-measure評(píng)價(jià)MCI遺傳風(fēng)險(xiǎn)統(tǒng)計(jì)建模的預(yù)測(cè)效果。結(jié)果 metaPRS與SCOREAPOE對(duì)于MCI的遺傳風(fēng)險(xiǎn)有較高的預(yù)測(cè)價(jià)值,納入metaPRS、SCOREAPOE及基本人口學(xué)信息(年齡、性別、受教育程度)后,各個(gè)統(tǒng)計(jì)建模方法的預(yù)測(cè)效果為:XGBoost(AUC=0.69,F(xiàn)-measure=0.88),GBM(AUC=0.76,F(xiàn)-measure=0.87),Logistic回歸(AUC=0.77,F(xiàn)-measure=0.89),Lasso回歸(AUC=0.76,F(xiàn)-measure=0.92)。結(jié)論 在樣本量為325(lt;500)的情況下,以metaPRS、SCOREAPOE 與基本人口學(xué)信息為預(yù)測(cè)因子,以L(fǎng)asso回歸為統(tǒng)計(jì)建模方法的MCI遺傳風(fēng)險(xiǎn)預(yù)測(cè)效果最好。本研究為MCI等復(fù)雜疾病的遺傳風(fēng)險(xiǎn)統(tǒng)計(jì)建模提供了新的思路與視角。
【關(guān)鍵詞】 輕度認(rèn)知障礙;多基因風(fēng)險(xiǎn)評(píng)分;多基因遺傳風(fēng)險(xiǎn)綜合評(píng)分;載脂蛋白Eε4;遺傳風(fēng)險(xiǎn)預(yù)測(cè);統(tǒng)計(jì)建模優(yōu)化
【中圖分類(lèi)號(hào)】 R 741 【文獻(xiàn)標(biāo)識(shí)碼】 A DOI:10.12114/j.issn.1007-9572.2022.0756
【引用本文】 李梓盟,王榮,陳帥,等. 基于metaPRS與APOEε4優(yōu)化輕度認(rèn)知障礙遺傳風(fēng)險(xiǎn)統(tǒng)計(jì)建模策略的應(yīng)用研究[J].中國(guó)全科醫(yī)學(xué),2023,26(25):3104-3111. DOI:10.12114/j.issn.1007-9572.2022.0756. [www.chinagp.net]
【Abstract】 Background Mild cognitive impairment(MCI) is an important stage to intervene and delay the progression of dementia,and it has been shown closely associated with genetic factors,among which apolipoprotein E(APOE) ε4 is recognized as an important risk allele of MCI in the medical field. Due to the lack of Genome-Wide Association Study(GWAS) summary data of MCI,it is common to use the GWAS summary data of Alzheimer's disease(AD) as the base dataset to calculate the polygenic risk score(PRS) of MCI,resulting in suboptimal PRS genetic risk prediction for MCI. Objective To explore the and optimize the statistical modeling strategy of genetic risk in MCI from the perspective of generalized linear model and machine learning,using meta-polygenic risk score(metaPRS) and APOEε4 as important predictors. Methods PRS for the 12 MCI-related traits were calculated and integrated into metaPRS for MCI by elastic-net Logistic regression model. SCOREAPOE was calculated by weighting the APOEε4 effect size with age correction. XGBoost,GBM,Logistic regression and Lasso regression were used as statistical modeling methods to verify the inclusion strategies of different predictors based on metaPRS,SCOREAPOE and basic demographic information(age,gender,education level). AUC and F-measure were used to evaluate the predictive effect of statistical modeling of genetic risk of MCI. Results metaPRS and SCOREAPOE have high predictive value for the genetic risk of MCI. After including metaPRS,SCOREAPOE and basic demographic information(age,gender,education level),the predictive effect of each statistical modeling method is XGBoost(AUC=0.69,F(xiàn)-measure=0.88),GBM(AUC=0.76,F(xiàn)-measure=0.87),Logistic regression(AUC=0.77,F(xiàn)-measure=0.89),and Lasso regression(AUC=0.76,F(xiàn)-measure=0.92). Conclusion When the sample size is 325(less than 500),the Lasso regression model constructed by including metaPRS,SCOREAPOE and basic demographic information(age,gender,education level) as predictors has the best effect on MCI genetic risk prediction,providing a new idea and perspective for statistical modeling of genetic risk of complex diseases such as MCI.
【Key words】 Mild cognitive impairment;Polygenic risk score;MetaPRS;APOEε4;Genetic risk prediction;Statistical modeling optimization
輕度認(rèn)知障礙(mild cognitive impairment,MCI)是干預(yù)和延緩癡呆進(jìn)展的重要階段[1]。研究發(fā)現(xiàn),MCI是遺傳與環(huán)境因素共同作用的結(jié)果,且載脂蛋白E(apolipoprotein E,APOE)ε4與MCI高度相關(guān)[2]。多基因風(fēng)險(xiǎn)評(píng)分(polygenic risk score,PRS)是常用的復(fù)雜疾病遺傳風(fēng)險(xiǎn)預(yù)測(cè)方法。由于MCI特殊的疾病狀態(tài),鮮有關(guān)于MCI的國(guó)際公開(kāi)全基因組關(guān)聯(lián)研究(Genome-Wide Association Study,GWAS)匯總數(shù)據(jù)。目前普遍以阿爾茨海默病(Alzheimer's disease,AD)的GWAS匯總數(shù)據(jù)作為Base數(shù)據(jù)集用于MCI的PRS計(jì)算,導(dǎo)致MCI遺傳風(fēng)險(xiǎn)的預(yù)測(cè)效果并不理想,關(guān)于MCI的遺傳風(fēng)險(xiǎn)預(yù)測(cè)模型受試者工作特征曲線(xiàn)下面積(AUC)普遍徘徊在0.58~0.68[3]。ABRAHAM等[4]提出了多基因遺傳風(fēng)險(xiǎn)綜合評(píng)分(meta-polygenic risk score,metaPRS),其通過(guò)有效整合該疾病的多個(gè)亞表型PRS來(lái)進(jìn)一步提高遺傳風(fēng)險(xiǎn)的預(yù)測(cè)精度,且metaPRS已在缺血性腦卒中、抑郁癥和冠心病等疾病中得到很好應(yīng)用。此外,相關(guān)研究表明,基本人口學(xué)信息(年齡、性別、受教育程
度)[5]和APOEε4加權(quán)總和(SCOREAPOE)[6]對(duì)MCI具有較高的預(yù)測(cè)價(jià)值,值得進(jìn)一步探索。
MCI遺傳風(fēng)險(xiǎn)統(tǒng)計(jì)建模方法主要包括廣義線(xiàn)性模型(generalized linear model,GLM)和機(jī)器學(xué)習(xí)(machine learning,ML)兩類(lèi)。復(fù)雜疾病遺傳風(fēng)險(xiǎn)預(yù)測(cè)統(tǒng)計(jì)建模通常需滿(mǎn)足兩個(gè)基本特性:一方面該模型可以處理非正態(tài)分布的表型,另一方面能夠解決預(yù)測(cè)因子之間可能存在的復(fù)雜函數(shù)關(guān)系問(wèn)題。GLM中的Lasso回歸是一種使用L1正則化的線(xiàn)性回歸,與Logistic回歸相比更具稀疏性,能夠篩選重要的預(yù)測(cè)因子,且模型可解釋性強(qiáng)。與GLM相比,ML中的XGBoost(eXtreme Gradient Boosting)和GBM(Gradient Boosting Machine)則是通過(guò)訓(xùn)練多個(gè)弱監(jiān)督模型后將其組合成為更穩(wěn)健的強(qiáng)監(jiān)督模型,更適用于捕捉變量間復(fù)雜的函數(shù)關(guān)系,但多數(shù)ML算法的內(nèi)部結(jié)構(gòu)并不透明,在可解釋性方面劣于GLM。
本研究以metaPRS、SCOREAPOE與基本人口學(xué)信息作為MCI遺傳風(fēng)險(xiǎn)統(tǒng)計(jì)建模的預(yù)測(cè)因子,特別是考慮到以上預(yù)測(cè)因子間可能存在的復(fù)雜函數(shù)關(guān)系及復(fù)雜的表型數(shù)據(jù)特征,從GLM和ML角度,以XGBoost、GBM、Logistic回歸及Lasso回歸作為統(tǒng)計(jì)建模方法,探索并優(yōu)化MCI遺傳風(fēng)險(xiǎn)統(tǒng)計(jì)建模策略,為MCI等復(fù)雜疾病的高危人群識(shí)別、早期預(yù)防與干預(yù)及精準(zhǔn)醫(yī)學(xué)研究提供新的視角和科學(xué)依據(jù)。
1 資料與方法
1.1 數(shù)據(jù)來(lái)源 MCI遺傳風(fēng)險(xiǎn)預(yù)測(cè)研究所需的基本人口學(xué)信息和基因組學(xué)數(shù)據(jù)來(lái)自英國(guó)生物數(shù)據(jù)庫(kù)(United Kingdom Biobank,UKB)與阿爾茨海默病神經(jīng)成像計(jì)劃(Alzheimer's Disease Neuroimaging Initiative,ADNI)。UKB是一個(gè)大型前瞻性隊(duì)列研究及生物醫(yī)學(xué)數(shù)據(jù)庫(kù),主要收集了認(rèn)知功能測(cè)試、血壓、身體測(cè)量、血液檢查、基因測(cè)序、全身影像(如腦部MRI與心臟MRI)和隨訪(fǎng)等多方面的數(shù)據(jù)。ADNI是一項(xiàng)大規(guī)模的隊(duì)列研究,主要收集了受試者的人口統(tǒng)計(jì)學(xué)變量(如年齡、性別、受教育程度)、腦部影像學(xué)數(shù)據(jù)、生物學(xué)標(biāo)志物和基因測(cè)序數(shù)據(jù)。
本研究主要集中于腦結(jié)構(gòu)成像表型,不僅準(zhǔn)確選取了4種主要的大腦組織結(jié)構(gòu)〔白質(zhì)體積(White matter)、灰質(zhì)體積(Grey matter)、腦脊液體積(Cerebrospinal fluid,CSF)和總腦體積(Total brain)〕,還納入了既往研究表明與MCI相關(guān)的腦結(jié)構(gòu)成像表型〔白質(zhì)高信號(hào)體積(White matter hyperintensities,WMH)、蒼白球體積(Pallidum)、尾狀核體積(Caudate)、海馬體體積(Hippocampus)、杏仁核體積(Amygdala)、伏隔核體積(Accumbens)、殼核體積(Putamen)和丘腦體積(Thalamus)〕[7-8]。
1.2 質(zhì)量控制 由于UKB數(shù)據(jù)庫(kù)納入人群均為白人,為控制人口結(jié)構(gòu)可能帶來(lái)的混雜,經(jīng)過(guò)主成分分析(見(jiàn)附錄材料1~3,http://cstr.cn/31253.11.sciencedb.j00150.00009),本研究只保留了ADNI數(shù)據(jù)庫(kù)中的非西班牙裔白種人,使得本研究使用的ADNI與UKB數(shù)據(jù)庫(kù)在人口結(jié)構(gòu)上相似。采用PLINK 1.9去除個(gè)體缺失率gt;10%的人群,去除基因型缺失率gt;10%的單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)。數(shù)據(jù)質(zhì)量得到控制后,根據(jù)物理位置提取UKB與ADNI數(shù)據(jù)庫(kù)共同的SNPs。最終UKB數(shù)據(jù)庫(kù)得到488 371個(gè)個(gè)體,694 020個(gè)SNPs,以此對(duì)各亞表型進(jìn)行GWAS研究獲得所需的GWAS匯總數(shù)據(jù);ADNI數(shù)據(jù)庫(kù)得到325個(gè)個(gè)體,694 020個(gè)SNPs。
1.3 研究方法 本研究從研究設(shè)計(jì)上分為3個(gè)階段:(1)在A(yíng)DNI數(shù)據(jù)集中,計(jì)算MCI的12個(gè)亞表型PRS;(2)基于彈性網(wǎng)狀Logistic回歸模型整合12個(gè)亞表型PRS,并計(jì)算MCI的metaPRS;(3)通過(guò)10折交叉驗(yàn)證對(duì)不同預(yù)測(cè)因子納入策略及不同預(yù)測(cè)方法性能進(jìn)行驗(yàn)證(圖1)。
1.3.1 全基因組關(guān)聯(lián)研究 GWAS將SNPs位點(diǎn)與性狀進(jìn)行群體水平的統(tǒng)計(jì)學(xué)分析,識(shí)別和描述SNPs與疾病進(jìn)展或疾病結(jié)局之間的關(guān)聯(lián)[9]。GWAS的研究結(jié)果主要通過(guò)Quantile-Quantle(Q-Q)圖和曼哈頓圖進(jìn)行可視化,曼哈頓圖表示SNPs的顯著性水平,Q-Q圖表示在SNPs水平上檢驗(yàn)統(tǒng)計(jì)量的期望和分布之間的關(guān)系,λ-統(tǒng)計(jì)量評(píng)估是否有必要納入主成分控制群體分層[9]。
1.3.2 metaPRS的構(gòu)建 (1)使用PRS的經(jīng)典構(gòu)建方法C+T(clumping and threshold)計(jì)算各個(gè)亞表型PRS,PRS為每個(gè)SNPs的風(fēng)險(xiǎn)等位基因的個(gè)數(shù)乘以其各自的效應(yīng)量,構(gòu)建公式為PRSi=∑mj=1βjXij,i是第i個(gè)個(gè)體,j是第j個(gè)SNP,β是GWAS匯總數(shù)據(jù)的效應(yīng)值,Xij是第i個(gè)個(gè)體第j個(gè)SNP風(fēng)險(xiǎn)等位基因的個(gè)數(shù)。(2)在A(yíng)DNI數(shù)據(jù)庫(kù)(n=325)中隨機(jī)抽出30%的個(gè)體,采用彈性網(wǎng)狀Logistic回歸模型整合12個(gè)亞表型PRS,在最終模型中獲得每個(gè)亞表型PRS的系數(shù)(β1……βk)作為權(quán)重[4,10]以構(gòu)建metaPRS的預(yù)測(cè)模型。(3)利用βsnp_i=β1/σ1×αj1+……+βk/σk×αjk將亞表型PRS水平的權(quán)重轉(zhuǎn)換為SNPs水平的權(quán)重,其中,σ1……σk是訓(xùn)練集中每個(gè)亞表型PRS的標(biāo)準(zhǔn)差,αj1……αjk是第i個(gè)SNP的等位基因?qū)?yīng)于每個(gè)亞表型的效應(yīng)值,如果第k個(gè)評(píng)分中未包含某個(gè)SNP,則該SNP的效應(yīng)值大小αjk設(shè)為0。(4)根據(jù)公式metaPRS=∑βsnp_i ×Ni計(jì)算metaPRS,其中,βsnp_i是第i個(gè)SNP的效應(yīng)值,Ni是個(gè)體所攜帶第i個(gè)SNP的效應(yīng)等位基因數(shù)目。
1.3.3 預(yù)測(cè)因子納入策略 本研究的預(yù)測(cè)因子納入策略基于基本人口學(xué)信息和遺傳信息進(jìn)行構(gòu)建,由于在A(yíng)POEε4的連鎖不平衡區(qū)域中rs429358是最顯著的位點(diǎn),所以選擇rs429358代表APOEε4[11]。且APOEε4的等位基因頻率隨著年齡的變化而變化[12],所以本研究選擇通過(guò)βAPOEε4=lnOR計(jì)算以年齡矯正的APOEε4效應(yīng)量(個(gè)體年齡≤60歲,βAPOEε4=0.542;60歲lt;個(gè)體年齡≤70歲,βAPOEε4=0.419;70歲lt;個(gè)體年齡≤80歲,βAPOEε4=0.577;個(gè)體年齡gt;80歲,βAPOEε4=0.425[13]),并單獨(dú)計(jì)算APOEε4的加權(quán)總和[6],其公式為SCOREAPOE-i=βXi,其中,i是第i個(gè)個(gè)體,β是APOEε4的效應(yīng)量,Xi是第i個(gè)個(gè)體rs429358風(fēng)險(xiǎn)等位基因的個(gè)數(shù)。本研究的預(yù)測(cè)因子納入策略見(jiàn)表1。
1.3.4 統(tǒng)計(jì)建模方法 (1)XGBoost算法是CHEN等[14]提出的基于集成學(xué)習(xí)的ML算法。XGBoost的基本思想是利用函數(shù)的二階導(dǎo)數(shù)信息來(lái)訓(xùn)練樹(shù)模型,并把樹(shù)模型復(fù)雜度作為正則化項(xiàng)加到目標(biāo)函數(shù)中,使學(xué)習(xí)到的模型泛化能力更高。其目標(biāo)函數(shù)為L(zhǎng)(φ)=∑il(i ,yi) +∑kΩ(fk),損失函數(shù)為l(i ,yi),正則化項(xiàng)為Ω(f)=γΤ+1/2λ‖ω‖2,其中,Τ代表葉子節(jié)點(diǎn)的個(gè)數(shù),ω表示葉子節(jié)點(diǎn)的分?jǐn)?shù)。正則化項(xiàng)表示樹(shù)的復(fù)雜度的函數(shù),值越小,則復(fù)雜度越低,泛化能力越強(qiáng)。
(2)GBM是ML中常用算法,該算法由大量簡(jiǎn)單的決策樹(shù)集合而成,利用迭代多棵決策樹(shù)不斷學(xué)習(xí)殘差,減小損失函數(shù)的值來(lái)調(diào)整模型,具有較高的可解釋性[15]。GBM在沒(méi)有先驗(yàn)數(shù)據(jù)結(jié)構(gòu)的情況下,可以對(duì)表型及其預(yù)測(cè)因子之間的關(guān)系建模,被認(rèn)為是一種泛化能力較強(qiáng)的算法。GBM可以表示為一組加性回歸模型:y*=1μ+∑Mm=1?hm(y*;X)+e。其中,y*是表型,X是預(yù)測(cè)因子,e是殘差,?用于控制每次迭代時(shí)從殘差中減去的方差,從而在模型數(shù)量和預(yù)測(cè)因子相關(guān)性之間進(jìn)行權(quán)衡。實(shí)際上,較小的?需要組合更多的模型,以在訓(xùn)練集中達(dá)到相同的錯(cuò)誤率,且會(huì)在驗(yàn)證集上產(chǎn)生更好的預(yù)測(cè)性能。
(3)Logistic回歸是預(yù)測(cè)結(jié)局變量為二分類(lèi)變量時(shí)最為常用的統(tǒng)計(jì)模型,其通用形式如下:Logit(P)=Log[P/(1-P)]=a+b1x1+……+bmxm。其中,x1……xm為預(yù)測(cè)因子,b1……bm為m個(gè)預(yù)測(cè)因子的回歸系數(shù)。Logistic回歸表達(dá)式經(jīng)過(guò)簡(jiǎn)單變換,可得預(yù)測(cè)事件的概率P,表達(dá)式為P=[exp(a+b1x1+……+bmxm)]/[1+exp(a+b1x1+……+bmxm)]。
(4)Lasso回歸由TIBSHIRANI[16]于1997年提出,旨在構(gòu)建性能最佳的懲罰線(xiàn)性模型。在Lasso回歸中較大的懲罰會(huì)導(dǎo)致一些預(yù)測(cè)因子的回歸系數(shù)接近零,回歸系數(shù)變?yōu)榱愕念A(yù)測(cè)因子會(huì)被從模型中刪除。Lasso回歸具有較強(qiáng)的稀疏回歸系數(shù)向量的能力,可為模型選擇有用的特征,具有更高的模型性能。
1.4 統(tǒng)計(jì)學(xué)方法 所有統(tǒng)計(jì)學(xué)分析均通過(guò)R 4.1.0軟件完成。計(jì)數(shù)資料以頻數(shù)和百分比表示,計(jì)量資料以(x-±s)表示。XGBoost、GBM、Logistic回歸和Lasso回歸分別采用XGBoost包、gbm包、stats包和glmnet包。所有預(yù)測(cè)模型采用10折交叉驗(yàn)證方法驗(yàn)證預(yù)測(cè)性能,評(píng)價(jià)指標(biāo)采用F1分?jǐn)?shù)(F-measure)與AUC。F-measure 是常用于評(píng)價(jià)二分類(lèi)模型的信度指標(biāo),其數(shù)值越大,表示模型對(duì)于精確率和召回率的平衡效果越好且分類(lèi)模型信度越高。
2 結(jié)果
2.1 研究對(duì)象基本信息 MCI個(gè)體平均年齡(70.7±7.0)歲,正常認(rèn)知個(gè)體平均年齡(74.3±5.7)歲;MCI個(gè)體APOEε4等位基因頻率為45.8%,正常認(rèn)知個(gè)體APOEε4等位基因頻率為27.9%,見(jiàn)表2。
2.2 全基因組關(guān)聯(lián)研究 參閱以往相關(guān)研究[17-18],本研究選擇了Bonferroni顯著水平(Plt;5×10-8)和Bonferroni閾值水平(Plt;5×10-6)用于判斷多個(gè)亞表型GWAS匯總數(shù)據(jù)是否為有研究?jī)r(jià)值的SNPs。本研究計(jì)算了12個(gè)亞表型的λ-統(tǒng)計(jì)量且其都接近于1,這說(shuō)明群體分層得到了適當(dāng)?shù)恼{(diào)整,見(jiàn)圖2。Amygdala、Caudate、CSF、Pallidum、Putamen及WMH表型存在達(dá)到Bonferroni顯著水平Plt;5×10-8(第一條水平線(xiàn))的SNPs,這些SNPs位點(diǎn)所在的基因是AD的候選基因[19]。Accumbens、Grey matter、Hippocampus、Thalamus、Total brain及White matter表型在Plt;5×10-6(第二條水平線(xiàn))的閾值水平上存在許多顯著相關(guān)的SNPs。
2.3 metaPRS的構(gòu)建 計(jì)算各預(yù)測(cè)因子之間的Pearson相關(guān)系數(shù),如圖3所示,各預(yù)測(cè)因子之間存在不同程度的相關(guān)性,如PRSHippocampus和metaPRS(r=-0.6)、PRSWMH和metaPRS(r=0.5)、PRSPallidum和metaPRS(r=-0.5)、PRSCSF和PRSAccumbens(r=-0.4)、PRSCSF和PRSTotal brain(r=-0.4)、PRSTotal brain和PRSGrey mattter(r=-0.4)及PRSAccumbens和PRSThalamus(r=0.4)。
2.4 不同預(yù)測(cè)因子納入策略的驗(yàn)證 A組對(duì)策略一與策略二(相較于策略一,策略二加入了SCOREAPOE)進(jìn)行比較,B組對(duì)策略三與策略四(相較于策略三,策略四加入了SCOREAPOE)進(jìn)行比較,結(jié)果顯示加入SCOREAPOE策略的趨勢(shì)明顯高于未加入SCOREAPOE策略,說(shuō)明APOEε4預(yù)測(cè)MCI的作用得到了驗(yàn)證。C組對(duì)策略二與策略四(相較于策略二,策略四加入了metaPRS)進(jìn)行比較,在4種統(tǒng)計(jì)建模方法上策略四的趨勢(shì)高于策略二,即基于metaPRS優(yōu)化的預(yù)測(cè)因子納入策略?xún)?yōu)于基于12種亞表型的PRS的預(yù)測(cè)因子納入策略,見(jiàn)圖4。
2.5 統(tǒng)計(jì)建模效果的評(píng)價(jià) 總體來(lái)說(shuō),Lasso回歸的預(yù)測(cè)性能高于其他3種統(tǒng)計(jì)建模方法。A組中,不同預(yù)測(cè)因子納入策略下Lasso 回歸的F-measure高于其他3種統(tǒng)計(jì)建模方法;在策略四(metaPRS和SCOREAPOE)中,不同統(tǒng)計(jì)建模方法的F-measure分別為:XGBoost(F-measure=0.88),GBM(F-measure=0.87),Logistic 回歸(F-measure=0.89),Lasso 回歸(F-measure=0.92)。B組中,在策略四上不同統(tǒng)計(jì)建模方法的AUC離散程度大體一致,其中位數(shù)分別為:XGBoost(AUC=0.69),GBM(AUC=0.76),Logistic 回歸(AUC=0.77),Lasso 回歸(AUC=0.76),見(jiàn)圖5。
3 討論
本研究以12個(gè)亞表型的PRS、metaPRS、SCOREAPOE及基本人口學(xué)信息作為MCI統(tǒng)計(jì)建模的預(yù)測(cè)因子,以XGBoost、GBM、Logistic回歸及Lasso回歸作為MCI統(tǒng)計(jì)建模的方法,探索并構(gòu)建了適用于MCI遺傳風(fēng)險(xiǎn)預(yù)測(cè)的統(tǒng)計(jì)建模策略。特別是,研究發(fā)現(xiàn),metaPRS與SCOREAPOE對(duì)于MCI的遺傳風(fēng)險(xiǎn)具有較高預(yù)測(cè)價(jià)值,且在樣本量不高(lt;500)的情況下,Lasso回歸是MCI遺傳風(fēng)險(xiǎn)統(tǒng)計(jì)建模比較理想的方法。
研究發(fā)現(xiàn),對(duì)APOEε4效應(yīng)量進(jìn)行年齡矯正后加權(quán)算分并作為預(yù)測(cè)因子納入預(yù)測(cè)模型會(huì)明顯提高M(jìn)CI的預(yù)測(cè)分類(lèi)效果,這說(shuō)明SCOREAPOE對(duì)預(yù)測(cè)MCI具有重要意義。已有研究表明在人群中APOEε4的等位基因頻率會(huì)隨著年齡的增長(zhǎng)而下降,且APOEε4效應(yīng)量受年齡影響[12],本研究再次驗(yàn)證利用經(jīng)過(guò)年齡矯正的APOEε4效應(yīng)量并加權(quán)算分作為獨(dú)立預(yù)測(cè)因子納入預(yù)測(cè)模型的合理性與科學(xué)性。本研究還發(fā)現(xiàn),基于metaPRS的預(yù)測(cè)因子納入策略?xún)?yōu)于基于12個(gè)亞表型PRS的預(yù)測(cè)因子納入策略及既往對(duì)于MCI的預(yù)測(cè)策略,且基于metaPRS和SCOREAPOE的預(yù)測(cè)因子納入策略?xún)?yōu)于其他3種預(yù)測(cè)因子納入策略。既往對(duì)于MCI的預(yù)測(cè)都是通過(guò)AD的GWAS匯總數(shù)據(jù)構(gòu)建的PRS實(shí)現(xiàn)的,使用AUC評(píng)估預(yù)測(cè)效果為0.58~0.68[3]。這是因?yàn)榧韧腉WAS匯總數(shù)據(jù)是關(guān)于A(yíng)D的二分類(lèi)變量,而本研究是選取與MCI相關(guān)的12個(gè)腦成像表型,合理整合有相關(guān)性的12個(gè)亞表型PRS構(gòu)建metaPRS,并選用了XGBoost、GBM、Logistic回歸及Lasso回歸進(jìn)行分析比較,最終得到性能高的模型。因此,在未來(lái)MCI遺傳風(fēng)險(xiǎn)預(yù)測(cè)的研究中,可以更多地關(guān)注相關(guān)預(yù)測(cè)因子的挖掘及整合預(yù)測(cè)因子方法的開(kāi)發(fā)。雖然MCI的預(yù)測(cè)模型尚未達(dá)到臨床診斷所需的水平,但與之前的研究相比,本研究取得了積極進(jìn)展。
本研究綜合F-measure與AUC兩個(gè)評(píng)價(jià)指標(biāo),結(jié)果顯示Lasso回歸的預(yù)測(cè)效果最好。一方面,在策略一(MCI的12個(gè)亞表型)和策略二(MCI的12個(gè)亞表型和SCOREAPOE)中,Lasso回歸優(yōu)于其他3種統(tǒng)計(jì)建模方法,主要是 Lasso回歸具有更強(qiáng)的稀疏回歸系數(shù)向量的能力,懲罰線(xiàn)性回歸更適用于基于有相關(guān)性的多個(gè)亞表型構(gòu)建遺傳風(fēng)險(xiǎn)預(yù)測(cè)模型。另一方面,在策略三(metaPRS)和策略四(metaPRS和SCOREAPOE)中,XGBoost劣于其他3種統(tǒng)計(jì)建模方法,原因可能是本研究的樣本量較小,XGBoost相比于Lasso回歸需要更大的樣本量才能體現(xiàn)其性能優(yōu)勢(shì)。CHRISTODOULOU等[20]開(kāi)展了一項(xiàng)綜述研究,匯集了75項(xiàng)研究的數(shù)據(jù),其樣本量中位數(shù)為1 250(樣本量范圍為72~3 994 872),最終發(fā)現(xiàn)相比于Logistic回歸,ML在預(yù)測(cè)結(jié)果上沒(méi)有明顯優(yōu)勢(shì)。相關(guān)研究也表明,在多種ML方法(樸素貝葉斯、XGBoost、支持向量機(jī)等)中,XGBoost的性能最佳,但其預(yù)測(cè)效果非常依賴(lài)于樣本量大小,在樣本量lt;500的情況下,與其他ML方法相比沒(méi)有明顯優(yōu)勢(shì)[21]。
由于本研究訓(xùn)練集樣本量不夠大,可能會(huì)影響研究結(jié)果的泛化能力,且本研究的基因組學(xué)數(shù)據(jù)是來(lái)自UKB和ADNI兩個(gè)數(shù)據(jù)庫(kù)交叉合并的共同物理位置SNPs,可能會(huì)遺失與MCI相關(guān)的遺傳信息。因此,建議未來(lái)在開(kāi)展基因測(cè)序工作時(shí)考慮一些罕見(jiàn)變異的測(cè)量。此外,本研究?jī)H采用了4種統(tǒng)計(jì)建模方法,未來(lái)可進(jìn)一步探索其他可能提高M(jìn)CI遺傳風(fēng)險(xiǎn)預(yù)測(cè)精度的方法,并考慮構(gòu)建全新的統(tǒng)計(jì)模型。
綜上,以metaPRS、SCOREAPOE與基本人口學(xué)信息(年齡、性別和受教育程度)作為預(yù)測(cè)因子,以L(fǎng)asso回歸作為MCI遺傳風(fēng)險(xiǎn)統(tǒng)計(jì)建模方法的統(tǒng)計(jì)建模策略取得了較理想的預(yù)測(cè)效果,有助于為MCI精準(zhǔn)醫(yī)療及早期干預(yù)提供科學(xué)依據(jù),具有一定的臨床應(yīng)用價(jià)值。必要情況下,將MCI的遺傳風(fēng)險(xiǎn)預(yù)測(cè)作為健康體檢項(xiàng)目或者相關(guān)門(mén)診的常規(guī)篩查項(xiàng)目,可以很大程度上提高M(jìn)CI的檢出率,進(jìn)而實(shí)現(xiàn)MCI的早期干預(yù),有效降低家庭及社會(huì)的疾病負(fù)擔(dān)。
數(shù)據(jù)可用性聲明:支撐本研究的科學(xué)數(shù)據(jù)已在中國(guó)科學(xué)院數(shù)據(jù)銀行ScienceDB公開(kāi)發(fā)布,訪(fǎng)問(wèn)地址為http://cstr.cn/31253.11.sciencedb.j00150.00009,DOI:10.57760/sciencedb.j00150.00009,CSTR:31253.11.sciencedb.j00150.00009。
作者貢獻(xiàn):李梓盟負(fù)責(zé)提出研究選題方向、對(duì)文章進(jìn)行可行性分析、對(duì)結(jié)果進(jìn)行解釋分析、論文撰寫(xiě)與修訂;王榮、陳帥、趙彩麗負(fù)責(zé)文獻(xiàn)/資料收集、翻譯與整理;王曉聰負(fù)責(zé)搜集數(shù)據(jù);溫雅璐、劉龍負(fù)責(zé)核心督導(dǎo),對(duì)文章整體負(fù)責(zé);所有作者確認(rèn)了論文的最終稿。
本文無(wú)利益沖突。
參考文獻(xiàn)
ANDERSON N D. State of the science on mild cognitive impairment(MCI)[J]. CNS Spectrums,2019,24(1):78-87.
LUO Y,TAN L,THERRIAULT J,et al. The role of apolipoprotein E ε4 in early and late mild cognitive impairment[J]. European Neurology,2021,84(6):472-480.
LEONENKO G,SHOAI M,BELLOU E,et al. Genetic risk for Alzheimer disease is distinct from genetic risk for amyloid deposition[J]. Annals of Neurology,2019,86(3):427-435.
ABRAHAM G,MALIK R,YONOVA-DOING E,et al. Genomic risk SCORE offers predictive performance comparable to clinical risk factors for ischaemic stroke[J]. Nature Communications,2019,10(1):1-10.
RITCHIE K. Mild cognitive impairment:an epidemiological perspective[J]. Dialogues Clin Neurosci,2004,6(4):401-408.
LEONENKO G,BAKER E,STEVENSON-HOARE J,et al. Identifying individuals with high risk of Alzheimer's disease using polygenic risk SCOREs[J]. Nat Commun,2021,12(1):4506.
VAN DEN BERG E,GEERLINGS M I,BIESSELS G J,et al. White matter hyperintensities and cognition in mild cognitive impairment and Alzheimer's disease:a domain-specific meta-analysis[J]. Journal of Alzheimer's Disease,2018,63(2):515-527.
ZACKOVá L,JáNI M,BRáZDIL M,et al. Cognitive impairment and depression:meta-analysis of structural magnetic resonance imaging studies[J]. Neuroimage Clin,2021,32:102830.
REED E,NUNEZ S,KULP D,et al. A guide to genome-wide association analysis and post-analytic interrogation[J]. Statistics in Medicine,2015,34(28):3769-3792. DOI:10.1002/sim.6605.
牛曉歌. 基于大型前瞻性隊(duì)列構(gòu)建和評(píng)價(jià)中國(guó)人群腦卒中多基因遺傳風(fēng)險(xiǎn)評(píng)分[D]. 北京:北京協(xié)和醫(yī)學(xué)院,2021.
ANDREWS S J,F(xiàn)ULTON-HOWARD B,GOATE A. Interpretation of risk loci from genome-wide association studies of Alzheimer's disease[J]. Lancet Neurology,2020,19(4):326-335.
BELLOU E,BAKER E,LEONENKO G,et al. Age-dependent effect of APOE and polygenic component on Alzheimer's disease[J]. Neurobiology of Aging,2020,93:69-77.
BONHAM L W,GEIER E G,F(xiàn)AN C C,et al. Age-dependent effects of APOE epsilon4 in preclinical Alzheimer's disease[J]. Ann Clin Transl Neurol,2016,3(9):668-677.
CHEN T,GUESTRIN C. XGBoost:A scalable tree boosting system. KDD'16: Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,August 2016:785-794[Z]. 2016
EATON J E,VESTERHUS M,MCCAULEY B M,et al. Primary sclerosing cholangitis risk estimate tool(PREsTo) predicts outcomes of the disease:a derivation and validation study using machine learning[J]. Hepatology,2020,71(1):214-224.
TIBSHIRANI R. The lasso method for variable selection in the Cox model[J]. Statistics in Medicine,1997,16(4):385-395.
DUDBRIDGE F,GUSNANTO A. Estimation of significance thresholds for genomewide association scans[J]. Genetic Epidemiology,2008,32(3):227-234.
EDMONDSON A C,BRAUND P S,STYLIANOU I M,et al. Dense genotyping of candidate gene loci identifies variants associated with high-density lipoprotein cholesterol[J]. Circ Cardiovasc Genet,2011,4(2):145-155.
LI J,LU Q,WEN Y. Multi-kernel linear mixed model with adaptive lasso for prediction analysis on high-dimensional multi-omics data[J]. Bioinformatics,2020,36(6):1785-1794.
CHRISTODOULOU E,MA J,COLLINS G S,et al. A systematic review shows no performance benefit of machine learning over logistic regression for clinical prediction models[J]. Journal of Clinical Epidemiology,2019,110:12-22.
RáCZ A,BAJUSZ D,HéBERGER K. Effect of dataset size and train/test split ratios in QSAR/QSPR multiclass classification[J]. Molecules,2021,26(4):1111.
(收稿日期:2022-11-16;修回日期:2023-04-10)
(本文編輯:張亞麗)