張洪俠,郭 賀,王金霞,徐巖艷,呂 斌,閆 東,常 佳,胡光瑞,王 雪,李洪軍,劉天戟*,李燕林,趙志強(qiáng),牛曉強(qiáng)
(1.吉林大學(xué)中日聯(lián)誼醫(yī)院,吉林 長春130033;2. 北京青梧桐健康科技有限公司)
近年來,我國糖尿病患病率逐年增加,研究表明我國成人糖尿病患病率目前為10.9%,其中新診斷糖尿病患病率6.9%,既往已知糖尿病患病率4.0%,40歲以下糖尿病患病率高達(dá)5.9%[1],糖尿病發(fā)病年輕化趨勢(shì)嚴(yán)重,由糖尿病引發(fā)的心腦血管疾病的發(fā)病率也逐年提高,提前進(jìn)行糖尿病患病風(fēng)險(xiǎn)的評(píng)估,對(duì)高危人群進(jìn)行早期干預(yù)以降低糖尿病的發(fā)病率無疑是當(dāng)前亟待解決的問題。
XGBoost是極端梯度上升( eXtreme Gradient Boosting)的簡稱,是一種基于梯度 Boosting 的集成學(xué)習(xí)算法,其原理是通過弱分類器的迭代計(jì)算實(shí)現(xiàn)準(zhǔn)確的分類效果[2]。它是兼具線性模型和Boosted Tree模型的一種優(yōu)化模型 。XGBoost模型目前被機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)等專家廣泛應(yīng)用于人工智能、數(shù)據(jù)分析和統(tǒng)計(jì)學(xué)習(xí)等領(lǐng)域[3]。影響糖尿病發(fā)生發(fā)展的因素有很多,如年齡、生活方式、肥胖、基因易感性等,本文結(jié)合人群體檢數(shù)據(jù)及基因檢測(cè)數(shù)據(jù)探討及評(píng)價(jià)應(yīng)用XGBoost模型預(yù)測(cè)糖尿病患病風(fēng)險(xiǎn)。
1.1對(duì)象及分組
在我院體檢中心進(jìn)行常規(guī)體檢的人員當(dāng)中招募53名2型糖尿病患者和93名非糖尿病患者,年齡區(qū)間在18-65歲之間。本研究項(xiàng)目已經(jīng)獲得醫(yī)院醫(yī)學(xué)倫理委員會(huì)批準(zhǔn),所有參與研究的志愿者均簽訂知情同意書。
1.2方法
1.2.1健康自測(cè)問卷 所有志愿者均填寫中華醫(yī)學(xué)會(huì)健康管理學(xué)分會(huì)推薦使用的《健康體檢自測(cè)問卷》[4]。
1.2.2體檢項(xiàng)目檢查 體檢項(xiàng)目包括內(nèi)科、外科、血常規(guī)、尿常規(guī)、血糖、糖化血紅蛋白、血脂、肝功、腎功、心電、腹部超聲、胸片等項(xiàng)檢查,體檢項(xiàng)目在吉林大學(xué)中日聯(lián)誼醫(yī)院體檢中心、檢驗(yàn)科、超聲科、放射科等進(jìn)行。不同的志愿者體檢項(xiàng)目不完全相同,但是志愿者的體檢項(xiàng)目均有血糖和尿常規(guī)兩個(gè)檢測(cè)項(xiàng)目。
1.2.3糖尿病易感基因多態(tài)性檢測(cè) 單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP) 是人類基因組中最常見的基因多態(tài)性,是繼RFLP,STR之后的第3代遺傳學(xué)標(biāo)記。它是指單個(gè)堿基的缺失、插入以及單個(gè)堿基的置換。也就是一個(gè)堿基對(duì)的差異。常以二等位基因的形式出現(xiàn)。我們對(duì)所有志愿者進(jìn)行糖尿病易感基因的基因多態(tài)性質(zhì)譜檢測(cè),基因質(zhì)譜檢測(cè)在北京青梧桐健康科技有限公司進(jìn)行,所選SNP是根據(jù)文獻(xiàn)得出(見表1)[5-8]。
表1 糖尿病患病風(fēng)險(xiǎn)檢測(cè)基因信息表
1.2.3.1基因組DNA提取 EDTA抗凝血0.2 ml,采用康為世紀(jì)的全基因組DNA提取試劑盒提取外周血DNA,紫外分光光度計(jì)檢測(cè)OD260/280,比值在1.6-1.8,表明樣品純度較高,可做后續(xù)實(shí)驗(yàn)。
1.2.3.2PCR擴(kuò)增及純化 從Pubmed中檢索待測(cè)基因序列,利用Assay Designer(Sequenom)軟件包對(duì)每個(gè)待測(cè)位點(diǎn)均設(shè)計(jì)1對(duì)引物(由北京青梧桐健康科技有限公司提供)。 PCR反應(yīng)體系:所有需要檢測(cè)的DNA樣本均稀釋到10 ng/μl, 取1 μl DNA樣本,將其與1.8 μl ddH2O、0.5 μl PCR緩沖液(含20 mmol/L MgCl2)、0.1 μl 的25 mmol/L dNTP、0.4 μl 25 mmol/L MgCl2、1 μl PCR引物以及0.2 μl Hotstar 酶(Roche)混合在一起。PCR反應(yīng)條件:95 ℃ 2 min;95 ℃ 30 sec,56 ℃ 20 sec,72 ℃ 60 sec,共45個(gè)循環(huán);最終72℃ 5min。PCR擴(kuò)增后,剩余的dNTP將被去磷酸消化掉,反應(yīng)體系包括1.53 μl ddH2O、0.17 μl SAP緩沖液、0.3 Unit 堿性磷酸酶SAP(Agena Biosciencr)。該反應(yīng)在37℃ 進(jìn)行40 min, 然后85℃ 5 min使酶失活。
1.2.3.3待測(cè)位點(diǎn)的PEX反應(yīng) 反應(yīng)體系:0.94 μl 延伸引物(由北京青梧桐健康科技有限公司提供)、0.2 μl 10 X Gold緩沖液、0.2 μl 終止反應(yīng)液、0.041 μl iPLEX酶(Sequenom)以及0.619 μl ddH2O。反應(yīng)條件:94 ℃ 30 sec;94 ℃ 5 sec,52 ℃ 5 sec,80 ℃ 5 sec 5個(gè)循環(huán),共40個(gè)循環(huán);最終72℃ 3 min。在終止反應(yīng)物中加入6 mg 陽離子交換樹脂(Sequenom)脫鹽,混合后加入16 μl ddH2O懸浮。
1.2.3.4樣本分析 使用MassARRAY Nanodispenser(Sequenom)將最終的分型產(chǎn)物點(diǎn)樣到一塊384孔的spectroCHIP (Sequenom)上,并用基質(zhì)輔助激光解吸電離飛行時(shí)間質(zhì)譜進(jìn)行分析。最終結(jié)果由 MassARRAY RT軟件系統(tǒng)(版本號(hào)4.0)實(shí)時(shí)讀取,并由MassARRAY Typer軟件系統(tǒng)(版本號(hào)4.0)完成基因分型分析。
1.2.3.5等位基因判別 通過MALDI-TOF-MS檢測(cè),各個(gè)引物及其PEX產(chǎn)物可形成2個(gè)(純合子)或3個(gè)(雜合子)信號(hào)峰,計(jì)算各個(gè)產(chǎn)物峰與相應(yīng)的引物峰之間的m/z之差,得知所延伸的堿基的類型,可推斷該SNP位點(diǎn)的基因型。
1.2.4運(yùn)用XGBoost模型建立糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型
1.2.4.1數(shù)據(jù)預(yù)處理 原始數(shù)據(jù)有699維的特征,部分特征列缺失數(shù)據(jù)嚴(yán)重,將數(shù)據(jù)缺失超過20%的特征列刪除,剩余92列。包含所有的SNP數(shù)據(jù),年齡性別等個(gè)人信息,以及部分生化檢驗(yàn)信息。數(shù)據(jù)中的缺失值全部填充為0。
1.2.4.2特征提取 我們對(duì)特征列做進(jìn)一步處理,首先剔除姓名、登記號(hào)、體檢日期三個(gè)與體檢指標(biāo)無關(guān)的特征列。剩余的特征中,我們只保留特征內(nèi)容為數(shù)值型,而非字符型的特征列,總共得到61列。此外,我們還對(duì)SNP位點(diǎn)進(jìn)行編碼,每個(gè)SNP位點(diǎn)有三種類型,因而對(duì)于每個(gè)SNP特征列,編碼后形成三個(gè)新的特征列。
1.2.4.3樣本劃分 我們隨機(jī)將數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集,其中80%的樣本為訓(xùn)練集,其余為測(cè)試集。
1.2.4.4機(jī)器學(xué)習(xí)建模 我們使用XGBoost模型來進(jìn)行建模與預(yù)測(cè)。傳統(tǒng)GBDT在優(yōu)化時(shí)只用到一階導(dǎo)數(shù)信息,XGBoost則同時(shí)用到了一階和二階導(dǎo)數(shù)的信息。XGBoost在代價(jià)函數(shù)里加入了正則項(xiàng),用于控制模型的復(fù)雜度。正則項(xiàng)降低了模型的方差,使學(xué)習(xí)出來的模型更加簡單,防止過擬合。XGBoost還借鑒了隨機(jī)森林列抽樣的做法,能降低過擬合。隨機(jī)森林的原理是隨機(jī)建立大量的分類樹,每棵樹單獨(dú)對(duì)樣本進(jìn)行分類,最終分類結(jié)果由每棵樹各自的分類結(jié)果通過投票確定。隨機(jī)森林算法提高了分類的準(zhǔn)確性,且結(jié)果穩(wěn)健,易于調(diào)整參數(shù),但運(yùn)行速度較慢。
1.3分析
1.3.1模型正確率的計(jì)算 我們采用準(zhǔn)確率為指標(biāo)來評(píng)價(jià)模型的預(yù)測(cè)效果,定義公式如下:正確率=預(yù)測(cè)正確的樣本數(shù)/總樣本數(shù)*100%。XGBoost模型預(yù)測(cè)得到的值為0-1之間的小數(shù),將其二值化,0.5以上的定為1,0.5以下的設(shè)為0。二值化后預(yù)測(cè)值與實(shí)際值進(jìn)行比較,計(jì)算正確率。
1.3.2特征重要性評(píng)估法 通過 XGBoost 建??梢耘袛嗝總€(gè)特征變量對(duì)模型的貢獻(xiàn)程度,從而判斷哪些特征變量對(duì)于糖尿病的發(fā)病風(fēng)險(xiǎn)的影響更為顯著。以數(shù)字代號(hào)對(duì)應(yīng)的體檢指標(biāo)如表2所示。
2.1模型正確率
根據(jù)公式運(yùn)用測(cè)試集檢測(cè),最后的正確率約為86.6%。
2.2特征重要性評(píng)估結(jié)果
圖1為XGBoost模型的特征重要性評(píng)估。其中,排在前16位的重要特征有15位都是體檢特征,如血糖、甘油三酯、紅細(xì)胞計(jì)數(shù)等。之后的重要特征以SNP為主。
表2 特征代號(hào)對(duì)應(yīng)的體檢特征名稱
圖1 xgboost模型的特征重要性評(píng)估
國內(nèi)外糖尿病的發(fā)病風(fēng)險(xiǎn)模型很多,有建模方法為Logistic回歸模型的墨西哥后裔美國人和非西班牙白種人糖尿病發(fā)病預(yù)測(cè)模型、日籍美國人個(gè)體糖尿病發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型、芬蘭人群DM個(gè)體危險(xiǎn)評(píng)分模型;有建模方法為Cox回歸模型的適用于中國臺(tái)灣人的糖尿病風(fēng)險(xiǎn)評(píng)估模型;有建模方法為人工神經(jīng)網(wǎng)絡(luò)的糖尿病和糖耐量受損的個(gè)體發(fā)病預(yù)測(cè)模型[9],上述建模方法各有利弊。本文采用的XGBoost是一種 Gradient Boosting 算法的快速實(shí)現(xiàn),它能夠充分利用多核 CPU 進(jìn)行并行計(jì)算,同時(shí)在算法上進(jìn)行改進(jìn)以提高精度。
特征重要性評(píng)估結(jié)果顯示,對(duì)模型貢獻(xiàn)前三名的變量依次是空腹血糖、甘油三酯和SLC30A8基因rs13266634-C位點(diǎn)的等位基因。高血糖是糖尿病風(fēng)險(xiǎn)的最明顯的特征,眾多研究表明高甘油三酯血癥也與糖尿病發(fā)病密切相關(guān)[10]。SLC30A8基因,位于8號(hào)染色體(8q24),是鋅轉(zhuǎn)運(yùn)體蛋白8(ZnT-8)的編碼基因,能夠特異性地在胰島β細(xì)胞中表達(dá)。ZnT-8能促進(jìn)鋅從胰島β細(xì)胞的胞漿進(jìn)入含有胰島素的分泌顆粒,參與胰島素的分泌。如果SLC30A8基因變異致ZnT-8的結(jié)構(gòu)和功能異常,就會(huì)使胰島素分泌減少、胰高糖素分泌增加,導(dǎo)致血糖增高。研究證實(shí)SLC30A8增加2型糖尿病易感性可能是通過影響胰島β細(xì)胞功能使其紊亂、影響ZnT-8蛋白的功能從而導(dǎo)致鋅離子濃度發(fā)生變化和致胰島β細(xì)胞對(duì)前胰島素加工障礙所介導(dǎo)的。近期國內(nèi)多項(xiàng)研究表明SLC30A8基因CC基因型及等位基因C是2型糖尿病的風(fēng)險(xiǎn)因素[11,12],與我們的XGBoost糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型一致。同時(shí),應(yīng)用測(cè)試集進(jìn)行測(cè)試發(fā)現(xiàn)XGBoost糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型的準(zhǔn)確度是86.6%,說明XGBoost糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型不但運(yùn)算速度快,同時(shí)準(zhǔn)確度也較高,對(duì)今后進(jìn)一步臨床推廣具有現(xiàn)實(shí)意義。
另外,本研究的XGBoost糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型的特征重要性評(píng)估顯示:糖化血紅蛋白、年齡、總膽固醇分別排在第9位、第12位和第15位,說明高糖化血紅蛋白、高齡和高膽固醇血癥這三個(gè)變量對(duì)該模型的貢獻(xiàn)量較大,白細(xì)胞計(jì)數(shù)對(duì)模型的貢獻(xiàn)量排在第16位,考慮可能與糖尿病容易并發(fā)各種感染而引起的白細(xì)胞數(shù)增多有關(guān)。但對(duì)模型貢獻(xiàn)量排名前14的變量中還有紅細(xì)胞計(jì)數(shù)、紅細(xì)胞平均體積、紅細(xì)胞體積分布寬度、紅細(xì)胞平均血紅蛋白量、血小板平均體積、白蛋白、血小板計(jì)數(shù)、紅細(xì)胞平均血紅蛋白濃度、堿性磷酸酶,由于本研究樣本量不大,模型還需不斷優(yōu)化,因而這些變量對(duì)模型貢獻(xiàn)的機(jī)制還有待于進(jìn)一步深入研究。
綜上所述,從模型的分類預(yù)測(cè)準(zhǔn)確度方面來看,本研究搭建 XGBoost糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型是成功的,具有良好的穩(wěn)定性、較高的預(yù)測(cè)精度及運(yùn)行的高效性,可以提前預(yù)警糖尿病風(fēng)險(xiǎn),根據(jù)風(fēng)險(xiǎn)指標(biāo)可給予精準(zhǔn)健康干預(yù),模型具有很強(qiáng)的可操作性和推廣性。本研究數(shù)據(jù)樣本量有限,后續(xù)研究中將逐漸擴(kuò)大樣本量以建立預(yù)測(cè)效果更為準(zhǔn)確的XGBoost模型。
[1]Wang L,Gao P,Zhang M,et al. Prevalence and ethnic pattern of diabetes and prediabetes in China in 2013 [J].JAMA,2017,317(24):2515.
[2]Chen T Q ,Guestrin C.XGBoost:A scalable tree boosting system[C]//ACM.Proceedings of the 22nd ACM SIGKDD.International Conference on Knowledge Discovery and Data Mining.New York:ACM,2016:785-794.
[3]賈文慧,孫林子,景英川.基于XGBoost模型的股骨頸骨折手術(shù)預(yù)后質(zhì)量評(píng)分預(yù)測(cè)[J].太原理工大學(xué)學(xué)報(bào),2018,49(1):174.
[4]中華醫(yī)學(xué)會(huì)健康管理學(xué)分會(huì),中華健康管理學(xué)雜志編委會(huì).健康體檢基本項(xiàng)目專家共識(shí)[J].中華健康管理學(xué)雜志,2014,8(2):81.
[5]Wu Y,Li H,Loos RJ,et al.Common variants in CDKAL1,CDKN2A/B,IGF2BP2,SLC30A8,and HHEX/IDE genes are associated with type 2 diabetes and impaired fasting glucose in a Chinese Han population[J].Diabetes,2008,57(10):2834.
[6]Ruchat SM,Vohl MC,Weisnagel SJ,et al.Combining genetic markers and clinical risk factors improves the risk assessment of impaired glucose metabolism[J].Ann Med,2010,42(3):196.
[7]Li H,Gan W,Lu L,et al.A genome-wide association study identifies GRK5 and RASGRP1 as type 2 diabetes loci in Chinese Hans[J].Diabetes,2013,62(1):291.
[8]Fuchsberger C,Flannick J,Teslovich TM,et al.The genetic architecture of type 2 diabetes[J].Nature,2016,536(7614):41.
[9]錢 玲,施侶元,程茂金.人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于糖尿病并發(fā)癥的影響因素研究[J].現(xiàn)代預(yù)防醫(yī)學(xué),2005,32(12):1625.
[10]Weijers RN.Lipid composition of cell membranes and its relevance in type 2 diabetes mellitus[J].Curr DiabeteS Rev,2015,8(5):390.
[11]劉 陽,王占友,池志宏,等.SLC30A8基因rs13266634 C/T單核有酸多態(tài)性與2型糖尿病易感性的相關(guān)性研究[J].中國醫(yī)科大學(xué)學(xué)報(bào),2015,44(6):494.
[12]張淑蘭,劉 靜,郭陸晉,等.SLC30A8基因rs13266634多態(tài)性與甘肅漢族、回族2型糖尿病的相關(guān)性[J].中國老年學(xué)雜志,2015,35(4):898.