• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于XGBoost的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)

    2019-03-25 08:13:18蘇天培
    科技視界 2019年2期

    蘇天培

    【摘 要】糖尿病作為一種常見慢性疾病,目前無法根治,但卻能通過科學(xué)有效的干預(yù)、預(yù)防和治療,來降低發(fā)病率和提高患者的生活質(zhì)量。本文以真實(shí)脫敏的用戶體檢信息數(shù)據(jù)為基礎(chǔ),使用eXtreme Gradient Boosting (XGBoost)算法以及隨機(jī)森林模型構(gòu)建預(yù)測(cè)模型,以用戶血糖含量為目標(biāo)變量進(jìn)行預(yù)測(cè)。結(jié)果表明:在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上,該模型可以有效預(yù)測(cè)糖尿病,為學(xué)術(shù)界和精準(zhǔn)醫(yī)療提供有力的技術(shù)支撐,相比于傳統(tǒng)的方法,精度更高。

    【關(guān)鍵詞】高潛用戶;XGBoost;模型融合

    中圖分類號(hào): R587.1 文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)02-0155-002

    0 引言

    截至2010年,全球糖尿病患者已達(dá)2.85億,我國(guó)20歲以上成年人糖尿病患病率為9.7%,總數(shù)達(dá)9240萬。糖尿病起病隱匿,早期癥狀不明顯,其慢性并發(fā)癥嚴(yán)重危害人類健康。近年有關(guān)預(yù)測(cè)糖尿病患病風(fēng)險(xiǎn)的研究較多。傳統(tǒng)糖尿病的判定標(biāo)準(zhǔn)為:空腹血糖大于或等于7.0毫摩爾/升,或餐后兩小時(shí)血糖大于或等于11.1毫摩爾/升,即可確診[1]。傳統(tǒng)的方法是從大量的糖尿病患者中找出可能導(dǎo)致糖尿病的高危因素,這些因素主要與生活習(xí)慣有關(guān),然后通過宣傳來預(yù)防糖尿病,然而這些高危因素很可能提取的并不全面,而且無法預(yù)測(cè)糖尿病的患病概率。

    為了更好的、更科學(xué)的預(yù)測(cè)糖尿病,本文提出了一種使用XGBoost算法的糖尿病風(fēng)險(xiǎn)預(yù)測(cè)模型。模型針對(duì)用戶的體檢數(shù)據(jù)構(gòu)建預(yù)測(cè)模型,以血糖含量作為評(píng)判標(biāo)準(zhǔn),最后對(duì)模型的結(jié)果進(jìn)行模型融合,計(jì)算均方誤差(MSE)作為評(píng)分標(biāo)準(zhǔn),據(jù)此預(yù)測(cè)出用戶患有糖尿病的概率,以此作為參考。

    1 數(shù)據(jù)描述

    本文的全部數(shù)據(jù)來源于阿里提供的數(shù)據(jù),包括性別,年齡,體檢日期,天門冬氨酸氨基轉(zhuǎn)換酶,丙氨酸氨基轉(zhuǎn)換酶,堿性磷酸酶等共計(jì)40項(xiàng)基本數(shù)據(jù)以及血糖含量。用戶體檢數(shù)據(jù)可以大概分為用戶信息和用戶當(dāng)時(shí)數(shù)據(jù),(1)用戶信息:性別,年齡,體檢時(shí)期等,此項(xiàng)所有用戶都有,無缺失值;(2)用戶當(dāng)時(shí)數(shù)據(jù),如天門冬氨酸氨基轉(zhuǎn)換酶等,數(shù)據(jù)為數(shù)值型數(shù)據(jù),該數(shù)據(jù)可能存在缺失值,也可能存在極端值。

    對(duì)數(shù)據(jù)的預(yù)處理是非常必要的環(huán)節(jié)。由于原始數(shù)據(jù)存在缺失值,我們先要做的就是填補(bǔ)空值,由于平均值會(huì)受到極端值的影響,因此可以通過中位數(shù)進(jìn)行填充。由于XGBoost僅適用于處理數(shù)值型向量,因此處理訓(xùn)練集和測(cè)試集時(shí)需要將所有類別型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù),獨(dú)熱編碼(one-hot)是常用的轉(zhuǎn)換方式[2]。本文數(shù)據(jù)集中的性別數(shù)據(jù)需要經(jīng)one-hot編碼后才能進(jìn)行訓(xùn)練。

    2 XGBoost算法介紹

    XGBoost屬于一種迭代決策樹算法,并且是在GBDT算法的基礎(chǔ)上進(jìn)行改進(jìn),但二者皆屬于boosting提升方法。XGBoost不同于GBDT,XGBoost可以支持多線程計(jì)算,這是因?yàn)樘卣髁信判蚝笠詨K的形式存儲(chǔ)在內(nèi)存中,在迭代中可以重復(fù)使用;雖然boosting算法迭代必須串行,但是在每輪迭代時(shí)同時(shí)對(duì)所有特征進(jìn)行計(jì)算,就可以做到并行,因此,實(shí)現(xiàn)并行化后在同等條件下比同類算法速度提升1個(gè)數(shù)量級(jí)以上[3]。XGBoost允許特征值為缺失值,此時(shí)XGBoost將缺失值分別劃入左子樹或右子樹,計(jì)算兩者間哪兒個(gè)更準(zhǔn)確就把缺失值放入哪兒個(gè)子樹,這能大大減少特征的處理時(shí)間。XGBoost內(nèi)部包含大量的CART回歸樹,使用殘差來提升模型,內(nèi)部的正則化則可以預(yù)防過擬合,從而保證模型的魯棒性。XGBoost算法支持自定義損失函數(shù),因此非常靈活。下面是該算法的一些重要推導(dǎo)公式:

    3 實(shí)驗(yàn)過程與結(jié)果

    我們的數(shù)據(jù)是由阿里提供的數(shù)據(jù)作為樣本。根據(jù)所提供的數(shù)據(jù),預(yù)測(cè)用戶的血糖含量,以此作為目標(biāo)變量來判斷用戶患有糖尿病的可能性。我們嘗試不同的參數(shù)來確定最有參數(shù),并且還將數(shù)據(jù)帶入隨機(jī)森林算法中,將其結(jié)果與XGBoost算法的結(jié)果、隨機(jī)森林與XGBoost的結(jié)果的均值做對(duì)比,從而選出最合適的預(yù)測(cè)模型,以均方誤差(MSE)作為評(píng)分標(biāo)準(zhǔn)。

    初始參數(shù)值設(shè)為弱分類器個(gè)數(shù)為300,特征取樣比例0.7,步長(zhǎng)0.01,lambda為1,此時(shí)隨機(jī)森林,XGBoost,兩者均值的結(jié)果分別為1.5223,1.4840,1.4759。然后再取弱分類器個(gè)數(shù)為400時(shí),三者結(jié)果為1.5324,1.4404,1.4665,弱分類器個(gè)數(shù)為500時(shí),三者結(jié)果為1.5237,1.4294,1.4660。經(jīng)比較取弱分類器個(gè)數(shù)為400,此時(shí)特征取樣比例選取0.6,三者結(jié)果為1.5182,1.4424,1.4649,特征取樣比例選取0.8,三者結(jié)果為1.5259,1.4466,1.4709.經(jīng)比較選取特征取樣比例為0.7。最后選擇lambda為2時(shí),三者結(jié)果為1.5339,1.4355,1.4610。

    由實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),無論何種參數(shù),XGBoost算法總體上都比隨機(jī)森林的擬合程度要更高。同時(shí)考慮到當(dāng)弱分類器個(gè)數(shù)為300時(shí),XGBoost算法明顯欠擬合,弱分類器個(gè)數(shù)為500時(shí),XGBoost算法開始過擬合。橫向?qū)Ρ忍卣魅颖壤?,?dāng)比例為0.7時(shí),均方誤差(MSE)最小。最后當(dāng)lambda正則化參數(shù)設(shè)為2時(shí),進(jìn)一步處理了模型過擬合,從而減小了均方誤差。由于隨機(jī)森林算法引是基于bagging的,因此泛化性較好[4]。而XGBoost算法是基于boosting的,準(zhǔn)確度較高。

    模型融合的思想是訓(xùn)練多個(gè)模型,然后按照一定的方法集成一個(gè)模型[5]。每個(gè)單模型都擁有自己的優(yōu)勢(shì),而多模型融合相比于單模型,就可以獲得多種單模型的優(yōu)點(diǎn),因此會(huì)比單模型更準(zhǔn)確[6]。而上面的表格已經(jīng)計(jì)算出了不同參數(shù)下的隨機(jī)森林和XGBoost算法的結(jié)果。因此我們把隨機(jī)森林和XGBoost的結(jié)果相融合起來,則結(jié)果既可以獲得較高的精度,也可以有一定的泛化性能,公式如下:

    其中n表示模型的個(gè)數(shù),Weight表示該模型權(quán)重,P表示模型i的預(yù)測(cè)概率值。由于血糖值為數(shù)值型,因此可以采用簡(jiǎn)單的平均值作為最后的結(jié)果。當(dāng)然也可以單獨(dú)設(shè)定單個(gè)模型的權(quán)重P,此處不再贅述。其中使用的XGBoost參數(shù)為:弱分類器個(gè)數(shù)=400,特征取樣比例0.7,步長(zhǎng)0.01,lambda:2。其中使用的隨機(jī)森林參數(shù)為:弱分類器個(gè)數(shù)=500,特征取樣比例0.7,步長(zhǎng)0.01,lambda:1。最終結(jié)果均方誤差(MSE)為:1.4609。以上分析結(jié)果說明,采用XGBoost算法和隨機(jī)森林作模型融合可以實(shí)現(xiàn)預(yù)測(cè)糖尿病的概率,對(duì)于指導(dǎo)行業(yè)正常發(fā)展有一定的意義。

    4 結(jié)論

    本文基于一種XGBoost算法,使用阿里的數(shù)據(jù)記錄,根據(jù)用戶的信息和體檢數(shù)據(jù)預(yù)測(cè)血糖值,把結(jié)果與隨機(jī)森林算法的結(jié)果取平均作模型融合,并用MSE值進(jìn)行評(píng)估。結(jié)果顯示此方法得出的結(jié)果正確率相對(duì)較高,泛化性能很好,對(duì)相關(guān)行業(yè)具有實(shí)際的指導(dǎo)意義。

    【參考文獻(xiàn)】

    [1]王美子,石巖.基于數(shù)據(jù)挖掘當(dāng)代醫(yī)家治療糖尿病周圍神經(jīng)病變的組方規(guī)律分析[J/OL].中醫(yī)藥臨床雜志,2018(12).

    [2]黃騫,鄭穎爾,鄧鈺橋.基于XGBoost節(jié)假日路網(wǎng)流量預(yù)測(cè)研究[J].公路,2018,63(12).

    [3]賈銳軍,冉祥來,吳俊霖,戴晨斌,祁志民,陳潔.基于XGBoost算法的機(jī)場(chǎng)旅客流量預(yù)測(cè)[J].民航學(xué)報(bào),2018,2(06).

    [4]杭琦,楊敬輝.機(jī)器學(xué)習(xí)隨機(jī)森林算法的應(yīng)用現(xiàn)狀[J/OL].電子技術(shù)與軟件工程,2018(24).

    [5]白智遠(yuǎn),溫從威,楊錦浩,陳智,呂品.一種融合歷史均值與提升樹的客流量預(yù)測(cè)模型[J/OL].計(jì)算機(jī)技術(shù)與發(fā)展,2019(04).

    [6]王夢(mèng)芹.基于隨機(jī)森林的個(gè)人信用評(píng)價(jià)指標(biāo)分析[D].安徽大學(xué),2018.

    华蓥市| 会同县| 固安县| 南召县| 新龙县| 镇远县| 景德镇市| 封丘县| 陇南市| 宿州市| 纳雍县| 五莲县| 清镇市| 柏乡县| 中超| 同德县| 隆尧县| 遂宁市| 乾安县| 汪清县| 扶绥县| 永吉县| 博兴县| 武鸣县| 甘谷县| 柳林县| 静安区| 芦山县| 博湖县| 浪卡子县| 达拉特旗| 玉林市| 利津县| 灵寿县| 南澳县| 宜昌市| 阿拉善盟| 海原县| 冷水江市| 贡嘎县| 资源县|