吳暉南 陳淑嬌 陳展峰 楊葉楠 曾程浩 吳莎莎 蘇雪云
糖尿病是一種由異常高血糖引起的內(nèi)分泌系統(tǒng)疾病,是全球最常見、增長最快的疾病之一。國際糖尿病聯(lián)合會(International Diabetes Federation,IDF)預(yù)測2016—2045 年,糖尿病的患者數(shù)量將從4.25 億上升至6.29 億。我國目前已有1.63 億成年人,患病率為11.4%,高居全球首位,其中90%為2 型糖尿病;2045 年將達(dá)到2.12 億[1]。同時,糖尿病患者往往會并發(fā)多種疾病,這些患者每年在疾病治療上背負(fù)著巨大的經(jīng)濟(jì)負(fù)擔(dān)[2-4]。據(jù)許多研究報道,年齡、性別、身高、體質(zhì)量、高血壓、血脂等因素是糖尿病風(fēng)險評分系統(tǒng)的傳統(tǒng)危險因素[5-7]。這些大量且沒有相對重要性的指標(biāo)使臨床醫(yī)生在糖尿病臨床風(fēng)險評估上難以做出決策。因此,有必要構(gòu)建一種糖尿病預(yù)測模型以幫助臨床醫(yī)生早期識別患者的發(fā)病風(fēng)險,同時為患者提供早期治療,以達(dá)到早發(fā)現(xiàn)、早治療、減緩疾病進(jìn)展、減少其并發(fā)癥的目的。糖尿病預(yù)測模型的建立可以更精準(zhǔn)地早期發(fā)現(xiàn)和預(yù)測糖尿病的發(fā)生[8]。早期發(fā)現(xiàn)有助于發(fā)現(xiàn)糖尿病前期患者并及時進(jìn)行干預(yù),避免發(fā)展成糖尿??;且有助于預(yù)防并發(fā)癥的發(fā)生。糖尿病的各種急性或慢性并發(fā)癥,會對患者的生活、心理健康和經(jīng)濟(jì)產(chǎn)生很大的影響,會嚴(yán)重影響患者的生活質(zhì)量,縮短壽命。早期風(fēng)險評估結(jié)合有效的干預(yù)措施將有助于預(yù)防糖尿病的發(fā)生、減緩糖尿病的進(jìn)展。近年來,疾病風(fēng)險預(yù)測模型已經(jīng)被廣泛應(yīng)用。在人工智能的計算機(jī)科學(xué)時代,機(jī)器學(xué)習(xí)結(jié)合統(tǒng)計技術(shù)的應(yīng)用使計算機(jī)能夠在沒有明確編程的情況下“學(xué)習(xí)”特定的任務(wù)[9]。日常的機(jī)器算法模型有Logistic 回歸、貝葉斯網(wǎng)絡(luò)、隨機(jī)森林、XGBoost 和輕量級梯度提升術(shù)(Light gradient boosting machine,LightGBM)等[10]。本研究基于機(jī)器學(xué)習(xí)算法和群體數(shù)據(jù),構(gòu)建了一種高效的糖尿病預(yù)測模型,利用LightGBM 機(jī)器學(xué)習(xí)方法和傳統(tǒng)的Logistic 回歸方法進(jìn)行模型建立,達(dá)到最精確地預(yù)測患者患糖尿病的可能性。
提取2016 年1 月—2021 年12 月石獅市某社區(qū)衛(wèi)生服務(wù)中心的體檢及就診數(shù)據(jù)庫。
在多種機(jī)器學(xué)習(xí)算法中,選擇使用LightGBM 機(jī)器學(xué)習(xí)方法,并以傳統(tǒng)的Logistic 方法作為對照。
1.2.1 數(shù)據(jù)集預(yù)處理
收集石獅市某社區(qū)衛(wèi)生服務(wù)中心的群體數(shù)據(jù),數(shù)據(jù)集含有165 263 行,42 個特征。對收集到的數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、缺失值處理、特征選擇和均值標(biāo)準(zhǔn)化處理。通過數(shù)據(jù)探索性分析(exploratory data analysis,EDA),探索特征與糖尿病之間的關(guān)系,篩選出可能最利于模型預(yù)測的特征,并對數(shù)據(jù)進(jìn)行特征編碼,以提高模型的預(yù)測能力。
1.2.2 模型訓(xùn)練和性能評估
將原數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集(80%數(shù)據(jù))和測試集(20%數(shù)據(jù))。訓(xùn)練集使用k 折交叉驗證方法(k =5)交叉驗證。評估模型在訓(xùn)練集上的性能,并對模型進(jìn)行參數(shù)選擇和超參數(shù)優(yōu)化。測試集用于測試模型,并評估模型的準(zhǔn)確性。使用精確度、召回率(即敏感度)、特異性通過測試集進(jìn)行模型性能評估。
數(shù)據(jù)使用Kolmogorov-Smirnov(KS)方法進(jìn)行正態(tài)性檢驗,P<0.05 為差異有統(tǒng)計學(xué)意義。數(shù)據(jù)由python 3.8 分析,LightGBM 基于LightGBM 庫(https://github.com/microsoft/LightGBM)。合成少數(shù)類過采樣技術(shù)(synthetic minority oversampling technique,SMOTE)和NearMiss 基于imbalanced-learn 庫(https://imbalanced-learn.org/stable/)。
本次用于模型訓(xùn)練的數(shù)據(jù)共有165 263 條,其中糖尿病患者占比僅2.4%,數(shù)據(jù)集存在正負(fù)樣本不平衡的問題(圖1A);因此,嘗試了SMOTE 過采樣和NearMiss 下采樣方法以提高模型的表現(xiàn),發(fā)現(xiàn)過采樣方法效果更佳。通過確診日期距離體檢日期的天數(shù)分布直方圖可以看出大部分患者在體檢后3 年內(nèi)確診,很多確診間隔<60 d,因此間隔時間短(<5 d)的數(shù)據(jù)可能更適合作為診斷模型而非預(yù)測模型(圖1B)。
圖1 用于模型訓(xùn)練的數(shù)據(jù)基本情況。A:糖尿病患者在全部模型訓(xùn)練數(shù)據(jù)中占比;B:確診日期距離體檢日期的天數(shù)分布直方圖。
選取了20%的樣本分別對兩種模型進(jìn)行了驗證,驗證樣本包含48 420 名正常人,1 159 例患者。通過表1可以觀察到,傳統(tǒng)Logstic 模型綜合準(zhǔn)確率為73%,宏觀精確度為53%,宏觀召回率為76%,F(xiàn)1 值48%,針對患病群體的精確度僅為6%。而相較于傳統(tǒng)Logistic 模型,LightGBM 模型綜合準(zhǔn)確率為97%,宏觀精確度72%。宏觀召回率80%,F(xiàn)1 值75%,針對患病群體的精確度為42%。
表1 兩種模型評估結(jié)果比較(%)
因為糖尿病的發(fā)病率與年齡的增長呈正相關(guān),為了去除年齡分層對模型結(jié)果的干擾,按照0~50 歲、51~60 歲、61~70 歲、70 歲以上進(jìn)行分層,做出對應(yīng)的細(xì)分小模型(表2)。但分層后模型的效果并未有顯著提升。其中,年齡層越大的模型對應(yīng)的性能表現(xiàn)越好,因為對應(yīng)的樣本量和患者數(shù)量越多,但表現(xiàn)并未超出主模型太多。因而,根據(jù)年齡進(jìn)行分層并不能有效提升模型表現(xiàn)。
表2 各年齡層樣本分布情況(例)
近年來,隨著大數(shù)據(jù)時代的到來,基于機(jī)器學(xué)習(xí)的糖尿病預(yù)測模型也成為學(xué)術(shù)研究的熱點[11-12]。LightGBM 模型是機(jī)器學(xué)習(xí)中的一種算法,它是基于經(jīng)典的梯度提升決策樹(gradient boosting decision tree,GBDT)算法的改進(jìn),旨在解決GBDT 在海量數(shù)據(jù)中遇到的問題,讓GBDT 可以更好更快地被應(yīng)用。近年來,LightGBM 模型廣泛地應(yīng)用于醫(yī)學(xué)領(lǐng)域,如心臟病預(yù)測、腦出血相關(guān)肺炎預(yù)測、妊娠期糖尿病預(yù)測等[13-15]。LightGBM 模型比傳統(tǒng)Logistic 模型具有一定的優(yōu)勢。
通過對比可以觀察到,在模型存在一定的正負(fù)樣本不平衡的情況下,LightGBM 模型比傳統(tǒng)Logistic模型預(yù)測2 型糖尿病更準(zhǔn)確。LightGBM 模型應(yīng)用范圍極廣,曾被用于預(yù)測高危人群腦卒中風(fēng)險、膽囊癌、急性腎損傷等疾病評估[16-17];也有多個研究證實了使用LightGBM 對糖尿病進(jìn)行預(yù)測的優(yōu)越性,但這些研究均基于皮馬印第安人等國外人群樣本,而沒有基于我國本土人群的更為特異的LightGBM 預(yù)測模型[18-21]。通過本研究證明了LightGBM 基于本土數(shù)據(jù)集遠(yuǎn)優(yōu)秀于傳統(tǒng)Logistic 模型的糖尿病預(yù)測準(zhǔn)確度,同時證實了LightGBM 在糖尿病預(yù)測上的廣泛應(yīng)用前景,表明了機(jī)器學(xué)習(xí)算法的預(yù)測準(zhǔn)確性。
本研究基于LightGBM 模型的糖尿病預(yù)測模型,旨在通過機(jī)器學(xué)習(xí)方法提高糖尿病預(yù)測的準(zhǔn)確性。使用社區(qū)衛(wèi)生服務(wù)中心包含糖尿病患者和非糖尿病患者的大規(guī)模數(shù)據(jù)集。數(shù)據(jù)集包括患者的基本信息、生活習(xí)慣、生化指標(biāo)等多個特征。在預(yù)處理階段,本研究對數(shù)據(jù)進(jìn)行了缺失值處理、異常值處理和特征縮放等操作,以確保數(shù)據(jù)質(zhì)量。在訓(xùn)練過程中,本研究采用了交叉驗證方法,以評估模型的泛化能力。同時,本研究調(diào)整了LightGBM 模型的超參數(shù),以優(yōu)化模型性能。
本研究結(jié)果顯示,LightGBM 模型的糖尿病預(yù)測模型的綜合準(zhǔn)確率、宏觀準(zhǔn)確度、宏觀召回率、F1 值都高于Logistic 模型,可能因為收集的大數(shù)據(jù)庫大多為不平衡標(biāo)本,Logistic 模型處于劣勢。針對患病群體的精確度在Logistic 模型只有6%,而LightGBM 模型可以達(dá)到42%,而且隨著后續(xù)機(jī)器繼續(xù)學(xué)習(xí),精確度還會逐漸提升??紤]到糖尿病發(fā)病與年齡因素有明確的正相關(guān),為排除年齡對預(yù)測模型的影響,本研究按照0~50 歲、51~60 歲、61~70 歲、70 歲以上4 個年齡段進(jìn)行分層,做出對應(yīng)的細(xì)分小模型。分層后重建模型,但模型的效果并未有顯著提升。雖然,年齡層越大的模型對應(yīng)的性能表現(xiàn)越好,因為對應(yīng)的樣本量和患者數(shù)量越多,與主模型無明顯差異。因此,最后模型設(shè)計未采納年齡分層的模式。
研究基于LightGBM 模型的糖尿病預(yù)測模型,通過對臨床數(shù)據(jù)中的生物特征、生活習(xí)慣、基本生化指標(biāo)等因素進(jìn)行分析,預(yù)測糖尿病的患病風(fēng)險。結(jié)果表明,該模型具有較高的準(zhǔn)確率,可以為醫(yī)生提供更多的客觀數(shù)據(jù)支持,幫助其做出更準(zhǔn)確的診斷和治療決策,同時也可以為患者提供個性化的健康管理建議,從而有效降低糖尿病的發(fā)病率和并發(fā)癥風(fēng)險,改善患者的生活質(zhì)量。在未來的研究中,將繼續(xù)優(yōu)化模型,提高預(yù)測精度,并為臨床實踐提供更加有效的支持。通過實驗研究,發(fā)現(xiàn)機(jī)器學(xué)習(xí)算法在糖尿病預(yù)測模型中具有以下優(yōu)點:(1)提高預(yù)測準(zhǔn)確性:機(jī)器學(xué)習(xí)算法可以自動處理和分析大量數(shù)據(jù),挖掘出潛在的風(fēng)險因素,從而提高模型的預(yù)測準(zhǔn)確性。(2)優(yōu)化特征選擇:機(jī)器學(xué)習(xí)算法可以自動選擇最重要的特征,去除無關(guān)緊要或冗余的特征,從而提高模型的泛化能力。(3)高效構(gòu)建模型,可反復(fù)驗證和修正:機(jī)器學(xué)習(xí)算法邏輯關(guān)系確定后可以反復(fù)進(jìn)行驗證和修正,而且通過數(shù)據(jù)量的逐漸增加,日趨接近真實情況。
然而,機(jī)器學(xué)習(xí)算法也存在一些局限性,如對數(shù)據(jù)質(zhì)量和標(biāo)注的依賴較強(qiáng),需要大量的訓(xùn)練數(shù)據(jù)才能達(dá)到較好的性能等。此外,不同的機(jī)器學(xué)習(xí)算法可能適用于不同的數(shù)據(jù)類型和問題場景,需要根據(jù)具體情況進(jìn)行選擇。
綜上所述,本研究利用LightGBM 和傳統(tǒng)Logistic 算法,基于本土數(shù)據(jù)模型構(gòu)建了更加具有特異性的糖尿病預(yù)測模型。首先,在對石獅市某社區(qū)衛(wèi)生服務(wù)中心進(jìn)行數(shù)據(jù)預(yù)處理的基礎(chǔ)上,將處理過的數(shù)據(jù)隨機(jī)劃分為訓(xùn)練集和測試集,將測試集代入訓(xùn)練后的模型以驗證糖尿病預(yù)測的準(zhǔn)確性;本研究以同樣的方法利用傳統(tǒng)Logistic算法搭建模型進(jìn)行疾病預(yù)測,并將兩種模型的預(yù)測結(jié)果進(jìn)行對比,證實了LightGBM 模型的準(zhǔn)確性;通過試驗得出,基于本土樣本的LightGBM 模型特異性強(qiáng),精確度高,模型解釋能力強(qiáng),有廣闊的臨床應(yīng)用價值。LightGBM 算法可以得到預(yù)測精度較高的預(yù)測模型,但訓(xùn)練后得到的模型面臨黑箱問題,其可解釋性較差,即難以使醫(yī)生理解其決策過程。筆者將繼續(xù)對模型進(jìn)行完善,并嘗試使用博弈論模型的方法(shapley additive explanations,SHAP)和(local interpretable model-agnostic explanations,LIME)運用于解釋模型的輸出,以幫助醫(yī)生理解和應(yīng)用模型。后續(xù)還需進(jìn)一步通過機(jī)器學(xué)習(xí)優(yōu)化模型表現(xiàn),并進(jìn)行轉(zhuǎn)化為應(yīng)用模式,以幫助更多的公衛(wèi)醫(yī)生和臨床醫(yī)師進(jìn)行決策。此文的研究結(jié)果也為糖尿病預(yù)測模型后期標(biāo)準(zhǔn)制定提供了借鑒內(nèi)容。