□ 陳蒙蒙CHEN Meng-meng 方振紅FANG Zhen-hong 涂文怡TU Wen-yi 溫偉偉WEN Wei-wei
心臟病作為人體最重要的器官之一,受到廣泛地關(guān)注[1-2],臨床在進(jìn)行心臟病治療之前,需要先預(yù)測一個(gè)人是否得了心臟病,所以如何準(zhǔn)確地預(yù)測心臟病是非常重要的課題[3-5]。心臟病預(yù)測的方法非常多,但是準(zhǔn)確率都不高[6-7]。Logistic回歸模型是一種非常經(jīng)典高效的回歸預(yù)測模型,它被廣泛應(yīng)用于預(yù)測工作[8-9]。本研究使用Logistic回歸模型對心臟病進(jìn)行預(yù)測,并探討Logistic回歸模型在預(yù)測某些心臟病數(shù)據(jù)庫中患者的患病準(zhǔn)確率。
Logistic回歸模型是一種高效的監(jiān)督學(xué)習(xí)方法,被廣泛地用于概率預(yù)測與分類。Logistic回歸模型基于極大似然估計(jì),即通過極大似然函數(shù)來推導(dǎo)損失函數(shù),通過梯度下降的方式來求解算法參數(shù),進(jìn)而對數(shù)據(jù)進(jìn)行二分類。Logistic回歸模型的數(shù)學(xué)表達(dá)式如下:
1.一般資料。使用UCI機(jī)器學(xué)習(xí)庫中的心臟病數(shù)據(jù)集(UCI machine learning repository: statlog (heart) data set),共有樣本270個(gè),其中陽性樣本120個(gè),陰性樣本150個(gè)。樣本的民族和國家信息不詳,每個(gè)樣本包含14個(gè)變量信息:年齡、性別、胸痛類型、靜息血壓、血清膽汁、空腹血糖、靜息心電圖結(jié)果、達(dá)到的最大心率、運(yùn)動性心絞痛、運(yùn)動誘發(fā)的抑郁、峰值運(yùn)動ST段的斜率、熒光檢查染色的主要血管數(shù)量、心臟缺陷和類別,其中類別是結(jié)果變量,即因變量,其他13個(gè)為自變量。數(shù)據(jù)集的14個(gè)變量信息中,性別、空腹血糖、運(yùn)動性心絞痛、類別是布爾值,年齡、胸痛類型、靜息血壓、靜息心電圖結(jié)果、達(dá)到的最大心率、峰值運(yùn)動ST段的斜率、熒光檢查染色的主要血管數(shù)量、心臟缺陷是正整數(shù),血清膽汁和運(yùn)動誘發(fā)的抑郁是浮點(diǎn)值,具體見表1。變量情況見表2。
表1 變量含義、度量單位和區(qū)間
表2 變量情況
2.變量相關(guān)性分析。該數(shù)據(jù)集個(gè)變量之間的相關(guān)性度量見表3。表3顯示數(shù)據(jù)集的13個(gè)變量之間的相關(guān)度不高,說明這些變量中的任何一個(gè)自變量都不能很好地被另一個(gè)或者另幾個(gè)變量所表示,所以在預(yù)測心臟病時(shí),需要把13個(gè)變量都納入才更科學(xué)合理。
表3 變量之間的相關(guān)度
3.方法。采用SPSS軟件進(jìn)行統(tǒng)計(jì)分析,提出以類別為因變量,其他13個(gè)變量為自變量的針對心臟病數(shù)據(jù)集的Logistic回歸模型。通過本研究的Logistic回歸模型得出ROC曲線下方的區(qū)域信息,進(jìn)而說明Logistic回歸模型在預(yù)測心臟病中的準(zhǔn)確率。
1.Logistic回歸模型結(jié)果。13個(gè)變量作為影響心臟病發(fā)病的因素被考慮進(jìn)了Logistic回歸模型,其中,性別、靜息血壓和熒光檢查染色的主要血管數(shù)量具有統(tǒng)計(jì)學(xué)意義(p<0.05),見表4。
2.心臟病影響因素的ROC曲線下方的區(qū)域。區(qū)域值為0.943,說明本研究所用的數(shù)據(jù)庫用Logistic回歸模型來預(yù)測心臟病的準(zhǔn)確率非常高,見表5。
表5 心臟病影響因素的ROC曲線下方的區(qū)域
本文使用Logistic回歸模型來預(yù)測心臟病。采用人工智能機(jī)器學(xué)習(xí)領(lǐng)域較權(quán)威的UCI數(shù)據(jù)庫中的心臟病預(yù)測數(shù)據(jù)集來測試Logistic回歸模型的預(yù)測性能,結(jié)果顯示,Logistic回歸模型能夠很準(zhǔn)確地預(yù)測出樣本是否患有心臟病,對心臟病的臨床預(yù)測有指導(dǎo)意義。