曾雪元,宮偉國,胡云峰,任吉祥
(1.長春中醫(yī)藥大學,長春 130117;2.松原市前郭縣中醫(yī)院,吉林 松原 131100;3.長春中醫(yī)藥大學附屬醫(yī)院,長春 130021)
缺血性卒中是最常見的卒中類型。2016 年全球25歲以上人群罹患卒中的風險為24.9%,其中缺血卒中風險為18.3%[1]。2007 年至2012 年間,卒中的年復發(fā)率從17.7%下降至6.7%[2]。盡管如此,仍然有一些不足,2017 年一項橫斷面調(diào)查研究顯示,我國的卒中疾病負擔呈現(xiàn)從北到南的梯度下降趨勢。我國東北地區(qū)的發(fā)病率(365/10 萬)和病死率(159/10 萬)最高[3]。根據(jù)2015 年全球疾病負擔研究,超過90%的卒中是因可調(diào)節(jié)的危險因素所致[4]。因此控制危險因素,找出危險人群進行干預可有效降低卒中負擔。
目前國際上利用危險因素制作的心血管評分工具很多,在國外比較著名的有Framingham 評分工具[5]。2016 年我國發(fā)布了用于心血管病10 年風險和終生風險評估的China-PAR 模型[6]。針對缺血性卒中的復發(fā)風險評估與預測工具只有《Essen 卒中風險評分量表》[7]等少數(shù)預測工具,功能及使用范圍局限[8]。中醫(yī)辨證論治與西醫(yī)辨病相結合是目前中醫(yī)藥界較普遍的臨床模式,將西醫(yī)病因與中醫(yī)四診信息或證候?qū)W信息相結合可構建疾病預測模型,但應用中醫(yī)證候診斷和證候要素構建慢病風險預測模型的研究較少。本研究在使用決策樹模型時,納入中醫(yī)證候?qū)W方面的信息作為觀察指標,驗證其對缺血性卒中復發(fā)是否有預測價值。
1.1 資料來源 選取2014 年1 月1 日-2015 年12 月31 日“長春中醫(yī)藥大學附屬醫(yī)院中風病慢病防治管理信息協(xié)作平臺”中以缺血性卒中為第一診斷的住院患者3 322 例信息,以既往史有無缺血性卒中將入選病例分為新發(fā)組1 542 例和復發(fā)組1 780 例。本研究所采用的數(shù)據(jù)主要有人口學信息(表1)、證候信息學(表2)、既往史和家族病史(表3)、生活方式(表4)。證候?qū)W信息主要包括證候診斷和證候要素判定。證候診斷采用《中醫(yī)臨床診療方案及臨床路徑》(2012年版),證候要素判定采用《缺血性中風證候要素診斷量表》。
1.2 方法 將篩選出的患者信息建立一個數(shù)據(jù)集,使用隨機抽樣將數(shù)據(jù)集分成訓練集和測試集,其中訓練集占70%,測試集占30%。選用CART 算法建立預測模型。使用混淆矩陣及受試者工作特征曲線(ROC)對模型進行評價。
1.2.1 統(tǒng)計學分析本文使用Rstudio(Version 1.1.463)進行統(tǒng)計分析,使用“rpart 包”構造缺血性卒中復發(fā)風險決策樹模型。首先使用“rpart 函數(shù)”生成決策樹,在完整樹的基礎上根據(jù)復雜度參數(shù)(CP)選擇最優(yōu)的樹,使用“prune 函數(shù)”對樹進行修剪。
表1 人口學信息
表2 證候信息學
表3 既往史和家族病史
1.2.2 決策樹算法簡介決策樹是強大直觀的分類器,它利用樹形結構對特征和潛在結果之間的關系建立模型。常見的決策樹算法有C5.0 算法、CART 算法以及卡方自動交互檢測(CHAID)等。本文使用的是CART算法,該算法是最初由LeoBreiman 等在1984 年提出的一種數(shù)據(jù)挖掘和預測算法[9]。
2.1 決策樹模型構造出的決策樹(見圖1)共5 層,共篩選出8 個解釋變量,分別為家族冠心病史,家庭關懷,既往高血壓病史,性別,受教育程度,家庭收入,中醫(yī)證候?qū)W,既往糖尿病史。
表4 生活方式
圖1 缺血性卒中復發(fā)風險決策樹模型
從樹的頂端開始,如果條件成立則從左枝往下,否側(cè)從右枝往下。當觀測點到達終端節(jié)點時,分類結束。從樹的頂端,我們可以看見第一層為家族冠心病史,說明家族冠心病史是缺血性卒中復發(fā)風險影響最大的變量,在無家族冠心病史的人群中篩選出的重要變量依次為家庭關懷、高血壓與性別。在這組人員中,性別為男性、受教育程度低以及家庭月收入為3 000 元以上的人群復發(fā)風險高。在有家族冠心病史的人群中,有糖尿病和證候特征為痰熱內(nèi)閉、痰熱腑實、痰蒙清竅、陰虛風動和風痰阻絡的患者復發(fā)風險較高。
2.2 決策樹模型評價本文采用混淆矩陣及受試者工作特征曲線(ROC)對模型進行了評價?;煜仃嚱Y果見表5,該預測模型的精確度為81%,F(xiàn) 值為0.83。ROC(圖2)曲線下面積為0.865(95%CI:0.843~0.886)。說明該模型的預測效果良好。
表5 混淆矩陣表及統(tǒng)計量
圖2 缺血性卒中復發(fā)預警的決策樹模型ROC 圖
隨著大數(shù)據(jù)時代的到來,多學科交叉合作,數(shù)據(jù)挖掘和機器學習在醫(yī)學領域的應用越來越廣泛。卒中的病因較為復雜,多種危險因素共存,決策樹算法幾乎適用于任何類型的數(shù)據(jù)建模,可以處理變量間的交互作用。此外樹型結構與臨床思維十分接近,即先抓主要影響因素,后抓次要影響因素,為預測提供合理的分析手段。史琦等[10]通過決策樹模型在證型—理化指標對應模式的數(shù)據(jù)挖掘中具備一定的優(yōu)勢。劉建平等[11]研究發(fā)現(xiàn)分類樹模型不僅能有效地擬合發(fā)病風險的預測模型,還能有效地篩檢變量間的交互作用效應。
缺血性卒中常見的危險因素分為可干預因素和不可干預因素兩大類,危險因素數(shù)目越多則卒中復發(fā)的危險性越大。目前《指南》[12]中提及的可干預的危險因素主要包括高血壓、糖尿病、血脂異常、心臟病、頸動脈易損斑塊高同型半胱氨酸血癥等。不可干預因素主要有性別、年齡和家族史。以往的觀念除傳統(tǒng)危險因素外,不良生活方式和患者及家屬缺乏相關的卒中知識水平也與缺血性卒中的復發(fā)有密切關系。因此本研究在進行決策樹模型構建時除用到傳統(tǒng)危險因素外,還納入了家庭關懷、飲食方式、體育鍛煉以及中醫(yī)證候?qū)W內(nèi)容。本模型共篩選出8 個解釋變量,這些危險因素與目前的指南大致相符,還提供了一些有意義的信息。在本研究中無家族冠心病史、家庭關懷程度不夠、既往無高血壓病史人群有較高的復發(fā)風險,這反映了相關人群對缺血性卒中的相關知識水平不夠,對心血管疾病不夠重視,在臨床中應重視這一人群,針對這一人群進行宣講和干預。
在本研究中證候診斷也可以用于缺血性卒中復發(fā)預測模型,近年來中醫(yī)臨床及科研團隊基于病證結合模式進行了一系列研究。李新龍等[13]通過Cox 比例風險回歸模型發(fā)現(xiàn)多部位梗死、入院至發(fā)病第14 天痰證的顯現(xiàn)是患者復發(fā)的獨立危險因素,急性期口服湯藥治療為保護因素。韓學醫(yī)[14]運用生存分析-Cox 回歸分析—向前逐步回歸法構建回歸方程發(fā)現(xiàn)痰濕質(zhì)是缺血性中風復發(fā)的重要危險因素。
綜上所述,本研究建立的缺血性卒中復發(fā)預測決策樹模型有較好的預測能力,證候診斷對于卒中復發(fā)也有一定的預測價值。