孫海悅 張策 楊超
(1大連醫(yī)科大學(xué)中山學(xué)院,遼寧 大連 116000;大連醫(yī)科大學(xué)附屬第二醫(yī)院 2藥物臨床試驗機(jī)構(gòu)辦公室;3放射科)
高血壓性腦出血是高血壓最嚴(yán)重的并發(fā)癥之一,因情緒激動、過度腦力與體力勞動或其他因素引起血壓劇烈升高,導(dǎo)致已病變的腦血管破裂出血所致〔1〕。近幾年,面對高血壓腦出血患者的日益增多,腦出血的預(yù)后研究關(guān)系著患者的生命質(zhì)量,對腦出血預(yù)后影響因素的評估是一個值得關(guān)注的問題。目前大數(shù)據(jù)逐漸應(yīng)用醫(yī)療領(lǐng)域,本文將運(yùn)用大數(shù)據(jù)決策樹的方法對高血壓性腦出血患者轉(zhuǎn)歸的影響因素進(jìn)行預(yù)測研究。
1.1 收集病歷資料 選取自2017年3月至2018年8月于大連醫(yī)科大學(xué)附屬第二醫(yī)院住院治療的高血壓腦出血患者。初步篩選出與高血壓腦出血患者相關(guān)資料,以號碼(ID),年齡,吸煙量,飲酒史,既往最高收縮壓,既往最高舒張壓,入院收縮壓,入院舒張壓,血壓史,血脂,血糖,血腫面積,周圍水腫帶,腦疝,占位效應(yīng),是否破入腦室,腦出血位置,出血時間,頭痛,是否伴有腎損害,是否顱內(nèi)壓增高,是否蛛網(wǎng)膜下腔出血,轉(zhuǎn)歸情況等24項詳細(xì)數(shù)據(jù)為基礎(chǔ)構(gòu)建數(shù)據(jù)庫。
1.2 數(shù)據(jù)預(yù)處理
1.2.1 入排標(biāo)準(zhǔn) 入選標(biāo)準(zhǔn):①年齡大于60周歲;②患者病歷數(shù)據(jù)清晰明確可得;③單純的高血壓腦出血。排除標(biāo)準(zhǔn):①有精神異常情況;②只有診斷無住院治療的門診病歷;③外傷性腦出血;④腫瘤引發(fā)的腦出血;⑤腦梗死后的腦出血。
1.2.2 轉(zhuǎn)歸評級 以7~10 d的入院至出院為一個周期運(yùn)用生活自理能力量表(ADL)的Barthel指數(shù)進(jìn)行轉(zhuǎn)歸評級。每個病歷的Barthel指數(shù)評分均由兩名神經(jīng)科主治以上醫(yī)師分別對同一病人打分評級,當(dāng)有不同意時,采用協(xié)商解決的方式。Barthel指數(shù)≥60分為A組(生活基本可以自理),Barthel指數(shù)1~59分為B組(生活自理有功能障礙),Barthel指數(shù)0分為C組(死亡)。
1.2.3 篩選變量 在正式訓(xùn)練模型之前對影響因素進(jìn)行篩選,并盡可能地控制影響因素之間的交互作用,其中14個因素?zé)o統(tǒng)計學(xué)意義,予以排除。最終將腦疝、血腫面積/mm2、是否有蛛網(wǎng)膜下腔出血、周圍水腫帶、入院血壓-舒張壓、是否顱內(nèi)壓增高、出血時間/h、占位效應(yīng)、吸煙量/支、腦出血位置作為輸入的預(yù)測變量,轉(zhuǎn)歸分級作為目標(biāo)變量,輸入SPSS軟件中,得到預(yù)測變量重要性的占比圖。
1.3 決策樹分析 采用SPSS Moder14.1軟件,運(yùn)用決策樹分析方法。決策樹是一種簡單而又被廣泛使用的分類技術(shù)。在決策樹中,每個葉結(jié)點(diǎn)都賦予一個類標(biāo)號。非葉結(jié)點(diǎn)用以分開具有不同特性的記錄。一旦構(gòu)造了決策樹,對檢驗記錄就非常容易了。
從樹的根結(jié)點(diǎn)開始,將測試條件用于檢驗記錄,根據(jù)測試結(jié)果選擇適當(dāng)分支。沿著該分支或到達(dá)另一個內(nèi)部結(jié)點(diǎn),使用新的測試條件,或到達(dá)一個葉結(jié)點(diǎn)。到達(dá)葉結(jié)點(diǎn)之后,葉結(jié)點(diǎn)的類稱號就被賦值給該檢驗記錄。如圖1所示,本文樹狀深度為8層。決策樹算法圍繞的核心是決策樹的生長和剪枝。生長,就是利用訓(xùn)練樣本集完成決策樹建立的過程;剪枝,就是利用驗證樣本集對形成的決策樹進(jìn)行優(yōu)化處理,防止發(fā)生擬合過度的過程〔2〕。
圖1 高血壓腦出血決策分析樹狀圖
1.4 預(yù)測結(jié)果的輸出與驗證 把搜集的數(shù)據(jù)帶入 SPSS 軟件中,選擇決策樹分析,使用計算機(jī)隨機(jī)分配,訓(xùn)練樣本量為 70%,測試樣本量為 30%。得出訓(xùn)練模型及測試模型的準(zhǔn)確率,并建立高血壓腦出血患者預(yù)測轉(zhuǎn)歸情況和實際轉(zhuǎn)歸情況的百分位增益圖進(jìn)行比較驗證。
2.1 數(shù)據(jù)庫的構(gòu)建結(jié)果 根據(jù)入排標(biāo)準(zhǔn)篩選后所得病例數(shù)為196例。數(shù)據(jù)庫中數(shù)據(jù)均為經(jīng)過影像學(xué)及術(shù)后病理確診的高血壓腦出血患者。
2.2 預(yù)測變量重要性占比結(jié)果 通過決策樹方法分析,如圖2所示,在影像學(xué)上能直觀反映預(yù)測變量重要性的依次是血腫面積,吸煙量,腦疝,占位效應(yīng),是否顱內(nèi)壓增加,出血時間,腦出血位置,周圍水腫帶,入院血壓-舒張壓。如圖3A所示,周圍見水腫帶,有占位效應(yīng),無腦疝發(fā)生。如圖3B所示,周圍見水腫帶,有占位效應(yīng),有腦疝發(fā)生。
圖2 預(yù)測變量重要性占比
圖3 基底節(jié)區(qū)腦出血
2.3 模型分類率 如表1所示,得出的結(jié)果訓(xùn)練模型的正確率為76.47%,測試模型的正確率為53.33%。模型可信度良好。
表1 模型分類率〔n(%)〕
2.4 增益曲線圖 增益曲線圖為對C5模型的評價。結(jié)果顯示,訓(xùn)練模型圖與預(yù)測模型圖離得較近,說明本研究的可信度較高。見圖4。
1:最優(yōu)模型;2:訓(xùn)練模型;3:預(yù)測模型圖4 增益曲線圖
信息化的今天,各大醫(yī)院都運(yùn)用醫(yī)學(xué)統(tǒng)計分析軟件來管理病案信息,面對龐大,雜亂的信息庫,如何有效提取并利用這些信息對患者轉(zhuǎn)歸情況進(jìn)行評估,則需要適用大數(shù)據(jù)的統(tǒng)計分析方法。統(tǒng)計學(xué)中,用于從大量數(shù)據(jù)中提取有效數(shù)據(jù)并進(jìn)行轉(zhuǎn)歸情況分析的統(tǒng)計方法有多種,具體分析方法有指數(shù)分步法,Weibull分步法,Logistic分步法等回歸模型的參數(shù)法及COX比例風(fēng)險模型的半?yún)?shù)分析方法〔3〕。但這些分析方法無法解決無規(guī)則的異型非結(jié)構(gòu)化臨床數(shù)據(jù)。
近年來,數(shù)據(jù)挖掘方法作為一種新型的統(tǒng)計分析方法日益受到關(guān)注。由Frawley等〔4〕提出數(shù)據(jù)挖掘的概念:從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示隱含的,先進(jìn)而未知的,潛在有用信息的過程。
決策樹和神經(jīng)網(wǎng)絡(luò)是數(shù)據(jù)挖掘的常用方法之一。本文分別運(yùn)用神經(jīng)網(wǎng)絡(luò)和決策樹的方法對高血壓腦出血轉(zhuǎn)歸情況的影響因素進(jìn)行分析研究,但因樣本量小,運(yùn)用神經(jīng)網(wǎng)絡(luò)方法得出的模型分辨率不理想,所以最終選用決策樹方法進(jìn)行分析驗證。決策樹C5.0算法通常不需要很長的訓(xùn)練次數(shù)估計,且推出的規(guī)則有直觀的解釋。在面對數(shù)據(jù)遺漏和輸入字段有較多問題時非常穩(wěn)健,能夠提供強(qiáng)大的增強(qiáng)技術(shù)以提高分類精度。朱美英等〔5〕通過搜集居民健康檔案,將健康狀況、行為因素、體檢等方面的因素作為預(yù)測變量,采用決策樹分析方法,建立預(yù)測糖尿病的決策樹模型。史琦等〔6〕通過收集不穩(wěn)定心絞痛患者的基本資料、中醫(yī)四診信息及臨床常規(guī)檢測指標(biāo),采用決策樹分析方法,建立了不穩(wěn)定性心絞痛患者臨床常規(guī)檢測指標(biāo)對痰瘀互阻證的識別模式。Kuo等〔7〕利用決策樹模型提取超聲圖像屬性特征,提高了臨床的診療水平。但查閱大量文獻(xiàn)并沒有發(fā)現(xiàn)決策樹方法在分析高血壓腦出血患者轉(zhuǎn)歸的預(yù)測研究上的應(yīng)用。所以本文運(yùn)用決策樹方法,對高血壓腦出血病人進(jìn)行轉(zhuǎn)歸因素的影響研究。
通過本文預(yù)測變量重要性占比圖可以看出各個影響高血壓腦出血患者預(yù)后的因素所占比重,其中血腫面積和每日的吸煙量是影響高血壓腦出血患者轉(zhuǎn)歸情況的重要因素。由于長期高血壓,患者腦血管的細(xì)小動脈硬化使血管壁變脆,彈性下降,局部膨出形成小動脈瘤和微小動脈瘤,人體的自控機(jī)制使腦血流量在血壓變化時維持恒定,在血壓急劇或持續(xù)升高破壞自控機(jī)制時,小動脈瘤和微小動脈瘤破裂出血,從而導(dǎo)致血腫擴(kuò)大〔8,9〕。血腫面積的擴(kuò)大會使患者轉(zhuǎn)歸情況變差〔10,11〕,神經(jīng)功能惡化,并發(fā)癥多,病死率增高〔12〕。其次吸煙史是引發(fā)腦出血的重要危險因素,其差異具有統(tǒng)計學(xué)意義〔13〕。其中腦出血是指非外傷性腦實質(zhì)內(nèi)腦血管破裂引起的出血,占所有腦卒中約30%〔14〕。有研究表明吸煙量與腦卒中發(fā)生風(fēng)險之間存在劑量反應(yīng)關(guān)系〔15〕,這可能與煙草中有毒有害物質(zhì)、致癌物質(zhì)對血管壁日積月累的傷害有關(guān)〔16〕。吸煙損傷患者血管的內(nèi)皮功能,增加血管壁厚度,導(dǎo)致脂質(zhì)出現(xiàn)異常沉積,由此加重血管內(nèi)炎癥反應(yīng),增加內(nèi)膜厚度,使血管彈性變差〔17〕。腦動脈血管彈性變差是不可逆的,血腫不易吸收,血管代償能力下降,甚至危急患者生命。高血壓腦出血不及時診治會導(dǎo)致腦疝等嚴(yán)重并發(fā)癥的發(fā)生,甚至危及生命〔18〕。占位效應(yīng)與血腫面積有關(guān)聯(lián)性,是影響高血壓腦出血患者轉(zhuǎn)歸的影響因素之一,占比較多。而顱內(nèi)壓可以通過服用硝苯地平,氯沙坦等降壓藥物進(jìn)行調(diào)控,所以對高血壓腦出血患者轉(zhuǎn)歸的影響不大,占比較少。研究表明,腦出血位置發(fā)生在丘腦,基底節(jié)區(qū)等常見部位對轉(zhuǎn)歸的影響較小,若發(fā)生在腦干部位,則死亡率高,其差異具有統(tǒng)計學(xué)意義〔19〕。周圍水腫帶占比少則說明患者隨著體內(nèi)的自我調(diào)節(jié)機(jī)制自行吸收水腫,所以對轉(zhuǎn)歸影響不大。最后,入院血壓-舒張壓的占比最少,代表對轉(zhuǎn)歸的影響最不重要。高血壓腦出血患者隨著住院治療,血壓勢必會得到有效的控制,通過減輕鈉鹽的攝入,增加運(yùn)動,保持心態(tài)平衡等都可以起到有效降壓作用。
本文通過建立高血壓腦出血數(shù)據(jù)庫,不僅能將所有高血壓腦出血患者進(jìn)行收集分類,而且還有益于以后所需信息的提取。通過數(shù)據(jù)的整理,決策樹模型數(shù)據(jù)流的建立,得到 76.47%的訓(xùn)練樣本準(zhǔn)確率與 53.33%的驗證樣本準(zhǔn)確率,并在增益曲線圖中顯示預(yù)測結(jié)果與實際結(jié)果具有較高符合度。
綜上所述,可以說明通過決策樹模型對高血壓腦出血患者的轉(zhuǎn)歸進(jìn)行個體化預(yù)測具有可行性。但因本文受數(shù)據(jù)所限,只對數(shù)據(jù)算法進(jìn)行初步的模擬,目前模型已建成,結(jié)果準(zhǔn)確率已達(dá)到53.33%,后續(xù)對樣本進(jìn)行不斷地增加和訓(xùn)練,在不斷調(diào)整過程中,再廣泛應(yīng)用模型。