徐 晶,張 霞,封 爽,鄭 珊,馮慧芬
1)鄭州大學(xué)第五附屬醫(yī)院消化內(nèi)科 鄭州 450052 2)鄭州大學(xué)出版社 鄭州 450052
食管靜脈曲張破裂出血的病死率為15%~20%[1]?!妒彻芪胳o脈曲張出血的防治指南》建議對所有肝硬化患者進行食管靜脈曲張內(nèi)鏡篩查[2]。有研究[3]表明大多數(shù)接受胃鏡篩查的肝硬化患者或沒有食管靜脈曲張,或有無需治療的輕度食管靜脈曲張,而胃鏡檢查為侵入性操作,反復(fù)侵入性檢查會導(dǎo)致患者依從性差[4]。采用無創(chuàng)診斷指標(biāo)預(yù)測肝硬化食管靜脈曲張是當(dāng)前的研究熱點。研究[4-5]表明谷草轉(zhuǎn)氨酶/血小板比率指數(shù)(APRI)、基于4因子的纖維化指數(shù)、S指數(shù)、血小板/脾臟長徑等對肝硬化食管靜脈曲張有一定的預(yù)測價值,但預(yù)測效果差異大或價值較低。近年來,國內(nèi)外將機器學(xué)習(xí)、深度學(xué)習(xí)、人工智能算法等運用于肝臟疾病如肝纖維化、肝硬化、食管靜脈曲張的分類預(yù)測[6-8]。支持向量機(support vector machine,SVM)作為判別分析中的經(jīng)典方法,以其優(yōu)異的分類器作用在各大領(lǐng)域中有著廣泛的應(yīng)用[9-10]。本研究建立了基于無創(chuàng)因素的肝硬化食管靜脈曲張SVM預(yù)測模型,并與傳統(tǒng)的Logistic回歸模型進行了比較。
1.1 研究對象收集2017年9月至2020年12月于鄭州大學(xué)第五附屬醫(yī)院住院的肝硬化患者。納入標(biāo)準(zhǔn):①住院3 d內(nèi)接受電子胃鏡、肝脾超聲、FibroScan、血清生化指標(biāo)檢查。②符合肝硬化診斷標(biāo)準(zhǔn)[11],即內(nèi)鏡、組織學(xué)或影像學(xué)檢查結(jié)果提示肝硬化、食管胃靜脈曲張或存在門脈高壓特征;如無上述檢查結(jié)果,存在至少2個指標(biāo)異常(血小板計數(shù)<100×109/L;血清白蛋白<35 g/L;國際標(biāo)準(zhǔn)化比值>1.3或凝血酶原時間延長;APRI>2)。排除標(biāo)準(zhǔn):既往有食管靜脈曲張破裂出血史、分流或斷流手術(shù)史;有內(nèi)鏡下套扎或硬化治療史;合并血液系統(tǒng)疾??;近期服用影響凝血功能的藥物。本研究通過鄭州大學(xué)第五附屬醫(yī)院醫(yī)學(xué)倫理委員會審核批準(zhǔn)(批準(zhǔn)號Y2021018)。最終共納入305例。食管靜脈曲張分級:按照《食管胃靜脈曲張出血的防治指南》[2],分為無或輕度曲張(n=150)和中重度曲張(n=155)。
1.2 指標(biāo)篩選根據(jù)電子病歷資料記錄姓名、性別、年齡、病因,查閱相關(guān)文獻,選擇紅細胞體積分布寬度、血紅蛋白、部分凝血活酶時間、凝血酶時間、總膽紅素、白蛋白、門靜脈直徑、血小板計數(shù)/脾臟厚度、肝硬度值、Child-Pugh評分等指標(biāo)用于建模。
1.3 模型構(gòu)建使用EpiData 3.1錄入數(shù)據(jù)。將305例按照完全隨機分組的方法分為訓(xùn)練樣本(70%)和驗證樣本(30%),訓(xùn)練樣本用于模型構(gòu)建,驗證樣本用于模型性能分析。
1.3.1Logistic回歸分析模型的建立 在訓(xùn)練樣本的基礎(chǔ)上,以是否是中重度曲張為因變量(Y),無或輕度曲張賦值為0,中重度曲張賦值為1,將兩組表達有差異的變量納入回歸分析,應(yīng)用SPSS 25.0,采用逐步回歸法建模。
1.3.2SVM模型的建立 選取兩組表達有差異的變量,應(yīng)用SPSS Modeler 18.0,使用極差法對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,使變量取值在[0,1],用過濾器剔除無貢獻價值的輸入變量。選擇專家建模中的徑向基核函數(shù)。建模時參數(shù)選擇:停止標(biāo)準(zhǔn)為1.0×10-3,規(guī)則化參數(shù)為10;Gamma為1,輸入設(shè)定無或輕度曲張為0,中重度曲張為1,輸出時勾選預(yù)測變量的重要性。
1.4 模型預(yù)測效能評價用驗證集數(shù)據(jù)繪制兩個模型預(yù)測的ROC曲線,評價預(yù)測效能。檢驗水準(zhǔn)α=0.05。
2.1 一般情況無或輕度曲張組150例,年齡(56.33±11.29)歲,其中男97例,女53例;中重度曲張組155例,年齡(55.32±11.91)歲,男115例,女40例。兩組間年齡(t=0.755,P=0.451)、性別構(gòu)成(χ2=3.264,P=0.071)均衡可比。
2.2 兩組間各指標(biāo)的比較兩組紅細胞體積分布寬度、血紅蛋白、凝血酶時間、門靜脈直徑、血小板計數(shù)/脾臟厚度、肝硬度值、Child-Pugh評分差異有統(tǒng)計學(xué)意義(表1)。
表1 兩組患者各項指標(biāo)的比較
2.3 Logistic回歸模型以紅細胞體積分布寬度、血紅蛋白、凝血酶時間、門靜脈直徑、血小板計數(shù)/脾臟厚度、肝硬度值、Child-Pugh評分為自變量進行Logistic回歸分析,最終模型結(jié)果見表2。
表2 Logistic回歸分析結(jié)果
2.4 SVM模型SVM顯示影響中重度食管靜脈曲張重要性居于前4位的依次是肝硬度值、門靜脈直徑、血紅蛋白、血小板計數(shù)/脾臟厚度(圖1)。
圖1 SVM預(yù)測變量的重要性
2.5 兩個模型預(yù)測效果評價用構(gòu)建的SVM模型和Logistic回歸模型在驗證樣本(n=91)中進行食管靜脈曲張預(yù)測,兩個模型預(yù)測的ROC曲線見圖2,預(yù)測效果評價結(jié)果見表3,SVM模型的AUC、敏感度、特異度、陽性預(yù)測值、陰性預(yù)測值、正確率均高于Logistic模型。
圖2 兩個模型預(yù)測食管靜脈曲張的ROC曲線
表3 SVM與Logistic回歸模型預(yù)測效果評價
本研究結(jié)果顯示,SVM輸出預(yù)測肝硬化食管靜脈曲張的變量重要性居前4位的依次為肝硬度值、門靜脈直徑、血紅蛋白、血小板計數(shù)/脾臟厚度,與Logistic回歸模型一致。肝硬度值反映肝纖維化程度[12],肝纖維化逐漸進展可導(dǎo)致門脈高壓性食管胃底靜脈曲張。肝硬度增加和食管靜脈曲張之間的強相關(guān)性得到了證實[13-14]。一項預(yù)測食管靜脈曲張的Meta分析[15]結(jié)果顯示肝硬度值檢測中/大食管靜脈曲張的AUC為0.85,敏感度87%,有較好的預(yù)測價值,且在21項無創(chuàng)診斷指標(biāo)的準(zhǔn)確性中排第二位。在本研究中,肝硬度值在SVM模型預(yù)測變量的重要性中居第一位。韋仲等[16]發(fā)現(xiàn)門靜脈直徑是食管靜脈曲張獨立預(yù)測因子。單一血小板計數(shù)不能預(yù)測高風(fēng)險食管靜脈曲張存在或發(fā)展,血小板減少可能與門靜脈高壓性脾功能亢進有關(guān),且肝硬化導(dǎo)致骨髓抑制,減弱了血小板減少與高風(fēng)險食管胃底靜脈曲張的關(guān)聯(lián)性[17-18]。戴戈揚等[19]的研究表明脾厚徑結(jié)合臨床常規(guī)血液指標(biāo)對食管靜脈曲張具有良好的診斷性能。所以本研究并未將血小板與脾臟厚度單獨分析,而是使用了二者比值,研究結(jié)果顯示血小板計數(shù)/脾臟厚度是中重度食管靜脈曲張的預(yù)測因素,比值越大,風(fēng)險越小。Dong等[7]開發(fā)了基于機器學(xué)習(xí)的高風(fēng)險食管靜脈曲張的評分系統(tǒng),其中血紅蛋白是重要的影響因子。本研究中中重度曲張組血紅蛋白小于無或輕度曲張組,且回歸分析結(jié)果表明血紅蛋白是中重度食管靜脈曲張的獨立保護因素,SVM模型也同樣證明了它的預(yù)測價值??赡茉蛴校孩匍T脈性胃病的亞臨床出血。②肝硬化患者普遍存在脾功能亢進和骨髓抑制。③肝硬化導(dǎo)致貧血。Paternostro等[20]對1 244名肝硬化患者進行了貧血相關(guān)指標(biāo)篩查,證明了慢性貧血在肝硬化中普遍存在。
上述4個變量為兩種模型共同篩選的結(jié)果,此外,在SVM的輸出變量中還有Child-Pugh評分、紅細胞體積分布寬度、凝血酶時間。Logistic回歸模型與SVM預(yù)測的敏感度、特異度及正確率均較高,展現(xiàn)了較好的預(yù)測價值,但是SVM的可拓展性更高。
總之,本研究基于SVM算法構(gòu)建聯(lián)合無創(chuàng)多指標(biāo)的肝硬化食管靜脈曲張預(yù)測模型,在精準(zhǔn)分類預(yù)測及判別方面較傳統(tǒng)的Logistic回歸模型表現(xiàn)更佳,具有一定的臨床應(yīng)用價值。但本研究也存在一定的局限性:SVM的變量選擇優(yōu)先選用了更為重要的指標(biāo),未入選的變量并不代表與食管靜脈曲張無關(guān),因此需要進一步對其他相關(guān)變量進行研究,綜合分析比較不同的指標(biāo),進一步篩選出理想的模型;樣本數(shù)量相對有限,缺乏外部驗證,希望未來能獲取多中心數(shù)據(jù)進一步探討。