張紅珍,楊少玲,赫蘭,林文華,顧家紅,趙坤,胡靜,彭媛媛
(1.安徽理工大學附屬奉賢醫(yī)院超聲科,上海 201499;2.上海市第八人民醫(yī)院超聲科,上海 200235)
缺血性腦卒中是腦卒中高危人群致殘與致死的主要原因,其發(fā)病率逐年升高[1]。約30%的缺血性腦卒中是由頸動脈粥樣硬化易損斑塊破裂,微小栓子引起顱內動脈栓塞所致[2]。頸動脈超聲檢查是早期篩查易損斑塊的首選方法[3-4]。然而目前我國超聲醫(yī)師緊缺、易損斑塊識別技術水平要求較高[5],阻礙了頸動脈超聲檢查在腦卒中高危人群篩查中的廣泛應用。
隨著人工智能技術逐步應用于醫(yī)學領域,機器學習模型大大提高了解決部分醫(yī)療問題的效率[6-7]。利用機器學習模型有望預測頸動脈粥樣硬化斑塊(carotid atherosclerosis,CAS)患者發(fā)生缺血性腦卒中的風險。logistics分類(LR)、高斯樸素貝葉斯分類(GNB)、補充樸素貝葉斯分類(CNB)、支持向量機(SVM)和k近鄰分類(KNN)是經典的機器學習模型,目前已部分應用于疾病的預測及數據分析中[8-9]。在預測CAS患者發(fā)生缺血性腦卒中的風險方面應用較少。本研究旨在比較LR、GNB、CNB、SVM和KNN五種不同的機器學習模型預測CAS患者發(fā)生缺血性腦卒中的效能。
1.1 研究對象2021年3月1日—11月30日在上海市第八人民醫(yī)院神經內科住院的CAS患者101例。納入標準:(1)年齡≥35歲;(2)經頸動脈彩色多普勒超聲檢查診斷為頸動脈粥樣硬化的住院患者;(3)未接受頸部血管手術治療者;(4)無嚴重腦血管疾病史。排除標準:(1)年齡<35周歲;(2)合并嚴重的肝、腎、肺及消化系統(tǒng)疾病者;(3)有頸動脈內膜剝脫術、血管搭橋術或頸動脈支架成形術等頸部血管手術史者;(4)有嚴重腦血管疾病史者;(5)頸動脈閉塞患者;(6)住院信息不全或臨床隨訪資料不全。
1.2 數據庫建立采集CAS患者性別、年齡、糖類抗原CA-50、鱗癌抗原SCC、維生素B12、甲胎蛋白、神經元特異烯醇化酶、鐵蛋白、游離甲狀腺素、三碘甲狀腺原氨酸、甲狀腺素、甲狀腺球蛋白、癌胚抗原、糖類抗原CA19-9、糖化血紅蛋白、免疫球蛋白IgG4、免疫球蛋白E、補體C3、血液生化、血常規(guī)及頸動脈超聲檢查結果建立數據庫。
1.3 數據預處理搜集的101例CAS患者中,有缺血性腦卒中90例,無缺血性腦卒中11例,數據存在不均衡現象,為了減少模型預測性能的偏倚,本研究采用了SMOTE(sythetic minority over-sampling technique)方法對數據進行樣本平衡,使得結局變量比例為2∶1。
1.4 超聲儀器設備及檢查方法GE Vivid E9超聲診斷儀,配備L9探頭,頻率為5~12 MHz?;颊呷フ砥脚P,充分暴露頸部,頭后仰偏向對側,檢查患者雙側頸動脈,記錄有無斑塊、斑塊的內部回聲、表面形態(tài)、內部構成、測量斑塊大小及頸動脈狹窄率。
1.5 診斷標準(1)CAS超聲診斷標準。依據2005美國放射學年會超聲會議公布的超聲診斷CAS標準:頸動脈內-中膜厚度(imtima-media thickness,IMT)>1.0 mm,診斷為增厚;IMT≥1.5 mm,局限性增厚或內中膜增厚大于周邊IMT的50%,并凸向血管腔內,則定義為斑塊[10-12]。(2)缺血性腦卒中診斷標準。缺血導致的持續(xù)24 h以上的癥狀性神經功能惡化,或新發(fā)癥狀性神經功能惡化并伴有新發(fā)腦梗死的神經影像學證據[13]。
2.1 兩組CAS患者臨床基線特征101例CAS患者,其中男性52例(51.49%),女性49例(48.51%),年齡41~97歲,平均(69.96±11.03)歲,經統(tǒng)計檢驗分析,碳酸氫根、嗜堿性粒細胞比率、中性粒細胞數、血清淀粉樣蛋白A和淋巴細胞比率在腦卒中的各組間差異有統(tǒng)計學意義(P<0.05)。見表1。
2.2 特征重要性分析采用極端梯度提升樹對所有的變量進行變量重要性分析,篩選變量的模型參數為優(yōu)化目標函數(objective): 學習速率 (reg:squarederror;learning_rate): 0.1;最大樹深度(max_depth): 4;最小分叉權重和(min_child_weight): 4;L2正則化系數(reg_lambda): 1。重要度最高的十個特征變量為前白蛋白、淋巴細胞比率、嗜堿性粒細胞比率、低密度脂蛋白膽固醇、甲狀腺結節(jié)、碳酸氫根、鱗癌抗原SCC、鐵蛋白、神經元特異烯醇化酶、嗜堿性粒細胞,見圖1。下一步將這十個重要變量納入不同的機器學習模型中。
圖1 特征變量重要性排序
2.3 五種ML模型預測效能比較從準確度方面分析,LR(72.6%)、GNB(83.0%)、CNB(62.2%)、SVM(72.6%)和KNN(65.9%),按準確度從高到低排列依次為GNB模型、LR模型、SVM模型、KNN模型、CNB模型;從靈敏度方面分析,LR(67.5%)、GNB(81.6%)、CNB(62.9%)、SVM(62.5%)和KNN(83.6%),按靈敏度從高到低排列依次為KNN模型、GNB模型、LR模型、CNB模型、SVM模型;從特異度方面分析,LR(96.0%)、GNB(100.0%)、CNB(77.4%)、SVM(91.2%)和KNN(82.7%),按特異度從高到低排列依次為GNB模型、LR模型、SVM模型、KNN模型、CNB模型;從AUC方面分析,LR=0.810(0.052)、GNB=0.936(0.032)、CNB=0.629(0.104)、SVM=0.781(0.062)和KNN=0.854(0.065),按AUC值從高到低排列依次為GNB模型、KNN模型、LR模型、SVM模型、CNB模型,見表2、圖2及圖3。
注:A為訓練集,B為測試集
圖3 五種ML模型預測效能比較森林圖
表2 五種ML模型的效能結果
綜上所述,訓練集中,GNB模型的真實性(靈敏度、AUC值)和可靠性(準確度)均高于其余四種模型;預測性上,LR模型的陽性預測值(0.978)最高,GNB模型的陽性預測值(0.977)比LR模型略低,而GNB模型的陰性預測值(0.748)在五種模型中最高。測試集中,GNB模型的真實性(特異度、AUC值)和可靠性(準確度)均高于其余四種模型;預測性上,LR模型的陽性預測值(0.983)最高,GNB模型的陽性預測值(0.962)僅次于LR模型,而GNB模型的陰性預測值(0.644)在五種模型中最高。綜合比較五種ML模型的預測效能,GNB模型預測效能最高,LR模型、KNN模型、SVM模型、CNB模型按序次之。GNB模型和LR模型兩種模型ROC檢驗的P值等于0.012,這兩種模型的ROC檢驗組間比較差異有統(tǒng)計學意義。見表3。
表3 Delong檢測五種ML模型P值均值表
隨著計算機技術的不斷發(fā)展,機器學習已滲透到部分醫(yī)療領域并帶來了前所未有的效率及進步[14]。有研究將機器學習模型應用到疾病預測中,最終實現了患病風險預測[15-16]。既往關于CAS患者發(fā)生缺血性腦卒中的風險研究,大部分僅局限于危險因素、預后及病理生理方面[17-18],很少有利用機器學習模型預測CAS患者發(fā)生缺血性腦卒中的風險。本研究比較五種機器學習模型預測CAS患者發(fā)生缺血性腦卒中風險的效能,五種預測模型的準確度(62.2%~83.0%)、靈敏度(62.5%~83.6%)、特異度(77.4%~100.0%)、AUC(0.629~0.936),GNB模型的準確度(83.0%)、特異度(100.0%)、AUC(0.936)在所有模型中最高,推斷出GNB模型在預測CAS患者發(fā)生缺血性腦卒中風險效能最優(yōu),差異有統(tǒng)計學意義,此模型有望應用于臨床,進一步為缺血性腦卒中高危人群提供精準預防策略。
頸動脈粥樣硬化是缺血性腦卒中高危人群發(fā)生缺血性腦卒中的高危因素[19-20]。目前國內超聲工作人員人數與日益增加的超聲檢查需求極不對等。我們的研究將人工智能手段應用于CAS患者發(fā)生腦卒中風險的預測中,以篩選出急需進行檢查的患者,緩解上述矛盾。本研究比較LR、GNB、CNB、SVM和KNN五種經典的機器學習模型對CAS患者發(fā)生缺血性腦卒中的預測效能,結果表明GNB模型在處理二分類結局變量的小樣本數據中具有優(yōu)勢,這與VERMA等[21]的研究觀點一致。不僅如此,本研究還發(fā)現最終納入ML模型的預測因子,經過單因素多因素篩選后,再利用Xgboost對篩選出的預測因子進行重要性排序,可以提高模型的精準預測性能,本研究結果顯示GNB模型的特異度為1.000,具有理想的區(qū)分度。在既往的研究中,已有學者論證了ML模型預測因子篩選的重要性,ALI等[22]使用統(tǒng)計模型對常用的13個心力衰竭數據特征進行排名,不僅解決了心力衰竭數據的準確率較低的問題,還將GNB模型的預測精度提高了3.33%,此結論與本研究相符。
在既往的研究中,TU[23]利用LR模型進行疾病的預測模型,但LR模型具有普遍適用性。貝葉斯模型在醫(yī)學研究中是一種新興技術[24],CNB可以均勻地使用每個類別的訓練數據量,從而使估計結果更具客觀性[21-23],但CNB模型適合處理樣本量較大的數據,以實現其結果的客觀性,而本研究屬于小樣本研究。相比之下,GUO[25]等利用SVM模型對高維數據進行分類和預測,并表現出出色的預測性能。本研究中SVM模型的AUC達到0.781,該模型在預測CAS患者發(fā)生缺血性腦卒中方面,預測性能表現良好,但不是最佳。LENNARTZ等[26]應用KNN分類器對光譜探測器CT(SDCT)衍生的碘圖(IM)與傳統(tǒng)圖像(CI)的紋理進行分析對比,KNN模型在處理圖像特征方面具有優(yōu)勢,相比于結局變量為二分類變量的數據,KNN模型的預測性能可能相對較弱。基于本研究數據分析CAS患者發(fā)生缺血性腦卒中的預測研究,結果顯示GNB模型的各項指標明顯大于其他四種模型,具有更高的預測性能和臨床實用價值。
機器學習臨床應用方面,李桃等人[27]利用一種機器學習算法(隨機森林)結合十個臨床指標建立了2型糖尿病患者頸動脈粥樣硬化斑塊預測模型,但該研究局限于一種機器學習算法,臨床應用價值有限。本研究將五種機器學習模型應用于CAS患者缺血性腦卒中的預測中,結果顯示GNB 模型的真實性(靈敏度、特異度、F1分數、AUC值)、可靠性(準確度、Kappa值)和預測性(陰性預測值)均高于其余四種模型,該模型在頸動脈粥樣硬化患者發(fā)生缺血性腦卒中的預測效能方面表現最優(yōu)。王嬌嬌等[28]利用了SVM、BP與RF三種機器學習模型預測了鋼鐵工人頸動脈粥樣硬化的發(fā)生,但該研究未對頸動脈粥樣硬化患者缺血性腦卒中結局進行探討。本研究不僅篩選了CAS患者發(fā)生缺血性腦卒中的風險預測因子,還基于不同機器學習模型預測了CAS患者缺血腦卒中的結局發(fā)生,具有十分重要的臨床意義和應用價值。且我們的研究是在前人研究的基礎上,分析了五種經典的機器學習模型對CAS患者缺血性腦卒中發(fā)生結局變量的研究,這使得篩選出的模型預測性能更加精準。本研究結合準確度、靈敏度、特異度、陽性預測值、陰性預測值、F1分數、Kappa值、Cutoff值和AUC等多種指標比較了五種不同機器學習模型的預測效能,這在一定程度上減少了單一模型或單一評價指標帶來的研究偏倚。
李鵬等人[29]選擇了十個影響缺血性腦卒中發(fā)病的高危因素,包括年齡、缺乏運動、遺傳、高血脂、高血壓、不良飲食、高血糖、吸煙、心臟病、酗酒,作為模型預測因子,利用LR模型預測了缺血性腦卒中的發(fā)病率,該研究納入LR模型的預測因子主要局限于患者的一般基線病史數據,未涉及實驗室檢測指標及影像學數據。陳莉平等[30]利用大數據應用平臺收集了腦卒中患者的臨床數據,包括患者個人信息,實驗室數據及住院診療情況等,這與本研究數據搜集方面存在相似之處,但該研究主要針對腦卒中初患人群的復發(fā)情況機器學習模型風險預測。本研究搜集了CAS患者的一般基線信息、實驗室檢查數據及超聲影像學檢查結果共70個研究變量,從多維度納入模型備選變量,最終篩選了十個ML模型的重要預測因子,分別為前白蛋白、淋巴細胞比率、嗜堿性粒細胞比率、低密度脂蛋白膽固醇、甲狀腺結節(jié)、碳酸氫根、鱗癌抗原SCC、鐵蛋白、神經元特異烯醇化酶、嗜堿性粒細胞,都是目前臨床容易獲得的變量,可廣泛應用于臨床,從而有針對性地再進行頸動脈篩查,這樣可以部分緩解現有超聲醫(yī)生不足與日益增加的腦卒中高危人群的矛盾。
然而,本研究還存在一些局限性。第一,本研究的樣本量較小,數據分析前采用了合成少數類過采樣技術(SMOTE)平衡正負樣本比例,SMOTE的基本思想是對少數類樣本進行分析并根據少數類樣本人工合成新樣本添加到數據集中,因此分析出的模型結果可能容易出現過擬合的現象,接下來的研究會進一步加大正負樣本量,讓模型更接近真實預測值。第二,本研究的主要目的是探索不同的機器學習模型預測CAS患者發(fā)生缺血性腦卒中的可行性,下一步的研究中可以加入其他更多的機器學習模型,如隨機森林、決策樹、XGBoost等,通過探索比較更多不同機器學習模型的性能,進一步推進機器學習模型在CAS患者發(fā)生缺血性腦卒中的臨床預測應用。第三,本研究的CAS患者全部來自上海市第八人民醫(yī)院,利用了5倍重采樣技術將該數據集按8∶2的比例拆分為訓練集和測試集,沒有使用外部數據集進行模型測試,因此,模型結果可能會存在地域偏差性,加入外部測試集可以成為未來研究的一種途徑。