湯 濤 曹 磊 曹 力 劉 強
(南昌大學第一附屬醫(yī)院 南昌330006)
靜脈血栓栓塞癥(Venous Thromboembolism, VTE)是我國常見的心血管疾病,具有高發(fā)病率、高死亡率和高漏診率的特點[1-2]。據(jù)相關統(tǒng)計,每年因VTE死亡的患者占院內(nèi)死亡的10%;在重癥加強護理病房(Intensive Care Unit,ICU)患者、腦卒中患者及心血管疾病患者中,VTE患病率分別為27.0%、21.7%和4.0%[3-4]。在歐美國家,VTE被視為一種常見病,在一項以美國人群為基礎的研究中,院內(nèi)VTE患者占入院率的1.7%[5-6],出院后VTE風險持續(xù)增加45~60天。多項研究指出國內(nèi)人群在骨科大手術后的VTE發(fā)生率和死亡率與西方人群無差異[7-9]。種種證據(jù)表明,VTE不僅嚴重降低患者生活質量,還增加國家醫(yī)療成本和社會負擔。
自20世紀90年代初,國外學者[10]致力于研究各類VTE風險評估工具,目前臨床應用較廣泛的有Caprini評估量表、Autar評估量表、Wells評估量表。上述量表主要包括體征數(shù)據(jù)、手術史、現(xiàn)病史、藥物使用等多方面的評估,涵蓋VTE患病風險的主要因素[11]。因此建立有效的監(jiān)測預警機制,提高實時分析、集中研判VTE發(fā)生的能力,在疾病發(fā)生、發(fā)展多個環(huán)節(jié)提前識別并加入臨床干預是有效降低VTE對生命傷害和經(jīng)濟影響的重要前提。然而目前對VTE的臨床判斷尚基于傳統(tǒng)的Caprini量表[12]打分,醫(yī)務工作者評分含主觀因素,誤診漏診導致的VTE干預不及時等問題,使得VTE預判工作耗時、耗力,其高效性和準確性有待提升。
本文擬通過應用BP神經(jīng)網(wǎng)絡、隨機森林、集成學習等多種機器學習方法,整合南昌大學第一附屬醫(yī)院VTE歷史患者診療數(shù)據(jù),一方面對VTE潛在危險因素進行挖掘分析,構建VTE危險因素指標評價體系;另一方面搭建VTE實時預警平臺,對患者的VTE風險等級進行實時評估,與醫(yī)院診療系統(tǒng)多終端進行快速交互,輔助臨床早期診斷研判,及時采取臨床干預,從而最大限度降低VTE發(fā)生率或發(fā)展率。本研究首次探索基于多機器學習方法的VTE實時預警平臺搭建,輔助臨床實現(xiàn)VTE早防早治,這對于降低VTE發(fā)病率和死亡率、提高患者生命質量具有重要的臨床意義和社會價值。
選取2016年初至2021年6月南昌大學第一附屬醫(yī)院共2 068例VTE住院患者的歷史診療數(shù)據(jù),包含基本生理情況、基礎疾病、檢查檢驗、手術類型、所服藥物、既往病史等維度。
2.2.1 危險因素初篩 通過文獻評價及專家咨詢方法,對VTE危險因素進行初步篩選,大致分為患者基本生理情況、基礎疾病、檢驗檢查、手術類型、所服藥物5個方面的指標。危險因素初篩能夠提高之后潛在因素挖掘的算法計算效率,同時為潛在危險因素深度挖掘提供有力的參考依據(jù)。
2.2.2 潛在因素深度挖掘 潛在危險因素是發(fā)現(xiàn)早期VTE患者的重要依據(jù),基于高緯度、自適應能力強等特點的BP神經(jīng)網(wǎng)絡和隨機森林模型對基礎數(shù)據(jù)進行深度挖掘,分析出重要度較高的特征指標,結合上一步初篩結果形成最終的高維度VTE危險因素指標評價體系。一是BP神經(jīng)網(wǎng)絡。具有適應性強、容錯性好的優(yōu)點,見圖1。其中x1,x1,...,xk表示BP神經(jīng)網(wǎng)絡的輸入,y1,y1,...,ym表示預測輸出,wij和wjk分別表示關鍵網(wǎng)絡層之間的連接權值矩陣,即可理解為VTE各危險因素的權值矩陣。
從輸入層到隱含層,有:
(1)
式中,σj(·)為隱含層神經(jīng)元的活化函數(shù)。網(wǎng)絡輸出層可以表示為:
(2)
圖1 BP神經(jīng)網(wǎng)絡架構
BP神經(jīng)網(wǎng)絡可通過前向傳播和后向反饋的機制,對分類器進行反復訓練及優(yōu)化,同時構建出最優(yōu)的危險因素權值矩陣,由此可對特征變量的重要性進行評估。二是隨機森林(Random Forests,RF)。一種利用多棵決策樹對樣本進行訓練并預測的分類器,具有準確度高、快速學習等優(yōu)勢,同時在構建森林時可以對特征變量重要性進行評估,見圖2?;居嬎惴椒ㄈ缦拢簩γ總€決策樹,通過袋外數(shù)據(jù)計算誤差,記為errOOB1;隨機對袋外數(shù)據(jù)樣本特征X加入噪聲干擾,再次計算袋外數(shù)據(jù)誤差,記為errOOB2; 假設森林中有N棵樹,計算特征X的重要性,記為∑(errOOB2-errOOB1)/N。若加入噪聲干擾后errOOB2上升,則袋外數(shù)據(jù)準確率大幅度下降,說明該特征對于樣本的預測結果影響較大,特征重要程度較高。三是集成學習。將幾個機器學習算法模型組合為一個更強的分類器模型,以提高分類準確率,即多個決策者共同進行一項決策,見圖3。
圖2 隨機森林模型架構
圖3 集成學習模型架構
平臺采用OracleXE數(shù)據(jù)庫,基于JavaScript語言及瀏覽器/服務器(Browser/Server, B/S)架構進行實時預警平臺搭建,部署在醫(yī)院內(nèi)網(wǎng)環(huán)境中以保證系統(tǒng)及數(shù)據(jù)的安全性。
3.1.1 特征提取階段 模型共納入1 000余項臨床數(shù)據(jù)特征,在剔除頻率低、共線性強的特征后,最終選取308項特征變量(如惡性腫瘤史、腫瘤家族史、臥床時長、天門冬氨酸氨基轉移酶等),此特征空間遠大于經(jīng)典Caprini評分量表的20余項,并且可以表達不同特征間的組合,是模型準確率提升的基礎。
3.1.2 預測模型構建階段 應用BP神經(jīng)網(wǎng)絡、隨機森林、集成學習等機器學習算法構建一套面向VTE的人工智能(Artificial Intelligence,AI)風險預測模型,顯著提高VTE篩查的靈敏度和特異性。
3.1.3 Caprini評分量表的對比 經(jīng)過對300份標注數(shù)據(jù)的驗證,模型的靈敏度為80%,特異性為84%,優(yōu)于傳統(tǒng)的評分量表效果,可以作為評分量表的有效補充,減少漏診風險,見表1。同時AI預警模型除了輸出VTE風險評分外還提供該患者的危險因素和保護因素,輔助醫(yī)生更好地對患者VTE風險進行研判。
表1 Caprini評分表與AI模型性能對比(%)
3.2.1 在不降低準確率的前提下,自動評分效率大幅提高 系統(tǒng)應用后改變了原有的人工手動評分方式,改為機器自動評分+人工審核的方式。經(jīng)過與人工手動評分對比發(fā)現(xiàn)機器在自動評分任務中的準確率、召回率與人工手動評分相當,耗時明顯減少,大幅提升醫(yī)生工作效率,見表2。
表2 系統(tǒng)應用前后評分指標對比
3.2.2 針對風險人群的預防措施實施率顯著提升 VTE智能預警平臺大大提升了VTE風險人群的預防措施實施率,同時預防措施更加合理。例如對于出血風險較高患者主要以機械預防措施為主,包括分級加壓彈力襪等;對于出血風險較低的患者以藥物預防或藥物預防聯(lián)合機械預防為主,包括使用低分子肝素等,見表3。
表3 預防措施實施率對比
本文基于多機器學習方法,整合近5年VTE患者歷史診療數(shù)據(jù),對VTE的潛在危險因素進行深度挖掘,進而基于JavaScript語言及B/S架構進行VTE實時預警平臺搭建,系統(tǒng)上線后使用平穩(wěn),在不降低準確率的前提下,自動評分效率大幅提高,針對風險人群的預防措施實施率顯著提升。然而預警平臺仍存在不足,由于VTE患者數(shù)量,即模型訓練樣本數(shù)量有限,模型準確度仍有提高的空間,隨著VTE患者診療數(shù)據(jù)不斷引入模型訓練,模型準確性及自適應性將得到更大提升與完善。通過本研究建立的高緯度危險因素指標體系及實時預警平臺,在當前目標人群應用和初步論證其效果后,下一步將應用到下級醫(yī)聯(lián)體醫(yī)院中,輔助醫(yī)務人員進行VTE專病早期預防及診療工作。同時隨著分子醫(yī)學領域水平不斷提高,對該指標評價體系的科學性、準確性進行評價,持續(xù)完善并不斷擴展和探索更多的研究空間。