張婭峰,龔 振
(華南理工大學,廣東 廣州 510641)
“AI+醫(yī)療”目前成為熱門領域,將AI技術應用到醫(yī)療領域是發(fā)展的大趨勢,近年來,許多成功的研究成果發(fā)表在《Nature》、《Cell》、《JAMA》、《NEJM》等頂級期刊上,受到了學業(yè)界、工業(yè)界和監(jiān)管機構的極大關注。人工智能,特別是深度學習,是開始用于解釋醫(yī)學影像和電子健康記錄的主要技術工具之一。而在ICU科室,因為收治患者的特殊性,每位患者都包含大量的實時生命體征數(shù)據(jù)以及其他干預、實驗室檢查等數(shù)據(jù),是人工智能應用的完美場景[1-2]。目前已有大量研究以患者死亡風險作為預測任務進行建模[3-5],因為預測患者的死亡風險,可以合理分配搶救的資源,及早地進行干預以提高患者的生存率,該任務主要根據(jù)固定的時間間隔(通常是入ICU后的前24小時)的數(shù)據(jù)進行預測,不包含患者在整個ICU住院期間不斷產(chǎn)生的臨床數(shù)據(jù)。一些學者則以特定的疾病發(fā)生為預測任務建立預測模型,通常選定的疾病是會對患者生命造成嚴重影響的。Savin等人通過樹學習模型的機器學習方法對NICU(神經(jīng)重癥監(jiān)護)醫(yī)源性腦室炎、腦膜炎的發(fā)生進行預測,并試圖探究主要影響因素[6]。Jawad I等人則對ICU患者感染性休克發(fā)生的概率進行預測,建立的感染性休克預警模型,使得患者的ICU存活率得到明顯提升[7]。ICU是臨床科室中數(shù)字醫(yī)療設備最多的地方。ICU的設備必須配有床邊監(jiān)護儀、中心監(jiān)護儀、多功能呼吸治療機、麻醉機、心電圖機、除顫儀、起搏器、輸液泵等。這些數(shù)字醫(yī)療設備產(chǎn)生的數(shù)據(jù)、醫(yī)護人員操作的數(shù)據(jù)以及患者在其他科室及實驗室產(chǎn)生的數(shù)據(jù)使得ICU成為多種信息交匯的地方。通常可以大致分為以下幾大類:(1)人口統(tǒng)計學數(shù)據(jù),即患者的姓名、出生日期、出生地等等;(2)生命體征數(shù)據(jù)包括血壓、體溫、心率、心電等,由儀器自動實時采集,頻率為每五秒鐘記錄一次;(3)實驗室檢驗檢查數(shù)據(jù),通常醫(yī)生根據(jù)患者病情做出是否需要做該項檢驗的判斷,從而產(chǎn)生相應的數(shù)據(jù),因此數(shù)據(jù)頻率不確定,可能是一天也可能是幾天;(4)患者的用藥記錄也包括患者的出入量的詳細記錄。這部分數(shù)據(jù)大部分由護士實際操作后記錄下來;(5)干預措施,例如氣管插管或者發(fā)生搶救行為等;(6)醫(yī)生寫的文本格式的病程記錄。而基于這些高維的監(jiān)測數(shù)據(jù),數(shù)據(jù)源嘈雜,稀疏,異構且結果不平衡,預判患者在何時需要進行干預治療對ICU臨床工作人員來說是一項非常具有挑戰(zhàn)性的工作,在不恰當?shù)臅r機進行干預可能會對患者造成二次傷害。相比于人類專家,AI算法在執(zhí)行任務的過程中具有更快的速度、更高的一致性和可重復性,使得臨床醫(yī)生和人工智能在共同工作時能產(chǎn)生1+1>2的協(xié)同效應。
急性腎損傷(AKI)是重癥監(jiān)護病房中感染性休克的患者的常見并發(fā)癥,通常伴隨較高的死亡率[8-10]。大約70%的AKI患者需要進行腎臟替代治療(RRT),住院死亡率超過60%[11]。連續(xù)腎臟替代治療(CRRT)是重癥監(jiān)護室中一種常見的臨床干預措施。通常使用各種用于代謝,溶質和體液控制的參數(shù)來指導治療的開始和終止[12]。CRRT可以提高ICU的存活率,因為它通過調節(jié)乳酸鹽的清除,不可測的陰離子以及磷酸鹽和氯化物的含量來糾正代謝性酸中毒。但ICU患者的連續(xù)腎臟替代療法(CRRT)的提供情況千差萬別,主要還是基于經(jīng)驗主義和當?shù)貦C構的實踐和資源。有經(jīng)驗的醫(yī)生通過長時間在床旁觀察患者實時的生命體征數(shù)據(jù)可以及時發(fā)現(xiàn)患者病情好轉或者惡化的信號,但這個過程非常耗時,并且一位醫(yī)生不能同時兼顧多位患者。機器學習算法可以利用所有可用信息來預測每個患者未來可能發(fā)生的事件,并且能夠捕獲大量隨時間變化的變量之間的復雜關系。因此該文使用機器學習算法對CRRT干預啟動進行建模預測,從歷史干預的數(shù)據(jù)中學習,從而形成相應的預警模型,使得醫(yī)生能夠在忙于搶救某一患者的同時,也不耽誤對其他患者病情的監(jiān)測和預警;同時,在適當?shù)臅r候采取適當?shù)母深A措施對于改善敗血癥性休克腎衰竭患者的醫(yī)院預后非常重要。
算法的迭代步驟如下:
(1)初始化弱學習器:
(1)
(2)對于m=1,2,…,M:
(a)對i=1,2,…M;計算負梯度,即殘差。
(2)
(b)對rmi擬合一個回歸樹,得到第m棵樹的葉節(jié)點區(qū)域Rmy,j=1,2,…,J。
(c)對j=1,2,…,J,計算最佳擬合值。
(3)
(d)更新強學習器。
(4)
(3)得到最終學習器。
(5)
該文數(shù)據(jù)來自于某三甲醫(yī)院,該ICU是國家重點專科所在科室,在功能配置、醫(yī)療技術和管理方面達到世界先進水平。自重癥醫(yī)療信息系統(tǒng)2017年底上線以來,對于患者的數(shù)據(jù)進行了非常詳實的記錄,主要包括:病人基本信息,生命體征觀察項,導管管理,液體管理,護理記錄,病程記錄等,能夠為該文的研究提供精細化的數(shù)據(jù)和優(yōu)質的經(jīng)驗。截至2019年7月,系統(tǒng)采集了大約752位患者ICU記錄。由于80%患者的住ICU時長少于15天,因此將總時長小于6小時(避免沒有充足的信息用來做決策)以及大于360小時(避免一些病情過重的患者)的患者排除,這樣就可以專注于那些通過干預有機會康復的患者。正如大多數(shù)文獻所提到的,該文只考慮每位患者的首次入科的完整記錄。根據(jù)這些條件過濾后,最終獲得了522名患者的隊列。
數(shù)據(jù)預處理是數(shù)據(jù)挖掘中的關鍵步驟,是指在分析建模之前對數(shù)據(jù)進行人為處理,數(shù)據(jù)預處理的質量對后續(xù)數(shù)據(jù)的正確分析具有巨大的影響,甚至決定了最終的性能表現(xiàn)。原始數(shù)據(jù)往往是臟數(shù)據(jù),含有大量的噪聲,數(shù)據(jù)預處理主要是對原數(shù)據(jù)進行清洗,篩選出與研究目的相關的數(shù)據(jù),并去除噪聲。因此對于符合隊列選擇標準的N個患者隊列中的每個患者n,從重癥信息數(shù)據(jù)庫中提取以下三個數(shù)組:臨床觀察的時間序列xn以及相對應的臨床干預狀態(tài)yn,與此同時,還提取了患者靜態(tài)人口學相關信息。
(1)臨床觀察數(shù)組xn=[xn1,xn2,…,xnt,…,xnT]在每一個時刻有34個變量,其中包含生命體征變量:中心靜脈壓,收縮壓,舒張壓,心率,呼吸頻率,體溫,血氧飽和度,吸氧濃度;實驗室檢查指標:陰離子間隙,肌酐,尿素氮,酸堿度,血紅蛋白濃度,鉀離子濃度,乳酸等以及出入量指標(尿量);生命體征數(shù)據(jù)由監(jiān)護儀每5秒鐘產(chǎn)生一次,但是系統(tǒng)通常在5~60分鐘保存一條記錄,實驗室檢查指標通常ICU患者每日至少會抽取動脈血或者靜脈血一次進行檢測從而報告相應的數(shù)值。出入量中的尿量值一定程度上能夠反映患者腎功能的狀況,因此通常每小時記錄一次,數(shù)值為此刻與上一記錄時刻的時間間隔內患者的尿量累計值。在數(shù)據(jù)預處理階段,首先將患者的所有臨床觀測記錄在時間軸上進行對齊,時間索引處理為入科小時數(shù);若同一小時內有多個信號測量值,其中生命體征以及實驗室檢查變量取這些測量結果的平均值;對于尿量值,則取多條記錄的總和。對于記錄中的缺失值,采用前向填充法,即用上一時刻的取值替代,直到有新的測量值產(chǎn)生。
(2)患者n的干預狀態(tài)yn=[yn1,yn2,…,ynt,…,ynT] 是一個二進制時間序列,每一個ynt表示患者n在t時刻是否進行了干預。一位患者進入ICU后可能會發(fā)生多次CRRT干預,該文考慮對患者進入ICU后的首次干預進行預測。
(3)靜態(tài)人口學信息sn包含性別、年齡、身高、體重;以入科時記錄為準,并且在患者的該次ICU住院期間不會發(fā)生改變。基于患者的身高和體重,計算了一個新的BMI變量。對于其中部分患者身高或者是體重的缺失,采取的方法是分男女分別擬合一個身高與體重的回歸方程用于填補缺失值。對于靜態(tài)變量,則將其在每位患者自身的所有時間序列上不斷往后復制。
圖1 數(shù)據(jù)預處理及特征提取
圖2 采樣方式
該文將臨床干預預測問題抽象為機器學習中的二分類問題,因此采用機器學習中常用的準確率(precision)、召回率(recall)以及F1分數(shù)作為實驗的評估指標。準確率是指:對于給定的測試集數(shù)據(jù),被分類器判斷為需要干預的樣本中正確的比例。
(6)
召回率即所有實際發(fā)生干預的患者中被模型預測對的比重。
(7)
與此同時,F(xiàn)1-Score指標可以看作是準確率和召回率的加權平均,綜合了二者的產(chǎn)出的結果。F1-Score的取值范圍從0到1,1代表模型的輸出最好,0代表模型的輸出最差。該文分別對6種參考模型計算precision、recall以及F1-Score進行分類性能對比[19]。
按照7∶3的比例將所有樣本劃分為建模樣本和測試樣本,為保證模型性能的穩(wěn)定性,選用5折交叉檢驗方法進行評估。除迭代決策樹模型外,還對比了邏輯回歸、隨機森林、多層感知機、支持向量機四種參考模型,并使用網(wǎng)格搜索方法,對上述模型分別嘗試了72,72,64,72,72種參數(shù)組合。實驗報告了每個模型在最優(yōu)參數(shù)組合下的預測結果,如表1所示。
表1 五種機器學習模型結果比較
在使用機器學習的分類問題中,準確率和召回率通常是相互影響的。理想的情況是兩者都取得比較高的值。因此,從綜合結果來看,迭代決策樹的準確率和召回率均在0.8以上,F(xiàn)1分數(shù)最高,表現(xiàn)最優(yōu)。其中,邏輯回歸的結果最差,其性能遠低于迭代決策樹模型,這可能是數(shù)據(jù)線性不可分造成的。
就臨床干預預測問題而言,目前利用機器學習方法對ICU臨床數(shù)據(jù)進行干預預測的現(xiàn)有相關文獻大多集中于MIMIC Ⅲ醫(yī)療信息市場的重癥監(jiān)護(MIMIC)數(shù)據(jù)集[20-21]。有研究表明,基于本地電子病歷數(shù)據(jù)開發(fā)的預測模型的預測性能往往高于基于大隊列研究的預測模型。因此,本研究中的結果基于本地數(shù)據(jù),嘗試多種機器學習模型,已經(jīng)達到一定的準確率和召回率,能夠滿足一定的應用需求,高效的分類算法能夠大大節(jié)省臨床醫(yī)生們的時間和精力,并提供重要的輔助信息。在未來的工作中,可嘗試使用深度學習的方法處理這類時間序列數(shù)據(jù),以便能夠更好地提取和利用時間序列數(shù)據(jù)中包含的患者信息,提高預測性能。