鄭繼盛,呂夢雨,宮淑萍,趙曉敏
盡管胰十二指腸切除術(shù)(PD)的死亡率已經(jīng)下降至2%以內(nèi)[1-2],但臨床相關(guān)性術(shù)后胰瘺(clinically relevant postoperative pancreatic fistula,CR-POPF)的發(fā)生率仍然高居于3%~45%的發(fā)生率[3-5],嚴(yán)重危害著病人的圍術(shù)期預(yù)后及生命安全[6-8]。CR-POPF預(yù)測模型可以幫助醫(yī)護(hù)人員對胰瘺高危病人進(jìn)行早期識(shí)別,從而進(jìn)行早期干預(yù)等臨床決策[9]。同時(shí),隨著電子病歷的大量積累以及大數(shù)據(jù)時(shí)代的到來,機(jī)器學(xué)習(xí)(machine learning,ML)變得越來越流行[10-13],機(jī)器學(xué)習(xí)是一門聚焦于計(jì)算機(jī)如何從數(shù)據(jù)中學(xué)習(xí)的科學(xué)學(xué)科,匯聚統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)為一身[12]。與傳統(tǒng)Logistic回歸構(gòu)建的預(yù)測模型相比,機(jī)器學(xué)習(xí)算法具有更強(qiáng)大的從數(shù)據(jù)中提取信息的能力[14],即更能從復(fù)雜的預(yù)測因子與結(jié)局的對應(yīng)中找出規(guī)律,找到更多潛在的預(yù)測因子信息等[15]。基于機(jī)器學(xué)習(xí)算法的風(fēng)險(xiǎn)預(yù)測模型對待數(shù)據(jù)更加包容,對特征的處理及篩選更加靈活,預(yù)測結(jié)局事件的發(fā)生更加精確[16],可以對病人的照護(hù)產(chǎn)生積極的影響[17],已在眾多預(yù)后并發(fā)癥的風(fēng)險(xiǎn)預(yù)測研究中展示出優(yōu)異的表現(xiàn)[18-20]?,F(xiàn)介紹常見的機(jī)器學(xué)習(xí)算法及基于機(jī)器學(xué)習(xí)算法的胰瘺預(yù)測模型,以期為臨床實(shí)踐和后續(xù)研究提供參考。
1.1 CR-POPF CR-POPF是胰腺導(dǎo)管上皮與其他上皮表面的異常通道,內(nèi)有源自胰腺富含酶類的液體。診斷標(biāo)準(zhǔn)為術(shù)后≥3 d任意量的流液中淀粉酶濃度高于正常血清淀粉酶濃度上限3倍以上,同時(shí)必須有相應(yīng)臨床表現(xiàn)[3]。
1.2 機(jī)器學(xué)習(xí) 機(jī)器學(xué)習(xí)是一門研究計(jì)算機(jī)如何從數(shù)據(jù)中學(xué)習(xí)并挖掘信息的科學(xué)學(xué)科。主要是用某些算法指導(dǎo)計(jì)算機(jī)利用已知數(shù)據(jù)得出適當(dāng)?shù)哪P?,并利用此模型對新的情境給出判斷的過程。機(jī)器學(xué)習(xí)根據(jù)所處理數(shù)據(jù)種類的不同,可以分為有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)等類型。監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)應(yīng)用較多,其中監(jiān)督機(jī)器學(xué)習(xí)算法已經(jīng)被廣泛用于分類或預(yù)測疾病癥狀的發(fā)生發(fā)展[21]。常見的無監(jiān)督學(xué)習(xí)算法包括邏輯回歸(Logistic Regression,LR)、支持向量機(jī)(support vector machine,SVM)、K-近鄰法、決策樹(decision tree,DT)、隨機(jī)森林(random forest,RF)、極限梯度提升、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN;或neural network,NN)等[22]。
2.1 LR LR是一種傳統(tǒng)的統(tǒng)計(jì)學(xué)方法,被應(yīng)用于機(jī)器學(xué)習(xí)中解決二分類問題。LR模型是一種概率模型,是以某一事件發(fā)生與否的概率P為因變量,以影響P的因素為自變量建立的回歸模型,分析某事件發(fā)生的概率與自變量之間的關(guān)系,是一種非線性回歸模型。LR模型優(yōu)點(diǎn)在于簡單易行,計(jì)算負(fù)擔(dān)較小,算法經(jīng)典,操作方法與結(jié)果呈現(xiàn)更加成熟。缺點(diǎn)在于模型可能存在欠擬合、精度不高等問題,此外模型假設(shè)較為嚴(yán)格,如線性關(guān)系,無強(qiáng)影響點(diǎn),無多重共線性等假設(shè)。
2.2 SVM SVM是由Cortes等[23]引入的基于統(tǒng)計(jì)學(xué)習(xí)理論中VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理基礎(chǔ)上的機(jī)器學(xué)習(xí)方法[24]。SVM意于找到一條將數(shù)據(jù)分類的最優(yōu)超平面,超平面類型隨數(shù)據(jù)維度而變化,其通過最大化超平面及安全邊際來尋找最優(yōu)系數(shù),從而得到最佳分類表現(xiàn)。SVM有著可以解決小樣本、高維度及非線性特征等問題的優(yōu)點(diǎn),且模型泛化能力較強(qiáng)。但在處理非線性問題時(shí),需要選擇合適的核函數(shù),常用的核函數(shù)包括:線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基核函數(shù)及sigmod核函數(shù),對于解決該問題,可能需要多次的參數(shù)調(diào)節(jié)以獲得特定數(shù)據(jù)集的最優(yōu)參數(shù)。此外SVM對于數(shù)據(jù)缺失敏感,且僅適用于處理二分類問題。
2.3 決策樹 決策樹可用于對分類結(jié)局與連續(xù)結(jié)局的預(yù)測,分別為分類樹與回歸樹。其表現(xiàn)為樹形結(jié)構(gòu)的模型形狀來描述數(shù)據(jù)分類,其樹的根為輸入數(shù)據(jù),通過多次樹杈分裂,最終連接到葉節(jié)點(diǎn)(即終端節(jié)點(diǎn)),完成對結(jié)局的預(yù)測或歸類[25]。這種自上而下的過程叫做“遞歸劃分”,而這個(gè)過程是貪婪的,意為每次分裂都追求最小化的錯(cuò)誤預(yù)測或分類,這會(huì)導(dǎo)致模型偏差變小,方差變大,造成模型的過擬合。決策樹的優(yōu)點(diǎn)在于模型易于理解與解釋,容易發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律以支持臨床決策,并且也適用于非線性數(shù)據(jù),對于數(shù)據(jù)缺失等問題的包容性較強(qiáng)[26]。
2.4 隨機(jī)森林 隨機(jī)森林是一種較新型、高度靈活的機(jī)器學(xué)習(xí)算法,其能夠用于分類和回歸問題,在醫(yī)療領(lǐng)域常用作疾病預(yù)測模型的構(gòu)建[27]。RF基于集成學(xué)習(xí)的核心思想[28],將多棵決策樹合并在一起,以單棵決策樹作為基本單元,以獲取更優(yōu)的預(yù)測表現(xiàn)。RF在緩解了決策樹的過擬合問題的同時(shí),又提高了模型的精度。但RF并沒有繼承決策樹強(qiáng)大的解釋性,且在低維及小數(shù)據(jù)集的表現(xiàn)較差。
2.5 ANN ANN是基于模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的一種信息處理系統(tǒng)[29]。其核心原理是模擬人腦思維的運(yùn)行方式。ANN將整個(gè)思維過程分為輸入層、隱藏層和輸出層,輸入層即預(yù)測因子,隱藏層存在的神經(jīng)元通過調(diào)整各節(jié)點(diǎn)之間的連接權(quán)重值進(jìn)行信息處理,輸出層呈現(xiàn)歸類結(jié)果。ANN在分類問題中準(zhǔn)確度極高,并且對待非線性或未知關(guān)系等各種數(shù)據(jù)問題有著較強(qiáng)的容錯(cuò)能力[30]。但ANN對于小數(shù)據(jù)集同樣存在容易過擬合的問題,且在隱藏層的學(xué)習(xí)過程不可知,模型可解釋能力較差。
3.1 回歸樹模型在CR-POPF預(yù)測中的應(yīng)用 Perri等[31]前瞻性地分析了2017年7月—2019年12月各在2所醫(yī)院行胰十二指腸切除術(shù)的病人,根據(jù)醫(yī)院不同劃分訓(xùn)練集(566例)與驗(yàn)證集(456例)。作者將訓(xùn)練集中單因素分析P小于0.2以及可能存在臨床潛在影響的變量納入多變量邏輯回歸方程,經(jīng)邏輯回歸后在訓(xùn)練集中確定主胰管直徑(MPD)、美國麻醉醫(yī)師協(xié)會(huì)(ASA)麻醉風(fēng)險(xiǎn)評分以及體質(zhì)指數(shù)(BMI)與CR-POPF獨(dú)立相關(guān)(P<0.05),通過遞歸分隔回歸樹來確定出最能預(yù)測CR-POPF的變量。最終,構(gòu)建出了由MPD直徑與BMI構(gòu)成的回歸樹模型,AUC為0.70(95% CI:0.63~0.77),其中MPD的截?cái)嘀禐? mm(<5 mm與≥5 mm),BMI的截?cái)嘀禐?5 kg/m2(<25 kg/m2與≥25 kg/m2),作者依此模型將訓(xùn)練集病人分為低中高CR-POPF風(fēng)險(xiǎn)層級(jí),并驗(yàn)證不同風(fēng)險(xiǎn)組之間CR-POPF風(fēng)險(xiǎn)存在顯著性差異。使用相同的變量與截?cái)嘀担摶貧w樹模型在驗(yàn)證集中的表現(xiàn)依舊較好,AUC為0.65(95% CI:0.59~0.61),但驗(yàn)證集中的風(fēng)險(xiǎn)分層中低風(fēng)險(xiǎn)組與中風(fēng)險(xiǎn)組的CR-POPF風(fēng)險(xiǎn)并無統(tǒng)計(jì)學(xué)差異。該研究提供了一個(gè)簡單易行可重復(fù)的臨床預(yù)測CR-POPF風(fēng)險(xiǎn)工具,在有其預(yù)測精度的前提下,其操作僅一步或兩步便可對病人發(fā)病風(fēng)險(xiǎn)進(jìn)行分層,有著非常高的臨床實(shí)用性。此外該模型也揭露出MPD直徑與BMI對于CR-POPF的重要影響及影響程度,這充分說明了決策樹模型的“容易發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在規(guī)律以支持臨床決策”的特點(diǎn)[32]。
3.2 RF與NN模型在CR-POPF預(yù)測中的應(yīng)用 Han等[33]回顧性收集2007年1月—2016年12月在韓國首爾三星醫(yī)療中心接受胰十二指腸切除術(shù)的1 769例病人,分析其38個(gè)可能與CR-POPF相關(guān)的術(shù)前及術(shù)中變量,并對數(shù)據(jù)進(jìn)行中位數(shù)插補(bǔ)處理缺失,分類變量設(shè)置啞變量等處理。在變量的篩選上,該研究并沒有使用傳統(tǒng)的基于單因素分析后多因素分析,而是直接使用機(jī)器學(xué)習(xí)算法中的遞歸特征消除(recursive feature elimination,RFE),該算法與逐步回歸篩選變量的思想類似,首先根據(jù)ML算法取得的特征重要性程度,移除最不重要的特征,通過AUC對特征移除前后的模型進(jìn)行比較,最終止于所需要的特征數(shù)量[34]。在不進(jìn)行特征選擇下作者通過RF與NN分別進(jìn)行了3次建模與驗(yàn)證(驗(yàn)證采用重復(fù)10次的5折交叉驗(yàn)證),建模變量與個(gè)案與其AUC分別為:僅分析完整數(shù)據(jù)的38個(gè)變量的數(shù)據(jù)集(RF:0.67,NN:0.74),分析中位數(shù)插補(bǔ)后不含血清C-反應(yīng)蛋白、淀粉酶、脂肪酶和CA19-9水平的34變量數(shù)據(jù)集(RF:0.67,NN:0.72),分析中位數(shù)插補(bǔ)后38變量的數(shù)據(jù)集(RF:0.68,NN:0.71)。而通過RFE對變量篩選后,將CR-POPF風(fēng)險(xiǎn)因素確定為16個(gè),并依照篩選后變量進(jìn)行NN建模后,其AUC由0.71增至0.74,得到了較好的預(yù)測效能。在模型的呈現(xiàn)上,由于NN對于過程的可解釋性差,故最優(yōu)呈現(xiàn)方式即通過網(wǎng)頁計(jì)算器或App進(jìn)行使用,作者將使用了REF的NN模型集成為交互式界面,嵌入于Web網(wǎng)頁中開放訪問與使用(https://popfrisk.smchbp.org/),極大地提升了模型的臨床實(shí)用性。
有研究也通過CT掃描獲取的與胰腺解剖和病人特征相關(guān)的放射學(xué)和形態(tài)學(xué)特征的變量構(gòu)建了LR模型與RF模型[35],在數(shù)據(jù)分析前由于數(shù)據(jù)集中結(jié)局事件的不平衡,作者使用了一種數(shù)據(jù)集擴(kuò)充技術(shù),即合成少數(shù)過采樣技術(shù)(synthetic minority oversampling technique,SMOTE),對少數(shù)類事件生成了更多的樣本[36]。此外,LR模型的變量篩選使用了L1正則化技術(shù)(Lasso回歸),這使構(gòu)建的模型擁有了較小的方差,可以避免過擬合的問題[37-38]。最終LR與RF模型表現(xiàn)分別為0.807與0.749,預(yù)測效能較好。本研究的意義在算法方面,使用了L1正則化的LR模型與RF模型來預(yù)測CR-POPF,表現(xiàn)出了較好的模型性能;同時(shí)在CR-POPF預(yù)測因子方面提出了更為客觀的放射學(xué)與組織學(xué)指標(biāo),增強(qiáng)了模型客觀性與可重復(fù)性。
3.3 深度學(xué)習(xí)在CR-POPF預(yù)測中的應(yīng)用 Mu等[39]使用深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)算法,通過對對比增強(qiáng)CT(contrast-enhanced computed tomography,CE-CT)的定量分析,生成了可以術(shù)前預(yù)測CR-POPF的深度學(xué)習(xí)評分(deep-learning score,DLS)。同時(shí)作者將經(jīng)典的瘺管風(fēng)險(xiǎn)評分系統(tǒng)[40](fistula risk score,F(xiàn)RS)與DLS進(jìn)行預(yù)測CR-POPF效能的比對,結(jié)果表明DLS在訓(xùn)練集、驗(yàn)證集及測試集中表現(xiàn)均優(yōu)于FRS,AUC為:訓(xùn)練集0.85(0.80~0.90)vs.0.78(0.72~0.84);驗(yàn)證集0.81(0.72~0.89)vs.0.76(0.66~0.84)及測試集0.89(0.79~0.96)vs.0.73(0.61~0.83)。同樣有研究也通過基于機(jī)器學(xué)習(xí)算法對非對比增強(qiáng)CT(non-contrast-enhanced computed tomography)所獲得的紋理特征進(jìn)行CR-POPF預(yù)測,并在該數(shù)據(jù)集中使用FRS與替代胰瘺風(fēng)險(xiǎn)評分[41](alternative fistula risk score,a-FRS)與其ML的預(yù)測效能進(jìn)行比較,結(jié)果表明基于ML的紋理特征分析對CR-POPF的預(yù)測效能最高(AUC:0.95 vs.0.76/0.72)。
真實(shí)臨床環(huán)境下CR-POPF的高發(fā)生率決定了其預(yù)測模型需要更高的準(zhǔn)確性與實(shí)用性來支持臨床決策與管理,以降低CR-POPF發(fā)生率及其帶來的不良臨床影響。機(jī)器學(xué)習(xí)算法得益于日趨增加的臨床數(shù)據(jù),也發(fā)展于研究者對臨床結(jié)局事件預(yù)測精度的追求,不同的數(shù)據(jù)需要匹配不同的機(jī)器學(xué)習(xí)算法與模型呈現(xiàn)方式,在這一方面外文文獻(xiàn)表現(xiàn)較好,但目前國內(nèi)尚無基于機(jī)器學(xué)習(xí)算法的CR-POPF預(yù)測模型的研究。希望未來進(jìn)一步增加對CR-POPF模型的開發(fā),以及使模型應(yīng)用機(jī)器學(xué)習(xí)等算法提高預(yù)測效能與臨床實(shí)用性。