鄧少琦,林丹丹,劉鑫杰,柴芳時(shí),陳杰桓
腸鏡檢查前的腸道準(zhǔn)備一直是內(nèi)鏡領(lǐng)域中一個(gè)受人關(guān)注的話題,良好的腸道準(zhǔn)備能提高腺瘤檢出率,減少漏診,降低結(jié)直腸癌發(fā)生的風(fēng)險(xiǎn)[1]。國(guó)內(nèi)外對(duì)于影響腸道準(zhǔn)備因素的討論非常多,其中包括以下各種人口學(xué)特征或臨床特征:性別、年齡、體重指數(shù)、糖尿病病史、便秘病史、飲食習(xí)慣等[2-3],但這些研究尚未建立一個(gè)系統(tǒng)的預(yù)測(cè)模型。因此基于簡(jiǎn)單的人口學(xué)特征或臨床資料,建立準(zhǔn)確有效的風(fēng)險(xiǎn)預(yù)測(cè)模型,有助于篩查出腸道準(zhǔn)備不足高危人群。近年來(lái)隨著人工智能學(xué)科的風(fēng)靡,與其相關(guān)的機(jī)器學(xué)習(xí)及深度學(xué)習(xí)的算法被帶到包括醫(yī)療等各個(gè)領(lǐng)域[4]。我們嘗試?yán)枚喾N人工智能算法對(duì)腸道預(yù)測(cè)問(wèn)題進(jìn)行分析,并和經(jīng)典的logistic回歸算法進(jìn)行對(duì)比,選出最佳的統(tǒng)計(jì)學(xué)模型,并從中探討兩類算法在臨床研究中統(tǒng)計(jì)分析中的優(yōu)缺點(diǎn)。
選取2019年1月至2019年7月來(lái)我院區(qū)行結(jié)腸鏡檢查的門診及住院患者作為訓(xùn)練集隊(duì)列,2019年8月至2019年12月就診的患者為驗(yàn)證集隊(duì)列。納入標(biāo)準(zhǔn):年齡18~80歲,性別不限。排除標(biāo)準(zhǔn):①患有腸道腫瘤、腸梗阻;②未嚴(yán)格執(zhí)行本研究規(guī)定的腸道準(zhǔn)備方案;③嚴(yán)重的心腦血管等基礎(chǔ)疾?。虎鼙匾男畔①Y料不全。
檢查前一天晚餐建議在20:00前進(jìn)食完畢,20:00后禁食但可飲水,禁水時(shí)間為檢查當(dāng)天早上06:00。檢查前天晚上21:30服用第一次瀉藥:和爽1包加水1 000 mL飲用,在1 h內(nèi)喝完,飲完后可以繼續(xù)飲水。服用瀉藥期間請(qǐng)多走動(dòng),順時(shí)針按摩腹部,以促進(jìn)排便。檢查當(dāng)天凌晨04:00左右再次服用瀉藥:和爽2包加水2 000 mL飲用,在1.5 h飲用完畢,飲完后繼續(xù)飲水500~1 000 mL。檢查當(dāng)天早上06:00后禁水。
結(jié)腸鏡診療前,使用波士頓評(píng)分標(biāo)準(zhǔn)(boston bowel preparation scores,BBPS)[5]評(píng)估患者腸道準(zhǔn)備質(zhì)量。研究以波士頓評(píng)分為結(jié)局變量,總分≤6定義為腸道準(zhǔn)備不佳,為準(zhǔn)備不佳組;將7~9分定義為腸道準(zhǔn)備充分,為準(zhǔn)備充分組。本研究根據(jù)既往研究報(bào)道[6-8],盡可能地納入更多影響腸道準(zhǔn)備的預(yù)測(cè)因素,其中包括年齡、性別、BMI指數(shù)、有無(wú)便秘病史、服用瀉藥后不適癥狀等19個(gè)變量,其中便秘的等級(jí)分類依據(jù)來(lái)自于我國(guó)的2019年的《中國(guó)慢性便秘專家共識(shí)意見》[9];服瀉藥后不適癥狀定義為完全服用瀉藥1小時(shí)候后所出現(xiàn)的惡心、腹脹、嘔吐三種由輕到重的癥狀,如果同時(shí)出現(xiàn)兩種或以上癥狀,則分類編碼取較嚴(yán)重者;檢查間隔時(shí)間定義為最后一次排便至接受檢查的時(shí)間間隔,根據(jù)我科既往的研究,將其分為四個(gè)時(shí)間段[10]。對(duì)患者的宣教方式則結(jié)合我科實(shí)際情況及既往的薈萃研究進(jìn)行分類[11]。變量類型為二分類或有序多分類(表2)。資料的收集通過(guò)門診病歷系統(tǒng)回顧性收集或電話隨訪所得。
本研究為回顧性病例對(duì)照研究,采用的核心統(tǒng)計(jì)學(xué)方法是logistic回歸建模。根據(jù)Courvoisier等[12]研究,采用基于最大似然估計(jì)(MLE,maximum likelihood estimate)的Wald方法時(shí),結(jié)局事件需要在預(yù)測(cè)變量的10倍以上時(shí),才可保證回歸分析結(jié)果穩(wěn)健。本研究納入了19個(gè)預(yù)測(cè)變量,最后訓(xùn)練集隊(duì)列納入455例研究對(duì)象,其中準(zhǔn)備不佳組有195例,準(zhǔn)備充分組有260例;納入驗(yàn)證集隊(duì)列302例,其中準(zhǔn)備不佳組有134例,準(zhǔn)備充分組有166例。共納入病例數(shù)757例。
所有數(shù)據(jù)的處理使用R3.4.3和SPSS24軟件完成,主要用到的R包有‘glmnet’、‘dplyr’、‘caret’、‘neuralnet’[13]等,雙側(cè)檢驗(yàn)P<0.05表示差異具有統(tǒng)計(jì)學(xué)意義。①統(tǒng)計(jì)描述及單因素分析:本研究所納入的預(yù)測(cè)變量及結(jié)局變量均為二分類或有序多分類資料,在基線特征描述時(shí)采用卡方檢驗(yàn)對(duì)比兩組間差異。②構(gòu)建logistic回歸模型:在單因素分析中篩選出有意義的預(yù)測(cè)變量,建立向前逐步Logistic回歸模型。用logistic回歸后調(diào)整混雜后得出有意義的變量,以其β系數(shù)值最小的變量為基準(zhǔn),每個(gè)子得分是logistic回歸模型的β系數(shù)除以此系數(shù)后,并四舍五入最接近的整數(shù)值,得出腸道準(zhǔn)備預(yù)測(cè)評(píng)分系統(tǒng)。④人工智能算法建模:調(diào)用neuralnet、rpart、randomForest、e1071程序包,分別建立神經(jīng)網(wǎng)絡(luò)、分類樹、隨機(jī)森林、支持向量機(jī)模型。⑤對(duì)比分析Logistic回歸模型和幾個(gè)人工智能算法模型的AUC和NRI。R軟件版本為3.4.3,神經(jīng)網(wǎng)絡(luò)設(shè)定中,考慮到納入的特征變量有19個(gè),訓(xùn)練集為455例,所以網(wǎng)絡(luò)中權(quán)重矩陣中的系數(shù)不應(yīng)大于455,否則權(quán)重系數(shù)難以訓(xùn)練。所以設(shè)置兩層隱藏層,每層5個(gè)神經(jīng)元,一個(gè)輸出層,兩個(gè)神經(jīng)元對(duì)應(yīng)二分類任務(wù)。輸入層與第一層的權(quán)重系數(shù)矩陣為(19,5),第一層隱藏層與第二次隱藏層的權(quán)重系數(shù)矩陣為(5,5),第二層隱藏層與輸出層的權(quán)重系數(shù)矩陣為(5,2),加上每層的偏置,共有142個(gè)系數(shù)。每層間的激活函數(shù)選用sigmoid函數(shù),隨機(jī)數(shù)種子設(shè)定為99。
進(jìn)入研究的患者分為455例訓(xùn)練集隊(duì)列與302例驗(yàn)證集隊(duì)列,患者變量特征所占比例如表1。
表1 訓(xùn)練集隊(duì)列與驗(yàn)證集隊(duì)列的變量特征[n(%)]
在單因素分析中(表2),BMI指數(shù)、最后一次排便至開始檢查的候診時(shí)間、服瀉藥后不適癥狀、患者教育程度、宣教方式、飲酒習(xí)慣、術(shù)前有無(wú)高纖維飲食、糖尿病、肝硬化、中風(fēng)病史病史、腹部手術(shù)史、便秘情況、術(shù)前有無(wú)活動(dòng)13個(gè)預(yù)測(cè)變量與腸道準(zhǔn)備不足相關(guān)(P<0.05)。
表2 訓(xùn)練集隊(duì)列基線資料
經(jīng)logistic回歸進(jìn)行混雜因素的調(diào)整后,發(fā)現(xiàn)BMI、服瀉藥后不適癥狀、宣教方式、便秘情況、術(shù)前是否高纖維飲食、糖尿病病史、術(shù)前積極活動(dòng)7個(gè)預(yù)測(cè)變量為影響腸道準(zhǔn)備的獨(dú)立因素,其中術(shù)前高纖維飲食與積極活動(dòng)是保護(hù)性因素。根據(jù)BMI為24~26.9的系數(shù)值(β=0.81)為基準(zhǔn),每個(gè)獨(dú)立危險(xiǎn)因素的子得分是logistic回歸模型的β系數(shù)除以此系數(shù)后,并四舍五入最接近的整數(shù)值,得出腸道準(zhǔn)備風(fēng)險(xiǎn)評(píng)分表。(表3)
根據(jù)logistic回歸模型的公式定義,可得出每個(gè)分值所對(duì)應(yīng)的腸道準(zhǔn)備不佳的概率。評(píng)分系統(tǒng)的范圍為0~12分,可分為低分險(xiǎn)組(0~3分),其準(zhǔn)備不佳的概率在10%以下;中風(fēng)險(xiǎn)組(4~6分)為21.3%~66.9%;高風(fēng)險(xiǎn)組(7~12分)為77.5%~99.6%。當(dāng)評(píng)分≥9分時(shí),腸道準(zhǔn)備不佳的概率已接近100%(圖1)。
在幾個(gè)模型中,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)最佳,其驗(yàn)證集AUC值0.885,其次是隨機(jī)森林,Logistic回歸居第三。隨機(jī)森林模型相比Logistic回歸的NRI為0.08(P>0.05),兩者AUC間差異無(wú)顯著統(tǒng)計(jì)學(xué)意義。神經(jīng)網(wǎng)絡(luò)NRI為0.18,且P<0.05,具有統(tǒng)計(jì)學(xué)顯著性,提示神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)能力優(yōu)于Logistic回歸模型,正確分類的比例提高了18%。見表4。
表4 人工智能算法與Logistic回歸模型的預(yù)測(cè)性能比較
目前國(guó)內(nèi)外對(duì)于預(yù)測(cè)結(jié)腸鏡檢查前影響腸道準(zhǔn)備危險(xiǎn)因素的研究雖然比較多,但很多方面尚存爭(zhēng)議。造成這個(gè)問(wèn)題的原因,除了有研究設(shè)計(jì)的因素也有統(tǒng)計(jì)學(xué)層面的因素。影響腸道準(zhǔn)備的危險(xiǎn)因素?cái)?shù)量眾多,彼此間相互聯(lián)系,很可能存在共線性問(wèn)題。多重共線性(Multicollinearity)是指回歸模型
中的解釋變量之間由于存在較精確相關(guān)關(guān)系或高度相關(guān)關(guān)系而使模型估計(jì)失真或難以估計(jì)準(zhǔn)確。譬如年齡、便秘、糖尿病幾個(gè)因素間在現(xiàn)實(shí)情況下就存在共線性,老年人更容易出現(xiàn)便秘或糖尿病。
既往大部分研究[14-15]都認(rèn)為便秘是影響腸道準(zhǔn)備質(zhì)量的重要因素,但也有研究持相反意見[16]。Yadlapati等[3]也認(rèn)為便秘不是危險(xiǎn)因素,而較低的經(jīng)濟(jì)水平(OR,1.11;95%CI,1.04~1.22)、服用鴉片類藥物或三環(huán)抗抑郁藥(OR,1.55;95%CI,0.98~2.46)、在下午行結(jié)腸鏡檢查(OR,1.66;95%CI,1.07~2.59)是影響腸道準(zhǔn)備差的危險(xiǎn)因素。與許多文獻(xiàn)的結(jié)論一樣[17],我們的研究也認(rèn)為便秘是影響腸道準(zhǔn)備的關(guān)鍵因素,相比沒有便秘既往史的患者,每周排便1次或更少的患者其OR為8.508(95%CI:3.047~23.915)。
我們也發(fā)現(xiàn)糖尿病和術(shù)前活動(dòng)不充分與腸道不足密切相關(guān)(OR:5.233;95%CI:2.458~16.488)。這可能是糖尿病增加了細(xì)胞氧化、凋亡,使腸道運(yùn)動(dòng)神經(jīng)元受損,導(dǎo)致胃腸道運(yùn)動(dòng)功能下降,最終導(dǎo)致便秘[18]。糖尿病患者的便秘既有慢傳輸型便秘,腸道本身蠕動(dòng)能力削弱而引起的便秘,患者腹脹、便秘、缺乏便意;又有出口梗阻型便秘,在排便時(shí)肛門不能正常松弛,患者有排便感覺,但大便費(fèi)力、排不出[19]。另一方面,活動(dòng)不充分的患者一般年老體弱,合并便秘和其他基礎(chǔ)疾病。
與其他研究不同的是,我們認(rèn)為便秘作為胃腸動(dòng)力障礙的一種表現(xiàn),可能與多種因素相關(guān),例如長(zhǎng)期使用阿片類藥物、抗膽堿能藥物,合并中風(fēng)、糖尿病、年齡等。也就是說(shuō)便秘這個(gè)危險(xiǎn)因素可能和多個(gè)因素有交互作用,當(dāng)研究把這些因素都納入分析時(shí),可能會(huì)均攤降低了便秘的作用,從而低估了便秘的風(fēng)險(xiǎn)。我們的研究并沒有納入影響便秘的藥物服用史,因而便秘的OR值其他研究高。
根據(jù)一項(xiàng)薈萃研究分析認(rèn)為[20],比起高劑量的腸道清潔方案,患者對(duì)于低劑量或分次劑量的腸道清潔方案的依從性或完成率更高(RR,1.06;95% CI:1.02~1.10),耐受性也更好(RR,1.39;95% CI:1.12~1.74)更好,這可能是患者在使用低劑量或分次劑量的腸道清潔方案時(shí)更不容易出現(xiàn)嘔吐等不適癥狀。我們的研究發(fā)現(xiàn)患者服用瀉藥后出現(xiàn)嘔吐的不適癥狀會(huì)影響腸道準(zhǔn)備質(zhì)量(OR:3.058;95%CI:1.725~7.122),這可能是出現(xiàn)嘔吐癥狀會(huì)嚴(yán)重影響患者的依從性及服用的瀉藥劑量,從而最終導(dǎo)致患者腸道準(zhǔn)備不足。
為了進(jìn)一步量化評(píng)估各獨(dú)立因素對(duì)腸道準(zhǔn)備質(zhì)量的影響,我們建立了基于logistic回歸的評(píng)分系統(tǒng),其AUC為0.823,其預(yù)測(cè)性能良好。同時(shí)我們也建立了多個(gè)人工智能算法模型與logistic回歸模型比較,分析各自優(yōu)點(diǎn)與缺點(diǎn)。人工智能的概念很寬泛,機(jī)器學(xué)習(xí)是人工智能的一部分,而深度學(xué)習(xí)又是人工智能的一部分。而統(tǒng)計(jì)學(xué)則是和這三者有較大的區(qū)別。諾獎(jiǎng)得主薩金特和任正非都有過(guò)類似的觀點(diǎn):人工智能就是統(tǒng)計(jì)學(xué),只不過(guò)套用了華麗的辭藻[21]:如果一個(gè)程序可以在某個(gè)任務(wù)上,隨著經(jīng)驗(yàn)的增加,效果也可以隨之增加,則稱這個(gè)程序可以從經(jīng)驗(yàn)中學(xué)習(xí)。logistic回歸這種廣義線性模型是根據(jù)數(shù)據(jù)分布進(jìn)行曲線擬合[22],而神經(jīng)網(wǎng)絡(luò)等人工智能算法更像一個(gè)黑箱,通過(guò)驗(yàn)證集反饋修改建模細(xì)節(jié),建立與前者截然不同的非線性模型[23]。
如何篩選出真正影響結(jié)局的因素、變量,在傳統(tǒng)的臨床研究中可以通過(guò)單因素及多因素配合的方法,選定p值的閾值,并結(jié)合專業(yè)理解,從而篩選出獨(dú)立的影響因素。這個(gè)過(guò)程在涉及機(jī)器學(xué)習(xí)、深度學(xué)習(xí)算法的領(lǐng)域中,則稱之為“特征選擇”。常見的特征選擇方法大致分為三類:過(guò)濾法(filter)、包裹法(wrapper)和嵌入法(embedding)[24]。過(guò)濾法是按照特征的發(fā)散性或者相關(guān)性指標(biāo)對(duì)各個(gè)特征進(jìn)行評(píng)分,文中通過(guò)結(jié)合P值的假設(shè)檢驗(yàn)就是其中一種[25]。包裹法是根據(jù)目標(biāo)函數(shù),通常是預(yù)測(cè)效果評(píng)分,每次選擇部分特征,或者排除部分特征[26]。通俗地說(shuō),就是哪些預(yù)測(cè)變量的預(yù)測(cè)準(zhǔn)確率高,就選擇哪些預(yù)測(cè)變量。本研究的幾個(gè)人工智能算法模型都采用了包裹法進(jìn)行特征選擇,多個(gè)模型在納入全部19個(gè)變量時(shí)有著最好的預(yù)測(cè)效果,證明它們能更好地提取數(shù)據(jù)內(nèi)容,處理多重共線性問(wèn)題更有優(yōu)勢(shì)。嵌入法則使用某些機(jī)器學(xué)習(xí)的算法和模型進(jìn)行訓(xùn)練,得到各個(gè)特征的權(quán)值系數(shù),根據(jù)權(quán)值系數(shù)從大到小來(lái)選擇特征[27]。目前在臨床研究中較常見的Lasso回歸是其中之一。
在本研究中,神經(jīng)網(wǎng)絡(luò)能同時(shí)納入19個(gè)變量,模型的預(yù)測(cè)性能較logistic回歸稍好,證明其能更好地提取數(shù)據(jù)內(nèi)容,處理多重共線性問(wèn)題更有優(yōu)勢(shì)。然而它不能提供具體的模型細(xì)節(jié),為結(jié)局事件及各影響因素提供具體的參數(shù)。相比之下,logistic回歸建模過(guò)程較簡(jiǎn)單,而且能提供詳細(xì)的模型參數(shù),為臨床提供有價(jià)值的指導(dǎo)意見[28]。但它在建模前需要一定的數(shù)據(jù)預(yù)處理,譬如要用合理的方法篩選進(jìn)入模型的變量、處理好連續(xù)性變量及分類變量間的關(guān)系等。另一方面,logistic回歸在處理多重共線性和交互作用問(wèn)題上不如神經(jīng)網(wǎng)絡(luò)。在臨床研究中,涉及的數(shù)據(jù)多為結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)表格,更適合傳統(tǒng)的統(tǒng)計(jì)建模方法,人工智能算法優(yōu)勢(shì)并不明顯。而在工業(yè)領(lǐng)域,譬如計(jì)算機(jī)視覺識(shí)別模型或自然語(yǔ)言處理方面,所涉及的數(shù)據(jù)多為矩陣結(jié)構(gòu),數(shù)據(jù)量龐大,且以預(yù)測(cè)效果為向?qū)?,神?jīng)網(wǎng)絡(luò)等模型能發(fā)揮更大的價(jià)值[29]。
綜上所述,我們建立的logistic回歸模型能提供各變量間的參數(shù)細(xì)節(jié),為腸道準(zhǔn)備預(yù)測(cè)提供詳細(xì)的評(píng)分,可用于臨床推廣。對(duì)比之下,神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)效果更好,可為我們目前正在進(jìn)行的以圖像為研究數(shù)據(jù)的腸道準(zhǔn)備視覺識(shí)別模型提供理論依據(jù)。本研究也存在一定的不足,例如在神經(jīng)網(wǎng)絡(luò)建模時(shí),沒有對(duì)隱藏層、激活函數(shù)、損失函數(shù)等超參數(shù)做更細(xì)致地處理。另外,本研究為單中心研究,納入的研究對(duì)象有來(lái)自門診和住院的患者,影響了研究結(jié)論的外推性。本研究最為回顧性對(duì)照研究,預(yù)測(cè)變量的測(cè)量來(lái)自于腸鏡檢查后的問(wèn)卷或電話隨訪調(diào)查,不可避免造成一定的回憶偏倚。