曹眾平,熊習安,楊 群
1中南大學湘雅二醫(yī)院臨床護理教研室,湖南 長沙 410011;2中南大學湘雅二醫(yī)院腫瘤中心,湖南 長沙 410011;3中國科學院高能物理研究所實驗物理中心,北京100043
全球腫瘤統(tǒng)計數(shù)據(jù)顯示近年來腫瘤已成為人類主要的疾病致死原因之一,并嚴重影響人類的健康和生活質(zhì)量[1-3]?;熥鳛橹委熌[瘤的主要手段之一,在獲得不錯療效的同時,也帶來了一定程度的副作用。其中化療所致惡心嘔吐(CINV)是對患者影響最大的副作用之一。盡管目前在預防和治療CINV的止嘔劑上取得了很大的進展[4-5],多個國家和地區(qū)對如何預防CINV發(fā)布了對應(yīng)的指導手冊[6-9],但是仍然有高達30%的腫瘤患者未實現(xiàn)對惡心嘔吐癥狀的完全緩解。
加拿大渥太華George團隊首次將患者個人因素納入到CINV風險評估當中,建立了急性CINV和延遲性CINV 的風險預測工具,具備一定的預測能力[10-14]。2013年英國Molassiotis團隊使用Logistic回歸模型構(gòu)建了CINV 風險預測模型,靈敏度為79%,特異度為50%[15]。2014年,基于中國腫瘤患者,中山大學腫瘤醫(yī)院的張力團隊構(gòu)建了第一周期化療CINV列線圖預測模型。該預測模型的一致性指數(shù)為0.67(95%CI:0.62~0.72),擬合優(yōu)度一般[16]。因國內(nèi)外患者地域、個人因素、治療條件和治療方案等差異,國外的風險預測模型不能直接應(yīng)用在中國患者CINV風險預測上。同時,上述模型的預測準確度還有很大的提升空間。而國內(nèi)對CINV風險預測模型的研究相對較少,還停留在CINV影響因素的探討。
對CINV的精準預測和完全預防對患者有著重要意義,也是研究人員和臨床工作者的重要目標,不僅可以改善患者的生存質(zhì)量,提高治療效果,而且可以指導醫(yī)生合理用藥,減少醫(yī)療資源的浪費。本文基于中南大學湘雅二醫(yī)院腫瘤中心收集的300例化療患者樣本,研究樸素貝葉斯分類器在CINV風險預測模型中的應(yīng)用,構(gòu)建適用于中國患者的CINV風險預測模型。
本文收集了2020年7~9月于中南大學湘雅二醫(yī)院腫瘤中心接受化療的患者300例。所有的患者都有明確的腫瘤診斷并且接受了住院化療治療?;颊吣挲g分布在40~60歲之間的比例為52.5%,60歲以上的比例為35.2%,樣本中的男女比例為1.67?;颊咚寄[瘤分布為胸部腫瘤24.6%,婦科腫瘤14.3%,胃腸道腫瘤18.6%,頭頸部腫瘤17.9%。76.5%的患者處于腫瘤Ⅲ期或Ⅳ期,20.9%患者有妊娠惡心的癥狀史,48.2%有長期飲酒史,41.5%患者預期在化療期間會發(fā)生CINV,詳細數(shù)據(jù)分布見表1?;颊咧委煼桨钢?6.4%的患者使用鉑類藥物,詳細治療方案分布見表2。急性CINV發(fā)生占比為43.7%,延遲性CINV發(fā)生占比為69.0%。
記錄患者住院期間和化療結(jié)束后連續(xù)5 d的相關(guān)信息。數(shù)據(jù)收集參考CINV相關(guān)研究[10-18],包括患者的基本信息、個人因素相關(guān)信息和治療相關(guān)信息。
? 基本信息:性別;年齡;腫瘤類型;腫瘤分期;第幾次化療和化療前晚睡眠時間。
? 惡心嘔吐史:如非首次化療的患者,上一周期化療是否發(fā)生惡心嘔吐;女性患者是否有過妊娠嘔吐反應(yīng)。我們使用是/否來記錄該變量,在男性的妊娠嘔吐反應(yīng)選項置為負數(shù),方便后期數(shù)據(jù)處理。
? 是否習慣性飲酒。
? 是否存在并發(fā)癥如心血管疾病、糖尿病、胃腸道疾病、甲狀腺相關(guān)等慢性疾病。
? 化療前是否有以下癥狀:惡心、嘔吐、疼痛、食欲減退。
? 化療前是否會預期惡心嘔吐。
? 焦慮狀態(tài):我們使用SAS[18]來評估患者的焦慮狀態(tài)。
? 使用高致吐化療藥物的化療方案:鉑類藥物,蒽環(huán)類藥物,氮芥類藥物,氮烯咪胺。
表1 患者基本信息分布Tab.1 Basic information of the patients
表2 患者治療方案特征分布Tab.2 Characteristics of the patient treatment plans
? 止吐方案:止吐方案分為化療前止吐方案和化療后止吐方案,用藥有糖皮質(zhì)激素、5-羥色胺(5-HT3)受體拮抗劑、NK-1 受體拮抗劑、奧氮平、其它或者上述幾種藥物聯(lián)合使用。
? 惡心嘔吐:患者每次化療后一天收集惡心嘔吐等級作為急性CINV的結(jié)果,化療結(jié)束后持續(xù)記錄5 d作為延遲性CINV的結(jié)果,其中惡心嘔吐等級使用NCICTCAE標準[20]來記錄。最后,使用五點李克特量表計算綜合惡心嘔吐等級[21]。在此研究中,惡心嘔吐等級大于等于2作為結(jié)局指標。
機器學習是一門人工智能科學,可以通過數(shù)據(jù)或以往的經(jīng)驗自動改進計算機算法的研究。機器學習分為監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習和強化學習,廣泛用在分類、回歸、聚類、優(yōu)化等問題上。機器學習有很多算法,比如決策樹、支持向量機、神經(jīng)網(wǎng)絡(luò)、貝葉斯等[22]。相比于傳統(tǒng)量表的方法,機器學習可以處理更加復雜的患者指標和CINV結(jié)果之間的關(guān)系,機器學習算法會根據(jù)現(xiàn)有的數(shù)據(jù)學習到數(shù)據(jù)中的規(guī)律,并且在測試樣本上得到很好的預測效果。
1.3.1 統(tǒng)計學方法和工具 本文中所有數(shù)據(jù)均使用python進行處理[23-24],使用pandas進行數(shù)據(jù)預處理[25],使用機器學習庫scikit-learn 進行模型構(gòu)建[26],使用matplotlib進行圖形繪制[27],使用SciPy進行置信區(qū)間估計[28]。數(shù)據(jù)結(jié)果都以均數(shù)±標準差表示,同時給出95%CI下的置信區(qū)間。檢驗水準α=0.05。
1.3.2 模型選擇 本研究中的CINV風險預測是一個典型的監(jiān)督學習問題,從給定的訓練數(shù)據(jù)集中學習出一個函數(shù),當新的數(shù)據(jù)到來時,可以根據(jù)這個函數(shù)預測結(jié)果。監(jiān)督學習的訓練集和驗證集需要包括特征和目標。在本研究中,數(shù)據(jù)集的特征包括患者的個體基本信息和治療方案(表1、2)。目標即患者發(fā)生CINV的情況。在機器學習算法的選擇上,考慮到本研究樣本規(guī)模較小,在樣本特征空間中可能存在缺失值,同時樸素貝葉斯分類器的一個優(yōu)勢在于只需要根據(jù)少量的訓練數(shù)據(jù)估計出必要的參數(shù)(變量的均值和方差)[29]。由于變量獨立假設(shè),只需要估計各個變量的方差,而不需要確定整個協(xié)方差矩陣[19]。所以我們使用樸素貝葉斯分類器建立CINV風險預測模型。從數(shù)據(jù)的分布可以得知,大多數(shù)的特征的取值可以量化為0和1,我們使用適用于離散特征的伯努利樸素貝葉斯分類器。
1.3.3 模型訓練和評估 本文使用機器學習庫scikit-learn中的樸素貝葉斯分類器作為化療所致惡心嘔吐風險預測模型。在收集的300例樣本中,70%的樣本作為訓練樣本用來訓練機器學習模型,30%的樣本作為測試集用來衡量模型的表現(xiàn)。
在特征選擇上,樸素貝葉斯要求各個特征之間需要相互獨立。為此分析了各個特征之間的相關(guān)性,并去掉了相關(guān)性大于0.8 的特征變量,保證最后進入模型訓練的特征滿足弱相互獨立。我們分析了關(guān)聯(lián)性大于0.8的特征組合A,B(表3)。在分別去掉特征A和特征B后,計算與未去掉特征A 和特征B 之前的ROC值的差值。其中正數(shù)代表去除該特征之后ROC值變大,負數(shù)代表去除改特征之后ROC值變小。特征去除規(guī)則是特征去除之后,模型ROC有正向收益或者有相對較大的收益。我們?nèi)コ鼼ender,Use of nonprescribed antiemetics at home,NK-1 receptor antagonist used as post-chemotherapy anti-emetics三個特征量。從分析結(jié)果來看,去掉以上三個特征對分類結(jié)果都有一定程度的提升。我們使用10折分層隨機分割交叉驗證[26,30]來確定模型的最終結(jié)果。
表3 CINV風險預測模型特征關(guān)聯(lián)性分析Tab.3 Correlation analysis of characteristics of the risk prediction model for chemotherapy-induced nausea and vomiting(CINV)
在模型的評價指標上,使用在機器學習領(lǐng)域和醫(yī)學領(lǐng)域廣泛使用的受試者特征曲線(ROC),曲線下面積(AUC)來評估模型在測試集上的表現(xiàn)[31]。同時使用了在醫(yī)學領(lǐng)域常用的敏感度和特異度作為衡量模型的指標。
在本分析中,基于中國腫瘤患者的數(shù)據(jù),得到了基于樸素貝葉斯分類器的CINV風險預測模型。最終進入急性和延遲性CINV預測模型的患者特征包括:年齡、女性患者是否有過妊娠嘔吐反應(yīng)、是否習慣性飲酒、是否存在基礎(chǔ)疾病、腫瘤類型、腫瘤分期、第幾周期化療、非首次化療患者,上一周期化療發(fā)生惡心嘔吐、化療前是否預期會發(fā)生惡心嘔吐、化療前癥狀、焦慮等級、化療方案是否使用高致吐藥物、化療前晚睡眠時間、化療前是否使用糖皮質(zhì)激素、化療前是否使用5-羥色胺(5-HT3)受體拮抗劑、化療前是否使用NK-1 受體拮抗劑、化療后是否使用糖皮質(zhì)激素、化療后是否使用5-羥色胺(5-HT3)受體拮抗劑。
急性化療所致惡心嘔吐風險預測靈敏度為0.83±0.04(95%CI:0.80~0.86),特異度為0.45±0.03(95%CI:0.42~0.47),曲面下面積為0.72±0.04(95%CI:0.69~0.75)(圖1)。延遲性化療所致惡心嘔吐風險預測靈敏度為0.84±0.01(95%CI:0.83~0.86),特異度為0.48±0.03(95%CI:0.45~0.52),曲面下面積為0.74±0.02(95%CI:0.72~0.77)(圖2)。
圖1 急性CINV預測模型ROC曲線圖Fig.1 ROC curve for acute CINV prediction model.Red dotted line indicates the result of random guesses(the closer the curve is to the upper left corner,the better the performance of the model).
圖2 延遲性CINV預測模型ROC 曲線圖Fig.2 ROC curve for delayed CINV prediction model.Red dotted line indicates the result of random guesses(the closer the curve is to the upper left corner,the better the performance of the model).
相比于其他團隊的模型結(jié)果,基于樸素貝葉斯分類器的風險預測模型在AUC上具有更好的表現(xiàn),具有更高的預測準確度。在靈敏度和特異度上也有不錯的表現(xiàn)。模型在測試集上的表現(xiàn)見表4。
CINV 是化療帶來的嚴重副作用之一,嚴重影響患者的生存質(zhì)量和治療信心。延遲性嘔吐更多發(fā)生在患者出院之后,相對于急性CINV,醫(yī)生更難提供幫助。沒有得到良好控制的CINV可導致治療延誤、劑量減少、止吐?lián)尵戎委煛⑨t(yī)療資源使用增加,甚至過早停止化療[32]。本研究的樣本中,急性CINV 發(fā)生比例高達43.7%,延遲性CINV 發(fā)生比例高達69.0%。因此,對CINV進行準確的預測并且進行有效的控制對患者有著至關(guān)重要的作用。
本研究首次將樸素貝葉斯分類器應(yīng)用在中國患者CINV風險預測中,模型納入個人風險因素,同時考慮化療方案,從而識別高危患者。憑借著機器學習其高度的靈活性,處理復雜特征與結(jié)果之間關(guān)系的優(yōu)秀能力,本研究中急性CINV風險預測模型曲面下面積為0.72±0.04(95%CI:0.69~0.75),延遲性CINV風險預測模型曲面下面積為0.74±0.02(95%CI:0.72~0.77),高于加拿大渥太華George 團隊的0.69(95%CI:0.59~0.79)和0.70(95%CI:0.60~0.80)[13],本研究中的模型具有更高的預測準確度。
在本研究中,我們選取了比較高的敏感度(準確鑒別出CINV患者的衡量指標),相對較低的特異度(準確鑒別出非CINV患者的衡量指標)。雖然較低的特異度會造成該模型將部分非CINV患者歸類為CINV陽性,但模型會很好的鑒別出CINV患者,給與臨床醫(yī)生根據(jù)患者的嘔吐風險進行治療、合理化使用昂貴止吐藥的機會,減少患者CINV發(fā)生的幾率。本研究中急性和延遲性CINV預測模型在敏感度指標上都優(yōu)于加拿大渥太華George團隊的0.69和0.70,也高于Molassiotis團隊的0.79。在特異度指標上略低于加拿大渥太華George團隊的0.52,0.50和Molassiotis團隊的0.50[10-16]。
表4 基于樸素貝葉斯分類器方法的CINV風險預測模型與其他研究結(jié)果對比Tab.4 Comparison of CINV prediction model based on machine learning method with other research models
中國在CINV風險預測模型上的研究還比較滯后,尚未形成基于中國患者的CINV風險預測模型?;跇闼刎惾~斯分類器的風險預測模型在測試集上表現(xiàn)出了很好的預測效果,為CINV風險預測模型提供新的研究方向和思路??梢灶A期,基于樸素貝葉斯分類器的CINV預測模型能夠幫助醫(yī)生提前做好止嘔藥物治療或預防,預防急性、延遲性CINV的發(fā)生。
綜上所述,基于樸素貝葉斯分類器的CINV風險預測模型具有很好預測效果,該方法在測試集上是有效的且優(yōu)于國外量表結(jié)果。我們今后將進行更大樣本量的模型優(yōu)化、外部驗證和對比實驗。