周璐青 廖旭慧 曹學(xué)全 蔣蘇甜
據(jù)2024 年中國(guó)癌癥報(bào)告顯示,胃癌的死亡率(10.1%)位列第3 位[1]。手術(shù)切除和化療是目前能有效提高胃癌患者無(wú)進(jìn)展生存期和總生存率的治療手段,但患者預(yù)后仍然很差,晚期胃癌患者的5 年生存率僅為10%左右[2]。對(duì)胃癌患者進(jìn)行早期的生存預(yù)測(cè)可指導(dǎo)臨床進(jìn)行早期干預(yù),有效改善臨床預(yù)后管理。目前病理分期是臨床常用的指導(dǎo)治療選擇的指標(biāo),但仍然無(wú)法準(zhǔn)確預(yù)測(cè)患者的生存情況[3]。
患者的年齡對(duì)于生存結(jié)局來(lái)說(shuō)是一個(gè)重要因素。一般來(lái)說(shuō),年輕患者可能有更好的生存機(jī)會(huì),因?yàn)樗麄兺ǔ8m合接受侵入性治療[4]。胃癌的發(fā)病率和生存率在男性和女性之間存在差異[5]。在某些地區(qū),男性患者的發(fā)病率較高,但女性患者的生存率較低。也有研究表明隨著腫瘤侵襲的加深,胃癌腫瘤位置會(huì)影響患者的長(zhǎng)期生存[6-7]。病理分期是評(píng)估胃癌患者生存的重要因素之一[8],它考慮了腫瘤大小、淋巴結(jié)受累情況以及是否有遠(yuǎn)處轉(zhuǎn)移。病理分期較早通常與更好的生存率相關(guān)。目前尚無(wú)對(duì)胃癌患者病理信息方面生存預(yù)測(cè)情況的系統(tǒng)研究。近年來(lái),隨著大數(shù)據(jù)和人工智能(artificial intelligence,AI)的深入融合發(fā)展,將臨床病理特征與AI 技術(shù)相結(jié)合的個(gè)性化醫(yī)療方法,正在逐步應(yīng)用于臨床研究[9]。利用臨床常規(guī)的病理檢查結(jié)果,結(jié)合AI 算法形成客觀、高效的輔助生存預(yù)測(cè)模型,將有望為胃癌生存預(yù)測(cè)提供有力的支持。本研究通過(guò)對(duì)200 例胃癌患者的病理信息進(jìn)行分析,篩選與生存結(jié)局高度相關(guān)的指標(biāo),結(jié)合AI 算法構(gòu)建胃癌生存預(yù)測(cè)模型,并在獨(dú)立驗(yàn)證隊(duì)列中驗(yàn)證模型的預(yù)測(cè)效能,以期為胃癌生存預(yù)測(cè)提供新的策略與理論基礎(chǔ)。
1.1 對(duì)象 選取2016 年6 月至2018 年5 月麗水市人民醫(yī)院就診的200 例胃癌患者,男158 例,女42 例,年齡21~89 歲。納入標(biāo)準(zhǔn):(1)術(shù)后病理檢查均證實(shí)為胃癌;(2)術(shù)后病理檢查示腫瘤上、下切緣均為陰性;(3)臨床病理資料及術(shù)后隨訪(fǎng)資料完整可靠。排除標(biāo)準(zhǔn):(1)術(shù)前影像學(xué)檢查證實(shí)腫瘤遠(yuǎn)處轉(zhuǎn)移;(2)術(shù)后30 d內(nèi)死亡;(3)患者因病灶持續(xù)性出血、狹窄等急癥而行局部切除;(4)術(shù)中見(jiàn)腹盆腔廣泛種植轉(zhuǎn)移。本研究經(jīng)麗水市人民醫(yī)院醫(yī)學(xué)倫理委員會(huì)審查通過(guò)(批準(zhǔn)文號(hào):LLW-FO-403),所有患者均知情同意。
1.2 方法 通過(guò)醫(yī)院臨床信息系統(tǒng)收集患者的人口學(xué)信息及臨床資料,包括年齡、性別、生存情況、生存結(jié)局、腫瘤大小、淋巴結(jié)轉(zhuǎn)移、TNM 分期、是否存在神經(jīng)浸潤(rùn)或血管浸潤(rùn)等。腫瘤浸潤(rùn)深度和區(qū)域淋巴結(jié)狀況按國(guó)際抗癌聯(lián)盟和美國(guó)癌癥聯(lián)合委員會(huì)于2010年提出的第七版TNM 分期系統(tǒng)進(jìn)行分類(lèi)。
1.3 隨訪(fǎng) 所有患者均通過(guò)門(mén)診或電話(huà)隨訪(fǎng),術(shù)后第1 年每3 個(gè)月隨訪(fǎng)1 次,從第2 年開(kāi)始,每6 個(gè)月隨訪(fǎng)1次,隨訪(fǎng)時(shí)間5 年,隨訪(fǎng)終點(diǎn)事件為患者死亡或隨訪(fǎng)截止,隨訪(fǎng)截止時(shí)間為2023 年7 月1 日,統(tǒng)計(jì)所有患者結(jié)局情況。
1.4 AI 建模分析 采用10 倍交叉驗(yàn)證法將200 例患者以2∶8 的比例分為建模隊(duì)列40 例和驗(yàn)證隊(duì)列160例。利用建模隊(duì)列構(gòu)建胃癌生存預(yù)測(cè)模型。結(jié)合6 種AI 算法,包括隨機(jī)梯度提升(stochastic gradient boosting,gbm)、廣義線(xiàn)性模型(generalized linear model,glmnet)、邏輯回歸模型(penalized logistic regression,plr)、徑向基函數(shù)核支持向量機(jī)(support vector machines with radial basis function kernel,svmRadial)、貝葉斯模型(naive_bayes)和隨機(jī)森林模型(random forest,ranger),對(duì)建模隊(duì)列的數(shù)據(jù)進(jìn)行AI 學(xué)習(xí)構(gòu)建智能模型。采用5 折交叉驗(yàn)證法獲得各算法的最佳模型。繪制ROC 曲線(xiàn),在約登指數(shù)最大時(shí)選擇最佳截?cái)嘀?。根?jù)各算法建立的最優(yōu)模型,使用AUC、Kappa、準(zhǔn)確度、靈敏度和特異度評(píng)估模型在驗(yàn)證隊(duì)列中的表現(xiàn),選擇綜合表現(xiàn)最穩(wěn)健的算法模型作為最終模型。
1.5 統(tǒng)計(jì)學(xué)處理 采用SPSS 25.0 統(tǒng)計(jì)軟件。正態(tài)分布的計(jì)量資料以表示,組間比較采用兩獨(dú)立樣本t檢驗(yàn);非正態(tài)分布的計(jì)量資料以M(P25,P75)表示,組間比較采用Mann-WhitneyU檢驗(yàn);計(jì)數(shù)資料以例(%)表示,組間比較采用χ2檢驗(yàn)。采用Spearman 秩相關(guān)分析生存情況與病理特征的相關(guān)性,r的絕對(duì)值(|r|)越大,變量間的相關(guān)性越強(qiáng)。采用ROC 曲線(xiàn)進(jìn)行病理特征預(yù)測(cè)胃癌患者生存的效能分析。P<0.05 為差異有統(tǒng)計(jì)學(xué)意義。
2.1 200 例患者的臨床基本特征 200 例患者死亡91例,平均生存時(shí)間為748.50(362.50,1 124.75)d;存活109 例,平均生存時(shí)間為2 230.00(2 009.00,2 425.50)d。其中腫瘤位置在胃竇的患者占比最大(40.5%),其次是賁門(mén)、胃體和其他部位(胃角、幽門(mén)、殘胃),分別占26.0%、18.5%和15.0%。分化程度上主要以低分化和中分化為主,高分化占比較少,僅占4.0%。組織學(xué)類(lèi)型以腺癌為主(81.0%),其他印戒細(xì)胞癌及混合型僅占19.0%。脈管出現(xiàn)癌栓79 例(39.5%),出現(xiàn)神經(jīng)浸潤(rùn)93 例(46.5%),發(fā)生淋巴結(jié)轉(zhuǎn)移114 例(57.0%),腫瘤最大徑≥6 cm 44 例(22.0%),腫瘤分期處于Ⅰ期、Ⅱ期、Ⅲ期的患者分別占比33.0%、21.5%和45.5%,無(wú)處于Ⅳ期的患者,見(jiàn)表1。
表1 200例胃癌患者的臨床基本特征
2.2 胃癌患者的病理特征與生存情況的關(guān)系 存活組與死亡組患者腫瘤最大徑、淋巴結(jié)轉(zhuǎn)移、腫瘤位置、神經(jīng)浸潤(rùn)和TNM 分期分布的差異均有統(tǒng)計(jì)學(xué)意義(均P<0.05),而兩組患者淋巴結(jié)轉(zhuǎn)移、分化程度、組織學(xué)類(lèi)型及脈管癌栓的差異均無(wú)統(tǒng)計(jì)學(xué)意義(均P>0.05),見(jiàn)表2。
表2 胃癌患者的病理特征與生存情況的關(guān)系
2.3 胃癌患者的病理特征與生存結(jié)局的相關(guān)性分析 結(jié)果顯示,患者的腫瘤位置與生存結(jié)局呈負(fù)相關(guān)(P<0.05),腫瘤最大徑、神經(jīng)浸潤(rùn)、淋巴結(jié)轉(zhuǎn)移和TNM 分期與生存結(jié)局均呈正相關(guān)(均P<0.05),見(jiàn)表3。
表3 胃癌患者的病理特征與生存結(jié)局的相關(guān)性分析
2.4 病理特征預(yù)測(cè)胃癌患者生存的效能分析 腫瘤位置、腫瘤最大徑、神經(jīng)浸潤(rùn)、淋巴結(jié)轉(zhuǎn)移、TNM 分期單項(xiàng)指標(biāo)預(yù)測(cè)患者生存的AUC 均>0.500,見(jiàn)表4。
表4 病理特征預(yù)測(cè)胃癌患者生存的效能分析
2.5 預(yù)測(cè)胃癌患者生存的AI 模型構(gòu)建與效能評(píng)估結(jié)果顯示,AUC 最大的模型為gbm 算法,AUC 為0.820;其次是svmRadial 算法,AUC 為0.817;隨后依次是ranger 算法、naive_bayes 算法、glmnet 算法和plr 算法,見(jiàn)圖1。綜合比較6 種算法的多維度考量指標(biāo)發(fā)現(xiàn),基于svmRadial 算法下的5 項(xiàng)病理特征組合生存預(yù)測(cè)模型綜合效能最佳,AUC 為0.817,靈敏度為0.762,特異度為0.833,準(zhǔn)確度為0.795,見(jiàn)圖2A。雖然AUC 不是最佳,但綜合靈敏度、特異度和準(zhǔn)確度來(lái)看其綜合水平較強(qiáng),模型將更為穩(wěn)健。通過(guò)分析svmRadial 算法構(gòu)建的模型中5 項(xiàng)病理特征的貢獻(xiàn)度情況,發(fā)現(xiàn)腫瘤最大徑指標(biāo)在模型構(gòu)建中貢獻(xiàn)度最大,其次是TNM 分期和淋巴結(jié)轉(zhuǎn)移,神經(jīng)浸潤(rùn)和腫瘤位置貢獻(xiàn)較小,見(jiàn)圖2B。
圖1 5 項(xiàng)病理特征聯(lián)合6 種AI 算法構(gòu)建的胃癌生存預(yù)測(cè)模型效能比較
圖2 svmRadial 算法下的5 項(xiàng)病理特征組合生存預(yù)測(cè)模型ROC曲線(xiàn)和指標(biāo)建模貢獻(xiàn)度分析(A:ROC 曲線(xiàn);B:建模貢獻(xiàn)度分析)
2.6 胃癌生存預(yù)測(cè)AI 模型效能驗(yàn)證 經(jīng)過(guò)6 種AI 算法對(duì)建模隊(duì)列進(jìn)行機(jī)器學(xué)習(xí)后,選擇綜合效能最佳的svmRadial 算法下的5 項(xiàng)病理特征組合生存預(yù)測(cè)模型在獨(dú)立驗(yàn)證隊(duì)列(160 例)中進(jìn)行模型效能驗(yàn)證。結(jié)果顯示,在驗(yàn)證隊(duì)列中svmRadial 算法下的5 項(xiàng)病理特征組合生存預(yù)測(cè)模型AUC 為0.624,見(jiàn)圖3。
圖3 svmRadial 算法下的5 項(xiàng)病理特征組合生存預(yù)測(cè)模型在驗(yàn)證隊(duì)列中的ROC 曲線(xiàn)
每年全球新發(fā)胃癌病例近100 萬(wàn)例,其中約一半發(fā)生在中國(guó)[10]。影響胃癌發(fā)病的危險(xiǎn)因素主要包括幽門(mén)螺桿菌感染、飲食習(xí)慣、吸煙等[11]。許多患者在早期無(wú)癥狀,且無(wú)有效的篩查方法診斷早期胃癌。胃癌患者往往診斷時(shí)已為晚期,導(dǎo)致生存和預(yù)后較差。事實(shí)上,胃癌患者的腫瘤病理特征與患者的生存及預(yù)后具有非常顯著的相關(guān)性[12]。通過(guò)臨床隊(duì)列探討胃癌患者的病理特征與生存結(jié)局及預(yù)后的關(guān)系并構(gòu)建生存預(yù)測(cè)模型,對(duì)臨床預(yù)后管理非常有意義。
胃癌生存預(yù)測(cè)模型通常基于患者的臨床和生物學(xué)特征,如年齡、性別、病理分期、腫瘤大小、淋巴結(jié)受累情況、分子生物學(xué)標(biāo)志物等信息[13]。這些特征用于預(yù)測(cè)患者的生存情況,幫助臨床醫(yī)師和患者做出治療決策。本研究探討了臨床病理特征對(duì)胃癌患者生存預(yù)測(cè)的臨床價(jià)值,通過(guò)對(duì)生存組與死亡組的病理特征比較發(fā)現(xiàn),腫瘤最大徑、淋巴結(jié)轉(zhuǎn)移、腫瘤位置、神經(jīng)浸潤(rùn)和TNM 分期在兩組的分布差異均有統(tǒng)計(jì)學(xué)意義(均P<0.05),這與其他研究結(jié)果一致。腫瘤最大徑、淋巴結(jié)轉(zhuǎn)移、神經(jīng)浸潤(rùn)及TNM 分期能夠提示患者的疾病發(fā)展及惡性程度,與患者的生存結(jié)局存在最直接的關(guān)系。腫瘤大小會(huì)影響胃癌等空腔臟器腫瘤的預(yù)后,應(yīng)納入腫瘤大小以更好地預(yù)測(cè)預(yù)后[14]。本研究還發(fā)現(xiàn),兩組患者腫瘤位置的分布也存在明顯差異,生存組患者的腫瘤位置分布在賁門(mén)、胃竇和胃體的比例相當(dāng),而死亡組患者則大部分分布在胃竇,占比53.8%,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。既往研究報(bào)道胃癌患者術(shù)后預(yù)后與年齡、惡性程度、腫瘤分期、腫瘤部位等多種因素有關(guān)[15]。一般認(rèn)為胃體部癌預(yù)后較好,胃底賁門(mén)和竇部較差,廣泛浸潤(rùn)者最差。
本研究發(fā)現(xiàn),腫瘤位置、腫瘤最大徑、神經(jīng)浸潤(rùn)、淋巴結(jié)轉(zhuǎn)移和TNM 分期可能是胃癌患者生存預(yù)測(cè)有潛力的指標(biāo)。相關(guān)性分析顯示腫瘤位置在賁門(mén)、胃竇和胃體的患者,腫瘤最大徑越大的患者,發(fā)生神經(jīng)浸潤(rùn)的患者,淋巴結(jié)發(fā)生轉(zhuǎn)移的患者,生存結(jié)局越差,但相關(guān)性程度較弱。為了評(píng)估這5 項(xiàng)指標(biāo)預(yù)測(cè)患者生存的能力,通過(guò)邏輯回歸模型與ROC 曲線(xiàn)分析比較了單項(xiàng)指標(biāo)檢測(cè)及聯(lián)合檢測(cè)的預(yù)測(cè)效能。結(jié)果顯示,5 個(gè)單項(xiàng)指標(biāo)均具有預(yù)測(cè)患者生存結(jié)局的潛能(AUC>0.5,P<0.05),效能最優(yōu)的指標(biāo)是腫瘤最大徑,AUC為0.679。
機(jī)器學(xué)習(xí)和AI 技術(shù)的快速發(fā)展為胃癌預(yù)測(cè)模型的改進(jìn)提供了機(jī)會(huì)。深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等技術(shù)已經(jīng)用于數(shù)據(jù)分析和模型開(kāi)發(fā),以更好地理解和預(yù)測(cè)胃癌。Li 等[16]在測(cè)試隊(duì)列(257 例)中構(gòu)建AI 模型診斷印戒細(xì)胞癌胃癌的AUC、靈敏度和特異度分別為0.786、0.773 和0.692。AI 模型預(yù)測(cè)高危患者的中位總生存期明顯短于低?;颊?。本研究為了進(jìn)一步研究5 項(xiàng)病理特征的生存預(yù)測(cè)效能,聯(lián)合AI 算法構(gòu)建胃癌5 項(xiàng)病理特征組合生存預(yù)測(cè)模型。結(jié)果顯示基于svmRadial 算法下構(gòu)建的預(yù)測(cè)模型效能明顯提高,在建模隊(duì)列中綜合比較6 種算法的多維度考量指標(biāo),基于svmRadial 算法下的5 項(xiàng)病理特征組合生存預(yù)測(cè)模型綜合效能最佳,AUC 為0.817,靈敏度為0.762,特異度為0.833,準(zhǔn)確度為0.795。雖然AUC 不是最高的,但綜合靈敏度、特異度和準(zhǔn)確度來(lái)看其綜合水平較強(qiáng),模型將更為穩(wěn)健。svmRadial 算法作為一種成熟的機(jī)器學(xué)習(xí)方法,在解決基于多樣化和復(fù)雜臨床數(shù)據(jù)的癌癥預(yù)測(cè)問(wèn)題方面具有很大的潛力[17]。svmRadial 算法可以解決高維特征的分類(lèi)和回歸問(wèn)題,模型最終結(jié)果無(wú)需依賴(lài)全體樣本,只需依賴(lài)支持向量。另外,在樣本量中等偏小的情況也有較好的效果,有一點(diǎn)泛化能力和魯棒性。在擴(kuò)大樣本量的驗(yàn)證隊(duì)列中AUC 也可達(dá)0.624。雖然在驗(yàn)證隊(duì)列沒(méi)有顯示出非常優(yōu)異的效能,考慮與本研究樣本量有限相關(guān),樣本信息存在一定的偏倚,但不影響得出svmRadial 算法支持下的5 項(xiàng)病理特征組合生存預(yù)測(cè)模型具備術(shù)前預(yù)測(cè)胃癌患者生存結(jié)局能力的結(jié)論。這提示AI 技術(shù)能夠有效提升5 項(xiàng)病理特征組合的預(yù)測(cè)效能,從多維度綜合分析患者情況,具有優(yōu)異的輔助潛能。
本研究存在以下幾個(gè)局限性:樣本量相對(duì)較少的情況下可能會(huì)造成分析結(jié)果有所偏倚,后續(xù)的研究應(yīng)當(dāng)擴(kuò)大研究隊(duì)列,開(kāi)展多中心大隊(duì)列下的深入研究。另外,本研究屬于回顧性研究,研究設(shè)計(jì)上缺乏一定程度的統(tǒng)一性,后續(xù)研究需注意研究的前瞻性意義。需要注意的是,生存預(yù)測(cè)模型通常是復(fù)雜的,需要大量的數(shù)據(jù)和專(zhuān)業(yè)知識(shí)來(lái)構(gòu)建和維護(hù)。此外,模型的效能也可能會(huì)隨著時(shí)間和新數(shù)據(jù)的積累而發(fā)生變化,因此需要在多中心大樣本量的研究中進(jìn)一步評(píng)估這項(xiàng)智能預(yù)測(cè)模型的臨床價(jià)值。更重要的是,預(yù)測(cè)模型的使用應(yīng)該始終與臨床醫(yī)師的臨床判斷相結(jié)合,而不是替代醫(yī)師的決策??傊?,胃癌預(yù)測(cè)模型的研究正在朝著更加精確和個(gè)性化的方向發(fā)展,本研究結(jié)果希望為改善胃癌患者的預(yù)后管理提供研究思路和理論基礎(chǔ)。