肖志偉,韋岳昆,傅 永,黃代政,黃 超△
(廣西醫(yī)科大學(xué):1.信息與管理學(xué)院;2.生命科學(xué)研究院,廣西 南寧 530021)
鼻咽癌是一種特殊的鱗狀細(xì)胞癌[1],并且在全世界范圍內(nèi)具有特殊地域和種族分布,其好發(fā)于我國南方、東南亞、北非等地區(qū)[2]。據(jù)世界衛(wèi)生組織統(tǒng)計(jì),僅2020年鼻咽癌在全球范圍內(nèi)的新發(fā)病例高達(dá)13萬例,死亡病例更是超過8萬例[3]。根據(jù)鼻咽癌發(fā)病特點(diǎn),以及患者在治療方式、生活方式等方面的差異及時(shí)開發(fā)鼻咽癌生存預(yù)后預(yù)測模型可為臨床醫(yī)師及鼻咽癌患者提供重要參考。Nomogram圖可被用于預(yù)測疾病的發(fā)生概率及臨床結(jié)局,尤其是在惡性腫瘤方面。SEER數(shù)據(jù)庫提供了不同組織病理學(xué)癌癥亞型的發(fā)病率、生存率和死亡率數(shù)據(jù),支持能夠改善腫瘤學(xué)實(shí)踐的前沿癌癥研究。目前,國內(nèi)對(duì)于SEER數(shù)據(jù)庫的數(shù)據(jù)挖掘主要集中于結(jié)直腸癌、胃癌、肺癌、非小細(xì)胞肺癌等病種[4-7];針對(duì)鼻咽癌病種,尤其是利用機(jī)器學(xué)習(xí)方法對(duì)SEER數(shù)據(jù)庫在鼻咽癌預(yù)后方面的文獻(xiàn)報(bào)道還較少見[8]。本研究分析了SEER數(shù)據(jù)庫中鼻咽癌患者生存預(yù)后的影響因素,開發(fā)專門的鼻咽癌生存預(yù)后預(yù)測模型,擬為該病的診治及預(yù)后提供數(shù)據(jù)支撐。
1.1資料
1.1.1研究對(duì)象 在SEER數(shù)據(jù)庫(SEER*Stat Version 8.4.0.1)中檢索確診年份為2000年1月1日至2017年12月30日的鼻咽癌患者1 411例作為研究對(duì)象。
1.1.2納入標(biāo)準(zhǔn) (1)全年齡段鼻咽癌患者;(2)性別明確;(3)診斷年份為2000年1月至2017年12月;(4)組織病理學(xué)檢查診斷為鼻咽癌;(5)臨床基本信息完整,生存時(shí)間確切,生存狀態(tài)明晰;(6)術(shù)后與死亡的時(shí)間差大于3個(gè)月;(7)婚姻狀態(tài)信息完整。
1.1.3排除標(biāo)準(zhǔn) (1)臨床信息、死亡原因、腫瘤分期、組織學(xué)分級(jí)、病理檢查等信息缺失;(2)極端個(gè)別數(shù)據(jù)(主要指所占比例不到1%的數(shù)據(jù))。(3)TNM分期未知或T分期為0。
1.2方法
1.2.1資料收集 數(shù)據(jù)來源于SEER數(shù)據(jù)庫,其是一個(gè)重要的基于人群的資源,包含了大量癌癥患者臨床診療的相關(guān)信息[9]。成功注冊申請SEER數(shù)據(jù)庫賬號(hào)并升級(jí)訪問權(quán)限,得到美國國立癌癥研究所對(duì)Research Plus數(shù)據(jù)的訪問許可后查詢統(tǒng)計(jì)2000年1月至2017年12月被診斷為鼻咽癌患者的生存資料,包括年齡、性別、種族、腫瘤組織學(xué)分級(jí)、腫瘤分期、TNM分期、放療信息、是否進(jìn)行腫瘤切除手術(shù)、手術(shù)和放療的先后順序、化療信息、是否進(jìn)行全身性的系統(tǒng)治療,以及系統(tǒng)治療與腫瘤切除手術(shù)的順序、婚姻狀態(tài)、患者生活的地理區(qū)域劃分等信息。
1.2.2數(shù)據(jù)處理 首要(第一)惡性指標(biāo)指患者第1次被登記在SEER數(shù)據(jù)庫的惡性腫瘤類型。使用KM生存分析,使用Cox回歸進(jìn)行多因素分析并構(gòu)建Cox回歸模型與鼻咽癌患者生存預(yù)后Nomogram圖。進(jìn)行多因素分析時(shí)將1 411例患者按隨機(jī)無放回方法7∶3的比例分為訓(xùn)練集984例和驗(yàn)證集424例,采用R 4.2.1軟件建立并驗(yàn)證模型。使用隨機(jī)生存森林(RSF)方法探究影響因素之間的關(guān)系及其相互影響,并通過特征重要性排序(VIMP)法對(duì)變量相關(guān)性進(jìn)行排名。
2.1單因素及多因素分析 年齡、性別、種族、腫瘤組織學(xué)分級(jí)、腫瘤分期、放療信息、是否進(jìn)行腫瘤切除手術(shù)、腫瘤轉(zhuǎn)移信息、首要惡性指標(biāo)信息、婚姻狀態(tài)等均為影響鼻咽癌患者預(yù)后的獨(dú)立危險(xiǎn)因素,差異均有統(tǒng)計(jì)學(xué)意義(P<0.05)。見表1。
表1 單因素及多因素分析
2.2RSF變量重要性 年齡、種族及腫瘤組織學(xué)分級(jí)、N分期、M分期、Stage分期等均為重要的預(yù)后預(yù)測因素。VIMP值小于0表示該變量降低了預(yù)測精度,>0表示該變量提高了預(yù)測精度??梢娔挲g和腫瘤組織學(xué)分級(jí)對(duì)結(jié)果精度的影響最大。見圖1。
圖1 RSF變量重要性
2.3Nomogram圖的構(gòu)建及驗(yàn)證 根據(jù)Cox比例風(fēng)險(xiǎn)回歸模型基于單因素及多因素分析結(jié)果繪制的生存預(yù)后Nomogram圖見圖2。預(yù)后Nomogram模型采用Bootstrap法進(jìn)行驗(yàn)證并分別得出1、3、5年生存率校準(zhǔn)曲線見圖3~5。訓(xùn)練集一致性指數(shù)(C指數(shù))為0.782,驗(yàn)證集C指數(shù)為0.751。對(duì)模型進(jìn)行受試者工作特征(ROC)曲線繪制顯示訓(xùn)練集ROC曲線下面積(AUC)為0.723,驗(yàn)證集AUC為0.718,說明模型具有良好的預(yù)測能力。見圖6、7。
圖2 鼻咽癌患者術(shù)后1、3、5年Nomogram圖模型
圖3 1年預(yù)測生存率
圖4 3年預(yù)測生存率
圖5 5年預(yù)測生存率
圖6 訓(xùn)練集ROC曲線
圖7 驗(yàn)證集ROC曲線
鼻咽癌是一種極具地域特色的惡性腫瘤,高發(fā)于我國華南地區(qū)和東南亞地區(qū)[2]。近年來,隨著放療技術(shù)的不斷進(jìn)步,鼻咽癌患者的療效尚可,是惡性實(shí)體腫瘤中預(yù)后表現(xiàn)較好的類型之一[10]。目前,大部分鼻咽癌患者治療失敗的原因?yàn)榘l(fā)生了遠(yuǎn)處轉(zhuǎn)移[11];另外,還有部分患者在就醫(yī)確診時(shí)就已處于鼻咽癌晚期,這部分患者預(yù)后較差,也是當(dāng)前臨床治療的一個(gè)主要挑戰(zhàn)。鼻咽癌相較于其他惡性腫瘤具有易復(fù)發(fā)和易轉(zhuǎn)移等特點(diǎn)[12];在治療時(shí)鼻咽癌表現(xiàn)為對(duì)化療藥物的高敏感性[13]。因此,了解鼻咽癌的臨床特征及影響預(yù)后的相關(guān)因素有助于醫(yī)師進(jìn)行臨床決策,提供治療建議,幫助患者選擇診療方案。本研究基于SEER數(shù)據(jù)庫構(gòu)建了鼻咽癌患者術(shù)后的生存預(yù)后預(yù)測模型,并經(jīng)驗(yàn)證模型預(yù)測性能良好。
本研究結(jié)果顯示,年齡、性別、種族、腫瘤組織學(xué)分級(jí)、腫瘤分期、放療信息、是否進(jìn)行腫瘤切除手術(shù)、腫瘤轉(zhuǎn)移信息、首要惡性指標(biāo)信息、婚姻狀態(tài)均是影響鼻咽癌患者生存預(yù)后的獨(dú)立因素。年齡是影響鼻咽癌非常重要的因素之一。鼻咽癌的發(fā)病多見于40歲以后[14]。目前,也有年輕化的趨勢。且患者年齡越大預(yù)后越差,可能與老年人機(jī)體免疫力與耐藥性等因素相關(guān)[15]。目前,有研究表明,鼻咽癌的發(fā)病機(jī)制也可能與遺傳有關(guān)[16]。因此,有家族遺傳史的群體應(yīng)高度重視,做到定期體檢。本研究發(fā)現(xiàn),性別對(duì)鼻咽癌患者的生存預(yù)后影響并不明顯?,F(xiàn)有研究表明,鼻咽癌高發(fā)于黃種人[17]。除遺傳因素外,對(duì)不同種族之間文化、飲食、生活習(xí)慣等方面的差異可能也是導(dǎo)致種族差異的原因[18]。從傳統(tǒng)的臨床惡性腫瘤組織學(xué)分級(jí)和腫瘤分期來看,高分化患者的預(yù)后遠(yuǎn)好于低分化者;從TNM分期來看,T1N0M0分期患者預(yù)后情況一般好于后期者。本研究還發(fā)現(xiàn),進(jìn)行過腫瘤切除手術(shù)患者的情況,以及進(jìn)行過全身治療的患者預(yù)后往往更好。鼻咽癌作為一種特殊的頭頸部鱗狀細(xì)胞癌[19],對(duì)放化療均表現(xiàn)出高度敏感[20]。本研究結(jié)果也表明,放化療均可使患者預(yù)后得到改善。對(duì)于已經(jīng)發(fā)生腫瘤轉(zhuǎn)移的患者,其生存預(yù)后表現(xiàn)較差,對(duì)于此類患者,放療加化療的治療方式可改善其生存預(yù)后。而對(duì)于患者的婚姻狀態(tài),本研究發(fā)現(xiàn),有伴侶的患者生存預(yù)后優(yōu)于無伴侶者,可能與伴侶的安撫、照顧有關(guān)[18]。
本研究繪制的Nomogram圖整合了常見且被廣泛認(rèn)可的獨(dú)立預(yù)后危險(xiǎn)因素,如TNM分期、放療信息、是否進(jìn)行腫瘤切除手術(shù)、手術(shù)和放療的先后順序、化療信息、是否進(jìn)行全身性的系統(tǒng)治療,以及系統(tǒng)治療與腫瘤切除手術(shù)的順序等信息,ROC曲線提示本研究建立的Nomogram圖具有優(yōu)秀的預(yù)測能力。
本研究采用Cox回歸與RSF相結(jié)合的研究方法,通過RSF方法克服了傳統(tǒng)Cox回歸方法的一些限制[8],并對(duì)影響鼻咽癌患者生存預(yù)后的相關(guān)因素進(jìn)行了重要性排序。從本研究的RSF的VIMP法排名中也可見,在影響鼻咽癌患者生存預(yù)后的因素中年齡和腫瘤組織學(xué)分級(jí)是占比權(quán)重較大的因素,與傳統(tǒng)臨床分期比較,M分期的影響遠(yuǎn)大于T、N分期。同時(shí)本研究還發(fā)現(xiàn),放療是影響鼻咽癌患者生存預(yù)后的較為關(guān)鍵的因素,以及患者是否進(jìn)行腫瘤切除手術(shù)與其生存預(yù)后息息相關(guān)。本研究也進(jìn)一步證明,黃種人尤其是亞裔的生存預(yù)后遠(yuǎn)低于其他人種。VIMP法排名還顯示,遠(yuǎn)處(骨、腦、肝、肺)轉(zhuǎn)移情況對(duì)鼻咽癌患者的影響較小,可能因?yàn)楸茄拾┌l(fā)生遠(yuǎn)處轉(zhuǎn)移時(shí)已經(jīng)是局部晚期,且鼻咽癌發(fā)生遠(yuǎn)處轉(zhuǎn)移的概率較小[19]。另外可能還與本研究納入的患者中發(fā)生遠(yuǎn)處轉(zhuǎn)移的病例較少有關(guān)。
本研究也存在一些局限性:(1)本研究是基于SEER數(shù)據(jù)庫的臨床資料的回顧性研究,是在已知數(shù)據(jù)上進(jìn)行關(guān)聯(lián)分析,與前瞻性研究比較,存在數(shù)據(jù)可靠性相對(duì)較低等劣勢;(2)沒有考慮化療藥物和放療方式之間的差異;(3)惡性腫瘤數(shù)目也是通過簡單分層進(jìn)行模糊分析,也可能在一定程度上對(duì)自變量與因變量之間的相關(guān)性造成了影響;(4)由于數(shù)據(jù)庫本身的局限性,也沒有考慮血漿EB病毒拷貝數(shù)等生化指標(biāo)[21],均在一定程度上影響了結(jié)果的精確性。
綜上所述,本研究基于SEER數(shù)據(jù)庫構(gòu)建了鼻咽癌的生存預(yù)后模型,可幫助鼻咽癌患者制定個(gè)性化的診療方案,有助于臨床醫(yī)師更好地評(píng)估患者病情,并給予更為合適的臨床治療建議。