收稿日期:2023-07-28
DOI:10.19850/j.cnki.2096-4706.2024.06.019
摘? 要:采用機器學(xué)習(xí)對口咽癌患者一年生存情況構(gòu)建預(yù)測模型,通過比較找到最優(yōu)模型,以期為相關(guān)疾病預(yù)后提供可靠的參考指標(biāo)。選取SEER數(shù)據(jù)庫中2020年的口咽癌患者2 636例,數(shù)據(jù)經(jīng)過SMOTE算法優(yōu)化后,運用八種機器學(xué)習(xí)方法建立預(yù)測分類模型比較分析?;陔S機森林、決策樹算法的模型相對來說預(yù)測性能更佳。機器學(xué)習(xí)算法建立的預(yù)測模型能夠較好地輔助口咽癌臨床診療及預(yù)后相關(guān)行為。
關(guān)鍵詞:口咽癌;機器學(xué)習(xí);預(yù)測模型;SEER數(shù)據(jù)庫;SMOTE算法
中圖分類號:TP39;TP301.6;R780.1 文獻標(biāo)識碼:A? 文章編號:2096-4706(2024)06-0082-05
Construction and Research on Oropharyngeal Cancer Death Prediction Model
Based on Machine Learning
PAN Yifei
(Stomatological College of Nanjing Medical University, Nanjing? 210003, China)
Abstract: Machine Learning is used to construct a prediction model for the annual survival situation of oropharyngeal cancer patients. In order to provide a reliable reference index for the prognosis of related diseases, the optimal model is found through comparison. And 2 636 patients with oropharyngeal cancer in 2020 from the SEER database are selected. After the data are optimized by SMOTE algorithm, eight Machine Learning methods are used to establish a predictive classification model for comparative analysis. The Models based on Random Forest and Decision Tree algorithm have better predictive performance, relatively. The prediction model established by the Machine Learning algorithm can effectively assist the clinical diagnosis and treatment of oropharyngeal cancer and prognostic behaviors.
Keywords: oropharyngeal cancer; Machine Learning; prediction model; SEER database; SMOTE algorithm
0? 引? 言
口咽癌指發(fā)生在舌根部、扁桃體、軟腭及咽后壁黏膜的癌性病變,與口腔癌并稱為世界第六大最常見的癌癥[1]。在過去十年內(nèi),伴隨著人乳頭瘤病毒因素比例的上升,口咽癌在頭頸部鱗癌中的占比正穩(wěn)步提高[2],因此迫切需要采取相關(guān)措施來預(yù)測并降低口腔和口咽癌的發(fā)病率及死亡率。
近年來,隨著人工智能的迅速發(fā)展,越來越多的領(lǐng)域開始在機器學(xué)習(xí)的基礎(chǔ)上構(gòu)建預(yù)測模型,在分析大規(guī)模數(shù)據(jù)等方面替代傳統(tǒng)方法,表現(xiàn)出良好的準(zhǔn)確率和穩(wěn)定性。如醫(yī)療領(lǐng)域中,面對復(fù)雜高維度的醫(yī)療數(shù)據(jù),機器學(xué)習(xí)技術(shù)可通過建模訓(xùn)練,學(xué)習(xí)數(shù)據(jù)中的內(nèi)在統(tǒng)計模式和結(jié)構(gòu),達到預(yù)測疾病預(yù)后、尋找疾病診斷指標(biāo)等可輔助臨床診療的目的。
因此國內(nèi)外許多研究在對疾病的診療探索中已將機器學(xué)習(xí)作為重要的輔助手段。如Sajjadian等發(fā)現(xiàn)機器學(xué)習(xí)可以較為準(zhǔn)確地預(yù)測重度抑郁癥的藥物療效,從而輔助抑郁癥的個性化治療[3]。Dong等建立的機器學(xué)習(xí)模型可為兒科重癥監(jiān)護急性腎損傷(Acute Kidney Injury, AKI)的診療提供早期預(yù)警并采取防治措施[4]。張博超等利用慢性阻塞性肺疾病中急性加重期患者的隨機森林預(yù)測模型識別患者肺功能等級[5]。
口腔醫(yī)學(xué)領(lǐng)域也是如此,Howard等建立的機器學(xué)習(xí)模型可以較好地預(yù)測能從頭頸部惡性腫瘤放化療中獲益的中度風(fēng)險患者,從而更好地進行治療[6]。吳宇佳等利用基于機器學(xué)習(xí)構(gòu)建了可摘局部義齒基牙選擇模型,并對其選擇結(jié)果進行合理性評價的方法[7]。此外,機器學(xué)習(xí)在預(yù)測疾病死亡率、3D重建、三維形態(tài)計量學(xué)、自動化治療計劃和制定個性化手術(shù)方案等方面均有廣闊的發(fā)展前景。
基于機器學(xué)習(xí)的廣泛應(yīng)用和有效性,本研究將采用邏輯回歸(Logistic Regression, LR)、決策樹(Decision Tree, DT)、隨機森林(Random Forest, RF)、樸素貝葉斯(Naive Bayes, NB)、支持向量機(Support Vector
Machine, SVM)、K近鄰(K-Nearest Neighbors, KNN)、梯度提升(Gradient Boosting, GB)、極限梯度提升(Extreme Gradient Boosting, XGBoost)八種機器學(xué)習(xí)算法建立預(yù)測分類模型,通過對比分析,尋找更適合構(gòu)建口咽癌死亡預(yù)測模型的方法,為口咽癌診療預(yù)后提供依據(jù)。
1? 算法和處理
1.1? SMOTE算法
SMOTE(Synthetic Minority Oversampling Technique)算法指合成少數(shù)類過采樣技術(shù)。它是在隨機過采樣算法基礎(chǔ)上分析并根據(jù)原有少數(shù)類樣本人工合成新樣本,從而使訓(xùn)練集數(shù)據(jù)分布更均衡[8]。
1.2? 邏輯回歸算法
LR屬于廣義線性回歸模型,可以測量關(guān)聯(lián)、預(yù)測結(jié)果和控制混雜變量效應(yīng)[9]。本研究中,該過程大概為先建立代價函數(shù)去代入初步的回歸分類模型,再迭代優(yōu)化,求解出最優(yōu)的模型參數(shù),測試驗證模型的好壞。
1.3? 決策樹算法
DT指通過建立可視化的結(jié)構(gòu)圖將每一個決策與對應(yīng)的結(jié)果連接起來,利用一系列的決策節(jié)點及其分支條件判斷最后所屬的類別[10]。具體過程為:處理、利用和訓(xùn)練數(shù)據(jù),基于損失函數(shù)最小化的原則歸納算法,并建立可讀的規(guī)則和決策模型,然后使用決策樹模型對新數(shù)據(jù)進行預(yù)測分析。
1.4? 隨機森林算法
RF是基于分類回歸樹的集成算法。利用自助法重采樣技術(shù),在原始訓(xùn)練集中,有放回地重復(fù)隨機抽取k個樣本生成新的訓(xùn)練樣本集,再根據(jù)自助樣本集生成k個分類樹組成隨機森林。即通過隨機抽樣和在分裂變量中加入隨機性,使樹之間的獨立性增強[11]。
1.5? 樸素貝葉斯算法
NB是以貝葉斯定理為基礎(chǔ)、基于特征條件獨立假設(shè)的分類模型。先假設(shè)特征詞之間獨立,通過給定的訓(xùn)練數(shù)據(jù)集來學(xué)習(xí)從輸入到輸出過程的聯(lián)合概率分布。然后基于學(xué)習(xí)到的模型,輸入給定的x值,求出使得后驗的概率最大的輸出值Y [12]。
1.6? 支持向量機
SVM的基本模型是定義為特征空間上的間隔最大的線性分類器,其形式為一個凸二次規(guī)劃的求解問題。它的目的是在兩個類別之間創(chuàng)建決策邊界,從而能夠從一個或多個特征向量進行預(yù)測[13]。
1.7? K近鄰算法
KNN指的是給定一個訓(xùn)練集,輸入新的實例特征向量,算法識別訓(xùn)練數(shù)據(jù)集中具有預(yù)定義度量的與該實例最近鄰的k個實例,并從其類別中通過多數(shù)表決進行預(yù)測及分類[14]。
1.8? 梯度提升算法
GB是提升樹的優(yōu)化算法,它的基本原理是利用模型損失函數(shù)的負梯度信息,得出提升算法中殘差近似值,把新加入的弱分類器訓(xùn)練后累加擬合到現(xiàn)有的模型中[15],成為新的回歸樹。
1.9? 極限梯度提升算法
XGBoost是一種機器學(xué)習(xí)算法,它是基于梯度提升算法的若干擴展和改進。它的核心思想是在梯度提升樹算法中引入強化學(xué)習(xí)技術(shù),通過對目標(biāo)函數(shù)的最優(yōu)化來提高模型的精度和泛化能力。極限梯度提升原理將多個弱學(xué)習(xí)器進行串行或并行集成,從而構(gòu)建強大的集成模型。
2? 資料與方法
2.1? 一般資料
本研究在SEER(Surveillance, Epidemiology, and End Results)數(shù)據(jù)庫2023年4月發(fā)布的“Incidence-SEER Research Data, 17 Registries, Nov 2022 Sub(2000—2020)”中篩選出診斷年份為2020年的患者數(shù)據(jù),排除部分信息不全及模糊的數(shù)據(jù),最終納入2 636例患者的診療數(shù)據(jù)。
2.2? 實驗方法
2.2.1? 數(shù)據(jù)采集及預(yù)處理
選取SEER數(shù)據(jù)庫中2020年就診的2 636例患者信息,進行分析和預(yù)處理。在數(shù)據(jù)處理的過程中,發(fā)現(xiàn)生存者和因口咽癌死亡患者分布差別明顯,具體情況如圖1所示。
圖1? 存活者與因口咽癌死亡患者比例
從圖1可知,本研究數(shù)據(jù)集存在數(shù)據(jù)不平衡問題,為了保證實驗的合理性和可行性,本文采用SMOTE算法對數(shù)據(jù)集進行處理。
2.2.2? 特征選擇
本研究考慮到臨床特征的有效性和合理性,選取了與口咽癌預(yù)后相關(guān)性較大的指標(biāo),從流行病學(xué)、臨床分期、診療計劃等方面出發(fā),建立了多維度口咽癌死亡預(yù)測模型。共選取年齡、性別、種族、原發(fā)部位、偏側(cè)、TNM分期、淋巴清掃、放化療選擇等22個輸入指征。
2.2.3? 模型構(gòu)建
用SMOTE算法對數(shù)據(jù)作不平衡預(yù)處理后,先將預(yù)處理后的數(shù)據(jù)以7:3的比例隨機劃分為訓(xùn)練集及測試集。利用訓(xùn)練集創(chuàng)建預(yù)測死亡預(yù)后的模型,然后利用測試集評估模型效果。在Windows 10平臺Python3.8環(huán)境下構(gòu)建LR、DT、NB、RF、SVM、KNN、GB、XGBoost分類預(yù)測模型。
2.2.4? 模型評估
在用訓(xùn)練集構(gòu)建模型以后,將使用測試集對上述模型的預(yù)測進行客觀評價。本研究選取混淆矩陣、準(zhǔn)確度、精確度、召回率、ROC曲線面積等多個指標(biāo)對預(yù)測模型作出評價,混淆矩陣如表1所示。
表1? 混淆矩陣評價指標(biāo)
混淆矩陣 樣本實際類別
正類樣本 負類樣本
樣本預(yù)測類別 正類樣本 TP FP
負類樣本 FN TN
基于混淆矩陣,準(zhǔn)確度(Accuracy)表示分類正確的樣本數(shù)所占比例,如式(1)所示:
(1)
精確度(Precision)表示預(yù)測為正類的樣本中真正樣本的數(shù)量,是針對“預(yù)測結(jié)果”的評價指標(biāo),如式(2)所示:
(2)
召回率(Recall)是針對“原始樣本”的指標(biāo),表示樣本中的分類正確的正例數(shù)量,如式(3)所示:
(3)
F1值表示精確度和召回率兩者之間的調(diào)和平均值,如式(4)所示:
(4)
Accuracy、Precision、Recall和F1值的值越大,表示機器學(xué)習(xí)模型的性能越好,預(yù)測的效果更為理想。
ROC(Receiver Operating Characteristic Curve)指接受者特征曲線,是反應(yīng)敏感性及特異性連續(xù)變量的一項綜合指標(biāo),描述的是分類模型性能隨著其閾值變化而變化的過程。ROC曲線的面積用AUC值表示,是一個重要的評估值。面積值為0.5表示識別能力為0,為隨機分類;面積值越接近于1表示識別能力越強。
3? 評價與分析
對SMOTE算法處理后的數(shù)據(jù)模型采用Accuracy、Precision、Recall、F1值和AUC進行性能評價后,得到的各項指標(biāo)值如圖2所示。
圖2? 各算法評價指標(biāo)值
從圖2結(jié)果可以看出,隨機森林、決策樹、梯度提升、極限梯度提升算法在準(zhǔn)確度、精確度、召回率、F1值指數(shù)方面都優(yōu)于其他機器學(xué)習(xí)算法,其中隨機森林和梯度提升算法的優(yōu)勢更為明顯,分別為98.8%和98.9%,說明這兩種算法預(yù)測效果比較準(zhǔn)確。
如圖3所示,隨機森林、決策樹、梯度提升、極限梯度提升算法的ROC曲線面積最為理想,其中梯度提升算法最佳。這些算法建立的預(yù)測模型可以更好地擬合數(shù)據(jù),從而通過部分臨床特征預(yù)測口咽癌預(yù)后和死亡類型。然而,貝葉斯算法建立的預(yù)測模型雖然相對來說AUC值也比較理想,但是,相對于其他算法模型顯得較低,不建議采用。
(a)邏輯回歸算法
(b)決策樹算法
(c)隨機森林算法
(d)樸素貝葉斯算法
(e)支持向量機算法
(f)K近鄰算法
(g)梯度提升算法
(h)極限梯度提升算法
圖3? 各算法ROC曲線
綜上,隨機森林算法和梯度提升算法在多個評價指標(biāo)上都優(yōu)于其他機器學(xué)習(xí)算法,可能是由于兩種算法均屬于集成分類算法,可以較好地適應(yīng)數(shù)據(jù)集并減小誤差,具有更優(yōu)良的性能,從而更好地輔助口咽癌的臨床診療。
本研究討論了多種機器學(xué)習(xí)方法在口咽癌死亡預(yù)測方面的應(yīng)用和評價,并且從結(jié)論可以得出這些機器學(xué)習(xí)方法均具有較好的統(tǒng)計學(xué)意義,但其中不足之處是,機器學(xué)習(xí)的預(yù)測模型缺乏與臨床相關(guān)的推理解釋,與臨床特征的診療推斷尚不能達到理論上的融會貫通,還需要進一步的探索。
4? 結(jié)? 論
隨著經(jīng)濟社會的發(fā)展和致病因素的流行,口咽癌在頭頸部鱗癌中的占比正穩(wěn)步提高,因此口咽癌的臨床診療需要得到進一步的優(yōu)化。本研究通過8種機器學(xué)習(xí)方法建立口咽癌死亡預(yù)測分類模型,SMOTE算法優(yōu)化后比較分析,發(fā)現(xiàn)基于隨機森林、決策樹、梯度提升、極限梯度提升的機器學(xué)習(xí)模型的性能指標(biāo)較高,能夠較好地輔助口咽癌臨床診療及預(yù)后。其中,隨機森林算法和梯度提升算法在多個評價指標(biāo)上綜合優(yōu)于其他機器學(xué)習(xí)算法,可以在口咽癌死亡和預(yù)后的診療中作為良好的輔助診斷工具,為口咽癌的早期診斷和治療提供科學(xué)依據(jù),從而為口咽癌患者提供更理想且個性化的治療方案。
參考文獻:
[1] PSYRRI A,PREZAS L,BURTNESS B. Oropharyngeal Cancer [J].Clinical Advances in Hematology & Oncology,2008,6(8):604-612.
[2] MARUR S,D'SOUZA G,WESTRA W H,et al. HPV-associated Head and Neck Cancer: A Virus-related Cancer Epidemic [J].the Lancet Oncology,2010,11(8):781-789.
[3] SAJJADIAN M,LAM R W,MILEV R,et al. Machine Learning in the Prediction of Depression Treatment Outcomes: A Systematic Review and Meta-analysis [J].Psychological Medicine,2021,51(16):2742-2751.
[4] DONG J Z,F(xiàn)ENG T,THAPA-CHHETRY B,et al. Machine Learning Model for Early Prediction of Acute Kidney Injury (AKI) in Pediatric Critical Care [J].Crit Care,2021,25(1):288.
[5] 張博超,楊朝,郭立泉,等.基于機器學(xué)習(xí)的慢性阻塞性肺疾病急性加重預(yù)測模型的研究 [J].中國康復(fù)理論與實踐,2022,28(6):678-683.
[6] HOWARD F M,KOCHANNY S,KOSHY M,et al. Machine Learning-Guided Adjuvant Treatment of Head and Neck Cancer [J].Journal of Clinical Oncology,2020,3(11):6567.
[7] 吳宇佳,周崇陽,徐子能,等.基于機器學(xué)習(xí)的可摘局部義齒基牙選擇模型的合理性評價 [J].中國實用口腔科雜志,2023,16(3):333-338.
[8] DABLAIN D,KRAWCZYK B,CHAWLA N V. DeepSMOTE: Fusing Deep Learning and SMOTE for Imbalanced Data [J].IEEE Transactions on Neural Networks and Learning Systems,2023,34(9):6390-6404.
[9] STOLTZFUS J C. Logistic Regression: A Brief Primer [J].Academic Emergency Medicine,2011,18(10):1099-104.
[10] 申泉,羅旭飛,石安婭,等.基于臨床實踐指南決策樹的設(shè)計與思考 [J].協(xié)和醫(yī)學(xué)雜志,2022,13(6):1081-1087.
[11] 曹桃云.基于隨機森林的變量重要性研究 [J].統(tǒng)計與決策,2022,38(4):60-63.
[12] 馬剛.樸素貝葉斯算法的改進與應(yīng)用 [D].合肥:安徽大學(xué),2018.
[13] HUANG S J,CAI N G,PACHECO P P,et al. Applications of Support Vector Machine (SVM) Learning in Cancer Genomics [J].Cancer Genomics Proteomics,2018,15(1):41-51.
[14] GWEON H,SCHONLAU M,STEINER S H. The K Conditional Nearest Neighbor Algorithm for Classification and Class Probability Estimation [J].PeerJ Computer Science,2019,5:e194.
[15] 呂佳.梯度提升回歸樹算法研究及改進 [D].上海:上海交通大學(xué),2017.
作者簡介:潘逸菲(2001—),女,漢族,江蘇淮安人,本科在讀,研究方向:頜面部腫瘤研究與生物信息學(xué)結(jié)合。