中圖分類號:R737.25 文獻(xiàn)標(biāo)識碼:A文章編號:1006-1959(2025)14-0013-08
Abstract:OjetieTostructskpredictioodelofprostateancerCabysingsupesebleeainglgoriSuperLeadto providerefereceforearlysrengandarlydagosisandtreatentofCabusingmacheaingalgoritMetodsBasedontheostae cancer earlywarningdataset( n=1679 provided by the National Population Health Science Data Center,seven machine learning algorithms such as SuperLearnerereusedtoosrctCaskpredictionodelAcodigtoteatof7,tdatasetasandomlydvidedintoagt andverfcatiostndodelsostruceddefspecielyesulsAtalofacangCasditiodelse consructedaltUi 0.696,oitie:tiedtieop freePSAoanspoeatiendlowesitylotenolesteolaeeiostimporantablesfora ConclusionTeCaispredicoodelasessullostruedicnrdeietifasisfortecaiofupar algorithm in early screening and early diagnosis and treatment of PCa.
KeyWords:Prostate cancer;Risk prediction;Machinelearning;Integrated learning;Interpretability
前列腺癌(prostatecancer,PCa)是男性最常見的惡性腫瘤之一。根據(jù)全球數(shù)據(jù),2020年P(guān)Ca新發(fā)約141.4萬例,死亡約37.5萬例,在男性腫瘤中發(fā)生率排第2位,死亡率排第5位[。據(jù)估計(jì),2023年美國PCa新發(fā)病例達(dá)到28.8萬,死亡病例達(dá)到3.5萬2;2022年我國PCa新發(fā)病例達(dá)到12.6萬,死亡病例達(dá)到5.6萬3。近年來,我國PCa發(fā)生率和死亡率均呈現(xiàn)上升趨勢[4]。PCa嚴(yán)重威脅著全球男性的生命健康,實(shí)施PCa早期風(fēng)險(xiǎn)篩查和早期診治具有重要意義。國內(nèi)外多項(xiàng)研究均構(gòu)建了PCa風(fēng)險(xiǎn)預(yù)測模型。SchafferKR等構(gòu)建了一種預(yù)測PCa風(fēng)險(xiǎn)的多基因評分模型(polygenic risk score,PRS269),該評分聯(lián)合PBCG風(fēng)險(xiǎn)計(jì)算器(Prostate Biopsy CollaborativeGroupriskcalculator,PBCG)后,C-statistic從0.670提升至0.710。HwangT等采用Cox回歸分析基于69319例韓國人數(shù)據(jù),構(gòu)建了結(jié)合臨床變量和前列腺特異性抗原的PCa風(fēng)險(xiǎn)預(yù)測模型,模型C-statis-tic達(dá)到0.874。路帥等納入880例中國人數(shù)據(jù),采用Logistic 回歸(logistic regression,LR)構(gòu)建并驗(yàn)證了PCa風(fēng)險(xiǎn)預(yù)測模型 AUC=0.704,95%CI;0.639~ 0.768)。既往研究多采用Logistic回歸或Cox回歸等傳統(tǒng)建模方法,而近年來,應(yīng)用人工智能(artificialintelligence,AI)或機(jī)器學(xué)習(xí)(machine learning,ML)算法建立PCa風(fēng)險(xiǎn)預(yù)測模型的相關(guān)研究越來越受到關(guān)注。Suarez-IbarrolaR等匯總了11項(xiàng)采用AI算法根據(jù)病理影像資料預(yù)測PCa風(fēng)險(xiǎn)的相關(guān)研究。Deng X等基于多中心回顧性隊(duì)列數(shù)據(jù),采用LR、極端梯度提升樹(extreme gradient boosting decisiontree,XGB)隨機(jī)森林(randomforest,RF)多層感知機(jī)(multilayer perceptron,MLP)和K最近鄰( k-1 near-estneighbor,kNN)共6種ML算法建立了PCa風(fēng)險(xiǎn)預(yù)測模型。國家人口健康科學(xué)數(shù)據(jù)中心數(shù)據(jù)倉儲的前列腺腫瘤預(yù)警數(shù)據(jù)集為研究人員采用公開數(shù)據(jù)集建立基于AI或ML的PCa風(fēng)險(xiǎn)預(yù)測模型提供了重要支持[]。WangC等基于該數(shù)據(jù)集的1000例數(shù)據(jù),采用RF、支持向量機(jī)(supportvectormachine,SVM)反向傳播神經(jīng)網(wǎng)絡(luò)(back propagation neuralnetwork,BP)和卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)共4種ML算法分別建立了PCa風(fēng)險(xiǎn)預(yù)測模型,4種模型的AUC分別為0.975、0.824、0.892和0.724。李翔等[12基于該數(shù)據(jù)集的2663例數(shù)據(jù),比較了LR、LSVM和RF3種ML算法預(yù)測PCa風(fēng)險(xiǎn)的準(zhǔn)確性,其中LSVM的AUC最高(AUC:0.918,95%CI:0.902~0.934)? 熊思偉等[3基于該數(shù)據(jù)集的682例數(shù)據(jù),綜合運(yùn)用Borderline-SMOTE算法與Stacking集成學(xué)習(xí)算法建立了優(yōu)于單一類型ML算法的PCa風(fēng)險(xiǎn)預(yù)測模型。超級集成學(xué)習(xí)算法,簡稱SuperLearner,屬于 Stacking集成學(xué)習(xí)算法的一種[4,15]。Super Learner 能夠?qū)Χ喾N單一類型 ML算法模型的預(yù)測結(jié)果進(jìn)行二次預(yù)測和權(quán)重分配,因其預(yù)測性能優(yōu)異,近年來受到較多關(guān)注,已被應(yīng)用于膿毒癥[認(rèn)知功能障礙[1]、靜脈血栓栓塞癥[8]等多個領(lǐng)域,但尚未被用于建立PCa風(fēng)險(xiǎn)預(yù)測模型。因此,本研究基于國家人口健康科學(xué)數(shù)據(jù)中心提供的前列腺腫瘤預(yù)警數(shù)據(jù)集,運(yùn)用SuperLearner建立PCa風(fēng)險(xiǎn)預(yù)測模型,并與LR、分類回歸決策樹(classificationandregression decision tree,CART)、RF、XGB、SVM和ANN等6種常用的代表性ML算法進(jìn)行比較。
1資料與方法
1.1資料來源本研究數(shù)據(jù)來源于國家人口健康科學(xué)數(shù)據(jù)中心數(shù)據(jù)倉儲的前列腺腫瘤預(yù)警數(shù)據(jù)集,總樣本量3000例,包括基本信息(年齡、身高、體重)和生化指標(biāo)(總PSA、游離PSA、鈉、鈣、氯化物等)共31個變量,同時也包括病理診斷結(jié)果( 1= 前列腺增生; 2= 前列腺癌; 3= 前列腺增生合并前列腺癌)。3000例患者中,前列腺增生1406例,前列腺癌1259例,前列腺增生臺開前列腺癌335例。
1.2數(shù)據(jù)預(yù)處理
1.2.1變量重編碼為建立二分類預(yù)測模型,對病理診斷結(jié)果進(jìn)行重編碼, 1= 前列腺癌或前列腺增生合并前列腺癌, 0= 前列腺增生。
1.2.2定義新變量 計(jì)算體質(zhì)指數(shù)(body mass index,BMI),在建模時僅納入BMI,不再納入身高和體重。因此,變量數(shù)減少為30個。
1.2.3剔除缺失值計(jì)算變量缺失值情況,載脂蛋白AII、載脂蛋白C2、載脂蛋白C3、載脂蛋白E、肌酸激酶同工酶定量測定、磷脂、腦利鈉肽前體和肌鈣蛋白T共8個變量缺失率超過 75% ,剔除這些變量。因此,變量數(shù)減少為22個。最后剔除1321例仍然存在缺失值的患者數(shù)據(jù),最終納入1679例患者數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)模型構(gòu)建和驗(yàn)證。
1.3方法將1679例患者數(shù)據(jù)按照7:3隨機(jī)拆分為訓(xùn)練集和驗(yàn)證集。
1.3.1模型訓(xùn)練在訓(xùn)練集訓(xùn)練LR、CART、RF、XGB、SVM、ANN和Super Learner共7種模型,采用重復(fù)3次的五折交叉驗(yàn)證法對除LR以外的6種模型進(jìn)行超參數(shù)調(diào)優(yōu),根據(jù)AUC選取6種模型的最優(yōu)超參數(shù)取值。
1.3.2模型驗(yàn)證在驗(yàn)證集進(jìn)行模型預(yù)測和驗(yàn)證,并從模型區(qū)分度(discrimination)、校準(zhǔn)度(calibration)和臨床實(shí)用性(clinicalutility或clinicalusefulness)3個維度全面評價(jià)模型表現(xiàn),并確定最優(yōu)模型。區(qū)分度指標(biāo)包括AUC和靈敏度、特異度、陽性預(yù)測值和陰性預(yù)測值;校準(zhǔn)度指標(biāo)包括校準(zhǔn)曲線和Brier評分;臨床實(shí)用性指標(biāo)是指決策分析曲線(decisioncurve analysis,DCA)。
1.3.3模型解釋針對選取的最優(yōu)模型,從全局角度和個性化角度分別進(jìn)行模型解釋。全局角度:以1-AUC為排序指標(biāo),對最優(yōu)模型中的變量重要性(vari-able importance)進(jìn)行排序;個性化角度:采用LIME法對選出的最優(yōu)黑箱模型進(jìn)行個性化解釋。具體過程如下:采用LIME法,局部訓(xùn)練一個與最優(yōu)模型局部預(yù)測精度相近的可解釋替代模型,采用此模型,對隨機(jī)選取的一名患者i,預(yù)測得到PCa風(fēng)險(xiǎn)概率值,并分別計(jì)算每一個預(yù)測變量j貢獻(xiàn)的PCa風(fēng)險(xiǎn)概率值,從而實(shí)現(xiàn)黑箱模型的可解釋性。使用LIME 法解
釋模型時,同一個預(yù)測變量i,對不同患者i和i1的貢獻(xiàn)值是不一樣的,這體現(xiàn)了機(jī)器學(xué)習(xí)模型的個性化預(yù)測[19]。
1.4統(tǒng)計(jì)學(xué)方法采用 R4.2.1 軟件進(jìn)行統(tǒng)計(jì)分析和模型構(gòu)建。連續(xù)型變量根據(jù)是否符合正態(tài)分布,分別采用 和 M(P25,P75) ]進(jìn)行描述,分別采用兩個獨(dú)立樣本 t 檢驗(yàn)和兩個獨(dú)立樣本W(wǎng)ilcoxon秩和檢驗(yàn)進(jìn)行單因素分析;分類變量采用 [n(%) 進(jìn)行描述,采用 χ2 檢驗(yàn)或Fisher精確檢驗(yàn)進(jìn)行單因素分析。 Plt; 0.05認(rèn)為差異有統(tǒng)計(jì)學(xué)意義。
2結(jié)果
2.1樣本基本情況經(jīng)過數(shù)據(jù)預(yù)處理,最終保留1679例患者的22個變量信息,包含年齡、BMI、總PSA、游離PSA、鈉、鈣、氯化物等。1679例患者中,892例被診斷為前列腺癌(合并前列腺增生182例),787例被診斷為前列腺增生。
2.2單因素分析結(jié)果前列腺癌和前列腺增生患者的年齡、BMI、球蛋白、肌酸激酶同工酶、總PSA、鈣、氯化物、無機(jī)磷、游離鈣、肌酸激酶、甘油三酯、低密度脂蛋白膽固醇、載脂蛋白A1、載脂蛋白B14個變量比較,差異有統(tǒng)計(jì)學(xué)意義( Plt;0.05) ,見表1。
表1單因素分析結(jié)果[M (P25,P75) ,x±s]
2.3模型訓(xùn)練和超參數(shù)調(diào)優(yōu)結(jié)果本研究訓(xùn)練了LR、CART、RF、XGB、SVM、ANN和SuperLearner共7種模型: ① LR模型不需要進(jìn)行超參數(shù)調(diào)優(yōu)。② CART模型的超參數(shù)為cp,表示模型復(fù)雜程度,調(diào)參范圍:0.001~0.200,最優(yōu)取值為 0.009 。 ③ RF模型的超參數(shù)為mtry,表示每次建立單棵樹模型時,隨機(jī)選取的預(yù)測變量個數(shù),調(diào)參范圍:1~22,最優(yōu)取值為18。 ④ XGB模型的超參數(shù)包括nrounds、max_depth、eta、gamma、colsample_bytree、min_child_weight和subsample等,本研究對nrounds、max_depth、eta和gamma四個超參數(shù)進(jìn)行了調(diào)優(yōu)。nrounds調(diào)參范圍:10~200,最優(yōu)取值100;max_depth調(diào)參范圍:1~22,最優(yōu)取值20;eta調(diào)參范圍:0.1~0.9,最優(yōu)取值0.1;gamma調(diào)參范圍:0.5~1.5,最優(yōu)取值1.0。 ⑤ SVM模型的超參數(shù)包括sigma和C。sigma調(diào)參范圍:0.025~0.15,最優(yōu)取值0.025;C調(diào)參范圍:1~10,最優(yōu)取值 2⑥ANN 模型的超參數(shù)包括size和decay,size表示神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)的數(shù)量,decay表示節(jié)點(diǎn)間鏈接數(shù)量的衰減權(quán)重。size調(diào)參范圍:1~22,最優(yōu)取值2;decay調(diào)參范圍:0.1~1.0,最優(yōu)取值0.7。 ⑦ SuperLearner模型對上述6種模型進(jìn)行集成,每個子模型的超參數(shù)取值與上述6種模型一致。SuperLearner模型根據(jù)公式(2),將6種模型的預(yù)測結(jié)果作為自變量X,進(jìn)行二次預(yù)測和加權(quán)整合。根據(jù) SuperLearner模型訓(xùn)練結(jié)果,LR、CART、RFXGB、SVM和ANN這6種模型對應(yīng)的回歸系數(shù)分別為0.272、0.095、0.291,0.343,0.000 和 0.000
βXGB×XXGB+βSVM×XSVM+βANN×XANN
2.4模型驗(yàn)證和比較結(jié)果本研究比較了7種模型在訓(xùn)練集和驗(yàn)證集的模型表現(xiàn)。表2呈現(xiàn)了模型區(qū)分度指標(biāo)AUC、靈敏度、特異度、陽性預(yù)測值和陰性預(yù)測值,同時呈現(xiàn)了模型校準(zhǔn)度指標(biāo)Brier評分。圖1呈現(xiàn)了7種模型在訓(xùn)練集和驗(yàn)證集的ROC曲線、校準(zhǔn)曲線和DCA曲線。在訓(xùn)練集,RF、XGB和SuperLearner的AUC、靈敏度、特異度、陽性預(yù)測值和陰性預(yù)測值均為1.000,優(yōu)于其他模型;三個模型的Brier評分分別為 0.027.0.011 和0.055,優(yōu)于其他模型。根據(jù)圖1C,3個模型的DCA曲線優(yōu)于其他模型,當(dāng)橫坐標(biāo)風(fēng)險(xiǎn)閾值在 40%~60% 范圍內(nèi)時,3個模型的縱坐標(biāo)臨床凈獲益均為 100% 。在驗(yàn)證集,SuperLearner的AUC、特異度和陽性預(yù)測值最高,分別為 0.762,0.696 和0.746,優(yōu)于其他模型;SuperLearner的Brier評分最低,為0.197,優(yōu)于其他模型;SuperLearner的靈敏度為0.752,僅次于RF的0.785;SuperLearner和LR的陰性預(yù)測值均為0.702,低于RF的0.781和SVM的0.737。根據(jù)圖1F,當(dāng)橫坐標(biāo)風(fēng)險(xiǎn)閾值在 40%~50% 時,Super Learner的縱坐標(biāo)臨床凈獲益高于其他模型。
表27種模型在訓(xùn)練集和驗(yàn)證集的模型表現(xiàn)
圖17種模型在訓(xùn)練集和驗(yàn)證集的ROC曲線、校準(zhǔn)曲線和DCA曲線
圖17種模型在訓(xùn)練集和驗(yàn)證集的ROC曲線、校準(zhǔn)曲線和DCA曲線(續(xù))
2.5最優(yōu)模型的可視化解釋結(jié)果綜合考慮模型評價(jià)的3個維度結(jié)果,SuperLearner被推薦為最優(yōu)模型。SuperLearner的可視化解釋結(jié)果見圖2。其中,圖2A為基于LIME方法的個性化解釋結(jié)果:以在訓(xùn)練集隨機(jī)抽取的第302號患者為例,SuperLearner模型對該患者的PCa風(fēng)險(xiǎn)預(yù)測概率為0.873,該患者相似人群的基準(zhǔn)風(fēng)險(xiǎn)為0.524,22個預(yù)測變量在此基礎(chǔ)上,分別增加或降低了風(fēng)險(xiǎn)概率值。圖2B為以1-AUC為衡量指標(biāo)的SuperLearner模型的變量重要性排序結(jié)果,排在前5位的變量分別為總PSA、游離PSA、無機(jī)磷、肌酐和低密度脂蛋白膽固醇。
圖2最優(yōu)模型—SuperLearner的可視化解釋結(jié)果
圖2最優(yōu)模型—SuperLearner的可視化解釋結(jié)果(續(xù))
3討論
PCa在全球男性癌癥發(fā)病率中居于第二位,嚴(yán)重危及男性生命健康。PCa的早期篩查與精準(zhǔn)診治非常重要,AI與ML算法的快速發(fā)展為高精度PC風(fēng)險(xiǎn)預(yù)測模型的構(gòu)建提供了可能[20-22]。本研究采用國家人口健康科學(xué)數(shù)據(jù)中心提供的前列腺腫瘤預(yù)警數(shù)據(jù)集,運(yùn)用7種ML算法,包括LR、CART、RF、XGB、SVM、ANN和SuperLearner,建立并驗(yàn)證了PCa風(fēng)險(xiǎn)預(yù)測模型。綜合考慮模型區(qū)分度、校準(zhǔn)度和臨床實(shí)用性3個維度的指標(biāo),SuperLearner模型表現(xiàn)最優(yōu)。
既往研究也應(yīng)用多種單一類型的ML算法建立了PCa風(fēng)險(xiǎn)預(yù)測模型,但未見SuperLearner模型相關(guān)研究。CastaldoR等23采用了LDA、LR、CART、RF、SVM、ANN等多種ML或深度學(xué)習(xí)算法,結(jié)果發(fā)現(xiàn)不同研究、不同算法間的模型異質(zhì)性較強(qiáng)。ChenS等[24回顧性收集了551例患者的電子病歷數(shù)據(jù),建立了單因素總PSALR、多因素LR、CART、RF和SVM共5種PCa風(fēng)險(xiǎn)預(yù)測模型,5種模型的AUC分別為0.846、0.918、0.886、0.898和0.895。Chen G等[21]基于1915例PCa患者數(shù)據(jù),運(yùn)用XGB算法建立了PCa模型,其AUC為0.820。此外,其他多項(xiàng)研究也采用多種ML算法分別建立了PCa預(yù)測模型[1I-13],而采用SuperLearner算法能夠?qū)Χ喾N單一類型的ML算法進(jìn)行整合,對多種單一算法的預(yù)測結(jié)果進(jìn)行二次預(yù)測,從而發(fā)揮Stacking集成學(xué)習(xí)算法的優(yōu)勢[14,15]
ML算法模型的可解釋性(interpretability或ex-plainability)是其在臨床實(shí)踐中推廣和應(yīng)用的痛點(diǎn)問題之一[19.25]。本研究在選出最優(yōu)模型——SuperLearner的基礎(chǔ)上,從總體和個性化兩個角度對模型進(jìn)行了可解釋性分析。
本研究以1-AUC為排序指標(biāo),總體評價(jià)了22個自變量的預(yù)測重要性。在SuperLearner模型中,排在前5位的變量分別為總PSA、游離PSA、無機(jī)磷、肌酐和低密度脂蛋白膽固醇。與其他研究相比,ChenG等的XGB模型中,游離PSA/總PSA比值、總PSA、無機(jī)磷、游離PSA和鉀是前5位重要變量;熊思偉等[3在建立Stacking集成學(xué)習(xí)模型前,基于互相信息方法篩選出了前列腺體積、年齡、游離PSA、總PSA、無機(jī)磷、低密度脂蛋白膽固醇、游離PSA/總PSA比值、前列腺特異性抗原密度(PSAD)等19個重要變量。WangC等構(gòu)建的RF模型中,排在前5位的變量分別為前列腺體積、無機(jī)磷、游離PSA、乳酸脫氫酶和血清肌酐。李翔等[2建立了LR、LSVM和RF三種模型,三種模型的變量重要性排序結(jié)果均存在差異。本研究與其他研究發(fā)現(xiàn)的重要性變量存在差異,這可能與樣本量和采取的算法不同有關(guān),但同時也發(fā)現(xiàn),總PSA、游離PSA在不同研究中均為預(yù)測PCa較為重要的變量。
本研究采用LIME法,以在訓(xùn)練集隨機(jī)選取的1例患者( ID=302 )為例,進(jìn)行了SuperLearner模型的個性化解釋。SuperLearner模型對該患者的PCa風(fēng)險(xiǎn)預(yù)測概率為0.873,該患者相似人群的基準(zhǔn)風(fēng)險(xiǎn)為0.524,22個預(yù)測變量在此基礎(chǔ)上,分別增加或降低了風(fēng)險(xiǎn)概率值。除LIME法外,基于博弈論的Shapley加性解釋(shapleyadditiveexplanations,SHAP)方法也比較常用,ChenG等2對其基于臨床數(shù)據(jù)建立的XGB模型采用SHAP法進(jìn)行了個性化解釋。在基因數(shù)據(jù)方面,ElmarakebyHA等開發(fā)了一種名為P-NET的深度神經(jīng)網(wǎng)絡(luò)模型,Elmarakeby將該模型的神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行了可視化解釋。在影像數(shù)據(jù)方面, HammCA 等[28也開發(fā)了一種基于MRI影像數(shù)據(jù)的可解釋人工智能XAI模型(explainableartificialintelligence,XAI),該模型的AUC為0.87,靈敏度為 93% ?;诙囝愋蛿?shù)據(jù)的精準(zhǔn)、可解釋、個性化PCa風(fēng)險(xiǎn)預(yù)測與診斷,是未來的發(fā)展方向。
4總結(jié)與展望
4.1研究局限性本研究構(gòu)建了7種基于ML算法的PCa風(fēng)險(xiǎn)預(yù)測模型,其中SuperLearner綜合表現(xiàn)最優(yōu),而且能夠從全局和個性化角度對最優(yōu)模型進(jìn)行可解釋性分析。但是,本研究仍存在以下局限性:① 數(shù)據(jù)存在缺失值:由于缺失值的存在,本研究剔除了部分可能具有預(yù)測價(jià)值的變量,如載脂蛋白AII、載脂蛋白C2等,同時也剔除了部分個案,減少了預(yù)測變量個數(shù)和訓(xùn)練集樣本量,未采用多重插補(bǔ)等方法對缺失數(shù)據(jù)進(jìn)行插補(bǔ)。 ② 模型缺少外部驗(yàn)證:受限于單中心研究設(shè)計(jì),本研究僅通過隨機(jī)拆分完成了模型內(nèi)部驗(yàn)證,未能通過多中心數(shù)據(jù)實(shí)現(xiàn)外部驗(yàn)證,而外部驗(yàn)證結(jié)果對最優(yōu)模型SuperLearner的推廣應(yīng)用非常重要。 ③ 模型納入變量有待完善:本研究僅基于社會人口學(xué)、生化指標(biāo)和腫瘤標(biāo)志物訓(xùn)練了ML模型,未能納入基因組學(xué)、影像學(xué)等多維度關(guān)鍵預(yù)測變量。
4.2研究展望本研究采用國家人口健康科學(xué)數(shù)據(jù)中心提供的前列腺腫瘤預(yù)警數(shù)據(jù)集,運(yùn)用SuperLearner算法構(gòu)建了在模型區(qū)分度、校準(zhǔn)度和臨床實(shí)用性三個維度綜合表現(xiàn)優(yōu)秀的PCa風(fēng)險(xiǎn)預(yù)測模型。未來研究可在SuperLearner模型的基礎(chǔ)上,通過缺失值處理擴(kuò)大樣本量、納入多維度關(guān)鍵預(yù)測變量和多中心數(shù)據(jù)外部驗(yàn)證等方式進(jìn)一步完善模型預(yù)測精度和可泛化性能,同時運(yùn)用黑箱模型可解釋方法和信息技術(shù)開發(fā)基于SuperLearner算法的PCa風(fēng)險(xiǎn)預(yù)測網(wǎng)頁計(jì)算器,從而推動SuperLearner模型的臨床應(yīng)用,為PCa的精準(zhǔn)預(yù)測和診斷提供參考。
致謝:本研究使用的《前列腺腫瘤預(yù)警數(shù)據(jù)集》數(shù)據(jù)來源于“國家人口健康科學(xué)數(shù)據(jù)中心數(shù)據(jù)倉儲PHDA\"(http://www.ncmi.cn)。感謝國家人口健康科學(xué)數(shù)據(jù)中心和中國人民解放軍總醫(yī)院提供的支持與幫助。
參考文獻(xiàn):
[1]Sung H,F(xiàn)erlay J,Siegel RL,etal.Global Cancer Statistics2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for36Cancersin 185 Countries [J].CA CancerJClin,2021,71 (3):209-249.
[2]Siegel RL,MillerKD,Wagle NS,et al.Cancer statistics,2023 [J].CA CancerJ Clin,2023,73(1):17-48.
[3]Xia C,DongX,LiH,et al.Cancer statistics in China and United States,2O22:profiles,trends,and determinants [J].Chinese Medical Jourmal,2,5(5):5490.
[4]ZhengR,Zhang S,Zeng H,et al.Cancer incidence and mortality in China,2O16[].Journal of the National Cancer Center, 2022,2(1):1-9.
[5]SchafferKR,Shi M,Shelley JP,etal.A Polygenic Risk Score forProstate CancerRisk Prediction[J].JAMA InternalMedicine, 2023,183(4):386-388.
[6]Hwang T,Oh H,Lee JA,et al.Prostate cancer risk prediction based on clinical factors and prostate-specificantigen[J].BMC Urology,2023,23(1):100.
[7]路帥,李文杰,徐紫薇,等.前列腺癌風(fēng)險(xiǎn)預(yù)測模型的構(gòu)建與 驗(yàn)證[].重慶醫(yī)科大學(xué)學(xué)報(bào),2023,48(3):328-334.
[8]Suarez-IbarrolaR,Sigle A,Eklund M,etal.Artificial Inteligence in Magnetic Resonance Imaging-based Prostate Cancer Diagnosis:Where Do We Stand in 2021?[].European Urology Focus,2022,8(2):409-417.
[9]Deng X,Li T,MoLetal.Machine learning model for the prediction of prostate cancer in patients with low prostate-specific antigen levels:Amulticenterretrospectiveanalysis[].Frontirsin Oncology,2022,12:985940.
[10]中國人民解放軍總醫(yī)院.前列腺腫瘤預(yù)警數(shù)據(jù)集[Z].國家人 口健康科學(xué)數(shù)據(jù)中心數(shù)據(jù)倉儲 PHDA.2019:CSTR:A0006.11. A5.201905.000531.
[11]Wang C,Chang QX,Wang XM,et al.Prostate CancerRisk Prediction and Online Calculation Based on Machine Learning Algorithm D].Chinese Medical Sciences Journal,2O22,37 (3):210- 217.
[12]李翔,李姝婷,陳容,等.前列腺癌3種早期診斷預(yù)測模型效 能比較[J].西南醫(yī)科大學(xué)學(xué)報(bào),2023,46(4):330-335.
[13]熊思偉,劉玉琳.基于Borderline-SMOTE算法與 Stacking 集成學(xué)習(xí)的前列腺腫瘤風(fēng)險(xiǎn)預(yù)測研究.現(xiàn)代腫瘤醫(yī)學(xué),2023,31 (16):3075-3081.
[14]Van Der Laan MJ,PolleyEC,Hubbard AE.Super learner[J]. Statistical Applications in Geneticsand Molecular Biology, 2007,6:Article25.
[15]PhillipsRV,VanDerLaanMJ,LeeH,etal.Practical considerations for specifying a super learner [J].International Journal of Epidemiology,2023,52(4):1276-1285.
[16]ParkJY,Hsu TC,HuJR,etal.PredictingSepsisMortalityina Population-Based National Database:Machine Learning Approach [].Journal of Medical Internet Research,2O22,24 (4): e29982.
[17]Wu Y,Jia M,XiangC,etal.Predicting the long-term cognitive trajectories using machine learning approaches:A Chinese nationwidelongitudinaldatabase[J].PsychiatryResearch, 2022,310:114434.
[18]Nafee T,Gibson CM,Travis R,et al.Machine learning to predict venous thrombosis in acutely ill medical patients [J].Research and Practice in Thrombosis and Haemostasis,2020,4 (2): 230-237.
[19]Ribeiro MT,Singh S,Guestrin C.\"Why Should I Trust You?\":Explaining the Predictionsof Any Classifier[J].ACM, 2016,8:1-10.
[20]GoldenbergSL,NirG,Salcudean SE.A new era:artificial intelligence and machine learningin prostate cancer[J].Nature reviewsUrology,2019,16(7):391-403.
[21]ChenG,DaiX,ZhangM,etal.Machine learning-based prediction model and visual interpretation for prostate cancer [J]. BMCUrology,2023,23(1):164.
[22]王毅,李遠(yuǎn)哲,李淑婷,等.基于多模態(tài)磁共振放射組學(xué)與臨 床指標(biāo)的前列腺癌智能檢測及風(fēng)險(xiǎn)預(yù)測模型建立.中國醫(yī) 學(xué)物理學(xué)雜志,2023,40(2):251-260.
[23]Castaldo R,Cavaliere C,Soriceli A,et al.Radiomic and Genomic Machine Learning Method Performance for Prostate Cancer Diagnosis:Systematic Literature Review [J].Journal of Medical InternetResearch,2021,23(4):e22394.
[24]ChenS,Jian T,ChiC,etal.Machine Learning-Based Models Enhance the Prediction of Prostate Cancer [J].Frontiers in Oncology,2022,12:941349.
[25]Watson DS,Krutzinna J,Bruce IN,et al.Clinical applications ofmachine learning algorithms:beyond the black box[J].BMJ, 2019,364:1886.
[26]Rozemberczki B,Watson L,BayerP,et al.The Shapley Value in Machine Learning [J].IJCAI,2022,22:5572-5579.
[27]Elmarakeby HA,Hwang J,Arafeh R,et al.Biologicallyinformed deep neural network for prostate cancer discovery[].Nature,2021,598(7880):348-352.
[28]Hamm CA,Baumg?rtner GL,Biessmann F,et al.Interactive Explainable Deep LearningModel Informs Prostate Cancer DiagnosisatMRI[J].Radiology,2023,307(4):e222276.
收稿日期:2024-04-15;修回日期:2024-05-31
編輯/成森