陸 宇,江 會(huì)
同濟(jì)大學(xué)附屬婦產(chǎn)科醫(yī)院,上海200040
近年來,宮頸癌的發(fā)病率逐漸上升,發(fā)病對(duì)象呈年 輕化趨勢(shì)[1]。宮頸癌根治性切除術(shù)是治療宮頸癌的主要方式[2]。然而,由于術(shù)中操作時(shí)易損傷周圍神經(jīng)與膀胱組織,影響膀胱功能從而導(dǎo)致尿潴留的發(fā)生。據(jù)研究報(bào)道,尿潴留在婦科惡性腫瘤術(shù)后的發(fā)生率較高[3]。確定尿潴留的危險(xiǎn)因素對(duì)于病人的長(zhǎng)期預(yù)后至關(guān)重要[4]。機(jī)器學(xué)習(xí)技術(shù)在疾病風(fēng)險(xiǎn)預(yù)測(cè)方面已有廣泛的應(yīng)用。利用機(jī)器學(xué)習(xí)算法,可以從大量的臨床數(shù)據(jù)中提取與疾病相關(guān)的特征,進(jìn)而構(gòu)建預(yù)測(cè)模型,預(yù)測(cè)個(gè)體的疾病發(fā)生風(fēng)險(xiǎn)[5]。常用的機(jī)器學(xué)習(xí)方法包括決策樹、支持向量機(jī)、邏輯回歸等[6]。
當(dāng)前對(duì)于宮頸癌根治性切除術(shù)后尿潴留的研究多集中在護(hù)理措施上,鮮少有建立宮頸癌根治性切除術(shù)后尿潴留風(fēng)險(xiǎn)預(yù)測(cè)模型研究。本研究通過收集宮頸癌根治性切除術(shù)后病人臨床病例資料,基于機(jī)器學(xué)習(xí)算法,分別采用支持向量機(jī)、決策樹和邏輯回歸3 種機(jī)器學(xué)習(xí)方法構(gòu)建宮頸癌術(shù)后尿潴留風(fēng)險(xiǎn)預(yù)測(cè)模型,并比較3 種風(fēng)險(xiǎn)預(yù)測(cè)模型的性能,以期為后續(xù)建立更加完善的宮頸癌術(shù)后尿潴留風(fēng)險(xiǎn)預(yù)測(cè)模型提供借鑒。
回顧性收集2018 年1 月—2021 年12 月行宮頸癌根治性切除術(shù)的485 例病人的資料。納入標(biāo)準(zhǔn):符合宮頸癌診斷標(biāo)準(zhǔn)[7],且資料完整;年齡≥18 歲;意識(shí)清楚,宮頸癌根治術(shù)完成順利。排除標(biāo)準(zhǔn):既往診斷為排尿功能障礙者;患其他嚴(yán)重基礎(chǔ)疾病者。本研究已通過我院倫理委員會(huì)批準(zhǔn)(批準(zhǔn)號(hào):KS22352)。尿潴留診斷標(biāo)準(zhǔn):膀胱內(nèi)充滿著尿液不能自行排出或雖可以排出尿液,但是膀胱內(nèi)的尿液殘余量≥100 mL 需要且重新留置導(dǎo)尿管。本研究通過殘余尿B 超判斷病人膀胱內(nèi)殘余尿量,病人拔除導(dǎo)尿管后膀胱的殘余尿<100 mL就表示其功能恢復(fù)良好,若>100 mL 時(shí)診斷為尿潴留[8-9]。
通過醫(yī)院病案系統(tǒng)導(dǎo)入病人的基礎(chǔ)信息和手術(shù)期間信息。包括:年齡(世界衛(wèi)生組織對(duì)于年齡的界定標(biāo)準(zhǔn):≤44 歲為青年人群,>44~<60歲為中年人群,≥60歲為老年人群)、身高、體重、體質(zhì)指數(shù)(BMI,分類:<18.5 kg/m2為體重過低、18.5~<24.0 kg/m2為體重正常、24.0~<28.0 kg/m2為超重、≥28.0 kg/m2為肥胖[10])、術(shù)后第1 次尿常規(guī)中白細(xì)胞數(shù)、術(shù)后是否出現(xiàn)尿路感染(尿路感染判斷依據(jù)我國(guó)原國(guó)家衛(wèi)生和計(jì)劃生育委員會(huì)頒布的現(xiàn)行尿路感染的病原學(xué)診斷標(biāo)準(zhǔn)[11])、臨床分期、手術(shù)方式(腹腔鏡、開腹)、術(shù)后留置導(dǎo)尿留置時(shí)間、是否進(jìn)行化療、術(shù)后護(hù)理方案(膀胱沖洗方案[12])等。
使用SPSS 25.0 軟件對(duì)資料進(jìn)行統(tǒng)計(jì)分析,定性資料采用頻數(shù)、百分比(%)描述,使用Python 3.11 分別構(gòu)建基于機(jī)器學(xué)習(xí)方法的決策樹、支持向量機(jī)和邏輯回歸的3 種宮頸癌術(shù)后尿潴留風(fēng)險(xiǎn)預(yù)測(cè)模型。
在構(gòu)建模型前,先對(duì)所收集的數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、特征選擇和特征編碼。
2.1.1 數(shù)據(jù)采集
數(shù)據(jù)采集階段,回顧性收集2018—2021 年在我院行宮頸癌根治性切除術(shù)的485 例病人的病例報(bào)告,其中1 例發(fā)生尿潴留和1 例未發(fā)生尿潴留病人的詳細(xì)資料見表1。每個(gè)病例有14 個(gè)特性,特征的數(shù)據(jù)類型有字符型、整型和浮點(diǎn)型,所以將原始數(shù)據(jù)直接輸入到分類算法模型中不可行,因?yàn)闄C(jī)器不能直接理解字符型特征的含義,從而難以對(duì)病例進(jìn)行準(zhǔn)確的疾病判斷?;诖藛栴},原始數(shù)據(jù)需要預(yù)處理,以便將其輸入機(jī)器學(xué)習(xí)模型中進(jìn)行訓(xùn)練。
表1 1 例發(fā)生尿潴留和1 例未發(fā)生尿潴留病人的資料
2.1.2 數(shù)據(jù)清洗
統(tǒng)計(jì)每個(gè)特征的缺失值情況,并設(shè)定閾值,若超過閾值,則剔除該特征,否則保留并填充缺失值。數(shù)據(jù)清洗后保留了459 份資料作為構(gòu)建模型的數(shù)據(jù)集。
2.1.3 特征選擇
本研究最終納入BMI、手術(shù)方式、術(shù)后尿管留置時(shí)間、術(shù)后是否發(fā)生尿路感染、疾病分期、有無術(shù)后護(hù)理方案、是否進(jìn)行化療以及年齡這8 個(gè)特征作為決策樹、邏輯回歸和支持向量機(jī)的輸入特征,以更好地構(gòu)建分類模型。8 個(gè)特征之間的相關(guān)性見圖1。
Pearson 相關(guān)系數(shù)是用來衡量?jī)蓚€(gè)變量之間的線性相關(guān)程度[13]。圖1 中,8 個(gè)特征之間的相關(guān)性減弱。比如,術(shù)后護(hù)理方案與年齡的相關(guān)系數(shù)是0.001,為正相關(guān),但相關(guān)性很小。術(shù)后護(hù)理方案與術(shù)后尿管留置時(shí)間的相關(guān)系數(shù)是0.370,為正相關(guān),但沒有呈現(xiàn)較大的相關(guān)性。這與臨床護(hù)理的特點(diǎn)和實(shí)踐經(jīng)驗(yàn)是相符的,有研究顯示,無論是否進(jìn)行膀胱沖洗,病人泌尿系感染發(fā)生率都隨著尿管留置時(shí)間的延長(zhǎng)而增加,然而,給予膀胱沖洗者泌尿系感染發(fā)生率明顯偏低,而且尿潴留改善時(shí)間明顯縮短[14]。
2.1.4 特征編碼
在經(jīng)過特征選擇后,對(duì)其進(jìn)行邏輯回歸、支持向量機(jī)和決策樹算法分析的離散型變量賦值,如BMI、年齡,連續(xù)變量以原始值輸入,不同指標(biāo)的劃分方式與數(shù)值化方式見表2。
表2 經(jīng)過特征編碼后的病人數(shù)據(jù)
本研究通過隨機(jī)數(shù)字表法抽取其中80%的宮頸癌術(shù)后病人(367 例)作為訓(xùn)練集,用于構(gòu)建尿潴留風(fēng)險(xiǎn)預(yù)測(cè)模型;余20%宮頸癌術(shù)后病人(92 例)作為驗(yàn)證集測(cè)試模型的表現(xiàn)。訓(xùn)練集和驗(yàn)證集病人的臨床資料見表3 和表4。
表3 訓(xùn)練集病人的臨床資料
表4 驗(yàn)證集病人的臨床資料
3 種預(yù)測(cè)模型的混淆矩陣見圖2 和圖3。3 種預(yù)測(cè)模型的混淆矩陣展示了不同預(yù)測(cè)模型在本研究數(shù)據(jù)集中訓(xùn)練集和驗(yàn)證集下的混淆矩陣,從混淆矩陣上看,不管是在訓(xùn)練集還是驗(yàn)證集,真陽性(TP)和真陰性(TN)都是占了數(shù)據(jù)集的大多數(shù),表明本研究所用機(jī)器學(xué)習(xí)的預(yù)測(cè)模型對(duì)于預(yù)測(cè)宮頸癌術(shù)后尿潴留是比較高效的。
圖2 訓(xùn)練集模型的混淆矩陣
圖3 驗(yàn)證集模型的混淆矩陣
3 種機(jī)器學(xué)習(xí)預(yù)測(cè)模型在訓(xùn)練集和驗(yàn)證集的受試者工作特征(ROC)曲線見圖4。決策樹的ROC 曲線不管在訓(xùn)練集還是驗(yàn)證集,效果都是最優(yōu)的。尤其是在訓(xùn)練集中,決策樹的ROC 曲線下面積(AUC)為1,但是在驗(yàn)證集中,決策樹的AUC 為0.91,說明決策樹的訓(xùn)練存在一定的過擬合現(xiàn)象。盡管如此,決策樹在訓(xùn)練集和驗(yàn)證集中的效果依然是最優(yōu)的。支持向量機(jī)和邏輯回歸的ROC 曲線不管在訓(xùn)練集中還是在驗(yàn)證集中,AUC 都相差不大,性能都不如決策樹。
圖4 ROC 曲線(A 為訓(xùn)練集;B 為驗(yàn)證集)
通過混淆矩陣可得到3 種預(yù)測(cè)模型的準(zhǔn)確率、召回率、精確率、F1 值和AUC,具體見表5。訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于測(cè)試模型的泛化能力。在訓(xùn)練集和驗(yàn)證集中,決策樹模型的評(píng)估值都是最高的。決策樹不管在訓(xùn)練集中還是在驗(yàn)證集中,準(zhǔn)確率、召回率、精確率、F1 值和AUC 都比支持向量機(jī)和邏輯回歸更優(yōu),這說明決策樹在構(gòu)建宮頸癌術(shù)后尿潴留風(fēng)險(xiǎn)預(yù)測(cè)模型中具有較高的準(zhǔn)確率及較好的泛化性能。支持向量機(jī)在訓(xùn)練集中準(zhǔn)確率、召回率、精確率、F1 值和AUC 都比邏輯回歸更優(yōu)。同時(shí),在驗(yàn)證集中,支持向量機(jī)的召回率和F1 值比邏輯回歸更優(yōu),但是支持向量機(jī)精確率和AUC 卻比邏輯回歸差。說明支持向量機(jī)在宮頸癌術(shù)后尿潴留數(shù)據(jù)集中的泛化能力比邏輯回歸差。
表5 3 種機(jī)器學(xué)習(xí)模型的對(duì)比結(jié)果
隨著大數(shù)據(jù)的出現(xiàn)以及人們對(duì)大數(shù)據(jù)分析能力的提升,科技發(fā)展的各領(lǐng)域都在不斷革新,其中以人工智能發(fā)展最為突出,這也意味著人類社會(huì)將走向智能時(shí)代[15]。大數(shù)據(jù)時(shí)代的到來,直接產(chǎn)生了機(jī)器學(xué)習(xí)這一新的科學(xué)領(lǐng)域,機(jī)器學(xué)習(xí)主要是為人工智能技術(shù)在大數(shù)據(jù)時(shí)代提供一種實(shí)用性技術(shù)[16]。對(duì)醫(yī)院信息系統(tǒng)所積累的醫(yī)療大數(shù)據(jù)進(jìn)行匯集、建模分析,運(yùn)用機(jī)器學(xué)習(xí)技術(shù)可以合理預(yù)測(cè)和判定未知數(shù)據(jù)的已知類型[5]。
在醫(yī)學(xué)上,疾病風(fēng)險(xiǎn)預(yù)測(cè)模型用于輔助醫(yī)療決策,疾病風(fēng)險(xiǎn)預(yù)測(cè)模型可以結(jié)合兩項(xiàng)或多項(xiàng)病人的相關(guān)數(shù)據(jù)來預(yù)測(cè)臨床結(jié)果。機(jī)器學(xué)習(xí)是用計(jì)算機(jī)來模擬或?qū)崿F(xiàn)人類學(xué)習(xí)活動(dòng)的學(xué)科。機(jī)器學(xué)習(xí)以其準(zhǔn)確性高、可操作性強(qiáng)的特點(diǎn)很大程度提高臨床工作效率,也能為復(fù)雜多變的疾病研究提供一個(gè)新的視角。除此之外,海量的醫(yī)學(xué)數(shù)據(jù)也為挖掘潛在的危險(xiǎn)因素提供了數(shù)據(jù)支持。杜晨等[17]通過收集經(jīng)內(nèi)鏡或手術(shù)病理證實(shí)的炎癥性腸病病人的信息后利用6 種模型對(duì)數(shù)據(jù)進(jìn)行處理,結(jié)果表明,靈鄰近算法(KNN)模型的穩(wěn)定性較高,在驗(yàn)證集中準(zhǔn)確率最高,準(zhǔn)確率為87.9%。
本研究回顧性收集了在我院行宮頸癌根治性切除術(shù)病人的病史信息,篩選出8 個(gè)危險(xiǎn)因素,主要為年齡、術(shù)后導(dǎo)尿管留置時(shí)間、BMI、術(shù)后是否發(fā)生尿路感染、有無術(shù)后護(hù)理方案、疾病分期、手術(shù)方式和是否化療。根治性子宮切除術(shù)是治療宮頸癌的首選治療方式[18]。受到手術(shù)范圍的影響,病人術(shù)后往往會(huì)出現(xiàn)膀胱功能、結(jié)直腸蠕動(dòng)功能和性功能異常等并發(fā)癥[19]。有研究顯示,老年女性病人出現(xiàn)急性尿潴留的原因?yàn)楸颇蚣∈湛s功能低下,老年病人術(shù)后并發(fā)癥多,基礎(chǔ)疾病多, 術(shù)后恢復(fù)能力降低,膀胱功能逐漸下降,排尿功能也顯著降低[20-21]。有研究顯示,腹腔鏡手術(shù)治療宮頸癌效果確切,但術(shù)后病人手術(shù)部位感染發(fā)生率高[22]。
在模型構(gòu)建方面,經(jīng)過數(shù)據(jù)的采集、預(yù)處理后使用決策樹、支持向量機(jī)和邏輯回歸3 種機(jī)器學(xué)習(xí)方法構(gòu)建宮頸癌術(shù)后尿潴留風(fēng)險(xiǎn)預(yù)測(cè)模型。通過混淆矩陣計(jì)算3 種機(jī)器學(xué)習(xí)算法的準(zhǔn)確率、召回率、精準(zhǔn)率、F1 指數(shù)和AUC 值后,綜合預(yù)測(cè)效能最佳的模型是決策樹模型。支持向量機(jī)在訓(xùn)練集中準(zhǔn)確率、召回率、精確率、F1 值和AUC 都比邏輯回歸更優(yōu)。同時(shí),在驗(yàn)證集中,支持向量機(jī)的召回率和F1 值比邏輯回歸更優(yōu),但是支持向量機(jī)的精確率和AUC 卻比邏輯回歸差。本研究所建立的決策樹模型性能最佳,后續(xù)可以利用所構(gòu)建的模型識(shí)別宮頸癌術(shù)后發(fā)生尿潴留的風(fēng)險(xiǎn);同時(shí),還可以作為醫(yī)療決策的支持工具,區(qū)分高危人群,并從多種治療方案中進(jìn)行針對(duì)性指導(dǎo)。