馮 強 余永燕 葉紀(jì)平
(海南省儋州市中醫(yī)醫(yī)院婦產(chǎn)科,儋州市 571700,電子郵箱:345613088@qq.com)
異位妊娠是婦產(chǎn)科常見的急腹癥,占所有孕婦疾病的1%~2%,近年來該病的發(fā)病率呈現(xiàn)上升趨勢;異位妊娠致死率較高,其所導(dǎo)致的死亡病例占產(chǎn)婦死亡病例的10%以上,該病是引起孕婦早期死亡的主要原因[1]。異位妊娠不僅威脅婦女的生命健康,同時還對其造成精神創(chuàng)傷[2]。然而,異位妊娠在早期不易被發(fā)現(xiàn),而隨著孕囊的逐漸增大,孕婦會突然出現(xiàn)劇烈腹痛,如未能及時治療可危及生命。因此異位妊娠的早期診斷尤為重要[3]。目前已有關(guān)于異位妊娠發(fā)病危險因素的研究[4]。有研究表明吸煙史和感染史是導(dǎo)致異位妊娠的兩個重要因素[5],而年齡、流產(chǎn)史、不孕病史也對異位妊娠的發(fā)病有影響[6]。近來還有學(xué)者指出,異位妊娠與既往手術(shù)史、盆腔炎病史和體外受精有關(guān)[7]??紤]到異位妊娠的發(fā)生與多種因素相關(guān),有必要建立可早期預(yù)測異位妊娠發(fā)生的工具。然而,國內(nèi)外有關(guān)異位妊娠發(fā)生風(fēng)險的預(yù)測模型鮮有研究報告。
機器學(xué)習(xí)可以通過定義數(shù)據(jù)屬性,借助臨床數(shù)據(jù)和算法來預(yù)測各種結(jié)果[8]。機器學(xué)習(xí)通過構(gòu)建不同的算法并進行評估比較,可以提高臨床上對疾病的預(yù)測效能[9]。而列線圖作為一種備受關(guān)注的預(yù)測模型,能夠通過邏輯回歸算法,獲得每個預(yù)測因子的相對風(fēng)險評分,從而計算該預(yù)測因子的貢獻度并進行評分,通過各種臨床數(shù)據(jù)和生物學(xué)檢測數(shù)據(jù)預(yù)測各種臨床事件(死亡或發(fā)病)發(fā)生的可能性。由于列線圖能夠通過計算來量化相關(guān)因素,提高預(yù)測的準(zhǔn)確性,因此,通過列線圖構(gòu)建預(yù)測模型,這有利于提高臨床診斷和治療的準(zhǔn)確性[10]。
本研究通過機器學(xué)習(xí)建立異位妊娠發(fā)生風(fēng)險的預(yù)測模型,評估不同模型的預(yù)測效能,并繪制列線圖,探討患者發(fā)生異位妊娠的影響因素,以為臨床篩選和早期診斷異位妊娠的高危患者提供參考。
1.1 研究對象 選擇2010年1月至2018年6月期間在我院經(jīng)臨床檢查和妊娠結(jié)局觀察確診為異位妊娠的308例患者作為異位妊娠組;另選取經(jīng)超聲確認為宮內(nèi)妊娠,或者在刮宮術(shù)后的刮出物中發(fā)現(xiàn)絨毛組織、病理檢查檢出滋養(yǎng)細胞的605例孕婦作為宮內(nèi)妊娠組?;仡櫺苑治鰞山M的臨床資料。異位妊娠組納入標(biāo)準(zhǔn):(1)確診異位妊娠,停經(jīng)時間≤60 d;(2)一般情況好,生命體征平穩(wěn),輕微腹痛;(3)血常規(guī)基本正常,血清人絨毛膜促性腺激素(放射免疫法)檢測結(jié)果為(240~3 000)mIU/mL(正常值為0~1 mIU/mL)。宮內(nèi)妊娠組納入標(biāo)準(zhǔn):經(jīng)超聲診斷為宮內(nèi)妊娠,或刮宮術(shù)后的刮出物中發(fā)現(xiàn)絨毛組織且病理檢查檢出滋養(yǎng)細胞。兩組排除標(biāo)準(zhǔn):(1)本次妊娠后曾采用雌激素、孕激素等藥物治療;(2)有多胎妊娠史;(3)惡性疾病和腫瘤患者;(4)懷疑為異位妊娠時行藥物治療者。
1.2 研究方法
1.2.1 一般資料收集:收集研究對象的臨床資料及既往病史資料,包括年齡、既往異位妊娠史,既往腹腔或盆腔疾病手術(shù)史、外陰炎病史、子宮內(nèi)膜異位癥史、宮頸柱狀上皮異位史、陰道非炎性疾患史、月經(jīng)推遲情況、月經(jīng)不調(diào)史、子宮和陰道異常出血史、排卵性腹痛史、痛經(jīng)史、抑郁癥和焦慮癥等精神疾病史。使用R軟件中的createDataPartition函數(shù),根據(jù)913例研究對象的異位妊娠情況進行等比例劃分,其中70%的數(shù)據(jù)(共639例,其中異位妊娠組216例,宮內(nèi)妊娠組423例)設(shè)置為訓(xùn)練集用于構(gòu)建模型,其余30%的數(shù)據(jù)集(共274例,其中異位妊娠組92例,宮內(nèi)妊娠組182例)作為測試數(shù)據(jù)用于模型的評估和比較。
1.2.2 機器學(xué)習(xí)算法構(gòu)建預(yù)測模型:使用R軟件Caret包中的train函數(shù),通過邏輯回歸(Logistic回歸)、線性判別分析、多元自適應(yīng)回歸、K近鄰算法和支持向量機算法構(gòu)建5個機器學(xué)習(xí)預(yù)測模型。均以1.2.1中描述的13個因素作為自變量。
1.2.2.1 邏輯回歸:邏輯回歸是常用的算法,常被當(dāng)作對照算法用于與其他機器學(xué)習(xí)算法的比較。邏輯回歸通過尋找自變量與因變量的關(guān)系來構(gòu)建預(yù)測模型,本研究納入所有臨床上認為可能影響異位妊娠發(fā)生的因素用于構(gòu)建邏輯回歸模型,以評估異位妊娠發(fā)生的可能性。
1.2.2.2 線性判別分析:線性判別分析是機器學(xué)習(xí)領(lǐng)域中最常用的算法。線性判別分析時,首先學(xué)習(xí)數(shù)據(jù)的分布,隨后創(chuàng)建決策邊界并構(gòu)建最佳加權(quán)線性函數(shù)。該函數(shù)用于判別當(dāng)閾值最小時模型下預(yù)期錯誤分類,從而識別異位妊娠的高危人群。
1.2.2.3 多元自適應(yīng)回歸:多元自適應(yīng)回歸主要處理高維度(待回歸項較多時)回歸問題。與線性回歸、線性判別相比,該模型學(xué)習(xí)精度高且具有較好的泛化能力,能取得較好的預(yù)測效果。由于本研究涉及多個自變量,采用多元自適應(yīng)回歸能夠減少高維度數(shù)據(jù)對分類結(jié)果的影響。
1.2.2.4 K近鄰算法:K近鄰算法是通過現(xiàn)有數(shù)據(jù),結(jié)合K個臨近數(shù)據(jù)共同預(yù)測新數(shù)據(jù)的方法,其使用實例進行分類,通過尋找最相近的點(最近鄰)來確定正確的數(shù)據(jù)分類。本研究通過構(gòu)建基于最相近的點的模型,可協(xié)助提高異位妊娠早期預(yù)測的準(zhǔn)確性。
1.2.2.5 支持向量機算法:支持向量機是稀疏內(nèi)核機器算法,是一種僅依賴數(shù)據(jù)子集(支持向量)來預(yù)測未知類標(biāo)簽的模型,其主要使用適合的超平面分離輸入數(shù)據(jù)。本研究選擇線性支持向量機對數(shù)據(jù)進行劃分,以期通過超平面提高異位妊娠的診斷準(zhǔn)確性。
1.2.3 預(yù)測模型的驗證與效能評估:使用測試組的數(shù)據(jù)驗證各個機器學(xué)習(xí)模型,繪制所有模型的受試者工作特征(receiver operating characteristic,ROC)曲線以判斷模型的預(yù)測效能,評估指標(biāo)包括曲線下面積(area under the curve,AUC)、準(zhǔn)確率、召回率和F1得分。其中,AUC值在0.9~1.0之間為優(yōu)秀,在0.7~<0.9之間為良好,在0.6~<0.7之間為一般,在0.5~<0.6之間為差。ROC曲線的繪制與AUC的計算均通過R軟件中的“pROC”包進行。準(zhǔn)確率指在所有樣本中預(yù)測正確的概率,即分類正確的正樣本個數(shù)占分類器判定為正樣本個數(shù)的比例;召回率指分類正確的正樣本個數(shù)占真正的正樣本個數(shù)的比例;F1得分是結(jié)合準(zhǔn)確率和召回率的綜合指標(biāo),F(xiàn)1=2×(準(zhǔn)確率×召回率)÷(準(zhǔn)確率+召回率),其最大值是1,最小值是0。通過上述指標(biāo)選取最佳算法構(gòu)建的模型用于下一步研究。
1.2.4 列線圖的構(gòu)建:基于機器學(xué)習(xí)驗證的結(jié)果,邏輯回歸模型被認為預(yù)測效能最佳,因此本研究基于邏輯回歸分析法建立列線圖。(1)使用R軟件中的“glmnet”包進行LASSO回歸分析,從13個臨床因素中篩選最佳風(fēng)險預(yù)測因子子集。LASSO回歸通過控制參數(shù)λ進行變量篩選和復(fù)雜度調(diào)整。(2)將篩選出的預(yù)測因素導(dǎo)入到多變量邏輯回歸分析中,用于構(gòu)建異位妊娠風(fēng)險的預(yù)測模型并通過列線圖進行可視化。(3)繪制校準(zhǔn)曲線用于評估列線圖的校準(zhǔn)度,校準(zhǔn)曲線與理想曲線越一致,說明預(yù)測結(jié)果與實際結(jié)果越符合。計算一致性指數(shù)(concordance index,C-index)以評估列線圖預(yù)測模型的區(qū)分度,其中C-index≤0.5表示沒有區(qū)分度,0.5
1.3 統(tǒng)計學(xué)分析 采用R 3.6.3軟件進行統(tǒng)計分析和基于機器學(xué)習(xí)法的模型構(gòu)建、列線圖構(gòu)建。計量資料以(x±s)表示,組間比較采用獨立樣本t檢驗;計數(shù)資料以例數(shù)和百分比表示,組間差異比較采用χ2檢驗。以P<0.05為差異具有統(tǒng)計學(xué)意義。
2.1 異位妊娠患者與宮內(nèi)妊娠研究對象臨床資料的比較 異位妊娠組和宮內(nèi)妊娠組研究對象的年齡、宮頸柱狀上皮異位史、陰道非炎性疾患史、子宮和陰道異常出血史和痛經(jīng)史比較,差異均無統(tǒng)計學(xué)意義(均P>0.05);而兩組的異位妊娠史、既往腹腔或盆腔手術(shù)史、精神病史、子宮內(nèi)膜異位史、外陰炎病史、月經(jīng)推遲、月經(jīng)不調(diào)史和排卵性腹痛的比例比較,差異均有統(tǒng)計學(xué)意義(均P<0.05)。見表1。
表1 異位妊娠患者與宮內(nèi)妊娠研究對象臨床資料的比較
組別n外陰炎病史[n(%)]陰道非炎性疾患史[n(%)]月經(jīng)推遲[n(%)]月經(jīng)不調(diào)史[n(%)]子宮和陰道異常出血[n(%)]排卵性腹痛[n(%)]痛經(jīng)史[n(%)]異位妊娠組30827(8.77)33(10.71)27(8.77)39(12.66)10(3.25)21(6.81)17 (5.52)宮內(nèi)妊娠組60523(3.80)59(9.75)31(5.12)35(5.79)14(2.31)026(4.30) t/χ2值4.3220.3222.12116.2200.43917.3850.679P值0.0030.7340.047<0.0010.539<0.0010.410
2.2 機器學(xué)習(xí)模型的評估 不同模型之間的性能存在差異:其中邏輯回歸算法的AUC最大,其次為線性判別分析模型,多元自適應(yīng)回歸和支持向量機算法的AUC相同,K近鄰算法在所有模型中AUC最??;同時,邏輯回歸的準(zhǔn)確率和F1得分最高;所有模型的召回率相同。見表2和圖1。綜上,相較于其他模型,邏輯回歸算法是有效預(yù)測工具。因此,我們下一步將邏輯回歸算法用于構(gòu)建預(yù)測模型。
表2 不同模型的評估
圖1 10倍交叉驗證后的ROC曲線
2.3 特征選擇 納入639個樣本用于篩選特征變量。在LASSO回歸分析中,隨著λ值增加,變量回歸系數(shù)逐步歸零(λ越大對變量較多的線性模型的懲罰力度就越大,最終獲得一個變量較少的模型),從模型中逐步選出特征變量。當(dāng)lg(λ)= -3.489時模型表現(xiàn)最佳(圖2A),此時的最佳變量數(shù)為7,最終選擇了這7個特征變量用于構(gòu)建模型(圖2B),包括異位妊娠史、既往腹腔或盆腔手術(shù)史、精神病史、子宮內(nèi)膜異位史、外陰炎病史、月經(jīng)推遲、月經(jīng)不調(diào)史,見表3。
表3 篩選的預(yù)測因子
圖2 LASSO回歸模型及系數(shù)分布圖
2.4 列線圖的構(gòu)建和驗證 通過LASSO回歸獲得7個預(yù)測因子,使用這些因子構(gòu)建多因素邏輯回歸模型,并通過列線圖進行可視化(見圖3)?;诹芯€圖,可獲得每個預(yù)測指標(biāo)的評分,將所有點的評分相加即為該患者的總分,對應(yīng)于總分的預(yù)測概率即為該患者出現(xiàn)異位妊娠的預(yù)測概率。預(yù)測異位妊娠發(fā)生的C-index為0.719(95%CI:0.755,0.682),提示模型具有中等區(qū)分度。校準(zhǔn)曲線斜率為1,提示預(yù)測曲線與標(biāo)準(zhǔn)曲線走勢基本一致,表明預(yù)測發(fā)生率與實際發(fā)生率具有較為良好的一致性,預(yù)測模型具有良好識別力和預(yù)測能力,見圖4。
圖3 預(yù)測異位妊娠的發(fā)生風(fēng)險列線圖
圖4 預(yù)測模型的校準(zhǔn)曲線
2.5 臨床收益和實用性評估 決策曲線基于連續(xù)的潛在風(fēng)險閾值(X軸)和使用該模型對患者進行風(fēng)險分層的凈收益(Y軸)展示該模型的臨床實用性。決策曲線分析結(jié)果顯示,當(dāng)閾值概率大于0.18時(即患者使用以上列線圖進行預(yù)測,當(dāng)預(yù)測的風(fēng)險大于18%時),采用該列線圖預(yù)測異位妊娠風(fēng)險將會獲得更多的收益,并具有更好的實用性。見圖5。
圖5 預(yù)測模型的決策曲線
異位妊娠起病急,患者病情重,如處理不當(dāng)可危及生命。雖然臨床上可以通過病史和臨床表現(xiàn)診斷典型病例,但對于未破裂型異位妊娠病例較難提前診斷,常易誤診或漏診。而危重患者病情急,且同時伴有腹腔內(nèi)急性出血及劇烈腹痛,可出現(xiàn)暈厥與休克。因此,如何明確診斷甚至提前預(yù)測以及時給予合理救治,對挽救患者生命和保存其生育功能至關(guān)重要。目前臨床上使用超聲、血清人絨毛膜促性腺激素、孕酮和雌二醇協(xié)助早期診斷,但這不能排查高風(fēng)險人群,而僅通過臨床醫(yī)生的主觀經(jīng)驗評估患者的發(fā)病風(fēng)險或提前診斷,其精確度有限。因此,構(gòu)建能夠早期預(yù)測異位妊娠患者發(fā)病風(fēng)險的預(yù)測模型對于臨床工作至關(guān)重要。本研究通過構(gòu)建臨床預(yù)測模型,以期能夠根據(jù)相關(guān)既往病史,迅速發(fā)現(xiàn)高危人群,進一步提高篩查高危人群的準(zhǔn)確性。
在大數(shù)據(jù)時代,隨著臨床數(shù)據(jù)的增多,運用機器學(xué)習(xí)對數(shù)據(jù)進行算法處理和開發(fā)程序化的預(yù)測模型成為臨床提高診療效果的一種新方法。機器學(xué)習(xí)算法可以構(gòu)建復(fù)雜的模型,并通過模型提供的相關(guān)數(shù)據(jù)做出決策。當(dāng)有足夠的數(shù)據(jù)量時,機器學(xué)習(xí)算法的準(zhǔn)確性較高。為了確保所建模型的有效性,我們共建立了5個機器學(xué)習(xí)模型并進行了評估和比較,結(jié)果顯示邏輯回歸算法的評估效果最佳。除了邏輯回歸算法,其他模型的AUC均在0.61~0.67之間。這可能是因為所有異位妊娠預(yù)測模型都是通過相同的13個影響因素進行開發(fā),未能去除冗長的數(shù)據(jù),從而使得這些預(yù)測模型保持較高的一致性。但邏輯回歸分析是評估臨床因素與疾病之間的因果關(guān)系的代表性方法,使用具有典型醫(yī)學(xué)特征的數(shù)據(jù)和邏輯回歸算法開發(fā)預(yù)測模型,可以顯示邏輯回歸模型的優(yōu)勢。最終我們采用邏輯回歸算法進一步構(gòu)建預(yù)測模型。
本研究通過LASSO回歸分析對數(shù)據(jù)進行降維,共獲得7個與既往病史相關(guān)的因素(異位妊娠史、既往腹腔或盆腔手術(shù)史、精神病史、子宮內(nèi)膜異位史、外陰炎病史、月經(jīng)推遲和月經(jīng)不調(diào)史)用于預(yù)測異位妊娠發(fā)生的風(fēng)險。列線圖通過可視化的界面、更高的準(zhǔn)確性和易于理解的計算方式幫助醫(yī)生更好地進行臨床決策,被廣泛應(yīng)用于臨床疾病的預(yù)后和預(yù)測分析中[11]。因此,我們基于上述7個因素采用邏輯回歸算法構(gòu)建模型后,通過列線圖進行可視化。校正曲線、C-index和決策曲線分析結(jié)果顯示,基于邏輯回歸算法構(gòu)建的列線圖具有良好的識別和校準(zhǔn)能力。同時,由于本研究的模型是基于較大的樣本構(gòu)建的,或可廣泛應(yīng)用于臨床。
既往的研究顯示,流產(chǎn)患者在終止妊娠1個月后分別有32%和16%的患者出現(xiàn)焦慮和抑郁,而產(chǎn)婦的壓力、焦慮和抑郁會增加異位妊娠的發(fā)生率[2]。Bouyer等[5]的研究證實既往異位妊娠史與異位妊娠的再次發(fā)生密切相關(guān)。美國的一項病例對照研究顯示,異位妊娠的發(fā)生概率隨著既往異位妊娠次數(shù)的增加而增高[12]。既往腹腔或盆腔手術(shù)與異位妊娠的發(fā)生密切相關(guān)[13-14]。Clayton等[15]對使用輔助生殖技術(shù)助孕的孕婦進行回顧分析,發(fā)現(xiàn)既往有子宮內(nèi)膜異位癥病史的患者,出現(xiàn)異位妊娠的風(fēng)險較無相關(guān)病史的患者升高1.3倍。本研究結(jié)果顯示,異位妊娠史、既往腹腔或盆腔手術(shù)史、精神病史、子宮內(nèi)膜異位史、外陰炎病史、月經(jīng)推遲和月經(jīng)不調(diào)史均與異位妊娠的發(fā)生相關(guān)(均P<0.05),與上述研究結(jié)果相似。因此,基于上述因素構(gòu)建的異位妊娠預(yù)測模型具有較好的實用性和準(zhǔn)確性。但是,本研究的研究對象來自同一個醫(yī)院,且為回顧性研究,存在一定局限性。今后需擴大樣本來源進行前瞻性研究,進一步證實該模型預(yù)測孕婦發(fā)生異位妊娠的能力。
綜上所述,相較于其他4個機器學(xué)習(xí)算法,邏輯回歸算法是預(yù)測異位妊娠發(fā)生風(fēng)險的最佳算法。構(gòu)建包含異位妊娠史、既往腹腔或盆腔手術(shù)史、精神病史、子宮內(nèi)膜異位史、外陰炎病史、月經(jīng)推遲、月經(jīng)不調(diào)史的列線圖,有助于根據(jù)早期病史篩選異位妊娠的高風(fēng)險人群。今后需納入更大樣本量進行外部驗證試驗,以期進一步改善并提高該模型的準(zhǔn)確性。