鄭江元,祝銳,顏永杰,周洋,羅亞玲*
1重慶醫(yī)科大學(xué)醫(yī)學(xué)信息學(xué)院,重慶 400016;2重慶醫(yī)科大學(xué)醫(yī)學(xué)數(shù)據(jù)研究院,重慶 400016
子癇前期是一種妊娠期高血壓疾病,其特征是妊娠20周后出現(xiàn)的高血壓和蛋白尿,由于其病因較多,發(fā)病機(jī)制較復(fù)雜,給孕產(chǎn)婦和圍產(chǎn)兒帶來了巨大的危害。文獻(xiàn)報道,子癇前期是導(dǎo)致孕產(chǎn)婦及圍產(chǎn)兒死亡的主要原因之一[1-2]。在過去的幾十年里,盡管國內(nèi)外在子癇前期相關(guān)領(lǐng)域取得了重大進(jìn)展[3],但是到目前為止,子癇前期的病因和發(fā)病機(jī)制仍未完全明確,且無有效的救治措施,及早發(fā)現(xiàn)并加強(qiáng)管理仍是主要的臨床策略[4]。為了減少子癇前期帶來的不良影響,有必要對孕婦進(jìn)行子癇前期風(fēng)險預(yù)測。隨著智慧醫(yī)學(xué)的發(fā)展,機(jī)器學(xué)習(xí)技術(shù)具有比傳統(tǒng)統(tǒng)計學(xué)方法更好的優(yōu)勢,已被廣泛應(yīng)用于疾病的預(yù)測診斷中[5-8]。本研究從電子病歷中收集數(shù)據(jù),采用機(jī)器學(xué)習(xí)算法構(gòu)建子癇前期風(fēng)險預(yù)測模型并進(jìn)行評價,以期為醫(yī)護(hù)人員對子癇前期孕婦的評估和防治提供參考。
1.1 研究對象 本研究為回顧性分析,數(shù)據(jù)來源于重慶醫(yī)科大學(xué)醫(yī)學(xué)數(shù)據(jù)研究院大數(shù)據(jù)平臺,該平臺包含了重慶醫(yī)科大學(xué)附屬7家醫(yī)療機(jī)構(gòu)的電子病歷數(shù)據(jù)。收集該數(shù)據(jù)平臺中2016年1月-2018年12月年齡為20~45歲的1609例住院孕婦的資料,其中子癇前期組291例,非子癇前期組1318例。在數(shù)據(jù)收集過程中,數(shù)據(jù)的提取和輸入均經(jīng)過檢查,排除了臨床資料嚴(yán)重缺失的病例,以及出院診斷中有糖尿病、慢性高血壓病、腎臟疾病、心臟病等的病例。診斷標(biāo)準(zhǔn):子癇前期根據(jù)中國《妊娠期高血壓疾病診治指南(2020)》[1]的標(biāo)準(zhǔn)進(jìn)行診斷。本研究已通過重慶醫(yī)科大學(xué)醫(yī)學(xué)研究倫理委員會審批。
1.2 收集指標(biāo) 收集患者的一般資料(年齡、高血壓家族史、糖尿病家族史)、體征資料(收縮壓、舒張壓等)、妊娠情況(孕產(chǎn)次、妊娠期等)及實驗室資料(血常規(guī)、肝功能、腎功能、電解質(zhì)、凝血功能)等,排除缺失率≥30%的指標(biāo)。
1.3 指標(biāo)分析 對子癇前期組與非子癇前期組患者的一般資料、體征資料、妊娠情況和實驗室資料進(jìn)行統(tǒng)計學(xué)描述及比較,分析子癇前期的影響因素。根據(jù)影響因素構(gòu)建基于LightGBM機(jī)器學(xué)習(xí)算法的預(yù)測模型,并評估其效能。
1.4 統(tǒng)計學(xué)處理 采用SPSS 25.0軟件進(jìn)行統(tǒng)計分析,缺失率<30%的指標(biāo)使用多重插補(bǔ)的方法填補(bǔ)。符合正態(tài)分布的計量資料以±s表示,組間比較采用t檢驗;不符合正態(tài)分布的計量資料以M(Q1,Q3)表示,組間比較采用Mann-WhitneyU檢驗;計數(shù)資料以例(%)表示;對結(jié)局變量、高血壓家族史、糖尿病家族史、孕周≥34周和是否初產(chǎn)婦等分類變量進(jìn)行賦值,采用χ2檢驗進(jìn)行比較。將兩組間差異有統(tǒng)計學(xué)意義的指標(biāo)納入logistic回歸分析,進(jìn)一步篩選子癇前期的影響因素。P<0.05為差異有統(tǒng)計學(xué)意義。
1.5 機(jī)器學(xué)習(xí)模型構(gòu)建 將子癇前期組與非子癇前期組按照7:3隨機(jī)分為訓(xùn)練集(n=1126)和測試集(n=483),并對訓(xùn)練集和測試集中的特征變量進(jìn)行一致性檢驗。調(diào)用python3.7.0 lightgbm包中基于梯度提升決策樹(Light Gradient Boosting Machine,LightGBM)的機(jī)器學(xué)習(xí)算法建立預(yù)測模型;采用5折交叉驗證算法確定LightGBM模型的最優(yōu)參數(shù),包括num_leaves、max_depth、min_data_in_leaf、feature_fraction、bagging_fraction和bagging_freq。其中num_leaves用來提高模型的準(zhǔn)確率,max_depth、min_data_in_leaf、feature_fraction、bagging_fraction和bagging_freq用來防止模型過度擬合。采用敏感度、特異度、準(zhǔn)確度、曲線下面積(AUC)等指標(biāo)評價測試集中預(yù)測模型的效能。
2.1 一般資料比較 納入的1609例孕婦中,子癇前期291例,占18.1%,非子癇前期1318例,占81.9%。共收集了58項指標(biāo),排除缺失率≥30%的13項指標(biāo),最終納入45項指標(biāo)。兩組間谷氨酰轉(zhuǎn)移酶(GGT)、谷丙轉(zhuǎn)氨酶(ALT)、凝血酶時間(TT)、谷草轉(zhuǎn)氨酶(AST)、尿比重等35項指標(biāo)差異有統(tǒng)計學(xué)意義(P<0.05),而中性粒細(xì)胞計數(shù)、凝血酶原時間(PT)、平均紅細(xì)胞體積(MCV)、淋巴細(xì)胞計數(shù)等10項指標(biāo)差異無統(tǒng)計學(xué)意義(P>0.05,表1)。
表1 子癇前期組與非子癇前期組患者的基線資料比較Tab.1 Comparison of baseline data between preeclampsia group and non-preeclampsia group
2.2 子癇前期的影響因素分析 利用二元logistic回歸分析對這35項指標(biāo)進(jìn)一步篩選,其中11項指標(biāo)[尿比重、尿酸、平均紅細(xì)胞血紅蛋白濃度(MCHC)、球蛋白、血小板分布寬度(PDW)、鉀離子、就診年齡、收縮壓、舒張壓、脈搏和孕周≥34周]差異有統(tǒng)計學(xué)意義(P<0.05),可作為子癇前期的獨立危險因素;此外,高血壓家族史雖然差異無統(tǒng)計學(xué)意義(P=0.063),但通過咨詢臨床專家和查閱參考文獻(xiàn),最終也作為子癇前期的影響因素(表2)。
表2 子癇前期差異性指標(biāo)logistic回歸分析Tab.2 Logistic regression analysis of difference index in preeclampsia
2.3 機(jī)器學(xué)習(xí)模型 將上述12項獨立危險因素作為預(yù)測模型的輸入變量,孕婦是否發(fā)生子癇前期作為結(jié)局變量,并將子癇前期組與非子癇前期組按照7:3隨機(jī)分為訓(xùn)練集和測試集,對訓(xùn)練集和測試集中的特征變量進(jìn)行一致性檢驗,所有特征變量在訓(xùn)練集和測試集中均滿足一致性檢驗(P>0.05,表3)。在訓(xùn)練過程中,采用5折交叉驗證算法對LightGBM模型的參數(shù)進(jìn)行優(yōu)化,調(diào)優(yōu)參數(shù)的范圍為:num_leaves為5~100,max_depth為3~8,min_data_in_leaf為1~102,feature_fraction為0.6~1.0,bagging_fraction為0.6~1.0,bagging_freq為0~50。經(jīng)過試驗,參數(shù)設(shè)置為num_leaves=5、max_depth=3、min_data_in_leaf=91、feature_fraction=0.8、bagging_fraction=0.6、bagging_freq=5時,LightGBM模型的預(yù)測效果達(dá)到最優(yōu),模型的曲線下面積(AUC)為0.964,敏感度為84.9%,特異度為92.7%。
表3 特征變量在訓(xùn)練集和測試集中的一致性檢驗Tab.3 Consistency test of characteristic variables in training set and test set
2.4 模型效能檢驗 采用測試集對模型的效能進(jìn)行驗證,結(jié)果顯示,LightGBM模型的敏感度和AUC均高于logistic回歸模型,但logistic回歸模型的特異度和準(zhǔn)確度高于LightGBM模型(圖1、表4)。
圖1 Logistic回歸模型與LightGBM模型在測試集中的ROC曲線圖Fig.1 ROC plot of logistic regression model and LightGBM model in test set
表4 Logistic回歸模型與LightGBM模型的效能評價Tab.4 Performance evaluation of logistic regression model and LightGBM model
子癇前期存在多因素、多機(jī)制、多通路發(fā)病的綜合征性質(zhì)[1],唯一的治療方法為中斷妊娠,但是可能會增加母嬰早產(chǎn)并發(fā)癥的風(fēng)險。雖然已有學(xué)者將檢查指標(biāo)用于子癇前期的診斷預(yù)測[9-11],如可溶性血管內(nèi)皮生長因子(soluble fms-like tyrosine kinase 1,sFlt-1)和胎盤生長因子(placental growth factor,PlGF)等,但其預(yù)測效果并不理想[12],且在低收入和中等收入國家推廣較為困難。本研究通過分析重慶醫(yī)科大學(xué)醫(yī)學(xué)數(shù)據(jù)研究院大數(shù)據(jù)平臺中的1609例住院孕婦的臨床數(shù)據(jù)構(gòu)建了預(yù)測模型,以輔助初級臨床醫(yī)師和基層醫(yī)療機(jī)構(gòu)評估子癇前期的發(fā)生風(fēng)險。
本研究篩選出子癇前期的12項影響因素,其中,球蛋白和孕周≥34周兩個指標(biāo)為保護(hù)因素,尿比重、尿酸、平均紅細(xì)胞血紅蛋白濃度等指標(biāo)為危險因素。目前,患者年齡、高血壓家族史、收縮壓和舒張壓這4項指標(biāo)對子癇前期發(fā)生風(fēng)險的影響已被廣泛報道[13-16],而尿比重、尿酸、平均紅細(xì)胞血紅蛋白濃度、球蛋白、血小板分布寬度、鉀離子、脈搏和孕周≥34周在子癇前期中的作用則少見報道。
有研究發(fā)現(xiàn),與健康孕婦比較,子癇前期孕婦在妊娠期間更容易消耗血清免疫球蛋白,導(dǎo)致血清球蛋白濃度降低[17]。本研究發(fā)現(xiàn),球蛋白為子癇前期的保護(hù)因素,球蛋白濃度越高,所消耗的球蛋白越少,患子癇前期的風(fēng)險越小,與文獻(xiàn)報道一致。臨床上將孕周<34周定義為早發(fā)型子癇前期,孕周≥34周定義為遲發(fā)型子癇前期[18],其中早發(fā)型子癇前期不良出生結(jié)局的發(fā)生率高于遲發(fā)型子癇前期,病情更危重,發(fā)生多器官功能損傷的風(fēng)險更高[19]。因此,孕周越高孕婦發(fā)生子癇前期的風(fēng)險越低。
子癇前期患者可能存在腎功能受損,由于腎臟灌注和腎小球濾過率下降,尿比重增高時,尿液濃縮,尿酸清除率下降,導(dǎo)致尿酸增多[20]。此外,近端小管對尿酸的重吸收增加和排泄減少,使子癇前期患者尿酸進(jìn)一步增多[21]。有研究報道,子癇前期患者紅細(xì)胞聚集能力增強(qiáng),變形能力減弱,血漿擴(kuò)容不足,導(dǎo)致血小板黏附于血管壁,紅細(xì)胞膜破壞,紅細(xì)胞血紅蛋白濃度增加,血紅蛋白/血細(xì)胞比容比值增高,血液黏度增高[22-23]。已有研究發(fā)現(xiàn),與正常妊娠晚期比較,子癇前期患者血小板計數(shù)更低,原因為血小板平均容積、血小板分布寬度升高,使得血小板消耗增加,從而導(dǎo)致血小板計數(shù)減少[24]。此外,據(jù)文獻(xiàn)報道,妊娠前中期高血鉀水平與嚴(yán)重子癇前期的發(fā)展風(fēng)險較高相關(guān)[25]。妊娠期間醛固酮和孕酮可影響孕婦的血鉀水平,因此,血鉀水平升高可能提示醛固酮和孕酮紊亂,而醛固酮和孕酮紊亂又可能與子癇前期的發(fā)生有關(guān)[26]。美國婦產(chǎn)科醫(yī)師學(xué)會(American College of Obstetricians and Gynecologists,ACOG)提出,心率是子癇前期的一個預(yù)警指標(biāo)[27]。子癇前期孕婦可能存在心功能損害,原因包括:(1)血管阻力增加,心臟后負(fù)荷加重;(2)腎素-血管緊張素-醛固酮系統(tǒng)平衡被破壞,造成水鈉潴留,引起血液濃縮;(3)貧血、低蛋白血癥導(dǎo)致血漿膠體滲透壓降低;(4)血漿擴(kuò)容不足[28]。而脈搏與心率相關(guān),脈搏越快則提示心率越快,孕婦患子癇前期的風(fēng)險越大[29]。
隨著大數(shù)據(jù)時代的來臨,機(jī)器學(xué)習(xí)在醫(yī)療衛(wèi)生領(lǐng)域的應(yīng)用越來越廣泛,尤其是在疾病的預(yù)測和預(yù)后評估方面[30-31]。本研究根據(jù)篩選出來的子癇前期影響因素,構(gòu)建了子癇前期預(yù)測模型,以預(yù)測孕婦子癇前期的發(fā)生風(fēng)險。結(jié)果顯示,LightGBM模型的效果達(dá)到最優(yōu)時,其AUC為0.964,敏感度為0.849,特異度為0.927。本研究LightGBM模型的AUC高于Jhee等[26]的模型(敏感度=0.603,特異度=0.991,AUC=0.924)。但是,Jhee等[26]的模型由于病例組(n=474)與對照組(n=10058)例數(shù)不平衡,導(dǎo)致敏感度及特異度相差過大,而本研究的LightGBM模型在敏感度及特異度相差過大的問題上有所改善,綜合性能較之前的預(yù)測模型有所提高。Logistic回歸模型的可解釋性非常好,從特征的權(quán)重可以解釋不同特征對最后結(jié)果的影響,在醫(yī)療衛(wèi)生領(lǐng)域可用于探索疾病的相關(guān)影響因素,但因為模型簡單,容易出現(xiàn)欠擬合、模型總體效能不高等問題。LightGBM是一種快速的、分布式的、高性能的基于決策樹算法的梯度提升框架[32]。LightGBM模型采用直方圖算法對數(shù)據(jù)進(jìn)行分割,通過離散化的統(tǒng)計量遍歷尋找最優(yōu)分割點,減小內(nèi)存,提高訓(xùn)練速度[33];采用有深度限制的按葉子生長策略,從當(dāng)前葉子節(jié)點中找到增益值最大的節(jié)點進(jìn)行分裂,并對樹的深度進(jìn)行限制,防止過度擬合,縮短尋找最優(yōu)深度樹的時間,降低了誤差,提高了預(yù)測準(zhǔn)確度[34]。
綜上所述,本研究構(gòu)建了基于機(jī)器學(xué)習(xí)算法的子癇前期預(yù)測模型,并利用敏感度、特異度、準(zhǔn)確度和AUC等評價指標(biāo)對構(gòu)建的機(jī)器學(xué)習(xí)模型進(jìn)行評價,一定程度上減少了單一評價指標(biāo)帶來的偏倚。同時,本研究結(jié)合了母體因素和常見的產(chǎn)前實驗室檢查指標(biāo),納入的患者來自多個中心,樣本量大且具有良好的代表性,可以有效地預(yù)測子癇前期的發(fā)生風(fēng)險,對臨床上孕婦子癇前期的早期識別有一定的輔助作用,具有潛在的臨床價值。
本研究仍存在一些不足之處:(1)數(shù)據(jù)均來源于重慶地區(qū),可能存在選擇偏倚,需要進(jìn)行外部驗證以進(jìn)一步評估模型的效能;(2)本文構(gòu)建的預(yù)測模型綜合效能較高,包含了12項指標(biāo),雖然均為易于獲得的常規(guī)實驗室檢查指標(biāo),但指標(biāo)數(shù)量較多,在臨床推廣應(yīng)用有一定困難;(3)研究中部分指標(biāo)的缺失率過大,如BMI是孕產(chǎn)婦產(chǎn)檢的重要指標(biāo),但在本研究中由于該指標(biāo)缺失率過大而未納入模型中,重要指標(biāo)的缺失可能會對模型的效能產(chǎn)生一些影響。因此,未來仍需進(jìn)一步論證該指標(biāo)的缺失是否會對預(yù)測結(jié)果有較大影響。