龍堯水,白文學(xué)
重慶市江津區(qū)婦幼保健院檢驗(yàn)科,重慶 402260
地中海貧血(簡稱地貧),即珠蛋白生成障礙性貧血,是全球范圍內(nèi)最普遍的單基因遺傳病之一,為珠蛋白合成障礙導(dǎo)致的溶血性貧血[1-2]。在南非、中東、東南亞一帶高度流行,國內(nèi)多發(fā)于南方沿海城市及西部農(nóng)村等中低收入地區(qū)。中國擁有全球最多的地貧新發(fā)病例和患者,約3 000萬中國人有地貧相關(guān)突變,300萬人患有中重型地貧,對家庭及社會(huì)造成沉重負(fù)擔(dān)[3-4]。由于地貧為常染色體隱性遺傳病,故臨床表現(xiàn)正常的父母也可能生下地貧嬰兒,如果父母均為地貧基因攜帶者,極有可能生下重型地貧患兒,重癥地貧存活率低且需要終身輸血及輸血治療的各種并發(fā)癥,故對地貧的早期診斷尤其重要[5-6]。目前可用的地貧篩查和診斷方法包括血常規(guī)檢測、滲透性脆性試驗(yàn)、目標(biāo)紅細(xì)胞(RBC)的血液涂片評估、包涵體鑒定、紅細(xì)胞指數(shù)、血紅蛋白(Hb)電泳、高效液相色譜(HPLC)和基因檢測[7-8]。地貧基因檢測雖然作為診斷地貧的金標(biāo)準(zhǔn),不過由于檢測周期較長且費(fèi)用較高,基層醫(yī)院設(shè)備、人員缺乏等因素,地貧的群體篩查仍存在一定困難。而血常規(guī)檢測是使用最廣泛、最成熟的檢驗(yàn)手段,如果將血常規(guī)指標(biāo)作為地貧篩查指標(biāo),可以極大提升篩查效率并降低成本。
血常規(guī)指標(biāo)檢測是對血細(xì)胞數(shù)量和形態(tài)進(jìn)行分析,通過血細(xì)胞分布和特定參數(shù),對疾病進(jìn)行輔助診斷,其中紅細(xì)胞計(jì)數(shù)(RBC)、Hb、紅細(xì)胞比容(HCT)、平均紅細(xì)胞體積(MCV)、平均血紅蛋白含量(MCH)、紅細(xì)胞體積分布寬度(RDW)聯(lián)合檢測對地貧的輔助診斷參考價(jià)值受到廣泛報(bào)道[9-12]。Hb和RBC在判斷貧血方面起著決定性的作用。Hb是紅細(xì)胞的主要成分,將氧氣輸送到器官和組織。與紅細(xì)胞相比,Hb更能反映貧血的程度。MCV、MCH、RDW與血液營養(yǎng)狀況密切相關(guān)。國家地貧防控指南規(guī)定,MCV<80 fL和(或)MCH<27 pg為血常規(guī)篩查陽性。RDW是血細(xì)胞分析儀通過快速測量大量紅細(xì)胞的體積,得出紅細(xì)胞體積的異質(zhì)性。地貧患者 Hb、HCT、MCV、MCH、平均血紅蛋白濃度(MCHC)、RDW降低,符合地貧小細(xì)胞低色素性貧血的血常規(guī)指標(biāo)分布特點(diǎn)[13-14]。
本研究回顧性分析2016-2022年重慶江津地區(qū)地貧孕婦基因檢測及血常規(guī)結(jié)果,并運(yùn)用神經(jīng)網(wǎng)絡(luò)模型分析血常規(guī)相關(guān)指標(biāo)對地貧的預(yù)測結(jié)果,旨在為本地區(qū)地貧孕婦的早期診斷、遺傳咨詢及治療提供新的策略。
1.1一般資料 收集2016年1月至2022年12月本院產(chǎn)前檢查孕婦的病例資料、血常規(guī)及地貧基因檢測結(jié)果。納入標(biāo)準(zhǔn):(1)首次到本院開展產(chǎn)前檢查;(2)未合并其他感染性疾病。排除標(biāo)準(zhǔn):(1)臨床資料不全、重復(fù);(2)近期使用引起紅細(xì)胞增減的特殊藥物。根據(jù)納入排除標(biāo)準(zhǔn),共收集病例9 652例。其中早孕期8 029例(83.2%),中孕期1 417例(14.7%),晚孕期206例(2.1%)。9 652例孕婦年齡15~46歲,平均年齡(26.99±4.85)歲。本研究經(jīng)本院醫(yī)學(xué)倫理委員會(huì)研究批準(zhǔn),所有受試者均簽署知情同意書。
1.2儀器與試劑 血常規(guī)指標(biāo)檢測采用日本Sysmex XN1000全自動(dòng)血細(xì)胞分析儀及配套試劑。地貧基因檢測采用杭州博日基因擴(kuò)增儀TC-96/G/H(b)和廣東凱普醫(yī)用核酸分子雜交儀HB-2012A,以及α-、β-地貧基因檢測試劑盒(PCR+膜雜交法)。
1.3方法
1.3.1血常規(guī)指標(biāo)檢測 采用真空采血管抽取研究對象靜脈血2 mL于乙二胺四乙酸二鉀(EDTA-K2)抗凝管中,顛倒混勻8次,備用,血常規(guī)指標(biāo)檢測需在 4 h內(nèi)完成。采用XN-1000自動(dòng)血細(xì)胞分析檢測紅細(xì)胞計(jì)數(shù)(RBC)、Hb、紅細(xì)胞比容(HCT)、MCV、平均血紅蛋白含量(MCH)、MCHC、紅細(xì)胞體積分布寬度標(biāo)準(zhǔn)差(RDW-SD)、紅細(xì)胞體積分布寬度變異系數(shù)(RDW-CV)等。
1.3.2地貧基因檢測 采用PCR 結(jié)合導(dǎo)流雜交技術(shù)檢測3種缺失型地貧(--SEA、-α3.7和-α4.2)、3種突變類型α地貧(CS、QS和WS)和17種突變類型β地貧[-28(A-G)、-29(A-G)、-30(T-C)、-32(C-A)、CD14/15(+G)、CD17(A-T)、CD27/28(+C)、CD31(-C)、CD41/42(-TCTT)、CD43(G-T)、CD71/72(+A)、IVS-Ⅰ-1(G-T,G-A)、IVS-Ⅰ-5(G-C)、IVS-Ⅱ-654(C-T)、βE(G-A)、CAP(A-C,A-AAAC)、Int(T-G)]。
1.4模型構(gòu)建 在9 652例孕婦中檢出地貧基因陽性847例,陰性8 805例,在陽性和陰性中分別隨機(jī)抽取424和4 402例作為試驗(yàn)組,剩余的423例地貧基因陽性孕婦和4 403例陰性孕婦作為對照組。由于地貧陰性數(shù)據(jù)量較大,作為對照組與陽性數(shù)據(jù)對比會(huì)出現(xiàn)較大誤差,數(shù)據(jù)平均分配可以確保建模過程受到陽性或陰性數(shù)據(jù)的干擾最小,防止過擬合現(xiàn)象出現(xiàn),提高模型的泛化能力。采用隨機(jī)森林(Random Forest)模型計(jì)算RBC、Hb、HCT、MCV、MCH、MCHC、RDW-SD等血常規(guī)指標(biāo)的重要性,均方差增量(%IncMSE)、節(jié)點(diǎn)純度增量(IncNodePurity)均表示變量的重要性,值越大重要性越高。建立隨機(jī)森林模型評估各血常規(guī)指標(biāo)的重要性,采用Logistic回歸構(gòu)建預(yù)測模型預(yù)測地貧發(fā)生的保護(hù)因素和危險(xiǎn)因素,計(jì)算出各指標(biāo)的優(yōu)勢比(OR);OR=1表示無相關(guān)性,>1為地貧發(fā)生的危險(xiǎn)因素,<1為地貧發(fā)生的保護(hù)因素。繪制受試者工作特征(ROC)曲線的驗(yàn)證模型的預(yù)測值,曲線下面積(AUC)越大表示預(yù)測效果越好。為了進(jìn)一步區(qū)分地貧孕婦類型為α或β,構(gòu)建了神經(jīng)網(wǎng)絡(luò)模型,569例α地貧與267例β地貧中各隨機(jī)285例α地貧與134例β地貧作為訓(xùn)練集,剩余數(shù)據(jù)作為驗(yàn)證集,分析模型對地貧類型的預(yù)測效果。隨后選取最優(yōu)的特征并進(jìn)行優(yōu)化,得到最終結(jié)果。
1.5統(tǒng)計(jì)學(xué)處理 采用Excel 2019進(jìn)行數(shù)據(jù)整理,采用R4.3.1建立神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練并驗(yàn)證。以P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
2.1地貧基因檢測陽性情況 9 652例病例中共檢測出地貧陽性847例,陽性率為8.78%,其中α地貧陽性569例,占比5.90%;β地貧陽性267例,占比2.77%;α及β合并基因型11例,占比0.11%。與對照組孕婦比較,地貧組血常規(guī)指標(biāo)Hb、MCV、MCH、MCHC、RDW-SD降低,RBC、RDW-CV增高,符合地貧小細(xì)胞低色素性貧血的臨床表現(xiàn),且β地貧、α合并β地貧基因型貧血改變幅度較α地貧變化更大。因孕婦就診時(shí)主要為早孕期,與地貧關(guān)系不明確,但是隨孕周增大,孕婦的貧血癥狀會(huì)加劇,故結(jié)果展示了不同孕周孕婦地貧基因檢測結(jié)果。見表1。
表1 地貧基因檢測情況[M(最小值,最大值)或n(%)]
2.2地貧危險(xiǎn)因素分析 Logistic回歸模型分析顯示,RBC、RDW-CV、晚孕期為地貧的危險(xiǎn)因素,Hb、HCT、MCV、MCH、MCHC、RDW-SD、早孕期為地貧的保護(hù)因素(P<0.001),見表2。
表2 地貧危險(xiǎn)因素分析
通過隨機(jī)森林模型分析顯示,重要性排序前6位依次為RDW-SD、MCV、MCH、MCHC、RDW-CV、RBC,提示以上因素均對地貧的預(yù)測效果較好?;贚ogistic回歸模型,繪制ROC曲線分析血常規(guī)指標(biāo)對地貧的預(yù)測結(jié)果,結(jié)果顯示,MCV、MCH、RDW-CV、MCHC、RBC等指標(biāo)的AUC分別為0.906、0.904、0.785、0.783、0.780,模型的AUC為0.906,提示模型AUC與MCV結(jié)果一致。分析原因可能為MCV指標(biāo)診斷地貧靈敏度較高。但當(dāng)診斷的靈敏度提高后,相對應(yīng)的誤差也會(huì)增高,而模型整合了MCH、RDW-CV、MCHC等指標(biāo),預(yù)測地貧穩(wěn)定性更高。見圖1。
注:A為%IncMSE;B為IncNodePurity。圖1 隨機(jī)森林模型試驗(yàn)組變量重要性分析
2.3地貧危險(xiǎn)因素的驗(yàn)證和地貧預(yù)測模型的建立 將對照組數(shù)據(jù)導(dǎo)入Logistic回歸模型,繪制ROC曲線驗(yàn)證模型的預(yù)測價(jià)值,結(jié)果顯示MCH、MCV、MCHC、RDW-CV、RBC等預(yù)測地貧的AUC分別為0.919、0.915、0.824、0.803、0.794,模型的AUC為0.919,較試驗(yàn)組血常規(guī)指標(biāo)預(yù)測值有所提高。對照組模型AUC與MCH一致,表示MCH預(yù)測地貧的效率較其他血常規(guī)指標(biāo)更高。將血常規(guī)指標(biāo)RBC、Hb、MCV、MCH、MCHC、RDW-SD等作為變量,建立地貧預(yù)測模型,同時(shí)繪制列線圖,根據(jù)模型中RBC、MCV、MCH等各個(gè)變量對結(jié)局變量的貢獻(xiàn)程度,給每個(gè)變量的取值水平進(jìn)行賦分(Points),再將各個(gè)評分相加得到總評分(Total Points),最終通過總評分與地貧發(fā)生率之間的關(guān)系,計(jì)算出個(gè)體血常規(guī)指標(biāo)對地貧的線性預(yù)測值(Linear Predictor 分?jǐn)?shù))>0分表示發(fā)生地貧。見圖2。
注:地貧預(yù)測模型可視化,總分對應(yīng)線性預(yù)測值(Linear Predictor分?jǐn)?shù))>0提示地貧陽性。圖2 地貧特征變量預(yù)測模型的建立
2.4神經(jīng)網(wǎng)絡(luò)模型預(yù)測 α、β地貧效果 為研究地貧孕婦的血常規(guī)指標(biāo)、孕周等因素對地貧的預(yù)測效果,針對地貧患者血常規(guī)指標(biāo)、孕周等變量建立包含2個(gè)隱藏層、每層10個(gè)神經(jīng)元的全連接網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)模型,各血常規(guī)指標(biāo)為輸入層,α、β地貧為輸出層,訓(xùn)練集結(jié)果α地貧預(yù)測值為90.845%、β地貧預(yù)測值為91.729%。預(yù)測結(jié)果沒有達(dá)到100%的原因可能為模型特征不夠精確所致,而α地貧預(yù)測值較β地貧預(yù)測值低,可能是β地貧貧血表現(xiàn)較α地貧更嚴(yán)重,導(dǎo)致模型算法出現(xiàn)偏倚。為提高模型預(yù)測值,運(yùn)用連接權(quán)重算法進(jìn)行α、β地貧各變量重要性分析,絕對值越高代表重要性越高,正負(fù)代表正相關(guān)和負(fù)相關(guān),得出MCV、RDW-CV、MCH、RBC、RDW-SD、Hb 6個(gè)重要性最高的變量,與隨機(jī)森林模型、Logistic模型數(shù)據(jù)分析結(jié)果一致。隨后基于變量權(quán)重,對α、β地貧神經(jīng)網(wǎng)絡(luò)預(yù)測模型進(jìn)行優(yōu)化,將以上6個(gè)變量作為輸入層,設(shè)置2個(gè)隱藏層、每層5個(gè)神經(jīng)元,α、β地貧作為輸出層,輸入驗(yàn)證集數(shù)據(jù),α地貧、β地貧預(yù)測值均為100%。見圖3。
注:A為訓(xùn)練集模型;B為模型預(yù)測值;C為連接權(quán)重法進(jìn)行變量重要性分析(絕對值越高,重要性越高);D為優(yōu)化后模型;E為優(yōu)化后模型預(yù)測值。圖3 α、β地貧預(yù)測效果分析
隨著人工智能技術(shù)的飛速發(fā)展,運(yùn)用神經(jīng)網(wǎng)絡(luò)等技術(shù)輔助診斷疾病成為國內(nèi)外研究熱點(diǎn)。與人類診斷相比,基于計(jì)算機(jī)的診斷方法可以產(chǎn)生更準(zhǔn)確的輸出結(jié)果和更高的效率,有效減少誤診率,從而以更少的成本實(shí)現(xiàn)更有效的疾病診斷[3,15]。通過大數(shù)據(jù)和臨床信息的診斷,神經(jīng)網(wǎng)絡(luò)極大地提高了臨床診斷結(jié)果的準(zhǔn)確性和檢驗(yàn)效率,促進(jìn)檢驗(yàn)醫(yī)學(xué)向精準(zhǔn)醫(yī)學(xué)、智能檢驗(yàn)快速發(fā)展[16-17]。如果將神經(jīng)網(wǎng)絡(luò)運(yùn)用于地貧的早期診斷,用普及程度較高的血常規(guī)就能預(yù)測嚴(yán)重程度較高的地貧型別,降低地貧基因鑒定的高額費(fèi)用及等待時(shí)間,從而及早采取治療措施,并對地貧孕婦開展基因檢測及遺傳咨詢,這對降低中重型地貧患兒出生率,以及西南、西北等中低收入地區(qū)的人群健康普查有重大意義。
本研究對9 652例孕婦血常規(guī)指標(biāo)和地貧基因檢測結(jié)果進(jìn)行分析,檢出α地貧陽性率為5.90%,β地貧陽性率為2.77%,地貧型別分布與楊嫄等[18]研究相似。本研究通過對地貧危險(xiǎn)因素進(jìn)行分析發(fā)現(xiàn),RBC、RDW-CV、中孕期、晚孕期為地貧的危險(xiǎn)因素。隨孕期進(jìn)展,地貧孕婦貧血癥狀加劇,RBC、RDW-CV增大則為機(jī)體造血代償性增生,導(dǎo)致紅細(xì)胞數(shù)量增多且大小分布不均。Hb、HCT、MCV、MCH、MCHC、RDW-SD、早孕期為地貧的保護(hù)性因素,其結(jié)果與地貧呈負(fù)相關(guān),即其值越高,地貧發(fā)生的概率越低,與既往報(bào)道一致[1,2-4]。隨后,本研究采用隨機(jī)森林模型篩選出預(yù)測地貧重要性較高的幾個(gè)系數(shù):MCV、MCH、RDW-CV、MCHC、RBC。這與文獻(xiàn)[19-20]的研究結(jié)果相近。采用AUC評價(jià)模型篩選效果,MCV、MCH分?jǐn)?shù)最高,且試驗(yàn)組對照組結(jié)果一致。綜合試驗(yàn)組和對照組,MCH、MCV的預(yù)測價(jià)值最高,與地貧專家共識[21]將MCV<82 fL、MCH<27 pg作為地貧的血常規(guī)篩查指標(biāo)吻合。
隨機(jī)森林是一種集成學(xué)習(xí)算法,可減少過擬合的風(fēng)險(xiǎn),提高了模型的泛化能力,更接近實(shí)際情況[22]。本研究建立神經(jīng)網(wǎng)絡(luò)模型,輸入層1層,11個(gè)神經(jīng)元數(shù)量,將所有指標(biāo)全部納入;地貧的血常規(guī)指標(biāo)有多個(gè)特征,且不能進(jìn)行簡單的線性分離,故設(shè)置隱藏層1層,神經(jīng)元數(shù)量為10,盡可能提取到各輸入變量的特征;輸出層1層,2個(gè)節(jié)點(diǎn)分別為α、β。與其他運(yùn)用AI學(xué)習(xí)工具預(yù)測地貧的研究相比,研究者創(chuàng)新性地加入了基于反向傳播(BP)神經(jīng)網(wǎng)絡(luò)的RPROP算法,運(yùn)用帶有權(quán)重回溯的彈性反向傳播更新權(quán)重,以降低預(yù)測值與實(shí)際值的誤差。輸入訓(xùn)練集,得到α地貧預(yù)測值為90.845%、β地貧預(yù)測值為91.729%。懷疑初始模型由于輸入層神經(jīng)元數(shù)量和隱藏層節(jié)點(diǎn)數(shù)量過多,且輸入層神經(jīng)元特征不夠代表性,導(dǎo)致模型過擬合,預(yù)測效果反而下降。因此,對模型進(jìn)行優(yōu)化,減少輸入層神經(jīng)元數(shù)量,將重要性最高的6個(gè)變量作為輸入節(jié)點(diǎn),隱藏層數(shù)量降為5,輸入驗(yàn)證集進(jìn)行驗(yàn)證,α地貧、β地貧預(yù)測值均提升為100%。
有研究證明,隨機(jī)森林算法在多種疾病的診斷和預(yù)后預(yù)測中具有較高的效率,且已有研究將隨機(jī)森林算法運(yùn)用于α地貧中[23-24],其預(yù)測效率與本研究模型相當(dāng)。神經(jīng)網(wǎng)絡(luò)已被證明在包括測序在內(nèi)的多種數(shù)據(jù)中可以被用于疾病的診斷[25],且在地貧的預(yù)測中有較高的效率[26],但目前為止仍鮮有對α地貧和β地貧進(jìn)行區(qū)分的模型報(bào)道。本研究模型集合了兩種有效的算法,不僅利用較為容易獲取的臨床數(shù)據(jù)通過隨機(jī)森林對地貧進(jìn)行了預(yù)測,且通過神經(jīng)網(wǎng)絡(luò)構(gòu)建模型對α地貧和β地貧進(jìn)行了區(qū)分。不過,由于α地貧主要數(shù)據(jù)為-α3.7、--SEA、-α4.2,β地貧主要數(shù)據(jù)為CD17(A-T)、CD41-42(-TCTT)、IVS-Ⅱ-654(C-T),實(shí)際預(yù)測結(jié)果會(huì)向標(biāo)本量較大的地貧基因型傾斜。各地貧基因型的數(shù)據(jù)量與地貧陰性數(shù)據(jù)量差異較大,且孕婦隨著孕周增大,生理性貧血加劇,陰性數(shù)據(jù)中,貧血數(shù)據(jù)的比重增大,對預(yù)測模型有一定誤導(dǎo),導(dǎo)致具體地貧基因型預(yù)測效果不佳。此外,由于神經(jīng)網(wǎng)絡(luò)模型具有一定的隨機(jī)性,以及重慶市地貧分布的局限性,對地貧孕婦的預(yù)測效果有待擴(kuò)大數(shù)據(jù)量及分布范圍進(jìn)一步研究。同時(shí),由于缺鐵性貧血同為小細(xì)胞低色素性貧血,血常規(guī)指標(biāo)與地貧有部分重疊,對于地貧和缺鐵貧的鑒別將作為下一步研究重點(diǎn)。
綜上所述,本研究建立神經(jīng)網(wǎng)絡(luò)模型對9 652例孕婦進(jìn)行地貧基因預(yù)測,將孕婦血常規(guī)指標(biāo)作為模型變量,篩選出MCV、RDW-CV、MCH、RBC、RDW-SD、Hb 6個(gè)重要性較高的指標(biāo),并通過將以上6項(xiàng)指標(biāo)作為變量,得出α地貧、β地貧預(yù)測值均為100%。本研究結(jié)果可為地貧的早期篩查提供新的思路。