王瑩
關(guān)鍵詞:機(jī)器學(xué)習(xí);邏輯回歸;支持向量機(jī);大數(shù)據(jù);心梗
心血管疾病是人類死亡的主要原因,全世界每年約有2,000萬(wàn)人死于急性心血管疾病。心肌梗死(myocardialinfarction,MI)是由心肌缺血引發(fā)的心肌損傷,其高發(fā)病率給家庭和社會(huì)帶來(lái)沉重的經(jīng)濟(jì)負(fù)擔(dān),并嚴(yán)重影響MI患者的生活質(zhì)量[1]。研究表明,MI患者的高發(fā)病率與早期缺乏有效的預(yù)防和干預(yù)措施有關(guān)。干預(yù)滯后的原因包括首次就醫(yī)治療的延遲、缺乏顯著提示意義的預(yù)測(cè)標(biāo)志物,以及傳統(tǒng)評(píng)價(jià)標(biāo)準(zhǔn)無(wú)法提供準(zhǔn)確預(yù)測(cè)[2]。對(duì)于MI患者,早發(fā)現(xiàn)、早診斷、早治療能夠有效提高預(yù)后效果和生存率。
目前,MI的診斷方法包括心電圖、超聲心動(dòng)圖、冠狀動(dòng)脈造影和循環(huán)生物標(biāo)志物檢測(cè)等。其中,循環(huán)生物標(biāo)志物對(duì)MI患者的診斷、預(yù)后和治療效果監(jiān)測(cè)非常重要。循環(huán)生物標(biāo)志物包括心臟肌鈣蛋白(cardiactroponin,cTn)、肌紅蛋白(myoglobin)、乳酸脫氫酶(lactatedehydrogenase,LDH)、谷草轉(zhuǎn)氨酶(aspartateaminotransferase,AST)、肌酸激酶(creatinekinase,CK)和葡萄糖(glucose)等。
目前,循環(huán)生物標(biāo)志物檢測(cè)存在兩方面的局限性。首先,單獨(dú)的循環(huán)生物標(biāo)志物在推斷病情及病程方面存在不足。盡管cTn是醫(yī)學(xué)實(shí)驗(yàn)室診斷MI的金標(biāo)準(zhǔn),但其在骨骼肌損傷、腎臟疾病、惡性腫瘤或敗血癥等情況下也會(huì)增加。AST在各種組織中無(wú)處不在,顯著影響其對(duì)心肌損傷的特異性診斷,限制了其作為心臟生物標(biāo)志物的使用。LDH也在多種組織中存在,使得LDH成為心臟損傷特異性較差的標(biāo)志物。CK存在于多種其他組織中,嚴(yán)重影響其作為心肌損傷生物標(biāo)志物的特異性[3]。其次,多項(xiàng)循環(huán)生物標(biāo)志物的組合缺乏直觀的規(guī)律性,人工篩查無(wú)法及時(shí)早期發(fā)現(xiàn)。
機(jī)器學(xué)習(xí)(machinelearning,ML)具備處理海量多維數(shù)據(jù)的能力,能夠在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上發(fā)掘數(shù)據(jù)之間的潛在關(guān)聯(lián)關(guān)系并生成預(yù)測(cè)模型。蘭欣等[4]認(rèn)為,患者診斷過(guò)程中產(chǎn)生的大量檢驗(yàn)數(shù)據(jù)依靠人力采用常規(guī)方法診斷費(fèi)時(shí)費(fèi)力,同時(shí)缺乏質(zhì)量保證,可以結(jié)合ML進(jìn)行輔助診斷。
目前,對(duì)MI預(yù)測(cè)模型的研究主要集中在特異性明顯、數(shù)據(jù)缺失率低的檢驗(yàn)項(xiàng)目。例如,王覓也等[5]使用多種ML算法基于57項(xiàng)檢驗(yàn)項(xiàng)目構(gòu)建預(yù)測(cè)模型,對(duì)MI患者進(jìn)行風(fēng)險(xiǎn)分析,預(yù)測(cè)結(jié)果相對(duì)穩(wěn)定。呂永楠等[6]采用隨機(jī)森林算法基于19項(xiàng)血液檢驗(yàn)項(xiàng)目建立男性MI診斷模型,能夠有效區(qū)分MI與心絞痛。王穎晶等[7]采用6種機(jī)器學(xué)習(xí)算法基于123項(xiàng)檢驗(yàn)項(xiàng)目建立了MI識(shí)別模型,通過(guò)特征挖掘找出CK、血糖等MI關(guān)鍵和致病因素。這些研究均采用了人為篩選檢驗(yàn)項(xiàng)目,與真實(shí)世界的數(shù)據(jù)存在較大差異,不利于發(fā)現(xiàn)新的診斷標(biāo)志物。
源源不斷的檢驗(yàn)數(shù)據(jù)匯集形成海量數(shù)據(jù),其中蘊(yùn)藏大量已知與未知的臨床發(fā)展規(guī)律。重新解讀海量數(shù)據(jù)并將其再利用,有助于新型標(biāo)志物的發(fā)現(xiàn)[8]。本研究擬通過(guò)兩種ML算法基于MI患者的全量檢驗(yàn)數(shù)據(jù)建立MI預(yù)測(cè)模型及驗(yàn)證評(píng)估,并發(fā)掘在MI中作為關(guān)鍵因素的檢驗(yàn)項(xiàng)目。
1材料與方法
1.1數(shù)據(jù)來(lái)源
本研究的數(shù)據(jù)來(lái)源于深圳市某綜合性三甲醫(yī)院2016年10月1日至2021年9月30日的全量檢驗(yàn)數(shù)據(jù)和相應(yīng)診斷結(jié)果。這些數(shù)據(jù)涵蓋了臨床血液及體液學(xué)、臨床生物化學(xué)、臨床免疫學(xué)、臨床微生物學(xué)和臨床細(xì)胞分子遺傳學(xué)五大類,共計(jì)1338項(xiàng)檢驗(yàn)項(xiàng)目(包括少量來(lái)自不同儀器設(shè)備的同一檢驗(yàn)項(xiàng)目)。數(shù)據(jù)包括患者的ID、年齡、性別、就診部門、檢驗(yàn)日期、檢驗(yàn)項(xiàng)目編碼、檢驗(yàn)結(jié)果和診斷結(jié)果八個(gè)字段,共計(jì)140616701條記錄。
1.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理包括將全量檢驗(yàn)數(shù)據(jù)和相應(yīng)診斷結(jié)果導(dǎo)入大數(shù)據(jù)平臺(tái)、實(shí)施數(shù)據(jù)結(jié)構(gòu)的行列轉(zhuǎn)置、數(shù)據(jù)清洗和必要的數(shù)據(jù)類型轉(zhuǎn)換。在大數(shù)據(jù)平臺(tái)上對(duì)數(shù)據(jù)實(shí)施行列轉(zhuǎn)置,如圖1所示。轉(zhuǎn)置后,同一患者在相同檢驗(yàn)日期的所有檢驗(yàn)項(xiàng)目位于一行,所有患者的相同檢驗(yàn)項(xiàng)目位于一列,形成了大數(shù)據(jù)寬表。
檢驗(yàn)數(shù)據(jù)結(jié)構(gòu)復(fù)雜、類型眾多,主要存在以下三方面的問(wèn)題:1)結(jié)構(gòu)化數(shù)據(jù)中存在非法標(biāo)識(shí)符(例如>、<、.、*、NULL等)。2)非結(jié)構(gòu)化文本數(shù)據(jù)需要數(shù)字化。3)人工錄入和系統(tǒng)轉(zhuǎn)化等導(dǎo)致的錯(cuò)誤數(shù)據(jù)。通過(guò)數(shù)據(jù)清洗、文本數(shù)據(jù)數(shù)字化、錯(cuò)誤數(shù)據(jù)糾正和缺失數(shù)據(jù)填充等方式實(shí)現(xiàn)數(shù)據(jù)的準(zhǔn)確性、一致性和完整性。
為了便于ML算法處理數(shù)據(jù),數(shù)值型數(shù)據(jù)統(tǒng)一轉(zhuǎn)為雙精度浮點(diǎn)類型,并對(duì)這些數(shù)據(jù)采用歸一化方法,將其壓縮到[0,1]之間。確定特征列(檢驗(yàn)項(xiàng)目)與目標(biāo)列(診斷結(jié)果),形成ML數(shù)據(jù)源。
1.3ML方法
常規(guī)的ML分類算法主要包括隨機(jī)森林(Ran?domForests,RF)、K近鄰(K-NearestNeighbor,KNN)、支持向量機(jī)(SupportVectorMachine,SVM)和邏輯回歸(LogisticRegression,LR)等。其中,LR分類不僅可以提供分類類別,還可以提供預(yù)測(cè)概率(特征的權(quán)重),有利于結(jié)合實(shí)際業(yè)務(wù)進(jìn)行分析判斷和解釋。LR二分類算法不僅適用于處理醫(yī)療數(shù)據(jù),對(duì)大數(shù)據(jù)量或小數(shù)據(jù)量均具有優(yōu)異的性能和計(jì)算結(jié)果,對(duì)噪聲干擾及冗余屬性也有較好的魯棒性。
LR二分類算法的條件概率分布為:
其中,x是輸入數(shù)據(jù),Y是輸出結(jié)果,w為權(quán)重向量,w.x是w與x的內(nèi)積,b是偏置,e是自然常數(shù)。對(duì)于給定的輸入實(shí)例x,通過(guò)式(1)和式(2)求得P(Y=1|x)和P(Y=0|x),LR比較兩個(gè)條件概率值的大小,將實(shí)例X分到概率值較大的類[9]。
SVM通過(guò)探求風(fēng)險(xiǎn)最小來(lái)提高學(xué)習(xí)機(jī)的泛化能力,實(shí)現(xiàn)置信度范圍和經(jīng)驗(yàn)風(fēng)險(xiǎn)的最小化[10]。SVM分為線性和非線性,本研究采用線性SVM,通過(guò)產(chǎn)生一個(gè)超平面,對(duì)樣本進(jìn)行分類,直到訓(xùn)練樣本中屬于不同類別的樣本點(diǎn)恰好位于該超平面兩側(cè),從而實(shí)現(xiàn)對(duì)線性可分樣本的最佳分類。
ML業(yè)務(wù)流程如圖2所示,按照預(yù)設(shè)比例在數(shù)據(jù)拆分模塊中將ML數(shù)據(jù)源隨機(jī)拆分為訓(xùn)練和測(cè)試兩部分?jǐn)?shù)據(jù)。訓(xùn)練數(shù)據(jù)進(jìn)入ML訓(xùn)練模塊,結(jié)合ML分類算法生成預(yù)測(cè)模型。在ML預(yù)測(cè)模塊中,測(cè)試數(shù)據(jù)和預(yù)測(cè)模型生成預(yù)測(cè)結(jié)果。預(yù)測(cè)結(jié)果分別輸入到混淆矩陣評(píng)估模塊和二分類評(píng)估模塊進(jìn)行預(yù)測(cè)水平評(píng)估。
1.4預(yù)測(cè)模型評(píng)估方法
預(yù)測(cè)模型的預(yù)測(cè)水平評(píng)估采用混淆矩陣和二分類評(píng)估兩種方式?;煜仃嚨拿恳涣斜硎疽环N類別的預(yù)測(cè)值,每一行表示一種類別的真實(shí)值,如圖3所示。
其中,正確預(yù)測(cè)的正樣本標(biāo)記為真陽(yáng)性(trueposi?tive,TP),負(fù)樣本被預(yù)測(cè)為正樣本標(biāo)記為假陽(yáng)性(falsepositive,F(xiàn)P),負(fù)樣本被預(yù)測(cè)為負(fù)樣本標(biāo)記為真陰性(truenegative,TN),正樣本被預(yù)測(cè)為負(fù)樣本標(biāo)記為假陰性(falsenegative,F(xiàn)N)?;煜仃嚥捎脺?zhǔn)確率、精確率、召回率和F1-Score四項(xiàng)指標(biāo),評(píng)估指標(biāo)的計(jì)算公式如下:
二分類評(píng)估采用AUC和F1-Score兩項(xiàng)指標(biāo)。AUC(areaundercurve)為受試者工作特征曲線(re?ceiveroperatingcharacteristiccurve,ROC)下面積,AUC值介于0到1之間,AUC值越趨近于1則區(qū)分能力越強(qiáng)。
1.5平臺(tái)工具
平臺(tái)工具采用公開商業(yè)軟件,其中包括大數(shù)據(jù)平臺(tái)提供的數(shù)據(jù)存儲(chǔ)、計(jì)算和管理功能,大數(shù)據(jù)治理開發(fā)平臺(tái)的數(shù)據(jù)治理和數(shù)據(jù)開發(fā)功能,以及機(jī)器學(xué)習(xí)平臺(tái)的模塊化組件,用于機(jī)器學(xué)習(xí)預(yù)測(cè)模型的開發(fā)、驗(yàn)證和評(píng)估。
2結(jié)果
2.1LR二分類模型
LR二分類模型包括1338項(xiàng)特征(檢驗(yàn)項(xiàng)目)的權(quán)重,其中前15項(xiàng)權(quán)重如表1所示。
其中,項(xiàng)目編碼為檢驗(yàn)項(xiàng)目的唯一標(biāo)識(shí),權(quán)重為相應(yīng)檢驗(yàn)項(xiàng)目在模型中的系數(shù)。權(quán)重越大,該檢驗(yàn)項(xiàng)目與對(duì)應(yīng)診斷結(jié)果的相關(guān)性越強(qiáng)。由于歷史原因,項(xiàng)目編碼缺乏統(tǒng)一規(guī)劃,存在項(xiàng)目編碼6466和5654表示來(lái)自不同檢驗(yàn)設(shè)備的相同檢驗(yàn)項(xiàng)目的情況。
2.2LR二分類模型預(yù)測(cè)水平評(píng)估
2.2.1混淆矩陣評(píng)估結(jié)果
預(yù)測(cè)結(jié)果評(píng)估如表2所示,其中準(zhǔn)確率、精確率、召回率和F1-Score四項(xiàng)指標(biāo)均大于0.900,表明預(yù)測(cè)水平較高。
2.2.2二分類評(píng)估結(jié)果
預(yù)測(cè)結(jié)果評(píng)估中,AUC為0.994,F(xiàn)1-Score為0.960,均高于0.950,表明預(yù)測(cè)水平較高。
2.3SVM模型預(yù)測(cè)水平評(píng)估
2.3.1混淆矩陣評(píng)估結(jié)果
預(yù)測(cè)結(jié)果評(píng)估如表3所示,其中準(zhǔn)確率、精確率、召回率和F1-Score四項(xiàng)指標(biāo)均大于0.900,表明預(yù)測(cè)水平較高。
2.3.2二分類評(píng)估結(jié)果
預(yù)測(cè)結(jié)果評(píng)估AUC為0.991和F1-Score為0.953,均高于0.950,表明預(yù)測(cè)水平較高。
3討論
本研究采用LR和SVM兩種ML算法對(duì)同一數(shù)據(jù)源進(jìn)行訓(xùn)練和預(yù)測(cè),生成的預(yù)測(cè)模型均具有較高的預(yù)測(cè)水平,表明預(yù)測(cè)模型具有穩(wěn)定性和可靠性。以直觀輸出參數(shù)、可解釋性強(qiáng)的LR二分類預(yù)測(cè)模型為例,LR二分類預(yù)測(cè)模型展示的檢驗(yàn)項(xiàng)目與診斷結(jié)果的關(guān)系可以分為兩種情況:一種是已經(jīng)獲得相關(guān)臨床研究驗(yàn)證,另一種是尚未被充分挖掘。獲得臨床驗(yàn)證的檢驗(yàn)項(xiàng)目如LDH、葡萄糖、年齡和超敏肌鈣蛋白(high-sen?sitivitycardiactroponinI,hs-cTnI)和高密度脂蛋白膽固醇(highdensitylipteincholesterol,HDL-C)等,有研究通過(guò)ML發(fā)現(xiàn)AST、LDH為MI患者需要關(guān)注的危險(xiǎn)因素,MI患者的年齡、性別、超敏肌鈣蛋白(hs-cTnI)檢驗(yàn)結(jié)果為訓(xùn)練數(shù)據(jù),預(yù)測(cè)效果非常理想[11]。研究表明HDL-C的低平均值和高變異性與心肌梗死、卒中和死亡風(fēng)險(xiǎn)增加有關(guān)[12]。研究發(fā)現(xiàn)在ST段抬高型MI患者中,葡萄糖是1年全因死亡率的獨(dú)立預(yù)測(cè)因子,具有可接受的陰性和陽(yáng)性預(yù)測(cè)值。在非ST段抬高型MI患者中,葡萄糖與1年全因死亡率獨(dú)立相關(guān),也是最佳預(yù)測(cè)因子[13]。本研究的項(xiàng)目編碼分別為6466和5654,分別是來(lái)自不同檢測(cè)設(shè)備對(duì)葡萄糖的檢測(cè)結(jié)果,兩個(gè)項(xiàng)目編碼對(duì)應(yīng)的權(quán)重接近,證明了葡萄糖與診斷結(jié)果強(qiáng)相關(guān)的可靠性,與王穎晶等[7]采用6種機(jī)器學(xué)習(xí)方法研究發(fā)現(xiàn)血糖、總膽固醇、肌酶同工酶為MI關(guān)鍵致病因素相符。
尚未被充分挖掘的項(xiàng)目,如dep、胱抑素C(Cys?tatinC,CysC)等,權(quán)重最高的dep中,來(lái)自住院和門診的MI患者分別為4526例、860例以及其他來(lái)源2例。MI患者大部分來(lái)自住院患者(占比84%),特征明顯,與高發(fā)病率以及早期缺乏有效的干預(yù)和預(yù)防措施有關(guān)。多項(xiàng)研究表明CysC水平對(duì)于MI的發(fā)生發(fā)展及預(yù)后,有一定的預(yù)測(cè)作用,可作為臨床預(yù)測(cè)MI的指標(biāo),但其與MI的發(fā)病機(jī)制之間的關(guān)系尚未完全明確,需要進(jìn)一步研究[14-15]。本研究采用LR基于全量檢驗(yàn)數(shù)據(jù)構(gòu)建的預(yù)測(cè)模型的AUC和F1-Score兩項(xiàng)指標(biāo)均高于0.950,王覓等[5]使用LR基于57項(xiàng)檢驗(yàn)項(xiàng)目生成預(yù)測(cè)模型的AUC為0.900和F1-Score為0.810,王穎晶等[7]采用LR基于123項(xiàng)檢驗(yàn)項(xiàng)目生成預(yù)測(cè)模型的AUC為0.785和F1-Score為0.660,一定程度表明本研究基于全量檢驗(yàn)項(xiàng)目生成的預(yù)測(cè)模型預(yù)測(cè)水平高于上述研究者基于部分檢驗(yàn)項(xiàng)目生成的預(yù)測(cè)模型。
綜合以上分析,LR二分類預(yù)測(cè)模型按照權(quán)重降序排列的MI患者的前15項(xiàng)特征大部分與上述國(guó)內(nèi)外臨床診斷研究結(jié)果吻合,表明了預(yù)測(cè)模型的輔助診斷可用性。LR二分類預(yù)測(cè)模型中每個(gè)特征不是獨(dú)立的決定性因素,需要1338項(xiàng)特征共同構(gòu)成的完整LR二分類預(yù)測(cè)模型發(fā)揮作用。SVM預(yù)測(cè)模型缺乏可視性,適合計(jì)算機(jī)處理,但其作為L(zhǎng)R二分類預(yù)測(cè)模型的對(duì)照具有重要的價(jià)值。
本研究通過(guò)ML基于檢驗(yàn)大數(shù)據(jù)生成MI預(yù)測(cè)模型,一方面結(jié)果與國(guó)內(nèi)外研究成果相符,另一方面也挖掘出待進(jìn)一步研究的內(nèi)容。SVM和LR二分類預(yù)測(cè)模型基于真實(shí)世界的全量檢驗(yàn)數(shù)據(jù)均具有較高的預(yù)測(cè)水平,具有實(shí)際應(yīng)用的可行性。其中LR二分類預(yù)測(cè)模型量化輸出了檢驗(yàn)項(xiàng)目與診斷結(jié)果的權(quán)重,相比以往研究的定性分析關(guān)聯(lián)關(guān)系模式,有助于進(jìn)一步深入研究。在研究中也發(fā)現(xiàn)了尚未完全明晰價(jià)值的檢驗(yàn)項(xiàng)目具有較高的相關(guān)性,需要進(jìn)一步結(jié)合臨床診斷信息進(jìn)行研究。本研究使用的近5年的檢驗(yàn)數(shù)據(jù)也存在樣本量小、只有兩種ML算法以及缺乏多中心驗(yàn)證的問(wèn)題,后續(xù)可以在此基礎(chǔ)上進(jìn)一步擴(kuò)展檢驗(yàn)數(shù)據(jù)量和數(shù)據(jù)挖掘方法,以在臨床驗(yàn)證預(yù)測(cè)模型的可行性。