趙永鵬 朱俊杰
摘? 要:使用機(jī)器學(xué)習(xí)方法對(duì)心磁數(shù)據(jù)樣本有無(wú)疾病進(jìn)行診斷分類。首先從心磁數(shù)據(jù)中提取除極階段(TT間隔)的數(shù)據(jù)構(gòu)建磁場(chǎng)圖,然后求解電流密度圖,從電流密度圖中提取相關(guān)的磁場(chǎng)特征。針對(duì)非平衡數(shù)據(jù)分類問(wèn)題,分別使用樣本加權(quán)的SVM、LR、KNN、Adaboost和XGBoost五種學(xué)習(xí)模型進(jìn)行訓(xùn)練,在此基礎(chǔ)上設(shè)計(jì)了使用加權(quán)的LR和KNN為初級(jí)學(xué)習(xí)器、SVM為次級(jí)學(xué)習(xí)器的結(jié)合學(xué)習(xí)模型對(duì)樣本數(shù)據(jù)進(jìn)行訓(xùn)練。采用結(jié)合學(xué)習(xí)模型對(duì)73 名非患者和47 名心肌梗死患者的36 通道心磁數(shù)據(jù)進(jìn)行實(shí)驗(yàn),結(jié)果顯示該模型對(duì)樣本不均衡的心磁數(shù)據(jù)分類有較好的效果。
關(guān)鍵詞:心磁數(shù)據(jù);電流密度圖;機(jī)器學(xué)習(xí);心肌梗死;結(jié)合學(xué)習(xí)
中圖分類號(hào):TP391? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Magnetocardiograph Signal Diagnosis of Patients with Myocardial
Infarction based on Machine Learning
ZHAO Yongpeng, ZHU Junjie
(School of Electrical Engineering and Automation, Henan Polytechnic University, Jiaozuo 454000, China)
2959415512@qq.com; junjiezhu@hpu.edu.cn
Abstract: This paper proposes to classify the presence or absence of diseases in magnetocardiograph data samples using machine learning method. First, magnetic field map, constructed by depolarization phase (TT interval) data, is extracted from the cardiac magnetic data. Then current density map is solved. From the current density map, the relevant magnetic field characteristics are extracted. Aiming at the problem of unbalanced data classification, five learning models of sample-weighted SVM (Support Vector Machine), LR (Logistic Regression), KNN (K-Nearest Neighbors), Adaboost and XGBoost are used for training. On this basis, weighted LR and KNN are designed as the primary learners, and weighted SVM as the secondary. The stacking model of the learners trains the sample data. The stacking learning model is used to conduct experiments on the 36-channel magnetocardiograph data of 73 non-patients and 47 myocardial infarction patients. The results show that the model has a good effect on the classification of unbalanced samples of the cardiogram data.
Keywords: magnetocardiograph data; current density map; machine learning; myocardial infarction; stacking learning
1? ?引言(Introduction)
目前,缺血性心臟病是導(dǎo)致人類死亡的主要原因。缺血性心臟病的發(fā)生是由于冠狀動(dòng)脈狹窄,流向心臟的血流受到限制,從而引起心肌損傷,嚴(yán)重的可能導(dǎo)致心肌猝死。所以,早期診斷缺血性心臟病對(duì)降低死亡率至關(guān)重要。
在早期檢測(cè)缺血性心臟病中,心磁圖成為一種很有前景的無(wú)創(chuàng)診斷工具。心磁圖攜帶心電活動(dòng)的信息,能夠在一定程度上反映心臟功能的異常。與需要接觸體表測(cè)量電位的心電圖相比,無(wú)接觸測(cè)量的心磁圖能夠提供更高的時(shí)空分辨率的電活動(dòng)定位,并且已經(jīng)在臨床試驗(yàn)中表現(xiàn)出較好的效果[1-7]。盡管心磁圖具有優(yōu)越的信號(hào)質(zhì)量,但需要對(duì)它進(jìn)行解釋的工作量很大,并且強(qiáng)烈依賴于專業(yè)醫(yī)生的經(jīng)驗(yàn),限制了臨床的使用度。因此,一種能夠檢測(cè)診斷早期缺血性心臟病的方法對(duì)臨床醫(yī)生來(lái)說(shuō)是非常有幫助的。
近年來(lái),機(jī)器學(xué)習(xí)的進(jìn)展顯示了其在自動(dòng)檢測(cè)缺血性心臟病方面的優(yōu)勢(shì)。KANGWANARIYAKUL等[8]在缺血性心臟病的檢測(cè)中比較了不同的機(jī)器學(xué)習(xí)方法,使用貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)實(shí)現(xiàn)了敏感度為96.65%,特異度為86.36%。TAN等[9]從心磁信號(hào)的ST段中提取了12 個(gè)形態(tài)特征,使用SVM分類器,他們獲得的敏感度為95.20%,特異度為93.29%。
二維電流密度圖是一種廣泛應(yīng)用于檢測(cè)缺血性心臟病的直觀方法。使用不同的方法從電流密度圖中提取相關(guān)的特征參數(shù),對(duì)早期缺血性心臟病進(jìn)行診斷檢測(cè),已取得較好的診斷結(jié)果[10-12]。我們從二維電流密度圖中提取最大電流密度,并把除極階段(TT間隔)的所有最大電流密度進(jìn)行平均。從平均之后的最大電流密度中提取四個(gè)特征參數(shù)。針對(duì)非平衡數(shù)據(jù),分別使用樣本加權(quán)的SVM、LR、KNN、Adaboost和XGBoost五種學(xué)習(xí)模型對(duì)提取的特征進(jìn)行訓(xùn)練學(xué)習(xí)。在此基礎(chǔ)上,提出了使用加權(quán)的LR和KNN為初級(jí)學(xué)習(xí)器、SVM為次級(jí)學(xué)習(xí)器的結(jié)合學(xué)習(xí)模型,并在實(shí)測(cè)的心磁數(shù)據(jù)上驗(yàn)證了該分類模型的有效性。
2? ?數(shù)據(jù)與特征(Data and features)
該實(shí)驗(yàn)的數(shù)據(jù)是由120 個(gè)人的心磁數(shù)據(jù)組成,其中包含73 名非患者,47 名心肌缺血患者。心磁數(shù)據(jù)是通過(guò)超導(dǎo)量子干涉儀(SQUID)在人體胸部上方的36 個(gè)相鄰位置,以1,000 Hz的頻率連續(xù)測(cè)量而獲取的。根據(jù)心磁數(shù)據(jù)構(gòu)建出心磁圖(MCG),如圖1所示。在心磁圖上定位出R峰(R-peak)、T波開(kāi)始(T-onset)、T波結(jié)束(T-end)及T波的峰值(T-peak)。由于缺血性心臟病與T波密切相關(guān),因此我們只分析TT間隔(TT-interval)的數(shù)據(jù),即T波開(kāi)始的時(shí)刻和T波結(jié)束的時(shí)刻之間的心磁數(shù)據(jù)。
二維電流密度圖中的矢量大小和方向是從心臟磁場(chǎng)分量測(cè)量得到的,測(cè)量平面與分量垂直。因此,可由公式(1)得出二維電流密度圖[13-14]。
(1)
其中,為采樣時(shí)間,為測(cè)量平面上的任意位置。
把單一時(shí)刻的心磁數(shù)據(jù)經(jīng)過(guò)三次樣條插值的處理,進(jìn)而得到心磁數(shù)據(jù)的等磁場(chǎng)圖。在等磁場(chǎng)圖的基礎(chǔ)上求解二維電流密度圖,并提取電流密度圖中最大電流密度,如圖2所示,最大電流密度用粗箭頭表示。
然后,求單周期36 通道心磁圖中TT間隔時(shí)間內(nèi),所有二維電流密度圖中最大電流密度的平均值,如公式(2)所示:
(2)
其中,為T(mén)T間隔的時(shí)間長(zhǎng)度,為采樣時(shí)間,為所有電流密度圖中最大電流密度的平均值。
從最大電流密度的平均值中提取四個(gè)參數(shù),分別為:
(1)的長(zhǎng)度:;
(2)向量的角度:;
(3)由向量構(gòu)成矩形的周長(zhǎng):;
(4)由向量構(gòu)成矩形的面積:。
其中,、是在方向上的分量。由于坐標(biāo)系和測(cè)量系統(tǒng)相對(duì)于測(cè)量者都處于相同的位置,因此不同的測(cè)量者產(chǎn)生的這些參數(shù)具有可比性。
3? ?方法(Methods)
3.1? ?基于加權(quán)分類的機(jī)器學(xué)習(xí)方法
選擇使用傳統(tǒng)機(jī)器學(xué)習(xí)模型中的SVM、LR、KNN、Adaboost和XGBoost來(lái)對(duì)提取的特征進(jìn)行學(xué)習(xí)分析,因?yàn)檫@五種學(xué)習(xí)模型應(yīng)用于中小型數(shù)據(jù)集,并且能夠處理高維數(shù)據(jù)。另外,由于試驗(yàn)的樣本中非患者與患者的人數(shù)比不均衡,因此使用帶有加權(quán)分類的方法進(jìn)行機(jī)器學(xué)習(xí),從而使模型更加注重樣本數(shù)量少的類別。如果類別的樣本數(shù)量多,那么它的權(quán)重就低,反之則權(quán)重就高。
(3)
其中,為類別j對(duì)應(yīng)權(quán)值,為數(shù)據(jù)總數(shù),為類別數(shù)量,即數(shù)據(jù)有 個(gè)種類,是類別j的數(shù)據(jù)個(gè)數(shù)。
使用以上五種帶有樣本加權(quán)的學(xué)習(xí)模型對(duì)標(biāo)準(zhǔn)化后的訓(xùn)練樣本進(jìn)行交叉驗(yàn)證,并對(duì)預(yù)測(cè)樣本進(jìn)行預(yù)測(cè)。分別繪制五種學(xué)習(xí)模型測(cè)試樣本的接受者操作特征曲線(Receiver Operator Characteristic,ROC),如圖3所示。
ROC曲線是通過(guò)敏感度與1-特異度在各種閾值下繪制的。ROC曲線越靠近左上角,說(shuō)明模型的預(yù)測(cè)精度越高,通常采用曲線下的面積(Area under Curve, AUC)值表示預(yù)測(cè)結(jié)果的概率。
3.2? ?基于加權(quán)的結(jié)合(Stacking)學(xué)習(xí)
從統(tǒng)計(jì)方面來(lái)看,由于學(xué)習(xí)任務(wù)的假設(shè)空間往往很大,可能有多個(gè)假設(shè)在訓(xùn)練集上達(dá)到同等性能,此時(shí)若使用單學(xué)習(xí)器可能因誤選而導(dǎo)致泛化性能不佳,結(jié)合多個(gè)學(xué)習(xí)器則會(huì)減小這一風(fēng)險(xiǎn),這一策略就是結(jié)合策略[15]。在Stacking學(xué)習(xí)中,個(gè)體學(xué)習(xí)器稱為初級(jí)學(xué)習(xí)器,用于結(jié)合的學(xué)習(xí)器稱為次級(jí)學(xué)習(xí)器。在上面的五種機(jī)器學(xué)習(xí)模型中,支持性向量機(jī)SVM、LR和KNN的結(jié)果較好,所以設(shè)計(jì)了使用LR和KNN為初級(jí)學(xué)習(xí)器,SVM為次級(jí)學(xué)習(xí)器。其中作為初級(jí)學(xué)習(xí)器的LR和KNN仍然進(jìn)行樣本加權(quán)處理,而SVM不用進(jìn)行加權(quán)處理。Stacking學(xué)習(xí)具體步驟如下:
第一步初級(jí)訓(xùn)練階段:分別使用加權(quán)后的LR和KNN學(xué)習(xí)器對(duì)訓(xùn)練樣本進(jìn)行交叉驗(yàn)證學(xué)習(xí),使用每一折中訓(xùn)練數(shù)據(jù)訓(xùn)練模型,對(duì)每一折中的驗(yàn)證數(shù)據(jù)的標(biāo)簽進(jìn)行預(yù)測(cè)。這樣在交叉驗(yàn)證后,可以得到全部折中驗(yàn)證數(shù)據(jù)標(biāo)簽的預(yù)測(cè)值。把這些預(yù)測(cè)值按照順序進(jìn)行堆疊,形成訓(xùn)練數(shù)據(jù)的新特征。同時(shí),在每一次折中使用訓(xùn)練數(shù)據(jù)訓(xùn)練出模型后,對(duì)測(cè)試集數(shù)據(jù)的標(biāo)簽進(jìn)行預(yù)測(cè)。交叉驗(yàn)證之后得到全部的預(yù)測(cè)標(biāo)簽值,并把全部的預(yù)測(cè)標(biāo)簽值進(jìn)行平均,得到每個(gè)測(cè)試樣本唯一的預(yù)測(cè)值,用來(lái)作為測(cè)試集新特征。
第二步次級(jí)分類階段:使用核函數(shù)為高斯核函數(shù)的SVM作為次級(jí)學(xué)習(xí)器,沒(méi)有進(jìn)行樣本加權(quán)處理。使用第一步中得出的訓(xùn)練數(shù)據(jù)新特征作為次級(jí)學(xué)習(xí)器的訓(xùn)練數(shù)據(jù),訓(xùn)練出模型后,對(duì)第一步得出的測(cè)試集新特征的標(biāo)簽進(jìn)行預(yù)測(cè)。不管是第一階段還是第二階段,數(shù)據(jù)的標(biāo)簽沒(méi)有變化。
繪制Stacking學(xué)習(xí)模型測(cè)試樣本的接受者操作特征曲線(ROC),如圖4所示。
4? ?結(jié)果與分析(Results and analysis)
我們使用準(zhǔn)確率、敏感度、特異度和AUC值作為主要參考的評(píng)價(jià)指標(biāo)。此外,在醫(yī)學(xué)中敏感度為真陽(yáng)性率,即實(shí)際患者試驗(yàn)結(jié)果為陽(yáng)性的比例;特異度為真陰性率,即非患者試驗(yàn)結(jié)果為陰性的比例。敏感度和特異度在理論上與疾病患病率無(wú)關(guān),僅由診斷試驗(yàn)本身決定,不受外界因素的影響。
在表1中,記錄了沒(méi)有進(jìn)行樣本加權(quán)處理的五種學(xué)習(xí)模型對(duì)應(yīng)ROC曲線下的面積AUC的值,以及五種學(xué)習(xí)模型處于最佳閾值時(shí)的準(zhǔn)確率、敏感度和特異度。
在表2中,記錄了進(jìn)行樣本加權(quán)的五種學(xué)習(xí)模型對(duì)應(yīng)ROC曲線下的面積AUC的值,以及五種學(xué)習(xí)模型處于最佳閾值時(shí)的準(zhǔn)確率、敏感度和特異度。
在表3中,記錄了進(jìn)行樣本加權(quán)處理的Stacking學(xué)習(xí)模型對(duì)應(yīng)ROC曲線下的面積AUC的值,以及模型處于最佳閾值時(shí)的準(zhǔn)確率、敏感度和特異度。
從表1至表3可知:
(1)采用樣本加權(quán)處理的單個(gè)機(jī)器學(xué)習(xí)較沒(méi)有進(jìn)行樣本加權(quán)的機(jī)器學(xué)習(xí)的預(yù)測(cè)效果好。
(2)采用樣本加權(quán)后的Stacking學(xué)習(xí)模型能夠同時(shí)提高準(zhǔn)確率、特異度和AUC值,相比采用樣本加權(quán)處理的單個(gè)機(jī)器學(xué)習(xí)和未進(jìn)行樣本加權(quán)處理的單個(gè)機(jī)器學(xué)習(xí)預(yù)測(cè)效果好。
5? ?結(jié)論(Conclusion)
本研究中,我們從心磁數(shù)據(jù)中提取除極階段(TT間隔)的數(shù)據(jù),求解電流密度圖,提取磁場(chǎng)特征參數(shù)。為了解決非平衡數(shù)據(jù)分類中易于傾向判別為多數(shù)類的問(wèn)題,本文首先利用進(jìn)行樣本加權(quán)處理的SVM、LR、KNN、Adaboost和XGBoost五種學(xué)習(xí)模型進(jìn)行學(xué)習(xí)分析,進(jìn)而診斷心肌梗死。在此基礎(chǔ)上,觀察到SVM、KNN和LR這三種學(xué)習(xí)模型的分類效果較好,所以設(shè)計(jì)了使用帶有加權(quán)屬性的KNN和LR作為初級(jí)學(xué)習(xí)器,使用不帶加權(quán)屬性的SVM作為次級(jí)學(xué)習(xí)器進(jìn)行結(jié)合學(xué)習(xí),并對(duì)樣本不平衡的心磁信號(hào)數(shù)據(jù)進(jìn)行分類。該算法能夠有效減少數(shù)據(jù)不平衡對(duì)單個(gè)分類器分類效果的影響。
本文使用實(shí)測(cè)MCG數(shù)據(jù)做了三組實(shí)驗(yàn)的比較,結(jié)果顯示:采用樣本加權(quán)處理的單個(gè)機(jī)器學(xué)習(xí)較沒(méi)有進(jìn)行樣本加權(quán)處理的機(jī)器學(xué)習(xí)的預(yù)測(cè)效果好;采用樣本加權(quán)后的Stacking學(xué)習(xí)模型能夠獲得較好的預(yù)測(cè)效果。
參考文獻(xiàn)(References)
[1] HAILER B, CHAIKOVSKY I, AUTH-EISERNITZ S, et al. The value of magnetocardiography in patients with and without relevant stenoses of the coronary arteries using an unshielded system[J]. Pacing and Clinical Electrophysiology: PACE, 2005, 28(1):8-16.
[2] HAILER B, LEEUWEN P V, CHAIKOVSKY I, et al. The value of magnetocardiography in the course of coronary intervention[J]. Ann Noninvasive Electrocardiol, 2015, 10(2):188-196.
[3] PARK J W, HILL P M, CHUNG N, et al. Magnetocardiography predicts coronary artery disease in patients with acute chest pain[J]. Annals of Noninvasive Electrocardiology, 2005, 10(3):312-323.
[4] STEINBERG B A, ROGUIN A, WATKINS S P, et al. Magnetocardiogram recordings in a nonshielded environment—reproducibility and ischemia detection[J]. Annals of Noninvasive Electrocardiology, 2005, 10(2):152-160.
[5] TOLSTRUP K, MADSEN B E, RUIZ J A, et al. Non-invasive resting magnetocardiographic imaging for the rapid detection of ischemia in subjects presenting with chest pain[J]. Cardiology, 2006, 106(4):270-276.
[6] PARK J W, LEITH?USER B, HILL P, et al. Resting magnetocardiography predicts 3-year mortality in patients presenting with acute chest pain without ST segment elevation[J]. Annals of Noninvasive Electrocardiology, 2008, 13(2):171-179.
[7] KANDORI A, OGATA K, MIYASHITA T, et al. Subtraction magnetocardiogram for detecting coronary heart disease[J]. Annals of Noninvasive Electrocardiology, 2010, 15(4):360-368.
[8] KANGWANARIYAKUL Y, NANTASENAMAT C, TANTIMONGCOLWAT T, et al. Data mining of magnetocardiograms for prediction on ischemic heart disease[J]. Excli Journal, 2010, 9:82-95.
[9] TAN J H, HAGIWARA Y, PANG W, et al. Application of stacked convolutional and long short-term memory network for accurate identification of CAD ECG signals[J]. Computers in Biology and Medicine, 2018, 94:19-26.
[10] OGATA K, KANDORI A, WATANABE Y, et al. Repolarization spatial-time current abnormalities in patients with coronary heart disease[J]. Pacing and Clinical Electrophysiology, 2009, 32(4):516-524.
[11] KANDORI A, OGATA K, MIYASHITA T, et al. Subtraction magnetocardiogram for detecting coronary heart disease[J]. Annals of Noninvasive Electrocardiology, 2010, 15(4):360-368.
[12] KWON H, KIM K, LEE Y H, et al. Non-invasive magnetocardiography for the early diagnosis of coronary artery disease in patients presenting with acute chest pain[J]. Circulation Journal, 2010, 74(7):1424-1430.
[13] COHEN D, EDELSACK E A, Zimmerman J E. Magnetocardiograms taken inside a shielded room with a superconducting point-contact magnetometer[J]. Appl. Phys. Lett., 1970, 16(7):278-280.
[14] HOSAKA H, COHEN D. Part IV visual determination of generators of the magnetocardiogram[J]. Electrocardiol, 1976, 9(4):426-432.
[15] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:183-185.
作者簡(jiǎn)介:
趙永鵬(1994-),男,碩士生.研究領(lǐng)域:信號(hào)與信息處理.
朱俊杰(1981-),男,博士,講師.研究領(lǐng)域:信號(hào)與信息處理.