徐晨華 葉思超 豐云杰 喬清理
天津醫(yī)科大學(xué)生物醫(yī)學(xué)技術(shù)與工程學(xué)院300070
心血管疾病的患病率及死亡率逐年上升,加強(qiáng)預(yù)防與診治工作刻不容緩。心律失常是心血管疾病最顯著的一種表現(xiàn),是由于心臟電功能系統(tǒng)紊亂而導(dǎo)致的節(jié)拍異常。嚴(yán)重的心律失常可能會(huì)導(dǎo)致短暫的意識(shí)喪失、心臟驟停甚至猝死。雖然,大多數(shù)心律失常是無(wú)害的,但需要及時(shí)識(shí)別,以預(yù)防發(fā)生更嚴(yán)重的問(wèn)題。
在臨床中,醫(yī)生主要依據(jù)患者心電圖(electrocardiogram,ECG)波形以及心拍持續(xù)時(shí)間來(lái)判斷心律失常的類型及危險(xiǎn)程度。然而,ECG 數(shù)據(jù)非常繁雜,以人力進(jìn)行分析既費(fèi)時(shí)又費(fèi)力,且分析結(jié)果易受醫(yī)生的狀態(tài)及臨床經(jīng)驗(yàn)的主觀影響。因此,一種便捷、準(zhǔn)確、高效的心律失常分類方法非常重要。
目前,機(jī)器學(xué)習(xí)方法已被用于基于ECG 數(shù)據(jù)的心律失常分類。其中,根據(jù)不同類型ECG 信號(hào)之間的形態(tài)學(xué)差異性,提取R-R 間期、形態(tài)特征、小波分量等特征[1-3],并將其組織為一組可區(qū)分心律失常的特征數(shù)據(jù);將這組特征數(shù)據(jù)輸入支持向量機(jī)(support vector machine,SVM)[1]、K-近鄰[4]、隨機(jī)森林[5]等分類器,可其進(jìn)行參數(shù)優(yōu)化及測(cè)試,最終確定心律失常的類型。近年來(lái),研究者開(kāi)始將深度學(xué)習(xí)技術(shù)應(yīng)用于基于ECG 數(shù)據(jù)的心律失常分類[6-7]。深度學(xué)習(xí)方法能自動(dòng)提取特征,但該方法具有“黑匣子”特性,導(dǎo)致所得的最終結(jié)果難以被解釋,限制了其在臨床上的廣泛使用[8]。
目前,大多數(shù)心律失常分類方法在intra-patient范式下進(jìn)行[2-3,5,7]。在該范式下,同一患者的ECG 數(shù)據(jù)同時(shí)被分配到訓(xùn)練集和測(cè)試集。雖然該方法準(zhǔn)確度較高,但其模型訓(xùn)練需要患者的標(biāo)注數(shù)據(jù),不符合實(shí)際應(yīng)用場(chǎng)景。為此,研究者提出了inter-patient范式[9],其通過(guò)精心地劃分訓(xùn)練集和測(cè)試集,在保證兩個(gè)數(shù)據(jù)集中,各類心拍數(shù)據(jù)量相當(dāng)?shù)那闆r下,避免了兩個(gè)數(shù)據(jù)集包含來(lái)自同一患者的任何記錄。但由于ECG 數(shù)據(jù)存在個(gè)體差異性,導(dǎo)致在inter-patient范式下訓(xùn)練得到的模型在測(cè)試集上的準(zhǔn)確度較低。
為了提高模型分類的準(zhǔn)確度,并平衡對(duì)各類心律失常的識(shí)別能力。本文中,采用極限梯度提升(eXtreme gradient boosting,XGBoost)方法,將各個(gè)相互獨(dú)立的分類器的決策結(jié)合起來(lái),以改進(jìn)最終的預(yù)測(cè)。XGBoost 是Boosting 集成算法中的一種[10],其基于決策樹(shù)預(yù)測(cè)的殘差進(jìn)行迭代,在學(xué)習(xí)過(guò)程中通過(guò)賦予錯(cuò)分的樣本更高的權(quán)重來(lái)逐步聚焦于基分類器分錯(cuò)的樣本,減小最終集成分類器的偏差。在研究中,根據(jù)每一類特征分別訓(xùn)練獨(dú)立的SVM 模型,使用XGBoost 算法對(duì)各獨(dú)立SVM 分類器進(jìn)行集成,將所有獨(dú)立SVM 模型的分類結(jié)果輸入集成分類器對(duì)心律失常做最終決策。使用MIT-BIH 數(shù)據(jù)庫(kù)中的ECG 數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和測(cè)試。通過(guò)與其他心律失常模型的比較,證明該集成模型的有效性。
研究所用的ECG 數(shù)據(jù)來(lái)自MIT-BIH 數(shù)據(jù)庫(kù)[11]。MIT-BIH 數(shù)據(jù)庫(kù)中包含來(lái)自47 名受試者的48 條雙通道動(dòng)態(tài)ECG 數(shù)據(jù)。醫(yī)療器械促進(jìn)協(xié)會(huì)(The Association for the Advancement of Medical Instrumentation,AAMI)將MIT-BIH 中的ECG 數(shù)據(jù)分為五類,見(jiàn)表1。因?yàn)?,Q 類為未能分類的節(jié)拍,不具備臨床意義,因此只對(duì)正常(N)、室上性異常節(jié)拍(S)、心室異常節(jié)拍(V)、融合節(jié)拍(F)4 類數(shù)據(jù)進(jìn)行研究。
表1 根據(jù)AAMI 2012 標(biāo)準(zhǔn)分類的心電圖節(jié)拍
根據(jù)inter-patient 范式對(duì)模型數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試。由于第102、104、107、217 組數(shù)據(jù)來(lái)自使用了心臟起搏器的受試者,因此將其剔除。最終,訓(xùn)練集和測(cè)試集分別包含22 條數(shù)據(jù),見(jiàn)表2。
心律失常分類器主要包括特征提取和分類2個(gè)模塊。為了提高分類器的分類性能,結(jié)合SVM 和XGBoost 方法,建立集成分類器,如圖1 所示。該集成分類器包括預(yù)處理、特征提取、SVM 訓(xùn)練、集成分類4 個(gè)模塊。首先,將ECG 信號(hào)進(jìn)行預(yù)處理,包括去噪、數(shù)據(jù)增強(qiáng);其次,提取R-R 間期、ECG 信號(hào)的高階統(tǒng)計(jì)量(higher-order statistics,HOS)、局部二值模式(local binary patterns,LBP)、小波分量,并將上述數(shù)據(jù)作為特征輸入;再次,根據(jù)每一種特征分別訓(xùn)練一個(gè)獨(dú)立的SVM 模型;最后,使用XGBoost 算法對(duì)單獨(dú)的模型結(jié)果進(jìn)行集成分類,從而輸出心律失常類型。下面,將分別對(duì)分類步驟詳細(xì)介紹。
2.1.1 去除基線漂移噪聲
影響ECG 信號(hào)自動(dòng)分類的因素有很多,其中最重要的是噪聲干擾,如基線漂移、運(yùn)動(dòng)偽影等。在本研究中,選用Daubechies 小波基函數(shù)(DB8)[12]對(duì)原始ECG 信號(hào)進(jìn)行9 級(jí)分解。因?yàn)?,? 級(jí)ECG 分解信號(hào)的頻率低于0.5 Hz,與基線漂移(<0.5 Hz)的頻率相近,因此去除第9 級(jí)分解信號(hào)即可得到去除基線漂移后的信號(hào)。至此,ECG 信號(hào)中的基線漂移噪聲被去除,且ECG 信號(hào)的原始特征得到了保留。
表2 心電圖數(shù)據(jù)集劃分
圖1 集成分類器結(jié)構(gòu)
2.1.2 數(shù)據(jù)增強(qiáng)
MIT-BIH 心律失常數(shù)據(jù)庫(kù)中的ECG 數(shù)據(jù)極度不平衡。數(shù)據(jù)不平衡會(huì)導(dǎo)致分類器對(duì)稀少樣本刻畫(huà)不足,從而難以對(duì)其進(jìn)行分類,極大影響模型性能。因此,采用少數(shù)過(guò)采樣技術(shù)(syntheic minority oversampling technique,SMOTE)[13],并基于稀少樣本之間的特征空間相似性,創(chuàng)建人工數(shù)據(jù),對(duì)稀少樣本進(jìn)行增強(qiáng)。數(shù)據(jù)增強(qiáng)后,訓(xùn)練集中的N 類數(shù)量(45 808)保持不變,而每類稀少樣本(S、V、F 類)數(shù)量增加至45 808,可匹配N 類樣本,見(jiàn)表3。測(cè)試集用于模型的評(píng)估,因此不進(jìn)行數(shù)據(jù)增強(qiáng)處理。
表3 數(shù)據(jù)增強(qiáng)前后訓(xùn)練集和測(cè)試集樣本數(shù)
基于MIT-BIH 數(shù)據(jù)庫(kù)中的ECG 數(shù)據(jù)并以R 峰為中心,選擇180 個(gè)采樣點(diǎn)為操作窗口,計(jì)算所有特征的參數(shù),包括R-R 間期、HOS、小波分量、1-D LBP。
2.2.1 R-R 間期
R-R 間期表示兩個(gè)相鄰節(jié)拍R 峰的時(shí)間間隔。心律失常會(huì)引起R-R 間期的寬度發(fā)生變化,因此RR 間期具有較好的心電節(jié)拍類型分辨能力。研究中,選用5 種R-R 間期特征:Pre-RR,指當(dāng)前R 峰與前一個(gè)R 峰之間的距離;Post-RR,指當(dāng)前R 峰與下一個(gè)R 峰之間的距離;Local-RR,之前10 個(gè)Pre-RR 值的平均值;Global-RR,20 min 內(nèi)產(chǎn)生的Pre-RR 值的平均值;Diff-RR,前一個(gè)RR 間期與后一個(gè)RR 間期的差值。
此外,將R-R 間期數(shù)據(jù)歸一化,即將它們除以相同ECG 數(shù)據(jù)內(nèi)的平均值。實(shí)驗(yàn)中,共產(chǎn)生10 個(gè)R-R 間期特征。
2.2.2 高級(jí)統(tǒng)計(jì)量
HOS 不僅可用于識(shí)別非線性系統(tǒng),還可用于抑制噪聲,并提取非高斯信號(hào)的各種信號(hào)特征。實(shí)驗(yàn)中,通過(guò)HOS 創(chuàng)建10 維特征,將每個(gè)節(jié)拍分為5 個(gè)間隔,計(jì)算每個(gè)心拍的峰度和偏度,提取ECG 信號(hào)的形態(tài)學(xué)特征。
2.2.3 小波分量
小波變換能將ECG 信號(hào)分解成不同頻域的序列,計(jì)算低頻系數(shù)和高頻系數(shù)的能量譜。同時(shí),可提取時(shí)域特征,如ECG 信號(hào)的形態(tài)、能量、峰值等。實(shí)驗(yàn)中,根據(jù)具有3 階分解的Db1 基函數(shù),共創(chuàng)建23維特征向量。
2.2.4 1-D LBP
1-D LBP 算法是在LBP 算法上發(fā)展而來(lái)的,并在腦電信號(hào)處理、語(yǔ)音信號(hào)處理中得到了廣泛應(yīng)用[14]。1-D LBP 算法具有操作簡(jiǎn)單、抗噪能力強(qiáng)、對(duì)快速變化的信號(hào)靈敏度高等優(yōu)點(diǎn),適用于ECG 信號(hào)等一維信號(hào)的處理。實(shí)驗(yàn)中,共創(chuàng)建了59 維特征向量。
分類時(shí),先根據(jù)每一類特征訓(xùn)練SVM 分類器,再將SVM 的分類結(jié)果輸入XGBoost,進(jìn)行最后分類。
2.3.1 支持向量機(jī)
SVM 是最大邊緣分類器[15],其將輸入矢量映射到高維空間,構(gòu)造最大分離超平面以區(qū)分兩個(gè)不同的類。實(shí)驗(yàn)中,使用一對(duì)一方法構(gòu)造多類分類器。當(dāng)樣本數(shù)量非常大時(shí),其更適合處理不平衡數(shù)據(jù),且訓(xùn)練速度更快。其中,徑向基內(nèi)核為SVM 的核函數(shù)。
2.3.2 極限梯度提升
集成分類器具有優(yōu)異的泛化能力,能獲得更加平衡的結(jié)果。實(shí)驗(yàn)中,根據(jù)每一類特征分別訓(xùn)練一個(gè)獨(dú)立的SVM 模型,使用集成分類器進(jìn)行心律失常的最終決策。
XGBoost 算法的主要組成部分是回歸樹(shù),XGBoost 通過(guò)集成的方法將多個(gè)回歸樹(shù)組合起來(lái)進(jìn)行分類。初始樹(shù)可表示為
第t 輪模型可表示為
其中,T 為葉子節(jié)點(diǎn)的個(gè)數(shù),γ 和λ 為懲罰力度,w為葉子節(jié)點(diǎn)的權(quán)重。為L(zhǎng)2 懲罰項(xiàng),最終目標(biāo)函數(shù)為
XGBoost 集成分類器的各參數(shù)設(shè)置見(jiàn)表4。
表4 XGBoost 集成分類器的參數(shù)設(shè)置
常用模型評(píng)估指標(biāo)有Acc、Se、P+等。其中:Acc表示所有樣本被正確分類的概率(準(zhǔn)確度);Se 表示真實(shí)陽(yáng)性樣本中陽(yáng)性樣本的檢出率(靈敏度);P+表示陽(yáng)性檢測(cè)的樣本總數(shù)中,真實(shí)樣本占陽(yáng)性檢測(cè)樣本總數(shù)的百分比(陽(yáng)性預(yù)測(cè)值)。為了評(píng)估模型性能,計(jì)算了模型分類的準(zhǔn)確度Acc,靈敏度Se 和陽(yáng)性預(yù)測(cè)值P+。
其中,TP(true positive)為真陽(yáng)性 數(shù),F(xiàn)P(false positive)為假陽(yáng)性數(shù),TN(true negative)為真陰性數(shù),F(xiàn)N(false negative)為假陰性數(shù)。
根據(jù)每一類特征,訓(xùn)練了獨(dú)立的SVM 模型,以便比較特征的單一性能。表5 顯示了在測(cè)試集(DS2)上的不同特征參數(shù)訓(xùn)練的模型的預(yù)測(cè)結(jié)果,包括對(duì)4 類ECG 數(shù)據(jù)預(yù)測(cè)的靈敏度(Se)和陽(yáng)性預(yù)測(cè)值(P+),平均Se 和P+,總體準(zhǔn)確度(Acc),其中最優(yōu)值已用加粗字體表示。
結(jié)果表明,R-R 間期對(duì)N 類信號(hào)的陽(yáng)性預(yù)測(cè)值最高(0.986),對(duì)F 類信號(hào)有最高的靈敏度(0.933);HOS 對(duì)F 類的識(shí)別能力僅次于R-R 間期;小波分量對(duì)心律失常(S 類和V 類)有最高的靈敏度(分別為0.785 和0.833);1-D LBP 對(duì)N 類顯示出最優(yōu)的靈敏度,但對(duì)其他類別的分類效果較差。
為提高模型性能,將所有獨(dú)立SVM 模型的分類結(jié)果輸入XGBoost 算法,進(jìn)行最終決策。圖2 顯示了集成模型的混淆矩陣,每一行顯示真實(shí)樣本數(shù),每一列顯示預(yù)測(cè)樣本數(shù),對(duì)角線上的數(shù)據(jù)表示預(yù)測(cè)正確的樣本數(shù)。
如圖2 所示,大部分ECG 信號(hào)被準(zhǔn)確分類,但對(duì)部分N 類和S 類數(shù)據(jù)無(wú)法準(zhǔn)確判斷,這是由于N類和S 類波形具有較高的相似度。此外,由于F 類數(shù)據(jù)的心拍數(shù)較少,導(dǎo)致對(duì)F 類的特征提取不夠精確,使部分N 類數(shù)據(jù)被錯(cuò)分類為F 類。
為證明集成分類器性能提升的主要原因是由于各獨(dú)立分類器決策的結(jié)合,將組合后的特征分別輸入至單SVM 分類器、單XGBoost 分類器、SVM+XGBoost 集成分類器進(jìn)行訓(xùn)練、測(cè)試和比較。表6 中列出了單一及集成分類器的性能測(cè)試結(jié)果。
表5 各個(gè)特征訓(xùn)練的獨(dú)立SVM 模型在DS2 數(shù)據(jù)集中的測(cè)試結(jié)果
圖2 集成分類器在DS2 數(shù)據(jù)集中的測(cè)試結(jié)果
性能測(cè)試結(jié)果表明,3 種分類器的準(zhǔn)確度均高于0.86。XGBoost 分類器的準(zhǔn)確度最高,但該分類器與SVM 分類器在識(shí)別S 類和F 類信號(hào)時(shí)的靈敏度都較低,基本不能做出有效劃分。集成分類器對(duì)S類和F 類信號(hào)有最高的靈敏度和平均靈敏度。與SVM 分類器相比,集成分類器在各方面的性能都有較大提升。
為了驗(yàn)證模型的分類性能,分別在intra-patient范式和inter-patient 范式下與其他分類器進(jìn)行比較,其中不改變方法,對(duì)訓(xùn)練集做數(shù)據(jù)增強(qiáng),且保持測(cè)試集不變。intra-patient 范式下的比較結(jié)果見(jiàn)表7,inter-patient 范式下的比較結(jié)果見(jiàn)表8。
表7 intra-patient 范式下各分類器的分類結(jié)果
使用十倍交叉驗(yàn)證在intra-patient 范式下的結(jié)果表明,與文獻(xiàn)[7]和文獻(xiàn)[16-17]中的方法相比,集成分類器的分類準(zhǔn)確度為0.964,靈敏度為0.699,陽(yáng)性預(yù)測(cè)值為0.913。
對(duì)于inter-patient 范式下的結(jié)果,文獻(xiàn)[18]中的方法獲得了最高的準(zhǔn)確度,但其對(duì)S 類信號(hào)的靈敏度僅為0.2,且其準(zhǔn)確度依賴于對(duì)N 類信號(hào)的準(zhǔn)確劃分。在臨床中,錯(cuò)分異常節(jié)拍的代價(jià)明顯大于錯(cuò)分正常節(jié)拍的代價(jià)。文獻(xiàn)[19]的方法對(duì)N 類、S 類、V類信號(hào)的靈敏度和陽(yáng)性預(yù)測(cè)值均較高,但對(duì)F 類信號(hào)的靈敏度最低,且總體準(zhǔn)確度較低。文獻(xiàn)[9]中的方法對(duì)各類別信號(hào)的分類能力較為均衡,且對(duì)于F類信號(hào)有最高的靈敏度,但其對(duì)N 類和V 類信號(hào)的分類表現(xiàn)及總體準(zhǔn)確度不如集成分類器。
本研究中,提出了一種基于SVM+XGBoost 集成分類技術(shù)的心率失常ECG 信號(hào)分類器,利用MITBIH 數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行模型訓(xùn)練和測(cè)試,并與其他心律失常分類器進(jìn)行比較。結(jié)果表明,所提出的分類器在inter-patient 范式下取得了較好的分類結(jié)果。
表6 獨(dú)立分類器與集成分類器對(duì)心率失常心電信號(hào)的分類結(jié)果
表8 inter-patient 范式下各分類器的分類結(jié)果
通過(guò)特征評(píng)估,各分類器的優(yōu)劣可直觀地通過(guò)靈敏度、陽(yáng)性預(yù)測(cè)值、準(zhǔn)確度表現(xiàn)出來(lái)。結(jié)果表明,在相同的實(shí)驗(yàn)條件下,與SVM 分類器相比,集成分類器有更高的靈敏度。因?yàn)榧煞诸惼鞒浞掷妹恳活愄卣鞯奶攸c(diǎn)及類別之間的差異性,以降低N 類靈敏度為代價(jià)獲得了更加均衡的結(jié)果。
此外,在intra-patient 范式和inter-patient 范式下,與文獻(xiàn)中報(bào)道的其他分類器相比,集成分類器對(duì)各類心律失常的分類性能更為均衡。MIT-BIH 數(shù)據(jù)庫(kù)中S 類和F 類ECG 數(shù)據(jù)的占比較小,導(dǎo)致在特征提取時(shí),難以提取出更多的有效特征。本研究中,通過(guò)使用數(shù)據(jù)增強(qiáng)和多分類器結(jié)合技術(shù),在一定程度上緩解了數(shù)據(jù)不平衡帶來(lái)的影響。
本研究的不足之處在于,利用不平衡數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和測(cè)試。盡管MIT-BIH 數(shù)據(jù)庫(kù)是最廣泛使用的數(shù)據(jù)集,但其中各類心律失常ECG 數(shù)據(jù)樣本的數(shù)量極不平衡。另外,本研究是在R 峰檢測(cè)的基礎(chǔ)上進(jìn)行。在實(shí)際應(yīng)用中,在模型訓(xùn)練之前加入R峰檢測(cè)的工作,會(huì)引入一定程度的識(shí)別誤差,從而影響識(shí)別和分類效果。因此,在后續(xù)的研究中,將收集和標(biāo)注更多的ECG 信號(hào),以改善數(shù)據(jù)集的平衡性。此外,將結(jié)合R 峰檢測(cè),優(yōu)化模型和訓(xùn)練過(guò)程,進(jìn)一步提高模型的分類準(zhǔn)確度。
為了提高inter-patient 范式下對(duì)心律失常ECG數(shù)據(jù)的分類效果,提出了一種集成分類器。根據(jù)每一類特征訓(xùn)練SVM 分類器,再結(jié)合XGBoost 算法構(gòu)建集成分類器。根據(jù)inter-patient 范式,將集成分類器在MIT-BIH 數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練和測(cè)試,并通過(guò)準(zhǔn)確度、特異性、靈敏度評(píng)估集成分類器的性能。結(jié)果顯示,集成分類器提升了分類效果,獲得了較好的準(zhǔn)確度和靈敏度,并且優(yōu)于文獻(xiàn)中報(bào)道的其他心律失常ECG 信號(hào)分類器。提出的集成分類器可用于醫(yī)療決策支持系統(tǒng),輔助醫(yī)生診斷心律失常。
利益沖突所有作者均聲明不存在利益沖突