李鴻儒, 任子洋, 黃友鶴, 于 霞
(東北大學(xué) 信息科學(xué)與工程學(xué)院, 遼寧 沈陽(yáng) 110819)
年齡的增長(zhǎng)以及飲食作息的不正常導(dǎo)致心臟逐漸衰弱,并伴隨著慢性疾病的發(fā)作,這會(huì)對(duì)人體造成巨大損傷.臨床醫(yī)護(hù)人員對(duì)于心電圖(electrocardiogram, ECG)的分析往往需要結(jié)合自身的經(jīng)驗(yàn),這使得診治具有主觀性且需要一定的時(shí)間成本.心臟病早期的體現(xiàn)通常為心律不齊,因此對(duì)于心律失常的智能分析識(shí)別在心臟病預(yù)測(cè)的研究中具有重要意義.
早期對(duì)于ECG的分析一般包括預(yù)處理、特征提取和分類三個(gè)環(huán)節(jié)[1].最早的研究[2-3]從形態(tài)學(xué)出發(fā),有效提取了ECG的主要組分,也有學(xué)者采用頻域算法,包括小波變換[4-7]和經(jīng)驗(yàn)?zāi)B(tài)分解[8-9]等算法,以較小的失真獲得具有不同頻率特性的子序列.但小波變換在提高時(shí)間精度的同時(shí)會(huì)損失頻率精度,經(jīng)驗(yàn)?zāi)B(tài)分解存在模態(tài)混疊的現(xiàn)象,二者的分解序列均存在部分畸變.Yucelbas等[10]對(duì)比了奇異值分解、變分模態(tài)分解和小波變換在ECG分類中的性能,奇異值分解的識(shí)別性能明顯高于其余二者,因此在考慮保留形態(tài)完整性的前提下如何提高頻率信息的分離效率是后續(xù)識(shí)別的關(guān)鍵.Barrios等[11]最早提出一種基于奇異譜分析(singular spectrum analysis, SSA)的心電信號(hào)與肌電信號(hào)分離算法,在時(shí)域和頻域上,與傳統(tǒng)的信號(hào)分離算法進(jìn)行對(duì)比,均具有更好的性能;還有圍繞著SSA與心電去噪的研究[12-13],也驗(yàn)證了該算法相較于傳統(tǒng)算法的高效性.現(xiàn)有的研究對(duì)ECG進(jìn)行拆分后沒有考慮到子序列所包含信息量對(duì)于最終決策的貢獻(xiàn),直接將定值權(quán)重或者去除高頻的分量子序列作為輸入樣本.文獻(xiàn)[14-15]結(jié)合多個(gè)分類器并配置不同權(quán)重進(jìn)行投票分類,明顯提高了小樣本類別的識(shí)別精度.變權(quán)重可以增強(qiáng)包含信息量高的子序列對(duì)于識(shí)別系統(tǒng)的影響,因此根據(jù)子序列的信息量進(jìn)行加權(quán)處理可能會(huì)更好地表達(dá)有效信息.
深度學(xué)習(xí)應(yīng)用于心電領(lǐng)域的研究主要圍繞著卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)[16-20]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)[21]以及長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[22-23]開展.相較于獨(dú)立的CNN與LSTM,基于1D-CNN和LSTM結(jié)合[24-26]的模型在最新的研究中被證明具有更強(qiáng)的分類性能.Huang等[27]提取頻譜圖并利用2D-CNN 網(wǎng)絡(luò)層進(jìn)行分類;Yildirim[28]提出了一種基于小波分解序列的雙向LSTM網(wǎng)絡(luò)模型,利用小波變換提取的序列分量進(jìn)行訓(xùn)練,結(jié)合心電信號(hào)不同頻率特性組分的學(xué)習(xí)大幅度提高了識(shí)別精度.因此,使用更好的分解方法挖掘有效信息并與深度學(xué)習(xí)結(jié)合是提升識(shí)別效果的一個(gè)方向.
綜上所述,為了權(quán)衡心電信息中不同模態(tài)的信息量,本文提出了一種變權(quán)重SSA與CNN,LSTM連接的組合網(wǎng)絡(luò),采用由決策目標(biāo)主導(dǎo)的可變權(quán)重代替?zhèn)鹘y(tǒng)的固定不變權(quán)重,對(duì)奇異譜分解后包含不同信息量的模態(tài)進(jìn)行變權(quán)重處理,然后將變權(quán)重后的分量模態(tài)重組為新的序列輸入至CNN-LSTM網(wǎng)絡(luò)中進(jìn)行分類.同時(shí)對(duì)比了多種權(quán)重計(jì)算算法,選擇識(shí)別精度最高的隨機(jī)森林分類器各個(gè)特征的基尼系數(shù)作為權(quán)重,利用變權(quán)重的序列訓(xùn)練深度學(xué)習(xí)模型,更高效地挖掘潛在的信息,從而提升心律不齊的識(shí)別精度.
美國(guó)麻省理工學(xué)院開發(fā)的心律失常數(shù)據(jù)庫(kù)MIT-BIH記錄了48名病人30 min 2個(gè)導(dǎo)聯(lián)的心電信號(hào)和類別標(biāo)簽.部分研究按照正常(N)、左束支阻滯(LBBB)、右束支阻滯(RBBB)、房性早搏(APC)和室性早搏(PVC)五類進(jìn)行分類.研究者的分析主要圍繞著患者內(nèi)(intra-patient)[29-30]和患者間(inter-patient)[31-32]兩種分類方式展開.Chazal等[33]將這些病人的記錄分為2個(gè)數(shù)據(jù)集DS1和DS2,前者用于訓(xùn)練模型并評(píng)估分類器性能,后者用于測(cè)試分類結(jié)果的有效性.這兩個(gè)樣本集合所包含的病人序號(hào)如表1所示.
表1 MIT-BIH庫(kù)中劃分的數(shù)據(jù)集DS1,DS2
Kiranyaz等[34]提出patient-specific的分類方式,從測(cè)試集數(shù)據(jù)中提取5 min的數(shù)據(jù)(占整體測(cè)試集的15%~18%)加入訓(xùn)練集,可以一定程度克服患者間的特異性.因此本文選擇從DS2中取出每個(gè)病人前15%的數(shù)據(jù)加入訓(xùn)練集,表2為本文數(shù)據(jù)集的構(gòu)成.
對(duì)于較長(zhǎng)時(shí)序的心電信號(hào)需要進(jìn)行逐拍的劃分,每個(gè)心拍應(yīng)該包括P,Q,R,S和T波段,一般以R波峰為中心,本文采用Pan-Tompkins算法[35]檢測(cè)出R波峰,并取前127個(gè)節(jié)點(diǎn)和后128個(gè)節(jié)點(diǎn),作為單個(gè)心拍的樣本序列.將提取到的多個(gè)序列進(jìn)行z-score標(biāo)準(zhǔn)化,這種處理有助于多種ECG序列的形態(tài)統(tǒng)一,在后續(xù)奇異值計(jì)算時(shí),也會(huì)減少主成分幅值過大導(dǎo)致的權(quán)重失衡.
本文提出一種變權(quán)重子序列與深度學(xué)習(xí)分類器結(jié)合的心律不齊識(shí)別算法,結(jié)合SSA與隨機(jī)森林下的基尼系數(shù)提取變權(quán)重子序列,將其作為1D-CNN與LSTM組合網(wǎng)絡(luò)的輸入,進(jìn)行心律不齊的識(shí)別,圖1為本文的算法流程框架.
圖1 算法流程框架
SSA是一種基于相空間重構(gòu)的信號(hào)分解法,通過奇異值分解得到原始信號(hào)的不同成分序列,奇異值較大的序列為ECG的主要平穩(wěn)信號(hào),奇異值較小的序列則代表ECG的高頻組分.信號(hào)分解主要包括嵌入、分解、分組和對(duì)角平均化四個(gè)過程,首先對(duì)于時(shí)間序列[x1,x2,…,xN],N=256為序列長(zhǎng)度,利用合適長(zhǎng)度為8的序列窗口建立軌跡矩陣X,通過奇異值分解(singular value decomposition, SVD)實(shí)現(xiàn)軌跡矩陣的拆分變換,計(jì)算協(xié)方差矩陣XXT的特征值λ1>λ2>…>λL≥0和對(duì)應(yīng)的特征向量[U1,U2,…,UL]:
(1)
將初步得到的子序列進(jìn)行分組,按照分段計(jì)算的方式,依次將分組后的第I組矩陣XI=(yij)L×k取對(duì)角平均化,得到維度復(fù)原后的新序列[yrc1,yrc2, …,yrcN].
(2)
利用提取到的奇異值訓(xùn)練隨機(jī)森林模型,對(duì)于各個(gè)決策樹下節(jié)點(diǎn)的基尼系數(shù),按照式(3)計(jì)算:
(3)
其中:K為類別總數(shù);pk為樣本權(quán)重.對(duì)于特征在節(jié)點(diǎn)m上的重要性可根據(jù)該節(jié)點(diǎn)基于該特征進(jìn)行進(jìn)一步分枝前后的基尼系數(shù)負(fù)增長(zhǎng)值來衡量,GIi和GIr分別代表分枝前后的基尼系數(shù),再將全部決策樹各個(gè)節(jié)點(diǎn)的特征重要值累加并進(jìn)行歸一化,得到分類器的特征urcj的重要度:
(4)
(5)
1D-CNN具有局部連接、權(quán)值共享的特點(diǎn),對(duì)分析ECG這種具有周期性且長(zhǎng)度固定的時(shí)間序列問題有很好的效果,可以幫助減少參數(shù),節(jié)約模型訓(xùn)練的時(shí)間成本.LSTM主要應(yīng)用于時(shí)序樣本數(shù)據(jù)分析,有效改善了RNN中存在的長(zhǎng)依賴問題.其內(nèi)部組成包含三個(gè)門控單元,遺忘門能夠控制該節(jié)點(diǎn)記憶變量對(duì)于前一時(shí)間步長(zhǎng)記憶變量的繼承程度;輸入門計(jì)算新的記憶變量的補(bǔ)充量及其權(quán)重,用于更新隨著時(shí)間步長(zhǎng)傳遞的記憶變量;輸出門決定該節(jié)點(diǎn)的記憶變量對(duì)于輸出變量的影響權(quán)重.通過三個(gè)門控的配合可以保留序列早期階段的梯度影響,得到最終節(jié)點(diǎn)的輸出.
本文采用多層CNN與LSTM連接的組合網(wǎng)絡(luò),將CNN的輸出作為L(zhǎng)STM的輸入,在減少計(jì)算復(fù)雜度的基礎(chǔ)上進(jìn)行時(shí)序數(shù)據(jù)的分析,圖2為神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu).
圖2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
對(duì)于網(wǎng)絡(luò)結(jié)構(gòu)中的參數(shù)更新,則需要一個(gè)非凸優(yōu)化的損失函數(shù),本文采用交叉熵?fù)p失函數(shù)并以Adam的方式進(jìn)行參數(shù)優(yōu)化更新.
(6)
關(guān)于網(wǎng)絡(luò)訓(xùn)練結(jié)果性能的比較,本文采用靈敏度(sensitivity, Sen)、特異性(specificity, Spe)、準(zhǔn)確率(accuracy, Acc)以及綜合性能描述指標(biāo)F1-score,Macro-F1進(jìn)行評(píng)判.各項(xiàng)指標(biāo)的計(jì)算如式(7)所示,其中Macro-F1為各類別的F1-score均值.
(7)
將提取到的多個(gè)心拍樣本通過SSA獲得多個(gè)分解序列,采用大小為8的窗口進(jìn)行軌跡矩陣構(gòu)建,最后劃分整合到8個(gè)序列.圖3為分解后子序列與初始信號(hào)對(duì)比圖,圖3a為初始信號(hào),圖3b為分解后的多個(gè)子序列,橫軸為256個(gè)采樣點(diǎn),縱軸為幅值.
圖3 子序列可視化
將奇異值分解得到的多個(gè)子序列特征值作為每個(gè)樣本的特征,訓(xùn)練各個(gè)分類器,按照式(3)計(jì)算得到各個(gè)子序列所對(duì)應(yīng)的權(quán)重,表3為各個(gè)分類器得到的權(quán)重.
表3 特征權(quán)重
將提取到的序列輸入到圖2中的網(wǎng)絡(luò)模型中,進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,迭代訓(xùn)練200次后,模型準(zhǔn)確率及損失函數(shù)不再產(chǎn)生較大變化,最終對(duì)于DS2的分類準(zhǔn)確率最高可達(dá)到98.35%,模型訓(xùn)練過程的準(zhǔn)確率上升曲線及最終得到的DS2分類混淆矩陣如圖4所示.
圖4 模型訓(xùn)練過程及分類混淆矩陣
模型對(duì)于訓(xùn)練樣本的學(xué)習(xí)逐漸收斂,最終訓(xùn)練集的分類準(zhǔn)確率接近100%.從表4中可以看出,測(cè)試集識(shí)別結(jié)果的靈敏度和準(zhǔn)確率較高,N類的特異性接近99%,模型對(duì)于LBBB和RBBB兩類具有較好的綜合能力.
表4 識(shí)別性能指標(biāo)
本文采用五折交叉驗(yàn)證對(duì)非變權(quán)重子序列、非變權(quán)重去噪子序列(僅保留奇異值總占比平均達(dá)到95.81%的前三個(gè)子序列)、變權(quán)重去噪子序列及變權(quán)重子序列作為輸入的識(shí)別方法性能進(jìn)行了對(duì)比,同時(shí)采用多種計(jì)算權(quán)重的算法以說明隨機(jī)森林計(jì)算權(quán)重的有效性,對(duì)比實(shí)驗(yàn)結(jié)果如表5所示.
表5 變權(quán)重SSA的識(shí)別性能對(duì)比
從表5中可看出,變權(quán)重子序列的識(shí)別性能相較于非變權(quán)重子序列在各項(xiàng)指標(biāo)均有明顯提升,這證明變權(quán)重的方式高效地保留了與決策相關(guān)的信息.為了說明變權(quán)重算法的優(yōu)越性,本文也進(jìn)行了去噪后子序列的變權(quán)重對(duì)比實(shí)驗(yàn),如表5中的第4,5行所示,在預(yù)處理去噪后,變權(quán)重的學(xué)習(xí)方式依然能夠明顯增強(qiáng)識(shí)別性能,因此本文的算法對(duì)于ECG分解子序列的選擇具有一定適應(yīng)性.
為了說明隨機(jī)森林權(quán)重的高效性,本文采取了其他權(quán)重計(jì)算(分類)方法,包括主成分分析、線性判別分析與AdaBoost算法,對(duì)比結(jié)果如表6所示.
表6 不同權(quán)重算法的識(shí)別性能對(duì)比
本文結(jié)合變權(quán)重的小波分解序列及變分模態(tài)分解的模態(tài)分量作為輸入樣本進(jìn)行對(duì)比說明,其中小波分解選擇db6小波基獲得8個(gè)子序列,變分模態(tài)分解設(shè)置保真度系數(shù)及中心頻率更新參數(shù)為0、中心頻率初始化參數(shù)為1及懲罰因子為2 000,獲得8個(gè)模態(tài)分量,二者的分類準(zhǔn)確率均低于基于SSA分解子序列輸入的模型算法.本文的算法在各類的指標(biāo)上均取得了更好的效果,說明SSA對(duì)于決策目標(biāo)的表征能力較強(qiáng).表7為上述三種分解算法五折交叉驗(yàn)證下平均識(shí)別性能的對(duì)比.
表7 小波分解與變分模態(tài)分解的識(shí)別性能
隨機(jī)森林內(nèi)部的參數(shù)設(shè)置會(huì)改變最終的識(shí)別準(zhǔn)確率,包括其弱分類器數(shù)量的影響,表8為不同個(gè)體分類器數(shù)量下的準(zhǔn)確率.
表8 不同數(shù)量個(gè)體分類器的識(shí)別準(zhǔn)確率
從表8中看出,隨機(jī)森林的結(jié)構(gòu)差異產(chǎn)生的權(quán)重變化會(huì)影響到最終的識(shí)別效果,復(fù)雜的結(jié)構(gòu)會(huì)帶來模型的過擬合,因此權(quán)重的最優(yōu)決策有助于提高識(shí)別準(zhǔn)確率.
表9為現(xiàn)有的心律不齊識(shí)別研究成果對(duì)比.文獻(xiàn)[31,36-38]未采用深度學(xué)習(xí)進(jìn)行分類,利用傳統(tǒng)的特征和分類器,識(shí)別精度相對(duì)較低.文獻(xiàn)[37]的研究得到較高的識(shí)別準(zhǔn)確率,但由于患者內(nèi)的識(shí)別任務(wù)無法解決樣本間差異的問題,存在較大的泛化誤差,而文獻(xiàn)[24]的研究未進(jìn)行數(shù)據(jù)平衡,大類的樣本數(shù)量遠(yuǎn)超小樣本數(shù)量.本文利用變權(quán)重的子序列,對(duì)于數(shù)據(jù)平衡后的樣本,提高了患者間分類的準(zhǔn)確率.由于缺少臨床的數(shù)據(jù),因此無法對(duì)線下病例進(jìn)行實(shí)際驗(yàn)證.
表9 心律失常識(shí)別的研究
本文以均衡不同頻率特性子序列間的信息量為目的,提出了一種基于變權(quán)重奇異譜分析和深度學(xué)習(xí)結(jié)合的心律不齊識(shí)別算法.選擇奇異譜分析算法對(duì)心電信號(hào)不同頻率特性組分進(jìn)行分離,結(jié)合奇異值訓(xùn)練隨機(jī)森林模型并得到各個(gè)特征的基尼系數(shù)作為權(quán)重,低頻序列的權(quán)重值占比較大,而高頻組分則權(quán)重較小.將變權(quán)重子序列用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,最終測(cè)試集分類準(zhǔn)確率為98.35%.通過仿真對(duì)比,奇異譜分析相較于小波分解、變分模態(tài)分解,分解得到的多個(gè)模態(tài)子序列作為輸入樣本的識(shí)別精度最高,子序列所包含的信息更加有效.而變權(quán)重的學(xué)習(xí)方式可以增強(qiáng)高信息量子序列對(duì)于識(shí)別系統(tǒng)的影響,相較于以往研究的權(quán)重統(tǒng)一,在各個(gè)指標(biāo)上均有明顯提升.為進(jìn)一步驗(yàn)證算法的有效性,在現(xiàn)有研究去噪處理后加入變權(quán)重環(huán)節(jié),仍然能夠得到識(shí)別性能提升的結(jié)果.因此本文的算法有效增加了高信息量子序列的權(quán)重,使?jié)撛诘挠行畔⒌玫礁玫谋磉_(dá),進(jìn)一步提高了識(shí)別精度.對(duì)于權(quán)重的計(jì)算算法,仍未尋找到嚴(yán)格意義上的最優(yōu)決策,因此尋求一個(gè)計(jì)算最佳權(quán)重的自適應(yīng)算法對(duì)于后續(xù)變權(quán)重的心律不齊識(shí)別研究有重要意義.