張悅,陳真誠,梁永波,朱健銘
1.桂林電子科技大學(xué)電子工程與自動化學(xué)院,廣西桂林541004;2.桂林電子科技大學(xué)生命與環(huán)境科學(xué)學(xué)院,廣西桂林541004
心房顫動(簡稱房顫)是一種常見的心臟疾病。房顫患者的體征包括脈律不齊、脈搏短絀、第一心音強(qiáng)弱不等、節(jié)律絕對不規(guī)整等[1]。在傳統(tǒng)的房顫診斷中,醫(yī)生通過查看心電圖(Electrocardiography,ECG)判斷房顫的發(fā)生,但此診斷方式帶有主觀性,且耗時(shí)耗力。Kora 等[2]基于ECG 使用Cuckoo Search 算法來實(shí)現(xiàn)自動識別房顫;王凱等[3]基于ECG 的自動心律失常檢測模型能夠有效監(jiān)測心臟異常房顫信號的ECG 信號特征。對于房顫監(jiān)測的困難主要在于陣發(fā)性房顫,此類房顫的特點(diǎn)是突發(fā)突止、持續(xù)時(shí)間短,24 h 動態(tài)心電圖常作為首選的監(jiān)測方法。李芳等[4]通過分析總結(jié)房顫的心電散點(diǎn)圖特征,分析24 h 動態(tài)心電圖來診斷房顫。武求花等[5]運(yùn)用Lorenz-RR散點(diǎn)圖(Lorenz散點(diǎn)圖)與時(shí)間-RR 間期散點(diǎn)圖(時(shí)間散點(diǎn)圖)及逆向技術(shù)相結(jié)合的方法,快速識別不同發(fā)作時(shí)間的PAF,為臨床提供更快更準(zhǔn)確的心電診斷技術(shù)。
目前國內(nèi)外對于房顫識別的研究大多基于ECG,但ECG 設(shè)備普遍有操作復(fù)雜、攜帶困難、價(jià)格較高、多通道等局限性。光電容積脈搏波描記法(PPG)是使用激光對待測流體或固體的體積進(jìn)行檢測與記錄的方法,可以用來監(jiān)測毛細(xì)血管中血液的體積變化[6]。有研究表明,PPG 信號與ECG 信號有很高的相關(guān)性[7]。PPG 方法采集信息容易、方便攜帶,相較于ECG 方法,PPG 更加擅長長期監(jiān)測。本文從脈搏波波形中提取房顫相關(guān)特征參數(shù),使用機(jī)器學(xué)習(xí)算法構(gòu)建心房顫動識別模型,以探尋基于脈搏波識別房顫的有效方法。
將心房顫動狀態(tài)脈搏波與健康狀態(tài)脈搏波的波形進(jìn)行對比分析,可發(fā)現(xiàn)二者間有明顯不同。主要區(qū)別在于房顫發(fā)生時(shí)脈搏波的脈沖寬度(Pulse-Width, PW)、峰峰間隔(Peak-to-Peak Interval, PPI)、收縮期面積(Systolic Area,SA)會明顯與相鄰時(shí)間下同類特征的平均值有較大差別。其中每次房顫發(fā)生時(shí),PPI會出現(xiàn)一次低于、一次高于平均PPI值的情況;PW和SA都會出現(xiàn)一次明顯低于平均值的情況。
通過查閱文獻(xiàn),本文還選取了增強(qiáng)指數(shù)(Augmentation Index,AI)、脈搏波上升導(dǎo)數(shù)最大處至重搏波峰值的時(shí)間間隔(Half Rise to Dicrotic Notch,HRDN)、拐點(diǎn)面積比(Inflection Point Area, IPA)3 種與房顫疾病相關(guān)的特征類型,這3類特征參數(shù)能作為受試者是否可能發(fā)生房顫的判斷因素。
心房顫動的發(fā)生與高血壓高度相關(guān),心臟由于人體長期血壓過高將造成心房電傳導(dǎo)延遲、左心室肥厚、左心房功能異常、左心房擴(kuò)大等現(xiàn)象[8]。血壓的增高會導(dǎo)致動脈的老化進(jìn)程加速[9]。動脈老化將引起動脈的僵硬度提升,脈搏波傳導(dǎo)速度會隨著動脈僵硬度的提升而加快,它的加速使得外周動脈到近端大動脈的反射波提前回傳,最終使脈搏波波形變化[10]。AI可以定義為PT2/PT1,其中PT2是收縮壓后期振幅,PT1是收縮壓早期振幅。已有研究表明,脈搏波特征中的增強(qiáng)指數(shù)AI就可以反映出動脈僵硬度的變化,且容積脈搏波的AI與主動脈AI相關(guān)[11],故選用此類特征值。
有研究表明,脈壓差的增大,將導(dǎo)致動脈牽拉的加重,血管壁彈性成分容易疲勞和斷裂,這將造成內(nèi)膜損傷,并很有可能進(jìn)一步提高動脈僵硬和血管栓塞發(fā)生的可能性。內(nèi)皮功能減退可能導(dǎo)致房顫的發(fā)生[12]。因此,將能夠反映脈壓的HDRN 列為房顫的判斷因素之一[13]。
房顫病人與正常人的外周血管總阻力(Total Peripheral Resistance, TPR)有明顯的區(qū)別[14]。有研究發(fā)現(xiàn)IPA能夠反映TPR指標(biāo)。IPA定義為脈搏波中第二個(gè)峰與第一個(gè)峰的面積之比(SB/SA),與脈搏波反射強(qiáng)度有較強(qiáng)的相關(guān)性。動脈系統(tǒng)中,各部分間阻抗不匹配將出現(xiàn)脈搏波反射。已知,有九成左右的TPR 存在于小動脈處,小動脈收縮將使得TPR變化,并造成阻抗不匹配,由此引發(fā)的脈搏波反射強(qiáng)度的變化將使IPA 發(fā)生變化[15]。本文所提房顫相關(guān)的各特征參數(shù)示意如圖1所示。
圖1 脈搏波的特征參數(shù)Fig.1 Characteristic parameters of pulse wave
實(shí)驗(yàn)數(shù)據(jù)來源于美國麻省理工學(xué)院MIMIC公開數(shù)據(jù)庫中房顫患者(通過ECG 確診)以及健康人的PPG數(shù)據(jù)。數(shù)據(jù)經(jīng)篩選、分段、歸一化等預(yù)處理,得到6 857 例10 s 脈搏波數(shù)據(jù)段,數(shù)據(jù)樣本中房顫狀態(tài)PPG 樣本共2 737 例,非房顫狀態(tài)PPG 樣本共4 120例。將樣本數(shù)據(jù)分成房顫與非房顫兩組并標(biāo)記標(biāo)簽,提取PPG 數(shù)據(jù)中與房顫相關(guān)的6 類特征參數(shù),使用BP 神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、支持向量機(jī)(SVM)作為分類器對數(shù)據(jù)進(jìn)行房顫的識別分類。通過對比分析各個(gè)分類器的實(shí)驗(yàn)結(jié)果,探尋效果更佳的識別房顫方法。
MIMIC 數(shù)據(jù)庫中下載的脈搏波數(shù)據(jù)經(jīng)預(yù)處理后,得到歸一化的PPG數(shù)據(jù)可視化樣例(每段10 s,采樣頻率為125 Hz)如圖2所示。將房顫狀態(tài)的脈搏波數(shù)據(jù)標(biāo)記為正類,非房顫狀態(tài)的脈搏波數(shù)據(jù)標(biāo)記為負(fù)類。
提取PPG波形中PW、PPI、SA、AI、HRDN、IPA共6 類特征作為分類器的輸入項(xiàng)進(jìn)行房顫識別分類實(shí)驗(yàn)。
雖然有一些研究表明MAOIs、TCAs、SSRIs、SNRIs在不同藥物類型方面,以及同一類型不同藥物方面有療效間的差異,但大量的比較研究整體上沒有發(fā)現(xiàn)在這些方面上的明顯差異。而基于第二代抗抑郁藥物(SSRIs和SNRIs)具有比第一代抗抑郁藥物(單胺類氧化酶抑制劑和三環(huán)類抗抑郁藥物)具有更好的安全性和耐受性,因此使用更為廣泛,常被推薦用于急性期的初始治療。
本文使用BP 神經(jīng)網(wǎng)絡(luò)算法、SVM 算法、隨機(jī)森林算法,以PW、PPI等6類特征參數(shù)作為輸入,樣本是否發(fā)生房顫現(xiàn)象作為輸出,分別構(gòu)建3 種分類器,并將對分類效果進(jìn)行評估。
圖2 不同狀態(tài)下的脈搏波波形Fig.2 Pulse waveforms in different statuses
BP 神經(jīng)網(wǎng)絡(luò)屬于多層前饋的神經(jīng)網(wǎng)絡(luò),其含有輸入層、一層及以上的隱含層和輸出層。BP 神經(jīng)網(wǎng)絡(luò)的輸入信號前向傳遞,誤差反向傳播,若輸出層無法得到期望輸出,則轉(zhuǎn)向反向傳播,通過預(yù)測誤差對網(wǎng)絡(luò)權(quán)值和閾值進(jìn)行修正,可以使預(yù)測輸出向期望輸出持續(xù)逼近[16]。隱含層各神經(jīng)元節(jié)點(diǎn)采用Sigmoid 函數(shù)作為激勵函數(shù)。實(shí)驗(yàn)中,將BP 神經(jīng)網(wǎng)絡(luò)的隱含層設(shè)為兩層,第一層含100 個(gè)神經(jīng)元,第二層含50 個(gè)神經(jīng)元;最大迭代次數(shù)epochs 設(shè)為20 000次時(shí),BP 神經(jīng)網(wǎng)絡(luò)對于房顫脈搏波的識別率達(dá)到92.3%。
SVM 是一種常用的機(jī)器學(xué)習(xí)方法,在統(tǒng)計(jì)樣本少的情況下,能夠處理二分類的問題。SVM 的原理是找到一個(gè)最優(yōu)分類超平面,其在能夠達(dá)到分類要求和精度的基礎(chǔ)上,還能夠最大化分類面異側(cè)的空白區(qū)域,可以完成線性可分?jǐn)?shù)據(jù)的最優(yōu)分類。
對于本文中關(guān)于發(fā)生房顫與否的二分類問題,T={(x1,y1), (x2,y2),…,(xn,yn)}是本次實(shí)驗(yàn)所使用的樣本集。xi∈RP,yi∈{ -1, 1},i= 1, 2,…,n;P是各樣本的維數(shù);n是各樣本的個(gè)數(shù)。超平面方程是:
其中,ω是權(quán)向量,b是閾值。經(jīng)過歸一化,若滿足yi(ω?xi+b) ≥1(i= 1, 2,…,n),即可得出這個(gè)超平面對樣本的分類已經(jīng)完成[17]。本文選用高斯徑向基作為內(nèi)核,其計(jì)算復(fù)雜度低,且參數(shù)設(shè)置簡單,廣泛運(yùn)用于各個(gè)領(lǐng)域的研究。本實(shí)驗(yàn)中,SVM 對于房顫識別分類的準(zhǔn)確率達(dá)到89.1%。
將Bagging 集成構(gòu)建于決策樹基學(xué)習(xí)器上,并在決策樹訓(xùn)練中加入隨機(jī)屬性的選擇,即可構(gòu)成隨機(jī)森林。決策樹模仿樹的結(jié)構(gòu)進(jìn)行判斷決策,屬于較普遍的機(jī)器學(xué)習(xí)算法。生成一棵決策樹,包括決策樹生成、剪枝、特征選擇三大內(nèi)容。特征選擇所表達(dá)的分裂標(biāo)準(zhǔn)將在很大程度上控制決策樹的泛化誤差,它是非常關(guān)鍵的一個(gè)部分。Bagging 基于自助采樣法,是一種經(jīng)典的并行式集成學(xué)習(xí)方法。Bagging在訓(xùn)練集合中,將樣本有放回地隨機(jī)抽取,每一輪的分訓(xùn)練集的樣本,都是從訓(xùn)練集中抽取的N個(gè)樣本。一輪訓(xùn)練集中,某一訓(xùn)練樣本被抽取0 至N次。結(jié)果集的產(chǎn)生需要將每次抽取出的子集作為算法的輸入,產(chǎn)生預(yù)測函數(shù),再需要經(jīng)過T輪循環(huán)。最后通過投票,解決預(yù)測函數(shù)的分類問題[18]。隨機(jī)森林算法的主要參數(shù)設(shè)置中,在考慮模型的準(zhǔn)確度與穩(wěn)定度時(shí),還需兼顧模型效率,我們將樹的個(gè)數(shù)n_estimators設(shè)置為100;葉子節(jié)點(diǎn)上應(yīng)有的最少樣例數(shù)min_samples_leaf 設(shè)置為4;分裂內(nèi)部節(jié)點(diǎn)需要的最少樣例數(shù)min_samples_split 設(shè)置為8 時(shí),隨機(jī)森林識別房顫的分類準(zhǔn)確率達(dá)到95.2%。
數(shù)據(jù)集中有70%的樣本作為訓(xùn)練集;15%的樣本作為驗(yàn)證集;15%的樣本作為測試集。訓(xùn)練集作為構(gòu)建預(yù)測模型的基礎(chǔ),訓(xùn)練樣本的數(shù)量將影響機(jī)器學(xué)習(xí)算法模型的預(yù)測能力。測試集作為檢驗(yàn)?zāi)P托阅艿姆治鰳颖尽?/p>
混淆矩陣中,TP(True Positives)是將房顫脈搏波判定為房顫;FP(False Positives)是把非房顫脈搏波判定為房顫;FN(False Negatives)是把房顫脈搏波判定為非房顫;TN(True Negatives)是非房顫脈搏波判定為非房顫。
通過以下公式進(jìn)行性能度量:
在評價(jià)分類算法的指標(biāo)中,準(zhǔn)確率是最常見的衡量指標(biāo)之一,分類器的準(zhǔn)確率越高即表明該分類算法的效果越好。但由于本文的數(shù)據(jù)源中,房顫數(shù)據(jù)與非房顫數(shù)據(jù)的樣本不平衡,還需引入精準(zhǔn)率和召回率兩個(gè)指標(biāo)。如上文公式所示,精準(zhǔn)率代表所有預(yù)測為正類的結(jié)果中,真實(shí)正類的比例。召回率代表所有真實(shí)正類中,預(yù)測正確的比例。同樣,精準(zhǔn)率和召回率的值越高,越能夠表明該分類算法優(yōu)質(zhì)。本文還引入了F-Score 指標(biāo),它將精準(zhǔn)率和召回率進(jìn)行加權(quán)調(diào)和平均,能夠?yàn)榫珳?zhǔn)率和召回率提供一個(gè)綜合的評判標(biāo)準(zhǔn)[19]。
基于實(shí)驗(yàn)結(jié)果及評價(jià)指標(biāo)可得如表1 所示的結(jié)果,隨機(jī)森林模型的準(zhǔn)確率最高,達(dá)到了95.2%,BP神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率為92.3%,SVM 方法的準(zhǔn)確率最低只有89.1%。通過對比能夠反映綜合評價(jià)指標(biāo)的F-Score可以看出,隨機(jī)森林的F-Score為93.9%,高于另外兩個(gè)分類模型。且隨機(jī)森林模型的各項(xiàng)指標(biāo)與其他模型相比,均保持了較高的水平。
表1 各分類器的性能指標(biāo)Tab.1 Performance indicators of each classifier
在ROC空間中,ROC曲線越凸向左上方,表明該算法所能達(dá)到的分類效果越好;ROC 曲線越靠近對角線,則分類器越趨向于隨機(jī)分類器。筆者將3種分類器的分類效果進(jìn)行比較,結(jié)果如圖3所示。
Area Under the ROC Curve(AUC)能夠準(zhǔn)確反映分類器的性能,AUC 值越大,則此分類器的性能越好。如圖3 所示,灰色虛線代表AUC=0.5,SVM 的分類結(jié)果更靠近虛線,其AUC=0.938,隨機(jī)森林的ROC曲線最接近左上角即(0,1)點(diǎn)的位置,其AUC值達(dá)到了0.986。綜合以上評價(jià)分析結(jié)果可得,隨機(jī)森林模型對于房顫狀態(tài)脈搏波的識別分類效果優(yōu)于SVM和BP神經(jīng)網(wǎng)絡(luò)模型。
圖3 接收者操作特征曲線Fig.3 Receiver operating characteristic curve
本次研究結(jié)果表明,PPG信號可用于判定房顫的發(fā)生,是一種可行的替代ECG 檢測房顫的方法;基于本文選用的6類脈搏波特征參數(shù),使用機(jī)器學(xué)習(xí)算法對脈搏波進(jìn)行分類,能夠有效區(qū)別出脈搏波的房顫狀態(tài)與非房顫狀態(tài)。本文還通過準(zhǔn)確率、精準(zhǔn)率、召回率、F-Score、AUC 值等評價(jià)指標(biāo)評估模型效果,結(jié)果表明,使用隨機(jī)森林分類方法判別房顫發(fā)生的效果優(yōu)于SVM 和BP 神經(jīng)網(wǎng)絡(luò),其準(zhǔn)確率達(dá)到了95.2%。
下一步工作中,可基于目前的研究,分析更多的特征點(diǎn),嘗試?yán)^續(xù)提升分類效果。由于本文所使用的臨床數(shù)據(jù)來源于MIMIC 數(shù)據(jù)庫,缺乏相關(guān)校準(zhǔn)記錄等信息,之后可使用精確的傳感器自主獲取數(shù)據(jù),以期得到更好的房顫識別分類效果。