弓愉昇,王文華,潘 敏,張 瑞
(西北大學 醫(yī)學大數(shù)據(jù)研究中心,陜西 西安 710127)
意識障礙(disorders of consciousness,DOC)是一種由外傷或非外傷因素導致腦功能嚴重損傷進而引起個體對自我和環(huán)境感知能力出現(xiàn)障礙的神經(jīng)系統(tǒng)疾病。慢性意識障礙(prolonged disorders of consciousness,PDOC)是指意識喪失持續(xù)時間超過28 d的長期DOC[1]。臨床上常伴有睡眠結(jié)構紊亂、肺部及尿路感染、腦積水、肝功能異常等并發(fā)癥[2]。根據(jù)意識水平和意識內(nèi)容的不同,PDOC主要分為植物狀態(tài)(vegetative state,VS)和微意識狀態(tài)(minimally conscious state,MCS)。其中,VS是一種存在覺醒但沒有覺知能力的無意識狀態(tài),具有睡眠覺醒周期。而MCS則具有微弱且不連續(xù)的覺知能力,存在較低(MCS-)和較高(MCS+)復雜程度的行為反應[3]。針對不同患者的意識狀態(tài)以及患者在不同病情階段所處的意識狀態(tài),所選擇的診療方案存在較大差異。因此,準確評估PDOC對于患者的臨床護理和康復治療具有至關重要的作用。
臨床上,PDOC評估的主要方法之一為臨床行為檢查,其主要依賴患者行為表征,結(jié)合行為量表進行意識狀態(tài)評估[4]。但是,該方法主觀性強,患者的并發(fā)癥也會嚴重干擾醫(yī)生對病情的判斷,誤診率較高。神經(jīng)影像學可以客觀記錄PDOC患者中潛在的中樞神經(jīng)系統(tǒng)損傷[5],其檢查方式主要通過分析DTI、fMRI、PET結(jié)果來分析腦結(jié)構、功能連接的強度與腦代謝水平等影像學特征,進而診斷患者的意識狀態(tài)。此類方式所需價格昂貴,存在輻射危害且不便于床旁檢查,大大限制了該方法的長期使用。同時,上述兩類方法均難以對患者進行連續(xù)監(jiān)測,進而可能導致無法及時準確了解患者意識狀態(tài),影響康復治療進程。
與上述檢查手段不同,腦電圖(electroencephalogram,EEG)是一種通過安放在大腦皮質(zhì)或顱內(nèi)的電極所記錄得到的自發(fā)性、節(jié)律性電信號,這些生理病理電信號能夠反映PDOC患者的意識狀態(tài)變化[6]。研究表明,PDOC患者的意識水平與其睡眠狀態(tài)密切相關,包括覺醒期(wake)、快速眼動(rapid eye movement,REM)睡眠期和非快速眼動(non-rapid eye movement,NREM)睡眠Ⅰ、Ⅱ和Ⅲ期[7-8]。因此,長時程且高時間分辨率的PDOC腦電數(shù)據(jù)(PDOC-EEG)對于患者意識狀態(tài)的診斷是必要的。然而,臨床上患者意識狀態(tài)的評估需依靠醫(yī)生對大量的腦電記錄進行視覺判讀,存在費時費力、獲取信息有限、主觀性強等缺點。隨著EEG分析技術的進步以及人工智能的發(fā)展和應用,大量學者開始關注如何使用機器學習方法挖掘PDOC-EEG的潛在信息來輔助意識狀態(tài)準確評估的相關研究。
采用機器學習方法對患者意識狀態(tài)進行評估,主要通過從PDOC-EEG中提取恰當?shù)哪苡行^(qū)分不同意識狀態(tài)的特征,并結(jié)合分類器來完成對PDOC患者不同狀態(tài)的識別(本文主要涉及3類意識狀態(tài),即VS、MCS-、MCS+)。其中設計一種有效的特征提取方法,是實現(xiàn)準確評估的關鍵步驟。目前已有工作可大體分為3類,即時域分析、頻域分析和非線性分析方法。從時域分析角度出發(fā),主要通過分析腦電信號的幅度直方圖、提取腦電瞬態(tài)特征等進行PDOC的輔助評估[9]。從頻域方面,Schnakers等人提取腦電雙頻指數(shù)特征用于VS與MCS的鑒別診斷[10]。Chennu等計算正常人與PDOC患者腦電信號在不同頻帶的功率譜密度,發(fā)現(xiàn)PDOC患者的低頻帶(δ,θ)功率增加,高頻帶(α,β)功率顯著減少[11]。從非線性動力學角度出發(fā),Huang等人研究了近似熵、排列熵特征值與PDOC患者的意識狀態(tài)呈正相關關系[12]。曹銘將復雜度、基本尺度熵特征參數(shù)用于PDOC患者的意識狀態(tài)評估[9]。此外,Thul等提取傳遞熵特征結(jié)合統(tǒng)計分析說明VS患者和MCS患者在這兩個特征值上存在明顯差異[13]。
然而,已有研究仍存在一定的局限性。一方面,現(xiàn)有的方法大多基于單一通道,而忽略了不同通道之間的相互作用;另一方面,PDOC患者的意識狀態(tài)與睡眠結(jié)構密切相關,而已有研究大多忽略了包括EEG、EOG和EMG等在內(nèi)睡眠信息對于PDOC評估的重要作用。基于此,本文以PDOC患者夜間所采集的EEG、EOG和EMG信號為數(shù)據(jù)源,提出一種新的基于融合特征的PDOC自動評估方法。首先,對臨床采集的EEG、EOG和EMG數(shù)據(jù)進行增廣、濾波、去噪等預處理;其次,采用時域、頻域和非線性分析方法分別提取用于刻畫PDOC-EEG病理表現(xiàn)的特征,其中提出了兩個新的具有頻帶功率權重的通道相干性特征、刻畫頻帶相關性的分散程度的特征。進一步,結(jié)合EEG與EOG、EMG數(shù)據(jù),設計了一種新的與意識狀態(tài)密切相關的睡眠分期時長占比特征。最后,將上述所提取的多個特征進行融合,并分別結(jié)合隨機森林、神經(jīng)網(wǎng)絡分類器完成對PDOC自動評估。
本節(jié)首先介紹融合特征提取方法。具體地,分別從時域、頻域、非線性和睡眠分期角度出發(fā)提取18個特征,并將其融合以更全面刻畫PDOC患者在EEG、EOG和EMG信號上的病理表現(xiàn)。其中具有頻帶功率權重的通道相干性特征、刻畫頻帶相關性的分散程度的特征、以及與意識水平密切相關的睡眠分期時長占比特征為本文所提取的3個新特征。其次,將上述融合特征結(jié)合分類器,以實現(xiàn)PDOC患者的自動評估。
時域特征是通過對PDOC-EEG信號病理表現(xiàn)的直接觀察來獲取的。本文提取PDOG-EEG信號X的Hjorth參數(shù)特征,包括信號的活動性HA、移動性HM和復雜度HC分別用于刻畫信號的振幅、坡度以及信號與正弦波的相似程度特性:
HA=σ2
(1)
(2)
(3)
式中:σ為信號X的標準差次;σ′為σ的一階導;σ″為σ的二階導。
大腦皮層被認為是意識活動的主要區(qū)域,因此意識狀態(tài)很大程度上決定了大腦活躍程度,并反映為EEG信號的能量波動,因此,本文提取PDOG-EEG的時域能量ET和功率PT特征,計算公式分別為
(4)
(5)
式中:N為信號X樣本點個數(shù)。
此外,提取一階差分δ、二階差分γ特征用于刻畫EEG信號的離散程度,數(shù)學表達式為
(6)
(7)
相關研究表明,PDOC患者在α、δ等頻帶下的腦區(qū)域連接強度存在不同程度的損傷[14]。基于此,本文設計了一種具有頻帶功率權重的通道相干性特征(power weight-based channels cherence,PWCC)來反映PDOC患者在不同頻帶下的腦網(wǎng)絡連接變化。
根據(jù)頻率范圍的不同,將EEG劃分為δ(0.5~4 Hz)、θ(4~8 Hz)、α(8~12 Hz)、β(12~30 Hz)、γ(30~80 Hz)5種頻帶。首先,計算各個頻帶的相對功率,即每個頻帶的絕對功率相對于所有頻帶絕對功率的比值Rm
m=1,2,…,5
(8)
EEG相干性分析是對兩個通道信號進行快速傅里葉變換,獲得功率譜,并以信號的周期為函數(shù)計算相干系數(shù)。對于每個頻帶m,定義通道i和j的信號相干性為
(9)
式中:Pij為通道i和j中信號的交叉功率譜密度;Pii和Pjj為自功率譜密度。
對于每個頻帶,依次計算每個通道與其他通道的信號相干性,均得到大小為N×N的相干性矩陣(N為總通道數(shù)),對矩陣的第i行求均值,即得到通道i與其他所有通道的相干性平均值
(10)
考慮PDOC患者中不同通道間的信號功率有所差異,因此將頻帶相對功率Rm作為通道相干性的權重,據(jù)此提出具有頻帶功率權重的通道相干性新特征PWCC,其數(shù)學表達為
(11)
此外,由于EEG在不同頻帶上的能量與功率變化與PDOC患者的意識狀態(tài)密切相關,本文提取信號在各個頻帶上的相對功率Rm、能量特征EF以及在功率譜上提取最大值Pmax、最小值Pmin、均值Pmean和方差Pvar特征[15]。
研究表明,δ和β頻帶間的相關性在 VS和MCS患者之間存在顯著的差異性[16]?;诖?本文結(jié)合香農(nóng)熵方法,設計了用于刻畫不同頻帶相關性的分散程度(dispersion of frequency correlation,DFC)的新特征,具體過程如下。
首先,通過希爾伯特變換得到各子頻帶信號的包絡線,信號X(t)對應的包絡A(t)為
(12)
(13)
其次,構建每個頻帶下的加權連接矩陣W,其連接強度(加權鄰接矩陣W中的元素)通過計算每個頻帶信號包絡線的皮爾遜相關系數(shù)得到,即
(14)
式中:Cov(L,K)為包絡線L與包絡線K的協(xié)方差;σL和σK分別表示L和K的標準差。進而,得到各頻帶信號的加權鄰接矩陣W
(15)
式中:M為信號劃分出的頻帶總個數(shù),本文中M=5。此加權鄰接矩陣W展示了不同頻帶間的相關性。接下來,對矩陣W進行特征值分解:Wvi=λivi,λi,vi分別表示特征值和特征向量(i=1,…,M)。進一步,利用香農(nóng)熵函數(shù)來描述特征值分布
(16)
考慮到EEG的熵特征能夠反映PDOC患者在不同意識狀態(tài)下的腦功能活動狀態(tài)的變化情況[17]。因此,本文基于PDOC-EEG信號提取近似熵ApEn、樣本熵SampEn兩個非線性動力學特征[18-19]。
PDOC患者被證實具有睡眠-覺醒周期。許多研究表明,不同程度的睡眠結(jié)構異常存在于PDOC患者中,如WAKE期增加、REM期減少等[20]。因此,研究睡眠分期信息對于輔助PDOC評估是非常必要的。本文以此為依據(jù),提出了睡眠分期時長占比(proportion of sleep stage duration,PSSD)特征提取方法,具體步驟如下。
首先,本文采用YASA自動睡眠分期算法分別對PDOC患者的EEG、EOG和EMG信號進行睡眠階段的劃分,包括Wake、REM、NREM Ⅰ、Ⅱ和Ⅲ這5個階段[21]。然后分別計算5個睡眠階段時長占總信號時長的比例,將其作為睡眠分期時長占比特征PSSD。
綜合上述從時域、頻域、非線性以及睡眠分期角度提取的18個特征,從而得到基于EEG、EOG和EMG信號的融合特征。
由于慢性意識障礙患者腦電信號的復雜性,單一特征很難完整刻畫病理狀態(tài)[22]。因此,為了提高評估方法的性能,本文提出基于融合特征的PDOC自動評估方法。首先,對EEG、EOG和EMG信號進行預處理,具體為數(shù)據(jù)增廣、濾波和去噪。其次,針對EEG信號,提取基于時域、頻域和非線性動力學的PDOC特征,其中包含本文設計新特征PWCC與DFC。隨后,基于包括EEG、EOG和EMG信號在內(nèi)的多源數(shù)據(jù)進行睡眠分析,提取了各個睡眠分期時長占比作為新特征PSDD。進一步,采用拼接的方式,融合上述所有特征,得到基于多源數(shù)據(jù)的融合特征。最后,將上述所得到的融合特征結(jié)合隨機森林和神經(jīng)網(wǎng)絡算法完成PDOC的自動評估。算法流程如圖1所示。
圖1 PDOC評估算法的流程圖Fig.1 Flowchart of evaluation algorithm for PDOC
本文所用數(shù)據(jù)來自俄羅斯聯(lián)邦重癥監(jiān)護與康復的臨床研究中心[23-24],采集自40名PDOC患者的夜間(記錄時間為從前一天下午到第二天早上,共14.7 h)數(shù)據(jù),其中VS患者30人、MCS+和MCS-患者各5人。每位患者的記錄數(shù)據(jù)包括6導聯(lián)(F3-A2、F4-A1、C3-A2、C4-A1、O1-A2和O2-A1導聯(lián))EEG信號、兩個眼電(electrooculogram,EOG)信號和一個肌電(electromyogram,EMG)信號,采樣率為256 Hz。圖2(a)、(b)和(c)分別展示了某VS患者、MCS-和MCS+患者在單一通道下時長為20 s的腦電片段。
圖2 PDOC患者的腦電片段Fig.2 EEG signals fragments of PDOC patients
PDOC患者的數(shù)據(jù)樣本類別不均衡問題會影響意識狀態(tài)分類模型的表現(xiàn)效果和魯棒性。因此,在對PDOC-EEG信號進行時域、頻域、和非線性動力學特征提取之前,對樣本量較少的MCS-、MCS+類別進行數(shù)據(jù)增廣,即將每一患者的所有通道腦電數(shù)據(jù)按照時間順序均分為6份,則數(shù)據(jù)增廣后的EEG數(shù)據(jù)時序長度為原始數(shù)據(jù)的1/6,從而VS、MCS-和MCS+三類樣本數(shù)量比為1∶1∶1。而對于睡眠分期時長占比特征提取,需要使用完整的數(shù)據(jù)序列,因此,本文對EEG、EOG和EMG數(shù)據(jù)進行濾波、去噪預處理并提取睡眠分期時長占比特征之后,在特征層面上進行數(shù)據(jù)增廣,即對于MCS+、MCS-類別,將每位患者所有通道的睡眠分期占比特征復制6份,以此解決類別失衡問題。
EEG、EOG和EMG數(shù)據(jù)在采集過程中容易受到噪聲等因素的干擾。其中,工頻干擾是在信號采集過程中,受到周圍環(huán)境的影響例如存在交流電設備等引起的微小毛刺,其頻率約為50 Hz。有研究表明,能有效反應慢性意識障礙患者病理信息的多為低頻帶信號[8,11]。γ(30~80 Hz)頻帶出現(xiàn)時人通常處于十分激動或亢奮的狀態(tài),這與PDOC患者的臨床信息相悖,即高頻帶信號對本研究影響甚微。基于此,本文采用Matlab中的EEGLAB工具包對原始數(shù)據(jù)進行預處理。首先,使用FIR帶通濾波器對EEG和EOG信號進行0.5~35 Hz的濾波,同時,參照本文所用數(shù)據(jù)集發(fā)布者使用的濾波方法[21],對EMG信號進行5~200 Hz的帶通濾波,并去除50 Hz的工頻干擾。其次,使用獨立成分分析(independent component analysis,ICA)對所有通道EEG信號進行獨立成分分解,識別并去除眼電、肌電等噪聲成分。圖3(a)和(b)分別展示了某一MCS+患者時長為20 s的原始腦電片段以及去噪后的腦電片段??梢钥闯?去噪前后的腦電信號存在明顯差異。
本小節(jié)主要從3個方面驗證所提方法的有效性。
1)通過對特征的分布刻畫以及t檢驗,驗證本文所提取的3個新特征PWCC、DFC、PSSD的有效性;
2)進行消融實驗,驗證本文所提新特征對評估方法性能的提升作用;
3)結(jié)合融合特征,比較驗證兩種分類器RF和BP的性能。
在特征提取過程中,對預處理后的EEG信號進行無重疊加窗分段處理,窗口長度為30 s。RF的基學習器個數(shù)設置為30,BP網(wǎng)絡的結(jié)構包含1個隱藏層,隱節(jié)點個數(shù)設為10,學習率和迭代次數(shù)分別設為0.01和500。
數(shù)值實驗采用的模型性能評估指標為準確率AAcc和靈敏度SSen,該指標在PDOC患者意識評估中被廣泛使用且效果較好。其中,使用準確率來衡量模型整體的分類性能;使用靈敏度來衡量模型對正例的識別能力。其計算公式如下:
(17)
(18)
實驗均采用10折交叉驗證,共進行5次實驗取其平均結(jié)果作為最終分類性能。
圖3 腦電信號預處理結(jié)果Fig.3 The preprocessing results of EEG signals
首先,分別對所提特征PWCC、DFC和PSSD的有效性進行驗證。表1展示了VS、MCS-和MCS+患者分別在Wake期、NREM Ⅰ期和NREM Ⅱ期下對應的PSSD平均值。從表1中可以看出,隨著意識障礙狀態(tài)加重、意識水平降低,在Wake期,患者的PSSD平均值呈遞減趨勢,而在NREM Ⅱ期患者的PSSD平均值呈遞增趨勢,同時,在NREM Ⅰ期VS患者的PSSD平均值也遠小于MCS類患者,這反映了PDOC患者的意識狀態(tài)與睡眠狀態(tài)存在一定的正相關關系,即PDOC患者的意識狀態(tài)越差,覺醒期越長,睡眠期越短。同時,圖4(a)、(b)和(c)展示了VS、MCS-和MCS+患者分別在Wake期、NREM I期和NREM Ⅱ期的PSSD特征值箱線圖。從圖可以看出,VS、MCS-和MCS患者在Wake期、NREM Ⅰ期和NREM Ⅱ期的PSSD特征值有顯著差異,可以很好的區(qū)分開來。綜上,所提取的新特征PSSD能夠很有效區(qū)分VS、MCS-和MCS+患者。
表1 不同意識狀態(tài)下PSSD平均值Tab.1 Average value of PSSD features under different consciousness states 單位:%
圖4 不同意識狀態(tài)下PSSD特征值分布的箱線圖Fig.4 Box diagram of PSDD features under different consciousness
圖5(a)、(b)分別展示了VS、MCS-和MCS+患者每一腦電片段的PWCC和DFC特征值的箱線圖。從圖中可以看出,意識狀態(tài)越好,PWCC、DFC特征值越小,且在區(qū)分VS與MCS時效果非常好。
圖5 不同意識狀態(tài)下的PWCC和DFC特征值分布的箱線圖Fig.5 Box diagram of PWCC and DFC features under different consciousness
為進一步驗證新特征的有效性,本文對患者的PWCC特征和DFC特征進行t檢驗。對VS、MCS-和MCS+三類患者兩兩進行t檢驗,得到對應的p-Value,如果p值小于0.05,則認為其差異性是顯著的,PWCC和DFC的T檢驗結(jié)果如表2和表3所示。從表中可以看出,VS與MCS-和MCS+患者PWCC特征p值遠小于0.05,存在顯著差異,MCS-與MCS+患者p值為0.050 983=0.05,也存在較明顯的差異。同時,3類樣本兩兩檢驗DFC特征p值均小于0.05,存在顯著差異。綜上,本文所提取的新特征PWCC和DFC能夠很有效區(qū)分VS與MCS類患者,在區(qū)分MCS-與MCS+患者時仍有不錯的表現(xiàn)。
表2 PWCC特征值p-ValueTab.2 p-Value of PWCC
表3 DFC特征值p-ValueTab.2 p-Value of DFC
此外,進一步研究所提新特征PSSD、PWCC和DFC對自動評估性能的提升作用。表4展示了時域、頻域和非線性基本特征以及分別單一融合PWCC、DFC和PSSD新特征下PDOC自動評估的準確率和靈敏度。從表中可以看出,分別將3個新特征與基本特征融合,其評估效能相較進使用基本特征均有所提升。同時,相比于PWCC、DFC特征,PSSD特征具有更優(yōu)越的評估準確率和靈敏度。
表4 基本特征與單一融合特征的PDOC評估性能對比Tab.4 Comparison of PDOC assessment performance between basic features and singal fusion features 單位:%
本文檢驗了基于EEG、EOG和EMG信號的融合特征(包含PWCC、DFC和PSSD新特征)在RF、BP兩個分類器下的性能表現(xiàn),如表5所示。融合特征在RF、BP兩個分類器下的準確率為92.7%、94.2%以及靈敏度為92.6%和94.1%,均表現(xiàn)出很好的分類效果,且在BP算法下的分類效果更佳。這說明了本文所提融合特征方法的有效性和可行性。
表6列出了本文所提方法與已有方法的性能比較結(jié)果。其中王小宇等人基于被動聽覺事件相關電位(event related potential,ERP),在包含132名受試者(健康38名,VS患者54名,MCS患者40名)的數(shù)據(jù)集上完成健康、VS和MCS的三分類評估[25];Xiao等人基于視覺ERP,在包含20名受試者(VS患者10名和MCS患者10名)的數(shù)據(jù)集上完成VS和MCS的二分類評估[26];Hermann等人采用FDG-PET結(jié)合聽覺ERP的方式在包含57名受試者(VS患者23名,MCS患者34名)的數(shù)據(jù)集上完成VS和MCS二分類評估[27]。
表5 PDOC-EEG融合特征的PDOC評估性能Tab.5 PDOC assessment performance with PDOC-EEG fusion features 單位:%
表6 本文方法與已有方法的性能比較Tab.6 Performance comparison between this method and existing methods 單位:%
本文首先提出了新的具有頻帶功率權重的通道相干性和刻畫頻帶相關性的分散程度的特征提取方法PWCC和DFC。同時,考慮睡眠分期時長占比特征對于PDOC患者意識水平的重要影響;其次,結(jié)合分類器算法,提出了一種基于融合特征的PDOC自動評估方法。本文采用臨床采集的40名PDOC患者的夜間EEG、EOG和EMG數(shù)據(jù),從以下3個方面對所提PDOC評估方法的有效性進行驗證:①通過對特征的分布刻畫以及t檢驗,驗證本文所提取的3個新特征PWCC、DFC、PSSD的有效性;②進行消融實驗,驗證本文所提新特征對評估方法性能的提升作用;③結(jié)合融合特征,比較驗證兩種分類器RF和BP的性能。數(shù)值實驗結(jié)果表明,本文所提特征能夠有效區(qū)分PDOC患者的意識狀態(tài),特別是PSSD特征對分類性能具有顯著提升。本文研究結(jié)果將為臨床護理和康復治療方案制定提供一定的指導和輔助作用。