張金輝,鄭宇博,羅瑩瑩,鄒冰,央妮,李蕾
1. 解放軍總醫(yī)院服務(wù)保障中心 裝備保障室,北京 100853;2. 北京郵電大學(xué) 人工智能學(xué)院,北京 100876
睡眠是人類非常重要的生理活動,睡眠質(zhì)量與人類身體健康直接相關(guān)[1]。根據(jù)美國睡眠醫(yī)學(xué)會(American Academy of Sleep Medicine,AASM)分類標(biāo)準(zhǔn),將人的睡眠劃分為W、N1、N2、N3 和快速眼動期(Rapid Eyes Movement,REM)這5 個階段,不同的睡眠階段中腦電信號(Electroencephalogram,EEG)呈現(xiàn)出不同的節(jié)律[2-3]。通常選用大腦中心部(C 區(qū))、枕部(O 區(qū))、前額部(FP 區(qū))采集的腦電信號來判斷睡眠階段。但基于腦電信號進(jìn)行人工睡眠分期需要豐富的經(jīng)驗(yàn)且極其耗時(shí)。借助人工智能技術(shù)進(jìn)行睡眠分期有助于提升效率,近年來已成為人工智能算法的研究熱點(diǎn)。
傳統(tǒng)的睡眠特征主要有時(shí)域、頻域、標(biāo)準(zhǔn)差、中位數(shù)等,因此實(shí)現(xiàn)睡眠分期主要有兩種思路:一種是基于特征提取的分期方法,設(shè)計(jì)算法從原始數(shù)據(jù)提取特征,再通過特定的分類器進(jìn)行分類,如Phan 等[4]從多通道信號中提取時(shí)頻分布特征;Chen 等[5]基于多模態(tài)數(shù)據(jù)融合,特征融合實(shí)現(xiàn)睡眠分期。以上方法在其數(shù)據(jù)集上均達(dá)到了約81%的準(zhǔn)確率,但由于需要具備專業(yè)的先驗(yàn)知識進(jìn)行特征提取,模型可遷移性較差,且非端到端的學(xué)習(xí)受主觀的影響較大。另一種是基于深度學(xué)習(xí)進(jìn)行睡眠分期[6],如Supratak 等[7]基于單通道EEG 信號提出了一種深度學(xué)習(xí)模式,并命名為DeepSleepNet,其主要采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)提取特征,長短期記憶網(wǎng)絡(luò)(Long Short Term,LSTM)進(jìn)行序列的學(xué)習(xí),相較于人工提取特征方法的準(zhǔn)確率提升了3%;Dong 等[8]提出了循環(huán)神經(jīng)網(wǎng)絡(luò)+LSTM 的混合網(wǎng)絡(luò);Eldele 等[9]利用多頭注意力機(jī)制捕獲分支卷積后的特征之間的時(shí)間依賴關(guān)系;馬家睿等[10]通過隱馬爾科夫模型狀態(tài)轉(zhuǎn)移規(guī)則優(yōu)化提高使用CNN 網(wǎng)絡(luò)的睡眠分期的準(zhǔn)確率;Sun 等[11]基于多模態(tài)生理信號進(jìn)行睡眠分期研究。雖然基于深度學(xué)習(xí)的方法不需要設(shè)計(jì)算法提取特征,也不需要依賴專業(yè)知識,且應(yīng)用前景廣闊,然而,這些深度學(xué)習(xí)方法采用的數(shù)據(jù)集多為單通道或雙通道數(shù)據(jù),易使研究人員設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)模型時(shí)忽略了多通道EEG 之間的空間關(guān)聯(lián)性,缺乏對多通道EEG 數(shù)據(jù)的有效利用。
本研究基于深度學(xué)習(xí)方法,提出基于注意力的多通道EEG 融合睡眠分期方法(Attention Based Multi-Channel EEG Sleep Net,AMCSleepNet),通過多分支卷積網(wǎng)絡(luò)提取EEG 的時(shí)頻特征。與單通道模型不同,AMCSleepNet 關(guān)注睡眠EEG 樣本的多通道的結(jié)構(gòu),通過壓縮聚合(Squeeze and Excitation,SE)模塊[12]融合不同通道的時(shí)頻特征,該方法結(jié)合Transformer 思想來替換LSTM 方案,通過多頭注意力挖掘特征的時(shí)間前后相關(guān)性,減少了模型訓(xùn)練時(shí)間,相較于單通道模型和多通道深度卷積模型,可提升臨床數(shù)據(jù)的利用率和睡眠分期的準(zhǔn)確率。
AMCSleepNet 的整體架構(gòu)如圖1 所示,主要分為特征提取模塊、特征融合模塊、Transformer 編碼器和分類模塊4 個部分。提取過程如下:① 特征提取模塊中的多分支卷積網(wǎng)絡(luò)采用不同尺度的卷積,對EEG 各通道分別提取時(shí)頻域特征;② 特征融合模塊通過SE 和殘差層(Residual Layer)將不同通道的特征進(jìn)行融合和選擇;③ 利用Transformer 編碼器,捕捉特征的時(shí)間前后關(guān)系;④ 在分類模塊中,全連接網(wǎng)絡(luò)和softmax 層將特征轉(zhuǎn)換為概率向量,得到最終的睡眠分期結(jié)果。特征提取和特征融合模塊的具體操作如下。
不同睡眠階段采集的EEG 信號能量集中在不同的頻率范圍。研究表明,小尺度的卷積核能捕捉一定的時(shí)域特征,大尺度的卷積核能捕捉頻域的特征,并且卷積核越大,對應(yīng)的特征頻率越低;卷積核越小,對應(yīng)的特征頻率越高。因此,模型第一部分是輸入的EEG 通道,分支卷積網(wǎng)絡(luò)的結(jié)構(gòu)如圖1 所示。兩個分支均有3 個卷積層,且第一層卷積核大小不同。由于EEG 數(shù)據(jù)的采樣率為100 Hz,長度為50 個采樣點(diǎn)的小尺度卷積核對應(yīng)0.5 s 的樣本數(shù)據(jù),因此可以捕捉2 Hz 正弦信號的整個周期。同樣,長度為400采樣點(diǎn)的大尺度卷積核對應(yīng)4 s 的樣本數(shù)據(jù),可以捕捉到0.25 Hz 正弦信號的完整周期。以此提取EEG 信號不同頻率范圍的特征,其后兩層卷積用以提取更多特征信息。使用Dropout 層和最大值池化防止過擬合。每一個卷積層計(jì)算后均進(jìn)行批量歸一化,并通過高斯誤差線性單位(Gaussian Error Linear Units,GELU)激活函數(shù)[13]進(jìn)行非線性運(yùn)算。GELU 是非初等函數(shù)的激活函數(shù),為提升神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,根據(jù)公式(1)近似為初等函數(shù),式中變量x為經(jīng)過每一個批量歸一化層得到的中間特征如圖1 所示。
圖1 基于注意力的多通道EEG融合睡眠分期方法AMCSleepNet的整體架構(gòu)
由于特征提取模塊已經(jīng)得到來自不同通道的EEG 時(shí)頻特征,因此AMCSleepNet 的特征融合網(wǎng)絡(luò)主要解決各通道的特征融合問題,其結(jié)構(gòu)如圖1 所示。特征融合模塊主要有壓縮、聚合、重構(gòu)3 部分。設(shè)輸入特征融合網(wǎng)絡(luò)的特征為FC×N×d,C為通道數(shù),N,d為每個分支卷積網(wǎng)絡(luò)輸出特征的數(shù)量和特征的長度。采用卷積和全局平均值池化方法,將輸入的多通道特征矩陣壓縮成一維向量s={s1,s2,…sN}。然后利用兩個全連接層和sigmoid 函數(shù)將s轉(zhuǎn)換為權(quán)重eN×d。最后通過F和e點(diǎn)積重新構(gòu)造多通道的特征矩陣F’N×d,作為下一模塊的輸入。
Transformer 編碼器是Transformer 模型中的重要組成部分,包括多頭注意力、求和與歸一化層、前饋網(wǎng)絡(luò)與殘差連接,其結(jié)構(gòu)如圖1 所示。該編碼器能夠有效捕捉特征的時(shí)間相關(guān)信息,被廣泛應(yīng)用于機(jī)器翻譯[14]、自然語言處理[15]、計(jì)算機(jī)視覺[16-18]等領(lǐng)域。
在編碼器中,多頭注意力網(wǎng)絡(luò)是第一個單元,其結(jié)構(gòu)如圖2 所示。設(shè)輸入的特征為X={x1,…xN}N×d,X在d維度上被分為h個子空間,對應(yīng)h個頭部。根據(jù)公式(2)[14],對每個子空間Xi,分別乘以WQ、Wk和WV,得到圖2 中的Qi、Ki和Vi。其中,將注意力矩陣轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布,softman( )用于計(jì)算Vi的權(quán)重。將各個子空間的注意力拼接,得到多頭注意力MA,如公式(3)所示。
圖2 Transformer編碼器的多頭注意力結(jié)構(gòu)
采用求和與歸一化層以殘差連接的方式,將網(wǎng)絡(luò)的輸入與多頭注意力網(wǎng)絡(luò)的輸出相加,避免深層網(wǎng)絡(luò)的梯度消失。在前饋網(wǎng)絡(luò)中,使用兩層線性全連接和線性整流函數(shù)(Linear Rectification Function,RELU)進(jìn)一步深化模型。
本研究使用的睡眠EEG 數(shù)據(jù)來自2021 全國智能睡眠科學(xué)大賽提供的6 名受試者的睡眠數(shù)據(jù)。其中包含3 名兒童睡眠數(shù)據(jù)和3 名成人睡眠數(shù)據(jù),共6237 個樣本。每個樣本包含30 s 的多通道EEG 信號。取兒童樣本和成人樣本共有的4 個EEG 通道:F3-M2、F4-M1、C3-M2、C4-M1,并下采樣至100 Hz。睡眠分期結(jié)果由專家按照AASM 標(biāo)準(zhǔn)進(jìn)行標(biāo)注,并作為標(biāo)簽來評估模型。受試者樣本數(shù)量分布如表1 所示。
表1 受試者睡眠樣本分布
單通道模型性能突出的AttnSleepNet 利用并行CNN 架構(gòu)提取單通道EEG 信號的特征,并利用因果卷積和時(shí)間前后文編碼來捕捉時(shí)間相關(guān)性[9]。EEGNet[19]利用深度卷積和可分離卷積提取EEG 特征,從而能對多通道EEG 信號進(jìn)行分析。由于缺少多通道睡眠分期模型作為對比方案,本研究將EEGNet 特征提取模塊的卷積核進(jìn)行調(diào)整,改造成適用于多通道的睡眠分期模型EEGNet-Sleep[20]。
采用留一法開展實(shí)驗(yàn):選取1 名受試者整晚的睡眠(0:00—8:00)數(shù)據(jù)作為測試集,其他受試者的睡眠數(shù)據(jù)作為訓(xùn)練集。對于多通道模型,將多個EEG 通道共同輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練,計(jì)算其準(zhǔn)確率、訓(xùn)練時(shí)間、內(nèi)存消耗等性能指標(biāo),根據(jù)這些性能指標(biāo)選擇神經(jīng)網(wǎng)絡(luò)超參數(shù)。選擇自適應(yīng)矩估計(jì)(Adaptive Momentum Estimation,Adam)作為優(yōu)化器,學(xué)習(xí)率設(shè)置為5e-5,每次訓(xùn)練的batch size 大小設(shè)置為256,訓(xùn)練500 輪。以準(zhǔn)確率作為性能評估的標(biāo)準(zhǔn),如公式(4)所示。
其中,TP為正確預(yù)測類別的個數(shù),F(xiàn)N為預(yù)測錯誤的個數(shù),i∈{W,N1,N2,N3,REM}。
單通道模型無法處理多通道數(shù)據(jù),而多通道模型能夠向下兼容,因此首先將AMCSleepNet 的通道數(shù)設(shè)為1,在數(shù)據(jù)集的每個EEG 通道分別訓(xùn)練網(wǎng)絡(luò)并進(jìn)行對比,不同通道睡眠分期準(zhǔn)確率如圖3 所示。由圖3 可知,AMCSleepNet 在各個通道上相較于AttnSleepNet 均有提升,且在F4-M1 通道上的提升最明顯,睡眠分期準(zhǔn)確率平均提升6.30%,在SA0 上相較于AttnSleepNet 提升了12.51%,結(jié)果表明AMCSleepNet 模型在單通道數(shù)據(jù)上已經(jīng)具有更好的睡眠分期效果,能夠捕捉到不同通道的信息。
圖3 AttnSleepNet與AMCSleepNet不同通道的睡眠分期準(zhǔn)確率對比
為驗(yàn)證AMCSleepNet 與多通道EEG 數(shù)據(jù)結(jié)合是否能提升睡眠分期效果,采用留一法,將其與EEGNetSleep 在多通道數(shù)據(jù)集上分別進(jìn)行訓(xùn)練和測試,并與兩種單通道最佳結(jié)果進(jìn)行對比。AttnSleepNet 的最優(yōu)通道是C3-M2,AMCSleepNet 的最優(yōu)通道是F4-M1,具體結(jié)果如表2 所示。AMCSleepNet對各期的分類準(zhǔn)確率如表3所示。由表2可知,AMCSleepNet 相比于單通道方法和EEGNetSleep 方法在整體性能上有所提升。對比AttnSleepNet 的最優(yōu)單通道模型提升了5.69%,對比EEGNetSleep 模型提升了11.06%。結(jié)果表明,利用多通道EEG 數(shù)據(jù),能夠提升睡眠分期的平均準(zhǔn)確率。由表3 可知,AMCSleepNet 對于W 期的分類效果最優(yōu),而對N1 期的分類效果最差,結(jié)合原始數(shù)據(jù)表1 分析,N1 期的樣本數(shù)過少,使模型對其分析存在明顯的不足。
表2 模型在不同受試者上的睡眠分期準(zhǔn)確率(%)
表3 多通道AMCSleepNet針對不同睡眠期的準(zhǔn)確率(%)
綜合以上實(shí)驗(yàn)結(jié)果可知,受試者SC1 的睡眠分期效果最好,幾種模型均能達(dá)到較高的分期準(zhǔn)確率,因此以受試者SC1 為例,對比了真實(shí)標(biāo)簽、AttnSleepNet 最優(yōu)通道和AMCSleepNet 多通道的結(jié)果,結(jié)果如圖4 所示,圖中局部區(qū)域比對可知,AMCSleepNet 在N3 期的分類效果較好,與表3 中結(jié)果一致,而AttnSleepNet 在該狀態(tài)的分類效果不佳。整體來看,AMCSleepNet 多通道的分類結(jié)果與專家標(biāo)注的結(jié)果一致性更高。
圖4 受試者SC1睡眠分期結(jié)果對比
本研究提出的AMCSleepNet 與單通道方法AttnSleepNet[9]相比,利用并行的多個分支對EEG 數(shù)據(jù)的每個通道進(jìn)行特征提取,提升了臨床數(shù)據(jù)的利用率。在注意力機(jī)制的幫助下,模型關(guān)注多通道的特征結(jié)構(gòu),通過SE 方法自適應(yīng)的學(xué)習(xí)不同通道的注意力權(quán)重,從而有效地融合不同通道的時(shí)頻特征。在多通道特征融合之后AMCSleepNet 采用Transformer 來替換前人研究中采用的LSTM方案[7],其中多頭注意力挖掘特征的時(shí)間前后相關(guān)性,關(guān)注特征序列中更有區(qū)分性的特征,同時(shí)減少了模型訓(xùn)練時(shí)間。在實(shí)驗(yàn)過程中,參考以往研究[8],采用了LOSO 的訓(xùn)練策略,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來自不同受試者,由此體現(xiàn)模型跨受試者的分類能力。從實(shí)驗(yàn)結(jié)果來看,相較于單通道模型和多通道深度卷積模型,AMCSleepNet 提升了睡眠分期的準(zhǔn)確率。由于受試者之間的個體差異對模型的泛化能力要求較高,且不同睡眠時(shí)期的樣本量差異也會對準(zhǔn)確率產(chǎn)生影響,未來的研究應(yīng)進(jìn)一步關(guān)注個體差異與類別均衡,探究跨個體的遷移學(xué)習(xí)方法和不同數(shù)據(jù)量對模型的影響。
本研究針對多通道睡眠分期問題,提出了基于深度學(xué)習(xí)的多通道腦電信號睡眠分期方法AMCSleepNet,該方法利用多分支卷積網(wǎng)絡(luò)提取不同通道的腦電信號的時(shí)頻域特征,使用壓縮聚合網(wǎng)絡(luò)和殘差網(wǎng)絡(luò)進(jìn)行特征融合,通過Transformer 編碼挖掘融合特征的時(shí)間相關(guān)性。在2021 全國智能睡眠科學(xué)大賽提供的6 名受試者睡眠樣本上,采用留一法進(jìn)行交叉訓(xùn)練和測試,與基于注意力的單通道深度神經(jīng)網(wǎng)絡(luò)模型AttnSleep 相比,本研究提出的方法在各個通道的分類準(zhǔn)確率平均提升了5.69%。利用多通道數(shù)據(jù),與基于深度卷積的多ssss 通道模型EEGNet-Sleep 相比,分類準(zhǔn)確率提升了11.06%。表明本研究的模型對單通道或多通道數(shù)據(jù)均有更好的分類能力。臨床睡眠期間采集的多通道EEG 數(shù)據(jù)相比于單通道數(shù)據(jù)具有更多睡眠狀態(tài)信息,從而提升了睡眠分期的準(zhǔn)確率,具有潛在的應(yīng)用價(jià)值。