鐘博,王鵬飛,王乙喬,王曉玲
(華東師范大學 計算機科學與技術學院,上海 200062)
腦電數(shù)據(jù)是由在大腦放置的測量電極所記錄到的電生理信號,反映大腦神經(jīng)元的離子電流產(chǎn)生的電壓波動,常作為觀測大腦內(nèi)部自發(fā)電生理活動的研究媒介.根據(jù)電極放置形式的不同,腦電數(shù)據(jù)可以分為非侵入式與侵入式2 種類型.其中,頭皮腦電(electroencephalography,EEG)是典型的非侵入式腦電數(shù)據(jù),通過參照不同的坐標體系,在頭皮表面的固定位置放置干電極或濕電極,同步記錄顱內(nèi)深層信號在頭皮的表現(xiàn).EEG 數(shù)據(jù)作為重要的時序信號,為深入理解腦功能、改善疾病診斷提供了關鍵的技術支持.基于深度學習的EEG 數(shù)據(jù)分析在推動腦機接口技術(brain-computer interface,BCI)、個性化醫(yī)療和腦機智能發(fā)展方面具有關鍵作用.在實際中,非侵入式的頭皮腦電數(shù)據(jù)具有無創(chuàng)、易獲取的優(yōu)點,因此擁有大量的相關研究及公開的數(shù)據(jù)集資源.本文將集中于介紹基于深度學習的EEG 數(shù)據(jù)相關分析工作,對其進行梳理與總結.
對于EEG 相關的概念和工作,已有許多綜述研究給出了全面的梳理.Hosseinu 等[1]介紹了機器學習在EEG 信號處理中的應用,包括傳統(tǒng)的支持向量機、K-近鄰算法、樸素貝葉斯等方法的應用,但沒有兼顧到大量取得更優(yōu)性能的深度學習算法的討論.Jiang 等[2]從去除EEG 信號的偽影和解決EEG 模型泛化性的角度進行討論,使得該篇綜述在技術細節(jié)方面更加細致,然而對于初入門的研究人員來說,這種細致的梳理可能不利于他們從完整的流程視角去了解EEG 數(shù)據(jù)分析過程中需要考慮的挑戰(zhàn).與之形成對比的是,Zhang 等[3]從更全面的視角介紹了腦機接口(brain-computer interface,BCI)信號的由來及應用,以及卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)、生成對抗網(wǎng)絡(generative adversarial network,GAN)等主流深度學習算法與腦電任務場景的結合形式.Zhang等[3]的工作沒有顯式地遵循EEG 信號分析所涉及的閉環(huán)工作流程進行文獻梳理,而是將重點放在了不同BCI 信號種類的劃分及深度學習算法類別的劃分上.
與以往研究不同,本文側重于研究深度學習算法中EEG 數(shù)據(jù)分析的閉環(huán)分析流程.具體而言,本文分別對EEG 數(shù)據(jù)進行介紹,從深度學習在腦電數(shù)據(jù)的預處理、特征提取及模型泛化3 個關鍵階段的應用進行展開,包括各階段所存在的難點與挑戰(zhàn)以及深度學習算法在各階段提供的解決方案和成效.對于每個關鍵階段,對相關工作進行細分,比如將EEG 數(shù)據(jù)預處理細分為去噪和生成,在生成部分進一步細化為數(shù)據(jù)增強和信號轉換.
EEG 作為電生理信號記錄數(shù)據(jù),能夠反映顱內(nèi)神經(jīng)元產(chǎn)生的電生理活動.通常,在采集EEG信號時,記錄電極的放置會遵循約定好的數(shù)量和準則,以保證實驗結果的可復現(xiàn)性與可比較性.常見的電極放置準則包括10-20 國際標準導聯(lián)系統(tǒng)、10-05 國際標準導聯(lián)系統(tǒng)、BioSemi 系列等.以常用的10-20 國際標準導聯(lián)系統(tǒng)為例,該系統(tǒng)的基本假設如下:頭皮位置與其底層大腦結構之間存在一致的相關性[4].標準的10-20 系統(tǒng)總共包含19 顆記錄電極,每顆電極作為一個邏輯通道,記錄相應位置的EEG 信號數(shù)據(jù).
EEG 數(shù)據(jù)優(yōu)良的特性促使科研人員從EEG的理論研究延伸出多樣的應用場景,如疲勞檢測、癲癇預警、情感識別等.基于不同任務與科學實驗,誕生了豐富的EEG 公開數(shù)據(jù)集,包括睡眠EEG 數(shù)據(jù)集Sleep-EDF[5]、動作想象數(shù)據(jù)集PhysioNet[6]、情感識別數(shù)據(jù)集SEED IV[7]、DEAP[8]等,進一步吸引了大量研究工作的更迭與創(chuàng)新.
如圖1 所示的工作流程,EEG 數(shù)據(jù)分析需要面臨數(shù)據(jù)獲取、預處理、特征提取、模型泛化、智能設備應用幾個階段.數(shù)據(jù)獲取涉及不同腦電記錄設備的設計與選擇,智能設備應用涉及智能應用的設計與開發(fā),尚不在本文的研究范圍之內(nèi).本文著手于深度學習在EEG 數(shù)據(jù)預處理、特征提取、模型泛化3 大環(huán)節(jié)展開討論,分析其中存在的難點與挑戰(zhàn).
圖1 EEG 閉環(huán)分析流程Fig.1 Closed-loop EEG analysis process
1.2.1 預處理 EEG 預處理階段旨在消除信號中包含的干擾信號成分,即是“偽影”.信號中的偽影可能來自于環(huán)境噪聲、操作誤差或受試者本身的其他電生理信號等.它們往往在數(shù)據(jù)采集階段被一并記錄到原始數(shù)據(jù)中,對下游數(shù)據(jù)分析工作產(chǎn)生負面影響,降低了分析結果的準確率.根據(jù)產(chǎn)生方式,偽影可以被劃分為外部偽影和內(nèi)部偽影.外部偽影通常指外界不穩(wěn)定的測量環(huán)境中產(chǎn)生的噪聲和測量誤差.內(nèi)部偽影包括多種來自受試者自身其他電生理信號的干擾.常見的內(nèi)部偽影包括眼動信號(electro-oculography,EOG)、肌電信號(electromyography,EMG)、心電信號(electrocardiogram,ECG)等.這些電生理信號往往以一種或多種干擾同時出現(xiàn),與真實的EEG 信號相混合,它們的分布頻段與EEG 接近,難以通過固定頻段的濾波進行去除,增大了消除這些干擾信號的難度.
除了偽影干擾之外,在深度學習研究背景下,預處理階段還需要考慮數(shù)據(jù)分布不均衡的問題.由于EEG 記錄過程可能存在電極缺失,會導致所得數(shù)據(jù)在空間分布上的不均衡.另外,由于數(shù)量和位置固定,EEG 電極無法采集到大腦任意方位的信號,只能通過固定的采集點來收集電極周圍神經(jīng)元發(fā)出的電信號的聚合信號,導致了其低空間分辨率的劣勢.針對EEG 數(shù)據(jù)集的增強技術用以緩解特定場景下數(shù)據(jù)集分布不平衡帶來的負面影響.
1.2.2 特征提取 EEG 特征提取旨在計算出更好的表征或提取出與下游任務最相關的成分,以提高模型的分類準確率或回歸精度.基于信號本身的特性,針對EEG 特征需要從時域、頻域、空間域或聯(lián)合特征的角度進行考量.
作為一種時序信號,EEG 記錄到的大腦局部節(jié)律振幅隨時間的波動反映了潛在神經(jīng)元皮層網(wǎng)絡的可變功能狀態(tài)[9],因此需要從時域的角度考慮EEG 波形如何隨著時間的推移而變化或波動.為了更好地剝離EEG 信號中不同的頻率成分以便更細致地分析,常會利用傅里葉變換或小波變換算法將信號從時域變換至頻域進行考慮.如表1所示,EEG 信號的頻率波動范圍一般集中在每秒1~30 次,可被劃分為不同波段.如何利用EEG 中各波段的特性來指導下游任務分析,或挖掘不同波段間和未發(fā)現(xiàn)的波段間所具有的復雜特性是值得不斷探索的.
表1 EEG 頻段特征Tab.1 Characteristics of EEG frequency bands
從空間角度來看,位于頭皮不同位置的EEG 電極所記錄到的顱內(nèi)電生理活動存在顯著的差異,如δ 波常見于大腦顳葉和頂葉,γ 波通常位于體感皮層.根據(jù)不同區(qū)域所關聯(lián)的獨特功能,已有學者將大腦劃分為不同的腦功能區(qū).常見的腦功能區(qū)劃分方式包括默認模式網(wǎng)絡(default mode network,DMN)、突顯網(wǎng)絡(salience network,SN)、注意網(wǎng)絡(attention network,AN)等.通過計算在不同功能區(qū)所記錄到的信號之間的統(tǒng)計相關性,可以判定其是否具有功能性關聯(lián)(functional connectivity,F(xiàn)C)[10].在不同的BCI 任務中,特定大腦區(qū)域會產(chǎn)生特有的活躍現(xiàn)象.
隨著人們對BCI 應用需求的日益漸長及腦電數(shù)據(jù)本身的復雜特性,僅從某一個單獨域建模信號特征往往無法滿足對實驗準確度的需求.如何更好地結合時域、頻域、空間特征以及與下游任務相關聯(lián)的特定領域知識進行聯(lián)合建模分析,以達到不同特征間的互補,進而在預期結果的表現(xiàn)上得到質(zhì)的提升是復雜而有價值的挑戰(zhàn).
1.2.3 模型泛化 由于EEG 數(shù)據(jù)集的構成通常涉及不同的受試者、不同采集設備、不同測試任務等因素的影響,導致不同源數(shù)據(jù)或同源數(shù)據(jù)內(nèi)部的顯著差異.對于基于數(shù)據(jù)驅動的研究方式,這一情況帶來的負面影響主要體現(xiàn)在通過訓練集優(yōu)化所得的模型無法很好地適應現(xiàn)實場景下的多源、多分布的真實EEG 數(shù)據(jù),導致大多數(shù)基于EEG 的BCI 模型在實際運用中的效果無法達到在實驗室中的測試精度.如何利用先進的深度學習算法從先驗角度設計更合理的模型架構,或通過在線優(yōu)化模型參數(shù)的方式對未知的樣本進行適應,從而跨越實驗數(shù)據(jù)與真實應用場景下樣本分布間的鴻溝,成為擺在研究者們面前的一大難點.
EEG 數(shù)據(jù)采集過程中伴隨著肌肉運動、電干擾和電極松動等不確定因素帶來的噪聲干擾,這些噪聲使信號分類和神經(jīng)系統(tǒng)疾病診斷成為瓶頸[2].EEG 數(shù)據(jù)去噪已成為生物醫(yī)學數(shù)據(jù)處理領域的重要研究課題.Salis 等[11]對經(jīng)驗模態(tài)分解(empirical mode decomposition,EMD)、離散小波變換(discrete wavelet transform,DWT)和卡爾曼濾波(Kalman filtering,KF)進行比較研究,從腦電圖中去除不同振幅的EOG 偽影,但利用這些傳統(tǒng)方法無法充分捕捉EEG 中的復雜特征.如表2 所示,深度神經(jīng)網(wǎng)絡可以捕捉EEG 中神經(jīng)振蕩的特征,消除來自生物偽影的波動,如Zhang 等[12]構造干凈EEG 和帶有EOG 和EMG 偽影的數(shù)據(jù)集,使用基于深度網(wǎng)絡的EEGdenoiseNet,通過有監(jiān)督的方式進行端到端的訓練,對EOG 和EMG 偽影進行去噪.Brophy 等[13]基于GAN,生成器從有噪聲的EEG 訓練數(shù)據(jù)中進行采樣去噪,并將其與相應的干凈EEG 信號輸入鑒別器中進行比較.由于EEG信號的幅度沒有固定的范圍,傳統(tǒng)的圖像濾波方法可能無法直接應用于EEG 信號去噪,因此An 等[14]引入樣本熵和基于能量閾值的數(shù)據(jù)歸一化方法,將圖像恢復的思想應用于腦電信號去噪.
表2 基于深度學習的EEG 信號去噪方法Tab.2 EEG signal denoising method based on deep learning
EEG 信號容易受到不同偽影的影響,這對后續(xù)的信號分析和神經(jīng)系統(tǒng)疾病的診斷造成了干擾,因此去噪是重要的研究方向.雖然現(xiàn)有的深度學習技術在處理EEG 信號中的常見偽影方面表現(xiàn)出一定的競爭力,但隨著腦機接口技術的發(fā)展,未來可能會面臨更加復雜和多樣化的偽影情況.例如對可穿戴設備采集得到的連續(xù)、低信噪比的EEG 信號進行快速去噪是具有挑戰(zhàn)性但值得探索的方向.在未來的研究中,可以考慮從以下幾個方面來提高深度學習技術在處理復雜偽影方面的能力.1)數(shù)據(jù)集的多樣性:構建更加多樣化和真實的EEG 數(shù)據(jù)集,包括各種類型的偽影,例如同時包含EOG 偽影、EMG 偽影、ECG 偽影等,以便深度學習模型可以在更加復雜和真實的場景中進行訓練和驗證.2)實時性的考慮:針對BCI 應用中對實時性要求高的場景,可以研究如何在短時間內(nèi)進行快速去噪,例如引入在線學習和增量學習技術.
數(shù)據(jù)生成的第一個應用場景為數(shù)據(jù)增強.在實際研究中,由于EEG 數(shù)據(jù)采集的設備成本、時間成本及操作中不可避免的數(shù)據(jù)缺失等問題,能夠被研究者利用的數(shù)據(jù)往往較少,不足以支撐足夠有說服力的研究.為了提升數(shù)據(jù)量及數(shù)據(jù)質(zhì)量,如表3 所示,近年來基于深度網(wǎng)絡模型的EEG 數(shù)據(jù)生成工作不斷涌現(xiàn).
表3 基于深度學習的EEG 信號生成方法Tab.3 EEG signal generating method based on deep learning
Hartmann 等[19]面對EEG 數(shù)據(jù)增強及恢復已損壞的數(shù)據(jù)段需求,針對WGAN-GP 訓練不穩(wěn)定、梯度消失這一缺陷進行改進,利用額外的可變伸縮系數(shù)來動態(tài)調(diào)節(jié)WGAN-GP 中的梯度懲罰項,使得判別器的梯度懲罰權重可以根據(jù)當前分布間的差距大小改變,穩(wěn)定了模型訓練過程,生成更高質(zhì)量的信號.針對EEG 數(shù)據(jù)增強這一應用場景,Corley 等[20]采用生成對抗網(wǎng)絡對EEG 進行逐通道生成.在臨床上,高空間分辨率的大腦活動記錄通常包含更多的認知活動信息,但記錄更高的空間分辨率需要更多的通道,意味著更高的設備成本.通過使用WGAN,可以從低分辨率的記錄中生成高空間分辨率EEG 數(shù)據(jù).
腦電生成的另一應用場景為信號轉換,即使用一種模態(tài)的腦電信號生成另一種模態(tài)的腦電信號.比如由無創(chuàng)、低空間分辨率、噪聲較多的頭皮腦電數(shù)據(jù)生成侵入式、高空間分辨率、噪聲較少的顱內(nèi)腦電(stereoelectroencephalogram,SEEG)數(shù)據(jù),使得轉換后模態(tài)的腦電信號包含更多的潛在大腦活動信息,有助于醫(yī)學診療任務.Antoniades 等[22]提出基于自編碼器(auto-encoder,AE)改進的深度學習模型,將EEG 信號作為輸入,最小化輸出與真實SEEG 信號間的交叉熵損失,實現(xiàn)由EEG 到SEEG 信號的生成.Hu 等[23]將EEG到SEEG 這一轉換任務分為兩大步驟.針對頭皮腦電電極與顱內(nèi)立體腦電電極之間映射關系的建立,提出兩階段的匹配策略,即同時考慮2 種電極所記錄到的信號間的相似性及2 顆電極間的物理距離,確定最合適的一對一電極匹配關系.使用幅度譜和瞬時頻率譜來表征信號,提出譜相關注意力模塊和加權預測模塊.前者能夠保證生成的SEEG 信號與輸入的EEG 信號之間具有關聯(lián)性,后者主要針對生成信號中的毛刺現(xiàn)象這一問題進行解決,有效應對了潛在的模式崩塌.
在研究資源匱乏的環(huán)境中使用深度學習技術進行EEG 數(shù)據(jù)增強,能夠進一步輔助數(shù)據(jù)驅動模型的下游開發(fā).但針對醫(yī)學工作,研究者更加關心腦電信號間的模態(tài)轉化,如上述的EEG 到SEEG 的轉換,如何考慮多對一,甚至是多對多的轉換映射,需要更加精細的建模技術和更多腦電領域知識的輔助.
基于1.2.2 節(jié)的幾種EEG 信號特征角度,本節(jié)介紹如何使用深度學習算法進行建模EEG 信號的特征,提升下游分類或回歸任務的準確性.EEG 作為時序信號,具有時序數(shù)據(jù)共有的特性,即當前時間步的狀態(tài)與歷史時間步存在關聯(lián).為了捕捉這種時序數(shù)據(jù)特有的特性,如表4 所示,Tsiouris 等[24]采用長短時記憶網(wǎng)絡(long short-term memory,LSTM)對EEG 進行建模,實現(xiàn)癲癇發(fā)作的預測.El-Fiqi 等[25]提出基于門控機制的自編碼器結構——門控層自編碼器(GLAE),以學習EEG 序列內(nèi)部不同變量間的內(nèi)在關聯(lián),能夠較好地應對EEG 變量缺失或被污染的情形.
表4 基于深度學習的EEG 時域特征提取方法Tab.4 Temporal feature extraction in EEG analysis based on deep learning
除了使用基于序列特性而設計的LSTM 或RNN 等序列模型之外,部分研究者選擇采用CNN 對EEG 的局部不變的時間特性進行建模.由于2-D 的CNN 卷積核具有提取二維特征的能力,采用CNN 結構的研究工作往往側重于將EEG 的時序特征結合其空間或頻域特征一同考慮,通過聯(lián)合建模2 種甚至多種特征的方式獲取更好的模型性能.Al-Marridi 等[26]設計基于CNN 的自編碼器結構,利用CNN 的下采樣操作對輸入的多條EEG 序列進行壓縮,以獲得維度更低、信息量比例更大的信號表示.Jiao 等[27]使用CNN 捕捉多通道EEG 序列中與圖像認知有關的隱向量特征,使其更接近于對應圖像所處的隱向量空間,從而在分類階段,利用EEG 表征彌補了認知域和視覺域之間的差距,對不同視覺刺激誘發(fā)的EEG 記錄進行分類.在視覺刺激生成階段,利用視覺引導的腦電圖表征來提高生成的性能.利用改進的GAN 模型,提高真實刺激的視覺表征與生成實例之間的一致性,從而提高生成圖像的主觀和客觀質(zhì)量,實現(xiàn)了從EEG 圖像認知特征生成對應視覺圖像的功能.Yao 等[28]從通道獨立和頻域特征圖像2 個角度展開研究,使用基于不同維度的CNN 卷積核構成的自編碼器,從2 種角度分別對EEG 的時頻、空間特征進行建模.
考慮到EEG 信號本質(zhì)上可以建模為高度動態(tài)、非線性的時間序列數(shù)據(jù),如表4 所示,上述工作引入基于深度學習的時序處理模型來捕獲EEG 的時序特征和電極與電極之間的內(nèi)在關聯(lián)特征,輔助下游任務.大部分工作都是將輸入的EEG 信號預處理為長度相等的序列,且假設EEG 信號片段之間是相互獨立的,這樣不僅會破壞信號之間的連續(xù)性,也在一定程度上降低了模型的實用性.
在獲取EEG 信號的頻域特征方面,傳統(tǒng)工作往往通過時頻變換算法將原始信號變換至頻域進行研究,常用的變換包括傅里葉變換、小波變換.基于這種頻域表征,可以提取功率譜密度(power spectral density,PSD).基于某一頻段的功率譜特征,可以計算出差分熵(differential entropy,DE)特征.除此之外,濾波器組共空間模式(filter-bank common spatial pattern,F(xiàn)BCSP)、雙線性判別成分分析(bilinear discriminant component analysis,BDCA)算法也被用于提取腦電信號中不同頻率的成分.
如表5 所示,基于腦電固有的頻段特征,Yu等[30-31]將原始信號分解至δ、θ、α 等子波段,在子波段依次提取特征后再進行融合.Yu 等[30]提出新的分類框架,將不同波段特征向量進行拼接,輸入卷積神經(jīng)網(wǎng)絡,能夠客觀識別強直性冷痛狀態(tài).Prasanth 等[31]在癲癇檢測任務上,采用CNN架構,將原始 EEG 和頻率子波段作為輸入特征,對不同的輸入特征組合進行性能評估.
表5 基于深度學習的EEG 頻域特征提取方法Tab.5 Frequency feature extraction in EEG analysis based on deep learning
在頻域分解與子波段選擇的角度,Shen 等[32-34]進行了進一步的創(chuàng)新.Shen 等[32]提出多尺度波段集成學習方法,實現(xiàn)基于EEG 信號的情緒識別.Miao 等[33]提出基于EEG 的情緒識別框架,能夠為每個受試者自適應地挑選最優(yōu)波段,在每個波段,分別應用相同的3 維深度殘差網(wǎng)絡架構提取特征,將不同波段的輸出進行融合,輸入softmax層得到最終的分類結果.Yao 等[34]將短期EEG 信號轉化為圖像,依次提取θ、α、β 3 種波段,計算這些波段平方絕對值的和,得到64×3 的矩陣.將每個波段視為RGB 中的一個通道,利用等距方位投影方法將64×3 的矩陣轉換為32×32×3 的圖像格式,然后使用基于CNN 的自編碼器進行特征提取.
Lawhern 等[36-37]采用卷積核,直接提取頻率特征.Lawhern 等[36]提出的EEGNet 將不同尺寸的CNN 卷積核看作是不同規(guī)格的信號濾波器,CNN 網(wǎng)絡沿著時間軸的卷積操作是從原始信號中提取不同頻率成分的過程.EEGNet 通過采用適應原始信號采樣頻率的卷積核尺寸來構建卷積神經(jīng)網(wǎng)絡.假設模型輸入為尺寸為(C,T)的多通道信號數(shù)據(jù),其中C 為通道數(shù),T 為序列長度.Lawhern等[36]采用尺寸為(1,64)的2-D 卷積核,旨在捕獲原始信號中頻率≥2 Hz 的信號成分.通過尺寸為(C,1)的深度卷積核,讓模型可以學習到各個頻段內(nèi)不同通道之間的關聯(lián).為了清晰地分離所得特征圖內(nèi)部以及相互之間的關聯(lián)性,采用尺寸為(1,16)的2-D 卷積操作,然后是尺寸為(1,1)的逐點卷積操作.通過結合這兩種不同尺寸的卷積操作,模型能夠獨立地提取各個通道、各個頻段中最主要的特征,并通過逐點卷積對它們進行融合,完成最終的特征提取任務.Zhao 等[37]提出結合小波變換和空間濾波的卷積網(wǎng)絡,端到端地解碼EEG 信號.
采用頻域特征的另一優(yōu)勢是能夠消除相位偏移對時域特征的影響,尤其是考慮在EEG 信號上建立圖表示時,基于頻域表征建立的圖比基于時域信號建立的圖更具有魯棒性.比如,Wang 等[38]為EEG 的頻域表征建立圖表示,構建復雜網(wǎng)絡(complex network).
使用深度學習技術進行頻域特征提取,能夠避免手工設計特征的環(huán)節(jié),自動從原始信號中學習到與任務有關的頻域表示,近年來在癲癇發(fā)作檢測、情緒識別下游任務上展現(xiàn)了良好的性能與應用前景.目前的方法在頻域分解角度在一定程度上依賴于與任務有關的先驗知識;這些模型往往針對特定任務,在其他任務上的泛化性有待驗證;由于深度學習模型的黑盒性質(zhì),這些方法在可解釋性上存在不足.未來可以進一步考慮提升模型的泛化性,提取出更加通用、可解釋的頻域表示.
考慮到EEG 電極物理位置帶來的影響,如表6所示,從空間角度捕捉不同電極之間存在的信號傳播關系,能夠更好地從全局角度建模多通道EEG 信號的特性.
給定原始的多通道EEG 信號矩陣 X∈RC×T.為了建立多通道間的關聯(lián),Zhang 等[39]采用黎曼網(wǎng)絡架構,利用滿秩矩陣 W1對 X 進行雙線性插值通過對 X1進行特征值分解,可得由特征向量組成的矩陣 U1及其對應的特征值組成的對角矩陣 Λ1.使用預設閾值組成的對角矩陣 ζ替代 Λ1中較小的特征值,可得從而保證了所得矩陣的正定性質(zhì).為了將所得流形映射至更為平坦的空間,以便經(jīng)典的歐式空間計算得以應用,Zhang 等[39]對特征值進行對數(shù)運算后,將其作為空間特征提取的最終形式并輸出.
大腦結構可以根據(jù)功能性關聯(lián),劃分為不同的腦功能區(qū).利用這一醫(yī)學依據(jù)作為切入點,F(xiàn)ang 等[40]提出區(qū)域注意力卷積神經(jīng)網(wǎng)絡,將功能區(qū)的概念融入模型設計中,以更好地完成運動意圖識別的任務.
處理含有空間特性的數(shù)據(jù),更直觀的做法是將EEG 電極物理位置關系建模為圖結構.EEG 電極的空間布局符合圖結點的構建,每顆電極所記錄到的信號或由信號中所提取的特征可以作為每個結點所擁有的屬性.利用圖卷積網(wǎng)絡(graph convolutional network,GCN)在圖結構上提取特征的優(yōu)勢,可以捕捉到這種非歐式空間結構上的信息流動.基于這一建模思路,許多研究工作將重點放在如何為這些結點構建“邊”的關系以及如何為結點賦予具有任務相關含義的屬性研究上.
Zhong 等[41]基于不同腦區(qū)活動間的關聯(lián)性隨物理距離呈現(xiàn)平方反比變化的假設,定義EEG 通道間的圖結構,設無向無環(huán)圖的鄰接矩陣為A∈RC×C,定義結點邊權重為其中 dij為第 i 和 j個E 通道間的物理距離.通過控制非負超參 δ的取值,篩去了20%關聯(lián)性較小的邊.對于情感識別任務,Schmidt 等[42-43]的研究表明,左、右半腦神經(jīng)元的非對稱性活動能夠提供豐富的識別信息.為了建模這一先驗知識,研究者通過修改鄰接矩陣對應邊的權重,對由經(jīng)驗性實驗結果選定的分布于左、右半腦側向的電極對之間搭建全局連通路徑 Aij=Aij-1,其中 i j表示選定的電極對.采用每個通道所記錄的EEG 片段的差分熵作為結點的屬性,利用簡單圖卷積網(wǎng)絡完成對定義的圖結構的特征提取.
通過預設方式構建的圖結構往往是靜態(tài)的.靜態(tài)圖結構不依賴于輸入信號的變化,而是依賴于先驗知識的正確性,因此受制于靜態(tài)結構的不變性.為了適應可能來自不同受試者、不同會話情形的EEG 片段,Song 等[44,46]考慮動態(tài)地構建圖結構.Song 等[44]提出實例適應性圖連接算法,通過可優(yōu)化的參數(shù)矩陣學習EEG 的空間關聯(lián)及頻域特征關聯(lián),實現(xiàn)動態(tài)建立鄰接矩陣的目標.
結合文獻[43,44] 的優(yōu)點,Li 等[46]通過分析EEG 在時域、頻域及空間3 種角度的特點,針對情感識別任務,采用靜態(tài)及動態(tài)2 種構圖方式.采用皮爾森相關系數(shù),計算不同EEG 通道記錄所得信號間的時序相關性,作為建立結點邊的依據(jù).根據(jù)人為設定的閾值,篩選出與情感識別任務最相關的若干條邊,構建靜態(tài)的功能性腦連接圖.
EEG 中的空間信息通??梢苑从掣暾拇竽X狀態(tài),如表6 所示,現(xiàn)有的研究將來自時域、頻域和大腦功能連接的EEG 信息進行融合,在下游任務尤其是情緒識別上取得了很好的效果.基于數(shù)據(jù)驅動學習到的腦功能連接拓撲結構在一定程度上能夠反映功能性大腦連接與認知缺陷疾病的多種心理生理障礙有關,未來可以進一步輔助疾病的治療,如輔助抑郁癥的診斷.已有的生物學實驗表明,大腦信號的不穩(wěn)定是大腦區(qū)域連接的變化所導致的,這種神經(jīng)脆弱性導致癲癇發(fā)病.基于脆弱性理論和線性動力系統(tǒng),利用生成模型動態(tài)模擬癲癇發(fā)作間期每個電極通道如何影響其他電極,通過得出的每個電極的神經(jīng)脆弱性,輔助癲癇的診斷和指導患者的手術治療[47],值得未來進一步挖掘.EEG 數(shù)據(jù)并非僅僅局限于時頻和空間域,其中蘊含了許多個性化信息和生物信息,如何將這些信息融入深度學習模型中,是未來可以思考的.
EEG 數(shù)據(jù)是由大腦產(chǎn)生的電信號采集得來的,它具有高度的個體差異性和時空特異性.相較于傳統(tǒng)的手動特征提取和機器學習方法,基于深度學習的EEG 處理模型可以在充足的訓練數(shù)據(jù)下獲得良好的效果,減少人工分析的成本.由于深度學習模型依賴于數(shù)據(jù)的驅動,過度依賴訓練數(shù)據(jù)容易導致過擬合問題,降低模型的泛化性能.如表7 所示,近年來,許多研究采用域自適應技術,降低不同受試者、不同設備、多視圖和多模態(tài)等因素對EEG 數(shù)據(jù)的影響,使得模型能夠更好地捕捉EEG 的共性特征,提高泛化性能.本節(jié)按照性能泛化的不同訓練目標,對近年來的相關工作進行梳理.
表7 基于深度學習的EEG 模型泛化方法Tab.7 Deep learning based EEG model generalization methods
對于跨受試者,Kostas 等[48]認為不同個體之間的EEG 數(shù)據(jù)存在一定的差異性.受Bert[49]的啟發(fā),Kostas 等[48]使用自監(jiān)督訓練目標來學習原始EEG 信號的表示,從而有效利用大量未標記的EEG 數(shù)據(jù).
針對睡眠分類任務,為了學習與個體無關的睡眠特征,Jia 等[50]將域泛化方法與時空圖卷積網(wǎng)絡集成到統(tǒng)一的框架中.依賴于單任務學習,可能導致過擬合,學習到的特征缺乏泛化性.受到多任務學習的啟發(fā),可以結合不同的自監(jiān)督任務來提高模型的泛化能力以及模型對噪聲標簽的處理能力.為了提高模型的泛化能力,利用EEG數(shù)據(jù)特性來提高表征學習的質(zhì)量,解決噪聲標簽帶來的問題.Li 等[51]采用基于圖的多任務自監(jiān)督模型GMSS.通過空間拼圖任務,研究不同腦區(qū)的空間功能連接;采用頻率拼圖任務,捕獲對下游任務較重要的頻帶,通過對比學習,提高同一EEG片段的不同增強數(shù)據(jù)之間的一致性.
使用相互影響的多個視圖來建模有效的表示具有挑戰(zhàn)性.Kumar 等[52]提出多視圖自監(jiān)督學習方法mulEEG 用于EEG 表征學習,聯(lián)合訓練時間視圖編碼器和頻譜視圖編碼器,該方法有效利用多視角之間的互補信息來學習更好的表征,提出diverse loss 促進多視角信息互補.
基于耳部的EEG 睡眠監(jiān)測在舒適性和便攜性方面具有明顯的優(yōu)勢,但Mikkelsen 等[53]的工作表明,基于耳朵EEG 的睡眠分級的性能不如基于頭皮EEG 的睡眠分級.為了解決頭皮EEG 和基于耳朵E E G 的睡眠分級之間的性能差距,Anandakumar 等[54]采用跨模態(tài)知識提取的蒸餾策略,迫使模型學習到的耳朵EEG 特征表示與頭皮EEG 特征表示盡量相似,以提高基于耳朵EEG 的睡眠分級的性能.
針對數(shù)據(jù)集間動力學的巨大差異、語義信息的不同、不規(guī)則的采樣、系統(tǒng)因素(不同設備或受試者)等,Zhang 等[55]提出時頻一致性策略.具體來說,假設 xi為信號序列,F(xiàn) 為滿足TF-C 的模型,則經(jīng)過F 后,基于時間的信號特征表示和基于頻率的信號特征表示以及 xi局部增強后得到的表示,在高維特征空間中應該彼此接近.
通過各種域自適應、自監(jiān)督和遷移學習技術,可以將在源域EEG 數(shù)據(jù)集上訓練的模型轉移到目標域的分析工作中.當處理更復雜的腦電信號數(shù)據(jù),如更具有個體特性的SEEG 數(shù)據(jù)時,域之間的數(shù)據(jù)結構和動態(tài)時間結構不同,導致時間和頻率表示中的特征有偏移,因此可轉移性變得更具有挑戰(zhàn)性.源域和目標域中的EEG 數(shù)據(jù)可能具有截然不同的標簽分布,這使得模型泛化很難緩解標簽偏移并識別僅存在于目標域的信號類別.
盡管目前基于深度學習的EEG 數(shù)據(jù)分析已經(jīng)有非常豐富的研究工作,但是存在許多挑戰(zhàn).
1)數(shù)據(jù)人工采集與標注困難.與計算機視覺、自然語言處理領域相比,EEG 數(shù)據(jù)采集的難度更大,需要專業(yè)人士使用專業(yè)工具進行收集,還要考慮采集過程中的一系列隱私和倫理問題.有標注的EEG 數(shù)據(jù)集更稀缺,導致大模型的訓練樣本不夠,限制了大規(guī)模通用腦電模型的發(fā)展.
2)模型的通用性.雖然許多工作都在討論解決EEG 分析的深度模型的泛化性,引入遷移學習、知識蒸餾、預訓練等前沿技術,但缺少客觀上的領域一致性標準,無法實現(xiàn)模型的通用性,尤其是在一些非常規(guī)領域的分析中.
3)模型的可解釋性.相比于下游任務上的表現(xiàn)性能,醫(yī)學研究者更加關注大腦工作原理的挖掘與驗證,而現(xiàn)有的深度學習模型在一定程度上都可以視為黑盒模型,即僅能完成對目標任務的判斷,無法輔助醫(yī)學研究者進行大腦動態(tài)活動的分析.
綜上所述,基于深度學習的EEG 分析的未來方向主要包括以下3 個方面.
1)遷移學習和預訓練.利用遷移學習技術和預訓練模型,基于現(xiàn)有的已標注EEG 數(shù)據(jù)集或在類似任務上訓練的模型,通過轉移源域上的知識,可以減少對大量人工標注的需求.將預訓練模型微調(diào)或自適應到特定的EEG 任務,可以提高數(shù)據(jù)標注和數(shù)據(jù)分析的效率.
2)融入多模態(tài)數(shù)據(jù).腦電信號數(shù)據(jù)并非僅局限于EEG,還有如SEEG、功能性磁共振成像(functional magnetic resonance imaging,fMRI)多種模態(tài)的數(shù)據(jù)都可以融合到模型中,從而優(yōu)化模型的性能,提高模型的泛化性.腦電數(shù)據(jù)的產(chǎn)生伴隨著視覺刺激、聽覺刺激、嗅覺刺激等多個方面,引入這些多模態(tài)信息,能夠更好地捕獲大腦在不同刺激下的反應模式,提高模型的通用性.
3)結合神經(jīng)科學領域知識.神經(jīng)學理論對基于深度學習的EEG 模型設計具有很強的啟發(fā)性和指導性.比如腦功能區(qū)域劃分、神經(jīng)脆弱性理論,可以引入這些領域知識對模型進行輔助及解釋.
本文按照EEG 數(shù)據(jù)分析的閉環(huán)分析流程,梳理了深度學習在EEG 數(shù)據(jù)的預處理、特征提取和模型泛化方面的工作,討論每個階段的研究挑戰(zhàn)和未來發(fā)展方向,提供指導性意見,供未來的研究人員參考.
盡管基于深度學習的EEG 數(shù)據(jù)分析取得了顯著的進展,但存在一些挑戰(zhàn)和未來的研究方向.深度學習方法需要大量的標注數(shù)據(jù)進行訓練,EEG 數(shù)據(jù)的標注通常是耗時且費力的任務.如何有效利用有限的標注數(shù)據(jù),提高模型的性能和泛化能力是重要問題.深度學習模型在解釋性方面仍存在困難,很難解釋模型的決策過程和特征提取過程,這極大限制了深度學習在臨床實踐和科學研究中的應用.此外,數(shù)據(jù)隱私和安全性是深度學習在EEG 數(shù)據(jù)分析技術中需要考慮的重要問題.