黃偉坤 謝偉
摘要:針對(duì)基于發(fā)音想象的腦機(jī)接口樣本數(shù)據(jù)數(shù)量小、數(shù)據(jù)噪聲大,導(dǎo)致模型泛化能力差的問題,提出一種基于跨模態(tài)信息遷移的發(fā)音想象腦電信號(hào)分類方法。該方法通過知識(shí)蒸餾,將音頻模態(tài)信息遷移到腦電模態(tài),從而提高模型的泛化能力;通過多尺度學(xué)習(xí)來(lái)提高模型性能。在數(shù)據(jù)集Kara One中,兩個(gè)二分類任務(wù)的AUC分別為68.28%和69.53%。實(shí)驗(yàn)結(jié)果表明,該方法有效地提高了模型的性能。
關(guān)鍵詞:發(fā)音想象;腦機(jī)接口;跨模態(tài);知識(shí)蒸餾;信息遷移
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A文章編號(hào):1674-2605(2023)03-0004-06
DOI:10.3969/j.issn.1674-2605.2023.03.004
Classification Method of EEG Signals of Pronunciation in Imagined Based on CrossModal Information Transfer
HUANGWeikun XIE Wei
(Guangdong University of Technology, Guangzhou 510006, China)
Abstract:Aiming at the problem that the datasets of brain-computer interface based on pronunciation in imagined is small and the data noise is loud, which leads to the poor generalization ability of the model, a classification method of EEG signals of pronunciation in imagined based on crossmodal information transfer is proposed.In this method, the audio modal information is transferred to the EEG modality by knowledge distillation, so as to improve the generalization ability of the model.The method also improves the performance of the model through multi-scale learning. In the dataset Kara One, the AUC of two binary classification tasks is 68.28% and 69.53%, respectively.Experimental results demonstrate that this method effectively enhances the performance of the model.
Keywords:pronunciationin imagined; brain-computer interface; crossmodal; knowledge distillation; information transfer
0 引言
基于發(fā)音想象的腦機(jī)接口能夠幫助語(yǔ)言障礙患者與外界方便地溝通,受到人們廣泛關(guān)注,具有廣闊的應(yīng)用前景[1-2]。目前,可用于腦機(jī)接口的腦信號(hào)主要有腦電圖(electroencephalogram, EEG)、近紅外光譜、腦磁圖、磁共振成像等。相比于其他腦信號(hào),EEG具有采集安全方便、時(shí)間分辨率高且成本低等特點(diǎn),但其中含有多種偽跡和噪聲,且目前基于發(fā)音想象的腦機(jī)接口數(shù)據(jù)樣本較少。在噪聲干擾大且訓(xùn)練樣本少的
情況下,現(xiàn)有的機(jī)器學(xué)習(xí)模型無(wú)法取得較好的泛化性能,容易出現(xiàn)過擬合現(xiàn)象。
為此,本文提出一種基于跨模態(tài)信息遷移的發(fā)音想象腦電信號(hào)分類方法,通過多模態(tài)協(xié)同學(xué)習(xí)的方式,將一種模態(tài)數(shù)據(jù)(音頻信號(hào))中學(xué)習(xí)到的知識(shí)遷移到另一種模態(tài)數(shù)據(jù)(腦電信號(hào))中,即通過知識(shí)蒸餾的方法將音頻模態(tài)數(shù)據(jù)與腦電模態(tài)數(shù)據(jù)的關(guān)聯(lián)信息從教師網(wǎng)絡(luò)(雙流架構(gòu),包括音頻數(shù)據(jù)、腦電數(shù)據(jù))遷移到學(xué)生網(wǎng)絡(luò)(單流架構(gòu),只有腦電數(shù)據(jù))。
1跨模態(tài)信息遷移方法
2015年加拿大多倫多大學(xué)的ZHAO等[3]提出基于深度置信網(wǎng)絡(luò)(deepbelief network, DBN)的發(fā)音想象腦電信號(hào)分類方法,先提取EEG的經(jīng)驗(yàn)特征,再將這些經(jīng)驗(yàn)特征作為DBN的輸入對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;雖然采用了多模態(tài)數(shù)據(jù)融合的方法,但沒有采用跨模態(tài)信息遷移的方法,導(dǎo)致模型在預(yù)測(cè)時(shí)需使用多個(gè)模態(tài)數(shù)據(jù),無(wú)法僅使用EEG單模態(tài)數(shù)據(jù)進(jìn)行預(yù)測(cè)。2019年加拿大不列顛哥倫比亞大學(xué)的SAHA等[4]提出一種新的分層深度神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)由空間和時(shí)間卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork, CNN)分層組合后再與深度自編碼器級(jí)聯(lián)而成,利用6個(gè)語(yǔ)音類別(如鼻音、雙唇音)的預(yù)測(cè)發(fā)音信息作為音素和單詞分類的中間步驟,找到負(fù)責(zé)自然語(yǔ)音合成的辨別信號(hào);但僅使用了腦電信號(hào)這一單模態(tài)信息進(jìn)行實(shí)驗(yàn)。2020年馬什哈德醫(yī)科大學(xué)的BAKHSHALI等[5]提出基于相關(guān)熵譜密度黎曼距離的發(fā)音想象腦電信號(hào)分類方法,對(duì)來(lái)自不同通道腦電信號(hào)的相關(guān)熵譜密度(correntropy spectral density, CSD)矩陣進(jìn)行估計(jì),并將這些矩陣之間的距離作為語(yǔ)音識(shí)別的度量,但僅使用腦電信號(hào)這一單模態(tài)信息進(jìn)行實(shí)驗(yàn)。
綜上所述,現(xiàn)有的發(fā)音想象腦電信號(hào)分類方法,
沒有利用其他模態(tài)(如音頻信號(hào))與腦電模態(tài)的關(guān)聯(lián)信息幫助單一模態(tài)(腦電信號(hào))模型進(jìn)行訓(xùn)練,在小樣本的情況下容易出現(xiàn)過擬合。為此,本文提出一種基于跨模態(tài)信息遷移的發(fā)音想象腦電信號(hào)分類方法。該方法自適應(yīng)地提高更具判別力的特征在局部近鄰關(guān)系計(jì)算中的權(quán)重,并集成不同batch size的知識(shí)蒸餾模型,能夠更加充分地從多模態(tài)教師網(wǎng)絡(luò)遷移潛在的特征分布信息來(lái)監(jiān)督單模態(tài)學(xué)生網(wǎng)絡(luò)的訓(xùn)練,進(jìn)一步緩解小樣本問題的影響,提高分類模型的泛化能力。
本文改進(jìn)了CHEN等[6]提出的局部性保留損失(locality preserving loss, LP)的知識(shí)蒸餾方法。CHEN等通過保持學(xué)生、教師網(wǎng)絡(luò)特征空間樣本的拓?fù)潢P(guān)系一致性,增強(qiáng)學(xué)生網(wǎng)絡(luò)學(xué)習(xí)。但該方法在計(jì)算教師網(wǎng)絡(luò)特征空間樣本的近鄰關(guān)系時(shí),沒有考慮信噪比的高低特征對(duì)近鄰關(guān)系計(jì)算的重要程度差異。另外,由于網(wǎng)絡(luò)訓(xùn)練采用小批量梯度下降法,樣本近鄰關(guān)系并不是在所有的訓(xùn)練樣本中計(jì)算,而是在隨機(jī)批次中計(jì)算,因此在不同大小的batch size中,樣本近鄰關(guān)系的尺度不一樣。如,基于t-SNE的教師網(wǎng)絡(luò)隱含層樣本近鄰分布可視化圖如圖1所示,圖中三角形和圓圈散點(diǎn)分別對(duì)應(yīng)不同發(fā)音想象任務(wù)的腦電樣本。
由圖1可以看出,在不同batch size訓(xùn)練的教師網(wǎng)絡(luò)特征空間中,樣本間的近鄰?fù)負(fù)潢P(guān)系不一樣。當(dāng)batch size較大時(shí),更多地考慮樣本間短程的拓?fù)潢P(guān)系;當(dāng)batch size較小時(shí),更多地考慮樣本間長(zhǎng)程的拓?fù)潢P(guān)系。
鑒于以上分析,本文方法首先計(jì)算教師網(wǎng)絡(luò)特征與標(biāo)簽之間的相關(guān)系數(shù),并利用相關(guān)系數(shù)對(duì)樣本間的近鄰關(guān)系進(jìn)行加權(quán)求和,增加具有高信噪比(或判別力)的特征在樣本間近鄰關(guān)系計(jì)算中的重要程度;然后,集成不同batch size的近鄰關(guān)系知識(shí)蒸餾模型,更加全面地利用教師網(wǎng)絡(luò)特征空間中不同尺度的近鄰關(guān)系對(duì)應(yīng)的樣本分布信息。
集成學(xué)習(xí)通過構(gòu)建多個(gè)學(xué)習(xí)器并將其結(jié)合(模型融合),能更好地完成預(yù)測(cè)任務(wù),提高模型性能。常用的集成學(xué)習(xí)方法有Bagging[7-9]、Boosting[10-12]、Stacking[13-15]等。由于神經(jīng)網(wǎng)絡(luò)訓(xùn)練是通過小批量樣本計(jì)算近鄰關(guān)系,通過設(shè)置不同的batch size來(lái)訓(xùn)練
模型學(xué)習(xí)不同的知識(shí),如不同尺度的樣本近鄰關(guān)系。本文通過集成不同batch size(64,128,256)訓(xùn)練得到的3個(gè)模型來(lái)提高學(xué)生網(wǎng)絡(luò)的預(yù)測(cè)能力,從而實(shí)現(xiàn)多尺度學(xué)習(xí)。
2 師生架構(gòu)模型
本文的網(wǎng)絡(luò)模型訓(xùn)練分為2個(gè)階段:第一階段是1個(gè)雙流架構(gòu)的教師網(wǎng)絡(luò);第二階段是1個(gè)單流架構(gòu)的學(xué)生網(wǎng)絡(luò),如圖2所示。
第一階段網(wǎng)絡(luò)訓(xùn)練的過程:首先,使用EEGNet[16]和SincNet[17]特征提取網(wǎng)絡(luò)分別提取腦電信號(hào)特征和音頻信號(hào)特征;然后,將腦電信號(hào)特征和音頻信號(hào)特征拼接;最后,經(jīng)全連接層FC和分類層classification得到正樣本的概率值。
教師網(wǎng)絡(luò)的損失函數(shù)為
式中: 為教師網(wǎng)絡(luò)的損失函數(shù), 為優(yōu)化ROC曲線下的面積(area under curve, AUC)指標(biāo)的損失函數(shù),教師網(wǎng)絡(luò)的損失函數(shù)可以采用文獻(xiàn)[18]的設(shè)計(jì):
式中: 為m個(gè)正樣本的分類輸出; 為n個(gè)負(fù)樣本的分類輸出; 為正負(fù)樣本對(duì)分類輸出差的閾值, ;p為調(diào)節(jié)因子, 。
第一階段的教師網(wǎng)絡(luò)訓(xùn)練結(jié)束后,將教師網(wǎng)絡(luò)的分類輸出作為軟標(biāo)簽約束學(xué)生網(wǎng)絡(luò)的輸出,達(dá)到信息遷移的目的。這種知識(shí)蒸餾方法是由HINTON等[19]提出的。
學(xué)生網(wǎng)絡(luò)的損失函數(shù)為
式中: 為樣本的總數(shù), 為樣本序號(hào), 為溫度超參數(shù), 為第一階段教師網(wǎng)絡(luò)分類輸出的logits值, 為第二階段學(xué)生網(wǎng)絡(luò)分類輸出的logits值。
由于教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的輸入和結(jié)構(gòu)差異較大,因此,僅約束最終輸出層是不夠的。考慮到網(wǎng)絡(luò)隱含層中的特征也包含有用信息,本文利用變權(quán)的局部保留損失來(lái)保證學(xué)生、教師網(wǎng)絡(luò)特征空間拓?fù)潢P(guān)系的一致性。
假設(shè) 個(gè)帶標(biāo)簽的訓(xùn)練集表達(dá)式為? , 和 分別表示樣本 經(jīng)過教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)提取后的特征,變權(quán)的局部保留損失函數(shù)表達(dá)式為
式中: 為教師網(wǎng)絡(luò)隱含層特征空間樣本間的局部關(guān)系, 為特征 的 近鄰, 為教師網(wǎng)絡(luò)隱含層特征向量的維度序號(hào), 為變權(quán)的尺度因子, 為指數(shù)因子, 為教師網(wǎng)絡(luò)隱含層特征與標(biāo)簽之間的相關(guān)系數(shù), 為變權(quán)的權(quán)重因子。
式中: 為損失函數(shù)的折中系數(shù)。
由于教師網(wǎng)絡(luò)隱含層特征空間的樣本近鄰關(guān)系是在隨機(jī)批次中計(jì)算的,不同batchsize的訓(xùn)練模型,遷移教師網(wǎng)絡(luò)隱含層樣本近鄰分布信息的尺度也不同。因此,本文采用線性回歸法集成3個(gè)batchsize(64、128、256)訓(xùn)練的學(xué)生網(wǎng)絡(luò),對(duì)腦電信號(hào)類別進(jìn)行預(yù)測(cè)輸出。
3 實(shí)驗(yàn)
本文實(shí)驗(yàn)使用Kara One公開數(shù)據(jù)集[3],用于腦機(jī)接口發(fā)音想象的研究。該數(shù)據(jù)集包含了音節(jié)和單詞形式的想象語(yǔ)音,包括對(duì)應(yīng)7個(gè)音位/音節(jié)(/iy/, /piy/, /tiy/, /diy/, /uw/,/m/, /n/)和4個(gè)單詞(pat, pot, knew, gnaw)的多模態(tài)數(shù)據(jù)(腦電信號(hào)、音頻信號(hào)、面部跟蹤信號(hào)),共14個(gè)參與者的數(shù)據(jù)。本文采用腦電信號(hào)和音頻信號(hào)2種模態(tài)數(shù)據(jù)。將數(shù)據(jù)集中的10個(gè)參與者的數(shù)據(jù)作為訓(xùn)練集(含樣本1353例,其中正樣本492例,負(fù)樣本861例);4個(gè)參與者的數(shù)據(jù)作為測(cè)試集(含樣本460例,其中正樣本203例,負(fù)樣本257例)。
實(shí)驗(yàn)環(huán)境:計(jì)算機(jī)的處理器為3.4 GHz Intel Core i7-6800K,內(nèi)存為NVIDIA GeForce RTX 207024 GB,深度學(xué)習(xí)框架為Keras。
本文考慮2種二分類任務(wù),即是否存在高前元音(presence of high-front vowel, ±/iy/)和是否存在高后元音(presence of high-back vowel, ±/uw/)。AUC是衡量二分類模型優(yōu)劣的一種評(píng)價(jià)指標(biāo),本質(zhì)是從樣本集中隨機(jī)選擇一個(gè)正樣本和負(fù)樣本,模型預(yù)估正樣本得分大于負(fù)樣本得分的概率,計(jì)算公式為
式中: 為正樣本, 為第 條樣本的序號(hào)(將所有的樣本的預(yù)測(cè)輸出進(jìn)行排序,排在第 個(gè)位置), 為正樣本的數(shù)量, 為負(fù)樣本的數(shù)量。
本文比較了單模態(tài)方法EEGNet(方法1)、決策層知識(shí)蒸餾(方法2)、局部近鄰關(guān)系保留知識(shí)蒸餾(方法3)、變權(quán)局部近鄰關(guān)系保留知識(shí)蒸餾(方法4)、及多尺度變權(quán)局部近鄰關(guān)系保留知識(shí)蒸餾等方法(本文方法)的性能優(yōu)劣,評(píng)價(jià)指標(biāo)為AUC,實(shí)驗(yàn)結(jié)果如表1、表2所示。
由表1可知:方法1中僅使用腦電信號(hào)模態(tài)訓(xùn)練模型,AUC最低,僅為52.38%;方法2在方法1的基礎(chǔ)上增加了音頻信號(hào)幫助模型進(jìn)行訓(xùn)練,并使用決策層知識(shí)蒸餾方法將教師網(wǎng)絡(luò)中的知識(shí)遷移到學(xué)生網(wǎng)絡(luò),AUC提高了約2.42%,驗(yàn)證了跨模態(tài)信息遷移方法的有效性;方法3在方法2的基礎(chǔ)上增加了局部近鄰關(guān)系保留知識(shí)蒸餾方法,AUC提高了約7%,表明教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的輸入和結(jié)構(gòu)差異較大時(shí),利用局部近鄰關(guān)系保留知識(shí)蒸餾方法可以保證學(xué)生、教師網(wǎng)絡(luò)特征空間拓?fù)潢P(guān)系的一致性,提升學(xué)生網(wǎng)絡(luò)性能;方法4在局部近鄰關(guān)系保留知識(shí)蒸餾方法中增加了變權(quán)因子,AUC提高了約2.59%,表明變權(quán)因子可以增加具有高信噪比(或判別力)的特征在樣本間近鄰關(guān)系計(jì)算中的重要程度,提高模型的性能;本文方法在方法4的基礎(chǔ)上集成3個(gè)batch size(64、128、256)的近鄰關(guān)系知識(shí)蒸餾模型,更加全面地利用教師網(wǎng)絡(luò)特征空間中不同尺度的近鄰關(guān)系對(duì)應(yīng)的樣本分布信息,性能表現(xiàn)最好。
由表1、表2可知,方法5相比于方法1性能有較大提升,AUC提高了約16%,可見本文方法能夠提升腦電信號(hào)分類的性能。
4 結(jié)論
針對(duì)在噪聲干擾大且訓(xùn)練樣本少的情況下,現(xiàn)有的機(jī)器學(xué)習(xí)模型無(wú)法取得較好的泛化性能,容易出現(xiàn)過擬合現(xiàn)象,本文提出一種基于跨模態(tài)信息遷移的發(fā)音想象腦電信號(hào)的分類方法,并在公開數(shù)據(jù)集Kara One上獲得較高的AUC得分(±/iy/:68.28%,±/uw/:69.53%)。該方法通過變權(quán)局部近鄰關(guān)系保留知識(shí)蒸餾自適應(yīng)地提高了更具有判別力的特征在局部近鄰關(guān)系計(jì)算中的權(quán)重,并利用多尺度學(xué)習(xí)集成了不同batch size(64、128、256)的知識(shí)蒸餾模型,能夠更加充分地從多模態(tài)教師網(wǎng)絡(luò)遷移潛在的特征分布信息監(jiān)督單模態(tài)學(xué)生網(wǎng)絡(luò)的訓(xùn)練,從而進(jìn)一步緩解小樣本問題的影響,提高分類模型的泛化能力。
參考文獻(xiàn)
[1] 陳霏,潘昌杰.基于發(fā)音想象的腦機(jī)接口的研究綜述[J].信號(hào)處理, 2020,36(6):86-830.
[2] 韓震坤,陶慶關(guān),向恒.腦機(jī)接口技術(shù)的仿人控制綜述[J].機(jī)電工程技術(shù),2021,50(4):7-13;34.
[3] ZHAO S, RUDZICZ F. Classifying phonological categories in imagined and articulated speech[C]. 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2015: 992-996.
[4] SAHA P, ABDUL-MAGEED M, FELS S. Speak your mind! Towards imagined speech recognition with hierarchical deep learning[J]. CoRR, arXiv preprint arXiv:1904.05746, 2019.
[5] BAKHSHALI MA, KHADEMI M, EBRAHIMIMOGH-ADAM A, et al. EEG signal classifi-cation of imagined speech based on riemannian distance of correntropy spectral density[J]. Biomedical Signal Processing and Control, 2020,59(C):101899.
[6] CHEN H, WANG Y, XU C, et al. Learning student networks via feature embedding[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021,32(1):25-35.
[7] LEE Tae-Hwy, ULLAH Aman, WANG Ran. Bootstrap aggregating and random forest[J]. Macroeconomic Forecasting in the Era of Big Data. Springer Cham, 2020:389-429.
[8] WANG RU, PENG J. Learning directed acyclic graphs via bootstrap aggregating[J]. arXiv preprint arXiv: 1406.2098, 2014.
[9] HASSANAhnafRashik,BHUIYAN Mohammed Imamul Hassan. Computer-aided sleep staging using complete ensemble empirical mode decomposition with adaptive noise and bootstrap aggregating[J]. Biomedical Signal Processing and Control,2016,24:1-10.
[10] SCHAPIRE, ROBERT E. The boosting approach to machine learning: an overview[J]. Nonlinear Estimation and Classifica-tion, Springer, 2003:149-171.
[11] LIU Shixia, XIAO Jiannan, LIU Junlin, et al. Visual diagnosis of tree boosting methods[J]. IEEE Transactions on Visualiza-tion and Computer Graphics, 2018,24(1):163-173.
[12] JIANG J,WANG R, WANG M, et al. Boosting tree-assisted multitask deep learning for small scientific datasets[J]. Journal of Chemical Information and Modeling, 2020,60(3):1235-1244.
[13] DIVINA Federico, GILSON Aude, GOM?Z Vela Francisco, et al. Stacking ensemble learning for short-term electricity consumption forecasting[J]. Energies, 2018,11(4):949.
[14] RIYAZ Sikora. A modified stacking ensemble machine lear-ning algorithm using genetic algorithms[J]. Handbook of Research on Organizational Transformations Through Big Data Analytics. IGi Global, 2015:43-53.
[15] CUI Shaoze, YIN Yunqiang, WANG Dujuan, et al. A stacking-based ensemble learning method for earthquake casualty prediction[J]. Applied Soft Computing, 2021,101: 107038.
[16] LAWHERN VJ, SOLON AJ, WAYTOWICH NR, et al. EEGNet: a compact convolutional network for EEG-based brain-computer interfaces[J]. Journal of Neural Engineering, 2016,15(5):056013.1-056013.17.
[17] RAVANELLI M, BENGIO Y. Interpretable convolutional filters with SincNet[J]. arXiv preprint arXiv:1811. 09725, 2018.
[18] YAN L, DODIER RH, MOZER M, et al.Optimizing classifier performance via an approximation to the Wilcoxon-Mann-Whitney statistic[C].Proceedings of the Twentieth Internatio-nal Conference on Machine Learning (ICML-2003), Washing-ton DC, 2003:848-855.
[19]HINTON G, VINYALS O, DEAN J.Distilling the knowledge in a neural network[J]. Computer Science, 2015,14(7):38-39.
作者簡(jiǎn)介:
黃偉坤,男,1996年生,碩士研究生,主要研究方向:深度學(xué)習(xí)。E-mail:532190822@qq.com
謝偉,男,1995年生,碩士研究生,主要研究方向:深度學(xué)習(xí)。E-mail:1341601296@qq.com