張俊曉,薄華
(上海海事大學信息工程學院,上海 201306)
情緒識別是通過獲取人的生理或非生理信號,對人的情緒狀態(tài)進行識別的一個過程,在醫(yī)療護理、軍事戰(zhàn)術(shù)、產(chǎn)品開發(fā)、測謊技術(shù)、交通運輸、抑郁癥治療等多個方面都有潛在的應(yīng)用價值[1,2]。腦電信號(ElectroEn?cephaloGram,EEG)產(chǎn)生于大腦皮層的神經(jīng)活動,采用非侵入式方式記錄的大腦皮層信號,在一定程度上可以反映大腦的活動狀態(tài)[3]。利用腦電信號進行情緒識別成為目前主流的研究手段[4]。Sammle等人通過對音樂誘發(fā)情緒的腦電分析發(fā)現(xiàn),歡快的音樂在額中區(qū)能夠引起更多的δ波[5];國內(nèi)賴永秀等人發(fā)現(xiàn)左右額葉α波與正負情緒的相關(guān)性等[6]。
傳統(tǒng)的腦電情緒研究[7~11],主要是通過人工提取情緒相關(guān)的腦電特征,例如,特定頻率波段的能量或者功率譜、不同頻段的能量比值等方法來研究情緒的大腦機制。這種方法原理簡單,容易實現(xiàn),但人為地提取特定的特征,一方面會造成信息損失,另一方面提取的特征是否能夠很好地識別不同情緒還有待驗證。近年來,機器學習算法在人工智能領(lǐng)域發(fā)展火熱,神經(jīng)網(wǎng)絡(luò)算法的分類效果也有目共睹。本文采用卷積神經(jīng)網(wǎng)絡(luò)方法,利用卷積神經(jīng)網(wǎng)絡(luò)模型自動提取數(shù)據(jù)特征的優(yōu)勢,在輸出層實現(xiàn)對正面和負面情緒的識別。實驗結(jié)果證明,此方法可以以較高的識別率完成情緒識別的任務(wù)。
卷積神經(jīng)網(wǎng)絡(luò)在傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)基礎(chǔ)上,加入了兩種重要的思想,即“局部感受野”和“權(quán)值共享”。相比于全連接神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)能夠非常有效地降低網(wǎng)絡(luò)計算的復(fù)雜度,是深度學習算法的典型代表之一,在圖像、語音、文本、視頻等方面均有很好的成果展現(xiàn)。傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)包含輸入層、隱層、輸出層三種網(wǎng)絡(luò)結(jié)構(gòu),卷積神經(jīng)網(wǎng)絡(luò)在其基礎(chǔ)上,隱層體現(xiàn)為全連接層,并在輸入層與全連接層之間增加卷積層與池化層兩種網(wǎng)絡(luò)類型[12]。通過多層卷積,不斷提取更為抽象的信號特征,在增強有效信號特征的同時,也弱化了噪聲信號的特征。
卷積層,即特征提取層,它模擬簡單細胞具有局部感受野的生物機制,采用局部連接和權(quán)值共享的方法提取信號的初級特征。局部連接是指,卷積層上的每個神經(jīng)元通過卷積核的作用,與前一層特征圖中特定區(qū)域內(nèi)的神經(jīng)元相連接,而并非所有的神經(jīng)元。其中,特定區(qū)域的大小取決于卷積核的大小。不同大小的卷積核所提取的輸入數(shù)據(jù)的特征截然不同。卷積核越小,提取的輸入數(shù)據(jù)的特征就越多,反之亦然。權(quán)值共享即同一個特征圖中的神經(jīng)元共同使用相同的連接強度來與前一層局部連接[13]。如圖1所示,卷積層中每個神經(jīng)元使用相同的權(quán)重參數(shù)、偏置與輸入層卷積連接,i個不同的卷積核,在激活函數(shù)的作用下能夠得到i張不同的特征圖。
圖1 一維卷積神經(jīng)網(wǎng)絡(luò)
卷積層的計算公式如下[14]:
其中,x是輸入的二維矩陣;y是M×N的輸出矩陣;0≤m 池化層,又稱降采樣層。通過卷積直接得到的特征向量的維數(shù)比較大,如果直接將這些特征輸入網(wǎng)絡(luò)進行分類,不僅計算量大、復(fù)雜度高,分類效果可能也會由于特征太小而不好。因而,先將特征降維,再進行特征訓(xùn)練分類,能有效提高分類效率。降采樣操作是將卷積提取到的初級特征進行篩選、合并,進而重組為更為抽象的特征。通過降采樣后得到的輸出特征圖數(shù)量并不會改變,但是每個特征圖維數(shù)的降低,能有效降低了網(wǎng)絡(luò)計算量,并使網(wǎng)絡(luò)對信號在一定程度上具有平移不變性,魯棒性能提高[13]。池化分有兩種操作方式,分別是最大池化和平均池化。最大池化指的是取區(qū)域內(nèi)最大值;平均池化指的是取區(qū)域內(nèi)像素的平均值。降采樣的操作公式為: 其中,x是經(jīng)過卷積后的輸入特征矩陣,y是經(jīng)過采樣后的輸出矩陣,S1和S2是降采樣的不同尺度。 全連接層是將卷積層學習到的各個局部特征匯聚起來形成全局特征,并以此來感知全局信息。全連接層,顧名思義,是指該層的每一個神經(jīng)元都與前一層當中的所有神經(jīng)元互相連接,但是同層之間的神經(jīng)元沒有連接。每一層的神經(jīng)元節(jié)點通過連接線上的不同權(quán)值,加權(quán)組合后得到下一層神經(jīng)元節(jié)點的輸入,以此來進行前向傳播。全連接層能夠增強網(wǎng)絡(luò)的非線性映射能力。 實驗采用北京中科新拓儀器公司生產(chǎn)的NT9200-16D的醫(yī)用腦電圖儀,選用16導(dǎo)氯化銀管型電極,采樣頻率為1000Hz,采用國際標準10-20系統(tǒng)電極放置法,實驗系統(tǒng)如圖3示。被試者年齡在22-25歲之間,視覺、聽力正常,為右利手,無任何精神病史和腦神經(jīng)損傷。實驗之前,告知被試實驗?zāi)康?、實驗流程和注意事項,保證被試者頭皮及額頭清潔。選擇一個安靜的實驗環(huán)境,受試者找一個舒服的坐姿,保證頭腦清醒、身心放松。實驗環(huán)境見圖2。 圖2 實驗環(huán)境 圖3 實驗系統(tǒng) 實驗采用國際情感圖片系統(tǒng)作為不同情緒誘發(fā)源,從中選取兩類照片,一類是能讓人產(chǎn)生正面情緒的圖片,例如自然景觀、日常生活工具、誘人的食物,笑臉;另一類是能誘發(fā)人產(chǎn)生負面情緒的圖片,例如分離、災(zāi)難、流淚、恐怖的事情。按照類別,盡可能選擇情緒表達強烈的圖片,并分別放置在電腦不同情緒對應(yīng)的文件下。如圖4。兩種情緒分別單獨誘發(fā),被試者按照指示進行實驗,屏幕顯示“+”時準備,倒計時3個數(shù)后,開始觀察圖片并認真感受圖片所表達的情緒,每張圖片停留10s自動切換到下一張圖片,采集1min后休息2min,進入下一組腦電采集。 圖4 正負兩種情緒圖片 針對每種情緒,每人分別采集2組1min左右長的數(shù)據(jù),采樣頻率為1000Hz,將采集到的數(shù)據(jù)以500個采樣長度為重疊、每段數(shù)據(jù)長度為1000時截斷,以此形成數(shù)據(jù)樣本,即選取1s時長的數(shù)據(jù)為一個樣本,如圖5。 圖5 數(shù)據(jù)處理 每個人的數(shù)據(jù)集分別由2組悲傷數(shù)據(jù)集與2組愉悅數(shù)據(jù)集組成,其中悲傷數(shù)據(jù)集與愉悅數(shù)據(jù)集分別又均以9:1的比例分配到訓(xùn)練集與測試集。同時,為使識別率更能準確地反映樣本特征,在悲傷訓(xùn)練集與愉悅訓(xùn)練集中,均設(shè)置了一個隨機取數(shù)機制,這樣,每次生成的數(shù)據(jù)均來自于訓(xùn)練集中不同數(shù)據(jù)的組合,使得樣本足以代表整體。 在腦電采集過程中,由于環(huán)境的原因,不可避免地會受到各種形式的干擾,有眼電、肌電、工頻干擾等。首先,我們采用插值法去除比較明顯的眼電干擾;然后做去均值處理,消除腦電信號中的直流分量;最后,采用低通濾波器進行濾波,去除工頻干擾。我們主要對0.5-30Hz的部分進行分析,低通濾波器的截止頻率選定為35Hz。 本文算法采用一個卷積層與一個池化層進行自動特征提取,算法流程圖如圖6: 圖6 本文算法卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖 被試者處理后的腦電數(shù)據(jù)樣本集一共有574個,包括288個悲傷樣本與286個愉悅樣本。其中,訓(xùn)練集分別選取250個悲傷樣本與250個愉悅樣本,一共500個訓(xùn)練數(shù)據(jù)集,剩余的74個為測試數(shù)據(jù)集。算法分別對每個通道進行處理,針對每個通道,輸入數(shù)據(jù)為500×1000,通過多次的參數(shù)調(diào)優(yōu),為了避免增加獨立信號之間的關(guān)聯(lián)性,采用一維卷積核,大小為171,即卷積層選用5個大小為1×171的卷積濾波器,通過卷積得到 5×500×(1000-171+1)大小的特征面,采用 ReLU 激活函數(shù)進行線性單元的修正,之后,采用最大池化,進一步降低樣本數(shù)據(jù)量。全連接層,即隱層大小為500,該層的每個神經(jīng)元與池化后的特征層的每個神經(jīng)元均互相連接,但同層的神經(jīng)元之間不連接。全連接后,ReLU激活函數(shù)再次修正線性單元,之后,輸出到Soft?max函數(shù),進行兩種情緒的識別分類。其中,ReLU函數(shù):f(x)=max(0,x),即輸入小于0時,輸出統(tǒng)一為0;輸入大于0時,輸出等于輸入,以此來實現(xiàn)線性單元的修正。另外,正則化參數(shù)為0.1,學習率初始化為0.001,且每迭代10,學習率減小為原來的0.8倍。 實驗結(jié)果顯示,被試者16通道腦電信號的訓(xùn)練集識別率均在98%以上。測試集平均識別率標記為r,單位為%。該被試者的16個通道的10次平均識別率如表1。 表1 16個通道10次平均識別率 可以看出,不同的通道(腦區(qū)),正負兩種情緒的識別率是不同的。FP2(右額葉區(qū))的識別率最高,十次平均識別率可以達到83.0%,最高識別率可以達到91.89%。FP1(左額葉區(qū))、C3(左頂葉)、O2(右枕葉)通道的識別率次之,在75%左右。第九通道,即O1的識別率最低,十次平均識別率為67.7%。研究顯示,積極情緒下,大腦左前額區(qū)腦電活動增加;消極情緒下,右前額區(qū)腦電活動會增加。 腦電信號按頻率可以分為以下幾個頻段,分別是:δ波(0.8-3.8Hz)、θ波(4-7.8Hz)、α1 波(8-9.8Hz)、α2 波(10-12.8Hz)、β1 波(13-22.8Hz)、β2 波(23-30.8Hz)以及超高頻γ波。腦電采集儀軟件分析可以看出,正負兩種不同的情緒在不同頻段與不同腦區(qū)腦電信號的強弱,如圖7與圖8。圖中右側(cè)的顏色條代表信號的強弱,紅色代表信號最強,藍色代表信號最弱。度次之,同樣高頻波腦電信號強度最弱,與以往學者關(guān)于積極情緒和消極情緒在額區(qū)的腦電活動情況相符。另外,通過比較觀察正負兩種不同情緒的頻段與腦區(qū)分布發(fā)現(xiàn),情緒腦電在低頻波段誘發(fā)比高頻波段充分;消極情緒誘發(fā)的腦電總體比積極情緒分布范圍廣、強度高,這與消極情緒對人的影響更持久有關(guān)。 圖8 正面情緒頻段與腦區(qū)分布圖 圖7負面情緒頻段與腦區(qū)分布圖 圖7 顯示,當被試者觀察帶有負面信息的圖片時,δ波在右半球的前額區(qū)與顳葉區(qū)、左半球的枕葉區(qū),腦電信號最強,θ波在相同腦區(qū)強度次之,高頻波最低,基本檢測不到腦電信號。而圖8表明,當被試者觀察帶有正面情緒的圖片時,δ波在左半球的額葉區(qū)、右半球的頂葉區(qū)與枕葉區(qū),腦電信號最強,θ波在相同腦區(qū)強 本文設(shè)計了通過不同圖片誘發(fā)正面和負面兩種情緒的實驗,使用16導(dǎo)的NT9200-16D醫(yī)用腦電圖儀采集腦電信號,針對每個通道的信號,用卷積神經(jīng)網(wǎng)絡(luò)的方法分別識別愉悅(正面)與悲傷(負面)兩種情緒,以此來觀察情緒與不同腦區(qū)之間的關(guān)聯(lián)是否存在一定的規(guī)律。實驗結(jié)果顯示,F(xiàn)P2(右額葉區(qū))通道的識別率是最高的,10次平均識別率為83.0%;FP1(左額葉區(qū))通道的識別率為74.6%,這為進一步研究情緒與腦區(qū)間的關(guān)聯(lián)機制提供了有價值的參考意義。 此研究結(jié)論還需更多的被試者、更充分準確的實驗數(shù)據(jù)進一步論證。后續(xù)將選用音樂、視頻等情緒誘發(fā)源進行實驗,驗證個體差異下的共同腦區(qū)特征。同時,卷積神經(jīng)網(wǎng)絡(luò)算法會進行進一步的調(diào)優(yōu)與改進。1.2 池化層
1.3 全連接層
2 實驗設(shè)計與本文算法
2.1 實驗設(shè)計
2.2 數(shù)據(jù)樣本
2.3 預(yù)處理
2.4 基于腦電信號的卷積神經(jīng)網(wǎng)絡(luò)
3 實驗結(jié)果分析
3.1 識別率分析
3.2 腦區(qū)與頻段分析
4 結(jié)語