李洪偉,李海峰,馬 琳,薄洪健,徐睿峰
(1.哈爾濱工業(yè)大學 計算機科學與技術學院,哈爾濱 150001; 2.哈爾濱工業(yè)大學 深圳研究生院,深圳 518055)
腦是生物體內(nèi)最復雜的系統(tǒng),人腦的高級認知功能的高度發(fā)展,使得人類成為萬物之首,具備了改造世界的能力,人類進行所有的生理心理活動都是要經(jīng)過大腦,以腦為核心完成的[1].音樂是一種有效的情緒誘發(fā)手段,音樂在在情緒認知的心理和生理研究和實際應用中,都具有很好的應用前景[2].在醫(yī)學領域,若能探究出人對音樂誘發(fā)情緒的認知規(guī)律,并據(jù)此編曲,用于臨床上的音樂治療,其應用價值是不言而喻的.目前,音樂治療已廣泛應用于各種心理治療、輔助治療[3].在腦機接口領域,由于音樂引發(fā)的腦反應在腦電活動上比較穩(wěn)定,受個人因素影響較小,適用范圍大,通過音樂腦電進行認知規(guī)律的挖掘是實現(xiàn)腦機接口的有效方法[4].
腦電信號(Electroencephalogram, EEG)的發(fā)現(xiàn)使人們開始了對腦的深入探索,而音樂通過作用于腦對人的生理心理產(chǎn)生影響,探究腦對音樂的認知規(guī)律是目前的熱門話題.目前,研究者們在進行音樂腦電研究中常用的腦電特征主要分為3類: 時域特征、頻域特征和時-頻特征[5].腦電信號處理中常用的時域特征為事件相關電位(Event-Related Potentials, ERP)分析法.事件相關電位是指當外界對人的感覺系統(tǒng)或腦的某一部位給予刺激或撤銷刺激時,在腦區(qū)引起的有規(guī)律的電位變化.這種腦電變化十分微弱,通常會被其他信號或者噪聲信號所掩蓋,但是通過計算機的迭加處理,可以提取出ERP成分[6].Poikonen等[7]采用ERP方法來分析人聽完整的音樂時的腦反應.Poikonen等假設由音樂底層特征引發(fā)的刺激是相似的,可以用來進行迭加平均.然后重點提取了ERP的N100和P2成分作為特征,結(jié)合音樂的底層特征來探究腦反應.Li等用EEG信號的相位特征研究自然連續(xù)音樂與EEG信號間的關系[8].
頻域特征是指將原始的時域腦電信號通過離散傅里葉變換得到頻域腦電信號,再從頻域信號中提取出相關特性作為腦電特征.神經(jīng)科學和心理學將腦電信號劃分為5種不同的節(jié)律[9].這5種腦電節(jié)律與人的各項生理及心理活動有著密切的關系.因此,在提取腦電頻域特征時,大部分學者會先將腦電信號映射到這5個頻段上,再分別提取出各個頻段對應的頻域特征.Kothe和Makeig[10]等利用離散傅里葉變換將原始腦電信號映射到上述5個頻段上,將電極的功率譜密度和每個頻段對應的能量作為腦電特征.
由于腦電信號是非平穩(wěn)的隨機信號,時間與頻率之間的聯(lián)系也是腦電信號的一個重要特征.因此,許多學者去探索和尋找能結(jié)合時域和頻域的特征,這里稱其為時-頻特征.簡單來說就是對腦電信號加窗,計算每個時間窗的頻域特征,通過這樣的手段將頻域信號和時域信號結(jié)合起來.目前時-頻特征的主要提取方法有短時傅里葉變換和小波變換等.Lin等[11]就是通過短時傅里葉變換將腦電信號映射到上述5個常用頻段上,并計算每個時間窗每個頻段的功率譜密度,得到時間-功率譜密度,并以此為基礎進行后續(xù)的情緒識別.Banerjee等通過非線性分析來研究音樂與腦的關系,他們得出結(jié)論,前額區(qū)在音樂認知中比重很大,同時Hindustani風格的音樂對腦區(qū)激活更顯著[12].
目前對音樂腦電特征提取的相關研究主要是腦對短時聲音的反應.通過研究短時腦電信號的變化來探尋腦和音樂二者之間的關系.這樣做盡管得到了許多成果,但是這種方法仍然有較大的局限性.首先,這些短時聲音信號在一定意義上并不算是音樂信號,這些研究結(jié)果具有局限性;其次,這些短時聲音信號都是單特征信號,事件相關電位中的事件其實是一種理想的狀態(tài),但是即使在實驗室條件下,理想狀態(tài)也不一定存在,因此在復雜環(huán)境下,如何研究相應的腦反應,這是目前的一大難題.針對這些問題,我們提出了音樂特征來進行ERP分析.其基本思路是將傳統(tǒng)意義上的“靜息-事件-靜息”模式映射到音樂特征上,即將音樂特征視為信號,對音樂特征信號提取事件點,按照事件點進行ERP迭加處理.
首先,我們設計連續(xù)音樂的腦認知實驗.目前已有的ERP實驗范式都是通過短時聲音刺激來完成的.對于連續(xù)音樂來說,沒有相應的實驗范式可以參照和利用.因此,我們自行設計了一種腦認知實驗,通過讓被試連續(xù)長時間欣賞音樂,同時讓被試填寫的量化表以確保被試音樂欣賞過程中的專注度.然后針對音樂的聲學屬性進行一系列研究,提取相應的聲學特征,尋找聲學特征上的事件點等.我們設計了一種雙門閾值特征突變點自動搜索算法.對特征信號做差分,得到差分信號,再對差分信號做中值濾波和均值濾波,通過上下閾值篩選出突變點和平穩(wěn)點.最后對EEG信號進行處理,得到純凈的EEG信號并提取其ERP特征,總結(jié)相應的認知規(guī)律.通過對不同腦區(qū)提取不同音樂特征的ERP,我們可以分析得出前額區(qū)和中央?yún)^(qū)在音樂誘發(fā)情緒中占有明顯的比重,腦對音色和音高的感知比音高更明顯.
刺激材料是16首鋼琴曲,每首曲子長30s,播放音量均在60dB以下,即人耳接聽聲音的舒適音量范圍內(nèi).
參加實驗的被試來源為15名哈爾濱工業(yè)大學的學生(8名男生,7名女生).所有被試均為右利手;所有被試母語均為漢語,第二外語均為英語;所有被試本人無神經(jīng)系統(tǒng)疾病且家族無相應遺傳病史;所有被試無專業(yè)音樂背景;所有被試聽力正常,視力矯正后正常.
腦電數(shù)據(jù)采集流程如下.
(1) 被試被告知實驗目的,實驗流程以及注意事項,被試填寫個人信息表并保證屬實,被試在同意實驗書上簽字;
(2) 為被試佩戴腦電信號采集設備,被試坐在隔音室中的舒適椅子上,兩眼注視屏幕中心,眼睛距離電腦屏幕60~80cm;
(3) 15s靜息腦電數(shù)據(jù)采集;
(4) 為被試播放一首音樂,采集其腦電數(shù)據(jù),播放過程中屏幕中央顯示符號“+”以幫助被試集中注意力;
(5) 15s靜息腦電數(shù)據(jù)采集;
(6) 被試聽完音樂后15s填寫情緒量化表,確保被試專注度;
(7) 重復(4)~(7)步直到16首音樂播放完;
(8) 為被試取下腦電設備采集設備,為被試清洗頭部,給予被試物質(zhì)獎勵.
圖1 電極分布圖Fig.1 Diagram of electrode distribution
腦電數(shù)據(jù)采集設備: 實驗采用Presentation軟件播放系統(tǒng),按照1.2節(jié)所述實驗流程編寫程序.所有實驗均在本實驗室配置的隔音暗室中進行,實驗時始終控制光線條件一致.腦電信號通過NeuroScan腦電記錄儀記錄,采集通道為64導,電極排列位置根據(jù)國際10—20系統(tǒng)標準放置[17](電極分布如圖1所示),以Scan4.5(NeuroScanInc.,Herndon,VA,USA)記錄腦電信號,采用左右乳突參考避免左右半球不對稱性,所有信號經(jīng)過SynAmp2系統(tǒng)放大,傳到主試電腦上被記錄,采樣頻率為1000Hz,各電極頭皮阻抗均小于5.0.采用Presentation15.0軟件同步記錄行為學數(shù)據(jù).
根據(jù)聲音的三要素——音色、音高和音強,我們選擇頻譜質(zhì)心、頻譜通量、過零率和均方根作為特征,進行音樂的特征提取.
(1) 音色 我們通過頻譜通量來描述音色變化.頻譜通量是用來描述連續(xù)語音幀之間頻譜變化的參數(shù),體現(xiàn)了音樂信號頻譜的局部變化,其本質(zhì)是連續(xù)語音幀中頻譜的差分.信號的短時頻譜局部變化程度與頻譜通量呈正相關[13],其計算公式為:
式中:Xr(j)表示第r幀的第j個頻率下標的頻譜幅值;Er為第r幀的能量.
(2) 音高 我們通過過零率來描述音樂的音高.過零率是指在一個音高幀內(nèi),信號波形穿過零的次數(shù),即相鄰兩個采樣點由正到負和由負到正的變化次數(shù)之和.信號的頻率與過零率呈正相關[14],其計算公式為:
式中:x(n)是離散采樣信號;N是一幀內(nèi)包含的采樣點個數(shù);sgn()是符號函數(shù),即
(3) 音強 可以用信號在每一幀上幅值的均方根來近似表示響度.音樂的音強與均方根呈正相關[15],其計算公式為:
特征事件點的定義: 在某個音樂特征上,一段較長時間的平穩(wěn)特征后出現(xiàn)短時幅值波動較大的點被稱為事件點.一個事件點必須同時滿足3個條件:
(1) 該點波動幅值要相對大,相對大并不是單純在全局或局部進行比較,而是既要相較其附近幾s內(nèi)的特征,其幅值要大,又要滿足該波動在全局較明顯;
(2) 該點的波動時間應盡可能短,如果是一個平緩上升的拋物線,即一條漸變的曲線,這條曲線的頂點盡管幅值很大,但是并不能形成刺激,漸變過程中的波動不足以在被試腦中引發(fā)相應的刺激;
(3) 特征事件點前后無明顯波動,這是ERP的要求,ERP的傳統(tǒng)模式是“靜息-刺激-靜息”,我們采用ERP方法就要滿足這個條件,特征事件點前后的平緩被認為是ERP中的靜息狀態(tài).
圖2為一個特征事件點的示例,圖2(a)是音樂特征信號,圖2(b)是斜率,該事件點滿足上述3個條件.根據(jù)ERP要求,事件點的平穩(wěn)時間應大于500ms.刺激點的幅值應大于參考值的120%,平穩(wěn)點應低于參考值的80%.參考值動態(tài)生成,由刺激點附近40個點的均值決定.
圖2 特征事件點示例Fig.2 The example of feature event point
本實驗采用的是長時音樂,無法在實驗過程中設置特征事件點,因此需要在實驗后,人為尋找特征事件點,由于音樂片段的采樣率較高和持續(xù)時間較長,通過人工尋找費時費力,且受人的反應能力與聽覺疲憊的限制,無法保證準確性.因此,我們初步設計了一種基于動態(tài)閾值的雙門限算法,通過該算法可以找到所有的近似事件點.
算法的基本思想是: 首先對得到的音樂特征做平滑處理,然后求其斜率并對斜率取絕對值.前文說過,刺激點要波動大,波動時間短.因此,我們用信號的斜率來表示波動時間,信號的幅值表示波動程度.針對待檢測點,我們在其斜率信號和特征信號上取包含該點的共40個點的均值作為參考點,根據(jù)參考點分別取上下兩個閾值.斜率和幅值同時大于兩個上閾值的點被認為是刺激點,斜率或幅值低于下閾值的點被認為是平穩(wěn)點.如果找到刺激點,則判斷其之前是否有足夠長的連續(xù)平穩(wěn)點,如果有則認為是刺激點,如果沒有,則舍棄該點.
EEG數(shù)據(jù)的預處理一般包含以下幾步.
(1) 腦電預覽 對腦電波形的預覽,通過這一步去除原始EEG中電極漂移和接觸不好的腦電波形.本實驗數(shù)據(jù)剔除率約10%左右.
(2) 數(shù)據(jù)濾波 純凈的EEG波形包含頻率0~50Hz的腦電節(jié)律,需要通過數(shù)字濾波去除采集過程中的干擾,得到純凈的EEG信號.
(3) 偽跡去除 采集到的EEG信號通常包含眼電、肌電等偽跡成分,需要通過一定的數(shù)學方法去除這些偽跡,得到干凈的EEG成分,主要采用的方法是獨立成分分析(Independent Component Analysis, ICA)分離信號,去除偽跡后再重新還原EEG信號[16].
ERP迭加[17]: 將事件點前后的EEG分段從連續(xù)的EEG中提取出來,然后按照時間鎖定事件將這些EEG分段排列,再以點對點的方式進行簡單迭加平均.
功率譜密度[18](Power Spectral Density, PSD)是衡量腦區(qū)活躍程度的一個重要指標,其計算公式為:
腦地形圖是根據(jù)各個電極計算出相應的功率譜密度,以插值的方式映射到二維腦模型上形成的直觀分析圖[19].
通過音高得到的ERP波形圖如圖3所示.第一行依次是前額區(qū)(F1,F(xiàn)z,F(xiàn)2這3個電極結(jié)果的平均),中央?yún)^(qū)(C1,Cz,C2這3個電極結(jié)果的平均),頂葉區(qū)(P1,Pz,P2這3個電極結(jié)果的平均)的ERP波形圖,第二列依次是枕葉區(qū)(O1,Oz,O2這3個電極結(jié)果的平均),左顳葉區(qū)(T7,TP7這2個電極結(jié)果的平均),右顳葉區(qū)(T8,TP8這2個電極結(jié)果的平均)的ERP波形圖.對于每一幅波形圖,紅線是根據(jù)事件點截取前500ms,后1000ms迭加的結(jié)果,藍線是取隨機點進行迭加的結(jié)果(后續(xù)的示意圖均按此排列).
從腦地形圖上我們可以看出,腦在對音高的認知上主要集中在前額區(qū),其中高頻的gamma波主要集中在右前額區(qū),其他頻段的腦電信號在前額區(qū)和中央?yún)^(qū)都有較為明顯的變化.但是,我們同時也發(fā)現(xiàn),在枕葉區(qū),各個頻段的波形也有輕微的變化,這種變化并不劇烈,但是真實存在的,而枕葉區(qū)是視覺處理腦區(qū),并不涉及音樂處理,因此,我們將會在后續(xù)跟進這種現(xiàn)象.我們隨機取相應活躍腦區(qū)的電極的功率譜密度與該腦區(qū)靜息態(tài)時的功率譜密度做配對t檢驗,檢驗結(jié)果如表1所示.比較結(jié)果表明前額區(qū),中央?yún)^(qū)和枕葉區(qū)明顯比靜息態(tài)時活躍,因此結(jié)論可靠.
表1 配對t檢驗結(jié)果
我們將得到的EEG片段進行疊加處理,得到相應的ERP,在多個電極上發(fā)現(xiàn)了相應的ERP成分.如,在前額區(qū)和中央?yún)^(qū)的大部分電極上均觀察到明顯的P2成分,P2是聽覺認知實驗中的重要成分,因此,我們有理由判斷,通過音樂屬性特征進行ERP處理是合理的.同時,在枕葉區(qū)電極上也發(fā)現(xiàn)有規(guī)律的波形,枕葉區(qū)多個電極均疊加出一個潛伏期200ms左右的負性波.
圖3 音高變化對應的ERP和腦地形圖
通過音強得到的ERP波形圖如圖4所示.從腦地形圖上,我們可以看出,腦在對音強的認知上同樣主要集中在前額區(qū),其中高頻的gamma波主要集中在右前額區(qū),其他頻段的腦電信號在前額區(qū)和中央?yún)^(qū)都有較為明顯的變化.這符合當前的研究,腦對音樂信號的處理主要發(fā)生在前額區(qū)和中央?yún)^(qū).但是音強信號帶來的腦區(qū)激活程度明顯比音高變化更為劇烈,更為廣泛,音高信號主要在前額區(qū)和中央?yún)^(qū)被激活,但是音強信號卻激活了2/3的腦區(qū),我們有理由認為,腦對音強的感知比音高更為敏感.同時枕區(qū)也發(fā)現(xiàn)不同程度的激活.同樣我們?nèi)∠鄳钴S腦區(qū)的電極的功率譜密度與該腦區(qū)靜息態(tài)時的功率譜密度做配對t檢驗,檢驗結(jié)果如表1所示.比較結(jié)果表明前額區(qū),中央?yún)^(qū)和枕葉區(qū)明顯比靜息態(tài)時活躍,因此結(jié)論可靠.
從ERP圖像中,我們也可以觀察到與音高特征類似的現(xiàn)象,并且音強信號引發(fā)的ERP中,P2的波幅更為劇烈.這也與相應的腦地形圖相符.
圖4 音強變化對應的ERP和腦地形圖
通過音色得到ERP波形圖如圖5所示.從腦地形圖上我們可以看出,腦在對音色的認知上主要集中在前額區(qū),其中高頻的gamma波主要集中在右前額區(qū),其他頻段的腦電信號在前額區(qū)和中央?yún)^(qū)都有較為明顯的變化.只是音色同音高一樣,腦對音色的感知同樣沒有音強強烈.腦在感知音色時,只有相應的聽覺腦區(qū)被激活.我們?nèi)∶總€腦區(qū)的關鍵電極的功率譜密度與該腦區(qū)靜息態(tài)時的功率譜密度做配對t檢驗,檢驗結(jié)果如表1所示.比較結(jié)果表明前額區(qū),中央?yún)^(qū)和枕葉區(qū)明顯比靜息態(tài)時活躍,因此結(jié)論可靠.
腦對音色的感知主要集中在中央?yún)^(qū),從中央?yún)^(qū)電極的ERP波形圖中發(fā)現(xiàn)明顯的N1和P2成分,這兩種成分都是傳統(tǒng)ERP聽覺實驗中常出現(xiàn)的成分,中央?yún)^(qū)多個電極均檢測到明顯的N1和P2成分.
圖5 音色變化對應的ERP和腦地形圖
我們使用特征相關電位(ERP)的方法來探究音樂,情緒與腦的關系.
首先,我們設計并實施了基于長時音樂信號的腦認知實驗.隨后,根據(jù)音樂的聲學屬性,提取了音樂的頻譜通量、均方根和過零率等特征.然后,設計了一種基于動態(tài)閾值的特征事件點自動搜索算法,通過該算法自動尋找特征事件點,并進行人工篩選.最后,根據(jù)特征事件點提取了音樂屬性變化相關的ERP波形圖.
我們通過腦地形圖可以發(fā)現(xiàn)腦對音頻和音高變化的主要響應腦區(qū)是前額區(qū)和中央?yún)^(qū),這也與目前已有的結(jié)論相符,Alluriet等的結(jié)論也說明腦對音強的感知主要發(fā)生在前額區(qū)和中央?yún)^(qū)[20],Poikonen等發(fā)現(xiàn)腦的前額區(qū)在音高感知中占比重較大[7],Banerjee等發(fā)現(xiàn)前額區(qū)在音樂認知中比重很大[18].但是我們也發(fā)現(xiàn)了別人沒有發(fā)現(xiàn)的現(xiàn)象: 在音高變化的腦地形圖中,枕葉區(qū)是有明顯變化的.但是根據(jù)已有研究,枕葉是視覺皮層腦區(qū),我們認為這有可能是音樂引發(fā)的視覺聯(lián)想引起該腦區(qū)活躍.關于該現(xiàn)象我們將會進一步探究.
通過特征事件點我們發(fā)現(xiàn)前額區(qū)與中央?yún)^(qū)的腦電ERP成分最為明顯,能夠得到理想的ERP波形圖,而其他腦區(qū)無明顯的ERP成分.這也與前面的發(fā)現(xiàn)相符,前額區(qū)和中央?yún)^(qū)是主要參與腦區(qū),因此,會誘發(fā)出相應的ERP波形.這一發(fā)現(xiàn)說明腦對音樂的加工過程中,頂葉區(qū)前期不參與或者參與比重過低,而中央?yún)^(qū)和前額區(qū)有很高程度的參與.
最后,我們也分析了實驗存在的不足與ERP的使用限制.當刺激材料提取不到事件點或事件點過少時,這種方法就不適用,需要別的手段輔助處理.我們也將在后續(xù)工作中加以改進這點,同時將情緒因素考慮進來,發(fā)掘更多的認知規(guī)律.
綜上所述,我們所采用的ERP法具有很高的應用價值,可以廣泛應用于相關心理學、認知科學等領域的研究.在實際應用中,可以通過該方法深入探究音樂認知規(guī)律,并據(jù)此開展音樂治療等輔助醫(yī)療手段,也可以應用于腦機接口的實際應用,自動檢測人的情緒狀態(tài)并智能化調(diào)節(jié),具有極高的發(fā)展?jié)摿?,可廣泛用于商業(yè)、軍事、醫(yī)療、教育等領域.同時我們也擴寬了ERP方法的局限性,使ERP可以用于更廣闊的研究領域.