張 進(jìn),許子明,周月瑩,王澎湃,張道強(qiáng)
(1.南京航空航天大學(xué)藝術(shù)學(xué)院,南京 211106;2.南京航空航天大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,南京 211106)
情緒是人對客觀事物的態(tài)度體驗(yàn)及相應(yīng)的行為反應(yīng),在人類的行為和心理健康方面有著重要的影響[1]。神經(jīng)科學(xué)和認(rèn)知科學(xué)的研究結(jié)果表明,情緒的產(chǎn)生與生理活動,特別是與大腦活動密切相關(guān)[2],因此可以通過分析大腦活動來識別情緒狀態(tài)。由于腦電具有高時間分辨率、采集方便和價格低廉等優(yōu)點(diǎn)[3],基于腦電的情緒識別得到了廣泛關(guān)注[4]?;谀X電的情緒識別一般收集情緒視頻、情緒圖片等刺激下的腦電數(shù)據(jù),提取相關(guān)腦電特征,探究腦電特征和不同情緒類別的相關(guān)性[5];或使用機(jī)器學(xué)習(xí)算法,基于腦電特征進(jìn)行情緒分類[6?7]。目前,針對腦電的情緒識別技術(shù)已應(yīng)用于對意識障礙患者康復(fù)治療[8]、士兵精神狀態(tài)評估[9]、駕駛員駕駛狀態(tài)監(jiān)測[10]等場景,但尚未涉及對歌唱者情緒誘發(fā)狀態(tài)的研究。
歌唱活動是歌唱者將內(nèi)在情感呈現(xiàn)出來以供觀眾感受和認(rèn)知的形式[11]。目前高校的聲樂演唱學(xué)習(xí)多以行業(yè)訓(xùn)練和聲樂理論知識傳授為主,缺乏對聲樂學(xué)習(xí)者進(jìn)行情感體驗(yàn)和想象力訓(xùn)練的手段,導(dǎo)致聲樂演唱訓(xùn)練環(huán)節(jié)枯燥、固化。因此聲樂學(xué)習(xí)者的感知能力和情感思維能力不足,在歌曲演繹過程中情感表達(dá)不夠理想,歌唱情緒狀態(tài)調(diào)動不夠積極,很難到達(dá)聲情并茂的歌唱狀態(tài)要求。
近年來,隨著虛擬現(xiàn)實(shí)(Virtual reality,VR)技術(shù)的發(fā)展,它已經(jīng)被應(yīng)用于情感誘發(fā),并在大多數(shù)研究中成功誘發(fā)了情緒[12]。此外,虛擬現(xiàn)實(shí)結(jié)合腦電技術(shù)已被應(yīng)用于情感計算[13]、教育教學(xué)[14]等領(lǐng)域,尤其是沉浸式VR和腦電技術(shù)被不斷應(yīng)用于教育教學(xué)過程和相關(guān)研究,正逐步成為一種發(fā)展趨勢[15]。因此,本文將虛擬現(xiàn)實(shí)技術(shù)和腦電技術(shù)相結(jié)合,應(yīng)用于聲樂教學(xué)過程中的歌唱情緒誘發(fā)和情緒誘發(fā)效果評價。
通過對自評量表進(jìn)行顯著性統(tǒng)計分析,對腦電數(shù)據(jù)進(jìn)行多種類別的特征提取和情緒分類,從主觀和客觀兩方面探究VR技術(shù)對參與者情緒和演唱表現(xiàn)的影響。本文的完整流程如圖1所示,采用基于腦電的情緒分類、情緒自評分?jǐn)?shù)統(tǒng)計分析和歌唱自評分?jǐn)?shù)統(tǒng)計分析3種方式,對16名參與者在自我想象式的情緒調(diào)動和VR情緒誘發(fā)兩種場景下的情緒進(jìn)行研究。研究結(jié)果表明,相比傳統(tǒng)情緒自我調(diào)動,沉浸式VR可以更好地誘發(fā)參與者的情緒,提升歌唱表現(xiàn),可為聲樂演唱者的學(xué)習(xí)和教學(xué)提供一種新的輔助方式和手段。
圖1 實(shí)驗(yàn)流程圖Fig.1 Flow chart of experiment
實(shí)驗(yàn)參與者為來自南京航空航天大學(xué)藝術(shù)學(xué)院聲樂表演專業(yè)的16名大學(xué)生(8名女生和8名男生,平均年齡為19.5±1.54歲)。所有參與者聽力均正常,視力正常或矯正正常,沒有任何腦部或精神疾病,所有參與者均為右利手。實(shí)驗(yàn)前一天晚上要求參與者保持充足的睡眠時間。所有參與者均簽署一份書面知情同意書。
選取3種情緒類別(正向、中性、負(fù)向)的6首歌曲作為情緒刺激材料,每種情緒兩首歌曲,分別為正性:《我和我的祖國》《在希望的田野上》;負(fù)性:《燭光里的媽媽》《時間都去哪兒了》;中性:《牧歌》《貝加爾湖畔》。每首歌曲被剪輯到3 min左右,去除每首歌的歌詞演唱,只保留背景音樂。
在實(shí)驗(yàn)中,每個被試需要進(jìn)行兩個階段的實(shí)驗(yàn),情緒自我想象和VR誘發(fā)情緒,完整的實(shí)驗(yàn)范式如圖2所示。情緒自我想象階段模擬聲樂教學(xué)場景,播放剪輯的歌曲,要求被試根據(jù)聽到的歌曲自我想象所對應(yīng)的場景和情緒。為了能夠更好地模擬真實(shí)聲樂教學(xué)場景,在情緒自我想象階段的歌曲背景音樂播放之前加入一段情緒引導(dǎo)解說,介紹歌曲的相關(guān)背景以及所需要的情緒。在VR誘發(fā)情緒方面,針對不同歌曲的具體內(nèi)容使用對應(yīng)的素材構(gòu)建沉浸式虛擬現(xiàn)實(shí)全景視頻,使得制作出的視頻與歌曲的情感和內(nèi)容吻合,從而達(dá)到更好的VR情緒誘發(fā)效果。如圖3視頻截圖所示,《我和我的祖國》使用故宮等全國各地景色;《在希望的田野上》使用田野場景;《燭光里的媽媽》使用懷孕母親的剪影等其他與母親相關(guān)的素材;《時間都去哪了》使用鐘表特寫等;《貝加爾湖畔》使用貝加爾湖風(fēng)景;《牧歌》使用草原放牧景色。這些場景的建立是通過搜集與歌曲內(nèi)容相關(guān)的全景視頻或圖片,并將其剪輯成一段完整的視頻作為情緒刺激的沉浸式VR全景視頻,視頻的背景音樂使用去除歌詞后的對應(yīng)歌曲。在VR誘發(fā)情緒階段,要求被試佩戴VR顯示眼鏡(Quest2,Oculus,美國),認(rèn)真觀看上述不同歌曲對應(yīng)的沉浸式虛擬現(xiàn)實(shí)全景視頻。
圖2 實(shí)驗(yàn)范式Fig.2 Experimental paradigm
圖3 6首歌曲虛擬現(xiàn)實(shí)全景視頻畫面Fig.3 Virtual reality panoramic video pictures of six songs
根據(jù)情緒類別,將實(shí)驗(yàn)的每個階段劃分為3組(負(fù)向、中性、正向),每組包括同種情緒類別兩首歌曲的實(shí)驗(yàn)。每首歌曲的實(shí)驗(yàn)流程包括情緒自我想象或觀看VR視頻3 min,以實(shí)現(xiàn)被試情緒的誘發(fā);唱歌1 min;使被試靜息休息1 min,休息完成后開始下一首歌曲的實(shí)驗(yàn)。每組兩首歌曲的實(shí)驗(yàn)完成后,要求被試填寫兩個自評量表:情緒自評量表(Self?assessment manikin,SAM)量表[16]和聲樂自評量表。在實(shí)驗(yàn)中,按照負(fù)向、中性、正向的順序依次播放每組的兩首歌曲,每兩組之間休息3 min。每個階段的3組實(shí)驗(yàn)結(jié)束后休息10 min。在實(shí)驗(yàn)中,被試被要求盡可能保持靜止,減少肌電等偽跡對腦電的影響。
自評價量表中的SAM量表通過1~9分自我評分的形式衡量情緒的愉悅度、激活度和支配度,分?jǐn)?shù)越高表示情緒越強(qiáng)烈(高愉悅、高喚醒、高支配)。聲樂自評量表從歌曲演唱連貫性、氣息運(yùn)用、共鳴運(yùn)用、音準(zhǔn)節(jié)奏、語言咬字、樂感和情感表達(dá)7個方面對歌唱表現(xiàn)進(jìn)行自評打分,分為優(yōu)、良、中和差4個等級(對應(yīng)分?jǐn)?shù)分別為4、3、2和1),分?jǐn)?shù)越高,歌唱表現(xiàn)越好。
使用64通道便攜式無線腦電圖系統(tǒng)(NeuSen.W64,博??担袊┻M(jìn)行數(shù)據(jù)采集,采樣率設(shè)置為1 000 Hz。根據(jù)國際標(biāo)準(zhǔn)10?20系統(tǒng),記錄59個電極的腦電數(shù)據(jù),以CPz為參考電極,AFz為接地電極。在整個實(shí)驗(yàn)過程中,所有電極阻抗都保持在5 kΩ以下。
使用EEGLAB[17]工具箱對腦電進(jìn)行預(yù)處理。在通道定位后,原始腦電數(shù)據(jù)經(jīng)過1~45 Hz的帶通濾波,進(jìn)行全腦平均重參考,降采樣到250 Hz。然后,使用獨(dú)立成分分析(Independent component analy?sis,ICA)將腦電信號分解為獨(dú)立成分,使用ICLabel[18]插件去除眼動、肌肉運(yùn)動等偽跡的影響。在預(yù)處理之后,將每首歌曲最后150 s的腦電信號劃分成1 s時間段的腦電信號樣本,用來獲得最大的情緒反應(yīng)[19]。
參考相關(guān)研究[20?21],本文主要提取兩類特征,包括線性特征和非線性特征。計算出的特征的具體類型和數(shù)量如表1所示。其中,每個被試的腦電數(shù)據(jù)表示為一個矩陣X(t),大小為c×N,N表示時間樣本數(shù),c表示腦電通道數(shù)。為方便起見,在下文中,將使用x(t)來表示單個通道的時間序列。
表1 本文提取的特征Table 1 Features extracted in this research
2.1.1 腦電時頻域線性特征
(1)時域特征
Hjorth參數(shù)[21?22]是腦電信號最重要的時域特征之一。Hjorth參數(shù)包括3類參數(shù):活動性(Activity)、移動性(Mobility)和復(fù)雜性(Complexity),分別代表信號的平均功率、平均頻率和頻率的變化[21];其定義分別為
式中x'()t表示x()t的一階導(dǎo)數(shù)。
對腦電信號計算了均方值(Mean square)、平均絕對振幅(Mean absolute amplitude)和方差(Vari?ance)3個統(tǒng)計特征,其定義分別為
(2)頻域特征
利用Welch法和漢寧窗計算信號x(t)的頻譜,并提取9個線性特征:總功率、最大功率譜密度、最大功率譜密度對應(yīng)頻率、5個頻段的平均功率(δ:1~4 Hz;θ:4~8 Hz;α:8~13 Hz;β:13~30 Hz;γ:30~45 Hz)、和半球不對稱性。其中,半球不對稱性[21,23?24]通常通過右半球功率的自然對數(shù)減左半球功率的自然對數(shù)(ln(右功率)-ln(左功率))來計算。在59個通道中,最終得到26個半球不對稱性特征。
2.1.2 腦電非線性特征
研究表明腦電信號有很強(qiáng)的非線性結(jié)構(gòu)[25],因此非線性特征也常用于情緒識別。
近似熵(Approximate entropy,Ap En)[26?27]是一種測量時間序列復(fù)雜性和規(guī)律性的分析方法,可以表示當(dāng)維數(shù)變化時時間序列中產(chǎn)生新模式的概率的大小。為了提取近似熵,首先將時間序列{x(t),t=1,2,…,N}轉(zhuǎn)換為m維向量Xt
然后計算任意向量Xt和Xj之間的距離(j=1,2,…,N-m+1),即
對于給定的閾值r,計算每個向量的距離dtj 樣本熵(Sample entropy,Samp En)[28]是對近似熵的改進(jìn)。與近似熵相比,樣本熵的計算不依賴數(shù)據(jù)長度,具有更好的一致性。樣本熵在計算每個向量的距離dtj 令m=m+1,重復(fù)上述過程,樣本熵可計算為 C0復(fù)雜度[29]描述序列的非規(guī)則程度,可以反映時間序列的隨機(jī)性。對于時間序列x(t),t=1,2,3,…,N,相應(yīng)的傅里葉變換表示為 根據(jù)歌曲的情緒種類將情緒分為負(fù)向、中性和正向3種類別。對于每個被試的樣本分別提取線性和非線性特征,使用Z?score對提取后的特征進(jìn)行標(biāo)準(zhǔn)化處理,并根據(jù)不同情緒種類的歌曲標(biāo)記不同的標(biāo)簽。 在本研究中,使用最大相關(guān)最小冗余(Max?relevance,min?redundancy,MRMR)算法[30]進(jìn)行特征選擇。該算法使用互信息來衡量特征與類別、特征與特征之間的關(guān)系,核心思想是最大化特征與分類變量之間的相關(guān)性,而最小化特征與特征之間的冗余性,即從特征空間中尋找與目標(biāo)類別有最大相關(guān)性且相互之間具有最少冗余性的m個特征。 本文使用徑向基核函數(shù)(Radial basis function,RBF)的支持向量機(jī)(Support vector machine,SVM)用于情緒識別。SVM作為一種廣泛使用的分類器,被證明是一種實(shí)用且魯棒的腦解碼方法[31]。本文采用十折交叉驗(yàn)證的方式計算分類的準(zhǔn)確性,并通過遍歷特征選擇后的特征維數(shù)k(10到50,步長為10),SVM的核函數(shù)參數(shù)g(0.5到4,步長為0.5)和懲罰系數(shù)c(10-2到102,步長系數(shù)為10)以得到最優(yōu)參數(shù)。為了評估情緒自我想象和VR誘發(fā)情緒兩種場景下分類準(zhǔn)確性的統(tǒng)計顯著性,在最優(yōu)參數(shù)下,分別對兩種場景下的數(shù)據(jù)進(jìn)行了100次十折交叉驗(yàn)證,并對兩種場景下100次的平均分類準(zhǔn)確率進(jìn)行顯著性檢驗(yàn)。 3.1.1 SAM量表 從16名被試中收集SAM量表數(shù)據(jù)(情緒的愉悅度、激活度和控制度,分?jǐn)?shù)范圍1~9),并對不同情緒類別下16名被試在自我想象情緒調(diào)動和VR情緒誘發(fā)兩種場景下的情緒自評分?jǐn)?shù)進(jìn)行了t?test檢驗(yàn),量表平均分?jǐn)?shù)和顯著性檢驗(yàn)結(jié)果如表2所示。在負(fù)向情緒下,情緒的愉悅度、激活度和控制度3個方面的自評分?jǐn)?shù)在兩種場景下都存在顯著性差異(所有p<0.01)。在中性情緒下,情緒的愉悅度、激活度和控制度3個方面的自評分?jǐn)?shù)在兩種場景下都沒有顯著性差異(所有p>0.05)。在正向情緒下,情緒的愉悅度和激活度自評分?jǐn)?shù)在兩種場景下存在顯著性差異(p<0.01),情緒的控制度自評分?jǐn)?shù)在兩種場景下沒有顯著性差異(p=0.33)。在兩個場景下的情緒自評平均分?jǐn)?shù)符合預(yù)期,即負(fù)向情緒的VR刺激使愉悅度降低,正向情緒的VR刺激使愉悅度升高,兩種情緒的VR刺激都使得激活度升高。由于中性情緒的效價和喚醒度一般都為中,所以在兩種場景下的愉悅度、喚醒度和支配度都不存在顯著性差異。 表2 SAM量表平均分?jǐn)?shù)和顯著性檢驗(yàn)結(jié)果Table 2 Average scores and significance test results of SAM 3.1.2 聲樂自評量表 從16名被試中收集聲樂自評量表數(shù)據(jù)(分?jǐn)?shù)范圍1~4),并對不同情緒類別下16名被試在7個評價維度的聲樂自評分?jǐn)?shù)進(jìn)行了t?test檢驗(yàn),量表平均分?jǐn)?shù)和顯著性檢驗(yàn)結(jié)果如表3所示。在負(fù)向情緒中,VR情緒誘發(fā)下的平均分在所有歌唱表現(xiàn)評價維度都大于自我想象的平均分,在共鳴運(yùn)用、情感表達(dá)方面有顯著性差異。 表3 聲樂自評量表平均分?jǐn)?shù)和顯著性檢驗(yàn)結(jié)果Table 3 Average score and significance test result of vocal self?rating scale 在中性情緒的自評量表中,VR誘發(fā)下的平均分在所有歌唱表現(xiàn)評價維度都大于自我想象的平均分,在共鳴運(yùn)用、情感表達(dá)方面有顯著性差異。在正向情緒的自評量表中,除了樂感方面,VR誘發(fā)下的平均分在所有其他歌唱表現(xiàn)評價維度都大于自我想象的平均分,在語言咬字和情感表達(dá)方面有顯著性差異。自我想象和VR情緒誘發(fā)下的歌唱情感表達(dá)自評分?jǐn)?shù)在3種情緒下都存在顯著性差異,且VR情緒誘發(fā)的平均分?jǐn)?shù)顯著高于自我想象,說明VR可以很好地誘發(fā)出歌唱情緒。 表4給出了自我想象和VR情緒誘發(fā)兩種場景下,基于MRMR算法,并使用最優(yōu)特征維數(shù)(k=30)和最優(yōu)參數(shù)下RBF核SVM進(jìn)行情緒識別的三分類準(zhǔn)確率(1 000個分類準(zhǔn)確率的平均值)。VR誘發(fā)場景下的情緒分類準(zhǔn)確率比自我想象高2.72%,且兩種場景1 000次分類準(zhǔn)確率存在顯著性差異(p<0.01)。圖4(a)和圖4(b)分別給出了自我想象和VR情緒誘發(fā)兩種場景的分類混淆矩陣,VR誘發(fā)場景下的負(fù)向情緒和正向情緒分類準(zhǔn)確率比自我想象場景有明顯提升(5.93%和3.17%),中性情緒的分類準(zhǔn)確率變化較小(0.84%)。結(jié)果說明,VR對于負(fù)向情緒和正向情緒誘發(fā)更為顯著。 表4 情緒識別分類準(zhǔn)確率Table 4 Accuracy of emotion recogni?tion classification % 圖4 情緒分類混淆矩陣Fig.4 Emotion classification confusion matrix 表5顯示了在自我想象和VR情緒誘發(fā)場景下,在1 000次特征選擇中出現(xiàn)次數(shù)大于950次的特征。 表5 特征選擇中出現(xiàn)次數(shù)大于950次的特征Table 5 Features with more than 950 occurrences in feature selection 在自我想象場景中,共有17個特征,包括16個線性特征和1個非線性特征。線性特征包括6個時域特征(3個為均方值、3個為方差)和10個頻域特征(1個為最大功率譜密度、1個為最大功率譜密度對應(yīng)頻率、1個為總功率、2個為頻帶平均功率、5個為半球不對稱性特征)。1個非線性特征為AF4電極的C0復(fù)雜度。 在VR情緒誘發(fā)場景中,共有15個特征,包括13個線性特征和2個非線性特征。線性特征包括3個時域特征(1個為均方值、1個為平均絕對振幅、1個為Hjorth活動性)和10個頻域特征(2個為頻帶平均功率、8個為半球不對稱性)。2個非線性特征為AF3電極的近似熵和PO6電極的C0復(fù)雜度。 在自我想象場景中選擇出的時域特征主要集中在均方值和方差兩種類型,而VR情緒誘發(fā)場景的時域特征類型比較分散。在兩種場景選擇出的特征中,頻域特征占大多數(shù)(10/16和10/15),自我想象場景下的頻域特征類別較為分散(共6種),VR情緒誘發(fā)場景下的頻域特征集中在頻帶平均功率和半球不對稱性兩類。在兩種場景的頻域特征中,半球不對稱性特征更為重要(占比5/10和8/10)。這可能是因?yàn)榍榫w具有半球不對稱性[23?24],且以往的研究也表明虛擬現(xiàn)實(shí)環(huán)境下的情緒誘發(fā)和游戲操作也會導(dǎo)致半球不對稱性[32?34]。 雖然本文提出了較好的對比結(jié)果,說明了VR應(yīng)用于輔助聲樂教學(xué)的可行性,但仍然存在被試數(shù)量較少、分布較窄等問題。在進(jìn)一步的研究中,將邀請更多聲樂表演專業(yè)的學(xué)生增加數(shù)據(jù)量,從而得到更有普遍性的結(jié)果。此外,也可以進(jìn)一步擴(kuò)展研究背景,邀請非聲樂表演專業(yè)的學(xué)生,研究虛擬現(xiàn)實(shí)技術(shù)對非專業(yè)演唱者的情緒誘發(fā)和演唱表現(xiàn)的影響。并在此基礎(chǔ)上,對比不同情緒誘發(fā)方式對專業(yè)演唱者和非專業(yè)演唱者在情緒誘發(fā)效果上的差異,以及其對應(yīng)大腦機(jī)制上的異同。 本文通過主觀量表和客觀腦電信號兩種數(shù)據(jù),對比了自我想象和VR情緒誘發(fā)兩個場景下被試的情緒狀態(tài),并探究了兩種場景下與情緒相關(guān)的腦電特征。量表的統(tǒng)計性結(jié)果和腦電情緒分類的結(jié)果表明,相比傳統(tǒng)自我想象方式,VR情緒誘發(fā)可以激活演唱者的情緒狀態(tài),從而提升演唱表現(xiàn)。本文第一次將VR和腦電結(jié)合運(yùn)用在聲樂教學(xué)和表演中,不僅為基于腦電的情緒識別應(yīng)用于歌唱表演場景下開辟一個新的研究領(lǐng)域,同時也為VR輔助音樂教育的教學(xué)模式提供了新的研究路徑。2.2 特征選擇和情緒分類
3 實(shí)驗(yàn)結(jié)果與分析
3.1 自評量表結(jié)果
3.2 分類性能
3.3 判別性特征
3.4 問題與展望
4 結(jié)束語