劉洋 秦海波
【摘要】在航天飛行環(huán)境應激因素的影響下,航天員容易出現(xiàn)煩躁、焦慮、緊張、低警覺等情緒改變,這些改變會在語音中有所體現(xiàn),通過語音情緒識別技術可以監(jiān)測航天員的情緒變化?;谳d人航天應用的實際需求,本研究建立了應激情緒語料庫,并通過特征提取、高斯混合模型(GMM)方法搭建了語音情緒識別模型和軟件平臺,對該模型下語音情緒識別準確度進行了驗證。
【關鍵詞】語音 情緒 識別 載人航天 GMM
【中圖分類號】R853 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2018.17.008
航天飛行環(huán)境中存在著諸如密閉、限制、超重、失重、高工作負荷、高風險和睡眠剝奪等應激因素,在這些因素的影響下,航天員容易出現(xiàn)煩躁、焦慮、緊張、低警覺等情緒改變,進而影響航天員的工作效率,甚至會危害其身心健康、導致操作失誤,影響任務的順利完成[1]。因此,人的因素已經(jīng)被普遍認為是制約未來航空、航天飛行任務的重要因素,而應激情緒又是其中的關鍵。
言語作為人們交流的最主要方式,既包含語義信息內(nèi)容,也包含了說話人的情緒、情緒狀態(tài),即言語表情。言語的語義、韻律等各層次都能反映個體內(nèi)心的情緒狀態(tài)。高工作負荷、緊急狀態(tài)、噪聲、振動、超重、失重等應激因素引起的煩躁、焦慮、緊張等應激情緒,也會在語音中有所體現(xiàn)。如果能夠通過語音及時客觀地監(jiān)測航天員的情緒狀態(tài)變化,地面心理支持人員就可以有針對性地給予航天員心理支持和疏導,從而降低負性情緒帶來的不良影響。
本文對當前載人航天領域語音情緒識別的研究進展,基于高斯混合模型(GMM)方法搭建語音識別模型,以及該語音情緒識別準確度驗證等進行了介紹。
語音情緒識別原理
人們的語音信息不僅包含了語義信息,同時也攜帶了情感信息,不同情緒下的語音信號特征參數(shù)存在差別。如一個人憤怒時,講話的速率會變快、音量會變大、音調(diào)會升高等,此外已經(jīng)研究驗證語速、振幅、基頻和共振峰等參數(shù)特征,均與情緒變化有關系。通過數(shù)據(jù)處理,將能夠反映情感變化的語音參數(shù)從語音中提取并量化出來,構造這些參數(shù)與情緒分類的函數(shù)。
語音情緒識別分為兩個步驟,一是模型的訓練,通過對情緒分類已知的語音特征分析,提出有效的參數(shù)和權值,構造語音情緒數(shù)據(jù)的判別分類模型,常見的語音情緒識別方法有神經(jīng)網(wǎng)絡法、隱馬爾可夫模型(Hidden Markov Model,HMM)法、高斯混合模型(Gaussian Mixture Model, GMM)法等。神經(jīng)網(wǎng)絡法是較早用于語音情緒識別中的一種方法,通過對基本情緒類別進行分析,得出了高興等正面情緒和煩躁等負面情緒識別的難易程度,但識別率較低,平均識別率只有50%;HMM法由于采用短時時序特征,受到文本信息變化的影響較大,例如,共振峰是一種常用的語音情緒特征,但是受到音位信息影響嚴重;GMM法是近年來說話人識別和語種識別中比較成功的方法,能夠擬合任意的概率密度函數(shù)分布,建模能力強,但其對訓練數(shù)據(jù)依賴性較強。二是利用所建立分類器模型進行語音情緒識別。這個過程如圖1所示。
載人航天環(huán)境下語音情緒識別研究進展
相比實驗室環(huán)境,載人航天實踐中存在著噪音和失重等因素的干擾[2],航天飛行下語音情緒識別需要對相應的因素進行研究。針對航天噪聲,需要針對性涉及方法進行端點檢測及降噪處理。載人航天器噪聲主要來源為環(huán)控生保系統(tǒng),噪聲頻帶集中于200~500Hz、2000~2100Hz和3800~4100Hz三個窄帶內(nèi)。李皖玲等使用了對相應頻帶的噪聲直接過濾,使用相鄰頻帶的語音信息相關性對過濾掉的頻帶進行數(shù)據(jù)回填的方法,取得了很好的效果[3]。針對失重等因素,高慧等通過對72h心理隔絕及睡眠剝奪實驗,密閉艙60d實驗,以及頭低位60d模擬失重實驗的語音特征研究發(fā)現(xiàn),在應激環(huán)境下,煩躁情緒與基頻變化具有一致性,音節(jié)時長、短時能量的變化與時間節(jié)點有關[4]。高慧等采用基于Teager能量算子的非線性特征,運用HMM技術,對實驗獲取的平靜—煩躁情緒平均識別率為98.6%[5]。
高斯混合模型
高斯混合模型(GMM)法是近年來說話人識別和語種識別中比較成功的方法,能夠擬合任意的概率密度函數(shù)分布,建模能力強。GMM是M成員密度的加權和,可以用如下形式表示:
情緒語音數(shù)據(jù)庫建立
人類聲音中蘊含的情緒信息,受到無意識的心理狀態(tài)變化的影響,以及社會文化習慣導致的有意識的控制。對自然語音情緒識別的研究不適合采用表演數(shù)據(jù),需要通過誘發(fā)(Induced)的方式采集自然度較高的數(shù)據(jù)。
本項目采用計算機游戲進行情緒誘發(fā),通過游戲中畫面和音樂的視覺、聽覺刺激,提供一個互動的、具有較強感染力的人機交互環(huán)境,能夠有效誘發(fā)出被試的正面與負面情緒。特別是在游戲勝利時,被試由于在游戲虛擬場景中的成功與滿足,被誘發(fā)出喜悅等正面情緒;在游戲失敗時,被試在虛擬場景中受到挫折,容易引發(fā)煩躁等負面情緒;在游戲過程中,一些具有挑戰(zhàn)性的游戲情節(jié)往往能引發(fā)被試的應激情緒。
在游戲前,讓被試平靜地讀出指定的文本內(nèi)容,錄制平靜狀態(tài)的語音。在每次游戲失敗后,要求被試說出指定的文本內(nèi)容,錄制負面應激情緒狀態(tài)的語音。在游戲進行到一半時,暫停游戲,要求被試用說出指定的文本語句內(nèi)容,錄制語音。為了便于對數(shù)據(jù)進行檢驗,在每次錄制情緒語音后,讓被試填寫情緒的主觀體驗,在實驗結束后,根據(jù)被試的情緒主觀體驗表,剔除主觀體驗與誘發(fā)目標情緒不一致的語音數(shù)據(jù),必要時進行適當?shù)难a錄。為了保證所采集的情緒語料的可靠性,對采集的語音情緒數(shù)據(jù)進行了主觀聽辨與評選,每句樣本由10名未參與錄音的人員進行評測。
針對在長期載人航天環(huán)境以及其它類似的高強度特殊作業(yè)環(huán)境中面臨的實際問題,選擇了具有實際應用價值的語音情緒,采集了“煩躁”或“應激”情緒狀態(tài)下的語音情緒數(shù)據(jù),建立了一個中文的實用語音情緒數(shù)據(jù)庫,即應激語料庫。如表1所示。
語音特征提取、軟件編制
通過文獻和經(jīng)驗,我們采用了74個指標作為語音情緒研究的特征指標(feature),具體包括語句發(fā)音持續(xù)時間、語速等時間相關參數(shù);平均振幅、最大振幅、基音相關參數(shù)、平均基音頻率、最大基音頻率、基音變化率等能量相關參數(shù);第一共振峰均值、最大第一共振峰、第一共振峰變化率等共振峰相關參數(shù)[7]。
在Windows7與Microsoft Visual Studio 2008環(huán)境下,采用標準的C++語言編制軟件,編制了用于情緒語音分析的基本函數(shù)庫,包括了一部分常用的信號處理、矩陣計算、參數(shù)估計、概率統(tǒng)計、語音信號處理、文件輸入輸出等功能,軟件具有單個語音文件的讀入功能、批量識別、時域波形顯示、頻譜圖顯示、播放語音文件、長時段語料分割、模型訓練、情緒識別等功能。
驗證試驗
為了保證程序模型的準確和實用性,驗證試驗材料采用了與模型建立不同的標準語料,分別從中文標準庫(CASIA漢語情緒語料庫)和德文標準庫(Berlin Database of Emotional Speech)進行篩選,把情緒種類已知的應激語料與平靜語料混合(4:1,總數(shù)100句),令識別模型自動檢出平靜和應激的語句數(shù)目,結果發(fā)現(xiàn):應激和平靜兩種語料的識別率之和為100%。程序運行結果穩(wěn)定,軟件計算過程正確。
通過比對,該模型對德文標準庫應激情緒的識別率為91%,中性情緒識別正確率為60%,總識別正確率為85%,總識別錯誤率為15%;對中文語料庫的應激情緒識別率為86%,對中性情緒率為55%,總識別正確率為78%,總識別錯誤率為22%。
結語
在總結近年來國內(nèi)外自動語音情緒識別研究的基礎上,我們研究了針對非特定說話人、非特定文本的語音情緒識別算法,并且開發(fā)了基于高斯混合模型的語音情緒識別軟件。語音情緒識別對于航天員情緒監(jiān)測具有重要的意義,由于GMM存在對訓練樣本依賴性,在后續(xù)應用中可以通過對特定人語音樣本的學習,提高實際應用的準確性。同時也可以考慮結合多模態(tài)的語音情緒識別,進一步提高準確率。
(本文系中國航天醫(yī)學工程預先研究項目成果,項目編號:2014SY54A0001)
注釋
[1] 秦海波、白延強、吳斌等:《載人航天飛行中的情緒研究進展》,《航天醫(yī)學與醫(yī)學工程》,2012年第25卷第4期,第302~306頁。
[2] 高慧、周篤強、黃端生:《噪聲對說話人語音的影響》,《航天醫(yī)學與醫(yī)學工程》,1999年第12卷第1期,第72~75頁。
[3] 李皖玲、梁吳迪、張?zhí)煜妫骸痘陔[馬爾可夫模型的語音識別技術在載人航天器上的應用》,《航天器環(huán)境工程》,2013年第30卷第4期,第441~445頁。
[4] 劉志剛、黃端生、鄭素賢:《頭低位臥床模擬失重對漢語語音特征的影響》,《航天醫(yī)學與醫(yī)學工程》,2000年第13卷第3期,第171~173頁。
[5] 高慧、陳善廣、安平等:《模擬航天環(huán)境下一種應激情緒的語音識別研究》,《航天醫(yī)學與醫(yī)學工程》,2010年第23卷第4期,第248~252頁。
[6] 高慧、蘇廣川、陳善廣:《不同情緒狀態(tài)下漢語語音的聲學特征分析》,《航天醫(yī)學與醫(yī)學工程》,2005年第18卷第5期,第350~354頁。
[7] Sreenivasa Rao Krothapalli, Shashidhar G. Koolagudi, Emotion Recognitionusing Speech Features, Springer, 2013.
責 編/馬冰瑩