張 霞 楊 勇 趙 力
(1.莆田學院機電與信息工程學院,福建 莆田 351100;2.東南大學信息科學與工程學院,江蘇 南京 210096)
在日常生活中,語音是人類進行交流的重要媒介,語音信號在傳達語句含義信息的同時,也傳遞了情感信息。同樣一句話由于說話人表達的情感不同,聽話者感知時就會有較大的語義差別。要想進一步提高人機交互能力,實現(xiàn)真正意義的人工智能,就需要賦予計算機像人一樣地觀察、理解和生成各種情感特征的能力,使計算機能夠更加自動適應(yīng)操作者[1]。過去的研究者在進行語音信號處理時,把語音中這部分信息作為噪聲通過規(guī)則化處理給去掉了。隨著近年來對情感識別研究的深入,研究者逐漸意識到這些情感信息的重要性,開始進行專門研究分析,并將研究成果應(yīng)用到了各個領(lǐng)域,獲得了很好的經(jīng)濟和社會效益。
語音情感識別中最重要的是分類算法,應(yīng)用最廣泛的模式分類器有:隱馬爾可夫模型(Hidden Markov Model,HMM)、高斯混合模型(Gaussian Mixture Model,GMM)、支持向量機(Support Vector Mechine,SVM)及人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)等[2]。作為初期計算性能較好的算法,HMM 以一階Markov 鏈為基礎(chǔ)發(fā)展起來,有不可見狀態(tài)和可見狀態(tài)兩種常規(guī)狀態(tài),是雙重隨機過程[3]。Nwe 等[4]通過HMM 對六種情感進行判斷、預(yù)測,最終在緬甸語料庫的識別率達到78%。GMM[5]是一種單狀態(tài)的隱性馬爾可夫模型,由于它結(jié)構(gòu)簡單所以被廣泛用于各種語音信號分類中。GMM 作為統(tǒng)計模型能吸收不同語音信號的聲學特性的變動[6],但由于該模型采用狀態(tài)輸出獨立假設(shè),影響了其描述語音信號時間上的幀間相關(guān)動態(tài)特性的能力。本文提出了一種采用相繼的復(fù)數(shù)幀組成的特征參數(shù)矢量作為輸入特征量的方法來彌補傳統(tǒng)GMM 語音幀間相關(guān)動態(tài)信息利用不足的問題。然而要很好地利用復(fù)數(shù)幀段輸入GMM的關(guān)鍵是要解決當輸入特征參數(shù)矢量的維數(shù)增加時,GMM 輸出概率密度函數(shù)協(xié)方差矩陣的估計誤差以及計算量增大的問題。對此,提出一種基于主分量分析神經(jīng)網(wǎng)絡(luò)(Principal Components Analysis Neural Network,PCANN)[7]和GMM 混合結(jié)構(gòu)的語音情感識別方法,在GMM 的前端增加了一個用于語音參數(shù)壓縮的主分量分析神經(jīng)網(wǎng)絡(luò),既改善了狀態(tài)輸出獨立GMM 的缺陷,又解決了上述問題。
一個具有M個成員的GMM 的概率密度可由M個高斯概率密度函數(shù)的加權(quán)求和得到,由下式表示[8-9]:
這里x是D維的輸入隨機向量;bi(x)(i=1,2,…,M)是第i個成員的高斯概率密度函數(shù);wi(i=1,2,…,M)是i個成員權(quán)值系數(shù)。完整的GMM 可表示為:λ={wi,μi,Σi}(i=1,2,…,M),其中μi表示第i個成員的平均值向量,Σi表示第i個成員的協(xié)方差矩陣。每個成員密度函數(shù)是一個D維的高斯分布函數(shù),可由如下表示:
對于一個長度為T的測試輸入時間序列X=(x1,x2,…,xT),它的GMM 似然概率可以表示為:
或用對數(shù)域表示為:
假設(shè)有N個未知類別,分類時運用貝葉斯定理,在N個未知類別的模型中,得到似然概率最大的模型對應(yīng)的類別即為識別結(jié)果:
主分量分析(Principal Components Analysis,PCA)是一種機器學習算法[10]。主要是通過協(xié)方差矩陣將原來維數(shù)較高的具有一定相關(guān)性的數(shù)據(jù),線性組合成維數(shù)較少的互不相關(guān)的數(shù)據(jù)[11-12]。利用復(fù)數(shù)幀段輸入GMM 的關(guān)鍵是要解決當輸入特征參數(shù)矢量的維數(shù)增加時,輸出概率密度函數(shù)協(xié)方差矩陣的估計誤差以及計算量增大的問題,在GMM 的前端增加了一個語音參數(shù)壓縮的PCANN。圖1 所示是能夠提取前m個主分量的PCANN 結(jié)構(gòu)圖[7]。
圖1 提取m 個主分量的神經(jīng)網(wǎng)絡(luò)
式中:η為增益因子,η的選取決定網(wǎng)絡(luò)收斂的快慢。k為迭代次數(shù)。可以證明,按照公式(6)進行權(quán)值迭代更新,網(wǎng)絡(luò)收斂后,m個輸出的權(quán)值向量位于樣本協(xié)方差矩陣的前m個最大特征值對應(yīng)的特征矢量方向上。利用上述算法提取的多個主分量,在理論上已經(jīng)能保證各權(quán)向量的正交性,但實際應(yīng)用中發(fā)現(xiàn)算法收斂太慢,迭代次數(shù)太多。因此實驗中我們在訓(xùn)練一定次數(shù)以后強制進行一次正交化,從而既可使訓(xùn)練時間大大減少,又能保證得到較好的識別效果。權(quán)值的正交化采用格蘭姆-施密特規(guī)則,設(shè)第i+1 個權(quán)向量經(jīng)去冗余法提取后為:
利用‖Wj‖=1,可得:
對其進行歸一化可得:
有了第i個權(quán)向量,即可得第i個主分量:yi=。
復(fù)數(shù)幀段GMM 的輸入是由相繼的復(fù)數(shù)幀特征參數(shù)矢量按順序組合成的一個復(fù)合特征參數(shù)矢量,每個復(fù)數(shù)幀段特征參數(shù)的段移為一幀。這些復(fù)數(shù)幀段特征參數(shù)作為語音輸入特征數(shù)據(jù)在模型訓(xùn)練和識別時使用。
本文使用的語音情感數(shù)據(jù)庫是免費的柏林情感語音庫,其采樣頻率為16 kHz,16 bit 量化[14]。該語音庫分別由十名專業(yè)演員(5 男,5 女)在不同情感狀態(tài)下(高興、無聊、中性、悲傷、恐懼、厭惡、生氣)朗讀十句不同文本的德語組成。本實驗選取其中的高興、中性、悲傷、恐懼、厭惡、生氣六種情感的語句各60 條。其中每種情感選30 條作為訓(xùn)練樣本,另外30 條作為待識別樣本,而且訓(xùn)練樣本和待識別樣本中,男女聲音樣本比例基本為1 ∶1,來驗證復(fù)數(shù)幀段輸入GMM 在語音情感識別中的識別效果。
語音情感識別特征選取部分語音韻律特征和音質(zhì)特征及其衍生參數(shù)共23 個特征參數(shù),構(gòu)成用于識別的情感特征向量:特征1~5 維:短時幅度的均值、最大值、最小值、中值、方差;特征6~10 維:短時能量的均值、最大值、最小值、中值、方差;特征11~14 維:短時過零率的均值、最大值、中值、方差;特征15~18維:短時基音頻率的均值、最大值、中值、方差;特征19~23 維:短時共振峰頻率的均值、最大值、最小值、中值、方差。
評價上述PCANN/GMM 混合結(jié)構(gòu)語音情感識別方法的識別實驗主要是把傳統(tǒng)的狀態(tài)輸出獨立GMM 和PCANN/GMM 混合結(jié)構(gòu)模型進行識別準確率比較。PCANN/GMM 模型的輸入分別采用2 幀、4 幀和6 幀長度的復(fù)數(shù)幀。識別結(jié)果如表1~表4所示,識別率采用四舍五入法取整數(shù)。
由表1~ 表4 的識別測試結(jié)果可以看出,PCANN/GMM 的識別效果比狀態(tài)輸出獨立GMM好,識別率均有所提高。2 幀、4 幀和6 幀寬度PCANN/GMM 的平均識別率分別為76.3%、84.2%和81.2%,幾種情況中,對“生氣”的情感識別率普遍較高。另外,4 幀寬度PCANN/GMM 的識別率最高,4 幀的語音長度能較好地描述幀之間的動態(tài)特性,幀數(shù)太少,不能較全面完整地利用幀間的特性,隨著幀數(shù)的增加,幀之間的情感相關(guān)性隨之減弱,有時甚至會發(fā)生情感的轉(zhuǎn)變,從而影響識別率。
表1 狀態(tài)獨立輸出GMM 情感識別結(jié)果
表2 2 幀寬度GMM 情感識別結(jié)果
表3 4 幀寬度GMM 情感識別結(jié)果
表4 6 幀寬度GMM 情感識別結(jié)果
語音情感識別作為情感計算中的一個重要方面,目的是要讓計算機能夠理解人類語音中所傳遞的情感信息。而由于情感信息的社會性、文化性,以及語音信號自身的復(fù)雜性,語音情感識別中尚有許多問題需要解決,特別是符合人腦認知結(jié)構(gòu)與認知心理學機理的情感信息處理算法。本文將主分量分析神經(jīng)網(wǎng)絡(luò)與高斯混合模型相結(jié)合,研究了其在語音情感識別中的學習能力和識別效果。針對高興、生氣、厭惡、悲傷、恐懼和中性六種基本情感,提取了包括韻律特征與音質(zhì)特征在內(nèi)的23 個情感特征。語音情感識別實驗證實了引入幀間相關(guān)動態(tài)信息方法的有效性。建立一個高效合理的語言情感識別模型仍是研究重點,今后需要進一步探討主分量分析神經(jīng)網(wǎng)絡(luò)與高斯混合模型的結(jié)合,特別是優(yōu)化神經(jīng)網(wǎng)絡(luò)的拓撲結(jié)構(gòu)方面還存在許多尚未解決的問題。