趙 鑫
(山西鐵道職業(yè)技術(shù)學(xué)院,山西 太原030013)
語言作為人類溝通交流的工具,其聲學(xué)信息和語言特性中都蘊(yùn)含著大量的可挖掘情感信息。語音情感識別在諸多領(lǐng)域,特別是在心理疏導(dǎo)、抑郁癥、孤獨(dú)癥等疾病的治療,安全,教育等領(lǐng)域中都起到了極大的作用[1]。如何提高對語音情感的有效識別,使人機(jī)交互能更好的為人類服務(wù),也成為語音識別領(lǐng)域新的研究方向。
隨著語音情感識別研究的逐漸深入,語音情感識別也從傳統(tǒng)的機(jī)器學(xué)習(xí)向深度神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)變。近年來,已有一些學(xué)者利用人工智能、機(jī)器學(xué)習(xí)的方法,在語音情感的處理與分析領(lǐng)域做了一定研究。其中王宇鵬等人提出可以通過卷積循環(huán)神經(jīng)網(wǎng)絡(luò)提取語譜圖特征后與聲學(xué)特征進(jìn)行拼接識別,其識別率優(yōu)于單一特征[2]。陶建華等人用權(quán)重衰減型神經(jīng)網(wǎng)絡(luò)和分類回歸樹的兩個(gè)模型,證明了情感韻律與特征之間存在有密切聯(lián)系[3]。高瑩瑩等人從情感的多視角出發(fā),從不同的方面對語音中情感產(chǎn)生的過程和衍化進(jìn)行刻畫[4]。盡管通過深度學(xué)習(xí)來學(xué)習(xí)數(shù)據(jù)的高層抽象信息,已成功應(yīng)用于語音識別和圖像處理,但在語音情感識別方面還存在很大的研究空間。
本文提出一種極限學(xué)習(xí)機(jī)多層網(wǎng)絡(luò)的語音情感識別方法,該方法通過對語音信號自編碼獲取高層情感特征,避免繁瑣的手動提取特征的過程。訓(xùn)練過程中,利用語音情感隱含特征向量構(gòu)建特征空間,提取、選擇多個(gè)不同情緒的語音情感特征向量,用極限學(xué)習(xí)機(jī)深度自編碼網(wǎng)絡(luò)學(xué)習(xí)語音情感特征,以此對語音情感起一定的分類識別作用,如圖1所示。
圖1 語音情感識別過程圖
現(xiàn)有研究表明,日常生活中,人與人之間的交流不僅傳遞信息,還會通過語氣和語調(diào)的變化表達(dá)自己的情感。語音的頻率特征和音質(zhì)特征都會發(fā)生一定的變化,其中所隱含的情感特征也不同。其中,頻率特征首要考慮基頻、均方根短時(shí)能量和過零率三個(gè)衡量指標(biāo)。音質(zhì)特征涉及諧波信噪比、對數(shù)頻率功率系數(shù)(Log Frequency Power Coefficients,簡稱LFPC)、Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,簡稱MFCC)等。根據(jù)已有研究顯示,將對數(shù)頻率功率系數(shù)作為特征參數(shù)對5種基礎(chǔ)情感的識別率更高。因此,在本文方法模型的參數(shù)選擇上,設(shè)置并提取以1~12維LFPC系數(shù)、基頻等共16種短時(shí)特征為參數(shù)。同時(shí),通過提取對長語音進(jìn)行裁剪,提取其短時(shí)特征及其一階倒數(shù)完成情感特征統(tǒng)計(jì)量的構(gòu)建,其中包括最大值、最小值、均值等10種,共計(jì)320個(gè)語音情感特征量,并從中優(yōu)先選擇前10個(gè)最有價(jià)值的特征,如表1所示。
表1 語音情感特征量等級排列前10
本文提出采用多層特征提取的極限學(xué)習(xí)機(jī)深度自編碼算法,如圖2所示。與傳統(tǒng)貪心學(xué)習(xí)框架不同,本文的自編碼網(wǎng)絡(luò)訓(xùn)練分為兩個(gè)階段,前一階段采用基于多層極限學(xué)習(xí)機(jī)的自編碼來提取輸入數(shù)據(jù)的高層稀疏特征,第二階段則使用原始極限學(xué)習(xí)完成最終的分類識別。
圖2 分層極限學(xué)習(xí)機(jī)算法框架
首先,先將提取的語音特征作為輸入數(shù)據(jù)轉(zhuǎn)換到ELM特征空間中,通過多層極限學(xué)習(xí)機(jī)自編碼網(wǎng)絡(luò)學(xué)習(xí)獲得高層稀疏特征。每個(gè)隱含層輸出的數(shù)學(xué)表達(dá)式為:
Hi=g(Hi-1·β)
(1)
其中,Hi是第i層的輸出(i∈[1,K]);g(·)表示隱含層激勵(lì)函數(shù);β代表輸出權(quán)重。在數(shù)據(jù)特征進(jìn)行分層極限學(xué)習(xí)機(jī)訓(xùn)練之后,最后一層輸出的特征將作為原始ELM回歸分析的輸入。同時(shí),為了加速學(xué)習(xí)速度,輸入之前要將第K層的輸出數(shù)據(jù)隨機(jī)打亂。
本實(shí)驗(yàn)采用的語音數(shù)據(jù)選自中國科學(xué)院自動化研究中文語音情感數(shù)據(jù)庫,采用5折交叉驗(yàn)證方法,選取5類基本情感進(jìn)行識別,共選取5000條語句,每種情感包含1000個(gè)短句,對于每種情感按3∶2隨機(jī)選取600條進(jìn)行訓(xùn)練,400條進(jìn)行測試。
在特征學(xué)習(xí)階段,需要指定自編碼的層數(shù)和隱含層的激勵(lì)函數(shù)。在實(shí)驗(yàn)過程中我們發(fā)現(xiàn),提取的特征信息一開始具有明顯的區(qū)分度,分類準(zhǔn)確率會隨著層數(shù)的增多而提高。但隨著層數(shù)的進(jìn)一步增加,抽象特征信息使得分類性能下降,分類準(zhǔn)確率也會隨之下降,根據(jù)實(shí)驗(yàn)測試,我們將特征學(xué)習(xí)的層數(shù)設(shè)置為4,如圖3所示。
圖3 特征學(xué)習(xí)中層數(shù)對識別準(zhǔn)確率的影響
實(shí)驗(yàn)過程中,我們將不同類型的核函數(shù)分別運(yùn)用到極限學(xué)習(xí)機(jī)深度網(wǎng)絡(luò)框架中,如圖4所示,不同類型的核函數(shù)運(yùn)用到H-ELM中分類效果不同,結(jié)果顯示非線性核函數(shù)比線性核函數(shù)能夠取得較好的分類準(zhǔn)確率。最后選用高斯函數(shù)作為自動編碼的核函數(shù),保證整個(gè)框架能夠得到最好的結(jié)果。
圖4 不同類型的核函數(shù)對識別準(zhǔn)確率的影響
在有監(jiān)督的特征分類階段,與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練算法相比,分層學(xué)習(xí)機(jī)訓(xùn)練過程中只需指定兩個(gè)參數(shù):用于計(jì)算最小均方誤差的參數(shù)C和隱含層神經(jīng)元的個(gè)數(shù)K。由圖5可知,隨著隱含層節(jié)點(diǎn)個(gè)數(shù)K的增加,合適的C會使得準(zhǔn)確率曲線更加平滑并且測試準(zhǔn)確率呈現(xiàn)上升趨勢,當(dāng)K值大于60時(shí),曲線趨于水平。我們設(shè)置節(jié)點(diǎn)個(gè)數(shù)為90,最小均方誤差參數(shù)C為108。
圖5 參數(shù)C和K的取值和學(xué)習(xí)性能之間的關(guān)系
通過對數(shù)據(jù)庫中選取的5種基本情緒狀態(tài)的情感語料信息的測試實(shí)驗(yàn),分別計(jì)算出對5種不同情感的識別性能,如表2所示。
表2 對不同語音情感的識別率
為更好的對本文算法識別準(zhǔn)確率進(jìn)行驗(yàn)證,我們使用相同的數(shù)據(jù)集將本文方法的實(shí)驗(yàn)結(jié)果和其他專家研究方法進(jìn)行測試比較,如圖6所示。
圖6
如何構(gòu)建更有效的語音情感識別算法模型一直是語音情感識別領(lǐng)域的研究熱點(diǎn)。本文針對現(xiàn)有語音情感識別算法中的不足,提出一種將語音情感特征提取和深度自編碼網(wǎng)絡(luò)相結(jié)合的語音情感識別方法。先對語音中蘊(yùn)含的情感進(jìn)行特征提取與分析,同時(shí)使用深度極限學(xué)習(xí)機(jī)自編碼網(wǎng)絡(luò)對語音中潛在情感進(jìn)行特征學(xué)習(xí),提高了對語音情感的識別率,為更好的實(shí)現(xiàn)人機(jī)交互提供幫助。