楊雪祎
摘 要:隨著時(shí)代的快速發(fā)展,有關(guān)帶有對(duì)情感分辨的語(yǔ)音識(shí)別馬上就將進(jìn)入人們的視線?,F(xiàn)在已經(jīng)有了對(duì)情感分辨的初級(jí)應(yīng)用,比如微信的語(yǔ)音會(huì)通過(guò)特殊詞以及說(shuō)話人的語(yǔ)氣在翻譯中給出小表情。本文淺寫了帶有情感的語(yǔ)音識(shí)別以及對(duì)于語(yǔ)音評(píng)分給出的不同思路。
關(guān)鍵詞:語(yǔ)音評(píng)分;語(yǔ)音識(shí)別;情感分辨
現(xiàn)今,隨著我國(guó)旅游產(chǎn)業(yè)發(fā)展越來(lái)越快,導(dǎo)游行業(yè)出現(xiàn)人才供應(yīng)不足的現(xiàn)狀,在這樣的大環(huán)境下,出現(xiàn)一款有關(guān)情緒,有關(guān)講解的評(píng)分的語(yǔ)音評(píng)分系統(tǒng)是勢(shì)在必行的趨勢(shì)。
語(yǔ)音情感識(shí)別是指計(jì)算機(jī)可以自動(dòng)識(shí)別語(yǔ)音信號(hào)的情感狀態(tài)。語(yǔ)音作為人類的主要交流媒介之一,不僅承載了語(yǔ)義信息,還包含了說(shuō)話者的情感信息。讓機(jī)器感知人類的情感,將有助于在人機(jī)交互中進(jìn)行更自然的、更和諧的對(duì)話。語(yǔ)音情感識(shí)別在人機(jī)交互中的重要作用,目前已經(jīng)成為模式識(shí)別、多媒體信息處理和人工智能等領(lǐng)域的研究熱點(diǎn)。賦予機(jī)器識(shí)別語(yǔ)音情感的能力,可以進(jìn)一步提高語(yǔ)音識(shí)別和說(shuō)話人識(shí)別的性能,是實(shí)現(xiàn)自然人機(jī)交互的關(guān)鍵。
1 語(yǔ)音識(shí)別
在相同的情感語(yǔ)言信息中共享相似的聲學(xué)特征,也涉及不同說(shuō)話人的個(gè)體風(fēng)格。因此,成熟的語(yǔ)言情感識(shí)別系統(tǒng)具有良好的泛化性能,需要訓(xùn)練才能獲得魯棒的語(yǔ)義特征。情緒的出現(xiàn)不是瞬間的,而是通過(guò)暫時(shí)的積累來(lái)表現(xiàn)的。因此,如何從時(shí)間維度思考情感的發(fā)展是語(yǔ)言情感識(shí)別的一個(gè)重要突破。在以往的許多操作中,基于幀級(jí)音頻特征提出了不同的處理方法,希望能夠捕捉到連續(xù)幀特征中包含的時(shí)序信息,并學(xué)習(xí)情感上相關(guān)的語(yǔ)義特征。該方法不局限于均衡、最大庫(kù)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)度記憶單元。
情感特征提取作為語(yǔ)音情感識(shí)別的重要組成部分,引起了眾多研究者的廣泛關(guān)注。這些研究大多致力于設(shè)計(jì)一些最具特色的手工特征進(jìn)行情感識(shí)別。更具體地說(shuō),特征提取包括兩個(gè)階段。首先,從每一幀語(yǔ)音信號(hào)中提取一些聲學(xué)特征,通常包括韻律學(xué)特征、基于譜的相關(guān)特征、聲音質(zhì)量特征和非線性特征等,還有一些通過(guò)改變算法提取的情感特征。然后,將不同的統(tǒng)計(jì)函數(shù)(均值、最大值、方差等)應(yīng)用于每個(gè)話語(yǔ)的聲學(xué)特征得到統(tǒng)計(jì)特征。通過(guò)大量精心準(zhǔn)備的實(shí)驗(yàn),尋找表現(xiàn)出與情感高度相關(guān)的特征,這是一項(xiàng)耗時(shí)耗力的工作。此外,所選特征的有效性在很大程度上仍然依賴于所實(shí)現(xiàn)的模式識(shí)別模型,導(dǎo)致其通用性較低。
2 語(yǔ)音評(píng)分準(zhǔn)則
2.1 完整性
對(duì)于這個(gè)方面,最重要的是開始的語(yǔ)言和結(jié)束的語(yǔ)言,以及是否能將景物,景點(diǎn)的重要點(diǎn)都講出來(lái)。
2.2 流利性
上下的連貫,整體的流利性作為評(píng)分的重點(diǎn)一環(huán)。停頓是衡量語(yǔ)言流暢性的一個(gè)重要指標(biāo)。1)在適當(dāng)?shù)脑~匯量中,語(yǔ)義組之間的間隔適當(dāng)?shù)拈L(zhǎng)度;2)連續(xù)詞匯量之間不應(yīng)停止。僅僅通過(guò)話語(yǔ)的流動(dòng)性來(lái)衡量句子的流暢性是遠(yuǎn)遠(yuǎn)不夠的。該方法的目的是通過(guò)計(jì)算句子的表達(dá)流來(lái)獲得句子流暢性模型。判斷句子流利程度的方法也適用于句子的等級(jí)劃分。
2.3 發(fā)音正確性
發(fā)音的正確性的權(quán)重比較低,由于導(dǎo)游的證書里會(huì)對(duì)普通話有所要求,一般不會(huì)有很多的發(fā)音不正確,所以它的比重相對(duì)較小。但是,要求導(dǎo)游盡量降低俚語(yǔ)的使用程度。俚語(yǔ)的使用情況會(huì)酌情扣分。即用SER和WER作為識(shí)別和評(píng)分的重要部分。
2.4 韻律性及情感性
這個(gè)方面會(huì)作為比重很大的一個(gè)方面,由于導(dǎo)游的職業(yè)性質(zhì)、韻律性和情感性一定是吸引游客的重要方面,所以這一定是評(píng)分重點(diǎn),這方面的評(píng)分我在前面語(yǔ)音識(shí)別的位置有提及,主要還是以大環(huán)境為基本基調(diào),再加上語(yǔ)音語(yǔ)調(diào)等多種情感辨別的路線,大體得到導(dǎo)游在測(cè)試中得到的情感基調(diào),再加上語(yǔ)言的韻律性,給出權(quán)重的成績(jī)。
3 語(yǔ)音評(píng)分算法研究
3.1 語(yǔ)音測(cè)評(píng)系統(tǒng)設(shè)計(jì)
首先用傅里葉變換、頻譜圖、加窗、降噪、切割等預(yù)處理步驟,然后利用聲學(xué)模型和語(yǔ)言模型的文字識(shí)別,接著用WER語(yǔ)音識(shí)別標(biāo)準(zhǔn)以及基于情感分析和語(yǔ)調(diào)詞典的評(píng)分標(biāo)準(zhǔn)的預(yù)處理,處理完之后將結(jié)果和大數(shù)據(jù)對(duì)接,得出盡可能精準(zhǔn)的評(píng)判。接著再進(jìn)行情感分析和句詞詞典的評(píng)分標(biāo)準(zhǔn),最后得出權(quán)重得分,具體設(shè)計(jì)如圖1所示。
3.2 語(yǔ)音評(píng)測(cè)系統(tǒng)架構(gòu)
綜合語(yǔ)音評(píng)測(cè)系統(tǒng)包括需求分析和現(xiàn)有的語(yǔ)音識(shí)別技術(shù)三個(gè)部分,綜合語(yǔ)音評(píng)價(jià)系統(tǒng)的體系結(jié)構(gòu):標(biāo)準(zhǔn)模板庫(kù)的建立、用戶語(yǔ)音預(yù)處理和特征提取、模態(tài)匹配。
(1)標(biāo)準(zhǔn)模板庫(kù)的構(gòu)建是基于閱讀評(píng)價(jià)系統(tǒng)的用戶特點(diǎn),兒童發(fā)音與成人發(fā)音差異較大,需要尋找更符合閱讀標(biāo)準(zhǔn)的閱讀聲音,并進(jìn)行預(yù)處理和特征提取,構(gòu)建標(biāo)準(zhǔn)模板庫(kù)。(2)用戶的預(yù)處理和特征提取由用戶的閱讀語(yǔ)音輸入和存儲(chǔ),并提取預(yù)處理和語(yǔ)音特征。(3)在模式匹配中,模式匹配與對(duì)應(yīng)標(biāo)準(zhǔn)模板庫(kù)的語(yǔ)音特征進(jìn)行匹配,并度量相似度。
3.3 語(yǔ)音特性分析
語(yǔ)言是信息交流的工具,語(yǔ)言是話語(yǔ)的組合體。時(shí)域閾值是周期性的。在頻域中存在共振峰結(jié)構(gòu)。大部分能量集中在低頻段。它在頻域和時(shí)域上具有明顯的負(fù)序特性,類似于白噪聲。人類語(yǔ)言系統(tǒng)的生理結(jié)構(gòu)變化率有限,第一次(10~30ms)的變化率,聲帶通道的形狀和相對(duì)穩(wěn)定性,由于相同的恒定功能,短期的音頻音樂(lè)分析和相對(duì)穩(wěn)定的短期wea。通過(guò)聲音,常數(shù)的頻譜可以增強(qiáng)。音頻信號(hào)穩(wěn)定,但不慢且穩(wěn)定,適合短時(shí)處理技術(shù)。語(yǔ)音信號(hào)參數(shù)的區(qū)域特征、短時(shí)能量、短時(shí)能量和短時(shí)能量比均為零。時(shí)域分析,計(jì)算簡(jiǎn)單,計(jì)算量小,物理意義明確。時(shí)域特征提取方法簡(jiǎn)單,但不能壓縮維數(shù),不能用來(lái)征服分?jǐn)?shù)表。應(yīng)用于傅里葉變換和短時(shí)區(qū)域的短期頻率分析。短時(shí)間內(nèi)的頻譜稱為“對(duì)應(yīng)頻譜”。頻域參數(shù)對(duì)語(yǔ)音識(shí)別系統(tǒng)的識(shí)別效果更好。該譜從頻域特征參數(shù)、頻譜包絡(luò)、逆共振峰值因子得分等不同方面反映了振幅分?jǐn)?shù)的特性。
3.4 關(guān)鍵字詞評(píng)分
通過(guò)關(guān)鍵的字詞,為了讓識(shí)別出來(lái)的字詞序列和標(biāo)準(zhǔn)的字詞序列之間保持相同,需要進(jìn)行詞句的替換,刪除,或者插入。這些替換,刪除,插入的字詞的總個(gè)數(shù),除以標(biāo)準(zhǔn)的詞序列中詞的個(gè)數(shù)的百分比,即為WER,其計(jì)算公式如下所示:
需要注意的是,因?yàn)橛胁迦朐~,所以WER有可能大于100%。需要注意的是,由于括號(hào),我們WER可能大于100%。
在語(yǔ)音識(shí)別中,除了WER外,還有一個(gè)非常重要的句子識(shí)別錯(cuò)誤率指標(biāo),即SER。SER可以理解為一個(gè)句子中有一個(gè)非常重要的單詞識(shí)別錯(cuò)誤是不可替代的,那么這個(gè)句子就被認(rèn)為是一個(gè)識(shí)別錯(cuò)誤,即句子識(shí)別錯(cuò)誤數(shù)除以句子總數(shù)就是SER。
3.5 語(yǔ)音情緒識(shí)別分類算法
(1)高斯混合模型GMM。作為音頻信號(hào)的一個(gè)基本特征,語(yǔ)音特征向量經(jīng)過(guò)特征提取后,實(shí)際上是一個(gè)概率密度函數(shù),該特征向量可以看作是一個(gè)狀態(tài)數(shù)連續(xù)分布的隱馬爾可夫模型。相應(yīng)的高斯混合模型可以看作是一個(gè)狀態(tài)下的大量概率密度函數(shù)。同時(shí),每種語(yǔ)音情感產(chǎn)生的概率密度分布具有模型和參數(shù)相對(duì)穩(wěn)定等相對(duì)簡(jiǎn)單的優(yōu)點(diǎn),能夠體現(xiàn)聲學(xué)的基本特征。高斯混合模型比馬爾可夫模型更有效。
(2)使用GMM識(shí)別流程。①提取語(yǔ)音情感數(shù)據(jù)的特征;②聚類方法可以是常用的聚類方法,如k-means、AP聚類等;③同時(shí)計(jì)算高斯分布函數(shù)的均值、協(xié)方差矩陣和概率值,得到訓(xùn)練模板用于訓(xùn)練各種語(yǔ)音情感;④將每個(gè)語(yǔ)音情感測(cè)試數(shù)據(jù)輸入到訓(xùn)練模板中,得到語(yǔ)音屬于每種情感的后驗(yàn)概率。后驗(yàn)概率最大的訓(xùn)練模板是語(yǔ)音情感數(shù)據(jù)的輸出結(jié)果。
最后用一個(gè)sum加和語(yǔ)句得到最后的成績(jī),用戶在通過(guò)這個(gè)成績(jī),以及每個(gè)板塊得到的分?jǐn)?shù),除每個(gè)板塊的總分,得要一個(gè)相對(duì)應(yīng)的比值分,在通過(guò)這個(gè)比值分得知自己哪方面的不足,進(jìn)而去提升練習(xí)。
4 結(jié)語(yǔ)
在導(dǎo)游服務(wù)系統(tǒng)中,機(jī)器不僅要有聽懂人的聲音的能力,而且要有識(shí)別說(shuō)話人情緒的能力。提出了一種改進(jìn)的基于高斯混合模型(GMM)的序列分類與識(shí)別方法,并將該方法引入到語(yǔ)音情感識(shí)別的研究中。該方法有效地提高了語(yǔ)音情感識(shí)別的準(zhǔn)確率,改善了導(dǎo)游服務(wù)語(yǔ)音系統(tǒng)。
參考文獻(xiàn):
[1]劉慶升,魏思,胡郁.基于語(yǔ)言學(xué)知識(shí)的發(fā)音質(zhì)量評(píng)價(jià)算法改進(jìn)[J].中文信息學(xué)報(bào),2017,21(4):92-96.
[2]張茹,韓紀(jì)慶.一種基于音素模型感知度的發(fā)音質(zhì)量評(píng)價(jià)方法[J].聲學(xué)學(xué)報(bào),2015(2):201-207.
[3]嚴(yán)可,魏思,戴禮榮.針對(duì)發(fā)音質(zhì)量評(píng)測(cè)的聲學(xué)模型優(yōu)化算法[J].中文信息學(xué)報(bào),2016,27(1):98-108.
[4]于俊婷,劉伍穎,易綿竹,李雪,李娜.國(guó)內(nèi)語(yǔ)音識(shí)別研究綜述[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2015,17(10):76-78.
[5]李超雷.交互式語(yǔ)言學(xué)習(xí)系統(tǒng)中的發(fā)音質(zhì)量客觀評(píng)價(jià)方法研究[D].中國(guó)科學(xué)院研究生院(電子學(xué)研究所),2017.
[6]Martin R.Spectral Subtraction Based on Minimum Statistics[J].in Proc.Eur.Signal Processing Conf,2014,6(11):1182-1185.