• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      融合人臉表情的手語(yǔ)到漢藏雙語(yǔ)情感語(yǔ)音轉(zhuǎn)換

      2018-10-10 12:53:04宋南吳沛文楊鴻武
      聲學(xué)技術(shù) 2018年4期
      關(guān)鍵詞:手語(yǔ)手勢(shì)聲學(xué)

      宋南,吳沛文,楊鴻武

      ?

      融合人臉表情的手語(yǔ)到漢藏雙語(yǔ)情感語(yǔ)音轉(zhuǎn)換

      宋南,吳沛文,楊鴻武

      (西北師范大學(xué)物理與電子工程學(xué)院,甘肅蘭州 730070)

      針對(duì)聾啞人與正常人之間存在的交流障礙問(wèn)題,提出了一種融合人臉表情的手語(yǔ)到漢藏雙語(yǔ)情感語(yǔ)音轉(zhuǎn)換的方法。首先使用深度置信網(wǎng)絡(luò)模型得到手勢(shì)圖像的特征信息,并通過(guò)深度神經(jīng)網(wǎng)絡(luò)模型得到人臉信息的表情特征。其次采用支持向量機(jī)對(duì)手勢(shì)特征和人臉表情特征分別進(jìn)行相應(yīng)模型的訓(xùn)練及分類,根據(jù)識(shí)別出的手勢(shì)信息和人臉表情信息分別獲得手勢(shì)文本及相應(yīng)的情感標(biāo)簽。同時(shí),利用普通話情感訓(xùn)練語(yǔ)料,采用說(shuō)話人自適應(yīng)訓(xùn)練方法,實(shí)現(xiàn)了一個(gè)基于隱Markov模型的情感語(yǔ)音合成系統(tǒng)。最后,利用識(shí)別獲得的手勢(shì)文本和情感標(biāo)簽,將手勢(shì)及人臉表情轉(zhuǎn)換為普通話或藏語(yǔ)的情感語(yǔ)音。客觀評(píng)測(cè)表明,靜態(tài)手勢(shì)的識(shí)別率為92.8%,在擴(kuò)充的Cohn-Kanade數(shù)據(jù)庫(kù)和日本女性面部表情(Japanese Female Facial Expression, JAFFE)數(shù)據(jù)庫(kù)上的人臉表情識(shí)別率為94.6%及80.3%。主觀評(píng)測(cè)表明,轉(zhuǎn)換獲得的情感語(yǔ)音平均情感主觀評(píng)定得分4.0分,利用三維情緒模型(Pleasure-Arousal-Dominance, PAD)分別評(píng)測(cè)人臉表情和合成的情感語(yǔ)音的PAD值,兩者具有很高的相似度,表明合成的情感語(yǔ)音能夠表達(dá)人臉表情的情感。

      手勢(shì)識(shí)別;表情識(shí)別;深度神經(jīng)網(wǎng)絡(luò);漢藏雙語(yǔ)情感語(yǔ)音合成;手語(yǔ)到語(yǔ)音轉(zhuǎn)換

      0 引言

      手語(yǔ)是目前言語(yǔ)障礙者與正常人之間最重要的一種溝通方式,手語(yǔ)識(shí)別研究一直受到廣泛的關(guān)注[1],手勢(shì)識(shí)別技術(shù)逐漸成為人機(jī)交互系統(tǒng)方面的研究熱點(diǎn)。早期,利用穿戴技術(shù)通過(guò)數(shù)據(jù)手套進(jìn)行手語(yǔ)識(shí)別[2]。近年來(lái),模式識(shí)別技術(shù)中的隱Markov模型(Hidden Markov Model, HMM)[3]、反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)[4]及支持向量機(jī)(Support Vector Machine, SVM)[5]等算法應(yīng)用在手勢(shì)識(shí)別上,獲得了一定的效果。目前,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度學(xué)習(xí)也應(yīng)用到手語(yǔ)識(shí)別中[6],使得手語(yǔ)識(shí)別率獲得了較大提高。同時(shí),在日常生活交往中,面部表情在言語(yǔ)障礙者的交流中也起到很重要的作用,表情可以讓交流的信息傳達(dá)得更加準(zhǔn)確。現(xiàn)有的表情識(shí)別技術(shù)發(fā)展迅速,基于SVM[7]、Adaboost[8]、局部二值模式(Local Binary Pattern, LBP)、主成分分析(Principal Components Analysis, PCA)[9]以及深度學(xué)習(xí)的人臉表情識(shí)別[10]都已經(jīng)得到了實(shí)現(xiàn)。手語(yǔ)信息與人臉表情信息的融合將會(huì)讓信息表達(dá)更加明確。目前基于HMM的語(yǔ)音合成方法廣泛應(yīng)用在情感語(yǔ)音合成領(lǐng)域[11-12],通過(guò)該方法可將文本信息轉(zhuǎn)換成情感語(yǔ)音。但現(xiàn)有的研究方向大都是分別對(duì)手勢(shì)、人臉表情及情感語(yǔ)音合成進(jìn)行研究。一些學(xué)者采用信息融合的方法,將人臉表情、肢體語(yǔ)言及語(yǔ)音信息進(jìn)行融合,實(shí)現(xiàn)了多模式融合下的情感識(shí)別[13];將手勢(shì)識(shí)別與語(yǔ)音信息融合,實(shí)現(xiàn)了對(duì)機(jī)器人的指揮[14];將面部表情信息與語(yǔ)音信息融合,實(shí)現(xiàn)了對(duì)機(jī)器人輪椅導(dǎo)航的控制[15];這些研究表明,多模式信息融合逐漸成為一種趨勢(shì)。前期的研究[16-17]雖然實(shí)現(xiàn)了手語(yǔ)到語(yǔ)音的轉(zhuǎn)換,但合成出的語(yǔ)音并沒有包含感情和情緒的變化,忽視了聾啞人情感的語(yǔ)音表達(dá),容易使聽者的理解產(chǎn)生歧義。

      將手語(yǔ)和人臉表情的識(shí)別技術(shù)與情感語(yǔ)音合成方法相結(jié)合,實(shí)現(xiàn)融合人臉表情的手語(yǔ)到情感語(yǔ)音的轉(zhuǎn)換,對(duì)言語(yǔ)障礙者的日常交流具有重要作用。本文首先利用靜態(tài)手勢(shì)識(shí)別獲得手勢(shì)表達(dá)的文本,利用人臉表情識(shí)別獲得表達(dá)的情感信息。同時(shí)以聲韻母作為語(yǔ)音合成基元,實(shí)現(xiàn)了一個(gè)基于HMM的漢藏雙語(yǔ)情感語(yǔ)音合成,將識(shí)別獲得的手勢(shì)文本和情感信息轉(zhuǎn)換為相應(yīng)的普通話或藏語(yǔ)情感語(yǔ)音。

      1 系統(tǒng)框架

      融合人臉表情的手語(yǔ)到漢藏雙語(yǔ)情感語(yǔ)音轉(zhuǎn)換系統(tǒng)框架如圖1所示。為了實(shí)現(xiàn)轉(zhuǎn)換系統(tǒng),將系統(tǒng)設(shè)計(jì)為三部分:手勢(shì)和人臉表情的識(shí)別、情感語(yǔ)音聲學(xué)模型訓(xùn)練及情感語(yǔ)音合成。在識(shí)別階段,將輸入的手勢(shì)圖像進(jìn)行預(yù)處理,再通過(guò)深度置信網(wǎng)絡(luò)(Deep Belief Network, DBN)模型進(jìn)行特征提取得到手勢(shì)特征,利用SVM識(shí)別得到手勢(shì)種類;將輸入的人臉表情圖像進(jìn)行預(yù)處理,再通過(guò)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)模型進(jìn)行特征提取得到表情特征,利用SVM識(shí)別得到情感標(biāo)簽。在訓(xùn)練階段,將語(yǔ)料庫(kù)中的語(yǔ)音和文本分別進(jìn)行參數(shù)提取與文本分析,得到聲學(xué)參數(shù)和標(biāo)注信息,再通過(guò)情感語(yǔ)音的合成平臺(tái)進(jìn)行HMM訓(xùn)練,得到不同情感的語(yǔ)音聲學(xué)模型。在合成階段,將獲得的手勢(shì)種類利用定義好的手勢(shì)文本字典得到手勢(shì)文本,通過(guò)文本分析得到情感語(yǔ)音合成所需的上下文相關(guān)的標(biāo)注信息,同時(shí)利用情感標(biāo)簽選擇情感語(yǔ)音聲學(xué)模型,最終將上下文相關(guān)的標(biāo)注信息和情感語(yǔ)音聲學(xué)模型,通過(guò)情感語(yǔ)音合成系統(tǒng)合成出情感語(yǔ)音。

      2 融合人臉表情的手語(yǔ)到情感語(yǔ)音合成

      2.1 手勢(shì)識(shí)別

      手勢(shì)識(shí)別主要包括3個(gè)部分:預(yù)處理、特征提取以及SVM識(shí)別。圖像的預(yù)處理過(guò)程通過(guò)對(duì)手勢(shì)信息進(jìn)行數(shù)據(jù)整合,把采集到的手勢(shì)圖像轉(zhuǎn)化為灰度圖像,并將其格式從28×28變換為784×1。針對(duì)所有圖像構(gòu)成一個(gè)二維矩陣,然后構(gòu)建數(shù)據(jù)立方體。(軸坐標(biāo)表示一個(gè)小組內(nèi)不同樣本的編號(hào),軸坐標(biāo)表示一個(gè)小組中特定一個(gè)樣本的維度,軸表示小組的個(gè)數(shù)),把其作為DBN模型統(tǒng)一讀入數(shù)據(jù)的格式。手勢(shì)特征采用5層的DBN模型進(jìn)行提取,其過(guò)程包括受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)調(diào)節(jié)和反饋微調(diào),利用RBM來(lái)調(diào)節(jié)相鄰兩層之間的權(quán)值[18],RBM在隱藏層到可見層之間有連接,每層內(nèi)部都沒有連接,其隱藏層與可見層之間的關(guān)系可以用能量函數(shù)表示為

      圖1 面向言語(yǔ)障礙者的手語(yǔ)到情感語(yǔ)音轉(zhuǎn)換系統(tǒng)框架

      可見層與隱藏層之間的條件概率計(jì)算如下:

      其中,是函數(shù),是一種神經(jīng)元非線性函數(shù)。RBM模型的更新權(quán)重能夠通過(guò)導(dǎo)數(shù)概率的對(duì)數(shù)得到。

      在調(diào)節(jié)過(guò)程中,通過(guò)逐層訓(xùn)練的方式得到每層的權(quán)值,完成可見層與隱藏層之間的反復(fù)三次轉(zhuǎn)換,分別得到相應(yīng)的重構(gòu)目標(biāo),并利用縮小原對(duì)象同重構(gòu)對(duì)象之間的差異,實(shí)現(xiàn)對(duì)RBM參數(shù)的調(diào)節(jié)。

      微調(diào)是把全部的經(jīng)過(guò)初始化后的RBM按訓(xùn)練的順序串聯(lián)起來(lái),組成一個(gè)深度置信網(wǎng)絡(luò),通過(guò)深度模型的反饋微調(diào)可以得到手勢(shì)圖像的特征信息。SVM識(shí)別過(guò)程是把獲得的手勢(shì)圖像的特征信息進(jìn)行分類識(shí)別得到手勢(shì)種類,其過(guò)程如圖2所示。

      2.2 人臉表情識(shí)別

      人臉表情識(shí)別過(guò)程如圖3所示,包括預(yù)處理、特征提取和SVM識(shí)別3個(gè)階段。預(yù)處理階段對(duì)原始圖像中可能會(huì)影響到特征提取結(jié)果的一些不重要的背景信息進(jìn)行處理。首先對(duì)原始的輸入圖像使用具有68個(gè)面部地標(biāo)點(diǎn)的檢測(cè)器進(jìn)行檢測(cè),然后再將圖像調(diào)整到地標(biāo)邊緣,在保留完整表情信息的前提下對(duì)圖像進(jìn)行裁剪,剪裁后刪除圖像的一些沒有特定信息的部分,使神經(jīng)網(wǎng)絡(luò)模型的輸入圖像大小為96×96。在特征提取階段,利用一個(gè)22層的DNN模型進(jìn)行特征提取,從輸入的每張表情圖像中得到128維的特征。在SVM識(shí)別階段,將得到的表情特征利用一個(gè)訓(xùn)練好的SVM分類器進(jìn)行分類識(shí)別,從而得到人臉表情對(duì)應(yīng)的情感標(biāo)簽。

      圖2 手勢(shì)識(shí)別

      圖3 人臉表情識(shí)別

      2.3 情感語(yǔ)音聲學(xué)模型訓(xùn)練

      本文以普通話和藏語(yǔ)的聲母和韻母為語(yǔ)音合成的基本單元,利用說(shuō)話人自適應(yīng)訓(xùn)練(Speaker Adaptive Training, SAT)獲得了情感的語(yǔ)音聲學(xué)模型,情感語(yǔ)音聲學(xué)模型的訓(xùn)練過(guò)程如圖4所示。

      圖4 情感語(yǔ)音聲學(xué)模型訓(xùn)練過(guò)程

      首先,利用一個(gè)普通話中性大語(yǔ)料庫(kù)(多說(shuō)話人)和一個(gè)藏語(yǔ)中性小語(yǔ)料庫(kù)(1個(gè)說(shuō)話人)中的語(yǔ)音和文本分別進(jìn)行聲學(xué)參數(shù)提取與文本分析,得到聲學(xué)特征對(duì)數(shù)基頻(Log-fundamental Frequency, logF0)和廣義梅爾倒譜系數(shù)(Mel-generalized Cepstral, MGC)以及文本的標(biāo)注信息(上下文相關(guān)標(biāo)注和單音素標(biāo)注);然后利用聲學(xué)特征和標(biāo)注信息進(jìn)行說(shuō)話人自適應(yīng)訓(xùn)練,得到混合語(yǔ)言平均聲學(xué)模型。

      最后將從多說(shuō)話人普通話情感語(yǔ)料庫(kù)中提取的情感語(yǔ)音聲學(xué)特征和相應(yīng)文本的標(biāo)注信息,與獲得的平均聲學(xué)模型一起通過(guò)說(shuō)話人自適應(yīng)變換得到目標(biāo)情感的說(shuō)話人相關(guān)聲學(xué)模型,以合成普通話或藏語(yǔ)的情感語(yǔ)音。

      本文采用基于半隱馬爾可夫模型(Hidden Semi-Markov Model, HSMM)[19]的說(shuō)話人自適應(yīng)訓(xùn)練算法訓(xùn)練聲學(xué)模型,以減少不同說(shuō)話人之間的差異對(duì)合成語(yǔ)音音質(zhì)的影響。時(shí)長(zhǎng)分布與狀態(tài)輸出分布的線性回歸方程分別為

      本文采用約束最大似然線性回歸(Constrained Maximum Likelihood Linear Regression, CMMLR)[20]訓(xùn)練得到平均聲學(xué)模型,進(jìn)而獲得上下文相關(guān)的多空間分布半隱馬爾科夫模型(Multi-Space Hidden semi-Markov models, MSD-HSMM)。訓(xùn)練平均聲學(xué)模型后,將基于MSD-HSMM的CMMLR自適應(yīng)算法應(yīng)用于多說(shuō)話人普通話情感語(yǔ)料庫(kù),得到用來(lái)合成普通話情感語(yǔ)音和藏語(yǔ)情感語(yǔ)音的說(shuō)話人相關(guān)混合語(yǔ)言目標(biāo)情感聲學(xué)模型。狀態(tài)下狀態(tài)時(shí)長(zhǎng)和特征向量的變換方程如式(7)、(8)所示:

      MAP估計(jì)為

      2.4 手語(yǔ)到情感語(yǔ)音轉(zhuǎn)換

      為了獲得手勢(shì)文本,根據(jù)《中國(guó)手語(yǔ)》[22]中定義的手勢(shì)種類的含義,設(shè)計(jì)了一個(gè)手勢(shì)字典,該字典給出了每個(gè)手勢(shì)對(duì)應(yīng)的語(yǔ)義文本。在手語(yǔ)到情感語(yǔ)音的轉(zhuǎn)換過(guò)程中,首先通過(guò)手勢(shì)識(shí)別獲得手勢(shì)類別,然后查找手勢(shì)字典,獲得手勢(shì)文本,最后對(duì)手勢(shì)文本進(jìn)行文本分析,獲得文本的聲韻母信息以及聲韻母的上下文信息,從而能夠利用決策樹選擇出最優(yōu)的聲韻母的聲學(xué)模型。聲韻母的上下文信息以上下文相關(guān)標(biāo)注的形式給出,包括普通話或藏語(yǔ)的聲韻母信息、音節(jié)信息、詞信息[23]、韻律詞信息[24]、短語(yǔ)信息和語(yǔ)句信息。同時(shí),采用人臉表情識(shí)別獲得情感標(biāo)簽,利用情感標(biāo)簽選擇相應(yīng)情感的語(yǔ)音聲學(xué)模型,從而能夠利用文本的上下文相關(guān)標(biāo)注信息合成出普通話或藏語(yǔ)的情感語(yǔ)音。手語(yǔ)到情感語(yǔ)音轉(zhuǎn)換流程如圖5所示。

      圖5 手語(yǔ)到情感語(yǔ)音轉(zhuǎn)換框圖

      3 實(shí)驗(yàn)結(jié)果

      3.1 手勢(shì)識(shí)別

      3.1.1 手勢(shì)數(shù)據(jù)

      在實(shí)驗(yàn)中構(gòu)造的手勢(shì)樣本集合主要來(lái)自2位測(cè)試人所生成的樣本,每位測(cè)試人打30種手勢(shì),每種手勢(shì)的樣本個(gè)數(shù)均為1 000,以此來(lái)生成30個(gè)深度學(xué)習(xí)模型。預(yù)定義的30種靜態(tài)手勢(shì)如圖6所示。

      圖6 預(yù)定義的30種手勢(shì)

      3.1.2 手勢(shì)識(shí)別率

      為了驗(yàn)證DBN模型在手勢(shì)識(shí)別上的有效性,本文從圖6所示的30種手勢(shì)庫(kù)中隨機(jī)挑選了4 000個(gè)樣本,分別利用DBN模型和PCA方法進(jìn)行了5次交叉實(shí)驗(yàn),每次實(shí)驗(yàn)的訓(xùn)練集和測(cè)試集樣本數(shù)分別為3 200和800,并將這五次實(shí)驗(yàn)分別進(jìn)行編號(hào)(集1到集5);最終利用SVM識(shí)別得到如表1所示的識(shí)別率。從表1中可以看出,在5次交叉驗(yàn)證中,利用DBN模型進(jìn)行特征提取的手勢(shì)識(shí)別率優(yōu)于PCA方法,表明通過(guò)DBN模型提取到的特征能更好地反映出手勢(shì)的本質(zhì)特征。

      表1 5次交叉驗(yàn)證識(shí)別率(%)

      3.2 人臉表情識(shí)別

      3.2.1 人臉表情庫(kù)數(shù)據(jù)

      本文采用擴(kuò)充的Cohn-Kanade數(shù)據(jù)庫(kù)(the extended Cohn-Kanade database, CK+)[25]和日本女性面部表情(Japanese Female Facial Expression, JAFFE)數(shù)據(jù)庫(kù)[26]進(jìn)行人臉表情的訓(xùn)練和測(cè)試。CK+數(shù)據(jù)庫(kù)中每個(gè)序列圖像都是以中性表達(dá)式開始到情感峰值結(jié)束。實(shí)驗(yàn)數(shù)據(jù)庫(kù)中包含8種情感類別的表情圖像,但在實(shí)驗(yàn)中,蔑視和中性表情圖像沒有被使用,并且只選取了一些具有明顯表情特征信息的圖像來(lái)作為樣本集使用。將JAFFE數(shù)據(jù)庫(kù)中7種表情中的6種表情進(jìn)行了實(shí)驗(yàn),沒有使用中性表情圖像,其中每人的一種表情圖像大小均為256×256。數(shù)據(jù)庫(kù)中圖像的一些例子如圖7所示。

      3.2.2 DNN模型

      本文采用了nn4.small2的神經(jīng)網(wǎng)絡(luò)模型[27]去提取表情圖像特征,圖8展示了一張裁剪后的圖像經(jīng)過(guò)該模型的第一層卷積后輸出的特征圖,該圖顯示了輸入圖像的第一個(gè)卷積層的64個(gè)全部濾鏡。網(wǎng)絡(luò)模型定義如表2所示。其中包含了8個(gè)Inception的模塊。池化層可以有效地縮小矩陣的尺寸,而最大池化表示對(duì)鄰域內(nèi)特征點(diǎn)取最大,平均池化表示對(duì)鄰域內(nèi)特征點(diǎn)只求平均。池項(xiàng)目表示嵌入的最大池化之后的投影層中1×1過(guò)濾器的個(gè)數(shù),池項(xiàng)目中最大池化用表示,降維后的池化用表示。

      圖7 數(shù)據(jù)庫(kù)示例

      圖8 卷積層可視化示例

      表2 網(wǎng)絡(luò)模型定義

      3.2.3 表情識(shí)別率

      在CK+數(shù)據(jù)庫(kù)上進(jìn)行5次交叉驗(yàn)證的實(shí)驗(yàn),得到6種表情相應(yīng)的識(shí)別率。在JAFFE數(shù)據(jù)庫(kù)上進(jìn)行3次交叉驗(yàn)證的實(shí)驗(yàn),得到6種表情相應(yīng)的識(shí)別率。如表3所示。

      從表3可以看出,JAFFE的數(shù)據(jù)庫(kù)上的識(shí)別率要低于CK+數(shù)據(jù)庫(kù)上的識(shí)別率,主要原因是在實(shí)驗(yàn)中JAFFE數(shù)據(jù)庫(kù)的表情圖片數(shù)量少于CK+數(shù)據(jù)庫(kù)的表情圖片數(shù)量。

      表3 不同數(shù)據(jù)庫(kù)上的人臉表情識(shí)別率(%)

      3.3 情感語(yǔ)音合成

      3.3.1 語(yǔ)料

      普通話語(yǔ)料庫(kù)選用7個(gè)女性說(shuō)話人的中性語(yǔ)料,每個(gè)說(shuō)話人的語(yǔ)料各包含169句,共計(jì)1 183句(7×169句)語(yǔ)料。普通話情感語(yǔ)料庫(kù),是本研究設(shè)置特定的場(chǎng)景采用激發(fā)引導(dǎo)方式錄制的9個(gè)女性說(shuō)話人 11 種情感的普通話情感語(yǔ)音庫(kù),每個(gè)說(shuō)話人的每種情感語(yǔ)料各包含100句,錄音人不是專業(yè)演員,實(shí)驗(yàn)中選取了其中的6種情感語(yǔ)料(9人×6種情感×100句)。藏語(yǔ)語(yǔ)料庫(kù)是本研究錄制的一個(gè)藏語(yǔ)女性說(shuō)話人的800句語(yǔ)料。所有實(shí)驗(yàn)的語(yǔ)音均采用16 bit量化、16 kHz采樣、單通道的WAV文件格式。采用5狀態(tài)的上下文相關(guān)的一階MSD-HSMM模型來(lái)建立聲學(xué)模型。

      3.3.2 情感相似度評(píng)測(cè)

      通過(guò)情感平均意見得分(Emotional Mean Opinion Score, EMOS),對(duì)合成的普通話情感語(yǔ)音以及藏語(yǔ)情感語(yǔ)音分別進(jìn)行情感相似度評(píng)測(cè)。給10名普通話評(píng)測(cè)者播放100句原始普通話情感語(yǔ)音作為參考,然后按照情感順序依次播放6種情感的普通話情感語(yǔ)音。同時(shí)給10名藏語(yǔ)評(píng)測(cè)者播放100句合成的中性藏語(yǔ)語(yǔ)音,作為中性參考語(yǔ)音,之后按照6種情感順序播放藏語(yǔ)情感語(yǔ)音。在評(píng)測(cè)打分過(guò)程中是按照播放語(yǔ)音的先后順序來(lái)進(jìn)行的,要求評(píng)測(cè)者參照現(xiàn)實(shí)生活中的情感表達(dá)經(jīng)驗(yàn),給每句合成出的語(yǔ)音,按5分制進(jìn)行情感相似度打分,結(jié)果如圖9所示。

      圖9 合成普通話和藏語(yǔ)的情感語(yǔ)音EMOS得分

      從圖9中可以看出,利用普通話情感語(yǔ)料訓(xùn)練的情感聲學(xué)模型合成出的藏語(yǔ)情感語(yǔ)音的EMOS評(píng)分,要低于合成出的普通話情感語(yǔ)音的EMOS評(píng)分。

      3.3.3 客觀評(píng)測(cè)

      由于只有普通話情感語(yǔ)料庫(kù),所以僅對(duì)合成的普通話情感語(yǔ)音進(jìn)行了客觀評(píng)測(cè)。本文計(jì)算了原始語(yǔ)音與合成語(yǔ)音在時(shí)長(zhǎng)、基頻及譜質(zhì)心上的均方根誤差(Root Mean Square Error, RMSE),結(jié)果如表4所示。從表4可以看出,時(shí)長(zhǎng)、基頻及譜質(zhì)心的均方根誤差值較小,說(shuō)明合成的普通話情感語(yǔ)音與原始的普通話情感語(yǔ)音比較接近,合成的情感語(yǔ)音音質(zhì)較好。

      表4 普通話合成情感語(yǔ)音與原始情感語(yǔ)音在時(shí)長(zhǎng)、基頻及譜質(zhì)心 上的均方根誤差

      3.4 表情圖片與情感語(yǔ)音的PAD評(píng)測(cè)

      為了進(jìn)一步評(píng)測(cè)合成語(yǔ)音對(duì)原始人臉表情的情感表達(dá)程度,本文采用PAD三維情緒模型,對(duì)比了表情圖片的PAD值與合成語(yǔ)音的PAD值的差異。本文采用簡(jiǎn)化版本的PAD情感量化表[28],對(duì)人臉表情圖片及其對(duì)應(yīng)的情感語(yǔ)音在PAD的3個(gè)情緒維度上進(jìn)行評(píng)分。首先隨機(jī)播放所有人臉表情圖片,評(píng)測(cè)者根據(jù)觀測(cè)到圖片時(shí)感受到的心理情緒狀態(tài),完成PAD情緒量表。然后隨機(jī)播放合成的情感語(yǔ)音,同樣要求評(píng)測(cè)者根據(jù)聽情感語(yǔ)音時(shí)感受到的心理情緒狀態(tài),完成PAD情緒量表。由于藏語(yǔ)評(píng)測(cè)人不足,所以本文只對(duì)合成的普通話情感語(yǔ)音進(jìn)行了PAD評(píng)測(cè)。最后,計(jì)算出在同一種情感狀態(tài)下表情圖片的PAD值與情感語(yǔ)音的PAD值的歐氏距離。評(píng)測(cè)結(jié)果如表5所示。從表5可以看出,表情圖片和情感語(yǔ)音的PAD值在同一情感狀態(tài)下的歐氏距離較小,表明合成的情感語(yǔ)音能夠較為準(zhǔn)確地再現(xiàn)人臉表情的情感狀態(tài)。

      表5 PAD的評(píng)測(cè)結(jié)果

      4 結(jié) 論

      本文提出了一種融合人臉表情的手語(yǔ)到漢藏雙語(yǔ)情感語(yǔ)音轉(zhuǎn)換的實(shí)現(xiàn)方法。首先,將手勢(shì)庫(kù)中的手勢(shì)圖像通過(guò)DBN模型進(jìn)行特征提取,同時(shí)對(duì)人臉表情數(shù)據(jù)庫(kù)(CK+和JAFFE)中的表情圖像利用DNN模型進(jìn)行特征提取,把獲得的手勢(shì)特征與表情特征進(jìn)行SVM識(shí)別,并分別轉(zhuǎn)換為手勢(shì)文本的上下文相關(guān)標(biāo)注及相應(yīng)的情感標(biāo)簽。再利用情感語(yǔ)料庫(kù)以及中性語(yǔ)料庫(kù)(普通話中性大語(yǔ)料庫(kù)和藏語(yǔ)中性小語(yǔ)料庫(kù)),訓(xùn)練了一個(gè)基于HMM的普通話/藏語(yǔ)的情感語(yǔ)音合成器。最后,根據(jù)識(shí)別獲得的情感標(biāo)簽選擇的情感語(yǔ)音聲學(xué)模型和手勢(shì)文本的上下文相關(guān)標(biāo)注進(jìn)行情感語(yǔ)音合成,從而實(shí)現(xiàn)手勢(shì)到情感語(yǔ)音的轉(zhuǎn)換。實(shí)驗(yàn)結(jié)果表明,轉(zhuǎn)換獲得的漢藏雙語(yǔ)情感語(yǔ)音的平均EMOS得分為4.0分;同時(shí),利用PAD三維情緒模型對(duì)表情圖片以及合成出的情感語(yǔ)音進(jìn)行PAD評(píng)定后發(fā)現(xiàn),表情圖片與合成出的情感語(yǔ)音在PAD值上的歐式距離較小,表明合成的情感語(yǔ)音能夠表達(dá)人臉表情的情感狀態(tài)。進(jìn)一步的工作將結(jié)合深度學(xué)習(xí)優(yōu)化手勢(shì)識(shí)別、人臉表情識(shí)別及漢藏雙語(yǔ)情感語(yǔ)音合成的算法結(jié)構(gòu),提高識(shí)別率和合成情感語(yǔ)音的音質(zhì)。

      [1] KALSH E A, GAREWAL N S. Sign language recognition system[J]. International Journal of Computational Engineering Research, 2013, 3(6): 15-21.

      [2] ASSALEH K, SHANABLEH T, ZOUROB M. Low complexity classification system for glove-based arabic sign language recognition[C]//Neural Information Processing. Springer Berlin/Heidelberg, 2012: 262-268.

      [3] GODOY V, BRITTO A S, KOERICH A, et al. An HMM-based gesture recognition method trained on few samples[C]// 2014 IEEE 26th International Conference on Tools with Artificial Intelligence (ICTAI). IEEE, 2014: 640-646.

      [4] YANG Z Q, SUN G. Gesture recognition based on quantum-behaved particle swarm optimization of back propagation neural network[J]. Computer application, 2014, 34(S1): 137-140.

      [5] GHOSH D K, ARI S. Static Hand Gesture Recognition using Mixture of Features and SVM Classifier[C]// 2015 Fifth International Conference on Communication Systems and Network Technologies (CSNT). IEEE, 2015: 1094-1099.

      [6] OYEDOTUN O K, KHASHMAN A. Deep learning in vision-based static hand gesture recognition[J]. Neural Computing and Applications, 2017, 28(12): 3941-3951.

      [7] HSIEH C C, HSIH M H, JIANG M K, et al. Effective semantic features for facial expressions recognition using svm[J]. Multimedia Tools and Applications, 2016, 75(11): 6663-6682.

      [8] PRABHAKAR S, SHARMA J, GUPTA S. Facial Expression Recognition in Video using Adaboost and SVM[J]. Polish Journal of Natural Sciences, 2014, 3613(1): 672-675.

      [9] ABDULRAHMAN M, GWADABE T R, ABDU F J, et al. Gabor wavelet transform based facial expression recognition using PCA and LBP[C]//Signal Processing and Communications Applications Conference (SIU), 2014 22nd. IEEE, 2014: 2265-2268.

      [10] ZHAO X, SHI X, ZHANG S. Facial expression recognition via deep learning[J]. IETE Technical Review, 2015, 32(5): 347-355.

      [11] BARRA-CHICOTE R, YAMAGISHI J, KING S, et al. Analysis of statistical parametric and unit selection speech synthesis systems applied to emotional speech[J]. Speech Communication, 2010, 52(5): 394-404.

      [12] WU P, YANG H, GAN Z. Towards realizing mandarin-tibetan bi-lingual emotional speech synthesis with mandarin emotional training corpus[C]//International Conference of Pioneering Computer Scientists, Engineers and Educators. Springer, Singapore, 2017: 126-137.

      [13] CARIDAKIS G, CASTELLANO G, KESSOUS L, et al. Multimodal emotion recognition from expressive faces, body gestures and speech[C]// IFIP International Conference on Artificial Intelligence Applications and Innovations. Springer, Boston, MA, 2007: 375-388

      [14] BURGER B, FERRANé I, LERASLE F, et al. Two-handed gesture recognition and fusion with speech to command a robot[J]. Autonomous Robots, 2012, 32(2): 129-147.

      [15] SINYUKOV D A, LI R, OTERO N W, et al. Augmenting a voice and facial expression control of a robotic wheelchair with assistive navigation[C]// 2014 IEEE International Conference on Systems, Man and Cybernetics (SMC). IEEE, 2014: 1088-1094.

      [16] YANG H, AN X, PEI D, et al. Towards realizing gesture-to-speech conversion with a HMM-based bilingual speech synthesis system[C]// 2014 IEEE International Conference on Orange Technologies (ICOT). IEEE, 2014: 97-100.

      [17] AN X, YANG H, GAN Z. Towards realizing sign language-to-speech conversion by combining deep learning and statistical parametric speech synthesis[C]// International Conference of Young Computer Scientists, Engineers and Educators. Springer Singapore, 2016:678-690.

      [18] FENG F, LI R, WANG X. Deep correspondence restricted Boltzmann machine for cross-modal retrieval[J]. Neurocomputing, 2015, 154: 50-60.

      [19] ZEN H, TOKUDA K, BLACK A W. Statistical parametric speech synthesis[J]. Speech Communication, 2009, 51(11): 1039-1064.

      [20] YAMAGISHI J, KOBAYASHI T, NAKANO Y, et al. Analysis of speaker adaptation algorithms for HMM-based speech synthesis and a constrained SMAPLR adaptation algorithm[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17(1): 66-83.

      [21] SIOHAN O, MYRVOLL T A, LEE C H. Structural maximum a posteriori linear regression for fast HMM adaptation[J]. Computer Speech & Language, 2002, 16(1): 5-24.

      [22] 中國(guó)聾人協(xié)會(huì). 中國(guó)手語(yǔ)[M]. 北京:華夏出版社, 2003.

      China Association of the Deaf and Hard of Hearing. Chinese Sign Language[M]. Beijing: Huaxia Publishing House, 2003.

      [23] YANG H, OURA K, WANG H, et al. Using speaker adaptive training to realize Mandarin-Tibetan cross-lingual speech synthesis[J]. Multimedia Tools & Applications, 2015, 74(22): 9927-9942.

      [24] 楊鴻武, 朱玲. 基于句法特征的漢語(yǔ)韻律邊界預(yù)測(cè)[J].西北師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013, 49(1): 41-45.

      YANG Hongwu, ZHU Ling. Predicting Chinese prosodic boundary based on syntactic features[J]. Journal of Northwest Normal University (Natural Science Edition), 2013, 49(1): 41-45.

      [25] LUCEY P, COHN J F, KANADE T, et al. The Extended Cohn-Kanade Dataset (CK+): A complete dataset for action unit and emotion-specified expression[C]// Computer Vision and Pattern Recognition Workshops. IEEE, 2010:94-101.

      [26] LYONS M, AKAMATSU S, KAMACHI M, et al. Coding facial expressions with gabor wavelets[C]// Third IEEE International Conference on Automatic Face and Gesture Recognition. IEEE, 1998: 200-205.

      [27] AMOS B, LUDWICZUK B, SATYANARAYANAN M. OpenFace: A general-purpose face recognition library with mobile applications[R]. Technical report, CMU-CS-16-118, CMU School of Computer Science, 2016.

      [28] LI X M, FU X L, DENG G F. Preliminary application of the abbreviated PAD emotion scale to Chinese undergraduates[J]. Chinese Mental Health Journal, 2008, 22(5): 327-329.

      Gesture-to-emotional speech conversion based on gesture recognigion and facial expression recognition

      SONG Nan, WU Pei-wen, YANG Hong-wu

      (College of Physics and Electronic Engineering, Northwest Normal University, Lanzhou 730070, Gansu, China)

      This paper proposes a face expression integrated gesture-to-emotional speech conversion method to solve the communication problems between healthy people and speech disorders. Firstly, the feature information of gesture image are obtained by using the model of the deep belief network (DBN) and the features of facial expression are extracted by a deep neural network (DNN) model. Secondly, a set of support vector machines (SVM) are trained to classify the gesture and facial expression for recognizing the text of gestures and emotional tags of facial expression. At the same time, a hidden Markov model-based Mandarin-Tibetan bilingual emotional speech synthesis is trained by speaker adaptive training with a Mandarin emotional speech corpus. Finally, the Mandarin or Tibetan emotional speech is synthesized from the recognized text of gestures and emotional tags. The objective tests show that the recognition rate for static gestures is 92.8%. The recognition rate of facial expression achieves 94.6% on the extended Cohn-Kanade database (CK+) and 80.3% on the JAFFE database respectively. Subjective evaluation demonstrates that synthesized emotional speech can get 4.0 of the emotional mean opinion score. The pleasure-arousal-dominance (PAD) tree dimensional emotion model is employed to evaluate the PAD values for both facial expression and synthesized emotional speech. Results show that the PAD values of facial expression are close to the PAD values of synthesized emotional speech. This means that the synthesized emotional speech can express the emotion of facial expression.

      gesture recognition;facial expression recognition; deep neural network; Mandarin-Tibetan bilingual emotional speech synthesis; gesture to speech conversion

      TP391

      A

      1000-3630(2018)-04-0372-08

      10.16300/j.cnki.1000-3630.2018.04.014

      2017-10-09;

      2017-12-17

      國(guó)家自然科學(xué)基金(11664036、61263036、61262055)、甘肅省高等學(xué)??萍紕?chuàng)新團(tuán)隊(duì)項(xiàng)目(2017C-03)資助。

      宋南(1990-), 男, 河北遷安人, 碩士研究生, 研究方向?yàn)樾盘?hào)與信息處理。

      楊鴻武,E-mail: yanghw@nwnu.edu.cn

      猜你喜歡
      手語(yǔ)手勢(shì)聲學(xué)
      愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
      挑戰(zhàn)!神秘手勢(shì)
      自然手語(yǔ)在聾人大學(xué)生手語(yǔ)中的使用調(diào)查研究——以南京特殊教育師范學(xué)院為例
      活力(2019年15期)2019-09-25 07:23:06
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
      Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
      V字手勢(shì)的由來(lái)
      Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
      勝利的手勢(shì)
      奇怪的手語(yǔ)圖
      奇怪的手語(yǔ)圖
      木兰县| 新乡县| 开原市| 礼泉县| 元氏县| 和田县| 天镇县| 潼关县| 江津市| 讷河市| 东丰县| 米脂县| 即墨市| 康马县| 铅山县| 乌兰察布市| 景洪市| 娄烦县| 区。| 丽水市| 威信县| 新绛县| 英德市| 乌兰县| 故城县| 高淳县| 资兴市| 商洛市| 阿拉善右旗| 荣成市| 新兴县| 越西县| 乐都县| 女性| 平谷区| 根河市| 新宾| 明星| 海城市| 涞源县| 华池县|