車瀅霞,俞一彪
(蘇州大學電子信息學院, 江蘇蘇州 215006)
?
約束條件下的結(jié)構(gòu)化高斯混合模型及非平行語料語音轉(zhuǎn)換
車瀅霞,俞一彪
(蘇州大學電子信息學院, 江蘇蘇州 215006)
提出一種約束條件下的結(jié)構(gòu)化高斯混合模型及非平行語料語音轉(zhuǎn)換方法.從源與目標說話人的原始非平行語料中提取出少量相同音節(jié),在結(jié)構(gòu)化高斯混合模型的訓練過程中,利用這些相同音節(jié)包含的語義信息及聲學特征對應關(guān)系對K均值聚類中心進行約束,并在(Expectation Maximum,EM)迭代過程中對語音幀屬于模型分量的后驗概率進行修正,得到基于約束的結(jié)構(gòu)化高斯混合模型(Structured Gaussian Mixture Model with Constraint condition,C-SGMM).再利用全局聲學結(jié)構(gòu)(Acoustic Universal Structure,AUS)原理對源和目標說話人的約束結(jié)構(gòu)化高斯混合模型的高斯分布進行匹配對準,推導出短時譜轉(zhuǎn)換函數(shù).主觀和客觀評價實驗結(jié)果表明,使用該方法得到的轉(zhuǎn)換后語音在譜失真,目標傾向性和語音質(zhì)量等方面均優(yōu)于傳統(tǒng)的結(jié)構(gòu)化模型語音轉(zhuǎn)換方法,轉(zhuǎn)換語音的平均譜失真僅為0.52,說話人正確識別率達到95.25%,目標語音傾向性指標ABX平均為0.82,性能更加接近于基于平行語料的語音轉(zhuǎn)換方法.
語音轉(zhuǎn)換;結(jié)構(gòu)化高斯混合模型;非平行語料;約束條件
語音轉(zhuǎn)換是指將A說話人的語音進行轉(zhuǎn)換并使其聽起來像B說話人的語音,且保持語義內(nèi)容不變的一種技術(shù)[1].語音轉(zhuǎn)換、尤其是基于非平行語料訓練的語音轉(zhuǎn)換是目前語音研究領(lǐng)域比較新的課題,對于具有表現(xiàn)力的語音合成、語音偽裝通信、多媒體配音和殘疾人發(fā)聲等發(fā)面都有很廣泛的應用價值,因此近年來得到越來越多研究者的關(guān)注.
傳統(tǒng)的說話人語音轉(zhuǎn)換方法大多采用平行語料的聯(lián)合訓練獲得轉(zhuǎn)換函數(shù)[2~4].但由于平行訓練語料在實際應用中難以獲得,近年來一些學者在基于非平行語料的語音轉(zhuǎn)換方面進行研究,并取得了一定的成果.Mouchtaris等利用說話人自適應技術(shù),通過特定人的平行語料訓練推導出非平行語料下的轉(zhuǎn)換函數(shù)[5],但首先要對參考說話人語音進行充分的聯(lián)合訓練獲得參考模型,再分別進行自適應獲得轉(zhuǎn)換函數(shù),計算量大且過程復雜;Erro等將最近鄰搜索算法(N-N)與語音轉(zhuǎn)換相結(jié)合[6],通過不斷迭代轉(zhuǎn)換過程后達到理想轉(zhuǎn)換效果,這一方法不僅迭代過程計算量大,而且最近鄰搜索算法難以保證正確的聲學特征對準處理;Saito等通過建立噪聲信道模型實現(xiàn)基于少量平行語料訓練的非平行語料下的語音轉(zhuǎn)換[7],但聯(lián)合模型的訓練仍然需要少量的高質(zhì)量平行語料;曾道建等提出了結(jié)構(gòu)化語音轉(zhuǎn)換方法[8],通過對結(jié)構(gòu)化高斯混合模型(Structured Gaussian Mixture Model,SGMM)在特征空間的對準實現(xiàn)說話人轉(zhuǎn)換,由于非平行語料的語音成份對應關(guān)系難以正確保證,轉(zhuǎn)換效果受到很大的影響.
本文提出一種約束條件下的結(jié)構(gòu)化高斯混合模型并將其應用于非平行語料語音轉(zhuǎn)換.首先從源與目標說話人非平行語料中提取出少量相同音節(jié)作為約束信息,利用其包含的語義信息及聲學特征對應關(guān)系,在結(jié)構(gòu)化高斯混合模型(SGMM)的訓練過程中,約束K均值聚類的聚類中心以及修正EM過程中語音幀屬于某高斯分布的后驗概率,得到基于約束的結(jié)構(gòu)化高斯混合模型(C-SGMM).再利用全局聲學結(jié)構(gòu)(AUS)原理對源說話人和目標說話人的C-SGMM進行高斯分布對準,得到短時譜轉(zhuǎn)換函數(shù),實現(xiàn)語音轉(zhuǎn)換.通過主觀和客觀評價準則對轉(zhuǎn)換后的語音進行實驗測評,使用該方法得到的轉(zhuǎn)換后語音相比于傳統(tǒng)的結(jié)構(gòu)化語音轉(zhuǎn)換方法[8]降低了譜失真,提高了目標傾向性和語音質(zhì)量,轉(zhuǎn)換性能更加接近于傳統(tǒng)的基于平行語料的語音轉(zhuǎn)換方法[2~4].
圖1描述了約束條件下的結(jié)構(gòu)化高斯混合模型應用于非平行語料語音轉(zhuǎn)換的系統(tǒng)構(gòu)成.
語音轉(zhuǎn)換系統(tǒng)分為訓練與轉(zhuǎn)換兩個部分.在訓練階段,對源語音和目標語音進行STRAIGHT分析,提取出短時譜及基頻,從短時譜中提取出線性預測倒譜系數(shù)(LPCC).與此同時,從源說話人及目標說話人的非平行訓練語料中提取出相同的音節(jié),經(jīng)過相同的STRAIGHT分析過程,其特征參數(shù)進行聯(lián)合訓練得到聯(lián)合分布的高斯混合模型,該聯(lián)合模型包含了源和目標語音成份的對應關(guān)系.然后,對該模型各個高斯分布進行標記,標明源與目標高斯分布之間的對應關(guān)系,作為約束信息指導源與目標語音LPCC特征參數(shù)的聚類和帶約束的SGMM建模,得到源與目標說話人語音各自的C-SGMM.而F0則由單高斯分布描述.訓練好的源與目標C-SGMM在保證由聯(lián)合模型得到的高斯分布對應關(guān)系的前提下,通過AUS原理進行其它高斯分布的匹配對準,繼而推導出非平行語料語音短時譜轉(zhuǎn)換函數(shù).
轉(zhuǎn)換階段與傳統(tǒng)的基于高斯混合模型(GMM)的平行語料語音轉(zhuǎn)換類似,利用轉(zhuǎn)換公式分別對LPCC特征參數(shù)和F0轉(zhuǎn)換并合成后,得到轉(zhuǎn)換后的語音.
C-SGMM是從源和目標說話人的原始非平行訓練語料中提取少量相同音節(jié)作為約束信息,在SGMM的訓練過程中約束K均值聚類中心的產(chǎn)生,同時修正EM過程中某語音幀對應某高斯分量的后驗概率進行迭代訓練.因此,本節(jié)將首先對SGMM進行簡要描述及分析,然后針對C-SGMM的訓練過程,從約束信息引入K均值聚類和EM過程兩個方面進行介紹.
3.1 結(jié)構(gòu)化高斯混合模型及其分析
高斯混合模型(GMM)是單一高斯概率密度函數(shù)的延伸,由于GMM能夠平滑地近似任意形狀的密度分布,因此近年來常被用在語音識別,語音轉(zhuǎn)換等方面[9].結(jié)構(gòu)化高斯混合模型[8]將高斯混合模型結(jié)構(gòu)化,描述出高斯混合模型的各個單高斯分布之間的結(jié)構(gòu)特性,如圖2.首先用EM算法估計出高斯混合模型的參數(shù)(πk,μk,Σk),然后采用Bhattacharyya距離測度計算高斯混合模型中各個單高斯分布之間的相似性,定義為兩個單高斯分布的距離.Bhattacharyya距離測度(BD)計算公式如下:
(1)
結(jié)構(gòu)化高斯混合模型不僅描述了說話人語音特征的統(tǒng)計分布,而且描述了這些特征分布之間的結(jié)構(gòu)關(guān)系.由于高斯混合模型的每一個分量對應一個可分辨的語音特征分布,并且相同的語音成份具有相似的語音特征分布,因此,如果源和目標說話人的訓練語料足夠充分,使各語音成份能夠相對平衡,那么將其語音各自進行結(jié)構(gòu)化高斯混合模型建模之后,即使訓練語料不平行,相同的語音成份及其特征分布也能通過不斷調(diào)整結(jié)構(gòu)化高斯混合模型中高斯分量在其中的位置達到相對對準,實現(xiàn)高斯分布的一一對應,推導出語音短時譜轉(zhuǎn)換函數(shù)[8].
但是在實際情況中,非平行訓練語料往往是非理想的.不同說話人發(fā)音習慣各有不同,那么源和目標語音的聲學特征之間則存在較大離散度,其SGMM之間的成份很可能沒有潛在的一一對應關(guān)系.再加上源和目標說話人的SGMM訓練是獨立進行的,缺少監(jiān)督信息,那么強制對準建立的源-目標語音成份聲學特征間的對應關(guān)系是不夠精確的,從而影響整體轉(zhuǎn)換性能.
而在基于平行語料的說話人語音轉(zhuǎn)換中,由于平行訓練語料本身就存在語音成份上的對應關(guān)系,聯(lián)合訓練正是利用了這種對應關(guān)系,因此轉(zhuǎn)換語音從清晰度,可懂度和目標傾向性等方面均表現(xiàn)出較好的性能,但完全平行的訓練語料難以獲得.然而,在源和目標說話人原始的非平行訓練語料中,少量相同的音節(jié)很容易得到并且被提取出來.這些相同的音節(jié)包含了一定的語義信息[10],也包含了源和目標語音成份及其聲學特征的對應關(guān)系.顯然,這種對應關(guān)系可以作為約束信息加以有效利用,在SGMM訓練和匹配對準時起指導作用,也就是說SGMM的建模和對準以源和目標的少量相同音節(jié)指示的對應關(guān)系為基礎(chǔ),其它大量非平行語料在此基礎(chǔ)上對模型進行分量的擴展和微調(diào),充分利用語料本身存在的對應關(guān)系,使最終語音轉(zhuǎn)換的效果更接近于平行語料語音轉(zhuǎn)換.
在對源和目標語音分別進行C-SGMM建模時,需要先用EM算法估計出高斯混合模型的參數(shù)(πk,μk,Σk),約束信息對C-SGMM建模的指導作用即體現(xiàn)在EM算法中.由于EM算法對初始值敏感,其初始迭代值可由基于密度的K均值聚類算法[11]產(chǎn)生,所以,將約束信息引入EM算法的同時也包括了將約束信息引入K均值聚類算法.以下將從基于約束的K均值聚類和基于約束的EM算法兩方面來進行闡述.
3.2 基于約束的K均值聚類
在對所有訓練語料聲學特征參數(shù)進行統(tǒng)計建模時,需要提取出源與目標說話人訓練語料中少量相同音節(jié)聯(lián)合訓練作為約束信息指導C-SGMM建模.基于這些音節(jié)樣本聯(lián)合訓練得到GMM的模型參數(shù),進一步計算得到每個高斯分量對應訓練數(shù)據(jù)中哪些樣本.屬于同一個高斯分量的樣本集可以看作一個簇,該簇內(nèi)的樣本具有相同的簇標記,包含了相似的語音特征參數(shù),這些樣本在聚類時必須被聚到同一類中.
定義帶M個簇標記的數(shù)據(jù)樣本集X為
由于相同音節(jié)數(shù)目的有限性,其特征參數(shù)聯(lián)合訓練的分布不能充分表達該說話人語音成份的特征分布,這就需要通過大量非平行訓練語料對模型所包含的分布進行適當?shù)臄U充,使得模型能充分描述該說話人完整的語音聲學特征.
步驟1 確定初始聚類中心和聚類數(shù)目S(S>M).將{μx1,μx2,…,μxM}作為前M個初始值,將μx1,μx2,…,μxM的ε鄰域(實驗結(jié)果表明,本實驗使用的語料庫中女性說話人的ε=1.1,男性說話人的ε=1.3時可使K均值聚類的誤差相對較小)以外的yi∈Y按基于密度的K均值聚類算法擴充出(S-M)個初始值[11,12];
步驟2 對Y進行聚類.計算所有yi∈Y與聚類中心C{c1,c2,…,cS}的距離,根據(jù)距離將yi劃分到最近的簇cs中;
步驟3 對X進行聚類.X中的數(shù)據(jù)本身帶標記,以μx1,μx2,…,μxM為均值的的簇分別被聚類到{c1,c2,…,cM}中;
步驟4 更新聚類中心.第t次迭代時,為了避免由于相同音節(jié)數(shù)少而導致的訓練不充分性,第j個聚類中心為
(2)
其中,|Cj|為第j類中無標記樣本yji的總數(shù),Nj為聚到第j類中的帶標記數(shù)據(jù)的總數(shù),μxj為其均值,在j>M時,Nj和μxj均為0;
步驟5 重復步驟2~步驟4直至收斂或達到最大迭代次數(shù).
3.3 基于約束的EM算法
EM算法是一種迭代算法,包含了計算期望(E步)和最大化(M步)兩步,E步估計未知參數(shù)的期望值,給出當前的參數(shù)估計,M步重新估計分布參數(shù),使得數(shù)據(jù)的似然性最大,給出未知變量的期望估計.C-SGMM的參數(shù)(πk,μk,Σk)使用帶約束條件的EM算法進行估計,在帶約束K均值聚類的基礎(chǔ)上使用EM算法迭代計算,并在迭代過程中融入小樣本平行語料約束信息.
首先估計樣本數(shù)據(jù)對應每個高斯分量的后驗概率.對于每個樣本數(shù)據(jù)yi,由第k個分量產(chǎn)生的后驗概率為
(3)
其中N(yi|μk,Σk)表示第k個高斯分布的概率密度函數(shù).
然后通過最大似然估計可得到模型參數(shù)更新公式
(4)
(5)
(6)
通過其模型參數(shù)迭代更新的公式可知,yi及其后驗概率不僅影響其本身所屬分量的參數(shù)更新,同時也參與了其它分量的參數(shù)更新,也就是說,本應該屬于第k個分量的樣本會以其后驗概率對其它模型分量的參數(shù)產(chǎn)生或大或小的干擾[12],EM算法迭代的過程即是減小這種干擾的過程,使樣本以更大的后驗概率屬于某一分布,以更小的后驗概率屬于其它分布.
根據(jù)前面的論述,帶有相同簇標記的樣本應該屬于同一個分量.根據(jù)簇平滑思想,通過加入了少量帶標記的數(shù)據(jù)樣本訓練得到的SGMM模型參數(shù)應該使得帶有相同簇標記的樣本的各個后驗概率相似,其不相似度在迭代的過程中可作為修正后驗概率的因子[13].
帶標記的數(shù)據(jù)樣本xsj屬于第s個分布的后驗概率為p(s|xsj,θ)(s=1,2,…,S),對于該分布中的其它樣本,其p(s|ysn,θ)與p(s|xsj,θ)應該盡可能的相似,其相似度函數(shù)可定義為
(7)
該值越大,說明本應相同的值卻相差很大,p(s|ysn,θ)應作出較大的使之降低的調(diào)整;反之說明應該相同的值相差很小,為保證聯(lián)合訓練得出的對應關(guān)系,p(s|ysn,θ)不作調(diào)整或者不作很大的調(diào)整.可定義修正因子為
(8)
調(diào)整后的pl(s|ysn,θ)=p(s|ysn,θ)·ρsn.因此,每次EM迭代時都使用調(diào)整后的后驗概率進行模型參數(shù)的更新,則模型參數(shù)的更新公式為式(3)~式(5),其中
(9)
理論上該修正能加快EM算法的收斂速度,使EM算法得到的模型參數(shù)更符合用戶期望.
由式(2)和(9)可知,第j類中的樣本個數(shù)Nj影響著Cj和γ′(i.k),也就是相同音節(jié)的個數(shù)影響著基于約束的K均值聚類中聚類中心的產(chǎn)生和基于約束的EM過程中樣本屬于某分量的后驗概率.Nj越大,相同音節(jié)對C-SGMM訓練的約束性越強,得到的C-SGMM中的分量越接近于平行訓練語料的GMM的分量,理論上轉(zhuǎn)換效果越好.
在本文的實驗中,考慮到實際情況中非平行訓練語料的局限性,體現(xiàn)“少量約束信息”,從原始非平行訓練語料中提取出54個相同音節(jié),每個音節(jié)約為30幀.同時,為保證基于相同音節(jié)聯(lián)合訓練得出的對應關(guān)系不發(fā)生太大的偏離,通過觀察相似度函數(shù)值的統(tǒng)計直方圖和EM迭代過程中似然值,將女性說話人進行后驗概率調(diào)整的閾值設為4.5,男性說話人進行后驗概率調(diào)整的閾值設為4.3.后驗概率在相似度函數(shù)值達到所設閾值才進行調(diào)整,否則不作調(diào)整.
最后,求得模型參數(shù)(πk,μk,Σk)后再計算每個高斯分布之間的Bhattacharyya距離,則C-SGMM訓練完成.
C-SGMM不僅描述了說話人語音特征分布,而且描述了這些特征分布之間的結(jié)構(gòu)關(guān)系,其應用于語音轉(zhuǎn)換的過程是通過不斷調(diào)整源說話人C-SGMM中高斯分布的位置,使源說話人C-SGMM調(diào)整之后與目標說話人C-SGMM在高斯分布上有正確的一一對應的關(guān)系,即語音成份上的對應關(guān)系,從而實現(xiàn)語音轉(zhuǎn)換.
不同說話人發(fā)音的倒譜特征參數(shù)變化表現(xiàn)為一種線性映射關(guān)系[13],理論上,不同說話人發(fā)出的相同語音,倒譜特征參數(shù)在AUS中的Bhattacharyya距離是相同的,即
BD(pi(x′),pj(x′))=BD(pi(x),pj(x))
(10)
其中,x是源語音的到譜特征參數(shù),x′是相同語音的目標語音的倒譜特征參數(shù).
上式表明,盡管不同說話人發(fā)出的同一語音具有不同的聲學特征分布,但在倒譜空間中其結(jié)構(gòu)是相同的,只是位置發(fā)生了變化.AUS描述一個語音的內(nèi)在聲學特征結(jié)構(gòu)關(guān)系[14],通過AUS不變性原理將兩個C-SGMM中的聲學特征分布進行對準,從而可推導出語音轉(zhuǎn)換公式.
兩個C-SGMM之間的距離定義為:
(11)
其中,sij,tij分別表示在源C-SGMM中和目標C-SGMM中連接節(jié)點i,j的邊,即式(1)所表示的Bhattacharyya距離.當下式成立時,表明源說話人的C-SGMM與目標說話人的C-SGMM之間的差異最小,此時兩模型之間高斯分量實現(xiàn)對準,即語音聲學特征已經(jīng)對準.
(12)
(13)
1≤i,j≤N,1≤f(·)≤N
(14)
則短時譜的轉(zhuǎn)換函數(shù)可以表示為:
(15)
基于C-SGMM的語音轉(zhuǎn)換的核心是特征參數(shù)高斯分布的對準.由于每個高斯分布對應著一個特定的語音成份,如果由于算法的不精確導致模型的對準有偏差,則語音成份的對準也存在偏差,那么合成的語音就會詞序混亂,表意不明,所以C-SGMM中的高斯分量的對準是十分重要的,直接影響語音的可懂性.若要得到使對準式(11)~(13)成立的全局最優(yōu)解,理論上需要對模型中的高斯分布進行全排列,但這個搜索過程過于龐大,對計算機的性能要求極高,因此需要考慮能平衡搜索時間與模型匹配精度矛盾的局部最優(yōu)算法.所以,在C-SGMM的對準過程中使用基于爬山算法的快速模型匹配算法[15].
由于C-SGMM的訓練不改變基于少量相同音節(jié)聯(lián)合訓練得到的源和目標語音在語音成份上的對應關(guān)系,所以在模型匹配過程中只需對新增的高斯分量使用快速匹配算法進行對準,由少量相同音節(jié)確定的高斯分布默認已經(jīng)一一對準,不再進行匹配對準.
除了短時譜,另一個表征說話人個性特征的參數(shù)是基音頻率F0.本文使用單高斯分布描述源說話人和目標說話人的基音頻率分布特性,由此得到基音頻率的轉(zhuǎn)換公式為
(16)
其中,μS和σS表示源說話人基頻的均值和方差,μT和σT表示目標說話人基頻的均值和方差.
設計了四個實驗來評價本文提出的方法是否有效.其中包括兩個客觀評價實驗和兩個主觀評價實驗,并且與基于GMM的平行語料語音轉(zhuǎn)換及傳統(tǒng)的結(jié)構(gòu)化非平行語料語音轉(zhuǎn)換結(jié)果進行比較.本實驗中采用的訓練和測試語料為均在安靜的環(huán)境下錄制的語料庫SUDA-3[8],訓練語料包括兩段男聲和兩段女聲(記為F1,F(xiàn)2,M1,M2),包含語音成份相對平衡,持續(xù)時間均為約3分鐘.測試語料為F1、 F2、M1和M2的各40段語音,每段語音持續(xù)時間約3秒鐘.錄制訓練和測試語料時采樣率均設為16kHz,量化位均為16.聯(lián)合訓練的高斯分布數(shù)為64.非平行訓練語料在使用C-SGMM建模時,均采用128個高斯分布,即在原64個高斯分布的基礎(chǔ)上新增64個高斯分布.LPCC特征參數(shù)均設為39階.
5.1 客觀評價
本小節(jié)設計了兩個客觀評價實驗,分別為說話人識別(SR)測試和譜失真(CD)測度.下列表格中,GMM表示使用傳統(tǒng)的基于GMM的平行語料語音轉(zhuǎn)換方法,SGMM表示傳統(tǒng)結(jié)構(gòu)化方法,C-SGMM表示基于約束的結(jié)構(gòu)化高斯混合模型方法.客觀測評結(jié)果如表1和表2.
說話人識別測試主要是通過測試轉(zhuǎn)換后語音屬于源說話人和目標說話人語音的似然度來評價轉(zhuǎn)換性能.建立四個說話人(F1,F(xiàn)2,M1,M2)的高斯混合模型,高斯混合模型中的高斯分布數(shù)為16,特征矢量為12維MFCC參數(shù)以及12維一階MFCC差分值.
表1 客觀測評結(jié)果(SR)
表2 客觀測評結(jié)果(CD)
譜失真測度測評轉(zhuǎn)換后語音的倒譜與目標語音倒譜之間的差異性,表示為
(17)
其中,N為語音的幀數(shù),M為特征參數(shù)LPCC的階數(shù),T表示目標語音的LPCC,而S′表示轉(zhuǎn)換后語音的LPCC.
從表1的實驗結(jié)果可知,采用基于C-SGMM的語音轉(zhuǎn)換方法,轉(zhuǎn)換后語音的平均正確識別率達到95.25%,比傳統(tǒng)的結(jié)構(gòu)化方法高了0.75%,更加接近于傳統(tǒng)的基于GMM的平行語料語音轉(zhuǎn)換方法.由表2可知,使用該方法得到的平均譜失真測度相比于傳統(tǒng)的結(jié)構(gòu)化方法降低了10.3%,充分說明了使用該方法得到的譜包絡更加接近于目標譜包絡.
5.2 主觀評價
設計了兩個主觀評價實驗來測試轉(zhuǎn)換后語音的質(zhì)量,分別為ABX測試和MOS測試,測試人數(shù)為20人.實驗結(jié)果如表3和表4.
在ABX測試中,聽者判斷轉(zhuǎn)換后的語音更加接近與源語音還是目標語音,接近源語音則給出評分0分,接近目標語音則給出評分1分.在MOS測試中,聽者根據(jù)聽到的語音的質(zhì)量對該語音進行打分,評分分為5個等級:1分表示很差,2分表示較差,3分表示一般,4分表示較好,5分表示很好.
表3 主觀測評結(jié)果(ABX)
表4 主觀測評結(jié)果(MOS)
從表中各個方法的ABX與MOS得分可以看出,采用C-SGMM方法得到的實驗結(jié)果相比于傳統(tǒng)的結(jié)構(gòu)化方法,從目標傾向性和語音質(zhì)量兩方面更加接近于基于GMM的平行語料語音轉(zhuǎn)換方法的性能.
本文論述了基于約束條件的結(jié)構(gòu)化高斯混合模型及基于該模型的非平行語料語音轉(zhuǎn)換方法.該方法不需要平行訓練語料,克服了傳統(tǒng)結(jié)構(gòu)化方法的語音成份對應關(guān)系的問題并且計算量相對較小.約束信息從源與目標非平行語料中提取并應用到SGMM的訓練中,通過對K均值聚類初始值的選取和聚類中心迭代的約束,將約束信息引入K均值聚類;通過相似度函數(shù)對樣本所屬類別的后驗概率進行調(diào)整,將約束信息引入EM算法中,最終得到C-SGMM.C-SGMM中新增的高斯分布利用基于AUS原理的快速匹配算法進行匹配對準,而由約束信息確定的高斯分布默認對準,從而得到短時譜轉(zhuǎn)換函數(shù)進行語音轉(zhuǎn)換.主觀和客觀實驗結(jié)果表明,使用該方法得到的語音轉(zhuǎn)換性能相比于傳統(tǒng)的結(jié)構(gòu)化語音轉(zhuǎn)換方法有較大提高,更加接近于傳統(tǒng)的基于平行語料的語音轉(zhuǎn)換方法.
由于基于約束的EM算法中進行后驗概率調(diào)整的閾值隨不同說話人改變,與基頻相關(guān)性未知,故后續(xù)研究中需對此進行進一步探究.
[1]Stylianou,Y.Voice transformation:A survey[A].IEEE International Conference on Acoustics,Speech and Signal Processing[C].Taipei:IEEE,2009.3585-3588.
[2]康永國,雙志偉,陶建華,張維.基于混合映射模型的語音轉(zhuǎn)換算法研究[J].聲學學報,2006,31(6):555-562.
Kang Yongguo,Shuang Zhiwei,Tao Jianhua,et al.A hybrid method to convert acoustic features for voice conversion[J].Acta Acustica,2006,31(6):555-562.(in Chinese)
[3]徐寧,楊震,張玲華.基于狀態(tài)空間模型的子頻帶語音轉(zhuǎn)換算法[J].電子學報,2010,38(3):646-653.
Xu Ning,Yang Zhen,Zhang Ling-hua.Sub-and voice morphing algorithm based on state-space model[J].Acta Electronica Sinica,2010,38(3):646-653.(in Chinese)
[4]Gu Hung-yan,Tsai Sung-fung.Improving segmental GMM based voice conversion method with target frame selection[A].International Symposium on Chinese Spoken Language Processing (ISCSLP)[C].Singapore:IEEE,2014.483-487.
[5]Mouchtaris A,Van der Spiegel J,Mueller P.Nonparallel training for voice conversion based on a parameter adaptation approach[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(3):952-963.
[6]Erro D,Moreno A,Bonafonte A.INCA Algorithm for training voice conversion systems from nonparallel corpora[J].IEEE Transactions on Audio,Speech,and Language Processing,2010,18(5):944-953.
[7]Saito D,Watanabe S,Nakamura A,et al.Statistical voice conversion based on noisy channel model[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(6):1784-1794.
[8]俞一彪,曾道建,姜瑩.采用獨立說話人模型的語音轉(zhuǎn)換[J].聲學學報,2012,37(3):346-352.
Yu Yibiao,Zheng Daojiang,Jiang Ying.Voice conversion based on isolated speaker model[J].Acta Acustica,2012,37(3):346-352.(in Chinese)
[9]Li Xian,Wang Zeng-fu.Frame correlation based autoregressive GMM method for voice conversion[A].International Symposium on Chinese Spoken Language Processing (ISCSLP)[C].Singapore:IEEE,2014.221-225.
[10]Li Yan-ping,Zhang Ling-hua,Ding Hui.Nonparallel voice conversion based on phoneme classification and eigenvoices[A].IEEE International Conference on Communication Technology (ICCT)[C].Nanjing:IEEE,2010.662-665.
[11]Oliva G,La Manna D,Fagiolini A,et al.Distance-constrained data clustering by combined k-means algorithms and opinion dynamics filters[A].Mediterranean Conference of Control and Automation (MED)[C].Palermo:IEEE,2014.612-619.
[12]於躍成.基于半監(jiān)督學習的分布式和演化聚類研究[D].南京:南京航空航天大學,2012.
Yu Yuecheng.Distributed clustering and evolutionary clustering algorithm based on semi-supervised learning[D].Najing:Nanjing University of Aeronautics and Astronautics,2012.(in Chinese)
[13]Michael Pitz,Hermann Ney.Vocal tract normalization equals linear transformation in cepstral space[J].IEEE Trans on Audio,Speech,and Language Processing,2005,13(5):930-944.
[14]Minematsu N.Mathematical evidence of the acoustic universal structure in speech[A].IEEE International Conference on Acoustics,Speech,and Signal Processing,(ICASSP)[C].Philadelphia:IEEE,2005.889-892.
[15]Che Yingxia,Yu Yibiao.Fast matching algorithm between statistical acoustic models of source-target speaker in structured approach of non-parallel corpora voice conversion[A].IEEE International Conference on Information Science and Technology (ICIST)[C].Shenzhen:IEEE,2014.88-92.
車瀅霞 女,1989年生,江蘇常州人,蘇州大學電子信息學院碩士,研究方向為語音信號處理.
俞一彪(通信作者) 男,1962年生,江蘇無錫人,蘇州大學電子信息學院教授,主要研究領(lǐng)域為語音信號處理、多媒體通信、信息隱藏.
Non-parallel Corpora Voice Conversion Based on Structured Gaussian Mixture Model Under Constraint Conditions
CHE Ying-xia,YU Yi-biao
(SchoolofElectronicandInformationEngineering,SoochowUniversity,Suzhou,Jiangsu215006,China)
This paper proposes a structured Gaussian mixture model with constraint conditions (C-SGMM) for non-parallel corpora voice conversion.A small number of voice signals with the same syllables from the source and target non-parallel corpus are extracted as constraint conditions,then the correspondence between acoustic features of source and target corpus formed by these syllables are applied in the process of statistical acoustic model training.The constraint conditions are used to restrict the cluster centers ofK-means clustering process,and they are also used in EM algorithm to adjust the voice frame’s posterior probability belonging to a Gaussian distribution component for model training.Then Gaussian distributions in source and target structured Gaussian mixture models are aligned using acoustic universal structure principle and the conversion function can be derived.Results of both subjective and objective experiments indicate that the conversion performance obtained by the proposed method are advanced to that of the traditional structured method in cepstrum distortion,target tendency and speech quality aspects.The average cepstrum distortion of converted speech is only 0.52,the speaker recognition rate of the converted speech reaches 95.25%,and the performance closer to the conventional parallel corpora GMM based method is achieved.
voice conversion;structure Gaussian mixture model;non-parallel corpora;constraint conditions
2015-02-08;
2015-08-10;責任編輯:梅志強
國家自然科學基金(No.61271360);江蘇省自然科學基金(No.BK20131196)
TN912.33
A
0372-2112 (2016) 09-2282-07
??學報URL:http://www.ejournal.org.cn
10.3969/j.issn.0372-2112.2016.09.37