• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    語音轉(zhuǎn)換技術研究現(xiàn)狀及展望

    2019-10-30 00:35:58張雄偉苗曉孔曹鐵勇
    數(shù)據(jù)采集與處理 2019年5期
    關鍵詞:語料語音特征

    張雄偉 苗曉孔 曾 歆 孫 蒙 曹鐵勇

    (陸軍工程大學,南京,210007)

    引 言

    隨著人工智能應用領域的不斷擴大和發(fā)展,智能語音交互、個性化語音生成等技術逐步受到人們的關注。語音轉(zhuǎn)換作為個性化語音生成的一種重要技術和手段,涉及語音信號處理、人工智能、模式識別、語音學等多方面學科領域,是當今語音處理研究領域的熱點和難點,近年來越來越引起學者的重視[1]。

    廣義上講,人們把改變語音中說話人個性特征的語音處理技術統(tǒng)稱為語音轉(zhuǎn)換[2-5],廣義的語音轉(zhuǎn)換可分為非特定人語音轉(zhuǎn)換和特定人語音轉(zhuǎn)換兩大類。非特定人語音轉(zhuǎn)換是指通過技術處理,使得轉(zhuǎn)換后的語音不再像原說話人的聲音。而在實際研究和應用中,語音轉(zhuǎn)換通常是指改變一個說話人,即源說話人(Source speaker)的語音個性特征,如頻譜、韻律等,使之具有另外一個特定說話人,即目標說話人(Target speaker)的個性特征[6,7],同時保持語義信息不變的技術。一般來說,特定人語音轉(zhuǎn)換的技術難度要高于非特定人語音轉(zhuǎn)換。

    語音轉(zhuǎn)換研究的相關工作最早可追溯至20世紀六七十年代,至今已經(jīng)有50多年的研究歷史,但真正受到學術界和產(chǎn)業(yè)界廣泛關注則是近十多年的事情。近年來,語音信號處理和機器學習等技術的進步,以及大數(shù)據(jù)獲取能力和大規(guī)模計算性能的提高有力地推動了語音轉(zhuǎn)換技術的研究及發(fā)展[8]。特別是基于人工神經(jīng)網(wǎng)絡(Artificial neural network,ANN)的語音轉(zhuǎn)換方法的興起,使得轉(zhuǎn)換語音的質(zhì)量進一步得到提升。國內(nèi)較早進行語音轉(zhuǎn)換研究的機構(gòu)包括中國科學院、中國科學技術大學、國防科技大學、亞洲微軟研究院、IBM中國研究院等[9]。近年來,東南大學、南京郵電大學、華南理工大學、蘇州大學、哈爾濱工業(yè)大學、西北工業(yè)大學、陸軍工程大學等多所高校以及騰訊、科大訊飛和百度等多家企業(yè)也開始此項技術研究,并相繼取得了一些的研究成果。2016年,來自中、日、英等國語音轉(zhuǎn)換領域的科學家組織了VCC2016語音轉(zhuǎn)換競賽,在統(tǒng)一的數(shù)據(jù)集上,對17個國際著名的語音研究小組提交的系統(tǒng)做了統(tǒng)一的評價和分析,為語音轉(zhuǎn)換研究提供了數(shù)據(jù)平臺和性能標尺。2018年VCC2018也如期舉辦,語音轉(zhuǎn)換方法再次推陳出新,且轉(zhuǎn)換語音的質(zhì)量也得到明顯提升。

    本文在簡要介紹語音轉(zhuǎn)換原理的基礎上,重點梳理了語音轉(zhuǎn)換的相關方法和研究進展,歸納了語音轉(zhuǎn)換的關鍵技術和應用,并總結(jié)了目前語音轉(zhuǎn)換中仍存在的問題和挑戰(zhàn),對語音轉(zhuǎn)換未來的發(fā)展方向作出展望。

    1 語音轉(zhuǎn)換的基本原理及框架

    研究表明,語音中的聲道譜信息、共振峰頻率和基音頻率等參數(shù)是影響語音個性特征的主要因素[10]。了解語音轉(zhuǎn)換的原理和過程,將有助于提取語音成分中的個性特征,更好地實現(xiàn)語音轉(zhuǎn)換。語音轉(zhuǎn)換的基本原理如圖1所示。

    圖1 語音轉(zhuǎn)換原理圖Fig.1 Schematic design of voice conversion

    通常一個完整的語音轉(zhuǎn)換方案由反映聲源特性的韻律轉(zhuǎn)換和反映聲道激勵特性的頻譜(或聲道譜)轉(zhuǎn)換兩部分組成[11-13]。韻律的轉(zhuǎn)換主要包括基音周期的轉(zhuǎn)換、時長的轉(zhuǎn)換和能量的轉(zhuǎn)換[9],而聲道譜轉(zhuǎn)換表現(xiàn)為共振峰頻率、共振峰帶寬、頻譜傾斜等轉(zhuǎn)換。因為聲道譜包含人更多的聲音個性特征,且轉(zhuǎn)換建模相對復雜,是制約語音轉(zhuǎn)換效果的主要原因。因此,目前的語音轉(zhuǎn)換研究也主要集中在對聲道譜的轉(zhuǎn)換方面[11]。

    根據(jù)圖1的語音轉(zhuǎn)換原理可知,一個語音轉(zhuǎn)換系統(tǒng)通常包含訓練和轉(zhuǎn)換兩個階段。訓練階段,首先對源說話人和目標說話人的語音進行分析和特征提取,然后對提取特征進行映射處理,最后對這些映射特征進行模型訓練,進而得到轉(zhuǎn)換模型。轉(zhuǎn)換階段,對待轉(zhuǎn)換源語音進行分析、特征提取和映射,然后用訓練階段獲取的轉(zhuǎn)換模型對映射特征進行特征轉(zhuǎn)換,最后將轉(zhuǎn)換后的特征用于語音合成得到轉(zhuǎn)換語音。

    目前實現(xiàn)語音轉(zhuǎn)換的方法中多數(shù)采用的是源和目標說話人語音特征參數(shù)間的匹配映射方式,且均在同一個語音分析合成的模型框架下進行。隨著信息技術的不斷進步,出現(xiàn)了序列到序列、波形到波形等語音轉(zhuǎn)換方法,而且可用于語音轉(zhuǎn)換的模型也越來越多。

    2 語音轉(zhuǎn)換的典型模型和方法

    為了便于實現(xiàn)語音轉(zhuǎn)換,本節(jié)介紹了聲道譜轉(zhuǎn)換和韻律轉(zhuǎn)換兩方面的研究現(xiàn)狀。通過對研究現(xiàn)狀的分析可知,目前語音轉(zhuǎn)換研究主要集中在對聲道譜的建模和轉(zhuǎn)換規(guī)則方面,而對韻律的建模和轉(zhuǎn)換研究尚不夠充分。

    2.1 聲道譜轉(zhuǎn)換方法

    聲道譜轉(zhuǎn)換中較為常用的參數(shù)有幅度譜、對數(shù)譜、倒譜、線性預測系數(shù)等基本參數(shù)以及動態(tài)差分、本征空間短時譜[14]等變換參數(shù)。目前,對聲道譜轉(zhuǎn)換模型的研究通常是在對源和目標說話人語音進行統(tǒng)計分析的基礎上,通過參數(shù)映射方式實現(xiàn)。聲道譜轉(zhuǎn)換研究經(jīng)歷了從離散映射到連續(xù)映射、從單幀映射到音段映射、從線性映射到非線性映射、從單一方法到多方法融合的過程,轉(zhuǎn)換性能不斷提升。訓練條件也從大數(shù)據(jù)量、平行語音到小數(shù)據(jù)量、非平行語音過渡[9]。聲道譜轉(zhuǎn)換是語音轉(zhuǎn)換中的重點和難點,也是目前語音轉(zhuǎn)換需重點解決的問題。

    2.1.1 基于碼書映射的轉(zhuǎn)換方法

    碼書映射的方法首先通過矢量量化的方法有效減少源與目標語音的特征數(shù)量,然后將最接近源碼書的質(zhì)心矢量通過聚類方法轉(zhuǎn)換成相應的目標碼書,從而實現(xiàn)語音轉(zhuǎn)換。Abe等[15]于1988年首次提出將該方法用于語音轉(zhuǎn)換,方法的轉(zhuǎn)換流程圖如圖2所示[16]。但由于這種方法在量化時會造成特征空間的不連續(xù),且忽略了幀間信息,所以轉(zhuǎn)換效果不夠理想。

    此后,針對上述問題的改進方案陸續(xù)被提出,1991年,Shikano等[17]提出模糊矢量量化算法的碼書映射;1997年,Kim[18]提出利用隱馬爾科夫解決幀間信息的碼書映射;1999年,Arslan[19]構(gòu)建了一種碼字線性加權(quán)的碼書映射方法。這些方法均是通過解決碼書映射不連續(xù)問題來提高轉(zhuǎn)換語音的質(zhì)量,但同時也造成了過平滑等其他問題的產(chǎn)生。此后,2005年,Wang等[20]通過引入分級碼書的方法來解決轉(zhuǎn)換精度的問題。2011年,Eslami等[21]提出在連續(xù)語音段上利用碼書映射,在解決碼書不連續(xù)問題的同時保留較好譜結(jié)構(gòu)信息。2015年,胡芳等[22]提出基于碼書映射的語音轉(zhuǎn)換改進算法,通過基于轉(zhuǎn)換權(quán)重預測重構(gòu)碼書映射關系的方法提升轉(zhuǎn)換語音質(zhì)量。總的來說,碼書映射的方法實現(xiàn)原理簡單,量化矢量均來自目標特征空間,語音頻譜信息保留較為完整,但存在過平滑問題,且語音轉(zhuǎn)換的精度還有待進一步提升。

    2.1.2 基于高斯混合模型的轉(zhuǎn)換方法

    高斯混合模型(Gaussian mixture model,GMM)是一種采用若干個基于高斯概率密度的函數(shù)來精確量化事物的概率模型,即采用一組高斯函數(shù)的加權(quán)求和結(jié)果來表達觀測數(shù)據(jù)的概率分布,如式(1)所示[16,23,24]

    圖2 基于碼書映射的語音轉(zhuǎn)換流程圖[16]Fig.2 Voice conversion flow chart based on codebook mapping[16]

    式中:x為觀測數(shù)據(jù),p為其維度;αi為權(quán)重系數(shù)(需要滿足αi≥0且其中m為高斯分量數(shù)目,則N(x;μi,Σi)表示均值為μi、協(xié)方差矩陣為Σi的高斯分布。

    針對碼書映射中特征空間不連續(xù)的問題,Stylianou等[25]提出引入GMM對聲道譜特征進行建模,使用基于概率的“軟”聚類代替基于矢量量化的“硬”聚類,該方法獲得了很好的效果,提升了語音轉(zhuǎn)換的質(zhì)量。但這種方法僅在源特征矢量上進行估計,而不是聯(lián)合特征矢量估計,也就是說幀間信息考慮不足,所以極易出現(xiàn)過擬合和過平滑問題。受此啟發(fā),對基于高斯混合的統(tǒng)計映射模型改進的研究逐步展開。

    在經(jīng)典GMM的基礎上,Chen等[26]提出采用最大后驗概率自適應來轉(zhuǎn)換聲道函數(shù);申毅等[27]提出依據(jù)后驗概率大小和前后語音相關性來改進基于GMM模型的轉(zhuǎn)換系統(tǒng)。Toda等[28]提出采用最大似然估計來改進;Helander等[29]則將最小二乘法引入GMM統(tǒng)計映射方法中來解決訓練中的過擬合問題。近年來,針對改進GMM的方法仍在研究和發(fā)展中,例如在2012年,Helander等[30]提出了Dynamic Kernel PLS(DKPLS)轉(zhuǎn)換方法,把傳統(tǒng)的GMM方法中的線性映射拓展到非線性空間,提高了轉(zhuǎn)換精度;2013年,宋鵬等[31]提出基于混合Gauss歸一化的語音轉(zhuǎn)換方法,成功將該模型運用到非對稱語料庫中;2015年,王明明[32]提出基于GMM和碼書映射相結(jié)合的語音轉(zhuǎn)換方法,減少GMM產(chǎn)生的過平滑問題;2016年,Kobayashi等[33]提出了倒譜殘差的GMM,將頻域變換轉(zhuǎn)變?yōu)闀r域濾波,提高了轉(zhuǎn)換時的計算效率。雖然基于GMM的方法不斷完善和發(fā)展,但是由于GMM本身存在非一一映射情況,導致的過平滑問題一直沒有得到根本解決,所以也限制該方法的進一步普及和應用。

    2.1.3 基于隱馬爾科夫模型的轉(zhuǎn)換方法

    隱馬爾科夫模型(Hidden Markov model,HMM)是常用的統(tǒng)計分析模型之一,在語音識別、行為識別、自然語言處理等領域得到廣泛應用。與GMM相比較,HMM在聲道譜轉(zhuǎn)換上的最大優(yōu)勢在于可利用自身的隱含狀態(tài)及狀態(tài)轉(zhuǎn)移概率矩陣來對語音信號的動態(tài)變化進行建模[16]。1997年,Kim等[18]提出并實現(xiàn)了基于HMM的語音信號的頻譜建模和轉(zhuǎn)換。隨后基于HMM的轉(zhuǎn)換方法得到進一步的研究和發(fā)展,2004年,Duxans等[34]提出將GMM的轉(zhuǎn)換思路拓展到HMM中,采用聯(lián)合HMM的方法將動態(tài)信息納入考慮范疇,因而轉(zhuǎn)換過程的魯棒性更強。2006年,Wu等[35]提出一種基于Bi-HMM模型的語音轉(zhuǎn)換算法,該方法利用HMM中的狀態(tài)持續(xù)時間來刻畫音素的時長信息,并采用Gamma函數(shù)分布來描述狀態(tài)持續(xù)時間變量?;贐i-HMM的語音轉(zhuǎn)換不僅降低了轉(zhuǎn)換后語音與目標語音的譜距離,而且極大地改善了語音韻律特性的轉(zhuǎn)換,特別有利于語音情感特性的控制和轉(zhuǎn)換。2010年,Qiao等[36]提出了一種基于HMM的幀序列到單幀的轉(zhuǎn)換方法,有效解決了轉(zhuǎn)換過程中幀間不連續(xù)問題。2011年,Zen等[37]提出了基于軌跡HMM的連續(xù)概率映射方法,有效地解決了傳統(tǒng)HMM考慮動態(tài)特征參數(shù)后訓練和轉(zhuǎn)換不一致的問題。雖然HMM的語音轉(zhuǎn)換方案也在不斷更新完善,但由于HMM的隱含狀態(tài)數(shù)目受限,造成了語音信號的動態(tài)變化范圍受限,進而制約了轉(zhuǎn)換處理精度,故該方法在實際轉(zhuǎn)換應用中也有一定局限。

    2.1.4 基于頻率彎折轉(zhuǎn)換方法

    基于頻率彎折的語音轉(zhuǎn)換方法是指通過沿頻率軸拉伸或壓縮頻譜,來調(diào)整共振峰的位置和帶寬,并通過幅度縮放來調(diào)整每個頻率中的能量大小,從而實現(xiàn)源到目標說話人的頻譜映射。其轉(zhuǎn)換示意圖如圖3所示。

    圖3 分段線性頻率彎折示意圖[8]Fig.3 Diagram of piecewise linear frequency warping[8]

    基于頻率彎折的語音轉(zhuǎn)換方法主要分為基于動態(tài)規(guī)劃的頻率彎折(Dynamic frequency warping,DFW)和基于映射共振峰的頻率彎折[38]兩類。采用頻率彎折的語音轉(zhuǎn)換方法最早于1992年由Valbret等[39]提出,雖然該方法最大程度地保留了頻譜的結(jié)構(gòu)信息,但由于頻譜調(diào)整幅度的限制,導致轉(zhuǎn)換語音自然度高,但相似度較低。針對該問題,Sündermann等[40]結(jié)合聲道譜歸一化技術提出了單參數(shù)彎折函數(shù)和多參數(shù)分段線性函數(shù)的頻率彎折方法,對源說話人語音聲道譜進行彎折處理。雙志偉等[41]提出將頻率彎曲與單元挑選相結(jié)合來提高相似度的方法。后續(xù)關于頻率彎折的研究還有很多,近些年將頻率彎折方法與GMM、字典映射、最大譜相關等方法結(jié)合起來實現(xiàn)語音轉(zhuǎn)換的方法也陸續(xù)出現(xiàn)[42-46]。綜上,采用基于頻率彎折來實現(xiàn)語音轉(zhuǎn)換的方法,能夠最大程度地保持語音自然度,且轉(zhuǎn)換語音質(zhì)量較高,但是其在相似度方面略顯不足,還需結(jié)合其他方法以獲得進一步提升。

    2.1.5 基于神經(jīng)網(wǎng)絡的轉(zhuǎn)換方法

    ANN模仿人類神經(jīng)網(wǎng)絡行為特征,為一種模仿動物神經(jīng)網(wǎng)絡行為特征并進行分布式并行信息處理的數(shù)學模型。這種網(wǎng)絡依靠系統(tǒng)的復雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關系,從而達到處理信息的目的[47]。因為神經(jīng)網(wǎng)絡對非線性轉(zhuǎn)換具有良好的效果,所以在語音轉(zhuǎn)換過程中也得到了應用。早期采用神經(jīng)網(wǎng)絡實現(xiàn)語音轉(zhuǎn)換的方法主要集中于對神經(jīng)網(wǎng)絡隱層個數(shù)和邏輯單元上的改進,但一般不超過3個隱層且大多為前饋神經(jīng)網(wǎng)絡[48-50]。近幾年在深度學習技術的推動下,能有效表示高維序列數(shù)據(jù)的深度神經(jīng)網(wǎng)絡不斷發(fā)展,如全卷積神經(jīng)網(wǎng)絡(Fully convolutional network,FCN)、生成對抗網(wǎng)絡(Generative adversarial network,GAN)、雙向長短時記憶網(wǎng)絡(Bidirectional long short term memory,BLSTM)等均被用來實現(xiàn)譜序列到序列的高精度轉(zhuǎn)換。例如:Huang等[51]提出基于結(jié)合變分自動編碼器和全卷積網(wǎng)絡的語音轉(zhuǎn)換研究,Kaneko等通過序列到序列(seq2seq)的GAN模型初步研究了語音轉(zhuǎn)換[52]以及語音質(zhì)量增強中的過平滑問題[53],Huang等[54]提出的自動化評價指標可作為GAN的判別器,Esteban等[55]提出了適用于時間序列預測的循環(huán)式GAN用于生物數(shù)據(jù)建模,Takuhiro等[56]在循環(huán)GAN的基礎上進行改進,進一步提升語音轉(zhuǎn)換效果。由于BLSTM網(wǎng)絡兼顧了語音序列的上下文信息同時也是一種序列映射的神經(jīng)網(wǎng)絡,所以其轉(zhuǎn)換的語音質(zhì)量相對較好[57]。同時,將神經(jīng)網(wǎng)絡與其他轉(zhuǎn)換模型結(jié)合的方法也不斷涌現(xiàn),Hsu等[58]提出了一種針對譜轉(zhuǎn)換任務中高維數(shù)據(jù)的非負矩陣分解問題的字典更新方法,Seyed等[59]提出了具有獨立于說話人預訓練的深度神經(jīng)網(wǎng)絡語音轉(zhuǎn)換。通過預訓練好的深層自編碼器和ANN權(quán)值構(gòu)造了一個深層神經(jīng)網(wǎng)絡,然后利用反向傳播對網(wǎng)絡權(quán)值進行微調(diào)最終實現(xiàn)對特征的轉(zhuǎn)換。Chen等[60]提出一種新的基于深度神經(jīng)網(wǎng)絡的譜包絡轉(zhuǎn)換方法,通過DNN對級聯(lián)不同模型的網(wǎng)絡進行訓練進而實現(xiàn)語音轉(zhuǎn)換。

    隨著神經(jīng)網(wǎng)絡模型的不斷改進和發(fā)展,結(jié)合不同語音特征采用不同的網(wǎng)絡轉(zhuǎn)換模型方法不斷提出。神經(jīng)網(wǎng)絡轉(zhuǎn)換的本質(zhì)是參數(shù)的多元回歸模型,通過增加網(wǎng)絡訓練層數(shù)、添加高維特征序列和增大訓練數(shù)據(jù)量等多種手段可以有效提升轉(zhuǎn)換語音的質(zhì)量。隨著參數(shù)的增多,模型的表示能力不斷增強。但當前表現(xiàn)優(yōu)異的深度學習模型,所依賴參數(shù)過多,在非合作模式下當訓練數(shù)據(jù)不充分時,就會發(fā)生過擬合現(xiàn)象,導致性能急速下降。這也是基于神經(jīng)網(wǎng)絡實現(xiàn)語音轉(zhuǎn)換方法所面臨的共性問題。同時,對數(shù)據(jù)訓練量的依賴也成為制約此類方法轉(zhuǎn)換效果的一個重要因素。

    2.1.6 基于波形生成的轉(zhuǎn)換方法

    針對轉(zhuǎn)換合成語音產(chǎn)生過平滑的問題,2016年Google公司的Deepmind團隊提出采用WaveNet網(wǎng)絡直接生成音頻波形樣本點的方法來解決[61]。該方法主要基于一條件概率建模的深度自回歸模型,將語音的各種特征作為條件,如式(2)所示,通過訓練找到合適的自回歸模型。同時網(wǎng)絡中還采用因果卷積、擴張卷積等多種模型。

    式中:T為樣本點總數(shù),θ為條件特征向量,t和r分別為采樣數(shù)量和接收域大小,xt為當前時刻樣本點。

    該方法最初被用于文本轉(zhuǎn)換為語音的系統(tǒng)(Text to speech,TTS)。通過這種條件建模方法產(chǎn)生的語音清晰度和自然度高、質(zhì)量好且沒有過平滑問題,但網(wǎng)絡生成速度較慢。隨著Fast-WaveNet網(wǎng)絡的提出,該網(wǎng)絡開始具有實用價值。2018年,Niwa等[62]首次提出將該網(wǎng)絡用于語音轉(zhuǎn)換,轉(zhuǎn)換流程圖如圖4所示。由圖4可知,轉(zhuǎn)換過程中無需語音合成的單獨步驟即可直接生成轉(zhuǎn)換語音。其后,采用該網(wǎng)絡的語音轉(zhuǎn)換方法不斷產(chǎn)生。

    中國科學技術大學在VCC-2018大賽上提出了結(jié)合Bi-LSTM先轉(zhuǎn)換特征再進行特征條件概率建模的方法,有效提升了語音質(zhì)量。Chen等[63]提出結(jié)合不同特征作為條件訓練產(chǎn)生轉(zhuǎn)換語音,文獻[64-67]分別在此基礎上對WaveNet的合成速度和合成條件展開了進一步研究。目前,基于WaveNet網(wǎng)絡的語音轉(zhuǎn)換正在發(fā)展中,還需不斷優(yōu)化結(jié)構(gòu)以提升轉(zhuǎn)換效率,針對該網(wǎng)絡中逐樣點生成語音波形易造成語音崩塌的現(xiàn)象,以及如何進一步提升轉(zhuǎn)換語音自然度的問題仍有待深入研究。

    圖4 基于WaveNet的語音轉(zhuǎn)換流程[62]Fig.4 Overview of the method of voice conversion based on WaveNet[62]

    2.1.7 其他轉(zhuǎn)換方法

    隨著深度學習的進一步發(fā)展,多種多樣的網(wǎng)絡結(jié)構(gòu)被提出,除了上述介紹的幾類常見的聲道譜轉(zhuǎn)換方法外,還有一些其他轉(zhuǎn)換方法同樣值得關注,如:Wu等[68]提出了改進了基于時頻模板的方法,既有效地保存了頻譜細節(jié),又減輕了轉(zhuǎn)換負擔。李娜等[69]將動態(tài)核方法、宋鵬等[70]將主成分回歸用于聲道譜參數(shù)映射,孫健等[71]采用基于卷積非負矩陣分解實現(xiàn)了語音轉(zhuǎn)換,孫新建等[72]采用隱變量模型進行的語音轉(zhuǎn)換,馬振等[73]提出基于語音個人特征信息分離的語音轉(zhuǎn)換等。可見字典映射轉(zhuǎn)換、特征融合轉(zhuǎn)換以及支持向量回歸等方法都還有一定的應用空間。隨著神經(jīng)網(wǎng)絡的不斷發(fā)展,多網(wǎng)絡模型融合的方法日益成為主流的轉(zhuǎn)換方法,因此如何基于小樣本數(shù)據(jù),高效率實時實現(xiàn)聲道譜轉(zhuǎn)換,在既保證轉(zhuǎn)換語音的高自然度和高相似度的同時,又保證轉(zhuǎn)換算法的魯棒性是一個需要重點關注的問題。

    2.2 韻律轉(zhuǎn)換模型方法

    除了聲道譜轉(zhuǎn)換外,激勵源轉(zhuǎn)換對整個語音轉(zhuǎn)換系統(tǒng)性能也舉足輕重,主要包括韻律和非周期分量的轉(zhuǎn)換。非周期分量作為激勵的一部分,不少轉(zhuǎn)換模型直接將其復制不做任何變換。Chen等[13]研究了基于深度神經(jīng)網(wǎng)絡的轉(zhuǎn)換方法。對于此部分,為盡可能減少對轉(zhuǎn)換效果貢獻較小的運算,也可采用直接復制的方式,不對其進行轉(zhuǎn)換。而韻律在反映目標說話人特征、情感狀態(tài)、口音等特征上具有重要作用,所以韻律轉(zhuǎn)換也值得關注。韻律建模通常是通過基頻包絡來實現(xiàn),當前的研究主要體現(xiàn)在情感轉(zhuǎn)換方面。由于韻律信息的復雜性及不穩(wěn)定性,所以目前韻律轉(zhuǎn)換主要集中在對基頻包絡F0的轉(zhuǎn)換,可直接取對數(shù)后做線性變換,如式(3)所示[74-76],或結(jié)合聲道譜參數(shù)做回歸分析。

    式中:pt(Y)和pt(X)分別為轉(zhuǎn)換后的 logF0和原始 logF0,u(X)和u(Y)為各自的均值,σ(X)和σ(Y)為標準差。線性轉(zhuǎn)換的方法雖然簡單,但映射穩(wěn)定,不易產(chǎn)生“陰陽怪調(diào)”的問題,因此目前韻律轉(zhuǎn)換仍基本采用上述方式。

    除上述方法外,也有一些算法將語音分析后的殘差信號或激勵信號統(tǒng)一考慮,進行處理以求獲取更精確的韻律模型。例如2004年,Ye等[77]在訓練階段成對保存目標說話人的激勵源殘差和聲道譜參數(shù),在轉(zhuǎn)換階段,以最近鄰方式尋找與轉(zhuǎn)換得到的聲道譜參數(shù)對應的目標說話人聲道譜參數(shù),進而得到合成語音所需的激勵源信號。2007年,Percybrooks等[78]提出通過建立殘差轉(zhuǎn)移概率矩陣來模擬殘差信號幀間變化特性,收到良好效果。Kang等[79]提出采用音高目標模型來實現(xiàn)轉(zhuǎn)換,通過GMM的方法訓練轉(zhuǎn)換模型,但是由于并未考慮上下文信息影響,所以存在一定弊端。Ming等[80]提出使用DBLSTMRNN網(wǎng)絡轉(zhuǎn)換韻律中的F0,這個網(wǎng)絡能夠兼顧上下文信息,但原始F0的結(jié)構(gòu)信息未保留,會導致其與頻譜的合成過程中產(chǎn)生雜音,影響語音轉(zhuǎn)換的質(zhì)量。2015年,凌震華等[81]提出基于目標逼近特征和雙向聯(lián)想貯存器的情感語音基頻轉(zhuǎn)換方法,可以在目標情感數(shù)據(jù)較少的情況下取得更高的情感表現(xiàn)力。還有一些學者提出了F0的其他轉(zhuǎn)換方法[82,83],但是針對語音轉(zhuǎn)換中,有時候除了單純的韻律考慮外還需要考慮其頻譜信息,不考慮F0的結(jié)構(gòu)信息,依然得不到理想的語音轉(zhuǎn)換效果。

    當然韻律轉(zhuǎn)換還包含其他多方面的轉(zhuǎn)換內(nèi)容,單純地對基頻包絡的轉(zhuǎn)換達不到真正意義上的轉(zhuǎn)換效果,所以韻律轉(zhuǎn)換目前還存在很多難點和問題。

    3 語音轉(zhuǎn)換關鍵技術

    為更好地實現(xiàn)語音轉(zhuǎn)換,提升轉(zhuǎn)換語音的質(zhì)量,一個完整的語音轉(zhuǎn)換系統(tǒng)通常會涉及以下幾項關鍵技術:語音分析與合成、語音特征參數(shù)提取、語音時間對齊、轉(zhuǎn)換模型和規(guī)則訓練以及轉(zhuǎn)換效果評價[84]等,轉(zhuǎn)換模型和規(guī)則訓練第2節(jié)已介紹,此處不再贅述。

    3.1 語音分析與合成

    為了實現(xiàn)語音轉(zhuǎn)換,語音信號分析與合成必不可少。早期的分析合成模型包括線性預測編碼(Linear prediction coding,LPC)[85]、基音同步疊加(Pitch synchronous overlap and add,PSOLA)[86]和波形相似疊加(Waveform similarity overlap and add,WSOLA)等[87]。這些方法中LPC建模的語音信號質(zhì)量較差,已逐漸淘汰,而后兩者方法建模語音質(zhì)量較高,但通常不具備語音分析和參數(shù)化能力,不適用于對語音個性特征的轉(zhuǎn)換。諧波噪聲模型(Harmonic noise model,HNM)[88]和STRAIGHT(Speech transformation and representation using adaptive interpolation of weighted spectrum)[89]因為重構(gòu)語音質(zhì)量高、參數(shù)容易控制而被廣泛采用。HNM不能靈活處理相位,不像源濾波器那樣可以靈活修改,但AHOCODER編碼器提供高質(zhì)量的HNM合成的工具包[90]。而STRAIGHT提出了一種基音自適應時頻頻譜平滑算法模型,能夠減輕信號周期和頻譜之間的干擾,在此基礎上后來擴展到TANDEM-STRAIGHT[91],而后CheapTrick和WORLD又在該模型的基礎上提出了一些改進。HNM和STRAIGHT這兩種方法是目前主要的分析合成手段。

    3.2 語音特征參數(shù)提取

    經(jīng)過語音分析合成器而獲得的語音特征,理論上是可以直接用作特征對進行訓練的,但是為了使所得信息能夠更好地表征語音信號的個性特征,往往還需要對其進行進一步處理,從而獲得更合適的映射特征。

    表征語音個性的特征主要體現(xiàn)在3個層次上:一是音段信息,描述的是語音的音色特征,主要包括共振峰位置、共振峰帶寬、頻譜傾斜(Spectral tilt)、基音頻率、能量等;二是超音段特征,描述的是語音的韻律特征,主要包括音素的時長、基音頻率的變化(音調(diào))、能量等;三是語言特征(Linguistic cues):包括習慣用語、方言、口音等[92]。目前語音轉(zhuǎn)換中所提取的映射參數(shù)特征主要是音段信息的局部特征和超音段信息的上下文特征兩類。局部特征主要是譜包絡、倒譜和共振峰等參數(shù),除此之外,較為常用的還有線譜對(Line spectrum frequency,LSF)參數(shù)[93]和考慮了人耳聽覺特性的梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)[94]。上下文特征主要是指語音幀間的動態(tài)信息。

    3.3 時間對齊

    語音轉(zhuǎn)換過程中通常是利用源和目標特征向量來訓練源和目標特征之間的映射函數(shù)。從不同說話人語音特征空間把那些具有相同語義信息的特征參數(shù)進行匹配,然后利用這些配對參數(shù)設計和訓練出轉(zhuǎn)換模型。這里配對就是時間對齊,也叫時間規(guī)整。

    3.3.1 平行語料

    平行語料指的是源和目標說話人包括相同語言內(nèi)容的語句。平行語句確保了源和目標語音具有時序一致、內(nèi)容相同的語義信息,只是在各音素的持續(xù)時間上呈現(xiàn)不同。因此,必須使用時間對準方法來解決時間差異。最常用的方法是動態(tài)時間規(guī)整(Dynamic time warping,DTW)[95],計算每個話語對或在每個音素對之間的最佳時間對準。動態(tài)時域規(guī)整后,最終產(chǎn)生的是一對相等長度的源和目標特征序列。圖5為2個時間序列的規(guī)整示意圖。

    圖5中,上下兩條實線分別代表源特征序列X=[x1,x2,…,xm]和目標特征序列Y=[y1,y2,…,yn]。2個序列之間的虛線代表2個時間序列之間的相似點。DTW使用所有這些相似點之間的距離的和,即歸整路徑距離,來衡量2個時間序列之間的相似性。

    DTW對準策略是假定源和目標說話人的相同音素具有相似的特征(當使用特定距離度量)時成立[96]。然而,這種方法有時也會導致次優(yōu)對準問題的產(chǎn)生。為了改善對準輸出,可以迭代地執(zhí)行目標特征和轉(zhuǎn)換特征(而不是源特征)之間的對準,然后進行訓練和轉(zhuǎn)換,直至滿足收斂條件。

    3.3.2 非平行語料

    對于非平行語料,由于語義信息不同或者語義信息雖有重疊,但時間順序存在差異,因此此情況下的時間對齊算法相對復雜得多。但由于非平行語料相對于平行語料更易獲取,故針對非平行語料的對齊研究也在不斷發(fā)展。Sündermann等[97,98]針對非平行語料對齊問題先后提出基于分類的語音對齊和基于單元選擇的語音對齊。Salor等[99]也提出類似單元選擇的動態(tài)編程方法來實現(xiàn)語音幀的時間對齊。此后,Saito等[100]提出了一種噪聲信道模型解決該問題。簡志華等[101,102]提出的基于混合線性變換法和區(qū)域最鄰迭代訓練法等都是為了解決非平行語料中時間對齊的問題。近些年隨著神經(jīng)網(wǎng)絡的不斷發(fā)展,通過設計網(wǎng)絡模型或中間變量直接實現(xiàn)音素級別的語音對齊方法也逐步發(fā)展起來。例如,Tian等[103]提出基于WaveNet的無聲碼器語音轉(zhuǎn)換方法,該方法不需要處理中間特征,而是利用波形網(wǎng)直接將語音后驗器映射到波形樣本,這樣就避免了聲碼器和特征轉(zhuǎn)換引起的估計誤差。Kameoka等[104]提出了一種非并行多對多語音轉(zhuǎn)換方法,該方法使用了一種稱為輔助分類器的條件變量變分自動編碼器來實現(xiàn)非平行語料對齊。Yeh等[105]提出利用循環(huán)一致性對抗網(wǎng)絡和變分自動編碼器等模型應用于無并行數(shù)據(jù)的語音轉(zhuǎn)換任務中。其他通過各式網(wǎng)絡解決該問題的方法也不斷出現(xiàn),非平行語料的時間對齊問題已經(jīng)逐步成為非平行語料的轉(zhuǎn)換問題,從單一步驟中的對齊問題轉(zhuǎn)化為由整個網(wǎng)絡設計解決,這也使該問題得到了更好的處理。

    圖52個時間序列的規(guī)整示意圖Fig.5 Warping of two time series

    3.4 轉(zhuǎn)換效果評價

    對語音轉(zhuǎn)換方法性能的測試和評價是語音轉(zhuǎn)換研究的重要組成部分之一,設計一個可信、高效的評價方案對于提高轉(zhuǎn)換性能具有重要意義。目前,對語音轉(zhuǎn)換方法性能優(yōu)劣的測試和評價主要通過客觀和主觀2種手段來實現(xiàn)。

    3.4.1 客觀評價

    客觀評價建立在語音數(shù)據(jù)失真測度基礎上,利用某種距離準則來測量轉(zhuǎn)換后語音和原始目標語音間的相似程度,并由此得出對轉(zhuǎn)換方法優(yōu)劣的評價方法。主要的客觀評價指標有均方誤差(Mean square error,MSE)、譜 失 真 (Spectral distortion,SD)和 梅 爾 倒 譜 失 真 (Mel cepstral distortion,MCD),MSE、SD和MCD的值越小,說明失真越小,轉(zhuǎn)換精度越高。

    近幾年,隨著語音轉(zhuǎn)換挑戰(zhàn)賽事的舉辦,MCD成為評價轉(zhuǎn)換語音質(zhì)量的主要客觀衡量指標,MCD的表達式如下[106]

    式中:micon和mitar分別為第i維轉(zhuǎn)換特征(con:converted)和目標特征(tar:target)的梅爾倒譜系數(shù),I為梅爾倒譜總維度,MCD的單位為dB。

    3.4.2 主觀評價

    主觀評價就是以人為主體,通過人的主觀感受來對語音進行測試。由于語音信號最終是用來給人聆聽的,因而人對語音轉(zhuǎn)換效果好壞的感受是最為重要的評價結(jié)果。相對于客觀評價來說,主觀評價結(jié)果更具有可信度。主觀方法對轉(zhuǎn)換效果的評價一般從語音質(zhì)量和說話人特征相似度2個角度進行,采用的方法主要是平均意見分(Mean opinion score,MOS)和ABX。

    (1) MOS測試

    MOS測試的主要原理是讓測評人根據(jù)5個等級劃分對測試語音的主觀感受進行打分,它既可以用于對語音質(zhì)量進行主觀評價,也可以用于對說話人特征相似度的評價。MOS分是對所有測試語句和所有測評人的綜合平均結(jié)果。其具體的評測標準請參考文獻[107]。

    (2) ABX測試

    ABX測試主要針對轉(zhuǎn)換后語音的說話人特征相似度進行轉(zhuǎn)換效果評價,借鑒了說話人識別的原理。測試過程中,測評人分別測聽3段語音A、B和X,并判斷在語音的個性特征方面語音A還是B更接近于X。其中,X是轉(zhuǎn)換后得到的語音,而A和B分別為源語音和目標語音。最后統(tǒng)計所有測評人員的判決結(jié)果,計算出聽起來像目標語音的百分比。

    4 語音轉(zhuǎn)換的應用領域

    語音轉(zhuǎn)換之所以能夠得到重視和發(fā)展,是因為它有較大的現(xiàn)實應用和需求,尤其是人們對個性化語音的需求越來越廣泛,如導航、聽書軟件中希望聽到自己喜歡明星的聲音,希望能夠和已故的親人說說話,渴望與自己無法直接接觸的偶像對話等。具體來說,語音轉(zhuǎn)換可以應用在以下幾方面。

    4.1 在文本到語音轉(zhuǎn)換系統(tǒng)中的應用

    多數(shù)語音可以通過TTS系統(tǒng)來合成,但是TTS合成的語音通常比較單一,缺乏情感和個性化特征。隨著科大訊飛在高德語音導航上實現(xiàn)合成林志玲等人的特色語音,使得個性化語音生成備受關注。但在TTS系統(tǒng)中想要實現(xiàn)個性化語音,就必須錄制大量相應的語音數(shù)據(jù),建立起與個性化語音對應的語音庫,而建立一個完整的語音庫,則涉及對所錄語音進行切分、韻律標注、韻律調(diào)整(如對音高、音長、音強進行調(diào)節(jié))等,費時費力,工作量相當大。而且多個個性化特征的語音庫也會大大增加系統(tǒng)檢索及數(shù)據(jù)處理的時間。使用語音轉(zhuǎn)換技術可以將TTS系統(tǒng)生成的說話人轉(zhuǎn)換為所需要的具有特定人語音特征的語音,而轉(zhuǎn)換過程中所需參數(shù)及系統(tǒng)開銷將被極大降低,可以大大提高效率[108]。目前,谷歌、微軟、科大訊飛等公司都在進行相關研究,日、美、中等國的多所大學也在進行技術跟蹤研究。例如:2019年5月,搜狗輸入法上線了“變聲功能”,能將每個人不同的聲音轉(zhuǎn)換成系統(tǒng)內(nèi)置的明星、動漫、游戲等形象的聲音,通過語音轉(zhuǎn)換技術輕松實現(xiàn)了對個性化語音的合成。

    4.2 在影視配音方面的應用

    互聯(lián)網(wǎng)時代自媒體高度發(fā)達,個人制作和發(fā)布的視頻占有越來越大的比重,而這些視頻所影響的范圍也越來越廣泛。利用語音轉(zhuǎn)換技術可為虛擬人物角色設定個性化語音,加深角色和情景帶入。同時很多動畫片、電視節(jié)目等都是通過配音、講解等賦予人物角色或節(jié)目特色的,隨著配音、講解人員的更迭,同一卡通形象或者節(jié)目難以維持一貫的風格或形象。而通過語音轉(zhuǎn)換則可使經(jīng)典的聲音常在,實現(xiàn)對經(jīng)典語音的重現(xiàn),保持卡通形象或節(jié)目的風格。

    4.3 在信息安全和情報獲取方面的應用

    在情報作戰(zhàn)中,按照預期任務制作假新聞、假視頻的需求不斷出現(xiàn)。2016年,德國馬克斯-普朗克研究所(Max Planck Institute,MPI)、埃朗根-紐倫堡大學和美國斯坦福大學的研究人員提出了表情捕捉復現(xiàn)技術(Face reenactment)。該技術能夠?qū)崟r重現(xiàn)一個人說話時的動作和表情,并將其映射到視頻中另外一個人的臉上[109]。如果將該技術與語音轉(zhuǎn)換技術結(jié)合在一起,則能制作出以假亂真的目標說話人的視頻,達到欺騙通信另一方的目的??梢哉f通過語音轉(zhuǎn)換技術既可以隱藏說話人身份、保護說話人自身和信息安全,也可以迷惑敵方正常通信、擾亂敵方的情報收集,如:2017年5月,由蒙特利爾大學深度學習實驗室提供技術支持的加拿大初創(chuàng)公司琴鳥(Lyrebird)發(fā)布了一段由其新款人工智能語音系統(tǒng)合成的音頻Demo,模仿了特朗普、奧巴馬和希拉里3人對話的聲音。據(jù)稱,該軟件僅需目標說話人1 min的語音,就可模仿其音色發(fā)聲。如果語音轉(zhuǎn)換技術可輕松實現(xiàn)這一功能將會對情報探測和分析帶來嚴重的影響。

    4.4 在語音識別和語音認證領域的應用

    隨著聲紋識別認證的普及和應用,越來越多的手機軟件開始采用語音認證作為用戶安全登錄的密碼,例如微信、支付寶、手機銀行等APP中均增加了語音認證模塊。通過語音轉(zhuǎn)換技術可以將源說話人語音轉(zhuǎn)換成目標說話人語音,利用轉(zhuǎn)換語音攻擊語音認證系統(tǒng),以此來檢驗系統(tǒng)模塊的防護性和安全性,可有效提升網(wǎng)絡防護的安全性能,如:2017年10月24日,極棒(GeekPwn)安全實驗室在國際安全極客大賽期間組織了一場AI仿聲驗聲攻防賽——AI PWN,第一次在公開場合演示了通過特色合成或語音轉(zhuǎn)換制作的聲音在短時間內(nèi)破解預設聲紋鎖的設備的能力,也從側(cè)面說明了語音轉(zhuǎn)換給認證領域所帶來的沖擊和挑戰(zhàn)。此外,在語音識別時,也可利用語音轉(zhuǎn)換技術檢驗語音識別的準確性等。

    4.5 其他領域的應用

    除上述應用外,語音轉(zhuǎn)換還廣泛存在于其他領域,如:語音情感的轉(zhuǎn)換,比如將悲傷情緒轉(zhuǎn)換為高興情緒;生物醫(yī)學的應用,通過語音轉(zhuǎn)換將患有語音障礙的人的話語轉(zhuǎn)換為更易理解和交流的語音[110];在電信領域可以即時將說話人語音轉(zhuǎn)換為標準語音,再對轉(zhuǎn)換語音進行相應的壓縮編碼等處理,減少語音處理難度等。

    5 存在問題及發(fā)展趨勢

    5.1 存在問題

    語音轉(zhuǎn)換雖然已經(jīng)過了幾十年的發(fā)展,直到近幾年在神經(jīng)網(wǎng)絡和深度學習等技術發(fā)展的推動下,才有了進一步突破。新的技術帶來了新的問題和挑戰(zhàn)。目前,語音轉(zhuǎn)換所面臨的挑戰(zhàn)歸納起來主要有以下幾個方面:首先,對訓練語音數(shù)據(jù)要求較大。無論是通過語音合成還是通過語音轉(zhuǎn)換來獲取帶有特定目標說話人音色的語音,在技術實現(xiàn)上多采用統(tǒng)計學習中有監(jiān)督學習的手段,傳統(tǒng)的有監(jiān)督學習一般需要較大規(guī)模的數(shù)據(jù)才能獲得較好的效果。而在很多實際應用場景中往往難以大規(guī)模獲取目標說話人語音,轉(zhuǎn)換語音質(zhì)量對大數(shù)據(jù)量的依賴,一定程度上制約著語音轉(zhuǎn)換技術的發(fā)展,所以如何解決對訓練數(shù)據(jù)量的依賴是目前乃至今后一段時間所要面臨的問題。其次,對目標說話人的語料質(zhì)量要求過于苛刻。對于大多數(shù)語音轉(zhuǎn)換方法理論上都需要有高質(zhì)量的語音數(shù)據(jù)庫,但將語音轉(zhuǎn)換技術真正“落地”到生活或?qū)嶋H應用中時,人們會發(fā)現(xiàn),通常情況下難以獲取高質(zhì)量的目標語音,除非特定的目標說話人十分配合來制取其高質(zhì)量的語音數(shù)據(jù)庫,否則無論是日常生活中的隨意錄制,還是竊取該說話人的語音,都不可避免地受到各種噪聲的污染,難以直接獲得高質(zhì)量的語音庫。大多數(shù)情況下,由于錄音環(huán)境未知,噪聲及其統(tǒng)計特性都難以獲取,給語音轉(zhuǎn)換帶來了新的問題。再次,語音轉(zhuǎn)換算法的實時性有待提高,目前能產(chǎn)生高質(zhì)量語音的轉(zhuǎn)換算法實時性差,為使語音轉(zhuǎn)換能實際應用于特定場合,既需要轉(zhuǎn)換后的語音質(zhì)量足夠高,還需要轉(zhuǎn)換過程足夠快。而當前語音轉(zhuǎn)換方案在轉(zhuǎn)換質(zhì)量和實時處理的平衡性方面還存在一定的發(fā)展空間。此外,算法軟件在不同設備、不同平臺之間的可移植性也是制約語音轉(zhuǎn)換實際應用的一個關鍵問題。同時,轉(zhuǎn)換語音質(zhì)量還可進一步提高,雖然目前語音轉(zhuǎn)換質(zhì)量相較于之前有了較大的提升和改善,但是與真正目標語音相比仍存在一定差距,語音中的情感、韻律等描述特定說話人的屬性,還很難在近期的特色語音合成中被有效地量化建模。而這恰恰也是人們直觀感受上覺得某種語音與目標說話人發(fā)音相似的關鍵之處。因此,如何進一步提升轉(zhuǎn)換語音與目標語音的相似度是一個值得持續(xù)關注的問題。最后還有非平行語料的轉(zhuǎn)換問題。目前大多數(shù)語音轉(zhuǎn)換算法依賴于平行語料,然而要使語音轉(zhuǎn)換成為一種主流,非平行語料的轉(zhuǎn)換則必不可免,因為在實際生活中,更多情況下人們獲取的是非平行語料,錄制大規(guī)模平行語料顯然不符合實際要求。雖然目前針對非平行語料的語音轉(zhuǎn)換已經(jīng)有相當一部分研究,但是相比于平行語料的轉(zhuǎn)換還有一定差距,所以如何解決非平行語料的轉(zhuǎn)換,也是一個需要重視的方面。

    總之,除了上述幾個主要方面外,語音轉(zhuǎn)換還存在其他有待提高和完善的地方,如:動態(tài)模型的轉(zhuǎn)換,能夠?qū)⒁粋€轉(zhuǎn)換模型迅速調(diào)整使其適應其他轉(zhuǎn)換場景;多對一的轉(zhuǎn)換,將不同說話人通過模型轉(zhuǎn)換成統(tǒng)一目標說話人語音;完善的韻律建模,構(gòu)建一個更加符合實際的韻律轉(zhuǎn)換模型,實現(xiàn)情感語音的轉(zhuǎn)換等。這些都是語音轉(zhuǎn)換中尚未解決并值得進一步研究的問題。

    5.2 發(fā)展趨勢

    雖然目前語音轉(zhuǎn)換中還存在很多問題和挑戰(zhàn),但語音轉(zhuǎn)換實際需求也不斷擴大,未來語音轉(zhuǎn)換將著力解決當前語音轉(zhuǎn)換中存在的現(xiàn)實問題,朝著下述方向不斷發(fā)展。

    5.2.1 魯棒語音轉(zhuǎn)換

    當前關于源說話人或目標說話人語音中含噪聲的語音轉(zhuǎn)換的直接研究不多。Masaka等[111]在非負矩陣分解框架下,借助唇動等視覺信息對源說話人語音中含噪聲情況下的語音轉(zhuǎn)換進行了研究。Aihara等[112]在Masaka工作的基礎上,將源說話人語音中的噪聲模型和少量平行語料的自適應仿射變換相結(jié)合,研究了小樣本情況下,源說話人語音含噪聲情況下的語音轉(zhuǎn)換。針對含噪語音,或許先通過處理得到較純凈語音,然后再進行語音轉(zhuǎn)換,目前已有相關學者進行這方面的研究。

    5.2.2 小樣本訓練的語音轉(zhuǎn)換

    前文提到目前多數(shù)語音轉(zhuǎn)換效果在一定程度上依賴于訓練語音數(shù)據(jù)庫的規(guī)模,訓練數(shù)據(jù)集規(guī)模大則轉(zhuǎn)換語音效果高,否則轉(zhuǎn)換效果較差。未來的研究方向必定是小樣本語音的轉(zhuǎn)換,通過較少的數(shù)據(jù)實現(xiàn)高質(zhì)量的語音轉(zhuǎn)換,通過半監(jiān)督或者無監(jiān)督的網(wǎng)絡來訓練生成新的樣本數(shù)據(jù),然后提升語音轉(zhuǎn)換效果。

    5.2.3 實時語音轉(zhuǎn)換

    訓練數(shù)據(jù)越多,提取映射函數(shù)的時間越久,轉(zhuǎn)換語音耗費的時間越長。減小網(wǎng)絡規(guī)模,實現(xiàn)語音實時轉(zhuǎn)換將成為必要之選。因此,神經(jīng)網(wǎng)絡或深度學習模型的瘦身和加速是未來語音轉(zhuǎn)換模型發(fā)展不可或缺的環(huán)節(jié)。近年來,通過減枝、權(quán)重共享等技術,深度神經(jīng)網(wǎng)絡模型的壓縮取得了較大進展,相信針對這方面的研究也會逐步深入。

    此外,輕量化模型、多對多建模及非合作式等語音轉(zhuǎn)換等也將成為未來語音轉(zhuǎn)換發(fā)展的趨勢。

    6 結(jié)束語

    隨著智能語音交互應用的不斷發(fā)展,語音轉(zhuǎn)換技術的不斷提高,人們對于特定說話人語音的生成有著越來越高的需求和期望;在人工智能時代,個人媒體制作、聲紋認證等越來越普及,語音代表個人身份特征的場景日益廣泛。未來的語音轉(zhuǎn)換技術一定會朝著轉(zhuǎn)換模型更小、轉(zhuǎn)換效率更高、轉(zhuǎn)換效果更好、轉(zhuǎn)換速度更快的方向發(fā)展,也必將進一步推動語音轉(zhuǎn)換技術在其他領域的應用和發(fā)展。

    猜你喜歡
    語料語音特征
    如何表達“特征”
    魔力語音
    基于MATLAB的語音信號處理
    電子制作(2019年14期)2019-08-20 05:43:38
    不忠誠的四個特征
    當代陜西(2019年10期)2019-06-03 10:12:04
    基于MQ3與MP3的價廉物美的酒駕語音提醒器
    電子制作(2019年9期)2019-05-30 09:42:10
    對方正在輸入……
    小說界(2018年5期)2018-11-26 12:43:42
    抓住特征巧觀察
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    華語電影作為真實語料在翻譯教學中的應用
    《苗防備覽》中的湘西語料
    神马国产精品三级电影在线观看| 免费看美女性在线毛片视频| 插阴视频在线观看视频| 啦啦啦啦在线视频资源| 亚洲av中文字字幕乱码综合| 我的老师免费观看完整版| 国产不卡一卡二| 日韩强制内射视频| 韩国高清视频一区二区三区| 亚洲欧美成人精品一区二区| 亚洲精品日韩在线中文字幕| 搡老乐熟女国产| 老司机影院成人| 高清在线视频一区二区三区| 在线a可以看的网站| av免费观看日本| 日韩强制内射视频| 欧美3d第一页| 成人高潮视频无遮挡免费网站| 亚洲在久久综合| 午夜日本视频在线| 18禁在线播放成人免费| 久久99热6这里只有精品| 一级毛片aaaaaa免费看小| 最近中文字幕2019免费版| 中文欧美无线码| 国国产精品蜜臀av免费| 99热全是精品| 成年av动漫网址| 一级毛片aaaaaa免费看小| 亚洲成色77777| 五月伊人婷婷丁香| 女人十人毛片免费观看3o分钟| 日本黄色片子视频| 国产一区二区三区综合在线观看 | 国产综合懂色| av.在线天堂| 99久久精品热视频| 日韩欧美精品免费久久| 一级爰片在线观看| 亚洲精品aⅴ在线观看| 黑人高潮一二区| 亚洲婷婷狠狠爱综合网| 在线观看人妻少妇| 国产精品一区二区性色av| 亚州av有码| 性色avwww在线观看| 欧美高清性xxxxhd video| 伊人久久精品亚洲午夜| 亚洲成人精品中文字幕电影| 国产高清有码在线观看视频| 熟妇人妻不卡中文字幕| 成人高潮视频无遮挡免费网站| 97人妻精品一区二区三区麻豆| 国产视频首页在线观看| 亚洲精品成人av观看孕妇| 国产欧美日韩精品一区二区| 日产精品乱码卡一卡2卡三| 国产成人福利小说| 青春草国产在线视频| 久久久精品免费免费高清| 国产女主播在线喷水免费视频网站 | 亚洲精品国产av成人精品| 亚洲国产成人一精品久久久| 欧美不卡视频在线免费观看| 亚洲av.av天堂| 欧美xxxx黑人xx丫x性爽| 熟妇人妻不卡中文字幕| 久久久久久久久久人人人人人人| 在线免费观看的www视频| 一级毛片我不卡| 精品人妻一区二区三区麻豆| 1000部很黄的大片| 偷拍熟女少妇极品色| 三级国产精品片| 欧美高清成人免费视频www| 男女啪啪激烈高潮av片| 免费大片18禁| 亚洲精品中文字幕在线视频 | 久久99热这里只有精品18| 久久韩国三级中文字幕| 成年av动漫网址| 黄色日韩在线| 国产精品久久久久久精品电影| 精品久久久久久久末码| 日本一本二区三区精品| 在线观看av片永久免费下载| 国国产精品蜜臀av免费| 特大巨黑吊av在线直播| 国产白丝娇喘喷水9色精品| 亚洲欧美成人综合另类久久久| 亚洲精品影视一区二区三区av| 欧美成人午夜免费资源| 日本免费在线观看一区| 国产成人福利小说| 99热这里只有是精品在线观看| 国产精品不卡视频一区二区| 亚洲欧美日韩无卡精品| 91久久精品国产一区二区成人| 欧美极品一区二区三区四区| www.av在线官网国产| eeuss影院久久| 在线观看免费高清a一片| 熟妇人妻不卡中文字幕| 边亲边吃奶的免费视频| 国产综合精华液| 国产v大片淫在线免费观看| 黄色配什么色好看| 久久久久久伊人网av| 一本久久精品| 欧美一级a爱片免费观看看| 麻豆成人av视频| 亚洲熟女精品中文字幕| 日本一二三区视频观看| 18+在线观看网站| 黄片无遮挡物在线观看| 精品久久久久久久末码| 久久久精品免费免费高清| 蜜臀久久99精品久久宅男| 一级二级三级毛片免费看| 色视频www国产| 伊人久久精品亚洲午夜| 亚洲精品色激情综合| 99久久精品国产国产毛片| 中文字幕久久专区| 亚洲成人精品中文字幕电影| 婷婷色综合www| 成人综合一区亚洲| 亚洲真实伦在线观看| 校园人妻丝袜中文字幕| 国产在线一区二区三区精| 亚洲色图av天堂| 亚洲av.av天堂| 亚洲精品日本国产第一区| 日韩欧美一区视频在线观看 | 国产精品国产三级国产专区5o| 国产伦在线观看视频一区| 深夜a级毛片| 一二三四中文在线观看免费高清| 老师上课跳d突然被开到最大视频| 午夜福利网站1000一区二区三区| 久久综合国产亚洲精品| 直男gayav资源| 国产熟女欧美一区二区| 青青草视频在线视频观看| 欧美极品一区二区三区四区| 国产老妇女一区| 国产精品人妻久久久影院| 国产美女午夜福利| 亚洲最大成人中文| 免费播放大片免费观看视频在线观看| 亚洲四区av| 成人一区二区视频在线观看| 日韩精品有码人妻一区| 久久韩国三级中文字幕| 国产伦精品一区二区三区四那| 午夜福利网站1000一区二区三区| 五月玫瑰六月丁香| 午夜亚洲福利在线播放| 18禁在线无遮挡免费观看视频| 干丝袜人妻中文字幕| 国产在线男女| 精品不卡国产一区二区三区| 美女主播在线视频| 淫秽高清视频在线观看| 春色校园在线视频观看| 日日啪夜夜爽| 日韩在线高清观看一区二区三区| 插逼视频在线观看| 少妇丰满av| 狂野欧美激情性xxxx在线观看| 在线 av 中文字幕| 丝瓜视频免费看黄片| 国产探花极品一区二区| 亚洲激情五月婷婷啪啪| 日韩不卡一区二区三区视频在线| 视频中文字幕在线观看| 2021少妇久久久久久久久久久| 又爽又黄a免费视频| 欧美激情久久久久久爽电影| 汤姆久久久久久久影院中文字幕 | 国产亚洲av嫩草精品影院| 男女那种视频在线观看| 国产精品国产三级专区第一集| 最近中文字幕高清免费大全6| videos熟女内射| 日韩一本色道免费dvd| 噜噜噜噜噜久久久久久91| 成年av动漫网址| 人妻夜夜爽99麻豆av| 国产精品女同一区二区软件| 日本三级黄在线观看| 91久久精品电影网| 青春草亚洲视频在线观看| 亚洲成人一二三区av| 色网站视频免费| 国产亚洲最大av| 色尼玛亚洲综合影院| 国产乱人视频| 亚洲欧美日韩卡通动漫| 国产精品人妻久久久久久| 亚洲国产av新网站| 国产69精品久久久久777片| 国产高清不卡午夜福利| 天美传媒精品一区二区| 可以在线观看毛片的网站| 国产 一区精品| av国产久精品久网站免费入址| 可以在线观看毛片的网站| 国产三级在线视频| 成年人午夜在线观看视频 | 国产欧美另类精品又又久久亚洲欧美| 成人亚洲精品av一区二区| 欧美xxⅹ黑人| 国产av国产精品国产| 国产色婷婷99| 日韩制服骚丝袜av| 美女高潮的动态| 最近中文字幕2019免费版| 狂野欧美激情性xxxx在线观看| 色尼玛亚洲综合影院| 亚洲精品日韩在线中文字幕| 日韩亚洲欧美综合| 欧美人与善性xxx| 亚洲一级一片aⅴ在线观看| 色视频www国产| 成年女人看的毛片在线观看| 搡老妇女老女人老熟妇| 18+在线观看网站| 久久久久久伊人网av| 亚洲精品成人av观看孕妇| 伦理电影大哥的女人| 一级a做视频免费观看| 国产单亲对白刺激| 国产精品久久久久久久电影| 欧美日韩视频高清一区二区三区二| 亚洲精品乱码久久久v下载方式| 中文字幕av成人在线电影| 91在线精品国自产拍蜜月| 国产淫语在线视频| 亚洲国产精品专区欧美| 狂野欧美白嫩少妇大欣赏| 人人妻人人澡人人爽人人夜夜 | 亚洲在线观看片| 国产精品福利在线免费观看| 成人性生交大片免费视频hd| 高清午夜精品一区二区三区| 性插视频无遮挡在线免费观看| 欧美97在线视频| 黄片wwwwww| 国产成人aa在线观看| 少妇熟女aⅴ在线视频| 在线观看一区二区三区| 欧美xxxx性猛交bbbb| 国产熟女欧美一区二区| 免费观看无遮挡的男女| 欧美激情国产日韩精品一区| 亚洲最大成人av| 免费黄频网站在线观看国产| 国内揄拍国产精品人妻在线| a级毛色黄片| 久久久久久久久久久免费av| 国产黄色小视频在线观看| 联通29元200g的流量卡| 色吧在线观看| 精品亚洲乱码少妇综合久久| 91午夜精品亚洲一区二区三区| 性插视频无遮挡在线免费观看| 日韩成人伦理影院| 国产精品国产三级国产av玫瑰| 青春草国产在线视频| 大陆偷拍与自拍| 久久精品综合一区二区三区| 老女人水多毛片| 日韩中字成人| 久久人人爽人人片av| 美女被艹到高潮喷水动态| 亚洲怡红院男人天堂| 日本一二三区视频观看| 久久久久久久久久人人人人人人| 久久精品久久精品一区二区三区| 人人妻人人看人人澡| 色综合亚洲欧美另类图片| 三级毛片av免费| 精品国产一区二区三区久久久樱花 | 亚洲,欧美,日韩| 九色成人免费人妻av| 成年av动漫网址| 2021天堂中文幕一二区在线观| av女优亚洲男人天堂| 老司机影院毛片| 亚洲精品久久午夜乱码| 免费看不卡的av| 国产亚洲91精品色在线| 国产成人精品一,二区| 精华霜和精华液先用哪个| 国产成人aa在线观看| 亚洲电影在线观看av| 日本爱情动作片www.在线观看| 精品久久久久久久人妻蜜臀av| 亚洲av免费在线观看| 五月天丁香电影| 91狼人影院| 一边亲一边摸免费视频| 久久精品国产鲁丝片午夜精品| 国产午夜精品久久久久久一区二区三区| 婷婷色综合www| h日本视频在线播放| 深爱激情五月婷婷| 中国美白少妇内射xxxbb| 麻豆国产97在线/欧美| 99久久人妻综合| 亚洲乱码一区二区免费版| av女优亚洲男人天堂| 成人亚洲精品一区在线观看 | 亚洲欧美日韩无卡精品| 啦啦啦啦在线视频资源| 亚洲成人精品中文字幕电影| 啦啦啦啦在线视频资源| 中文欧美无线码| 亚洲精品成人av观看孕妇| 午夜福利网站1000一区二区三区| 国产片特级美女逼逼视频| 精品国产露脸久久av麻豆 | 亚洲国产精品成人久久小说| 欧美成人a在线观看| 国产精品美女特级片免费视频播放器| 精品久久久久久久人妻蜜臀av| 少妇人妻一区二区三区视频| 色哟哟·www| 美女高潮的动态| 亚洲最大成人中文| eeuss影院久久| 99久久精品国产国产毛片| 极品少妇高潮喷水抽搐| 日韩av在线免费看完整版不卡| 久久综合国产亚洲精品| 久久精品国产鲁丝片午夜精品| 国产女主播在线喷水免费视频网站 | 亚洲av电影在线观看一区二区三区 | 亚洲av免费高清在线观看| 欧美高清成人免费视频www| 又大又黄又爽视频免费| 国语对白做爰xxxⅹ性视频网站| 国产欧美日韩精品一区二区| 亚洲精品日韩av片在线观看| 国产在视频线精品| 天堂av国产一区二区熟女人妻| 美女大奶头视频| 禁无遮挡网站| 久久久久久久久久成人| 日本av手机在线免费观看| 色5月婷婷丁香| 狂野欧美激情性xxxx在线观看| 国产伦精品一区二区三区四那| 又粗又硬又长又爽又黄的视频| 亚洲在线自拍视频| 日日撸夜夜添| 亚洲av成人精品一区久久| 亚洲一级一片aⅴ在线观看| 极品少妇高潮喷水抽搐| 亚洲精品色激情综合| av在线老鸭窝| 一边亲一边摸免费视频| 午夜视频国产福利| 听说在线观看完整版免费高清| 日韩在线高清观看一区二区三区| 美女xxoo啪啪120秒动态图| 国产淫语在线视频| 丰满乱子伦码专区| 亚洲精华国产精华液的使用体验| 国产精品精品国产色婷婷| 少妇的逼水好多| 久久久国产一区二区| 亚洲在线自拍视频| 精品久久久久久久久av| 国产又色又爽无遮挡免| 乱人视频在线观看| 欧美日本视频| 久久综合国产亚洲精品| 日韩,欧美,国产一区二区三区| 美女xxoo啪啪120秒动态图| 91狼人影院| 少妇裸体淫交视频免费看高清| 欧美变态另类bdsm刘玥| or卡值多少钱| 欧美激情国产日韩精品一区| 女人十人毛片免费观看3o分钟| 少妇高潮的动态图| 亚洲国产最新在线播放| 天堂中文最新版在线下载 | 精品人妻熟女av久视频| 亚洲精品自拍成人| 色视频www国产| 亚洲熟女精品中文字幕| 国产久久久一区二区三区| 精品一区二区免费观看| 亚洲国产精品国产精品| 亚洲18禁久久av| 成人综合一区亚洲| 淫秽高清视频在线观看| 亚洲在久久综合| 久久97久久精品| 亚洲欧美日韩东京热| 最近中文字幕高清免费大全6| 国内精品一区二区在线观看| 久久99热这里只频精品6学生| 国产一区二区三区综合在线观看 | 国产成人免费观看mmmm| 国产一区有黄有色的免费视频 | 亚洲av在线观看美女高潮| 菩萨蛮人人尽说江南好唐韦庄| 亚洲av在线观看美女高潮| 夜夜爽夜夜爽视频| 国产亚洲91精品色在线| 免费看不卡的av| 亚洲av一区综合| 人妻制服诱惑在线中文字幕| 欧美成人一区二区免费高清观看| 天堂中文最新版在线下载 | 美女高潮的动态| av免费观看日本| 内地一区二区视频在线| 爱豆传媒免费全集在线观看| 联通29元200g的流量卡| 搡老乐熟女国产| 熟妇人妻久久中文字幕3abv| 卡戴珊不雅视频在线播放| 亚洲成色77777| 国产在视频线精品| 在线观看av片永久免费下载| 干丝袜人妻中文字幕| 欧美bdsm另类| 乱码一卡2卡4卡精品| av又黄又爽大尺度在线免费看| 中文字幕久久专区| 欧美性猛交╳xxx乱大交人| 亚洲最大成人中文| 18禁裸乳无遮挡免费网站照片| 身体一侧抽搐| 麻豆精品久久久久久蜜桃| av免费观看日本| 久久久久久久国产电影| 亚洲av.av天堂| 午夜精品国产一区二区电影 | 美女国产视频在线观看| 免费人成在线观看视频色| 国产高清国产精品国产三级 | 美女被艹到高潮喷水动态| 亚洲最大成人av| 国产探花极品一区二区| 午夜老司机福利剧场| 亚洲欧美一区二区三区黑人 | 日日啪夜夜撸| 亚洲av不卡在线观看| 99热网站在线观看| 国产淫语在线视频| 九九爱精品视频在线观看| 久久精品夜夜夜夜夜久久蜜豆| 在线观看人妻少妇| av一本久久久久| 免费看光身美女| 国模一区二区三区四区视频| 午夜福利高清视频| 免费看av在线观看网站| 99热网站在线观看| 美女被艹到高潮喷水动态| 深爱激情五月婷婷| 国产男女超爽视频在线观看| 成年人午夜在线观看视频 | 日韩亚洲欧美综合| 汤姆久久久久久久影院中文字幕 | 2022亚洲国产成人精品| 成人亚洲精品av一区二区| 丰满人妻一区二区三区视频av| 成人一区二区视频在线观看| 国产黄色小视频在线观看| 夫妻性生交免费视频一级片| 国产精品一区www在线观看| 日本与韩国留学比较| 精品久久久久久成人av| 又粗又硬又长又爽又黄的视频| 欧美日本视频| 午夜福利在线观看吧| 国产高潮美女av| a级毛色黄片| 国产精品av视频在线免费观看| 亚洲图色成人| 亚洲精品乱久久久久久| 亚洲丝袜综合中文字幕| 国产黄色小视频在线观看| 九九在线视频观看精品| 一级黄片播放器| av国产免费在线观看| videos熟女内射| 久久久精品94久久精品| 看十八女毛片水多多多| 亚洲精品日本国产第一区| 中文欧美无线码| 久久精品国产鲁丝片午夜精品| 精品久久国产蜜桃| 岛国毛片在线播放| 精品一区二区三区视频在线| 日本色播在线视频| 国产大屁股一区二区在线视频| 精品一区在线观看国产| 亚洲av二区三区四区| 成人av在线播放网站| 深夜a级毛片| 真实男女啪啪啪动态图| 色哟哟·www| 国内精品一区二区在线观看| 在线 av 中文字幕| av免费观看日本| 国产一区有黄有色的免费视频 | 日韩电影二区| 两个人视频免费观看高清| 欧美xxⅹ黑人| 亚洲精品456在线播放app| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 日日摸夜夜添夜夜添av毛片| 成人无遮挡网站| 久久久亚洲精品成人影院| 国产精品蜜桃在线观看| 亚洲精品色激情综合| 国产伦在线观看视频一区| 亚洲va在线va天堂va国产| 亚洲精品日韩在线中文字幕| 久久久久久久久久久丰满| 亚洲国产欧美人成| h日本视频在线播放| 水蜜桃什么品种好| 热99在线观看视频| 赤兔流量卡办理| 亚洲高清免费不卡视频| 午夜日本视频在线| 高清在线视频一区二区三区| 久久久精品欧美日韩精品| 欧美日韩综合久久久久久| 99热全是精品| 免费电影在线观看免费观看| 在线播放无遮挡| 性色avwww在线观看| 国产精品国产三级专区第一集| 日日啪夜夜爽| 99九九线精品视频在线观看视频| 夜夜看夜夜爽夜夜摸| 啦啦啦啦在线视频资源| 亚洲精品色激情综合| 国产探花极品一区二区| 久久久久网色| 男女下面进入的视频免费午夜| 精品一区二区三卡| 一二三四中文在线观看免费高清| 日韩人妻高清精品专区| 九九爱精品视频在线观看| 色综合站精品国产| 久久久久久久久久人人人人人人| 麻豆精品久久久久久蜜桃| 日韩大片免费观看网站| 特级一级黄色大片| 亚洲av免费高清在线观看| 日本午夜av视频| 亚洲丝袜综合中文字幕| 六月丁香七月| 久久99精品国语久久久| 免费黄频网站在线观看国产| 搡老妇女老女人老熟妇| av网站免费在线观看视频 | 中文欧美无线码| 国产日韩欧美在线精品| 成人午夜高清在线视频| ponron亚洲| 熟妇人妻不卡中文字幕| 亚洲最大成人av| 亚洲电影在线观看av| 99久国产av精品| 有码 亚洲区| 欧美最新免费一区二区三区| 久久99热6这里只有精品| 久久精品人妻少妇| 天堂影院成人在线观看| 国产精品女同一区二区软件| 国产精品一区二区性色av| 国产91av在线免费观看| 狂野欧美激情性xxxx在线观看| 一级毛片黄色毛片免费观看视频| 蜜桃亚洲精品一区二区三区| 亚洲国产欧美人成| 人体艺术视频欧美日本| 国产精品伦人一区二区| 男女边吃奶边做爰视频| 老司机影院毛片| 超碰97精品在线观看| 国产成人精品婷婷| 网址你懂的国产日韩在线| 日韩一区二区三区影片| xxx大片免费视频| 久久久久久久久久久免费av| 麻豆精品久久久久久蜜桃| 精品午夜福利在线看| 三级经典国产精品| 一级黄片播放器| 亚洲18禁久久av| h日本视频在线播放| 日本黄色片子视频| 国产精品一及| 黄色配什么色好看| 秋霞在线观看毛片| 国产精品人妻久久久影院| 国产精品.久久久| 日韩一区二区三区影片| 亚洲熟妇中文字幕五十中出| 波野结衣二区三区在线| 亚洲成人一二三区av|