摘" 要: 以Web of Science中近20年收錄的1 846篇語音合成領(lǐng)域文獻(xiàn)為研究對象,采用文獻(xiàn)計(jì)量分析方法,利用CiteSpace可視化分析工具繪制知識網(wǎng)絡(luò)圖譜,系統(tǒng)回顧該領(lǐng)域的研究概況及研究熱點(diǎn),理清研究發(fā)展脈絡(luò)。研究發(fā)現(xiàn),語音合成的理論研究已經(jīng)相對成熟,神經(jīng)網(wǎng)絡(luò)成為語音合成領(lǐng)域里使用的新興技術(shù)。另外,在該領(lǐng)域中日本、中國、英國及美國的科研機(jī)構(gòu)具有較強(qiáng)的科研能力。通過上述工作,希望為我國語音合成領(lǐng)域的研究提供進(jìn)一步的參考和幫助。
關(guān)鍵詞: 語音合成; 文獻(xiàn)計(jì)量分析; CiteSpace; 知識網(wǎng)絡(luò)圖譜; 研究現(xiàn)狀; 發(fā)展脈絡(luò)
中圖分類號: TN912.3?34" " " " " " " " " " " " 文獻(xiàn)標(biāo)識碼: A" " " " " " " " " " " " "文章編號: 1004?373X(2019)21?0116?04
Abstract: The literatures of 1846 speech synthesis fields collected in the Web of Science in the last 20 years are taken as the research object. The bibliometric analysis method is used. The CiteSpace visual analysis tool is used to draw the knowledge network atlas. The research and research hotspots in the field are systemastically reviewed and the research development context is sorted out. It is found in the study that the theoretical research of speech synthesis has been relatively mature, and the neural network becomes a research hotspot in the speech synthesis field in recent years. In addition, scientific research institutions in the United States, Japan, China, and the United Kingdom have strong scientific research capabilities in this field. Through, It is hoped that the above work can provide further reference and help for the study in the field of Chinese speech synthesis.
Keywords: speech synthesis; bibliometric analysis; CiteSpace; knowledge network atlas; research status; development context
0" 引" 言
語音合成技術(shù)作為人機(jī)語音交互的核心技術(shù),被越來越多的研究者給予關(guān)注和重視。語音合成技術(shù)的發(fā)展已有幾十年的歷史,取得了很多優(yōu)秀的研究成果。雖然國內(nèi)很多專家從不同的視角對語音合成進(jìn)行了總結(jié)和綜述,但還沒有從知識圖譜的角度對語音合成領(lǐng)域進(jìn)行總結(jié)分析。鑒于此,本文利用CiteSpace工具對通過Web of Science平臺收集到的關(guān)于語音合成的核心文獻(xiàn)進(jìn)行計(jì)量分析并繪制知識圖譜,從宏觀角度闡述以下兩個問題:國內(nèi)外近20年來在語音合成領(lǐng)域的研究概況以及主要研究熱點(diǎn)。
1" 數(shù)據(jù)來源和研究方法的說明
1.1" 數(shù)據(jù)來源
本文研究的文獻(xiàn)來源于信息檢索平臺Web of Science的核心數(shù)據(jù)庫,數(shù)據(jù)采用以下的方式收集:
1) 標(biāo)題詞檢索方法:TI=“speech synthesis”O(jiān)R“text to speech”O(jiān)R“voice synthesis”O(jiān)R“concept to speech”O(jiān)R“intention to speech”O(jiān)R“text to voice”;
2) 時間跨度:1999—2018年;
3) 文獻(xiàn)類型:期刊(ARTICLE)和會議論文(PROCEEDINGS PAPER)。共得到1 846篇關(guān)于語音合成領(lǐng)域的核心文獻(xiàn)并下載每個文獻(xiàn)的28條記錄信息,包括標(biāo)題、作者、摘要、關(guān)鍵詞、參考文獻(xiàn)等。
1.2" 研究方法的說明
本文主要采用計(jì)量分析和圖譜分析方法,通過它們揭示相關(guān)領(lǐng)域的知識來源和發(fā)展規(guī)律,并把知識結(jié)構(gòu)關(guān)系和演化規(guī)律用圖形的方式呈現(xiàn)出來??梢暬ぞ逤iteSpace就是可以用于追蹤研究領(lǐng)域熱點(diǎn)和發(fā)展趨勢的文獻(xiàn)計(jì)量分析工具。本文通過CiteSpace對1 846篇文獻(xiàn)進(jìn)行研究機(jī)構(gòu)的合作網(wǎng)絡(luò)分析、研究熱點(diǎn)的演化分析以及高共被引文獻(xiàn)的統(tǒng)計(jì)分析。
2" 研究概況
2.1" 主要研究機(jī)構(gòu)分析
通過對語音合成領(lǐng)域的文獻(xiàn)發(fā)表量的研究機(jī)構(gòu)進(jìn)行基本情況統(tǒng)計(jì)后發(fā)現(xiàn)發(fā)文量超過9篇以上的機(jī)構(gòu)有18所。表1列出的是文獻(xiàn)量排名前10的研究機(jī)構(gòu)。圖1是研究機(jī)構(gòu)直接的合作網(wǎng)絡(luò)關(guān)系圖,其中連線代表兩個研究機(jī)構(gòu)之間有合作關(guān)系;文字大小代表發(fā)文量的多少,文字越大發(fā)文量越多,文字越小發(fā)文量越少。
通過表1得知,Top10榜單里的研究機(jī)構(gòu)共來自5個國家,分別是日本3所,中國3所,英國2所,捷克和美國各1所。通過對國家發(fā)文量的統(tǒng)計(jì),發(fā)現(xiàn)日本在語音合成領(lǐng)域里發(fā)表的文獻(xiàn)量居世界首位,中國和美國的發(fā)文量分別排在第二位和第三位。
2.2" 主要作者分析
根據(jù)基本統(tǒng)計(jì)分析,研究文獻(xiàn)共涉及到的作者中,發(fā)文量超過10篇的作者有58位,發(fā)文量超過20篇的作者有16位。發(fā)文量排名前10的作者如表2所示。
通過表2的首次發(fā)文年份的分布來看,高產(chǎn)作者的首次發(fā)文年份最早是從2003年開始的。發(fā)文量最多的作者是Yamagishi J,表3列出的高被引文獻(xiàn)里該作者的文獻(xiàn)有3篇,該3篇文獻(xiàn)都與隱馬爾科夫模型有關(guān),并結(jié)合他的其他文獻(xiàn)分析發(fā)現(xiàn),該作者的研究重點(diǎn)主要集中在基于隱馬爾科夫模型的語音合成,而從他近幾年的文獻(xiàn)分析發(fā)現(xiàn)他現(xiàn)在的研究重點(diǎn)轉(zhuǎn)向神經(jīng)網(wǎng)絡(luò)的研究,該作者在2018年與Wang X等人合著的一篇文獻(xiàn)主要研究了深度神經(jīng)網(wǎng)絡(luò)在統(tǒng)計(jì)參數(shù)語音合成中的性能[1],特別是深層網(wǎng)絡(luò)能否更好地產(chǎn)生不同聲學(xué)特征的問題。排在第二位的是作者Tokuda K,該作者在2018年發(fā)表的文獻(xiàn)[2]里提出了一種基于梅爾倒譜的量化噪聲整形方法,提高了基于神經(jīng)網(wǎng)絡(luò)的語音波形合成系統(tǒng)的合成語音質(zhì)量。作者Kobayashi T發(fā)文量排在第三位,文獻(xiàn)[3]是他近幾年與Nose T等人合作的一篇文獻(xiàn),該文獻(xiàn)里提出了一種用于語音合成和韻律平衡的緊湊記錄腳本的句子選擇技術(shù),與傳統(tǒng)的句子選擇技術(shù)相比,該技術(shù)所生成的語音參數(shù)更接近自然語音的語音參數(shù)。
2.3" 高被引文獻(xiàn)分析
高被引文獻(xiàn)是一個研究領(lǐng)域的重要知識來源,反映某一學(xué)科的研究水平、發(fā)展方向,是探究熱點(diǎn)主題、研究演化的重要依據(jù)[4]。表3列出的是被引頻次較多的10篇文獻(xiàn),被引頻次主要來自于本論文研究的數(shù)據(jù)。
作者Zen H等人發(fā)表的文獻(xiàn)《Statistical parametric speech synthesis》的被引次數(shù)最多[5],該文綜述了統(tǒng)計(jì)參數(shù)語音合成中常用的技術(shù),對統(tǒng)計(jì)參數(shù)語音合成技術(shù)和傳統(tǒng)的單元選擇合成技術(shù)進(jìn)行比較,總結(jié)了統(tǒng)計(jì)參數(shù)語音合成的優(yōu)點(diǎn)和缺點(diǎn)并對未來工作進(jìn)行展望。作者Yamagishi J等人發(fā)表的文獻(xiàn)[6]排在第二位,本文提出新的適應(yīng)算法約束結(jié)構(gòu)最大線性回歸,該方法在語音合成中獲得了更好、更穩(wěn)定的說話人自適應(yīng),具有很強(qiáng)的實(shí)用性和有效性。文獻(xiàn)[7?8]是表3里2013年發(fā)表的兩篇文獻(xiàn),文獻(xiàn)[7]討論了基于隱馬爾科夫模型的語音合成技術(shù)在改變說話者身份、情感和說話風(fēng)格方面的靈活性;文獻(xiàn)[8]提出基于深度神經(jīng)網(wǎng)絡(luò)的統(tǒng)計(jì)參數(shù)語音合成方法,使用深度神經(jīng)網(wǎng)絡(luò)來解決傳統(tǒng)統(tǒng)計(jì)參數(shù)語音合成方法的一些局限性。
通過表3的關(guān)注點(diǎn)來看,基于隱馬爾科夫模型的語音合成技術(shù)是語音合成領(lǐng)域的重點(diǎn)語音合成技術(shù),說話人自適應(yīng)技術(shù)成為語音合成領(lǐng)域較為重要的研究技術(shù),而深度神經(jīng)網(wǎng)絡(luò)是近幾年語音合成領(lǐng)域里使用的新興技術(shù)。
3" 研究熱點(diǎn)
關(guān)鍵詞是文獻(xiàn)主題內(nèi)容的高度提煉,對關(guān)鍵詞出現(xiàn)的變化進(jìn)行分析可以了解各時期的研究熱點(diǎn)[9]。表4列出的是頻次較多、中心性較高、激增值較大的按首次激增年份排序的關(guān)鍵詞。
1) 頻次(Freq)指標(biāo)計(jì)量分析
通過圖2,頻次較多的關(guān)鍵詞“hidden markov model”“text to speech”“unit selection”的首次研究年份集中在1999—2002年,這些研究為語音合成技術(shù)的發(fā)展奠定了基礎(chǔ)。到2005年,關(guān)鍵詞“hmm?based speech synthesis”出現(xiàn),隱馬爾科夫模型被用到語音合成研究里面,基于隱馬爾科夫模型的語音合成技術(shù)從該時期開始研究。到2006年,語音轉(zhuǎn)換技術(shù)應(yīng)用到語音合成領(lǐng)域里,進(jìn)一步促進(jìn)了語音合成技術(shù)的發(fā)展。
2) 中心性(Centrality)指標(biāo)計(jì)量分析
通過表4的關(guān)鍵詞的中心性結(jié)合圖2發(fā)現(xiàn),“system”“hidden markov model”“text to speech”等關(guān)鍵詞的中心性相比其他關(guān)鍵詞的中心性較高,首次出現(xiàn)的年份較早,該結(jié)果表示系統(tǒng)、隱馬爾科夫模型和文本到語音的研究在語音合成領(lǐng)域里研究的時間較長,是較為重要的研究方向。關(guān)鍵詞“speaker adaptation”“concatenative speech synthesis”“unit selection”的中心性都大于0.02,說話人自適應(yīng)是語音合成技術(shù)的核心研究部分,級聯(lián)語音合成受單元選擇中使用的單元的庫存支配達(dá)到高度自然的合成語音質(zhì)量,單元選擇是語音合成領(lǐng)域一個較為重要的研究熱點(diǎn),文獻(xiàn)[10]提出的基于隱馬爾科夫模型的語音合成方法就用到單元選擇。
3) 激增(Burst)指標(biāo)計(jì)量分析
激增指數(shù)的關(guān)注點(diǎn)是單個主題的自身發(fā)展變化過程,可以展示熱點(diǎn)主題的凸顯性。通過表4關(guān)鍵詞的激增值和開始激增年份發(fā)現(xiàn),1999—2005年主要的研究主題是圍繞規(guī)則、文本到語音和語音處理等,該時期的大部分研究工作都在基礎(chǔ)的核心部分研究;2006—2014年,研究主題的關(guān)注點(diǎn)在語音合成技術(shù)的模型,基于隱馬爾科夫模型的語音合成技術(shù)成為重點(diǎn),語音轉(zhuǎn)換和說話人自適應(yīng)技術(shù)受到了前所未有的重視;2014—2018年,神經(jīng)網(wǎng)絡(luò)成為語音合成領(lǐng)域重要的研究方向,深度學(xué)習(xí)在語音合成領(lǐng)域的應(yīng)用進(jìn)一步促進(jìn)該領(lǐng)域的快速發(fā)展。
通過前文的分析和研究發(fā)現(xiàn),數(shù)據(jù)可視分析研究的發(fā)展分為三個階段:1999—2005年,初步發(fā)展時期; 2006—2014年,快速發(fā)展時期;2015年—至今,深入發(fā)展時期,如表5所示。
4" 結(jié)" 語
國際語音合成領(lǐng)域的研究文獻(xiàn)質(zhì)量不斷在穩(wěn)步提升,日本、中國和英國的一些研究機(jī)構(gòu)在國際上發(fā)文量多,與其他研究機(jī)構(gòu)合作關(guān)系較密切。基于隱馬爾科夫模型的語音合成是該領(lǐng)域的研究重點(diǎn),而近幾年語音合成領(lǐng)域開始使用神經(jīng)網(wǎng)絡(luò)技術(shù),解決傳統(tǒng)語音合成方法遇到的問題。目前,語音合成領(lǐng)域的研究越來越多,分支越來越細(xì),在未來的發(fā)展上,語音合成領(lǐng)域的研究將不斷深入,會有越來越多不同領(lǐng)域的技術(shù)應(yīng)用到語音合成領(lǐng)域。
參考文獻(xiàn)
[1] WANG X, TAKAKI S, YAMAGISHI J. Investigating very deep highway networks for parametric speech synthesis [C]// ISCA Speech Synthesis Workshop. [S. l.]: ISCA, 2016: 166?171.
[2] YOSHIMURA T, HASHIMOTO K, OURA K, et al. Mel?cepstrum?based quantization noise shaping applied to neural?network?based speech waveform synthesis [J]. IEEE/ACM transactions on audio speech amp; language processing, 2018(99): 1.
[3] NOSE T, ARAO Y, KOBAYASHI T, et al. Sentence selection based on extended entropy using phonetic and prosodic contexts for statistical parametric speech synthesis [J]. IEEE/ACM transactions on audio speech amp; language processing, 2017, 25(5): 1107?1116.
[4] 楊良斌,周新麗,劉益佳,等.近10年來國際網(wǎng)絡(luò)安全領(lǐng)域研究現(xiàn)狀與趨勢的可視化分析[J].情報雜志,2017,36(1):92?100.
YANG Liangbin, ZHOU Xinli, LIU Yijia, et al. The specialty visualization study of current trends and issues of international network security fields in recent 10 years [J]. Journal of intelligence, 2017, 36(1): 92?100.
[5] ZEN H, TOKUDA K, BLACK A W. Statistical parametric speech synthesis [J]. Speech communication, 2009, 51(11): 1039?1064.
[6] YAMAGISHI J, KOBAYASHI T, NAKANO Y, et al. Analysis of speaker adaptation algorithms for HMM?based speech synthesis and a constrained SMAPLR adaptation algorithm [J]. IEEE transactions on audio speech amp; language processing, 2009, 17(1): 66?83.
[7] TOKUDA K, NANKAKU Y, TODA T, et al. Speech synthesis based on hidden Markov models [J]. Proceedings of the IEEE, 2013, 101(5): 1234?1252.
[8] ZEN H, SENIOR A, SCHUSTER M. Statistical parametric speech synthesis using deep neural networks [C]// IEEE International Conference on Acoustics, Speech and Signal Proce?ssing. [S. l.]: IEEE, 2013: 7962?7966.
[9] 莊少霜.近二十年國外認(rèn)知語言學(xué)領(lǐng)域研究的可視化分析:基于CiteSpaceⅡ的計(jì)量分析[J].哈爾濱學(xué)院學(xué)報,2016,37(8):97?101.
ZHUANG Shaoshuang. Emerging trends in cognitive linguistics (1996—2015) —a quantitative analysis by CiteSpaceⅡ[J]. Journal of Harbin University, 2016, 37(8): 97?101.
[10] XIA X J, LING Z H, JIANG Y, et al. Hmm?based unit selection speech synthesis using log likelihood ratios derived from perceptual data [J]. Speech communication, 2014, 63?64(3): 27?37.