王 東,王麗媛,王大亮,齊紅威
1.西藏民族大學(xué) 信息工程學(xué)院,陜西 咸陽(yáng) 712082
2.數(shù)據(jù)堂(北京)科技股份有限公司,北京 100192
語(yǔ)音識(shí)別技術(shù)作為人工智能技術(shù)中的重要組成部分,是人機(jī)交互的核心組件之一。語(yǔ)音識(shí)別技術(shù)的發(fā)展具有很長(zhǎng)的歷史,其演變過(guò)程歷經(jīng)了以下幾個(gè)階段:從1990年至2010年,統(tǒng)計(jì)學(xué)習(xí)模型(主要是GMM-HMM模型)長(zhǎng)期占據(jù)主流地位;從2011年至2014年,深度學(xué)習(xí)開(kāi)始滲入到語(yǔ)音識(shí)別技術(shù)中;從2015年至今,端到端的深度學(xué)習(xí)模型在語(yǔ)音識(shí)別研究中廣為使用?,F(xiàn)在,幾乎所有的語(yǔ)音技術(shù)研究都直接或間接采用神經(jīng)網(wǎng)絡(luò)模型[1-3],語(yǔ)音識(shí)別準(zhǔn)確率得到了明顯提升,這得益于算法、算力、數(shù)據(jù)的飛速進(jìn)步。不同于統(tǒng)計(jì)學(xué)習(xí)模型,神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練需要更大規(guī)模的數(shù)據(jù)來(lái)驅(qū)動(dòng)。然而,絕大多數(shù)中文語(yǔ)音數(shù)據(jù)集是商用的,其費(fèi)用之昂貴使許多對(duì)中文語(yǔ)音識(shí)別感興趣的研究人員望而卻步,導(dǎo)致許多創(chuàng)新的想法得不到很好的驗(yàn)證。
“數(shù)據(jù)開(kāi)源”活動(dòng)極大地緩解了因數(shù)據(jù)集過(guò)于昂貴而無(wú)法獲取的問(wèn)題,同時(shí)吸引了越來(lái)越多的人員進(jìn)行中文語(yǔ)音識(shí)別相關(guān)方面的研究。其中,openslr(http://www.openslr.org/)是支持這一活動(dòng)的一個(gè)平臺(tái)。表1列舉目前主流的開(kāi)源中文語(yǔ)音數(shù)據(jù)集。其中,最早開(kāi)源的中文語(yǔ)音數(shù)據(jù)集是清華大學(xué)發(fā)布的thchs30[4],它極大地推動(dòng)了中文語(yǔ)音識(shí)別研究的發(fā)展。其創(chuàng)建的最初目的是為了彌補(bǔ)863CSL數(shù)據(jù)集中音素不均衡的缺點(diǎn)[5],所以在設(shè)計(jì)語(yǔ)料時(shí),它旨在尋求句子數(shù)量與音素覆蓋率之間的平衡,選擇的語(yǔ)料內(nèi)容多為從新聞中獲取的長(zhǎng)文本。接著,希爾貝殼也發(fā)布了兩個(gè)語(yǔ)音數(shù)據(jù)集aishell1[6]和aishell2[7],上海原語(yǔ)公開(kāi)了primewords_set1,沖浪科技發(fā)布了ST-CMDS語(yǔ)音數(shù)據(jù)集。
作為全球使用最廣泛的語(yǔ)言之一,中文相比于其他語(yǔ)言具有更豐富的詞匯、特殊的聲調(diào)表示、獨(dú)特的聲韻母結(jié)構(gòu)等特性,這使得中文語(yǔ)音識(shí)別研究更加具有挑戰(zhàn)性。然而,相較于工業(yè)級(jí)別的英文開(kāi)源語(yǔ)音數(shù)據(jù)集如librispeech[8]和tedlium[9-11],中文開(kāi)源語(yǔ)音數(shù)據(jù)規(guī)模仍太小。此外,中文普通話口語(yǔ)語(yǔ)料庫(kù)的建設(shè)仍相對(duì)滯后,口語(yǔ)中經(jīng)常出現(xiàn)語(yǔ)誤,對(duì)語(yǔ)音的文字轉(zhuǎn)寫(xiě)和標(biāo)注費(fèi)時(shí)費(fèi)力,要求較高,這些因素均制約了口語(yǔ)語(yǔ)料庫(kù)的建設(shè),這已成為目前語(yǔ)音識(shí)別逐漸滲透實(shí)際應(yīng)用(比如智能客服、語(yǔ)音交互)的一大羈絆。
為緩解以上問(wèn)題,本文向?qū)W術(shù)界開(kāi)源目前規(guī)模最大的中文普通話語(yǔ)音數(shù)據(jù)集DTZH1505。它記錄了6 408位來(lái)自中國(guó)八大方言地域、33個(gè)省份的說(shuō)話人的自然語(yǔ)言語(yǔ)音,時(shí)長(zhǎng)達(dá)1 505 h,語(yǔ)料內(nèi)容涵蓋社交聊天、人機(jī)交互、智能客服以及車(chē)載命令等。該數(shù)據(jù)集可應(yīng)用于多個(gè)領(lǐng)域,比如在語(yǔ)言學(xué)與社會(huì)學(xué)領(lǐng)域,可用于語(yǔ)料庫(kù)語(yǔ)言學(xué)、會(huì)話分析、二語(yǔ)習(xí)得、語(yǔ)言類(lèi)型學(xué)以及方言學(xué)等學(xué)科的研究;在計(jì)算機(jī)科學(xué)領(lǐng)域,可用于語(yǔ)音識(shí)別、說(shuō)話人識(shí)別、說(shuō)話人質(zhì)量評(píng)估、情感識(shí)別等應(yīng)用的研究。
語(yǔ)料的設(shè)計(jì)取決于其服務(wù)的目標(biāo)任務(wù),如連續(xù)語(yǔ)句更適用于連續(xù)語(yǔ)音識(shí)別任務(wù),而說(shuō)話人識(shí)別任務(wù)只需要孤立詞[12]。理想情況下,一個(gè)標(biāo)準(zhǔn)的語(yǔ)料庫(kù)應(yīng)該同時(shí)適用于上述兩種情景。國(guó)內(nèi)的許多語(yǔ)音識(shí)別研究人員在這方面做了很多努力,比如社會(huì)科學(xué)院語(yǔ)言研究所創(chuàng)建的“863連續(xù)語(yǔ)音數(shù)據(jù)庫(kù)”863CSL[13]包含了1 500句文本,加上thchs30數(shù)據(jù)集中的1 000句文本,二音子、三音子的覆蓋率可分別達(dá)到73.4%、16.8%,然而這些語(yǔ)料多為從新聞中摘取的長(zhǎng)文本,絕大多數(shù)內(nèi)容為政治、經(jīng)濟(jì)、文化等方面的書(shū)面用語(yǔ)。
現(xiàn)在,隨著語(yǔ)音識(shí)別技術(shù)的逐漸成熟,語(yǔ)音識(shí)別應(yīng)用也越來(lái)越深入到人們的日常生活中,其中,人機(jī)交互、智能客服等應(yīng)用已成為語(yǔ)音識(shí)別技術(shù)的主要涉足領(lǐng)域。本文聚焦于目前最新的語(yǔ)音識(shí)別需求,通過(guò)一系列的設(shè)計(jì)與制作生成了大規(guī)模的音素平衡自然語(yǔ)料庫(kù),詳細(xì)制作過(guò)程如圖1所示。
圖1 文本語(yǔ)料設(shè)計(jì)流程圖Fig.1 Text corpus design flow chart
1.1.1 文本語(yǔ)料采集
本文通過(guò)互聯(lián)網(wǎng)抓取技術(shù),從論壇、微博、問(wèn)答社區(qū)、交互機(jī)器人等開(kāi)放網(wǎng)站或平臺(tái),搜集大量來(lái)自不同社會(huì)場(chǎng)景中的自然文本語(yǔ)料,初步構(gòu)建了自然語(yǔ)境下的中文口語(yǔ)化原始語(yǔ)料庫(kù),其所涵蓋的場(chǎng)景如表2所示。
表2 原始語(yǔ)料文本分類(lèi)統(tǒng)計(jì)表Table 2 Social scenes coverage of original text corpus
1.1.2 文本語(yǔ)料清洗
按照標(biāo)點(diǎn)符號(hào)切割文本,過(guò)濾長(zhǎng)度在5~30之外的句子,并進(jìn)一步進(jìn)行拼寫(xiě)糾錯(cuò)、語(yǔ)義完整度檢測(cè)、語(yǔ)義濾重、文本脫敏等一系列文本清洗,生成待篩選的干凈語(yǔ)料集。
首先,本文采用n元語(yǔ)法模型,即N-Gram語(yǔ)言模型來(lái)消除大部分中文拼寫(xiě)錯(cuò)誤。使用自有語(yǔ)料訓(xùn)練3-gram語(yǔ)言模型,并利用模型對(duì)語(yǔ)句中的詞打分,將得分低的位置視為待糾錯(cuò)位置,基于SIGHAN 2013 CSC語(yǔ)料構(gòu)建候選集,從中選擇困惑度最高的句子。
其次,本文基于語(yǔ)義分析算法,對(duì)語(yǔ)料中文本的語(yǔ)義完整度進(jìn)行打分,認(rèn)定得分較低的文本為語(yǔ)義不完整,并去除該文本。同時(shí),本文根據(jù)語(yǔ)義框架的相似度計(jì)算,去除語(yǔ)義相同的文本,從而實(shí)現(xiàn)文本的語(yǔ)義濾重。
最后,本文基于關(guān)鍵字匹配的過(guò)濾算法,識(shí)別出語(yǔ)料中可能影響到個(gè)人隱私、財(cái)產(chǎn)、企業(yè)信息、國(guó)家安全的敏感信息以及反動(dòng)、色情、暴力等不良內(nèi)容,并剔除含有敏感信息和不良內(nèi)容的句子。拼寫(xiě)糾錯(cuò)及語(yǔ)義分析、文本脫敏的實(shí)現(xiàn)效果如表3所示。
表3 語(yǔ)料清洗效果演示表Table 3 Presentations of text corpus cleaning
1.1.3 文本語(yǔ)料評(píng)分
語(yǔ)料評(píng)選是語(yǔ)料庫(kù)設(shè)計(jì)的重要環(huán)節(jié),自然語(yǔ)境下的平衡語(yǔ)料庫(kù)的構(gòu)建則需要考慮多種因素。一方面,語(yǔ)音流中的協(xié)同發(fā)音現(xiàn)象對(duì)連續(xù)語(yǔ)音識(shí)別具有重要影響,而對(duì)中文來(lái)說(shuō),單個(gè)音素具有不穩(wěn)定性,因此,本文選取二音子及三音子作為反映協(xié)同發(fā)音的聲學(xué)基元。
在語(yǔ)音學(xué)層面,以基本音子為基礎(chǔ),考慮兩個(gè)相鄰音子,即形成一個(gè)二音子(也稱(chēng)雙音子);同時(shí)考慮左、右相鄰音子,即形成三音子。對(duì)應(yīng)到聲學(xué)層面,二音子描述了兩個(gè)相鄰音子間的穩(wěn)定階段,而三音子描述了一個(gè)音子的穩(wěn)定階段及左、右兩邊音子的過(guò)渡階段。因此,二音子和三音子對(duì)于連續(xù)語(yǔ)音流中的協(xié)同發(fā)音現(xiàn)象具有更好的描述能力。普通話含有37個(gè)基本音子[14],按照音子在音節(jié)中的位置,又可細(xì)分為表4中的三類(lèi)音子。表5列出了部分音節(jié)及對(duì)應(yīng)的音子、二音子、三音子形式。
表4 音子分類(lèi)表Table 4 Categories of Phones
表5 音節(jié)、音子、二音子、三音子部分對(duì)應(yīng)表Table 5 Correspondence of syallables,phones,diphones,triphones
另一方面,中文的音節(jié)具有獨(dú)特的聲韻母結(jié)構(gòu),因此,本文也選擇音節(jié)作為衡量語(yǔ)料庫(kù)平衡性的標(biāo)準(zhǔn)之一,此外,在人們的日常用語(yǔ)中,聲調(diào)也具有特別的意義,因此,有調(diào)音節(jié)也被考慮在內(nèi)。表6為對(duì)文本進(jìn)行分析的示例,包括原始文本、文本分詞、文本詞性、文本中字詞的有調(diào)音節(jié)、文本中的二音子序列及三音子序列共6層結(jié)構(gòu)。
表6 文本分析結(jié)構(gòu)表Table 6 Text analysis structure table
本文將無(wú)調(diào)音節(jié)、有調(diào)音節(jié)、二音子和三音子作為聲學(xué)基元,對(duì)每條句子計(jì)算其貢獻(xiàn)分?jǐn)?shù),即含有出現(xiàn)次數(shù)越少的聲學(xué)基元的句子的貢獻(xiàn)分?jǐn)?shù)越高。最后,分?jǐn)?shù)靠前的句子優(yōu)先被選出來(lái)。本文著重研究口語(yǔ)中的語(yǔ)音協(xié)同發(fā)音現(xiàn)象,因此設(shè)置無(wú)調(diào)音節(jié)、有調(diào)音節(jié)、二音子、三音子的權(quán)重分別為0.2、0.2、0.3、0.3。各聲學(xué)基元的貢獻(xiàn)分?jǐn)?shù)計(jì)算方法見(jiàn)公式(1),整句文本的計(jì)算方法見(jiàn)公式(2),其中,s是該句文本中對(duì)應(yīng)聲學(xué)基元的貢獻(xiàn)分?jǐn)?shù),I是當(dāng)前已選語(yǔ)料集中含有的對(duì)應(yīng)聲學(xué)基元的個(gè)數(shù),n代表聲學(xué)基元的種類(lèi),wn是指對(duì)應(yīng)聲學(xué)基元的權(quán)重,s n是指對(duì)應(yīng)聲學(xué)基元的貢獻(xiàn)分?jǐn)?shù),S即該句文本所具有的貢獻(xiàn)總分?jǐn)?shù)。
1.1.4 文本語(yǔ)料配平
為避免語(yǔ)料集在不同場(chǎng)景中的分布出現(xiàn)失衡,本文對(duì)打分后的語(yǔ)料集再次進(jìn)行文本分類(lèi),按照在語(yǔ)料采集階段中設(shè)定的各場(chǎng)景文本占比率由領(lǐng)域?qū)<已a(bǔ)充配平語(yǔ)料,調(diào)整語(yǔ)料的場(chǎng)景類(lèi)別和音素分布的傾斜性。本文最終得到30萬(wàn)條文本,使得在保留語(yǔ)料自然性的基礎(chǔ)上,最大限度地實(shí)現(xiàn)音素平衡,詳情請(qǐng)見(jiàn)表7。
表7 DTZH1505文本語(yǔ)料庫(kù)音素覆蓋情況Table 7 Phonetic coverage of DTZH1505
語(yǔ)音采集場(chǎng)景是由錄音設(shè)備、錄音軟件、環(huán)境布置、朗讀腳本和被采集人構(gòu)成。本文通過(guò)分布式的眾包模式,進(jìn)行大規(guī)模語(yǔ)音數(shù)據(jù)采集。
語(yǔ)音采集環(huán)境均為底噪介于10~40 dB、混響時(shí)間小于1 s的安靜室內(nèi)。為避免出現(xiàn)回聲及混響,錄制室內(nèi)被要求放置一定量的填充物,比如日常家具。在正式錄制語(yǔ)音數(shù)據(jù)之前,自主研發(fā)的一款手機(jī)終端錄音軟件可以測(cè)試錄制環(huán)境的底噪是否滿足上述要求,并且只有當(dāng)說(shuō)話人的語(yǔ)音樣例數(shù)據(jù)達(dá)到檢測(cè)標(biāo)準(zhǔn)后,才可開(kāi)展正式的語(yǔ)音錄制。
在數(shù)據(jù)錄制過(guò)程中,本文采用Android手機(jī)、iOS手機(jī)、錄制啟??刂破骷疤嵩~器搭建了一個(gè)綜合錄制平臺(tái),說(shuō)話人被要求采用正常語(yǔ)速朗讀提詞器的文本內(nèi)容,說(shuō)話人與手機(jī)之間的距離被嚴(yán)格控制在20~30 cm,如圖2所示。不管是Android手機(jī)還是iOS手機(jī),采集的語(yǔ)音均是16 kHz,16 bit的單通道wav格式。錄制所用設(shè)備的詳情如下:
圖2 錄制環(huán)境示意圖Fig.2 Map of recording environment
Android手機(jī):基于Android系統(tǒng)的移動(dòng)通訊設(shè)備,包括華為、中興、三星、聯(lián)想、HTC、酷派、小米等機(jī)型。
iOS手機(jī):基于iOS系統(tǒng)的移動(dòng)通訊設(shè)備,包括iPhone8、iPhone7、iPhone6、iPhone5等機(jī)型。
啟??刂破鳎赫Z(yǔ)音錄制平臺(tái)控制終端,用于檢測(cè)環(huán)境噪音,控制多設(shè)備同步采集。
提詞器:語(yǔ)音錄制輔助工具,用于自動(dòng)顯示待朗讀文本,并提供計(jì)時(shí)提醒和語(yǔ)速檢測(cè)功能。
數(shù)據(jù)庫(kù)服務(wù)的目標(biāo)任務(wù)同樣決定了說(shuō)話者的數(shù)量,例如,語(yǔ)音識(shí)別任務(wù)對(duì)說(shuō)話者的數(shù)量沒(méi)有過(guò)多要求,但說(shuō)話者身份識(shí)別任務(wù)則要求有更多的說(shuō)話者[15]。本文建立數(shù)據(jù)集的目標(biāo)在于為更多領(lǐng)域的研究提供數(shù)據(jù)支撐。在本數(shù)據(jù)集中,共采集了6 408位來(lái)自中國(guó)八大方言地域、33個(gè)省份的說(shuō)話人,說(shuō)話人分布詳情見(jiàn)圖3。由圖3可看出,說(shuō)話人的性別分布均衡(男為2 999,女為3 301),年齡涵蓋了各個(gè)層次段。
圖3 說(shuō)話人分布詳情圖Fig.3 Details of speakers’distributions
為確保語(yǔ)音標(biāo)注的準(zhǔn)確度,本文采取了多輪次的數(shù)據(jù)標(biāo)定工藝過(guò)程,具體包括以下步驟:
第一步,由專(zhuān)業(yè)人員在標(biāo)注平臺(tái)對(duì)每句音頻轉(zhuǎn)寫(xiě)其真實(shí)的發(fā)音文本,在該階段,標(biāo)注人員負(fù)責(zé)核查音頻的真實(shí)內(nèi)容,并判斷音頻的有效性。如圖4所示,圖中的右半部分顯示了每段音頻的元數(shù)據(jù),包括文件名稱(chēng)、預(yù)設(shè)朗讀內(nèi)容及說(shuō)話人信息。圖中的左半部分為音頻的語(yǔ)音轉(zhuǎn)寫(xiě)及質(zhì)檢工作區(qū),最上面一行為該段音頻的時(shí)域波形圖,緊接著下面為標(biāo)注人員轉(zhuǎn)寫(xiě)的語(yǔ)音真實(shí)文本及是否是有效語(yǔ)音的判定。所有的音頻均按照詳細(xì)的標(biāo)注規(guī)范進(jìn)行統(tǒng)一的標(biāo)注,具體包括:
嚴(yán)格化:若音頻含有嚴(yán)重噴麥、語(yǔ)音失真、噪音明顯、口齒不清等問(wèn)題,則視為無(wú)效語(yǔ)音。
全面化:標(biāo)記有效語(yǔ)音段內(nèi)的即時(shí)噪音,如笑聲、咳嗽、打噴嚏等。
規(guī)范化:比如根據(jù)說(shuō)話內(nèi)容區(qū)分標(biāo)注漢字“幺”和“一”,英文單詞間留有空格,但與漢字之間不留空格,英文縮略詞的字母之間不留空格,但全大寫(xiě)。
口語(yǔ)化:細(xì)化到兒化音,比如下班兒、一點(diǎn)兒。
真實(shí)化:所聽(tīng)即所寫(xiě),比如網(wǎng)址www.bbb.com標(biāo)注為“三W點(diǎn)兒BBB點(diǎn)兒COM”。
第二步,由專(zhuān)業(yè)質(zhì)檢人員對(duì)標(biāo)注語(yǔ)音分別按照100%、50%、10%的比例進(jìn)行多輪抽樣質(zhì)檢,以檢查人工轉(zhuǎn)寫(xiě)的正確率。圖4中的左下部分為語(yǔ)音質(zhì)檢的工作區(qū),質(zhì)檢人員再次檢查語(yǔ)音轉(zhuǎn)寫(xiě)的正確性,判斷其中是否包含噪音、突發(fā)噪音、背景噪音、噴麥、空曠回音、電流干擾、文本錯(cuò)誤、非本土人等錯(cuò)誤。
圖4 語(yǔ)音標(biāo)注及質(zhì)檢一體化平臺(tái)Fig.4 Integrated speech annotation and quality inspection platform
經(jīng)過(guò)嚴(yán)格的語(yǔ)音標(biāo)注及質(zhì)檢,本文從最初采集得到的原始音頻數(shù)據(jù)中篩選出了大約1/2的合格語(yǔ)音數(shù)據(jù),這些合格數(shù)據(jù)達(dá)到了98%的轉(zhuǎn)寫(xiě)準(zhǔn)確率。
經(jīng)過(guò)大規(guī)模的錄制及后期嚴(yán)格的語(yǔ)音轉(zhuǎn)寫(xiě),本文最終構(gòu)建含有1 505 h語(yǔ)音時(shí)長(zhǎng)的大規(guī)模中文普通話語(yǔ)音數(shù)據(jù)集——DTZH1505,該數(shù)據(jù)集含有以下文件:
音頻數(shù)據(jù):記錄說(shuō)話人的發(fā)音內(nèi)容,格式為16 kHz 16 bit單通道的wav文件。
標(biāo)注文本:記錄每條語(yǔ)音的轉(zhuǎn)寫(xiě)文本。
標(biāo)簽文本:記錄與每段音頻相關(guān)的音頻格式、說(shuō)話人信息、采集設(shè)備等元數(shù)據(jù)信息。
目前,該數(shù)據(jù)集已經(jīng)面向?qū)W術(shù)研究開(kāi)放,可通過(guò)官方網(wǎng)址https://www.datatang.com/opensource獲取該數(shù)據(jù)集。
現(xiàn)在主流的基于深度學(xué)習(xí)的語(yǔ)音識(shí)別模型可分為兩大類(lèi),一種是利用深度學(xué)習(xí)模型取代原來(lái)的GMM部分,即DNN-HMM模型;另一種是端到端的深度學(xué)習(xí)模型。盡管目前端到端的語(yǔ)音識(shí)別系統(tǒng)嘗試以單個(gè)系統(tǒng)的方式聯(lián)合學(xué)習(xí)聲學(xué)模型及語(yǔ)言模型,但語(yǔ)言模型具有對(duì)模型輸出文本進(jìn)行解碼和修正的作用,因此仍是目前提升語(yǔ)音識(shí)別效果的關(guān)鍵因素。另一方面,建立保留語(yǔ)料自然性的大規(guī)模平衡口語(yǔ)語(yǔ)料庫(kù)仍需不斷擴(kuò)充其庫(kù)容量,語(yǔ)料數(shù)量太小,某些詞語(yǔ)的出現(xiàn)頻率就會(huì)大大降低。因此,只有依賴大量的實(shí)際用例,才能夠支撐通用的中文口語(yǔ)語(yǔ)言模型研究。
本文以上文描述的DTZH1505數(shù)據(jù)集中的自然口語(yǔ)語(yǔ)料(超過(guò)105萬(wàn)條文本,共超過(guò)500萬(wàn)詞匯)為基礎(chǔ),訓(xùn)練中文口語(yǔ)基準(zhǔn)語(yǔ)言模型,并在此基礎(chǔ)上,不斷疊加另外的130萬(wàn)條取自于對(duì)話、車(chē)載、通用場(chǎng)景下的文本以及9 000萬(wàn)條社交場(chǎng)景下的文本數(shù)據(jù),以不斷提升語(yǔ)言模型效果,不同量級(jí)中文口語(yǔ)語(yǔ)料庫(kù)(Chinese spoken corpora,CSC)的數(shù)據(jù)詳情見(jiàn)表8。
本文利用Kaldi工具[16]訓(xùn)練基于上述語(yǔ)料庫(kù)的三元文法語(yǔ)言模型,采用了Kneser-Ney平滑算法,將未登錄詞映射到UNK,生成ARPA格式的語(yǔ)言模型。同時(shí),本文利用集外的1萬(wàn)條對(duì)話場(chǎng)景下的文本作為測(cè)試集,計(jì)算以上3種語(yǔ)言模型的困惑度(PPL),以此評(píng)估語(yǔ)言模型的性能,評(píng)估結(jié)果詳見(jiàn)表8。
表8 語(yǔ)言模型測(cè)試結(jié)果Table 8 Evaluation results of language models
根據(jù)語(yǔ)言模型的測(cè)試效果可知,隨著口語(yǔ)語(yǔ)料的增加,中文口語(yǔ)語(yǔ)言模型效果具有顯著的提升,并且在9 235萬(wàn)條文本、超過(guò)1.6億詞匯的訓(xùn)練下,語(yǔ)言模型的困惑度較基準(zhǔn)語(yǔ)言模型降低了40.6%。
語(yǔ)言模型的改進(jìn)同時(shí)增強(qiáng)了語(yǔ)音識(shí)別模型效果。與語(yǔ)音數(shù)據(jù)集一樣,本文也將優(yōu)化后的中文語(yǔ)音識(shí)別模型開(kāi)源到Kaldi平臺(tái)(http://kaldi-asr.org/models/m10),有關(guān)實(shí)驗(yàn)過(guò)程及結(jié)果在下章詳細(xì)介紹。
為了驗(yàn)證DTZH1505數(shù)據(jù)集的品質(zhì),本文基于Kaldi開(kāi)展一系列語(yǔ)音識(shí)別基準(zhǔn)實(shí)驗(yàn)。本實(shí)驗(yàn)的聲學(xué)模型訓(xùn)練部分又分為基于概率統(tǒng)計(jì)的高斯混合-隱馬爾可夫(GMM-HMM)模型與基于深度學(xué)習(xí)的深度神經(jīng)網(wǎng)絡(luò)-隱馬爾科夫(DNN-HMM)混合模型兩個(gè)階段。
GMM-HMM模型使用的是13維MFCC與3維pitch特征,訓(xùn)練過(guò)程又可分為以下幾個(gè)階段,由部分?jǐn)?shù)據(jù)快速啟動(dòng)單音子模型的訓(xùn)練。
(1)采用類(lèi)似的方法快速啟動(dòng)三音子模型的訓(xùn)練。
(2)使用全部數(shù)據(jù)集進(jìn)行三音子模型的整體訓(xùn)練。
(3)利用線性判別分析LDA算法對(duì)上下文的多幀數(shù)據(jù)進(jìn)行降維,結(jié)合最大似然線性變換MLLT算法進(jìn)行說(shuō)話人無(wú)關(guān)的全局變換。
在DNN-HMM模型訓(xùn)練階段,輸入特征是40維高精度MFCC特征與3維pitch特征,表征說(shuō)話人信息的i-vector[17]特征也作為輸入用于DNN的訓(xùn)練。實(shí)驗(yàn)采用時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)[18]搭配鏈?zhǔn)侥P停–hain model)來(lái)訓(xùn)練聲學(xué)模型。在實(shí)驗(yàn)過(guò)程中,本文也采取了數(shù)據(jù)增強(qiáng)方法來(lái)擴(kuò)展訓(xùn)練集。
在本實(shí)驗(yàn)中,所有數(shù)據(jù)集被按照7∶1∶2比例劃分成訓(xùn)練集、驗(yàn)證集、測(cè)試集,表9為基于該數(shù)據(jù)集進(jìn)行語(yǔ)音識(shí)別的字錯(cuò)誤率(CER),用以表征語(yǔ)音識(shí)別的效果。其中,aishell2的測(cè)試結(jié)果來(lái)自于文獻(xiàn)[7]中與其訓(xùn)練集數(shù)據(jù)來(lái)源相同的iOS測(cè)試集。
表9 基準(zhǔn)實(shí)驗(yàn)結(jié)果Table 9 Benchmark experiment results %
從實(shí)驗(yàn)結(jié)果中可以看出來(lái),DNN-HMM模型的識(shí)別性能大大超過(guò)GMM-HMM模型的識(shí)別性能,同時(shí),基于本文創(chuàng)建的中文語(yǔ)音數(shù)據(jù)集的字錯(cuò)誤率降低至3.41%,相比于同類(lèi)型的中文開(kāi)源語(yǔ)音數(shù)據(jù)集aishell2,字錯(cuò)誤率降低了61%,這也說(shuō)明了該數(shù)據(jù)集的品質(zhì)。
語(yǔ)言模型是影響語(yǔ)音識(shí)別效果的關(guān)鍵因素之一,語(yǔ)言模型的提升不僅在于算法的改進(jìn),更在于豐富、完備、優(yōu)質(zhì)的語(yǔ)料庫(kù)的支撐。如1.6節(jié)所述,更多優(yōu)質(zhì)的語(yǔ)料的加入,大大提升了語(yǔ)言模型的性能。本文在2.1節(jié)所述基準(zhǔn)實(shí)驗(yàn)的基礎(chǔ)上,利用優(yōu)化后的語(yǔ)言模型分別測(cè)試在ST-CMDS及thchs30數(shù)據(jù)集上的語(yǔ)音識(shí)別效果,見(jiàn)表10。
表10 模型優(yōu)化后的語(yǔ)音識(shí)別結(jié)果Table 10 Speech recognition results after model optimization %
ST-CMDS數(shù)據(jù)集的語(yǔ)料以日常用語(yǔ)為主,而thchs30數(shù)據(jù)集的語(yǔ)料以新聞?lì)愰L(zhǎng)文本為主。從表10可以看出來(lái),基于DTZH1505數(shù)據(jù)集訓(xùn)練的基準(zhǔn)語(yǔ)音識(shí)別模型可以在不同語(yǔ)料領(lǐng)域均有很好表現(xiàn),并且在優(yōu)化了語(yǔ)言模型之后,字錯(cuò)誤率均降低了21%左右,從而驗(yàn)證了該語(yǔ)音識(shí)別模型的通用性。
本文介紹了一個(gè)大規(guī)模開(kāi)源中文普通話語(yǔ)音數(shù)據(jù)集DTZH1505,詳細(xì)描述了數(shù)據(jù)集設(shè)計(jì)及制作的過(guò)程。該數(shù)據(jù)集包含了6 408位說(shuō)話人,錄音時(shí)長(zhǎng)達(dá)1 505 h,標(biāo)注準(zhǔn)確率達(dá)98%,覆蓋主流移動(dòng)設(shè)備,采集標(biāo)簽達(dá)30項(xiàng),可廣泛用于語(yǔ)音識(shí)別、聲紋識(shí)別、說(shuō)話人質(zhì)量評(píng)估、語(yǔ)料庫(kù)語(yǔ)言學(xué)、會(huì)話分析、二語(yǔ)習(xí)得、語(yǔ)言類(lèi)型學(xué)等研究。本文在最后基于該數(shù)據(jù)集進(jìn)行語(yǔ)音識(shí)別基準(zhǔn)實(shí)驗(yàn),并對(duì)比目前同規(guī)模中文語(yǔ)音數(shù)據(jù)集的語(yǔ)音識(shí)別效果,從而驗(yàn)證該數(shù)據(jù)集的品質(zhì)。同時(shí),本文在該數(shù)據(jù)集的基礎(chǔ)上增加大規(guī)模文本語(yǔ)料,訓(xùn)練出更通用的中文口語(yǔ)語(yǔ)言模型,進(jìn)一步提升了語(yǔ)音識(shí)別效果。為了便于研究和使用,該數(shù)據(jù)集及中文語(yǔ)音識(shí)別模型已開(kāi)源,以推動(dòng)中文語(yǔ)音識(shí)別技術(shù)研究的發(fā)展。