朱可財(cái) 陶博翔 柯楠?jiǎng)P
摘要:語音識(shí)別技術(shù)可以使發(fā)音學(xué)習(xí)軟件具有發(fā)音反饋功能,幫助學(xué)習(xí)者及時(shí)糾正錯(cuò)誤發(fā)音,從而使學(xué)習(xí)者避免因多次重復(fù)而形成錯(cuò)誤的發(fā)音習(xí)慣。本文介紹利用人工智能、語音識(shí)別技術(shù)開發(fā)出具有發(fā)音跟讀、發(fā)音評(píng)價(jià)、發(fā)音糾正等功能的方言發(fā)音訓(xùn)練系統(tǒng),旨在實(shí)現(xiàn)各地方言發(fā)音學(xué)習(xí)的智能化、普及化和便攜化,在一定程度上提高方言學(xué)習(xí)者發(fā)音水平。
關(guān)鍵字:方言學(xué)習(xí);語音識(shí)別;人工智能
1?項(xiàng)目背景
國人走南闖北,方言學(xué)習(xí)有利于加強(qiáng)各地人文交往,但方言發(fā)音成為大家方言學(xué)習(xí)中的一個(gè)難題,究其原因,主要在于以下 3 個(gè)方面:
(1)各地方言在發(fā)音方法上有很大的差異。在非母語環(huán)境下長大,在學(xué)習(xí)方言時(shí)會(huì)犯許多自己很難察覺的發(fā)音錯(cuò)誤,如果在開始學(xué)習(xí)時(shí)不及時(shí)糾正往往形成等很不標(biāo)準(zhǔn)的方言。
(2)缺乏合格的方言教學(xué)老師。即便是在大中城市的中小學(xué),也缺乏發(fā)音標(biāo)準(zhǔn)同時(shí)能準(zhǔn)確指導(dǎo)口語發(fā)音的方言教學(xué)老師。一般多媒體教學(xué),只能單方面進(jìn)行傳授,教師很少能夠針對(duì)學(xué)生的特定情況進(jìn)行互動(dòng)方言教學(xué),因而也起不到很有效的作用。
(3)缺少練習(xí)方言口語的時(shí)間和環(huán)境。語言是一種交流的方式,最重要的是多發(fā)音多練習(xí),但是在傳統(tǒng)的方言學(xué)習(xí)中,人們往往花費(fèi)大量時(shí)間在方言讀寫上,而在口語發(fā)音上缺少時(shí)間上的保證和練習(xí)的機(jī)會(huì)。當(dāng)前市場上的方言學(xué)習(xí)軟件,大多側(cè)重方言讀、寫等能力的提高。僅有的一些口語發(fā)音學(xué)習(xí)軟件功能比較單一,只能進(jìn)行簡單的發(fā)音跟讀等操作,缺少對(duì)學(xué)習(xí)者發(fā)音的有效反饋,訓(xùn)練效果不夠理想。
2 項(xiàng)目實(shí)現(xiàn)內(nèi)容
基于語音識(shí)別技術(shù)的方言學(xué)習(xí)系統(tǒng)的主要功能是以動(dòng)畫、聲音、圖片和文 字的形式實(shí)現(xiàn)方言的發(fā)音學(xué)習(xí)和訓(xùn)練,能夠?qū)崿F(xiàn)對(duì)學(xué)習(xí)者發(fā)音的有效反饋,指導(dǎo)和糾正學(xué)習(xí)者不斷訓(xùn)練、提高方言發(fā)音水平,并提供友好、直觀和簡介的操作界面。根據(jù)需求分析,確定系統(tǒng)的功能主要包括:
(1)發(fā)音示范。發(fā)音示范是指在進(jìn)行發(fā)音學(xué)習(xí)時(shí),首先播放標(biāo)準(zhǔn)的發(fā)音口型動(dòng)畫視頻或標(biāo)準(zhǔn)的發(fā)音聲音,同時(shí)配合發(fā)音口型結(jié)構(gòu)圖和介紹文字等使學(xué)習(xí)者對(duì)本發(fā)音有正確 認(rèn)識(shí),能夠全面的了解發(fā)音的要點(diǎn),口型及舌位的運(yùn)動(dòng)特點(diǎn)等。
(2)發(fā)音跟讀。發(fā)音跟讀是學(xué)習(xí)者進(jìn)行口語發(fā)音的主要練習(xí)途徑,系統(tǒng)首先播放正確的發(fā)音動(dòng)畫或發(fā)音聲音,然后提示學(xué)習(xí)者進(jìn)行跟讀;學(xué)習(xí)者依照提示跟讀此發(fā)音,同時(shí)系統(tǒng)錄制學(xué)習(xí)者發(fā)音至手機(jī)內(nèi)存以便后續(xù)處理。
(3)發(fā)音對(duì)比。系統(tǒng)首先播放標(biāo)準(zhǔn)發(fā)音的口型動(dòng)畫視頻或聲音,然后播放已錄制的學(xué)習(xí)者發(fā)音。發(fā)音對(duì)比功能主要是通過對(duì)標(biāo)準(zhǔn)參考發(fā)音和學(xué)習(xí)者發(fā)音進(jìn)行對(duì)比,使得使用者對(duì)發(fā)音和標(biāo)準(zhǔn)音之間的差距有直接的了解。
(4)發(fā)音評(píng)分。發(fā)音評(píng)分是系統(tǒng)的核心功能之一,主要利用語音識(shí)別技術(shù)及相關(guān)的發(fā)音評(píng)分算法,對(duì)學(xué)習(xí)者的發(fā)音結(jié)果有一個(gè)定量的評(píng)價(jià),準(zhǔn)確可靠的發(fā)音評(píng)分能夠使得學(xué)習(xí)者對(duì)自己的發(fā)音成績有準(zhǔn)確的認(rèn)識(shí),進(jìn)而不斷改進(jìn)發(fā)音,提高自己的發(fā)音水平。
(5)發(fā)音結(jié)果的圖像顯示。發(fā)音結(jié)果的圖像顯示主要是以圖像的形式反饋對(duì)比學(xué)習(xí)者發(fā)音與標(biāo)準(zhǔn)發(fā)音。系統(tǒng)采用發(fā)音共振峰對(duì)比圖來反映標(biāo)準(zhǔn)發(fā)音和學(xué)習(xí)者發(fā)音共振峰的不同,根據(jù)共振峰與發(fā)音口型舌位的關(guān)系,參考圖在一定程度上也反映了學(xué)習(xí)者發(fā)音與標(biāo)準(zhǔn)發(fā)音的發(fā)音口型和舌位的運(yùn)動(dòng)特點(diǎn)。
通過對(duì)系統(tǒng)的功能需求進(jìn)行分析,最終確定系統(tǒng)的核心應(yīng)包括以下幾大模塊:語音錄制模塊、語音及視頻播放模塊、基于AP 的發(fā)音評(píng)分模塊、發(fā)音共振峰的圖像顯示模塊。
2.1評(píng)分模塊設(shè)計(jì)
系統(tǒng)評(píng)分模塊采用基于 AP 的發(fā)音評(píng)分技術(shù),模塊包括評(píng)分參數(shù)生成部分和發(fā)音評(píng)分部分,負(fù)責(zé)評(píng)分參數(shù)的自適應(yīng)生成及對(duì)學(xué)習(xí)者發(fā)音的正確評(píng)分,兩者工作流程圖如圖所示。
首先,分別對(duì)測(cè)試發(fā)音和標(biāo)準(zhǔn)參考發(fā)音進(jìn)行預(yù)處理。預(yù)處理包括對(duì)發(fā)音的預(yù)加重、分幀加窗,端點(diǎn)檢測(cè)等過程。測(cè)試發(fā)音和標(biāo)準(zhǔn)發(fā)音經(jīng)預(yù)處理后,再進(jìn)行特征提取和模式匹配計(jì)算,系統(tǒng)應(yīng)用MFCC 特征參數(shù)和 DTW 動(dòng)態(tài)時(shí)間規(guī)整的方法。經(jīng)過上述處理后,可以得到測(cè)試發(fā)音和標(biāo)準(zhǔn)參考發(fā)音的幀平均匹配距離。
2.2 反饋模塊設(shè)計(jì)
發(fā)音共振峰的圖像顯示模塊主要負(fù)責(zé)以圖形化的形式描繪標(biāo)準(zhǔn)參考發(fā)音和學(xué)習(xí)者發(fā)音隨時(shí)間的共振峰變化情況,從而定性的反映兩者在發(fā)音口型上的差異。經(jīng)過預(yù)處理、FFT 變換、共振峰提取等過程的處理,系統(tǒng)得到了學(xué)習(xí)者發(fā)音和標(biāo)準(zhǔn)參考發(fā)音的共振峰信息。為了將此共振峰信息以圖形化的方式在移動(dòng)終端上顯示,系統(tǒng)利用Android 圖表引擎 AchartEngine。AchartEngine 是一個(gè)針對(duì)Android程序開發(fā)的開源圖表生成類庫,支持折線圖、柱狀圖、餅狀圖等,利用此類庫系統(tǒng)能夠顯示發(fā)音共振峰對(duì)比圖。
3 關(guān)鍵技術(shù)
3.1語音識(shí)別方法
項(xiàng)目根據(jù)模式匹配技術(shù)原理,先將已知語音信號(hào)的特征矢量作為模板存入模板庫,經(jīng)過特征提取,將輸入待測(cè)語音的特征矢量與模板庫中的參考模板進(jìn)行相似度比較,最終得出識(shí)別結(jié)果。語音識(shí)別主要過程包括:預(yù)處理,特征提取,模式匹配等。圖是基于模式匹配原理的自動(dòng)語音識(shí)別系統(tǒng)的原理框圖。
3.2 語音信息化特征提取
對(duì)語音信號(hào)進(jìn)行預(yù)處理后,還需要對(duì)信號(hào)進(jìn)行特征提取。特征提取部分負(fù)責(zé)計(jì)算和提取反映信號(hào)特征的關(guān)鍵參數(shù),通過少量的參數(shù)來有效的描述語音信號(hào),以便進(jìn)行后續(xù)處理。對(duì)信號(hào)進(jìn)行特征提取,不僅突出了模式匹配的數(shù)據(jù)特征,提高了系統(tǒng)的識(shí)別率,而且對(duì)信息進(jìn)行了壓縮,降低了系統(tǒng)的儲(chǔ)存量和運(yùn)算量。
3.3基于自適應(yīng)參數(shù)的評(píng)分機(jī)制
在基于單參考模板的評(píng)分方法中,進(jìn)行評(píng)分運(yùn)算時(shí),評(píng)分參數(shù)a和b需要結(jié)合專家經(jīng)驗(yàn)評(píng)分結(jié)果來確定。已有的發(fā)音評(píng)分系統(tǒng)都是通過系統(tǒng)仿真和測(cè)試等方法,針對(duì)某個(gè)特定的計(jì)算機(jī)或硬件平臺(tái)不斷調(diào)試修改,來確定a和b的值,系統(tǒng)一旦完成,a和b的值無法更改。這種方法有一定的局限性,就是確定的評(píng)分參數(shù)往往只適合所測(cè)試的平臺(tái)系統(tǒng),一旦所用的平臺(tái)或語音采集外設(shè)等更換,評(píng)分參數(shù)就會(huì)變得不再準(zhǔn)確,評(píng)分結(jié)果也不再可靠??紤]到Android手機(jī)的硬件差異比較大,這種方法對(duì)于系統(tǒng)的應(yīng)用和普及是很不利的。
為了解決上述評(píng)分方法中評(píng)分參數(shù)固定的局限性,本文提出了一種基于自適應(yīng)參數(shù) (adaptive parameter,AP)的評(píng)分方法,旨在實(shí)現(xiàn)系統(tǒng)的平臺(tái)自適應(yīng),提升系統(tǒng)的兼容性, 提高評(píng)分機(jī)制的可靠度和準(zhǔn)確性。 基于AP的評(píng)分方法是對(duì)于基于單參考模板評(píng)分方法的改進(jìn),這里定義基于AP的評(píng)分算法為:
其中 x 和 y 為自適應(yīng)參數(shù)。進(jìn)行評(píng)分運(yùn)算時(shí)的參數(shù)x和y不是確定的,而是可以隨計(jì)算機(jī)或 硬件設(shè)備的不同而自適應(yīng)變化的。自適應(yīng)參數(shù)x和y是通過系統(tǒng)的自適應(yīng)訓(xùn)練而生成的,具體的計(jì)算流程如圖所示。
系統(tǒng)在進(jìn)行發(fā)音評(píng)分之前,有單獨(dú)的評(píng)分參數(shù)生成模塊來生成自適應(yīng)參數(shù)。在評(píng)分參數(shù)生成模塊中,學(xué)習(xí)者針對(duì)若干個(gè)語音進(jìn)行發(fā)音,同時(shí)專家對(duì)學(xué)習(xí)者的發(fā)音進(jìn)行經(jīng)驗(yàn)評(píng)分。這 樣,對(duì)于每個(gè)發(fā)音來說,MFCC 幀匹配距離和相應(yīng)的專家評(píng)分會(huì)一一對(duì)應(yīng)。設(shè)所有訓(xùn)練發(fā)音 的 MFCC 幀平均匹配距離的集合為 A={d1,d2,...di,...dn},對(duì)應(yīng)的專家評(píng)分集合為 B={s1,s2,... si,...sn}。由此便得到了幀匹配距離和專家評(píng)分的 n 對(duì)數(shù)據(jù),并且它們滿足如下關(guān)系:
為了求出參數(shù) x和 y,可以采用最小二乘曲線擬合的方法得到 x和y的最佳值,理論上樣本空間越大,得到的擬合函數(shù)也越精確。但是由于評(píng)分參數(shù)生成模塊是在Android手機(jī)平臺(tái)上實(shí)現(xiàn)的,系統(tǒng)對(duì)計(jì)算的實(shí)時(shí)性要求較高,對(duì)于參數(shù)的精確度要求相對(duì)來說不高。為了盡量簡化評(píng)分參數(shù)生成的過程,降低計(jì)算量,系統(tǒng)選取5個(gè)語音樣本來訓(xùn)練,并從中選取最合適3個(gè)樣本來進(jìn)行計(jì)算,這樣就能夠快速的計(jì)算出參數(shù)x和y的估計(jì)值,從而進(jìn)行評(píng)分運(yùn)算。
由于評(píng)分參數(shù)生成模塊和發(fā)音評(píng)分模塊位于同一手機(jī)設(shè)備上,發(fā)音評(píng)分的運(yùn)算參數(shù)是在進(jìn)行發(fā)音學(xué)習(xí)前根據(jù)專家打分訓(xùn)練生成的,產(chǎn)生的評(píng)分參數(shù)反應(yīng)了當(dāng)前系統(tǒng)硬件平臺(tái)的特性,評(píng)分成績與專家經(jīng)驗(yàn)評(píng)分有很高的相似度。因此,基于AP的方法具有很強(qiáng)的自適應(yīng)性、較高的準(zhǔn)確度和可靠性,同時(shí)大大提高了系統(tǒng)的兼容性。
4結(jié)語
本系統(tǒng)實(shí)現(xiàn)了基于移動(dòng)端,利用相關(guān)人工智能、語音識(shí)別技術(shù)開發(fā)出一套具有發(fā)音跟讀、發(fā)音評(píng)價(jià)、發(fā)音糾正等多功能的方言發(fā)音訓(xùn)練系統(tǒng),旨在實(shí)現(xiàn)各地方言發(fā)音學(xué)習(xí)的智能化、普及化和便攜化。經(jīng)測(cè)試,本系統(tǒng)發(fā)音評(píng)分準(zhǔn)確度較高,發(fā)音糾正有效率達(dá)到 80%,能在一定程度上提高方言學(xué)習(xí)者發(fā)音水平。
[參考文獻(xiàn)]
[1]黃威,石佳影.基于深度神經(jīng)網(wǎng)絡(luò)的語音識(shí)別研究[J].現(xiàn)代計(jì)算機(jī),2016,(7).20-25.
[2]邢安昊,張鵬遠(yuǎn),潘接林,等.基于SVD的DNN裁剪方法和重訓(xùn)練[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,(7).772-776.doi:10.16511/j.cnki.qhdxxb.2016.21.043.
[3]莫媛媛,郭劍毅,余正濤,等.基于深層神經(jīng)網(wǎng)絡(luò)(DNN)的漢-越雙語詞語對(duì)齊方法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2016,(1).77-83.doi:10.6040/j.issn.1671-9352.3.2014.289.
[4]張池.移動(dòng)端環(huán)境感知系統(tǒng)中深度神經(jīng)網(wǎng)絡(luò)的應(yīng)用[D].電子科技大學(xué),2017.1-102.
[5]王振宇.嵌入式平臺(tái)下語音識(shí)別技術(shù)的研究[D].貴州大學(xué),2017.1-76.
[6]弓彥婷.基于聲譜圖顯著性檢測(cè)的音頻識(shí)別[D].合肥工業(yè)大學(xué),2015.1-54.
[7]郭勝強(qiáng).基于深度學(xué)習(xí)的跨領(lǐng)域語音識(shí)別研究[D].重慶郵電大學(xué),2017.
[8]趙天坤.基于深度神經(jīng)網(wǎng)絡(luò)的音樂信息檢索[D].北京郵電大學(xué),2015.1-70.
本文為2020年浙江省大學(xué)生新苗計(jì)劃創(chuàng)新項(xiàng)目(項(xiàng)目編號(hào): 2020R454004)研究成果之一,2019年浙江工商職業(yè)技術(shù)學(xué)院大學(xué)生創(chuàng)新項(xiàng)目(項(xiàng)目編號(hào): 0020603708)研究成果之一
浙江工商職業(yè)技術(shù)學(xué)院?朱可財(cái),陶博翔,柯楠?jiǎng)P