陳 斌,張連海,牛 銅,王 波
(解放軍信息工程大學(xué) 信息工程學(xué)院,河南 鄭州 450002)
新一代的語(yǔ)音識(shí)別系統(tǒng)框架[1]是以知識(shí)為基礎(chǔ)并結(jié)合統(tǒng)計(jì)模型,來(lái)模擬人認(rèn)知語(yǔ)音的過(guò)程。在該框架下,知識(shí)的獲取顯得尤為重要。目前語(yǔ)音知識(shí)獲取主要是聲學(xué)單元類(lèi)別和邊界信息的獲取。作為漢語(yǔ)語(yǔ)音識(shí)別中的基本聲學(xué)單元,聲韻母類(lèi)別和邊界信息的準(zhǔn)確獲取,是新一代漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的關(guān)鍵。
由于響音(元音韻母、鼻音)對(duì)表意有著重要作用,因此,有不少學(xué)者對(duì)響音的分類(lèi)和定位進(jìn)行研究[2-3]。其中,基于Seneff聽(tīng)覺(jué)模型的檢測(cè)系統(tǒng)較好地實(shí)現(xiàn)了聲韻母邊界的檢測(cè)與響音定位。鼻音作為響音的重要組成部分,發(fā)音過(guò)程會(huì)有部分氣流經(jīng)由鼻腔向外輻射,在頻譜上表現(xiàn)為存在一個(gè)零點(diǎn),其聲學(xué)特性與元音韻母有較大的差異,難以用相同的聲學(xué)特征參數(shù)和模型結(jié)構(gòu)對(duì)鼻音和元音韻母進(jìn)行描述。同時(shí)鼻音和元音韻母的準(zhǔn)確分類(lèi)將提高語(yǔ)音識(shí)別、編碼和合成系統(tǒng)的性能,因此,進(jìn)一步將響音分為鼻音和元音韻母具有重要的意義。
目前對(duì)鼻音的檢測(cè)主要是根據(jù)鼻音的發(fā)音特征[4-5](發(fā)音位置,發(fā)音方式等)、音素配位學(xué)[6-7](phonological)和能量變化率、譜峰位置、起始和結(jié)束能量值等能量特征[8],以及采用合適的模型對(duì)特征進(jìn)行描述如SVM和條件隨機(jī)場(chǎng)CRF等?,F(xiàn)有的鼻音檢測(cè)系統(tǒng)[9]會(huì)引入較多的插入錯(cuò)誤,有的插入錯(cuò)誤數(shù)與真正標(biāo)記個(gè)數(shù)的比值甚至達(dá)到2∶1。
本文主要從能量分布和共振峰結(jié)構(gòu)信息對(duì)鼻音特性進(jìn)行刻畫(huà),實(shí)現(xiàn)鼻音的檢測(cè)。在基于Seneff聽(tīng)覺(jué)模型檢測(cè)系統(tǒng)的基礎(chǔ)上,進(jìn)一步從響音中實(shí)現(xiàn)鼻音和元音韻母的分類(lèi)識(shí)別,檢測(cè)系統(tǒng)如圖1所示。在保證較高正確率的前提下,盡可能的去除插入錯(cuò)誤,提高準(zhǔn)確率。即先建立鼻音分類(lèi)模型,從響音中檢測(cè)出候選的鼻音,保證較高地檢測(cè)正確率,然后對(duì)鼻音檢測(cè)結(jié)果進(jìn)行后處理,有效地去除插入錯(cuò)誤。
圖1 鼻音檢測(cè)系統(tǒng)圖
Seneff聽(tīng)覺(jué)模型[10-11]由40個(gè)臨界頻帶濾波器組組成,能較好地模擬人耳對(duì)語(yǔ)音的聽(tīng)覺(jué)處理過(guò)程,描述聽(tīng)覺(jué)神經(jīng)飽和、自適應(yīng)調(diào)適、掩蔽,對(duì)電流感應(yīng)的單向性,易受低頻周期信號(hào)激發(fā)等特性。將Seneff聽(tīng)覺(jué)感知模型的輸出稱(chēng)為Seneff聽(tīng)覺(jué)譜,能夠較好地描述音素的能量分布特性和共振峰結(jié)構(gòu)。Seneff聽(tīng)覺(jué)譜由兩部分組成:包絡(luò)響應(yīng)ED和同步響應(yīng)GSD,ED凸顯語(yǔ)音信號(hào)中變化劇烈區(qū)域的開(kāi)始與結(jié)束,GSD則突出共振峰結(jié)構(gòu)。由于GSD的求解過(guò)程是直接對(duì)每個(gè)通道的GSDi求平均,會(huì)導(dǎo)致頻域分辨率降低,同時(shí)出現(xiàn)偽峰值。為了避免上述問(wèn)題,增強(qiáng)共振峰提取的可靠性,Ali[12-13]提出了平均局部同步輸出ALSD。
從語(yǔ)譜圖上可知,鼻音[14]在低頻處有明顯的共振峰,其第一個(gè)共振峰是位于頻率較低處,大約在200Hz~400Hz之間,800Hz以上的能量將大幅衰減。從信號(hào)與系統(tǒng)的觀點(diǎn)上來(lái)看,傳統(tǒng)的全極點(diǎn)模型并不適合于描述鼻音,因?yàn)榭谇慌c鼻腔的結(jié)合處會(huì)在頻譜上產(chǎn)生零點(diǎn),此零點(diǎn)也將造成鼻音在第一個(gè)共振峰以上的能量有大幅的衰減。因此鼻音與元音韻母的主要區(qū)別為鼻音能量集中在低頻處,中高頻帶能量大幅衰減,譜峰位置主要位于低頻處,整個(gè)發(fā)音持續(xù)過(guò)程中譜峰位置平均值會(huì)比較小,元音韻母在中高頻帶也有能量的分布,全頻帶能量較大。以下特征參數(shù)的提取都是基于Seneff聽(tīng)覺(jué)譜特征和聲韻母邊界檢測(cè)后兩邊界點(diǎn)之間的音段(segment based),得到整個(gè)音段的能量分布和共振峰結(jié)構(gòu)特性。基于上述分析,本文選取歸一化全頻帶ALSD、ED,中高頻帶ALSD、ED,ED譜重心、ALSD平均最大譜峰值位置特征。
歸一化全頻帶ED:
歸一化全頻帶ALSD:
歸一化中高頻帶ED:
歸一化中高頻帶ALSD:
歸一化ED譜重心:
ALSD平均最大譜峰值位置:
式中i=1,…,40為聽(tīng)覺(jué)模型通道值,j=1,…,n為每一通道的輸出,J為單元的持續(xù)時(shí)間。
對(duì)響音的各音段提取上述特征,組成一個(gè)特征矢量作為輸入,具有良好模型區(qū)分能力的支持向量機(jī)(SVM)作為分類(lèi)器,進(jìn)行響音的檢測(cè)分類(lèi),得到候選的鼻音。這一過(guò)程能較好地保證鼻音檢測(cè)正確率,需要進(jìn)一步提高鼻音檢測(cè)的準(zhǔn)確率。
由于檢測(cè)到的鼻音會(huì)引入較多的插入錯(cuò)誤,需要對(duì)檢測(cè)結(jié)果進(jìn)行后處理予以去除,這里主要需要去除的是邊音/l/、摩擦音/r/和發(fā)音能量微弱的元音韻母。由于這三類(lèi)的能量都主要位于低頻帶,具有較為明顯的共振峰結(jié)構(gòu),全音段能量不大,易與鼻音音段混淆。本文根據(jù)音段持續(xù)時(shí)間、前端韻母能量、高低頻能量差、中低頻能量比的差異,進(jìn)一步實(shí)現(xiàn)易混音段和鼻音音段的區(qū)分,依次對(duì)候選鼻音進(jìn)行確認(rèn),后處理流程圖如圖2所示。
圖2 后處理流程圖
鼻音一般都有較長(zhǎng)的音段持續(xù)時(shí)間,而大多數(shù)發(fā)音能量微弱的元音韻母和邊音/l/的持續(xù)時(shí)間都比較小,音段持續(xù)時(shí)間Dura為邊界檢測(cè)結(jié)束點(diǎn)end與起始點(diǎn)start之差,即Dura=end-start。候選鼻音中音段持續(xù)時(shí)間Dura大于門(mén)限值ThDura的語(yǔ)音音段則再進(jìn)行下一過(guò)程的確認(rèn),這一過(guò)程能較為有效地去除發(fā)音能量微弱的元音韻母和邊音。
2011年江西省評(píng)選的第六屆特級(jí)教師共233名,本研究隨機(jī)抽取其中150人為被試,回收有效問(wèn)卷116份。隨機(jī)抽取江西省上饒市中小學(xué)普通教師246人為比較被試,回收有效問(wèn)卷197份。特級(jí)教師中,男62人,女54人;小學(xué)教師46人,初中教師25人,高中教師45人。普通教師中,男106人,女91人;小學(xué)教師48人,初中教師34人,高中教師115人。
由于鼻音前端大多會(huì)接聲學(xué)特性較為明顯的元音韻母,并且正常發(fā)音的元音韻母會(huì)有一定的中高頻帶能量值,因此鼻音前端相鄰韻母會(huì)有較大的中高頻能量。若是因發(fā)音能量較低而誤檢測(cè)為鼻音的元音韻母,由于發(fā)音具有連續(xù)性和平穩(wěn)性,其前端相鄰的韻母能量也會(huì)偏低。兩者1 200Hz以上的能量會(huì)存在較大的差異,這里采用歸一化20通道以上的ED能量BMED進(jìn)行描述,為了去除協(xié)同發(fā)音和邊界檢測(cè)誤差對(duì)能量求解的影響,能量計(jì)算的起始點(diǎn)和結(jié)束點(diǎn)分別后移和前移1/8的音段長(zhǎng)度,如圖3所示,即
圖3 前端相鄰韻母能量計(jì)算示意圖
候選鼻音中前端韻母BMED值大于門(mén)限值ThBM的語(yǔ)音音段則再進(jìn)行下一過(guò)程的確認(rèn),這一過(guò)程對(duì)去除發(fā)音能量微弱的元音韻母具有較好的效果。
邊音/l/存在較為明顯的第一共振峰,400Hz以上的頻率基本沒(méi)有能量分布,而鼻音在400Hz~800Hz還有部分能量分布,因此兩者400Hz頻率以下能量與400Hz~800Hz能量的比值MLRED會(huì)存在較大的差異,即
候選鼻音中能量比MLRED大于門(mén)限值ThMLR的語(yǔ)音音段則再進(jìn)行下一過(guò)程的確認(rèn),這一過(guò)程能進(jìn)一步較為有效地去除邊音/l/。
摩擦音/r/由于發(fā)音時(shí)受到阻礙屬于阻塞音,在高頻帶有大量的能量分布。而鼻音在低頻帶有較大的能量值會(huì)大于/r/音,在1 200Hz以上分布著很小的能量,因而采用ED高低頻帶能量差HLDED能夠較好的進(jìn)行區(qū)分,即
候選鼻音中能量差HLDED大于門(mén)限值ThHLD的語(yǔ)音音段為鼻音,這一過(guò)程能有效地去除摩擦音/r/。經(jīng)過(guò)上述后處理過(guò)程,能較為有效地去除插入錯(cuò)誤。
隨機(jī)從微軟語(yǔ)料庫(kù)Speech Corpora(Version 1.0)中截取35段連續(xù)語(yǔ)流作為實(shí)驗(yàn)語(yǔ)料,聲韻母共有521個(gè),其中有鼻音250個(gè),非鼻音271個(gè)。語(yǔ)音的采樣頻率為16KHz,量化精度16bit,人工進(jìn)行聲韻母的邊界和響音標(biāo)注。對(duì)檢測(cè)結(jié)果的評(píng)估采用語(yǔ)音識(shí)別的評(píng)估方式進(jìn)行。實(shí)際檢測(cè)單元的總數(shù)記為N,正確檢測(cè)單元的總數(shù)記為H,刪除錯(cuò)誤的總數(shù)記為D,插入錯(cuò)誤的總數(shù)記為I。正確率和準(zhǔn)確率定義如式(10)和(11)[15]:
表1為基于聽(tīng)覺(jué)譜特征構(gòu)成的特征向量,采用SVM分類(lèi)器得到的鼻音檢測(cè)性能。表中正確個(gè)數(shù)H為算法檢測(cè)出來(lái)的正確的鼻音個(gè)數(shù),插入個(gè)數(shù)I為算法檢測(cè)出來(lái)的非鼻音的個(gè)數(shù),刪除個(gè)數(shù)D為算法沒(méi)有檢測(cè)出來(lái)的鼻音個(gè)數(shù), 并且H+I=250。從表中可以看出采用所提特征參數(shù)和分類(lèi)器可以得到較高的正確率,由于存在較多的插入錯(cuò)誤,使得準(zhǔn)確率較低。對(duì)插入錯(cuò)誤進(jìn)行進(jìn)一步觀察和分析,可知插入錯(cuò)誤主要是由濁輔音/l/、/r/和有時(shí)發(fā)音能量微弱的元音韻母/u/、/i/等引起的,因?yàn)樗鼈兌际菨嵋粼诘皖l帶有較多的能量分布、譜峰位置和譜重心位于低頻處與鼻音有較大的相似性。特征矢量中含有描述譜重心、最大譜峰位置和全頻帶能量的分量,因此會(huì)引入較多的插入錯(cuò)誤,需要對(duì)檢測(cè)結(jié)果進(jìn)行后處理,有效地去除插入錯(cuò)誤。
表1 基于支持向量機(jī)的鼻音檢測(cè)結(jié)果
鼻音檢測(cè)后處理階段各門(mén)限值的選擇是去除插入錯(cuò)誤提高鼻音檢測(cè)準(zhǔn)確率的關(guān)鍵。門(mén)限值設(shè)立的太大將會(huì)帶來(lái)刪除錯(cuò)誤,門(mén)限值設(shè)立的太小將不能有效地去除插入錯(cuò)誤,因此需要討論后處理各過(guò)程門(mén)限值對(duì)鼻音檢測(cè)性能的影響,以便選取合適的門(mén)限值。圖4為鼻音檢測(cè)準(zhǔn)確率和正確率與門(mén)限值選取的變化關(guān)系。圖中的正確率與準(zhǔn)確率分別為絕對(duì)變化量,即為經(jīng)過(guò)后處理各過(guò)程得到的正確率和準(zhǔn)確率與基于SVM得到的正確率和準(zhǔn)確率之差。
圖4(a)為不同的ThDura下的檢測(cè)結(jié)果比較??梢钥吹?,ThDura選擇在80ms較為合理。圖4(b)為不同ThBM下的檢測(cè)結(jié)果比較??梢钥吹?,ThBM選擇在0.2較為合理。圖4(c)為不同ThMLR下的檢測(cè)結(jié)果比較??梢钥吹?,ThMLR選擇在1.2較為合理。圖4(d)為不同ThHLD下的檢測(cè)結(jié)果比較??梢钥吹剑琓hHLD選擇在0.1較為合理。表2為對(duì)鼻音檢測(cè)結(jié)果依次進(jìn)行各過(guò)程的處理后正確率、準(zhǔn)確率、正確個(gè)數(shù)、插入個(gè)數(shù)和刪除個(gè)數(shù)的變化過(guò)程。其中ThDura=80ms,ThBM=0.2,ThMLR=1.2,ThHLD=0.1。
圖4 檢測(cè)性能隨門(mén)限值的變化
表2 經(jīng)過(guò)后處理的檢測(cè)性能
由表2可知經(jīng)過(guò)后處理能在保證較高正確率的基礎(chǔ)上,有效地去除插入錯(cuò)誤,提高準(zhǔn)確率。后處理所采用的特征參數(shù)能刻畫(huà)易混音段與鼻音的差異,具有良好的區(qū)分特性,各過(guò)程都能較好地提高檢測(cè)性能,且提高的性能相當(dāng),能起到互補(bǔ)的作用。通過(guò)對(duì)剩下的幾個(gè)插入錯(cuò)誤進(jìn)行分析,得知這四個(gè)韻母鼻音化的程度較高,聲學(xué)性質(zhì)與鼻音非常類(lèi)似。由實(shí)驗(yàn)結(jié)果可知,本文所采用的鼻音檢測(cè)框架是合理的。
目前常用的鼻音檢測(cè)方法[8]是基于中、低頻帶能量特征,該方法先對(duì)語(yǔ)音信號(hào)進(jìn)行短時(shí)傅氏變換得到寬帶語(yǔ)譜,然后根據(jù)語(yǔ)譜求得中、低頻帶的能量特征,其中低頻帶能量是指150Hz~1 000Hz頻帶的能量,中頻帶能量是指1 000Hz~3 000Hz頻帶的能量。表3為本文方法與基于中、低頻帶能量的鼻音檢測(cè)方法的性能比較。
表3 不同鼻音檢測(cè)方法檢測(cè)性能
由表3可知本文方法與常用的基于中、低頻帶能量的鼻音檢測(cè)算法相比正確率略有提高,但能較為明顯地提高檢測(cè)準(zhǔn)確率。因?yàn)榘l(fā)音能量微弱的元音韻母和摩擦音/r/,在150Hz~1 000Hz和 1 000Hz~3 000Hz 這兩個(gè)頻帶上也有著與鼻音類(lèi)似的特性,這種檢測(cè)算法會(huì)引入較多的插入錯(cuò)誤,降低檢測(cè)準(zhǔn)確率。本文方法通過(guò)分析易與鼻音相混的聲韻母能量分布和共振峰結(jié)構(gòu)特性,采用后處理對(duì)插入錯(cuò)誤進(jìn)行了去除,提高了鼻音檢測(cè)的準(zhǔn)確率。
為了進(jìn)一步驗(yàn)證鼻音檢測(cè)算法的抗噪聲性能,對(duì)本文確立的鼻音檢測(cè)方法進(jìn)行魯棒性測(cè)試,表4為測(cè)試結(jié)果。
表4 鼻音檢測(cè)魯棒性測(cè)試結(jié)果
由表4可知,噪聲對(duì)鼻音檢測(cè)性能有較大影響,但在信噪比為10dB的環(huán)境下,本文算法的準(zhǔn)確率仍能達(dá)到84.4%,說(shuō)明本文鼻音檢測(cè)算法具有較好的魯棒性。這主要是由于Seneff聽(tīng)覺(jué)模型本身具有較好的抗噪聲性能,且鼻音的能量分布和共振峰特性具有較好的穩(wěn)定性,因此能較好地保證檢測(cè)性能。在頻譜上能量分布較為均勻的噪聲,對(duì)能量分布和共振峰參數(shù)的影響較小,對(duì)鼻音檢測(cè)性能影響不大,反之,噪聲能量在頻譜上分布不均勻,會(huì)給檢測(cè)性能帶來(lái)較大的影響。因此白噪聲對(duì)檢測(cè)性能影響最小,粉紅噪聲對(duì)檢測(cè)性能影響最大。
本文基于Seneff聽(tīng)覺(jué)譜特征提取了一組描述共振峰和能量分布的特征參數(shù),實(shí)現(xiàn)了鼻音的檢測(cè)。采用了一種先保證檢測(cè)準(zhǔn)確率再提高準(zhǔn)確率的檢測(cè)框架,并通過(guò)實(shí)驗(yàn)驗(yàn)證了這種框架對(duì)鼻音檢測(cè)的合理性。經(jīng)過(guò)魯棒性測(cè)試,得知本文方法在鼻音檢測(cè)上的有效性,能為后續(xù)的語(yǔ)音系統(tǒng)提供較為穩(wěn)定的鼻音類(lèi)別和邊界信息。由于鼻音聲母與鼻音韻尾不可避免的會(huì)對(duì)相鄰元音韻母進(jìn)行影響形成鼻化元音,同時(shí)相鄰的聲韻母也會(huì)對(duì)鼻音進(jìn)行影響產(chǎn)生去鼻化現(xiàn)象,降低鼻音檢測(cè)性能。如何有效地檢測(cè)鼻化元音和去鼻化鼻音以及對(duì)鼻化和去鼻化程度進(jìn)行量化,進(jìn)一步提高鼻音檢測(cè)的準(zhǔn)確率是值得后續(xù)研究的。
[1]Chin-Hui.Lee.From knowledge-ignorant to knowledge-rich modeling:A new speech research paradigm for next generation automatic speech recognition[C]//Proceedings of ICSLP Keynote speech,2004.
[2]S.R.Mahadeva Prasanna,B.V.Sandeep Reddy,P.Krishnamoorthy.Vowel onset point detection using source,spectral peaks and modulation spectrum energies[J].IEEE Transactions on Audio,Speech and Language Processing,2009,17(4):556-565.
[3]Almpanidis G.,Kotti M.,Kotropoulos C..Robust Detection of Phone Boundaries Using Model Selection Criteria With Few Observations[J].IEEE Transactions on Audio,Speech,and Language Processing,2009,17(2):287-298.
[4]K.Y.Leung,M.Siu.Speech Recognition Using Combined Acoustic and Articulatory Information with Retraining of Acoustic Model Parameters[C]//Proceedings of ICSLP 2002,3:2117-2120.
[5]M.Hasegawa-Johnson,J.Baker,S.Borys,et.al.Landmark-based speech recognition:Report of the 2004 Johns Hopkins summer workshop[C]//Proceedings of ICASSP,2005:213-216.
[6]J.Morris,E.Fosler-Lussier.Further experiments with detector-based conditional random fields in phonetic recognition[C]//Proceedings of ICASSP,April,2007.
[7]Carla Lopes,Fernando Perdig?o.A Hierarchical Broad-class Classification to Enhance Phoneme Recognition[C]//Proceedings of European Signal Processing Conference,2009,1760-1764.
[8]Limin Du,Kenneth Noble Stevens.Automatic Detection of Landmark for Nasal Consonants from Speech Waveform[C]//Proceedings of ICSLP 2006.
[9]Sarah E.Borys.An SVM Front-end Landmark Speech Recognition System[M].University of Illinois,2008.
[10]Stephanie Seneff.A joint synchrony/mean-rate model of auditory speech processing [J].Journal of Phonetics,1988,16:55-76.
[11]Stephanie Seneff.Pitch and Spectral Analysis of Speech Based on an Auditory Synchrony Model[M].Cambridge,Massachusetts Institute of Technology,1985.
[12]Ahmed M.Abdelatty Ali.Auditory-Based Speech Processing Based on the Average Localized Synchrony Detection [C]//Proceedings of Acoustic Speech and Signal Processing (ICASSP),2000,3:1623-1626.
[13]Ahmed M.Abdelatty Ali,Jan Van der Spiegel,Paul Mueller.Robust Auditory-Based Speech Processing Using the Average Localized Synchrony Detection[J].IEEE Transaction on Signal and Audio Processing,2001,10:279-292.
[14]語(yǔ)音與語(yǔ)言學(xué)詞典[M].上海:上海辭書(shū)出版社,1981.
[15]Steve Young.The HTK Book(for HTK Version 3.4)[M].Cambridge University Engineering Department,2006:289.