白俊賢,米 川
(河北科技大學(xué)研究生學(xué)院,河北 石家莊050000)
漢語普通話是以字為單位的。從聲學(xué)角度看,漢語中一個字就對應(yīng)一個音節(jié)。因此,音節(jié)是漢語語音識別中最自然的識別單元。目前,隨著漢語語音識別技術(shù)向大詞匯量連續(xù)語音識別的方向不斷發(fā)展,音節(jié)作為識別單元已不再能滿足要求。這是因為當(dāng)詞匯量增大時,不可能要求在進(jìn)行語音數(shù)據(jù)訓(xùn)練中每個音節(jié)出現(xiàn)很多次重復(fù)。因此,必須選取比音節(jié)更小的單元(音素)作為訓(xùn)練和識別的基本語音識別單元。
當(dāng)前的漢語聲韻母分割方法主要有:基于多特征參數(shù)(如能量、過零率、基頻輪廓、倒譜系數(shù)等)的分割方法、基于小波的分割方法及基于語音自動識別技術(shù)的分割方法等。這些方法在非連續(xù)語音中分割正確率很高,但在連續(xù)語音中由于協(xié)同發(fā)音的影響分割正確率大幅度降低,而且易受噪聲的影響。所以本文采用基于聲母分割和段間距離分割相結(jié)合的方法,將音節(jié)劃分成聲母和韻母,然后對聲母和韻母分別進(jìn)行特征提取,再識別出相應(yīng)的聲母和韻母。這種識別方法能使識別單元大大減少,從而使運(yùn)算量和存儲量減少,提高了識別率和識別速度。
22個輔音可以分為六個類別:擦音、塞音、塞擦音、邊音、鼻音、零聲母。通過各類聲母的時域及頻域特征,對這六類聲母進(jìn)行重新分類,同類的含有相似特征,可以用相同方法進(jìn)行處理,對于不同類型聲母的特點,適當(dāng)選擇時域頻域的特征進(jìn)行判斷。對聲母進(jìn)行處理分類如下:
(1)擦音+送氣音+塞擦音:f、h、s、sh、x、r、p、t、k、ch、c、j、q、zh、z。這類聲母最明顯的特征是持續(xù)時間較長,類似噪聲。如圖1所示,其能量集中于高頻部分,可以進(jìn)行低通濾波,去除高頻部分,聲母的高頻部分能量變得很小,整個聲母的能量就會變得很小,進(jìn)入韻母段能量顯著增大,可以判斷短時能量顯著增大的位置為聲韻母分割點。
圖1 擦音+送氣音+塞擦音的時域波形
(2)不送氣+零聲母:b、d、g、a、e、o、i、u。圖2中,這類聲母的重要特點是持續(xù)時間短,能量曲線中可能有兩種情況,一是聲母韻母能量相差不大,可以直接去除前面若干幀;另一種是短時能量在聲母部分有一個明顯的下降沿,可以根據(jù)這個特點判斷分割點。
圖2 不送氣+零聲母的時域波形
(3)鼻音+邊音:m、n、l。鼻音和邊音是濁輔音,具有準(zhǔn)周期特性。圖3(a)中,可以看出邊音也有周期性,與鼻音不同的是聲母后面有一個無周期的語音帶。圖3(b)和(c)中,可以看出鼻音也有較強(qiáng)的周期性,但是能量集中于中低頻,可以區(qū)別于其他濁輔音。
圖3 鼻音+邊音的時域波形
進(jìn)行聲母韻母劃分的具體步驟如下:
(1)對輸入信號求短時能量曲線E1;
(2)對輸入語音信號進(jìn)行低通濾波,求濾波后信號的短時能量曲線E2,并對每一幀除以E1曲線中對應(yīng)的值;
(3)若E1中起始部分的值遠(yuǎn)小于中后面的值,且E2的起始部分若干幀的值也遠(yuǎn)小于曲線中后面的值,如果是,則可以判斷聲母可能是擦音、送氣音或者塞擦音,取E2中能量顯著增大的位置為韻母起始位置;如果不滿足,則進(jìn)行下面的檢測;
(4)若E1中起始部分的值遠(yuǎn)小于中后面的值,且E2中起始部分若干幀的值大于曲線中后面的值,則判斷該語音的聲母為鼻音,取E1曲線能量顯著增大的位置音節(jié)分割點。如果不滿足,則進(jìn)行下面的檢測;
(5)如果在E1中,起始部分與后部差距不大,則判斷塞音或零聲母,在此情況下,可以認(rèn)為前五幀為聲母部分,之后為韻母。
(6)若以上都不滿足,則判為邊音L。周期性變化的位置為分割點。
基于聲韻母差異而得出的聲韻母分割算法依據(jù)的原理是:在同一音素內(nèi),語音幀的特征矢量具有很大的相似性,而在不同音素內(nèi),語音幀的特征矢量具有相異性。利用這一特性,通過計算語音片段之間的距離,可以將聲母和韻母這種具有不同特性的語音段分割開來。
兩個語音片段在特征參數(shù)空間上的總體差異稱為這兩個語音片段的段間距離。由于語音特征矢量一般按確定長度的時間幀進(jìn)行計算,所以在進(jìn)行段間距離計算時,可以取確定數(shù)目的連續(xù)語音幀構(gòu)成語音片段。計算段間距離所采用的規(guī)則和方法稱為段間距離測度。
設(shè)A、B分別表示同一語音信號的兩個片段,分別包含m和n兩個語音幀。語音段A、B內(nèi)各幀的特征矢量分別為Xi和Xj。計算Xi和Xj的歐氏距離d。
歐氏距離計算方法:
求歐氏距離d的平均值D,D綜合的反映了語音段之間的總體差異。段間距離越小,它的特征越相似,屬于同一因素。段間距離越大,越不相似,不屬于同一因素。兩個語音片段之間可以認(rèn)為是音素的分割點,可將聲韻母劃分開。
在本系統(tǒng)中,實驗數(shù)據(jù)采用16 kHz采樣率,16 bit編碼進(jìn)行錄制。數(shù)據(jù)內(nèi)容是150個漢語音節(jié),包括了所有聲母和韻母。由人工檢查聲韻母分割效果,所以只選取了若干個結(jié)果進(jìn)行效果分析,如表1和圖4所示。
表1 聲韻母分割實驗結(jié)果
從表1中數(shù)據(jù)可以看出,兩種方法效果都是不錯的。但兩種方法有不同的特點:聲母類型方法需要計算較多的參數(shù),通過條件一步一步判斷聲母所屬類型。對于清音和零聲母處理效果好。對于濁輔音容易判斷錯誤;段間距離方法直接用MFCC系數(shù)進(jìn)行運(yùn)算,減少了額外的計算開銷。
圖4 音節(jié)的分割
結(jié)合兩種方法的效果分析,可以先對語音信號進(jìn)行聲母類型判斷,再計算段間距離進(jìn)行分割。對于塞音、塞擦音、零聲母、不送氣等清音用第一種方法可以判斷分界點,對于鼻音邊音等濁音用第二種方法進(jìn)行分割。這樣就利用了兩種算法的優(yōu)點,進(jìn)而得到了更滿意的分割效果。
[1] 韓紀(jì)慶,馮 濤,鄭貴濱,馬冀平.音頻信息處理技術(shù)[M].北京:清華大學(xué)出版社,2007.
[2] 韓紀(jì)慶,張 磊,鄭鐵然.語音信號處理[M].北京:清華大學(xué)出版社.2005.
[3] 王 寧,萬旺根,于小清.漢語語音因素分割的一種新方法[J].上海大學(xué)學(xué)報(自然科學(xué)版),2002,08(02):33-35.