鄭燕琳,楊曉炯,許星宇
(公安部第三研究所 上海 200031)
聲紋識(shí)別技術(shù)[1]是生物識(shí)別技術(shù)的一種,能夠識(shí)別說(shuō)話人的身份。在電話語(yǔ)音中,目前單說(shuō)話人聲紋識(shí)別有較高識(shí)別準(zhǔn)確率,但是在實(shí)際應(yīng)用中,說(shuō)話人不可避免地會(huì)發(fā)生切換,或者由于設(shè)備的問(wèn)題,不能將對(duì)話雙方的語(yǔ)音自動(dòng)分離,從而使得輸入語(yǔ)音含有多個(gè)說(shuō)話人,由于不能有效地將對(duì)話雙方的語(yǔ)音自動(dòng)分離,直接影響到系統(tǒng)的識(shí)別性能。本文依據(jù)電話語(yǔ)音特點(diǎn)和系統(tǒng)實(shí)際運(yùn)行效率提出電話語(yǔ)音中基于多說(shuō)話人的聲紋識(shí)別系統(tǒng),有效解決電話語(yǔ)音聲紋識(shí)別在多說(shuō)話人情況下的實(shí)際應(yīng)用。
多說(shuō)話人聲紋識(shí)別復(fù)雜性遠(yuǎn)大于單一說(shuō)話人的純凈語(yǔ)音,系統(tǒng)需從多說(shuō)話人混合語(yǔ)音中提取出單人的純凈語(yǔ)音,用于聲紋識(shí)別系統(tǒng)的模型建立和比對(duì)識(shí)別。本文提出一種改進(jìn)的語(yǔ)音分離技術(shù)——語(yǔ)音二次分離技術(shù),在聲紋識(shí)別系統(tǒng)模型建立和比對(duì)識(shí)別模塊分別應(yīng)用語(yǔ)音分離技術(shù)。同時(shí),本文在系統(tǒng)實(shí)際應(yīng)用中,根據(jù)實(shí)際運(yùn)行效果和運(yùn)行效率設(shè)定一些限定條件,以保證本系統(tǒng)的可行性。識(shí)別系統(tǒng)結(jié)構(gòu)如圖1所示。
語(yǔ)音分離[2]是指從一段多人語(yǔ)音里將每個(gè)人語(yǔ)音分離出來(lái),輸出結(jié)果為多人各自的單人語(yǔ)音。一般來(lái)說(shuō),語(yǔ)音分離包括兩個(gè)步驟:說(shuō)話人分割和說(shuō)話人聚類(lèi)[3~5]。前者是指從多人語(yǔ)音中找到說(shuō)話人身份發(fā)生變化的時(shí)間點(diǎn);后者是指從多人語(yǔ)音中找出說(shuō)話人的數(shù)目和每個(gè)說(shuō)話人在什么時(shí)候說(shuō)話,即按照語(yǔ)音段說(shuō)話人的身份進(jìn)行歸類(lèi)。電話語(yǔ)音聲紋系統(tǒng)實(shí)際應(yīng)用中,我們目前只分離包含兩個(gè)說(shuō)話人的電話語(yǔ)音,兩人語(yǔ)音也是目前電話語(yǔ)音實(shí)際應(yīng)用最常遇到的,3人以上語(yǔ)音分離效果比較差,實(shí)際使用中很少遇到,予以排除。本系統(tǒng)的多說(shuō)話人語(yǔ)音分離都指兩個(gè)說(shuō)話人語(yǔ)音分離。語(yǔ)音分離結(jié)構(gòu)如圖2所示。
以往的語(yǔ)音分離算法有基于距離度量的分割聚類(lèi)算法和基于模型搜索的分割聚類(lèi)算法。前者是利用一定的距離度量準(zhǔn)則來(lái)判斷兩段語(yǔ)音是屬于同一個(gè)說(shuō)話人還是屬于不同的說(shuō)話人,其有一定的應(yīng)用局限性,對(duì)于不同的應(yīng)用場(chǎng)景或說(shuō)話人,需要設(shè)定不同的閾值;后者是利用得到的說(shuō)話人模型來(lái)對(duì)原始多人語(yǔ)音按窗進(jìn)行搜索,以便找出該話者發(fā)音的時(shí)間信息,這種算法用時(shí)長(zhǎng),初始模型訓(xùn)練選擇的語(yǔ)音段不恰當(dāng)會(huì)導(dǎo)致最后分割聚類(lèi)的結(jié)果不好。本系統(tǒng)將兩者有效結(jié)合起來(lái),在基于UBM的說(shuō)話人分割聚類(lèi)算法[6]基礎(chǔ)上提出二次語(yǔ)音分離技術(shù),速度快,可取得較好效果。二次語(yǔ)音分離流程如圖3所示。
圖1 識(shí)別系統(tǒng)結(jié)構(gòu)框圖
圖2 語(yǔ)音分離結(jié)構(gòu)框圖
圖3 二次語(yǔ)音分離流程圖
基于UBM的說(shuō)話人分割聚類(lèi)算法包括3個(gè)步驟:初始分割采用UBM上的對(duì)數(shù)似然比分來(lái)作為電話交談?wù)Z音分割的一種度量準(zhǔn)則,并利用BIC來(lái)對(duì)分割后的語(yǔ)音段進(jìn)行合并判決,以降低算法的分割錯(cuò)誤率;聚類(lèi)階段使用了說(shuō)話人模型間的分?jǐn)?shù)差來(lái)作為一種將語(yǔ)音段按說(shuō)話人身份進(jìn)行歸類(lèi)的判斷準(zhǔn)則;最后重分割降低初始分割時(shí)產(chǎn)生的漏檢錯(cuò)誤。此算法通過(guò)重分割雖然能降低分割點(diǎn)錯(cuò)誤,但分割點(diǎn)錯(cuò)誤處往往夾雜其他人的大段語(yǔ)音,類(lèi)純度不高,影響最終比對(duì)識(shí)別結(jié)果。本系統(tǒng)在前者分割聚類(lèi)后的語(yǔ)音基礎(chǔ)上進(jìn)行語(yǔ)音二次分離,步驟如下。
(1)對(duì)UBM的說(shuō)話人分割聚類(lèi)后得到的語(yǔ)音建立模型 A、模型 B。
(2)分別對(duì)前者分割聚類(lèi)后的語(yǔ)音進(jìn)行分窗處理,使用的窗長(zhǎng)為0.4 s,窗移為0.2 s。
(3)分窗后,對(duì)每窗語(yǔ)音計(jì)算在模型 A、模型 B下的ΔSiAB=L(Xi|SA)-L(Xi|SB),
①如果 ΔSiAB大于 0且 ΔSi+1AB大于 0,則該窗屬于模型A;
②如果 ΔSiAB小于 0且 ΔSi+1AB小于 0,則該窗屬于模型B;
③否則認(rèn)為i窗語(yǔ)音屬于兩說(shuō)話人混合區(qū)域,去掉該窗語(yǔ)音。
其中,ΔSiAB是i窗語(yǔ)音對(duì)于模型A和模型B的似然比分,ΔSi+1AB是i+1窗語(yǔ)音對(duì)于模型A和模型 B的似然比分,L(Xi|SA)和L(Xi|SB)分別為i窗語(yǔ)音在兩模型上的似然得分。
通過(guò)在第一次語(yǔ)音分離的基礎(chǔ)上進(jìn)行二次分離,可進(jìn)一步提高說(shuō)話人純度,提高比對(duì)識(shí)別準(zhǔn)確率。
本系統(tǒng)根據(jù)實(shí)際運(yùn)行效果和運(yùn)行效率設(shè)定如下限定條件,以保證系統(tǒng)運(yùn)行可行性。
·輸入有效語(yǔ)音少于3 s,系統(tǒng)認(rèn)為輸入語(yǔ)音太短,影響后期識(shí)別效果,自動(dòng)去除,分離后無(wú)輸出語(yǔ)音。
·輸入有效語(yǔ)音少于15 s,常常只含單個(gè)人說(shuō)話語(yǔ)音,系統(tǒng)自動(dòng)認(rèn)為為一個(gè)說(shuō)話人,分離輸出一條語(yǔ)音。
·輸入語(yǔ)音信噪比小于15 dB,處理為噪聲,去噪過(guò)程中去除。
電話語(yǔ)音聲紋識(shí)別系統(tǒng)實(shí)際應(yīng)用時(shí),用于建模語(yǔ)音有單說(shuō)話人和多說(shuō)話人兩種情況,系統(tǒng)無(wú)人監(jiān)守,無(wú)法對(duì)單人語(yǔ)音和多人語(yǔ)音通過(guò)人為方式區(qū)分處理。通過(guò)實(shí)際應(yīng)用測(cè)試,本系統(tǒng)提出對(duì)輸入的語(yǔ)音全部進(jìn)行語(yǔ)音分離,分離后人工選擇所需語(yǔ)音,系統(tǒng)提供語(yǔ)音人工編輯功能,可依據(jù)實(shí)際需要選擇是否人工編輯語(yǔ)音,之后將語(yǔ)音建立模型入庫(kù)。多說(shuō)話人模型建立結(jié)構(gòu)如圖4所示。
筆者認(rèn)為,模型質(zhì)量對(duì)系統(tǒng)聲紋識(shí)別準(zhǔn)確率影響非常大,建議在建立模型時(shí),為了保證模型的質(zhì)量,對(duì)系統(tǒng)語(yǔ)音自動(dòng)分離后所選建模語(yǔ)音人為干預(yù),手工編輯。
本系統(tǒng)比對(duì)識(shí)別模塊,對(duì)輸入用于比對(duì)語(yǔ)音不分單說(shuō)話人和多說(shuō)話人,前端都進(jìn)行語(yǔ)音分離,分離后兩條語(yǔ)音無(wú)需處理,分別自動(dòng)與庫(kù)中模型進(jìn)行比對(duì)識(shí)別,得到兩個(gè)識(shí)別結(jié)果,匹配分?jǐn)?shù)靠前者可作為最終結(jié)果參考。本系統(tǒng)此過(guò)程全程無(wú)人為干預(yù),語(yǔ)音自動(dòng)分離、自動(dòng)比對(duì)識(shí)別,滿足實(shí)際應(yīng)用的需要。多說(shuō)話人比對(duì)識(shí)別結(jié)構(gòu)如圖5所示。
本系統(tǒng)實(shí)際應(yīng)用中,采用計(jì)算機(jī)Intel Core2 CPU,2 GB內(nèi)存,語(yǔ)音數(shù)據(jù)為實(shí)際獲取包含單說(shuō)話人和多說(shuō)話人的電話語(yǔ)音,語(yǔ)音覆蓋男、女聲音和CDMA、PSTN、GSM電話信道,語(yǔ)音包含彩鈴、回鈴音和各種環(huán)境噪音。語(yǔ)音共150條,選自15個(gè)說(shuō)話人語(yǔ)音數(shù)據(jù),每條語(yǔ)音時(shí)長(zhǎng)2 min左右;3個(gè)電話信道各50條語(yǔ)音,各選自5個(gè)說(shuō)話人語(yǔ)音,其中單說(shuō)話人語(yǔ)音20條,多說(shuō)話人語(yǔ)音30條。
圖4 多說(shuō)話人模型建立結(jié)構(gòu)框圖
圖5 多說(shuō)話人比對(duì)識(shí)別結(jié)構(gòu)框圖
測(cè)試本系統(tǒng)3個(gè)性能指標(biāo):語(yǔ)音分離準(zhǔn)確率、系統(tǒng)比對(duì)識(shí)別準(zhǔn)確率和系統(tǒng)比對(duì)效率,模型語(yǔ)音在語(yǔ)音二次分離后未經(jīng)人工編輯直接建模。采用“類(lèi)純度”、“等錯(cuò)率”和“比對(duì)實(shí)時(shí)率”3個(gè)得分作為本系統(tǒng)測(cè)試的評(píng)測(cè)指標(biāo)。類(lèi)純度指的是語(yǔ)音分離后,分離得到某個(gè)說(shuō)話人中確實(shí)屬于該說(shuō)話人的語(yǔ)音幀數(shù)占所有語(yǔ)音幀數(shù)的比例,該值越大,分離效果越好;等錯(cuò)率指的是錯(cuò)誤接受率和錯(cuò)誤拒絕率相等時(shí)的錯(cuò)誤率,該值越小,識(shí)別性能越好;比對(duì)實(shí)時(shí)率指的是單位時(shí)間內(nèi)能夠比對(duì)的有效語(yǔ)音數(shù)據(jù)長(zhǎng)度,該值越大,比對(duì)速度越快。測(cè)試結(jié)果見(jiàn)表1、表2和表3。
表1 多說(shuō)話人語(yǔ)音二次分離類(lèi)純度
表2 電話語(yǔ)音基于多說(shuō)話人聲紋識(shí)別系統(tǒng)識(shí)別等錯(cuò)率
表3 電話語(yǔ)音基于多說(shuō)話人聲紋識(shí)別系統(tǒng)比對(duì)實(shí)時(shí)率
從表1~3中可以看到,本系統(tǒng)在實(shí)際多說(shuō)話人電話語(yǔ)音應(yīng)用中,語(yǔ)音分離準(zhǔn)確率達(dá)到85.8%,比對(duì)識(shí)別等錯(cuò)率低于20%,實(shí)時(shí)速度接近10。分離效果、比對(duì)識(shí)別效果基本滿足應(yīng)用要求。
本系統(tǒng)在電話語(yǔ)音單說(shuō)話人聲紋識(shí)別系統(tǒng)的基礎(chǔ)上,研究多說(shuō)話人聲紋識(shí)別的實(shí)際應(yīng)用,提出了在原有語(yǔ)音分離算法上改進(jìn)的語(yǔ)音二次分離技術(shù),并在系統(tǒng)模型建立和比對(duì)識(shí)別階段策略性的應(yīng)用語(yǔ)音二次分離技術(shù),有效解決了電話語(yǔ)音多說(shuō)話人聲紋識(shí)別技術(shù)的應(yīng)用,并在實(shí)際應(yīng)用中取得了較好的效果。
1 Lawrence R.語(yǔ)音識(shí)別基本原理.北京:清華大學(xué)出版社,1999
2 李從清,孫立新,龍東等.語(yǔ)音分離技術(shù)的研究現(xiàn)狀與展望.聲學(xué)技術(shù),2008,27(5):779~787
3 張薇,劉加.電話語(yǔ)音的多說(shuō)話人分割聚類(lèi)研究.清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,48(4):575~578
4 何磊.語(yǔ)音識(shí)別中的說(shuō)話人魯棒性和自適應(yīng)技術(shù)研究.清華大學(xué)計(jì)算機(jī)系博士學(xué)位論文,2001
5 Jing Deng,Thomas Fang Zheng,Wenhu Wu.UBM based speaker segmentation and clustering for 2-speaker detection.ISCSLP 2006
6 鄧菁.電話信道下多說(shuō)話人識(shí)別研究.清華大學(xué)計(jì)算機(jī)系博士學(xué)位論文,2006