• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      電話語(yǔ)音中基于多說(shuō)話人的聲紋識(shí)別系統(tǒng)

      2010-03-11 07:27:54鄭燕琳楊曉炯許星宇
      電信科學(xué) 2010年2期
      關(guān)鍵詞:聲紋識(shí)別語(yǔ)音準(zhǔn)確率

      鄭燕琳,楊曉炯,許星宇

      (公安部第三研究所 上海 200031)

      1 引言

      聲紋識(shí)別技術(shù)[1]是生物識(shí)別技術(shù)的一種,能夠識(shí)別說(shuō)話人的身份。在電話語(yǔ)音中,目前單說(shuō)話人聲紋識(shí)別有較高識(shí)別準(zhǔn)確率,但是在實(shí)際應(yīng)用中,說(shuō)話人不可避免地會(huì)發(fā)生切換,或者由于設(shè)備的問(wèn)題,不能將對(duì)話雙方的語(yǔ)音自動(dòng)分離,從而使得輸入語(yǔ)音含有多個(gè)說(shuō)話人,由于不能有效地將對(duì)話雙方的語(yǔ)音自動(dòng)分離,直接影響到系統(tǒng)的識(shí)別性能。本文依據(jù)電話語(yǔ)音特點(diǎn)和系統(tǒng)實(shí)際運(yùn)行效率提出電話語(yǔ)音中基于多說(shuō)話人的聲紋識(shí)別系統(tǒng),有效解決電話語(yǔ)音聲紋識(shí)別在多說(shuō)話人情況下的實(shí)際應(yīng)用。

      2 多說(shuō)話人聲紋識(shí)別

      2.1 識(shí)別系統(tǒng)方案

      多說(shuō)話人聲紋識(shí)別復(fù)雜性遠(yuǎn)大于單一說(shuō)話人的純凈語(yǔ)音,系統(tǒng)需從多說(shuō)話人混合語(yǔ)音中提取出單人的純凈語(yǔ)音,用于聲紋識(shí)別系統(tǒng)的模型建立和比對(duì)識(shí)別。本文提出一種改進(jìn)的語(yǔ)音分離技術(shù)——語(yǔ)音二次分離技術(shù),在聲紋識(shí)別系統(tǒng)模型建立和比對(duì)識(shí)別模塊分別應(yīng)用語(yǔ)音分離技術(shù)。同時(shí),本文在系統(tǒng)實(shí)際應(yīng)用中,根據(jù)實(shí)際運(yùn)行效果和運(yùn)行效率設(shè)定一些限定條件,以保證本系統(tǒng)的可行性。識(shí)別系統(tǒng)結(jié)構(gòu)如圖1所示。

      2.2 語(yǔ)音分離

      語(yǔ)音分離[2]是指從一段多人語(yǔ)音里將每個(gè)人語(yǔ)音分離出來(lái),輸出結(jié)果為多人各自的單人語(yǔ)音。一般來(lái)說(shuō),語(yǔ)音分離包括兩個(gè)步驟:說(shuō)話人分割和說(shuō)話人聚類(lèi)[3~5]。前者是指從多人語(yǔ)音中找到說(shuō)話人身份發(fā)生變化的時(shí)間點(diǎn);后者是指從多人語(yǔ)音中找出說(shuō)話人的數(shù)目和每個(gè)說(shuō)話人在什么時(shí)候說(shuō)話,即按照語(yǔ)音段說(shuō)話人的身份進(jìn)行歸類(lèi)。電話語(yǔ)音聲紋系統(tǒng)實(shí)際應(yīng)用中,我們目前只分離包含兩個(gè)說(shuō)話人的電話語(yǔ)音,兩人語(yǔ)音也是目前電話語(yǔ)音實(shí)際應(yīng)用最常遇到的,3人以上語(yǔ)音分離效果比較差,實(shí)際使用中很少遇到,予以排除。本系統(tǒng)的多說(shuō)話人語(yǔ)音分離都指兩個(gè)說(shuō)話人語(yǔ)音分離。語(yǔ)音分離結(jié)構(gòu)如圖2所示。

      以往的語(yǔ)音分離算法有基于距離度量的分割聚類(lèi)算法和基于模型搜索的分割聚類(lèi)算法。前者是利用一定的距離度量準(zhǔn)則來(lái)判斷兩段語(yǔ)音是屬于同一個(gè)說(shuō)話人還是屬于不同的說(shuō)話人,其有一定的應(yīng)用局限性,對(duì)于不同的應(yīng)用場(chǎng)景或說(shuō)話人,需要設(shè)定不同的閾值;后者是利用得到的說(shuō)話人模型來(lái)對(duì)原始多人語(yǔ)音按窗進(jìn)行搜索,以便找出該話者發(fā)音的時(shí)間信息,這種算法用時(shí)長(zhǎng),初始模型訓(xùn)練選擇的語(yǔ)音段不恰當(dāng)會(huì)導(dǎo)致最后分割聚類(lèi)的結(jié)果不好。本系統(tǒng)將兩者有效結(jié)合起來(lái),在基于UBM的說(shuō)話人分割聚類(lèi)算法[6]基礎(chǔ)上提出二次語(yǔ)音分離技術(shù),速度快,可取得較好效果。二次語(yǔ)音分離流程如圖3所示。

      圖1 識(shí)別系統(tǒng)結(jié)構(gòu)框圖

      圖2 語(yǔ)音分離結(jié)構(gòu)框圖

      圖3 二次語(yǔ)音分離流程圖

      基于UBM的說(shuō)話人分割聚類(lèi)算法包括3個(gè)步驟:初始分割采用UBM上的對(duì)數(shù)似然比分來(lái)作為電話交談?wù)Z音分割的一種度量準(zhǔn)則,并利用BIC來(lái)對(duì)分割后的語(yǔ)音段進(jìn)行合并判決,以降低算法的分割錯(cuò)誤率;聚類(lèi)階段使用了說(shuō)話人模型間的分?jǐn)?shù)差來(lái)作為一種將語(yǔ)音段按說(shuō)話人身份進(jìn)行歸類(lèi)的判斷準(zhǔn)則;最后重分割降低初始分割時(shí)產(chǎn)生的漏檢錯(cuò)誤。此算法通過(guò)重分割雖然能降低分割點(diǎn)錯(cuò)誤,但分割點(diǎn)錯(cuò)誤處往往夾雜其他人的大段語(yǔ)音,類(lèi)純度不高,影響最終比對(duì)識(shí)別結(jié)果。本系統(tǒng)在前者分割聚類(lèi)后的語(yǔ)音基礎(chǔ)上進(jìn)行語(yǔ)音二次分離,步驟如下。

      (1)對(duì)UBM的說(shuō)話人分割聚類(lèi)后得到的語(yǔ)音建立模型 A、模型 B。

      (2)分別對(duì)前者分割聚類(lèi)后的語(yǔ)音進(jìn)行分窗處理,使用的窗長(zhǎng)為0.4 s,窗移為0.2 s。

      (3)分窗后,對(duì)每窗語(yǔ)音計(jì)算在模型 A、模型 B下的ΔSiAB=L(Xi|SA)-L(Xi|SB),

      ①如果 ΔSiAB大于 0且 ΔSi+1AB大于 0,則該窗屬于模型A;

      ②如果 ΔSiAB小于 0且 ΔSi+1AB小于 0,則該窗屬于模型B;

      ③否則認(rèn)為i窗語(yǔ)音屬于兩說(shuō)話人混合區(qū)域,去掉該窗語(yǔ)音。

      其中,ΔSiAB是i窗語(yǔ)音對(duì)于模型A和模型B的似然比分,ΔSi+1AB是i+1窗語(yǔ)音對(duì)于模型A和模型 B的似然比分,L(Xi|SA)和L(Xi|SB)分別為i窗語(yǔ)音在兩模型上的似然得分。

      通過(guò)在第一次語(yǔ)音分離的基礎(chǔ)上進(jìn)行二次分離,可進(jìn)一步提高說(shuō)話人純度,提高比對(duì)識(shí)別準(zhǔn)確率。

      本系統(tǒng)根據(jù)實(shí)際運(yùn)行效果和運(yùn)行效率設(shè)定如下限定條件,以保證系統(tǒng)運(yùn)行可行性。

      ·輸入有效語(yǔ)音少于3 s,系統(tǒng)認(rèn)為輸入語(yǔ)音太短,影響后期識(shí)別效果,自動(dòng)去除,分離后無(wú)輸出語(yǔ)音。

      ·輸入有效語(yǔ)音少于15 s,常常只含單個(gè)人說(shuō)話語(yǔ)音,系統(tǒng)自動(dòng)認(rèn)為為一個(gè)說(shuō)話人,分離輸出一條語(yǔ)音。

      ·輸入語(yǔ)音信噪比小于15 dB,處理為噪聲,去噪過(guò)程中去除。

      2.3 多說(shuō)話人模型建立

      電話語(yǔ)音聲紋識(shí)別系統(tǒng)實(shí)際應(yīng)用時(shí),用于建模語(yǔ)音有單說(shuō)話人和多說(shuō)話人兩種情況,系統(tǒng)無(wú)人監(jiān)守,無(wú)法對(duì)單人語(yǔ)音和多人語(yǔ)音通過(guò)人為方式區(qū)分處理。通過(guò)實(shí)際應(yīng)用測(cè)試,本系統(tǒng)提出對(duì)輸入的語(yǔ)音全部進(jìn)行語(yǔ)音分離,分離后人工選擇所需語(yǔ)音,系統(tǒng)提供語(yǔ)音人工編輯功能,可依據(jù)實(shí)際需要選擇是否人工編輯語(yǔ)音,之后將語(yǔ)音建立模型入庫(kù)。多說(shuō)話人模型建立結(jié)構(gòu)如圖4所示。

      筆者認(rèn)為,模型質(zhì)量對(duì)系統(tǒng)聲紋識(shí)別準(zhǔn)確率影響非常大,建議在建立模型時(shí),為了保證模型的質(zhì)量,對(duì)系統(tǒng)語(yǔ)音自動(dòng)分離后所選建模語(yǔ)音人為干預(yù),手工編輯。

      2.4 多說(shuō)話人比對(duì)識(shí)別

      本系統(tǒng)比對(duì)識(shí)別模塊,對(duì)輸入用于比對(duì)語(yǔ)音不分單說(shuō)話人和多說(shuō)話人,前端都進(jìn)行語(yǔ)音分離,分離后兩條語(yǔ)音無(wú)需處理,分別自動(dòng)與庫(kù)中模型進(jìn)行比對(duì)識(shí)別,得到兩個(gè)識(shí)別結(jié)果,匹配分?jǐn)?shù)靠前者可作為最終結(jié)果參考。本系統(tǒng)此過(guò)程全程無(wú)人為干預(yù),語(yǔ)音自動(dòng)分離、自動(dòng)比對(duì)識(shí)別,滿足實(shí)際應(yīng)用的需要。多說(shuō)話人比對(duì)識(shí)別結(jié)構(gòu)如圖5所示。

      3 系統(tǒng)應(yīng)用與結(jié)論

      本系統(tǒng)實(shí)際應(yīng)用中,采用計(jì)算機(jī)Intel Core2 CPU,2 GB內(nèi)存,語(yǔ)音數(shù)據(jù)為實(shí)際獲取包含單說(shuō)話人和多說(shuō)話人的電話語(yǔ)音,語(yǔ)音覆蓋男、女聲音和CDMA、PSTN、GSM電話信道,語(yǔ)音包含彩鈴、回鈴音和各種環(huán)境噪音。語(yǔ)音共150條,選自15個(gè)說(shuō)話人語(yǔ)音數(shù)據(jù),每條語(yǔ)音時(shí)長(zhǎng)2 min左右;3個(gè)電話信道各50條語(yǔ)音,各選自5個(gè)說(shuō)話人語(yǔ)音,其中單說(shuō)話人語(yǔ)音20條,多說(shuō)話人語(yǔ)音30條。

      圖4 多說(shuō)話人模型建立結(jié)構(gòu)框圖

      圖5 多說(shuō)話人比對(duì)識(shí)別結(jié)構(gòu)框圖

      測(cè)試本系統(tǒng)3個(gè)性能指標(biāo):語(yǔ)音分離準(zhǔn)確率、系統(tǒng)比對(duì)識(shí)別準(zhǔn)確率和系統(tǒng)比對(duì)效率,模型語(yǔ)音在語(yǔ)音二次分離后未經(jīng)人工編輯直接建模。采用“類(lèi)純度”、“等錯(cuò)率”和“比對(duì)實(shí)時(shí)率”3個(gè)得分作為本系統(tǒng)測(cè)試的評(píng)測(cè)指標(biāo)。類(lèi)純度指的是語(yǔ)音分離后,分離得到某個(gè)說(shuō)話人中確實(shí)屬于該說(shuō)話人的語(yǔ)音幀數(shù)占所有語(yǔ)音幀數(shù)的比例,該值越大,分離效果越好;等錯(cuò)率指的是錯(cuò)誤接受率和錯(cuò)誤拒絕率相等時(shí)的錯(cuò)誤率,該值越小,識(shí)別性能越好;比對(duì)實(shí)時(shí)率指的是單位時(shí)間內(nèi)能夠比對(duì)的有效語(yǔ)音數(shù)據(jù)長(zhǎng)度,該值越大,比對(duì)速度越快。測(cè)試結(jié)果見(jiàn)表1、表2和表3。

      表1 多說(shuō)話人語(yǔ)音二次分離類(lèi)純度

      表2 電話語(yǔ)音基于多說(shuō)話人聲紋識(shí)別系統(tǒng)識(shí)別等錯(cuò)率

      表3 電話語(yǔ)音基于多說(shuō)話人聲紋識(shí)別系統(tǒng)比對(duì)實(shí)時(shí)率

      從表1~3中可以看到,本系統(tǒng)在實(shí)際多說(shuō)話人電話語(yǔ)音應(yīng)用中,語(yǔ)音分離準(zhǔn)確率達(dá)到85.8%,比對(duì)識(shí)別等錯(cuò)率低于20%,實(shí)時(shí)速度接近10。分離效果、比對(duì)識(shí)別效果基本滿足應(yīng)用要求。

      本系統(tǒng)在電話語(yǔ)音單說(shuō)話人聲紋識(shí)別系統(tǒng)的基礎(chǔ)上,研究多說(shuō)話人聲紋識(shí)別的實(shí)際應(yīng)用,提出了在原有語(yǔ)音分離算法上改進(jìn)的語(yǔ)音二次分離技術(shù),并在系統(tǒng)模型建立和比對(duì)識(shí)別階段策略性的應(yīng)用語(yǔ)音二次分離技術(shù),有效解決了電話語(yǔ)音多說(shuō)話人聲紋識(shí)別技術(shù)的應(yīng)用,并在實(shí)際應(yīng)用中取得了較好的效果。

      1 Lawrence R.語(yǔ)音識(shí)別基本原理.北京:清華大學(xué)出版社,1999

      2 李從清,孫立新,龍東等.語(yǔ)音分離技術(shù)的研究現(xiàn)狀與展望.聲學(xué)技術(shù),2008,27(5):779~787

      3 張薇,劉加.電話語(yǔ)音的多說(shuō)話人分割聚類(lèi)研究.清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,48(4):575~578

      4 何磊.語(yǔ)音識(shí)別中的說(shuō)話人魯棒性和自適應(yīng)技術(shù)研究.清華大學(xué)計(jì)算機(jī)系博士學(xué)位論文,2001

      5 Jing Deng,Thomas Fang Zheng,Wenhu Wu.UBM based speaker segmentation and clustering for 2-speaker detection.ISCSLP 2006

      6 鄧菁.電話信道下多說(shuō)話人識(shí)別研究.清華大學(xué)計(jì)算機(jī)系博士學(xué)位論文,2006

      猜你喜歡
      聲紋識(shí)別語(yǔ)音準(zhǔn)確率
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      聲紋識(shí)別中的區(qū)分性訓(xùn)練
      淺談一種基于聲紋識(shí)別的教室上課點(diǎn)名系統(tǒng)
      卫辉市| 定边县| 建德市| 内乡县| 白城市| 土默特左旗| 雅江县| 大理市| 阜康市| 渝北区| 遵义县| 白水县| 横山县| 甘谷县| 巍山| 克山县| 突泉县| 大同市| 元氏县| 碌曲县| 德格县| 高尔夫| 安岳县| 靖安县| 富阳市| 眉山市| 大田县| 石林| 腾冲县| 伊川县| 台前县| 峡江县| 高陵县| 万安县| 江口县| 漳平市| 沁水县| 邻水| 五原县| 上栗县| 岑溪市|