• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于窄帶VoIP網(wǎng)絡(luò)的說(shuō)話(huà)人識(shí)別

      2021-07-25 11:00:37倪聞培申小虎
      科技尚品 2021年3期
      關(guān)鍵詞:魯棒性

      倪聞培 申小虎

      摘 要:在語(yǔ)音同一鑒定案件中,自動(dòng)語(yǔ)音識(shí)別方法逐漸被采用,但目前某些語(yǔ)音檢材存在質(zhì)量下降無(wú)法進(jìn)行有效語(yǔ)音識(shí)別等問(wèn)題。文章通過(guò)研究網(wǎng)絡(luò)電話(huà)(VoIP)各特性因素(如語(yǔ)音編解碼、數(shù)據(jù)包丟失、數(shù)據(jù)包亂序、網(wǎng)絡(luò)抖動(dòng)和外來(lái)串?dāng)_或回波),對(duì)自動(dòng)語(yǔ)音識(shí)別系統(tǒng)(ASR)性能的影響做出系統(tǒng)分析。實(shí)驗(yàn)表明,數(shù)據(jù)包亂序?qū)φZ(yǔ)音識(shí)別性能影響較小。相比LPCC特征,MFCC特征更加能夠保證語(yǔ)音識(shí)別系統(tǒng)的魯棒性。文章的研究結(jié)果,對(duì)未來(lái)開(kāi)發(fā)魯棒性強(qiáng)的自動(dòng)語(yǔ)音識(shí)別系統(tǒng),具有一定的借鑒價(jià)值。

      關(guān)鍵詞:自動(dòng)語(yǔ)音識(shí)別;質(zhì)量下降;窄帶網(wǎng)絡(luò);MFCC特征;魯棒性

      中圖分類(lèi)號(hào):TP37 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1674-1064(2021)03-037-03

      DOI:10.12310/j.issn.1674-1064.2021.03.017

      自動(dòng)語(yǔ)音識(shí)別是指,利用軟件確定說(shuō)話(huà)人身份的一種技術(shù)。低成本計(jì)算機(jī)和強(qiáng)大性能處理器的出現(xiàn),使之成為一種經(jīng)濟(jì)的語(yǔ)音生物學(xué)識(shí)別方式,特別是在銀行交易、司法科學(xué)和國(guó)土安全方面應(yīng)用廣泛[1-3]。隨著互聯(lián)網(wǎng)和電子商務(wù)的迅速發(fā)展,人們對(duì)互聯(lián)網(wǎng)上具備語(yǔ)音功能的應(yīng)用程序(如語(yǔ)音識(shí)別或說(shuō)話(huà)人識(shí)別)越來(lái)越感興趣。

      基于IP協(xié)議的IP電話(huà)(VoIP)也稱(chēng)網(wǎng)絡(luò)電話(huà),是目前最流行的一種網(wǎng)絡(luò)服務(wù)。正是由于其靈活性高、成本低、功能齊全的特點(diǎn),網(wǎng)絡(luò)電話(huà)(VoIP)應(yīng)用中的網(wǎng)絡(luò)呼叫中心、電話(huà)銀行、遠(yuǎn)距離通信等,成為目前極具發(fā)展?jié)摿Φ膽?yīng)用。另外,隨著網(wǎng)絡(luò)電話(huà)的廣泛使用,一些新型犯罪模式逐漸產(chǎn)生,使消費(fèi)者的隱私無(wú)法得到有效保障,給執(zhí)法人員提出了新的挑戰(zhàn)。因此,將合法竊聽(tīng)得到的網(wǎng)絡(luò)電話(huà)(VoIP)錄音進(jìn)行說(shuō)話(huà)人自動(dòng)識(shí)別,可以協(xié)助有關(guān)機(jī)構(gòu)對(duì)利用VoIP網(wǎng)絡(luò)進(jìn)行的相關(guān)犯罪活動(dòng)開(kāi)展調(diào)查[4]。然而,VoIP網(wǎng)絡(luò)并不穩(wěn)定,存在諸如數(shù)據(jù)丟包、數(shù)據(jù)包重新排序、延遲、網(wǎng)絡(luò)抖動(dòng)和外來(lái)串?dāng)_等因素的干擾[5]。在這種情況下,在VoIP網(wǎng)絡(luò)中引入ASR系統(tǒng)前必須要解決一個(gè)重要問(wèn)題,即對(duì)影響ASR系統(tǒng)識(shí)別效果的各種因素,如窄帶VoIP網(wǎng)絡(luò)中的混合激勵(lì)線性預(yù)測(cè)(MELP)、數(shù)據(jù)包丟失、數(shù)據(jù)包重新排序、網(wǎng)絡(luò)抖動(dòng)或延遲和外來(lái)串?dāng)_等開(kāi)展深入研究。

      1 關(guān)鍵技術(shù)方法

      1.1 VoIP網(wǎng)絡(luò)環(huán)境下的語(yǔ)音傳輸

      如圖1所示,想要通過(guò)網(wǎng)絡(luò)傳輸語(yǔ)音,從輸入端接收語(yǔ)音后,必須要先對(duì)語(yǔ)音樣本進(jìn)行編碼。然后將其插入到有序列號(hào)和創(chuàng)建時(shí)間戳的數(shù)據(jù)包中,再通過(guò)網(wǎng)絡(luò)進(jìn)行傳輸,之后在播放緩沖區(qū)接收后按時(shí)間順序解碼,最后從播放端開(kāi)始播放。

      1.2 ASR系統(tǒng)

      ASR系統(tǒng)主要由特征抽取模塊和模式分類(lèi)模塊兩部分組成[6],如圖2所示。特征提取模塊是將語(yǔ)音信號(hào)映射成說(shuō)話(huà)人特有特征的數(shù)據(jù)集,簡(jiǎn)稱(chēng)為特征向量。在模式分類(lèi)模塊中,則是通過(guò)機(jī)器訓(xùn)練為每個(gè)說(shuō)話(huà)人建立說(shuō)話(huà)人模型。在進(jìn)行說(shuō)話(huà)人識(shí)別過(guò)程中,測(cè)試語(yǔ)音依次通過(guò)每個(gè)特征提取模塊,將測(cè)試語(yǔ)音特征與每個(gè)說(shuō)話(huà)人的注冊(cè)模型進(jìn)行比較,最后將該測(cè)試語(yǔ)音匹配給注冊(cè)模型中似然度[7]得分最高的說(shuō)話(huà)人。

      2 實(shí)驗(yàn)條件

      2.1 實(shí)驗(yàn)設(shè)備

      Skype、微信[8]或PJSIP[9]等公用網(wǎng)絡(luò)平臺(tái);DET曲線繪制軟件:DETware。

      2.2 語(yǔ)音樣本

      該實(shí)驗(yàn)語(yǔ)音樣本來(lái)自于由NIST、MIT林肯實(shí)驗(yàn)室、執(zhí)法部門(mén)三者協(xié)同合作構(gòu)建的一個(gè)用于多語(yǔ)種與多信道說(shuō)話(huà)人識(shí)別(MMSR)的新語(yǔ)料庫(kù)——DA-IICT語(yǔ)音庫(kù)。這個(gè)語(yǔ)料庫(kù)是由100個(gè)說(shuō)話(huà)人(46名男性和54名女性,年齡范圍在18歲~22歲)所構(gòu)成的語(yǔ)音數(shù)據(jù)庫(kù)。這些錄音使用創(chuàng)新HS-300降噪耳麥采錄得到。原始錄音的采樣頻率為22 050Hz,之后降采樣到8 000Hz。參與測(cè)試的說(shuō)話(huà)人為無(wú)償并自愿參與到本次語(yǔ)音數(shù)據(jù)收集中來(lái)的。錄音的大部分時(shí)間段選擇在傍晚或夜里。

      3 實(shí)驗(yàn)方法

      在未知說(shuō)話(huà)人和已知說(shuō)話(huà)人等兩種模式下進(jìn)行說(shuō)話(huà)人驗(yàn)證,開(kāi)展說(shuō)話(huà)人識(shí)別任務(wù)。每一次測(cè)試都需將特定說(shuō)話(huà)人與一段制定的測(cè)試語(yǔ)音進(jìn)行比較,利用ASR系統(tǒng)對(duì)特定說(shuō)話(huà)人是否出現(xiàn)在測(cè)試語(yǔ)音中,做出有效決策(真或假)。對(duì)于每次判斷決策,還要求系統(tǒng)為每次測(cè)試提供表示決策置信度的似然得分,分?jǐn)?shù)越高表明說(shuō)話(huà)人在測(cè)試語(yǔ)音中出現(xiàn)的可信度越高。

      在實(shí)驗(yàn)中,通過(guò)檢測(cè)錯(cuò)誤權(quán)衡(DET)曲線(各軸正態(tài)偏離尺度均一的ROC變種)來(lái)衡量ASR在不同閾值下的系統(tǒng)性能指標(biāo)。實(shí)驗(yàn)中用于系統(tǒng)性能評(píng)估的另一種衡量指標(biāo)是等誤識(shí)率(EER),其是錯(cuò)誤接受率和錯(cuò)誤拒絕率相等時(shí)的錯(cuò)誤率。雖然DET曲線能夠從整體上直觀地衡量系統(tǒng)性能,顯示了在不同判定閾值下FR與FA的相互關(guān)系,但是檢測(cè)代價(jià)函數(shù)(DCF)能夠在特殊判定條件下對(duì)系統(tǒng)性能進(jìn)行評(píng)估。

      4 實(shí)驗(yàn)分析

      4.1 語(yǔ)音編解碼錯(cuò)誤

      實(shí)驗(yàn)中,首先利用MELP語(yǔ)音編解碼V1.2對(duì)語(yǔ)音庫(kù)內(nèi)的各樣本進(jìn)行轉(zhuǎn)碼,從而實(shí)現(xiàn)在2.4kbps窄帶語(yǔ)音傳輸條件下的最佳語(yǔ)音質(zhì)量。為比較MELP編碼與PCM編碼(8kHz)對(duì)ASR性能的影響,圖3中展示了在MFCC、LPCC和WLPC不同語(yǔ)音特征下的DET曲線,表1則列出了等誤識(shí)率(EER)和min.DCF的值。由于認(rèn)定測(cè)試和否定測(cè)試共有600 000個(gè)測(cè)試項(xiàng)目,因此在本實(shí)驗(yàn)中所有ASR測(cè)試的DET曲線均接近理想直線[10]。從DET曲線中可以清楚地看出,由于MELP編碼的影響,說(shuō)話(huà)人識(shí)別和確認(rèn)的性能均明顯下降。同時(shí),與WLP(2.18%)和LPCC(2.29%)特征相比,MFCC特征的識(shí)別性能下降(0.93%)幅度略低。總之,低比特率編碼是導(dǎo)致ASR性能急劇下降的主要因素。

      4.2 數(shù)據(jù)丟包

      VoIP網(wǎng)絡(luò)中的數(shù)據(jù)包丟失,是由網(wǎng)絡(luò)擁堵或路由器問(wèn)題引起的,這會(huì)導(dǎo)致某些數(shù)據(jù)包延遲到達(dá)或者根本不能到達(dá)目的地。本實(shí)驗(yàn)中進(jìn)行了模擬丟包的操作。從DET曲線、EER以及最小DCF值,如圖4和表2所示,可以清楚地看出,說(shuō)話(huà)人辨識(shí)和驗(yàn)證的正識(shí)率隨著丟包率的上升而下降。與WLP、LPCC特征相比,MFCC特征的性能下降幅度較小。

      4.3 數(shù)據(jù)包亂序(無(wú)序數(shù)據(jù)包)

      網(wǎng)絡(luò)擁塞時(shí),數(shù)據(jù)包到達(dá)傳輸目的地的順序與發(fā)送順序可能會(huì)產(chǎn)生不同,導(dǎo)致合成器的狀態(tài)信息與語(yǔ)音合成出現(xiàn)錯(cuò)誤。在本實(shí)驗(yàn)中進(jìn)行了數(shù)據(jù)包亂序的仿真測(cè)試,未考慮數(shù)據(jù)丟包的情況。圖5顯示了這種模擬數(shù)據(jù)包亂序?qū)φZ(yǔ)譜圖的影響,可以明顯看出,數(shù)據(jù)包亂序?qū)舱穹逍螒B(tài)與頻譜能量分布(在較寬的頻率范圍內(nèi))均產(chǎn)生了顯著影響。實(shí)驗(yàn)中對(duì)3個(gè)和20個(gè)數(shù)據(jù)包進(jìn)行重新排序后,使用語(yǔ)音庫(kù)對(duì)ASR系統(tǒng)進(jìn)行性能測(cè)試,得到不同語(yǔ)音特征對(duì)應(yīng)的DET曲線,并獲取了EER與最小DCF值,如表3所示。從實(shí)驗(yàn)中可以明顯看出,數(shù)據(jù)包亂序?qū)φf(shuō)話(huà)人辨識(shí)與驗(yàn)證的識(shí)別性能沒(méi)有太大影響。

      4.4 網(wǎng)絡(luò)抖動(dòng)

      在VoIP中,網(wǎng)絡(luò)抖動(dòng)是由網(wǎng)絡(luò)中的不同延遲引起的,導(dǎo)致某些數(shù)據(jù)包彼此之間彼此接近或遠(yuǎn)離。實(shí)驗(yàn)中設(shè)置的網(wǎng)絡(luò)抖動(dòng)量分別為10、50、100條件,用來(lái)驗(yàn)證ASR系統(tǒng)的識(shí)別性能。計(jì)算得到的EER和最小DCF值如表4所示??梢郧宄氐贸鼋Y(jié)論,說(shuō)話(huà)人辨識(shí)和驗(yàn)證的正識(shí)率隨著網(wǎng)絡(luò)抖動(dòng)量的增加而下降。與WLP、LPCC特征相比,MFCC特征的性能下降幅度較小。

      4.5 回波-遠(yuǎn)端串音(FEXT)

      在VoIP網(wǎng)絡(luò)中,回波是在說(shuō)話(huà)人聲音傳播到接收端麥克風(fēng)過(guò)程中的遠(yuǎn)端串?dāng)_(FEXT)造成的。實(shí)驗(yàn)中從語(yǔ)音樣本庫(kù)提取了不同的聲譜特征,并在仿真回波不同衰減系數(shù)條件下的ASR系統(tǒng)DET曲線。EER與最小DCF值如表5所示。實(shí)驗(yàn)結(jié)果表明:回波或串?dāng)_可導(dǎo)致ASR識(shí)別性能下降,且性能下降幅度是以衰減系數(shù)為參量的函數(shù)。如果用相同的衰減系數(shù)(1或0.5)抑制目標(biāo)說(shuō)話(huà)人和背景說(shuō)話(huà)人的語(yǔ)音振幅,所產(chǎn)生的ASR性能下降幅度幾乎也是相同的。

      5 結(jié)語(yǔ)

      本實(shí)驗(yàn)是基于在MELP語(yǔ)音編碼的窄帶VoIP網(wǎng)絡(luò)上如何開(kāi)展自動(dòng)語(yǔ)音識(shí)別而開(kāi)展的相關(guān)實(shí)驗(yàn)。研究表明,語(yǔ)音識(shí)別性能不受數(shù)據(jù)包亂序的影響。此結(jié)論可有助于設(shè)計(jì)安全穩(wěn)定、魯棒性較高的說(shuō)話(huà)人識(shí)別系統(tǒng)。

      本實(shí)驗(yàn)的不足在于,實(shí)驗(yàn)中測(cè)試和訓(xùn)練所采用的數(shù)據(jù)包重排序仿真技術(shù)均針對(duì)單個(gè)語(yǔ)音會(huì)話(huà),ASR系統(tǒng)的EER指標(biāo)數(shù)據(jù)較高,且重新排序的數(shù)據(jù)包數(shù)目是隨意選擇的,并未依據(jù)標(biāo)準(zhǔn)或真實(shí)VoIP網(wǎng)絡(luò)環(huán)境。今后的研究將直接針對(duì)真實(shí)VoIP網(wǎng)絡(luò)下的數(shù)據(jù)包亂序錄音樣本開(kāi)展,并嘗試盲源分離技術(shù),盡量避免因回波產(chǎn)生而造成的識(shí)別性能下降。同時(shí),使用不同的時(shí)間壓縮修正算法改變各個(gè)數(shù)據(jù)包的播放音長(zhǎng),減少由網(wǎng)絡(luò)抖動(dòng)而導(dǎo)致的識(shí)別性能下降,保證語(yǔ)音播放流暢。

      參考文獻(xiàn)

      [1] Boe LJ.Forensic voice identification in France[J].Speech Commun,2000,31(23):205-224.

      [2] Campbell JP Jr.Speaker recognition:a tutorial[J].Proc IEEE,1997,85(9):1437-1462.

      [3] Campbell JP,Shen W,Campbell WM,et al.Forensic speaker recognition:a need for caution[J].IEEE Signal Process Mag,2009,26(2):95-103.

      [4] 趙明.“互聯(lián)網(wǎng)+”背景下電信網(wǎng)絡(luò)詐騙案件偵防對(duì)策研究[D].蘭州:甘肅政法大學(xué),2018.

      [5] Mehta P,Udani S.Voice over IP[J].IEEE Potentials,2001,20:36-40.

      [6] Duda RO,Hart PE,Stork DG.Pattern classification and scene analysis[M].2nd edition.New York:Wiley,2001.

      [7] 王華朋,楊軍,許勇.應(yīng)用似然比框架的法庭說(shuō)話(huà)人識(shí)別[J].數(shù)據(jù)采集與處理,2013,28(2):239-243.

      [8] 劉林強(qiáng).微信語(yǔ)音通話(huà)作為定案證據(jù)的條件[J].商,2015(26):240.

      [9] 杜奇才,鄧誠(chéng)剛,劉熒,等.基于Android平臺(tái)的VoIP設(shè)計(jì)實(shí)現(xiàn)[J].微處理機(jī),2017,38(2):41-44.

      [10] Martin AF,Doddington G,Kamm T,et al.The DET curve in assessment of detection task performance[C].Rhodes:Proc Eurospeech97,1997,1899-1903.

      猜你喜歡
      魯棒性
      考慮恒功率負(fù)載的直流微電網(wǎng)穩(wěn)定性與魯棒性控制策略
      武漢軌道交通重點(diǎn)車(chē)站識(shí)別及網(wǎng)絡(luò)魯棒性研究
      荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
      基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
      基于時(shí)差效用的雙目標(biāo)資源約束型魯棒性項(xiàng)目調(diào)度優(yōu)化
      一種基于三維小波變換的魯棒視頻水印方案
      一種基于奇異值分解的魯棒水印算法
      基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性?xún)?yōu)化
      基于遺傳算法的數(shù)字水印嵌入位置的優(yōu)化算法
      西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
      奈曼旗| 石嘴山市| 邻水| 嘉峪关市| 新和县| 迭部县| 开原市| 大洼县| 正阳县| 霞浦县| 佛教| 伊宁县| 阜南县| 隆昌县| 通化市| 宜宾市| 鹤庆县| 新津县| 昌江| 宁陵县| 万州区| 城固县| 广平县| 门源| 阳春市| 西宁市| 汕头市| 阿拉善左旗| 衡东县| 涿鹿县| 涟水县| 祥云县| 揭东县| 合阳县| 三河市| 五大连池市| 安岳县| 广州市| 如皋市| 嵊泗县| 厦门市|