• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      聲紋識別技術(shù)在調(diào)度錄音分析的應(yīng)用研究

      2013-12-31 00:00:00李豫芹朱凱進
      電子世界 2013年22期

      【摘要】隨著電網(wǎng)調(diào)控一體模式的應(yīng)用打破傳統(tǒng)的調(diào)度的業(yè)務(wù)范疇,調(diào)控拓展成為電網(wǎng)信息通信與設(shè)備的集中監(jiān)視與指揮控制中心,各類生產(chǎn)業(yè)務(wù)的實時、準(zhǔn)確信息逐步匯集到調(diào)度臺。作為各類監(jiān)控信息和管理流程的匯集點,調(diào)度下令的準(zhǔn)確性直接關(guān)乎電網(wǎng)運行穩(wěn)定性。本文針對調(diào)度錄音系統(tǒng)的需求,通過對聲紋識別技術(shù)在調(diào)度錄音分析的應(yīng)用進行分析研究,期望再進一步通過技術(shù)力量改變調(diào)度下令不規(guī)范,用語不真切的不良習(xí)慣,從根本上解決調(diào)度下令的多年詬病,提升電網(wǎng)調(diào)度下令水平。

      【關(guān)鍵詞】調(diào)度;調(diào)度錄音;錄音分析;聲紋識別

      1.研究目的及意義

      調(diào)度崗位業(yè)務(wù)范疇的擴容,直接導(dǎo)致調(diào)度人員的工作量上浮,對于日常工作,指揮下令的操作更為頻繁,目前調(diào)度電話錄音每月數(shù)量已經(jīng)接近萬條,平均下來每一天都有三、四百條錄音文件產(chǎn)生,其中正規(guī)調(diào)度下令錄音占約2/5,目前針對錄音內(nèi)容,采用人工逐一收聽的辦法來判定錄音內(nèi)容是否規(guī)范,下令是否正確。通過人工抽檢測聽的方式,無法全面有效地評價調(diào)度質(zhì)量,難以確保調(diào)度人員正確使用規(guī)定的調(diào)度術(shù)語且調(diào)度指令準(zhǔn)確、無誤;且人工抽檢方式工作量大,效率低。

      應(yīng)用語音分析技術(shù),將電網(wǎng)調(diào)度中心保存的非結(jié)構(gòu)化的錄音數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化的索引信息(文本結(jié)構(gòu)),通過關(guān)鍵詞檢索、篩選、業(yè)務(wù)歸類等處理及分析,建立聲紋模型以及設(shè)定關(guān)鍵字,如拉開、閉合、下令等關(guān)鍵字眼,對調(diào)度流程規(guī)范進行自動確認(rèn)和問題分析,大幅度提高質(zhì)檢效率和覆蓋面,提升電網(wǎng)調(diào)度質(zhì)量,降低運營成本,提高運營管理水平。

      2.主要技術(shù)在調(diào)度錄音分析的應(yīng)用

      2.1 調(diào)度錄音預(yù)處理

      輸入的調(diào)度語音信號需要進行預(yù)處理,預(yù)處理過程的好壞在一定程度上影響系統(tǒng)的識別效果。在調(diào)度錄音預(yù)處理過程中,采用文本相關(guān)的聲紋識別技術(shù)。

      語音轉(zhuǎn)寫(識別),是指將非結(jié)構(gòu)化的語音文件轉(zhuǎn)換為結(jié)構(gòu)化的文本信息,是語音分析的核心功能。處理時將分離后的調(diào)度錄音通過聲學(xué)模型轉(zhuǎn)換為漢語音標(biāo)符號,再通過超大詞匯網(wǎng)絡(luò)的語言模型將音標(biāo)信息識別為文本內(nèi)容。

      由于調(diào)度員的本地口音及中文自帶的語調(diào),必須優(yōu)化聲學(xué)模型和語言模型,以提升語音轉(zhuǎn)寫準(zhǔn)確率。在具體實施過程中,采用識別詞混淆網(wǎng)絡(luò)(Word Confusion Network,WCN)作為文本分類器的輸入,使用WCN中覆蓋的詞而不是只使用語音轉(zhuǎn)寫結(jié)果進行文本分類,提高對識別錯誤的魯棒性。

      2.2 調(diào)度錄音索引及檢索

      目前,在調(diào)度錄音中,同一個錄音記錄了調(diào)控人員和運行人員的全部對話。通過場景分割技術(shù)對兩方通話內(nèi)容進行分離,進而針對性對調(diào)度質(zhì)量分別進行監(jiān)控和分析,以識別問題發(fā)生點及問題內(nèi)容。場景分割,是指對通話錄音中的雙方通話行為進行檢測、切割和分離。經(jīng)過預(yù)處理的調(diào)度錄音經(jīng)過場景分割,再進行下一步的進行索引與檢索。

      語音索引,是指將語音中包含的各類信息進行識別和歸類,并形成方便查詢統(tǒng)計的索過檢測電話錄音的基頻、音高等變化幅度,預(yù)測情緒波動并定位其位置信息,分析出通話錄音的平均語速以及語速變化,檢出通話錄音的靜音時間等,生成標(biāo)準(zhǔn)XML格式的索引文件。索引內(nèi)容包括:

      調(diào)控人員語音和運行人員語音的文字轉(zhuǎn)寫結(jié)果,如果是雙聲道語音,則給出聲道信息(關(guān)鍵詞位于哪個聲道);通話的語音端點、語速等信息,主要包括調(diào)控人員和運行人員各自的每次說話的起止時間、語速(字/秒)、平均語速(字/秒)、異常情緒、靜音時長等。

      語音檢索,是指從索引文件進行關(guān)鍵詞信息的快速篩選,返回語音結(jié)果并進行自動統(tǒng)計。語音檢索,支持邏輯組合檢索、二次檢索等功能。

      在語音檢索應(yīng)用中,通過使用“拉開”、“閉合”、“下令”、“復(fù)誦”等關(guān)鍵字進行檢索,可快速定位與關(guān)鍵字相關(guān)的錄音信息,從而進一步進行人工篩選。

      2.3 調(diào)度錄音模型選取

      在語音分析應(yīng)用中,語音識別效果取決于聲學(xué)模型和語言模型。聲學(xué)模型方面,需要考慮人以及用戶使用環(huán)境對語音的影響,建立了不同口音的聲學(xué)模型和噪音處理的聲學(xué)模型;語言模型方面,結(jié)合電力實際業(yè)務(wù)需要,通過對調(diào)度過程的分析,建立有針對性的業(yè)務(wù)語言模型。

      中文為帶調(diào)的語言,聲學(xué)特征除傳統(tǒng)的MFCC譜特征外,也使用代表調(diào)型的Pitch特征。一般調(diào)型的特征反映在韻母上,即一個韻母因為調(diào)型不同有4個單元??紤]到對于同一個韻母的4個單元,其MFCC特征是沒有差異的;而對于不同韻母的同一個調(diào),其Pitch特征也是很接近的。

      雙流模型:

      采用雙流聲學(xué)模型建模技術(shù),將MFCC和Pitch特征分成兩個流:在Tri-phone決策樹聚類階段,對于聲母部分,每個音素建一棵決策樹;對于韻母部分,在MFCC流同一個音素不同調(diào)建一棵決策樹,在Pitch流同一個調(diào)不同音素建一棵決策樹。這種建模方式,大大降低了帶調(diào)韻母需要的模型復(fù)雜度,也改善聲學(xué)模型的精度。

      區(qū)分性訓(xùn)練:

      在最大似然(Maximum Likelihood,ML)模型訓(xùn)練準(zhǔn)則基礎(chǔ)上,將最小音素錯誤(Minimum Phone Error,MPE)模型訓(xùn)練準(zhǔn)則應(yīng)用于中英文混合雙流聲學(xué)模型的訓(xùn)練,關(guān)鍵在于中英文混合模型MPE訓(xùn)練生成競爭空間時語言模型的選擇。

      訓(xùn)練數(shù)據(jù),分成純中文、純英文、中英文混合3個部分:純中文數(shù)據(jù),采用中文Uni-gram語言模型、純英文數(shù)據(jù)采用英文Uni-gram語言模型;中英文混合數(shù)據(jù),采用中文Uni-gram與英文Uni-gram進行插值后的語言模型,采用3部分?jǐn)?shù)據(jù)進行MPE訓(xùn)練后,聲學(xué)模型的識別率得到顯著提高。

      2.4 調(diào)度錄音聲紋識別模式匹配

      聲紋識別技術(shù)的關(guān)鍵在于對各種聲學(xué)特征參數(shù)進行處理,并確定模式匹配方法[3],主要模式匹配的方法有:概率統(tǒng)計法、動態(tài)時間規(guī)整法(DTW)、矢量量化法(VQ)、隱馬爾可夫模型法(HMM)、人工神經(jīng)網(wǎng)絡(luò)法(ANN)、支持向量機法(SVM)、融合方法等。

      本文旨在高效準(zhǔn)確的匹配出目標(biāo)調(diào)度錄音,并對調(diào)度錄音進行進一步人工分析判斷,因此只要選取合適的模型對原始調(diào)度錄音進行模式匹配,再依靠關(guān)鍵詞檢索成功即可。識別率及關(guān)鍵詞檢索正確率是進行語音分析的根本和核心的前置條件,經(jīng)測試,關(guān)鍵詞檢索正確率約為83%,實際應(yīng)用環(huán)境中智能語音分析應(yīng)用系統(tǒng)具有彈性的置信度策略,可根據(jù)不同的業(yè)務(wù)場景和應(yīng)用需求綜合調(diào)試設(shè)置信度閥值,從而達到最好的應(yīng)用效果。

      3.結(jié)語

      調(diào)度錄音聲紋識別技術(shù)的應(yīng)用,使得調(diào)度錄音在先期處理過程中更加全面、高效、智能、準(zhǔn)確,大幅度提高調(diào)度錄音質(zhì)檢效率和覆蓋面。通過對調(diào)度下令不規(guī)范、用語不真切的不良習(xí)慣不斷進行整改,提升電網(wǎng)調(diào)度下令水平,從而提高電網(wǎng)運行穩(wěn)定性。

      參考文獻

      [1]楊陽,陳永明.聲紋識別技術(shù)及應(yīng)用[J].電聲技術(shù),2007, 31(2):45-47.

      [2]趙力.語音信號處理[M].機械工業(yè)出版社,2003.

      [3]王濤,徐乃平.說話人識別及其應(yīng)用的研究[J].微處理機,1997(4):50-53.

      上高县| 涞源县| 明光市| 攀枝花市| 宜昌市| 海阳市| 云龙县| 台中市| 江孜县| 观塘区| 台中县| 张家川| 武乡县| 鄂托克旗| 南汇区| 北安市| 延寿县| 同江市| 安泽县| 行唐县| 乌鲁木齐市| 宜兰县| 日照市| 阳信县| 牙克石市| 台南市| 东乡县| 武功县| 鹤壁市| 开鲁县| 临夏市| 菏泽市| 清镇市| 海宁市| 阜新| 大余县| 伊通| 沧州市| 龙山县| 同心县| 富阳市|