◆趙愷捷 朱永強 鄭焓 項倩紅
(1.中共杭州市委辦公廳 浙江 310000;2.成都網(wǎng)安科技發(fā)展有限公司 四川 610000;3.杭州市保密技術(shù)測評中心 浙江
310000)
隨著信息化的普及與技術(shù)的發(fā)展,語音信息同傳統(tǒng)的電子文檔一樣,頻繁的成為人與人之間信息傳遞的重要載體。當(dāng)語音信息中包含敏感信息時,由于過失等原因?qū)⑦@類語音信息違規(guī)存儲或拷貝的行為,會給國家保密工作帶來巨大的風(fēng)險。目前,針對電子信息的保密監(jiān)管工作主要針對文本類型及圖像類型的電子文檔,對于語音信息的保密監(jiān)管存在著巨大的缺失,因此有必要設(shè)計與研發(fā)針對語音文件的監(jiān)管系統(tǒng),以保障國家保密信息監(jiān)管工作的多維度與完備性。
目前,對于保密語音監(jiān)管的具體業(yè)務(wù)應(yīng)用技術(shù)研究在國內(nèi)尚屬起步階段,相關(guān)研究與資料較少,而與之有一定相似性的研究工作(如:語音喚醒詞識別)其具體的應(yīng)用場景又與保密語音監(jiān)管的實際應(yīng)用場景有差異,如:喚醒詞識別一般以識別準確率為主,而語音監(jiān)管為了保證監(jiān)管覆蓋率,需優(yōu)先考慮召回率參數(shù)等,因此,針對語音保密監(jiān)管,需以業(yè)務(wù)需求為中心,探討其具體的應(yīng)用方法與技術(shù)手段。
針對語音保密監(jiān)管業(yè)務(wù),由于現(xiàn)階段此類文件在被監(jiān)管環(huán)境中存在基數(shù)較少、單體文件較大的特點,因此現(xiàn)階段的核心,為保證保密監(jiān)管的覆蓋率,即提升算法的召回率,同時綜合利用語音整體信息,對準確率進行修正,由于語音信息保密監(jiān)管的監(jiān)管手段主要是匹配語音中包含的關(guān)鍵詞信息,結(jié)合具體的業(yè)務(wù)環(huán)境,對語音保密的監(jiān)管存在兩種的技術(shù)路線,分別為:
(1)“語音->語音匹配”方式,即直接使用關(guān)鍵詞對應(yīng)的語音信息,對待監(jiān)管的原始語音信息進行匹配。
(2)“語音->文本->文本匹配”方式,即將語音文件轉(zhuǎn)換為文本文件,再用文本關(guān)鍵詞匹配的方式進行匹配。
本文會在后續(xù)章節(jié)討論兩種技術(shù)路線的選型。同時,語音識別技術(shù)作為語音信息保密監(jiān)管的核心技術(shù),也是本論文介紹與討論的重點。
語音識別(Speech Recognition)技術(shù)是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號處理理論、信息論、計算機科學(xué)等眾多學(xué)科緊密相連。
圖1所示為語音識別系統(tǒng)的典型結(jié)構(gòu),語音識別系統(tǒng)的核心主要是圖中的特征提取、聲學(xué)模型、語言模型和解碼器四個部分。
圖1 語音識別系統(tǒng)的基本結(jié)構(gòu)
(1)聲音本質(zhì)為一種波,需先將其轉(zhuǎn)換為計算機可理解與計算的數(shù)字信號形式。信號處理和特征提取部分以語音信號為輸入,通過消除噪聲和信道失真對語音進行增強,將信號從時域轉(zhuǎn)化到頻域,并為后面的聲學(xué)模型提取合適的有代表性的特征向量。
(2)聲學(xué)模型將聲學(xué)和發(fā)音學(xué)的知識進行整合,以特征提取部分生成的特征為輸入,并為可變長特征序列生成聲學(xué)模型分數(shù)。
(3)語言模型通過從訓(xùn)練語料學(xué)習(xí)詞之間的相互關(guān)系,來估計假設(shè)詞序列的可能性,亦即語言模型分數(shù)。如果了解領(lǐng)域或任務(wù)相關(guān)的先驗知識,語言模型分數(shù)通??梢怨烙嫷酶鼫蚀_。
(4)解碼器對給定的特征向量序列和若干假設(shè)詞序列計算聲學(xué)模型分數(shù)和語言模型分數(shù),將總體輸出分數(shù)最高的詞序列當(dāng)做識別結(jié)果。
語音識別的核心步驟包括特征提取與解碼器兩部分,其中解碼器部分的核心為語音識別模型,具體包含聲學(xué)模型與語言模型。
2.2.1 特征提取
特征提取主要包含以下步驟:
(1)信號分幀,對語音信號進行分段,每小段稱為一幀,一幀信號長度通常為20-50ms;
(2)獲取幀信號頻譜,對幀信號做傅里葉變換,得到幀信號的頻譜;
(3)幀信號濾波與壓縮處理,對幀信號進行三角濾波,并對濾波器組輸出做對數(shù)變換或者離散余弦變換,將其壓縮為一個13維的特征向量。
2.2.2 解碼器
語音信息經(jīng)特征提取后,可將其理解為由原文本經(jīng)過發(fā)音編碼后得到的編碼序列,而語音識別的過程即為對此序列進行解碼,解碼器的核心為聲學(xué)模型與語言模型。
(1)解碼器的聲學(xué)模型
聲學(xué)模型是語音識別解碼器的核心與難點,隨著技術(shù)的發(fā)展,聲學(xué)模型共經(jīng)歷過三代技術(shù)框架,每個階段都有其代表性的算法模型,代表模型包括DTW模型、GMM-HMM模型與DNN-HMM模型。
(2)解碼器的語言模型
解碼器的語言模型用于計算P(W)部分,具體來說,它計算的是一個詞序列是正確而完整的句子的概率,相比于聲學(xué)模型,語言模型比較容易訓(xùn)練與計算,且有著大量的可訓(xùn)練素材,語言模型又分為一元模型、二元模型與多元模型等。
語音信息保密監(jiān)管使用關(guān)鍵詞匹配的方式對語音進行內(nèi)容匹配及后續(xù)處理。
針對語音文件中的語音關(guān)鍵詞進行匹配,主要有以下兩種方法:
(1)語音中直接處理
即直接將待監(jiān)管語音文件與監(jiān)管使用的報警關(guān)鍵詞語音進行比對。
此方法的優(yōu)點為:
●不需要對語音文件進行額外處理,方法簡單。
此方法的缺點為:
●語音局部匹配即預(yù)警,無法利用語音的完整信息對探針匹配進行修正;
●因為人的語氣語調(diào)及地方方言差異很大,單一關(guān)鍵詞發(fā)音輸入直接匹配很容易產(chǎn)生誤報;
●報警后不易進行后續(xù)處理,后續(xù)對被報警文件的檢查確認不直觀,時間代價較大;
●存在匹配誤差,導(dǎo)致漏報或虛警。
(2)語音轉(zhuǎn)文字后再匹配
即通過語音識別技術(shù),將語音文件轉(zhuǎn)換為文本文件后,再對文本文件進行匹配。
此方法的優(yōu)點為:
●可以更好利用上下文及全文整體信息,提升關(guān)鍵詞預(yù)警的準確性;
●可以更直觀的進行預(yù)警后處理,后續(xù)處理效率更高;
●更容易實現(xiàn)信息的邊界劃分,降低誤報概率。
此方法的缺點為:
●存在集外詞問題,即由于匹配關(guān)鍵詞不存在于語音識別框架的語言模型中,導(dǎo)致此類詞的匹配永遠不會發(fā)生;
●轉(zhuǎn)換誤差問題,雖然目前語音識別技術(shù)得到了很大的提升,但仍存在轉(zhuǎn)換誤識別的問題,導(dǎo)致虛警或漏報。
根據(jù)保密監(jiān)管工作的實際情況(難于構(gòu)造關(guān)鍵詞發(fā)音庫、需對內(nèi)容進行整體性判斷、預(yù)警后需進行相應(yīng)的后續(xù)監(jiān)管工作)以及兩種方法的優(yōu)缺點對比,本文認為,選擇語音轉(zhuǎn)文字后對文字進行監(jiān)管分析的方法是更為優(yōu)秀與合理的方法,下文便基于語音轉(zhuǎn)文字的監(jiān)管方法,討論此方法的具體實現(xiàn)以及其應(yīng)用于保密監(jiān)管工作中的特定性優(yōu)化與改良設(shè)計。
基于前文分析,本小節(jié)將語音識別技術(shù)與語音信息保密監(jiān)管的具體工作和實際需求進行結(jié)合,設(shè)計了一種基于語音識別技術(shù)的語音信息保密監(jiān)管整體算法,并以此算法為核心,完善整個語音信息保密監(jiān)管技術(shù)流程。
通過歸納與總結(jié),本文認為語音信息保密監(jiān)管技術(shù)主要需解決以下四個核心問題:
問題一:大規(guī)模連續(xù)語音識別,即將待監(jiān)管的語音文件轉(zhuǎn)換為連續(xù)的文本文件,是整個系統(tǒng)實現(xiàn)依賴的基礎(chǔ)數(shù)據(jù)處理方法;
問題二:提升召回率,由于語音監(jiān)管的特殊性,召回率應(yīng)作為監(jiān)管系統(tǒng)的主要指標,其中語音監(jiān)管的召回率低主要是由于語音轉(zhuǎn)換錯誤及集外詞等原因而導(dǎo)致的報警關(guān)鍵詞未能匹配問題;
問題三:提升召回率導(dǎo)致的準確率下降問題,即用于提升召回率的技術(shù)處理方法會產(chǎn)生的額外的準確率下降問題;
問題四:監(jiān)管報警之后的文本后處理工作,對語音文件的內(nèi)容監(jiān)管不如對文本內(nèi)容進行監(jiān)管直觀,同時,由于大規(guī)模連續(xù)語音識別過程中產(chǎn)生的噪聲與誤差,即使是語音轉(zhuǎn)換后的文本內(nèi)容,也同樣存在著不直觀與可讀性下降的問題。
對于問題一,可通過開源框架或基于其進行二次開發(fā)實現(xiàn)。
對于問題二與問題三,本文提出了一種基于同音詞典與類別置信度的語音關(guān)鍵詞識別算法。
對于問題四,可通過對語音轉(zhuǎn)文本內(nèi)容進行各類分析處理,如LDA主題分析、自動摘要提取等方法。
即將待監(jiān)管的語音文件轉(zhuǎn)換為文本文件,目前此部分技術(shù)領(lǐng)域的技術(shù)與開源框架相對比較成熟,可采用開源框架或基于開源框架二次開發(fā)對其進行直接實現(xiàn)。
部分可使用的代表語音識別開源框架包括wav2letter++、Kaldi、CMUSphinx等。
語音監(jiān)管的特殊性決定了召回率是非常重要的參數(shù),在實際監(jiān)管中,由于潛在的關(guān)鍵詞可能被大規(guī)模連續(xù)語音識別算法識別為其他詞(最常見的場景是同音詞),導(dǎo)致包含關(guān)鍵詞的語音文件無法被正常召回報警,針對此情況,本文提出了一種基于同音詞典與類別置信度的語音關(guān)鍵詞識別算法,其核心思想為:
(1)通過同音詞擴展。將單個關(guān)鍵詞擴展為一組同音詞依次匹配,以提升召回率,防止同音詞轉(zhuǎn)換錯誤產(chǎn)生的報警關(guān)鍵詞無法正確匹配;
(2)發(fā)生同音匹配后,通過計算原關(guān)鍵詞與目標匹配文本的類別置信度,判斷同音匹配的準確性。
4.2.1 正常匹配執(zhí)行
使用原關(guān)鍵詞對語音轉(zhuǎn)換后的目標文本進行匹配,如發(fā)生匹配則返回匹配結(jié)果,如未匹配,則進行后續(xù)的同音詞擴展匹配與類別置信度計算。
4.2.2 同音詞擴展匹配
基于同音詞詞典,對指定語音關(guān)鍵詞進行同音詞擴展,以得到指定語音關(guān)鍵詞的同音詞組,將同音詞組作為多模式串,對目標文本進行多模式匹配。若各模式串均匹配失敗,則認為語音數(shù)據(jù)中沒有包含指定的關(guān)鍵詞,直接返回結(jié)果;若任一模式串匹配成功,則進行具體的匹配置信度計算過程。
對于同音詞擴展匹配,如指定語音關(guān)鍵詞“助手”的同音詞有“住手”、“駐守”等,指定語音關(guān)鍵詞“他們”的同音詞有“它們”、“她們”等,則“助手”的同音詞組為 {“住手”,“駐守”,… },“他們”的同音詞組為{“她們”,“它們”,… }。
具體上述所述多模式匹配可采用如AC自動機等算法。
4.2.3 類別置信度計算
其中,V表示文本語料中文本的總數(shù),A表示屬于i文本類別且包含指定語音關(guān)鍵詞k的文本數(shù)量,B表示不屬于i文本類別但包含指定語音關(guān)鍵詞k的文本數(shù)量,C表示屬于i文本類別但不包含指定語音關(guān)鍵詞k的文本數(shù)量,D表示既不屬于i文本類別也不包含指定語音關(guān)鍵詞k的文本數(shù)量,x2(k,i)表示指定語音關(guān)鍵詞k對i文本類別的卡方統(tǒng)計值。
對上述相關(guān)性向量r進行softmax歸一化,以得到指定語音關(guān)鍵詞關(guān)于預(yù)設(shè)各個類的歸一化相關(guān)性向量n,計算所述類別向量c與所述歸一化相關(guān)性向量n的余弦相似度,作為指定語音關(guān)鍵詞與目標文本的類別置信度。
所述softmax歸一化具體計算方式如下:
所述類別置信度具體計算方式如下:
設(shè)置類別置信度閾值T,若所述類別置信度m大于等于所述閾值T,則認為語音數(shù)據(jù)中包含指定的語音關(guān)鍵詞,返回匹配結(jié)果;若所述類別置信度T小于所述閾值m,則認為語音數(shù)據(jù)中沒有包含指定的語音關(guān)鍵詞,發(fā)生的同音詞匹配為誤匹配。
通過大規(guī)模連續(xù)語音識別技術(shù)將語音信息轉(zhuǎn)換為文字信息后,除使用文中提出的改良監(jiān)管匹配算法對轉(zhuǎn)換文本進行關(guān)鍵詞匹配監(jiān)管外,還可使用其他面向文本的分析技術(shù),對轉(zhuǎn)換后文字進行更深入分析,以增強監(jiān)管內(nèi)容的可讀性,提升監(jiān)管效率,可使用的方法包括:LDA主題分析技術(shù)、自動摘要技術(shù)等。
本文主要探討的是面向語音監(jiān)管具體業(yè)務(wù)需求和業(yè)務(wù)特點下的語音信息監(jiān)管技術(shù)方法,基于具體的語音保密監(jiān)管業(yè)務(wù),提出了一種針對語音監(jiān)管的基于同音詞典與類別置信度的語音關(guān)鍵詞識別算法,以滿足當(dāng)前語音保密技術(shù)監(jiān)管的具體業(yè)務(wù)場景需求,為語音保密監(jiān)管技術(shù)的下一步研究提供相應(yīng)的理論基礎(chǔ)與參考。