摘要:隨著電網(wǎng)設(shè)備規(guī)模的不斷擴大,設(shè)備管理系統(tǒng)應用需求也不斷地增長。針對傳統(tǒng)人工管理效率低的問題,提出融合語音技術(shù)與聲紋認證的電力通信設(shè)備管理系統(tǒng)。首先,構(gòu)建面向電力通信設(shè)備詞匯的語音語料庫和聲學詞表;然后,采用深度神經(jīng)網(wǎng)絡——隱馬爾可夫模型(DNN-HMM)識別語音;最后,結(jié)合聲紋認證技術(shù),對操作人員的身份進行識別。該系統(tǒng)實現(xiàn)了從手動向語音智能交互操作的轉(zhuǎn)變,使設(shè)備管理系統(tǒng)更加高效安全。
關(guān)鍵詞:智能電網(wǎng);設(shè)備管理系統(tǒng);語音交互;聲紋認證;語音語料庫;聲學詞表;DNN-HMM
中圖分類號:TN912.3文獻標志碼:A 文章編號:1674-2605(2023)06-0008-06
DOI:10.3969/j.issn.1674-2605.2023.06.008
Power Communication Equipment Management System Integrating Voice Technology and Voiceprint Authentication
ZHENG Xuqi
(Jieyang Power Supply Bureau of Guangdong Power Grid Corporation, Jieyang 522000, China)
Abstract: With the continuous expansion of power grid equipment, the demand for equipment management system applications is also constantly increasing. Aiming at the problem of low efficiency in traditional manual management, a power communication equipment management system integrating voice technology and voiceprint authentication is proposed. Firstly, build a voice corpus and acoustic vocabulary for power communication equipment vocabulary; Then, deep neural network-hidden Markov model (DNN-HMM) is used to recognize voice; Finally, combined with voiceprint authentication technology, the operator's identity is identified. The system has achieved a transition from manual to voice intelligent interactive operations, making the device management system more efficient and secure.
Keywords:smart grid; equipment management system; voice interaction; voiceprint certification; voice corpus; acoustic vocabulary; DNN-HMM
0 引言
隨著中國經(jīng)濟的快速發(fā)展,電力資源的需求也日益增長,建設(shè)統(tǒng)一而高效的智能電網(wǎng)成為中國電網(wǎng)發(fā)展的重要方向[1-3]。電力通信設(shè)備管理系統(tǒng)是智能電網(wǎng)的核心,現(xiàn)有的管理方式依賴于人工記錄和手動操作。在面對龐大的設(shè)備數(shù)量和復雜的操作流程時,人工管理方式存在效率低和耗時長等問題。隨著電網(wǎng)安全化和智能化的需求越來越高,語音人機交互成為關(guān)鍵技術(shù)之一[4]。
目前,深度學習在語音識別領(lǐng)域已取得顯著成果,使語音識別系統(tǒng)的性能不斷提升,為人機交互、自然語言處理等技術(shù)帶來許多創(chuàng)新應用[5-7]。文獻[8]提出一種基于深度神經(jīng)網(wǎng)絡(deep neural networks,DNN)的電力系統(tǒng)調(diào)控語音識別方法,并能對四川方言進行訓練優(yōu)化。文獻[9]提出一種基于DNN的電力調(diào)度語音識別方法,針對電力調(diào)度領(lǐng)域建立語音語料庫,應用DNN和隱馬爾可夫模型(hidden Markov model,HMM)進行聲學模型訓練,實現(xiàn)端點檢測、語音轉(zhuǎn)文字等功能。文獻[10]探討了基于長短時記憶(long short-term memory, LSTM)神經(jīng)網(wǎng)絡的聲紋識別方法,將語譜圖作為聲紋特征表達形式輸入到LSTM模型進行訓練,實現(xiàn)聲紋個性特征的識別。目前相關(guān)研究主要集中在電力調(diào)度領(lǐng)域的語音識別方法,而將這些方法應用于電力通信設(shè)備管理系統(tǒng)的研究較少??紤]到電力通信設(shè)備管理系統(tǒng)信息的安全性,需要構(gòu)建電力通信設(shè)備詞匯的語料庫,建立與系統(tǒng)相應的語言模型,并融合聲紋認證技術(shù)提高系統(tǒng)的安全性。
因此,本文提出一種融合語音技術(shù)與聲紋認證的電力通信設(shè)備管理系統(tǒng)。通過構(gòu)建DNN-HMM,實現(xiàn)電力通信設(shè)備詞匯以及設(shè)備操作指令的準確識別;結(jié)合聲紋認證技術(shù),采用梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)特征提取和高斯混合模型(Gaussian mixture model, GMM),實現(xiàn)用戶身份的驗證,避免非授權(quán)人員誤操作,提高系統(tǒng)的效率和安全性。
1 系統(tǒng)框架
融合語音技術(shù)與聲紋認證的電力通信設(shè)備管理系統(tǒng)主要包括語音識別子系統(tǒng)、聲紋識別子系統(tǒng)和系統(tǒng)交互過程,系統(tǒng)框圖如圖1所示。
語音識別子系統(tǒng)負責識別語音指令;聲紋識別子系統(tǒng)用于識別操作人員的身份;在系統(tǒng)交互過程中,管理員通過聲紋驗證登錄系統(tǒng),利用語音識別技術(shù)對設(shè)備進行管理,兩個子系統(tǒng)相互協(xié)作,提高了電力通信設(shè)備管理系統(tǒng)的智能化和安全性。
1.1 語音識別子系統(tǒng)
語音識別子系統(tǒng)主要包括信號預處理、特征提取、模型網(wǎng)絡(包括聲學模型、語言模型和聲學詞表)、解碼與后處理4個部分。
信號預處理:去除語音信號中的噪音和干擾,并將語音信號分割成小幀,以便后續(xù)處理。
特征提?。豪肕FCC從語音信號中提取數(shù)值特征,用于捕捉頻譜特征,區(qū)分不同的音素。
模型網(wǎng)絡:聲學模型將語音特征與語音單元關(guān)聯(lián);語言模型建模語言結(jié)構(gòu);聲學詞表提供唯一標識符。
解碼與后處理:結(jié)合聲學模型和語言模型的輸出,選擇最可能的識別結(jié)果,進行后處理以提高系統(tǒng)識別的準確性。
語音識別原理如圖2所示。
1.2 聲紋識別子系統(tǒng)
聲紋識別子系統(tǒng)主要包括語音預處理、特征提取、模型訓練和聲紋匹配,其基本原理是通過提取語音信號的聲學特征,建立特征數(shù)據(jù)庫,再通過匹配算法對語音進行識別。
語音預處理:對語音樣本進行濾波、去噪、剪切語音片段等處理,提高語音信號的質(zhì)量。
特征提取:利用線性預測系數(shù)(linear prediction coefficients,LPC)、倒譜系數(shù)(Cepstrum)、MFCC等方法從預處理后的語音樣本中提取能夠代表個人聲音特點的聲紋特征參數(shù)。
模型訓練:利用提取的聲紋特征參數(shù),訓練GMM聲紋模型。假設(shè)一個人的語音由M個高斯分布混合生成,其概率密度函數(shù)為
通過以上步驟,聲紋識別子系統(tǒng)可以識別說話人的身份。
2 語音識別子系統(tǒng)模型網(wǎng)絡構(gòu)建
2.1" 語料庫建立
語料庫對提升語音識別準確性和語義理解至關(guān)重要[11]。語音識別子系統(tǒng)中的聲學模型和語言模型訓練都基于語料庫。語料庫構(gòu)成圖如圖3所示。
電力通信設(shè)備管理系統(tǒng)的語料庫通過5位(2男3女)專業(yè)語音錄入人員錄入,每位人員錄入音頻數(shù)據(jù)1 000段,共錄入5 000段。將這些音頻數(shù)據(jù)劃分為訓練集、驗證集和測試集。其中,訓練集包括3 500段音頻數(shù)據(jù),用于訓練聲學模型;驗證集包括750段音頻數(shù)據(jù),用于評估DNN-HMM的訓練效果和調(diào)整參數(shù);測試集包括750段音頻數(shù)據(jù),用于測試DNN-HMM的語音識別性能。音頻數(shù)據(jù)參數(shù)設(shè)置如表1所示。
2.2" 聲學詞表建立
待測音頻數(shù)據(jù)輸入聲學模型會將聲音信號轉(zhuǎn)為音素,輸入語言模型會將音素轉(zhuǎn)為文本。聲學詞表是連接聲學模型和語言模型的橋梁,它包含了一系列音素與文本之間的映射,使聲學模型能夠?qū)⒙曇粜畔⑥D(zhuǎn)化為可被語言模型理解的文本形式。如當輸入音頻數(shù)據(jù)“你好”時,其中文拼音是“ni3 hao3”,經(jīng)聲學模型處理后其音素為“‘n’ ‘i3’‘h’ ‘a(chǎn)o3’”,通過聲學詞表對應的音素轉(zhuǎn)化為語言模型文本,即識別出“你好”,而不是同音詞“擬好”。聲學詞表確保了聲學模型和語言模型之間的有效溝通,實現(xiàn)語音識別的準確性和可靠性。
為了滿足電力通信設(shè)備管理系統(tǒng)的語言搜索功能,需要創(chuàng)建一個專用的聲學詞表,以確保系統(tǒng)能夠準確理解用戶的需求。首先,準備與電力通信設(shè)備管理系統(tǒng)相關(guān)的查詢操作語句,并根據(jù)語法結(jié)構(gòu)進行分詞;然后,根據(jù)清華音素集數(shù)據(jù)庫,獲得每個詞的音素和拼音信息;最后,將音素與拼音相匹配,構(gòu)建完整的聲學詞表。聲學詞表文本格式如圖4所示。
2.3 DNN-HMM構(gòu)建
DNN是典型的前饋神經(jīng)網(wǎng)絡,通常包括輸入層、隱藏層和輸出層3部分[12]。在DNN-HMM中,輸入層輸入的聲學特征(如MFCC或聲譜圖)表示為向量x;隱藏層包含多個神經(jīng)元,其輸出可以表示為隱藏層的激活向量h:
DNN-HMM建模流程如下:
1)采用基于FFT的濾波器組提取39維的MFCC特征,輸入到DNN模型的特征維度為39×11=429;
2) DNN模型包含1個輸入層,3個隱藏層和1個輸出層,輸入層節(jié)點數(shù)為429個,對應語音特征向量的維度;3個隱藏層節(jié)點數(shù)均為1024個;輸出層節(jié)點數(shù)為1592個,對應HMM的狀態(tài)數(shù);
3) DNN采用ReLU激活函數(shù),結(jié)合自適應矩估計(adaptive moment estimation,Adam)優(yōu)化算法,提高模型的訓練效率,訓練過程利用dropout正則化,并采用“早停法”防止過擬合;
4) DNN預訓練迭代100輪后,將參數(shù)轉(zhuǎn)移到DNN-HMM,采用Baum-Welch算法估計HMM參數(shù),再使用EM算法優(yōu)化,再迭代300輪獲得最終DNN-HMM。
2.4 結(jié)果分析
利用詞錯率(word error rate, WER)來評估DNN-HMM的性能。DNN、HMM、DNN-HMM 3種模型的詞錯率對比如表2所示。
在測試集上,DNN-HMM的WER為19.23%,優(yōu)于DNN模型(22.31%)和HMM(32.05%),表明DNN-HMM能有效提取語音特征;利用HMM對語言時間序列進行建模,不僅提高了對電力通信設(shè)備名稱的識別準確率,還能識別各種設(shè)備操作指令,實現(xiàn)了語音交互控制。
3 聲紋識別子系統(tǒng)模型構(gòu)建
3.1" 聲紋識別建模
聲紋識別可以分為說話人辨認和說話人確認2種類型。說話人辨認是從一群人中確定某個測試語音屬于某個人,說話人確認則是驗證測試語音是否屬于某一特定人[13]。
實驗中,從50位用戶中隨機選取10位作為管理員進行注冊。這10位管理員錄制20個語音樣本,用于Enrollment模型訓練。聲紋識別子系統(tǒng)模型構(gòu)建流程圖如圖6所示。
聲紋識別子系統(tǒng)模型構(gòu)建主要分為4個步驟:
1)語音預處理:對錄入的語音樣本進行預處理,包括降噪/去直流等,提高后續(xù)處理效果;
2)聲學特征提取:通過對語音樣本進行預加重、分幀、加窗、FFT等處理提取MFCC特征;
3) GMM訓練:使用提取的MFCC特征,利用EM算法訓練GMM,提取聲紋信息,獲得GMM聲紋模型,假設(shè)一個人的語音由M個高斯分布混合生成,其概率密度函數(shù)如公式(1)所示;
4)聲紋驗證:輸入測試語音的MFCC特征,計算與訓練集中Enrollment模型的似然值評分,如公式(2)所示,若評分高于設(shè)定閾值,則表明測試語音與指定用戶吻合,實現(xiàn)聲紋驗證。
通過聲紋識別后,系統(tǒng)接受來自該用戶的設(shè)備操作指令,從而保證系統(tǒng)操作的安全性。
3.2" 測試結(jié)果及分析
在測試階段,隨機選取5位管理員,各采集10段語音樣本進行測試。對于10位測試用戶的語音樣本,系統(tǒng)能夠正確識別出所有的管理員,假冒用戶的誤識別率為8%。管理員的平均識別準確率達到96%,驗證了基于MFCC和GMM的聲紋識別技術(shù)的有效性。管理員的語音樣本驗證評分明顯高于閾值,而假冒用戶的語音樣本驗證評分低于閾值,對于少量邊界樣本會出現(xiàn)誤識別的情況。測試驗證了基于MFCC特征和GMM的聲紋識別技術(shù),能夠有效提取個人聲紋信息,進行用戶識別和驗證,提高系統(tǒng)的安全性。
4 系統(tǒng)功能實現(xiàn)與測試
4.1" 系統(tǒng)總體實現(xiàn)技術(shù)
電力通信設(shè)備管理系統(tǒng)界面如圖7所示。
在設(shè)備管理界面,用戶可通過鍵盤輸入設(shè)備信息,如設(shè)備名稱、單號和管理員,查找設(shè)備的運行情況;還可通過語音搜索功能,直接使用麥克風錄入語音指令,查詢某設(shè)備的信息狀態(tài),系統(tǒng)通過語音識別技術(shù)將語音指令轉(zhuǎn)化為文本,然后根據(jù)文本內(nèi)容進行相關(guān)設(shè)備查詢。
系統(tǒng)可以通過聲紋識別進行登錄,如圖8所示。
用戶使用聲紋識別登錄時,只需點擊語音登錄按鈕,根據(jù)界面的提示,需要跟讀特定的信息內(nèi)容(本文采用一串數(shù)字信息)。系統(tǒng)通過聲紋識別技術(shù)驗證用戶的聲音特征,并將其與預先注冊的聲紋特征進行比對,判斷該語音是否與系統(tǒng)錄入的身份一致。若驗證成功,則用戶可進入設(shè)備管理系統(tǒng)界面。
4.2 語音搜索功能
在設(shè)備管理系統(tǒng)界面點擊“語音搜索”,即可實現(xiàn)語音交互效果。用戶說出具體指令,如“查詢單號0089整流屏”,麥克風采集語音信號后,通過語言模型識別成指令,根據(jù)文本查詢語句,系統(tǒng)會匹配關(guān)鍵信息“單號”“0089”“整流屏”,通過設(shè)備數(shù)據(jù)庫查找對應的設(shè)備,獲取設(shè)備信息界面。語音搜索界面和搜索結(jié)果分別如圖9和圖10所示。
5 結(jié)論
本文研究了語音識別技術(shù)及聲紋識別技術(shù)在電力通信設(shè)備管理系統(tǒng)中的應用。在語音識別部分,構(gòu)建了針對電力通信行業(yè)詞匯的語料庫和聲學模型,實現(xiàn)了語音指令的識別轉(zhuǎn)換。在聲紋識別部分,采用MFCC特征提取和GMM訓練,實現(xiàn)了對指定用戶的聲紋驗證,提高系統(tǒng)操作的安全性。
測試結(jié)果顯示:語言識別模型能夠理解語音指令,實現(xiàn)設(shè)備搜索功能,提高設(shè)備管理的效率;聲紋驗證能有效識別注冊用戶,為系統(tǒng)訪問提供安全保障。
參考文獻
[1] 張瑤,王傲寒,張宏.中國智能電網(wǎng)發(fā)展綜述[J].電力系統(tǒng)保護與控制,2021,49(5):180187.
[2] 潘磊,沈雪晴,黃文雯,等.基于云網(wǎng)協(xié)同的智能電網(wǎng)管理體系及應用分析[J].中國測試,2022,48(S1):211-217.
[3] 戴誠,梁詩晨,肖靜薇,等.多徑成型因子在智能電網(wǎng)認知無線電信道干擾分析中的應用(英文)[J].機床與液壓,2018,46(6):60-66.
[4]張四維,武永泉,秦濤,等.面向電力線路巡檢的語音指令識別系統(tǒng)研究和應用[J].信息化研究,2021,47(5):6-12.
[5]劉文舉,聶帥,梁山,等.基于深度學習語音分離技術(shù)的研究現(xiàn)狀與進展[J].自動化學報,2016,42(6):819-833.
[6]顧亞文.人工智能深度學習背景下語音識別方法研究[J].軟件,2022,43(5):122-124.
[7]王家,龍冬梅.深度學習在語音識別中的應用綜述[J].電腦知識與技術(shù),2020,16(34):191-192;197.
[8]胡翔,楊洋,蔣長江,等.一種基于深度神經(jīng)網(wǎng)絡的電力系統(tǒng)調(diào)度控制語音識別模型[J].電子器件,2023,46(1):90-95.
[9]竇建中,羅深增,金勇,等.基于深度神經(jīng)網(wǎng)絡的電力調(diào)度語音識別研究及應用[J].湖北電力,2019,43(3):16-22.
[10]劉曉璇,季怡,劉純平.基于LSTM神經(jīng)網(wǎng)絡的聲紋識別[J].計算機科學,2021,48(S2):270-274.
[11]單連飛,張越.電網(wǎng)調(diào)度專業(yè)語料庫構(gòu)建方法研究及應用[J].機械與電子,2022,40(4):73-76;80.
[12]賈嘉敏,程振,潘文林,等.基于DNN-HMM的佤語語音聲學建模[J].計算機時代,2022(8):61-64;68.
[13]張振國.面向個性化隱私保護的聲紋生成方法研究[D].廣州:廣州大學,2023.
作者簡介:
鄭旭琪,男,1987年生,研究生,工程師,主要研究方向:電力通信。E-mail:zxq20060909@163.com