摘要:電話錄音系統(tǒng)廣泛應用于電力通信中,它在調(diào)度語音下達的過程中起著重要的作用。然而傳統(tǒng)的錄音系統(tǒng)存在占地面積過大、查詢錄音信息不方便等問題,鑒于此,運用深度神經(jīng)網(wǎng)絡-隱馬爾可夫模型(DNN-HMM模型),基于樹莓派設計了一種電話錄音系統(tǒng),通過特征提取等方式識別語音并進行錄音,錄音完成后可以通過電腦、手機等終端方便快捷地查看錄音以及語音對應的文字版文件。
關鍵詞:樹莓派;語音識別;深度神經(jīng)網(wǎng)絡
中圖分類號:TN912 " "文獻標志碼:A " "文章編號:1671-0797(2023)02-0046-03
DOI:10.19514/j.cnki.cn32-1628/tm.2023.02.013
0 " "引言
根據(jù)南方電網(wǎng)調(diào)度規(guī)范的要求,500 kV變電站應配置錄音系統(tǒng),調(diào)度機構(gòu)應實現(xiàn)錄音系統(tǒng)的雙重化配置。準確可靠的原始錄音能為事件處理提供可靠的證據(jù),防止出現(xiàn)糾紛。
目前局內(nèi)變電站通信室空間狹小,機柜位置緊張,然而站內(nèi)的電話錄音系統(tǒng)設備體積龐大,占據(jù)了大量的空間。同時,目前電話錄音系統(tǒng)普遍存在錄音音質(zhì)較差,查詢和檢索煩瑣復雜的問題,不利于長期存儲和管理,難以對分布于不同區(qū)域的電話進行遠程錄音監(jiān)聽。按規(guī)范要求,調(diào)度錄音應保存至少6個月,電話錄音內(nèi)容可用于安全監(jiān)管,是判定責任糾紛的重要依據(jù),對提高公司服務質(zhì)量、增強競爭實力等具有重要意義。但現(xiàn)有的錄音方式相對落后,無法滿足以上要求。樹莓派相對于其他的載體價格更低,但計算能力強大,具有很高的性價比。搭建基于樹莓派的電話錄音系統(tǒng),可以解決傳統(tǒng)錄音系統(tǒng)體積龐大的缺陷,節(jié)約機房內(nèi)部可利用空間,實現(xiàn)語音文字高識別轉(zhuǎn)化,保存?zhèn)鬏敺奖?;同時,該系統(tǒng)支持多端口輸入,具備強大的兼容性與可拓展性。
1 " "基于樹莓派的電話錄音系統(tǒng)簡介及優(yōu)勢
使用基于樹莓派的電話錄音系統(tǒng),可解決傳統(tǒng)錄音系統(tǒng)體積龐大的缺陷,充分利用機房空間,滿足多通道錄音的要求,具備強大的兼容性與可拓展性,同時能改善錄音質(zhì)量,提高自動化程度,降低操作的復雜度,方便用戶運維系統(tǒng)。
1.1 " "設備小型化
最初,樹莓派是由基于Atmel的ATmega644單片機制成的,它采用ARM處理器,與傳統(tǒng)芯片相比具有更高的性能。它的外形只有信用卡大小,以SD/MicroSD卡為內(nèi)存硬盤,具有HDMI等多種接口,具備個人計算機的基本功能,可以實現(xiàn)錄音設備的小型化[1]。樹莓派采用Linux操作系統(tǒng),代碼采用Linux系統(tǒng)下的Python語言,功能強大,操作方便?;跇漭傻男滦弯浺粝到y(tǒng)可以節(jié)省機房空間,提高機房空間的利用效率。
1.2 " "系統(tǒng)安全性高
系統(tǒng)權(quán)限管理制度嚴格,根據(jù)用戶權(quán)限不同劃分不同的操作權(quán)限,系統(tǒng)通過加密的并網(wǎng)權(quán)限,滿足錄音電話的保密要求,保障了網(wǎng)絡安全。
1.3 " "用戶界面更友好
基于樹莓派的電話錄音系統(tǒng)用戶界面友好,采用圖形化操作界面,可以查看錄音記錄及語音對應的文字記錄,可以實時顯示不同錄音通道所處的工作狀態(tài),可以方便快捷地查找信息,界面具有提示和在線幫助機制,可以幫助用戶快速了解系統(tǒng)的使用方法,降低操作難度。本系統(tǒng)是基于Web開發(fā)的操作系統(tǒng),不需要PC也可以登錄,操作更加便捷。
2 " "基于樹莓派的電話錄音系統(tǒng)設計與實現(xiàn)
2.1 " "體系結(jié)構(gòu)
本系統(tǒng)是基于Web開發(fā)的操作系統(tǒng),其中采用B/S架構(gòu)開發(fā)的Web操作層為用戶交互層,用戶通過瀏覽器直接訪問系統(tǒng)進行相關操作;設備交互層通過串口連接UWB定位設備,根據(jù)電子圍欄的位置關系進行數(shù)據(jù)處理入庫。
系統(tǒng)總體架構(gòu)如表1所示。
語音識別模塊可以將完成特征提取的原始語音信號轉(zhuǎn)化為相應的特征向量,配合聲學模型、語音字典和語音模型得到識別結(jié)果[2]。語音特征提取模塊可以識別語音上有用的特征,排除說話人性別、年齡、說話習慣和錄音條件等不同引起的變化的影響,避免噪聲干擾。語音識別系統(tǒng)如圖1所示。
語音識別系統(tǒng)由特征提取、聲學模型、發(fā)音字典、語言模型和解碼器5個部分組成[1],語言識別通常使用隱馬爾可夫模型,根據(jù)語音信號推斷對應的文字,語音的特征序列為O1T={o1,o2,…,oT};語言模型P(W)代表特定詞序出現(xiàn)的先驗概率;聲學模型P(O1T|W)代表當給定詞序為W時,輸出聲學特征O1T的概率,根據(jù)最大后驗概率,詞序列如下:
聲學特征O1T的概率P(O1T)與詞序W無關,可以忽略不計,所以式(1)可表示為:
馬爾可夫性表示現(xiàn)在決定未來狀態(tài)。馬爾可夫鏈描述了時刻(t-1)決定當前時刻t的狀態(tài)概率分布。隱馬爾可夫模型在此基礎上引入了隱狀態(tài)的概念,它只與當前的狀態(tài)有關。
確定馬爾可夫狀態(tài),需要確定以下5個參數(shù):狀態(tài)空間Ω={si},i=1,2,k,N;初始狀態(tài)的概率分布π=πi;狀態(tài)轉(zhuǎn)移概率矩陣A=[aij],i=1,2,k,N;觀測序列O={oi};狀態(tài)輸出概率B={bi(ok)}。其中,bi(ok)表示狀態(tài)i發(fā)生觀測到輸出語音特征ok的概率;aij表示從狀態(tài)si到sj的轉(zhuǎn)移概率;πi表示狀態(tài)si的初始概率分布。
特征提取模塊將輸入語音轉(zhuǎn)換為可用于模型訓練的特征矢量,梅爾頻率倒譜系數(shù)MFCC是語音識別中常用的特征。首先對語音信號進行分幀、加窗,把語音信號切分為語音片段,一幀語音片段的長度為10~30 ms。由于直接截斷語音信號會造成頻譜泄漏,因此需對每幀數(shù)據(jù)做加窗處理,選擇漢寧窗、漢明窗等合適的窗函數(shù)減輕影響。之后通過傅里葉變換將幀信號從時域轉(zhuǎn)換到頻域分析,傅里葉變換公式如下:
式中:Sa為加窗后第a幀語音信號;Sa(k)為對應的傅里葉變換后的語音信號;n為時間變量;k為常數(shù);N為整數(shù),表示幀長。
然后計算Mel子帶對數(shù)能量Em,通過離散余弦變換DCT轉(zhuǎn)換到DCT域,得到MFCC特征向量,DCT變換公式如下:
式中:C(n)為特征值;M為Mel濾波器中濾波器的數(shù)量;m為時間變量;L為整數(shù),表示MFCC系數(shù)階數(shù)。
MFCC提取過程如圖2所示。
采用隱馬爾可夫模型進行聲學建模,使用高斯混合模型-隱馬爾可夫模型(GMM-HMM)做模型訓練,進行數(shù)據(jù)對齊,狀態(tài)輸出概率bi(k)表示狀態(tài)si的條件下輸出語音特征ok的概率。之后以此作為訓練深層神經(jīng)網(wǎng)絡DNN模型的標準,用DNN模型替換GMM模型,計算觀察概率,保留轉(zhuǎn)移概率和初始概率等其他部分,估算HMM狀態(tài)的后驗概率[3]。
基于DNN-HMM的聲學模型語音識別準確率更高,可以自動學習聲學狀態(tài)和特征向量之間的分布關系,提升語音識別系統(tǒng)的性能。
2.2 " "系統(tǒng)的設計與實現(xiàn)
本文設計的基于樹莓派的電話錄音系統(tǒng)按功能可分為錄音、儲存和語音識別轉(zhuǎn)換幾個部分。錄音系統(tǒng)采用觸發(fā)式錄音,電話摘機應答時自動開始錄音,形成語音數(shù)據(jù)隊列,通話結(jié)束后語音通話通過錄音文件寫入模塊存儲在電話錄音系統(tǒng)中,形成語音文件隊列,之后通過中文語音轉(zhuǎn)寫模塊將錄音文件轉(zhuǎn)成文字。日志記錄層中記錄了系統(tǒng)操作信息與操作錯誤信息,便于查詢出錯情況。錄音系統(tǒng)架構(gòu)圖如圖3所示。
電話錄音系統(tǒng)的界面如圖4所示。用戶可以通過展示界面查看錄音狀態(tài),播放音頻文件,實現(xiàn)實時監(jiān)聽。用戶根據(jù)錄音時間查詢音頻文件,系統(tǒng)采用多線程技術,實現(xiàn)對同時錄音的多部電話的并行控制,統(tǒng)一管理位于不同空間的電話。該系統(tǒng)還可通過語音識別將語音數(shù)據(jù)轉(zhuǎn)換為文字,用戶可以將音頻文件和文字文件備份到U盤上,實現(xiàn)脫機查詢[4]。
3 " "測試結(jié)果
經(jīng)過測試,本系統(tǒng)的語音識別率相比其他系統(tǒng)提升了5%~10%,反應時間也縮短了。與原有的錄音系統(tǒng)相比,本系統(tǒng)可以在手機上進行操作,便攜程度提高,同時語音識別率較高,可以將語音轉(zhuǎn)化為對應的文字,快速識別語音內(nèi)容是否合規(guī),并結(jié)合南方電網(wǎng)的調(diào)度規(guī)范等規(guī)章制度進行判斷。
錄音設備在輸入語音信號后進行語音錄制與語音識別,之后將錄制的語音與語音識別轉(zhuǎn)換的文字上傳至系統(tǒng),用戶可以通過人機交互終端查詢錄音結(jié)果。錄音流程如圖5所示。
基于樹莓派的電話錄音系統(tǒng)可以通過電腦、手機等終端訪問,將語音轉(zhuǎn)為對應的文字,應用在調(diào)度臺、變電站里可以保存錄音數(shù)據(jù),更方便工作人員保留錄音證據(jù),對用電話進行的工作許可可以更好地進行監(jiān)督,提升了工作效率。
該電話錄音系統(tǒng)占地面積小,終端設備的屏幕大小是7英寸,設備具有USB和RJ11等接口,可以連接電話、U盤等設備,以此記錄保存語音通話。
4 " "結(jié)語
本文設計的基于樹莓派的電話錄音系統(tǒng)使用了隱馬爾可夫模型和深度學習等技術,錄音效果好,語音識別準確率高。另外,本系統(tǒng)解決了傳統(tǒng)錄音系統(tǒng)占地面積過大的問題,操作方式簡單,適用于變電站、調(diào)度臺等場合。除了電力行業(yè)以外,系統(tǒng)還適用于鐵路、石油、公安等行業(yè)的調(diào)度指揮中心和客戶服務中心。
[參考文獻]
[1] 安瑩,吳先梅,藍俊歡,等.基于樹莓派的智能語音控制系統(tǒng)的設計[J].電子世界,2018(16):169.
[2] 梁靜.基于深度學習的語音識別研究[D].北京:北京郵電大學,2014.
[3] 李云紅,梁思程,賈凱莉,等.一種改進的DNN-HMM的語音識別方法[J].應用聲學,2019,38(3):371-377.
[4] 趙華璞.電話錄音系統(tǒng)的設計與實現(xiàn)[D].西安:西安電子科技大學,2010.
收稿日期:2022-09-26
作者簡介:陳?。?986—),男,廣東英德人,高級工程師,研究方向:電力通信。
劉清心(1998—),女,廣東潮州人,見習生,研究方向:電力通信。