陳錦彪
(廣東電網有限責任公司 佛山供電局,廣東 佛山 528000)
關于語音識別技術在電力生產中的應用研究*
陳錦彪
(廣東電網有限責任公司 佛山供電局,廣東 佛山 528000)
摘要:語音是最自然的輸入手段,近年來語音識別已被廣泛應用于智能家具、車載導航等場合,電力作為生產生活的基礎,吸納語音處理技術是勢所必然。對語音識別技術進行了研究,從EMS人機交互、巡檢機器人控制、遠程影音對話和巡檢單現場操作等諸多方面闡述了語音識別在電力生產中的應用構想。讓更多的讀者了解到語音識別技術在電力生產中解放雙手的新式操作體驗,為語音識別的人機交互新技術在電力生產的大量應用拋磚引玉,從而為提升電力生產效率添磚加瓦。
關鍵詞:語音識別;電力生產;人機交互
語音識別是語音技術的重要分支,其起源于20世紀50年代。20世紀60—80年代,語音信號線性預測技術、動態(tài)時間規(guī)正(DTW)、矢量量化(VQ)和隱馬爾柯夫模型(HMM)等相繼被應用到語音識別技術,使之逐漸具有非特定人、大詞匯量和連續(xù)語音識別等功能。20世紀90年代后,人工神經網絡以其高度容錯性和自適應性使語音識別系統(tǒng)從實驗室走向實用。目前,我國開發(fā)的漢語人機對話系統(tǒng)準確率已達90%以上。
電力系統(tǒng)應用語音報警、語音合成等語音技術的歷史可謂悠遠,但應用語音識別是剛剛起步。本文將在充分分析電力生產特點的基礎上,闡述語音識別技術對于電力系統(tǒng)的重要性,以期進一步拓展該技術的覆蓋范圍。
1語音識別原理
語音識別就是利用計算機將語音信號轉化為機器可執(zhí)行的文本命令,其屬于模式識別的范疇。按工作原理劃分,模式識別細分為模式匹配、句法模式識別和統(tǒng)計模式識別等3類,當前的語音識別系統(tǒng)大多數是基于模式匹配原理的。語音識別實現過程的簡單描述如圖1所示,其主要包含特征提取、模式匹配和參考模式庫等3個單元[1]。
圖1 語音識別的原理
語言識別原理如下:1)待識別語音通過麥克風變換成輸入語音,然后到預處理環(huán)節(jié);2)預處理涉及多樣技術,包括信號采樣、反混疊濾波和端點檢測等,有時還會有模/數轉換和預加重,其目的是排除因個體差異、周邊環(huán)境等產生的噪聲;3)特征提取通過對一些特征函數(如倒譜、共振峰、線性預測系數、平均能量和過零數等)的計算,得到代表輸入語音本質的信息;4)訓練、聚類是通過讓語音輸入者多次重復講話以提煉關鍵數據(除掉冗余信息),并形成獨特類別,保存進參考模式庫;5)模式匹配是語音識別的核心,其通過距離測度的方法來衡量輸入特征與參考庫之間的相似度,以此來判決最終識別結果,其中,距離測度常用的方法有HMM距離測度、似然比測度和歐氏距離測度等。
2語音識別的典型問題分析
語音識別要達到實用化要求,應妥善處理如下幾個問題。
1)降噪。很明顯,語音識別不可能避免噪聲環(huán)境。所謂噪聲,除了客觀環(huán)境的背景噪聲外,講話人因情緒變化而導致發(fā)聲失準(與正常相比)也是不可忽視的一個噪聲因素。目前,應對噪聲的方法主要有譜減法、環(huán)境規(guī)正技術以及建立合理的噪聲模型等。
2)基元選取。根據使用經驗,欲使語音識別系統(tǒng)能識別更多詞匯,所選擇的基元應該盡可能小。
3)端點檢測(即確定語音的起末點)。據大數據統(tǒng)計,50%以上的語音識別錯誤源于端點檢測環(huán)節(jié)。提升端點檢測成功率的關鍵是找到穩(wěn)定的語音參數。
4)識別速度及拒識問題。語音輸入者應盡可能減少“啊”、“吧”等語氣助詞,并且不使用方言或口語化語言,以提升語音識別的速度和成功率。
3語音識別在電力生產中的應用
3.1應用于EMS人機交互層面
能量管理系統(tǒng)(EMS)是調度員日常工作中操作最多的系統(tǒng),其關系著整個電力系統(tǒng)的控制。EMS系統(tǒng)牽涉大量的人機交互環(huán)節(jié),傳統(tǒng)的交互途徑是基于鼠標/鍵盤的組合。根據文獻[2]的研究,EMS必然朝著“動用各種感官,實現人機全面溝通”的方向發(fā)展。語言是自然、有效的交流方式,若能將語音識別融入EMS的人機交互,將能顯著提高信息輸入的效率(特別是在電網發(fā)生緊急情況時)。
3.1.1可行性和價值分析
當前,調度員主要通過鼠標和鍵盤來操控電力系統(tǒng)的運行,當語音識別加入后,其與鼠標、鍵盤在命令控制和文字錄入環(huán)節(jié)上的綜合比對見表1。
表1 EMS系統(tǒng)中3種人機交互方式的比對
限于篇幅,僅就命令控制情況進行分析如下:1)用鼠標選擇命令,不需記憶代碼,但要花時間找,其因此認知負荷低,操作效率低;2)用快捷鍵選擇命令,速度快,記憶量小(因只涉及少量命令),因此,其操作效率高,認知負荷較低;3)語音識別牽涉到固有的語音代碼,需要花費時間去記憶,但語音一經出口即進入自動執(zhí)行環(huán)節(jié),因此,其認知負荷較高,操作效率高;4)鼠標及鍵盤都是第三方工具,而語音是人類最常用的交流方式,因此,語音識別的自然性要優(yōu)于鼠標及鍵盤。
可見,語音識別作為一種新型的交互技術,是鍵盤和鼠標等傳統(tǒng)交互的有效補充。
3.1.2關于語音識別在EMS的應用架構的設想
一般來說,EMS命令可分為模糊空間類命令(如框定一塊沒名稱的區(qū)域)、具體空間類命令(如選中一個變電站)和非空間類命令(如顯示功率)[3]。顯然,語音識別對模糊類命令很難表達,對具體類命令則非常合適。在考慮語音識別后,EMS人機交互的組成框架變?yōu)槿鐖D2所示。圖2中,調度員正常是指身體狀態(tài)良好且已熟悉業(yè)務。
圖2 語音識別在EMS中的應用
3.2應用于機器人巡檢
電壓等級為500 kV及以上的變電站已普遍使用機器人巡檢,但其控制指令一般在主控室后臺下達。這種方式有如下不足:1)變電人員無法直面設備操控機器人,無法在設備區(qū)查詢狀態(tài)信息;2)后臺程序專業(yè)性強,操作路徑復雜,不經嚴格訓練是不能使用的,由此限制了較大一部分變電人員的工作。采用語音識別,則變電人員只需熟悉簡單的指令,就能命令機器人前進、后退、轉彎和溫濕度查詢等,既提升了變電站的智能化管理水平,又方便機器人日常運維,還可推進無人值守。
實現過程如下:變電人員通過無線話筒發(fā)布指令,機器人由自帶的拾音器采集聲音并送達系統(tǒng)內部,經由語音識別算法(如DTW算法)提取特征參數,再和參考庫進行比對,發(fā)出識別結果供執(zhí)行。
3.3應用于其他方面
傳統(tǒng)的變電、線路巡視往往依照巡視卡規(guī)定的路線和項目進行巡視(巡視情況需手工記錄在案),這種方式的明顯缺點是效率低下,且可能會出錯(如筆誤)。隨著智能變電站的興起,可視化技術逐漸獲得應用,在可視化支撐下,遠程巡視成為可能。和上述EMS一樣,遠程巡視要順利開展,離不開工作人員的遠端控制。一般來說,巡視是很有規(guī)律的生產活動,可將其細化為一系列前后相繼的標準化、格式化操作步驟,這樣就可使用語音識別來控制巡視過程的進行以及現場巡視單的生成。以變壓器巡視為例,針對巡視部位選擇和巡視情況記錄,只需幾個簡單的語音(如“是”、“否”和“選擇1”等)就能完成。詳細如圖3所示。
圖3 語音識別應用于遠程巡檢
另外,遠程影音對話與課件點播等場合均可使用語音識別技術。以科大訊飛語音平臺為基礎,勾勒出包含多環(huán)節(jié)的語音識別應用體系(見圖4),具體流程如下。
圖4 語音識別應用于電力生產的總體架構
1)用戶打開語音識別系統(tǒng)主界面,然后報菜單名稱(有4個可選項:可視現場、巡檢表單、播放課件和退出系統(tǒng))。
2)機器在監(jiān)聽到用戶語音后,打開相應菜單。
3)以“可視現場”菜單為例,用戶用語音控制打開之后,進入遠程巡檢模式(能看到遠端設備的狀況),在巡檢完成后,用戶發(fā)命令“關閉”,則系統(tǒng)自動轉到主界面。
4)在遠端在線巡視完成后,用戶用語音打開“巡檢表單”菜單,進入表單填寫。為了具備可操作性,表單所有內容均被整理為標準選擇項形式,即用戶只需使用“選擇A”等類似詞匯即可完成表單自動填寫。在所有項目選擇完畢,用戶發(fā)命令“提交”,表單就自動生成,系統(tǒng)回到主界面。
5)如用戶希望播放課件,則只需在主界面狀態(tài)下發(fā)命令“播放課件”,系統(tǒng)開始自動播放課件(如存在多個課件,可通過應答機器提示而選擇)。
4結語
語音識別能徹底解放電力工人的雙手,使各項操作更為簡捷和高效。隨著嵌入式系統(tǒng)的發(fā)展,語音識別還能推廣到無線系統(tǒng)中??傊Z音識別技術是時代發(fā)展的前沿,也是電力行業(yè)應用的趨勢,應該加以快速推廣。
參考文獻
[1] 楊樸. 電力系統(tǒng)中的語音應用技術研究[J]. 計算機仿真,2004 (2):38-39.
[2] 李鑫. 電力系統(tǒng)智能導航巡檢儀的開發(fā)與應用[J]. 電子世界,2013 (3):48-50.
[3] 王大偉. 基于語音分析技術的電力客戶服務質量檢測與分析探究[J]. 電子測試,2013 (9):173-174.
* 中國南方電網有限責任公司科技項目(030600KK52140058)
責任編輯彭光宇
The Speech Recognition Technology Application Research in Electric Power Production
CHEN Jinbiao
(Foshan Power Supply Bureau,Guangdong Grid Co., Foshan 528000, China)
Abstract:Voice is the most natural input mean, in recent years, speech recognition has been widely applied to intelligent furniture, car navigation and so, and power is the basis of production and living in urgent need of the speech processing technology. Summarize the speech recognition technology, and then from the EMS man-machine interaction, inspection robot control, remote video dialogue, checking single site operation, and many other aspects. Expound the idea of the speech recognition application in electric power production. The purpose of the article is to make readers know more about the speech recognition technology in electric power production while hands are free in new operation experiences. For speech recognition of human computer interaction application of new technology in electric power production, it can improve power production efficiency.
Key words:speech recognition, electric power production, the human-computer interaction
收稿日期:2015-05-11
作者簡介:陳錦彪(1986-),男,工程師,主要從事電力系統(tǒng)自動化、軟件工程等方面的研究。
中圖分類號:TP 183
文獻標志碼:A