占善華 張永平
(廣東司法警官職業(yè)學(xué)院信息管理系 廣東省廣州市 510520)
公共法律服務(wù)是政府公共服務(wù)體系的重要組成部分,是司法行政機(jī)關(guān)的基本職責(zé)任務(wù)。近年來隨著公共法律服務(wù)平臺建設(shè),語音數(shù)據(jù)快速增長,但這些數(shù)據(jù)并未進(jìn)行深入的數(shù)據(jù)分析和挖掘,因此,為了更精確地分析人民群眾的法律服務(wù)需求,提高法律服務(wù)的質(zhì)量以及輿情數(shù)據(jù)的分析,擬引入智能語音技術(shù)對語音數(shù)據(jù)進(jìn)行轉(zhuǎn)寫以及對轉(zhuǎn)寫后的內(nèi)容進(jìn)行分析、挖掘,提供可融入日常工作的公共法律服務(wù)智能語言數(shù)據(jù)管理系統(tǒng),實(shí)現(xiàn)對語音數(shù)據(jù)價值最大化。
在智能語音領(lǐng)域,對于如何將利用好司法行政系統(tǒng)內(nèi)的法律服務(wù)平臺的海量語音數(shù)據(jù),如何做到識別和轉(zhuǎn)換后的語義分析,國內(nèi)外研究和實(shí)現(xiàn)很少,語音識別的聲學(xué)建模主要用于建模語音信號與音素之間的關(guān)系,業(yè)界相繼提出了前饋型序列記憶網(wǎng)絡(luò)(FSMN,Feed-forwardSequential Memory Network)[1]作為聲學(xué)建??蚣芤约吧疃热蛄芯矸e神經(jīng)網(wǎng)絡(luò)(DFCNN,Deep Fully Convolutional Neural Network)[2][3]。針對目前最好的語音識別系統(tǒng)采用雙向長短時記憶網(wǎng)絡(luò)(LSTM,Long Short Term Memory)[4-7]訓(xùn)練復(fù)雜度高、解碼延時高等缺陷,一般來說可以使用深度全序列卷積神經(jīng)網(wǎng)絡(luò)來克服雙向 LSTM 的缺陷,從而提高識別正確率。
公共法律服務(wù)平臺包括電話,網(wǎng)絡(luò)平臺,實(shí)體大廳,數(shù)據(jù)分散,需要建立一個統(tǒng)一的語音數(shù)據(jù)管理系統(tǒng),對語音數(shù)據(jù)和文本數(shù)據(jù)以及業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)進(jìn)行統(tǒng)一存儲、管理、應(yīng)用,并建設(shè)可視化數(shù)據(jù)管理平臺,開放接口。
語音聽寫能夠把用戶說的任意語音轉(zhuǎn)換成對應(yīng)的文字信息,配合語義理解后,語音聽寫就能夠聽懂人說話,和語音合成構(gòu)成“能聽會說” 的語音交互模式。圖1為系統(tǒng)的整體技術(shù)架構(gòu)圖,其主要包括以下一些功能點(diǎn)。
3.2.1 端點(diǎn)檢測
圖1:公共法律服務(wù)智能語音數(shù)據(jù)管理系統(tǒng)技術(shù)架構(gòu)圖
端點(diǎn)檢測,業(yè)界也稱之為語音活動檢測,即Voice Activity Detection,簡稱VAD[8-10],VAD 的目的就是為了對一段數(shù)據(jù)進(jìn)行語音和非語音的分離判別。簡單來說,就是如果給定有一段語音,該語音具有一定的噪聲污染,那么如何對該語音數(shù)據(jù)進(jìn)行語音起點(diǎn)、語音結(jié)束點(diǎn)進(jìn)行準(zhǔn)確定位和識別,并同時可以去除噪聲的部分,從而完整找到該語音數(shù)據(jù)真正對我們有效的內(nèi)容。學(xué)術(shù)界對端點(diǎn)檢測有準(zhǔn)確的定義,即是對輸入的音頻流進(jìn)行分析,確定用戶說話的起始和終止的處理過程。
常見的技術(shù)方法有三種:基于閾值的 VAD、作為分類器的VAD、模型 VAD。在本系統(tǒng)中,可以綜合使用。
3.2.2 噪音抑制
背景噪聲對于語音識別應(yīng)用是一個現(xiàn)實(shí)的挑戰(zhàn),對于研究者來說,如何對噪聲進(jìn)行抑制可以追溯到上世紀(jì)70年代。其實(shí)從字面意義去理解,大家會認(rèn)為這非常簡單,無非就是對于一段語音數(shù)據(jù)首先進(jìn)行嘈雜信號的采取,然后盡可能的去除噪聲,并盡最大程度保留原語音的語義。但最大程度保留語義確是一個大挑戰(zhàn),需要我們在設(shè)計(jì)算法的時候非常仔細(xì)的調(diào)整參數(shù),同時需要進(jìn)行大量的測試。利用speexdsp 庫[11,12]可以實(shí)現(xiàn)一定程度的噪音處理工作,但對整個噪音抑制器效果并不是非常好。本文擬利用深度學(xué)習(xí)的思想處理,對語音數(shù)據(jù)設(shè)計(jì)深度學(xué)習(xí)模型,該模型可以使用具有數(shù)千個神經(jīng)元和數(shù)千萬個權(quán)重的層來執(zhí)行噪聲抑制。該方法可以提高精準(zhǔn)度,缺點(diǎn)是對于計(jì)算成本要求較高,畢竟這需要存儲數(shù)千行代碼以及幾十兆字節(jié)的神經(jīng)元權(quán)重,但這對于一個服務(wù)于全省的平臺來說,這點(diǎn)投入是值得的。確保系統(tǒng)應(yīng)具備高效的噪音抑制能力,以提高用戶在千差萬別的環(huán)境中識別效果才是首要的。
3.2.3 支持中文常見語句聽寫
語音識別對于日常使用的常用對話有較高的識別率。這利用各大公司開放的SDK 或者開源系統(tǒng)進(jìn)行中文常見語句的聽寫,需要有意識的加入法律服務(wù)領(lǐng)域的專業(yè)語句庫,提高準(zhǔn)確率。
3.2.4 支持中文標(biāo)點(diǎn)智能預(yù)測
使用超大規(guī)模的語言模型,對識別結(jié)果語句智能預(yù)測其對話語境,提供斷句和標(biāo)點(diǎn)符號的預(yù)測。
3.2.5 熱詞識別
語音識別服務(wù)系統(tǒng)支持應(yīng)用和用戶自定義熱詞集。
3.2.6 個性化識別
應(yīng)用級個性化是面向應(yīng)用的個性化定制,既包括應(yīng)用開發(fā)者通過構(gòu)熱詞集提升識別效果, 又包括應(yīng)用開發(fā)者根據(jù)自己應(yīng)用的定位; 用戶級個性化是面向終端用戶的個性化定制,既包括用戶上傳自己的熱詞集來優(yōu)化識別效果,又包括語音識別引擎針對用戶提取聲學(xué)模型;語音合成服務(wù),采用中文文本、韻律分析和大語料庫的方法合成語音。
3.3.1 服務(wù)管理
為 SDK 分配唯一的身份標(biāo)識 APPID,并通過此標(biāo)識,控制為第三方開放的服務(wù)。
3.3.2 終端管理
從應(yīng)用終端層面進(jìn)一步細(xì)化管理,為每個終端分配其可訪問的應(yīng)用。
3.3.3 應(yīng)用管理
管理各個應(yīng)用所需的基礎(chǔ)信息資源,如詞庫、快捷短語、翻譯句對、語義資源等,同時,提供應(yīng)用的升級管理。
3.3.4 運(yùn)營管理收集用戶的建議反饋;并多維度對客戶、應(yīng)用、服務(wù)的使用情況進(jìn)行細(xì)致的統(tǒng)計(jì)分析,指導(dǎo)產(chǎn)品優(yōu)化
通過上述法律服務(wù)數(shù)據(jù)管理系統(tǒng)的設(shè)計(jì),并基于該設(shè)計(jì)對語音數(shù)據(jù)進(jìn)行深入的數(shù)據(jù)挖掘和分析,可以解決以下問題:
(1)各大法律服務(wù)平臺收集的音頻轉(zhuǎn)寫成文本,通過對文本進(jìn)行數(shù)據(jù)分析和挖掘,發(fā)現(xiàn)法律服務(wù)的熱點(diǎn)問題;
(2)問法律服務(wù)的人員配比及制定服務(wù)策略提供數(shù)據(jù)支撐;
(3)為輿情的發(fā)現(xiàn)和管控等提供數(shù)據(jù)支撐;
(4)通過分析文本內(nèi)容,對法律服務(wù)的質(zhì)量進(jìn)行檢查,分析法律服務(wù)咨詢的內(nèi)容和目的,挖掘出隱藏的案件。
本文設(shè)計(jì)了一種公共法律服務(wù)智能語音數(shù)據(jù)管理系統(tǒng),該系統(tǒng)開源實(shí)現(xiàn)音頻語音識別轉(zhuǎn)寫,將各大法律服務(wù)平臺收集的音頻數(shù)據(jù)利用智能語音技術(shù)轉(zhuǎn)寫成文本,同時開發(fā)數(shù)據(jù)分析功能,對轉(zhuǎn)寫后的文本進(jìn)行挖掘,包括服務(wù)質(zhì)量和隱藏案件的挖掘,最后通過對轉(zhuǎn)寫后的文本內(nèi)容進(jìn)行整體挖掘和統(tǒng)計(jì)分析,從法律服務(wù)分析輿情數(shù)據(jù)。最終實(shí)現(xiàn)對法律服務(wù)的熱點(diǎn)問題追蹤,為制定服務(wù)策略提供數(shù)據(jù)支撐,同時也可以為輿情的發(fā)現(xiàn)和管控提供數(shù)據(jù)支撐,實(shí)現(xiàn)對語音數(shù)據(jù)的價值最大化。