田原,裘思科,林彥伊
(咪咕數(shù)字傳媒有限公司,杭州 320000)
一種基于靈犀云平臺的速記產(chǎn)品設計方案*
田原,裘思科,林彥伊
(咪咕數(shù)字傳媒有限公司,杭州 320000)
本文通過錄音輸入、錄音文本轉換、行業(yè)資源庫定制優(yōu)化、適用場景解決方案等幾個部分涉及實現(xiàn)了靈犀速記產(chǎn)品。該產(chǎn)品有效的解決了不同場景、不同行業(yè)的會議紀要的采集、分析和展示的問題。
實時轉寫;角色分離;自動分段;音字對照;關鍵詞優(yōu)化
伴隨著人工智能技術的快速發(fā)展,尤其在DNN/CNN/RNN等深度學習技術算法的推動下,人工智能從感知智能向著認知智能發(fā)展、從能聽會說向著能理解會思考發(fā)展。目前人工智能已經(jīng)在解決復雜度低、重復率高、人工投入量大的場景問題的方向上大顯身手,但是在行業(yè)深度應用上未有明顯突破。
為了解決會議、辦公、教學、法庭庭審等場景下的會議紀要自動記錄要求,本文通過采用人工智能技術通過解決語音輸入、錄音文本轉換、行業(yè)資源庫定制優(yōu)化、適用場景解決方案等幾個方面,設計開發(fā)了“一種基于靈犀云平臺的靈犀速記產(chǎn)品設計方案”。該方案致力于有效實現(xiàn)不同行業(yè)、不同場景的會議紀要的采集、分析、展示、分發(fā)、儲存等問題的解決。
日常生活中的會議、辦公、教學、庭審等場景下會議紀要,目前主要是依靠類似于“書記員”這一崗位的負責人進行人工記錄、整理輸出。人工整理方式費事耗力、準確率低,會議記錄結果受會議紀要整理人個人素質影響較大,并且存在一定的主觀性。
當前會議紀要記錄的主要難題總結如下:
會議過程中:記錄工作量繁重、信息記錄不全面、內容準確率較低;
會后整理時:紀要整理費時耗力、錄音整理困難、模糊信息難以復核;
紀要發(fā)出后:安全管理有風險、信息檢索難度大、快速傳播難實現(xiàn)。
隨著社會的發(fā)展,人工記錄會議紀要的方式在時效性、準確性、傳播性等方面逐漸無法滿足工作要求。迫切需要應用新技術進一步研究會議紀要自動記錄的方法。
隨著深度學習DNN/CNN/RNN的應用,智能語音技術飛速發(fā)展,大大降低了語料訓練周期、提升了建模效率及準確性,為智能會議速記方案應用的落地奠定了技術基礎。
在日常工作中“會議”場景下產(chǎn)生的是人人對話下自然語言數(shù)據(jù),數(shù)據(jù)中包括了背景音、環(huán)境噪音、多方通話等所有內容,人工基于對人員的熟悉可區(qū)分發(fā)言內容并記錄下來,但是語音技術需要基于非標準、非潔凈的原始數(shù)據(jù)、通過一系列的降噪等技術處理后才可以進行開展智能速記工作。
會議速記方案主要難點如下:方言與口音適配;行業(yè)專業(yè)詞匯;角色分離;交談式口語化發(fā)音;噪聲干擾解決。
通過充分考慮現(xiàn)場會議中的所有一切干擾因素,并采取相應的智能語音技術進行分析處理,最終實現(xiàn)了可以滿足工作要求的靈犀速記產(chǎn)品設計方案。
本方案支持在會議場景下以符合安全要求的離線語音轉寫方式將發(fā)言語音內容實時轉換成文字內容,保證了轉寫的準確性、實時性、效率??梢詽M足日常會議、報告演講、指揮調度、錄音整理等一系列需要進行語音實時文字轉寫場景的使用需求。
本方案從實際工作出發(fā),按照工作要求提供了會議音頻管理、即時校對編輯、敏感詞屏蔽、轉寫文字實時直播等基本功能,同時可提供延時播放、按句回聽、重點標記、提供語氣詞過濾、自動分段等功能自動優(yōu)化文字結果、提供全文檢索功能方便檢索歷史音頻等等功能,方便方案使用者快速整理輸出會議材料。
方案核心功能點:
(1)實時轉寫:普通話轉寫正確率達到90%,支持識別帶口音的普通話。
(2)離線轉寫:只是多條數(shù)據(jù)同時轉寫,比如20路音頻同時輸入。
(3)實時編輯:針對轉寫結果實時編輯,演示播放,當編輯后成稿輸出。
(4)角色分離:通過硬件自動、手動等方式對說話人進行角色分離。(5)自動分段:VAD檢測、關鍵詞、等方式自動分段。(6)關鍵詞優(yōu)化:針對行業(yè)資源庫進行關鍵詞優(yōu)化、提升識別準確率。
(7)音字對照:針對會議紀要結果,按照操作人要求進行回溯。
(8)全文檢索:按照關鍵詞、關鍵句等方式會聽搜索結果。
(9)內容分享:會議紀要生成后,會同時生成二維碼,掃描二維碼即可查看會議紀要。
按照速記方案設計及功能使用效益最大化開展方案使用場景梳理結果,設計了一體式、便攜式和網(wǎng)絡版3種靈犀速記產(chǎn)品架構。
4.2.1 一體式產(chǎn)品架構
一體式產(chǎn)品架構設計為軟件、硬件共同構成,適應于部署固定會場等場景,實現(xiàn)將會議發(fā)言內容實時轉寫成文字、實時編輯等速記功能。在此基礎上可以提供輔助會議記錄人員進行紀要的整理與校正功能、提供上屏展示功能,轉寫的文字能夠在大屏上實時呈現(xiàn)等輔助功能,在整體上打造智能語音會議室。
4.2.2 便攜式架構
便攜式架構設計為一款軟硬件結合的單機產(chǎn)品,設備主體為1臺便攜式筆記本電腦,可以在移動場景下使用。產(chǎn)品的核心功能應包括實時音頻轉寫和導入音頻轉寫等,并支持對轉寫結果的編輯、導出等操作。便攜式架構界面簡潔、設備輕便,整體定位為工具化的語音轉寫設備。
4.2.3 網(wǎng)絡版架構
網(wǎng)絡版架構設計為基于企業(yè)內已有的辦公專網(wǎng)進行搭建,由服務器平臺和部署在各會議室/個人辦公電腦的終端設備構成。服務端的軟硬件設備部署在中心機房,服務器采用分布式部署結構,需要結合具體的業(yè)務規(guī)模估算服務器數(shù)量;終端側結合具體的應用需求,完成會議室內終端軟硬件的建設、以及個人辦公電腦端的軟件能力接入。
基于速記方案設計、架構設計、考慮了智能會議系統(tǒng)的技術難點等方面開展了靈犀速記產(chǎn)品設計。該產(chǎn)品設計可有效解決方言干擾、環(huán)境噪音、行業(yè)關鍵詞、角色分離、口語化交流、算法及技術應用等關鍵點,在保障產(chǎn)品準確性、效率、易用性的基礎上,實現(xiàn)了靈犀速記產(chǎn)品功能。
靈犀速記產(chǎn)品設計要點如下。
4.3.1 端點檢測
端點檢測是對輸入的音頻流進行分析,確定音頻的起始和終止的處理過程。一旦檢測到用戶開始說話,語音開始流向識別引擎,直到檢測到用戶說話結束。端點檢測功能是在用戶在說話的同時即開始進行識別處理,降低環(huán)境噪音的影響,該技術的一個誘惑力的特點是檢測準確率明顯高于基于能量的方法,SNR越不好,效果越明顯。但是在訓練環(huán)境與實際環(huán)境不符合時,效果特點不好。因此在本次方案中采用了模型和時域方法相結合,可以做到較好的端點檢測效果。
端點檢測模型如下:
HMM:這個應用用分布表達語音的分布情況。
MLP:根據(jù)頻域和時域區(qū)分性特征,達到分類的效果。
DNN:主要訓練噪聲模型。
端點檢測算法如下:
端點檢測程序流程圖如圖1所示。
圖1 程序流程圖
參數(shù)設置說明:
4.3.2 篇章級處理技術和口語風格處理技術
解決會議場景下的人人對話轉寫問題的難點在于其場景的復雜性與影響因素的多樣性,實際應用中不僅需要處理海量的人人交談數(shù)據(jù),更核心的是需要在海量數(shù)據(jù)基礎上進行建模,靈犀速記產(chǎn)品通過篇章級處理技術和口語風格處理技術如圖2和圖3所示,解決了這一難題。
圖2 篇章級處理技術流程圖
圖3 口語風格處理技術流程圖
4.3.3 混響降噪
混響降噪一直是語音轉寫的一大難點,實際應用中,背景噪聲對于語音識別應用是一個現(xiàn)實的挑戰(zhàn),即便說話人處于安靜的辦公室環(huán)境,在會議過程中也難以避免會有一定的噪聲。對于為了聽感而錄制的有損失的語音,靈犀速記綜合利用DNN加混響技術和DNN去混響技術,解決遠場錄音的混響問題,以適應用戶在千差萬別的環(huán)境中應用的要求。
通過自下而上的逐層訓練RBM的方式生成DBN模型。
語音增強,主要目標是從呆噪聲的信號中提取盡可能純凈的原始語音信號,提高語音信號的質量,清晰度和可懂度。應用深度學習算法,進行語音增強。
4.3.4 雙向RNN技術以及CTC建模技術
靈犀速記采用最近兩年才應用到語音識別技術中的最新的雙向RNN技術如2圖4所示和當下比較火的CTC建模技術如圖5所示,提升語音識別率,目前效果對比中識別率比DNN技術和雙向RNN技術分別相對提升了25%和10%。
4.3.4.1 雙向RNN技術
雙向循環(huán)神經(jīng)網(wǎng)絡(BRNN)的基本思想是提出每一個訓練序列向前和向后分別是兩個循環(huán)神經(jīng)網(wǎng)絡(RNN),而且這兩個都連接著一個輸出層。這個結構提供給輸出層輸入序列中每一個點的完整的過去和未來的上下文信息。
4.3.4.2 CTC建模技術
Connectionist Temporal Classifier,適合用于輸入特征和輸出標簽之間對齊關系不確定的時間序列問題,可自動端到端的同時優(yōu)化模型參數(shù)和對齊切分的邊界。將CTC建模技術與RNN技術結合使用,可將兩個發(fā)音單元之間混淆或不確定的區(qū)域映射到“Blank”節(jié)點(傳統(tǒng)“固定邊界對齊”的方法將該模糊區(qū)域強制分類為左邊標簽,右邊標簽或者停頓,存在天然的缺陷),將傳統(tǒng)的“軌跡”建模轉化為“差異性”建模,使得模型更加關注一個發(fā)音單元與其他發(fā)音單元之間的“差異性”,減緩了傳統(tǒng)模型需要完整的描述該發(fā)音單元全部信息的建模負擔。
4.3.5 行業(yè)關鍵詞優(yōu)化
圖4 雙向RNN技術
圖5 CTC建模技術
行業(yè)關鍵詞優(yōu)化是提前將應用行業(yè)熱詞、專業(yè)術語、同音易錯詞等置入產(chǎn)品數(shù)據(jù)庫中,在說話者發(fā)言的時候,如有類似的語音內容,系統(tǒng)會自動進行檢測、并識別為該特定詞語。
使用行業(yè)關鍵詞可提升行業(yè)語音識別準確率:
(1)建立行業(yè)關鍵詞詞庫:分類整理行業(yè)關鍵詞保障行業(yè)關鍵詞涵蓋整個行業(yè);
(2)建立行業(yè)關鍵詞定期優(yōu)化機制:以季度為周期,通過關鍵詞挖掘工具,將挖掘后的行業(yè)關鍵詞優(yōu)化到現(xiàn)網(wǎng)資源庫中;
(3)關鍵詞權重分析:關注日常使用的關鍵詞的使用頻度,根據(jù)使用頻度和場景賦予關鍵詞相關權重,便于后續(xù)進一步分析。
語音轉文字準確率高,中文標準普通話的轉寫準確率平均可達90%;
數(shù)據(jù)安全性強,采用獨立專業(yè)服務器,不需聯(lián)網(wǎng),可有效避免會議內容和信息的外泄;
可針對發(fā)音人口音和應用領域進行定制優(yōu)化,持續(xù)提升轉寫效果;
可根據(jù)轉寫內容快速檢索錄音內容,提取會議紀要,實現(xiàn)會議錄音管理。
靈犀速記產(chǎn)品方案解決了會議等自然語
言交流場景下內容記錄難、內容管理難、內容追溯難等問題。相比于傳統(tǒng)的人工記錄方式,靈犀速記產(chǎn)品具備以下優(yōu)勢。
靈犀速記產(chǎn)品能夠提供實時轉寫功能,轉寫過程中支持同步編輯及重點內容標記,可保證在會后30 min(10 min提取紀要+20 min檢查優(yōu)化)內即可出稿。相比于當前的人工記錄方式,出稿效率可提升8倍。
靈犀速記產(chǎn)品實現(xiàn)對全部發(fā)言內容的記錄,數(shù)據(jù)化的“文字”更容易觸發(fā)個人對信息的重視程度,有效避免信息的遺漏。
靈犀速記產(chǎn)品能夠提供對與會人員發(fā)言內容的高保真記錄,且可以通過文字定位并回聽語音,達到聲文對應,輔助記錄人員更好的理解會議思想、提升紀要結論或紀要決議的準確度。
靈犀速記產(chǎn)品的應用,能夠大大降低對記錄人員的要求,1名普通的員工在會后簡單編輯即可出稿,不需要外聘速錄人員、內部參與的員工也控制到最少,只需要做好設備的安全管控,就能有效保障會議信息安全。
靈犀速記產(chǎn)品的應用,能夠替代需要速記人員記錄的場景,能夠縮減專職記錄人員的數(shù)量,系統(tǒng)作為一次性投資資產(chǎn)、其解放的人員及勞動成本是永久的,真正實現(xiàn)會議辦公業(yè)務的降本增效。
[1] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J].Audio, Speech, and Language Processing, IEEE Transactions on,2012,20(1): 30-42.
[2] Xuedong Huang/Alex Acero/Hsiao-Wuen Hon. Spoken Language Processing. Prentice Hall PTR. 2001,35(1):20_80.
[3] 俞棟,鄧力. 解析深度學習:語音識別實踐[M]. 北京:電子工業(yè)出版社, 2016.
[4] 修國浩. 基于WD/HMM的語音識別算法研究[D]. 秦皇島:燕山大學, 2004.
A product design porject of shorthand based on the lingxi-cloud platform
TIAN Yuan, QIU Si-ke, LIN Yan-yi
(Migu Digital Media Co., Ltd., Hangzhou 320000, China)
This article through the recording input, recording text conversion, customization of industry resource library optimization, for the application of several parts of the scene involved in the realization of the consonance shorthand products. The product effectively solves the problem of collecting, analyzing and displaying the meeting minutes of different scenes and different industries.
real-time transliteration; role separation; automatic segmentation; sound-word contrast; keywords optimization
TN929.5
A
1008-5599(2017)09-0033-06
2017-08-25
* 中國移動集團級一類科技創(chuàng)新成果,原成果名稱為《靈犀云平臺靈犀速記產(chǎn)品研發(fā)項目》。