李智誠,張?jiān)葡?/p>
(深圳供電局有限公司,深圳518001)
隨著人工智能的快速發(fā)展,國家相繼出臺(tái)了一系列政策支持中國人工智能的發(fā)展[1],推動(dòng)中國人工智能步入新階段,人工智能成為我國新基建之一[2],當(dāng)前電力行業(yè)正在發(fā)展壯大人工智能新動(dòng)能,做大做強(qiáng)人工智能產(chǎn)業(yè)集群,實(shí)施人工智能發(fā)展行動(dòng),加強(qiáng)新一代人工智能研發(fā)應(yīng)用,加快“人工智能+”應(yīng)用[3]。
現(xiàn)場會(huì)議是電網(wǎng)公司日常工作中最常用的交流方式之一[4],主要用于日常問題的討論?,F(xiàn)場會(huì)議一般需要由會(huì)務(wù)人員負(fù)責(zé)會(huì)前手工簽到,會(huì)議過程中需由會(huì)務(wù)人員負(fù)責(zé)內(nèi)容記錄,會(huì)后整理成會(huì)議紀(jì)要整理,耗時(shí)耗力、效率不高。會(huì)議過程中演示材料也需由手工操作,影響會(huì)議流暢度[5]。
目前國內(nèi)外越來注重語音識(shí)別以及語音文字轉(zhuǎn)換的應(yīng)用[6],國內(nèi)的科大訊飛、思必馳等廠商都在致力于研發(fā)語音轉(zhuǎn)換文字的新算法新技術(shù)[7],國外谷歌、蘋果、Nuance、微軟,通過研究該技術(shù)可以讓機(jī)器通過識(shí)別和理解,把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令[8]。
目前市場上有一些語音轉(zhuǎn)換文字的功能,如科大訊飛的在線語音轉(zhuǎn)換等[9]。但是針對電力行業(yè)中一些專業(yè)術(shù)語以及的語音文字轉(zhuǎn)換鮮有研究[10]?;诖耍疚尼槍﹄娏π袠I(yè)的會(huì)議錄音回溯場景,利用人工智能技術(shù)構(gòu)建適應(yīng)特定行業(yè)場景智能會(huì)議錄音回溯系統(tǒng),結(jié)合深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)回溯系統(tǒng)的自我更新完善,通過電力會(huì)議處理流程和具體的應(yīng)用自適應(yīng),達(dá)到自適應(yīng)快速準(zhǔn)確的智能會(huì)議錄音回溯目的。
智能會(huì)議回溯系統(tǒng)中主要用到的人工智能技術(shù)包括深度神經(jīng)網(wǎng)絡(luò)和自然語言處理技術(shù)。
深度神經(jīng)網(wǎng)絡(luò)。深度神經(jīng)網(wǎng)絡(luò)是由多個(gè)單層非線性網(wǎng)絡(luò)疊加而成的,常見的單層網(wǎng)絡(luò)按照編碼解碼情況分為三類:只包含編碼器部分、只包含解碼器部分、既有編碼器部分也有解碼器部分。編碼器提供從輸入到隱含特征空間的自底向上的映射,解碼器以重建結(jié)果盡可能接近原始輸入為目標(biāo)將隱含特征映射到輸入空間。深度神經(jīng)網(wǎng)絡(luò)分為以下幾類。
圖1 深度神經(jīng)網(wǎng)絡(luò)分類結(jié)構(gòu)
前饋深度網(wǎng)絡(luò),由多個(gè)編碼器層疊加而成,如多層感知機(jī)、卷積神經(jīng)網(wǎng)絡(luò)等。
反饋深度網(wǎng)絡(luò),由多個(gè)解碼器層疊加而成,如反卷積網(wǎng)絡(luò)、層次稀疏編碼網(wǎng)絡(luò)等。
雙向深度網(wǎng)絡(luò),通過疊加多個(gè)編碼器層和解碼器層構(gòu)成,如深度玻爾茲曼機(jī)、深度信念網(wǎng)絡(luò)、棧式自編碼器等。
自然語言處理(Natural Language Processing,NLP)是使用自然語言與計(jì)算機(jī)進(jìn)行通信的技術(shù),可以利用自然語言來實(shí)現(xiàn)人與計(jì)算機(jī)之間進(jìn)行通信。自然語言的處理大致包含自然語言生成(NLG)和自然語言理解(NLU)兩部分。
在會(huì)議中,NLU 能準(zhǔn)確的理解會(huì)議中的成員的語音,并試圖理解這是一個(gè)名詞還是動(dòng)詞以及時(shí)態(tài),然后利用NLP 系統(tǒng)本身的詞庫和現(xiàn)有的語法規(guī)則,通過機(jī)器學(xué)習(xí)和深度學(xué)習(xí),將這些規(guī)則應(yīng)用于自然語言,從而最終理解該段語言的含義。針對電力行業(yè)一些專業(yè)術(shù)語可以通過機(jī)器學(xué)習(xí)預(yù)先存入數(shù)據(jù)庫,方便使用。
NLG 的工作就是將翻譯好的機(jī)器語言轉(zhuǎn)換成文字,也就是將計(jì)算機(jī)的文本語言組織成人可以理解的文本。NLU 的技術(shù)要比NLG 的技術(shù)相對簡單一些。
基于深度神經(jīng)網(wǎng)絡(luò)、自然語音處理、麥克風(fēng)降噪及定向收集、攝像頭智能拍攝等技術(shù),設(shè)計(jì)智能會(huì)議助手,為智能會(huì)議助手系統(tǒng)提供語音智能采集、人臉拍攝等功能,實(shí)現(xiàn)語音識(shí)別、聲紋識(shí)別、人臉識(shí)別、智能控制等功能?;谌斯ぶ悄艿匿浺艋厮菹到y(tǒng)處理流程如圖2 所示。
圖2 處理流程
分詞:分詞是處理自然語言步驟中最基本的,單詞是文本的基礎(chǔ)單位。本系統(tǒng)中增加處理電力行業(yè)中的一些專業(yè)術(shù)語詞匯。通過分詞除去冗余信息,分詞算法通常分為統(tǒng)計(jì)方法與詞典方法。目前國內(nèi)常用的分詞工具有Stanford CoreNLP 和Jieba 等。
詞性標(biāo)注:分詞結(jié)束后下一步就是對單詞進(jìn)行詞性標(biāo)注,需要定義詞性的類別:專業(yè)術(shù)語、形容詞、名詞、動(dòng)詞等。提取影響語音識(shí)別的關(guān)鍵信息和表達(dá)語言含義的特征信息。詞性標(biāo)注是為了方便信息的抽取、語義的識(shí)別、句子的理解。
語法分析:語法分析是用來確定一句話的語法結(jié)構(gòu),例如動(dòng)賓、動(dòng)補(bǔ)、主謂賓等。按照不同語言的各自語法,依照先后順序識(shí)別字詞。把前后的意思當(dāng)做輔助條件,有利于分析和識(shí)別。這對于會(huì)議中語音識(shí)別非常價(jià)值。
命名實(shí)體識(shí)別:命名實(shí)體識(shí)別是用來處理語句中出現(xiàn)的一些機(jī)構(gòu)單位名稱、電力專業(yè)術(shù)語、地名以及人名,及聲學(xué)模型(包含地區(qū)、行業(yè)口音、發(fā)音特點(diǎn)等)。命名實(shí)體是標(biāo)注的問題的范疇,所以可以采用HMM/CRF 來進(jìn)行機(jī)器學(xué)習(xí)訓(xùn)練。鑒于本文主要是針對電力行業(yè)的會(huì)議語音轉(zhuǎn)換,因此增強(qiáng)電力行業(yè)的專業(yè)術(shù)語的學(xué)習(xí)尤其重要。
實(shí)體關(guān)系抽?。簩?shí)體關(guān)系抽取是對基本信息抽取的關(guān)鍵知識(shí),也是自動(dòng)識(shí)別一些非結(jié)構(gòu)化的文本中兩個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系。實(shí)體關(guān)系的抽取分為有監(jiān)督的學(xué)習(xí)、無監(jiān)督的學(xué)習(xí)以及規(guī)則的匹配。
實(shí)體關(guān)系抽取是自動(dòng)識(shí)別非結(jié)構(gòu)化文檔中兩個(gè)實(shí)體之間的關(guān)聯(lián)關(guān)系,屬于信息抽取領(lǐng)域的基礎(chǔ)知識(shí)之一。實(shí)體關(guān)系抽取包括規(guī)則匹配、有監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)。
本文選取訊飛轉(zhuǎn)錄作為對比對象,針對電力行業(yè)下某電力新聞報(bào)道錄音進(jìn)行轉(zhuǎn)換對比,本系統(tǒng)與訊飛轉(zhuǎn)錄電力新聞結(jié)果對比如表1 所示。
表1 本系統(tǒng)與訊飛轉(zhuǎn)錄電力新聞結(jié)果對比
表1 加粗的為語音轉(zhuǎn)換錯(cuò)誤的地方,通過分析可以看出訊飛轉(zhuǎn)錄共出現(xiàn)8 處語音轉(zhuǎn)換錯(cuò)誤,本文設(shè)計(jì)的系統(tǒng)出現(xiàn)3 處語音回轉(zhuǎn)換錯(cuò)誤,相比之下本系統(tǒng)在電力新聞?wù)Z音轉(zhuǎn)錄方面準(zhǔn)確度更高,更具有可行性。
本文設(shè)計(jì)一種基于語音識(shí)別技術(shù)的智能會(huì)議助手,將會(huì)議發(fā)言語音實(shí)時(shí)轉(zhuǎn)錄為文字和會(huì)議記錄,支持對實(shí)時(shí)轉(zhuǎn)錄的會(huì)議記錄結(jié)合錄音進(jìn)行回溯,并且可通過語音完成演示控制,有效提高會(huì)議紀(jì)要的整理效率,下一步將繼續(xù)優(yōu)化完善特定電力場景下的語音語料庫,提升系統(tǒng)的準(zhǔn)確性。