張正普,王曉冬,郭奕聰
(1.中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計(jì)算技術(shù)研究所,北京 100081;2.中國鐵路網(wǎng)絡(luò)有限公司,北京 100038)
目前,鐵路企業(yè)規(guī)章制度繁多,制度條例冗細(xì),不易管理和學(xué)習(xí)解讀。制度之間存在較強(qiáng)關(guān)聯(lián)性,需對各項(xiàng)制度進(jìn)行系統(tǒng)地學(xué)習(xí),才不會造成工作審批流程、審批單等的缺失或錯誤;制度及工作審批流程經(jīng)常隨著上級單位的管理需求變更而進(jìn)行改變,易造成員工對制度更新的信息接收滯后,從而影響工作效率;各項(xiàng)制度分管管理部門不同,管理較分散,無統(tǒng)一問詢、解答出口。鐵路企業(yè)智能問詢平臺旨在采用人工智能技術(shù)為企業(yè)的客戶及內(nèi)部管理提供便捷、準(zhǔn)確和高質(zhì)量的服務(wù),拓展服務(wù)渠道,提高員工工作效率,增強(qiáng)企業(yè)效能,提高客戶滿意度。
智能語義語音作為智能問詢平臺的核心技術(shù),又稱為機(jī)器人智能語音交互技術(shù),是以語音作為載體,使機(jī)器具備能說會聽、學(xué)習(xí)思考的能力,從而實(shí)現(xiàn)人類與機(jī)器之間類似人類交互之間的自然語音交互過程。通過智能語音交互技術(shù)建設(shè)智能問詢平臺具有重要意義[1,2]。
鐵路企業(yè)業(yè)務(wù)部門向管理部門咨詢政策主要通過現(xiàn)場問詢和電話咨詢2種方式實(shí)現(xiàn),均靠人工完成,存在著工作量大、服務(wù)質(zhì)量難以控制等問題。通過企業(yè)內(nèi)部管理部門人工解讀規(guī)章制度以及制度條例方式,為業(yè)務(wù)部門提供釋疑工作,總結(jié)與業(yè)務(wù)部門溝通模式分為問答型多輪對話、預(yù)知型問題引導(dǎo);根據(jù)服務(wù)內(nèi)容,可分為咨詢、求助和建議等3類。
(1)咨詢類。業(yè)務(wù)部門詢問條例及規(guī)章制度信息,包括企業(yè)管理?xiàng)l例。
(2)求助類。業(yè)務(wù)部門向管理部門尋求幫助,包括需要管理部門配合、助力業(yè)務(wù)工作的進(jìn)展。
(3)建議類。業(yè)務(wù)部門提出管理建議,包括服務(wù)質(zhì)量的改善、管理水平的提升等。
梳理企業(yè)內(nèi)部管理要求,結(jié)合鐵路企業(yè)管理特點(diǎn),總結(jié)分析平臺功能需求,需實(shí)現(xiàn)系統(tǒng)統(tǒng)一前端入口,基于智能服務(wù)引擎及統(tǒng)一管理后臺,實(shí)現(xiàn)鐵路企業(yè)智能問詢平臺的整體功能。
鐵路企業(yè)智能問詢平臺的總體框架,如圖1所示。
圖1 鐵路企業(yè)智能問詢平臺總體框架
(1)基礎(chǔ)硬件設(shè)備支撐:為平臺的開發(fā)及運(yùn)行提供服務(wù)器、存儲和網(wǎng)絡(luò)等基礎(chǔ)的硬件支撐,可兼容互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC,Internet Data Center)或第三方基礎(chǔ)設(shè)施即服務(wù)(IAAS,Infrastructure as a Service)平臺。
(2)開發(fā)支撐:為系統(tǒng)研發(fā)提供研發(fā)平臺,二次開發(fā)接口、測試工具及預(yù)發(fā)布環(huán)境。
(3)語義引擎集群:引擎集群部署,為不同管理部門提供相應(yīng)服務(wù),以滿足語義引擎使用的高可用性。統(tǒng)一形成處理自然語言和集成各種專業(yè)處理引擎的基礎(chǔ)平臺。
(4)業(yè)務(wù)邏輯:基于語義引擎集群式的部署方式,為業(yè)務(wù)部門提供業(yè)務(wù)功能,如自然語義識別、推薦語義、通用領(lǐng)域語料和數(shù)據(jù)報(bào)表等。
(5)用戶管理臺:為系統(tǒng)管理員提供相關(guān)功能,包括機(jī)器人管理、知識管理、應(yīng)用管理和素材管理[3]。
(6)接入渠道:支持全渠道服務(wù)應(yīng)用接入,并支持第三方服務(wù)應(yīng)用的接入。
鐵路企業(yè)智能問詢平臺自終端到后臺分用戶平臺層、公共服務(wù)層和基礎(chǔ)支撐層3個層面,為企業(yè)管理提供的功能,如圖2所示。
圖2 鐵路企業(yè)智能問詢平臺功能框架
(1)用戶平臺層面主要涵蓋智能問詢、智能服務(wù)熱線及系統(tǒng)管理功能,為企業(yè)管理提供高效率、高質(zhì)量的服務(wù)。
(2)公共服務(wù)層主要涉及推送服務(wù)、渠道接入推送服務(wù)、等服務(wù)內(nèi)容。
(3)基礎(chǔ)支撐層由接口平臺、統(tǒng)一管理后臺模塊、語義引擎等業(yè)務(wù)功能模塊組成。
接口平臺實(shí)現(xiàn)智能問詢平臺與各渠道終端的業(yè)務(wù)邏輯開發(fā)和展現(xiàn),支持全渠道服務(wù)應(yīng)用接入,并支持第三方服務(wù)應(yīng)用的接入。
統(tǒng)一管理后臺可以管理和維護(hù)引擎的運(yùn)行,配置引擎運(yùn)行所需系統(tǒng)參數(shù),管理和配置知識庫,以及對終端用戶交互日志信息的統(tǒng)計(jì)分析。
語義引擎主要為分詞引擎、語義分析引擎及搜索引擎結(jié)合超大規(guī)模的詞典,統(tǒng)一形成處理自然語言和集成各種專業(yè)處理引擎的基礎(chǔ)平臺,綜合了多種學(xué)科的知識,進(jìn)行高度智能化的語意分析,準(zhǔn)確定位知識庫內(nèi)對應(yīng)業(yè)務(wù)答案。
鐵路企業(yè)智能問詢平臺的核心技術(shù)是智能語義分析模型的搭建,用以提供對非結(jié)構(gòu)化大數(shù)據(jù)智能理解與自動化處理能力,實(shí)現(xiàn)文本知識多維度的業(yè)務(wù)標(biāo)簽標(biāo)記,將無序的非結(jié)構(gòu)化信息轉(zhuǎn)換為滿足企業(yè)管理業(yè)務(wù)需求的結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)上下文語義分析、關(guān)鍵詞識別、模糊問題識別,進(jìn)而提供語義識別、智能語音等平臺業(yè)務(wù)邏輯。
語音識別利用信號處理方法對說話人的語音進(jìn)行檢測、特征提取、降噪等預(yù)先處理,從而獲取最合適識別引擎處理的語音[4],如圖3所示。圖中,IVR為互動式語音應(yīng)答(Interactive Voice Response);ASP為自動語言識別(Automatic Speech Recognition)。
圖3 智能語音實(shí)現(xiàn)流程
在實(shí)際應(yīng)用中,語音信號的壓縮率介于10~100之間。語音信號包含了大量不同的信息,提取哪些信息,用哪種方式提取,需要綜合考慮各方面的因素,如成本、性能、響應(yīng)時間和計(jì)算量等。語音訓(xùn)練模型[5]是通過輸入大量的語音語料構(gòu)建聲學(xué)模型,從而完成語音到音節(jié)的分節(jié)計(jì)算。當(dāng)語音經(jīng)過前端處理及特征提取后,將獲取的特征向量與聲學(xué)模型及發(fā)音詞典進(jìn)行比對搜索。
語音合成技術(shù)將文字序列轉(zhuǎn)換成音韻序列,由語音合成系統(tǒng)根據(jù)音韻序列生成語音波形,對語音信號進(jìn)行分析處理,去掉與語音識別無關(guān)的冗余信息,獲得影響語音識別的重要信息,同時對語音信號進(jìn)行壓縮,將任意文字信息實(shí)時轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音。
通過語音識別獲取的音頻信號輸入,完成特征提取,聲學(xué)模型提取有代表的特征向量,語音解碼搜索對特征向量,語言模型分?jǐn)?shù)、若干字詞在字典得分,最后輸出得分高的作為識別結(jié)果。在問答庫中選出與輸入問題相似度最高的問題,返回相似度最高的問題所對應(yīng)的答案[6],智能語音識別流程圖,如圖4所示。
圖4 智能語音識別流程
傳統(tǒng)文本匹配技術(shù)有詞袋(BOW,Bag-of-Word)模型、向量空間模型(VSM,Vector Space Model)、詞頻—逆向文件頻率(TF-IDF,Term Frequency-Inverse Document Frequency)、BM25、Jaccord、SimHash 等,主要解決字面相似度問題,由于中文含義的豐富性,通常很難直接根據(jù)關(guān)鍵字匹配或者基于機(jī)器學(xué)習(xí)的淺層模型來確定2個句子之間的語義相似度。
為此采用深度學(xué)習(xí)文本匹配模式進(jìn)行語義表示,能夠節(jié)省人工特征提取的成本。從大量的樣本中自動提取出詞語之間的關(guān)系,并能結(jié)合短語匹配中的結(jié)構(gòu)信息和文本匹配的層次化特性,發(fā)掘出隱含在大量數(shù)據(jù)中含義不明顯的特征。
在已知輸入序列的情況下,采用RNN-T(RNNT,Recurrent Neural Network Transducer)模型進(jìn)行語義識別輸出標(biāo)簽的概率分布[7]。RNN-T的結(jié)構(gòu)將前饋網(wǎng)絡(luò)和 softmax通過 audio encoder的輸出和 label encoder的輸出結(jié)合起來,從而在每一個時間節(jié)點(diǎn)得到一個在輸出標(biāo)簽上的概率分布。
智能問詢語音平臺目前已在中國鐵道科學(xué)研究院集團(tuán)有限公司等多個鐵路企業(yè)機(jī)構(gòu)使用。結(jié)合鐵路網(wǎng)絡(luò)環(huán)境及網(wǎng)絡(luò)安全[8],鐵路企業(yè)智能問詢平臺項(xiàng)目的部署方案,如圖5所示。
圖5 平臺部署架構(gòu)
該部署方案全部服務(wù)器集中部署在鐵路各企業(yè)數(shù)據(jù)中心,前端交互應(yīng)用服務(wù)器放置在鐵路網(wǎng)絡(luò)隔離區(qū)(DMZ,Demilitarized Zone),將核心引擎及管理后臺服務(wù)器放置在鐵路數(shù)據(jù)通信網(wǎng)絡(luò)(DCN,Data Communication Network)區(qū),對前端交互應(yīng)用服務(wù)器開通基于TCP協(xié)議的公網(wǎng)訪問權(quán)限,以保證對APP、Web渠道服務(wù)器的正常訪問。
前端用戶通過3G/4G網(wǎng)絡(luò)或有線接入方式,經(jīng)過常規(guī)的F5硬件負(fù)載均衡服務(wù)器后,訪問前端業(yè)務(wù)通信服務(wù)器,參照100/S并發(fā)訪問量計(jì)算,搭配前端業(yè)務(wù)通信服務(wù)器,同時配備核心引擎服務(wù)器。前端業(yè)務(wù)通信服務(wù)器可訪問數(shù)據(jù)庫環(huán)境,數(shù)據(jù)庫服務(wù)器利舊,安裝于各企業(yè)數(shù)據(jù)中心現(xiàn)有存儲環(huán)境中。另外,配備管理后臺服務(wù)器(本項(xiàng)目集成部署在前端交互應(yīng)用服務(wù)器中)。管理后臺服務(wù)器與前端業(yè)務(wù)通信服務(wù)器、數(shù)據(jù)庫、核心引擎服務(wù)器之間進(jìn)行通信控制。數(shù)據(jù)庫與核心引擎服務(wù)器之間不產(chǎn)生通信關(guān)系。
本智能問詢平臺針對數(shù)據(jù)高效檢索及分析能力進(jìn)行測試,平臺在并發(fā)性、實(shí)時查詢能力、可靠性等滿足日常業(yè)務(wù)需求。實(shí)際使用過程有著良好的效率,2 000用戶級的高并行處理能力,秒級的查詢返回速度,7x24 h的可靠服務(wù),支撐問詢智能化輔助。
針對企業(yè)制度中的一個知識點(diǎn),用戶通過不同的問法提問,平臺識別用戶的真實(shí)意圖。用戶輸入的問題中主語、賓語、謂語缺失一項(xiàng)等情況下,平臺通過自然語言技術(shù)中的句法依存分析發(fā)現(xiàn)缺失關(guān)鍵信息,則根據(jù)上輪交互的信息對本輪交互進(jìn)行實(shí)體補(bǔ)全,再給出正確答案。當(dāng)用戶咨詢某個問題,并且該問題有一個或多個必要條件是關(guān)鍵信息時,如果用戶在輸入的過程中缺失必要條件,平臺通過特征提取技術(shù)不能獲得關(guān)鍵的信息,就會通過反問機(jī)制與用戶再次交互,獲取必要條件,直到所有必要條都滿足的情況下,才會給出正確答案。
平臺在識別用戶意圖時,可通過對用戶話術(shù)的分析,進(jìn)行知識展現(xiàn),包括針對性的圖文營銷內(nèi)容、問題答案、所需操作快捷鏈接、建議問列表等。用戶的輸入中含有多個關(guān)鍵詞,識別并理解句子的真實(shí)意圖。平臺在識別用戶真實(shí)意圖時,需要依賴自然語言中的特征(關(guān)鍵字)來識別,通過機(jī)器學(xué)習(xí)的算法,支持無特征識別用戶意圖。當(dāng)無法確定具體用戶問題時會自動給出建議問,引導(dǎo)用戶鎖定問題,進(jìn)而鎖定答案。
本文討論了智能語音語義在鐵路企業(yè)智能問詢平臺的實(shí)現(xiàn)邏輯。人工智能技術(shù)為企業(yè)的客戶及內(nèi)部管理提供便捷、準(zhǔn)確和高質(zhì)量的服務(wù),拓展服務(wù)渠道。鐵路企業(yè)智能問詢平臺的研究與使用,提高了員工工作效率,增強(qiáng)企業(yè)效能,提高客戶滿意度。未來,將持續(xù)推進(jìn)鐵路企業(yè)智能問詢平臺在企業(yè)管理服務(wù)上的深度應(yīng)用。