田麗,洪福斌
自然語言處理在電力智能問答領域的應用研究
田麗,洪福斌
(國網(wǎng)電子商務有限公司,北京 100053;國網(wǎng)雄安金融科技集團有限公司,河北 保定 071000)
利用自然語言處理技術和機器學習技術,結合電力常識和居民用電側知識積累(包含用電安全、用電常識、用電政策、應急預案等內容),構建電力行業(yè)知識庫,在用戶側提供智能在線客服。智能在線客服支持用戶通過文本或語音輸入,系統(tǒng)識別客戶真實意圖,通過引導交互式地問詢,為居民用戶提供問題解答,問題涵蓋生活用電方面的常識、電力政策、停電信息、辦電流程等,既能顯著節(jié)約客服中心的工作量,提高工作效率,又能豐富客服系統(tǒng)功能,提升用戶體驗。
自然語言處理;機器學習;知識庫構建;智能問答
電力領域目前對用戶的問題訴求處理仍采用傳統(tǒng)的呼叫模式:以電話→坐席受理→問題解答→坐席回訪為主[1],用戶的問題涵蓋了故障報修、停電信息查詢、電量電費查詢、投訴舉報、電動車聯(lián)網(wǎng)等業(yè)務類型,客服中心為了保證能夠隨時解答用戶提出的問題,提供7×24 h服務,投入了大量的人力資源。盡管如此,業(yè)務知識更新速度快,業(yè)務人員的知識儲備和學習能力不一,人力成本不斷增加,而且電話客服通過語音菜單對客戶進行分類引流,雖然一定程度上提高了匹配程度和應答效率,但是相對復雜的客服流程卻無形中增加了用戶和客服之間的溝通門檻,造成不佳的用戶體驗。因此,如何減輕客服壓力,降低人力成本,打造功能更加豐富、體驗更好的客服系統(tǒng),是急需解決的問題。
人工智能是目前研究的熱點和技術發(fā)展趨勢,智能問答作為人工智能的一種典型表現(xiàn)形式,允許用戶口語化表達,并為用戶直接返回所需的答案,提高了溝通效率,節(jié)省了人力資源,具有較強的應用需求和研究價值。
目前在智能問答方面的研究主要有三方面:文獻[2-3]提出基于語法分析的問答系統(tǒng)構建方法,文獻[4-6]提出基于復雜神經網(wǎng)絡詞向量技術可提高信息檢索的速度以及準確率,文獻[7-8]提出深度學習技術、Learning to Rank以及基于用戶反饋信息調整檢索答案技術。
綜上所述,構建一套問答系統(tǒng),既需要理解自然語言問句,還需要構建海量的知識庫,因此,本文通過對自然語言問句的理解和研究,設計一套智能問答系統(tǒng),實現(xiàn)兩個目標:一是能更好地理解用戶的上下文語境和語義,提升對問題的理解能力;二是系統(tǒng)自身具備更強大的知識庫和自我學習的能力,通過問答訓練和算法調優(yōu),不斷提升答案的匹配精準度。本文提到的智能問答系統(tǒng),主要結合電力常識和公司居民用電側知識積累(包含用電安全、用電常識、用電政策、應急預案等內容),構建電力行業(yè)知識庫,在用戶側提供智能在線客服,通過語音識別和語義分析技術,識別客戶真實意圖,通過引導交互式地服務,為居民用戶提供生活用電方面的常識、電力政策、停電信息、辦電流程等問題的解答。
自然語言處理是一門交叉學科,涉及語言學、數(shù)學、計算機科學、信息學、電子科學、心理科學、認知科學、神經科學等,而作為專業(yè)領域內的研究,還需要加入該專業(yè)的領域知識[9-11]。本文所設計的智能問答系統(tǒng)關鍵模塊主要包含知識庫創(chuàng)建、問題理解、問題檢索,涉及的技術主要包含語料清洗、中文分詞、特征工程、模型訓練。
把不感興趣或者無用的,視為噪音的內容進行刪除,如針對原始文本,提取標題、摘要、正文等信息,對于爬取的網(wǎng)頁內容,去除廣告、標簽、HTML、JS等代碼和注釋。
漢語以字為基本書寫單位,詞語之間沒有明顯的區(qū)分標記,分詞技術是知識庫搜索查詢過程中的第一步,分詞實現(xiàn)效果的好壞對系統(tǒng)問答結果的影響非常大[12]。中文分詞后,給每個詞或者詞語進行詞性標注,如給詞語打上形容詞、動詞、名詞等標簽;去停用詞指對文本特征沒有任何貢獻作用的字詞進行刪除,比如標點符號、語氣、人稱等;命名實體識別指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。
把分詞之后的字和詞語表示成計算機能夠計算的類型。把中文分詞的字符串轉換成數(shù)字,主要運用的技術為詞向量技術,詞向量是一種將單詞表征成為高維空間的向量表示方法。詞向量技術最初用于在語言模型技術中,將單詞詞典作為一個向量,詞典中所含詞的個數(shù)即為向量的維度,某個單詞的向量即為單詞在詞典中出現(xiàn)的位置。本文所述智能問答系統(tǒng)所使用的詞向量技術來源于谷歌發(fā)布的Word2vec開源工具[13]。其主要包含兩個模型,即跳字模型(Skip-Gram)和連續(xù)詞袋模型(Continuous Bag of Words,簡稱CBOW),以及兩種高效訓練的方法,即負采樣(Negative Sampling)和層序Softmax(Hierarchical Softmax)。Word2Vec詞向量可以較好地表達不同詞之間的相似和類比關系。
卷積神經網(wǎng)絡是人工神經網(wǎng)絡的一種,卷積神經網(wǎng)絡包含至少六層的神經網(wǎng)絡,包含輸入層、特征表示層、卷積層、下采樣層、隱藏層和輸出層[12]。在分類模型的建立上,本文選擇使用的是卷積神經網(wǎng)絡CNN。CNN最大的優(yōu)勢在特征提取方面。由于CNN的特征檢測層通過訓練數(shù)據(jù)進行學習,避免了顯示的特征抽取,而是隱式地從訓練數(shù)據(jù)中進行學習;再者由于同一特征映射面上的神經元權值相同,所以網(wǎng)絡可以并行學習,相比于傳統(tǒng)的Randomforest或是Xgboost等經典分類模型,CNN具有發(fā)現(xiàn)更多難以察覺的局部特征的能力,而不是像傳統(tǒng)的方法最終的結果始終要受到特征工程好壞的限制。
電力智能問答系統(tǒng)產品功能流程如圖1所示,用戶通過語音方式或者文本方式將問答語句輸入,如果用戶輸入為語音,需要通過語音識別技術將其轉化為文字,并通過語義識別技術將其轉換為表達式,自然語言處理模塊理解表達式,將其轉化并輸入至對話管理模塊,對話管理模塊采取特定的算法進行回復,然后再生成自然語言,完成文字至語音的輸出。
圖1 電力智能問答系統(tǒng)產品功能流程
本文電力智能問答系統(tǒng)體系架構如圖2所示,最下層為數(shù)據(jù)獲取層,往上分別為知識庫構建、智能問答處理及應用模塊。
圖2 電力智能問答系統(tǒng)體系架構
知識庫構建模塊:通過數(shù)據(jù)爬取、人工標注、關系抽取、知識分類、規(guī)則構建等一系列過程,形成知識庫。
智能問答處理模塊:用戶以語音或者文字輸入后,主要經過預處理、問題理解、問題檢索和反饋,最終以文字或者語音形式輸出給用戶。
應用模塊:在智能問答核心技術的支撐下產生的各種應用和服務,可提供業(yè)務辦理咨詢、服務申請、家庭電氣導購、電費電量查詢、用電常識查詢、電力政策查詢、停電通知等服務,同時可和傳統(tǒng)人工坐席相結合,在智能問答無法回答的情況下,再呼叫人工坐席。
智能應答系統(tǒng)首先要有數(shù)據(jù)來構建知識庫,數(shù)據(jù)可以來自于互聯(lián)網(wǎng)爬取,也可是現(xiàn)有的知識庫或者特定的語料庫。
數(shù)據(jù)源:95598熱線業(yè)務范圍覆蓋故障報修、業(yè)務咨詢、投訴、舉報、建議、意見、表揚、服務申請等業(yè)務類型,經過多年運營已經形成了海量、翔實的數(shù)據(jù)積累[14]。另外,數(shù)據(jù)源還可包括電力公司網(wǎng)站、營業(yè)廳、供電所、電管家等各業(yè)務數(shù)據(jù),國網(wǎng)各業(yè)務系統(tǒng)日志數(shù)據(jù)以及百度、論壇等網(wǎng)絡數(shù)據(jù)。
數(shù)據(jù)獲?。壕W(wǎng)絡爬蟲、人工維護錄入、第三方開放平臺接口。
數(shù)據(jù)挖掘:對所獲取的數(shù)據(jù)按一定的結構和規(guī)則,通過數(shù)據(jù)挖掘技術挖掘成有用的信息或結構化信息[15]。
電力智能問答系統(tǒng)的數(shù)據(jù)獲取與挖掘如圖3所示。
圖3 電力智能問答系統(tǒng)的數(shù)據(jù)獲取與挖掘
知識庫有通用領域的知識庫和專用領域知識庫,針對電力領域智能問答領域,通用領域的知識庫已不能滿足需求,需要構建專用領域知識庫,獲取數(shù)據(jù)后,可以進行知識庫構建,知識庫構建模塊主要分為詞類管理、知識庫管理和問答歷史管理。
3.3.1 詞類管理
詞類管理模塊實現(xiàn)對業(yè)務關鍵詞、近義詞、敏感詞、專業(yè)詞、前后綴和拼音詞的處理。特定領域內部有許多領域內術語,需要人工設置領域內關鍵詞,用以區(qū)分和精確匹配答案,詞類管理通過人工手動添加的方式,增加詞類信息。
3.3.2 知識庫管理
知識庫是智能問答系統(tǒng)的知識中樞,由知識分類、標準問題、擴展問題、標準答案、實例、屬性組成。其中知識分類是運營人員或客戶預先對知識庫的各個問答對標注的分類信息,實例是指一個針對同一答案的不問問法的集合,屬性是另一種分類信息。標準問題和標準答案是指客戶給出的常用知識問答對,擴展問題是指運營人員針對同一標注答案提供不同問法。
3.3.3 問答歷史管理
問答歷史模塊記錄所有用戶跟系統(tǒng)的聊天記錄,基于此可以重點關注未解決問題,分析、改進系統(tǒng)的智能化程度。
智能問答主要包括預處理、問題理解、問題檢索3個模塊,預處理模塊將用戶輸入的查詢語句通過智能分詞、命名實體標注等方法轉換為關鍵字、詞序列。問題理解模塊明確用戶提出的問題,問題檢索模塊指系統(tǒng)提供根據(jù)用戶提出的問題進行查詢以及排序并返回結果的過程。
3.4.1 預處理
預處理包括智能分詞、命名實體識別、智能反問模塊。
智能分詞模塊:將用戶輸入的查詢語句進行分詞,分詞時將詞類管理中生成的特殊詞以及詞組添加入分詞詞典,并保持更新。
命名實體識別模塊[16]:主要負責將語句中的人名、地名以及事先標注好的實體名識別出,并加以特殊標記。
智能反問模塊:在檢索不到用戶答案時,判斷用戶是不是表意不清,反問用戶是不是想要咨詢另一問題。
3.4.2 問題理解
問題分析模塊主要通過分類器識別、分析用戶問題的意圖,在問題分析模塊中,使用基于詞向量的卷積神經網(wǎng)絡模型對用戶意圖進行分類。其中詞向量技術主要用于解決文本表示的問題,而卷積神經網(wǎng)絡實現(xiàn)文本特征的刪選和構建分類模型。
3.4.3 問題檢索與反饋
數(shù)據(jù)庫中存儲一些常用用戶問題和標準問題的問答,通過一個分布式的內存數(shù)據(jù)庫實現(xiàn),主要解決用戶最常用的問題,例如“電費電量查詢”等。檢索模塊主要根據(jù)問題分析模塊分析得到的詞,去分布式索引庫中檢索問題相關的問題。與此同時,為了更精準地理解用戶以及擴大知識范圍,問題通過推薦模塊對用戶進行相應的推薦,推薦模塊通過業(yè)務邏輯樹實現(xiàn)分層次的業(yè)務推薦。另外,為了更好地完成與用戶的會話信息,系統(tǒng)還會對用戶Session進行維護,使之能夠實現(xiàn)業(yè)務與操作的自動補全。
系統(tǒng)在完善業(yè)務相關問答的同時,還可以回答客戶的一些非業(yè)務問題,基于機器學習技術的情感分析模塊可以對用戶的情感進行判斷,使系統(tǒng)能人性化地對用戶的投訴等問題進行針對性的回答。
3.5.1 上下文理解
系統(tǒng)通過用戶ID維護對話Session,自動記錄用戶的相關信息,如有要處理的業(yè)務以及要進行的操作,在Session可以實現(xiàn)對用戶業(yè)務和操作的自動補全。此外還包括對話上下文理解、對話流控制。同時具有多用戶狀態(tài)管理功能,維護多用戶對話記錄上下文,追蹤和控制多用戶之間不同的狀態(tài)。
3.5.2 智能推薦
為了使系統(tǒng)給出的答案更加多樣化,系統(tǒng)對Query進行了推薦,該模塊通過處理用戶的問詢,結合用戶之前的提問內容,補全上下文信息,結合關鍵詞匹配技術,為用戶提供語義相關、多維度的信息服務,實現(xiàn)推薦信息最大化。同時開通了以業(yè)務邏輯樹為主體的推薦平臺,該平臺通過提取業(yè)務關鍵詞之間的邏輯關系,建立業(yè)務之間的多層分支結構,為推薦平臺多維度、精細化語義匹配推薦算法的實現(xiàn)提供基礎。
3.5.3 情感分析
系統(tǒng)通過已有數(shù)據(jù)進行特征提取,找到表示具有情感傾向性的特征詞,通過機器學習方法對大量數(shù)據(jù)進行建模,訓練模型,判斷問題的情感傾向,以此判斷當前用戶的情感傾向性,如高興、憤怒等,對用戶進行針對性的回答。
本文提出的基于自然語言處理處理技術和機器學習技術構建電力領域智能問答系統(tǒng),為居民用電測提供智能在線客服,既能顯著節(jié)約人工客服的工作量,更能滿足業(yè)務需求,提高客戶體驗,有著非常重要的應用前景,另外,由于自然語言和領域知識的復雜性,當前限定領域的問答系統(tǒng)的實現(xiàn)在技術上還有很多難點需要解決,需要進一步研究語義理解、語境識別、指代消解、自學習等技術,提升問答系統(tǒng)的效率和準確率。
[1]游紹華,張羿,段紅剛,等.智能客服在電網(wǎng)呼叫中心的應用[J].科技傳播,2018(1):57-59.
[2]BERNAT J,CHOU A,ROY F,et al.Semantic parsing on freebase from question-answer pairs[C]//The 2013 conference on empirical methods on natural language processing,seattle:association fbr computational linguistics,2013:1533-1544.
[3]BERANT J,LIANG P.Semantic parsing via paraphrasing[C]//The 52nd annual meeting of the association for computational linguistics,baltimore: association for computational linguistics,2014:479-485.
[4]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient estimation of word representations in vctor space[J/OL].[2021-03-23].https://www.oalib.com/paper/4057741.
[5]MIKOLOV T,SUTSKEVER I,CHEN K ,et al. Distributed representations of words and phrases and their compo sitionality[J]. Advances in neural information processing systems,2013(26):3111-3119.
[6]MAAS A L,DALY R E,PHAM P T,et al.Learning word vectors for sentiment analysis[C]//49th annual meeting of the association for computational Linguistics:human language technologies,2011.
[7]LEI Y,HERMANN K M,BLUNSOM P,et al.Deep learning for answer sentence selection[J/OL].[2021-03-23].https://www.oalib.com/paper/4067539.
[8]CHELARU S,ORELLANA-RODRIGUEZ C,ALTINGOVDE I S.How useful is social feedback for learning to rank YouTube videos?[J]. World wide web,2013,17(5):997-1025.
[9]MANNING C D.Computational linguistics and deep learning[J].Computational linguistics,2015,41(4):1-7.
[10]JURAFSKY D,MARTIN J H.Speech and Language processing:an introduction to natural language processing,computational linguistics,and speech recognition[M]. NJ:Prentice Hall,Upper Saddle River,2008.
[11]MANNING C D,SCHIITZE H.Foundations of statistical natural language processing[M].London:The MIT Press,1999.
[12]王蕾.面向醫(yī)療健康領域的智能問答系統(tǒng)的設計與實現(xiàn)[D].北京:北京郵電大學,2018.
[13]邢超.智能問答系統(tǒng)的設計與實現(xiàn)[D].北京:北京交通大學,2015.
[14]游紹華,張羿,段紅剛,等.智能客服在電網(wǎng)呼叫中心的應用[J].科技傳播,2018(1):57-59.
[15]邱劍.電力中文文本數(shù)據(jù)挖掘技術及其在可靠性中的應用研究[D].杭州:浙江大學,2016.
[16]楊燕.面向電商領域的智能問答系統(tǒng)若干關鍵技術研究[D].上海:華東師范大學,2016.
TP391.1
A
10.15913/j.cnki.kjycx.2021.08.002
2095-6835(2021)08-0005-04
田麗(1992—),女,本科,主要研究方向為自然語言處理技術的主要模型及算法及其在語音識別、搜索引擎、知識圖譜等方面的應用。
〔編輯:王霞〕