仇建飛
(中國移動通信集團(tuán)天津有限公司 天津市 300000)
電信運(yùn)營商通常有各種營銷渠道,在面對一線客戶咨詢或是業(yè)務(wù)營銷推薦時,時常會遇到各種各樣的問題,如業(yè)務(wù)查詢、系統(tǒng)故障、系統(tǒng)異常、投訴問題或是疑難問題,需要快速尋求咨詢和支持,急需支撐營業(yè)一線人員重要運(yùn)營場景,傳統(tǒng)客服系統(tǒng)應(yīng)運(yùn)而生。但是傳統(tǒng)客服系統(tǒng)存在些固有問題。
由于運(yùn)營商的業(yè)務(wù)點(diǎn)細(xì)多繁雜,內(nèi)部用戶的輸入具備口語化、多樣化的特性,傳統(tǒng)客服系統(tǒng)面臨“智能應(yīng)答不準(zhǔn)、搜索感知差、知識散落未整合、投訴工單質(zhì)量不可控”等痛點(diǎn)。因此急需引入先進(jìn)的AI 方法,對每條投訴、事件、問題數(shù)據(jù)進(jìn)行“分析、跟蹤、關(guān)系梳理”,并根據(jù)邏輯關(guān)系進(jìn)行聚合,打造“面向客戶,敏捷智能”的知識圖譜,提升面向業(yè)務(wù)一線的服務(wù)水平。
本文的課題目標(biāo)定位于“智能互聯(lián)網(wǎng)支撐一線客服”,旨在利用當(dāng)前人工智能發(fā)展的重要組成部分知識圖譜技術(shù),來實(shí)現(xiàn)傳統(tǒng)業(yè)務(wù)的互聯(lián)網(wǎng)化和智能化發(fā)展,通過知識圖譜等AI 方法手段,來解決過去企業(yè)的知識庫不全,知識點(diǎn)散亂、搜索目的效果不好、智能應(yīng)答不準(zhǔn)確、提升投訴工單質(zhì)量、業(yè)務(wù)流轉(zhuǎn)工單質(zhì)量,利用知識圖譜豐富的邏輯、關(guān)系能力提升機(jī)器人智能感知,提供一線客服更加人性的應(yīng)答互動體驗(yàn)。
知識圖譜實(shí)際上是一種語義網(wǎng)絡(luò),是基于圖構(gòu)建數(shù)據(jù)結(jié)構(gòu),是語義搜索、智能問答、決策支持等智能服務(wù)的基礎(chǔ)技術(shù)之一。知識圖譜最常用的語義關(guān)系包括:“實(shí)體-關(guān)系-實(shí)體”,“實(shí)體-屬性-屬性值”。知識圖譜采用三元組描述事實(shí), 所使用的描述語言大多是已研發(fā)的本體語言, 如 RDFS、OWL 等。它由兩層結(jié)構(gòu)組成,一部分是data layer 數(shù)據(jù)層,另一部分是schema layer。模式層是一個概念邏輯模型,定義數(shù)據(jù)層規(guī)則和約束條件。在數(shù)據(jù)層,是由基本三元組構(gòu)成一個圖形網(wǎng)狀關(guān)系網(wǎng),其中結(jié)點(diǎn)代表實(shí)體(entity)或者概念(concept),邊代表實(shí)體(entity)或者概念(concept)之間的各種語義關(guān)系。構(gòu)建知識圖譜是需要從大量開放的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)源中,抽取實(shí)體(概念、人、事物)和關(guān)系,經(jīng)過幾個步驟,數(shù)據(jù)清洗、實(shí)體識別、關(guān)系識別、數(shù)據(jù)聚合處理等逐步構(gòu)建而成。知識圖譜當(dāng)前比較常用于語義搜索、智能問答、個性化推薦等幾個領(lǐng)域。
面向企業(yè)客服的B 域數(shù)據(jù)源來自三個方向,首先主要來源是從BOMC 投訴工單系統(tǒng)和在線客服日志獲得的非結(jié)構(gòu)化數(shù)據(jù),稱為業(yè)務(wù)數(shù)據(jù)源;第二個是業(yè)務(wù)新詞和術(shù)語,需要獲得B 域?qū)I(yè)術(shù)語、詞典、操作術(shù)語等等,對非結(jié)構(gòu)化知識進(jìn)行分析時,需要利用這些數(shù)據(jù)提高語義分析時準(zhǔn)確度,稱為基礎(chǔ)數(shù)據(jù)源;第三個來自以原子化知識庫中的固有內(nèi)容,以無監(jiān)督、有監(jiān)督兩種模式自動構(gòu)建面向企業(yè)業(yè)務(wù)服務(wù)的知識圖譜。數(shù)據(jù)來源如圖1 所示。
本次知識圖譜系統(tǒng)是面向運(yùn)營商B 域場景的知識圖譜自動構(gòu)建,是基于B 域業(yè)務(wù)場景出發(fā),由于企業(yè)業(yè)務(wù)場景知識圖譜屬于特定領(lǐng)域知識圖譜,所涉及的技術(shù)要求,架構(gòu)設(shè)計(jì),問題難點(diǎn)都與通用領(lǐng)域的情況不同。知識圖譜自動構(gòu)建流程方案,是按照模式設(shè)計(jì)、數(shù)據(jù)清洗、實(shí)體識別、關(guān)系識別、知識融合等流程來進(jìn)行。
在對數(shù)據(jù)源進(jìn)行下一步處理之前,要先定義一個Schema,就是知識圖譜的模型設(shè)計(jì),相當(dāng)于一個領(lǐng)域內(nèi)的數(shù)據(jù)模型,Schema是用來規(guī)范知識圖譜的領(lǐng)域與描述對象,起到管理知識圖譜的作用,我們從B 域業(yè)務(wù)場景的服務(wù)訴求出發(fā),基于現(xiàn)有事件單、BOMC投訴單、異常單數(shù)據(jù),從一線客服實(shí)際工作出發(fā)點(diǎn)角度思考,客服人員關(guān)注邏輯點(diǎn)和常問一些問題,比如:工單異常怎么解決?發(fā)票無法打印怎么辦?某個套餐怎么訂購不了呢?等等作為思路,設(shè)計(jì)出一套B 域運(yùn)維領(lǐng)域的知識圖譜Schema,作為圖譜自動抽取的框架進(jìn)行語義分析。
現(xiàn)階段,我們對于運(yùn)維域里面的對象,重點(diǎn)關(guān)注B 域故障受理場景,相對比較關(guān)注“故障原因”、“故障內(nèi)容”、“解決方案”的實(shí)體,和“導(dǎo)致”、“解決”的關(guān)系,知識圖譜系統(tǒng)設(shè)計(jì)成以業(yè)務(wù)垂直領(lǐng)域的場景為應(yīng)用拓展,基于深度學(xué)習(xí)框架為每個場景分配唯一標(biāo)識機(jī)制,以ID 為標(biāo)識進(jìn)行數(shù)據(jù)導(dǎo)入、模型訓(xùn)練、能力獲取,不同場景間進(jìn)行邏輯隔離,確保邏輯模型不沖突,提升解決知識圖譜解決更多一般性查詢和多樣化問題等能力。
來自BOMC 投訴工單、事件單等業(yè)務(wù)數(shù)據(jù)源,以及運(yùn)營商領(lǐng)域?qū)I(yè)詞典等數(shù)據(jù),這些數(shù)據(jù)都是非結(jié)構(gòu)化的數(shù)據(jù),存在很多無效、空值、重復(fù)數(shù)據(jù),需要進(jìn)行數(shù)據(jù)處理,在數(shù)據(jù)處理前,安排初步數(shù)據(jù)提取,為了更有效的抽取各個不同源的數(shù)據(jù)中知識圖譜核心需要的部分內(nèi)容,比如:針對事件單數(shù)據(jù),我們更關(guān)注故障標(biāo)題、服務(wù)請求類別、處理日志、投訴現(xiàn)象等部分;針對故障周/月報數(shù)據(jù),我們只關(guān)注故障原因部分。
針對運(yùn)營商領(lǐng)域數(shù)據(jù)集的獲取與標(biāo)注語料環(huán)境,運(yùn)營商領(lǐng)域知識圖譜的要求數(shù)據(jù)量相對較小,知識密度相對較大、知識質(zhì)量較高。由于知識實(shí)體與關(guān)系的是相對嚴(yán)格限定,所以無法使用很多的開放領(lǐng)域?qū)嶓w識別和關(guān)系抽取算法和業(yè)界已有數(shù)據(jù)集。
實(shí)體識別是知識圖譜語義分析的關(guān)鍵第一步。將套餐、區(qū)域等實(shí)體作為標(biāo)注數(shù)據(jù)輸入模型進(jìn)行訓(xùn)練,算法核心邏輯是先通過采用向量空間進(jìn)行詞句的建模,最大程度的保留詞句的上下文關(guān)系,再通過LSTM 在傳統(tǒng)RNN 的基礎(chǔ)上采用門結(jié)構(gòu),使得模型能夠?qū)W習(xí)到更遠(yuǎn)的上下文關(guān)系,最后使用條件隨機(jī)場CRF 層來更多識別實(shí)體特征,最終得到實(shí)體識別模型,根據(jù)模型對海量BOMC 投訴工單數(shù)據(jù)進(jìn)行實(shí)體識別預(yù)測,將自然語言中涉及到的相關(guān)實(shí)體提取出來作為關(guān)系理解的目標(biāo),如飛享套餐、家庭寬帶、全球通、魔百盒、等業(yè)務(wù)名詞(實(shí)體),為下一步知識圖譜構(gòu)建語義網(wǎng)絡(luò)提供實(shí)體節(jié)點(diǎn)。
關(guān)系識別是對非結(jié)構(gòu)化文檔處理的重要環(huán)節(jié),自然語言中對事件的描述往往會以多個子句的形式存在,且多句之間具有相關(guān)性,關(guān)系識別需要對投訴工單數(shù)據(jù)的上下文,進(jìn)行依存句法相關(guān)性分析,從而找出實(shí)體間存在哪種關(guān)系,以及關(guān)系周邊的實(shí)體分別是什么,例如運(yùn)維場景中“A 導(dǎo)致B”,“C 的解決方案是D”,面向運(yùn)維場景的關(guān)系識別是構(gòu)建RDF 三元組的基礎(chǔ)。
知識圖譜在進(jìn)行知識抽取時所使用的數(shù)據(jù)源是多樣化的, 存在知識重復(fù)、知識間關(guān)系不明確等問題。知識融合可消除實(shí)體、關(guān)系、屬性等與事實(shí)對象間的歧義, 使不同來源的知識能夠得到規(guī)范化整合。本系統(tǒng)對抽取出的三元組內(nèi)容進(jìn)行二次分析,將根據(jù)詞性及依存句法抽取出的實(shí)體進(jìn)行聚類,將涉及同類內(nèi)容的實(shí)體進(jìn)行融合,目的是達(dá)到運(yùn)維知識圖譜內(nèi)容在B 域客服領(lǐng)域具備通用性。
知識圖譜的質(zhì)量取決于實(shí)體與關(guān)系抽取的準(zhǔn)確性,也就是系統(tǒng)自動構(gòu)建的RDF 三元組的質(zhì)量,直接影響客戶感知,決定了智能應(yīng)答質(zhì)量、知識庫檢索效率。本次課題的運(yùn)維知識圖譜,是由實(shí)體提取和關(guān)系識別后產(chǎn)生近5000 個RDF 三元組,存入圖數(shù)據(jù)庫后,增加的知識圖譜可視化顯示功能。
三元組是知識圖譜感知的核心,預(yù)測是否準(zhǔn)確,分類是否正確,均取決于構(gòu)建精度。通過歷史投訴數(shù)據(jù)構(gòu)建完畢后,在模型構(gòu)建流程中的增加測試、驗(yàn)證機(jī)制,確保三元組圖數(shù)據(jù)庫質(zhì)量符合要求。模型生產(chǎn)發(fā)布之前,可以調(diào)用測試集數(shù)據(jù)進(jìn)行測試,確保實(shí)體和關(guān)系抽取準(zhǔn)確,對遺漏的邏輯進(jìn)行補(bǔ)充。生產(chǎn)環(huán)境下,新業(yè)務(wù)規(guī)則、新數(shù)據(jù)、新模型構(gòu)建均可能導(dǎo)致圖譜識別不準(zhǔn),通過增加驗(yàn)證集,不斷驗(yàn)證生產(chǎn)環(huán)境下元數(shù)據(jù)的質(zhì)量,增強(qiáng)系統(tǒng)運(yùn)維健壯性。
基于非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行標(biāo)注時,需要先根據(jù)圖譜schema 定義標(biāo)注內(nèi)容。運(yùn)維知識圖譜中最重要的就是“故障原因”“故障現(xiàn)象”“解決方案”的關(guān)系信息,標(biāo)注數(shù)據(jù)也是從這三個重要實(shí)體著手進(jìn)行標(biāo)注?!肮收显颉薄肮收犀F(xiàn)象”“解決方案”的關(guān)系信息是運(yùn)營重點(diǎn)標(biāo)注的數(shù)據(jù)對象,力求標(biāo)注精度,以實(shí)現(xiàn)分類準(zhǔn)確,降低模型對數(shù)據(jù)量的依賴。
“工單號”“日志”兩列都是經(jīng)過數(shù)據(jù)清洗后的、原始的非結(jié)構(gòu)化數(shù)據(jù);“故障原因”“故障現(xiàn)象”“解決方案”三列,從源數(shù)據(jù)列中抽取到的對應(yīng)故障的描述;“故障原因分類”“故障現(xiàn)象分類”“解決方案分類”三列是對故障對應(yīng)的人工總結(jié)歸類。
人工干預(yù)標(biāo)注要求準(zhǔn)確,每次標(biāo)注都應(yīng)該保證標(biāo)注內(nèi)容的準(zhǔn)確性,如果模棱兩可或者拿不準(zhǔn)的可以不標(biāo)注,隨機(jī)標(biāo)注時,盡量能覆蓋多種分類,如果同一個類型的問題已經(jīng)標(biāo)過很多次了,也可以跳過不標(biāo)。
知識圖譜作為智慧中臺中AI 中臺的重要模塊,通過智能機(jī)器人協(xié)同實(shí)現(xiàn)智能客服、多輪對話、知識庫、工單處理和服務(wù)預(yù)測功能,當(dāng)用戶在知識庫中搜索相關(guān)故障時,根據(jù)用戶咨詢問題檢索圖譜實(shí)體,將檢索到的實(shí)體在圖譜中進(jìn)行可視化展現(xiàn)。
此次課題本階段以基于一年工單及事件單等近2 萬條數(shù)據(jù)數(shù)據(jù)源,系統(tǒng)目前已抽取出400 多個故障現(xiàn)象,50 多種解決方案,階段性生成5000 多個關(guān)系三元組,存入Neo4j 圖數(shù)據(jù)庫,通過在知識首頁可以查詢構(gòu)建好的知識庫,具體根據(jù)搜索的內(nèi)容去展現(xiàn)的相應(yīng)實(shí)體節(jié)點(diǎn)和關(guān)系圖譜。通過多輪次Schema 模型迭代,形成運(yùn)維知識圖譜的數(shù)據(jù)內(nèi)核和知識心臟。高精度標(biāo)注工單數(shù)據(jù)持續(xù)更新中。
當(dāng)一線人員在智能機(jī)器人界面中輸入問題時,知識圖譜會根據(jù)用戶的描述進(jìn)行故障現(xiàn)象分類,進(jìn)而通過知識圖譜關(guān)系找到當(dāng)前用戶詢問的問題的解決方案。目前已完成特定內(nèi)容返回,后續(xù)待優(yōu)化模型及匹配邏輯。
本課題從設(shè)計(jì)、運(yùn)維到運(yùn)營角度,都達(dá)到預(yù)期目標(biāo),關(guān)于本課題的不足,主要還是集中在圍繞知識圖譜構(gòu)建技術(shù)上,例如,當(dāng)前運(yùn)維知識圖譜實(shí)體提取的困難,數(shù)據(jù)源信息的不足,需要大量人工標(biāo)注的問題,實(shí)體間關(guān)系的錯綜復(fù)雜,整體故障分類的長尾效應(yīng)等等,遇到很多難題,都需要在接下來的工作中,逐步進(jìn)行優(yōu)化和提升。
接下來的工作,需要持續(xù)優(yōu)化訓(xùn)練模型,當(dāng)模型基本穩(wěn)定后,數(shù)據(jù)源由當(dāng)前的2019 年的業(yè)務(wù)源范圍,擴(kuò)展到18 年及以前的歷史數(shù)據(jù)范圍,也有可能會加入更多省數(shù)據(jù),來嘗試發(fā)現(xiàn)更多實(shí)體及關(guān)系,建立更龐大、更有效的知識圖譜。
在知識圖譜未來自動化模型構(gòu)建的過程中,隨著未來接入數(shù)據(jù)源量增加,業(yè)務(wù)負(fù)荷增加,對知識庫檢索效率和智能應(yīng)答質(zhì)量要求會不斷提高,人工標(biāo)準(zhǔn)的工作量會相應(yīng)增加,基于“少量人工標(biāo)注+大量模型預(yù)測”的原則,打造智能標(biāo)注,人工負(fù)責(zé)邏輯構(gòu)建、少量數(shù)據(jù)標(biāo)注,為減少人工標(biāo)注工作量,在環(huán)節(jié)數(shù)據(jù)處理之后,增加預(yù)標(biāo)注環(huán)節(jié),在進(jìn)行人工標(biāo)注前,先使用通用領(lǐng)域命名實(shí)體識別標(biāo)注工具進(jìn)行數(shù)據(jù)預(yù)標(biāo)注,針對目前比較常用的命名實(shí)體識別工具,比如:thulac 、LTP 、NLP IR 、jieba,后續(xù)將會做一些調(diào)研和比對工作。