趙東明
(中國移動通信集團天津有限公司,天津 300020)
“計算-感知-認知”的人工智能技術(shù)發(fā)展路徑,已經(jīng)成為大多人工智能研究和應(yīng)用專家的共識。機器具備認知智能,進而實現(xiàn)推理、歸納、決策甚至創(chuàng)作,在一定程度上需要一個充滿知識的大腦[1]。知識圖譜(knowledge graph,KG)將互聯(lián)網(wǎng)的信息表達成更接近人類認知世界的形式[2],提供了一種更好地組織、管理和理解互聯(lián)網(wǎng)海量信息的能力。知識圖譜給互聯(lián)網(wǎng)語義搜索帶來了活力,同時也在智能問答、大數(shù)據(jù)分析與決策中顯示出強大威力,已經(jīng)成為互聯(lián)網(wǎng)基于知識的智能服務(wù)基礎(chǔ)[3-4],已成為推動人工智能從感知能力向認知能力發(fā)展的重要途徑[5-6]。知識圖譜的應(yīng)用現(xiàn)在非常廣泛:在通用領(lǐng)域,Google、百度等搜索公司利用其提供智能搜索服務(wù)[7],IBM Waston 問答機器人、蘋果的Siri語音助手和Wolfram Alpha都利用圖譜進行問題理解、推理和問答[8];在各垂直領(lǐng)域,行業(yè)數(shù)據(jù)從大規(guī)模數(shù)據(jù)到圖譜化知識快速演變,且基于圖譜形式的行業(yè)知識,對智能客服、智能決策、智能營銷等各類智能化服務(wù)進行賦能[9-10]。
隨著電信運營商數(shù)字化轉(zhuǎn)型的推進,無論是系統(tǒng)架構(gòu)還是業(yè)務(wù)的數(shù)據(jù)都發(fā)生著重大變化[11],體系趨于復雜化、精細化,業(yè)務(wù)的數(shù)據(jù)在成倍增長,這些均對運營、運維工作提出了更高的要求[12]。因此,需要運用知識圖譜技術(shù),發(fā)揮其在認知理解、智能分析領(lǐng)域的優(yōu)勢,構(gòu)建業(yè)務(wù)、運維智能大腦,以知識圖譜的認知關(guān)系網(wǎng)絡(luò)為動態(tài)決策提供數(shù)據(jù)分析引擎,從而支撐相關(guān)場景[13-14],讓圖譜場景應(yīng)用結(jié)合行業(yè)需求,促進行業(yè)解決方案的落地,從而提升業(yè)務(wù)、運維等工作的服務(wù)質(zhì)量和效率[15]。目前,知識圖譜已在電信運營商業(yè)務(wù)及運維場景的知識搜索、自然語言處理、智能服務(wù)助手、故障根因分析等領(lǐng)域發(fā)揮著重要作用,成為電信運營商數(shù)智化轉(zhuǎn)型和發(fā)展的核心驅(qū)動力之一。
知識圖譜用節(jié)點和關(guān)系所組成的圖譜,為電信運營商的各個場景直觀地建模,運用“圖”這種基礎(chǔ)性、通用性的“語言”,以網(wǎng)狀結(jié)構(gòu)表達業(yè)務(wù)推薦、存量運營、系統(tǒng)運維、客戶服務(wù)的各種關(guān)系,并且非常直觀、自然、直接和高效,不需要中間過程的轉(zhuǎn)換和處理。
目前知識圖譜對電信運營商的應(yīng)用場景和價值如圖1所示,分類主要集中在:業(yè)務(wù)推薦及營銷、電子渠道觸點營銷、系統(tǒng)運維、社交網(wǎng)絡(luò)數(shù)據(jù)分析、服務(wù)決策和支撐、滿意度評測和系統(tǒng)故障根因分析等領(lǐng)域。另外在風控管理領(lǐng)域中,知識圖譜也可應(yīng)用于反欺詐、反洗錢、互聯(lián)網(wǎng)授信風控、保險欺詐、銀行欺詐、電商欺詐、項目作假、企業(yè)關(guān)系分析等場景中。
圖1 知識圖譜對電信運營商的應(yīng)用場景和價值
(1)復雜業(yè)務(wù)和運維場景中關(guān)系表達能力強
傳統(tǒng)數(shù)據(jù)通常通過表格、字段等方式進行讀取,而關(guān)系的層級及表達方式多種多樣,知識圖譜基于圖論和概率圖模型,可以處理復雜多樣的關(guān)聯(lián)分析,滿足運營商各種角色關(guān)系的分析和管理需要。
(2)具有較強的認知分析和邏輯推理能力
基于知識圖譜的交互探索式分析,可以模擬人的思考過程去發(fā)現(xiàn)、求證、推理,業(yè)務(wù)人員自己就可以完成全部推薦、分析、表達過程,從而大大提升效率,降本增效又安全可信。
(3)知識學習從而驅(qū)動模型自我優(yōu)化
知識圖譜利用交互式機器學習技術(shù),支持根據(jù)推理、糾錯、標注等交互動作的學習功能,不斷沉淀知識邏輯和模型,提高系統(tǒng)智能性,將知識沉淀在運營商應(yīng)用領(lǐng)域內(nèi)部,降低對經(jīng)驗的依賴,也可以基于知識反饋不斷優(yōu)化模型,實現(xiàn)半自動化的知識模型迭代更新。
(4)跨領(lǐng)域的知識數(shù)據(jù)合作實現(xiàn)智能策略輔助能力
知識圖譜作為AI發(fā)展的底層技術(shù),能夠幫助運營商更好地參與到新的泛行業(yè)化的協(xié)作網(wǎng)絡(luò)和聯(lián)邦主態(tài)中,通過跨領(lǐng)域的企業(yè)界知識合作,更高效地訓練模型輔助自身市場布局、策略優(yōu)化,從而提升競爭力。
(5)降低技術(shù)成本,促進創(chuàng)新技術(shù)發(fā)展
知識圖譜技術(shù)體系能夠有效降低業(yè)務(wù)、運維、服務(wù)人員掌握AI應(yīng)用的門檻,擴大技術(shù)應(yīng)用的范圍和廣度,能夠為不同客戶提供更加豐富的產(chǎn)品及服務(wù),同時去除數(shù)據(jù)安全隱憂,在提升效率和獲得成長的同時,實現(xiàn)自身發(fā)展。
知識圖譜是實現(xiàn)機器認知智能的底層支撐技術(shù),應(yīng)用場景主要體現(xiàn)在業(yè)務(wù)推薦、精益運維、精準分析、智慧搜索、智能推薦、智能解釋、更自然的人機交互和深層關(guān)系推理等各個方面。其框架面向業(yè)務(wù)類和運維類大體一致,僅在數(shù)據(jù)源、模型構(gòu)建等有所區(qū)別。
針對電信運營商的業(yè)務(wù)運營、系統(tǒng)運維場景,知識圖譜因其構(gòu)建方式和應(yīng)用場景的不同,知識圖譜技術(shù)體系可以分為四大類:問答檢索類知識圖譜、工單分析類知識圖譜、系統(tǒng)運維類知識圖譜和業(yè)務(wù)運營類知識圖譜。
知識圖譜在共享數(shù)據(jù)源的情況下,基于統(tǒng)一的知識圖譜運營平臺,構(gòu)建“一體四面”的知識圖譜運營體系,如圖2所示,從而實現(xiàn)完整的知識圖譜訓練和推理應(yīng)用架構(gòu),在圖譜構(gòu)建、營業(yè)推薦、存量保有等領(lǐng)域打造一系列標桿應(yīng)用。
圖2 電信運營商“一體四面”的知識圖譜技術(shù)體系分類
? 一體:知識圖譜運營管理系統(tǒng)。以統(tǒng)一AI賦能、統(tǒng)一架構(gòu)管理、統(tǒng)一數(shù)據(jù)支撐方式,打造知識圖譜研發(fā)運營一體化的管理系統(tǒng),入駐統(tǒng)一 AI平臺,嵌入微營銷主流程,實現(xiàn)個性化數(shù)據(jù)選擇、模型訓練和客群生成。
? 四面:問答檢索類知識圖譜、工單分析類知識圖譜、系統(tǒng)運維類知識圖譜和業(yè)務(wù)運營知識類圖譜。針對4類知識圖譜的構(gòu)建,可以在機器問答、業(yè)務(wù)推薦、系統(tǒng)運維等場景打造個性化應(yīng)用。
(1)問答檢索類知識圖譜
問答檢索類知識圖譜總體遵循自底向上的構(gòu)建方法,系統(tǒng)通過從業(yè)務(wù)數(shù)據(jù)域、基礎(chǔ)數(shù)據(jù)域、應(yīng)用渠道域等獲取海量非結(jié)構(gòu)化數(shù)據(jù),進行數(shù)據(jù)清洗和語義分析,并輔以原子化知識庫中的固有內(nèi)容,以無監(jiān)督/有監(jiān)督兩種模式自動構(gòu)建面向移動業(yè)務(wù)服務(wù)的知識圖譜,對業(yè)務(wù)和服務(wù)渠道提供知識檢索及知識推薦能力,賦能知識庫、智能應(yīng)答、工單處理等領(lǐng)域提升效能。問答檢索類知識圖譜分類對應(yīng)的實例,包括業(yè)務(wù)運維知識圖譜、行業(yè)知識圖譜等。
(2)工單分析類知識圖譜
工單分析類知識圖譜,基于結(jié)構(gòu)化知識的工單信息檢索方法,面向自然語言領(lǐng)域的應(yīng)答、查詢、檢索等問題,該知識圖譜結(jié)合自然語言理解技術(shù)對問題進行理解,并根據(jù)問題理解的結(jié)果從知識圖譜中查找或推理問題對應(yīng)的答案,給請求方進行反饋。
工單分析類知識圖譜可以自動獲取解決方案合并后形成處理意見,自動推送到工單處理人待辦進行決策輔助。其對應(yīng)的實例,包括工單分析知識圖譜、投訴溯源分析知識圖譜等。
(3)系統(tǒng)運維類知識圖譜
傳統(tǒng)的監(jiān)控告警手段已經(jīng)無法滿足高效運維管理的訴求,迫切需要引入領(lǐng)域知識結(jié)合AI方法構(gòu)建有效的知識圖譜,打造以知識圖譜技術(shù)驅(qū)動的監(jiān)控和告警智能管理體系,可視化展示告警的關(guān)聯(lián)關(guān)系,對告警進行收斂,降低人工投入,提升運維效率。
通過知識圖譜與認知推理技術(shù)結(jié)合,最終以邏輯表達的方式輔助運維分析、系統(tǒng)異常根因挖掘,在提供推理、推薦結(jié)果的同時,給出可解釋的原因,在面向系統(tǒng)智能運維的推薦、分析、挖掘等場景反饋富語義的認知結(jié)論。
系統(tǒng)運維類知識圖譜對應(yīng)的實例,包括監(jiān)控運維態(tài)勢感知知識圖譜、告警關(guān)聯(lián)關(guān)系知識圖譜、故障定位知識圖譜、故障處置知識圖譜、資源快速溯源 CMDB(configuration management database)知識圖譜和資產(chǎn)優(yōu)化知識圖譜。
(4)業(yè)務(wù)運營類知識圖譜
業(yè)務(wù)運營類知識圖譜,重點突出知識圖譜可解釋、可溯源能力,在決策輔助、根因分析、問題溯源、業(yè)務(wù)推薦、服務(wù)預(yù)測等領(lǐng)域體現(xiàn)認知能力,尤其在中國移動關(guān)鍵的存量運營領(lǐng)域,可實現(xiàn)基于認知推理的權(quán)益推薦、5G換機推薦和預(yù)離網(wǎng)用戶識別,在系統(tǒng)運維領(lǐng)域,實現(xiàn)告警分析、故障根因發(fā)現(xiàn)等。
業(yè)務(wù)運營類知識圖譜分類對應(yīng)的實例,包括權(quán)益推薦知識圖譜、預(yù)離網(wǎng)知識圖譜、滿意度預(yù)測知識圖譜、騷擾電話識別知識圖譜等。
知識圖譜技術(shù)在電信運營商領(lǐng)域的應(yīng)用,一類是信息檢索和工單文本處理,通過文本信息處理、概念提取和關(guān)系提取,實現(xiàn)面向信息檢索和智能應(yīng)答的能力輸出,其技術(shù)特點主要是針對可讀文本數(shù)據(jù)的處理和網(wǎng)絡(luò)構(gòu)建。一類是業(yè)務(wù)運營和系統(tǒng)運維的分析,主要面向系統(tǒng)運維和業(yè)務(wù)運營知識圖譜,重點從隱語義數(shù)據(jù)(大數(shù)據(jù)畫像、偏好、標簽、主機、應(yīng)用、數(shù)據(jù)庫、監(jiān)控等)挖掘邏輯挖掘,針對業(yè)務(wù)推薦、根因分析、問題溯源等提供認知理解能力。知識圖譜技術(shù)體系架構(gòu)如圖3所示。
圖3 電信運營商知識圖譜技術(shù)體系架構(gòu)
(1)數(shù)據(jù)層
知識圖譜中的知識來源于結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息資源,通過各類數(shù)據(jù)抽取工具從各類業(yè)務(wù)系統(tǒng)抽取到圖譜系統(tǒng),文本類數(shù)據(jù),包括服務(wù)工單數(shù)據(jù)、用戶標簽數(shù)據(jù)、訂購數(shù)據(jù)、DPI數(shù)據(jù)、家庭好友關(guān)系以及運維日志等基礎(chǔ)數(shù)據(jù)。運維類數(shù)據(jù),包括CMDB、服務(wù)調(diào)用鏈、工單、監(jiān)控、日志等運維系統(tǒng)對接實現(xiàn)多源數(shù)據(jù)的匯聚及清洗,將數(shù)據(jù)整理形成層次化、結(jié)構(gòu)化一致數(shù)據(jù)。標簽類數(shù)據(jù),可以提供“客戶號碼-標簽-特征-偏好-畫像”數(shù)據(jù),家庭寬帶、無線業(yè)務(wù)系統(tǒng)均可以提供領(lǐng)域感知數(shù)據(jù)。
(2)圖譜構(gòu)建層
圖譜構(gòu)建層提供圖譜結(jié)構(gòu)配置、構(gòu)建模型標注、構(gòu)建模型訓練、三元組生成、三元組審核、三元組發(fā)布等頁面工具。圖譜構(gòu)建層預(yù)置多個智能分析模型,實現(xiàn)文本分類、實體識別、機器閱讀理解、文本聚類、詞法/句法分析等自然語言能力遵循“模式設(shè)計→數(shù)據(jù)清洗→實體識別→關(guān)系識別→知識融合”的流程將數(shù)據(jù)層的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為領(lǐng)域場景需要的圖譜實體及關(guān)系,生成三元組。
(3)圖譜存儲層
圖譜存儲層使用圖數(shù)據(jù)庫將構(gòu)建層生成的三元組進行圖關(guān)系存儲,不同類別的圖譜將分別單獨存儲。
(4)圖譜計算層
知識計算是基于已構(gòu)建的知識圖譜進行能力輸出的過程,是知識圖譜能力輸出的主要方式。主要包括知識統(tǒng)計與圖挖掘、知識推理兩大部分內(nèi)容,知識統(tǒng)計與圖挖掘重點在于圖查詢、圖特征統(tǒng)計、關(guān)聯(lián)分析、異常檢測、預(yù)測推理等能力;知識推理重點研究的是基于圖譜的邏輯推理能力,主要包括知識搜索、知識推薦、智能補充、多跳推薦等能力。通過知識中心進行對外能力封裝,為上層應(yīng)用提供能力支撐。
(5)應(yīng)用層
基于知識中心封裝的能力,通過運維場景實現(xiàn)知識圖譜的落地,包括基于事件工單、故障單等歷史工單的分析,實現(xiàn)問題的關(guān)聯(lián)分析并給出相應(yīng)的解決方案,提高運維人員處理效率。基于告警的故障根因分析,通過對歷史告警的分析結(jié)合資源關(guān)聯(lián)關(guān)系實現(xiàn)告警收斂及告警根因定位,縮短運維人員告警處理時間,提高告警處理效率。基于資源關(guān)聯(lián)關(guān)系的實體關(guān)系分析,通過對已有資源關(guān)聯(lián)關(guān)系的分析,推導出新的實體關(guān)系,從而提高CMDB完整性與準確性,為上層運維應(yīng)用的建立奠定堅實的基礎(chǔ),以及面向業(yè)務(wù)和服務(wù)的應(yīng)用,包括智能問答機器人、智能知識庫、智能工單分析、業(yè)務(wù)搜索引擎等。
電信運營商知識圖譜技術(shù)體系中,數(shù)據(jù)層是基礎(chǔ)數(shù)據(jù)的存儲、預(yù)處理,圖譜構(gòu)建層、圖譜存儲層、圖譜計算層主要針對基礎(chǔ)數(shù)據(jù)構(gòu)建圖譜結(jié)構(gòu),而應(yīng)用層則面向具體業(yè)務(wù)場景進行賦能,根據(jù)知識圖譜分類的描述,主要分為智能問答、工單分析、系統(tǒng)運維和業(yè)務(wù)運營。以某大型電信運營商為例,目前具有示范意義的為 14個應(yīng)用實例,通過描述知識圖譜應(yīng)用實例的應(yīng)用場景、服務(wù)對象、功能、拓展前景,可以系統(tǒng)性地梳理知識圖譜從構(gòu)建,到應(yīng)用、服務(wù)、技術(shù)框架、算法的整體方案,知識圖譜應(yīng)用及技術(shù)架構(gòu)對應(yīng)關(guān)系如圖4所示。同時,知識圖譜應(yīng)用實例,是可回溯、可拓展的,當前的知識圖譜技術(shù)方案,可以支撐問答檢索類、工單分析類、業(yè)務(wù)運營類、系統(tǒng)運維類的場景要求,未來可根據(jù)問答、工單、運維、業(yè)務(wù)的業(yè)務(wù)發(fā)展而不斷完善和更新,基于新的需求進行實例擴展,形成具有電信運營特色的一套知識圖譜生態(tài)循環(huán)體系。
圖4 電信運營商知識圖譜應(yīng)用及技術(shù)架構(gòu)對應(yīng)關(guān)系
電信運營商知識圖譜典型應(yīng)用實例如圖5所示,主要為以下內(nèi)容。
圖5 電信運營商知識圖譜典型應(yīng)用實例
(1)業(yè)務(wù)運維知識圖譜
主要應(yīng)用于機器人智能應(yīng)答場景,在智慧化擬人問答領(lǐng)域體現(xiàn)價值。通過對用戶問題進行分詞、長句理解、語義解析,提取關(guān)鍵語義并與知識圖譜模板的匹配,獲取圖譜實體或?qū)傩詢?nèi)容。在圖數(shù)據(jù)庫查詢并完成消息整合后,以機器人形式與用戶進行服務(wù)應(yīng)答,通過知識圖譜豐富的邏輯、關(guān)系能力提升機器人智能感知。
(2)行業(yè)知識圖譜
主要應(yīng)用場景為行業(yè)客戶智能服務(wù),對行業(yè)數(shù)據(jù)進行要素提取,并按照業(yè)務(wù)邏輯進行關(guān)系生成及存儲,基于用戶咨詢歷史、工單處理記錄、企業(yè)運營信息等文本信息,提取關(guān)鍵語義、解決方案、問題溯源、核心語義等內(nèi)容,賦能行業(yè)智能應(yīng)答系統(tǒng)進行自服務(wù)、預(yù)服務(wù),賦能知識庫系統(tǒng)進行圖譜式語義搜索,賦能個性化推薦系統(tǒng)進行智慧化服務(wù)推薦。
(3)工單分析知識圖譜
主要應(yīng)用于投訴工單智能分析場景。通過對工單內(nèi)容進行實體提取和語義理解,并與知識圖譜模板的匹配,獲取解決方案合并后形成處理意見,自動推送到工單處理人待辦進行決策輔助,實現(xiàn)“人-機”協(xié)同的投訴工單的自動分析、自動處理、自動回復。
(4)投訴溯源分析知識圖譜
應(yīng)用于工單分析和溯源。主要基于投訴歷史數(shù)據(jù),引入語義分析、知識圖譜等人工智能技術(shù),構(gòu)建投訴從產(chǎn)生到解決修復上線全程溯源分析能力,包括全過程溯源追蹤、投訴問題根因溯源、投訴處理質(zhì)量問題溯源分析等,輔助投訴處理及管理人員,提升投訴處理及壓降分析過程中的效率和質(zhì)量。
(5)監(jiān)控運維動態(tài)感知知識圖譜
從海量的日志、調(diào)用鏈、資源庫等眾多的信息中發(fā)現(xiàn)資源之間的圖譜關(guān)系,構(gòu)建運維知識圖譜,當系統(tǒng)發(fā)生故障時,利用運維圖譜給運維人員提供系統(tǒng)監(jiān)控工具,幫助維護人員進行故障影響分析,并引入告警根因AI算法能力,實現(xiàn)業(yè)務(wù)、應(yīng)用、平臺三層告警根因推導,配合服務(wù)調(diào)用分析、日志分析、指標異常檢測等智能化手段,實現(xiàn)問題快速定位。
(6)告警關(guān)聯(lián)關(guān)系知識圖譜
通過對各類數(shù)據(jù)的挖掘動態(tài)構(gòu)建運維圖譜,實現(xiàn)圖譜關(guān)系實時準確,最終實現(xiàn)故障根因分析結(jié)果的推薦,可以輔助運維人員快速定位及解決問題,同時通過運維人員對根因分析結(jié)果的不斷優(yōu)化,為運維無人駕駛發(fā)展奠定了基礎(chǔ)。
(7)故障定位知識圖譜
應(yīng)用于 SRE(site reliability engineer)/運維人員,通過結(jié)合領(lǐng)域相關(guān)知識,借助設(shè)備固有拓撲結(jié)構(gòu)、應(yīng)用調(diào)用關(guān)系、歷史告警數(shù)據(jù)、性能數(shù)據(jù)、故障數(shù)據(jù)等梳理相關(guān)的實體、屬性、關(guān)系,利用自然語言處理、因果關(guān)系算法、路徑搜索算法等AI算法從文本告警信息映射為一條完整的根因鏈路,更好地為SRE/運維人員提供指引,且具有更強的解釋性。
(8)故障處置知識圖譜
應(yīng)用于故障處理及系統(tǒng)運維人員。通過對歷史故障處理方案的梳理及分析,沉淀專家經(jīng)驗、故障分析報告內(nèi)容、梳理故障與處理預(yù)案之間的關(guān)系、處理預(yù)案之間的關(guān)系等,提煉通用化故障處理方案,建立決策中心,為一線運維人員提供故障處理建議及可沉淀的處理作業(yè)預(yù)案,推動故障的快速處置。
(9)資源快速溯源知識圖譜
通過對資源對象全生命周期的信息以及資源對象之間的關(guān)系(包括物理關(guān)系、邏輯關(guān)系和依賴關(guān)系)的梳理及分析,沉淀全局視角下的軟硬件知識圖譜,實現(xiàn)顯性及隱性關(guān)系的挖掘,助力一線運維人員,幫助其對龐大體系下的復雜應(yīng)用和設(shè)備進行管理和運營。
(10)資產(chǎn)優(yōu)化知識圖譜
通過對歷史資源使用情況進行分析,沉淀資源對象與適配資源使用情況的關(guān)系,實現(xiàn)顯性及隱性關(guān)系的挖掘,助力一線運維人員,幫助其在對不同資產(chǎn)資源的使用進行管理和配置,對不同資源給出最優(yōu)的設(shè)備使用狀態(tài)建議,對低效資產(chǎn)進行回收、對高使用資產(chǎn)進行及時擴容。
(11)權(quán)益推薦知識圖譜
應(yīng)用于電信運營商市場存量運營人員。針對電信運營商、互聯(lián)網(wǎng)行業(yè)重點推薦的權(quán)益優(yōu)惠、產(chǎn)品、營銷活動,提供最佳目標客戶群,幫助存量運營人員自動化獲取每名用戶針對每一種權(quán)益優(yōu)惠的推薦概率,并輸出到外呼營銷、CRM(customer relationship management)彈窗、觸點營銷、電子渠道營銷等,進行針對性業(yè)務(wù)推薦。
(12)預(yù)離網(wǎng)知識圖譜
應(yīng)用于潛在流失客戶智能看護場景,建立以用戶離網(wǎng)流失預(yù)警為目標的客戶行為異動識別看護系統(tǒng),引入隨機森林、KNN(K-nearest neighbor)分類算法和知識圖譜,通過對用戶每日行為監(jiān)控、異動行為發(fā)現(xiàn)、流失用戶識別、運營結(jié)果回饋,形成客戶高危自識別、模型自優(yōu)化、結(jié)果自呈現(xiàn)、運營自執(zhí)行的智慧看護系統(tǒng)。
(13)滿意度預(yù)測知識圖譜
用于挖掘潛在不滿意用戶,給予精準維系和服務(wù)?;诖髷?shù)據(jù)標簽進行構(gòu)建,納入“原子-概念”生成算法實現(xiàn)語義延伸,在傳統(tǒng)大數(shù)據(jù)分析基礎(chǔ)上加入語義理解能力,構(gòu)建以用戶號碼節(jié)點為中心的服務(wù)分析圖譜,鏈接用戶服務(wù)評測結(jié)果(不滿意)、大數(shù)據(jù)標簽、原因概念,并實現(xiàn)全量用戶潛在不滿意的推理,輸出用戶群進行后續(xù)維系。
(14)騷擾電話識別知識圖譜
用于識別電信運營商網(wǎng)內(nèi)騷擾電話號碼,并進行安全管控。將現(xiàn)全網(wǎng)手機用戶和大數(shù)據(jù)屬性標簽作為輸入構(gòu)建騷擾電話識別知識圖譜,并利用緊密度算法構(gòu)建騷擾電話識別模塊,提供騷擾電話識別能力,對判定為騷擾電話的號碼進行關(guān)停處置。
電信運營商知識圖譜的功能框架主要體現(xiàn)在整體業(yè)務(wù)、服務(wù)、運維、管理中,主要為文本類應(yīng)用和分析類應(yīng)用。對于文本類,知識圖譜通過文本信息處理、概念提取和關(guān)系提取,實現(xiàn)面向信息檢索和智能應(yīng)答的能力輸出,其技術(shù)特點主要針對可讀文本數(shù)據(jù)的處理和網(wǎng)絡(luò)構(gòu)建。針對分析類,知識圖譜重點從隱語義數(shù)據(jù)(大數(shù)據(jù)畫像、偏好、標簽、主機、應(yīng)用、數(shù)據(jù)庫、監(jiān)控等)挖掘邏輯挖掘,針對業(yè)務(wù)推薦、根因分析、問題溯源等提供認知理解能力。
電信運營商知識圖譜的功能框架,可以描述各種與知識相關(guān)的實體和概念之間的關(guān)聯(lián)關(guān)系,從而更快捷準確地進行智能問答和信息檢索。知識圖譜最常用的語義關(guān)系為“實體-關(guān)系-實體”與“實體-屬性-屬性值”,電信客戶服務(wù)領(lǐng)域存在各種復雜異常、故障、事件,知識圖譜是描述其內(nèi)在聯(lián)系的最佳載體。知識圖譜是將知識實體之間的關(guān)系和邏輯進行圖形化展示的語義網(wǎng)絡(luò),作為中臺核心組件,為客戶服務(wù)域的知識庫輸出邏輯搜索能力,為智能機器人輸出智慧應(yīng)答能力,為工單處理輸出自動回復能力。為 CRM/BOSS(business & operation support system)等營業(yè)前端,提供業(yè)務(wù)/服務(wù)/數(shù)據(jù)/事件之間復雜關(guān)系的結(jié)構(gòu)化輸出,串聯(lián)運營與運維,為運營商業(yè)務(wù)、服務(wù)、營銷、運維等全量場景提供圖譜化的實體邏輯支撐,驅(qū)動業(yè)務(wù)服務(wù)一體化,服務(wù)支撐智能化,海量數(shù)據(jù)處理自動化。
電信運營商知識圖譜功能框架如圖6所示,可以用于經(jīng)營決策、客戶服務(wù)的分析并具備理解和解釋能力,從而在電信領(lǐng)域的認知理解、數(shù)據(jù)分析、決策支持領(lǐng)域進行能力輸出。一方面通過建立從數(shù)據(jù)到認知圖譜中實體、概念、關(guān)系的映射,讓機器理解數(shù)據(jù)的本質(zhì);另一方面利用認知圖譜中實體、概念和關(guān)系解釋現(xiàn)實世界中的事物和現(xiàn)象,讓機器解釋現(xiàn)象的本質(zhì)。以市場領(lǐng)域的存量運營為例,基于目前大數(shù)據(jù)標簽庫、歷史投訴工單、業(yè)務(wù)管理文檔等基礎(chǔ)能力和數(shù)據(jù),打造面向存量運營“場景”的認知網(wǎng)絡(luò),包含面向運營場景的概念層(概念標簽)、原子層(原子標簽)、分層理論庫(基于原子屬性分層鏈接實體)、運營策略庫(面向場景的維系、推薦、服務(wù)策略)提升運營推薦的精準度,并面向“客戶需求”提供可理解、可解釋的運營策略。
圖6 電信運營商知識圖譜功能框架
電信運營商知識圖譜構(gòu)建遵循自底向上的邏輯,通過從業(yè)務(wù)數(shù)據(jù)域、基礎(chǔ)數(shù)據(jù)域、應(yīng)用渠道域等獲取海量非結(jié)構(gòu)化數(shù)據(jù),進行數(shù)據(jù)清洗和語義分析,并輔以原子化知識庫中的固有內(nèi)容,以無監(jiān)督/有監(jiān)督兩種模式自動構(gòu)建面向移動業(yè)務(wù)服務(wù)的知識圖譜,針對運營商復雜的投訴和異常場景提出針對性解決方案。
構(gòu)建知識圖譜的步驟分為模式設(shè)計、數(shù)據(jù)清洗、實體識別、關(guān)系識別以及知識融合。
(1)模式設(shè)計
模式是知識圖譜的概念模型和邏輯基礎(chǔ), 借助實體關(guān)系的規(guī)則定義,約束知識圖譜的數(shù)據(jù)。模式設(shè)計是知識圖譜構(gòu)建的基礎(chǔ),基于現(xiàn)有事件單、投訴單、異常單、客戶畫像、網(wǎng)絡(luò)數(shù)據(jù),設(shè)計一套圖譜自動抽取的框架,以運維為例面向故障的模式包括故障內(nèi)容描述、故障原因、故障解決方案、故障歸屬、故障詳細描述、故障發(fā)生地點、客戶號碼、客戶資費、關(guān)聯(lián)需求等。
(2)數(shù)據(jù)清洗
基于事件單、異常單、運維總結(jié)報告及運營商領(lǐng)域?qū)I(yè)詞匯進行數(shù)據(jù)清洗,得到含有相關(guān)語義信息的文本內(nèi)容,用作后續(xù)文本語義分析的基礎(chǔ)。待清洗數(shù)據(jù)包括規(guī)范化的工單數(shù)據(jù)、報告數(shù)據(jù),也包括非結(jié)構(gòu)化的日志數(shù)據(jù)、問答數(shù)據(jù),數(shù)據(jù)清洗質(zhì)量直接關(guān)系到模型的訓練精度。
(3)實體識別
實體識別是知識圖譜語義分析的關(guān)鍵。采用機器學習技術(shù)自動或半自動地從多源數(shù)據(jù)中提取知識圖譜的實體、關(guān)系、屬性等要素。知識抽取包含實體抽取、關(guān)系抽取和屬性抽取。
實體識別的工具是 LSTM(long-short term memory)+CRF(conditional random field),通過LSTM網(wǎng)絡(luò)的處理,得到了輸入數(shù)據(jù)的表示方法,在輸出端將softmax與CRF結(jié)合起來,使用LSTM解決提取序列特征的問題,使用CRF有效利用了句子級別的標記信息。
(4)關(guān)系識別
關(guān)系識別是對非結(jié)構(gòu)化文檔處理的重要環(huán)節(jié),自然語言中對事件的描述往往會以多個子句的形式存在,且多句之間具有相關(guān)性,關(guān)系識別需要對投訴工單數(shù)據(jù)的上下文,進行依存句法相關(guān)性分析,從而找出實體間存在哪種關(guān)系,以及關(guān)系周邊的實體分別是什么,例如運維場景中“A導致了B”“C的故障原因是D”“E的變更產(chǎn)生了F現(xiàn)象”,面向運維場景的關(guān)系識別是構(gòu)建RDF(resource description framework)三元組的基礎(chǔ)。
(5)知識融合
知識圖譜在進行知識抽取時所使用的數(shù)據(jù)源是多樣化的,存在知識重復、知識間關(guān)系不明確等問題。知識融合可消除實體、關(guān)系、屬性等與事實對象間的歧義, 使不同來源的知識能夠得到規(guī)范化整合。為了讓運維知識圖譜內(nèi)容在客服領(lǐng)域具備通用性,本文對抽取出的三元組內(nèi)容進行二次分析,將根據(jù)詞性及依存句法抽取出的實體進行聚類,將涉及同類內(nèi)容的實體進行融合,組成完整語義的回復答案,反饋到知識庫及機器人前端。
知識圖譜構(gòu)建過程中應(yīng)用的人工智能技術(shù)算法,主要包括以下3種。
? 實體識別:長文本分詞算法、層次聚類算法、Bi-LSTM算法、CRF算法。
? 關(guān)系識別:詞法&依存句法分析,Bert模型(大規(guī)模預(yù)訓練網(wǎng)絡(luò))。
? 知識融合:相關(guān)性分析算法,相似度計算方法。
知識圖譜構(gòu)建后,以接口方式對應(yīng)用賦能,具體輸入輸出數(shù)據(jù)如下。
(1)輸入數(shù)據(jù)
在訓練過程中,輸入主要為投訴處理工單、用戶問題記錄等信息,需要包括關(guān)鍵信息:故障內(nèi)容描述、故障原因、故障解決方案、工單工作、工單處理人、投訴類別、關(guān)聯(lián)問題單、需求單等。在應(yīng)用過程中,輸入為客戶的一種問題表述“故障現(xiàn)象”,待獲取對應(yīng)的“故障原因”“問題解決方案”或工單下一步動作、處理人等信息。
知識圖譜訓練數(shù)據(jù)以 RDF方式存入關(guān)系數(shù)據(jù)庫,即Neo4j。
(2)輸出數(shù)據(jù)
根據(jù)輸入的問題,在知識圖譜關(guān)系數(shù)據(jù)庫Neo4j中查詢對應(yīng)的故障原因、解決方案、下一步動作、處理人信息,反饋到請求方。
電信運營商知識圖譜技術(shù)體系,是基于實際需求總結(jié)歸納的符合電信特色的知識圖譜應(yīng)用、實例、系統(tǒng)建設(shè)運營方法理論,實現(xiàn)對內(nèi)外部業(yè)務(wù)的支撐發(fā)展。其演進主要分為 3個階段:探索實踐階段、優(yōu)化提升階段和中臺賦能階段,以集中化和能力分享兩種方式持續(xù)推進,前期由技術(shù)先進、運營經(jīng)驗豐富的省專公司進行重點知識圖譜實例建設(shè),并在業(yè)務(wù)場景產(chǎn)生實際效果,后期以集中化方式進行全網(wǎng)知識圖譜能力聚合、資源集約化、承接全網(wǎng)集中化知識圖譜應(yīng)用需求。
面向智能應(yīng)答、工單分析、系統(tǒng)運維、業(yè)務(wù)運營等領(lǐng)域的重點需求場景,研究知識圖譜的構(gòu)建、訓練和推理技術(shù)方法,并實現(xiàn)基本功能實現(xiàn)和能力輸出;形成數(shù)據(jù)標注、知識圖譜體系搭建、知識迭代優(yōu)化和協(xié)同運營等運營流程,結(jié)合場景化需要,實現(xiàn)“人-機”協(xié)同運營;針對智能應(yīng)答、工單分析、系統(tǒng)運維、業(yè)務(wù)運營四大場景,啟動一系列知識圖譜實例的研究,完成解決方案規(guī)劃、數(shù)據(jù)準備和模式設(shè)計,并實現(xiàn)重點急需實例的建設(shè),如業(yè)務(wù)運維、工單分析、故障定位等,完成統(tǒng)一的知識圖譜指導白皮書。
面向文本數(shù)據(jù)、標簽數(shù)據(jù)、運維數(shù)據(jù)等,完成一系列個性化知識圖譜技術(shù)方案,如結(jié)合機器閱讀、實體識別、關(guān)系識別、摘要提取、鏈路預(yù)測等機器學習模型的知識圖譜技術(shù)方法,以解決方案方式完成需求,并將不同模式的知識圖譜歸納總結(jié)、體系化;形成成熟的業(yè)務(wù)人員、技術(shù)人員協(xié)同的知識圖譜運營體系,在關(guān)鍵語料庫梳理、文本匹配、文本分類標注等方面不斷融合協(xié)同,形成成熟的迭代運營團隊;以知識圖譜實例建設(shè)成果為基礎(chǔ),形成較完善的知識圖譜知識體系、算法體系和方案體系,在業(yè)務(wù)運營、服務(wù)運營、系統(tǒng)運維和問答檢索場景中產(chǎn)生效果,并探索知識圖譜集中化建設(shè)賦能的可行性,指導全行業(yè)以自建或者集中化復用方式,廣泛開展知識圖譜實踐工作。
梳理架構(gòu)實現(xiàn)中臺化管理,統(tǒng)一的運維知識、業(yè)務(wù)知識、大數(shù)據(jù)特征知識等,以中臺組織方式實現(xiàn)集中化知識管理,并完成基礎(chǔ)框架建設(shè),總體資源集約、運行高效,AI與業(yè)務(wù)形成合力;探索知識圖譜集中化賦能的“集團-省”兩級協(xié)同模式,逐步擴大知識運營范圍和賦能范圍;建立完備的運營體系,通過內(nèi)外部運營需求拉動能力運營,賦能業(yè)務(wù)高質(zhì)量發(fā)展;知識圖譜中臺能力歸納、收斂、匯聚,形成若干通用知識圖譜實例能力,沉淀的共性能力比較豐富,廣泛發(fā)揮注智賦能作用。同時,支持各省屬地化需求進行能力拓展和靈活調(diào)度。
本文主要介紹了面向電信運營商的知識圖譜技術(shù)體系及應(yīng)用實踐方法,通過研究知識圖譜架構(gòu)、分類、技術(shù)、服務(wù)對象、應(yīng)用場景、生態(tài)循環(huán)解決方案等內(nèi)容,結(jié)合現(xiàn)有優(yōu)秀案例經(jīng)驗,打造了面向外部客戶以及內(nèi)部運維人員的知識圖譜應(yīng)用實例,包括面向外部客戶的權(quán)益推薦、預(yù)離網(wǎng)分析、滿意度預(yù)測知識圖譜,面向內(nèi)部業(yè)務(wù)人員的騷擾電話識別知識圖譜,面向內(nèi)部運維人員的工單分析、投訴溯源分析、監(jiān)控運維態(tài)勢感知、告警關(guān)聯(lián)關(guān)系、故障定位、故障處置、資源快速溯源CMDB、資產(chǎn)優(yōu)化知識圖譜,以及面向內(nèi)部和外部用戶共用的業(yè)務(wù)運維、行業(yè)知識圖譜,并將知識圖譜服務(wù)于智能問答、日常的運營分析、工單處理流程、系統(tǒng)運維等,體現(xiàn)了知識圖譜技術(shù)的價值。
未來,在知識圖譜完整體系搭建完成后,可服務(wù)的電信行業(yè)應(yīng)用形態(tài)、服務(wù)時采用的具體技術(shù)手段均是需要探索的課題,例如在智能問答、智能客服、智能運維、知識搜索等系統(tǒng)進行交互時,知識數(shù)據(jù)存放位置、訓練數(shù)據(jù)預(yù)處理方法、調(diào)用算法和模型方法等。同時,電信運營商知識圖譜生態(tài)循環(huán)如何演進也是需要研究的問題,知識圖譜構(gòu)建后需隨著業(yè)務(wù)、管理的不斷更新而迭代優(yōu)化,系統(tǒng)架構(gòu)、知識關(guān)系也需變化,需要確保知識圖譜的生態(tài)化演講方式,降低對專家經(jīng)驗的依賴,真正建立知識的時效性、關(guān)聯(lián)性、服務(wù)性、共享性的一體化循環(huán)迭代方案,提升系統(tǒng)的運營體驗,以知識圖譜技術(shù)賦能運營管理頂層設(shè)計,成為數(shù)字化變革的新引擎。