王國明 卞玉露
摘要:為了解決萬維網(wǎng)上的數(shù)據(jù)日益龐雜、數(shù)據(jù)間互聯(lián)效率較低的問題,知識圖譜技術(shù)成為國內(nèi)外研究的熱點。本文以知識圖譜中的幾個關(guān)鍵技術(shù)為主要研究對象,分析了知識圖譜技術(shù)在醫(yī)學(xué)、電商等重要領(lǐng)域中的構(gòu)建過程,并且重點分析了基于知識圖譜技術(shù)的應(yīng)用案例,依此設(shè)計了知識圖譜的通用架構(gòu)框,該架構(gòu)對于知識圖譜技術(shù)未來的研究及其應(yīng)用具有重要意義。
關(guān)鍵詞:知識圖譜;知識提取;擴(kuò)展知識庫;體系架構(gòu)
中圖分類號:TP39 ? ? ? ?文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2021)31-0029-03
Research on Application Analysis and Architecture of Knowledge Graph
WANG Guo-ming, BIAN Yu-lu
(School of Computer Science and Engineering, Anhui University of Science and Technology, Huainan 232001, China)
Abstract: In order to solve the problems of increasingly complex data on the World Wide Web and low interconnection efficiency among data, this paper takes several key areas in knowledge graph as the main research objects, analyzes the construction process of knowledge graph technology in important fields such as medicine and e-commerce, and focuses on the application cases of knowledge graph in Suning, and designs the framework block diagram of knowledge graph according to this, which is of great significance for discussing the future research direction and practical theoretical application of knowledge graph.
Key words: Knowledge Graph; Extraction of knowledge; Expansion of knowledge; Architecture of the system
隨著web技術(shù)的不斷演變與大數(shù)據(jù)的不斷發(fā)展,互聯(lián)網(wǎng)中知識元數(shù)據(jù)日益增多、其規(guī)模也不斷擴(kuò)大,這就給各類知識間的相互關(guān)聯(lián)帶來了極大的挑戰(zhàn)。所以,人們急需尋得一個知識互聯(lián)新方法,使之既能適應(yīng)發(fā)展迅速的信息資源,又能滿足用戶的認(rèn)知需求。知識圖譜技術(shù)就是這一新方法,它特殊的表示和管理知識的方式使其逐漸成為當(dāng)今智能信息服務(wù)領(lǐng)域中的熱點技術(shù)[1-2]。
1 知識圖譜及其關(guān)鍵技術(shù)分析
知識圖譜技術(shù)由Google首次提出,這一概念的提出主要是為用戶提供方便學(xué)習(xí)和使用的搜索引擎,以提升用戶對知識的搜索速度和質(zhì)量,增強用戶對知識的理解。知識圖譜技術(shù)吸收了前人提出的語義網(wǎng)和本體的概念,使知識更有利于用戶和計算機(jī)間以及計算機(jī)之間的相互交流,使網(wǎng)絡(luò)更趨于智能化。知識圖譜技術(shù)包括)知識的提取、表示、整合、篩選和擴(kuò)展知識庫等關(guān)鍵技術(shù)[3]。
(1)知識提取
該過程是從大量待存儲的數(shù)據(jù)中提取所需知識并存入數(shù)據(jù)庫的過程。提取的內(nèi)容包括實體、關(guān)系、屬性等,其中,實體抽取過程對從相關(guān)數(shù)據(jù)源中提取的關(guān)系和信息進(jìn)行表示[4-5],屬性抽取常用對開放鏈接數(shù)據(jù)的提取和利用模式匹配進(jìn)行提取的方式[6-7]。在提取過程中,可以選擇兩種方式包括人工和自動提取,前者指相關(guān)人員依據(jù)相關(guān)規(guī)則收集和整理而成的知識庫,后者則需使用相關(guān)關(guān)鍵技術(shù)來完成,如數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等。
(2)知識表示
知識的表示過程是對抽取到的知識進(jìn)行符號化地表示過程。目前表示知識的方法為三元組表示法,即(實體集合,關(guān)系集合,對應(yīng)值),符號表示成G=(E,R,S)??梢詫⑵渑c數(shù)據(jù)結(jié)構(gòu)中的圖進(jìn)行類比記憶,如知識圖譜中的實體與圖結(jié)構(gòu)中的節(jié)點相對應(yīng),知識圖譜中的關(guān)系與圖結(jié)構(gòu)中的邊相對應(yīng)。
(3)知識整合
對知識的整合過程,即對所有提取到的知識進(jìn)行加工、融合和建立相關(guān)鏈接的過程。隨后對存儲到數(shù)據(jù)庫中的知識進(jìn)行更新操作,刪除舊知識同時加入新知識,以提升知識庫內(nèi)部數(shù)據(jù)的邏輯性。由于知識圖譜中知識對象的粒度不同,所以可分為兩個過程來完成對知識的整合,實體對齊過程和知識庫的融合過程,前者用來判斷待處理的實體在整個大數(shù)據(jù)中是否指向同一個數(shù)據(jù)元,后者則需要在克服知識庫中對象的融合困難問題時加入新的考慮[8]。
(4)擴(kuò)展知識庫
該過程是在已有的知識庫基礎(chǔ)上進(jìn)行深入地挖掘以更加豐富數(shù)據(jù)庫。借助該過程推斷出可能缺失的事實。通過前期對知識的整合,可得到一系列基本事實的表達(dá)或本體雛形,但這些事實并不一定等同于最終所需的知識,故而可以通過構(gòu)建本體來實現(xiàn)概念間的相互約束。
(5)知識篩選
對整合并篩選好的知識進(jìn)行質(zhì)量評估,從中篩選出置信度比較高的數(shù)據(jù)存入知識庫,使用經(jīng)過篩選后的知識更能提高知識圖譜的準(zhǔn)確度,為后續(xù)的使用提供強有力的事實保障。相較于前幾個過程,這一步驟則是確保搭建成的知識圖譜有較高效率和精確度的關(guān)鍵一步。
2 知識圖譜的應(yīng)用及案例分析
知識圖譜技術(shù)可以應(yīng)用于許多智能信息服務(wù)中,目前,基于垂直行業(yè)的應(yīng)用已逐漸成為知識圖譜技術(shù)和大數(shù)據(jù)智能的前沿問題。如基于長尾的智能搜索過程、深度問答等,又如阿里巴巴的知識圖譜服務(wù)平臺“藏經(jīng)閣”,以及我們生活中使用的淘寶、天貓等應(yīng)用軟件均用到了知識圖譜。通過構(gòu)建可遷移的圖譜算法,從中提取所需知識輸出到指定系統(tǒng),該過程大大提升了應(yīng)用系統(tǒng)的智能化服務(wù)能力[9]。以下就針對醫(yī)學(xué)領(lǐng)域知識圖譜的應(yīng)用和測試案例進(jìn)行說明,著重針對基于運維知識圖譜的應(yīng)用案例進(jìn)行分析,通過總結(jié)不同案例中知識圖譜的構(gòu)建過程搭建簡單的知識圖譜體系架構(gòu)。
(1)基于垂直行業(yè)的應(yīng)用
知識圖譜技術(shù)在醫(yī)學(xué)領(lǐng)域的應(yīng)用相當(dāng)廣泛,就以在今年的新冠肺炎疫情病例活動中知識圖譜的構(gòu)建過程為例[10]。分別從病毒的分類、病毒的基本信息、抗病毒的藥物等角度進(jìn)行考慮和分析,最終整合其中互聯(lián)的知識,合并這四個子圖譜成新冠科研圖譜。分別從新聞網(wǎng)、抗疫一線等渠道獲取疫情期間的英雄人物信息,包括其主要事跡、成果等,將其合并為新冠百科圖譜。對于所有涉及到疫情、防疫等字眼的知識,在大數(shù)據(jù)中均支持正向、反向,以及相互索引,包括每個事件本身包含的發(fā)展變化和脈絡(luò)走向。下圖1中就直觀展現(xiàn)出了該知識圖譜包含的部分屬性。
對于新冠健康圖譜,具體的構(gòu)建過程是先對各個省、市建立病例實體,毫無疑問,這些實體間必存在相對應(yīng)的聯(lián)系,如染病時間、直接和間接的接觸情況、染病渠道、病情癥狀相似度、臨床治療方案等,從這些數(shù)據(jù)中篩選出置信度較高的數(shù)據(jù),人工給出精確的病情診斷和治療方案,經(jīng)過整合和部分有效鏈接后存入知識庫中。在OpenKG發(fā)布的新冠知識圖譜數(shù)據(jù)中就將有關(guān)新冠的知識以三元組形式導(dǎo)入了2019-nCov圖譜中,以便后期醫(yī)護(hù)、研究人員對特殊病情的判斷能始終保持高準(zhǔn)確性,同時為后續(xù)人們了解該疫情以及使用其知識提供強有力的事實保障。
(2)基于運維知識圖譜技術(shù)的應(yīng)用案例分析
相較于大部分知識圖譜而言,運維知識圖譜具有天然優(yōu)勢即可以利用網(wǎng)絡(luò)設(shè)備固有的拓?fù)浣Y(jié)構(gòu)和系統(tǒng)應(yīng)用中的調(diào)用關(guān)系快速構(gòu)成知識圖譜中的實體和關(guān)系。現(xiàn)就關(guān)于基于運維知識圖譜構(gòu)建方面的應(yīng)用案例進(jìn)行分析,構(gòu)建過程圖如下圖2所示。
在網(wǎng)絡(luò)設(shè)備服務(wù)發(fā)生異常時,運維監(jiān)控系統(tǒng)會出現(xiàn)告警信息,這就給網(wǎng)關(guān)和網(wǎng)絡(luò)監(jiān)控者帶來了極大壓力。如圖2,在構(gòu)建過程中,通過使用CMDB等離線數(shù)據(jù)和物理設(shè)備網(wǎng)絡(luò)連接數(shù)據(jù)獲取設(shè)備間的連接關(guān)系和調(diào)用關(guān)系,用以構(gòu)建軟硬件合并的知識圖譜。通過使用歷史告警數(shù)據(jù)對知識圖譜發(fā)出告警信息,對這些信息進(jìn)行分類,使用BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行學(xué)習(xí)并對故障根因進(jìn)行定位,實現(xiàn)故障的預(yù)測和自愈[12]。經(jīng)過訓(xùn)練模型和計算概率,最終構(gòu)建出告警知識圖譜并將其應(yīng)用于知識圖譜中[11]。在面對海量的運維監(jiān)控數(shù)據(jù)時,我們需要一個可以輔助分析系統(tǒng)內(nèi)部指標(biāo)間關(guān)系的工具可視化展示告警的路徑和影響范圍,該過程如下圖3所示。
通過基于運維知識圖譜的告警收斂和根因定位(3.0版本)過程,即可將告警收斂到軟硬件知識圖譜的相關(guān)節(jié)點上[12]。如上圖3告警收斂和根因定位的過程圖所示,通過查詢Nebula圖譜獲取到歷史告警信息的關(guān)系,得出一條完整的可能根因鏈路,為運維人員提供更好的索引信息,使告警信息的規(guī)模不斷縮小,逐步降低對網(wǎng)絡(luò)運維的壓力。
3 知識圖譜的架構(gòu)
針對上文對知識圖譜技術(shù)的構(gòu)建過程的詳細(xì)描述和幾個重要領(lǐng)域的案例分析,合理構(gòu)建出知識圖譜的架構(gòu)框圖如下圖4所示。
如上圖所示,知識圖譜技術(shù)的架構(gòu)將被劃分為五個具體模塊,分別對應(yīng)提取知識、表示知識、整合知識、擴(kuò)展知識庫和篩選知識。構(gòu)建的具體流程是,先從待提取的數(shù)據(jù)中抽取出知識圖譜的組成要素如實體、關(guān)系、屬性等,并用形式化、符號化的語言表示出這些知識。對存入數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行整合、消除歧義,完成建立鏈接和更新的操作,隨后對知識庫中的內(nèi)容進(jìn)行擴(kuò)展,篩選其中合理有效的知識構(gòu)建出符合實際應(yīng)用的知識圖譜。圖中知識圖譜的構(gòu)建過程需要先從一些結(jié)構(gòu)化的數(shù)據(jù)中提取到數(shù)據(jù),從中完成對知識的篩選過程并將其存入到知識庫中,最后構(gòu)建出頂層的本體,屬于自底向上的構(gòu)建順序,該方法被大多數(shù)知識圖譜所采用。
4 總結(jié)和展望
本文主要研究了使用知識圖譜技術(shù)的五個關(guān)鍵技術(shù)步驟,通過分析一些基于知識圖譜技術(shù)的應(yīng)用和研究案例,著重針對基于知識圖譜技術(shù)的大規(guī)模告警收斂和根因定位實踐的案例進(jìn)行分析,完成了知識圖譜技術(shù)的架構(gòu)框圖,并針對各個步驟做出了簡要的介紹。知識圖譜技術(shù)是人工智能技術(shù)的重要組成部分,在未來,仍將會是人工智能及大數(shù)據(jù)研究方向的熱點問題,并且其算法會被逐漸補充和完善,其理論實踐會被進(jìn)一步證明和使用,更高效率地利用復(fù)雜多樣的數(shù)據(jù)源以提高準(zhǔn)確率和擴(kuò)展性,而不僅是只局限于集中在特定數(shù)據(jù)集上的研究和在學(xué)術(shù)上的討論。
參考文獻(xiàn):
[1] 袁凱琦,鄧揚,等.醫(yī)學(xué)知識圖譜構(gòu)建與研究進(jìn)展[J].計算機(jī)應(yīng)用研究,2018,35(7):1929-1936.
[2] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報,2016,45(4):589-606.
[3] 陸浩,王飛躍,劉德榮,等.基于科研知識圖譜的近年國內(nèi)外自動化學(xué)科發(fā)展綜述[J].自動化學(xué)報,2014,40(5):994-1015.
[4] Wang F Y, Lai G, Tang S M. An application specific knowledge engine for researches in intelligent transportation systems[C]//Proceedings of the 7th International Conference on Intelligent Transportation Systems. Washington D.C., USA: IEEE, 2004. 841-846.
[5] Walczak S.Knowledge-based search in competitive domains[J].IEEE Transactions on Knowledge and Data Engineering,2003,15(3):734-743.
[6] 王昊奮,張金康,程小軍.中文開放鏈接醫(yī)療數(shù)據(jù)的構(gòu)建[J].中國數(shù)字醫(yī)學(xué),2013,8(4):5-8,15.
[7] 于洪,何德牛,王國胤,等.大數(shù)據(jù)智能決策[J].自動化學(xué)報,2020,46(5):878-896.
[8] Dong X,Gabrilovich E,Heitz G,et al.Knowledge vault:a web-scale approach to probabilistic knowledge fusion[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.New York New York USA.New York,NY,USA:ACM,2014:601-610.
[9] 朱素媛,馬溪俊,梁昌勇.人工智能技術(shù)在搜索引擎中的應(yīng)用[J].合肥工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2003,26(S1):657-661.
[10] 陳曉慧,劉俊楠,徐立,等.COVID-19病例活動知識圖譜構(gòu)建——以鄭州市為例[J].武漢大學(xué)學(xué)報·信息科學(xué)版,2020,45(6):816-825.
[11] 國悅婷.運維監(jiān)控系統(tǒng)告警收斂的算法研究與應(yīng)用[D].武漢:華中科技大學(xué),2017.
[12] 閆祎穎,何云瑞,陳亮,等.基于CMDB的信息系統(tǒng)故障根因定位技術(shù)的研究[J].通信電源技術(shù),2020,37(3):33-35,37.
【通聯(lián)編輯:梁書】
收稿日期:2021-05-17
基金項目:國家級大學(xué)生創(chuàng)新訓(xùn)練項目(202010361092)
作者簡介:王國明(1965—),男,安徽阜陽人,碩士研究生導(dǎo)師,研究方向為網(wǎng)絡(luò)與信息安全,圖形圖像處理;卞玉露(1998—),女,江蘇鹽城人,在讀碩士研究生,研究方向為人工智能,圖形圖像處理。