劉 巍,陳 霄,陳 靜,周 覲,張 斌
(軍事科學(xué)院,北京 100091)
隨著人工智能、知識(shí)工程等技術(shù)的高速發(fā)展,知識(shí)圖譜在知識(shí)的自動(dòng)獲取、知識(shí)表征和推理學(xué)習(xí)、基于圖的深度挖掘等方面取得了突破性進(jìn)展,知識(shí)圖譜相關(guān)技術(shù)已經(jīng)在智能語義搜索、問答系統(tǒng),以及公安、醫(yī)療、軍事等行業(yè)落地應(yīng)用[1-3]。知識(shí)圖譜涉及自然語言處理、機(jī)器學(xué)習(xí)、知識(shí)表示、圖數(shù)據(jù)庫等多方面的技術(shù)[4-5],隨著知識(shí)圖譜應(yīng)用日趨廣泛,相關(guān)技術(shù)研究已取得可喜的成果。文獻(xiàn)[6]將知識(shí)圖譜的技術(shù)架構(gòu)分為信息抽取層、知識(shí)融合層和加工層,并對(duì)涉及的關(guān)鍵技術(shù)進(jìn)行了綜述和分析。文獻(xiàn)[7]闡述了知識(shí)圖譜的實(shí)現(xiàn)流程,分析了其組織、存儲(chǔ)、管理和更新大規(guī)模知識(shí)的過程及相關(guān)技術(shù)。文獻(xiàn)[8]闡述了目前主流的通用和領(lǐng)域知識(shí)圖譜在構(gòu)建過程中的區(qū)別,分類討論了圖譜構(gòu)建過程中存在的問題和挑戰(zhàn),提出了解決措施。此外,文獻(xiàn)[9-10]分別對(duì)知識(shí)圖譜涉及的知識(shí)表示、抽取、融合、圖劃分算法、知識(shí)可視化等技術(shù)進(jìn)行了綜述和分析。上述研究均未對(duì)知識(shí)圖譜的架構(gòu)體系、生命周期、挑戰(zhàn)及發(fā)展趨勢(shì)等進(jìn)行系統(tǒng)性、總體性的闡述和歸納分析。本文首先系統(tǒng)地分析了知識(shí)圖譜的架構(gòu)和構(gòu)建方法,之后闡述了知識(shí)圖譜相關(guān)技術(shù)的國內(nèi)外研究進(jìn)展和其在不同領(lǐng)域的落地應(yīng)用,最后探討了知識(shí)圖譜未來發(fā)展趨勢(shì)和存在的諸多挑戰(zhàn)。
知識(shí)圖譜旨在描述各種概念、實(shí)體及其之間的關(guān)系。其中,實(shí)體是指客觀世界中存在的、具有可區(qū)別性的具體事物,如NBA球員科比、百歲山礦泉水等,某個(gè)時(shí)刻、某個(gè)地點(diǎn)、某個(gè)數(shù)值也可以作為實(shí)體。概念通常反映的是一組實(shí)體的種類或?qū)ο蟮念愋?如人、動(dòng)物、氣候、組織機(jī)構(gòu)等。屬性(值)是指某個(gè)實(shí)體具有的特征及參數(shù),不同屬性對(duì)應(yīng)不同的邊。關(guān)系是指連接不同實(shí)體的“邊”,描述概念、實(shí)體之間客觀存在的關(guān)聯(lián),可以是組成關(guān)系、隸屬關(guān)系、因果關(guān)系、推論關(guān)系、相近關(guān)系等。
知識(shí)圖譜架構(gòu)包括邏輯架構(gòu)和技術(shù)架構(gòu)[11],分別如下。
1)邏輯架構(gòu)
邏輯架構(gòu)包括模式層和數(shù)據(jù)層。模式層是知識(shí)圖譜的邏輯基礎(chǔ)和概念模型,通常采用本體庫進(jìn)行管理,引入本體是為了知識(shí)的復(fù)用和共享,涉及的本體包括概念、屬性以及概念之間的關(guān)系,可以對(duì)知識(shí)結(jié)構(gòu)進(jìn)行描述。因此,本體庫可以看成結(jié)構(gòu)化知識(shí)庫的模板,具備精煉且標(biāo)準(zhǔn)的特點(diǎn)。
數(shù)據(jù)層是知識(shí)圖譜的基礎(chǔ),是在模式層的規(guī)范和約束下,對(duì)本體庫在實(shí)體層面的豐富和擴(kuò)充。數(shù)據(jù)層由一系列的事實(shí)組成,并以(實(shí)體-關(guān)系-實(shí)體)或(實(shí)體-屬性-屬性值)的三元組形式進(jìn)行存儲(chǔ)。知識(shí)圖譜的邏輯架構(gòu)如圖1所示。
圖1 知識(shí)圖譜的邏輯架構(gòu)
2)技術(shù)架構(gòu)
知識(shí)圖譜的技術(shù)架構(gòu)是指在構(gòu)建圖譜時(shí)選擇的模式結(jié)構(gòu),技術(shù)架構(gòu)如圖2所示,主要包括信息抽取、知識(shí)表示、知識(shí)融合、知識(shí)加工等過程。
圖2 知識(shí)圖譜的技術(shù)架構(gòu)
知識(shí)圖譜的構(gòu)建方法有兩種,即自底向上和自頂向下的構(gòu)建方法。
1)自底向上的構(gòu)建方法
如圖3所示,首先,從各類數(shù)據(jù)源中提取實(shí)體、關(guān)系和屬性,添加到圖譜的數(shù)據(jù)層;然后,對(duì)數(shù)據(jù)層知識(shí)進(jìn)行組織歸納并抽象為概念;最終,構(gòu)建模式層。
圖3 自底向上的構(gòu)建方法
2)自頂向下的構(gòu)建方法
如圖4所示,首先從頂層開始構(gòu)建本體概念,該階段通常由領(lǐng)域?qū)<医Y(jié)合經(jīng)驗(yàn)和智慧從高質(zhì)量的數(shù)據(jù)源中提取和構(gòu)建本體,完成術(shù)語提取、規(guī)則定義等,即構(gòu)建圖譜的模式層。之后進(jìn)行實(shí)例填充,從各類數(shù)據(jù)源中進(jìn)行信息抽取,再經(jīng)過知識(shí)融合、知識(shí)加工、質(zhì)量評(píng)估等過程,將抽取的實(shí)體、屬性、關(guān)系等填充到模式層本體中,完成數(shù)據(jù)層的構(gòu)建。
圖4 自頂向下的構(gòu)建方法
本節(jié)從知識(shí)圖譜生命周期的視角,從知識(shí)獲取、表示、融合、推理和應(yīng)用等層面闡述了知識(shí)圖譜構(gòu)建過程中所涉及關(guān)鍵技術(shù)的國內(nèi)外研究進(jìn)展及優(yōu)缺點(diǎn)。
2.1.1 面向非結(jié)構(gòu)化數(shù)據(jù)源的知識(shí)獲取
1)實(shí)體抽取
文本數(shù)據(jù)的實(shí)體抽取主要包括三類方法:基于深度學(xué)習(xí)的方法、基于統(tǒng)計(jì)模型的方法、基于規(guī)則和詞典的方法。文獻(xiàn)[12]采用基于語言規(guī)則的方法對(duì)藥品說明書中的癥狀、疾病和致病菌進(jìn)行抽取并評(píng)價(jià)其準(zhǔn)確性,利用詞性標(biāo)注、術(shù)語表分詞實(shí)現(xiàn)實(shí)體抽取,并基于語言規(guī)則實(shí)現(xiàn)醫(yī)療實(shí)體識(shí)別,準(zhǔn)確率較高。文獻(xiàn)[13]提出了一種基于鍵規(guī)則的XML實(shí)體抽取算法,其核心是基于鍵規(guī)則中有關(guān)實(shí)體的語義信息和XML查詢提供實(shí)體的表示方法進(jìn)行實(shí)體抽取?;谝?guī)則和詞典的方法在少量數(shù)據(jù)集上能夠?qū)崿F(xiàn)較高的準(zhǔn)確率和召回率,但不適用于大量數(shù)據(jù)集下的實(shí)體識(shí)別。文獻(xiàn)[14]提出了一種融合最大熵和隱馬爾可夫模型的漢語命名實(shí)體識(shí)別法,該方法將詞性標(biāo)注和命名實(shí)體識(shí)別相結(jié)合,實(shí)驗(yàn)結(jié)果表明針對(duì)地名、人名、組織名三種重要的命名實(shí)體有較好的效果。文獻(xiàn)[15]提出了一種基于改進(jìn)的規(guī)則和統(tǒng)計(jì)方法相結(jié)合的實(shí)體識(shí)別模型,核心是將規(guī)則引入自適應(yīng)統(tǒng)計(jì)識(shí)別模型,能夠有效修正基于統(tǒng)計(jì)模型識(shí)別的一些集中出現(xiàn)的識(shí)別錯(cuò)誤。文獻(xiàn)[16]提出了一種基于堆疊神經(jīng)網(wǎng)絡(luò)的醫(yī)療命名實(shí)體識(shí)別法,利用多層堆疊的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)醫(yī)療文本進(jìn)行編碼,使用條件隨機(jī)場(chǎng)選取最優(yōu)序列標(biāo)注路徑,識(shí)別準(zhǔn)確率較高。文獻(xiàn)[17]給出了一種基于條件隨機(jī)場(chǎng)和殘差空洞卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)安全實(shí)體識(shí)別模型。通過BERT模型對(duì)字符級(jí)的特征向量進(jìn)行訓(xùn)練和表示,之后,利用殘差卷積與空洞神經(jīng)網(wǎng)絡(luò)模型提取安全實(shí)體的重要特征,最后,通過條件隨機(jī)場(chǎng)模型獲得每個(gè)字符的BIO標(biāo)注,識(shí)別效果比傳統(tǒng)模型效果更佳。
2)關(guān)系抽取
目前,關(guān)系抽取的方法可分為基于模板的方法、基于監(jiān)督學(xué)習(xí)的方法和基于弱監(jiān)督學(xué)習(xí)的方法。早期的實(shí)體關(guān)系抽取方法多數(shù)基于模板匹配,優(yōu)點(diǎn)是模板構(gòu)建簡便,在小規(guī)模數(shù)據(jù)集上可以實(shí)現(xiàn)快速關(guān)系抽取,但是隨著數(shù)據(jù)規(guī)模的增大,手工構(gòu)建模板需要耗費(fèi)領(lǐng)域?qū)<掖罅康臅r(shí)間,模板的數(shù)量有限,覆蓋范圍可能不夠,并且可移植性較差。
基于監(jiān)督學(xué)習(xí)的方法步驟包括預(yù)定義關(guān)系類型、人工標(biāo)注數(shù)據(jù)、定義關(guān)系識(shí)別所需的特征、選擇分類模型、模型訓(xùn)練、模型評(píng)估。隨著人工智能技術(shù)的發(fā)展,研究人員提出基于深度學(xué)習(xí)的關(guān)系抽取方法,主要包括流水線法和聯(lián)合抽取法[18-22]。文獻(xiàn)[18]提出了一種基于分解標(biāo)注策略的聯(lián)合抽取模型,將實(shí)體和關(guān)系聯(lián)合抽取轉(zhuǎn)化為頭實(shí)體識(shí)別、尾實(shí)體和關(guān)系抽取兩個(gè)子任務(wù),并且,在訓(xùn)練階段引入偏置權(quán)重緩解了標(biāo)注策略帶來的類別不平衡問題,在預(yù)測(cè)階段基于句子語義關(guān)系對(duì)模型結(jié)果進(jìn)行修正,提高了模型的性能。文獻(xiàn)[19]從數(shù)據(jù)和聯(lián)合模型兩個(gè)角度提出了四種實(shí)體關(guān)系抽取聯(lián)合模型,并且分別探究了所提出模型的優(yōu)勢(shì)和不足。
當(dāng)訓(xùn)練數(shù)據(jù)較少時(shí),弱監(jiān)督學(xué)習(xí)法能夠基于少量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型,包括遠(yuǎn)程監(jiān)督法和Bootstrapping法。文獻(xiàn)[20]提出了深度殘差網(wǎng)絡(luò)來解決深層網(wǎng)絡(luò)在實(shí)體關(guān)系識(shí)別提取過程中噪聲增大的問題。針對(duì)弱監(jiān)督錯(cuò)誤標(biāo)注問題,文獻(xiàn)[21]給出了一種基于權(quán)衡機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取神經(jīng)網(wǎng)絡(luò)框架,該框架在句子層級(jí)上結(jié)合文本語句與實(shí)體對(duì)的嵌入詞向量表示所包含的語義信息以預(yù)測(cè)關(guān)系事實(shí)。
3)屬性抽取
屬性抽取的目標(biāo)是補(bǔ)全實(shí)體信息,通過從樣本源中獲取實(shí)體屬性信息或?qū)傩灾?。文獻(xiàn)[22]提出了一種基于雙向長短時(shí)記憶模型和隨機(jī)場(chǎng)模型的實(shí)體屬性抽取方法,該方法不依賴于規(guī)則和特征工程,利用雙向長短時(shí)記憶模型從原始文本中自動(dòng)地學(xué)習(xí)語句的語義表示,通過對(duì)有標(biāo)注訓(xùn)練數(shù)據(jù)的學(xué)習(xí),獲得了屬性的語義表示和上下文關(guān)系,然后,利用隨機(jī)場(chǎng)模型對(duì)屬性進(jìn)行分類,將文本中每一個(gè)短語或者詞匯按照對(duì)應(yīng)的標(biāo)簽分類。
2.1.2 面向結(jié)構(gòu)化數(shù)據(jù)源的知識(shí)獲取
目前,已有一些標(biāo)準(zhǔn)和工具支持將結(jié)構(gòu)化數(shù)據(jù)庫轉(zhuǎn)化為RDF數(shù)據(jù)、OWL本體等。W3C于2012年發(fā)布了兩個(gè)RDB2RDF映射語言[23]:DM(Direct Mapping)直接映射和R2RML。兩種語言均能夠定義關(guān)系數(shù)據(jù)庫轉(zhuǎn)換為RDF數(shù)據(jù)的各類規(guī)則,如URI的生成、RDF類和屬性、空節(jié)點(diǎn)的處理、關(guān)聯(lián)關(guān)系表達(dá)等。
2.1.3 面向半結(jié)構(gòu)化數(shù)據(jù)源的知識(shí)獲取
半結(jié)構(gòu)化數(shù)據(jù)源主要包括百科類和網(wǎng)頁類數(shù)據(jù)。從百科類數(shù)據(jù)中獲取知識(shí)通過知識(shí)提取器實(shí)現(xiàn),目前已有較為成熟的知識(shí)圖譜,如DBpedia和Zhishi.me。從網(wǎng)頁中獲取結(jié)構(gòu)化信息一般通過包裝器實(shí)現(xiàn),包裝器的生成方法有三類:手工法、包裝器歸納法和自動(dòng)抽取法。
手工法需查看網(wǎng)頁結(jié)構(gòu)和代碼,經(jīng)人工分析,手工編寫出適合當(dāng)前網(wǎng)站的抽取表達(dá)式。包裝器歸納法是利用有監(jiān)督學(xué)習(xí)方法從已標(biāo)注的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)抽取的規(guī)則,然后,對(duì)相同模板的其他網(wǎng)頁進(jìn)行信息抽取。以上兩種方法的缺點(diǎn)在于對(duì)不同結(jié)構(gòu)的網(wǎng)頁要制定不同的抽取規(guī)則。自動(dòng)抽取法首先對(duì)相似網(wǎng)頁進(jìn)行聚類分組,然后,挖掘同組中相似網(wǎng)頁的重復(fù)模式,可以生成適用于該組網(wǎng)頁的包裝器。文獻(xiàn)[24]提出一種商品規(guī)格信息的無監(jiān)督學(xué)習(xí)自動(dòng)抽取算法,該算法以網(wǎng)頁標(biāo)題為種子,結(jié)合自然語義、統(tǒng)計(jì)特征等,在減少工作量的同時(shí),達(dá)到了較高的準(zhǔn)確率,并且,具有一定的擴(kuò)展性。
知識(shí)表示可分為人工智能早期的知識(shí)表示、互聯(lián)網(wǎng)時(shí)代的語義網(wǎng)知識(shí)表示以及知識(shí)圖譜的表示學(xué)習(xí)。人工智能早期的知識(shí)表示主要有命題邏輯、謂詞邏輯、產(chǎn)生式表示、框架和語義網(wǎng)絡(luò)等。語義網(wǎng)知識(shí)表示與人工智能中提出的語義網(wǎng)絡(luò)不同,語義網(wǎng)的概念來源于萬維網(wǎng),最初是為了使萬維網(wǎng)能夠更加有效地組織和檢索信息功能以提高其智能程度。隨著深度學(xué)習(xí)模型的應(yīng)用日益廣泛,如何將深度學(xué)習(xí)模型用于知識(shí)圖譜的表示學(xué)習(xí)成為當(dāng)前知識(shí)圖譜領(lǐng)域研究的熱點(diǎn)問題之一。其核心是為知識(shí)圖譜中實(shí)體和關(guān)系求得最優(yōu)化的向量表示,以支持大數(shù)據(jù)下知識(shí)的快速計(jì)算。知識(shí)圖譜的表示學(xué)習(xí)主要包括勢(shì)能函數(shù)和張量重構(gòu)[25-28]的方法。前者認(rèn)為,關(guān)系是頭實(shí)體到尾實(shí)體的平移變換。文獻(xiàn)[25]提出的TransE模型是平移模型的代表。在此基礎(chǔ)上,大量學(xué)者對(duì)TransE進(jìn)行改進(jìn)和應(yīng)用,如結(jié)合文本等外部信息、應(yīng)用邏輯推理規(guī)則等,提升表示學(xué)習(xí)效果來表示更復(fù)雜的關(guān)系。張量重構(gòu)能夠綜合全部知識(shí)圖譜的信息,但數(shù)據(jù)集較大時(shí),張量維度激增,計(jì)算效率降低。
知識(shí)融合主要包括實(shí)體鏈接和知識(shí)合并。前者指將不同數(shù)據(jù)源中抽取的實(shí)體鏈接到知識(shí)庫中對(duì)應(yīng)的正確實(shí)體上,主要包括實(shí)體消歧和共指消解。實(shí)體消歧用于解決同名實(shí)體產(chǎn)生的歧義問題,主要采用聚類法,核心是準(zhǔn)確定義實(shí)體與指稱項(xiàng)間的相似度,包括空間向量模型、語義模型、社會(huì)網(wǎng)絡(luò)模型、百科知識(shí)模型、文本相似度模型等。文獻(xiàn)[29]采用基于空間向量模型的實(shí)體消歧方法在MUC6 (Message Understanding Conference)數(shù)據(jù)集上進(jìn)行了試驗(yàn)驗(yàn)證,消歧精度較高,但是沒考慮上下文的語義信息,不適用于短文本分析。文獻(xiàn)[30]基于聚類法設(shè)計(jì)了一種人名消歧系統(tǒng),其將從文本中提取實(shí)體之間的個(gè)人屬性和社會(huì)關(guān)系映射到一個(gè)無向加權(quán)圖,使用聚類算法對(duì)圖進(jìn)行聚類,其中,每個(gè)聚類包含指向一個(gè)人的所有web頁面。文獻(xiàn)[31]利用維基百科條目間的關(guān)聯(lián)關(guān)系計(jì)算實(shí)體間的相似度,實(shí)現(xiàn)了較高精度的實(shí)體消歧。文獻(xiàn)[32]以維基百科作為知識(shí)庫,基于實(shí)體所在內(nèi)容的上下文信息和空間向量模型,實(shí)現(xiàn)了較高精度的實(shí)體消歧。
共指消解技術(shù)用于解決多個(gè)指稱項(xiàng)對(duì)應(yīng)于同一實(shí)體對(duì)象的問題,其發(fā)展歷程可分為五個(gè)階段:第一階段始于1978年,主要基于句法分析和淺層語言學(xué)規(guī)則,包括Hobbs算法、中心理論等;第二階段始于1995年,主要是基于排序?qū)W習(xí)和二元分類的機(jī)器學(xué)習(xí)方法,包括決策樹模型、最大熵、支持向量機(jī)等。此外,還有基于無監(jiān)督和半監(jiān)督學(xué)習(xí)的方法,如聚類、圖劃分、協(xié)同訓(xùn)練等;第三階段始于21世紀(jì)初,共指消解技術(shù)引入了全局最優(yōu)化的模型,主要有整數(shù)規(guī)劃法、啟發(fā)式篩法等;第四階段始于2011年前后,共指消解引入開放知識(shí)庫作為額外的特征,包括基于眾包系統(tǒng)、百科知識(shí)等。第五階段始于2017年前后,引入深度學(xué)習(xí)技術(shù),并取得了當(dāng)前最好的效果,主要包括基于RNN、強(qiáng)化學(xué)習(xí)、End-to-end等,例如文獻(xiàn)[33]構(gòu)造了神經(jīng)網(wǎng)絡(luò)共指消解模型,無須命名實(shí)體識(shí)別、句法分析,且性能優(yōu)于過去所有模型的效果。文獻(xiàn)[34]將深度上下文詞向量加入端到端神經(jīng)網(wǎng)絡(luò)共指消解模型中,通過動(dòng)態(tài)生成詞向量,克服了傳統(tǒng)詞向量技術(shù)無法解決的“一詞多義”的問題。文獻(xiàn)[35]在端到端神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,引入了由粗到細(xì)的推斷策略,首先基于簡單的打分函數(shù)求解共指概率最高的前M個(gè)先行語,之后基于復(fù)雜的打分函數(shù)對(duì)這M個(gè)先行語進(jìn)行排序,截至目前該方法可獲得最好的共指消解效果。
知識(shí)合并作為知識(shí)融合的一種重要手段,需要解決兩個(gè)層面的問題:不同知識(shí)源的數(shù)據(jù)層合并和模式層合并。數(shù)據(jù)層合并包括實(shí)體對(duì)齊、屬性對(duì)齊以及沖突檢測(cè)與解決。模式層合并包括概念、概念上下位關(guān)系以及概念的屬性定義合并。為推進(jìn)知識(shí)庫融合的標(biāo)準(zhǔn)化,文獻(xiàn)[36]設(shè)計(jì)了開放數(shù)據(jù)集成框架和流程,主要包括獲取知識(shí)、概念匹配、實(shí)體匹配、知識(shí)評(píng)估等。對(duì)于合并關(guān)系數(shù)據(jù)庫,通常利用資源描述框架(RDF)作為數(shù)據(jù)模型,實(shí)質(zhì)是將關(guān)系數(shù)據(jù)庫映射成RDF的三元組,經(jīng)實(shí)體鏈接后,加入知識(shí)圖譜中。目前較為常用的包括DM(Direct Mapping)直接映射和R2RML。
信息抽取能夠從數(shù)據(jù)源中獲取實(shí)體、屬性、關(guān)系等,再利用知識(shí)融合消解指稱項(xiàng)與實(shí)體對(duì)象間的歧義,獲得事實(shí)的表達(dá)。但是事實(shí)不等于知識(shí),若要建立網(wǎng)絡(luò)化、結(jié)構(gòu)化的知識(shí)體系,必須進(jìn)行知識(shí)的加工,包括本體構(gòu)建、知識(shí)推理、質(zhì)量評(píng)估和知識(shí)更新。
2.4.1 本體構(gòu)建
本體構(gòu)建方法主要包括兩類:一是專家手動(dòng)構(gòu)建;二是利用數(shù)據(jù)驅(qū)動(dòng)自動(dòng)構(gòu)建。自動(dòng)化本體構(gòu)建步驟包括:計(jì)算實(shí)體并列關(guān)系相似度、實(shí)體上下位關(guān)系抽取和本體的生成。文獻(xiàn)[37]基于主題層次聚類的方法構(gòu)建了本體結(jié)構(gòu),提出了基于上下位詞抽取模型和單詞共現(xiàn)網(wǎng)絡(luò)的主題聚類算法,克服了主題模型在短文本類型數(shù)據(jù)上抽取效率和準(zhǔn)確率低的問題。
2.4.2 知識(shí)推理
知識(shí)推理指基于已有的實(shí)體關(guān)系,經(jīng)機(jī)器推理構(gòu)建實(shí)體間的新關(guān)聯(lián),進(jìn)而豐富和拓展知識(shí)網(wǎng)絡(luò),主要包括基于邏輯的推理與基于圖的推理[38-41]。文獻(xiàn)[38]將內(nèi)容豐富的符號(hào)邏輯推理與泛化能力較強(qiáng)的神經(jīng)網(wǎng)絡(luò)相結(jié)合,訓(xùn)練出了一個(gè)單一的高能力RNN。該方法在多跳關(guān)系推理的基礎(chǔ)上進(jìn)行改進(jìn),綜合考慮了多條路徑上的關(guān)系和中間實(shí)體信息,使預(yù)測(cè)結(jié)果更加準(zhǔn)確。文獻(xiàn)[39]將圖譜中的實(shí)體表達(dá)為詞向量,再利用神經(jīng)張量網(wǎng)絡(luò)模型實(shí)現(xiàn)實(shí)體之間關(guān)系的推理,在FreeBase和WordNet上對(duì)未知關(guān)系推理的準(zhǔn)確率分別為90.0%和86.2%。文獻(xiàn)[40]將基于潛在特征模型和圖推理法相結(jié)合,探索了路徑排序算法中不同的特征抽取和特征值計(jì)算策略對(duì)整體效率以及性能的影響。文獻(xiàn)[41]在路徑排序算法的基礎(chǔ)上,定義了一個(gè)子圖特征提取算法,可以提取到比兩個(gè)節(jié)點(diǎn)之間的路徑更豐富的特征。然而,路徑排序算法的計(jì)算復(fù)雜度較高,無法滿足大規(guī)模知識(shí)圖譜的應(yīng)用需求。
2.4.3 質(zhì)量評(píng)估
質(zhì)量評(píng)估通常與實(shí)體對(duì)齊同時(shí)開展,實(shí)現(xiàn)對(duì)知識(shí)的可信度的量化,通過保留可信度較高、舍棄可信度較低的知識(shí),保證知識(shí)庫質(zhì)量。文獻(xiàn)[42]依據(jù)不同業(yè)務(wù)的需求來設(shè)計(jì)評(píng)估函數(shù),并綜合考慮多種評(píng)估方法來對(duì)知識(shí)進(jìn)行最終的質(zhì)量評(píng)估。文獻(xiàn)[43]依據(jù)指定信息的抽取頻率對(duì)其可信度評(píng)分,在此基礎(chǔ)上,基于先驗(yàn)知識(shí)修正可信度,在一定程度上降低了錯(cuò)誤判斷信息的風(fēng)險(xiǎn)。
2.4.4 知識(shí)更新
知識(shí)更新可分為數(shù)據(jù)層和模式層的更新。數(shù)據(jù)層更新指實(shí)體、屬性、關(guān)系的刪除、修改、增加等;模式層更新指本體層面概念的刪除、修改、增加等。
知識(shí)存儲(chǔ)方式主要分三類:基于關(guān)系數(shù)據(jù)庫的存儲(chǔ)方案、RDF數(shù)據(jù)庫和圖數(shù)據(jù)庫?;陉P(guān)系數(shù)據(jù)庫的存儲(chǔ)方案包括水平表、屬性表、六重索引、垂直劃分和DB2RDF等。RDF格式存儲(chǔ)就是以三元組的形式存儲(chǔ)數(shù)據(jù),常用的開源RDF數(shù)據(jù)庫包括RDF4j、Marklogic等?;趫D的存儲(chǔ)以屬性圖為基本的表示形式,圖數(shù)據(jù)庫可以提供完善的查詢語言,有利于實(shí)現(xiàn)在圖上的高效查詢和搜索,更容易表達(dá)現(xiàn)實(shí)的業(yè)務(wù)場(chǎng)景,常用的圖數(shù)據(jù)庫包括Neo4j、OrientDB、gStore等。
知識(shí)圖譜能夠賦予信息明確的結(jié)構(gòu)和語義,使計(jì)算機(jī)可以直觀地理解、處理、整合和顯示這些信息,更加接近于人類的認(rèn)知思維。目前已在智能語義搜索、知識(shí)問答系統(tǒng)以及各類垂直行業(yè)中落地實(shí)踐。
在智能語義搜索應(yīng)用中,當(dāng)用戶輸入搜索內(nèi)容時(shí),搜索引擎會(huì)提取搜索內(nèi)容中涉及的實(shí)體和屬性并在知識(shí)圖譜中查找相關(guān)的實(shí)體和屬性值,并將其映射到圖譜的一個(gè)或一組概念上,之后依據(jù)概念層次結(jié)構(gòu),返回圖形化的知識(shí)結(jié)構(gòu),即知識(shí)卡片。如谷歌、必應(yīng)、百度、搜狗等。
問答系統(tǒng)可分為兩類:基于深度學(xué)習(xí)和基于語義分析的問答系統(tǒng)。對(duì)于基于語義分析的問答系統(tǒng),系統(tǒng)首先依據(jù)規(guī)則將問題中的實(shí)體、關(guān)系詞、疑問詞映射成圖譜中的實(shí)體和關(guān)系謂詞,之后將相鄰的實(shí)體、關(guān)系謂詞橋接,產(chǎn)生新的謂詞,最后將問題中的所有謂詞取交集形成一個(gè)精確的查詢語句,再直接利用該查詢得到答案。對(duì)于基于深度學(xué)習(xí)的問答系統(tǒng),系統(tǒng)利用循環(huán)神經(jīng)和卷積神經(jīng)網(wǎng)絡(luò)將一個(gè)問句轉(zhuǎn)換成向量的形式,同時(shí)通過表示學(xué)習(xí)把圖譜中所有實(shí)體或者關(guān)系表示成向量形式。使用問句的向量在這個(gè)知識(shí)圖譜向量中查詢,找到距離最近的實(shí)體或者關(guān)系向量,對(duì)應(yīng)的實(shí)體就是當(dāng)前問句的答案。
知識(shí)圖譜技術(shù)與行業(yè)應(yīng)用結(jié)合后,其價(jià)值得到更大的發(fā)揮。下面以其在軍事中的應(yīng)用為例,闡述其可能的落地應(yīng)用。
針對(duì)軍事領(lǐng)域多業(yè)務(wù)數(shù)據(jù)異構(gòu)化、難關(guān)聯(lián)的問題,可以利用知識(shí)圖譜技術(shù),對(duì)氣象、情報(bào)、后勤、裝備等領(lǐng)域信息進(jìn)行抽取、表示、映射等標(biāo)準(zhǔn)化和工程化處理,構(gòu)建多業(yè)務(wù)綜合化知識(shí)圖譜關(guān)系網(wǎng)絡(luò),輔以強(qiáng)大的交互可視化設(shè)計(jì),向作戰(zhàn)人員提供跨域關(guān)聯(lián)、多維立體的信息服務(wù)支撐能力。
針對(duì)軍事斗爭中網(wǎng)絡(luò)攻擊數(shù)據(jù)碎片化、溯源線索難提取、攻擊鏈條難關(guān)聯(lián)等難題,可以將網(wǎng)絡(luò)安全知識(shí)圖譜作為底層技術(shù)支撐,根據(jù)網(wǎng)絡(luò)威脅情報(bào)真實(shí)數(shù)據(jù)的特點(diǎn)和相關(guān)標(biāo)準(zhǔn),建立網(wǎng)絡(luò)威脅情報(bào)實(shí)體、屬性和關(guān)系,并基于網(wǎng)絡(luò)威脅情報(bào)關(guān)聯(lián)分析技術(shù),深入挖掘各要素之間潛在的關(guān)聯(lián)關(guān)系,進(jìn)而對(duì)攻擊者進(jìn)行追蹤,最終形成溯源定性的重要依據(jù)[44]。
軍事裝備領(lǐng)域數(shù)據(jù)包括兩個(gè)方面:一是裝備自身數(shù)據(jù);二是日常管理和任務(wù)產(chǎn)生的數(shù)據(jù)。由于各類裝備種類多、業(yè)務(wù)類型繁雜、用戶眾多等特點(diǎn),裝備大數(shù)據(jù)十分復(fù)雜、龐大,裝備數(shù)據(jù)的管理和使用效率較低。文獻(xiàn)[46]將知識(shí)圖譜技術(shù)用于解決裝備數(shù)據(jù)管理的相關(guān)難題,通過構(gòu)建裝備大數(shù)據(jù)知識(shí)圖譜,將多模態(tài)、多領(lǐng)域的數(shù)據(jù)層層分解,建立關(guān)聯(lián),將離散的、分段的、不同層面的數(shù)據(jù)進(jìn)行整合,提高裝備數(shù)據(jù)管理統(tǒng)籌能力。
知識(shí)圖譜在軍事方面的應(yīng)用還體現(xiàn)在軍事領(lǐng)域知識(shí)庫的構(gòu)建方面,能夠?yàn)閼B(tài)勢(shì)認(rèn)知、作戰(zhàn)籌劃、行動(dòng)控制以及輔助決策等典型作戰(zhàn)過程提供有力支撐。例如,通過將戰(zhàn)場(chǎng)實(shí)時(shí)態(tài)勢(shì)、戰(zhàn)法規(guī)則、各類作戰(zhàn)條令、動(dòng)向活動(dòng)等信息進(jìn)行自動(dòng)抽取、知識(shí)表示、關(guān)聯(lián)關(guān)系分析、知識(shí)推理等,形成基于戰(zhàn)場(chǎng)實(shí)時(shí)態(tài)勢(shì)數(shù)據(jù)和部隊(duì)作戰(zhàn)經(jīng)驗(yàn)知識(shí)的輔助決策模型,輔助指揮員實(shí)現(xiàn)對(duì)戰(zhàn)場(chǎng)多維度、多層次的理解和認(rèn)知[45]。
此外,知識(shí)圖譜技術(shù)還可支撐軍事智能問答系統(tǒng)以及指揮員個(gè)性化需求分析等典型應(yīng)用。在軍事智能問答方面,通過知識(shí)圖譜構(gòu)建典型問答知識(shí)體系,使機(jī)器能夠從“關(guān)系”的角度出發(fā),分析理解作戰(zhàn)人員提出的自然語句問題,并能夠從海量的信息中,快速準(zhǔn)確地搜尋最佳答案,實(shí)現(xiàn)高效人機(jī)交互。在指揮員個(gè)性化需求分析方面,可以利用知識(shí)圖譜技術(shù),收集指揮員操作習(xí)慣、常見搜索詞、重點(diǎn)關(guān)心問題等,結(jié)合深度學(xué)習(xí)等智能算法,不斷完善形成對(duì)指揮員畫像的精準(zhǔn)描述,從而為作戰(zhàn)人員提供更加智能、聚焦的知識(shí)服務(wù)。
隨著知識(shí)圖譜的關(guān)注度越來越高,其發(fā)展正呈現(xiàn)諸多趨勢(shì)。一是知識(shí)圖譜與機(jī)器學(xué)習(xí)等人工智能技術(shù)相互滲透融合。目前大量的機(jī)器學(xué)習(xí)模型能夠有效實(shí)現(xiàn)實(shí)體識(shí)別、關(guān)系補(bǔ)全等,有力支撐了知識(shí)圖譜的快速構(gòu)建和豐富,并且各類智能算法和知識(shí)圖譜的有效結(jié)合,能夠?qū)崿F(xiàn)知識(shí)推理向高效化、精確化的方向不斷發(fā)展。二是知識(shí)圖譜的模態(tài)趨于多樣化。多模態(tài)知識(shí)圖譜將多模態(tài)知識(shí)(例如文本、圖片和音視頻等)進(jìn)行關(guān)聯(lián)整合,能夠?yàn)橛脩籼峁┝Ⅲw式、多維度的知識(shí)服務(wù),將有力支撐用戶進(jìn)行相關(guān)信息分析和知識(shí)挖掘。三是知識(shí)圖譜的質(zhì)量評(píng)估越來越受重視。無論是知識(shí)覆蓋面廣、學(xué)科眾多的通用知識(shí)圖譜,還是知識(shí)專業(yè)性強(qiáng)、深度高的垂直知識(shí)圖譜,要想為用戶提供高質(zhì)量、高精準(zhǔn)的知識(shí)服務(wù),前提是必須構(gòu)建高質(zhì)量的知識(shí)庫,質(zhì)量評(píng)估作為高質(zhì)量知識(shí)體系構(gòu)建過程中的重要一環(huán),其發(fā)展和完善必將加速知識(shí)圖譜技術(shù)體系的成熟和在各行各業(yè)的落地應(yīng)用。四是知識(shí)圖譜從學(xué)術(shù)界向產(chǎn)業(yè)界轉(zhuǎn)移。隨著大眾的廣泛關(guān)注,知識(shí)圖譜已經(jīng)從學(xué)術(shù)研究逐步向相關(guān)產(chǎn)業(yè)轉(zhuǎn)移,目前已有越來越多的知識(shí)圖譜在電商、醫(yī)療、制造等場(chǎng)景的落地案例,為各行各業(yè)提供高效、精準(zhǔn)的信息服務(wù)。但是,知識(shí)圖譜的大規(guī)模應(yīng)用還面臨著一些挑戰(zhàn),具體如下:
一是知識(shí)獲取效率較低。已有的知識(shí)元素抽取方法受限于數(shù)據(jù)源,擴(kuò)展性、通用性不強(qiáng),需要針對(duì)數(shù)據(jù)源進(jìn)行適應(yīng)性調(diào)整,而調(diào)整方法和過程通常需耗費(fèi)大量人力,效率較低。
二是知識(shí)精確融合和圖譜動(dòng)態(tài)更新困難。從不同數(shù)據(jù)源抽取的知識(shí)沒有統(tǒng)一的發(fā)布規(guī)范,數(shù)據(jù)質(zhì)量參差不齊,從中挖掘的知識(shí)也會(huì)有大量的噪聲以及冗余,針對(duì)這些問題,目前的研究主要集中在開發(fā)并行與分布式的對(duì)齊算法、眾包算法以及跨語言知識(shí)庫對(duì)齊,但是要構(gòu)建高效的知識(shí)圖譜,目前的知識(shí)質(zhì)量評(píng)估仍然過多地依賴人工,圖譜的自動(dòng)化更新以及確保動(dòng)態(tài)更新的有效性具有挑戰(zhàn)性。
三是知識(shí)推理的適應(yīng)性和準(zhǔn)確率較差。當(dāng)前知識(shí)推理學(xué)習(xí)和推理方法大多基于通用知識(shí)圖譜,在實(shí)際應(yīng)用中,利用舊關(guān)系推導(dǎo)出新關(guān)系只能在很小范圍內(nèi)、明確規(guī)則下進(jìn)行嘗試,并且關(guān)系的精度難以得到保證,尤其是在構(gòu)建大規(guī)模知識(shí)圖譜中,預(yù)測(cè)準(zhǔn)確率低、效率低的問題有待于進(jìn)一步深入研究。
四是目前大規(guī)模知識(shí)圖譜的應(yīng)用場(chǎng)景和應(yīng)用模式還比較有限,如何高效地構(gòu)建、靈活地實(shí)現(xiàn)知識(shí)圖譜的有效落地應(yīng)用,提高大規(guī)模知識(shí)圖譜的知識(shí)計(jì)算效率和推理準(zhǔn)確度,需要廣大科研工作者和相關(guān)領(lǐng)域技術(shù)人員不斷銳意發(fā)掘用戶需求,探索更重要的應(yīng)用場(chǎng)景,提出新的應(yīng)用算法。
知識(shí)圖譜是典型的學(xué)科交叉領(lǐng)域,涉及機(jī)器學(xué)習(xí)、知識(shí)表示、圖數(shù)據(jù)庫等多種學(xué)科,其構(gòu)建及應(yīng)用涉及知識(shí)建模、表示、存儲(chǔ)、加工、語義搜索、智能問答等多種關(guān)鍵技術(shù)。利用知識(shí)圖譜技術(shù),人們可以對(duì)各類數(shù)據(jù)源進(jìn)行結(jié)構(gòu)化、語義化的智能處理,構(gòu)建大規(guī)模的專業(yè)知識(shí)庫,并支撐業(yè)務(wù)應(yīng)用,使得機(jī)器能夠更好地理解網(wǎng)絡(luò)、資源、用戶,為用戶提供新型智能服務(wù)。本文針對(duì)知識(shí)圖譜的架構(gòu)體系、生命周期、典型應(yīng)用、面臨的挑戰(zhàn)及發(fā)展趨勢(shì)等進(jìn)行系統(tǒng)性、總體性的闡述和歸納分析,期望所做的工作可以為知識(shí)圖譜技術(shù)的發(fā)展和普及貢獻(xiàn)一份力量。