吳運(yùn)兵,陰愛英,林開標(biāo),余小燕,賴國(guó)華
(1. 福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350116; 2. 福州大學(xué)至誠(chéng)學(xué)院,福建 福州 350002; 3. 廈門理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院,福建 廈門 361024; 4. 臺(tái)灣元智大學(xué)資訊學(xué)院,臺(tái)灣 桃園 32003)
?
基于多數(shù)據(jù)源的知識(shí)圖譜構(gòu)建方法研究
吳運(yùn)兵1,陰愛英2,林開標(biāo)3,余小燕1,賴國(guó)華4
(1. 福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350116; 2. 福州大學(xué)至誠(chéng)學(xué)院,福建 福州 350002; 3. 廈門理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院,福建 廈門 361024; 4. 臺(tái)灣元智大學(xué)資訊學(xué)院,臺(tái)灣 桃園 32003)
針對(duì)多數(shù)據(jù)源的融合應(yīng)用,構(gòu)建了基于多數(shù)據(jù)源的知識(shí)圖譜. 首先,對(duì)不同領(lǐng)域內(nèi)的數(shù)據(jù)源構(gòu)建相應(yīng)本體庫(kù),并將不同本體庫(kù)通過數(shù)據(jù)融合映射到全局本體庫(kù); 然后,利用實(shí)體對(duì)齊和實(shí)體鏈接方法進(jìn)行知識(shí)獲取和融合; 最后,搭建知識(shí)圖譜應(yīng)用平臺(tái),提供查詢和統(tǒng)計(jì)等操作. 在實(shí)體對(duì)齊方面,利用傳統(tǒng)的基于相似性傳播實(shí)體對(duì)齊方法,獲得良好的實(shí)體對(duì)齊效果; 在實(shí)體鏈接方面,提出了基于約束嵌入轉(zhuǎn)換的預(yù)測(cè)推理方法,實(shí)驗(yàn)結(jié)果表明,在預(yù)測(cè)準(zhǔn)確率上取得較好的結(jié)果.
知識(shí)圖譜; 本體構(gòu)建; 數(shù)據(jù)融合; 實(shí)體對(duì)齊; 實(shí)體鏈接
在大數(shù)據(jù)時(shí)代背景下,隨著海量數(shù)據(jù)的出現(xiàn)以及多數(shù)據(jù)源融合交叉應(yīng)用,傳統(tǒng)的數(shù)據(jù)管理模式以及查詢方式受到一定的制約. 近年來,知識(shí)圖譜(knowledge graph)[1]作為一種新的知識(shí)表示方法和數(shù)據(jù)管理模式,在自然語言處理、 問題回答、 信息檢索等領(lǐng)域有著重要的應(yīng)用. 知識(shí)圖譜是結(jié)構(gòu)化的語義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系; 其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組,以及實(shí)體及其相關(guān)屬性-值對(duì),實(shí)體間通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)[2].
隨著谷歌知識(shí)圖譜的發(fā)布,知識(shí)圖譜的構(gòu)建與應(yīng)用研究引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注. 在國(guó)內(nèi),知識(shí)圖譜的構(gòu)建與研究已取得許多重要的研究成果[3-7]. 現(xiàn)有的行業(yè)領(lǐng)域知識(shí)圖譜通常采用手工構(gòu)建方式,缺乏統(tǒng)一的構(gòu)建方法,且這類知識(shí)庫(kù)目標(biāo)是特定行業(yè)領(lǐng)域,因此,其描述范圍極為有限. 針對(duì)這些問題,本研究提出一個(gè)多數(shù)據(jù)源融合的知識(shí)圖譜構(gòu)建流程,并對(duì)關(guān)鍵技術(shù)進(jìn)行研究,包括數(shù)據(jù)源的獲取、 領(lǐng)域本體庫(kù)的構(gòu)建、 全局本體庫(kù)的構(gòu)建、 實(shí)體對(duì)齊、 實(shí)體鏈接以及應(yīng)用平臺(tái)的搭建. 將不同領(lǐng)域知識(shí)庫(kù)進(jìn)行融合成一個(gè)知識(shí)圖譜,旨在構(gòu)建語義一致、 結(jié)構(gòu)一致的多數(shù)據(jù)融合知識(shí)圖譜,實(shí)現(xiàn)對(duì)不同領(lǐng)域內(nèi)的知識(shí)進(jìn)行查詢和展示,從而提高了數(shù)據(jù)查詢效率.
知識(shí)圖譜構(gòu)建是知識(shí)圖譜得以應(yīng)用發(fā)展的前提,涉及實(shí)體抽取和實(shí)體之間關(guān)系的建立,同時(shí)還需要很好地組織和存儲(chǔ)抽取的實(shí)體與關(guān)系信息,使其能夠被迅速的訪問和操作[8]. 知識(shí)圖譜構(gòu)建過程通??梢苑殖蓛刹剑?知識(shí)圖譜本體層構(gòu)建和實(shí)體層的學(xué)習(xí)[5]. 本體層構(gòu)建通常包含術(shù)語抽取、 同義詞抽取、 概念抽取、 分類關(guān)系抽取、 公理和規(guī)則學(xué)習(xí); 實(shí)體層學(xué)習(xí)則包含實(shí)體學(xué)習(xí)、 實(shí)體數(shù)據(jù)填充、 實(shí)體對(duì)齊和實(shí)體鏈接等.
知識(shí)圖譜的構(gòu)建方法通常有自頂向下和自底向上兩種[2]. 所謂自頂向下的方法是指先構(gòu)建知識(shí)圖譜的本體,即從行業(yè)領(lǐng)域、 百科類網(wǎng)站及其它等高質(zhì)量的數(shù)據(jù)源中,提取本體和模式信息,添加到知識(shí)庫(kù)中; 而自底向上的方法是指從實(shí)體層開始,借助于一定的技術(shù)手段,對(duì)實(shí)體進(jìn)行歸納組織、 實(shí)體對(duì)齊和實(shí)體鏈接等,并提取出具有較高置信度的新模式,經(jīng)人工審核后,加入到知識(shí)圖譜中. 然而,在實(shí)際的構(gòu)建過程中,并不是兩種方法孤立單獨(dú)進(jìn)行著,而是兩種方法交替結(jié)合的過程. 本研究在構(gòu)建多數(shù)據(jù)源的知識(shí)圖譜時(shí)采用兩種方法的結(jié)合,首先采用自頂向下的方式來構(gòu)建本體庫(kù),然后采用自底向上的方式進(jìn)行提取知識(shí)來擴(kuò)展知識(shí)圖譜.
基于多種數(shù)據(jù)源的融合技術(shù),構(gòu)建相應(yīng)的知識(shí)圖譜,具體過程如圖1所示. 圖1中是從多種不同的數(shù)據(jù)源,如各個(gè)領(lǐng)域中的結(jié)構(gòu)化、 半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),構(gòu)建相應(yīng)的領(lǐng)域本體庫(kù),然后將它們映射為全局本體庫(kù),接著對(duì)這些領(lǐng)域知識(shí)圖譜通過知識(shí)獲取和數(shù)據(jù)融合構(gòu)造知識(shí)圖譜,最后通過搭建相應(yīng)的應(yīng)用平臺(tái),方便對(duì)知識(shí)圖譜進(jìn)行查詢與更新.
圖1 多數(shù)據(jù)融合的知識(shí)圖譜構(gòu)建過程Fig.1 Knowledge graph based data fusion model
為了能充分利用不同領(lǐng)域的知識(shí),實(shí)現(xiàn)不同領(lǐng)域內(nèi)數(shù)據(jù)快速查詢,本研究在融合多種數(shù)據(jù)源的情況下,構(gòu)建了多數(shù)據(jù)源的知識(shí)圖譜. 首先針對(duì)不同領(lǐng)域構(gòu)建各自領(lǐng)域本體庫(kù); 然后通過相似性檢測(cè)、 沖突解決等規(guī)則,將不同領(lǐng)域本體映射成全局本體庫(kù); 最后為了對(duì)各個(gè)領(lǐng)域知識(shí)庫(kù)的實(shí)體統(tǒng)一以及預(yù)測(cè)出缺失的實(shí)體,進(jìn)行實(shí)體對(duì)齊和實(shí)體鏈接實(shí)驗(yàn),豐富和拓展所構(gòu)造多數(shù)據(jù)融合的知識(shí)圖譜.
2.1 數(shù)據(jù)源
用于構(gòu)建知識(shí)圖譜的本體庫(kù)數(shù)據(jù)源可以來源于結(jié)構(gòu)化數(shù)據(jù)、 半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),以及現(xiàn)有的一些通用知識(shí)圖譜庫(kù)等. 本研究用于構(gòu)建本體庫(kù)的數(shù)據(jù)源如下所示.
1) 結(jié)構(gòu)化數(shù)據(jù). 主要來源于關(guān)系數(shù)據(jù)庫(kù),如: 醫(yī)療保健數(shù)據(jù)庫(kù)(national health insurance research database)、 環(huán)境監(jiān)測(cè)數(shù)據(jù)庫(kù)(environment)、 氣象監(jiān)測(cè)數(shù)據(jù)庫(kù)(meteorological)等.
2) 半結(jié)構(gòu)化數(shù)據(jù). 主要來源于: 地理位置信息數(shù)據(jù)(geographic information data)、 病人病歷卡數(shù)據(jù)(disease description)、 相關(guān)環(huán)境與氣象數(shù)據(jù)(the knowledge about environment and meteorological)等.
3) 無結(jié)構(gòu)化數(shù)據(jù). 數(shù)據(jù)主要來源于文本資料的數(shù)據(jù),如醫(yī)療保健的病歷描述文件等.
除了上述用到的數(shù)據(jù)源外,還借助于百度百科、 互動(dòng)百科和維基百科等網(wǎng)站數(shù)據(jù),為后續(xù)擴(kuò)充本體數(shù)據(jù)提供有效數(shù)據(jù)源.
2.2 本體庫(kù)構(gòu)建
本體(ontology)是對(duì)概念進(jìn)行建模的規(guī)范,是描述客觀世界的抽象模型,以形式化方式對(duì)概念及其之間的聯(lián)系給出明確的定義[2]. 本體定義了知識(shí)圖譜中的數(shù)據(jù)模式,因而,本體構(gòu)建研究的成果能在很大程度上輔助知識(shí)圖譜的構(gòu)建[5]. 針對(duì)不同的應(yīng)用領(lǐng)域和不同的需求,本體構(gòu)建的方法也有所不同. 本研究利用OWL(web ontology language)從多種數(shù)據(jù)源中構(gòu)建相應(yīng)的領(lǐng)域本體庫(kù),然后通過映射成全局本體庫(kù).
圖2 從關(guān)系數(shù)據(jù)中構(gòu)造領(lǐng)域本體庫(kù)過程 Fig.2 The structure of ontology construction from relational database
1) 領(lǐng)域本體庫(kù)構(gòu)建. 其主要數(shù)據(jù)源是來自于環(huán)境監(jiān)測(cè)數(shù)據(jù)庫(kù)、 空氣污染檢測(cè)數(shù)據(jù)庫(kù)和醫(yī)療健保數(shù)據(jù)庫(kù). 除此之外,也利用相關(guān)領(lǐng)域的網(wǎng)站數(shù)據(jù)等. 下面重點(diǎn)介紹從關(guān)系數(shù)據(jù)庫(kù)中獲取領(lǐng)域本體庫(kù)的過程,如圖2所示.
首先,領(lǐng)域內(nèi)的關(guān)系數(shù)據(jù)庫(kù)是針對(duì)特定領(lǐng)域而創(chuàng)建的,該數(shù)據(jù)庫(kù)包含了領(lǐng)域內(nèi)的表達(dá)方法和具體應(yīng)用的詳細(xì)信息,因此,可以從領(lǐng)域的關(guān)系數(shù)據(jù)庫(kù)中抽取出關(guān)系模式,分析關(guān)系數(shù)據(jù)庫(kù)中表的信息和字段信息,建立相應(yīng)的概念模型.
其次,由于關(guān)系模式包括表與字段之間的關(guān)系,以及表與表之間的聯(lián)系,而本體庫(kù)則是包括概念與概念之間的關(guān)系、 概念與屬性間的聯(lián)系. 因此,要利用一定的規(guī)則將關(guān)系模式映射為本體模型. 通過設(shè)計(jì)一系列轉(zhuǎn)換規(guī)則,如: 將關(guān)系模式中的表名轉(zhuǎn)換為本體中的概念名; 表與表間的關(guān)系轉(zhuǎn)換為本體中的概念與概念的關(guān)系; 將關(guān)系模式中的字段名轉(zhuǎn)換為本體的屬性名等. 可以獲得領(lǐng)域本體模型.
最后,對(duì)領(lǐng)域本體模型進(jìn)行評(píng)估和校驗(yàn). 該部分重點(diǎn)是對(duì)所構(gòu)造的領(lǐng)域本體模型進(jìn)行檢驗(yàn),查看是否滿足本體庫(kù)的構(gòu)建原則,本體模型中的術(shù)語是否正確,本體模型中的概念及其關(guān)系是否完整等. 通過對(duì)本體模型評(píng)估后,可以建立領(lǐng)域內(nèi)的本體庫(kù).
為了能詳細(xì)解釋上述過程,選取醫(yī)療保健數(shù)據(jù)庫(kù)中的部分表轉(zhuǎn)換成相應(yīng)的本體概念及屬性來進(jìn)行描述. 關(guān)系數(shù)據(jù)庫(kù)具有完整的數(shù)據(jù)模式,包含完整的表結(jié)構(gòu)和完整性約束條件. 將數(shù)據(jù)庫(kù)中的關(guān)系名轉(zhuǎn)換為本體中的概念,部分字段名轉(zhuǎn)換為本體中的屬性,具體如下:
將字段名轉(zhuǎn)換為屬性名的OWL語言:〈owl:ObjectPropertyrdf:ID=“HospitalID”〉〈owl:DatatypePropertyrdf:ID=”PatientID”〉〈rdfs:domainrdf:resource=“#Doctor”/〉〈rdfs:rangerdf:resource=“#Hospital”/〉?
將關(guān)系名轉(zhuǎn)換為本體概念的OWL語言:〈owl:Classrdf:ID=“Patient”/〉〈owl:Classrdf:ID=“PediatricPatient”/〉〈owl:Classrdf:ID=“Doctor”/〉〈owl:Classrdf:ID=“Inpatient”/〉〈owl:Classrdf:ID=“Hospital”/〉?
另外,為了擴(kuò)充和完善領(lǐng)域本體庫(kù),需要對(duì)非關(guān)系型的數(shù)據(jù)進(jìn)行采集和填充. 本研究對(duì)行業(yè)領(lǐng)域內(nèi)的半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,對(duì)相應(yīng)百科網(wǎng)站通過網(wǎng)頁爬蟲技術(shù)獲取相應(yīng)的知識(shí),并將半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù),最后利用上述關(guān)系數(shù)據(jù)轉(zhuǎn)換成本體的規(guī)則進(jìn)行轉(zhuǎn)換. 而對(duì)無結(jié)構(gòu)數(shù)據(jù),由于其知識(shí)覆蓋度廣,抽取難度較大,本研究采用了人工抽取的方法進(jìn)行提取知識(shí).
為此,根據(jù)各個(gè)領(lǐng)域的需求不同,構(gòu)建了三個(gè)領(lǐng)域內(nèi)的本體庫(kù),分別是: 環(huán)境監(jiān)測(cè)領(lǐng)域本體庫(kù)(environment),氣候監(jiān)測(cè)領(lǐng)域本體庫(kù)(meteorological)及醫(yī)療保健領(lǐng)域本體庫(kù)(medical).
圖3 全局本體庫(kù)構(gòu)建過程Fig.3 The process of global ontology construction
2) 全局本體庫(kù)構(gòu)建. 為了能便于構(gòu)建多數(shù)據(jù)融合的知識(shí)圖譜,需要將多個(gè)領(lǐng)域內(nèi)的本體庫(kù)進(jìn)行融合,構(gòu)建全局本體庫(kù), 其過程如圖3所示. 在上述構(gòu)建的領(lǐng)域本體庫(kù)基礎(chǔ)上,通過相似性檢測(cè)和沖突解決等規(guī)則,將多個(gè)領(lǐng)域的本體庫(kù)融合在一起組成了全局本體庫(kù). 其步驟如下:
首先,對(duì)不同領(lǐng)域內(nèi)的本體可能存在一些相同或相似的概念和屬性的情況,采用相似性檢測(cè)規(guī)則對(duì)它們進(jìn)行檢測(cè). 如: 語義相似性檢測(cè)、 概念相似性檢測(cè)、 屬性相似性檢測(cè)、 數(shù)據(jù)格式相似性檢測(cè)等. 通過這些相似性檢測(cè),能將不同領(lǐng)域內(nèi)的相同或相似本體進(jìn)行統(tǒng)一,但還不能解決它們之間的沖突.
其次,采用沖突解決規(guī)則對(duì)上面存在的相似概念或?qū)傩缘葐栴}進(jìn)行解決. 通過沖突解決規(guī)則可以消除概念的歧義,剔除冗余和錯(cuò)誤概念,從而保證全局本體庫(kù)的質(zhì)量. 主要是對(duì)上述存在相似的概念或?qū)傩赃M(jìn)行消除,使其達(dá)到統(tǒng)一,并合并為全局本體.
最后,將剩余的領(lǐng)域本體經(jīng)過沖突解決和實(shí)體消岐等處理,映射到全局本體庫(kù),與各個(gè)領(lǐng)域本體庫(kù)相結(jié)合,從而實(shí)現(xiàn)全局本體的構(gòu)建. 現(xiàn)階段,本研究在全局本體庫(kù)中共建立了35個(gè)概念和96個(gè)屬性.
通過對(duì)上述三個(gè)領(lǐng)域本體庫(kù)進(jìn)行分析研究,發(fā)現(xiàn)在三個(gè)領(lǐng)域本體庫(kù)中存在著一些相同的實(shí)體名. 因此,可以通過這三個(gè)領(lǐng)域本體庫(kù)內(nèi)相同的實(shí)體進(jìn)行連接映射,融合成全局本體庫(kù). 比如: 環(huán)境監(jiān)測(cè)領(lǐng)域本體庫(kù)(environment)、 氣候監(jiān)測(cè)領(lǐng)域本體庫(kù)(meteorological)及醫(yī)療保健領(lǐng)域本體庫(kù)(medical)都有g(shù)eographical(地理位置)和date(時(shí)間). 把這些相同的實(shí)體名通過相似性檢測(cè)和沖突解決等過程,將它們映射成全局本體庫(kù)中的實(shí)體,具體映射關(guān)系如表1所示.
表1 部分實(shí)體映射關(guān)系表
2.3 實(shí)體對(duì)齊
實(shí)體對(duì)齊(entity alignment)[9]也稱為實(shí)體匹配或?qū)嶓w解析,是判斷相同或不同數(shù)據(jù)集中的2個(gè)實(shí)體是否指向真實(shí)世界同一對(duì)象的過程. 實(shí)體對(duì)齊能夠發(fā)現(xiàn)不同知識(shí)庫(kù)中具有不同實(shí)體名稱,但卻代表著現(xiàn)實(shí)世界中同一事物的實(shí)體,將這些實(shí)體進(jìn)行合并,且用具有唯一標(biāo)識(shí)對(duì)該實(shí)體進(jìn)行標(biāo)識(shí),最后將該實(shí)體添加到相應(yīng)的知識(shí)圖譜中. 如: “中國(guó)移動(dòng)”和“移動(dòng)通信”等不同實(shí)體名稱,其可能都是表示“中國(guó)移動(dòng)通信集團(tuán)公司”這個(gè)實(shí)體,通過實(shí)體對(duì)齊可以將這些不同名稱規(guī)約到同一個(gè)實(shí)體. 不同知識(shí)庫(kù)的實(shí)體對(duì)齊過程如圖4所示[9]. 即在給定不同的知識(shí)庫(kù),通過先驗(yàn)對(duì)齊數(shù)據(jù)以及調(diào)整參數(shù)和相關(guān)外部資料的作用下,進(jìn)行實(shí)體匹配的算法計(jì)算,最終得到實(shí)體間的對(duì)齊結(jié)果.
圖4 不同知識(shí)庫(kù)實(shí)體對(duì)齊過程 Fig.4 Process of entity alignment of different knowledge bases
雖然本研究在構(gòu)建全局本體庫(kù)時(shí),針對(duì)不同領(lǐng)域內(nèi)本體庫(kù)的實(shí)體做了實(shí)體消岐處理. 然而,這里的實(shí)體對(duì)齊是為了豐富和拓展知識(shí)圖譜,從現(xiàn)有的通用知識(shí)圖譜及其相關(guān)的資料中,利用實(shí)體對(duì)齊方法,提取實(shí)體及實(shí)體間的關(guān)系來填充知識(shí)圖譜.
本研究實(shí)體對(duì)齊的基本過程如下: 1) 對(duì)于開放鏈接數(shù)據(jù)及行業(yè)領(lǐng)域的百科數(shù)據(jù)中實(shí)體,進(jìn)行提取得到了實(shí)體的同義名稱集合; 2) 通過實(shí)體對(duì)齊的方法,將這些實(shí)體與上述構(gòu)建的知識(shí)圖譜中的實(shí)體進(jìn)行匹配,把結(jié)果作為實(shí)體合并的候選實(shí)體集; 3) 將這些候選實(shí)體集中的實(shí)體,通過比對(duì)它們的上層概念,如果具有相同的上層概念,則將它們合并為一個(gè)實(shí)體.
采用基于相似性傳播實(shí)體對(duì)齊方法[9-11],該算法將實(shí)體對(duì)齊問題看成是一個(gè)全局匹配評(píng)分目標(biāo)函數(shù)的優(yōu)化問題進(jìn)行建模,屬于二元分類問題,可通過貪婪優(yōu)化算法求得其近似解[10]. 實(shí)驗(yàn)結(jié)果表明,其具有較高的準(zhǔn)確率和召回率,分別為88.4%和74.6%.
2.4 實(shí)體鏈接
實(shí)體鏈接(entity linking)[12-13]是指從文本中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)圖譜中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作[14]. 而實(shí)體鏈接預(yù)測(cè)是指在給定的知識(shí)圖譜中,預(yù)測(cè)出缺失的實(shí)體間的關(guān)系,從而豐富和拓展知識(shí)圖譜. 其基本思想是首先根據(jù)給定三元組的頭(尾)實(shí)體和關(guān)系,從知識(shí)圖譜中或其它相關(guān)文本數(shù)據(jù)中選出一組候選實(shí)體對(duì)象,然后通過實(shí)體鏈接預(yù)測(cè)算法,計(jì)算出正確的尾(頭)實(shí)體,并將得到的三元組添加到相應(yīng)的知識(shí)圖譜中. 現(xiàn)階段有關(guān)知識(shí)圖譜實(shí)體鏈接預(yù)測(cè)算法較多(詳見文[8, 15-17]),常用的有: 基于向量嵌入轉(zhuǎn)換算法、 基于張量分解算法、 基于路徑推理算法、 結(jié)合文本推理算法等.
圖5 基于約束向量嵌入轉(zhuǎn)換算法流程圖Fig.5 The figure of embedding translation based on constraint
本研究提出了基于約束向量嵌入轉(zhuǎn)換算法,獲得較好的實(shí)體鏈接預(yù)測(cè)結(jié)果,算法流程如圖5所示. 其基本思想是: 將知識(shí)圖譜中的實(shí)體和關(guān)系,通過嵌入(embedding)方式投影到低維向量空間,并在向量空間中通過向量平移轉(zhuǎn)換操作,計(jì)算頭、 尾實(shí)體及關(guān)系在向量空間中的損失函數(shù)值,實(shí)現(xiàn)頭尾實(shí)體的關(guān)系鏈接. 而基于約束嵌入轉(zhuǎn)換算法,是在原有向量嵌入轉(zhuǎn)換算法的基礎(chǔ)上[18],增加了關(guān)系語義約束條件,使得所預(yù)測(cè)出實(shí)體間的關(guān)系要滿足關(guān)系的語義類型. 如: 對(duì)于關(guān)系“出生于”,其頭實(shí)體通常是人或動(dòng)物,而尾實(shí)體通常是時(shí)間或地點(diǎn).
通過對(duì)現(xiàn)有知識(shí)圖譜的實(shí)體鏈接預(yù)測(cè),利用HITS@10(%)(即排在正確實(shí)體前10%)的評(píng)價(jià)指標(biāo)[18],本研究能達(dá)到92.8%的預(yù)測(cè)性能,同時(shí)對(duì)預(yù)測(cè)的結(jié)果進(jìn)行正確性評(píng)價(jià). 即對(duì)預(yù)測(cè)出新三元組的準(zhǔn)確率進(jìn)行評(píng)估,本研究結(jié)果能達(dá)到88.7%的準(zhǔn)確率. 因此,本研究算法能適用于所構(gòu)建知識(shí)圖譜的實(shí)體鏈接預(yù)測(cè),從而達(dá)到知識(shí)圖譜的學(xué)習(xí)能力. 具體實(shí)驗(yàn)結(jié)果如表2所示. 表2是該算法在不同數(shù)據(jù)集上的實(shí)體鏈接預(yù)測(cè)的HITS@10的性能,以及該算法在不同數(shù)據(jù)集中的實(shí)體鏈接三元組預(yù)測(cè)準(zhǔn)確率.
表2 HITS@10性能
知識(shí)圖譜是利用信息可視化技術(shù)構(gòu)建的一種知識(shí)之間的關(guān)系網(wǎng)絡(luò)圖[6]. 為了能更好展示和使用多數(shù)據(jù)源融合的知識(shí)圖譜,本研究開發(fā)了一個(gè)知識(shí)圖譜應(yīng)用服務(wù)平臺(tái). 平臺(tái)采用Neo4j作為圖的存儲(chǔ)數(shù)據(jù)庫(kù),以Bootstrap前端網(wǎng)頁框架設(shè)計(jì)布局,并使用D3.js數(shù)據(jù)驅(qū)動(dòng)的可視化套件實(shí)現(xiàn)實(shí)體與關(guān)系的動(dòng)態(tài)展示效果. 該平臺(tái)能夠從全局層面對(duì)融合多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行管理和使用. 主要功能有: 1) 融合多種數(shù)據(jù)源的基本信息,為用戶提供高級(jí)數(shù)據(jù)搜索、 統(tǒng)計(jì)、 分析等服務(wù); 2) 實(shí)體鏈接預(yù)測(cè),對(duì)知識(shí)圖譜中可能存在著缺失的實(shí)體與實(shí)體間的關(guān)系進(jìn)行鏈接,實(shí)現(xiàn)豐富和拓展知識(shí)圖譜; 3) 知識(shí)圖譜實(shí)體關(guān)系網(wǎng)絡(luò)的可視化,實(shí)現(xiàn)概念、 屬性、 實(shí)例等多個(gè)維度的知識(shí)圖譜展示,將知識(shí)圖譜中的實(shí)體之間的關(guān)系通過可視化的形式展示出來.
本研究簡(jiǎn)單截取兩幅圖對(duì)平臺(tái)功能進(jìn)行簡(jiǎn)單說明. 圖6表示該知識(shí)圖譜平臺(tái)中有關(guān)醫(yī)療保健方面的概念、 屬性間的關(guān)系,其主要用于展示在醫(yī)療保健中各個(gè)概念節(jié)點(diǎn)的關(guān)系. 從圖中可以便于查詢某次的醫(yī)療保健活動(dòng)中所涉及到相關(guān)聯(lián)的一些實(shí)體和屬性,如: 住院病歷卡、 醫(yī)療服務(wù)、 處方細(xì)節(jié)、 以往治療方案等. 而圖7是表示統(tǒng)計(jì)分析展示,通過輸入查詢?cè)谀撤N氣候情況下,某個(gè)醫(yī)院的住院情況,可以展現(xiàn)出某個(gè)醫(yī)院的住院情況分布. 這樣可以合理地選擇相應(yīng)醫(yī)院進(jìn)行就診,以免出現(xiàn)醫(yī)院病房的短缺現(xiàn)象,同時(shí),也可以分析在某種氣候環(huán)境下,哪種疾病發(fā)生率較高,可以提醒人們注意當(dāng)出現(xiàn)某種氣候時(shí),要適當(dāng)?shù)剡M(jìn)行預(yù)防某種疾病的產(chǎn)生.
圖6 醫(yī)療保健知識(shí)圖譜展示
圖7 某種氣候環(huán)境下某地區(qū)某天的住院情況
本研究提出一種基于多數(shù)據(jù)融合的知識(shí)圖譜構(gòu)建過程,并對(duì)整個(gè)過程中所涉及的方法加以描述,旨在構(gòu)建語義一致、 結(jié)構(gòu)一致的多數(shù)據(jù)融合知識(shí)圖譜.
通過構(gòu)建不同領(lǐng)域內(nèi)的本體庫(kù),將不同領(lǐng)域的本體庫(kù),通過數(shù)據(jù)融合和映射技術(shù)構(gòu)建全局本體庫(kù),實(shí)現(xiàn)各種數(shù)據(jù)源語義關(guān)系一致的知識(shí)圖譜. 在實(shí)體對(duì)齊方面,總結(jié)了不同對(duì)齊方法,并描述實(shí)體對(duì)齊的過程,同時(shí)利用傳統(tǒng)的基于相似性傳播實(shí)體對(duì)齊方法,獲得良好的實(shí)體對(duì)齊效果. 在實(shí)體鏈接方面,在前期研究工作基礎(chǔ)上,提出了基于約束嵌入轉(zhuǎn)換的預(yù)測(cè)推理方法,實(shí)驗(yàn)結(jié)果表明,所提出的方法能達(dá)到88.7%的預(yù)測(cè)準(zhǔn)確率,取得較好的預(yù)測(cè)結(jié)果. 為了方便對(duì)數(shù)據(jù)查詢及直觀了解數(shù)據(jù)間的聯(lián)系,搭建了知識(shí)圖譜應(yīng)用平臺(tái),在該平臺(tái)上可以實(shí)現(xiàn)多數(shù)據(jù)的查詢,提高了數(shù)據(jù)查詢效率.
現(xiàn)階段知識(shí)圖譜的構(gòu)建在我國(guó)還處于發(fā)展初期,許多技術(shù)及知識(shí)獲取的算法還有待改善和發(fā)展. 本研究所構(gòu)建多數(shù)據(jù)源融合的知識(shí)圖譜還存在很多不足,比如構(gòu)建知識(shí)圖譜的數(shù)據(jù)源僅限定于某個(gè)地區(qū)的數(shù)據(jù),應(yīng)該尋求更多的數(shù)據(jù)源來擴(kuò)展知識(shí)圖譜; 如何建立知識(shí)圖譜的自動(dòng)更新機(jī)制; 如何維護(hù)和存儲(chǔ)知識(shí)圖譜等. 在下一步工作中,將收集更為廣泛的數(shù)據(jù)源填充知識(shí)圖譜,同時(shí)將進(jìn)一步研究自動(dòng)更新和存儲(chǔ)知識(shí)圖譜.
[1] PUJARA J, MIAO H, GETOOR L,etal. Knowledge graph identification[C]//International Semantic Web Conference. Berlin: Springer, 2013: 542-557.
[2 ]劉嶠, 李楊, 段宏, 等. 知識(shí)圖譜構(gòu)建技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(3): 582-600.
[3] 肖仰華, 張可尊, 汪衛(wèi). 一種面向圖書的閱讀領(lǐng)域知識(shí)圖譜構(gòu)建方法: 103488724A[P]. 2014-01-01.
[4] 金貴陽, 呂福在, 項(xiàng)占琴. 基于知識(shí)圖譜和語義網(wǎng)技術(shù)的企業(yè)信息集成方法[J]. 東南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014, 44(2): 250-255.
[5] 胡芳槐. 基于多種數(shù)據(jù)源的中文知識(shí)圖譜構(gòu)建方法研究[D]. 上海: 華東理工大學(xué), 2015.
[6] 王巍巍, 王志剛, 潘亮銘, 等. 雙語影視知識(shí)圖譜的構(gòu)建研究[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016, 52(1): 25-34.
[7] 鄂世嘉, 林培裕, 向陽. 自動(dòng)化構(gòu)建的中文知識(shí)圖譜系統(tǒng)[J]. 計(jì)算機(jī)應(yīng)用, 2016, 36(4): 992-996.
[8] 吳運(yùn)兵, 楊帆, 賴國(guó)華, 等. 知識(shí)圖譜學(xué)習(xí)和推理研究進(jìn)展[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2016, 37(9): 2 007-2 013.
[9] 莊嚴(yán),李國(guó)良,馮建華. 知識(shí)庫(kù)實(shí)體對(duì)齊技術(shù)綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(1): 165-192.
[10] 徐增林, 盛泳潘, 賀麗榮, 等. 知識(shí)圖譜技術(shù)綜述[J]. 電子科技大學(xué)學(xué)報(bào), 2016, 45(4): 589-606.
[11] LACOSTE-JULIEN S, PALLA K, DAVIES A,etal. SIGMa: simple greedy matching for aligning large knowledge bases[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2013: 572-580.
[12] 劉嶠, 鐘云, 李楊, 等. 基于圖的中文集成實(shí)體鏈接算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 270-283.
[13] SHEN W, WANG J, HAN J. Entity linking with a knowledge base: issues, techniques, and solutions[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(2): 443-460.
[14] LI Y, WANG C, HAN F,etal. Mining evidences for named entity disambiguation[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2013: 1 070-1 078.
[15] NICKEL M, MURPHY K, TRESP V,etal. A review of relational machine learning for knowledge graphs[J]. Proceedings of the IEEE, 2016, 104(1): 11-33.
[16] 劉知遠(yuǎn), 孫茂松, 林衍凱, 等. 知識(shí)表示學(xué)習(xí)研究進(jìn)展[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 247-261.
[17] 劉康, 張?jiān)? 紀(jì)國(guó)良, 等. 基于表示學(xué)習(xí)的知識(shí)庫(kù)問答研究進(jìn)展與展望[J]. 自動(dòng)化學(xué)報(bào), 2016, 42(6): 807-818.
[18] BORDES A, USUNIER N, GARCIA-DURAN A,etal. Translating embeddings for modeling multi-relational data[C]//Advances in Neural Information Processing Systems. Nevada:[s.n.], 2013: 2 787-2 795.
(責(zé)任編輯: 林曉)
Knowledge graph construction method based on multiple data sources
WU Yunbing1, YIN Aiying2, LIN Kaibiao3, YU Xiaoyan1, LAI K Robert4
(1. College of Mathematics and Computer Science, Fuzhou University, Fuzhou, Fujian 350116, China; 2. Zhicheng College, Fuzhou University, Fuzhou, Fujian 350002, China; 3. School of Computer and Information Engineering, Xiamen University of Technology, Xiamen, Fujian 361024, China; 4. Department of Computer Science and Engineering, Yuan Ze University, Taoyuan, Taiwan 32003, China)
To improve the application of multi-source data fusion, this study constructs a knowledge graph-based data fusion model. This model firstly constructed corresponding domain ontology for each special field, and then consolidated all domain ontology into a global ontology. After that, it retrieved and fused knowledge from the global ontology by entity alignment and linking methods. At last it built an application platform of knowledge graph with friendly interfaces to execute query and statistics, etc. Besides that, this model improved the result of entity aligning by adopting traditional similarity detection approach. And experiment results also demonstrated its good prediction accuracy by proposing a constraint based embedding model in entity linking process.
knowledge graph; ontology construction; data fusion; entity alignment; entity linking
10.7631/issn.1000-2243.2017.03.0329
1000-2243(2017)03-0329-07
2016-10-11
林開標(biāo)(1980-),講師,主要從事數(shù)據(jù)挖掘和人工智能方面研究,kblin@xmut.edu.cn
福建省中青年教師教育科研資助項(xiàng)目(JAT160077); 福建省中青年教師教育科研資助項(xiàng)目(JAT160658); 福建省科技計(jì)劃資助項(xiàng)目(2016R0095); 福建省教育廳科技資助項(xiàng)目(JA14243); 對(duì)外科技合作與交流資助項(xiàng)目(E201402300)
TP391
A