張觀林 歐陽純萍 鄒銀鳳 周志鋒
?
知識圖譜及其在醫(yī)療領(lǐng)域的應(yīng)用
張觀林歐陽純萍鄒銀鳳周志鋒
(南華大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,湖南 衡陽 421001)
文章首先對知識圖譜在過去幾年中在國內(nèi)的發(fā)展趨勢和研究要點進(jìn)行了歸納和總結(jié)。其次,本文以抽取互聯(lián)網(wǎng)上的知識構(gòu)建圖譜為背景,對此類知識圖譜的類型和構(gòu)建方法進(jìn)行了闡述、分類和總結(jié)。最后,以醫(yī)療領(lǐng)域中知識圖譜的應(yīng)用現(xiàn)狀為契機,分析了未來知識圖譜的應(yīng)用趨勢。
知識圖譜;實體;實體關(guān)系;知識庫
近年來,隨著計算機科學(xué)與互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,人們的生活方式發(fā)生了巨大的改變。電子商務(wù)以及移動互聯(lián)網(wǎng)技術(shù)的風(fēng)起云涌,使得人們平時并不在意的一些生活數(shù)據(jù)正在以洪水之勢從互聯(lián)網(wǎng)的四面八方向各大網(wǎng)站及數(shù)據(jù)中心匯集,引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長。據(jù)不完全預(yù)計到2020年左右,全球互聯(lián)網(wǎng)數(shù)據(jù)總量將達(dá)到35ZB(1ZB=270B),其中7成以上的將來自個人(其中主要由圖片、視頻、音樂構(gòu)成),巨大的數(shù)據(jù)積累將超越人類自印刷術(shù)發(fā)明以來印刷材料的數(shù)據(jù)總量。如此大規(guī)模數(shù)據(jù)的形成與發(fā)展?jié)摬刂S富的知識,給知識工程研究領(lǐng)域提供了研究基礎(chǔ),同時也帶來不可避免的煩惱。大量冗余、重復(fù)、凌亂的數(shù)據(jù)現(xiàn)存狀態(tài),其中所蘊含的知識也呈現(xiàn)出松散和無序,這將嚴(yán)重影響人們?nèi)蘸螳@取并判斷知識的正確性與便捷性。因此一種以動態(tài),清晰,直觀,有效的狀態(tài)展示知識和知識內(nèi)部結(jié)構(gòu)及知識之間聯(lián)系的數(shù)據(jù)研究方式—知識圖譜(Knowledge Graph)應(yīng)運而生[1]。
知識圖譜是以知識為對象,顯示知識和知識內(nèi)部結(jié)構(gòu)關(guān)系的一種圖形,具有“圖”和“譜”的雙重特性。知識圖譜最早的研究源于上世紀(jì)40年代的文獻(xiàn)計量學(xué)和科學(xué)計量學(xué)。到20世紀(jì)末,知識數(shù)量、種類和結(jié)構(gòu)呈現(xiàn)快速變化,受復(fù)雜網(wǎng)絡(luò)系統(tǒng)和社會網(wǎng)絡(luò)分析的引入以及信息可視化技術(shù)的突破發(fā)展,基因圖譜、GIS和超文本的可視化影響,知識圖譜被正式提出。近年來隨著技術(shù)的成熟,知識圖譜的應(yīng)用逐漸在互聯(lián)網(wǎng)領(lǐng)域得到推廣,知識圖譜的發(fā)展也開始呈現(xiàn)出逐漸由從文本中抽取指定類型的實體、關(guān)系、事件等事實信息向從海量數(shù)據(jù)中發(fā)現(xiàn)實體相關(guān)的信息方向發(fā)展[2,3]。
根據(jù)不同知識庫包含知識的范圍劃分,目前互聯(lián)網(wǎng)領(lǐng)域內(nèi)的知識圖譜可以分為:領(lǐng)域無關(guān)知識圖譜;特定領(lǐng)域知識圖譜;跨語言知識圖譜[4]。
1.1領(lǐng)域無關(guān)知識圖譜
這類知識圖譜通常不限定特定領(lǐng)域,包含的知識涉及各個領(lǐng)域和行業(yè)的各個分支,內(nèi)容十分廣泛。目前影響的最大的谷歌知識圖譜就是這類知識圖譜的典型代表,它包含5億實體對象和350億條實體間關(guān)系信息,并且規(guī)模隨信息的增長在不斷擴大。Probase是目前包含概念最多的知識庫,其中包含2653872個概念,20757545種關(guān)系,并且支持對短文本的語義理解。除此之外,領(lǐng)域無關(guān)知識圖譜還包括DBPedia,Yago,F(xiàn)reebase,WikiTaxonomy,WordNet,百度知心,搜狗知立方等。
1.2特定領(lǐng)域知識圖譜
特定領(lǐng)域知識圖譜一般是針對特定的領(lǐng)域,在內(nèi)容的廣度上雖不如領(lǐng)域無關(guān)知識圖譜寬泛,但是在領(lǐng)域知識的深度上,其包含知識的更加全面和更具針對性。傳統(tǒng)的學(xué)科知識圖譜便是這類是指圖譜的典型代表,它們大多也是基于人工編寫的小規(guī)模的針對學(xué)科領(lǐng)域的知識圖譜,比如:HowNet,HNC ,同義詞林等。除此之外特定領(lǐng)域的知識圖譜還有:正在完善和擴展當(dāng)中的基于RDF的社交知識圖譜FOAF,包含全球最全的地理知識的知識圖譜Geonames,全球最大的電影知識圖譜Linked Movie Database,F(xiàn)aceBook公司推出的基于社交網(wǎng)絡(luò)人物和興趣關(guān)系的社交知識圖譜產(chǎn)品Social Graph等。
1.3跨語言知識圖譜
跨語言知識圖譜一般是包含兩種及兩種以上語言的知識庫。因其需要跨越多種語言知識,因此其構(gòu)建難度在領(lǐng)域無關(guān)知識圖譜和特定領(lǐng)域知識圖譜之上??缯Z言知識圖譜的代表產(chǎn)品有:XLORE,BabelNet,DBpedia,YAGO,F(xiàn)reebase,WordNet等。
隨著知識圖譜的類型和應(yīng)用的多樣化發(fā)展,知識圖譜的構(gòu)建方式也呈現(xiàn)出發(fā)散式的發(fā)展?fàn)顟B(tài)。按照知識圖譜構(gòu)建過程中知識抽取的數(shù)據(jù)源和數(shù)據(jù)源中知識呈現(xiàn)出的方式,將知識圖譜的構(gòu)建方法分為以下幾種[5,6]:
2.1基于外部知識庫的知識圖譜構(gòu)建方法
基于外部知識庫的知識圖譜構(gòu)建方法,主要是以在線百科類網(wǎng)站的數(shù)據(jù)為研究數(shù)據(jù)的主要來源。這些數(shù)據(jù)包含大量高質(zhì)量的常識性知識,更新速度慢,并且具有一定的格式。以互動百科為例,通過摘要抽取各種相關(guān)實體,通過目錄模塊內(nèi)子目錄對應(yīng)的內(nèi)錨鏈接獲得各種相關(guān)實體概念的上下位關(guān)系;通過開放分類抽取實體所對應(yīng)的類別;通過信息模塊抽取實體所對應(yīng)的屬性-值對和實體-關(guān)系對。通過類似互動百科中信息模塊抽取實體屬性-值和實體-關(guān)系對時,常用的一種重要方法是AVP知識抽?。ˋttribute-value Pairs Mining)。類似地可以從其他的多個在線百科知識網(wǎng)站抽取數(shù)據(jù),來彌補單個百科知識網(wǎng)站上抽取知識不足的情況。百科類知識網(wǎng)站除了以上提及的中文在線百科互動百科之外,還有與互動百科并肩的百度百科,包含多種語言的全球在線百科維基百科。Freebase是另外一個重要的百科知識源,它包3900萬多個實體和18億條事實,占據(jù)著谷歌知識圖譜數(shù)據(jù)來源的半壁江,規(guī)模上遠(yuǎn)勝于維基百科。Freebase另外一個重要特性是,直接結(jié)構(gòu)化編輯實體及其包含的屬性和關(guān)系,以及實體所屬的類型等信息。使用Freebase作為數(shù)據(jù)源抽取知識時,不需要實現(xiàn)定制任何規(guī)則,便可獲得高質(zhì)量的知識。
2.2基于結(jié)構(gòu)化知識的知識圖譜構(gòu)建方法
結(jié)構(gòu)化知識數(shù)據(jù)一般都存儲在關(guān)系型數(shù)據(jù)庫中,基于關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)的存儲特點,一個數(shù)據(jù)表(table)中存儲的都是同一個類的不同實例,或者是同一屬性的不同值。因此,在抽取信息時,一般是從關(guān)系型數(shù)據(jù)庫中選取一個類或者一組相似的類,將選取的記錄按列分組進(jìn)行存儲。在知識存儲時通常是將存儲在關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)通過D2R轉(zhuǎn)化為RDF描述進(jìn)行存儲。
D2R是一種基于XML語言的能夠?qū)崿F(xiàn)將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)轉(zhuǎn)化成Link Data的工具,簡而言之就是可以實現(xiàn)數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫到RDF文件的映射。
RDF(Resource Description Framework)資源描述框架,通常將其稱為一種“語言”,但RDF實際上是一個數(shù)據(jù)模型(data-model)它由一系列類似“對象-屬性-值”三元組(object-attribute-value tiple)的陳述組成,可以結(jié)構(gòu)化地表示信息,通常用來描述網(wǎng)絡(luò)語義資源。
2.3基于半結(jié)構(gòu)化知識的知識圖譜構(gòu)建方法
中文類百科網(wǎng)站雖然也包含廣泛的跨領(lǐng)域知識,但是在數(shù)據(jù)結(jié)構(gòu)化程度上遠(yuǎn)比不上維基百科。中文百科類網(wǎng)站上的大部分屬性都是以隱藏形式存儲在HTML表格或者列表當(dāng)中,而且對于同一個站點來說不同的頁面一般都是由統(tǒng)一的程序自動生成的,因此它們之間具有相近的布局和數(shù)據(jù)分布結(jié)構(gòu)。知識抽取時,一般可以通過先定制數(shù)據(jù)抽取模板,然后再建立面向站點的文本封裝器來實現(xiàn)信息自動抽取,這種常用的知識抽取方法叫模式匹配。通過模式匹配實現(xiàn)知識自動抽取的方法,自動學(xué)習(xí)模式時可能會遺漏部分屬性也可能引入一些錯誤的信息,甚至?xí)玫藉e誤的學(xué)習(xí)模式,因此需要通過人工方法來調(diào)整或附加新模型來進(jìn)行改進(jìn)。
2.4基于非結(jié)構(gòu)化知識的知識圖譜構(gòu)建方法
由于Web的去中心化結(jié)構(gòu),大部分知識都是以分散,異構(gòu),自治的形式存在,而不是一個統(tǒng)一的,一致的知識整體。因此對于特定領(lǐng)域知識圖譜的構(gòu)建,采用百科類網(wǎng)站上的數(shù)據(jù)或者領(lǐng)域垂直網(wǎng)站上的數(shù)據(jù)并不能達(dá)到知識的充分抽取。另一方面,盡管百科類網(wǎng)站上的數(shù)據(jù)非常龐大,但是對于一些特定領(lǐng)域依舊缺乏相應(yīng)的知識以滿足完整知識圖譜的構(gòu)建需求,因此非結(jié)構(gòu)化的知識的存在變得尤為重要。采用非結(jié)構(gòu)化的知識數(shù)據(jù),不但能夠滿足一部分特定領(lǐng)域的知識抽取來源,而且還可以在一定程度上滿足對基于百科類網(wǎng)站建立的知識圖譜進(jìn)行擴展和補充。由于非結(jié)構(gòu)化知識本身的分散性和多源性,在抽取過程中可能會面臨知識重疊,復(fù)雜的除噪音處理等問題,并且由于非結(jié)構(gòu)化數(shù)據(jù)的來源大部分都未經(jīng)過專業(yè)人員的鑒定和核實,其置信度普遍很低,因此在知識圖譜構(gòu)建過程中非結(jié)構(gòu)化數(shù)據(jù)的使用并不廣泛。
近年來,醫(yī)療衛(wèi)生信息平臺、醫(yī)療設(shè)備在醫(yī)療衛(wèi)生機構(gòu)迅速普及開來,同時產(chǎn)生了大量的醫(yī)療數(shù)據(jù)。如何利用這些海量的醫(yī)療信息資源更好的為人們服務(wù),已成為人們所關(guān)注的熱點問題。知識圖譜技術(shù)給解決這個問題,提供了一個新的技術(shù)手段。知識圖譜能夠解決醫(yī)療大數(shù)據(jù)中的知識分散、異構(gòu)、冗余和碎片化的問題,提供有效的整合和組織醫(yī)療知識的途徑。
2015年2月,谷歌公司宣布將開始著重醫(yī)療資訊在搜索結(jié)果頁面的地位,將于近期內(nèi)推出醫(yī)療版的“知識圖譜”,匯整使用者搜索醫(yī)療相關(guān)關(guān)鍵字的資訊一并列出,讓使用者一目了然。2016年,谷歌的醫(yī)療知識圖譜正式在印度上線,谷歌公司——Alexa 數(shù)據(jù)顯示,印度訪問量最大的兩個網(wǎng)站均為谷歌旗下網(wǎng)站——如今將通過谷歌主搜索引擎(全平臺)和 iOS、Android 搜索應(yīng)用在用戶搜索疾病或癥狀時為他們提供超過400種健康狀況的數(shù)據(jù),支持英語和印地語。谷歌公司把搜索引擎和知識圖譜與在線醫(yī)療進(jìn)行了深度整合,對智能醫(yī)療的發(fā)展提供了重要的借鑒作用。
對于醫(yī)療知識圖譜,國內(nèi)研究較國外稍晚點,不過醫(yī)療領(lǐng)域的從業(yè)者們也開始重視構(gòu)建各類不同醫(yī)療領(lǐng)域的知識圖譜。2015年長沙的格爾智慧公司發(fā)布了國內(nèi)首個“護(hù)理知識圖譜”研究中心,顧名思義,就是面向護(hù)理領(lǐng)域所提供的垂直類型的特定知識庫。也可以說護(hù)理知識圖譜是對護(hù)理領(lǐng)域的相關(guān)知識進(jìn)行采集,整理和萃取,以滿足與該領(lǐng)域相關(guān)的各種對于知識服務(wù)的需求。它的本體知識庫是源自于護(hù)理領(lǐng)域?qū)<遥从车氖窃谠擃I(lǐng)域內(nèi)對于各種特定問題進(jìn)行求解的知識集合,包括了相關(guān)的各種基本事實,規(guī)則和其他相關(guān)信息。北京康夫子科技有限公司則從智能診斷著手,康夫子欲建設(shè)“知識圖譜+推理邏輯”的醫(yī)療大腦。該公司的負(fù)責(zé)人表示,傳統(tǒng)的診斷學(xué)思維,大多使用人工編輯的知識庫,知識庫規(guī)模較小,在知識和信息更新上比較滯后,不能以自然語言處理,且采用決策樹的結(jié)構(gòu),在診斷效果上很快就會達(dá)到瓶頸。而康夫子基于知識圖譜推出的智能診斷系統(tǒng)在技術(shù)上會更有優(yōu)勢。從技術(shù)原理上來說,康夫子智能診斷是經(jīng)過三大步驟訓(xùn)練出來的:(1)知識抽?。鹤層嬎銠C閱讀理解海量醫(yī)療文獻(xiàn),抽取針對某種知識總結(jié)出上萬條書寫規(guī)律;(2)知識表示:包括知識向量化表示和知識關(guān)系概率化表示;(3)邏輯應(yīng)用:當(dāng)用戶搜索某種癥狀后,是否還會有其他伴隨癥狀?這就涉及到查詢分析和人機交互,最終呈現(xiàn)搜索結(jié)果。
除了工業(yè)界的產(chǎn)品研發(fā)之外,學(xué)術(shù)界的學(xué)者們也對醫(yī)療垂直領(lǐng)域知識圖譜的研究產(chǎn)生了濃厚的興趣。其中,華東理工大學(xué)的王昊奮博士在調(diào)研國內(nèi)外通用和醫(yī)療行業(yè)專用知識圖譜的基礎(chǔ)上利用文本抽取、關(guān)系數(shù)據(jù)轉(zhuǎn)換以及數(shù)據(jù)融合等技術(shù),探索中醫(yī)藥知識圖譜自動化構(gòu)建方法與標(biāo)準(zhǔn)化流程,以期實現(xiàn)基于模板的中醫(yī)藥知識問答和基于知識圖譜推理的輔助開藥[7]。中醫(yī)科學(xué)院的賈李蓉也從數(shù)據(jù)采集,內(nèi)容抽取,圖形化展示幾個方面介紹了他們的中醫(yī)知識圖譜的構(gòu)建工作,并預(yù)計開展基于中醫(yī)藥知識圖譜的檢索系統(tǒng)、基于中醫(yī)藥知識圖譜的知識地圖和中醫(yī)藥知識圖譜的維基百科等一系列應(yīng)用研究[8,9]。
基于知識圖譜的知識推理,可以發(fā)現(xiàn)知識間隱藏的一些新知識,不僅可以擴展當(dāng)前的知識圖譜而且可以讓知識圖譜包含的知識變得更加飽滿和充分[10]。因此,在醫(yī)療領(lǐng)域的知識圖譜應(yīng)用在目前取得的成果可以應(yīng)用到其他領(lǐng)域中,例如,利用知識圖譜識別互聯(lián)網(wǎng)金融的欺詐行為;知識圖譜與商業(yè)大數(shù)據(jù)分析結(jié)合,可以有效的提取商業(yè)領(lǐng)域的知識單元,提供輔助情報分析;知識圖譜與搜索引擎和智能問答的結(jié)合更加可以給我們的生活帶來純凈的信息環(huán)境[11]。
根據(jù)知識圖譜的發(fā)展背景和起源,文章首先對知識圖譜在過去幾年中在國內(nèi)的發(fā)展趨勢和研究要點進(jìn)行了歸納和總結(jié)。由于知識圖譜是引入的知識概念,在國內(nèi)發(fā)展比較晚,因此到目前為止國內(nèi)的知識圖譜并沒有實現(xiàn)統(tǒng)一的標(biāo)準(zhǔn)定義,并且知識圖譜的研究領(lǐng)域也集中在類似情報學(xué)、教育學(xué)、體育學(xué)、管理學(xué)等為數(shù)不多的比較狹窄的知識領(lǐng)域之內(nèi),研究對象也多以文獻(xiàn)為主,研究方法中的基于監(jiān)督和半監(jiān)督的研究方法占據(jù)著國內(nèi)知識圖譜研究領(lǐng)域的半壁江山。其次,根據(jù)知識圖譜發(fā)展的新趨勢,文章以互聯(lián)網(wǎng)范圍內(nèi)的知識圖譜為背景,對知識圖譜的類型,構(gòu)建方法進(jìn)行了闡述和總結(jié),并宏觀的介紹了知識圖譜在醫(yī)療領(lǐng)域的應(yīng)用前景。
隨著互聯(lián)網(wǎng)數(shù)據(jù)的爆炸式增長,以及國際知識圖譜領(lǐng)域研究的向前發(fā)展和推進(jìn),我國知識圖譜的發(fā)展將贏來新的轉(zhuǎn)變。另一方面,隨著中文分詞技術(shù)、實體及實體間關(guān)系的辨別技術(shù)及語義理解等技術(shù)研究的進(jìn)一步成熟,構(gòu)建大規(guī)模的中文知識圖譜,實現(xiàn)實體及實體間關(guān)系抽取的,多源知識融合與驗證的難點突破將成為可能。
[1]Hook PA.Domain maps:Purposes,history,parallels with cartography,and applications[C].Conference Proceedings of 11th Annual Information Visualization International Confe-rence(IV2007), Zurich, Switzerland, 2007:442-446.
[2]Garfield E.Scientography:Mapping the Tracks of Science[J]. Current Contents:Social&Behavioral Science,1994,(45):5- 10.
[3]Cobo MJ,López- Herrera AG,Herrera-Viedma E.Science mappingsoftware tools:Review,analysis,and cooperative study among tools[J].Journal of the American Society for Information Science and Technology,2011,(7):1382-1402.
[4]徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報,2016,(4):589-606.
[5]劉嶠,李楊,段宏,劉瑤,秦志光.知識圖譜構(gòu)建技術(shù)綜述[J].計算機研究與發(fā)展,2016,(3):582-600.
[6]袁旭萍.基于深度學(xué)習(xí)的商業(yè)領(lǐng)域知識圖譜構(gòu)建[D].華東師范大學(xué),2015.
[7]阮彤,孫程琳,王昊奮,方之家,殷亦超.中醫(yī)藥知識圖譜構(gòu)建與應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016,(4):8-13.
[8]于彤,劉靜,賈李蓉,張竹綠,楊碩,劉麗紅,李敬華,于琦.大型中醫(yī)藥知識圖譜構(gòu)建研究[J].中國數(shù)字醫(yī)學(xué),2015,(3):80- 82.
[9]賈李蓉,劉靜,于彤,董燕,朱玲,高博,劉麗紅.中醫(yī)藥知識圖譜構(gòu)建[J].醫(yī)學(xué)信息學(xué)雜志,2015,(8):51-53.
[10]劉永彬,歐陽純萍,鐘東來,李涓子,袁博志,李奇.基于非線性全局上下文的詞嵌入[J].中國科學(xué):信息科學(xué),2015,(12): 1588-1599.
[11]劉永彬,楊炳儒,李廣源,劉英華.基于馬爾可夫邏輯網(wǎng)的聯(lián)合推理開放信息抽取[J].計算機科學(xué),2012,(9):202-205.
(責(zé)任編校:何俊華)
2016-05-16
湖南省哲學(xué)社會科學(xué)基金(項目編號14YBA335);湖南省教育廳科學(xué)研究項目一般項目(項目編號16C1378);衡陽市科技局科技計劃項目(項目編號2015KG60)。
歐陽純萍(1979-),女,副教授,博士,研究方向為知識圖譜、命名實體識別與情感分析。鄒銀鳳(1988-),女,碩士,研究方向為數(shù)據(jù)挖掘與情感分析。
TP391
A
1673-2219(2016)10-0073-03