卜景旭
自從Google公司于2012 年5月發(fā)布知識(shí)圖譜(Knowledge Graph)技術(shù)以來(lái),人們從谷歌精準(zhǔn)快速的搜索技術(shù)中看到了知識(shí)圖譜所蘊(yùn)含的巨大科學(xué)的力量,因此在各個(gè)領(lǐng)域都引發(fā)了一股研究知識(shí)圖譜的熱潮。國(guó)內(nèi)外的各大公司紛紛推出自己相應(yīng)的產(chǎn)品,例如:微軟的Sator,百度的“知心”、搜狗的“知立方”等產(chǎn)品。
一、將知識(shí)圖譜引入中醫(yī)的教學(xué)工作
作為一名在中醫(yī)藥教育領(lǐng)域的從業(yè)者,筆者認(rèn)為,中醫(yī)發(fā)展到現(xiàn)在,已經(jīng)積累了大量珍貴的臨床經(jīng)驗(yàn),形成了無(wú)數(shù)經(jīng)典理論。如何借助先進(jìn)信息科學(xué)與技術(shù)來(lái)對(duì)中醫(yī)藥理論和知識(shí)體系進(jìn)行整理和分析,從而有助于教學(xué)工作是值得中醫(yī)教育工作者探索的一個(gè)重要問(wèn)題。隨著知識(shí)圖譜的出現(xiàn),這個(gè)工作的可能性和是實(shí)用性越來(lái)越重要。
知識(shí)圖譜是結(jié)構(gòu)化的語(yǔ)義知識(shí)庫(kù),用于以符號(hào)形式描述物理世界中的概念及其相互關(guān)系。其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組,以及實(shí)體及其相關(guān)屬性-值對(duì),實(shí)體間通過(guò)關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀的知識(shí)結(jié)構(gòu)。它本質(zhì)上是語(yǔ)義網(wǎng)絡(luò)。
針對(duì)知識(shí)圖譜這一特點(diǎn),引用知識(shí)圖譜解決中醫(yī)學(xué)在知識(shí)表達(dá)、共享和應(yīng)用方面的問(wèn)題也受到中醫(yī)界的重視。在中醫(yī)學(xué)中的本體可以易經(jīng)和陰陽(yáng)五行學(xué)說(shuō)為指導(dǎo),從認(rèn)識(shí)、生理、病理、辨證論治基本部分開始構(gòu)建。
整個(gè)中醫(yī)的概念體系中,類關(guān)系、整體與部分的關(guān)系是概念體系的主要關(guān)系,所以中醫(yī)知識(shí)圖譜的結(jié)構(gòu)分為了兩大類關(guān)系,一類是概念層級(jí)關(guān)系、一類是實(shí)體關(guān)系。
二、知識(shí)圖譜的邏輯架構(gòu)
知識(shí)圖譜的邏輯架構(gòu),分為兩個(gè)層次:數(shù)據(jù)層和模式層。知識(shí)圖譜的數(shù)據(jù)層是指:知識(shí)以事實(shí)(Fact)為單位存儲(chǔ)在圖數(shù)據(jù)庫(kù).例如谷歌的Graphd和微軟的Trinity都是典型的圖數(shù)據(jù)庫(kù)。存儲(chǔ)在圖數(shù)據(jù)庫(kù)中的所有數(shù)據(jù)將構(gòu)成龐大的實(shí)體關(guān)系網(wǎng)絡(luò),形成知識(shí)的“圖譜”。
知識(shí)圖譜的模式層在數(shù)據(jù)層之上,是知識(shí)圖譜的核心。在模式層存儲(chǔ)的是經(jīng)過(guò)提煉的知識(shí),通常采用本體庫(kù)來(lái)管理知識(shí)圖譜的模式層,借助本體庫(kù)對(duì)公理、規(guī)則、約束條件來(lái)規(guī)范實(shí)體、關(guān)系以及實(shí)體的類型和屬性等對(duì)象之間的聯(lián)系。
三、知識(shí)圖譜的邏輯構(gòu)建方法
知識(shí)圖譜的構(gòu)建主要有自頂向下和自底向上兩種方法。所謂自頂向下的方法是指首先為知識(shí)圖譜定義數(shù)據(jù)模式(即為其定義本體),在定義本體的過(guò)程中,首先從最頂層的概念開始,然后逐步進(jìn)行細(xì)化,形成結(jié)構(gòu)良好的分類學(xué)層次結(jié)構(gòu);在定義好數(shù)據(jù)模式后,再把實(shí)體一個(gè)個(gè)往概念中添加。自底向上的方法則剛好相反,首先從實(shí)體開始,對(duì)實(shí)體進(jìn)行歸納組織,形成底層的概念,然后逐步往上抽象,形成上層的概念。兩種方法在具體的構(gòu)建過(guò)程中通常都不是從零開始的,前者可以利用一些現(xiàn)有的結(jié)構(gòu)化的知識(shí)庫(kù),而后者則可以從開放鏈接數(shù)據(jù)或在線百科中得到很多實(shí)體。在實(shí)際的構(gòu)建過(guò)程中,通常采用兩種方式結(jié)合的方法。
本文接下來(lái)把知識(shí)圖譜的構(gòu)建分成兩步,數(shù)據(jù)模式層的構(gòu)建(本體定義)和實(shí)體層的構(gòu)建。
(一)數(shù)據(jù)模式層的構(gòu)建的過(guò)程
本體的構(gòu)建步驟通常都是依據(jù)圖中的層次結(jié)構(gòu)來(lái)進(jìn)行的,自底向上依次實(shí)體抽取、概念抽取和關(guān)系抽取
實(shí)體抽取,也稱為命名實(shí)體識(shí)別是指從文本數(shù)據(jù)集中自動(dòng)識(shí)別出命名實(shí)體。這是本體構(gòu)建的基礎(chǔ)工作,語(yǔ)抽取通常釆用基于語(yǔ)言學(xué)規(guī)則的方法和使用統(tǒng)計(jì)的方法,實(shí)體通常是單字或多字的組合,它們?cè)谔囟ǖ念I(lǐng)域或上下文環(huán)境中有特定的含義。
概念抽取,作為概念,通常需要具備如下三個(gè)層面的信息,內(nèi)涵、外延和詞匯實(shí)現(xiàn)。概念抽取的常用方法包括基于語(yǔ)言學(xué)的方法、基于統(tǒng)計(jì)的方法和混合方法。基于語(yǔ)言學(xué)的方法通常依據(jù)特定的詞法結(jié)構(gòu)或模板,因此基本是與語(yǔ)言相關(guān)的。基于統(tǒng)計(jì)的方法主要依據(jù)概念與一般的詞匯之間不同的統(tǒng)計(jì)特征,區(qū)分概念和普通術(shù)語(yǔ)。
關(guān)系抽取,其中包括同義關(guān)系抽取和分類關(guān)系抽取。同義關(guān)系抽取的目標(biāo)是尋找那些代表同一概念、實(shí)體或?qū)傩缘男g(shù)語(yǔ)。分類關(guān)系抽取指分析概念之間的層次關(guān)系。通常采用的方法有:基于詞法模式的方法,基于共現(xiàn)分析的方法,基于語(yǔ)言學(xué)的方法,以及近年來(lái)興起的基于開放鏈接數(shù)據(jù)和在線百科的方法。
(二)實(shí)體層的構(gòu)建過(guò)程
實(shí)體填充,對(duì)于一個(gè)實(shí)體,如果僅擁有實(shí)體名稱,該實(shí)體的意義則非常有限;通常需要通過(guò)一定的方式來(lái)描述實(shí)體,使得實(shí)體可以被人和機(jī)器理解。描述實(shí)體的數(shù)據(jù)包括實(shí)體的描述,圖片,同義名稱,以及屬性等。同義名稱學(xué)習(xí)的相關(guān)研究通常被稱為同義關(guān)系學(xué)習(xí),而實(shí)體屬性學(xué)習(xí)的相關(guān)研究通常被稱為實(shí)體屬性關(guān)系學(xué)習(xí)。
構(gòu)建實(shí)體鏈,實(shí)體鏈接(entity linking)是指對(duì)于從文本中抽取得到的實(shí)體對(duì)象,將其鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的正確實(shí)體對(duì)象的操作。實(shí)體鏈接的基本思想是根據(jù)給定的實(shí)體,從知識(shí)庫(kù)中選出一組候選實(shí)體對(duì)象,然后通過(guò)相似度計(jì)算將其鏈接到正確的實(shí)體對(duì)象。
四、應(yīng)用和展望
知識(shí)圖譜是一個(gè)新概念,從2012年提出到現(xiàn)在不過(guò)5年時(shí)間,然而通過(guò)對(duì)知識(shí)圖譜構(gòu)建技術(shù)體系進(jìn)行深入觀察和分析,可以看出它事實(shí)上是建立在多個(gè)學(xué)科領(lǐng)域研究成果基礎(chǔ)之上的一門實(shí)用技術(shù)。尤其結(jié)合中醫(yī)學(xué)之后,有著實(shí)際的應(yīng)用場(chǎng)景:
中醫(yī)知識(shí)檢索,作為中醫(yī)知識(shí)圖譜的基本檢索服務(wù),關(guān)于中醫(yī)單個(gè)術(shù)語(yǔ)、多個(gè)術(shù)語(yǔ)、術(shù)語(yǔ)間關(guān)系、術(shù)語(yǔ)間指定關(guān)系的路徑查詢等基本的知識(shí)檢索服務(wù)。
輔助診斷教學(xué),根據(jù)癥狀信息,基于知識(shí)圖譜,結(jié)合多種中醫(yī)辨證方法,進(jìn)行辨證論治策略的推薦和分析,可以實(shí)現(xiàn)學(xué)習(xí)實(shí)踐模擬。
同時(shí)我們也要看到構(gòu)建知識(shí)圖譜目前也面臨一些挑戰(zhàn)。如面向開放域的信息抽取方法研究還處于起步階段,技術(shù)不太成熟。 存在多種數(shù)據(jù)源,每個(gè)數(shù)據(jù)源的數(shù)據(jù)格式多種多樣,知識(shí)的融合比較困難。
盡管面臨這些困難,知識(shí)圖譜在中醫(yī)教學(xué)方面的發(fā)展和應(yīng)用的前景還是很廣闊的。
參考文獻(xiàn):
[1]韓軼,李鵬.試論中醫(yī)教學(xué)方法與內(nèi)容的與時(shí)俱進(jìn)[J].新疆中醫(yī)藥,2013,31(04):78-80.
[2]孫保木,羅明.多媒體技術(shù)在中醫(yī)教學(xué)中的應(yīng)用[J].解放軍醫(yī)院管理雜志,2013,20(06):578-580.
[3]姜德友,魯美君.案例式教學(xué)在中醫(yī)教學(xué)中的應(yīng)用研究[J].中華中醫(yī)藥學(xué)刊,2010,28(08):1582-1583.