王明強(qiáng),張 磊,崔一迪,陳欣然,李國(guó)正
(1. 中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所 北京 100700;2. 中國(guó)中醫(yī)科學(xué)院中醫(yī)臨床基礎(chǔ)醫(yī)學(xué)研究所 北京100700;3. 中國(guó)中醫(yī)科學(xué)院中醫(yī)藥數(shù)據(jù)中心 北京 100700)
本體作為一種概念框架,可對(duì)概念及概念間關(guān)系進(jìn)行形式化表示[1]。領(lǐng)域本體屬于本體中的一種,表示對(duì)限定領(lǐng)域范圍內(nèi)概念及其關(guān)系的形式化描述[2]。從組成來看,領(lǐng)域本體一般包含一系列重要的領(lǐng)域概念,用于描述概念的概念屬性、概念間關(guān)系(分類關(guān)系與非分類關(guān)系)以及屬性關(guān)系約束等部分[3]。通常采用資源描述框架(RDF)、網(wǎng)絡(luò)本體語言(OWL)、屬性圖等模型進(jìn)行本體的表示。本體數(shù)據(jù)的存儲(chǔ)實(shí)質(zhì)是指RDF 有向圖數(shù)據(jù)的存儲(chǔ),其存儲(chǔ)的基本單位是RDF三元組[4],通常表示為“(Subject,Project,Object)”的形式,其中Subject 由統(tǒng)一資源標(biāo)識(shí)符(Uniform resource identifiers, URI)或空白節(jié)點(diǎn)構(gòu)成,表示三元組中的主體部分;Project 一般為統(tǒng)一資源標(biāo)識(shí)符,表示三元組中連接主客體間的關(guān)系;Object為統(tǒng)一資源標(biāo)識(shí)符、空白節(jié)點(diǎn)或帶有數(shù)據(jù)類型的值,表示三元組中客體部分。通過三元組形式可以表示出領(lǐng)域中的特定知識(shí),大量的三元組有機(jī)地聯(lián)系組合在一起則構(gòu)成領(lǐng)域本體。隨著三元組規(guī)模的不斷擴(kuò)大,傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫(kù)的存儲(chǔ)方法會(huì)出現(xiàn)許多問題,諸如直接存儲(chǔ)RDF 數(shù)據(jù)時(shí)出現(xiàn)大量自連接、稀疏屬性下形成大量空白單元格、信息檢索效率不斷下降甚至難以實(shí)現(xiàn)復(fù)雜關(guān)系查詢等問題。從功能上來看,本體模式層面的概念與關(guān)系一旦被表述清晰,其所對(duì)應(yīng)的實(shí)例層面各個(gè)實(shí)例及之間關(guān)系便得以有繼承性且規(guī)范化表達(dá),這反映了本體對(duì)實(shí)例數(shù)據(jù)及其間關(guān)系一致性的約束。因此選擇合適的本體存儲(chǔ)方式并實(shí)現(xiàn)對(duì)存儲(chǔ)數(shù)據(jù)進(jìn)行一致性檢驗(yàn)是合理應(yīng)用領(lǐng)域本體的基礎(chǔ)。
Neo4j 屬于圖數(shù)據(jù)庫(kù),隨著現(xiàn)實(shí)世界中相互聯(lián)系的數(shù)據(jù)規(guī)模的不斷擴(kuò)大,圖數(shù)據(jù)庫(kù)為信息存儲(chǔ)提供了高效的解決方案[5],其采用屬性圖的結(jié)構(gòu)存儲(chǔ)數(shù)據(jù),這種存儲(chǔ)形式特別適合路徑查詢與模式發(fā)現(xiàn)[6]。屬性圖的組成方式主要為具有屬性的節(jié)點(diǎn)通過關(guān)系相互聯(lián)系,每個(gè)節(jié)點(diǎn)可以被賦予一個(gè)或多個(gè)表示所屬類型的標(biāo)簽,每一個(gè)關(guān)系必須有起始節(jié)點(diǎn)及其所指向的終節(jié)點(diǎn),節(jié)點(diǎn)和關(guān)系上均可以添加以“鍵-值”對(duì)形式存在的“屬性-屬性值”對(duì)。這種數(shù)據(jù)結(jié)構(gòu)可以高效地實(shí)現(xiàn)數(shù)據(jù)建模,從而使Neo4j 數(shù)據(jù)模型在表達(dá)能力上表現(xiàn)出眾。RDF 數(shù)據(jù)模型具有天然的圖結(jié)構(gòu),以屬性圖模型存儲(chǔ)可以避免RDF 邏輯數(shù)據(jù)模型到物理數(shù)據(jù)模型轉(zhuǎn)換時(shí)的信息缺失[7]。同時(shí),Neo4j 能夠有效解決多維RDF 數(shù)據(jù)中屬性個(gè)數(shù)不一帶來的內(nèi)存浪費(fèi)問題,通過給邊賦予屬性靈活地?cái)U(kuò)展網(wǎng)絡(luò)模型,通過深度遍歷接口以相同的速度遍歷節(jié)點(diǎn)與關(guān)系,從而解決了出現(xiàn)大量連接查詢時(shí)性能衰退的問題[8]。Cypher 語言是Neo4j 所使用的圖形查詢語言,具有語法簡(jiǎn)單、功能強(qiáng)大的特點(diǎn),能構(gòu)建出高度復(fù)雜的數(shù)據(jù)庫(kù)查詢語句,從而使用戶專注于所關(guān)注的領(lǐng)域而非如何訪問數(shù)據(jù)庫(kù)的問題上[9]。因此,利用Neo4j 存儲(chǔ)領(lǐng)域本體并通過Cypher 語言構(gòu)建命令,以實(shí)現(xiàn)數(shù)據(jù)一致性檢驗(yàn),這種方法被視為構(gòu)建領(lǐng)域本體的方法之一。
中醫(yī)藥領(lǐng)域本體是疾病、病因病機(jī)、癥狀、證候、治法、方藥等相關(guān)概念及其屬性、關(guān)系的網(wǎng)絡(luò)化整合,國(guó)家知識(shí)基礎(chǔ)設(shè)施(National knowledge infrastructure,NKI)課題將中醫(yī)本體分為30多種類別[10]。目前,已有學(xué)者開展了領(lǐng)域本體構(gòu)建的相關(guān)研究,例如,田甜等[11]構(gòu)建以五臟為中心的知識(shí)本體,以用于挖掘肺與大腸間疾病證治規(guī)律;曹馨宇等[12]從梳理中醫(yī)冠心病養(yǎng)生相關(guān)知識(shí)的角度入手,利用多個(gè)醫(yī)學(xué)術(shù)語系統(tǒng)或集合規(guī)范多數(shù)據(jù)來源術(shù)語及語義關(guān)系,初步構(gòu)建了面向養(yǎng)生需求的冠心病知識(shí)本體;李新龍等[13]通過研究指南、標(biāo)準(zhǔn)、教材等具有較高公認(rèn)性的文獻(xiàn),梳理并構(gòu)建了包含臨床表現(xiàn)、診療、療效在內(nèi)的中醫(yī)師辨證論治體系頂層本體;于彤等[14]構(gòu)建了面向中醫(yī)藥領(lǐng)域的規(guī)范化頂層本體,為中醫(yī)藥學(xué)語言系統(tǒng)中的概念提供了一體化的概念框架并形成了相關(guān)國(guó)際標(biāo)準(zhǔn);龍海等[15]提出了在通用形式化本體基礎(chǔ)上構(gòu)建中醫(yī)藥頂層本體的思路與研究方向。研究者對(duì)中醫(yī)藥局部或頂層本體構(gòu)建研究?jī)A注了大量心血,但由于中醫(yī)藥領(lǐng)域概念繁多,相互間關(guān)系錯(cuò)綜復(fù)雜,構(gòu)建完全覆蓋所有概念、關(guān)系以期構(gòu)建中醫(yī)藥領(lǐng)域本體的難度非常大。因此,本研究主要集中于構(gòu)建中醫(yī)皮膚病在“疾病-證候-治法”范圍內(nèi)的領(lǐng)域本體,通過較小規(guī)模的領(lǐng)域本體構(gòu)建以及對(duì)所構(gòu)建本體的數(shù)據(jù)一致性進(jìn)行檢驗(yàn)研究,初步實(shí)現(xiàn)利用Neo4j 構(gòu)建、存儲(chǔ)具有一定擴(kuò)展性和較高準(zhǔn)確性的領(lǐng)域本體,為后續(xù)更大規(guī)模領(lǐng)域本體的構(gòu)建工作奠定基礎(chǔ)。
中醫(yī)皮膚病實(shí)例參考《全國(guó)中醫(yī)藥行業(yè)高等教育“十二五”規(guī)劃教材·全國(guó)高等中醫(yī)藥院校規(guī)劃教材(第9版):中醫(yī)外科學(xué)》[16]皮膚疾病部分內(nèi)容。
本體存儲(chǔ)工具使用Neo4j Desktop 1.1.9客戶端(包含Neo4j 數(shù)據(jù)庫(kù)3.4.8版)。
本研究主要研究的領(lǐng)域本體對(duì)象為中醫(yī)皮膚病“疾病-證候-治法”概念及其之間的關(guān)系。此處疾病主要指中醫(yī)臨床常見皮膚病,證候指臨床辨證常見的證候類型,治療方法包括:內(nèi)治法、外治法。前者指在辨明證候后采用內(nèi)服方藥方法針對(duì)該病證候進(jìn)行治療的方法,后者指針對(duì)該皮膚病所采取的體外治療方法。
從模型角度來看,該領(lǐng)域本體包括了類(Class)、屬性(Property)以及實(shí)例(Individual)三種元素。
類(Class),是指構(gòu)成研究領(lǐng)域本體的相關(guān)概念,屬于RDF 模型中的主體(Subject)或客體(Object)??杀硎緸椋ㄖ嗅t(yī)皮膚病,rdfs:type,Owl:Class),即“中醫(yī)皮膚病”的類型屬于“類”,其他如“中醫(yī)疾病”“證候”“治法”“內(nèi)治法”“外治法”等均屬于類。
屬性(Property)包含了數(shù)據(jù)屬性(Data property)與對(duì)象屬性(Object property)。數(shù)據(jù)屬性指領(lǐng)域本體概念自身所具有的屬性,如疾病的內(nèi)涵、發(fā)病部位、發(fā)病時(shí)間等均為反映疾病自身特點(diǎn)的屬性。對(duì)象屬性用于描述領(lǐng)域概念間或?qū)嵗g所具有的關(guān)系,通常具有限定的定義域(Domain)與值域(Range)。定義域中的數(shù)據(jù)類型可以為類(Class)、空白節(jié)點(diǎn)(Blank node),值域中的數(shù)據(jù)類型可以為類(Class)、空白節(jié)點(diǎn)(Blank node)以及帶有數(shù)據(jù)類型屬性的值(Literal)。常見的對(duì)象屬性有父子關(guān)系(SubClassOf)以及類與實(shí)例間關(guān)系(rdf :type)。如SubClassOf(中醫(yī)皮膚病,中醫(yī)疾?。┍硎局嗅t(yī)皮膚病是中醫(yī)疾病的子類;type(接觸性皮炎,中醫(yī)皮膚?。┍硎窘佑|性皮炎的疾病類型是中醫(yī)皮膚病。
實(shí)例(Individual)指臨床中具體發(fā)生的疾病、證候、治法,如接觸性皮炎,血虛風(fēng)燥證,養(yǎng)血潤(rùn)燥、祛風(fēng)止癢等分別為前述類下的實(shí)例??杀硎緸椋ń佑|性皮炎,rdfs:type,owl:Namedindividual)等類似結(jié)構(gòu)。
結(jié)合對(duì)前文概念的認(rèn)識(shí),構(gòu)建了對(duì)應(yīng)的對(duì)象屬性與數(shù)據(jù)屬性,并對(duì)其定義域、值域進(jìn)行了限定。具體結(jié)果見表1。
根據(jù)對(duì)類、屬性、實(shí)例的認(rèn)識(shí)與設(shè)計(jì),以常見中醫(yī)皮膚?。航佑|性皮炎為例,構(gòu)建出對(duì)應(yīng)的RDF 模型圖,具體結(jié)果見圖1。
表1 中醫(yī)藥皮膚病“病-證-治”本體屬性的設(shè)計(jì)
圖中實(shí)例節(jié)點(diǎn)為接觸性皮炎及其相關(guān)證候、內(nèi)治法、外治法實(shí)例,相互間關(guān)系通過預(yù)定義的對(duì)象屬性進(jìn)行關(guān)聯(lián),并與對(duì)應(yīng)的類節(jié)點(diǎn)進(jìn)行聯(lián)系;中醫(yī)疾病、中醫(yī)皮膚病、證候、治法、內(nèi)/外治法等類節(jié)點(diǎn)間有層次關(guān)系(SubClassOf)或預(yù)定義的對(duì)象屬性關(guān)系,在類間為突出對(duì)象屬性的方向性,特將對(duì)象屬性設(shè)定為節(jié)點(diǎn)并指明其定義域與值域,同時(shí)這種表達(dá)也將為后續(xù)進(jìn)行數(shù)據(jù)一致性檢驗(yàn)奠定基礎(chǔ)。
圖1 中醫(yī)常見皮膚病“病-證-治”本體的RDF模型
RDF 模型以(Subject, Project, Object)三元組形式存在,與 Neo4j 由“節(jié)點(diǎn) 1”-“關(guān)系”->“節(jié)點(diǎn) 2”構(gòu)成的有向的基本數(shù)據(jù)模型相類似,故可采用將RDF 模型映射到Neo4j 數(shù)據(jù)模型的方式將之存入Neo4j 中。為方便理解,將RDF 模型表示為“節(jié)點(diǎn)名稱(s , p , o)”,節(jié)點(diǎn)名稱可從相應(yīng)的URI中提取。
本研究所構(gòu)建的相關(guān)映射規(guī)則如下:
(1)RDF 模型中表示類的節(jié)點(diǎn)C(URI,rdfs:type,OWL : Class),在 Neo4j 中將節(jié)點(diǎn)標(biāo)簽映射為“Class”,屬性至少包含“l(fā)abel:C”與”uri:URI”,如C 有數(shù)據(jù)屬性,也應(yīng)映射到Neo4j相應(yīng)節(jié)點(diǎn)中。
RDF模型:
C(URI,rdfs:type,OWL:Class)
映射至Neo4j模型:
(: Class{label : C , uri : URI , property : datatype property})
(2)RDF 模型中表示實(shí)例的節(jié)點(diǎn)I (URI , rdf :type,C),在Neo4j 中將節(jié)點(diǎn)標(biāo)簽映射為“C”,屬性至少包含“name:I”與“uri:URI”,如 I 有數(shù)據(jù)屬性,也應(yīng)映射到Neo4j相應(yīng)節(jié)點(diǎn)中。
RDF模型:
I(URI,rdf:type,C)
映射至Neo4j模型:
(: C{name : I , uri : URI , property : datatype property})
(3)RDF 模型中表示對(duì)象屬性的節(jié)點(diǎn)OP (URI ,rdfs:type,OWL:ObjectProperty),在 Neo4j中將節(jié)點(diǎn)標(biāo)簽映射為“ObjectProperty”,屬性至少包含“l(fā)abel :OP”與“uri :URI”,由于RDF 模型中實(shí)際表示對(duì)象屬性時(shí)是顯示在連接兩節(jié)點(diǎn)的邊上,并不具有數(shù)據(jù)屬性,故沒有數(shù)據(jù)屬性項(xiàng)需要映射。
RDF模型:
OP(URI,rdfs:type,OWL:ObjectProperty)
映射至Neo4j模型:
(:ObjectProperty{label:OP,uri:URI})
(4)RDF 模型中表示對(duì)象屬性/關(guān)系的邊rdf(s) :OP(URI),在 Neo4j 中將標(biāo)簽映射為“OP”,屬性為“uri:URI”。
RDF模型:
rdf(s):OP(URI)
映射至Neo4j模型:
(:OP{uri:URI})
依照上述映射規(guī)則,將已構(gòu)建的RDF 模型映射并存儲(chǔ)至Neo4j 中,得到如圖2 所示結(jié)果:紫色節(jié)點(diǎn)表示RDF 模型中的中醫(yī)皮膚病“疾病-證候-治療”相關(guān)的類節(jié)點(diǎn),類間滿足父子關(guān)系的以SubClassOf關(guān)系連接;藍(lán)色節(jié)點(diǎn)表示自定義的三種對(duì)象屬性(syndrome_differentiation, treatment_of_syndrome, treatment_of_disease),通過DOMAIN、RANGE 關(guān)系指向相應(yīng)的類以明確對(duì)象屬性的定義域(Domain)、值域(Range)約束;紅色節(jié)點(diǎn)表示中醫(yī)皮膚病下的疾病實(shí)例,綠色節(jié)點(diǎn)、粉色節(jié)點(diǎn)分別表示每個(gè)“中醫(yī)皮膚病”實(shí)例“辨證為”的“證候”實(shí)例以及“對(duì)病治療”的“外治法”實(shí)例;黃色節(jié)點(diǎn)表示每個(gè)“證候”實(shí)例“對(duì)證治療”的“內(nèi)治法”實(shí)例。
由類節(jié)點(diǎn)與對(duì)象屬性節(jié)點(diǎn)及其間關(guān)系構(gòu)成的本體模式層,實(shí)現(xiàn)了對(duì)對(duì)象屬性定義域、值域的約束,如對(duì)象屬性:“辨證為”被約束定義域?yàn)椤爸嗅t(yī)皮膚病”、值域?yàn)椤白C候”,結(jié)合實(shí)例中如“接觸性皮炎”-“辨證為”->“血虛風(fēng)燥證”,利用Cypher語言編寫檢驗(yàn)“辨證為”在實(shí)例層中其定義域與值域是否符合模式層的約束,通過對(duì)所有對(duì)象屬性的定義域、值域進(jìn)行檢驗(yàn)實(shí)現(xiàn)對(duì)已添加在實(shí)例層中數(shù)據(jù)的一致性驗(yàn)證,快速發(fā)現(xiàn)隱藏在實(shí)例層中的錯(cuò)誤表述,及時(shí)反饋給相關(guān)人員以便修正。
2.3.1 針對(duì)對(duì)象屬性定義域(DOMAIN)的數(shù)據(jù)一致性檢驗(yàn)
檢驗(yàn)思路如下:
(1)匹配符合由對(duì)象屬性節(jié)點(diǎn)op通過DOMAIN 關(guān)系指向類節(jié)點(diǎn)c的所有模式,并返回對(duì)象屬性節(jié)點(diǎn)、類節(jié)點(diǎn)的 uri、label屬性值。
(2)匹配(n)-[r]->()模式,找出關(guān)系r與定義的對(duì)象屬性op.label 一致,但實(shí)例節(jié)點(diǎn)類型n:Label 不在本體模式層所定義的類c.label 范圍者,即找出DOMAIN 所指向的實(shí)例不符合類的約束者。
(3)返回定義域錯(cuò)誤的節(jié)點(diǎn)、關(guān)系,提示正確的歸類。
對(duì)應(yīng)的Cypher語句實(shí)現(xiàn)如下:
圖2 由RDF模型映射并存儲(chǔ)在Neo4j中的中醫(yī)皮膚病領(lǐng)域本體示例圖
表2 對(duì)象屬性定義域(DOMAIN)的數(shù)據(jù)一致性檢驗(yàn),存儲(chǔ)的實(shí)例定義域指向錯(cuò)誤時(shí)的結(jié)果
MATCH (c: Class) <- [: DOMAIN]- (op:ObjectProperty)
WITH c.uri as class, c.label AS classLabel, op.uri AS prop,op.label AS propLabel
MATCH (n)-[r]->() WHERE type(r)=propLabel AND NOT classLabel in Labels(n)
RETURN id(n) AS Node_ID, n.name AS Node_name,'domain of ' + propLabel + ' [' + prop + ']' AS 'Check Failed','Node labels:('+reduce(s='',l IN Labels(n)|s+''+l)+')should be'+classLabel AS ExtraInfo
經(jīng)一致性檢驗(yàn),當(dāng)存儲(chǔ)的實(shí)例出現(xiàn)定義域指向錯(cuò)誤時(shí),如出現(xiàn)類似“濕疹<-辨證為-濕熱內(nèi)蘊(yùn)證”的表達(dá)時(shí),則會(huì)給出如表2的結(jié)果。
提示ID 為81 的節(jié)點(diǎn)“濕熱內(nèi)蘊(yùn)證”作為“證候”類不應(yīng)出現(xiàn)在“辨證為”關(guān)系的定義域中,真正的定義域應(yīng)為中醫(yī)皮膚病類下的實(shí)例。該Cypher 語句可以較快地遍歷相關(guān)數(shù)據(jù),找出不符合模式層所給定的對(duì)象屬性定義域約束的實(shí)例并給出其所在位置(Node ID)及名稱(Node name),方便人工干預(yù),提高領(lǐng)域本體的準(zhǔn)確性。
2.3.2 針對(duì)對(duì)象屬性值域(RANGE)的數(shù)據(jù)一致性檢驗(yàn)
與前述對(duì)象屬性定義域(DOMAIN)的數(shù)據(jù)一致性檢驗(yàn)思路類似,構(gòu)建的Cypher語句如下:
MATCH(c:Class)<-[:RANGE]-(op:ObjectProperty)
WITH c.uri as class, c.label AS classLabel, op.uri AS prop,op.label AS propLabel
MATCH (n)-[r]->() WHERE type(r)=propLabel AND NOT classLabel in Labels(n)
RETURN id(n) AS Node_ID, n. name AS Node_name, ' range of ' + propLabel + ' [' + prop + ']' AS 'Check Failed', ' Node labels: (' + reduce(s = '', l IN Labels(n) | s + '' + l) + ') should be ' + classLabel AS ExtraInfo
當(dāng)對(duì)象屬性值域出現(xiàn)錯(cuò)誤時(shí),給出類似于定義域數(shù)據(jù)一致性檢驗(yàn)的錯(cuò)誤信息及提示。操作人員可以根據(jù)反饋的一致性檢驗(yàn)結(jié)果快速查找到錯(cuò)誤節(jié)點(diǎn)并進(jìn)行修正。
本體的模式層是對(duì)領(lǐng)域本體及其間關(guān)系的高度總結(jié),而上述數(shù)據(jù)一致性檢驗(yàn)僅與本體模式層的構(gòu)建形式相關(guān),與具體的類或?qū)ο髮傩灶愋蜔o關(guān)。因此,將對(duì)象屬性構(gòu)建為節(jié)點(diǎn),以DOMAIN、RANGE 作為對(duì)象屬性指向相應(yīng)類間的關(guān)系,以這樣的模式構(gòu)建本體模式層,利用前述給出的Cypher 語句來實(shí)現(xiàn)數(shù)據(jù)一致性檢驗(yàn),可以快速檢驗(yàn)本體間關(guān)系的準(zhǔn)確性,且這種檢驗(yàn)方式通用性、可遷移性強(qiáng),可以用在除中醫(yī)藥領(lǐng)域外的其他不同領(lǐng)域,從而提升了已有本體、以及新存儲(chǔ)實(shí)例的數(shù)據(jù)準(zhǔn)確性,并能快速定位錯(cuò)誤節(jié)點(diǎn)或關(guān)系,利于及時(shí)修正。
本研究以中醫(yī)皮膚病在“疾病-證候-治療”范圍內(nèi)相關(guān)的類及關(guān)系為基礎(chǔ),確定了中醫(yī)皮膚病、證候、內(nèi)治法、外治法等類以及自定義的“辨證為”“對(duì)證治療”“對(duì)病治療”等關(guān)系為研究對(duì)象,通過分析類間關(guān)系、實(shí)例與類的對(duì)應(yīng)關(guān)系構(gòu)建RDF 模型,形成對(duì)中醫(yī)皮膚病“疾病-證候-治療”領(lǐng)域本體的具體認(rèn)識(shí)及規(guī)范化表達(dá),為避免基于關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)方式帶來的大量自連接、稀疏屬性且擴(kuò)展性有限的缺點(diǎn),故選擇具有能夠以屬性圖形式存儲(chǔ)具有復(fù)雜關(guān)系數(shù)據(jù)且擴(kuò)展性強(qiáng)特點(diǎn)的Neo4j 作為存儲(chǔ)領(lǐng)域本體的數(shù)據(jù)庫(kù)。為檢驗(yàn)已存入數(shù)據(jù)的準(zhǔn)確性,利用Neo4j 的查詢語言Cypher 構(gòu)建了對(duì)對(duì)象屬性定義域、值域進(jìn)行數(shù)據(jù)一致性檢驗(yàn)的語句,實(shí)現(xiàn)對(duì)預(yù)定義關(guān)系矛盾點(diǎn)的檢測(cè)定位與修正提示,方便研究者快速、準(zhǔn)確地進(jìn)行人工干預(yù)。該命令具有較好的遷移性與適應(yīng)性,即使領(lǐng)域本體在后續(xù)研究中不斷增加新的類或?qū)ο箢愋突蛐枰w移至其他領(lǐng)域本體,這些語句均可進(jìn)行適當(dāng)修改以完成對(duì)數(shù)據(jù)一致性的檢驗(yàn)。
由構(gòu)建RDF 模型分析領(lǐng)域本體間關(guān)系到通過映射規(guī)則將本體存儲(chǔ)至Neo4j 中、并對(duì)存儲(chǔ)數(shù)據(jù)一致性檢驗(yàn)的研究方法,既實(shí)現(xiàn)了領(lǐng)域本體的規(guī)范化表達(dá),又滿足了本體擴(kuò)展性與數(shù)據(jù)可靠性的要求,從而為構(gòu)建準(zhǔn)確性較高的中醫(yī)藥領(lǐng)域本體提供了參考。但該研究也存在一定局限性:其一,所研究的領(lǐng)域本體規(guī)模較小、本體間關(guān)系復(fù)雜度有限,對(duì)應(yīng)的映射規(guī)則也較為簡(jiǎn)單,更大規(guī)模的本體需要考慮構(gòu)建更為復(fù)雜的映射規(guī)則,一旦出現(xiàn)錯(cuò)誤映射將導(dǎo)致本體間在邏輯上沖突[17],這種錯(cuò)誤也會(huì)誤導(dǎo)一致性檢驗(yàn)語句的構(gòu)建;其二,本研究未涉及對(duì)數(shù)據(jù)屬性以及SubClassOf層次關(guān)系的數(shù)據(jù)一致性檢驗(yàn),前者檢驗(yàn)方法類似于對(duì)象屬性數(shù)據(jù)一致性檢驗(yàn)方法,后者則是目前尚未解決的問題。因此,在后續(xù)研究中本課題組將繼續(xù)擴(kuò)大領(lǐng)域本體范圍,不斷提高模型復(fù)雜度,借鑒學(xué)習(xí)國(guó)內(nèi)外研究者在相關(guān)領(lǐng)域中的研究,構(gòu)建更為完善的映射規(guī)則與數(shù)據(jù)一致性檢驗(yàn)方法,以期能夠更好地利用Neo4j 存儲(chǔ)中醫(yī)藥領(lǐng)域本體,為實(shí)際應(yīng)用奠定基礎(chǔ)。