崔秀杰
〔摘要〕以清晰表達(dá)知識內(nèi)涵、促進(jìn)信息資源語義共享為目的,以衛(wèi)生監(jiān)督調(diào)查信息為研究案例,嘗試?yán)庙敿壉倔w屬性元素構(gòu)建具有通用語義特征的領(lǐng)域本體。通過領(lǐng)域知識本體的構(gòu)建實證,詳盡闡述依托“七步法”構(gòu)筑領(lǐng)域本體的方法,探討使用領(lǐng)域術(shù)語構(gòu)建本體知識表達(dá)的途徑,實現(xiàn)了衛(wèi)生監(jiān)督調(diào)查信息知識的本體化,為該領(lǐng)域知識的信息資源語義整合提供研究基礎(chǔ)。
〔關(guān)鍵詞〕領(lǐng)域本體;衛(wèi)生監(jiān)督調(diào)查;本體構(gòu)建
在大數(shù)據(jù)背景下的現(xiàn)代信息社會,信息孤島嚴(yán)重影響了知識的獲取效率,領(lǐng)域信息的語義共享在數(shù)據(jù)海量增長的今天已經(jīng)變得迫在眉睫,而領(lǐng)域信息資源實現(xiàn)語義整合的主要保障是以本體為基礎(chǔ)的知識組織。
由于領(lǐng)域本體在構(gòu)建過程中缺乏統(tǒng)一的語義約束,大量的領(lǐng)域本體受限于不同的應(yīng)用情況,出現(xiàn)不同程度的語義異構(gòu),影響領(lǐng)域本體間的聯(lián)合應(yīng)用,而這種領(lǐng)域知識的語義整合需求在大數(shù)據(jù)背景下幾乎不可避免,因此,構(gòu)建具有統(tǒng)一語義表達(dá)方式的領(lǐng)域本體可以做為解決語義異構(gòu)、實現(xiàn)領(lǐng)域知識語義整合的一種新途徑。
本研究以衛(wèi)生監(jiān)督調(diào)查信息為研究案例,以“全國衛(wèi)生監(jiān)督調(diào)查制度”為研究框架,利用頂級本體的通用屬性嘗試構(gòu)建具有統(tǒng)一表達(dá)方式的領(lǐng)域知識本體,初步完成了領(lǐng)域信息資源語義整合的初級階段工作,探討領(lǐng)域信息資源語義整合的基礎(chǔ)性問題,旨在探索促進(jìn)信息共享和知識發(fā)現(xiàn)的有效途徑。
1基本理論依據(jù)
領(lǐng)域本體主要應(yīng)用于知識密集領(lǐng)域的信息表達(dá),以提高數(shù)據(jù)信息的利用效率。在信息技術(shù)層面,本體可以用于信息抽取、信息檢索以及信息系統(tǒng)互操作等方面[1]:在信息抽取技術(shù)上,一般通過本體來指導(dǎo)識別抽取實體及實體間的關(guān)系,從而提高抽取性能;在信息檢索技術(shù)上,可以憑借本體良好的概念層次,通過各類邏輯推理等技術(shù)進(jìn)行基于語義的信息檢索[2];信息系統(tǒng)的互操作則通過本體明確規(guī)范的概念模型,保證信息系統(tǒng)協(xié)調(diào)的一致性,進(jìn)而解決信息異構(gòu)問題。
頂級本體(Upper-level Ontology)也被稱為上層本體或頂層本體,是描述概念之間最普遍聯(lián)系的知識體系。作為領(lǐng)域本體的參考依據(jù),它揭示了領(lǐng)域知識在更高語義層次上的關(guān)系。從頂級本體的研究視角來看,比較知名的頂級本體如SUMO[3]、Cyc本體[4]等,都為用戶提供了規(guī)模龐大的一般性知識框架,SUMO不涉及具體的領(lǐng)域知識,Cyc本體則包含大量的實例信息。目前這些項目的應(yīng)用中較多涉及推理及查詢,對于本體整合方面的應(yīng)用研究較為鮮見[5]。目前,從結(jié)構(gòu)化數(shù)據(jù)中歸納、構(gòu)建本體的研究已經(jīng)較為廣泛[6],從非結(jié)構(gòu)化數(shù)據(jù)中構(gòu)建本體則仍面臨較多挑戰(zhàn)。
利用頂級本體的屬性規(guī)則構(gòu)建領(lǐng)域本體,可望從根本上解決不同領(lǐng)域本體之間的語義異構(gòu),從而促進(jìn)領(lǐng)域本體互聯(lián)互通。本例中選用的UMLS Semantic Network頂級本體,是一體化醫(yī)學(xué)語言系統(tǒng)(UMLS,Unified Medical Language System)的主要組成部分之一。做為一種頂級本體,它通過建立一種基于語義類型和語義關(guān)系共同作用的規(guī)則,對UMLS系統(tǒng)中的海量超級敘詞進(jìn)行標(biāo)引,以實現(xiàn)各個詞表中的詞匯互通,達(dá)到術(shù)語轉(zhuǎn)換的目的。該本體的語義表達(dá)方式主要體現(xiàn)為其本身的語義屬性,頂級本體的語義屬性具有通用性特點,在W3C推薦的網(wǎng)絡(luò)本體語言O(shè)WL中,屬性主要包括對象屬性和數(shù)據(jù)屬性,與領(lǐng)域本體有所不同的是,作為表達(dá)通用知識的語義網(wǎng)絡(luò)并不含有具體實例,也不表達(dá)屬性的具體值,其所表達(dá)的類(即語義類型)之間的關(guān)系僅用對象屬性就能進(jìn)行解釋,因此這里的屬性集主要由對象屬性構(gòu)成,包括五大類48子類共54條,五大類分別是物理相關(guān)(physicallyrelatedto)、空間相關(guān)(spatiallyrelatedto)、功能相關(guān)(functionallyrelatedto)、時間相關(guān)(temporallyrelatedto)和概念相關(guān)(conceptuallyrelatedto)。
21領(lǐng)域知識來源
根據(jù)經(jīng)典的七步法[7],領(lǐng)域本體的建立首先要明確專業(yè)領(lǐng)域和知識范疇,并考慮復(fù)用已知本體,已達(dá)到本體資源優(yōu)化的目的。以本研究涉及的衛(wèi)生監(jiān)督調(diào)查信息為例,其知識主要源自《全國衛(wèi)生監(jiān)督調(diào)查制度》[8]所包含的21種專業(yè)調(diào)查信息卡。該調(diào)查采取信息報告的方式,通過計算機網(wǎng)絡(luò)以及相關(guān)系統(tǒng),建立高效的衛(wèi)生監(jiān)督信息體系,真實、準(zhǔn)確、及時地收集匯總衛(wèi)生監(jiān)督工作信息。
其信息內(nèi)容主要應(yīng)用于3個方面。包括用于評價考核各級衛(wèi)生行政部門和衛(wèi)生監(jiān)督機構(gòu)的衛(wèi)生監(jiān)督業(yè)務(wù)工作情況,以及食品安全企業(yè)標(biāo)準(zhǔn)備案情況;各級衛(wèi)生行政部門科學(xué)合理制定衛(wèi)生監(jiān)督工作計劃和規(guī)劃,按規(guī)定適時向社會和有關(guān)部門通報、反饋衛(wèi)生監(jiān)督統(tǒng)計分析信息;為各級政府制定公共衛(wèi)生政策提供科學(xué)依據(jù)。
22領(lǐng)域知識分析
該調(diào)查信息以信息卡形式實時報送,信息內(nèi)容涵蓋各地公共場所、生活飲用水等8個專業(yè)被監(jiān)督單位的基本信息及衛(wèi)生監(jiān)督執(zhí)法情況,范圍包括建設(shè)項目衛(wèi)生審查信息、經(jīng)常性衛(wèi)生監(jiān)督信息、衛(wèi)生監(jiān)督監(jiān)測信息、被監(jiān)督單位信息、案件查處信息、食品安全企業(yè)標(biāo)準(zhǔn)備案信息等6個方面,主要指標(biāo)涉及到公共場所、生活飲用水等專業(yè)的被監(jiān)督單位基本信息,建設(shè)項目衛(wèi)生審查、經(jīng)常性衛(wèi)生監(jiān)督、衛(wèi)生監(jiān)督監(jiān)測等衛(wèi)生管理情況,以及案件查處情況,食品安全企業(yè)標(biāo)準(zhǔn)備案情況。
“衛(wèi)生監(jiān)督調(diào)查信息”中的概念術(shù)語可依據(jù)21種調(diào)查信息卡分為六大類:第一類涉及建設(shè)項目信息,以1個信息卡作為知識來源;第二類涉及經(jīng)常性衛(wèi)生監(jiān)督信息,以1個信息卡作為知識來源;第三類涉及涉及衛(wèi)生監(jiān)督監(jiān)測信息,以1個信息卡作為知識來源;第四類涉及被監(jiān)督單位信息,以8個信息卡作為知識來源;第五類涉及案件查處信息,以9個信息卡作為知識來源;第六類為食品安全企業(yè)標(biāo)準(zhǔn)備案信息,以1個信息卡作為知識來源。除了各信息卡的專項信息以外,還有一些通用的知識術(shù)語,如表號、制表機關(guān)、批準(zhǔn)機關(guān)、批準(zhǔn)文號及有效期等。對這些專項和通用信息以本體形式表示為一個知識體,才可以以語義的方式整合監(jiān)督調(diào)查信息,并進(jìn)行高級語義應(yīng)用的研究以實現(xiàn)如衛(wèi)生監(jiān)督預(yù)警等智能化的信息資源利用形式。endprint
3領(lǐng)域本體的構(gòu)建
31衛(wèi)生監(jiān)督調(diào)查信息本體的類與屬性構(gòu)建
本體的開發(fā)選用基于W3C推薦規(guī)范OWL 2語言的本體編輯系統(tǒng)Protégé最新版本43,相對于第一代OWL語言,OWL 2在語法的使用上更加簡便,表達(dá)能力進(jìn)一步提升。目前已有一些比較知名的領(lǐng)域本體推出了OWL 2版本[9]。
311類的構(gòu)建
在本體的概念構(gòu)成上,基于不同的任務(wù)驅(qū)動[10],或偏重于描述概念,或偏重于描述過程。本研究的領(lǐng)域知識來源主要是衛(wèi)生監(jiān)督信息,作為領(lǐng)域本體,減少了對通用知識的描述。本例將主要概念分為“衛(wèi)生監(jiān)督信息”、“單位(個人)信息”兩大概念類共243條概念類。其中,“衛(wèi)生監(jiān)督信息”類下包括“衛(wèi)生監(jiān)督信息卡”、“衛(wèi)生監(jiān)督類型”、“專業(yè)類別”3個子類共174條概念類;“單位(個人)信息”類下包括“單位類別”、“單位名稱”、“單位代碼”、“單位法人”、“單位地址”、“建設(shè)項目”、“消毒用品”、“報告情況”8個子類共69條概念。
在本體的內(nèi)容表達(dá)上,概念類的構(gòu)建中嚴(yán)格按照知識來源的分類進(jìn)行命名,但原分類中不同父類可能含有名稱相同的子類,如“公共場所衛(wèi)生”和“單位類別”中均含有相同的地點概念子類,但其所表達(dá)的含義卻不同,這時需要將類名細(xì)化加以區(qū)分,以避免后續(xù)操作沖突。
312屬性的構(gòu)建
本例中引用并適當(dāng)擴展頂級本體UMLS Semantic Network的屬性關(guān)系,做為本領(lǐng)域本體的部分語義關(guān)系解釋方式,主要包括對象屬性、數(shù)據(jù)屬性和注釋屬性。對象屬性根據(jù)概念的關(guān)系需要進(jìn)行設(shè)置,對于新關(guān)系的確立,主要以擴展頂級本體屬性中的上下位屬性的方式進(jìn)行豐富后使用,如“消毒”可以擴展為上位屬性“用于”的子屬性,在對相應(yīng)的定義域和值域做出限制后進(jìn)行匹配。數(shù)據(jù)屬性包括字符型、數(shù)字型、日期型數(shù)據(jù)屬性,如數(shù)據(jù)屬性“有效期至”,其定義域為“衛(wèi)生監(jiān)督信息卡”,值域為日期型數(shù)據(jù)。注釋屬性主要是對本體的類、屬性、實例等的說明,在構(gòu)建命名時添加。
32衛(wèi)生監(jiān)督調(diào)查信息本體的關(guān)系與實例構(gòu)建
321定義互斥類與等價類
OWL 2語言通過類的Disjoint Classes與Equivalent Classes公理表達(dá)類之間的非繼承層次關(guān)系,為本體推理提供依據(jù)。一般來說,同一父類的同級子類間是不相交的,然而這并不是必須的,例如,實例“華天酒店”既屬于“賓館”類,又屬于“飯館”類,因此不適用類的不相交公理。等價類同樣用于聲明類之間的關(guān)系為等價,例如,“簡易程序”類等價于非“一般程序”類。
322對屬性進(jìn)行約束
可逆性約束:為了完善屬性的邏輯表達(dá),為所建立的屬性添加逆屬性,例如為屬性“包含”加入逆屬性“被包含”。此外,對稱性約束用于表達(dá)屬性主體之間的對稱關(guān)系,傳遞性約束可以將屬性的作用域進(jìn)行延伸,全局函數(shù)性約束為領(lǐng)域本體內(nèi)的通用屬性。
323加入限制類并構(gòu)建實例
這一過程是為了將屬性與不同的類進(jìn)行關(guān)聯(lián),通過為類添加對象限制形成的限制類,在內(nèi)涵上等同于提取了該類的特征,例如“職業(yè)(放射)衛(wèi)生技術(shù)機構(gòu)監(jiān)督案件查處信息卡”應(yīng)具有“報告人”和“違法事實”等信息,并且該“違法事實”發(fā)生于某個“職業(yè)(放射)衛(wèi)生技術(shù)機構(gòu)”的特征。在初次限制類后,可利用逆屬性將限制類補充完整。在概念類完成構(gòu)建后,即可對其添加個體實例,本研究涉及的實例以各類衛(wèi)生被監(jiān)督單位為主,最后對實例進(jìn)行屬性關(guān)系的描述,如圖1所示。圖1“單位名稱”類所屬實例描述示意
324一致性檢驗與存儲
經(jīng)過上述步驟,“衛(wèi)生監(jiān)督調(diào)查信息”本體的內(nèi)容已經(jīng)基本構(gòu)建完成。最后,需要使用推理機對本體進(jìn)行一致性檢驗,這是由于本體構(gòu)建過程中可能會出現(xiàn)關(guān)系沖突等情況,同時還可能存在一些潛在的實體關(guān)系尚待發(fā)現(xiàn)。本例使用Protégé 43集成的HermiT推理機進(jìn)行推理,并未發(fā)現(xiàn)本體中存在語義沖突,但一些概念類所屬實例的繼承被推算出來,經(jīng)過確認(rèn),這些推理結(jié)果予以采納。圖2顯示了最終完成的本體。圖2“衛(wèi)生監(jiān)督調(diào)查信息”本體
最后,需要將本體以RDF/XML語法存儲,這是惟一一種可以被所有OWL 2工具所支持的語法形式[11],便于對現(xiàn)有本體進(jìn)行調(diào)整和重用,其本體片段見圖3。圖3“衛(wèi)生監(jiān)督調(diào)查信息”本體RDF/XML語法片斷
4結(jié)論及展望
通過本體編輯系統(tǒng)Protégé 43構(gòu)建了衛(wèi)生監(jiān)督調(diào)查信息知識的OWL 2語言本體,詳細(xì)闡述了基于頂級本體語義表達(dá)的領(lǐng)域本體構(gòu)建過程,為領(lǐng)域信息資源整合打下良好基礎(chǔ)。研究過程中出現(xiàn)的知識術(shù)語來源可靠;本體內(nèi)容的表達(dá)依據(jù)專業(yè)領(lǐng)域的術(shù)語知識,RDF/XML的存儲便于本體在不同環(huán)境下應(yīng)用于不同目的,從而促進(jìn)領(lǐng)域信息資源的有效整合,推進(jìn)知識發(fā)現(xiàn)進(jìn)程。
研究過程中還發(fā)現(xiàn)了一些問題,例如:(1)對于知識源內(nèi)容中的非結(jié)構(gòu)化文本信息,如果數(shù)據(jù)量龐大,則需要進(jìn)一步的NLP技術(shù)對自然語言進(jìn)行預(yù)處理,以便于本體元素的抽取。(2)一個語義精確的領(lǐng)域本體仍然需知識工程師與領(lǐng)域?qū)<彝瑫r參與構(gòu)建,如果本體規(guī)模較大,那么人力成本將大大增加。(3)Protégé系統(tǒng)仍然存在不足,如某些可視化插件不支持中文字符編碼(如OWL Viz),導(dǎo)致中文本體無法圖形化顯示;某些推理機尚無法對數(shù)據(jù)型屬性進(jìn)行有效推理(如Protégé 43內(nèi)建的FaCT++)。此外,“衛(wèi)生監(jiān)督調(diào)查信息”本體還需要進(jìn)行大量的深入研究以應(yīng)用于信息資源內(nèi)容的語義整合。如多本體的映射匹配問題,以及用于知識發(fā)現(xiàn)的語義標(biāo)注應(yīng)用研究等。
參考文獻(xiàn)
[1]徐靜,孫坦,黃飛燕.近兩年國外本體應(yīng)用研究進(jìn)展[J].圖書館建設(shè),2008,(8):84-90.
[2]李曉鵬,顏端武,蔡金霞,等.利用本體資源標(biāo)注實現(xiàn)站內(nèi)檢索語境導(dǎo)航[J].現(xiàn)代圖書情報技術(shù),2013,(3):8-13.endprint
[3]Suggested Upper Merged Ontology(SUMO)[EB/OL].http:∥www.ontology portal.org/,2013-03-08.
[4]OpenCyc for the Semantic[EB/OL].http:∥sw.opencyc.org/,2013-03-08.
[5]米楊,曹錦丹.頂級本體統(tǒng)控的多本體語義標(biāo)注實證研究[J].現(xiàn)代圖書情報技術(shù),2012,(9):36-41.
[6]車成逸,馬宗民,焦曉龍.基于結(jié)構(gòu)化信息源的本體構(gòu)建方法綜述[J].計算機應(yīng)用研究,2012,(7):2406-2410.
[7]Noy N F,McGuinnes D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report,2001.
[8]《全國衛(wèi)生監(jiān)督調(diào)查制度(2012版)》相關(guān)內(nèi)容[EB/OL].http:∥www.gdwsjd.gov.cn/xzq/t2012102915281.htm,2013-12-05.
[9]Golbreich C,Grosjean J,Darmoni S J.The FMA in OWL 2[C]∥Proceedings of 13th Conference on Artificial Intelligence in Medicine(AIME 2011),Bled,Slovenia,2011:204-214.
[10]The Open Biological and Biomedical Ontologies[EB/OL].http:∥www.Obofoun-dry.org/,2012-09-08.
[11]OWL Web Ontology Language Parsing OWL in RDF/XML[EB/OL].http:∥www.w3.org/TR/owl-parsing/,2013-12-25.
(本文責(zé)任編輯:孫國雷)endprint
[3]Suggested Upper Merged Ontology(SUMO)[EB/OL].http:∥www.ontology portal.org/,2013-03-08.
[4]OpenCyc for the Semantic[EB/OL].http:∥sw.opencyc.org/,2013-03-08.
[5]米楊,曹錦丹.頂級本體統(tǒng)控的多本體語義標(biāo)注實證研究[J].現(xiàn)代圖書情報技術(shù),2012,(9):36-41.
[6]車成逸,馬宗民,焦曉龍.基于結(jié)構(gòu)化信息源的本體構(gòu)建方法綜述[J].計算機應(yīng)用研究,2012,(7):2406-2410.
[7]Noy N F,McGuinnes D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report,2001.
[8]《全國衛(wèi)生監(jiān)督調(diào)查制度(2012版)》相關(guān)內(nèi)容[EB/OL].http:∥www.gdwsjd.gov.cn/xzq/t2012102915281.htm,2013-12-05.
[9]Golbreich C,Grosjean J,Darmoni S J.The FMA in OWL 2[C]∥Proceedings of 13th Conference on Artificial Intelligence in Medicine(AIME 2011),Bled,Slovenia,2011:204-214.
[10]The Open Biological and Biomedical Ontologies[EB/OL].http:∥www.Obofoun-dry.org/,2012-09-08.
[11]OWL Web Ontology Language Parsing OWL in RDF/XML[EB/OL].http:∥www.w3.org/TR/owl-parsing/,2013-12-25.
(本文責(zé)任編輯:孫國雷)endprint
[3]Suggested Upper Merged Ontology(SUMO)[EB/OL].http:∥www.ontology portal.org/,2013-03-08.
[4]OpenCyc for the Semantic[EB/OL].http:∥sw.opencyc.org/,2013-03-08.
[5]米楊,曹錦丹.頂級本體統(tǒng)控的多本體語義標(biāo)注實證研究[J].現(xiàn)代圖書情報技術(shù),2012,(9):36-41.
[6]車成逸,馬宗民,焦曉龍.基于結(jié)構(gòu)化信息源的本體構(gòu)建方法綜述[J].計算機應(yīng)用研究,2012,(7):2406-2410.
[7]Noy N F,McGuinnes D L.Ontology Development 101:A Guide to Creating Your First Ontology[R].Stanford Knowledge Systems Laboratory Technical Report KSL-01-05 and Stanford Medical Informatics Technical Report,2001.
[8]《全國衛(wèi)生監(jiān)督調(diào)查制度(2012版)》相關(guān)內(nèi)容[EB/OL].http:∥www.gdwsjd.gov.cn/xzq/t2012102915281.htm,2013-12-05.
[9]Golbreich C,Grosjean J,Darmoni S J.The FMA in OWL 2[C]∥Proceedings of 13th Conference on Artificial Intelligence in Medicine(AIME 2011),Bled,Slovenia,2011:204-214.
[10]The Open Biological and Biomedical Ontologies[EB/OL].http:∥www.Obofoun-dry.org/,2012-09-08.
[11]OWL Web Ontology Language Parsing OWL in RDF/XML[EB/OL].http:∥www.w3.org/TR/owl-parsing/,2013-12-25.
(本文責(zé)任編輯:孫國雷)endprint