劉菊紅 于建榮 繆有剛
〔摘 要〕分析了利用專業(yè)詞表和共現(xiàn)分析方法相結(jié)合半自動構(gòu)造領(lǐng)域本體構(gòu)建的方法。利用專業(yè)詞表抽取概念和等級關(guān)系,利用共現(xiàn)分析方法抽取非等級關(guān)系。
〔關(guān)鍵詞〕本體;半自動構(gòu)建;Mesh;共現(xiàn)分析
〔中圖分類號〕G254.24 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)03-0208-04
本體是用來描述某個領(lǐng)域甚至更廣范圍內(nèi)的概念以及概念之間的聯(lián)系,使得這些概念和聯(lián)系在共享的范圍內(nèi)有著明確惟一的定義,達成一種共識,這樣人機就可以進行交流。N.Guarino提出將本體劃分為頂級本體(top—level ontology)、領(lǐng)域本體(domain ontology)、任務(wù)本體(task ontology)和應(yīng)用本體(application ontology)。
1 領(lǐng)域本體概述
1.1 領(lǐng)域本體的概念、特征及其發(fā)展態(tài)勢
領(lǐng)域本體是用于描述指定領(lǐng)域知識的一種專門本體。它給出了領(lǐng)域?qū)嶓w概念及相互關(guān)系、領(lǐng)域話動以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述。目前,領(lǐng)域本體模型的研究已經(jīng)進入實際應(yīng)用階段,許多研究領(lǐng)域都建立了自己標準的本體[1]。領(lǐng)域本體的發(fā)展非常迅速,不僅得到了廣泛的應(yīng)用,在實際應(yīng)用中也取得了積極的作用。國外文獻中涉及的領(lǐng)域本體,包括化學(xué)領(lǐng)域、生物醫(yī)學(xué)領(lǐng)域、地理學(xué)領(lǐng)域和其他領(lǐng)域。領(lǐng)域本體的應(yīng)用展現(xiàn)出涉及學(xué)科領(lǐng)域廣、更加專業(yè)化、針對性更強、涉及多個學(xué)科的領(lǐng)域本體增多等特點[2]。
對數(shù)字圖書館而言,領(lǐng)域本體在數(shù)字圖書館對其知識進行語義層面的組織中扮演著至關(guān)重要的角色,領(lǐng)域本體的構(gòu)建是語義網(wǎng)絡(luò)環(huán)境下數(shù)字圖書館知識組織不可或缺的關(guān)鍵步驟。
1.2 領(lǐng)域本體的構(gòu)建
目前本體構(gòu)建主要有手工構(gòu)建、復(fù)用已有本體以及自動構(gòu)建本體3種方法。手工構(gòu)建領(lǐng)域本體費時費力、花費巨大,且由于手工構(gòu)建本體尚缺少一套工程化的科學(xué)管理流程作為支撐,使得本體的構(gòu)建主觀性太強,可行性和實用性都受到質(zhì)疑。自動構(gòu)建本體目前還處于研究階段,利用機器學(xué)習(xí)會產(chǎn)生大量的噪音數(shù)據(jù),缺乏必要的語義邏輯基礎(chǔ),抽取的概念關(guān)系松散且可信度無法得到很好的保障。盡管機器學(xué)習(xí)應(yīng)用于本體自動構(gòu)建有巨大的潛力,但是距離良好的可理解性尚有很大的距離。半自動構(gòu)建本體是較為理想的模式,其關(guān)鍵技術(shù)在于領(lǐng)域概念的獲取和領(lǐng)域概念之間關(guān)系的獲取[3]。
1.2.1 領(lǐng)域本體構(gòu)建的主要方法
目前主要的領(lǐng)域本體構(gòu)建方法有TOVE法、METHONTOLOGY法、骨架法、KACTUS工程法、SENSUS法、IDEF5法和斯坦福大學(xué)醫(yī)學(xué)院開發(fā)的七步法。TOVE法專用于構(gòu)建TOVE本體,由多倫多大學(xué)企業(yè)集成實驗室研制;METHONTOLOGY法專用于構(gòu)建化學(xué)本體(有關(guān)化學(xué)元素周期表的本體);骨架法專門用來構(gòu)建企業(yè)本體;KACTUS工程法的目的是要解決技術(shù)系統(tǒng)生命周期過程中的知識復(fù)用問題;SENSUS是開發(fā)用于自然語言處理的SENSUS語言本體的方法路線。IDEF5法開發(fā)用于描述和獲取企業(yè)本體的方法;斯坦福大學(xué)醫(yī)學(xué)院開發(fā)的七步法,主要用于領(lǐng)域本體的構(gòu)建。目前大多數(shù)領(lǐng)域本體的構(gòu)建都采用了七步法。
1.2.2 領(lǐng)域本體構(gòu)建的流程
根據(jù)現(xiàn)有的本體構(gòu)建方法進行總結(jié),本體構(gòu)建的一般流程如下:(1)明確研究對象和范疇;(2)對該領(lǐng)域的現(xiàn)有本體進行調(diào)查和研究,借鑒已有的研究成果;(3)提取核心概念;(4)對概念詞進行分類和合并,定義類和類的語義關(guān)系,主要包括等級關(guān)系和非等級關(guān)系;(5)定義函數(shù)和公理;(6)創(chuàng)建實例;(7)構(gòu)建知識庫。
1.3 領(lǐng)域本體構(gòu)建的關(guān)鍵技術(shù)
領(lǐng)域本體構(gòu)建的關(guān)鍵技術(shù)包括領(lǐng)域概念的獲取和領(lǐng)域概念之間關(guān)系的獲取。領(lǐng)域本體領(lǐng)域概念獲取主要有以下兩個途徑:①專業(yè)詞典;②利用自然語言處理技術(shù),直接從全文或者文摘、關(guān)鍵詞字段中抽詞。領(lǐng)域概念之間的關(guān)系主要分為等級關(guān)系和相關(guān)關(guān)系。等級關(guān)系獲取的方法主要有:①專業(yè)詞典;②聚類算法;③字面成族;④模式匹配。相關(guān)關(guān)系獲取的主要算法有:①共現(xiàn)統(tǒng)計算法;②關(guān)聯(lián)規(guī)則算法;③隱含語義索引;④Hopfield聯(lián)想算法等[3]。
2 疾病本體的構(gòu)建
生物學(xué)領(lǐng)域涉及比較廣,與醫(yī)學(xué)、化學(xué)等多個學(xué)科多有交叉,相關(guān)本體也多是與其他學(xué)科相結(jié)合,其應(yīng)用也比較成熟、廣泛。近年來在生物醫(yī)學(xué)領(lǐng)域出現(xiàn)的領(lǐng)域本體有:(1)SGDS(Similar genes discovery system),相似基因發(fā)現(xiàn)系統(tǒng);(2)GOHSE系統(tǒng),是一個支持瀏覽生物資源的應(yīng)用程序;(3)FMA(the Foundational Model of Anatomy)是一個生物醫(yī)學(xué)信息學(xué)方面的參考本體。(4)OBO(Open Biomedical Ontologies),開放生物醫(yī)學(xué)本體[3]。
重大疾病通常具有以下2個基本特征:一是“病情嚴重”,會在較長一段時間內(nèi)嚴重影響到患者及其家庭的正常工作與生活;二是“治療花費巨大”,此類疾病需要進行較為復(fù)雜的藥物或手術(shù)治療,需要支付昂貴的醫(yī)療費用。衛(wèi)生部2006年統(tǒng)計報告指出,重大疾病導(dǎo)致的全國人口死亡總數(shù)占死亡總數(shù)的90.4%。因此,探討重大疾病本體構(gòu)建的方法具有重大意義。
2.1 疾病本體的頂層構(gòu)建
由于疾病具有相同的特征,如都可以從表型、病因?qū)W、治療手段等角度進行描述。因此,對疾病的特征進行分析,探討構(gòu)建本體的方法是可行的。澳大利亞科庭大學(xué)Maja Hadzi等人對疾病本體展開了深入的研究,在第38屆國際系統(tǒng)科學(xué)會議上,展示了在疾病本體研究領(lǐng)域的研究成果,構(gòu)建了疾病本體的頂層框架,認為疾病本體可以從疾病類型、表型、病因?qū)W、治療手段4個主要的維度進行描述(見圖1)[4]。人類基因組計劃后,人類對基因的認識突飛猛進,對現(xiàn)有生物醫(yī)學(xué)相關(guān)數(shù)據(jù)庫的調(diào)查發(fā)現(xiàn),大部分數(shù)據(jù)庫僅限于基因組學(xué)等分子生物學(xué)領(lǐng)域。從基因的角度認識基因與疾病的關(guān)系尤其具有重要的意義。
2.2 疾病本體概念的獲取
由Medline數(shù)據(jù)庫收錄的生物醫(yī)學(xué)文獻,都由標引人員賦予了12個左右的MeSH主題詞來表達該文獻的主要內(nèi)容。正是由于MeSH主題詞的存在,才保證了PUBMED海量生物醫(yī)學(xué)文獻的有效檢索?!夺t(yī)學(xué)主題詞表》(Medical Subject Headings,簡稱MeSH),由美國國立醫(yī)學(xué)圖書館(NLM)編輯出版。MeSH詞表的以下特點,使MeSH詞表滿足為疾病本體構(gòu)建提供概念的要求。
(1)詞表主題詞是在醫(yī)學(xué)文獻標引的基礎(chǔ)上編制的,并盡可能吸收反映專業(yè)文獻領(lǐng)域新出現(xiàn)的專業(yè)術(shù)語符合醫(yī)學(xué)文獻標引的需要。目前,MeSH已收入敘詞24 767個,入口詞97 000個[5]。
(2)樹形結(jié)構(gòu)表劃分級別深,列類詳盡,遠超過一般敘詞表的范疇索引,有助于從分類的角度對敘詞表進行查找和使用。
(3)使用范圍廣:MeSH是國外生物醫(yī)學(xué)領(lǐng)域使用最廣泛的專業(yè)詞表,NLM利用MeSH敘詞表來標引MEDLINE數(shù)據(jù)庫和pubMED數(shù)據(jù)庫中的4 800種世界頂級生物醫(yī)學(xué)期刊的文章。
(4)更新速度快:MeSH詞表1960年出版,從1962年起每年更新1次,網(wǎng)絡(luò)版每周更新,使詞表 能收錄最新的詞匯,避免了辭典通常不能及時收錄新詞的缺陷。
2.3 等級關(guān)系的獲取
MeSH詞表從學(xué)科分類角度組織敘詞。樹形結(jié)構(gòu)表從學(xué)科分類的角度,按MeSH收錄的主題詞的學(xué)科屬性分類編排而成,故又稱范疇表。它通過展示主題詞在學(xué)科體系中的邏輯關(guān)系,縱向反映主題詞之間的概念等級關(guān)系。樹形結(jié)構(gòu)表將MeSH所有的主題詞分為17大類(見表1)[6]。
在各大類下,再根據(jù)情況劃分若干基本類目,按照需要按概念的等級關(guān)系逐漸展開子類,最多可達9級,用逐級縮格的方式來表達它們的邏輯隸屬關(guān)系,同一級的主題詞按字順排列,每一個詞給一個樹形結(jié)構(gòu)號。下面為胰島抵抗樹形結(jié)構(gòu)表的編排格式(見圖2):[6]
第1級Diseases疾病C
第2級 Nutritional and Metabolic Diseases營養(yǎng)和代謝疾病C18
第3級 Metabolic Diseases代謝疾病C18.452
第4級 Glucose Metabolism Disorders葡萄糖代謝紊亂C18.452.394
第5級Hyperinsulinism胰島功能亢進 C18.452.394.968
第6級 Insulin Resistance胰島素抵抗 C18.452.394.968.500
圖2 胰島抵抗樹狀結(jié)構(gòu)片段
被Mesh詞表收錄的每一個概念詞,都存在于樹狀分類結(jié)構(gòu)之中。因此,可以利用Mesh詞表的范疇表,提取糖尿病本體概念的等級關(guān)系。
2.4 非等級關(guān)系的獲取
目前,非等級關(guān)系的提取主要依賴于人工提取,通過領(lǐng)域?qū)<业拈喿x來建立概念間的非等級關(guān)系,手工構(gòu)建領(lǐng)域本體不僅費時費力、花費巨大,且其隨意性大,可用性受到質(zhì)疑,并且依賴于領(lǐng)域?qū)<业膮⑴c。
2.4.1 共詞分析的相關(guān)理論
共詞分析是共現(xiàn)分析當中的一種,具體指通過分析在同一個文本主體中的款目對(單詞或名詞短語對)共同出現(xiàn)的形式,以發(fā)現(xiàn)科學(xué)領(lǐng)域的學(xué)科結(jié)構(gòu)的定量分析方法[11]。在自然語言中,所有的概念之間都是直接或者間接相關(guān)的。對于全部概念,同一領(lǐng)域內(nèi)概念之間的聯(lián)系要比不同領(lǐng)域間概念的聯(lián)系程度更密切。在這里用概念之間的距離表示概念之間關(guān)系的緊密程度,兩個概念越相關(guān),那么這兩個概念的距離就越短,這種聯(lián)系的直接表現(xiàn)就是概念在文本中的共現(xiàn),在一篇文章中,一個主題內(nèi)容會出現(xiàn)多個概念,而這些概念就是要提取的[7]。
2.4.2 相關(guān)研究
Ying Ding在12屆國際數(shù)據(jù)庫和專家系統(tǒng)應(yīng)用會議上提出可利用共現(xiàn)理論來構(gòu)建本體[8]。Takeshi Morita,Yoshihiro Shigeta,Ying Ding等正在開發(fā)的DODDLE-OWL本體構(gòu)建項目綜合利用了共現(xiàn)分析方法和現(xiàn)有詞表或本體中的分類學(xué)知識為特定知識系統(tǒng)構(gòu)建本體。DODDLE-OWL項目利用已有本體中的類別信息構(gòu)建本體中的基礎(chǔ)類別關(guān)系。同時,通過從該領(lǐng)域文本集中抽取的相關(guān)概念進行共現(xiàn)分析以確定概念之間的非分類關(guān)系;Ying Ding在構(gòu)建IR和AI本體時,首先利用共現(xiàn)分析獲得具有語義關(guān)系的關(guān)鍵詞對,隨后利用現(xiàn)有的領(lǐng)域詞表提供的BT/NT關(guān)系豐富詞匯間的層次關(guān)系[8-9]。張學(xué)福利用詞共現(xiàn)進行了可視化的概念空間研究[10]。王曰芬等提出共現(xiàn)分析可用于構(gòu)建本體[11]。
2.4.3 共詞分析的基本流程
按照共現(xiàn)分析的方法論基礎(chǔ)和研究的目的,本文針對疾病本體的構(gòu)建,設(shè)計了如下共現(xiàn)分析流程:
(1)概念詞抽取:從題名、文摘、關(guān)鍵詞字段,提取出被MeSH詞表收錄的概念詞。從概念出現(xiàn)頻次及出現(xiàn)位置兩個角度進行加權(quán)計算,設(shè)置閾值,選擇部分與研究領(lǐng)域最相關(guān)的概念詞。
(2)概念間關(guān)系的提取:從概念對之間的共現(xiàn)頻率、共現(xiàn)時相隔的詞間距離等角度進行加權(quán)計算,選擇部分語義關(guān)聯(lián)概率最大的詞對。
(3)構(gòu)造共詞矩陣:根據(jù)第二步提取出來的詞匯對,構(gòu)造共詞矩陣。
(4)概念關(guān)聯(lián)度分析:分析兩個詞匯(或概念)間的關(guān)聯(lián)度的主要測度方法有Dice指數(shù)、余弦指數(shù)、Jaccard指數(shù)和H.Chen提出的共現(xiàn)算法等[11],選擇合算法進行概念關(guān)聯(lián)度分析。
(5)算法改良:分析概念間語義關(guān)系的提出質(zhì)量,對算法進行改進。
3 總 結(jié)
利用詞表和共現(xiàn)分析方法構(gòu)建本體,已有相關(guān)的理論探討和研究。本文認為,在生物醫(yī)學(xué)領(lǐng)域,可以將這2種方法相結(jié)合,實現(xiàn)本體的半自動構(gòu)建。這相比手工構(gòu)建本體而言,節(jié)省了從量的時間跟人力。如何利用共現(xiàn)分析方法,提高語義關(guān)系獲取的質(zhì)量和效率,還有待在實踐中進一步改進。
參考文獻
[1]王梅.owl領(lǐng)域本體構(gòu)建方法研究[J].圖書情報工作,2004,12(22):12-33.
[2]余倩.近年來領(lǐng)域本體的應(yīng)用新進展[J].圖書館建設(shè),2008,(8):95-99.
[3]何琳,杜慧平,侯漢清.領(lǐng)域本體的半自動構(gòu)建方法研究[J].圖書館理論與實踐,2007,(5):26-27,38.
[4]Maja Hadzic,Elizabeth Chang.Ontology-based Support for Human Disease Study.Proceedings of the 38th Hawaii International Conference on System Sciences.2005,143a.
[5]http:∥www.nlm.nih.gov/pubs/factsheets/mesh.html[EB].2008-09-06.
[6]http:∥www.nlm.nih.gov/cgi/mesh/2008/MBzcgi[EB].2008-09-07.
[7]耿騫,耿崇.利用詞語共現(xiàn)進行Ontology的概念獲取[J].現(xiàn)代圖書情報技術(shù),2006,(2):43-49.
[8]Ying Ding IR and AI:Using Co-occurrence Theory to Generate Lightweight Ontologies 12th International Workshop on Database and Expert Systems Applications.0961.
[9]TakeshiMorita,Yoshihiro Shigeta,et al.DODDLE-OWL:On-the-fly Ontology Construction with Ontology Quality Management[EB].http:∥iswc2004.semanticweb.org/posters/PID-JURPMVUS-1090083983.pdf,2008-09-07.
[10]張學(xué)福.基于詞共現(xiàn)的可視化概念空間研究[J].情報學(xué)報,2008,(27):2,205-211.
[11]王曰芬,宋爽,苗露.共現(xiàn)分析在知識服務(wù)中的應(yīng)用研究[J].現(xiàn)代圖書情報技術(shù),2006,(4).29-34.