領(lǐng)域本體的構(gòu)建方法是當(dāng)前本體研究的熱點問題之一。已被廣泛應(yīng)用于知識工程、自然語言處理、系統(tǒng)建模、信息處理、信息檢索和語義Web、軟件復(fù)用等領(lǐng)域之中 。但是,目前的領(lǐng)域本體的創(chuàng)建還缺乏系統(tǒng)的、針對所有領(lǐng)域的、工程化的方法。本文介紹一種基于主動學(xué)習(xí)的傳統(tǒng)中醫(yī)癥狀本體的文本知識自動獲取方法的設(shè)計和實現(xiàn)。通過引入領(lǐng)域本體,實現(xiàn)半結(jié)構(gòu)化文本知識的完全自動獲取。該方法具有較好的通用性,把人們從繁重的手工勞動中解放出來,并能極大地提高中醫(yī)知識獲取的效率和應(yīng)用價值。
【關(guān)鍵詞】領(lǐng)域本體 中醫(yī)癥狀名 語義標(biāo)注 主動學(xué)習(xí)
本體(Ontology)是近年來計算機(jī)及相關(guān)領(lǐng)域普遍關(guān)注的一個研究熱點,本體可以促進(jìn)各種領(lǐng)域之間的交流,這種交流實現(xiàn)了給定領(lǐng)域中不同知識的重用和共享。作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具,已被廣泛應(yīng)用于知識工程、系統(tǒng)建模、信息處理、數(shù)字圖書館、自然語言理解、語義 Web 等領(lǐng)域之中。“傳統(tǒng)中醫(yī)”領(lǐng)域知識主要來源于古中醫(yī)文獻(xiàn)、臨床記錄、老中醫(yī)經(jīng)驗手稿等。這些知識的主要載體常常是非結(jié)構(gòu)或半結(jié)構(gòu)的數(shù)據(jù)。中醫(yī)診斷是通過對癥狀的總體觀察和分析得到結(jié)果。由此可知中醫(yī)古籍文獻(xiàn)中癥狀名識別問題十分重要。
如何讓計算機(jī)對自由文本中癥狀名自動分析獲取知識,進(jìn)行病癥診斷是知識工程領(lǐng)域需要解決的難題。知識服務(wù)離不開大型知識庫的支持。僅僅依靠繁重的手工勞動來建設(shè)大型知識庫,必將嚴(yán)重影響知識服務(wù)的能力和質(zhì)量。因此,目前當(dāng)務(wù)之急是尋求一種通用的自動的文本知識獲取方法。傳統(tǒng)的文本知識獲取方法主要有兩種:一種是采用通用的算法處理自然語言文本,從文本中抽取概念以及概念之間的關(guān)系 。這種方法知識獲取量大,但所獲取的知識類型較單一,知識的表示形式也相對簡單。另一種方法是通過與知識工程師進(jìn)行交互,使用一些知識獲取平臺或管理環(huán)境,實現(xiàn)知識的獲取。這種方法不僅手工工作量大,而且通用性也較差。鑒于現(xiàn)有文本知識獲取方法的缺陷,本文提出一種從古籍文本的表征及內(nèi)容特征出發(fā),抽取實義詞,為實現(xiàn)中醫(yī)文獻(xiàn)標(biāo)引和檢索從單漢字層次向詞、概念層次的過渡?;谥鲃訉W(xué)習(xí)的方法進(jìn)行文本標(biāo)注,再進(jìn)行自動領(lǐng)域本體構(gòu)建。
本文第1、2章介紹本體以及領(lǐng)域本體發(fā)展;第3章介紹傳統(tǒng)中醫(yī)癥狀本體的研究背景與意義;第4章介紹基于主動學(xué)習(xí)的傳統(tǒng)中醫(yī)癥狀本體構(gòu)建方法可行性分析及結(jié)果和性能評價;第5章總結(jié)全文。
1 研究的范疇和發(fā)展現(xiàn)狀
1.1 本體的概述
本體最早是一個源于哲學(xué)的概念,是一種對“存在”的系統(tǒng)化解釋,用于描述事務(wù)的本質(zhì)。后來知識工程學(xué)者借用了這個概念,在開發(fā)知識系統(tǒng)時用于領(lǐng)域知識的獲取 。近年來,本體的概念被越來越多的應(yīng)用于計算機(jī)知識工程領(lǐng)域,用于對客觀世界的存在進(jìn)行系統(tǒng)化描述,方便知識的重用和交互。 本體是用于描述一個領(lǐng)域的術(shù)語集合,其組織結(jié)構(gòu)是層次結(jié)構(gòu)化的,可以作為一個知識庫的骨架和基礎(chǔ)。
1.2 本體的分類
目前關(guān)于本體的研究非常廣泛,尤其是在國外,許多研究組織和機(jī)構(gòu)都研究建立了各種各具特色的本體。針對目前出現(xiàn)的各種各樣的本體,也出現(xiàn)了不同的分類方法,最為廣泛的分類方法是根據(jù)本體應(yīng)用主題,將這些為數(shù)眾多的本體劃分為五種類型:領(lǐng)域本體、通用或常識本體、知識本體、語言學(xué)本體和任務(wù)本體。
領(lǐng)域本體主要有以下作用: 可以明確專業(yè)術(shù)語、關(guān)系及其領(lǐng)域公理, 使其形式化;在人與人之間、人與機(jī)器之間達(dá)到共享;實現(xiàn)一定程度的領(lǐng)域知識復(fù)用。此外,Guarin也提出以詳細(xì)程度和領(lǐng)域依賴度兩個方面對本體進(jìn)行劃分。其中,根據(jù)本體對領(lǐng)域的依賴程度由高到低可分為四個類別:頂級本體(top-level Ontologies)、領(lǐng)域本體(domain Ontologies)、任務(wù)本體(task Ontologies)和應(yīng)用本體(application Ontologies)。
1.3 本體的應(yīng)用領(lǐng)域
目前,本體已經(jīng)被廣泛應(yīng)用于知識工程、自然語言處理、數(shù)字圖書館、信息檢索和Web異構(gòu)信息的處理、軟件復(fù)用、面向?qū)ο蠹夹g(shù)和語義Web等領(lǐng)域 。典型的應(yīng)用有:
(1)基于語義的信息檢索,特別是網(wǎng)絡(luò)搜索引擎和數(shù)字化圖書館。
(2)基于本體的數(shù)據(jù)集成、機(jī)器學(xué)習(xí)等。
(3)領(lǐng)域本體的應(yīng)用。
(4)語義Web服務(wù)。
(5)在線元數(shù)據(jù)管理和自動信息發(fā)布。
1.4 本體研究的現(xiàn)狀
對本體的研究和應(yīng)用近年來發(fā)展很快。在1998年6月,第一屆“信息系統(tǒng)中的形式化本體論國際會議”的召開標(biāo)志著這一領(lǐng)域在逐漸走向成熟 。從國外的研究情況來看,20世紀(jì)80年代末至90年代初,哲學(xué)領(lǐng)域的概念“Ontology”被AI領(lǐng)域所借鑒,本體的建模方法也初步確立,本體論把知識工程中的知識向更深入的方向推進(jìn)。近年來,國外對本體建模作了大量研究并將其運(yùn)用于知識工程領(lǐng)域。主要代表為:
(1)萬維網(wǎng)聯(lián)盟W3C(World Wide Web Consortium)的研究;
(2)德國卡爾斯魯厄大學(xué)的Rudi Studer,Alexander Maeche和以他們?yōu)槭椎腁IFB研究所從事的創(chuàng)建基于本體的知識門戶和語義門戶研究;
(3)美國斯坦福大學(xué)的知識系統(tǒng)實驗室(KSL)對本體建模工具和本體應(yīng)用層面的研究。
與國外相比,國內(nèi)無論是在理論研究、實證研究還是在技術(shù)手段的實現(xiàn)和應(yīng)用方面都相對落后,與國外高水平的研究相比存在很大差距。國內(nèi)對于本體的研究大約始于20世紀(jì)90年代初。 目前,國內(nèi)進(jìn)行本體研究的主要有三支科研力量。一是中國科學(xué)院計算所、數(shù)學(xué)所、自動化所的若干實驗室,代表人物是陸汝鈴院士、金芝博士、武成崗、曹存根等人 。二是哈爾濱工業(yè)大學(xué)計算機(jī)系,代表人物是王念濱博士。三是浙江大學(xué)人工智能研究所,代表人物是博士生導(dǎo)師高濟(jì)教授。
2 中醫(yī)領(lǐng)域本體的構(gòu)建研究
領(lǐng)域本體(Domain ontology) 是用于描述指定領(lǐng)域知識的一種專門本體,它給出了領(lǐng)域?qū)嶓w概念及相互關(guān)系領(lǐng)域活動以及該領(lǐng)域所具有的特性和規(guī)律的一種形式化描述 。目前本體構(gòu)建主要有手工構(gòu)建、復(fù)用已有本體(半自動構(gòu)建)以及自動構(gòu)建本體三種方法。本節(jié)主要介紹中醫(yī)本體自動構(gòu)建的方法,并歸納出構(gòu)建領(lǐng)域本體的一般步驟。
2.1 領(lǐng)域本體構(gòu)建遵循的原則
目前己有的本體很多,出于對各自問題域和具體工程的考慮,構(gòu)造本體的過程也是各不相同的。由于沒有一個標(biāo)準(zhǔn)的本體構(gòu)造方法,不少研究人員出于指導(dǎo)人們構(gòu)造本體的目的,從實踐出發(fā),提出了不少有益于構(gòu)造本體的標(biāo)準(zhǔn)。通過分析總結(jié),本體的設(shè)計原則可以概括如下:
(1)明確性和客觀性:即本體應(yīng)該用自然語言對所定義術(shù)語給出明確的、客觀的語義定義。
(2)完全性:即所給出的定義是完整的,完全能表達(dá)所描述術(shù)語的含義。
(3) 一致性:即由術(shù)語得出的推論與術(shù)語本身含義是相容的,不會產(chǎn)生矛盾。
(4) 最大單調(diào)可擴(kuò)展性:即向本體中添加通用或?qū)S玫男g(shù)語時,不需要修改其己有的內(nèi)容。
(5)最小承諾:即對待建模對象給出盡可能少的約束。
(6)最小編碼偏差:本體的建立應(yīng)盡可能獨立于具體的編碼語言。
(7)兄弟概念間的語義差別應(yīng)盡可能小。
(8) 使用多樣的概念層次結(jié)構(gòu)實現(xiàn)多繼承機(jī)制。
(9)盡可能使用標(biāo)準(zhǔn)化的術(shù)語名稱。
2.2 構(gòu)建中醫(yī)領(lǐng)域本體的步驟
本體的開發(fā)和完善是一個反反復(fù)復(fù)不斷補(bǔ)充的迭代過程。領(lǐng)域本體中的概念應(yīng)該貼近于要研究的專業(yè)領(lǐng)域中的客觀實體和關(guān)系法則。綜合上節(jié)幾種本體構(gòu)建的工程思想,歸納并總結(jié)出構(gòu)建領(lǐng)域本體的幾個步驟:
(1)確定領(lǐng)域本體的專業(yè)領(lǐng)域和范疇;
(2)考慮復(fù)用現(xiàn)有的本體;
(3)列出本體涉及領(lǐng)域中的重要術(shù)語;
(4)定義分類概念和概念分類層次;
(5)定義概念之間的關(guān)系。
3 傳統(tǒng)中醫(yī)癥狀本體的研究背景與意義
3.1 傳統(tǒng)中醫(yī)癥狀本體研究背景
國內(nèi)進(jìn)行本體研究的起步比較晚,主要研究包括知識工程、自然語言處理、信息檢索、產(chǎn)品信息建模、常識知識庫等。比如中科院計算所的大規(guī)模知識系統(tǒng)研究、中科院數(shù)學(xué)研究所常識知識庫、浙江大學(xué)智能研究所基于本體的產(chǎn)品信息研究集成等。其中比較有影響的有:中國中醫(yī)科學(xué)院的研究。借鑒UMLS的成功經(jīng)驗,2001年由國家科技部基礎(chǔ)性工作專項資金支持,中國中醫(yī)科學(xué)院為首的集中全國近30多家中醫(yī)院校和多家科研單位的力量,建立了“中醫(yī)癥狀學(xué)一體化語言系統(tǒng)”,福建中醫(yī)學(xué)院圖書館全程參加了該項研究 。綜上所述,國內(nèi)對本體的研究工作特別是與中醫(yī)癥狀結(jié)合方面還處于摸索階段,尚未全面鋪開。
3.2 傳統(tǒng)中醫(yī)癥狀本體研究的意義
研究意義及作用中醫(yī)癥狀信息資源存在的古今概念差異、一詞多義、多詞一義等問題成為知識工程建設(shè)的瓶頸,給中醫(yī)癥狀學(xué)科發(fā)展、中醫(yī)癥狀信息資源共享造成了困難 。本體的出現(xiàn)為描述中醫(yī)癥狀知識提供了一種新的思路。運(yùn)用本體構(gòu)建的知識庫可應(yīng)用于將來的語義網(wǎng),使中醫(yī)癥狀走向互聯(lián)網(wǎng)。因此,做好中醫(yī)本體研究意義重大,具體表現(xiàn)在以下幾個方面:
(1)本體是可共享、可復(fù)用的數(shù)據(jù)模式,本體是中醫(yī)癥狀知識實現(xiàn)共享的資源描述新模式。
(2)通過本體的語義分析及語義研究,消除中醫(yī)骨傷資源,特別是古醫(yī)籍概念理解和使用上的歧義,達(dá)到古今概念匯通的目的。
(3)利用關(guān)系數(shù)據(jù)庫對本體描述語言O(shè)WL表達(dá)的語義關(guān)系進(jìn)行解析,探索中醫(yī)癥狀的語義檢索。
3.3 中醫(yī)癥狀本體自動構(gòu)建過程中存在的問題
領(lǐng)域本體構(gòu)建的主要三種方法:手工構(gòu)建、復(fù)用已有本體以及自動構(gòu)建本體,其中前兩種方法最為常用。 自動構(gòu)建本體是目前的一個研究熱點。研究者借鑒知識獲取的相關(guān)技術(shù),有基于自然語言規(guī)則的方法和基于統(tǒng)計分析的機(jī)器學(xué)習(xí)方法。目前這種構(gòu)建方法還處于研究階段,利用機(jī)器學(xué)習(xí)會產(chǎn)生大量的噪音數(shù)據(jù),缺乏必要的語義邏輯基礎(chǔ), 抽取的概念關(guān)系松散且可信度無法得到很好的保障。利用自然語言處理技術(shù),概念間潛在關(guān)系的分析則需要依賴復(fù)雜的語言處理模型。盡管機(jī)器學(xué)習(xí)應(yīng)用于本體自動構(gòu)建有巨大的潛力,但是距離良好的可理解性尚有很大的距離,隨著研究的深入這種狀況應(yīng)該有望得到改善。
4 基于主動學(xué)習(xí)的傳統(tǒng)中醫(yī)癥狀本體構(gòu)建方法可行性分析
Active learning 算法由耶魯大學(xué)Angluin 教授提出 。它選擇部分未標(biāo)記樣例進(jìn)行標(biāo)記,然后把它們放入之前已有的標(biāo)記樣例集合,重新訓(xùn)練分類器,利用分類器再次選擇未標(biāo)記樣例。通過有選擇地擴(kuò)大有標(biāo)記樣例集合和循環(huán)訓(xùn)練,使得分類器逐步獲得更強(qiáng)的泛化能力。與以往的算法相比,它具有模擬人的學(xué)習(xí)過程的特點,因此受到廣泛注,近年來被大量地應(yīng)用于信息檢索和文本分類等自然語言處理領(lǐng)域,成為機(jī)器學(xué)習(xí)領(lǐng)域中最重要的方向之一。
為了更加直觀地展示 Active learning 算法的有效性和它對分類器訓(xùn)練精度的提高程度,下面用一個對二維空間中的點進(jìn)行分類的問題為例來介紹 Active learning 。假設(shè)有一個布滿紅綠兩種共 400個點的平面,找到紅綠兩種點的分界線。已知紅綠兩種點在坐標(biāo)x附近產(chǎn)生分界。常規(guī)的被動學(xué)習(xí)的方法,隨機(jī)選擇并標(biāo)記點,通常它標(biāo)記的點比較分散,只有很少的點分布在 x 附近,這樣很難找到正確的分界線。用這種方法分類的精度較低,據(jù)統(tǒng)計結(jié)果顯示正確率只有 70%。而 Active learning 方法是通過選擇運(yùn)算,最終選擇紅綠兩種點混合分布比較緊密的位置,也就是位于 x附近的點進(jìn)行標(biāo)記,這就為找到正確的分界線提供了有效的信息。利用這種方法訓(xùn)練得到的分類器的精度較高,據(jù)統(tǒng)計結(jié)果顯示正確率可達(dá)到 90%。這個例子充分說明,Active learning 選擇的樣本點比盲目選擇的樣本點更有利于高精度分類器的訓(xùn)練,在同等的標(biāo)注代價下能夠得到更多的區(qū)分信息,有利于提高分類模型的精確度。
5 結(jié)語
本體是某一領(lǐng)域共享的、概念化、形式化表示的知識體系。第二代互聯(lián)網(wǎng)的發(fā)展需要大量的領(lǐng)域本體作為支撐。目前,領(lǐng)域本體主要依賴手工構(gòu)建,需要耗費大量的人力, 因此本體的構(gòu)建成為第二代互聯(lián)網(wǎng)發(fā)展的瓶頸 。本文對中醫(yī)癥狀本體的相關(guān)理論進(jìn)行介紹,結(jié)合中醫(yī)本體一般構(gòu)建原則,對各種領(lǐng)域本體構(gòu)建方法以及存在的問題進(jìn)行了詳細(xì)分析。然后結(jié)合主動學(xué)習(xí)對進(jìn)行標(biāo)準(zhǔn),使其智能標(biāo)注中醫(yī)癥狀,然后對癥狀與其相關(guān)的實體關(guān)系進(jìn)行構(gòu)建,最終完成中醫(yī)領(lǐng)域癥狀本體的構(gòu)建。中醫(yī)癥狀本體的構(gòu)建是一項極其艱巨的任務(wù), 如何應(yīng)用知識獲取技術(shù)來降低本體構(gòu)建的開銷以及在現(xiàn)實生活中推廣應(yīng)用,目前也是一個很有意義的研究方向。
參考文獻(xiàn)
[1]劉仁寧,李禹生.領(lǐng)域本體構(gòu)建方法[J].武漢工業(yè)學(xué)院學(xué)報,2008,27(1):73-77.
[2]李景,蘇曉鷺,錢平.構(gòu)建領(lǐng)域本體的方法[J].計算機(jī)與農(nóng)業(yè),2003(7):7-10.
[3]張小鵬.漢語特定領(lǐng)域本體的自動構(gòu)造研究[D].武漢:華中師范大學(xué),2007.
[4]翟林.領(lǐng)域本體的半自動構(gòu)建方法研究與實現(xiàn)[D]. 南京:東南大學(xué),2005.
[5]陳建.領(lǐng)域本體的創(chuàng)建和應(yīng)用研究[D].北京:對外經(jīng)濟(jì)貿(mào)易大學(xué),2006.
[6]孫倩,萬建成.基于敘詞表的領(lǐng)域本體構(gòu)建方法研究[J].計算機(jī)工程與設(shè)計,2007,28(20):5054-5056.
[7]Rabiner L,Juang B.An introduction to hidden Markov models[J].ASSP Magazine,1986:4-16.
[8]John L,Andrew M,et al.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C].ICML,2001:45-54.
[9]Guo Z,Zhang Y,Su C,et al. Exploration of n-gram Features for the Domain Adaptation of Chinese Word Segmentation[J].Nature Language Processing and Chinese Computing. Springer Berlin Heidelberg,2012: 121-131.
[10]蘇晨,張玉潔,郭振等.適用于特定領(lǐng)域機(jī)器翻譯的漢語分詞方法[J].中文信息學(xué)報,2013,27(5):184-190.
[11]Burr S.Active Learning Literature Survey[J].University of Wisconsinmadison,2009,39(2):127-131.
作者簡介
白寧超(1990-),男,河南省駐馬店市人。現(xiàn)為成都信息工程大學(xué)研究生,主要研究自然語言處理和數(shù)據(jù)挖掘。
唐聃(1982-),男,四川省人。博士學(xué)位?,F(xiàn)為成都信息工程大學(xué)研究生導(dǎo)師,主要從事算法分析方面的研究。
王亞強(qiáng)(1984-),男,吉林省人。博士學(xué)位?,F(xiàn)為成都信息工程大學(xué)研究生導(dǎo)師,主要研究自然語言處理,詞序標(biāo)注等。
作者單位
成都信息工程大學(xué)軟件工程學(xué)院 四川省成都市 610225