宋 朋
(南開大學(xué)商學(xué)院信息資源管理系,天津 300071)
本體構(gòu)建最新研究進(jìn)展綜述
宋 朋
(南開大學(xué)商學(xué)院信息資源管理系,天津 300071)
論述國內(nèi)外關(guān)于本體的概念、分類、描述語言、構(gòu)建原則、構(gòu)建工具和構(gòu)建方法的研究以及本體構(gòu)建在語義檢索、信息系統(tǒng)、知識發(fā)現(xiàn)和機(jī)器翻譯中的應(yīng)用,指出目前尚沒有統(tǒng)一的理論對本體構(gòu)建方法進(jìn)行指導(dǎo),研究方法以算法、建模為主,而且更多地局限于具有數(shù)學(xué)和計(jì)算機(jī)技術(shù)背景的相關(guān)領(lǐng)域。
本體構(gòu)建;語義檢索;信息系統(tǒng);知識發(fā)現(xiàn);機(jī)器翻譯
本體(Ontology)概念起源于哲學(xué)領(lǐng)域,指的是對客觀存在物的解釋和說明[1]。在圖書情報(bào)領(lǐng)域,本體一詞最早出現(xiàn)于1967年S.H. Mealy所著論文《關(guān)于數(shù)據(jù)建模的基礎(chǔ)》中[2]。20世紀(jì)80年代,計(jì)算機(jī)學(xué)科領(lǐng)域?qū)W者Gruber給出了廣泛接受的“本體是共享概念模型的明確形式化規(guī)范說明”[3]定義。胡亞軍和劉魯紅將本體視為當(dāng)前概念層面上的有效的知識組織方法[4]。本體的核心作用在于它能夠?qū)δ骋活I(lǐng)域或領(lǐng)域內(nèi)的概念以及概念之間的關(guān)系進(jìn)行定義,因其具有良好的概念層次、表達(dá)特點(diǎn)了以及在概念間建立豐富語義聯(lián)系的能力可以對知識進(jìn)行整合,從而在某種程度上解決了信息和知識的無序和異構(gòu)問題。目前,已經(jīng)有一些學(xué)者對本體相關(guān)問題進(jìn)行了綜述,但他們集中關(guān)注于本體描述語言[5]和技術(shù)標(biāo)準(zhǔn)化[6]等方面。本文則側(cè)重于揭示近年來本體構(gòu)建的方法研究和應(yīng)用,并展望了今后的發(fā)展。
本體概念起源于哲學(xué)領(lǐng)域,在計(jì)算機(jī)學(xué)科的使用可以追溯到20世紀(jì)80年代,最終Gruber 給出了廣泛接受的概念[2-3,7-8]:“本體是共享概念模型的明確形式化規(guī)范說明?!币话愣?,利用本體可以對某個領(lǐng)域甚至更大范圍內(nèi)的概念及其之間的關(guān)系進(jìn)行描述,利用這些在共享范圍內(nèi)大家共同認(rèn)可的、明確的定義進(jìn)行人機(jī)之間以及機(jī)器與機(jī)器之間的交流以及數(shù)據(jù)共享。本體所具備的上述特點(diǎn)也正是未來語義網(wǎng)需要實(shí)現(xiàn)的目標(biāo),因此,本體的研究和應(yīng)用迅速延伸到哲學(xué)、計(jì)算機(jī)、工程以及圖書情報(bào)學(xué)等領(lǐng)域[1,9-11]。
2.1哲學(xué)領(lǐng)域
在哲學(xué)領(lǐng)域,“本體”是“形而上學(xué)”的一個分支,關(guān)注于“存在”的基本性質(zhì),強(qiáng)調(diào)一些深層次的問題,如“非物質(zhì)的東西是否存在”“當(dāng)一個物體發(fā)生了變化,其自身是否仍保持一致”等。古希臘哲學(xué)家亞里士多德將其定義為“對世界上客觀存在物的系統(tǒng)描述,即存在論”,是客觀存在的一個系統(tǒng)的解釋或說明,關(guān)心的是客觀現(xiàn)實(shí)的抽象本質(zhì)[12]。Smith將兩種類型的本體進(jìn)行了區(qū)分:現(xiàn)實(shí)論本體(R-ontology)是關(guān)于宇宙是如何進(jìn)行組織的以及如何與哲學(xué)方法相對應(yīng)的;認(rèn)識論本體(E-ontology)與一個領(lǐng)域的概念化的工作任務(wù)相關(guān)[13]。E-ontology作為一種人工制造品,提供了軟件工程和知識表示領(lǐng)域范圍內(nèi)的表達(dá)本體的需求。本體是對世界上的事物的一種基本描述。哲學(xué)將本體作為“形而上學(xué)的分支,強(qiáng)調(diào)事物自身的存在”。Peirce認(rèn)為,“本體是研究現(xiàn)實(shí)的最一般的特征”,與其他具體科學(xué)學(xué)科。如物理、化學(xué)或生物學(xué)相比,本體只解決各自領(lǐng)域內(nèi)的實(shí)體問題[14]。有許多本體原則應(yīng)用于科學(xué)研究之中,例如,在概念和假設(shè)選擇中,在科學(xué)理論的自動重構(gòu)中,在技術(shù)設(shè)計(jì)中以及在科學(xué)結(jié)果的評估之中。因此,引用物理學(xué)家和哲學(xué)家Mario Bunge的觀點(diǎn)來看,“每個科學(xué)的前提都是某種形而上學(xué)”[15]。
2.2計(jì)算機(jī)領(lǐng)域
在人工智能界,Neches等將本體定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語和關(guān)系,并利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義”[16]。Neches認(rèn)為:“本體定義了組成主題領(lǐng)域的詞匯表的基本術(shù)語及其關(guān)系,以及結(jié)合這些術(shù)語和關(guān)系來定義詞匯表外延的規(guī)則?!?/p>
2.3工程領(lǐng)域
本體工程主要關(guān)注如何利用本體中的相關(guān)原則對本體進(jìn)行構(gòu)建的問題[17]。雖然不同的研究人員對本體從不同的角度給出了定義,但是從概念的內(nèi)涵而言,研究人員對于本體的認(rèn)識基本是一致的,都將其作為“特定領(lǐng)域內(nèi)不同主體之間進(jìn)行交流的語義基礎(chǔ)”,即將本體作為一種提供明確定義的共識。
2.4圖書館學(xué)情報(bào)學(xué)領(lǐng)域
圖書館學(xué)情報(bào)學(xué)領(lǐng)域引用最多的本體定義是“由特定詞匯構(gòu)成用于描述特定事實(shí)以及一系列關(guān)于詞匯預(yù)期意義的明確假設(shè)”。Guarino認(rèn)為,本體描述了符號的意義并代表了領(lǐng)域的特定的視角[18]。Fonseca將“ontologies of IS”與“ontologies for IS”進(jìn)行了區(qū)分。Fonseca 認(rèn)為前 者本體用于概念的建構(gòu),后者本體是情報(bào)學(xué)的一個組成部分,本體為了對概念體系的創(chuàng)造提供支持,描述了領(lǐng)域中的詞匯。第二個方法與Guarino的觀點(diǎn)相吻合。Guarino認(rèn)為,本體是信息體系的組成成分。這種本體描述了“與一般領(lǐng)域相關(guān)的詞匯(如醫(yī)學(xué)領(lǐng)域,汽車領(lǐng)域)或者一般的任務(wù)或者活動(如診斷或銷售)”。這種類型的使用特別關(guān)注于特定的信息體系,其目的在于對概念模式的創(chuàng)建提供支持。
Guarino將詳細(xì)程度和領(lǐng)域依賴度作為本體劃分的基礎(chǔ)[18]。此后,有學(xué)者對Guarino所提出的二維分類方法進(jìn)行了擴(kuò)充和細(xì)化[19],將其歸納出10種本體:“普通本體、領(lǐng)域本體、任務(wù)本體、領(lǐng)域-任務(wù)本體、知識表示本體、元(核心)本體、頂級本體、語言本體、方法本體和應(yīng)用本體?!卑凑昭芯恐黝},本體可以分為通用本體、領(lǐng)域本體、任務(wù)本體、知識表示本體和語言學(xué)本體[20]。根據(jù)所表示的形式化程度,可以將本體分為:完全非形式化、結(jié)構(gòu)非形式化、半形式化、完全形式化。根據(jù)表示規(guī)模,本體從量級由輕到重依次為輕量級本體、中級本體和重量級本體[6]。
目前,在計(jì)算機(jī)以及系統(tǒng)工程應(yīng)用領(lǐng)域被廣泛使用的Ontology有如下5個:Wordnet 、Framenet、GUM、SENSUS和Mikromos[11]。Wordnet[21]是由普林斯頓大學(xué)設(shè)計(jì)的一種基于認(rèn)知語言學(xué)及心里語言規(guī)則的英文詞典,它以“synsets”為單位組織信息,按照各個單詞的意義組成一個“單詞的網(wǎng)絡(luò)”;Framenet[22]也是英文詞典,采用稱為框架語義(Frame Semantics)的描述框架,提供很強(qiáng)的語義分析能力,目前發(fā)展為Framenet II;GUM[23]、SENSUS[24]和Mikrokosmos[25]都是面向自然語言處理的;GUM包含基本的概念但又與其他具體的概念組織方式有所不同;SENSUS為機(jī)器翻譯提供概念結(jié)構(gòu);Mikromos采用中間語言來表示知識。
圖書館學(xué)情報(bào)學(xué)領(lǐng)域一直采用分類法和敘詞表對信息資源進(jìn)行標(biāo)引、組織及檢索。隨著信息技術(shù)的快速發(fā)展,信息資源類型越發(fā)多樣,因此,面對日益復(fù)雜的資源就需要有功能更為強(qiáng)大的資源描述工具進(jìn)行支撐。相較于傳統(tǒng)的分類法和敘詞表,本體在邏輯表達(dá)形式上既可以使用自然語言又可以使用半自然語言來對概念、術(shù)語進(jìn)行表達(dá);在組織結(jié)構(gòu)方面,本體基于XML開放體系可以進(jìn)行修改和復(fù)用,其中的知識點(diǎn)、概念分布不同于先前信息組織工具單純的平面的網(wǎng)格組織方式,呈現(xiàn)出網(wǎng)狀的形態(tài);本體中知識間的關(guān)系不再局限于原先的“用、代、屬、分、參、族”,概念間被描述得更為細(xì)致、全面;本體中的知識可以形成較為完備的知識體系具有智能查詢、回答用戶問題、機(jī)器翻譯等傳統(tǒng)分類法所不具備的功能。
借助本體描述語言所具有的良好語法語義推理及表達(dá)特點(diǎn),用戶可以對領(lǐng)域模型進(jìn)行清晰的描述。到目前為止,已經(jīng)形成了許多本體描述語言,例如:SHOE、OIL、DAML、 Ontolingua Lomm以及XML、RDF/RDFS和OWL等。在眾多的本體描述語言中,使用最為廣泛的仍為W3C所推薦的3個標(biāo)準(zhǔn):XML、RDF/RDFS、OWL。
XML技術(shù)是一系列由W3C組織批準(zhǔn)并推薦的相關(guān)協(xié)議的集合,是在SGML和HTML基礎(chǔ)上發(fā)展起來的標(biāo)記語言,它涵蓋了網(wǎng)絡(luò)底層的數(shù)據(jù)表示、數(shù)據(jù)顯示及數(shù)據(jù)處理、交換和消息傳遞等各個層面的Web應(yīng)用。針對XML存在的語言局限,W3C又提出了RDF資源描述框架,RDF為基于元數(shù)據(jù)的語義表示提供了一定的基礎(chǔ),使用該標(biāo)準(zhǔn)可以表示任意的資源信息。
OWL作為W3C的推薦標(biāo)準(zhǔn),位于W3C本體語言棧中的最高層,旨在通過定義類及各個類的屬性來形式化一個領(lǐng)域、聲明及其相應(yīng)的屬性,對Web文檔中的概念、類、屬性及其實(shí)例之間的關(guān)系提供一種通用標(biāo)準(zhǔn)語言。OWL語言提供3種子語言O(shè)WL Lite、OWL DL和OWL Full,可以實(shí)現(xiàn)不同需求能力的表達(dá)。
當(dāng)前學(xué)者對構(gòu)建本體的基本原則和性能評估標(biāo)準(zhǔn)還沒有統(tǒng)一,不過在構(gòu)造特定領(lǐng)域本體的過程中有一點(diǎn)得到了大家的共識,即都需要該領(lǐng)域的專家進(jìn)行參與。不少研究人員在本體研究過程中提出了一些本體構(gòu)造原則,其中影響最大的是Gruber等在1995年提出的5條規(guī)則[26],即“清晰、一致、可擴(kuò)展性、編碼偏好程度最小、本體約定最小”;Perez將Gruber提出的本體構(gòu)建原則進(jìn)行了適當(dāng)調(diào)整,提出了本體構(gòu)建的10項(xiàng)原則,即“完全性、一致性、層次變化性、最大單調(diào)可擴(kuò)展性、最小本體化承諾、明確性和客觀性、最小模塊耦合、本體差別原則、同屬概念具有最小語義距離、命名盡可能標(biāo)準(zhǔn)化”[27]。
這些本體設(shè)計(jì)原則并沒有明確的表示規(guī)范,因此在實(shí)際的本體構(gòu)建過程中,只有根據(jù)具體的實(shí)際需要靈活運(yùn)用,才能構(gòu)建出高質(zhì)量的本體。
研究人員在本體構(gòu)建過程中會遇到“一致性檢驗(yàn)、本體展示”等問題,可見本體的開發(fā)較為復(fù)雜。本體構(gòu)建過程中的一些輔助手段就成為研究人員所迫切需要的工具。因此,相關(guān)本體構(gòu)建工具在這種情況下應(yīng)運(yùn)而生,借助這些本體構(gòu)建工具研究人員不必再去了解本體構(gòu)建過程中的一些細(xì)節(jié)問題,從而極大地提高了本體構(gòu)建效率。
目前,在國外已經(jīng)出現(xiàn)了許多本體構(gòu)建工具,典型的包括WebOnto[28]、WebODE[28]、KAON[28]和Protégé[29-31]等。除此之外, 還有Apollo、LinkFactory、OILEd、Ontolingua、Onto Saurus、OpenKnoME[31-33]等本體構(gòu)建與管理工具。這些本體開發(fā)工具功能各異,對于本體語言的支持能力、表達(dá)能力以及靈活性、易用性等都相差甚遠(yuǎn)。國內(nèi)學(xué)者利用Protégé進(jìn)行本體構(gòu)建較為廣泛。
本文從可視化、中文支持、OWL語言、網(wǎng)絡(luò)技術(shù)、合作開發(fā)、本體合并、模糊本體構(gòu)建等幾方面對本體構(gòu)建工具進(jìn)行比較,如表1所示 。
由表1可看出,幾種本體構(gòu)建工具都有自己的特點(diǎn)。
(1)在語言支持方面:只有protégé能支持中文本體的開發(fā),其他的工具可以支持除中文外的語言。
(2)在可視化方面:只有Ontolingua不支持可視化,其他幾種工具在不同程度上都能夠支持本體可視化。
(3)在網(wǎng)絡(luò)技術(shù)方面:Ontolingua使用網(wǎng)絡(luò)接入服務(wù);Ontosaurus使用Http瀏覽器; WebOnto使用網(wǎng)絡(luò)服務(wù)發(fā)布站點(diǎn);WebODE只能通過網(wǎng)絡(luò)注冊的方式進(jìn)行使用; OntoEdit中的資源用URI標(biāo)識;Protégé和OILEd幾乎沒有用到網(wǎng)絡(luò)技術(shù)。
(4)在本體合并支持方面:Ontolingua 和Protégé分別通過chimaera和prompt半自動地進(jìn)行本體的合并;WebODE可以通過ODEMerge工具在無用戶指導(dǎo)下合并本體;OntoEdit在一定程度上支持本體合并;Ontosaurus、WebOnto和OIlEd對于本體合并不支持。
傳統(tǒng)的本體構(gòu)建方法有:Tove法、Methontology法、Enterprise法、原型法、骨架法以及七步法等。文獻(xiàn)[34]通過借鑒骨架法等本體建立模式,根據(jù)人類思維符合高度可操作性的特點(diǎn),提出了一種知識工程的領(lǐng)域本體建模方法。文獻(xiàn)[35]采用原型法根據(jù)所確定的構(gòu)建目的和應(yīng)用范圍對已有地理本體進(jìn)行比較、分析、研究,對其可用性進(jìn)行評估。文獻(xiàn)[36]參考了《中國分類主題詞表》和中國國家旅游業(yè)相關(guān)標(biāo)準(zhǔn),遵循本體構(gòu)建七步法面向佛教圣地五臺山構(gòu)建了旅游領(lǐng)域本體知識庫框架。
目前,多數(shù)學(xué)者在進(jìn)行本體構(gòu)建時采用的方法主要有兩種:在領(lǐng)域?qū)<业膸椭掠帽倔w描述語言將本體描述出來;從結(jié)構(gòu)化的數(shù)據(jù)或文本中抽取、學(xué)習(xí)或發(fā)現(xiàn)領(lǐng)域本體。第一種方法所構(gòu)建的本體采用完全手工的方法。由不同的人來構(gòu)建本體,即使是領(lǐng)域?qū)<宜鶚?gòu)建出來的本體也會千差萬別,因此采用手工的方法所構(gòu)建出的本體存在很大的主觀性。為了解決完全由手工方法構(gòu)建本體帶來的缺陷,出現(xiàn)了第二種本體構(gòu)建方法,即采用自動的或是半自動的方法來構(gòu)建本體。這種方法可以簡化手工構(gòu)建本體的工作量,提高本體的質(zhì)量。
綜合近年來國內(nèi)外學(xué)者采用手工、半自動和自動方法所構(gòu)建的本體,本文將其歸納為詞表法、文本統(tǒng)計(jì)方法、知識發(fā)現(xiàn)技術(shù)方法、數(shù)據(jù)庫方法、重構(gòu)法等。
表1 本體構(gòu)建工具對比
5.1詞表法
在進(jìn)行本體構(gòu)建時,學(xué)者們通常會借助“敘詞表”以及相關(guān)領(lǐng)域的“專業(yè)詞表”。這種方法在手工、半自動以及自動方法構(gòu)建本體中均有所體現(xiàn)。
5.1.1手工方法
Eman較早提出采用本體語言O(shè)WL對敘詞表進(jìn)行描述輸出這一思想[37]。此后,大批學(xué)者在Eman思想的啟發(fā)下,對本體與敘詞表的研究、應(yīng)用不斷增多。Qin和Paling采用ontoligua system探索將教育資料網(wǎng)關(guān)中的受控詞表轉(zhuǎn)換成本體,對該模型使用受控詞表和本體在對數(shù)字資源進(jìn)行描述時所體現(xiàn)的語義豐富程度進(jìn)行了比較[38]。另外有一些學(xué)者,他們利用敘詞表進(jìn)行手工本體構(gòu)建,實(shí)現(xiàn)了經(jīng)濟(jì)學(xué)領(lǐng)域本體[39]、農(nóng)業(yè)果樹學(xué)領(lǐng)域本體[40]等具體領(lǐng)域的本體構(gòu)建。隨著學(xué)者們對本體構(gòu)建方法研究的不斷深入、技術(shù)的不斷完善,其中也不乏對該構(gòu)建方法的拓展和創(chuàng)新。劉紫玉在對現(xiàn)有的本體模型和多專業(yè)領(lǐng)域本體研究的基礎(chǔ)上,提出了多專業(yè)領(lǐng)域本體模型的八元組表示方法和概念的九元組表示方法及其形式化描述方式[41]。以O(shè)WL為推理基礎(chǔ),對領(lǐng)域本體的語義關(guān)系和推理規(guī)則進(jìn)行了闡述。
5.1.2半自動方法
使用半自動方法進(jìn)行本體構(gòu)建可以在人工參與的情況下對機(jī)器的構(gòu)建結(jié)果進(jìn)行適當(dāng)干預(yù),因此可以同時保證本體構(gòu)建的效率以及準(zhǔn)確率。阿姆斯特丹大學(xué)的Wielinga等運(yùn)用藝術(shù)和建筑敘詞表(AAT)的受控詞匯表描述古代家具本體[42]。
何琳采用人機(jī)協(xié)作的半自動構(gòu)建模式,將自頂向下和機(jī)器學(xué)習(xí)的自底向上的結(jié)果進(jìn)行結(jié)合[43]。采用基于N-Gram的無詞典分詞方法從古農(nóng)學(xué)研究論文中獲取領(lǐng)域候選概念,結(jié)合現(xiàn)有的領(lǐng)域相關(guān)分類表和主題詞表,對原有的分類體系進(jìn)行擴(kuò)充和更新,實(shí)現(xiàn)古農(nóng)學(xué)領(lǐng)域概念屬性關(guān)系的建立。陳琨、張蕾以知網(wǎng)為語義知識資源、知識圖為語義表示方法,提出了一種基于知識圖的領(lǐng)域本體半自動構(gòu)建方法[44]。
5.1.3自動方法
在自動構(gòu)建方面,Khan等從字典中抽取構(gòu)建本體所需要的概念和關(guān)系,通過該方法建構(gòu)的本體為通用本體,并非領(lǐng)域、本體[45]。Philipp Cimiano等提出了AIFB 研究機(jī)構(gòu)在IST-Dot Kom項(xiàng)目中應(yīng)用的自動構(gòu)建本體方法[46]。該方法大大提高了本體構(gòu)建的速度并且在形式化程度方面也有了很大的提高。但該方法只考慮了一種關(guān)系,概念分類也相對較為單一。
于娟提出基于領(lǐng)域隸屬度分析和領(lǐng)域隸屬度同義詞分析法的領(lǐng)域概念學(xué)習(xí)方法[47]。李夢莎將敘詞表的本體轉(zhuǎn)換技術(shù)與本體學(xué)習(xí)中的關(guān)系獲取技術(shù)相結(jié)合,提出了一種領(lǐng)域本體自動構(gòu)建的新模型[48]。選用可擴(kuò)展性、復(fù)用性、相關(guān)關(guān)系參照度等幾個指標(biāo)對自動構(gòu)建結(jié)果進(jìn)行評價(jià)。為中文領(lǐng)域本體的自動構(gòu)建提供了有價(jià)值的參考。
5.2文本統(tǒng)計(jì)方法
Zhou等人利用概念語義矩陣從文檔中抽取概念并由領(lǐng)域?qū)<掖_定概念在本體中的位置。但該方法采用UNL(通用網(wǎng)絡(luò)語言)描述本體模型而不是OWL,致使該應(yīng)用不具備廣泛性[49]。Ramesh Srinivasan等基于聚類方法建立面向社區(qū)文化本體的信息系統(tǒng)[50]。所介紹的半自動方法與分布式標(biāo)注技術(shù)或文本之間類別的相似性或主觀評估方法相融合,通過聚類的方法產(chǎn)生“同源”本體。作者隨機(jī)選取20名位于美國圣迭戈地區(qū)的本土居民,讓他們根據(jù)自己的文化情境對隨機(jī)提供的本體節(jié)點(diǎn)的主題相似性進(jìn)行打分(分?jǐn)?shù)1-5,不相似-非常相似)。將通過半自動方法收集的主題融合到本體數(shù)據(jù)之中,建立60×60的相似性矩陣,與通過民族志直接參與方法得出的數(shù)據(jù)進(jìn)行對比。通過Ward和K-means定量分析,證明所提出的半自動聚類方法的有效性。Thanh等提出模糊聚類和形式概念分析相結(jié)合的模糊本體自動生成方法,并且采用基于模糊的近似推理技術(shù),將新數(shù)據(jù)歸為適當(dāng)?shù)母拍畲赜靡詳U(kuò)充本體。但采用該方法通常生成的形式概念較多,且形式網(wǎng)格比較復(fù)雜[51]。
董俊利用KDD中聚類、分類技術(shù),提出了對領(lǐng)域本體概念體系進(jìn)行拓展的方法,結(jié)合領(lǐng)域特定問題提出了在粗糙概念聚類基礎(chǔ)上對領(lǐng)域概念進(jìn)一步精確聚類的方法[52]。孫逸飛提出了一種基于文本統(tǒng)計(jì)的本體半自動構(gòu)建流程[53]。首先手工構(gòu)建一個核心本體,對文本數(shù)據(jù)集的統(tǒng)計(jì)信息進(jìn)行處理,使用文本分類方法和關(guān)鍵詞提取方法對文本統(tǒng)計(jì)表中領(lǐng)域相關(guān)術(shù)語進(jìn)行提取、生成本體概念候選集,然后使用Wordnet判斷候選集中概念和核心本體中概念的語義關(guān)系,將匹配的概念自動加入到核心本體中實(shí)現(xiàn)對核心本體的擴(kuò)展,最后通過人工的修改和完善生成最終的領(lǐng)域本體。
5.3知識發(fā)現(xiàn)技術(shù)方法
Celjuska等基于監(jiān)督學(xué)習(xí),提出對于無結(jié)構(gòu)文檔構(gòu)建本體的方法[54]。但這種方法僅適用于現(xiàn)有數(shù)據(jù)內(nèi)的資源本體構(gòu)建,未考慮新數(shù)據(jù)的加入對現(xiàn)有本體的擴(kuò)充問題。Hele-Mai Haav提出比較適合較小文本領(lǐng)域的開發(fā)方法,它將形式概念分析與基于規(guī)則的語言結(jié)合起來,達(dá)到半自動抽取和設(shè)計(jì)本體的目的[55]。該方法的難點(diǎn)在于如何在命名格中進(jìn)行概念以及概念和文檔之間的映射。在GACR項(xiàng)目中,Obitko等提出用屬性描述概念的方法,該方法在概念分類關(guān)系和非分類關(guān)系方面有十分重大的意義,但處理過程中沒有明確的標(biāo)準(zhǔn)來決定概念和屬性需要添加到什么程度,什么時候是完善的[56]。
基于文本挖掘技術(shù),薛中玉等提出了本體自動構(gòu)建系統(tǒng)。該系統(tǒng)詳細(xì)介紹了各模塊的功能和實(shí)現(xiàn)方法[57]。對于解決本體構(gòu)建問題具有借鑒意義。將文本中的知識發(fā)現(xiàn)技術(shù)在領(lǐng)域本體構(gòu)建中進(jìn)行應(yīng)用,張蓓蓓從領(lǐng)域預(yù)料庫自動抽取領(lǐng)域概念,通過關(guān)聯(lián)分析和聚類分析技術(shù)找出概念間的聯(lián)系,大大減少了對領(lǐng)域?qū)<业囊蕾?,提高了本體構(gòu)建的自動化程度,提高了本體構(gòu)建的效率[58]。在這些理論和方法的指導(dǎo)下,作者創(chuàng)建了以等離子專利信息資源為應(yīng)用領(lǐng)域的本體。
5.4數(shù)據(jù)庫方法
從關(guān)系數(shù)據(jù)庫到本體映射方面的研究有很多[59],其中映射方法主要有兩種,一種是直接的由關(guān)系型數(shù)據(jù)庫映射到本體的方法,另一種是通過中間模型進(jìn)行映射的方法[60-65]。
在直接映射方法中,Irina Astrova提出了一套模式映射規(guī)則,對關(guān)系進(jìn)行分類,通過分析主鍵、屬性和數(shù)據(jù),挖掘關(guān)系之間的聯(lián)系將關(guān)系模式映射到本體,然后將關(guān)系數(shù)據(jù)映射到本體實(shí)例[63]。Stojanovic等人提出了一種基于主鍵數(shù)據(jù)全等的半自動本體構(gòu)建方法[64]。文獻(xiàn)[61]結(jié)合關(guān)系模式,給出了從關(guān)系模式中映射概念、屬性、約束和實(shí)例的規(guī)則,但是并沒有給出實(shí)現(xiàn)方法。文獻(xiàn)[65]利用關(guān)系數(shù)據(jù)庫中的SQL語句進(jìn)行本體自動構(gòu)建,但方法在語義信息發(fā)現(xiàn)方面尚有不足。文獻(xiàn)[66]采用中間模型映射實(shí)現(xiàn)本體構(gòu)建,以W-Graph作為中間模型,實(shí)現(xiàn)了關(guān)系數(shù)據(jù)庫到本體的映射工作。此外,這些方法大多是半自動化的,在確定概念繼承層次時,需要更多的與用戶進(jìn)行交互。
國內(nèi)方面,肖敏借鑒軟件工程學(xué)中的軟件生命周期模型方法論,提出了基于原型迭代的領(lǐng)域本體構(gòu)建方法,采用KNN(最近鄰居)的思想根據(jù)用戶對項(xiàng)目的評分,來預(yù)測用戶未評分項(xiàng)目的評分,在填充后的用戶-項(xiàng)目評分矩陣基礎(chǔ)上進(jìn)行推薦[67]。郭朝敏提出了一種由關(guān)系數(shù)據(jù)庫構(gòu)建本體的方法,首先自動抽取出數(shù)據(jù)庫的關(guān)系模式,然后由這些關(guān)系模式自動地構(gòu)建出初始本體,最后由初始本體半自動地構(gòu)建出目標(biāo)本體[68]。
5.5重構(gòu)法
Gu Tao利用 FacTab插件從已有的本體中自動得到對應(yīng)的形式背景。通過這種方式實(shí)現(xiàn)了本體的自動構(gòu)建[69]。但這種方法不能直接處理屬性值是多值的本體,而必須先將多值屬性本體轉(zhuǎn)換為單值屬性。Yen-Hsien Lee等開發(fā)了一種基于本體的演進(jìn)類目(ONCE)技術(shù)。該技術(shù)首先整合重要本體、豐富概念層次,然后利用所產(chǎn)生的本體,從概念層面比較特征向量,比較發(fā)現(xiàn)ONCE技術(shù)的表現(xiàn)在所有試驗(yàn)情境下均優(yōu)于CE2和HAC技術(shù)[68]。
李杉等利用大眾分類自下而上的特點(diǎn)提出了從標(biāo)簽自動構(gòu)建mashup服務(wù)描述本體的方法[71]。袁偉偉等在已有本體構(gòu)建方法論的基礎(chǔ)上結(jié)合SCNEO特點(diǎn),提出了生命期的本體構(gòu)建方法[72]。支麗平、王恒山提出了一種基于多Agent的自動化構(gòu)建方法,為自動化構(gòu)建大型中文專利本體提供了一個新的可行的方法[73]。
6.1語義檢索中的應(yīng)用
語義檢索是把信息檢索與人工智能、自然語言技術(shù)相結(jié)合的檢索。目前語義檢索有兩類,基于本體論和基于概念?;诒倔w論的檢索是構(gòu)建概念空間實(shí)現(xiàn)語義檢索,而基于概念的檢索是根據(jù)概念詞典和關(guān)系數(shù)據(jù)庫構(gòu)建概念空間實(shí)現(xiàn)語義檢索。
1994年Voorhees就提出了基于本體的查詢擴(kuò)展[74],之后越來越多的科學(xué)家和研究人員投入到這個領(lǐng)域的研究之中。本體中蘊(yùn)含著大量的知識和語義間的關(guān)系,為檢索人員對查詢擴(kuò)展技術(shù)進(jìn)行了深入研究。本體由概念和概念之間的語義關(guān)系構(gòu)成,為信息檢索提供了良好的基礎(chǔ)。著名的項(xiàng)目有智能 Agent 系統(tǒng)ontoseek[75]、Ontoprise開發(fā)小組研發(fā)的Ontobroker[76]、Swoogle通過在互聯(lián)網(wǎng)上爬行收集到各類數(shù)據(jù)表示的信息[77]。
Maki利用本體結(jié)構(gòu)路徑對用戶查詢進(jìn)行相應(yīng)擴(kuò)展[11]。黎小琴提出了基于SPARQL的語義搜索算法,借助SPARQL檢索語言及語義推理機(jī)Jena等工具完成試驗(yàn)性計(jì)算機(jī)網(wǎng)絡(luò)論文本體的創(chuàng)建和檢索系統(tǒng)的編碼實(shí)現(xiàn)工作[78]。吳定峰在信息檢索過程中引入情境變量作為縮小語義開放性和準(zhǔn)確理解用戶需求的手段,利用本體將抽象的情境因素表達(dá)為信息檢索系統(tǒng)可以讀取和利用的具體變量,并最終發(fā)展成為一個以本體為基礎(chǔ)的語義信息搜索模型,建立了一個果樹語義信息搜索實(shí)驗(yàn)性系統(tǒng)[79]。
6.2在信息系統(tǒng)中的應(yīng)用
本體的一大特點(diǎn)就是可以實(shí)現(xiàn)領(lǐng)域內(nèi)知識的共享與復(fù)用,從而實(shí)現(xiàn)高層信息系統(tǒng)之間的互操作[80]。因此,本體應(yīng)用的一個重要領(lǐng)域就是信息檢索和集成,尤其在多信息源的情況下,存在信息表示不一致、異構(gòu)問題,引入本體建立共享的術(shù)語和信息表示結(jié)構(gòu),不但可以降低信息轉(zhuǎn)換的難度和工作量而且可以提供統(tǒng)一的模式進(jìn)行信息集成。此外,因本體具有良好的概念層次結(jié)構(gòu)、可以對邏輯推理進(jìn)行支持,從而使檢索更加符合用戶的需求。本體在信息系統(tǒng)中的應(yīng)用主要包括:信息組織、信息檢索和異構(gòu)信息系統(tǒng)互操作問題。目前,用于信息檢索的本體項(xiàng)目種類繁多,國際上很多有名的項(xiàng)目都應(yīng)用到了本體,如:OntoAgent、Ontobroker、SKC等。
Xing Jiang 和 Ah-Hwee Tan設(shè)計(jì)了一個基于本體學(xué)習(xí)的概念-關(guān)系-概念組系統(tǒng),全文分詞技術(shù)將統(tǒng)計(jì)和詞匯語法的方法相結(jié)合,采用詞義消歧算法對關(guān)鍵概念的詞義進(jìn)行統(tǒng)一,以改進(jìn)的廣義關(guān)聯(lián)規(guī)則挖掘算法刪掉不重要的通過本體學(xué)習(xí)到的關(guān)系,實(shí)現(xiàn)了特定領(lǐng)域內(nèi)本體的自動抽?。?1]。任雨引入基于本體的信息檢索系統(tǒng)模型,構(gòu)建了無線自組織網(wǎng)絡(luò)領(lǐng)域本體庫[82]。張文通在進(jìn)行系統(tǒng)模型設(shè)計(jì)時充分考慮了用戶興趣的差異,在基于本體的Web信息檢索系統(tǒng)中增加了一個基于本體的用戶興趣模塊[83]。李興春結(jié)合“技術(shù)的更新在科研文獻(xiàn)上能得到很大程度的反映”這一假設(shè),結(jié)合分類主題詞表及百科等通用知識庫中的概念,半自動構(gòu)造了計(jì)算機(jī)技術(shù)領(lǐng)域的本體,實(shí)現(xiàn)了機(jī)器智能,為Web信息檢索提供了借鑒[84]。
6.3在知識管理、知識發(fā)現(xiàn)中的應(yīng)用
語義網(wǎng)技術(shù)的發(fā)展為面向知識塊的知識管理提供了基礎(chǔ)。隨著社會的不斷發(fā)展,知識管理與事務(wù)處理的集成等應(yīng)用已經(jīng)成為了科研人員迫切需要解決的問題。利用本體可以輔助生成面向用戶的視圖,實(shí)現(xiàn)非結(jié)構(gòu)化信息注釋,從而使知識訪問的相關(guān)操作變得更加便捷[85-87]。在知識管理中,本體的主要作用表現(xiàn)在:為文檔提供語義標(biāo)注、提高檢索的查全率和準(zhǔn)確率;為多個信息源進(jìn)行信息集成提供組織架構(gòu);便于知識、數(shù)據(jù)和模型準(zhǔn)確、有效的交換;建立信息約束系統(tǒng),保證信息的正確性、一致性;創(chuàng)建可重用模型庫[88-89]。
Hahn等人利用領(lǐng)域本體從文本中抽取知識建立知識庫[90]。M.Trifan等以本體語義規(guī)則為基礎(chǔ)構(gòu)造了一個環(huán)境檢測領(lǐng)域的本體傳感器網(wǎng)絡(luò),可以對數(shù)據(jù)進(jìn)行挖掘并對未來做出預(yù)測[91]。Shastri和Dreher構(gòu)建了一個石油工業(yè)領(lǐng)域本體生成了語義數(shù)據(jù)源,通過掃描當(dāng)?shù)氐匦魏蜕鷳B(tài)系統(tǒng),判斷是否存在石油[92]。周舒將本體與知識發(fā)現(xiàn)相結(jié)合,分析并設(shè)計(jì)了二手房領(lǐng)域的數(shù)據(jù)倉庫[93]。張蓓蓓提出將面向文本的知識發(fā)現(xiàn)技術(shù)應(yīng)用到領(lǐng)域本體構(gòu)建過程的想法,通過人工校驗(yàn)來修正結(jié)果,減少對領(lǐng)域?qū)<业囊蕾?,提高本體構(gòu)建的自動化程度[58]?;诒倔w的信息抽取是一種把本體和信息抽取技術(shù)結(jié)合起來,實(shí)現(xiàn)信息抽取的技術(shù),近年來受到了廣泛關(guān)注,已成為信息抽取研究的一個熱點(diǎn),并廣泛應(yīng)用于半結(jié)構(gòu)信息抽取技術(shù)之中?;陬I(lǐng)域本體的信息抽取系統(tǒng),能夠針對用戶的興趣為其提供特定信息,將信息源進(jìn)行語義標(biāo)注后,實(shí)現(xiàn)領(lǐng)域內(nèi)概念以及概念與概念之間的有機(jī)聯(lián)系,提高信息抽取的準(zhǔn)確率,實(shí)現(xiàn)為用戶提供更有價(jià)值信息的目的。
于江德提出了信息抽取系統(tǒng)中領(lǐng)域本體的設(shè)計(jì)原則以及實(shí)施步驟,構(gòu)建了顯示器領(lǐng)域本體并將該本體應(yīng)用到信息抽取的模式獲取和主題概念提取等任務(wù)中[94]。
6.4在機(jī)器翻譯中的應(yīng)用
本體可以實(shí)現(xiàn)概念關(guān)系的建立、知識模型的建構(gòu)。因此,將本體引入知識庫中,無疑將會促進(jìn)自然語言處理以及機(jī)器翻譯的發(fā)展,國內(nèi)的“中國知網(wǎng)”[95]、國外普林斯頓大學(xué)的“WordNet”等,都是基于本體思想而建立的。
目前,國內(nèi)外較為知名的可稱作本體的知識系統(tǒng)主要有以下幾個:WordNet、Cyc[96]、HowNet[97]、FrameNet、GUM、SENSUS、Mikrokosmos。其中,HowNet和WordNet是本體開發(fā)的早期雛形,GUM、SENSUS和Mikrokosmos近年來發(fā)展得越發(fā)成熟,主要用于機(jī)器翻譯領(lǐng)域。Cyc具備一定的推理功能,相對更加成熟完備,成為了很多開發(fā)領(lǐng)域的概念基礎(chǔ)。由于中文語言的特殊性,要充分利用這些已有的本體系統(tǒng),但目前需要解決的問題還很多。
本體概念自20世紀(jì)90年代初正式提出以來,在國外就引起了眾多科研人員的關(guān)注,并在計(jì)算機(jī)等相關(guān)領(lǐng)域得到了廣泛的應(yīng)用。近年來,國內(nèi)對本體構(gòu)建的研究和應(yīng)用也逐漸增多,但本體構(gòu)建方法的研究更多的還僅僅局限于計(jì)算機(jī)等相關(guān)具有技術(shù)背景的領(lǐng)域,而對于本體構(gòu)建方法的應(yīng)用也集中在信息系統(tǒng)、知識發(fā)現(xiàn)、信息抽取以及自然語言處理等方面。根據(jù)本體構(gòu)建領(lǐng)域存在的上述問題,現(xiàn)提出如下建議。
(1)采用多元化方法進(jìn)行本體構(gòu)建
目前,在本體構(gòu)建方面尚沒有統(tǒng)一的理論對其構(gòu)建方法進(jìn)行指導(dǎo),本體構(gòu)建的研究人員從自身角度進(jìn)行本體構(gòu)建。研究人員提高檢索等具體應(yīng)用的處理效率算法改進(jìn)或者采用數(shù)學(xué)建模來服務(wù)于某一特定領(lǐng)域的本體開發(fā)。本體開發(fā)需要領(lǐng)域?qū)<业闹笇?dǎo),從而對概念進(jìn)行界定,少數(shù)學(xué)者通過專家訪談和調(diào)查,分析基于本體系統(tǒng)的可用性與效率。隨著本體應(yīng)用的不斷增加,此類基于用戶需求的研究方法將逐漸增多。
(2)本體構(gòu)建需要多領(lǐng)域不同學(xué)科的參與
近年來,國內(nèi)對本體構(gòu)建的研究和應(yīng)用逐漸增多。計(jì)算機(jī)科學(xué)、圖書情報(bào)學(xué)等多個領(lǐng)域的研究人員都參與到本體構(gòu)建的研究工作之中,但就本文綜述的現(xiàn)狀而言,對于本體構(gòu)建方法的研究更多的還僅僅局限于數(shù)學(xué)、計(jì)算機(jī)等相關(guān)具有技術(shù)背景的領(lǐng)域。近兩年來, 圖書館學(xué)情報(bào)學(xué)對本體的應(yīng)用研究較少??赡苡捎诒倔w的開發(fā)和應(yīng)用多涉及較為復(fù)雜的技術(shù)操作。隨著語義網(wǎng)的研究日臻成熟,本體思想將深入到人們學(xué)習(xí)、研究的各個方面,希望本體思想得以更加廣泛地應(yīng)用到更多的領(lǐng)域。
[1] 馮志勇,李文杰,李曉紅.本體論工程及其應(yīng)用[M].北京:清華大學(xué)出版社, 2007.
[2] Yuan G, Li H, Fan B. Discussion on the ConstructionMethod of Oil Exploration and Development Domain Ontology[C]//Electronics and Optoelectronics (ICEOE),2011 International Conference on. IEEE, 2011, 4:V4-401-V4-403.
[3] Gruber T R. A Translation Approach to Portable Ontology Specifications[J]. Knowledge Acquisition, 1993,5(2):199-220.
[4] 胡亞軍, 劉魯紅. 知識組織的幾種主要方法[J]. 中國信息導(dǎo)報(bào), 2006 (12):26-29.
[5] 丘威, 張立臣. 本體語言研究綜述[J]. 情報(bào)雜志,2006, 25(7):61-64.
[6] 李景. 本體技術(shù)標(biāo)準(zhǔn)化綜述研究[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2007, 2(8):12-17.
[7] Borst W N. Construction of Engineering Ontologies for Knowledge Sharing and Reuse[M]. Enschede:Universiteit Twente, 1997.
[8] 陳剛, 陸汝鈐, 金芝. 基于領(lǐng)域知識重用的虛擬領(lǐng)域本體構(gòu)造[J]. 軟件學(xué)報(bào), 2003, 14(3):350-355.
[9] Noy N F, Hafner C D. The State of the Art in Ontology Design:A Survey and Comparative Review[J]. AI magazine, 1997, 18(3):53.
[10] Formal Ontology in Information Systems[C]//Proceedings of the First International Conference (FOIS'98),June 6-8, Trento, Italy. Amsterdam:IOS Press, 1998.
[11] Quine W V O. From a Logical Point of View:9 Logico-philosophical Essays[M]. Cambridge:Harvard University Press, 1980.
[12] 鄧志鴻, 唐世渭, 張銘, 等. Ontology 研究綜述[J]. 北京大學(xué)學(xué)報(bào):自然科學(xué)版, 2002, 38(5):730-738.
[13] Smith B, Welty C. Ontology:Towards a new synthesis[C]//Formal Ontology in Information Systems. USA :ACM Press, 2001:3-9.
[14] Peirce C S. Scientific Meta-physics[M]. Boston:Belknap Press of Harvard University Press, 1998.
[15] Bunge M. Causality and Modern Science[M]. Chelmsford:Courier Corporation, 1979.
[16] Neches R, Fikes R E, Finin T, et al. Enabling Technology for Knowledge Sharing[J]. AI magazine, 1991,12(3):36.
[18] Guarino N. Semantic Matching:Formal Ontological Distinctions for Information Organization, Extraction,and Integration[C]//Information Extraction a Multidisciplinary Approach to an Emerging Information Technology. Berlin: Springer Berlin Heidelberg, 1997:139-170.
[19] Gómez-Pérez A, Benjamins R. Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methods[C]//CEUR Workshop Proceedings. IJCAI and the Scandinavian AI Societies,1999.
[20] 宋煒,張銘. 語義網(wǎng)簡明教程[M]. 北京:高等教育出版社, 2004.
[21] What Is WordNet?[EB/OL].[2011-09-11].http://wordnet.princeton.edu/.
[22] FrameNet Data[EB/OL].[2011-09-11].https:// framenet.icsi.berkeley.edu/fndrupal/.
[23] Ontology(information science)[EB/OL].[2011-09-11]. http://en.wikipedia.org/wiki/Ontology_(information_ science).
[24] SENSUS[EB/OL].[2011-09-11].http://www.isi.edu/ natural-language/projects/SENSUS-demo.html.
[25] Mikrokosmos[EB/OL].[2011-11-02].http://www.fb10.uni-bremen.de/anglistik/langpro/webspace/jb/infopages/ontology/ontology-root.html.
[26] Karp P D, Gruber T R. A Generic Knowledge-base Access Protocol[C]// Proceedings of the International Joint Conferences on Artificial Intelligence, Montreal. 1995:32-37.
[27] 宋佳, 陳玉華. 本體構(gòu)建及發(fā)展趨勢研究[J]. 科技廣場, 2011 (5):10-13.
[28] 杜文華. 本體構(gòu)建方法比較研究[J]. 情報(bào)雜志, 2005,24(10):24-25.
[29] 劉宇松. 本體構(gòu)建方法和開發(fā)工具研究[J]. 現(xiàn)代情報(bào),2009, 29(9):17-24.
[30] 李景. 主要本體構(gòu)建工具比較研究 (上)[J]. 情報(bào)理論與實(shí)踐, 2006, 29(1):109-111.
[31] 李景. 主要本體構(gòu)建工具比較研究 (下)[J]. 情報(bào)理論與實(shí)踐, 2006, 29(2):222-226.
[32] 徐國虎, 許芳. 本體構(gòu)建工具的分析與比較[J]. 圖書情報(bào)工作, 2006, 50(1):44-48.
[33] 王長霞, 李冠宇, 陳布偉. 語義網(wǎng)本體構(gòu)建工具現(xiàn)狀及發(fā)展趨勢研究[J]. 計(jì)算機(jī)與現(xiàn)代化, 2009 (7):26-28.
[34] 李恒杰, 李軍權(quán), 李明. 領(lǐng)域本體建模方法研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2008, 29(2):381-384.
[35] 王海濤, 劉海硯, 尉伯虎, 等. 一種新的地理本體構(gòu)建方法分析[J]. 測繪科學(xué), 2013, 38(3):40-42.
[36] 王宇星.基于《中國分類主題詞表》的旅游本體知識庫研究與實(shí)現(xiàn)[D].北京:電子科技大學(xué),2012.
[37] Ven Eman J. OWL Exports from a Full Thesaurus[J]. Bulletin of the American Society for Information Science and Technology, 2005, 32(1):22-26.
[38] Qin J, Paling S. Converting a Controlled Vocabularyinto an Ontology:The Case of GEM[J]. Information Research , 2001, 6(2):45-48.
[39] 杜小勇, 馬文峰, 武文娟. 學(xué)科領(lǐng)域本體的構(gòu)建與進(jìn)化——以經(jīng)濟(jì)學(xué)領(lǐng)域本體為例[J]. 現(xiàn)代圖書情報(bào)技術(shù), 2007 (3):7-12.
[40] 孫倩. 基于敘詞表的領(lǐng)域本體建模方法研究[D]. 濟(jì)南:山東大學(xué), 2007.
[41] 劉紫玉. 多專業(yè)領(lǐng)域本體的構(gòu)建及語義檢索研究[D].北京:北京交通大學(xué), 2009.
[42] Wielinga B J, Schreiber A T, Wielemaker J, et al. From Thesaurus to Ontology[C]//Proceedings of the 1st International Conference on Knowledge Capture. ACM,2001:194-201.
[43] 何琳. 古農(nóng)學(xué)本體的半自動構(gòu)建及檢索研究[D]. 南京:南京農(nóng)業(yè)大學(xué), 2007.
[44] 陳琨,張蕾. 基于知識圖的領(lǐng)域本體構(gòu)建方法[J]. 計(jì)算機(jī)應(yīng)用, 2011, 31(6):1664—1666.
[45] Khan L, Luo F. Ontology Construction for Information Selection[C]//Proceedings of 14th IEEE International Conference on Tools with Artificial Intelligence, 2002.(ICTAI 2002). IEEE, 2002:122-127.
[46] Cimiano P, Staab S, Tane J. Automatic Acquisition of Taxonomies from Text:FCA Meets NLP[C]//Proceedings of the International Workshop & Tutorial on Adaptive Text Extraction and Mining. 14th European Conference on Machine Learning and the 7th European Conference on Principles and Practice of Knowledge Discovery in Databases. 2003.
[47] 于娟. 基于文本的領(lǐng)域本體學(xué)習(xí)方法及其應(yīng)用研究[D]. 大連:大連理工大學(xué), 2010.
[48] 李夢莎. 基于敘詞表的領(lǐng)域本體構(gòu)建方法研究[D].北京:北京工商大學(xué), 2010.
[49] Zhou L, Zhang D, Chen X, et al. A Method for Semantics-based Conceptual Expansion of Ontology[C]// Proceedings of the 2008 ACM Symposium on Applied Computing. ACM, 2008:1583—1587.
[50] Srinivasan R, Pepe A, Rodriguez M A. A Clusteringbased Semi-automated Technique to Build Cultural Ontologies[J]. Journal of the American Society for Information Science and Technology, 2009, 60(3):608-620.
[51] Thanh Q T, Hui S C, Fong A C M, et al. Automatic Fuzzy Ontology Generation for Semantic Web[J]. Knowledge and Data Engineering, IEEE Transactions on, 2006, 18(6):842-856.
[52] 董俊. 基于 KDD 的領(lǐng)域本體構(gòu)建若干關(guān)鍵問題研究[D]. 南京:南京郵電大學(xué), 2011.
[53] 孫逸飛. 半自動本體構(gòu)建方法研究[D]. 長春:吉林大學(xué), 2009.
[54] Celjuska D, Vargas-Vera M. Ontosophie:A Semi-Automatic System for Ontology Population from Text[C]//Proceedings of the 3rd International Conference on Natural Language Processing (ICON). 2004.
[55] Haav H M. A Semi-automatic Method to Ontology Design by Using FCA[C]//CLA. 2004.
[56] Obitko M, Snasel V, Smid J, et al. Ontology Design with Formal Concept Analysis[C]//CLA. 2004.
[57] 薛中玉,李春梅,黃道雄.基于文本挖掘的本體自動構(gòu)建系統(tǒng)架構(gòu)解析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011(1):100-103, 128.
[58] 張蓓蓓.基于關(guān)聯(lián)分析和聚類的領(lǐng)域本體構(gòu)建方法及其應(yīng)用研究[D].南京:南京理工大學(xué),2009.
[59] Cure O, Bensaid J D. Integration of Relational Databases into OWL Knowledge Bases:Demonstration of the DBOM System[C]//Data Engineering Workshop,2008. IEEE 24th International Conference onICDEW 2008. IEEE, 2008:230-233.
[60] Tijerino Y A, Embley D W, Lonsdale D W, et al. Towards Ontology Generation from Tables[J]. World Wide Web, 2005, 8(3):261-285.
[61] Shen G, Huang Z, Zhu X, et al. Research on the Rules of Mapping from Relational Model to OWL[C]//OWLED. 2006.
[62] Trinkunas J, Vasilecas O. Building Ontologies from Relational Databases Using Reverse Engineering Methods[C]//Proceedings of the 2007 International Conference on Computer Systems and Technologies. ACM, 2007:13.
[63] Astrova I. Reverse Engineering of Relational Databases to Ontologies[M]//The Semantic Web:Research and Applications. Berlin:Springer Berlin Heidelberg, 2004:327-341.
[64] Stojanovic L, Stojanovic N, Volz R. Migrating Dataintensive Web Sites into the Semantic Web[C]//Proceedings of the 2002 ACM Symposium on Applied Computing. ACM, 2002:1100—1107.
[65] Astrova I, Korda N, Kalja A. Rule-based Transformation of SQL Relational Databases to OWL Ontologies[C]//Proceedings of the 2nd International Conference on Metadata & Semantics Research. 2007.
[66] Yang S, Wu J. Mapping Relational Databases into Ontologies through a Graph-based Formal Model[C]//2010 Sixth International Conference on Semantics Knowledge and Grid (SKG). IEEE, 2010:219-226.
[67] 肖敏.基于領(lǐng)域本體的電子商務(wù)推薦技術(shù)研究[D].武漢:武漢理工大學(xué),2009.
[68] 郭朝敏.基于關(guān)系數(shù)據(jù)庫的本體半自動構(gòu)建方法[D].上海:上海交通大學(xué),2012.
[69] Tao G. Using Formal Concept Analysis for Ontology Structuring and Building[D]. Singapore:Nanyang Technological University, 2003.
[70] Lee Y H, Wei C P, Hu P J H. An Ontology-based Technique for Preserving User Preferences in Documentcategory Evolutions[J]. Journal of the American Society for Information Science and Technology, 2011, 62(3):507-520.
[71] 李杉, 李兵, 潘偉豐, 等. 一種 mashup 服務(wù)描述本體的自動構(gòu)建方法[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2011,32(9):1747—1752.
[72] 袁偉偉, 端義鋒, 胡谷雨, 等. RABOLC——一種新的衛(wèi)星通信網(wǎng)評估本體構(gòu)建方法[J]. 計(jì)算機(jī)科學(xué), 2013,40(4):122-126.
[73] 支麗平, 王恒山. 基于多 Agent 的大規(guī)模領(lǐng)域本體的自動化構(gòu)建方法[J]. 情報(bào)學(xué)報(bào), 2012, 31(8):813-822.
[74] Voorhees E M. Query Expansion Using Lexicalsemantic Relations[C]//SIGIR'94. London:Springer London, 1994:61-69.
[75] Guarino N, Masolo C, Vetere G. Ontoseek:Contentbased Access to the Web[J]. Intelligent Systems and Their Applications, IEEE, 1999, 14(3):70-80.
[76] Decker S, Erdmann M, Fensel D, et al. Ontobroker:Ontology Based Access to Distributed and Semi-structured Information[M]. New York, NK:Springer US,1999.
[77] SWOOGLE[EB/OL]. [2013-12-24]. http://swoogle. umbc.edu/.
[78] 黎小琴. 基于本體的語義信息檢索研究[D]. 武漢:武漢科技大學(xué), 2010.
[79] 吳定峰. 基于本體的語義搜索模型研究[D]. 北京:中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所, 2012.
[80] 李健康, 張春輝. 本體研究及其應(yīng)用進(jìn)展[J]. 圖書館論壇, 2005, 24(6):80-86.
[81] Jiang X, Tan A H. CRCTOL:A Semantic-based Domain Ontology Learning System[J]. Journal of the American Society for Information Science and Technology, 2010, 61(1):150-168.
[82] 任雨. 基于本體的信息檢索研究[D]. 南京:南京理工大學(xué), 2009.
[83] 張文通. 基于本體的 Web 信息檢索系統(tǒng)研究[D]. 鎮(zhèn)江:江蘇科技大學(xué), 2010.
[84] 李興春. 計(jì)算機(jī)信息檢索中的本體構(gòu)建研究[J]. 重慶文理學(xué)院學(xué)報(bào), 2013 (3):87-91.
[85] Sure Y, Maedche A, Staab S. Leveraging Corporate Skill Knowledge-From ProPer to OntoProPer[C]// PAKM. 2000.
[86] Angele J, Schnurr H P, Staab S, et al. The Times They Are A-Changin'-The Corporate History Analyzer[C]// PAKM. 2000.
[87] Liang Q, Liu X, Wang C. Knowledge Management Model Based on Ontology[C]//Proceedings of the 9th International Symposium on Linear Drives for Industry Applications, Volume 2. Berlin:Springer Berlin Heidelberg, 2014:685-691.
[88] 賀賽龍, 劉柏嵩. 知識管理中本體演化研究[J]. 情報(bào)學(xué)報(bào), 2004, 23(4):469-475.
[89] Shvaiko P, Euzenat J. A Survey of Schema-Based Matching Approaches[M]. Berlin:Springer Berlin Heidelberg.2005.
[90] Hahn U, Romacker M. Content Management in the SYNDIKATE System-How Technical Documents Are Automatically Transformed to Text Knowledge Bases[J]. Data & Knowledge Engineering, 2000, 35(2):137-159.
[91] Trifan M, Ionescu B, Ionescu D, et al. An Ontology Based Approach to Intelligent Data Mining for Environmental Virtual Warehouses of Sensor Data[C]// Virtual Environments, Human-Computer Interfaces and Measurement Systems, 2008. IEEE Conference on VECIMS 2008. IEEE, 2008:125-129.
[92] Nimmagadda S L, Dreher H. Ontology Based Data Warehouse Modelling-A Methodology for Managing Petroleum Field Ecosystems[C]//Digital Ecosystems and Technologies, 2008. 2nd IEEE International Conference. IEEE, 2008:221-228.
[93] 周舒.基于本體的知識發(fā)現(xiàn)實(shí)證研究——以二手房領(lǐng)域本體為例[D].上海:華東師范大學(xué),2010.
[94] 于江德, 李學(xué)鈺, 樊孝忠. 信息抽取中領(lǐng)域本體的設(shè)計(jì)和實(shí)現(xiàn)[J]. 電子科技大學(xué)學(xué)報(bào), 2008, 37(5):746-749.
[95] 董振東. 語義關(guān)系的表達(dá)和知識系統(tǒng)的建造[J]. 語言文字應(yīng)用, 1998, 3(3):76-82.
[96] CYC[EB/OL].[2011-09-11].http://www.cyc.com/.
[97] HOWNET[EB/OL].[2011-09-11]. http://www.keenage.com/.”.
Overview on the Recent Research of Ontology Construction
Song Peng
(Department of Information Resources Management, Business School, Nankai University, Tianjin 300071)
Tis paper gives an introduction to the concepts classifcations, description languages, principles and methods of ontology constructions, furthermore, summarizes its applications in semantic retrieval, information systems, knowledge discovery and machine translation of ontology.Points out that there is not a unifed theory to guide the constructions of ontology, and the main research methods focus on algorithms and modeling,furthermore, more studies limited to mathematical and computer technological background in related felds.
ontology construction, semantic retrieval, knowledge discovery, machine translation
TP18
A DOI:10.3772/j.issn.1674-1544.2015.03.012
宋朋(1985-),男,南開大學(xué)商學(xué)院信息資源管理系情報(bào)學(xué)博士研究生,研究方向:領(lǐng)域分析、本體構(gòu)建。
2014年4月22日。