摘 要:20世紀(jì)90年代初,本體概念被廣泛地應(yīng)用到計算機領(lǐng)域特別是人工智能領(lǐng)域(AI)和知識工程研究領(lǐng)域。本體作為一種能在語義和知識層次上描述信息系統(tǒng)概念模型,它已經(jīng)成為知識工程、自然語言處理、協(xié)同信息系統(tǒng)、智能信息集成、Internet智能信息獲取等方面普遍研究的熱點。特別是語義Web的提出與發(fā)展,本體作為語義Web的核心使其受到了極大的重視。本文從音樂領(lǐng)域本體構(gòu)建方面對音樂本體研究進行闡述。
關(guān)鍵詞:本體;語義Web;音樂本體;構(gòu)建方法
中圖分類號:TP18
1998年Tim Berbers-Lee提出萬維網(wǎng)這一概念,萬維網(wǎng)給20世紀(jì)末期的互聯(lián)網(wǎng)帶來了革命性的變化。萬維網(wǎng)上的Web信息在以幾何級數(shù)增長的同時,也給互聯(lián)網(wǎng)上的信息檢索帶來了困擾,要在浩瀚的網(wǎng)絡(luò)數(shù)據(jù)中發(fā)現(xiàn)自己需要的資料并非易事。針對目前互聯(lián)網(wǎng)在信息表達(dá)和檢索等方面的不足,萬維網(wǎng)的締造者Tim Berners-Lee在2000年12月提出了下一代萬維網(wǎng)——語義Web[1]。語義Web(Semantic Web)是對未來體系結(jié)構(gòu)的一個偉大構(gòu)想,其目標(biāo)是應(yīng)用有效的標(biāo)準(zhǔn)和技術(shù)使得計算機能夠更多更準(zhǔn)確的理解網(wǎng)絡(luò)上的信息,從而進行信息管理和服務(wù)。語義Web的基本思想是基于本體和Web內(nèi)容的語義標(biāo)注知識。語義Web中,本體是其核心,它為整個語義Web提供了知識表達(dá)的領(lǐng)域模型。本體機制是實現(xiàn)語義理解和交流的關(guān)鍵,是解決語義層次上網(wǎng)絡(luò)信息共享和交換的基礎(chǔ)。各個領(lǐng)域的本體研究與創(chuàng)建越來越受到重視。
1 本體的概念
本體這一概念最早起源于哲學(xué)領(lǐng)域,公元前古希臘哲學(xué)家亞里士多德在其哲學(xué)研究中提出的這一概念,他用本體表示“世界中客觀存在物質(zhì)本源”。在西方哲學(xué)史中,本體論是指關(guān)于存在及其本質(zhì)和規(guī)律的學(xué)說。在二十世紀(jì)的分析哲學(xué)中,本體論成為研究實體存在性和實體存在本質(zhì)等方面的通用理論。在中國古代哲學(xué)中,本體論又叫做“本根論”,是指探究天地萬物產(chǎn)生、存在、發(fā)展變化的根本原因和根本依據(jù)的學(xué)說。
目前,關(guān)于本體的定義說法很多,但是總的來說分為兩種:一是哲學(xué)領(lǐng)域本體論研究的對象;二是信息科學(xué)技術(shù)領(lǐng)域的研究對象。
自上世紀(jì)90年代以來,本體被廣泛應(yīng)用于人工智能、計算機科學(xué)領(lǐng)域。雖然在這些領(lǐng)域也有一些較為正式的定義,美國斯坦福大學(xué)的知識系統(tǒng)實驗室學(xué)者Tom Gruber在1993年發(fā)表的一篇論文中給出了第一個被廣泛接受的定義:本體是對概念化對象的明確的解釋說明[2],并給出如下解釋——知識的形式化表達(dá)的基礎(chǔ)是概念化研究領(lǐng)域內(nèi)的對象、概念和其他實體,也有其他學(xué)者嘗試在Gruber定義的基礎(chǔ)上進行擴展以給出本體的定義。比如,Borst在1997年給出本體的另一個定義是“一個本體是共享概念模型的形式化規(guī)范說明”[3],可以看出該定義對Gruber定義的一個簡單的擴展,強調(diào)必須在需要說明的概念化上達(dá)成一致。目前獲得較多認(rèn)同的是1998年R.Studer等在對前人定義進行深入研究基礎(chǔ)上給出的解釋:“本體對概念體系的明確的形式化的可共享的規(guī)范說明”[4,5]。本體的定義包含4層概念,即具有4個特征:概念化、形式化、規(guī)范化和共享。
按照領(lǐng)域依賴程度,本體可以分為頂層、領(lǐng)域、任務(wù)和應(yīng)用本體4類;按照主題可分為知識本體、通用本體、領(lǐng)域本體、術(shù)語本體和任務(wù)本體。目前在國內(nèi)外已經(jīng)出現(xiàn)了很多成型的知識本體,典型的有SUMO[6]、WordNet[7]、SENSUS[8]、CYC[9]和知網(wǎng)[10]。
2 本體構(gòu)建
本體構(gòu)建是本體應(yīng)用的基礎(chǔ)。本體構(gòu)建是一項龐大的系統(tǒng)工程,需要各領(lǐng)域的專家(領(lǐng)域?qū)<?、本體工程師等)按照一定的本體構(gòu)建原則,在合理方法論的指導(dǎo)下,采用合適的關(guān)鍵技術(shù)或使用便捷的本體開發(fā)工具加以實現(xiàn)。常用的本體構(gòu)建方法有:Uschold和King的“骨架法”[11],Gruninger和Fox的“評估發(fā)”(又稱TOVE法)[12],Bernaras法(或KACTUS法)[13],METHONTOLOGY法[14],IDEF-5法[15],SENSUS法[9]及七步法等[9,16,17]。
2.1 本體構(gòu)建工具的選擇
為了方便本體的開發(fā)和利用,許多組織和團體開發(fā)了各種類型的本體工具,涉及的范圍包括本體的創(chuàng)建、本體的歸并整合、本體的存儲和查詢、本體的推理學(xué)習(xí)、不同本體語言和格式間的轉(zhuǎn)換等。有幾種比較著名的本體構(gòu)建工具包括Apollo、protégé、OILEd、OntoEdit、OntoSaurus、WebODE、IBM Ontology等,其中Protégé[18]是由斯坦福大學(xué)設(shè)計開發(fā)的,是集本體論編輯和知識庫編輯為一體的開發(fā)工具。
Protégé具有如下特點:
(1)Protégé是一個可擴展的知識模型。新的功能可以以插件的形式增加和擴展,具有開放源碼的優(yōu)勢。
(2)文本輸出格式可以定制。可以將Protégé的內(nèi)部表示轉(zhuǎn)換成多種形式的文本格式,包括XML、RDF(S)、OWL等系列語言。
(3)用戶接口可以定制。提供可以擴展的API接口,用戶可以更換Protégé用戶接口的顯示和數(shù)據(jù)獲取模塊來適應(yīng)新的語言。
(4)有可以與其他應(yīng)用結(jié)合的可擴展體系結(jié)構(gòu)。用戶可以將其與外部語義模塊(如推理引擎)直接相連。
(5)后臺支持?jǐn)?shù)據(jù)庫存儲,使用JDBC和JDBC-ODBC橋訪問數(shù)據(jù)庫。
由于Protégé開發(fā)源代碼,提供了本體建設(shè)的基本功能,使用簡單方便,有詳細(xì)友好的幫助文檔,模塊劃分清晰,提供完全的API接口,因此,它基本成為國內(nèi)外眾多本體研究機構(gòu)的首選工具,本文中的音樂本體就是使用Protégé4.2構(gòu)建的。
2.2 本體的構(gòu)建原則
出于對各自問題領(lǐng)域和具體的工程的考慮,本體的創(chuàng)建的過程也各不相同。由于沒有一個標(biāo)準(zhǔn)的本體創(chuàng)建方法,研究人員從本體創(chuàng)建的實踐出發(fā),提出了不少有益于本體創(chuàng)建的標(biāo)準(zhǔn),其中影響最大的是Tom Gruber給出的5條設(shè)計本體的基本準(zhǔn)則[19]:
(1)明確性和客觀性:本體應(yīng)該有效地傳達(dá)所定義的術(shù)語內(nèi)涵。
(2)一致性:一個本體應(yīng)該前后一致,即由它推斷出來的概念定義應(yīng)該與本體中的概念定義一致。
(3)可擴展型:可擴展性是指一個本體提供一個共享的詞匯,它應(yīng)該在預(yù)期的任務(wù)范圍內(nèi)提供概念的基礎(chǔ),同時,它的表示應(yīng)該使得人們能夠單調(diào)地擴展和專門化說明這個詞匯,即人們應(yīng)該能夠在不改變原有定義的前提下,以這組存在的詞匯為基礎(chǔ)定義新的術(shù)語。
(4)最小編碼偏差:本體應(yīng)該處于知識的層次,而不是與特定的符號編碼無關(guān)。
(5)最小本體承諾:一個本體應(yīng)該在提供必需的共享知識條件下,要求有最小的本體承諾。
除了上述原則外,J.Arpirez[20]等提出本體設(shè)計應(yīng)該堅持如下幾點原則:盡可能使用標(biāo)準(zhǔn)術(shù)語;同層次概念之間保持最小的語義距離;可以使用多種概念層次,采用多重繼承機制來增強表達(dá)能力。
2.3 音樂本體構(gòu)建流程
2.3.1 確定本體范圍和術(shù)語
構(gòu)建本體之前,要明確領(lǐng)域本體的目的、范圍、表示方法和用途等,描繪出目標(biāo)本體的主要輪廓。這一階段的中間結(jié)果是本體開發(fā)目的和詳細(xì)說明書。在確定了領(lǐng)域本體范圍的基礎(chǔ)上,盡可能列舉領(lǐng)域本體的相關(guān)術(shù)語,本文中的音樂領(lǐng)域本體共定義了78個類概念和17個屬性概念。
音樂領(lǐng)域本體中重要的術(shù)語與概念是:MV(普通、高清、超清)、專輯、人員(歌手、曲作者、詞作者)、圖片(專輯封面、歌手圖像)、心情主題(RB、鄉(xiāng)村、人群、傷感、華語、古典、嘻哈、場景、安靜、寂靜、開心、搖滾、日本、時間、歐美、流行、溫暖、爵士、電子、節(jié)日、粵語、郁悶)、格式(APE、CD、MOD、MP3、RA、WAV、WMA)、歌曲(70后、80后、90后、DJ、中國風(fēng)、兒歌、動漫、器樂、影視歌曲、情歌、戲曲、校園歌曲、民樂、民歌、經(jīng)典歌曲、網(wǎng)絡(luò)歌曲、輕音樂、鈴聲)、歌詞等。
2.3.2 定義類和類的層次體系
類用于描述抽象的實體對象,代表著一類具有共同特性的實例對象。類具有繼承性并以層次結(jié)構(gòu)的形式組織,最頂層的類代表著最抽象的實體概念,之類繼承了父類的抽象特性,代表比其父類更具體或范圍更小的實體概念。定義類的層次采用自頂向下的方法,部分音樂領(lǐng)域本體類的層次結(jié)構(gòu)如圖2所示。
2.3.3 定義類的屬性
僅有各個類來表現(xiàn)領(lǐng)域的知識是不夠的,因此需要定義每一個類的屬性,由于每個類的屬性非常多,原則上是根據(jù)需求來定義類的屬性。
歌曲的屬性有:歌名、歌手、歌詞、格式、曲作者、詞作者、心情主題。
歌手的屬性有:名字、性別、年齡。
歌詞的屬性有:歌名、詞作者、格式。
由于此本體的概念比較復(fù)雜,圖3僅列出類音樂領(lǐng)域本體中具有代表性的概念之間的邏輯關(guān)系圖。
2.3.4 生成實例
在Protégé中的Individuals面板中添加類的實例(個體),給這個實例中各個屬性的賦值,這樣就能建議音樂領(lǐng)域本體了。
3 本體最后完善
通過上述步驟后已經(jīng)初步建立了一個簡單的音樂領(lǐng)域本體,但是還是存在一些問題,還要做一些如下的完善收尾工作。
3.1 定義屬性的性質(zhì)
(1)反轉(zhuǎn)屬性。如果一個屬性P1被標(biāo)記為屬性P2的owl:inverseOf,那么對于任意x,y:P1(x,y)當(dāng)且僅當(dāng)P2(x,y)。反轉(zhuǎn)屬性適合用來描述屬性的逆轉(zhuǎn)關(guān)系。如,“專輯包含歌曲”,“歌曲屬于專輯”,所以“包含”與“屬于”就互為反轉(zhuǎn)屬性。
(2)函數(shù)屬性。如果一個屬性P被標(biāo)記為函數(shù)的,那么對于任意x,y和z:P(x,z)和P(x,y)蘊含y=z。即如果一個屬性具有函數(shù)性質(zhì),那么對于給定的個體,至多只有一個個體通過該屬性與給定的個體相關(guān)聯(lián)。如,對于“歌曲”,其“專輯”只能有一個,因此屬性“屬于”在關(guān)聯(lián)兩個概念時,應(yīng)該規(guī)定為具有函數(shù)性(Functional)。如果“歌曲”的專輯為“XX專輯”和“YY專輯”,那么可以推斷“XX專輯”和“YY專輯”是同一個專輯,只是名字不同罷了。
另外,還有傳遞屬性、對稱屬性、反函數(shù)屬性等就不在一一舉例了。
3.2 定義域(Domain)和值域(Range)
我們可以為屬性規(guī)定其定義域和值域,用來限制屬性的使用范圍。如,對于屬性“屬于”,可規(guī)定其定義域為“歌曲”,值域為“專輯”中的全部個體。對于屬性“包含”,可以規(guī)定其定義域為“專輯”,值域為“歌曲”中的全部個體。
3.3 屬性約束
屬性約束分為值約束和基數(shù)約束??捎糜谥导s束的OWL構(gòu)造元素包括allValuesFrom、someValuesFrom和hasValue?;鶖?shù)約束包含三個構(gòu)造元素:minCardinality、maxCardinality和Cardinality。它們用來限制某一屬性的取值個數(shù)。
3.4 本體一致性檢測
本體中的概念及屬性間的邏輯層次關(guān)系是否正確非常重要,可以借助推理器對其中的邏輯關(guān)系進行推理和檢驗,以起到糾錯和邏輯一致檢測的作用。
在Protégé中,本體可以通過Racer[21]推理器進行一致性的檢驗、類的層次關(guān)系推理和等價類推理。
4 結(jié)束語
盡管音樂領(lǐng)域本體構(gòu)建研究也隨著本體研究的升溫而逐步開展,但大多數(shù)是基于英文的本體研究,缺乏對中文的支持。音樂領(lǐng)域本體含有大量的概念,要迅速的建立一個全面的領(lǐng)域本體是不現(xiàn)實的。本體構(gòu)建要在前人研究的基礎(chǔ)上遵循一定的規(guī)則和步驟,采用遞進的方式慢慢完善已有的本體模型。另外,因為各人對知識世界的理解存在著差異,所以構(gòu)建本體的功能會各有不同,還有許多方面需要進行改進和擴展,比如,本體的實例部分還要進一步的豐富。盡管如此,音樂領(lǐng)域本體已經(jīng)可以為一些簡單的基于音樂的檢索應(yīng)用提供支持。該本體的應(yīng)用前景廣闊,可以為本體領(lǐng)域從事本體開發(fā)的技術(shù)人員體從一個參考。
參考文獻:
[1]http://www.w3.org/DesignIssues/Semantic.html.
[2]Gruber T.A translation approach to portable ontologies[J].Knowledge Acquisition.Vol.5,No.2.1993:199-200.
[3]Borst W.Construction of Engineering Ontologies[J].PhD thesis of University of Twente,Enschede,1997.
[4]吳定峰.基于本體的語義搜索模型研究[D].中國農(nóng)業(yè)科學(xué)院,2012.
[5]Studer Rudi,Richard Benjamins,Dieter Fensel[J].Knowledge engineering:principles and methods[J].Data and Knowledge Engineering,1998,25(1/2):161-197.
[6]CIM3.NET.2013.Suggested Upper Merged Ontology(SUMO) [EB]:http://www.ontologypor-tal.com.
[7]Princeton University.WordNet——A Lexical Database for English[EB].http://wordnet.prince-ton.edu.
[8]B.Swartout,P.Ramesh,K.Knight,T.Russ.Toward Distributed Use of Large-Scal Ontologies[J].Sysposium on Ontological Engineering of AAAI.Stanford(California),1997.
[9]劉宇松.本體構(gòu)建方法和開發(fā)工具研究[J].現(xiàn)代情報,2009(09):17-34.
[10]Dong zhendong,Dong Qiang.知網(wǎng)——How Net Knowledge Database[EB].http://www.keenage.com.
[11]Fernandez-Lopoz.M.Overview of methodologies for building ontologies[J].Proceedings of the IJCAI99 Workshop on Ontologies and Problem-Solving Methods.August 1999,Stockholm Sweden.
[12]Gruninger.M,F(xiàn)ox.M.S.Methodology for the Design and Evaluation of Ontologies[J].Workshop on Basic Ontological Issues in Knowledge Sharing,IJCAI-95,Montreal,1995.
[13]A.Bernarsa,I.Laresgoiti,J.Corera.Building and Reusing Ontologies for Electrical Network Applications[J].Proceeding of the 12th European Conference on Artificial Intelligence ECAI96.Chichester,UK,John Wiley and Sons,1996:298-302.
[14]Fernandez.M,Gomez-perez.A,Juristo.N.METHONTOLOGY:From Ontological Art Towards Ontological Engineering[J].Sping Symposium on Ontological Engineering(AAAI-97),Stanford University,March,1997.
[15]http://www.idef.com/IDEF5.htm[EB].
[16]甘健侯,姜躍,夏幼明.Ontology and Its Application本體方法及其應(yīng)用[M].北京:科學(xué)出版社,2011:5-30.
[17]張文秀,朱慶華.領(lǐng)域本體的構(gòu)建方法研究[J].圖書與情報,2011(01):16-20.
[18]http://protege.stanford.edu.
[19]Gruber TR.Towards Principals for the Design of Ontologies Used for Knowledge Sharing[J].International Journal of Human-Computer Studies.V43,November1995:907-928.
[20]J.Arpirez,Asuncion Gomez-Perez,Adolfo Lozano Tello,S.Pinto.(onto)2Agent:An ontology-based WWW broker to select ontologies[J].Proceeding of the Workshop on Applications of Ontologies and Problem-Solving Methods.August,1998:16-24.
[21]RacerPro 2.0[EB].http://www.racer-systems.com.
作者簡介:蘭春秋(1987.08-),男,河南人,碩士研究生,研究方向:數(shù)字娛樂與動畫技術(shù);李櫻(1973.02-),女,吉林人,博士,研究生導(dǎo)師,副教授,研究方向:傳媒信息安全與分布式系統(tǒng)。
作者單位:中國傳媒大學(xué)理工學(xué)部計算機學(xué)院,北京 100024