蔣 丹 張 彬
摘要:近兩年來,語義萬維網(wǎng)(semantic web)的研究逐漸引起了知識表示、邏輯編程、信息系統(tǒng)集成、web開發(fā)等各個領(lǐng)域的廣泛關(guān)注。語義萬維網(wǎng)的研究將對傳統(tǒng)web上信息的發(fā)布、存儲和處理方式產(chǎn)生一場變革,但是語義萬維網(wǎng)的概念、思想、和方法還處于形成階段。本文分析了語義萬維網(wǎng)的起源、概念、技術(shù)框架、總結(jié)了語義萬維網(wǎng)及相關(guān)工具的現(xiàn)狀,并討論了語義萬維網(wǎng)技術(shù)在智能信息檢索、企業(yè)間數(shù)據(jù)交換、知識管理以及萬維網(wǎng)服務(wù)中的應(yīng)用。
關(guān)鍵詞:語義萬維網(wǎng) 資源描述框架 知識表示 本體
0 引言
萬維網(wǎng)創(chuàng)始人Tim Berners-Lee將萬維網(wǎng)的演化分為兩個階段,在第一個階段,萬維網(wǎng)應(yīng)該是一個有利于人們相互合作的強大工具。萬維網(wǎng)最初十年的發(fā)展基本上實現(xiàn)了這個目標(biāo):它以HTML頁面的方式向人提供了大量的信息。在第二個階段,這種合作應(yīng)該延伸到機器。也就是說,連接到萬維網(wǎng)上的機器也應(yīng)該能夠分析萬維網(wǎng)上的所有數(shù)據(jù)——包括內(nèi)容、鏈接以及人與機器之間的交互。如何實現(xiàn)萬維網(wǎng)的第二階段目標(biāo)正是目前學(xué)術(shù)界研究的熱點。實現(xiàn)這一目標(biāo)的難點在于傳統(tǒng)的HTML語言本身的固有缺陷,這種標(biāo)記語言的標(biāo)簽集只是對內(nèi)容的顯示格式做了標(biāo)記,數(shù)據(jù)的表現(xiàn)格式和數(shù)據(jù)糅合在一起,缺乏針對數(shù)據(jù)內(nèi)容的標(biāo)簽。HTML語言的這種特點決定了萬維網(wǎng)上的信息內(nèi)容很難被機器所理解,從而制約了一些需要對萬維網(wǎng)上的海量數(shù)據(jù)進(jìn)行自動化處理應(yīng)用的開發(fā)。Web上海量的數(shù)據(jù)要求以一種能夠理解數(shù)據(jù)語義的方式進(jìn)行交換和管理,當(dāng)前基于HTML的web技術(shù)卻很難滿足要求。
1 語義萬維網(wǎng)的概念
什么是語義萬維網(wǎng)并沒有一個嚴(yán)格的定義,Tim.Berners-Lee對語義萬維網(wǎng)做了如下的描述:語義萬維網(wǎng)并不是一個孤立的萬維網(wǎng),而是對當(dāng)前萬維網(wǎng)的擴展,語義萬維網(wǎng)上的信息具有定義良好的含義,使得計算機之間以及人類能夠更好的彼此合作。
2 語義萬維網(wǎng)的組成
2.1 URIs和Unicode Web環(huán)境下的應(yīng)用之間不可避免地需要相互通信,直接或間接地以機器可讀的格式傳遞發(fā)布信息。這些信息中很大一部分是對Web上資源的描述,因此,首先應(yīng)該以明確的方式來標(biāo)識這些資源(對象)。語義萬維網(wǎng)采用統(tǒng)一資源標(biāo)識符(Uniform Resource Identifiers,URI)來標(biāo)識資源及其屬性,URI是一個Internet標(biāo)準(zhǔn),記載于RFC2396。這一層是整個語義萬維網(wǎng)的基石,它成功地解決了萬維網(wǎng)上資源的定位和跨地區(qū)字符編碼的標(biāo)準(zhǔn)格式的問題。
2.2 XML、NameSpace、XML Schema 在URI和Unicode之上,是XML及相關(guān)技術(shù)層。XML允許用戶根據(jù)需要自定義一些“有意義的”標(biāo)簽對發(fā)布的內(nèi)容進(jìn)行標(biāo)記,并使用文檔類型定義(Document Type Definition,DTD)或XMLSchema來約束這些標(biāo)簽的結(jié)構(gòu)。
2.3 RDF、RDF Schema XML層的上一層是數(shù)據(jù)互操作層——資源描述框架(Resource Description Framework,RDF)和RDF schemas。RDF本身并沒有規(guī)定語義,但是它為每一個資源描述體系提供一個能夠描述其特定需求的語義結(jié)構(gòu)的能力。RDF Schema機制提供了RDF模型中使用的一個基本類型系統(tǒng)。
2.4 Ontology 在某種意義上說,RDF Schema本身就是一種簡單的本體(ontology)語言。但是RDF/RDFS對特定應(yīng)用領(lǐng)域的詞匯的描述能力比較弱,需要進(jìn)行擴展,我們把這個RDF/RDFS之上的擴展層稱為ontology層。T.R.Gruber等人對ontology給出的定義比較適用于語義萬維網(wǎng)的研究:ontology是一種明確的共享概念化的形式說明。概念化是指對現(xiàn)實世界中的一些事物進(jìn)行抽象建模,所建立的模型確定了該事物的一些相關(guān)的概念。明確意味著所使用概念的類型以及它們使用上的約束都有顯式的定義。形式說明則是指ontology應(yīng)該是機器可以理解的。共享反映了這樣的一種理念:ontology表達(dá)雙方都認(rèn)可的知識,也就是說,ontology并不會僅僅局限于某些個體,而應(yīng)該被一個群體所接受。
2.5 Logic、Proof&Trust 到目前為止,利用RDF/RDFS以及對RDFS進(jìn)行擴展的一些ontology語言可以對Web上的資源內(nèi)容做出描述。僅有這些描述還遠(yuǎn)遠(yuǎn)不夠,基于語義的web應(yīng)用還需要根據(jù)特定的規(guī)則從這些描述性的知識中進(jìn)行推理。邏輯層的目標(biāo)就是提供一種方法來描述規(guī)則。描述邏輯標(biāo)記語言(Description Logic Markup Language,DLML)就是這樣的一種方法,它用DTD封裝了描述邏輯中的邏輯連接詞,可將基于描述邏輯的形式化知識嵌入到被描述的文檔之中。Proof和Trust這部分內(nèi)容在概念上目前還沒有一個成熟的說法。但是語義萬維網(wǎng)的研究者普遍認(rèn)為Proof和Trust將是下一代Web的重要概念。在XML、RDFRDFS、Ontology以及Logic層和Proof層之上,我們就可以建立一些可以信任的應(yīng)用了。
3 語義萬維網(wǎng)開發(fā)的工具
語義萬維網(wǎng)能否取得成功的關(guān)鍵因素在于是否有充足的工具來幫助開發(fā)人員建立體現(xiàn)其價值的應(yīng)用。下面僅介紹一些RDF API的討論和開發(fā)狀況,目前實現(xiàn)的RDF API主要有GINF、Redland、Jena、Mozila等。通用互操作框架,GINF,使用RDF作為協(xié)議、語言、數(shù)據(jù)和接口的通用表示。它使用的RDF接口不僅可以創(chuàng)建和操作RDF模型,而且還可以通過一個類似SQL的查詢界面來訪問這些模型。Redland是支持高層面向?qū)ο蟮腞DF接口庫。Redland用它自己的類實現(xiàn)了每一個RDF概念。Redland的模塊化,面向?qū)ο蟮谋举|(zhì)使得終端的用戶能夠插入各種不同的解析器和合適的存儲機制。Redland提供了C語言的接口。Jena,是由惠普公司開發(fā)的Java RDF API。它同時支持以聲明和資源為中心的RDF模型的操作。并且在Jena所提供的工具箱中還提供了對DAML ontology的支持,但是目前只能對ontology進(jìn)行一些簡單的推理。Mozilla作為開放源代碼Web瀏覽器的一部分而開發(fā)的Mozilla API,提供了用SWI-Prolog實現(xiàn)的RDF解析器。
4 語義萬維網(wǎng)的應(yīng)用
隨著語義萬維網(wǎng)概念的提出和相關(guān)研究的進(jìn)展,將出現(xiàn)許多基于語義萬維網(wǎng)技術(shù)的應(yīng)用,面對海量信息,智能信息檢索的重要方法之一就是整理和重新規(guī)范萬維網(wǎng)上信息。如今萬維網(wǎng)上保留有高速發(fā)展期間產(chǎn)生的大量普通HTML頁面,整理這些信息的實質(zhì)性問題就是如何從HTML頁面中提取出語義信息,構(gòu)建出能夠描述這些頁面的Ontology??尚械霓k法是采用ontology學(xué)習(xí)系統(tǒng),實現(xiàn)ontology的自動或半自動提取。
5 結(jié)語
目前美國DAML(Tim.Berners-Lee領(lǐng)導(dǎo))IEEE Standard Upper Ontology Study Group和歐洲的OntoWeb(Dieter Fensel領(lǐng)導(dǎo))在語義萬維網(wǎng)研究領(lǐng)域處于領(lǐng)先地位并推出了一系列的語言、方法和工具。國內(nèi)在這方面的研究有成果的還未見報道,很多計算機工作者對語義萬維網(wǎng)的概念比較陌生,積極開展這方面的研究,提高萬維網(wǎng)數(shù)據(jù)的管理和智能化處理水平已經(jīng)是迫在眉睫的任務(wù)。面臨這些挑戰(zhàn),需要協(xié)同知識表示、邏輯推理以及萬維網(wǎng)標(biāo)準(zhǔn)化團(tuán)體、領(lǐng)域?qū)<夜餐?,共同?chuàng)建萬維網(wǎng)的美好未來。
參考文獻(xiàn):
[1](英)Tim Berners-Lee,Mark Fischetti,張宇宏,蕭風(fēng)譯.編織萬維網(wǎng)——萬維網(wǎng)之父談萬維網(wǎng)的原初設(shè)計與最終命運.上海:上海譯文出版社.1999.154~171.IEEE Intelligent Systems,2001.16(2):46~54.
[2]王繼成,蕭嶸.web信息檢索研究進(jìn)展.計算機研究與發(fā)展.2001.38(2):187~193.
[3]Tim Berners-Lee.The semantic toolbox:building semantics on top of XML-RDF.org/DesignIssues/Toolbox.html.
[4](美)Andrews S Tanenbaum.熊桂喜,王小虎譯.計算機網(wǎng)絡(luò).北京:清華大學(xué)出版社.1999.474~480.
[5]陳禹六.IDEF建模分析和設(shè)計方法.北京:清華大學(xué)出版社.1999:249~254.