沈國祥
摘要:本體匹配解決了本體異構(gòu)問題,作為本體匹配的關(guān)鍵技術(shù),相似度算法決定了匹配的精度和效率。WordNet中概念節(jié)點(diǎn)的語義距離常作為相似度算法的依據(jù)。設(shè)計(jì)了一種新的語義距離計(jì)算方法及相似度算法,并以此搭建一個本體匹配框架進(jìn)行了驗(yàn)證。
關(guān)鍵詞:本體匹配;WordNet;語義距離;語義相似度
DOIDOI:10.11907/rjdk.161033
中圖分類號:TP312
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2016)005-0034-04
0 引言
隨著Internet的發(fā)展,語義Web技術(shù)解決了海量信息與高效利用之間的突出矛盾。語義Web通過在資源信息中加入語義信息,使信息的內(nèi)容與表示分離處理,為描述的信息賦予了良好的語義,實(shí)現(xiàn)了計(jì)算機(jī)對海量信息處理的自動化和智能化,極大提高了信息使用效率。
作為語義Web中的關(guān)鍵技術(shù),本體得到了越來越廣泛的應(yīng)用,本體已經(jīng)成為語義Web中知識表示的標(biāo)準(zhǔn)。為了實(shí)現(xiàn)語義信息共享,各個領(lǐng)域紛紛定義了相應(yīng)的本體標(biāo)準(zhǔn),但本體構(gòu)造一直沒有一個統(tǒng)一的規(guī)范和標(biāo)準(zhǔn),從而導(dǎo)致本體存在各種異構(gòu)問題。為了更有效地使用和重用本體來完成信息交換與集成任務(wù),就必須找出不同本體之間的映射關(guān)系,即本體匹配技術(shù)。
根據(jù)文獻(xiàn)[1]對本體匹配流程的描述,可以將本體匹配總結(jié)為5個步驟:①本體特征(概念、關(guān)系、屬性等)提??;②選擇本體匹配的實(shí)體對;③語義相似度計(jì)算;④人工干預(yù);⑤匹配輸出,其中相似度計(jì)算是整個流程的核心技術(shù),也是本文研究的主要內(nèi)容。對于相似度計(jì)算可以從自然語言、字符串、本體結(jié)構(gòu)信息、本體推理等多角度進(jìn)行。
本體匹配技術(shù)研究及本體匹配系統(tǒng)構(gòu)建取得了一批成果。目前,常見的本體匹配有基于語言學(xué)特征、基于結(jié)構(gòu)和基于實(shí)例等多種方法。
1 WordNet簡介
WordNet[2]是在美國普林斯頓大學(xué)G. Miller教授的指導(dǎo)下,由心理學(xué)家、語言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一種基于認(rèn)知語言學(xué)的英語詞典,是基于語言特征的本體匹配方法中常用的外部資源。
WordNet使用同義詞集合代表概念,詞匯關(guān)系在詞語之間體現(xiàn),語義關(guān)系在概念之間體現(xiàn)。雖然WordNet中存在著多種語義關(guān)系,如同義關(guān)系、反義關(guān)系、整體與部
分關(guān)系等,但is-a關(guān)系是WordNet中最重要的一種關(guān)系,所有的名詞概念和動詞概念都可以通過這種關(guān)系來聯(lián)接,如圖1所示。本文所研究的語義相似度計(jì)算都是基于這種關(guān)系的。
3 改進(jìn)的相似度算法
總結(jié)以上研究成果,每種方法都對后面的研究作出了一定的貢獻(xiàn),同時也存在一些不足。因?yàn)橄嗨贫扔?jì)算本身就是一個主觀性較強(qiáng)的工作,理解上的相異導(dǎo)致算法的不同也就不足為奇了。
針對現(xiàn)有方法的不足,在分析前人成果的基礎(chǔ)上,加上筆者的理解,提出了一種基于WordNet的新的相似度算法。該相似度算法改進(jìn)了現(xiàn)有算法的某些不足,降低了計(jì)算復(fù)雜度,并且把相似度的值限制在[0,1]范圍之內(nèi)。在詳細(xì)描述本文算法之前,先介紹本文中改進(jìn)算法所依據(jù)的概念、假設(shè)等。正如語義相似度具有主觀性一樣,這些概念和假設(shè)具有一定的主觀性而不一定具有普遍性。
3.1 相關(guān)假設(shè)假設(shè)1:語義距離和語義相似度具有反比性,即語義距離越大,相似度越小;語義距離越小,相似度越大。
假設(shè)2:假如兩個概念的語義距離為0,則相似度為1。
假設(shè)3:假設(shè)某一概念是父概念的唯一分類,則兩個概念間的語義距離為0。
假設(shè)4:WordNet語義樹中相同詞性的兩個概念,相似度不為0;兩個詞性不同的概念,相似度為0。
假設(shè)5:兩個概念的語義相似度不僅與語義距離相關(guān),而且與它們所處的深度相關(guān)。
3.2 相關(guān)概念
概念1:直接語義距離。直接語義距離是指兩個具有直接或間接上下級關(guān)系的節(jié)點(diǎn)間語義距離,其中一個節(jié)點(diǎn)是另一個節(jié)點(diǎn)的祖先節(jié)點(diǎn),例如節(jié)點(diǎn)
概念2:間接語義距離。
間接語義距離是指不具有上下級關(guān)系的兩個概念節(jié)點(diǎn)之間的距離,由各自節(jié)點(diǎn)與公共祖先節(jié)點(diǎn)的直接語義距離相加。例如節(jié)點(diǎn)
可以發(fā)現(xiàn),改進(jìn)的相似算法與其它兩種算法在相似度趨勢上基本保持一致,驗(yàn)證了改進(jìn)后的算法具有一定的合理性和科學(xué)性。從整體結(jié)果來看,改進(jìn)后的算法在查全率和查準(zhǔn)率上比其它兩種方法均有所提高,證明改進(jìn)后的算法具有一定實(shí)際意義。
4 結(jié)語
作為本體匹配的關(guān)鍵技術(shù),相似度計(jì)算直接對本體匹配的結(jié)果有著決定性影響。不可否認(rèn)的是,相似度是一個主觀性較強(qiáng)的概念,因此在相似度計(jì)算中所用語義距離及其它相關(guān)的概念和認(rèn)識也具有一定的主觀性。
本文通過對前人基于WordNet的相似度算法研究,形成了一種改進(jìn)算法,并以此建立一個本體匹配的框架進(jìn)行驗(yàn)證。僅基于WordNet的本體匹配算法在匹配效果上不一定令人滿意。因此,要將該算法應(yīng)用于實(shí)際工作中,還需要與其它類型的算法綜合考慮,以提高匹配精度和廣度,這正是需要進(jìn)一步研究的工作。
參考文獻(xiàn):
[1]M EHRIG,S STAAB.QOM:Quick ontology mapping[C]. In Proeeedings of the Intemational Semantic Web Conference(ISWC),2004:683-697.
[2]梁健,吳丹. 種子概念方法及其在基于文本的本體學(xué)習(xí)中的應(yīng)用[J]. 圖書情報工作, 2006,50(9):18-21.
[3]WU Z ,PALMER M. Verb Semantics and Lexical Selection[C]. In Proeeedings of the 32nd Annual Meeting of the Association for Computational Linguistics,Las Cruces,New Mexico,1994:133-138.
[4]PHILIP RESNIK.Using information content to evaluate semantic similarity[C].In Proceedings of the 14th Intemational Joint Conference on Artificial Intelligence,1995:102-119.
[5]JIANG J,CONRATH D.Semantic similarity based on corpus statistics and lexical taxonomy[C].In Proeeedings of Intemational Conferenee on Researeh in Computational Linguistics,Taiwan,1997:19-33.
[6]LIN, DEKANG.An information-theoretic definition of similarity[C].In Proeeedings of the 15th International Conference on Machine Leaming,Madison,WI,1998:296-304.
[7]KALYANPUR A,PARSIA B,HORRIDGE M,et al.Finding all justications of OWL DL entailments[C].In Proceedings of ISWC,2007:267-280.
(責(zé)任編輯:杜能鋼)