冉 婕 ,孫 瑜 ,漆麗娟
(1.云南師范大學(xué) 計算機(jī)科學(xué)與信息技術(shù)學(xué)院,云南 昆明 650092;2.云南昭通師范高等??茖W(xué)校 計算機(jī)科學(xué)系,云南 昭通 657000)
目前,信息檢索大多基于關(guān)鍵字進(jìn)行,查準(zhǔn)率及查全率均不高,而本體能描述數(shù)據(jù)的語義,基于本體進(jìn)行信息檢索,檢索效率顯然要高。參考文獻(xiàn)[1]指出,本體在信息檢索中的應(yīng)用能夠顯著地提高檢索的精確率和返回率。在信息檢索領(lǐng)域中,概念的語義相似度計算起著重要的作用,因此可以利用本體計算概念間的語義相似度。語義相似度在不同的應(yīng)用領(lǐng)域中可能會有不同的含義。在信息整合領(lǐng)域中,相似度一般指的是文本與文本能夠匹配的程度;而在信息檢索領(lǐng)域中,相似度則反映與用戶查詢在語義上的匹配程度。相似度越高,表明該文本與用戶的請求越接近[2]。本文的研究背景為基于本體的信息檢索。
利用本體計算概念間相似度的基礎(chǔ)是:2個概念間具有一定的語義相關(guān)性,它們在概念間的結(jié)構(gòu)層次網(wǎng)絡(luò)圖中存在一條路徑[3]。Resnik[4]根據(jù)2個詞的公共祖先節(jié)點的最大信息量來衡量2個詞的語義相似度;Agirre[5]在利用WordNet計算詞語的相似度時,考慮了語義距離、概念層次樹的深度和概念層次樹的區(qū)域密度;參考文獻(xiàn)[6]提出基于距離的語義相似度計算模型,這種模型簡單直觀,但它依賴于預(yù)先建立好的本體層次網(wǎng)絡(luò);參考文獻(xiàn)[7]引入計算語言學(xué)中的語義距離思想來計算概念相似度,但其考慮概念間的相似度影響因素較少。針對上述研究情況,本文提出了一種基于語義相似度及相關(guān)度的綜合概念相似度計算方法。
當(dāng)2個概念具有某些共同特征時,則定義它們是相似的,用sim(x,y)表示概念 x、y之間的相似度。形式上,相似度計算滿足[7]:(1)相似度的值為[0,1]區(qū)間中的一個實數(shù),即 sim(x,y)∈[0,1];(2)如果 2 個概念是完全相同的,則相似度為 1,即 sim(x,y)=1當(dāng)且僅當(dāng) x=y;(3)如果2個概念沒有任何共同特征,則相似度為0,即sim(x,y)=0。
本文基于骨架法構(gòu)建了一個成語典故本體ILQO(Idiom Literary quotation Ontology),為了減小本體的規(guī)模,將本體的范圍確定在楚漢相爭時期,并在該本體上實現(xiàn)語義檢索,試圖通過ILQO查詢出相關(guān)的歷史知識。ILQO樹中最大深度為4,共分為11個大類79個小類,圖1中的本體片斷具有一定的代表性,節(jié)點旁的數(shù)字表示概念的信息量。在ILQO上實現(xiàn)語義檢索,提出了一種基于語義相似度和語義相關(guān)度的綜合概念相似度計算方法。
圖1 ILQO片斷
為了準(zhǔn)確計算概念之間的語義相似度,本文充分考慮概念的語義距離、概念的信息量、概念深度、密度及不對稱等因素,并在現(xiàn)有技術(shù)的基礎(chǔ)上,多方面、多角度地給出概念語義相似度的綜合計算。
1.1.1 概念的語義距離
2個概念間的語義距離,是指在本體樹中連接這2個節(jié)點的最短路徑所跨的邊數(shù)。本文用Dist(Ci,Cj)來表示概念Ci與Cj之間的語義距離。1個概念與其本身的距離為0。語義距離是決定相似度的一個重要因素。一般而言,2個概念的語義距離越大,其相似度越低;反之,2個概念的語義距離越小,其相似度越大。兩者之間可以建立一種簡單的對應(yīng)關(guān)系[3]。這種對應(yīng)關(guān)系需要滿足以下條件:(1)2個概念距離為0時,其相似度為1;(2)2個概念距離為無窮大時,其相似度為 0;(3)2個詞語的距離越大,其相似度越小(單調(diào)下降)。Ci,Cj是本體層次樹中的任意2個節(jié)點,2個概念Ci和Cj的語義距離Dist(Ci,Cj)對相似度的影響可由以下公式?jīng)Q定[8]:
α是可調(diào)節(jié)參數(shù),表示當(dāng)語義相似度為0.5時的語義距離值。
1.1.2 概念的信息量
在計算概念的相似度時,不同的概念擁有的實例不同,概念擁有的實例越多,說明概念在本體樹中的重要性越大,2個概念擁有的實例數(shù)越多,其相似的可能性越大。在本體樹中,給概念分配不同的信息量,信息量的設(shè)定思想是根據(jù)概念下的實例數(shù)來設(shè)定各個概念的權(quán)重系數(shù)。具體公式為:
鑒于ILQO的特征,從分類來講,可看成2個大類,即基于人物的分類(成語典故中涉及的主要人物)和基于其他(除人物分類外的其他10個類)的分類。人物的2個子類中,男性人物擁有絕大多數(shù)實例,女性人物的實例相對偏少,從所查閱的資料顯示涉及女性人物的目前只收集了2個實例。對于其他類,也存在類似的情況,分類下的實例數(shù)目也偏少,甚至有為0的情況(某些分類下暫無實例,主要為了便于以后本體庫的擴(kuò)充)。這樣,在計算概念的信息量時,會出現(xiàn)不平衡的情況,如圖1中行事取法類的信息量是0.029 7,女性人物的信息量為0.019 8。為了解決同一層中分類間的不均衡問題,故對信息量的處理分2種情況考慮:(1)男性人物和其父節(jié)點的信息量計算仍采用公式(2);(2)女性人物及其他分類同父節(jié)點的信息量的公式調(diào)整為:
通過實驗證明,信息量的調(diào)整有助于相似度的提高。通過以上分析可知,2個概念擁有的實例越多,其相似度越大。本文提出2個概念Ci和Cj的信息量對相似度的影響,可由以下公式?jīng)Q定:
從前面的分析可知,若概念Ci和Cj下皆無實例,無相似度可言,故 P2為 0。
1.1.3 概念的深度
在本體的層次樹中,概念的組織自頂向下,分類由大到小、由粗到細(xì),處在離根較遠(yuǎn)的概念間的相似度要比離根近的概念間的相似度要大[3]。節(jié)點的深度是指概念與樹根的最短路徑所包括的邊數(shù)。在本體樹中,每一層都是對上一層概念的細(xì)化,由此可見,在語義距離相同的前提下,2個節(jié)點的深度和越大,概念之間的相似度越大;2個節(jié)點的深度差越小,概念之間的相似度越大。同樣距離的2個概念,其相似度隨著它們所處層次的總和的增加而增加,隨著它們之間層次差的增加而減小[9]。根節(jié)點的深度為:Dep(Root)=1,其他節(jié)點的深度為:Dep(c)=Dep(Parent(c))+1,2個概念 Ci和 Cj的深度對相似度的影響可由以下公式?jīng)Q定:
1.1.4 概念的密度
節(jié)點的密度是指概念的直接子節(jié)點的數(shù)目。本體中不同概念節(jié)點的密度是不同的,有的節(jié)點可能有上百個子節(jié)點,而有的節(jié)點可能只有幾個子節(jié)點。一般來說,某個節(jié)點的子節(jié)點密度越大,說明細(xì)化的概念越具體,這些子節(jié)點間的語義相似度也就越小,反之越大。
用Width(Ci)來表示概念 Ci的密度,概念 Ci和 Cj的密度對相似度的影響可由公式(6)決定:
從前面的分析可知,概念的相似度值是在[0,1]區(qū)間內(nèi)的一個實數(shù),超出該范圍即認(rèn)為是不合法的,故在考慮其密度時,有上述2種可能。
1.1.5 語義相似度的不對稱性分析
[10]對語義相似度的不對稱性進(jìn)行了分析,即概念間的語義相似度具有不對稱性。一般來說,一個概念跟它的祖先相比的相似程度高于其祖先與它相比的相似程度,樹中一個處于較大深度的概念跟一個深度較淺的概念相比的相似程度要大于反過來相比的相似程度即:
1.1.6 概念的語義相似度
綜合本體樹中概念的語義距離、信息量、深度、密度和不對稱因素幾方面的影響,提出概念語義相似度計算的公式:
但在具體的實驗中發(fā)現(xiàn),相似度的5個方面其值均在[0,1]區(qū)間中。簡單地將各部分乘積起來,測試了本體樹中5對不同關(guān)系的概念對,相似度最大值為0.232 5,最小值為0.008 33,這顯然不符合日常經(jīng)驗,故對上述公式進(jìn)行調(diào)整。調(diào)整后的公式為:
公式(9)不僅考慮了語義距離、概念的信息量、概念的深度和寬度,還考慮了語義相似度的不對稱性,能較為合理地體現(xiàn)概念間的語義信息。
概念間的相關(guān)性包括一些能夠體現(xiàn)概念之間客觀存在的聯(lián)系內(nèi)涵。相關(guān)度作為相關(guān)性的量化指標(biāo),用來衡量概念間的相關(guān)程度。一般地,相關(guān)度的取值區(qū)間為[0,1]。若2個概念間沒有聯(lián)系,則這2個概念的相關(guān)度為0;若2個概念之間有直接聯(lián)系,則相關(guān)度為1。由相關(guān)概念間的聯(lián)系,相關(guān)性可分為直接相關(guān)、間接相關(guān)、直接繼承相關(guān)和間接繼承相關(guān)4種[10]。
在 ILQO中,如圖1所示,對于概念“男性人物”和“劉邦”,根據(jù)主觀判斷,“男性人物”和“劉邦”相比的相似程度要低于“劉邦”和“男性人物”的相似程度,也即概念間的語義相似度具有不對稱性。因此,引入不對稱因子:
(1)若 Ci,Cj2 個概念直接相關(guān)(兄弟關(guān)系):則Rel(Ci,Cj)=1,如圖1中蕭何與劉邦的關(guān)系;
(3)若 Ci,Cj2個概念直接繼承相關(guān)(父子關(guān)系):則Rel(Ci,Cj)=0.5,如男性人物和劉邦的關(guān)系;
由以上分析可知,相關(guān)度在很大程度上依賴于本體樹中各概念間的關(guān)系,故對概念的相似度計算有較大的影響。
綜合上面的分析,在基于本體的信息檢索領(lǐng)域用概念關(guān)聯(lián)度來衡量概念間的聯(lián)系,概念的相似度主要考慮語義相似度和語義相關(guān)度2方面的因素,提出如下的概念語義相似度計算公式:
概念相似度是一個主觀性相當(dāng)強(qiáng)的概念,對于不同的應(yīng)用,概念的相似度也不同。調(diào)節(jié)參數(shù)正是根據(jù)系統(tǒng)應(yīng)用的不同來設(shè)計的,這里用λ1和λ2表示調(diào)節(jié)參數(shù)。在計算概念間的相似度時,可以調(diào)整參數(shù)值來確定系統(tǒng)需要的相似度。
公式(1)中的 α參數(shù),參考文獻(xiàn)[12]對其測試發(fā)現(xiàn) α取值為2時能獲得和人們的日常經(jīng)驗相符的相似度值,本文實驗結(jié)果也得到相同的結(jié)論,故取參數(shù)α為2。在公式(10)中,考慮語義相似度和相關(guān)度在相似度計算中具有相同的重要程度,故令λ1和λ2為0.5。實驗證明,該取值的結(jié)果和人們的經(jīng)驗值一致。表1是本體樹中不同概念對的相似度值。
表1 信息量調(diào)整前后對照
從表1中的數(shù)據(jù)可以看出,信息量調(diào)整后相同概念對的相似度值有一定程度的提高,說明調(diào)整是合理的。
徐德智[11]等提出了概念間語義相似度計算方法,陳沈焰[12]等提出了概念語義相似度計算公式,利用其計算可以獲得不同概念間的相似度值。
本文基于本體的概念層次樹所提供的豐富語義信息,提出了一種基于語義相似度和語義相關(guān)度的綜合概念相似度計算方法。語義相似度分別從語義距離、概念的信息量、概念深度、概念密度和不對稱因子幾方面考慮;語義相關(guān)度從直接相關(guān)、間接相關(guān)、直接繼承和間接繼承幾個方面考慮。實驗證明,與兩種傳統(tǒng)的相似度計算方法比較,本方法所獲取的相似度值能更好地體現(xiàn)本體樹中不同概念對的重要程度。該計算方法在ILQO中能獲得較好的相似度計算,如何使其應(yīng)用于其他領(lǐng)域本體的信息檢索,是下一步的研究方向。另外,對影響語義相似度的幾個因素,將其視為相同的重要程度,如何區(qū)分不同的因素對相似度的影響,也是下一步要改進(jìn)的地方。
參考文獻(xiàn)
[1]GUARINO N,GVERTER M C.OntoSeek:content-based access to the Web[J].IEEE Intelligent Systems, 1999,14(3):70-80.
[2]王家琴,李仁發(fā),李仲生,等.一種基于本體的概念語義相似度方法的研究[J].計算機(jī)工程,2007,33(11):201-203.
[3]張忠平,趙海亮,張志惠.基于本體的概念相似度計算.計算機(jī)工程,2009,35(7):17-19.
[4]PESNIK P.Using information content to evaluate semantic similarity[C]//Proc.of the 14th IJCAI.Montereal,Canada:[s.n.],1995:448-453.
[5]AGIRRE E,RIGAU G.A proposal for word sense disambiguation using conceptual distance[C]//Proc.of the 1st International Conference on Recent Advances in NLP.Tzigov Chark, Bulgaria.[s.n.], 1995.
[6]LEACOCK C,CHODOROW M.Combining local context and wordNetsimilarity forword sense identification[J].Computational Liguistics, 1998,24(1):147-165.
[7]朱禮軍,陶蘭,劉慧.領(lǐng)域本體中的概念相似度計算[J].華南理工大學(xué)學(xué)報(自然科學(xué)版),2004,32(11):147-150.
[8]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].中文計算語言學(xué),2002,7(2):59-76.
[9]吳健.基于本體論和詞匯語義相似度的Web服務(wù)發(fā)現(xiàn)[J].計算機(jī)學(xué)報,2005,28(4):595-602.
[10]姜華.基于本體的語義檢索技術(shù)研究與實現(xiàn)[J].現(xiàn)代圖書情報技術(shù),2008(4):39-43.
[11]徐德智,鄭春卉,K.Passi.基于 SUMO的概念語義相似度研究[J].計算機(jī)應(yīng)用,2006,26(1):180-183.
[12]陳沈焰,吳軍華.基于本體的概念語義相似度計算及其應(yīng)用[J].微電子學(xué)與計算機(jī),2008,25(12):96-99.