伍振興
基于WordNet的概念格間語義相似度計算方法
伍振興
本文提出了一種基于WordNet的概念格間語義相似度計算方法,該方法利用WordNet中各詞匯之間的結構關系,參考其各詞匯間的距離、密度、深度來計算各概念間的語義相似度來反映概念間的語義關系,然后根據(jù)概念與其他的概念格中的語義相似度來計算兩個概念格間的語義相似度,為以后的研究做準備。但是這種方法尚不完善,需進一步進行擴展與改進。
概念格具有良好的概念與概念之間的層次結構,已經(jīng)被廣泛應用于軟件工程、信息檢索、數(shù)據(jù)挖掘等領域。但現(xiàn)如今對于各概念格之間的相似度計算和匹配的研究則相對較少。本文提出了一種基于WordNet的概念格間語義相似度計算方法,該方法利用WordNet中各詞匯之間的結構關系,研究兩個概念格之間的語義相似度計算,為以后概念格間的語義匹配做準備。
概念格,又稱為Galois格,是德國數(shù)學家Wille R.于1982年首次提的。概念格是根據(jù)數(shù)據(jù)集中對象與屬性之間的二元關系建立的一種概念層次結構,體現(xiàn)了概念之間的泛化和特化關系。
定義 稱(U,A,I)為一個形式背景,其中U={x1,x2,…,xn}為對象集,每個xi(i≤n)稱為一個對象;A={a1,a2,…,am}為屬性集,每個ai(i≤m)稱為一個屬性;I 為U 和A之間的二元關系,I?U ×A .若(x,a) ∈I ,則說x 具有屬性a ,記為xIa 。
若用1表示(x,a )∈I ,用0表示(x,a)?I ,這樣的形式背景就可以表示為只有0和1的表格。
對于形式背景(U,A,I),在對象集X?U 和屬性集B?A上 分別定義運算:
?x∈U ,記{x}*為x*;?a∈A, 記{a}*為a*.若?x∈U ,x*≠?,x*≠A, 且?a∈A, a*≠?,a*≠U則稱該形式背景(U,A,I)是正則的。
定義 2 設(U,A,I)為形式背景。如果一個二元組(X,B)滿足X?=B ,且B?=X ,則稱(X,B)是一個形式概念,簡稱概念。其中X 稱為概念的外延,B稱為概念的內(nèi)涵。
概念格的每個節(jié)點是一個形式概念,由兩部分組成:外延,即概念所覆蓋的實例;內(nèi)涵,即該概念所覆蓋實例的共同特征。概念格可以圖形化形式表示為有標號的線圖,圖中的節(jié)點表示一個概念,節(jié)點間的連線表示節(jié)點間存在泛化與特化關系,這種線圖也稱為Hasse圖。它是概念格的可視化表示。
WordNet是一個大型的英語詞匯數(shù)據(jù)庫,它來源于美國Princeton大學GeorgeA.Miller教授所主持的一項知識工程的項目。WordNet是按照詞匯的語義關系來組織詞匯,它使用同義詞集合來表示概念,而這些概念集合則通過其中的某一特定的關系或者結構來相互連接,形成一個大型的樹形結構。目前WordNet中的詞匯數(shù)量已經(jīng)近20萬條,并且每月超千條的速度不斷的增長。
WordNet之間存在著兩種關系:語義關系和詞匯關系。其中詞匯關系指詞形之間所存在的關系,語義關系指詞義之間存在的關系。這些關系中比較重要的是同義關系、近似關系、反義關系、上下位關系和部分整體關系。
(1)同義關系是WordNet中最基本的關系,它屬于詞匯關系,是形成同義詞集的基礎。在WordNet中,同義關系并不是說兩個詞匯在任何語境下都可以相互交換的,而是指在某一特定的語境下,這兩個詞可以交換。
(2)反義關系和近似關系是指形容詞集之間的關系,它是語義關系。在WordNet中形容詞集的組織結構主要依靠反義關系和近似關系。形容詞集是按簇(Cluster)組織的,每個簇都包含一個主節(jié)點(Head Synset),大多數(shù)的主節(jié)點都有一個或多個附屬節(jié)點(Satellite Synset),主節(jié)點和附屬節(jié)點間通過近似關系連接。其中每個主節(jié)點中至少存在一個詞和另外一個簇中的主節(jié)點所包含的詞間存在反義關系。
(3)上下位關系是WordNet中最重要的關系之一,是屬于語義關系,指在動詞集和名詞集上的關系,基于這種關系形成了動詞集和名詞集上的層次結構。相對于下位詞,上位詞是一個通用術語,它表示由所有實例構成的一個類的整體;相對于上位詞,下位詞是一個具體術語,它表示類中的一個實例。
(4)部分整體關系是WordNet中另外一種重要的關系,和上下位關系一樣同屬語義關系,是指在名詞集上的關系。在WordNet中,部分整體關系通常被分成三類:即對于任意給定的兩個名詞集S1和S2,若S1是整體,S2是部分,則S2或者是S1的成員,或者是構成S1的材料,或者是S1的組成部分。
概念間的語義相似度計算
從語義上講,概念格中的概念關系主要有分為以下四種:(1)part-of關系,概念間整體與部分的關系;(2)kind-of關系,概念間的超概念和子概念的關系,(3)instance-of關系,概念中的具體和抽象的關系,(4)attribute-of關系;概念與屬性的關系。但是也有些學者將概念間的語義關系拓展到概念間的行為關系和因果關系等。
依據(jù)參照WordNet本體來判斷概念之間的語義和結構關系,利用概念間的關系組成的圖形結構,參考概念間的距離、密度、深度來計算各概念間的語義相似度來反映概念間的語義關系為后期的工作做準備。概念間的距離越近、深度越深,密度越大,那么相似度越大。同等情況之下,離根遠的概念間的語義相似度和結構肯定要比離根近的概念要大而且結構越相似。因此本文相似度的計算將深度、密度和距離作為參考因素之一。
其中simd表示概念間距離的相似度計算,參數(shù)dist表示兩個概念在WordNet中的距離,θ是一個閾值參數(shù)。距離越大,simd的值就越小,當兩個概念間的距離超過θ時,那么就認為相似度為0。
其中simm表示概念間密度的相似度,NUM表示從當前兩個概念往上找到最近的超概念,然后統(tǒng)計從超概念到當前兩個概念間的所有概念的個數(shù)(含當前兩個概念和超概念)。若當前兩個概念與超概念間沒有其他概念,則simm為1。
其中sims表示概念間深度的相似度計算,參數(shù)DeepTotal表示在WordNet整棵語義樹中深度,參數(shù)deepth是兩個概念的深度最深的那個值。深度越大,sims的值就越大。
綜合考慮概念間的密度,深度和距離三個因素,根據(jù)(3)(4)(5)三個計算方式,基于WordNet中的兩個概念的語義相似度為:
其中α+β+μ=1,α、β、μ分別為距離、密度和深度的權重。
概念與另外概念格語義相似度的計算
根據(jù)上述公式(3)(4)(5)(6)來計算兩個概念格中的概念基于WordNet的語義相似度計算方法,本文可以計算得出概念格L1中的概念Ci到另外一個概念格L2中所有概念的相似度,找出相似度最大的語義相似度的候選概念結點,根據(jù)概念格的特性,可以找出與其最近的候選概念的子結點,層層迭代,可以得出概念Ci到概念格L2關系最緊密的一條路徑Ri,那么該概念結點Ci到概念格L2的相似度計算如下:
其中n為路徑Ri上各概念結點的個數(shù),θi為路徑Ri上各概念結點的權重。越是概念相似度越高的概念,兩結點之間的語義關系或詞匯關系越近,θi的值越大,其中
概念格間的語義相似度計算
本文可以根據(jù)公式(7)得出的概念Ci到另外一個概念格L2中的相似度計算度,而后將此計算方法擴展到概念格L1中的所有概念結點,然后選取所有相似度的平均值作為概念格L1和L2的相似度。
其中n為概念格L1上概念結點的個數(shù)。
本文提出了一種基于WordNet的概念格間語義相似度計算方法,該方法利用WordNet中各詞匯之間的結構關系,參考其各詞匯間的距離、密度、深度來計算各概念間的語義相似度來反映概念間的語義關系,然后根據(jù)概念與其他的概念格中的語義相似度來計算兩個概念格間的語義相似度,為以后的研究做準備。但是這種方法尚不完善,需進一步進行擴展與改進。
10.3969/j.issn.1001-8972.2015.09.011