高慧星,楊 蕊
(燕山大學(xué)里仁學(xué)院,河北 秦皇島 066000)
相似度主要是用于衡量文本中某個(gè)詞語(yǔ)能夠用其它詞語(yǔ)替換的程度。語(yǔ)義相似度這一概念具有較強(qiáng)的主觀性,不同語(yǔ)義之間存在的相似度均存在不同程度的差異[1]。語(yǔ)義之間的相似度通常較為復(fù)雜,僅用數(shù)值進(jìn)行衡量的難度較高[2]。因此,相關(guān)學(xué)者對(duì)語(yǔ)義相似度計(jì)算問(wèn)題進(jìn)行了深入探索,并得出了一系列方法。
翟社平[3]等人首先在句長(zhǎng)、詞序、詞形等方面提取句子的特征,并通過(guò)層次分析法對(duì)權(quán)重進(jìn)行分配,在此基礎(chǔ)上對(duì)結(jié)構(gòu)相似度進(jìn)行計(jì)算,根據(jù)計(jì)算結(jié)果獲取語(yǔ)義相似度。該方法沒(méi)有分析本體之間在網(wǎng)絡(luò)中的ISA關(guān)系,計(jì)算結(jié)果的皮爾遜相關(guān)系數(shù)較低,導(dǎo)致方法存在計(jì)算精度低的問(wèn)題。關(guān)曉菡[4]等人建立句子交互序列,在Siamese模型輸入側(cè)改善交互問(wèn)題,并對(duì)交互序列進(jìn)行卷積處理,利用處理后的交互序列提取句子特征,在更新后的Siamese模型中輸入提取的特征,實(shí)現(xiàn)語(yǔ)義相似度的計(jì)算。該方法無(wú)法獲取本體的ISA關(guān)系,導(dǎo)致計(jì)算結(jié)果的斯皮爾曼相關(guān)系數(shù)較低,計(jì)算精度差。朱文躍[5]等人通過(guò)結(jié)構(gòu)相似度、時(shí)間要素、時(shí)間名稱(chēng)、集合相似度等因素計(jì)算語(yǔ)義相似度,該方法計(jì)算語(yǔ)義相似度所用的時(shí)間較長(zhǎng),存在計(jì)算效率低的問(wèn)題。
為了解決上述方法中存在的問(wèn)題,提出基于ISA關(guān)系的網(wǎng)絡(luò)本體語(yǔ)義相似度計(jì)算方法。
基于ISA關(guān)系的網(wǎng)絡(luò)本體語(yǔ)義相似度計(jì)算方法的ISA關(guān)系提取過(guò)程為:對(duì)無(wú)關(guān)頁(yè)面進(jìn)行預(yù)處理,用分類(lèi)問(wèn)題代替ISA關(guān)系生成問(wèn)題,經(jīng)過(guò)預(yù)處理后,提取web頁(yè)面的特征構(gòu)成訓(xùn)練集,在分類(lèi)模型中輸入訓(xùn)練集,通過(guò)權(quán)重學(xué)習(xí)和評(píng)分函數(shù)在模型學(xué)習(xí)過(guò)程中對(duì)分類(lèi)模型進(jìn)行訓(xùn)練,通過(guò)模型獲得ISA關(guān)系。提取網(wǎng)絡(luò)鏈接結(jié)構(gòu)特征、實(shí)體-標(biāo)簽依賴(lài)特征和標(biāo)簽特征,根據(jù)提取的特征建立ISA關(guān)系分類(lèi)模型[6]。
通過(guò)下述流程獲取ISA關(guān)系:
1)標(biāo)簽長(zhǎng)度:當(dāng)用戶(hù)自定義標(biāo)簽過(guò)長(zhǎng)時(shí),表述過(guò)于具體,當(dāng)用戶(hù)自定義標(biāo)簽過(guò)短時(shí),表述過(guò)于籠統(tǒng),將標(biāo)簽長(zhǎng)度定義為f1(c)=L(c),其中,函數(shù)L(c)的主要作用是對(duì)標(biāo)簽c對(duì)應(yīng)的長(zhǎng)度進(jìn)行計(jì)算。
2)標(biāo)簽中心詞POS標(biāo)注:有效標(biāo)簽指的是網(wǎng)絡(luò)中存在的名詞或短語(yǔ)等,通過(guò)自然語(yǔ)言處理技術(shù)(詞性標(biāo)注方法和分詞標(biāo)注方法[7]等)獲取標(biāo)識(shí)標(biāo)簽c和中心詞在網(wǎng)絡(luò)中的詞性。將其作為網(wǎng)絡(luò)特征f2(c),常用的方法包括詞性標(biāo)注和分詞標(biāo)注等:
(1)
3)概念性詞語(yǔ):“政治”、“經(jīng)濟(jì)”等概念性詞語(yǔ)不能對(duì)實(shí)體類(lèi)別進(jìn)行區(qū)分,因此基于ISA關(guān)系的網(wǎng)絡(luò)本體語(yǔ)義相似度計(jì)算方法選取的詞典為概念性詞語(yǔ),對(duì)標(biāo)簽c和標(biāo)簽c中心詞是否存在于詞典中進(jìn)行判斷,并將其作為網(wǎng)絡(luò)特征
(2)
4)中文語(yǔ)言模式f4(c):
(3)
5)實(shí)體-標(biāo)簽的公共序列
可能重復(fù)出現(xiàn)在中文標(biāo)簽和實(shí)體中的公共序列即為實(shí)體-標(biāo)簽的公共序列,將公共序列是否出現(xiàn)在網(wǎng)絡(luò)中作為特征,用f5描述。
6)公共序列-中心詞匹配
描述的是在公共序列中重復(fù)出現(xiàn)的標(biāo)簽中心詞,用f6進(jìn)行描述。
7)標(biāo)簽混雜度
設(shè)置實(shí)體集合Ec,由網(wǎng)絡(luò)頁(yè)面構(gòu)成,設(shè)purity代表的是標(biāo)簽c對(duì)應(yīng)的混雜度,當(dāng)實(shí)體在集合Ec中越相似時(shí),屬于標(biāo)簽混雜度purity的概率越低,屬于有效標(biāo)簽的概率越高。標(biāo)簽混雜度purity的計(jì)算公式如下
(4)
式中,L代表的是實(shí)體標(biāo)簽集合的命名,El、Ec分別代表的是標(biāo)記為l和c的實(shí)體集合。
設(shè)置閾值τ,當(dāng)標(biāo)簽混雜度purity(c)大于閾值τ時(shí),判定其為有效標(biāo)簽特征,用f7描述。
8)標(biāo)簽局部主體相關(guān)性
相關(guān)頁(yè)面在網(wǎng)絡(luò)中的關(guān)聯(lián)通過(guò)頁(yè)面跳轉(zhuǎn)實(shí)現(xiàn),屬于主題相關(guān),在網(wǎng)絡(luò)中存在關(guān)聯(lián)的頁(yè)面形成了關(guān)聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)。
頁(yè)面標(biāo)題即為節(jié)點(diǎn),也被稱(chēng)為候選實(shí)體e,所有實(shí)體e在網(wǎng)絡(luò)中都存在著對(duì)應(yīng)的用戶(hù)自定義標(biāo)簽,可用標(biāo)簽集合C表示。網(wǎng)絡(luò)結(jié)構(gòu)中的邊存在兩種,分別是出邊OutLink和入邊InLink,其表達(dá)式分別如下
(5)
式中,lc、le均代表的是網(wǎng)絡(luò)結(jié)構(gòu)的邊;集合Lin(e)由入邊構(gòu)成,屬于入邊集,集合Lout(e)由出邊構(gòu)成,屬于出邊集。上式描述的是實(shí)體e的兩種邊與c重合時(shí)構(gòu)成的鏈接集合,標(biāo)簽主題相關(guān)的概率隨著重合頻次的升高而增大,通過(guò)上述分析,將重合頻次作為局部特征,利用下式進(jìn)行計(jì)算
f8(e,c,L(t))=|{InLinke,c|Lin(e)∈L(t)}|
+|{outLinke,c|Lout(e)∈L(t)}|
(6)
9)標(biāo)簽全局主題相關(guān)性
(7)
式中,LinkGraphin、LinkGraphout分別代表的是入邊和出邊在關(guān)聯(lián)網(wǎng)絡(luò)中構(gòu)成的集合,結(jié)合上述公式計(jì)算結(jié)果,建立全局特征f9(c,LinkGraph)
(8)
10)入邊、出邊主題權(quán)重
在出邊和入邊上對(duì)重合頻次進(jìn)行歸一化處理[8],在主題相關(guān)性中分析該標(biāo)簽的貢獻(xiàn)程度,并將其作為主題權(quán)重f10、f11
(9)
式中,outLinkEdges、InLinkEdges分別代表的是e的全部出邊和全部入邊。
11)實(shí)體主題相關(guān)性
實(shí)體e與網(wǎng)絡(luò)中其它節(jié)點(diǎn)之間的關(guān)聯(lián)程度隨著實(shí)體e在關(guān)聯(lián)網(wǎng)絡(luò)LinkGraph中存在的邊數(shù)的增多而增強(qiáng),實(shí)體主題相關(guān)性f12(e,LinkGraph)可通過(guò)下式計(jì)算得到
(10)
為了獲取網(wǎng)絡(luò)本體之間的ISA關(guān)系,對(duì)上述獲取的特征進(jìn)行劃分,分為F1
f(e,c,L(t))=w1F1(c)+w2F2(e,c)+
w3F3(e,c,L(t))+w0
(11)
當(dāng)評(píng)分函數(shù)的值為負(fù)數(shù)時(shí),表明不存在ISA關(guān)系,當(dāng)評(píng)分函數(shù)的值為正數(shù)時(shí),表明存在ISA關(guān)系。式中,w1、w2、w3分別代表的是在劃分ISA關(guān)系過(guò)程中F1、F2、F3特征集合產(chǎn)生的作用,w0代表的是特征權(quán)重。
根據(jù)上述過(guò)程獲得網(wǎng)絡(luò)本體之間存在的ISA關(guān)系,設(shè)IF代表的是信息量因子,D代表的是距離因子,P代表的是屬性因子,L代表的是層次因子,基于ISA關(guān)系的網(wǎng)絡(luò)本體語(yǔ)義相似度計(jì)算方法根據(jù)本體之間的ISA關(guān)系對(duì)上述因子進(jìn)行線(xiàn)性加權(quán)組合,進(jìn)而計(jì)算網(wǎng)絡(luò)本體語(yǔ)義相似度Similarity(c1,c2)
(12)
式中,參數(shù)α、β、γ、θ的總和為1。
語(yǔ)義距離在網(wǎng)絡(luò)本體語(yǔ)義相似度計(jì)算過(guò)程中產(chǎn)生的影響較大,語(yǔ)義距離直接影響著兩個(gè)概念之間的語(yǔ)義差異程度,概念之間的相似度隨著語(yǔ)義距離的增大而降低[9,10]。設(shè)置距離因子D,其主要作用是衡量語(yǔ)義距離在計(jì)算過(guò)程中對(duì)相似度結(jié)果產(chǎn)生的影響。
設(shè)Distance(c1,c2)代表的是概念c1、c2之間存在的語(yǔ)義距離,其計(jì)算公式如下
Distance(c1,c2)=edge_count(p,c1)+edge_count(p,c2)
(13)
式中,?p∈LCA(c1,c2),LCA(j,k)={h,n},j、k代表的是概念節(jié)點(diǎn),h、n代表的是祖先節(jié)點(diǎn);edge_count(p,c)代表的是最短路徑長(zhǎng)度。
用Levelparent(c1,c2)描述概念之間在網(wǎng)絡(luò)中對(duì)應(yīng)的層次因子。根據(jù)本體圖的特性可知,在網(wǎng)絡(luò)中概念之間存在多個(gè)共同祖先的可能性較大,在本體圖中計(jì)算共同祖先所處層次對(duì)應(yīng)的最小值Levelparent(c1,c2)=min{Level(a)},其中a∈LCA(c1,c2)。
本體在網(wǎng)絡(luò)中的具體化程度可通過(guò)本體圖的深度Depth進(jìn)行描述,其計(jì)算公式如下
Depth=max{MaxSimplePathLen(thing,c)}+1
(14)
在歸一化處理層次因子之前,需要用熵形式表示層次因子,如式(15)所示
(15)
概念之間的相似性與共同屬性之間呈正相關(guān),設(shè)置屬性因子P,其主要作用是描述共同屬性在語(yǔ)義相似度計(jì)算過(guò)程中產(chǎn)生的影響[11,12]。
設(shè)P(c1,c2)代表的是在所有屬性中概念c1、c2共同屬性的比例,其計(jì)算公式如下
(16)
式中,property代表的是屬性集合。
用IF(c1,c2)描述概念c1、c2在網(wǎng)絡(luò)中的信息量因子,其實(shí)質(zhì)是網(wǎng)絡(luò)中信息量的大小,可通過(guò)下式計(jì)算得到
(17)
式中,IC(a)、IC(b)均代表的是信息量。參數(shù)ICDishIn(LCA(a,b))的計(jì)算過(guò)程如下
1)獲取ICDishIn(LCA(a,b))在網(wǎng)絡(luò)結(jié)構(gòu)中的共同祖先;
2)計(jì)算共同祖先parent在網(wǎng)絡(luò)結(jié)構(gòu)中到概念c1和概念c2的獨(dú)立路徑數(shù)量,用m1和m2分別描述其對(duì)應(yīng)的獨(dú)立路徑數(shù)量,祖先parent對(duì)應(yīng)的路徑特征feature可通過(guò)數(shù)量m1和m2計(jì)算得到feature=|m1-m2|,此時(shí)獲得多個(gè)特征featurei和多個(gè)祖先parenti構(gòu)成的二元組
3)對(duì)上述獲取的featurei大小進(jìn)行對(duì)比,刪除信息量小的featurei,保留信息量大的featurei,設(shè)置集合c(parent),由信息量大的祖先節(jié)點(diǎn)parent構(gòu)成。
4)ICDishIn(LCA(a,b))=avg{IC(parenti)},parenti∈c(parent)。
為了驗(yàn)證基于ISA關(guān)系的網(wǎng)絡(luò)本體語(yǔ)義相似度計(jì)算方法的整體有效性,需要對(duì)基于ISA關(guān)系的網(wǎng)絡(luò)本體語(yǔ)義相似度計(jì)算方法進(jìn)行測(cè)試。
分別采用基于ISA關(guān)系的網(wǎng)絡(luò)本體語(yǔ)義相似度計(jì)算方法(方法1)、多特征融合的句子語(yǔ)義相似度計(jì)算方法(方法2)和基于雙向字交互卷積網(wǎng)絡(luò)的語(yǔ)義相似度計(jì)算方法(方法3)進(jìn)行如下測(cè)試:
1)皮爾遜相關(guān)系數(shù)PPC的主要作用是對(duì)數(shù)據(jù)間的線(xiàn)性相關(guān)性進(jìn)行衡量,其值越高,表明方法的語(yǔ)義相似度計(jì)算越精準(zhǔn),PPC可通過(guò)下式計(jì)算得到
(18)
方法1、方法2和方法3的皮爾遜相關(guān)系數(shù)PPC如圖1所示。
圖1 皮爾遜相關(guān)系數(shù)測(cè)試結(jié)果
對(duì)圖1中的數(shù)據(jù)進(jìn)行分析可知,方法1的皮爾遜相關(guān)系數(shù)隨著數(shù)據(jù)量的增多而降低,但降低幅度較小,且當(dāng)數(shù)據(jù)量超過(guò)200個(gè)后,方法1的皮爾遜相關(guān)系數(shù)基本保持不變;方法2和方法3的皮爾遜相關(guān)系數(shù)隨著數(shù)據(jù)量的增大而降低,與其它兩種方法相比,方法2的下降趨勢(shì)較大,經(jīng)對(duì)比發(fā)現(xiàn)在數(shù)據(jù)量相同時(shí),方法1的皮爾遜相關(guān)系數(shù)均高于方法2和方法3的皮爾遜相關(guān)系數(shù),驗(yàn)證了方法1的整體有效性。
2)斯皮爾曼相關(guān)系數(shù)SRCC的主要作用是對(duì)數(shù)據(jù)間在網(wǎng)絡(luò)中的排序相關(guān)性進(jìn)行衡量,其值越高,表明相似度計(jì)算結(jié)果越精準(zhǔn),SRCC可通過(guò)下式計(jì)算得到
(19)
方法1、方法2和方法3的斯皮爾曼相關(guān)系數(shù)SRCC測(cè)試結(jié)果如圖2所示。
圖2 斯皮爾曼相關(guān)系數(shù)測(cè)試結(jié)果
根據(jù)圖2可知,數(shù)據(jù)量與斯皮爾曼相關(guān)系數(shù)之間存在線(xiàn)性關(guān)系,隨著數(shù)據(jù)量的增加,斯皮爾曼相關(guān)系數(shù)不斷減小,對(duì)比方法1、方法2和方法3的測(cè)試結(jié)果可知,方法1的斯皮爾曼相關(guān)系數(shù)最高,因?yàn)榉椒?對(duì)網(wǎng)絡(luò)本體語(yǔ)義相似度進(jìn)行計(jì)算之前,對(duì)網(wǎng)絡(luò)本體之間存在的ISA關(guān)系進(jìn)行了分析,在此基礎(chǔ)上對(duì)其語(yǔ)義相似度進(jìn)行計(jì)算,提高了計(jì)算結(jié)果的精度。
3)分別采用方法1、方法2和方法3對(duì)網(wǎng)絡(luò)本體語(yǔ)義相似度進(jìn)行計(jì)算,對(duì)比不同方法的計(jì)算時(shí)間,測(cè)試結(jié)果如表1所示。
表1 計(jì)算時(shí)間測(cè)試結(jié)果
根據(jù)表1可知,隨著測(cè)試次數(shù)的增加,三種方法的計(jì)算時(shí)間不斷增加,但經(jīng)過(guò)對(duì)比發(fā)現(xiàn),在相同次數(shù)下,方法1的計(jì)算時(shí)間均少于方法2和方法3的計(jì)算時(shí)間,表明方法1可在較短時(shí)間內(nèi)完成網(wǎng)絡(luò)本體語(yǔ)義相似度的計(jì)算,具有較高的計(jì)算效率。
在信息領(lǐng)域技術(shù)研究過(guò)程中語(yǔ)義相似度計(jì)算屬于熱點(diǎn)研究方向,在信息檢索和文本分類(lèi)等領(lǐng)域中得到了廣泛地應(yīng)用。在計(jì)算精度和效率方面目前語(yǔ)義相似度計(jì)算方法還存在一些問(wèn)題和不足,提出基于ISA關(guān)系的網(wǎng)絡(luò)本體語(yǔ)義相似度計(jì)算方法,首先對(duì)網(wǎng)絡(luò)本體之間存在的ISA關(guān)系進(jìn)行分析,根據(jù)分析結(jié)果對(duì)語(yǔ)義相似度進(jìn)行計(jì)算,實(shí)驗(yàn)結(jié)果表明在計(jì)算精度和計(jì)算效率方面基于ISA關(guān)系的網(wǎng)絡(luò)本體語(yǔ)義相似度計(jì)算方法進(jìn)行了優(yōu)化和改善,可在較短的時(shí)間內(nèi)精準(zhǔn)的完成網(wǎng)絡(luò)本體語(yǔ)義相似度的計(jì)算。