曾淑琴,吳揚(yáng)揚(yáng)
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門(mén)361021)
語(yǔ)義相關(guān)度的研究是自然語(yǔ)義處理NLP(Natural Language Processing)的基礎(chǔ),廣泛用于語(yǔ)義消歧、信息檢索、文本分類(lèi)、文本聚類(lèi)等領(lǐng)域。本文將其作為數(shù)據(jù)空間[1]研究課題的基礎(chǔ)性?xún)?nèi)容來(lái)研究,旨在從內(nèi)容上發(fā)現(xiàn)數(shù)據(jù)空間中的數(shù)據(jù)源之間的關(guān)聯(lián)。
關(guān)于語(yǔ)義相關(guān)度的研究在國(guó)外較多,目前的方法一般分為兩類(lèi)[2]:一種是統(tǒng)計(jì)方法,另一種是基于語(yǔ)義詞典方法。Jiang和Conrath利用Wordnet圖的上位關(guān)系,通過(guò)合并概念c1和c2的信息內(nèi)容以及最小的共同類(lèi)屬者,綜合基于邊以及結(jié)點(diǎn)的技術(shù),再用語(yǔ)料庫(kù)統(tǒng)計(jì)作為輔助因素進(jìn)行矯正[2];Banerjee和 Pedersen在 Wordnet的英文語(yǔ)境下,將單詞的解釋中重疊的單詞數(shù)量的平方,及含有上下文等關(guān)系類(lèi)型的詞語(yǔ)的單詞重疊的數(shù)量的平方之和,共同作為最后詞語(yǔ)相關(guān)度的值[2]。
國(guó)內(nèi)在語(yǔ)義相關(guān)方面的研究還較欠缺,且大多數(shù)選擇英文環(huán)境,主要基于HowNet、詞林、維基百科等知識(shí)庫(kù)[3-5]。參考文獻(xiàn)[3]根據(jù)知網(wǎng)中的特征文件下位義原和上位義原擁有的屬性以及縱向語(yǔ)義聯(lián)系和實(shí)例信息計(jì)算詞語(yǔ)的相關(guān)度。參考文獻(xiàn)[4]通過(guò)挖掘直接或間接的關(guān)系而提出的新的語(yǔ)義相關(guān)度計(jì)算模型,適用于類(lèi)似知網(wǎng)的知識(shí)體系??偨Y(jié)基于語(yǔ)義詞典度量語(yǔ)義相關(guān)度所考慮的因素,即最短路徑長(zhǎng)度、局部網(wǎng)絡(luò)密度、結(jié)點(diǎn)在層次中的深度、連接的類(lèi)型、概念結(jié)點(diǎn)的信息含量以及概念的釋義,將上述6個(gè)因素歸為三大類(lèi):結(jié)構(gòu)特點(diǎn)、信息量和概念釋義。
本文在綜合了參考文獻(xiàn)[3]中所提到的基本義原相似度和關(guān)聯(lián)度以及其他相關(guān)研究的基礎(chǔ)上定義了一個(gè)詞語(yǔ)相關(guān)度算法模型,實(shí)現(xiàn)計(jì)算同種詞性、不同詞性詞語(yǔ)之間的相關(guān)度。
中國(guó)人民大學(xué)的董振東教授等人編寫(xiě)的《知網(wǎng)》以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,包含豐富詞匯,反映概念的共性和個(gè)性,是以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)。
知網(wǎng)中的語(yǔ)義通過(guò)義原描述,共有1 618個(gè)義原被分成 10大類(lèi),每一類(lèi)都是由一個(gè)樹(shù)結(jié)構(gòu)來(lái)存儲(chǔ),而不同類(lèi)之間的義原構(gòu)成一個(gè)網(wǎng)狀結(jié)構(gòu),它們通過(guò)解釋義原關(guān)聯(lián)起來(lái)。知網(wǎng)中的詞語(yǔ)關(guān)系類(lèi)型[6]如表1所示。
定義1語(yǔ)義相似度是指兩個(gè)詞在不同的上下文中可以互相替換使用而不改變文本的句法語(yǔ)義結(jié)構(gòu)的程度[7]。
定義2詞語(yǔ)關(guān)聯(lián)度是指詞語(yǔ)在概念解釋上所存在的語(yǔ)義關(guān)系的程度。
定義3詞語(yǔ)相關(guān)度是指詞語(yǔ)間含有表1中的關(guān)系類(lèi)型或存在詞語(yǔ)隱含傳遞等相互關(guān)聯(lián)的特性,即兩個(gè)詞語(yǔ)相互關(guān)聯(lián)的程度從側(cè)面反映了兩個(gè)詞語(yǔ)在同一個(gè)語(yǔ)境中共現(xiàn)的可能性,其影響因素有詞語(yǔ)的相似性以及關(guān)聯(lián)性等。
鑒于目前國(guó)內(nèi)還沒(méi)有對(duì)相關(guān)度判斷的標(biāo)準(zhǔn)和類(lèi)似的專(zhuān)門(mén)人工判斷的詞集,本實(shí)驗(yàn)中對(duì)相關(guān)度的判斷主要從兩個(gè)方面來(lái)界定:一是依據(jù)上文的定義;二是通過(guò)對(duì)比參考文獻(xiàn)[3]中相關(guān)度的實(shí)驗(yàn)結(jié)果,改進(jìn)其中一些明顯不合理的實(shí)驗(yàn)結(jié)果來(lái)確認(rèn)本方法的改進(jìn)性。
通過(guò)對(duì)知網(wǎng)結(jié)構(gòu)的分析,根據(jù)如下幾個(gè)因素計(jì)算語(yǔ)義相關(guān)度:
(1)詞語(yǔ)的相似度
知網(wǎng)中的詞語(yǔ)通過(guò)一個(gè)記錄來(lái)表示,其中有一項(xiàng)語(yǔ)義表達(dá)式DEF對(duì)該詞語(yǔ)進(jìn)行描述,語(yǔ)義表達(dá)式由概念和義原組成。知網(wǎng)中義原有3個(gè)類(lèi)別,另有一些關(guān)系符號(hào)對(duì)概念的語(yǔ)義進(jìn)行描述的義原,因此,可以將義原分為基本義原、其他義原、關(guān)系義原以及關(guān)系符號(hào)義原。詞語(yǔ)的相似度可以通過(guò)這4種義原類(lèi)型求得。
采用下列方法計(jì)算兩個(gè)詞語(yǔ)之間的相似度:將兩個(gè)詞語(yǔ)的語(yǔ)義表達(dá)式中的義原抽取出來(lái),計(jì)算對(duì)應(yīng)義原類(lèi)型的相似度。如果某一義原類(lèi)型的對(duì)應(yīng)項(xiàng)為空,則將任何義原 (或具體詞)與空值的相似度定義為一個(gè)比較小的常數(shù);如果某一義原類(lèi)型包含多個(gè)義原,則將各個(gè)義原的相似度加權(quán)平均作為該類(lèi)型義原的相似度[7]。
第一基本義原即主要特征義原,兩個(gè)詞語(yǔ)的這一部分的相似度采用式(1)計(jì)算:
[7]中提到的第一基本義原直接用path的倒數(shù)計(jì)算,不夠逼近相關(guān)度的實(shí)際曲線。本文的思想來(lái)源于BP神經(jīng)網(wǎng)絡(luò)的S型函數(shù),該函數(shù)所劃分的區(qū)域是一個(gè)非線性的超平面組成的區(qū)域,是比較柔和、光滑的任意界面,因而它的分類(lèi)比線性劃分精確、合理,且容錯(cuò)性較好,取值范圍在[0,1]之間,其圖像更加逼近相關(guān)度的實(shí)際曲線,故而將其作為第一基本義原的表達(dá)式。
其他義原即語(yǔ)義表達(dá)式中除第一基本義原以外的所有其他義原(或具體詞),其值是一個(gè)特征結(jié)構(gòu):sim2(p1,p2)[6]。
關(guān)系義原即對(duì)應(yīng)于所有關(guān)系義原描述式,其值是一個(gè)特征結(jié)構(gòu),記為:sim3(p1,p2)。
表1 知網(wǎng)中的關(guān)系類(lèi)型
關(guān)系符號(hào)義原即對(duì)應(yīng)于關(guān)系符號(hào)描述式,其值是一個(gè)特征結(jié)構(gòu),記為:sim4(p1,p2)。
于是,兩個(gè)概念(義項(xiàng))語(yǔ)義表達(dá)式的整體相似度為[6]:
其中 β1+β2+β3+β4=1,βi的值依次遞減, 反映了這 4 類(lèi)義原對(duì)整體的相似度所起到的作用是依次遞減的。
詞語(yǔ)的相似度:sim(w1,w2)=maxC_sim(ci,cj)
(2)詞語(yǔ)的關(guān)聯(lián)度計(jì)算
知網(wǎng)的每類(lèi)義原都用一個(gè)樹(shù)結(jié)構(gòu)來(lái)存儲(chǔ),形成上下文的層次結(jié)構(gòu),而每個(gè)義原和不在同一個(gè)義原樹(shù)中的義原彼此也可能存在關(guān)系,這樣就表現(xiàn)出義原之間的橫向聯(lián)系,也就是關(guān)聯(lián)關(guān)系,從而使整個(gè)義原體系形成一個(gè)網(wǎng)狀結(jié)構(gòu)。
本文通過(guò)對(duì)HowNet層次網(wǎng)絡(luò)結(jié)構(gòu)的分析,找到義原和解釋義原之間的重疊部分,從而獲取詞語(yǔ)關(guān)聯(lián)度的計(jì)算模型。
①義原之間的關(guān)聯(lián)度
義原p1和p2的關(guān)聯(lián)度可以表示為:
其中 qi、qj是常數(shù),p1i表示 p1的第 i個(gè)解釋義原,p2j表示p2第 j個(gè)解釋義原,dis(p1i,p2)是分別求 p2與 p1的解釋義原的基本義原的相似度之和,dis(p1,p2j)是分別求p1與p2的解釋義原的基本義原的相似度之和,n和m分別是p1和p2解釋義原的個(gè)數(shù)。
②義原之間的相關(guān)度
義原的相關(guān)度由義原的相似度及其關(guān)聯(lián)度共同決定,表示為:
其中,s1與s2為動(dòng)態(tài)分配權(quán)值,其和為1。
③義項(xiàng)(概念)之間的關(guān)聯(lián)度
每個(gè)詞語(yǔ)可能有幾個(gè)義項(xiàng),而義項(xiàng)是通過(guò)義原來(lái)描述的,故而義項(xiàng)的關(guān)聯(lián)度要從義原的相關(guān)度上來(lái)計(jì)算,而詞語(yǔ)的關(guān)聯(lián)度則是從義項(xiàng)的關(guān)聯(lián)度上來(lái)計(jì)算。
式中,pi、pj分別是 c1、c2中的解釋義原。 其中 i≤size(c1),j≤size(c2)。
④詞語(yǔ)之間的關(guān)聯(lián)度
每個(gè)詞語(yǔ)可能有幾個(gè)義項(xiàng),故而可以將詞語(yǔ)之間的關(guān)聯(lián)度表示為:
式中,ci,cj分別表示 w1的第 i個(gè)概念和 w2的第 j個(gè)概念。
(3)實(shí)例因素
實(shí)例因素模型即義項(xiàng)的實(shí)例單詞的集合,實(shí)例因素對(duì)相關(guān)度的影響[3]:
其中,pei為第i個(gè)義項(xiàng)的實(shí)例單詞集合的任意一個(gè)詞的義項(xiàng),用pi的實(shí)例中詞的義項(xiàng)與pj計(jì)算相似度,取最大值。
(4)詞語(yǔ)的相關(guān)度計(jì)算
詞語(yǔ)的相關(guān)度就是將語(yǔ)義相似度與相關(guān)度結(jié)合起來(lái),同時(shí)考慮實(shí)例因素,共同構(gòu)成詞語(yǔ)的相關(guān)度:
式中 q1+q2+q3=1,若式(7)的第 3項(xiàng)值為 0,這時(shí)應(yīng)把q3的值按比例分配給 q1、q2。
本實(shí)驗(yàn)的數(shù)據(jù)來(lái)源于知網(wǎng)的數(shù)據(jù)文件,實(shí)驗(yàn)中所設(shè)置的計(jì)算相似度的參數(shù)與參考文獻(xiàn)[3]和參考文獻(xiàn)[7]中是一致的,所以存在可比性。此外,其他一些參數(shù)是隨程序自動(dòng)調(diào)整使得結(jié)果達(dá)到最佳效果。
關(guān)于第一義原的改進(jìn),通過(guò)與參考文獻(xiàn)[7]的實(shí)驗(yàn)進(jìn)行對(duì)比,結(jié)果如表2所示。
表2 詞語(yǔ)相似度實(shí)驗(yàn)結(jié)果
從表 2可知,“中國(guó)”和“美國(guó)”在參考文獻(xiàn)[7]中的相似度特別高。主要是它用其距離的倒數(shù)作為其第一義原,會(huì)出現(xiàn)分類(lèi)不明確的情況,本文采用的S型激活函數(shù)所劃分的區(qū)域,分類(lèi)比線性劃分精確合理,所計(jì)算值也更合理?!澳腥恕焙汀案赣H”的相似度為 1,“香蕉”和“蘋(píng)果”也為1,顯然太過(guò)粗糙,這種劃分分類(lèi)的方法確實(shí)存在著許多缺陷,且算出的值在客觀事實(shí)之外,本文通過(guò)修改第一義原的定義和計(jì)算,所得出的相似度分別為0.408 88和0.525 797,相比而言更合理。
上述實(shí)驗(yàn)都是同種詞性的相似度,而相似只是相關(guān)的一個(gè)方面,故而進(jìn)行下面實(shí)驗(yàn),進(jìn)一步量化同種詞性和不同詞性之間的相關(guān)度,通過(guò)對(duì)比參考文獻(xiàn)[3]的結(jié)果進(jìn)行說(shuō)明。結(jié)果如表3所示。
表3 詞語(yǔ)相關(guān)度計(jì)算的實(shí)驗(yàn)結(jié)果
由表3可以看出,用參考文獻(xiàn)[7]所述方法算出的相似度比較粗糙,例如面包和報(bào)紙的相似度比面包和蘋(píng)果的相似度還要高,這顯然不太合理,在義原樹(shù)中,僅僅考慮語(yǔ)義距離,確實(shí)“面包”和“報(bào)紙”的距離更近,分析發(fā)現(xiàn),這是因?yàn)闆](méi)有考慮義原關(guān)聯(lián)度原因?qū)е碌?,而本文?jì)算出來(lái)的結(jié)果對(duì)比參考文獻(xiàn)[7]和參考文獻(xiàn)[3],結(jié)果更合理些。
在參考文獻(xiàn)[3]的結(jié)果中,“面包”和“巧克力”的相關(guān)度為1,這顯然與事實(shí)不符,通常認(rèn)為相關(guān)度為1是完全相關(guān),趨于同一個(gè)事物,雖然這兩個(gè)詞語(yǔ)同屬于“食品”范疇,關(guān)聯(lián)度方面確實(shí)很大,可是相似度方面卻相差甚遠(yuǎn),因此其相關(guān)度值不可能為1。此外,對(duì)事物的看法傾向于一個(gè)動(dòng)賓方式,“削”和“皮”與“削”和“刀”,后者的搭配中表明用“刀”進(jìn)行“削”,但是也存在用別的東西來(lái)“削”,而“削皮”這個(gè)搭配在人的直觀認(rèn)知中應(yīng)該更加相關(guān),故而“削”和“皮”的相關(guān)度應(yīng)該更甚于“削”和“刀”,在本文方法中前者為0.096 533,后者為0.058 880,也符合習(xí)慣使用上對(duì)相關(guān)度的主觀判斷。另外經(jīng)分析可以看出,本文方法計(jì)算出來(lái)的數(shù)值都會(huì)偏小一些,且不會(huì)出現(xiàn)極端值問(wèn)題,比較平穩(wěn),從整體上改進(jìn)了參考文獻(xiàn)[3]中的實(shí)驗(yàn)結(jié)果。
實(shí)驗(yàn)所存在的不足是結(jié)果對(duì)比不夠明顯,只是改進(jìn)了偏差比較大的結(jié)果,其原因有兩方面,一是對(duì)于相關(guān)度的度量確實(shí)是一個(gè)比較主觀的做法,且目前沒(méi)有基于統(tǒng)計(jì)的相關(guān)度的判斷標(biāo)準(zhǔn),因此很難從微觀上細(xì)小地區(qū)分方法的優(yōu)劣;其次,知網(wǎng)本身有待進(jìn)一步完善和補(bǔ)充外,通過(guò)義原的相似度(相對(duì)稀疏的層次結(jié)構(gòu))來(lái)反映大量詞語(yǔ)之間的相似度 (相對(duì)密集)的方法本身是否存在一定的上限還需要進(jìn)一步深入研究,且許多詞語(yǔ)的編撰的定義項(xiàng)存在著一些不完整的方面。
本實(shí)驗(yàn)通過(guò)自適應(yīng)的參數(shù)來(lái)進(jìn)行調(diào)整,沒(méi)有固定權(quán)值,考慮到的是動(dòng)詞間、名詞間以及名詞之間和動(dòng)詞間,其所側(cè)重的因素不同,如名詞之間的相關(guān)度計(jì)算,相似度占的比重更大,而在動(dòng)詞和名詞間,相似度比重應(yīng)該較小,關(guān)聯(lián)度應(yīng)占更大的比重,這樣才更加合理,因此,自動(dòng)調(diào)整好各參數(shù),偏向各自比較側(cè)重的因素,以便獲得更好的效果。
詞語(yǔ)的語(yǔ)義相關(guān)度研究在國(guó)內(nèi)并不多,本文以知網(wǎng)為知識(shí)庫(kù),在參考文獻(xiàn)[3]的基礎(chǔ)上改進(jìn)算法模型,以此提出的相關(guān)度模型所得出的結(jié)果比較符合人類(lèi)主觀上對(duì)相關(guān)度的認(rèn)識(shí)。
今后的工作主要是將此詞語(yǔ)相關(guān)度模型應(yīng)用到數(shù)據(jù)空間中數(shù)據(jù)源內(nèi)容關(guān)聯(lián)性的發(fā)現(xiàn)機(jī)制中去,提出一個(gè)基于語(yǔ)義模式匹配的相關(guān)性匹配策略,以本文中的詞語(yǔ)相關(guān)度模型為依托,從而發(fā)現(xiàn)數(shù)據(jù)空間內(nèi)部的各種數(shù)據(jù)源的聯(lián)系性。
參考文獻(xiàn)
[1]李玉坤,孟小峰,張相於.數(shù)據(jù)空間技術(shù)研究[J].軟件學(xué)報(bào),2008,19(8):2018-2031.
[2]Hua Yu,Jiang Hong,Zhu Yifeng,et al.Smart Store:a new metadata organization paradigm with metadata semanticawareness for next-generation file systems[C].University of Nebraska-Liclon,Computer Science and Engineering,2008.
[3]許云,樊孝忠,張鋒.基于知網(wǎng)的語(yǔ)義相關(guān)度計(jì)算[J].北京理工大學(xué)學(xué)報(bào),2005,25(5):411-414.
[4]王紅玲,呂強(qiáng),徐瑞.一種基于知網(wǎng)的中文語(yǔ)義相關(guān)度計(jì)算模型[C].蘇州:第三屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議,2007.
[5]李峰,李芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算—基于知網(wǎng)2000[J].中文信息學(xué)報(bào),2007,21(3):101-107.
[6]李素建.基于語(yǔ)義計(jì)算的語(yǔ)句相關(guān)度研究[J].計(jì)算機(jī)工程與應(yīng)用,2002,38(7):75-76.
[7]劉群,李素健.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[C].臺(tái)北:第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì),2002.
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2012年8期