余朦朦,劉宇,劉雅婷
(1.武漢科技大學(xué)計(jì)算機(jī)學(xué)院,武漢 430065;2.武漢市科學(xué)學(xué)研究所,武漢 430023)
語(yǔ)義相似度的計(jì)算是自然語(yǔ)言處理的關(guān)鍵問(wèn)題之一,在問(wèn)答系統(tǒng)、機(jī)器翻譯和文本主題抽取等領(lǐng)域有著非常廣泛的應(yīng)用[1]。雖然目前研究人員已提出了多種基于單本體的語(yǔ)義相似度計(jì)算方法[2],但是單一領(lǐng)域本體的知識(shí)覆蓋度限制了相關(guān)方法的性能。針對(duì)上述問(wèn)題,Montserrat等人[3]提出了基于多本體的語(yǔ)義相似度計(jì)算方法。通過(guò)利用多個(gè)本體所提供的語(yǔ)義線(xiàn)索,Montserrat法的計(jì)算結(jié)果更準(zhǔn)確,即更為擬合領(lǐng)域?qū)<业脑u(píng)估結(jié)果。
鑒于運(yùn)用多本體計(jì)算概念對(duì)的語(yǔ)義相似度較為復(fù)雜,Montserrat法采用了依據(jù)不同情況分別處理的解決方案:1.僅某一本體包含概念a和b,兩者的語(yǔ)義相似度直接利用單本體計(jì)算獲得;2.a和b都同時(shí)出現(xiàn)在多個(gè)本體,選取各本體計(jì)算結(jié)果的最大值作為a和b的語(yǔ)義相似度;3.無(wú)本體同時(shí)包含a和b,利用多本體中上位概念的匹配概念對(duì)計(jì)算a和b的語(yǔ)義相似度。圖1展示了生物醫(yī)學(xué)本體FMA(Foundational Model Of Anatomy)和 NCI(National Cancer Institute)的部分匹配概念對(duì)。顯然,計(jì)算Ana_str和Org_Che的語(yǔ)義相似度滿(mǎn)足Montserrat法的情況3——FMA和NCI不同時(shí)包含 Ana_str和 Org_Che。從圖 1可見(jiàn),Ana_str和Org_Che不僅上位概念中包含匹配概念對(duì)FMA(Thing):NCI(Thing),而且下位概念中也包含匹配概念對(duì) FMA(Pho):NCI(Pho)和 FMA(phospha):NCI(phos?pha)。因此,僅利用上位概念中的匹配概念對(duì),而沒(méi)有借鑒下位概念中的匹配概念對(duì),Montserrat法無(wú)法充分利用多本體所提供的語(yǔ)義線(xiàn)索。針對(duì)Montserrat法中情況3的處理方式所存在的不足,本文提出了改進(jìn)的面向多本體語(yǔ)義相似度的計(jì)算方法,記為I-SSCMO。
圖1 FMA和NCI的部分匹配概念對(duì)
設(shè)概念a和b分別隸屬于本體A和B,則本論文所涉及的相關(guān)定義描述如下。
定義1(上位概念集合)本體A中概念a的上位概念集合,記為 U(A,a)。
定義2(下位概念集合)本體A中概念a的下位概念集合,記為 L(A,a)。
定義3(匹配概念集合)本體A與本體B的匹配概念集合,記為 M(A,B)。在圖 1 中,M(FMA,NCI)包含所有箭頭線(xiàn)所連接的概念對(duì)。
定義4(匹配上位概念集合)本體A中a的上位概念與本體B中b的上位概念相匹配的概念集合,記為MU(A(a),B(b))。在圖 1 中,MU(FMA(Ana_str),NIC(Org_Che))={FMA(Thing):NCI(Thing)}。
定義5(匹配下位概念集合)本體A中a的下位概念與本體B中b的下位概念相匹配的概念集合,記為ML(A(a),B(b))。在圖 1 中,{FMA(Pho):NCI(Pho),FMA(phospha):NCI(phospha)}為 Ana_str 和 Org_Che的匹配下位概念集合。
定義6(公共上位概念集合)本體A中概念a與本體B中概念b的公共上位概念集合為
在圖 1 中,CU(FMA(Ana_str),NIC(Org_Che))={FMA(Thing),NCI(Thing)}。
定義7(公共下位概念集合)本體A中概念a與本體B中概念b的公共上位概念集合為
在圖 1 中,CL(FMA(Ana_str),NIC(Org_Che))={FMA(Pho),NCI(Pho),FMA(phospha),NCI(phos?pha),FMA(pholin),NCI(pholinl)}。
在上述定義的基礎(chǔ)上,I-SSCMO法首先利用多本體中匹配上位概念集合所提供的語(yǔ)義線(xiàn)索,計(jì)算概念對(duì)的語(yǔ)義相似度,其具體計(jì)算方法如公式(3)所示。
然后,I-SSCMO法利用匹配下位概念集合計(jì)算語(yǔ)義相似度,具體計(jì)算方法如公式(4)所示。
通過(guò)綜合上述兩種語(yǔ)義相似度,A本體中概念a與B本體中概念b的語(yǔ)義相似度可由公式(5)獲得。
其中,w∈[0,1]。w為加權(quán)因子,調(diào)控U_Sim(A(a),B(b))和 L_Sim(A(a),B(b))對(duì)最終結(jié)果Sim(A(a),B(b))的影響。當(dāng)w為0時(shí),表示僅利用匹配下位概念集合所提供的線(xiàn)索計(jì)算語(yǔ)義相似度;當(dāng)w為1時(shí),表示僅利用匹配上位概念集合所提供的線(xiàn)索計(jì)算語(yǔ)義相似度。
I-SSCMO法的偽代碼如下所示:
輸入:本體A和本體B,待評(píng)估的概念對(duì)(a,b),加權(quán)因子w
輸出:概念對(duì)(a,b)的語(yǔ)義相似度
1:IF概念對(duì)(a,b)屬于Montserrat法的情況1和情況2
2: RETURN Montserrat法的計(jì)算結(jié)果;
3:ELSE
4:分別獲取a和b的上位概念集合和下位概念集合;
5:獲取概念對(duì)(a,b)的匹配上位概念集合和匹配下位概念集合;
6:獲取概念對(duì)(a,b)的公共上位概念集合和公共下位概念集合;
7: 根據(jù)公式(3)計(jì)算 U_Sim(A(a),B(b));
8: 根據(jù)公式(4)計(jì)算 L_Sim(A(a),B(b));
9: 根據(jù) U_Sim(A(a),B(b))、L_Sim(A(a),B(b))和加權(quán)因子 w 計(jì)算 Sim(A(a),B(b));
10:RETURN Sim(A(a),B(b));
11:END IF
為了驗(yàn)證I-SSCMO法的有效性,本文利用兩對(duì)本體進(jìn)行了實(shí)驗(yàn):生物醫(yī)學(xué)本體FMA和NCI、經(jīng)濟(jì)領(lǐng)域本體STW(The Thesaurus for Economics)和社會(huì)科學(xué)本體 TheSoz(The Thesaurus for the Social Sciences)。需要說(shuō)明的是,盡管STW和TheSoz屬于不同的領(lǐng)域,但它們之間有很大部分的重疊域。由于I-SSCMO法主要改進(jìn)了Montserrat法情況3的計(jì)算方法,本實(shí)驗(yàn)從FMA和NCI、STW和TheSoz中分別選取了30對(duì)概念對(duì)。這些概念對(duì)不僅滿(mǎn)足情況3的條件,而且均具有匹配下位概念。在人工評(píng)判環(huán)節(jié),分別由多名醫(yī)學(xué)和經(jīng)濟(jì)專(zhuān)業(yè)人員對(duì)概念對(duì)的相似度按照5個(gè)等級(jí)打分(0表示兩個(gè)概念不相關(guān),4表示兩個(gè)概念相同),并以平均值作為人工評(píng)判的最終結(jié)果。最后,本文將Montserrat法和I-SSCMO法的計(jì)算結(jié)果與人工評(píng)判的結(jié)果進(jìn)行了比較,并運(yùn)用皮氏積矩相關(guān)系數(shù)的計(jì)算方法來(lái)評(píng)估結(jié)果的準(zhǔn)確度,具體如公式(6)所示。r的取值范圍為[0,1],并且r值越大意味著計(jì)算結(jié)果越擬合人工評(píng)判的結(jié)果,此時(shí)相應(yīng)方法能夠獲得更為準(zhǔn)確的語(yǔ)義相似度。
其中,Xi為Montserrat法或I-SSCMO法計(jì)算第i對(duì)概念對(duì)的語(yǔ)義相似度,Yi為人工評(píng)判的第i對(duì)概念對(duì)的相似度,X可為Montserrat法或I-SSCMO法計(jì)算結(jié)果所組成的數(shù)組,Y為人工評(píng)判結(jié)果所組成的數(shù)組,Xˉ和Yˉ分別是X數(shù)組和Y數(shù)組的平均值。
鑒于加權(quán)因子w對(duì)I-SSCMO法的影響,本實(shí)驗(yàn)從[0,1]中選取了11個(gè)w值,以評(píng)估在w不同的取值情況下I-SSCMO法的結(jié)果準(zhǔn)確度。圖2展示了在計(jì)算FMA和NCI中概念對(duì)時(shí)Montserrat法或I-SSCMO法的性能比較。Montserrat法不受加權(quán)因子w的影響,因此其準(zhǔn)確度始終是0.6579;當(dāng)w=0.8時(shí),I-SSCMO法的準(zhǔn)確度達(dá)到最大值0.6602。圖2的結(jié)果說(shuō)明,在FMA和NCI中匹配下位概念所提供的語(yǔ)義線(xiàn)索有限,I-SS?CMO的性能改進(jìn)不顯著。圖3展示了在計(jì)算STW和TheSoz中概念對(duì)時(shí)Montserrat法或I-SSCMO法的性能比較。同樣,Montserrat法的準(zhǔn)確度始終是0.5101;當(dāng)w=0.9時(shí),I-SSCMO法的準(zhǔn)確度達(dá)到最大值0.5702,性能提升較為明顯。綜合圖2和圖3的結(jié)果,可以發(fā)現(xiàn):1.在計(jì)算多本體中概念對(duì)的語(yǔ)義相似度時(shí),相對(duì)于匹配下位概念而言,匹配上位概念所提供的語(yǔ)義線(xiàn)索更為有效,即w應(yīng)取較大值;2.對(duì)不同多本體處理時(shí),應(yīng)當(dāng)根據(jù)具體情況選取w的值,即處理FMA和NCI時(shí)應(yīng)取0.8、處理STW和TheSoz時(shí)應(yīng)取0.9;3.對(duì)于彼此之間差異較大的本體對(duì),考慮匹配下位概念所提供的語(yǔ)義線(xiàn)索是有效的,能夠提供更為準(zhǔn)確度的結(jié)果。
圖2 計(jì)算FMA和NCI中概念對(duì)時(shí)的性能比較
圖3 計(jì)算STW和TheSoz中概念對(duì)時(shí)的性能比較
針對(duì)基于多本體的語(yǔ)義相似度計(jì)算方法所存在的問(wèn)題,本文提出了綜合考慮匹配上位概念和匹配下位概念所提供語(yǔ)義線(xiàn)索的相似度計(jì)算方法。在FMA和NCI、STW和TheSoz上的實(shí)驗(yàn)表明,通過(guò)選取合適的加權(quán)因子w,改進(jìn)的方法I-SSCMO能夠在一定程度上獲得更準(zhǔn)確的結(jié)果。在將來(lái)的研究中,我們將考慮如何更為充分地利用匹配下位概念提供的語(yǔ)義線(xiàn)索、加權(quán)因子w的優(yōu)化取值等問(wèn)題。
[1]張滬寅,劉道波,溫春艷.基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度改進(jìn)算法研究[J].計(jì)算機(jī)工程,2015,41(2):151-156.
[2]孫海霞,錢(qián)慶,成穎.基于本體的語(yǔ)義相似度計(jì)算方法研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2010,26(1):51-56.
[3]Batet M,Sánchez D,Valls A,et al.Semantic Similarity Estimation from Multiple Ontologies[M].Applied Intelligence,2013:29-44.