崔韜世 麥范金
桂林理工大學(xué) 廣西 541004
詞語(yǔ)相似度計(jì)算研究的是用什么樣的方法來(lái)計(jì)算或比較兩個(gè)詞語(yǔ)的相似性。詞語(yǔ)相似度計(jì)算在自然語(yǔ)言處理、智能檢索、文本聚類、文本分類、自動(dòng)應(yīng)答、詞義排歧和機(jī)器翻譯等領(lǐng)域都有廣泛的應(yīng)用,它是一個(gè)基礎(chǔ)研究課題,正在為越來(lái)越多的研究人員所關(guān)注。筆者對(duì)詞語(yǔ)相似度計(jì)算的應(yīng)用背景、研究成果進(jìn)行了歸納和總結(jié),包括每種策略的基本思想、依賴的工具和主要的方法等,以供自然語(yǔ)言處理、智能檢索、文本聚類、文本分類、數(shù)據(jù)挖掘、信息提取、自動(dòng)應(yīng)答、詞義排歧和機(jī)器翻譯等領(lǐng)域的研究人員參考和應(yīng)用。詞語(yǔ)相似度計(jì)算的應(yīng)用主要有以下幾點(diǎn):
(1) 在基于實(shí)例的機(jī)器翻譯中,詞語(yǔ)相似度主要用于衡量文本中詞語(yǔ)的可替換程度。
(2) 在信息檢索中,相似度更多的是反映文本與用戶查詢?cè)谝饬x上的符合程度。
(3) 在多文檔文摘系統(tǒng)中,相似度可以反映出局部主題信息的擬合程度。
(4) 在自動(dòng)應(yīng)答系統(tǒng)領(lǐng)域,相似度的計(jì)算主要體現(xiàn)在計(jì)算用戶問(wèn)句和領(lǐng)域文本內(nèi)容的相似度上。
(5) 在文本分類研究中,相似度可以反映文本與給定的分類體系中某類別的相關(guān)程度。
(6) 相似度計(jì)算是文本聚類的基礎(chǔ),通過(guò)相似度計(jì)算,把文檔集合按照文檔間的相似度大小分成更小的文本簇。
基于統(tǒng)計(jì)方法計(jì)算詞語(yǔ)相似度通常是利用詞語(yǔ)的相關(guān)性來(lái)計(jì)算詞語(yǔ)的相似度。其理論假設(shè)凡是語(yǔ)義相近的詞,它們的上下文也應(yīng)該相似。因此統(tǒng)計(jì)的方法對(duì)于兩個(gè)詞的相似度算建立在計(jì)算它們的相關(guān)詞向量相似度基礎(chǔ)上。首先要選擇一組特征詞,然后計(jì)算這一組特征詞與每一個(gè)詞的相關(guān)性(一般用這組詞在實(shí)際的大規(guī)模語(yǔ)料中在該詞的上下文中出現(xiàn)的頻率來(lái)度量),于是,對(duì)于每一個(gè)詞都可以得到一個(gè)相關(guān)性的特征詞向量,然后計(jì)算這些向量之間的相似度,一般用向量夾角余弦的計(jì)算結(jié)果作為這兩個(gè)詞的相似度。
Lee利用相關(guān)熵,Brown采用平均互信息來(lái)計(jì)算詞語(yǔ)之間的相似度。李涓子(1999)利用這種思想來(lái)實(shí)現(xiàn)語(yǔ)義的自動(dòng)排歧;魯松(2001)研究了如何利用詞語(yǔ)的相關(guān)性來(lái)計(jì)算詞語(yǔ)的相似度。PBrownetc采用平均互信息來(lái)計(jì)算詞語(yǔ)之間的相似度?;诮y(tǒng)計(jì)的定量分析方法能夠?qū)υ~匯間的語(yǔ)義相似性進(jìn)行比較精確和有效的度量?;诖笠?guī)模語(yǔ)料庫(kù)進(jìn)行的獲取受制于所采用的語(yǔ)料庫(kù),難以避免數(shù)據(jù)稀疏問(wèn)題,由于漢語(yǔ)的一詞多義現(xiàn)象,統(tǒng)計(jì)的方法得到的結(jié)果中含有的噪聲是相當(dāng)大的,常常會(huì)出現(xiàn)明顯的錯(cuò)誤。
關(guān)于 Ontology的定義有許多,目前獲得較多認(rèn)同的是R.Studer的解釋:“Ontology是對(duì)概念體系的明確的、形式化的、可共享的規(guī)范說(shuō)明”。在最簡(jiǎn)單的情況下,本體只描述概念的分類層次結(jié)構(gòu);在復(fù)雜的情況下,本體可以在概念分類層次的基礎(chǔ)上,加入一組合適的關(guān)系、公理、規(guī)則來(lái)表示概念間的其它關(guān)系,約束概念的內(nèi)涵解釋。
WordNet是一個(gè)聯(lián)機(jī)英語(yǔ)詞匯檢索系統(tǒng),由 Prince-ton大學(xué)研制。它作為語(yǔ)言學(xué)本體庫(kù)同時(shí)又是一部語(yǔ)義詞典,在自然語(yǔ)言處理研究方面應(yīng)用很廣。它采用語(yǔ)義網(wǎng)絡(luò)作為其詞匯本體的基本表示形式。在 WordNet中,網(wǎng)絡(luò)節(jié)點(diǎn)由字形(Wordform)標(biāo)識(shí),分為名詞、動(dòng)詞、形容詞、副詞和功能詞等5種。節(jié)點(diǎn)之間的關(guān)系分為同義關(guān)系(Synonymy)、反義關(guān)系(Antonymy)、繼承關(guān)系(Hypony-my)、部分/整體關(guān)系(Meronymy)、形態(tài)關(guān)系(Morpholog-icalrelation)等。WordNet提供了很好的概念層次結(jié)構(gòu)。
知網(wǎng)是一個(gè)以漢語(yǔ)和英語(yǔ)詞語(yǔ)所代表的概念為描述對(duì)象、以揭示概念與概念之間以及概念所具有屬性之間的關(guān)系為基本內(nèi)容的常識(shí)庫(kù)和知識(shí)庫(kù)。其中包含豐富的詞匯語(yǔ)義知識(shí)和本體知識(shí),這些關(guān)系都隱含在知網(wǎng)的知識(shí)詞典和義原的特征文件中。知網(wǎng)中有以下兩個(gè)主要的概念:
(1) 義項(xiàng)。它是對(duì)詞匯語(yǔ)義的一種描述,每一個(gè)詞可以表達(dá)為幾個(gè)義項(xiàng)。義項(xiàng)是用一種知識(shí)表示語(yǔ)言來(lái)描述的,這種知識(shí)表示語(yǔ)言所用的詞匯叫做義原。
(2) 義原。它是用于描述一個(gè)概念的最小意義單位,從所有詞匯中提煉出的可以用來(lái)描述其他詞匯的不可再分的基本元素。
與一般的語(yǔ)義詞典(如同義詞、詞林或 WordNet)不同,知網(wǎng)并不是簡(jiǎn)單地將所有的概念歸結(jié)到一個(gè)樹狀的概念層次體系中,而是試圖用一系列的義原來(lái)對(duì)每一個(gè)概念進(jìn)行描述。
知網(wǎng)的漢語(yǔ)知識(shí)庫(kù)中每個(gè)詞匯由一個(gè)四元組表示:
DEF部分是表示詞與義原的關(guān)系,也是詞匯描述中最重要的部分,可以簡(jiǎn)單地認(rèn)為詞是由義原通過(guò)某種關(guān)系構(gòu)成的。
根據(jù)本體知識(shí)來(lái)計(jì)算。主要是基于按照概念間結(jié)構(gòu)層次關(guān)系組織的語(yǔ)義詞典方法,根據(jù)概念之間的關(guān)系來(lái)計(jì)算詞語(yǔ)的相似度。這類方法通常依賴于比較完備的大型語(yǔ)義詞典,一般詞典都是將所有的詞組織在一棵或幾棵樹狀的層次結(jié)構(gòu)中,在一棵樹型圖中,任何兩個(gè)節(jié)點(diǎn)之間有且只有一條路徑,這條路徑的長(zhǎng)度就可以作為這兩個(gè)概念的語(yǔ)義距離的一種度量。
傳統(tǒng)基于本體的概念之間相似度計(jì)算模型主要有基于距離的語(yǔ)義相似度計(jì)算模型、基內(nèi)容的語(yǔ)義相似度計(jì)算模型和基于屬性的語(yǔ)義相似度計(jì)算模型3種。
劉群等人利用知網(wǎng)作為語(yǔ)義詞典計(jì)算漢語(yǔ)詞匯的相似度;Rada等人和Lee等人通過(guò)計(jì)算在WordNet中詞節(jié)點(diǎn)之間上下位關(guān)系構(gòu)成的最短路徑來(lái)計(jì)算詞語(yǔ)之間的相似度。許多學(xué)者考慮到其他因素對(duì)語(yǔ)義距離的影響,如Resnik根據(jù)兩個(gè)詞的公共祖先節(jié)點(diǎn)的最大信息量來(lái)衡量?jī)蓚€(gè)詞的語(yǔ)義相似度;Agirre等人在計(jì)算詞語(yǔ)的語(yǔ)義相似度時(shí),除了節(jié)點(diǎn)間的路徑長(zhǎng)度外,還考慮到概念層次樹的深度和區(qū)域密度的影響。張瑞霞等人提出了一種基于知識(shí)圖的漢語(yǔ)詞匯相似度計(jì)算方法,該方法以知識(shí)圖為知識(shí)表示方法,在構(gòu)造詞圖的基礎(chǔ)上對(duì)詞匯概念中的義原進(jìn)行分類,通過(guò)計(jì)算不同類型義的相似度得到概念的相似度。
這兩種方法各有特點(diǎn)?;谑澜缰R(shí)的方法簡(jiǎn)單有效,無(wú)需用語(yǔ)料庫(kù)進(jìn)行訓(xùn)練,也比較直觀,易于理解,但這種方法得到的結(jié)果受人的主觀意識(shí)影響較大,有時(shí)并不能準(zhǔn)確反映客觀事實(shí)。另外,這種方法比較準(zhǔn)確地反映了詞語(yǔ)之間語(yǔ)義方面的相似性和差異,而對(duì)于詞語(yǔ)之間的句法和語(yǔ)用特點(diǎn)考慮得比較少?;谡Z(yǔ)料庫(kù)的方法比較客觀,綜合反映了詞語(yǔ)在句法、語(yǔ)義、語(yǔ)用等方面的相似性和差異。但是,這種方法比較依賴于訓(xùn)練所用的語(yǔ)料庫(kù),計(jì)算量大,計(jì)算方法復(fù)雜,另外,受資料稀疏和資料噪聲的干擾較大。
[1]秦春秀,趙捧未,劉懷亮.詞語(yǔ)相似度計(jì)算研究[J].信息系統(tǒng).2007.
[2]余超.基于知網(wǎng)的詞匯語(yǔ)義計(jì)算研究及應(yīng)用[D].遼寧:沈陽(yáng)航空工業(yè)學(xué)院.2007.
[3]劉紫玉,黃磊.基于領(lǐng)域本體模型的概念語(yǔ)義相似度計(jì)算研究[J].計(jì)算機(jī)技術(shù)與發(fā)展.2010.
[4]http://wordnet.princeton.edu/.
[5]http://www.keenage.com/.
[6]孫海霞,錢慶,成穎.基于本體的語(yǔ)義相似度計(jì)算方法研究綜述[J].知識(shí)組織與知識(shí)管理.2010.
[7]劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].計(jì)算語(yǔ)言學(xué)及中文信息處理.2002.
[8]Resnik O.Semantic Similarity in a Taxonomy:An Information-Based Measure and Its Application to Problems of Ambiguity and Natural Language[J].Journal of A rtificial Intelligence Research.1999.