• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于中文維基百科的詞語語義相關(guān)度計算

      2013-10-15 01:51:58萬富強吳云芳
      中文信息學(xué)報 2013年6期
      關(guān)鍵詞:維基百科詞條頁面

      萬富強,吳云芳

      (北京大學(xué) 計算語言學(xué)教育部重點實驗室,北京,100871)

      1 引言

      語義相關(guān)度的計算在很多自然語言處理的應(yīng)用中都扮演著重要的角色。信息檢索[1]系統(tǒng)中使用相關(guān)度得分,對查詢進(jìn)行擴展。詞義消歧[2]一直以來都是計算語言中一個比較難解的問題。利用詞語之間的相關(guān)性能夠協(xié)助計算機進(jìn)行詞義消歧。例如,“削蘋果的刀”與“削蘋果的皮”,兩者都是“動詞+名詞+助詞+名詞”的結(jié)構(gòu),可以利用“蘋果”與“刀”,“蘋果”與“皮”的相關(guān)度對兩者加以區(qū)分。此外,在文檔自動文摘以及問答系統(tǒng)中常常使用相關(guān)度或相似度的得分,評估候選語句的精準(zhǔn)程度。在拼寫校正[3]中也會用到語義相關(guān)度的計算。研究如何更好地計算文本或者詞匯之間的語義相關(guān)度是一個重要的課題。

      本文研究基于Gabrilovich&Markovitch提出的基于維基百科的顯性語義分析(Explicit Semantic Analysis,ESA)方法[4],對中文詞語之間的語義相關(guān)度進(jìn)行計算。將詞表示為帶權(quán)重的概念向量,計算目標(biāo)詞語之間的相關(guān)性就轉(zhuǎn)化為比較相應(yīng)的概念向量。本研究選取的概念由中文維基百科文章明確定義,即將指定的中文維基百科的一個頁面作為一個概念,引入概念(頁面)的先驗概率,利用維基百科詞條的詞頻信息和頁面之間的鏈接信息對算法進(jìn)行了多種改進(jìn)。實驗結(jié)果表明,引入頁面先驗概率因子,能夠明顯改善目標(biāo)詞對相關(guān)度計算的結(jié)果—斯皮爾曼等級相關(guān)系數(shù)從0.40提高到0.52。

      本文組織結(jié)構(gòu)如下:第2節(jié)介紹了前人的相關(guān)工作;第3節(jié)闡述顯性語義分析方法的核心思想及基本方法;第4節(jié)介紹引入了頁面先驗概率的改進(jìn)算法;第5節(jié)介紹中文維基百科概念的選取,實驗采用的評測數(shù)據(jù)集以及評測的指標(biāo)—斯皮爾曼等級相關(guān)系數(shù);第6節(jié)展示本實驗的結(jié)果及對結(jié)果的分析;第7節(jié)對本實驗進(jìn)行了總結(jié)。

      2 相關(guān)工作

      語義相關(guān)度的計算可以劃分為3類方法:基于大規(guī)模語料庫的方法、基于語義分類體系的方法和基于百科知識的方法?;诖笠?guī)模語料庫計算文本(或單詞)的相似度或者相關(guān)度,主要有兩種方法:一種方法是簡單地使用詞語共現(xiàn)信息。該方法假定同時出現(xiàn)在文檔或者段落中的詞在某種意義上相似或者相關(guān),它將文檔或者段落視為詞的集合,忽略詞與詞之間的語法信息。另一種方法是對文檔或者段落進(jìn)行淺層的句法分析,得到詞匯之間語法關(guān)系或者依存關(guān)系,在依存分析結(jié)果的基礎(chǔ)上進(jìn)行相似度計算。使用詞共現(xiàn)信息更具有魯棒性,不會涉及語句的句法分析,實現(xiàn)起來更加簡單。目前有許多關(guān)于語義相關(guān)度和相似度的研究是基于前一種方法的[5-7]。

      英語中基于語義分類體系計算語義相關(guān)度主要是依據(jù)WordNet[8],而漢語中主要是依據(jù)HowNet。前人基于WordNet的層次分類體系實現(xiàn)的詞匯語義相似度度量方法有以下4種:1)邊計數(shù)方法。如果該網(wǎng)絡(luò)中的兩個概念c1,c2之間的連接越多,兩個概念之間的距離越短,那么它們就越相似。具體度量方法有:最短路徑[9],帶權(quán)重的鏈接[10]等。2)信息含量方法。兩個概念的相似度與它們共享的信息相關(guān),而共享信息是由在網(wǎng)絡(luò)層次體系中涵括它們的高層的概念表征。如 Resnik[11],Lin[12]等工作。3)基于特征的度量方法。每一個詞都由能表征它性質(zhì)、特征的詞的集合表示,如Tversky[13]。4)組合方法,如 Rodriguez et al.[14]。

      隨著維基百科的普及和盛行,近年來出現(xiàn)了一些基于百科知識的相關(guān)度計算方法。Michael Strube等提出使用Wikirelate!方法[15]計算詞語之間的語義相關(guān)度,該方法首先將兩個目標(biāo)詞t1,t2用以它們?yōu)闃?biāo)題的文章來表示,并提取文章的類別信息,然后使用基于文本覆蓋的方法,或者利用維基百科的類別樹,使用基于路徑或信息含量的方法計算兩篇文章的相關(guān)度,也即是兩個目標(biāo)詞的相關(guān)度。Gabrilovichand Markovitch提出基于維基百科的顯性語義分析方法(Explicit Semantic Analysis,ESA)[4]用于計算文本(或詞)之間的語義相關(guān)度。孫琛琛等[6]利用英文維基百科結(jié)構(gòu)信息計算語義關(guān)聯(lián)度。李赟等[7]利用中文維基百科進(jìn)行語義相關(guān)詞的獲取及其相關(guān)度分析。

      還有研究者利用其他的資源進(jìn)行語義相關(guān)性研究。如利用維基詞典計算語義相關(guān)性[16],使用網(wǎng)絡(luò)搜索引擎度量詞語之間的相似度[17]等。Torsten et al.[18]的研究表明,基于 German WordNet的語義相似度度量方法比基于維基百科的語義相似度度量方法更接近人工判定的結(jié)果;然而,基于維基百科的語義相關(guān)度度量卻比基于German WordNet的語義相關(guān)性度量方法要好。

      3 語義相關(guān)度計算的基本方法

      3.1 基本原理

      分布相似在一定程度上能夠反映語義相似以及語義相關(guān),因此可以將詞語之間的語義相關(guān)性度量轉(zhuǎn)化為詞語分布的相似性度量。顯性語義分析(ESA),是將詞表示為帶權(quán)重的概念向量,計算詞語之間的相關(guān)性就轉(zhuǎn)化為比較相應(yīng)的概念向量。本文選取的概念由中文維基百科文章明確定義,即將中文維基百科的頁面作為概念。

      令N表示中文維基百科的單詞數(shù)(即詞匯表L的大?。琈表示選取的概念(頁面)數(shù)。用wi,j表示詞項ti與概念cj的關(guān)聯(lián)程度。該值越大,表明詞ti與該概念cj的關(guān)聯(lián)程度越強;反之,則表明詞ti與該概念cj的關(guān)聯(lián)程度越弱。詞—文檔矩陣表示為式(1):

      則詞t的概念向量V可表示為式(2):

      然后,根據(jù)概念向量V1和V2,使用cosine方法比較兩個向量,計算目標(biāo)詞對<t1,t2>的相關(guān)度(當(dāng)至少有一個目標(biāo)詞不在詞表中時兩者的相關(guān)度記為0),如式(3)所示。

      3.2 基本TFIDF方法

      Gabrilovich等提出的基于維基百科的ESA方法[4]采用在信息檢索中常用的TFIDF(即詞項頻率與逆文檔頻率的乘積)作為詞與文檔的關(guān)聯(lián)程度的度量。使用數(shù)學(xué)公式表示為式(4):

      由于IDFt僅由詞t決定,對于同一個t而言IDFt是相同的。使用余弦相似度方法比較詞的概念向量時,對向量長度進(jìn)行了歸一化,因此事實上IDFt并沒有真正參與到計算之中,結(jié)果僅由TFt,c決定。于是,可以將各個分量都含有的常量提出來,記為k。目標(biāo)詞t的概念向量可以簡單的表示為式(5):

      為了便于表述,將此方法記作TFIDF。

      4 語義相關(guān)度計算的改進(jìn)方法

      利用顯性語義分析(ESA)方法,使用TFIDF作為權(quán)值度量,計算漢語語義相關(guān)度的結(jié)果并不理想。本文引入頁面的先驗概率,提出了以下的改進(jìn)方法。

      在信息檢索中使用查詢似然模型,將文檔按照其與查詢相關(guān)的似然P(d|q)排序。查詢似然模型是信息檢索中最早使用也是最基本的語言模型。P(d|q)度量了d與q的相關(guān)性程度。利用貝葉斯公式有P(d|q)=P(q|d)P(d)/P(q)。將詞t與q對應(yīng),概念c與d對應(yīng),我們得到詞項t與c關(guān)聯(lián)程度,如式(6)所示。

      對P(t|c)使用最大似然估計,如式(7)所示。

      對于給定的t,P(t)是一個常數(shù),于是有式(8)。

      TFt,c以及Tc通過對中文維基百科數(shù)據(jù)進(jìn)行分詞以及詞頻統(tǒng)計便可得到,因此為了得到詞t與概念c的相關(guān)程度wt,c,只需對先驗概率P(c)進(jìn)行估計。比較式(5)和式(9),基本的TFIDF方法,等價于取c的先驗概率正比于詞條數(shù)目的模型。然而,僅使用文檔詞條數(shù)目作為文檔先驗概率的估計因子有失偏頗,本文提出以下方法對頁面(概念)的先驗概率進(jìn)行估計。

      4.1 NORM_TF方法

      對P(c)進(jìn)行估計最簡單的方法便是,所有概念c出現(xiàn)的概率相同。即對于任意的c,P(c)是一個定值(此處取為1/M)。同樣由于使用cosine方法比較詞與詞的概念向量,因此,詞項t的概念向量V可以簡單記為:

      該向量與TFIDF基本方法得到的概念向量差別在于,它對詞項頻率(TF)進(jìn)行了歸一化。為了表述的方便,將此方法記為NORM_TF。

      4.2 INLK方法

      前文提及在進(jìn)行Wikiprep處理的同時得到了頁面之間的鏈接信息。維基百科頁面之間的鏈接與普通網(wǎng)頁鏈接有所不同。普通網(wǎng)頁鏈出的數(shù)目較少,而維基百科頁面的鏈出很多。維基百科的鏈接是這樣生成的:如果在一個頁面中出現(xiàn)了某個詞(或詞組),而這個詞(或詞組)正好又是維基百科的一個詞條,那么該頁面就有一條指向詞條對應(yīng)頁面的鏈接。如頁面“阿波羅計劃”中出現(xiàn)了詞‘蘇聯(lián)’,而錨文本“蘇聯(lián)”又正好是維基百科的一個詞條,對應(yīng)了維基百科的一個頁面,因此從頁面“阿波羅計劃”到頁面“蘇聯(lián)”有一條鏈接。

      由于維基百科頁面的鏈接信息在一定程度上能夠反映頁面被訪問的頻率。考慮到維基百科鏈接構(gòu)造的特殊性,可以認(rèn)為越頻繁出現(xiàn)的詞條,其對應(yīng)頁面的入度越大,頁面被訪問的頻率越高?;谶@個假設(shè),記頁面(概念)c的入度為INLKc,則可以對P(c)進(jìn)行估計。由于選取的概念入度差別非常大,因此直接使用入度進(jìn)行計算會使得頁面入度大的P(c)非常大,因此可以對入度采用取對數(shù)的方法,此時概念c的先驗概率P(c)表示為:

      同樣,為了便于表述,將此方法記為INLK.

      4.3 PRANK方法

      既然提及頁面之間的鏈接,自然就會想到PageRank[19]。記網(wǎng)頁數(shù)量為K,根據(jù) Web圖的鄰接矩陣A(K×K),并記A第i行1的個數(shù)為Ni,可以推導(dǎo)出該馬爾科夫鏈的概率轉(zhuǎn)移矩陣P(K×K):

      對中文維基百科的概念使用上述方法(取α=0.1),可以得到各個概念被訪問的頻率,使用它對P(c)進(jìn)行估計。與INLK方法一樣vc的差距很大,但不能像INLK方法那樣先取對數(shù)再加1,因為直接取對數(shù)得到的是負(fù)值。于是將vc乘以10 M(M為選取的概念的個數(shù)),使得其值大于等于1。再對該結(jié)果取對數(shù)加1。P(c)的估計值為(將此方法記為PRANK)如式(13)所示。

      4.4 TDF方法

      維基百科詞條有著對其頁面內(nèi)容的充分概括性,頁面內(nèi)容都是對該詞條的闡述。因此可以使用頁面的標(biāo)題在整個數(shù)據(jù)集中出現(xiàn)的頻率(CF)或者文檔頻率(DF)來度量概念的先驗概率P(c),使用TCF表示概念標(biāo)題(詞條)的CF,TDF表示概念標(biāo)題的DF,并采用對數(shù)平滑方法,則對P(c)的估計分別為式(14)和式(15)。同樣為了表述方便,將兩種對估計P(c)計算詞與詞之間相似度的方法分別記為TCF,TDF。

      4.5 COMB方法

      前文已使用了多種方法對P(c)的值進(jìn)行估計,如INLK,TDF等??紤]到他們的組合實在是太多,但都是基于維基百科鏈接或者維基百科頁面的標(biāo)題,因此僅僅選取他們兩兩組合中的其中一種,即TDF+PRANK(記為COMB),前者基于標(biāo)題詞頻,后者基于鏈接,并且使用最簡單的線性組合的方式將兩者對概念的先驗概率的估計加以組合,即式(16)所示。

      其中,wPRANK(t,c)以及wTDF(t,c)分別表示使用PRANK和TDF方法得到的權(quán)重。

      5 評測

      5.1 概念選取

      從中文維基百科網(wǎng)站(http://zh.wikipedia.org/)下載中文版維基百科的XML轉(zhuǎn)儲數(shù)據(jù) (zhwiki-20101029-pages-meta-current.xml.bz2),數(shù)據(jù)解壓后使用 Wikiprep①從 http://search.cpan.org/~triddle/Parse-MediaWiki-Dump-1.0.4下載。原始代碼用于處理英文維基百科數(shù)據(jù),修改部分代碼之后即可用于處理中文維基百科的數(shù)據(jù)。處理,去掉模板頁面、重定向頁面、類別頁面等以及頁面中無關(guān)的域(僅保留頁面標(biāo)題、頁面ID以及文本域)。進(jìn)行Wikiprep處理的同時會得到頁面的鏈接信息以及類別信息等。由于中文維基百科頁面中包含簡體和繁體中文,我們使用中文繁簡轉(zhuǎn)換工具,統(tǒng)一將所有的繁體字轉(zhuǎn)換為簡體字。得到1G的文本文件,共有324 216個頁面。

      有些中文維基百科頁面的正文太短,包含的信息量很少,編輯的內(nèi)容質(zhì)量不高。如果將所有的頁面都作為最終的概念,那么得到的詞的概念向量的維度很大,在很多維度上噪音很大,對詞相關(guān)度的計算造成不利的影響。因此需要在這些頁面中選出一個子集C作為最終概念集合。由于頁面入度和詞數(shù)在一定程度上能夠反映頁面的質(zhì)量,因此在實驗中去掉了入度過?。ㄐ∮?)或者詞數(shù)過少(少于70)的頁面,剩下的頁面(127 936個)即作為最終的概念集合C,用于詞語之間相關(guān)度的計算。

      為了統(tǒng)計頁面的詞條數(shù),本實驗使用了中文停用詞表①總共有 1 208 個停用詞,可從 http://www.hicode.cn/download/view-software-13784.html下載,對概念集合C中所有的頁面進(jìn)行自動分詞。維基百科頁面標(biāo)題通常是人名、地名、專有名詞等,因此為了將它們作為一個詞(或詞組)保留下來,實驗時將頁面標(biāo)題作為一個詞條。由于這些詞條數(shù)目眾多,不可能人工對其進(jìn)行詞性標(biāo)注,而缺少詞性標(biāo)注會對分詞結(jié)果造成影響。為了降低這種不良影響,采取了以下措施:首先使用中文分詞器②中國科學(xué)院計算技術(shù)研究所開發(fā)的ICTCLAS漢語分詞系統(tǒng),http://ictclas.org/ictclas_download.aspx下載對這些詞條進(jìn)行分詞,將分詞器不能識別的詞條(分詞器會將其切分開)加入到用戶詞典,再次使用分詞器對維基百科數(shù)據(jù)進(jìn)行分詞。對概念集合進(jìn)行解析,統(tǒng)計詞條(token)數(shù)目Tc的同時,得到了以下數(shù)據(jù):(1)詞匯表L;(2)詞項t在多少個概念中出現(xiàn)DFt;(3)詞項t在概念c中出現(xiàn)的頻次 TFt,c;(4)詞項t在所有概念中出現(xiàn)的頻次CFt。

      5.2 評測數(shù)據(jù)

      本實驗的評測數(shù)據(jù)基于英文 WordSimilarity-353數(shù)據(jù)集,這是英語語義相似度研究中廣泛應(yīng)用的一個評測標(biāo)準(zhǔn)。根據(jù) WordSimilarity-353③http://www.cs.technion.ac.il/~gabr/resources/data/wordsim353/得到中文詞相關(guān)度測試的數(shù)據(jù)集(為了便于表述,將此數(shù)據(jù)集記為ZH-SIM-353),具體做法如下。

      首先,兩個計算語言學(xué)研究生獨立地對數(shù)據(jù)集WordSimilarity-353進(jìn)行人工翻譯,將英語單詞對翻譯為漢語詞語對,然后讓第三者對前兩者翻譯不一致的詞對進(jìn)行修改。只有當(dāng)詞對中的兩個詞都翻譯得完全相同時才稱為一致。WordSimilarity-353總共有353個詞對,其中兩人翻譯一致的詞對數(shù)為169,占總數(shù)的48%。兩人翻譯不一致時,再進(jìn)行如下處理。

      1.單字詞和雙字詞。兩個翻譯者在單字詞和雙字詞的使用上顯現(xiàn)出差異,如表1所示。解決方法:讓翻譯結(jié)果音節(jié)一致;不一致時,傾向于雙音節(jié)。例如,在表1中,得到的翻譯正確結(jié)果為{<虎,貓>,<老虎,老虎>,<藥物,濫用>}。

      表1 單字詞VS雙字詞

      2.別名的使用。例如,potato一者翻譯為“土豆”,另一者翻譯為“馬鈴薯”。解決方法:使用更通用的稱說,此處選擇“土豆”作為potato的中文翻譯。

      3.去掉翻譯為漢語時有明顯歧義的5個詞對,它們分別是<stock,egg>,<stock,live>,<brother,monk>,<crane,implement>以及<life,term>。將剩下的348個中文詞對以及它們的得分,作為最終的評測集。

      5.3 評測指標(biāo)

      本實驗采用斯皮爾曼等級相關(guān)系數(shù)對目標(biāo)詞對的相關(guān)度計算的結(jié)果與人工標(biāo)注評測集ZH-SIM-353的一致性進(jìn)行評價。斯皮爾曼等級相關(guān)系數(shù)是反映兩組變量之間聯(lián)系的密切程度,它和相關(guān)系數(shù)r一樣,取值在-1到+1之間。斯皮爾曼等級相關(guān)系數(shù)的計算公式如式(17)所示。

      其中n為樣本容量,RX為變量X的等級數(shù),RY為變量Y的等級數(shù)。

      6 實驗結(jié)果與分析

      6.1 相關(guān)性系數(shù)

      使用各種向量的權(quán)值計算方法對目標(biāo)詞對之間的相關(guān)度進(jìn)行計算,然后按照相關(guān)度值降序排列得到詞對的等級數(shù),其結(jié)果與人工判斷標(biāo)準(zhǔn)的斯皮爾曼等級相關(guān)系數(shù)見表2。

      表2 不同方法的斯皮爾曼等級相關(guān)系數(shù)

      從表2中可以看出,本文提出的改進(jìn)方法NORM_TF,INLK,PRANK、TCF,TDF以及集成方法COMB均比基本方法TFIDF有顯著提高。即對詞與詞之間相關(guān)性的度量與人工判定的結(jié)果更一致,在評測集 ZH-SIM-353上明顯優(yōu)于基本方法——TFIDF方法。結(jié)果表明:明確地引入概念(頁面)的先驗概率,利用維基百科頁面鏈接信息,修正詞向量元素的值可以提高相關(guān)度計算的結(jié)果。

      6.2 概念數(shù)量的影響

      前文已經(jīng)提到由于有些頁面正文太短,頁面的質(zhì)量可能較低,重要性不夠,有些頁面的入度很小,即沒有指向它的鏈接或指向它的鏈接很少,因此在實驗中去掉了入度過小或者詞數(shù)過少的頁面,將剩余的頁面作為最終的概念。我們探究了作為概念的頁面入度的下界a,以及詞數(shù)的下界b對計算詞—詞之間的相關(guān)度的影響。

      為了選擇較好的概念集合,采用實驗結(jié)果較好的PRANK方法和TDF方法,對參數(shù)a以及b進(jìn)行調(diào)節(jié)。不同a,b對應(yīng)不同的概念集合,采用不同的概念集合計算詞與詞之間的相關(guān)度的結(jié)果會有所不同,表3列出了概念數(shù)目以及實驗結(jié)果的斯皮爾曼等級相關(guān)系數(shù)隨a,b變化的情況。為了更好地觀察實驗結(jié)果隨a,b變化的趨勢將上表轉(zhuǎn)化為曲線圖,如圖1所示(其中實線和虛線分別代表采用PRANK方法和TDF方法對目標(biāo)詞對的相關(guān)度計算結(jié)果與ZH-SIM-353人工標(biāo)注結(jié)果的斯皮爾曼等級相關(guān)系數(shù)的變化)。

      表3 概念的選取

      從圖1可以看出,當(dāng)a,b變化時,目標(biāo)詞對相關(guān)性計算的結(jié)果也隨著變化,但是結(jié)果與ZH-SIM-353的一致程度并沒多大變化,僅僅有細(xì)微的波動。因此在一定范圍內(nèi)a,b的取值對相關(guān)度計算的結(jié)果幾乎沒有影響。TDF和PRANK方法對概念集合的選取具有較強的魯棒性。

      圖1 概念集合對結(jié)果的影響

      從表3可以看出,當(dāng)<a,b>=<2,50>時概念數(shù)量比a,b取其他值時多,但是相關(guān)度計算的結(jié)果卻比其他很多時候都差一點,這說明并不是概念的數(shù)量越多越好,當(dāng)然也不是越少越好(從<a,b>=<4,70>以及<a,b>=<5,80>可以看出)。在a,b變化時,兩種方法計算相關(guān)性的結(jié)果仍然非常接近,可以說明兩者在對概念(concept)的先驗概率的估計上是比較一致的。這種一致性很大程度上是由中文維基百科頁面之間鏈接的特殊性決定的。

      6.3 集成方法中參數(shù)的選擇

      圖2 組合方法參數(shù)選取

      為了探究COMB方法中參數(shù)α的取值變化對詞-詞相關(guān)度計算實驗結(jié)果的影響,我們針對不同的參數(shù)α,得到目標(biāo)詞對相關(guān)度與人工標(biāo)注的ZHSIM-353數(shù)據(jù)的斯皮爾曼等級相關(guān)系數(shù)(圖2)。

      從圖2可以看出參數(shù)α的變化會使得實驗結(jié)果的斯皮爾曼等級相關(guān)系數(shù)有些微的變化,當(dāng)α取0.4時,在測試集ZH-SIM-353上表現(xiàn)得最好。但是隨著參數(shù)α的變化,實驗結(jié)果并沒有顯著的變化,斯皮爾曼等級相關(guān)系數(shù)波動幅度非常?。ú坏?.003),這也說明了TDF方法和PRANK方法對概念c的先驗概率P(c)的估計很一致,兩種方法計算詞與詞之間的相關(guān)度的結(jié)果也比較一致。

      7 結(jié)語

      本文研究采用顯性語義分析方法,基于中文維基百科實現(xiàn)了漢語詞與詞之間的相關(guān)度計算。基本方法是,將詞表示為帶權(quán)重的由中文維基百科文章定義的概念向量,將詞之間的相關(guān)度計算轉(zhuǎn)化為比較相應(yīng)的概念向量,然后,使用余弦方法比較兩個向量,得到詞之間的相關(guān)度。本文改進(jìn)方法中,利用概率模型,引入概念的先驗概率,利用維基百科文章標(biāo)題的文檔頻率、文檔集頻率以及頁面之間的鏈接結(jié)構(gòu)信息對概念的先驗概率進(jìn)行估計。實驗結(jié)果表明,本文的改進(jìn)方法顯著提高了相關(guān)度計算性能,斯皮爾曼等級相關(guān)系數(shù)從0.40提高到0.52。文章進(jìn)一步比較分析了各種方法的特點,并指出在一定范圍內(nèi),概念集合的選取對詞語之間相關(guān)度計算結(jié)果的影響甚小,組合方法參數(shù)的選取對相關(guān)度計算的結(jié)果也幾乎沒有影響,我們提出的改進(jìn)方法具有較強的魯棒性。

      本文研究的測試集是從英文測試集翻譯而來。然而,中英文詞之間并沒有一一對應(yīng)的關(guān)系。為了檢驗本文提出的改進(jìn)方法是否與本研究采用的測試集有關(guān),它是否也同樣適用于英文,未來的工作有兩個方面:其一,在其他的中文相關(guān)度測試集上對本文的方法進(jìn)行測試,觀察評測結(jié)果是否與本文的結(jié)果一致;其二,使用英文維基百科在英文的測試集上檢驗該改進(jìn)方法是否同樣適合于英文。

      [1]Finkelstein L,E Gabrilovich,Y Matias,et al.Placing search in context:The concept revisited[J].ACM Transactions on Information Systems,2002,20(1):116-131.

      [2]Patwardhan S,S Banerjee&T.Pedersen.SenseRelate:TargetWord-Ageneralized framework for word sense disambiguation [C]//Proceeding of AAAI-05,2005.

      [3]Budanitsky,A.& G.Hirst.Evaluating WordNet-based Measures of Lexical Semantic Relatedness[J].Computational Linguistics,2006,32(1):13-47.

      [4]Gabrilovich E,S Markovitch.Computing semantic relatedness using Wikipedia-based explicit semantic analysis[C]//Proceedings of IJCAI,2007:1606-1611.

      [5]石靜,吳云芳,邱立坤,等.基于大規(guī)模語料庫的漢語詞義相似度計算方法[J].中文信息學(xué)報,2012(1):1-6.

      [6]孫琛琛,申德榮,等.WSR:一種基于維基百科結(jié)構(gòu)信息的語義關(guān)聯(lián)度計算算法[J].計算機學(xué)報,2012(11):2361-2370.

      [7]李赟,黃開妍,等.維基百科的中文語義相關(guān)詞獲取及相關(guān)度分析計算[J].北京郵電大學(xué)學(xué)報,2009(3):109-112.

      [8]Fellbaum,Christiane(editor).WordNet:An Electronic Lexical Database[M].Cambridge,Massachusetts:MIT Press,1998.

      [9]R.Rada,H.Mili,E.Bicknell,M.Blettner.Development and Application of aMetric on Semantic Nets[J].IEEE Transactions on Systems,Man,and Cybernetics,January/February 1989,19,1,17-30.

      [10]R.Richardson,A.Smeaton,J.Murphy.Using WordNet as a KnowledgeBase for Measuring Semantic Similarity BetweenWords[R].Technical Report-Working paper CA-1294,School of Computer Applications,Dublin City University,Dublin,Ireland,1994.

      [11]O.Resnik.Semantic Similarity in a Taxonomy:An Information-Based Measureand its Application to Problems of Ambiguity and Natural Language [J].Journal of Artificial Intelligence Research,11:95-130,1999.

      [12]D.Lin.Principle-Based Parsing Without Over generation[C]//Proceedings of the31st Annual Meeting of the Association for Computational Linguistics(ACL'93):112-120,Columbus,Ohio,1993.

      [13]A.Tversky.Features of Similarity[M].Psychological Review,84(4):327-352,1977.

      [14]M.A.Rodriguez and M.J.Egenhofer.Determining Semantic Similarity AmongEntity Classes from Different Ontologies[J].IEEE Transactions on Knowledge andData Engineering,15(2):442-456,March/April 2003.

      [15]Michael Strube,Simon Paolo Ponzetto.WikiRelate!Computing semantic relatedness using Wikipedia[C]//Proceedings of AAAI'06:1419-1224,Boston,MA,2006.

      [16]Zesch,T.,M ller,C.,Gurevych,I.:Using Wiktionary for Computing Semantic Relatedness [C]//Proceedings of the Twenty-Third AAAI Conference on Artificial Intelligence,AAAI 2008,Chicago,Illinois,USA,pp.861 867(2008).

      [17]D.Bollegala,Y.Matsuo,M.Ishizuka.Measuring semantic similarity between words using Web search engines[C]//Proceedings of WWW,2007.

      [18]TorstenZesch,IrynaGurevych, Max Muhlhauser.2007b.Comparing Wikipedia and German Wordnet by Evaluating Semantic Relatedness on MultipleDatasets[C]//Proceedings of NAACL-HLT.Rochester,New York:205-208.

      [19]L.Page,S.Brin,R.Motwani,T.Winograd,The-PRANK Citation Ranking:Bringing Order to the Web[C]//Proceedings of Stanford Digital Libraries Working Paper,199.

      猜你喜歡
      維基百科詞條頁面
      大狗熊在睡覺
      維基百科影響司法
      英語世界(2023年10期)2023-11-17 09:18:46
      刷新生活的頁面
      維基百科青年
      英語文摘(2021年8期)2021-11-02 07:17:46
      2016年4月中國直銷網(wǎng)絡(luò)熱門詞條榜
      2016年3月中國直銷網(wǎng)絡(luò)熱門詞條榜
      2016年9月中國直銷網(wǎng)絡(luò)熱門詞條榜
      APP
      大數(shù)據(jù)相關(guān)詞條
      IBM的監(jiān)視
      意林(2014年2期)2014-02-11 11:09:17
      镇康县| 广灵县| 唐河县| 项城市| 和林格尔县| 台北县| 阿克苏市| 余干县| 高青县| 唐海县| 蒙阴县| 民勤县| 明水县| 商南县| 沧州市| 临沂市| 锡林郭勒盟| 大埔县| 黔西县| 寻甸| 土默特左旗| 个旧市| 顺义区| 苏尼特左旗| 龙泉市| 白沙| 武安市| 内丘县| 肇源县| 扬州市| 桓台县| 长宁县| 小金县| 桂平市| 合江县| 靖远县| 恩平市| 图片| 托克托县| 吴旗县| 桦甸市|