• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于詞義類簇的文本聚類

    2013-04-23 10:15:14唐國瑜夏云慶
    中文信息學(xué)報(bào) 2013年3期
    關(guān)鍵詞:消歧多義詞詞義

    唐國瑜,夏云慶,張 民,鄭 方

    (1. 清華信息科學(xué)技術(shù)國家實(shí)驗(yàn)室技術(shù)創(chuàng)新和開發(fā)部語音和語言技術(shù)中心, 清華大學(xué)信息技術(shù)研究院語音和語言技術(shù)中心, 清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084;2. 資訊通信研究院,新加坡 138632)

    1 引言

    文檔聚類是自然語言處理中的重要任務(wù),而文檔表示是文檔聚類中的關(guān)鍵部分。現(xiàn)有的很多方法都是基于詞袋(Bag of Word)的思想。向量空間模型(Vector Space Model, VSM)[1]是最常用的經(jīng)典文檔表示模型,它將詞看作特征,將文檔表示成詞的向量。但是VSM忽略了兩個(gè)重要的語言學(xué)現(xiàn)象: 同義詞和多義詞現(xiàn)象。

    同義詞現(xiàn)象指不同的詞含有相同的或者相似度的詞義。例如: “計(jì)算機(jī)”和“電腦”表達(dá)了相同的意思。

    多義詞現(xiàn)象則指一個(gè)詞可以同時(shí)含有兩個(gè)或者多個(gè)詞義。例如“蘋果”可以指一種水果,也可以指一個(gè)電腦公司。

    為了同時(shí)解決這兩個(gè)問題,以前的研究試圖將文檔表示在語義空間上[2-5]。 一些研究試圖利用WordNet[2]或者維基百科[3]構(gòu)造一個(gè)顯式語義空間,然后采用簡(jiǎn)單的詞義歸納技術(shù)區(qū)分詞義。但是這些通用的語義資源通常欠缺完備性。另外一些研究如潛狄利克雷分布(Latent Dirichlet Allocation, LDA)[4]將文本表示在一個(gè)潛語義空間上。這類方法不需要外部資源,因此它能在一定程度上克服顯式語義方法的不足。但是Lu et al.[6]的研究表明,潛語義表示模型在需要細(xì)粒度區(qū)分信息的文本挖掘任務(wù)上的性能并不突出。

    本文提出了詞義類簇模型(SCM),在詞義類簇空間上表示文本。SCM首先構(gòu)造詞義類簇空間,然后在這個(gè)空間上表示文本。詞義類簇空間的構(gòu)造有兩部分組成。首先利用LDA模型[7]從開發(fā)集中歸納詞義;然后通過聚類方法合并相同或相似的詞義生成詞義類簇。這是由于詞義歸納任務(wù)專注于詞的消歧,忽略了詞之間的關(guān)系。因此在本文中局部的詞義需要結(jié)合成全局的詞義類簇。詞義類簇空間構(gòu)造后,本文首先進(jìn)行詞義消歧,然后將文檔表示在詞義空間上。

    本文提出的SCM模型旨在同時(shí)處理同義詞和多義詞現(xiàn)象。1) 詞義聚類可以將相同或者相近的詞義聚為一類。同義詞或者近義詞將被識(shí)別成相同的詞義類簇,這樣文檔相似度將計(jì)算得更加準(zhǔn)確。2) 文檔中的每個(gè)詞都根據(jù)它的上下文賦予一個(gè)特定的詞義類簇,這樣多義詞會(huì)是被識(shí)別成不同的詞義類簇,因此可以得到更加準(zhǔn)確的文檔相似度。

    與之前提到的顯式語義方法相比,本文的詞義是由開發(fā)集歸納出來的,比較容易獲得,還可以擴(kuò)展到不同的語言中。與LDA相比,SCM利用LDA獲得詞義,可以獲得較好的細(xì)粒度區(qū)分信息。

    實(shí)驗(yàn)表明,SCM在標(biāo)準(zhǔn)測(cè)試集上的性能優(yōu)于基線系統(tǒng)以及經(jīng)典話題模型LDA。

    本文組織如下: 第2節(jié)介紹了相關(guān)工作,第3節(jié)介紹了SCM模型,第4節(jié)介紹了相關(guān)實(shí)驗(yàn),最后一節(jié)進(jìn)行了總結(jié)。

    2 相關(guān)工作

    2.1 文檔表示模型

    傳統(tǒng)的VSM模型中,詞和詞之間都是相互獨(dú)立的,忽略了他們之間的語義關(guān)系。一些研究試圖利用概念或者詞類簇[8-9]作為特征,另外一些研究則利用詞與詞之間的相似度[10-11]。但是這些模型只解決了同義詞現(xiàn)象,忽略了多義詞現(xiàn)象。

    為了同時(shí)解決這兩個(gè)問題,一些文檔表示模型采用了WordNet或者維基百科等語義資源,將文檔表示在概念空間上[2,3,12]。但是這些語義資源很難構(gòu)建并且缺乏完備性。

    還有一些研究利用潛語義空間。潛語義分析(LSA)[5]以及潛狄利克雷分布(LDA)[4]是其中兩個(gè)代表性的模型。LSA[5]試圖利用奇異值分解壓縮矩陣,它的特征是所有詞的線性組合。LSA不能處理多義詞現(xiàn)象。LDA[4]曾經(jīng)成功地用于話題發(fā)現(xiàn)任務(wù),但是Lu et al.[6]的研究表明,直接將LDA用于需要細(xì)粒度區(qū)分信息的文本挖掘任務(wù)(如文檔聚類)中性能較差。

    本文利用開發(fā)集歸納詞義并且利用詞義類簇表示文檔,使SCM模型可以同時(shí)處理同義詞現(xiàn)象和多義詞現(xiàn)象。同時(shí)該模型可以很容易地拓展到其他語言和其他領(lǐng)域。

    2.2 詞義歸納和詞義消歧

    很多研究都致力于解決詞義消歧任務(wù)[13]。自然語言處理任務(wù)(比如信息檢索[14])使用詞義來代替詞可以帶來性能的提高。但是這些研究需要人工編輯的語義資源,同時(shí)如何選取詞義的粒度也是研究中的難題。

    本文采用詞義歸納(Word Sense Induction, WSI)算法從未標(biāo)注文本中自動(dòng)發(fā)現(xiàn)詞義。詞義歸納算法有很多[15]。Brody and Lapata[7]提出的貝葉斯模型利用拓展的LDA模型歸納詞義。實(shí)驗(yàn)結(jié)果表明他們的模型要優(yōu)于SemEval-2007評(píng)測(cè)[16]中最好的幾個(gè)系統(tǒng)。詞義歸納算法已經(jīng)在信息檢索任務(wù)中得到了應(yīng)用[17-18]。但是以上的這些研究都只考慮了每個(gè)詞的詞義而忽略了詞與詞之間的關(guān)系。

    本文采用貝葉斯模型[7]進(jìn)行詞義歸納,同時(shí)采用該模型進(jìn)行詞義消歧。

    2.3 文檔聚類

    文檔聚類的目的是按照相似程度將文檔劃分為不同的類簇。一般來說聚類算法可以分為基于區(qū)分和基于生成兩種。前者試圖利用相似度將數(shù)據(jù)劃分為不同的類簇(比如k-Means和層次聚類方法)[19,20],后者則利用特征和數(shù)據(jù)的分布(如EM算法)[21]進(jìn)行劃分。

    本文評(píng)測(cè)提出的模型是用于文本聚類任務(wù)的,同時(shí)聚類算法還用來構(gòu)造詞義類簇。

    3 詞義類簇模型

    詞義類簇模型主要是利用詞義類簇表示文檔。3.1節(jié)給出了詞義以及詞義類簇的定義。3.2節(jié)給出了文檔在詞義類簇空間上的表示,3.3節(jié)則給出了詞義類簇的構(gòu)造,最后3.4節(jié)總結(jié)了詞義類簇模型的流程。

    3.1 詞義和詞義類簇

    定義1詞義: 特定詞w的詞義sw可以統(tǒng)計(jì)地表示為一組上下文的詞的概率分布。如式(1)所示。

    其中ti表示上下文中的詞,p(ti|sw)表示ti對(duì)于詞義sw的概率,即給定詞義sw, 詞ti出現(xiàn)在上下文中的概率。

    本文利用上下文中的詞代替語義資源表示詞義,這是由于語義資源通常構(gòu)造困難且欠缺完備性,而上下文中詞的分布可以通過WSI算法(見3.2節(jié))從開發(fā)集中獲得。

    兩個(gè)詞義的例子如下:

    例#1: 詞“作業(yè)”的詞義“作業(yè)#1”

    作業(yè): 0.159

    功課: 0.069

    學(xué)生: 0.019

    例#2: 詞“作業(yè)”的詞義“作業(yè)#2”

    作業(yè): 0.116

    工作: 0.039

    車間: 0.026

    從例子可以看出,詞“作業(yè)”含有兩個(gè)詞義,每個(gè)詞義都有不同的上下文詞的概率。

    一個(gè)詞可以含有不同的詞義,因此多義詞可以很容易的用詞義進(jìn)行區(qū)分,但是由于詞義是由WSI算法歸納出來的,而現(xiàn)有的WSI算法只關(guān)注于局部詞義即同一個(gè)詞的不同詞義。因此本文引入詞義類簇來獲得不同詞之間的相同詞義。本文假設(shè)每個(gè)詞義只能屬于一個(gè)詞義類簇。

    定義2詞義類簇: 詞義類簇指一組由詞義聚類算法得到的詞義,它可以表示為式(2):

    兩個(gè)詞義類簇的示例如下:

    例#3: 詞義類簇 c#1

    {作業(yè)#1, 功課#1}

    作業(yè)#1={作業(yè): 0.159, 功課: 0.069, 學(xué)生: 0.019}

    功課#1={功課: 0.179, 作業(yè): 0.059, 學(xué)生: 0.029}

    例#4: 詞義類簇 c#2

    {作業(yè)#2, 工作#1}

    作業(yè)#2={作業(yè): 0.116, 工作: 0.039, 車間: 0.026}

    工作#1={工作: 0.12, 作業(yè): 0.04, 車間: 0.016}

    類簇c#1中,由于“作業(yè)#1”與“功課#1”的上下文概率分布比較相似,因此“作業(yè)#1”與“功課#1”被聚為一類。同理,“作業(yè)#2”和“工作#1”被聚為一類。從上面的兩個(gè)類簇可以看出,類簇之間反映了詞的多義性而類簇內(nèi)部則反映了詞的同義性。

    3.2 詞義類簇模型

    為了在詞義類簇空間上表示文檔,我們需要獲得每篇文檔對(duì)于每個(gè)詞義類簇的概率。而每篇文檔的詞義類簇的概率可以通過它含有的詞獲得。因此,詞義類簇c出現(xiàn)在文檔d中的概率如式(3)所示。

    其中p(wk|d)表示文檔的詞概率,可以用nwk,d/Nd進(jìn)行估算,其中nwk,d表示詞頻,Nd表示文檔長(zhǎng)度。p(c|w,d)表示文檔d中的詞w含有詞義類簇c的概率。

    這樣,我們需要計(jì)算每篇文檔中每個(gè)詞的詞義類簇概率,它是由詞義類簇中的詞義概率獲得,可以通過式(4)計(jì)算。

    對(duì)于文檔中的詞w,它的每個(gè)詞義在文檔中出現(xiàn)的概率可以通過式(5)計(jì)算。

    其中a表示詞w在文檔d中的上下文。

    最后p(sw|a)可以通過詞義消歧獲得。本文對(duì)文檔中的每個(gè)詞都采用貝葉斯模型進(jìn)行詞義消歧。貝葉斯模型[7]在本文中主要用于詞義推導(dǎo)和詞義消歧。

    例如有兩句話:

    S1: 學(xué)生們的作業(yè)很多。

    S2: 工人正在生產(chǎn)車間作業(yè)。

    詞義消歧后,S1中“作業(yè)#1”的概率為0.998 05,而S2中“作業(yè)#2”的概率為0.998 05,這樣,多義詞情況得到了處理。

    這樣,SCM模型可以用詞義類簇代替詞,將每篇文檔表示在詞義類簇空間上。SCM模型的一個(gè)實(shí)例如圖1所示。圖1 中,文檔d1和d2分別含有四個(gè)詞。首先,詞“作業(yè)”和詞“功課”屬于同一個(gè)詞義類簇,這意味著SCM可以處理同義詞問題。其次,詞“作業(yè)”在兩篇文檔中分別屬于不同的類簇,這是由于它在兩篇文檔中具有不同的含義,因此SCM模型可以處理多義詞問題。

    圖1 SCM模型的示例

    3.3 詞義類簇空間的構(gòu)造

    詞義類簇的構(gòu)造算法包含兩步: 詞義歸納和詞義聚類。

    由于貝葉斯模型在詞義歸納算法的優(yōu)越性[7],本文采用這個(gè)算法,詳細(xì)過程請(qǐng)參見文獻(xiàn)[7]。本文采用句子作為上下文,直接采用LDA模型進(jìn)行詞義歸納。

    給定一個(gè)詞w,由上文提到的貝葉斯模型可以獲得它的詞義sw的上下文分布概率即p(t|sw)。但是由于貝葉斯模型是針對(duì)特定詞的,它只能識(shí)別出詞的多義性忽略了同義詞之間的關(guān)系。因此我們將上下文的詞作為特征,p(t|sw)作為特征權(quán)重,利用聚類算法進(jìn)行聚類,本文采用Bisecting K-Means[22]算法進(jìn)行聚類。Bisecting K-Means 是K-Means的拓展方法,研究證明它的性能優(yōu)于標(biāo)準(zhǔn)的K-Means算法和層次聚類算法[24]。它首先將樣本看作是一個(gè)類簇,然后迭代找出最大的類簇進(jìn)行劃分。

    3.4 詞義類簇模型的流程

    利用詞義類簇模型進(jìn)行文檔表示的流程如圖2所示。

    圖2 SCM模型的流程

    利用SCM進(jìn)行文檔表示分為兩個(gè)階段: 第一階段,首先利用開發(fā)集歸納出詞義(見3.3及定義1),然后利用聚類算法構(gòu)造詞義類簇。第二階段,首先對(duì)文檔中的每個(gè)詞進(jìn)行詞義消歧,然后利用公式(3)計(jì)算出文檔中的類簇分布概率。

    4 評(píng)測(cè)

    我們利用文檔聚類任務(wù)對(duì)SCM模型進(jìn)行評(píng)測(cè),將SCM模型與現(xiàn)有的文檔表示模型進(jìn)行對(duì)比。

    4.1 實(shí)驗(yàn)設(shè)置

    開發(fā)集: 我們從英文Gigaword語料庫(LDC2009T13)中抽取了210萬英文文檔作為英文開發(fā)集, 從中文Gigaword語料庫(LDC2009T27)中抽取了350萬中文文檔作為中文開發(fā)集。

    測(cè)試集: 本文采用四個(gè)測(cè)試集.

    1) TDT4 測(cè)試集: 我們采用TDT2002(TDT41)和TDT2003(TDT41)作為評(píng)測(cè)集[23]。

    2) CLTC測(cè)試集: 我們從CLTC數(shù)據(jù)集抽取了兩個(gè)評(píng)測(cè)集[24]。

    四個(gè)評(píng)測(cè)集的信息如表1所示。

    聚類方法:

    為了評(píng)測(cè)SCM在文檔聚類的性能,我們把文檔類簇看做特征,采用TF-IDF公式計(jì)算每篇文檔中特征的權(quán)重。然后采用相似度度量公式計(jì)算文檔間的相似度。最后用聚類算法進(jìn)行聚類。由于聚類算法不是文本的重點(diǎn),我們使用經(jīng)典的聚類算法: HAC(Hierarchical Agglomerative Clustering)算法[25]。HAC算法先將每個(gè)文檔看成一個(gè)類簇,然后逐步將相似度最高的類簇合并為一個(gè)類簇。為了計(jì)算類簇之間的相似度,我們采用group-average link算法[25]。當(dāng)類簇個(gè)數(shù)達(dá)到預(yù)定值后,則停止合并過程。

    表1 測(cè)試集的話題和文檔統(tǒng)計(jì)信息

    評(píng)測(cè)指標(biāo)

    我們采用了文獻(xiàn)[24] 提出的評(píng)測(cè)指標(biāo)。首先計(jì)算每個(gè)類簇最大的F值。假設(shè)Ai代表系統(tǒng)生成的類簇ci的文檔,Aj代表人工標(biāo)注的類簇cj的文檔。則F值計(jì)算如下:

    其中pi, j,ri, j和fi, j分別代表準(zhǔn)確率、召回率和F值。

    參數(shù)設(shè)置

    SCM要設(shè)置的參數(shù)包括LDA相關(guān)的參數(shù)(α,β 以及Gibbs sample的迭代次數(shù)),每個(gè)詞的詞義個(gè)數(shù)以及詞義類簇的個(gè)數(shù)。對(duì)于LDA相關(guān)的參數(shù),我們?nèi)ˇ?0.02,β=0.1,迭代次數(shù)設(shè)置為2 000,因?yàn)檫@些參數(shù)在文獻(xiàn)[7]的工作中被證明是最優(yōu)的。由于對(duì)每個(gè)詞選取最優(yōu)的詞義個(gè)數(shù)是非常繁瑣的,我們對(duì)每個(gè)詞都選用相同的詞義個(gè)數(shù)。我們利用CLTC1的數(shù)據(jù)集作為調(diào)試集得出當(dāng)詞義個(gè)數(shù)設(shè)為4的時(shí)候性能最優(yōu),因此我們的實(shí)驗(yàn)都選用4作為詞義個(gè)數(shù)。

    實(shí)驗(yàn)方法:

    本文評(píng)測(cè)了4個(gè)方法。

    VSM: 一個(gè)采用VSM表示文檔的基線系統(tǒng)。

    LDA: 經(jīng)典的話題模型[4],用文檔的話題作為特征進(jìn)行聚類。

    SM(Sense Model): 基于詞義的文檔表示基線系統(tǒng),即直接用本文的詞義歸納算法歸納出的詞義直接表示文檔。它與SCM的區(qū)別是不包含詞義聚類步驟。

    SCM: 本文提出的詞義類簇模型。

    4.2 實(shí)驗(yàn)結(jié)果及討論

    本文分別比較了四個(gè)系統(tǒng)在英文和中文的四個(gè)測(cè)試集上的性能。結(jié)果如表2 和表3所示。其中對(duì)于SCM,我們?cè)?00到2 000的范圍逐步增加詞義類簇的個(gè)數(shù),表2 和表3分別列出了各個(gè)測(cè)試集的最高的F值。SCM還列出了相關(guān)的詞義類簇個(gè)數(shù)。

    從表2和表3可以得出如下結(jié)論:

    1) 在大多數(shù)情況下,SM的性能要高于VSM,這意味著在大多數(shù)情況下,使用詞義表示文檔是有效的。這是因?yàn)榻?jīng)過詞義歸納和消歧后,每個(gè)文檔中的詞都被賦予一個(gè)特定的詞義,使文檔相似度的

    表2 系統(tǒng)在四個(gè)英文數(shù)據(jù)集上的最高F值

    表3 系統(tǒng)在四個(gè)中文數(shù)據(jù)集上的最高F值

    計(jì)算更準(zhǔn)確。例如,兩個(gè)文檔分別含有3.3節(jié)提到的句子S1和S2。由于詞“作業(yè)”在兩篇文檔中分別被識(shí)別為不同的詞義,因此兩篇文檔的相似度為0,而在VSM中,由于含有相同的詞“作業(yè)”,它們的相似度大于0,這意味著詞義空間的相似度計(jì)算更準(zhǔn)確。但是有些情況下,SM的性能要低于VSM,原因是我們對(duì)于每個(gè)詞都是用了相同的詞義個(gè)數(shù),因此含有相同意義的詞有可能被識(shí)別為不同的詞義,這影響了系統(tǒng)的性能。

    2) SCM的性能要高于SM。這是由于使用詞義聚類方法將相似或相同的詞義聚為一類。例如,{職工#0, 職工#2, 工人#2}是由SCM構(gòu)造的詞義類簇。即使不包含相同的詞,含有“職工#0”的文檔與含有“工人#2”的文檔具有一定的相似度,這更符合實(shí)際情況。同時(shí),詞義聚類還能從一定程度上彌補(bǔ)每個(gè)詞的詞義都取相同個(gè)數(shù)的不良影響。比如說,“職工#0”和“職工#2”,一個(gè)詞義被錯(cuò)誤的分成兩個(gè),但是它們具有相似的上下文分布,因此可以在詞義聚類階段聚在一起。

    3) SCM的性能要高于VSM,這意味由于SCM可以處理多義詞和同義詞現(xiàn)象,使用詞義類簇比使用詞更具有優(yōu)越性。

    4) 在大多數(shù)情況下,SCM性能優(yōu)于LDA。LDA是一個(gè)經(jīng)典的話題模型,它將文檔表示在一個(gè)話題空間上,可以同時(shí)處理多義詞現(xiàn)象和同義詞現(xiàn)象。但是在本實(shí)驗(yàn)的大多數(shù)情況下,LDA的性能最低,這是由于文檔聚類任務(wù)需要細(xì)粒度區(qū)分信息,而直接使用LDA不能很好提供這種信息。SCM利用LDA識(shí)別詞義類簇,因此SCM不僅能夠同時(shí)處理同義詞和多義詞現(xiàn)象,同時(shí)還能夠提供特征空間的細(xì)粒度區(qū)分信息。

    5) SCM在英文和中文兩種語言上都能獲得相似的改進(jìn)。這意味著SCM的改進(jìn)不僅僅限于一種語言,它可以被拓展到不同的語言。

    5 總結(jié)和展望

    本文在文檔表示部分改進(jìn)了文檔聚類, 提出了一個(gè)新的文檔表示模型SCM,采用詞義類簇表示文檔。在SCM中,首先利用詞義歸納算法和詞義聚類技術(shù)構(gòu)造詞義類簇,然后將文檔表示在詞義類簇空間上。本文提出的SCM旨在處理同義詞和多義詞現(xiàn)象。同義詞可以被聚在相同的詞義類簇中。同一個(gè)詞的不同詞義被識(shí)別為不同的詞義類簇。因此文檔相似度在SCM上計(jì)算的更準(zhǔn)確。在兩種語言的四個(gè)數(shù)據(jù)上的實(shí)驗(yàn)證明,SCM模型比基線系統(tǒng)和LDA的性能更優(yōu)。

    在接下來的工作中,我們將在大規(guī)模數(shù)據(jù)集上繼續(xù)評(píng)測(cè)SCM。同時(shí)由于SCM將文檔表示在詞義類簇空間上,我們將考慮采用SCM在短文本聚類中處理稀疏性數(shù)據(jù)。另外我們可以進(jìn)一步改進(jìn)模型自動(dòng)獲取詞義的個(gè)數(shù)進(jìn)行詞義歸納。

    [1] G Salton, A Wong, C S Yang. A Vector Space Model for Automatic Indexing[J]. Communications of the ACM, 1975, 18(11): 613-620.

    [2] A Hotho, S Staab, G Stumme. WordNet improves text document clustering[C]//Proc.of SIGIR2003 semantic web workshop.ACM, New York, 2003: 541-544.

    [3] P Cimiano, A Schultz, S Sizov, et al. Explicit vs. latent concept models for cross-language information retrieval[C]//Proc. of IJCAI’09.

    [4] D M Blei, A Y Ng, M I Jordan. Latent dirichlet allocation[J]. J. Machine Learning Research,2003(3): 993-1022.

    [5] T K Landauer, S T Domais. A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquisition, Induction and Representation of Knowledge[J]. Psychological Review,1997,104(2): 211-240.

    [6] Yue Lu,Qiaozhu Mei,Chengxiang Zhai, Investigating task performance of probabilistic topic models: an empirical study of PLSA and LDA[J]. Information Retrieval, 2011,14(2), 178-203.

    [7] S Brody, M Lapata. Bayesian word sense induction[C]//Proc. of EACL’2009: 103-111.

    [8] J Pessiot, Y Kim, M Amini, et al. Improving document clustering in a learned concet space[J]. Information Processing and Management, 2010,46: 180-192.

    [9] S Dhillon. Co-clustering documents and words using bipartite spectral graph partitioning[C]//Proc. SIGKDD’2001: 269-274.

    [10] S K M Wong, W Ziarko, P C N Wong. Generalized vector model in information retrieval[C]//Proc. of the 8th ACM SIGIR,1985: 18-25.

    [11] A K Farahat, M S Kamel. Statistical semantic for enhancing document clustering[J]. Knowledge and Information Systems,2010.

    [12] H Huang, Y Kuo. Cross-Lingual Document Representation and Semantic Similarity Measure: A Fuzzy Set and Rough Set Based Approach. Fuzzy Systems[J]. IEEE Transactions,2010,18(6): 1098-1111.

    [13] R Navigli. Word sense disambiguation: a survey[J]. ACM Comput. Surv. 2009,41(2), Article 10 (February 2009): 69.

    [14] C Stokoe, M P Oakes, J Tait. Word sense disambiguation in information retrieval revisited[C]//Proceedings of SIGIR ’2003: 159-166.

    [15] M Denkowski, A Survey of Techniques for Unsupervised Word Sense Induction[J]. Technical Report. Language Technologies Institute, Carnegie Mellon University.

    [16] E Agirre, A Soroa. Semeval-2007 task02: evaluating word sense induction and discrimination systems[C]. SemEval 2007.

    [17] H Schutze, J Pedersen. Information Retrieval based on word senses[C]//Proc. of SDAIR’95: 161-175.

    [18] R Navigli, G Crisafulli. Inducing word senses to improve web search result clustering[C]//Proc. of EMNLP ’10: 116-126.

    [19] S Dhillon, D S Modha. Concept decompositions for large sparse text data using clustering[J].Mach. Learn., 2001,42(1-2): 143-175.

    [20] Y Zhao, G Karypis, U Fayyad. Hierarchical clustering algorithms for document datasets[J]. Data Mining and Knowledge Discovery, 2005,10(2): 141-168.

    [21] C Ordonez, E Omiecinski. Frem: fast and robust em clustering for large data sets[C]//CIKM ’02, ACM Press. New York, NY, USA, 2002:590-599.

    [22] M Steinbach, G Karypis, V Kumar. A comparison of document clustering techniques[C]//KDD Workshop on Text Mining,2000.

    [23] Junbo Kong, David Graff. TDT4 multilingual broadcast news speech corpus[J].2005.

    [24] G Tang, Y Xia, M Zhang, et al. 2011 CLGVSM: Adapting Generalized Vector Space Model to Cross-lingual Document Clustering[C]//Proc. of IJCNLP’2010: 580-588.

    [25] E M Voorhees. Implementing agglomerative hierarchic clustering algorithms for use in document retrieval[J]. Information Processing and Management. v.22(6): 465-476. 1986.

    猜你喜歡
    消歧多義詞詞義
    基于關(guān)聯(lián)圖和文本相似度的實(shí)體消歧技術(shù)研究*
    多義詞
    基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
    西夏語“頭項(xiàng)”詞義考
    西夏研究(2020年1期)2020-04-01 11:54:26
    詞義辨別小妙招——看圖辨詞
    藏文歷史文獻(xiàn)識(shí)別過程中藏文自由虛詞的自動(dòng)識(shí)別及消歧算法的研究
    淺議多義詞在語境中的隱喻認(rèn)知
    多義詞way的語義認(rèn)知分析及實(shí)證研究
    字意與詞義
    語言與翻譯(2014年3期)2014-07-12 10:31:59
    基于《知網(wǎng)》的中文信息結(jié)構(gòu)消歧研究
    岛国毛片在线播放| 热99re8久久精品国产| 女警被强在线播放| 狂野欧美激情性xxxx| 人人澡人人妻人| 日日爽夜夜爽网站| 岛国在线观看网站| 女人高潮潮喷娇喘18禁视频| 日韩欧美三级三区| 老鸭窝网址在线观看| 中文字幕人妻熟女乱码| www.精华液| 99国产精品99久久久久| 久久精品亚洲熟妇少妇任你| 日韩制服丝袜自拍偷拍| 高清视频免费观看一区二区| 亚洲精华国产精华精| 精品久久久久久电影网| 看免费av毛片| 在线观看www视频免费| 精品一区二区三卡| 国产亚洲精品久久久久5区| 免费观看a级毛片全部| 法律面前人人平等表现在哪些方面| 99国产精品99久久久久| 老熟妇仑乱视频hdxx| 久久精品国产亚洲av香蕉五月 | 日本vs欧美在线观看视频| 国产人伦9x9x在线观看| 国产精品一区二区精品视频观看| 99久久人妻综合| 啦啦啦免费观看视频1| 亚洲av日韩精品久久久久久密| 18在线观看网站| 老司机午夜福利在线观看视频| 看免费av毛片| 欧美 日韩 精品 国产| 午夜福利一区二区在线看| 久久人妻福利社区极品人妻图片| 热99re8久久精品国产| 亚洲在线自拍视频| 一区二区三区激情视频| 另类亚洲欧美激情| 国产成人精品久久二区二区91| 热99re8久久精品国产| 久久午夜综合久久蜜桃| 在线观看免费视频日本深夜| 亚洲精品久久成人aⅴ小说| 精品国产乱码久久久久久男人| 在线观看免费午夜福利视频| 人妻丰满熟妇av一区二区三区 | 久久国产精品大桥未久av| 亚洲色图 男人天堂 中文字幕| 免费久久久久久久精品成人欧美视频| 欧美人与性动交α欧美软件| 精品亚洲成a人片在线观看| 天堂√8在线中文| 高清毛片免费观看视频网站 | 久久热在线av| 精品国产亚洲在线| 在线免费观看的www视频| 交换朋友夫妻互换小说| 777米奇影视久久| 精品国产国语对白av| 12—13女人毛片做爰片一| 国产一卡二卡三卡精品| 国产成人影院久久av| 国产男女内射视频| 97人妻天天添夜夜摸| 欧美av亚洲av综合av国产av| 叶爱在线成人免费视频播放| aaaaa片日本免费| 看免费av毛片| 成人国产一区最新在线观看| 啦啦啦 在线观看视频| 嫁个100分男人电影在线观看| 18禁裸乳无遮挡动漫免费视频| 热re99久久国产66热| 亚洲熟妇中文字幕五十中出 | 夜夜夜夜夜久久久久| 亚洲精品av麻豆狂野| 久久香蕉精品热| 搡老熟女国产l中国老女人| 亚洲情色 制服丝袜| 51午夜福利影视在线观看| 国产伦人伦偷精品视频| 欧美日本中文国产一区发布| 久久久久精品人妻al黑| 在线免费观看的www视频| 久久中文看片网| 久久人人97超碰香蕉20202| 侵犯人妻中文字幕一二三四区| 精品福利观看| 亚洲五月色婷婷综合| 又紧又爽又黄一区二区| av免费在线观看网站| 一级a爱视频在线免费观看| 99国产精品一区二区三区| 真人做人爱边吃奶动态| 亚洲精品久久午夜乱码| 亚洲欧美日韩高清在线视频| 脱女人内裤的视频| 亚洲 欧美一区二区三区| 高潮久久久久久久久久久不卡| 欧美大码av| 精品第一国产精品| 两个人看的免费小视频| 亚洲欧洲精品一区二区精品久久久| 人妻久久中文字幕网| 午夜老司机福利片| 精品久久久久久电影网| 免费在线观看黄色视频的| 久久精品国产亚洲av高清一级| 国产欧美日韩精品亚洲av| 国产欧美日韩精品亚洲av| 国产精品国产av在线观看| 亚洲视频免费观看视频| 亚洲,欧美精品.| 99精品欧美一区二区三区四区| 国产不卡av网站在线观看| 国产欧美日韩一区二区三| 黑人巨大精品欧美一区二区蜜桃| 999久久久国产精品视频| 亚洲精品在线美女| 欧美日韩黄片免| 中文亚洲av片在线观看爽 | 99精品欧美一区二区三区四区| 热99久久久久精品小说推荐| 久久国产精品男人的天堂亚洲| 国产高清激情床上av| 巨乳人妻的诱惑在线观看| 国产成人系列免费观看| 日韩欧美国产一区二区入口| 亚洲 国产 在线| 12—13女人毛片做爰片一| 国产精品久久久久久精品古装| 国产精品久久久久久精品古装| 成人av一区二区三区在线看| 好男人电影高清在线观看| 涩涩av久久男人的天堂| 女人高潮潮喷娇喘18禁视频| 国产深夜福利视频在线观看| 丝袜在线中文字幕| 欧美成人午夜精品| 中文亚洲av片在线观看爽 | 国产成人精品无人区| 少妇裸体淫交视频免费看高清 | 18在线观看网站| 这个男人来自地球电影免费观看| 免费人成视频x8x8入口观看| 日本a在线网址| 性色av乱码一区二区三区2| 在线观看一区二区三区激情| 国产精品一区二区精品视频观看| 亚洲专区字幕在线| 成人永久免费在线观看视频| 不卡av一区二区三区| 天天躁日日躁夜夜躁夜夜| 一进一出抽搐gif免费好疼 | 亚洲久久久国产精品| а√天堂www在线а√下载 | 亚洲伊人色综图| 美女高潮喷水抽搐中文字幕| 一边摸一边抽搐一进一小说 | 国产精品久久久av美女十八| 十八禁网站免费在线| 久久亚洲真实| 久久久久久亚洲精品国产蜜桃av| 久久久久久久久免费视频了| 亚洲一区中文字幕在线| 午夜免费成人在线视频| 美女高潮喷水抽搐中文字幕| 超色免费av| 久久久久久亚洲精品国产蜜桃av| 窝窝影院91人妻| 麻豆乱淫一区二区| 波多野结衣av一区二区av| 色94色欧美一区二区| 中国美女看黄片| 热99re8久久精品国产| 法律面前人人平等表现在哪些方面| 亚洲精品av麻豆狂野| 欧美精品亚洲一区二区| 免费一级毛片在线播放高清视频 | 久久亚洲精品不卡| 午夜亚洲福利在线播放| 大陆偷拍与自拍| 操出白浆在线播放| www.熟女人妻精品国产| 丰满迷人的少妇在线观看| netflix在线观看网站| 亚洲国产欧美日韩在线播放| 99国产极品粉嫩在线观看| 午夜影院日韩av| 美女午夜性视频免费| 精品视频人人做人人爽| 午夜福利一区二区在线看| 亚洲熟妇熟女久久| 国产成人精品在线电影| 精品免费久久久久久久清纯 | 国产99白浆流出| 99国产极品粉嫩在线观看| 在线观看免费视频网站a站| 亚洲人成77777在线视频| 最近最新中文字幕大全免费视频| 日本vs欧美在线观看视频| 国产成人啪精品午夜网站| 两个人看的免费小视频| xxxhd国产人妻xxx| 又黄又爽又免费观看的视频| 又紧又爽又黄一区二区| 久久狼人影院| 99在线人妻在线中文字幕 | 精品无人区乱码1区二区| 91麻豆av在线| x7x7x7水蜜桃| 夜夜夜夜夜久久久久| 欧美另类亚洲清纯唯美| 一级片'在线观看视频| 中文字幕最新亚洲高清| 91精品国产国语对白视频| 亚洲欧美日韩高清在线视频| 王馨瑶露胸无遮挡在线观看| 一级毛片精品| 成人av一区二区三区在线看| 日本欧美视频一区| 美女高潮到喷水免费观看| av网站免费在线观看视频| 欧美成狂野欧美在线观看| 午夜免费鲁丝| 啦啦啦在线免费观看视频4| 精品卡一卡二卡四卡免费| 亚洲 国产 在线| 国产成人系列免费观看| 精品国产美女av久久久久小说| 久久人妻福利社区极品人妻图片| 在线看a的网站| 制服诱惑二区| 午夜老司机福利片| 啦啦啦视频在线资源免费观看| 中文字幕高清在线视频| 午夜视频精品福利| 国产又色又爽无遮挡免费看| 国产精品九九99| 午夜精品在线福利| 性少妇av在线| 老司机午夜福利在线观看视频| 老司机深夜福利视频在线观看| 激情视频va一区二区三区| 身体一侧抽搐| 黄色 视频免费看| 在线视频色国产色| 国产精品二区激情视频| 国产一区二区三区在线臀色熟女 | 久久人妻av系列| 午夜免费鲁丝| 香蕉久久夜色| 欧美日韩精品网址| 动漫黄色视频在线观看| 亚洲伊人色综图| 亚洲第一青青草原| 亚洲国产欧美一区二区综合| 久久久国产成人免费| 久久影院123| 亚洲欧美一区二区三区久久| 亚洲成人手机| 婷婷精品国产亚洲av在线 | 国产成人欧美在线观看 | 麻豆成人av在线观看| 黄色 视频免费看| 久久人人97超碰香蕉20202| 国产91精品成人一区二区三区| 这个男人来自地球电影免费观看| 在线av久久热| 国产成人av激情在线播放| 亚洲一区二区三区不卡视频| 极品少妇高潮喷水抽搐| 黄色怎么调成土黄色| 中文字幕av电影在线播放| 岛国在线观看网站| 色婷婷久久久亚洲欧美| 麻豆乱淫一区二区| 国产男靠女视频免费网站| 久久精品国产亚洲av香蕉五月 | 91国产中文字幕| bbb黄色大片| 大码成人一级视频| 两个人看的免费小视频| 日韩免费高清中文字幕av| 一边摸一边抽搐一进一出视频| 女人被躁到高潮嗷嗷叫费观| tube8黄色片| 久久久精品免费免费高清| 人人妻人人爽人人添夜夜欢视频| 久久中文字幕一级| 久久天躁狠狠躁夜夜2o2o| 一级片免费观看大全| a在线观看视频网站| 免费在线观看亚洲国产| 一级片'在线观看视频| 免费av中文字幕在线| 午夜91福利影院| 久久香蕉精品热| 伊人久久大香线蕉亚洲五| 久久亚洲精品不卡| 色94色欧美一区二区| 国产黄色免费在线视频| 麻豆国产av国片精品| 久久天躁狠狠躁夜夜2o2o| 很黄的视频免费| 久久影院123| 色婷婷久久久亚洲欧美| 在线观看66精品国产| 麻豆成人av在线观看| 12—13女人毛片做爰片一| 王馨瑶露胸无遮挡在线观看| 亚洲av片天天在线观看| 色婷婷久久久亚洲欧美| 国产视频一区二区在线看| 婷婷成人精品国产| 免费黄频网站在线观看国产| 亚洲熟妇中文字幕五十中出 | 香蕉久久夜色| 亚洲三区欧美一区| 精品亚洲成国产av| 国产免费av片在线观看野外av| 露出奶头的视频| 黄片大片在线免费观看| 精品无人区乱码1区二区| √禁漫天堂资源中文www| 中文字幕av电影在线播放| 精品福利观看| 婷婷精品国产亚洲av在线 | 桃红色精品国产亚洲av| 国产麻豆69| 国产精品一区二区在线不卡| 亚洲欧美一区二区三区久久| 黑人巨大精品欧美一区二区mp4| 亚洲伊人色综图| 国产欧美日韩一区二区三| 日韩欧美免费精品| 午夜精品久久久久久毛片777| 国产aⅴ精品一区二区三区波| 欧美久久黑人一区二区| 久久精品亚洲熟妇少妇任你| 久久久久久人人人人人| 亚洲精品久久成人aⅴ小说| 久久国产精品大桥未久av| 欧美精品一区二区免费开放| 操出白浆在线播放| 免费久久久久久久精品成人欧美视频| 99国产精品99久久久久| 日本黄色视频三级网站网址 | 一级a爱片免费观看的视频| 亚洲熟妇熟女久久| 天天操日日干夜夜撸| 女人被狂操c到高潮| av国产精品久久久久影院| 激情在线观看视频在线高清 | 好男人电影高清在线观看| 国产精品久久久人人做人人爽| 露出奶头的视频| 国产成人影院久久av| 亚洲成国产人片在线观看| 欧美最黄视频在线播放免费 | 久久精品国产亚洲av香蕉五月 | 自拍欧美九色日韩亚洲蝌蚪91| 亚洲色图综合在线观看| 欧美精品亚洲一区二区| 动漫黄色视频在线观看| 波多野结衣av一区二区av| 亚洲,欧美精品.| 中文字幕另类日韩欧美亚洲嫩草| 男女免费视频国产| 免费观看a级毛片全部| av片东京热男人的天堂| 精品一区二区三区四区五区乱码| 制服诱惑二区| 18禁黄网站禁片午夜丰满| 成人影院久久| 国产aⅴ精品一区二区三区波| 18禁裸乳无遮挡动漫免费视频| 国产单亲对白刺激| 高清在线国产一区| 一级毛片高清免费大全| 麻豆成人av在线观看| 中文字幕制服av| a级毛片在线看网站| 亚洲精品在线美女| 一a级毛片在线观看| 91麻豆精品激情在线观看国产 | 国产精品亚洲av一区麻豆| 成人18禁高潮啪啪吃奶动态图| 欧美日韩av久久| 免费黄频网站在线观看国产| 亚洲精品美女久久久久99蜜臀| 亚洲av熟女| 99热国产这里只有精品6| 国产精品 欧美亚洲| 在线国产一区二区在线| 婷婷成人精品国产| av欧美777| 国内毛片毛片毛片毛片毛片| 热99re8久久精品国产| 一级作爱视频免费观看| 超色免费av| 午夜免费鲁丝| 美女扒开内裤让男人捅视频| 桃红色精品国产亚洲av| а√天堂www在线а√下载 | 激情在线观看视频在线高清 | 99精品久久久久人妻精品| 看免费av毛片| 欧美日韩精品网址| 村上凉子中文字幕在线| 亚洲精品粉嫩美女一区| 深夜精品福利| 51午夜福利影视在线观看| 亚洲精品自拍成人| 色尼玛亚洲综合影院| 99热国产这里只有精品6| 久久久国产成人精品二区 | 国产在线观看jvid| 久久亚洲精品不卡| 精品久久久久久,| 村上凉子中文字幕在线| 国产亚洲精品久久久久久毛片 | 日韩欧美三级三区| 最近最新中文字幕大全免费视频| 啪啪无遮挡十八禁网站| 成人三级做爰电影| 中文字幕高清在线视频| av欧美777| 色精品久久人妻99蜜桃| 在线观看免费高清a一片| 中文字幕精品免费在线观看视频| 成人国产一区最新在线观看| 亚洲熟妇熟女久久| 午夜精品久久久久久毛片777| 久久影院123| 亚洲熟女毛片儿| 亚洲国产毛片av蜜桃av| 国产伦人伦偷精品视频| 多毛熟女@视频| 久久人妻福利社区极品人妻图片| 欧美日韩中文字幕国产精品一区二区三区 | 美女视频免费永久观看网站| 一a级毛片在线观看| 大型av网站在线播放| 欧美另类亚洲清纯唯美| 日日夜夜操网爽| 亚洲自偷自拍图片 自拍| 韩国精品一区二区三区| 大香蕉久久网| 在线观看免费日韩欧美大片| 99riav亚洲国产免费| 久久人人爽av亚洲精品天堂| 国产单亲对白刺激| 大码成人一级视频| 人人妻人人澡人人看| 黄色毛片三级朝国网站| 欧美成人午夜精品| 国产精品国产av在线观看| 最近最新免费中文字幕在线| 亚洲成国产人片在线观看| 国产精品免费视频内射| 久久久精品免费免费高清| 丝袜人妻中文字幕| 欧美中文综合在线视频| 一二三四在线观看免费中文在| 欧美在线黄色| 视频区欧美日本亚洲| 午夜精品久久久久久毛片777| 搡老岳熟女国产| 母亲3免费完整高清在线观看| 久久久国产一区二区| 国产在视频线精品| 国产男靠女视频免费网站| 午夜福利免费观看在线| 精品久久久久久电影网| 国产成人免费无遮挡视频| 国产精品98久久久久久宅男小说| 日韩精品免费视频一区二区三区| 母亲3免费完整高清在线观看| 搡老乐熟女国产| 欧美亚洲日本最大视频资源| 美女高潮到喷水免费观看| 一进一出抽搐动态| 9191精品国产免费久久| 黑人巨大精品欧美一区二区mp4| 国产精品香港三级国产av潘金莲| 中文字幕另类日韩欧美亚洲嫩草| 国产亚洲欧美精品永久| 亚洲自偷自拍图片 自拍| 日本欧美视频一区| 一边摸一边抽搐一进一小说 | 久久 成人 亚洲| 成人av一区二区三区在线看| 国产精品一区二区在线观看99| 国产精品.久久久| 成人国语在线视频| 男男h啪啪无遮挡| tube8黄色片| 超色免费av| 91精品国产国语对白视频| 精品人妻1区二区| 老司机影院毛片| 日本撒尿小便嘘嘘汇集6| 曰老女人黄片| 亚洲精品久久成人aⅴ小说| 欧美乱妇无乱码| 老司机午夜福利在线观看视频| 国产精品1区2区在线观看. | 久久影院123| 老司机在亚洲福利影院| 久久中文看片网| 极品人妻少妇av视频| 香蕉久久夜色| 亚洲精品久久成人aⅴ小说| av超薄肉色丝袜交足视频| 欧洲精品卡2卡3卡4卡5卡区| 老司机亚洲免费影院| 久久狼人影院| 精品免费久久久久久久清纯 | 美女高潮喷水抽搐中文字幕| 视频在线观看一区二区三区| 亚洲第一欧美日韩一区二区三区| 亚洲av成人一区二区三| 韩国精品一区二区三区| av有码第一页| 亚洲人成电影免费在线| 精品久久久久久久久久免费视频 | 老鸭窝网址在线观看| 一级片'在线观看视频| 国产亚洲精品一区二区www | 天天躁日日躁夜夜躁夜夜| 亚洲欧美激情在线| 亚洲色图av天堂| 久久精品熟女亚洲av麻豆精品| 国产精品一区二区在线观看99| 嫁个100分男人电影在线观看| 伦理电影免费视频| 久久久久国产精品人妻aⅴ院 | 亚洲一区高清亚洲精品| 国产成人免费无遮挡视频| 男人舔女人的私密视频| 国产不卡一卡二| 国产亚洲欧美在线一区二区| 欧美日韩瑟瑟在线播放| 正在播放国产对白刺激| 老汉色∧v一级毛片| 捣出白浆h1v1| 国产单亲对白刺激| 久久久久国产精品人妻aⅴ院 | 日韩精品免费视频一区二区三区| 最新的欧美精品一区二区| xxxhd国产人妻xxx| 日韩成人在线观看一区二区三区| 超色免费av| 免费在线观看视频国产中文字幕亚洲| 国产不卡一卡二| 国产av又大| 国产视频一区二区在线看| 大陆偷拍与自拍| 搡老乐熟女国产| 亚洲精品在线观看二区| 18在线观看网站| 搡老熟女国产l中国老女人| 国产精品久久久av美女十八| 日韩大码丰满熟妇| 精品卡一卡二卡四卡免费| 热99久久久久精品小说推荐| 麻豆国产av国片精品| 免费黄频网站在线观看国产| 国产精品成人在线| 热99国产精品久久久久久7| 亚洲精品美女久久av网站| 成熟少妇高潮喷水视频| 成年版毛片免费区| 19禁男女啪啪无遮挡网站| 亚洲精品av麻豆狂野| 极品少妇高潮喷水抽搐| 在线看a的网站| 亚洲 欧美一区二区三区| 国产精品久久久av美女十八| 国产亚洲精品久久久久5区| 国产男女内射视频| 国产无遮挡羞羞视频在线观看| 久9热在线精品视频| 国产精品1区2区在线观看. | 色尼玛亚洲综合影院| 日韩制服丝袜自拍偷拍| 俄罗斯特黄特色一大片| av网站在线播放免费| 亚洲欧美精品综合一区二区三区| 免费高清在线观看日韩| 国产精品 欧美亚洲| 99国产极品粉嫩在线观看| 亚洲av日韩在线播放| 黄色片一级片一级黄色片| 又黄又爽又免费观看的视频| 亚洲久久久国产精品| 最新在线观看一区二区三区| 亚洲三区欧美一区| 国产不卡av网站在线观看| 高清av免费在线| 久久精品亚洲熟妇少妇任你| 精品亚洲成a人片在线观看| 欧美激情久久久久久爽电影 | 国精品久久久久久国模美| 久久人人爽av亚洲精品天堂| 亚洲精品国产一区二区精华液| 国产精品亚洲av一区麻豆| 欧美av亚洲av综合av国产av| 午夜福利欧美成人|