• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于跨語(yǔ)言廣義向量空間模型的跨語(yǔ)言文檔聚類方法

    2012-06-29 01:55:38唐國(guó)瑜夏云慶
    中文信息學(xué)報(bào) 2012年2期
    關(guān)鍵詞:詞頻語(yǔ)料文檔

    唐國(guó)瑜, 夏云慶, 張 民, 鄭 方

    (1. 清華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084; 2. 資訊通信研究院,新加坡 138632)

    1 引言

    文檔聚類的目的是按照相似程度將文檔劃分為不同的類簇,它已經(jīng)成功應(yīng)用于改進(jìn)文檔分類和文檔流事件發(fā)現(xiàn)。國(guó)內(nèi)外學(xué)者在單語(yǔ)言文檔聚類研究中嘗試了很多算法。但是隨著商業(yè)環(huán)境的全球化,文檔聚類逐步面臨不同語(yǔ)言的挑戰(zhàn)。

    傳統(tǒng)單語(yǔ)言文檔聚類方法采取向量空間模型(Vector Space Model, VSM)表示文本,它利用詞袋(Bag of Word, BOW)模型來(lái)構(gòu)建特征空間,將每個(gè)文檔轉(zhuǎn)化為一個(gè)向量。詞袋模型在特征匹配中通常采用“硬匹配”方法。例如,當(dāng)詞“海岸”被選為特征時(shí),除非“海邊”也被選為特征,否則“海邊”無(wú)法影響到文檔表示。這是因?yàn)椤坝财ヅ洹敝小昂0丁焙汀昂_叀蓖耆煌?。為解決這個(gè)問(wèn)題,文獻(xiàn)[1]提出的潛語(yǔ)義分析(LSA)方法,基于語(yǔ)料庫(kù)中的共現(xiàn)信息將一組詞與一個(gè)特征進(jìn)行匹配。GVMS則將文檔中的詞看作向量,然后通過(guò)計(jì)算詞的內(nèi)積或者相似度進(jìn)行將文檔表示在一個(gè)非正交的空間上。但是上述模型都是基于單語(yǔ)文檔集設(shè)計(jì)的,并不能直接用到跨語(yǔ)言文檔集中。

    研究者提出了用詞典或機(jī)器翻譯工具對(duì)特征或者文檔進(jìn)行翻譯。然而,一旦詞被選為特征,“硬匹配”問(wèn)題變得更為嚴(yán)重。如何獲得不同語(yǔ)言文檔中的相似詞匯,這是跨語(yǔ)言文檔聚類的核心問(wèn)題。文獻(xiàn)[2]提出了采用LSA的解決方法。借助平行語(yǔ)料,他們將相似的詞看作為一個(gè)特征。與單語(yǔ)言LSA不同,跨語(yǔ)言LSA在固定訓(xùn)練集上選擇特征。但由于目標(biāo)文檔集通常與訓(xùn)練集存在內(nèi)容和用詞的顯著不同,這會(huì)導(dǎo)致過(guò)度適應(yīng)問(wèn)題。

    本文通過(guò)采用跨語(yǔ)言詞匯相似度計(jì)算將單語(yǔ)廣義向量空間模型(Generalized Vector Space Model, GVSM)拓展到跨語(yǔ)言文檔表示中,即跨語(yǔ)言廣義空間向量模型(CLGVSM)。同時(shí)提出了適用于CLGVSM的特征選擇算法。本文實(shí)現(xiàn)了兩種有代表性的詞匯相似度算法,即基于《知網(wǎng)》的詞匯相似度算法和基于SOCPMI的詞匯相似度算法。實(shí)驗(yàn)表明,SOCPMI比《知網(wǎng)》更適合文檔聚類。同時(shí),我們還在相同可比語(yǔ)料下對(duì)基于SOCPMI的CLGVSM方法與LSA方法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明,基于SOCPMI的CLGVSM方法比LSA方法顯示出更好的性能。

    2 相關(guān)工作

    2.1 跨語(yǔ)言文檔聚類

    跨語(yǔ)言文檔聚類的難點(diǎn)在于如何處理跨語(yǔ)言相似性問(wèn)題,其中最直接的方法是采用詞典或機(jī)器翻譯工具。在TDT-3評(píng)測(cè)中,四個(gè)系統(tǒng)均采用機(jī)器翻譯工具(文獻(xiàn)[3]等)。結(jié)果表明,與單語(yǔ)言話題跟蹤相比,采用機(jī)器翻譯方法會(huì)導(dǎo)致50%的性能下降。下降的主要原因是機(jī)器翻譯技術(shù)的準(zhǔn)確性問(wèn)題。

    一些研究工作[4-6]通過(guò)雙語(yǔ)詞典進(jìn)行詞匹配或者特征詞翻譯。文獻(xiàn)[7]通過(guò)多語(yǔ)言主題詞表 Eurovoc 構(gòu)造跨語(yǔ)言文檔向量。以上基于詞典的跨語(yǔ)言文檔聚類方法都難以解決歧義詞的翻譯問(wèn)題以及未登陸詞問(wèn)題。

    近年來(lái),學(xué)者開始利用平行語(yǔ)料或可比語(yǔ)料進(jìn)行跨語(yǔ)言文檔聚類[2,8]。還有一些研究利用維基百科進(jìn)行跨語(yǔ)言文檔信息檢索[9]。不同于文檔分類,文檔聚類缺乏訓(xùn)練數(shù)據(jù),因此語(yǔ)義空間只能在固定訓(xùn)練語(yǔ)料中構(gòu)建,特征的選擇也是如此,因此忽略了特征在聚類目標(biāo)集中的不同分布。本文提出的CLGVSM模型構(gòu)建于詞匯相似度之上并在聚類目標(biāo)集中進(jìn)行特征選擇。

    2.2 詞匯相似度

    詞匯相似度計(jì)算是一個(gè)自然語(yǔ)言處理研究熱點(diǎn),并在機(jī)器翻譯和詞義排歧等研究中得到應(yīng)用。近年來(lái)提出的詞匯相似度計(jì)算算法或基于統(tǒng)計(jì)技術(shù),或基于語(yǔ)義網(wǎng)絡(luò)。文獻(xiàn)[10-11]提出基于WordNet的英文語(yǔ)義相似度計(jì)算方法。文獻(xiàn)[12-13]則提出了利用知網(wǎng)概念定義計(jì)算跨語(yǔ)言詞匯相似度的方法?;谡Z(yǔ)料的詞匯相似度計(jì)算方法更為廣泛。最經(jīng)典的方法是點(diǎn)互信息(Pointwise Mutual Information, PMI)[14]。PMI值越大,說(shuō)明詞匯越有可能出現(xiàn)在同一語(yǔ)境下。文獻(xiàn)[15]提出了基于PMI-IR的同義詞獲取方法,利用Alta Vista Adanvced搜索引擎計(jì)算單詞之間的概率。LSA方法[16]分析大規(guī)模語(yǔ)料,利用詞匯之間的共現(xiàn)信息計(jì)算詞匯和文本的相似度。SOCPMI方法[17]利用PMI將兩個(gè)目標(biāo)詞的相鄰詞按重要性排序,并通過(guò)計(jì)算相鄰詞的PMI實(shí)現(xiàn)目標(biāo)詞之間的相似度計(jì)算。

    本文采用兩個(gè)最具代表性的詞匯相似度計(jì)算方法構(gòu)造CLGVSM矩陣: 基于《知網(wǎng)》的詞匯相似度[13]和基于SOCPMI的詞匯相關(guān)度[17]。

    3 相似度空間模型

    為了便于描述,我們首先介紹傳統(tǒng)的廣義向量空間模型。

    3.1 廣義向量空間模型

    假設(shè)D={dj;j=1,…,n}表示包含n個(gè)文檔m個(gè)詞的文檔集。X表示一個(gè)m×n的矩陣,它的元素xij表示詞ti在文檔dj的權(quán)重。GVSM[18]將文檔表示在一個(gè)非正交空間中,文檔的相似度計(jì)算公式如下:

    (1)

    其中G是一個(gè)m×m關(guān)聯(lián)矩陣,用來(lái)表示詞之間的相似度。

    傳統(tǒng)的GVSM中[18],詞表示為文檔的對(duì)偶空間中的向量。G的計(jì)算公式如下:

    G=XXT

    (2)

    在改進(jìn)的GVSM中[19],性能最好的G為詞向量的協(xié)方差矩陣。

    (3)

    其中Q為X的抽樣,并且

    在上述GVSM模型中,G都是在聚類文檔中計(jì)算得出的,但是它們很難獲得跨語(yǔ)言的詞信息。因此我們通過(guò)采用跨語(yǔ)言詞相似度計(jì)算將GVSM拓展為跨語(yǔ)言文檔表示模型CLGVSM。

    3.2 跨語(yǔ)言廣義空間向量模型上的特征選擇和文檔表示

    VSM模型中,詞對(duì)于一個(gè)文檔的重要性可以簡(jiǎn)單采取詞頻表示,對(duì)于一個(gè)文檔集的重要性則用倒文檔頻表示。拓展到CLGVSM模型中,我們定義了類似的特征重要性指標(biāo)。

    考慮一個(gè)包含“criminal”3次、“imprisonment”10次的文檔。認(rèn)為詞“criminal”仍然是非常重要的,雖然他的詞頻比較低。這是由于“imprisonment”與“criminal”是語(yǔ)義相似的。為此,我們提出了兩個(gè)基于CLGVSM模型的特征重要性指標(biāo):軟詞頻和軟文檔頻。給定詞匯t和文檔集D={dj}j=1…L,假設(shè)dj={wi,j}i=1…N代表文檔dj的中的詞匯,軟詞頻和軟文檔頻的定義如下:

    軟詞頻TFS:

    TFs(t,d)=SimSSM(vt,d)

    (4)

    軟文檔頻DFS:

    DFs(t)=∑dj∈DmaxiSimWD(t,wi,j))

    (5)

    參考TF-IDF公式的思想,我們定義軟倒文檔頻:

    (6)

    因此,詞匯t在文檔d的權(quán)重計(jì)算公式:

    ws(t,d)=TFs(t,d)IDFw(t)

    (7)

    如果我們單純依靠權(quán)重進(jìn)行特征選擇,相似度比較高的單詞會(huì)同時(shí)被選為特征。這是因?yàn)橄嗨贫缺容^高的單詞含有相近的權(quán)重,這將造成特征集的冗余。因此,我們提出了一個(gè)改進(jìn)的特征選擇算法,只賦予相似詞集中的一個(gè)詞比較高的軟詞頻,而其余詞匯則降低權(quán)重。即按照初始軟詞頻的從大到小更新軟詞頻,刪除相似度所造成的冗余。

    對(duì)軟詞頻改進(jìn)后,我們根據(jù)式(7)計(jì)算每個(gè)特征的權(quán)重,并按照特征權(quán)重的大小選擇每個(gè)文檔的特征,然后合并為一個(gè)特征集。我們使用特征集表示文檔,并考慮特征集之外的詞對(duì)文檔表示的影響。我們將每個(gè)特征集外的詞匯的軟詞頻乘以相似度,累加到與它相似度最大的特征中,從而體現(xiàn)其貢獻(xiàn)。這樣,即使文檔中并不包含某特征,文檔表示也可以將文檔映射到最有代表性的近義特征中。

    3.3 基于廣義空間向量模型的文檔聚類算法

    獲得文檔相似度后,我們采用聚類算法進(jìn)行文檔聚類。聚類算法不是本文的重點(diǎn),因此我們選用經(jīng)典的聚類算法,即HAC(Hierarchical Agglomerative Clustering)算法[20]。

    HAC算法先將每個(gè)文檔看成一個(gè)類簇,然后逐步將相似度最高的類簇合并為一個(gè)類簇。為了計(jì)算類簇之間的相似度,我們采用group-average link算法[20]。當(dāng)類簇個(gè)數(shù)達(dá)到預(yù)定值后,則停止合并過(guò)程。

    4 詞匯相似度

    詞匯相似度在CLGVSM矩陣的構(gòu)建中起到重要的作用。我們采用兩種詞匯相似度計(jì)算算法構(gòu)造CLGVSM矩陣: 基于知識(shí)的詞匯相似度算法以及基于統(tǒng)計(jì)的詞匯相似度算法。

    獎(jiǎng)品揭曉日期雖五花八門,但最多的還是在11月11日,剁手節(jié)。一些網(wǎng)友在看完獎(jiǎng)品名單后感慨,獎(jiǎng)是一個(gè)沒(méi)中,反倒被禮品清單種了草。我也是在微博和淘寶之間反復(fù)切換。

    文獻(xiàn)[13]利用《知網(wǎng)》計(jì)算跨語(yǔ)言詞匯相似度,基本思想是利用《知網(wǎng)》中詞匯的語(yǔ)義定義。篇幅所限,詳細(xì)過(guò)程參見(jiàn)文獻(xiàn)[13]。

    嚴(yán)格來(lái)說(shuō),基于統(tǒng)計(jì)的詞匯相似度計(jì)算算法其實(shí)是與它們?cè)谡Z(yǔ)料中的共現(xiàn)程度有關(guān)。因此我們可以稱統(tǒng)計(jì)的詞匯相似度為詞匯相關(guān)度。

    由于SOCPMI在詞匯相似度計(jì)算中具有優(yōu)越性[17],本文采取了這個(gè)算法。篇幅所限,詳細(xì)過(guò)程參見(jiàn)文獻(xiàn)[17]。

    然而SOCPMI算法只能處理單語(yǔ)言的詞匯相似度。本文擴(kuò)展了這個(gè)算法,以實(shí)現(xiàn)跨語(yǔ)言詞匯相似度計(jì)算。先在相同語(yǔ)言上對(duì)相鄰詞進(jìn)行排序,然后計(jì)算它們的跨語(yǔ)言PMI值。

    可以使用兩種類型的語(yǔ)料計(jì)算跨語(yǔ)言詞匯相似度: 平行語(yǔ)料和可比語(yǔ)料。平行語(yǔ)料被廣泛用于機(jī)器翻譯,它是句子對(duì)齊的。但本文沒(méi)有選用平行語(yǔ)料,原因有二: 首先構(gòu)造一個(gè)平行語(yǔ)料的成本比較高;其次跨語(yǔ)言的詞匯相似度對(duì)句子對(duì)齊的要求并不高。最終本文選用更容易獲得的篇章對(duì)齊的可比語(yǔ)料。

    5 實(shí)驗(yàn)

    5.1 實(shí)驗(yàn)設(shè)置

    ? 開發(fā)集

    我們從英文和中文GigaWord中構(gòu)建了一個(gè)中英文可比語(yǔ)料。我們采用以下的策略獲得不同語(yǔ)言的可比文檔對(duì)。1)文檔相似度。采用基于VSM的文檔相似度獲得單語(yǔ)言中的可比文檔。為了保證精度,我們?cè)O(shè)置文檔相度的閾值為0.4;2)基于《知網(wǎng)》獲得詞匯翻譯。我們利用《知網(wǎng)》獲得詞匯之間的翻譯信息,利用這些翻譯信息計(jì)算跨語(yǔ)言文檔那個(gè)相似度;3)時(shí)間限制。本文在計(jì)算文檔相似度的時(shí)候還考慮到時(shí)間的限制,只選取在同一天內(nèi)的新聞?dòng)?jì)算文檔相似度獲得可比語(yǔ)料。我們最后獲得101 409篇中英文可比文檔對(duì)。

    ? 測(cè)試集

    我們采取TDT4數(shù)據(jù)集作為測(cè)試集。TDT4數(shù)據(jù)集的信息如表1所示。

    表1 TDT4數(shù)據(jù)集統(tǒng)計(jì)信息

    ? 評(píng)測(cè)指標(biāo)

    我們采用了文獻(xiàn)[21]提出的評(píng)測(cè)指標(biāo)。首先計(jì)算每個(gè)類簇最大的F值。假設(shè)Ai代表系統(tǒng)生成的類簇ci的文檔,Aj代表人工標(biāo)注的類簇cj的文檔。則F值計(jì)算如下:

    其中pi,j,ri,j和fi,j分別代表準(zhǔn)確率、召回率和F值。

    ? 實(shí)驗(yàn)方法

    本研究中,我們?cè)u(píng)測(cè)了以下五個(gè)方法。

    VSM: 采用VSM表示文檔,并從《知網(wǎng)》獲得詞匯翻譯信息;

    LSA: LSA在可比語(yǔ)料中實(shí)現(xiàn)了文獻(xiàn)[2]中的方法;

    CLGVSM^HN:采用基于《知網(wǎng)》的跨語(yǔ)言相似度的GVSM。在GVSM矩陣的構(gòu)造中,經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證詞匯相似度閾值為0.7;

    CLGVSM^PMI:采用基于SOCPMI的跨語(yǔ)言相似度的GVSM。相似度閾值為0.4;

    CLGVSM^PMI&TR: 將SOCPMI與《知網(wǎng)》的翻譯信息結(jié)合起來(lái),《知網(wǎng)》獲得翻譯對(duì)的相似度為1。

    5.2 實(shí)驗(yàn)結(jié)果及討論

    我們比較了五個(gè)系統(tǒng)在兩個(gè)測(cè)試集上的性能。結(jié)果如表2所示。

    表2 系統(tǒng)在兩個(gè)測(cè)試集上的最高F值

    從表2可以得出以下結(jié)論。

    首先,方法CLGVSM^HN 和VSM的性能相近,基于《知網(wǎng)》跨語(yǔ)言詞匯相似度構(gòu)造的GVSM比VSM幾乎沒(méi)有優(yōu)勢(shì)。觀察發(fā)現(xiàn),基于《知網(wǎng)》計(jì)算的相似度非常高。例如,詞“Federal Reserve”和“bank”的相似度為1。經(jīng)過(guò)分析,基于《知網(wǎng)》的跨語(yǔ)言詞匯相似度更多關(guān)注詞的語(yǔ)義特征而不是語(yǔ)義本身,它傾向于給語(yǔ)義相似的詞對(duì)更高的相似度,而不管它們是否是語(yǔ)義相關(guān)。這不利于文檔聚類。因此可以認(rèn)為,基于《知網(wǎng)》的詞相似度不太適用于文檔聚類。

    其次,方法CLGVSM^PMI在兩個(gè)測(cè)試集上的性能均優(yōu)于方法LSA。在測(cè)試集TDT41上,F(xiàn)值提高了0.11。在測(cè)試集TDT42上F值提高了0.094。這說(shuō)明了方法CLGVSM^PMI更適合跨語(yǔ)言文檔聚類。分析原因如下: LSA所構(gòu)建的語(yǔ)義空間是在固定的可比語(yǔ)料中構(gòu)建的,因此它沒(méi)有考慮到目標(biāo)聚類集的特征的重要性。相比之下,方法CLGVSM^PMI充分利用了測(cè)試集的信息構(gòu)建語(yǔ)義空間。

    最后, SOCPMI與《知網(wǎng)》相結(jié)合的CLGVSM的性能比較VSM的性能要好。在測(cè)試集TDT41中,高出0.014;而在測(cè)試集TDT42的效果更加明顯,超出了0.018。這是本次實(shí)驗(yàn)獲得最好結(jié)果(0.910)。這表明,使用恰當(dāng)?shù)脑~匯相似度計(jì)算方法,CLGVSM方法能取得滿意的跨語(yǔ)言文檔聚類效果。從表2可以看出,當(dāng)只使用《知網(wǎng)》時(shí),CLGVSM方法給出的結(jié)果與VSM相近。當(dāng)只使用可比語(yǔ)料時(shí),CLGVSM給出的結(jié)果比VSM要差。我們發(fā)現(xiàn),從《知網(wǎng)》獲得翻譯信息非常重要。同時(shí)使用可比語(yǔ)料和《知網(wǎng)》,CLGVSM獲得最好的性能。因此,《知網(wǎng)》與語(yǔ)料相結(jié)合可以獲得更好地性能。

    6 結(jié)語(yǔ)

    本文的貢獻(xiàn)主要有三個(gè): (1)通過(guò)加入跨語(yǔ)言詞匯相似度將GVSM拓展為CLGVSM;(2)實(shí)現(xiàn)了基于知識(shí)和基于統(tǒng)計(jì)的詞匯相似度計(jì)算方法。(3)對(duì)CLGVSM方法和主要流行方法進(jìn)行了評(píng)測(cè),實(shí)驗(yàn)結(jié)果表明,利用《知網(wǎng)》以及可比語(yǔ)料資源,CLGVSM模型比VSM和LSA的性能更優(yōu)。

    本文得出兩個(gè)結(jié)論: 首先,CLGVSM方法比VSM和LSA都更有效;其次,結(jié)合《知網(wǎng)》翻譯信息以及可比語(yǔ)料的相似度,有利于進(jìn)一步提高文檔聚類效果。在接下來(lái)的工作中,我們計(jì)劃將GVSM模型用于更多語(yǔ)言的跨語(yǔ)言聚類。同時(shí),由于CLGVSM模型能在語(yǔ)義空間上有效表示文本,我們將應(yīng)用CLGVSM模型到短文本聚類中,希望能很好地解決稀疏問(wèn)題。

    [1] T. Landauer, P. W. Foltz, Darrell Laham. Introduction to Latent Semantic Analysis[J]. Discourse Processes 25: 259-284.

    [2] C-P. Wei, C. C. Yang, C-M. Lin. A Latent Semantic Indexing Based Approach to Multilingual Document Clustering [J]. Decision Support System. 45(3):606-620.

    [3] T. Leek, H. Jin, S. Sista, et al. The BBN cross-lingual topic detection and tracking system[C]//Proceedings of TDT’1999.

    [4] H.H. Chen, C.J. Lin. A multilingual news summarizer[C]//Proceedings of COLING’2000: 159-165.

    [5] D.K. Evans, J.L. Klavans. A Platform for Multilingual News Summarization[R], Technical Report. Department of Computer Science, Columbia University.

    [6] B. Mathieu, R. Besancon, C. Fluhr. Multilingual Document Clusters Discovery[C]//Proceedings of RIAO’2004: 1-10.

    [7] B. Pouliquen, R. Steinberger, C. Ignat, et al. Multilingual and cross-lingual news topic tracking[C]//Proceedings of COLING’2004: 959-965.

    [8] D. Yogatama, K.Tanaka.. Multilingual Spectral Clustering Using Document Similarity Propagation[C]//Proceedings of EMNLP’2009: 871-879.

    [9] P. Cimiano, A. Schultz, S. Sizov, et al. Explicit vs. latent concept models for cross-language information retrieval[C]//Proceedings of IJCAI’09, 2009.

    [10] D. Lin. Automatic retrieval and clustering of similar words[C]//Proceedings of COLING’98:768-774.

    [11] P. Resnik. Semantic similarity in a taxonomy: An information based measure and its application to problems of ambiguity in natural language[J]. Journal of Artificial Intelligence Research, V.11:95-130.

    [12] Q Liu, S Li. Word similarity computing based on How Net[C]//Proceedings of Computational Linguistics and Chinese Language Processing.

    [13] Y. Xia, T. Zhao, P. Jin. Measuring Chinese-English Cross-lingual Word Similarity with How Net and Parallel Corpus[C]//Proceedings of CICling’2011(II):221-233.

    [14] K.W. Church, P. Hanks. Word association norms, mutual information, and lexicography[J]. Computational Linguistics, 16(1):22-29.

    [15] P. D. Turney. Mining the Web for Synonyms: PMI-IR versus LSA on TOEF[C]//Proceedings of ECML’2001: 491-502.

    [16] T. K. Landauer, S. T. Domais. A Solution to Plato’s Problem: The Latent Semantic Analysis Theory of Acquision, Induction and Representation of Knowledge[J]. Psychological Review. 104(2):211-240.

    [17] A. Islam, D. Inkpen. Second order co-occurrence PMI for determining the semantic similarity of words[C]//Proceedings of LREC’2006: 1033-1038.

    [18] SKM. Wong, W. Ziarko, PCN. Wong. Generalized vector model in information retrieval[C]//Proceedings of the 8thACM SIGIR:18-25.

    [19] A.K. Farahat, M. S. Kamel. Statistical semantic for enhancing document clustering[J]. Knowledge and Information Systems.

    [20] E. M. Voorhees. Implementing Agglomerative Hierarchic Clustering Algorithms for Use in Document Retrieval[J]. Information Processing and Management, 22(6): 465-76.

    [21] M. Steinbach, G. Kapypis, V. Kumar. A Comparison of Document Clustering Techniques[C]//Proceedings of KDD Workshop on Text Mining, 2000:109-111.

    猜你喜歡
    詞頻語(yǔ)料文檔
    基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
    園林科技(2021年3期)2022-01-19 03:17:48
    有人一聲不吭向你扔了個(gè)文檔
    基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
    詞頻,一部隱秘的歷史
    云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
    《苗防備覽》中的湘西語(yǔ)料
    國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類型與收集方法
    精品久久蜜臀av无| 岛国视频午夜一区免费看| 日本三级黄在线观看| 亚洲成av人片免费观看| 国产主播在线观看一区二区| 此物有八面人人有两片| 91字幕亚洲| 国内精品一区二区在线观看| 欧美乱色亚洲激情| 国产亚洲精品综合一区在线观看| 观看免费一级毛片| av片东京热男人的天堂| www.www免费av| 哪里可以看免费的av片| 97人妻精品一区二区三区麻豆| 12—13女人毛片做爰片一| 国产精品乱码一区二三区的特点| 国产1区2区3区精品| 久久热在线av| 国产 一区 欧美 日韩| 亚洲人成电影免费在线| 搡老妇女老女人老熟妇| 久久婷婷人人爽人人干人人爱| 男人舔女人的私密视频| 国产乱人伦免费视频| 天天一区二区日本电影三级| 啦啦啦韩国在线观看视频| 天堂影院成人在线观看| 老司机午夜十八禁免费视频| 夜夜爽天天搞| 国产一区二区在线av高清观看| 1024香蕉在线观看| 久久天堂一区二区三区四区| 欧美+亚洲+日韩+国产| 黄色日韩在线| 特级一级黄色大片| 看片在线看免费视频| 人妻丰满熟妇av一区二区三区| 国产成人啪精品午夜网站| 最新在线观看一区二区三区| 国产精品美女特级片免费视频播放器 | 欧美一区二区精品小视频在线| 男女午夜视频在线观看| 韩国av一区二区三区四区| netflix在线观看网站| 在线国产一区二区在线| 国产精品国产高清国产av| 成人特级黄色片久久久久久久| 老熟妇仑乱视频hdxx| 亚洲色图av天堂| 欧美乱色亚洲激情| 欧美日本视频| 啦啦啦韩国在线观看视频| 国产在线精品亚洲第一网站| www.精华液| 中出人妻视频一区二区| 免费在线观看成人毛片| 精品免费久久久久久久清纯| 国产精品,欧美在线| 12—13女人毛片做爰片一| 国产成+人综合+亚洲专区| 国产探花在线观看一区二区| 日韩欧美国产在线观看| 成人亚洲精品av一区二区| 国产成人av教育| 99在线视频只有这里精品首页| 两性夫妻黄色片| 日韩有码中文字幕| 国产日本99.免费观看| 狂野欧美白嫩少妇大欣赏| 午夜福利视频1000在线观看| 一夜夜www| 亚洲狠狠婷婷综合久久图片| 免费高清视频大片| 国产蜜桃级精品一区二区三区| 亚洲乱码一区二区免费版| 欧美一区二区精品小视频在线| 国产亚洲av高清不卡| 亚洲专区字幕在线| 看片在线看免费视频| 国内精品久久久久精免费| 级片在线观看| 亚洲avbb在线观看| 色视频www国产| 美女高潮的动态| 黄色片一级片一级黄色片| 亚洲成av人片免费观看| 一本一本综合久久| 热99re8久久精品国产| 狂野欧美白嫩少妇大欣赏| 精品99又大又爽又粗少妇毛片 | 天天躁日日操中文字幕| 啪啪无遮挡十八禁网站| 69av精品久久久久久| 欧美在线一区亚洲| 成人午夜高清在线视频| 91av网站免费观看| 我要搜黄色片| 91在线精品国自产拍蜜月 | 午夜亚洲福利在线播放| 最近最新中文字幕大全免费视频| 国产一区二区三区在线臀色熟女| 五月玫瑰六月丁香| 91av网一区二区| 久久亚洲精品不卡| 99re在线观看精品视频| 99视频精品全部免费 在线 | 一级a爱片免费观看的视频| 人人妻人人澡欧美一区二区| 天天躁狠狠躁夜夜躁狠狠躁| 午夜福利欧美成人| 久久精品国产亚洲av香蕉五月| 村上凉子中文字幕在线| 国产不卡一卡二| 香蕉av资源在线| 免费av毛片视频| 在线免费观看的www视频| 欧美av亚洲av综合av国产av| 老熟妇仑乱视频hdxx| 国产亚洲av高清不卡| 免费无遮挡裸体视频| 国产激情偷乱视频一区二区| 91麻豆av在线| 国产欧美日韩一区二区精品| 给我免费播放毛片高清在线观看| 男插女下体视频免费在线播放| 国产淫片久久久久久久久 | 99久久综合精品五月天人人| 亚洲国产精品久久男人天堂| 日韩欧美国产在线观看| 国产一区二区三区视频了| 久久午夜亚洲精品久久| 国产亚洲精品久久久com| 国产欧美日韩一区二区精品| 黄色片一级片一级黄色片| 美女高潮的动态| 日韩欧美在线二视频| 99热这里只有是精品50| 国产av麻豆久久久久久久| 国产探花在线观看一区二区| 天堂网av新在线| 在线播放国产精品三级| 国产高清三级在线| 亚洲在线自拍视频| 看黄色毛片网站| 老司机深夜福利视频在线观看| 一级毛片精品| 欧美乱色亚洲激情| 黄色日韩在线| 动漫黄色视频在线观看| 欧美又色又爽又黄视频| 女人高潮潮喷娇喘18禁视频| 久久久国产欧美日韩av| 午夜福利欧美成人| 亚洲美女视频黄频| 一a级毛片在线观看| 久久久成人免费电影| 国产免费av片在线观看野外av| 宅男免费午夜| 丰满人妻一区二区三区视频av | 精品国内亚洲2022精品成人| 啦啦啦观看免费观看视频高清| 国产探花在线观看一区二区| 免费观看精品视频网站| 麻豆一二三区av精品| 久久久久久久久中文| 亚洲国产欧美网| 久久精品亚洲精品国产色婷小说| 日韩国内少妇激情av| 老熟妇仑乱视频hdxx| 色噜噜av男人的天堂激情| 久久精品综合一区二区三区| 我要搜黄色片| 黄片大片在线免费观看| 99热6这里只有精品| 老司机福利观看| 久久国产精品人妻蜜桃| 欧美乱色亚洲激情| 99视频精品全部免费 在线 | 18禁裸乳无遮挡免费网站照片| 成年免费大片在线观看| 国内精品久久久久精免费| 国产精品久久久久久久电影 | 午夜影院日韩av| 国产精品久久久av美女十八| 色综合亚洲欧美另类图片| 久久这里只有精品中国| 哪里可以看免费的av片| 国产成人精品无人区| 国产精品 国内视频| 国产欧美日韩一区二区精品| av片东京热男人的天堂| xxx96com| 免费在线观看视频国产中文字幕亚洲| 999久久久精品免费观看国产| 亚洲欧美日韩无卡精品| 1024香蕉在线观看| 久久久久久国产a免费观看| 制服丝袜大香蕉在线| 欧美xxxx黑人xx丫x性爽| 三级毛片av免费| 亚洲欧洲精品一区二区精品久久久| 中文字幕av在线有码专区| 一二三四在线观看免费中文在| 国产三级在线视频| 五月玫瑰六月丁香| 天天躁日日操中文字幕| 久久九九热精品免费| 在线播放国产精品三级| 美女被艹到高潮喷水动态| 激情在线观看视频在线高清| 日韩欧美 国产精品| 一级a爱片免费观看的视频| www.999成人在线观看| 91在线精品国自产拍蜜月 | 精品熟女少妇八av免费久了| 欧洲精品卡2卡3卡4卡5卡区| 国产伦在线观看视频一区| 国产精品亚洲一级av第二区| 欧美+亚洲+日韩+国产| 观看美女的网站| 亚洲欧美激情综合另类| 国产又黄又爽又无遮挡在线| 一本精品99久久精品77| 91九色精品人成在线观看| 国产亚洲av高清不卡| 18禁黄网站禁片免费观看直播| 久久精品影院6| 99国产精品一区二区蜜桃av| 一级作爱视频免费观看| 熟女少妇亚洲综合色aaa.| 国产1区2区3区精品| 精品不卡国产一区二区三区| 精品一区二区三区视频在线观看免费| 中文字幕人成人乱码亚洲影| 国产又色又爽无遮挡免费看| 亚洲av免费在线观看| 天堂√8在线中文| 偷拍熟女少妇极品色| 香蕉国产在线看| www.精华液| 亚洲国产欧美网| 国产一区二区三区视频了| av国产免费在线观看| 欧美性猛交黑人性爽| 俺也久久电影网| 国产美女午夜福利| 美女高潮的动态| 久久伊人香网站| 国产高清三级在线| 亚洲国产精品合色在线| 夜夜看夜夜爽夜夜摸| 国产99白浆流出| 99久久精品热视频| 黄色视频,在线免费观看| a在线观看视频网站| 特大巨黑吊av在线直播| 小蜜桃在线观看免费完整版高清| 久久香蕉精品热| 成人三级黄色视频| 亚洲中文av在线| 国模一区二区三区四区视频 | 特级一级黄色大片| 12—13女人毛片做爰片一| 亚洲美女视频黄频| 在线观看美女被高潮喷水网站 | 久久午夜综合久久蜜桃| 91九色精品人成在线观看| 精品一区二区三区视频在线观看免费| 无遮挡黄片免费观看| 国产精品免费一区二区三区在线| 免费看美女性在线毛片视频| 成年人黄色毛片网站| 黄色丝袜av网址大全| 色老头精品视频在线观看| 亚洲 国产 在线| 97超视频在线观看视频| 亚洲av熟女| 国产日本99.免费观看| 午夜影院日韩av| 波多野结衣高清作品| 国产成人影院久久av| 国产久久久一区二区三区| 国产免费男女视频| 曰老女人黄片| 亚洲国产看品久久| 国产精品av久久久久免费| 99久久国产精品久久久| 中文字幕av在线有码专区| 国产乱人视频| 哪里可以看免费的av片| 精品一区二区三区视频在线 | 老司机福利观看| 中文资源天堂在线| 色哟哟哟哟哟哟| 免费电影在线观看免费观看| 母亲3免费完整高清在线观看| 午夜激情福利司机影院| 国产成人啪精品午夜网站| 国产高清videossex| 国产成+人综合+亚洲专区| 99国产极品粉嫩在线观看| 欧美av亚洲av综合av国产av| 久久精品国产清高在天天线| 亚洲av免费在线观看| 亚洲九九香蕉| bbb黄色大片| 精品国产乱子伦一区二区三区| 亚洲av五月六月丁香网| 黄色女人牲交| 日本 欧美在线| 亚洲av电影不卡..在线观看| 亚洲无线观看免费| 亚洲 国产 在线| 丰满的人妻完整版| 别揉我奶头~嗯~啊~动态视频| 啦啦啦韩国在线观看视频| 亚洲专区国产一区二区| 美女午夜性视频免费| 一个人免费在线观看的高清视频| 桃红色精品国产亚洲av| 国产av麻豆久久久久久久| 久久久久久人人人人人| 久久久久久久午夜电影| 午夜激情福利司机影院| 99国产精品99久久久久| 嫩草影视91久久| 国产精品爽爽va在线观看网站| 一进一出抽搐动态| 波多野结衣巨乳人妻| 精品电影一区二区在线| 国产av不卡久久| 禁无遮挡网站| 校园春色视频在线观看| 亚洲专区字幕在线| 人妻夜夜爽99麻豆av| xxxwww97欧美| 欧美色欧美亚洲另类二区| 麻豆一二三区av精品| 成人国产一区最新在线观看| 亚洲精品国产精品久久久不卡| av女优亚洲男人天堂 | 神马国产精品三级电影在线观看| 淫秽高清视频在线观看| 久久这里只有精品19| 国产成人精品久久二区二区免费| 手机成人av网站| 国产三级在线视频| 十八禁网站免费在线| 母亲3免费完整高清在线观看| 精品久久久久久成人av| 国内精品一区二区在线观看| 啦啦啦免费观看视频1| 欧美日韩乱码在线| 在线看三级毛片| 搡老熟女国产l中国老女人| 国产真人三级小视频在线观看| 亚洲av熟女| 在线播放国产精品三级| 亚洲成人免费电影在线观看| 亚洲av美国av| 老司机午夜十八禁免费视频| 亚洲中文日韩欧美视频| 国产精品影院久久| 偷拍熟女少妇极品色| 91麻豆av在线| 国产精品亚洲一级av第二区| 亚洲,欧美精品.| 欧美日韩一级在线毛片| 看黄色毛片网站| 国产三级中文精品| 午夜福利免费观看在线| 国产麻豆成人av免费视频| 成人欧美大片| 日韩免费av在线播放| 国产亚洲欧美在线一区二区| 三级毛片av免费| 99久久99久久久精品蜜桃| 国产精品久久久av美女十八| 日韩av在线大香蕉| 久久午夜综合久久蜜桃| 亚洲精品在线美女| 琪琪午夜伦伦电影理论片6080| 亚洲第一欧美日韩一区二区三区| 亚洲专区国产一区二区| 国产精品香港三级国产av潘金莲| 久久精品亚洲精品国产色婷小说| 成人三级黄色视频| 亚洲九九香蕉| 首页视频小说图片口味搜索| 无限看片的www在线观看| 国产av在哪里看| 日日干狠狠操夜夜爽| 中文字幕最新亚洲高清| 每晚都被弄得嗷嗷叫到高潮| 天天添夜夜摸| 精品日产1卡2卡| 999久久久精品免费观看国产| 老汉色av国产亚洲站长工具| 国产日本99.免费观看| 99久久99久久久精品蜜桃| 搡老岳熟女国产| 成人无遮挡网站| 色综合婷婷激情| 久久精品aⅴ一区二区三区四区| 中亚洲国语对白在线视频| 91老司机精品| 日韩欧美国产一区二区入口| 亚洲av第一区精品v没综合| 日本一本二区三区精品| 欧美又色又爽又黄视频| 免费人成视频x8x8入口观看| 一本精品99久久精品77| 人人妻,人人澡人人爽秒播| 18禁裸乳无遮挡免费网站照片| 91老司机精品| 日本五十路高清| а√天堂www在线а√下载| 日本三级黄在线观看| 国内少妇人妻偷人精品xxx网站 | www国产在线视频色| 日韩中文字幕欧美一区二区| 综合色av麻豆| 美女扒开内裤让男人捅视频| 两个人的视频大全免费| 我要搜黄色片| 国内精品久久久久精免费| 久久欧美精品欧美久久欧美| 亚洲av熟女| 欧美最黄视频在线播放免费| 亚洲欧美日韩无卡精品| a在线观看视频网站| 成人永久免费在线观看视频| 久久久久久久久久黄片| 18禁黄网站禁片午夜丰满| 少妇熟女aⅴ在线视频| 黄色女人牲交| 国产真实乱freesex| 欧美精品啪啪一区二区三区| 国产91精品成人一区二区三区| 一进一出抽搐动态| 亚洲va日本ⅴa欧美va伊人久久| 亚洲av免费在线观看| 日本黄色片子视频| 国产视频一区二区在线看| 黄色视频,在线免费观看| 亚洲国产精品久久男人天堂| 国产野战对白在线观看| 给我免费播放毛片高清在线观看| 亚洲av成人一区二区三| 日日夜夜操网爽| 91九色精品人成在线观看| 久久这里只有精品中国| 一本一本综合久久| 欧美乱码精品一区二区三区| 婷婷六月久久综合丁香| 一本一本综合久久| 免费在线观看视频国产中文字幕亚洲| 国产91精品成人一区二区三区| 国产成人aa在线观看| 欧美不卡视频在线免费观看| 亚洲av日韩精品久久久久久密| 亚洲男人的天堂狠狠| 国产爱豆传媒在线观看| 国产精品久久久久久人妻精品电影| 一区二区三区国产精品乱码| 久久婷婷人人爽人人干人人爱| 国产成人一区二区三区免费视频网站| 黄色成人免费大全| 90打野战视频偷拍视频| 国产高清videossex| 人人妻人人澡欧美一区二区| 一本久久中文字幕| 特级一级黄色大片| 亚洲熟妇熟女久久| 美女扒开内裤让男人捅视频| 午夜福利高清视频| 麻豆国产av国片精品| 国产亚洲av高清不卡| 又大又爽又粗| 麻豆成人av在线观看| 男女视频在线观看网站免费| 亚洲中文日韩欧美视频| 久久天堂一区二区三区四区| 亚洲精品456在线播放app | 看免费av毛片| 最新中文字幕久久久久 | 国产探花在线观看一区二区| 国产又色又爽无遮挡免费看| 无人区码免费观看不卡| 全区人妻精品视频| 岛国在线免费视频观看| 少妇的逼水好多| 波多野结衣高清作品| 欧美国产日韩亚洲一区| 日韩成人在线观看一区二区三区| 亚洲色图 男人天堂 中文字幕| 欧美精品啪啪一区二区三区| 综合色av麻豆| 亚洲在线自拍视频| 热99在线观看视频| 亚洲成a人片在线一区二区| 精品国产超薄肉色丝袜足j| 国产成人精品久久二区二区91| 波多野结衣巨乳人妻| 美女黄网站色视频| 中文字幕最新亚洲高清| 国产精品久久久av美女十八| 亚洲人成电影免费在线| av天堂中文字幕网| 精品国产乱码久久久久久男人| 精品国产乱子伦一区二区三区| 一区福利在线观看| 在线看三级毛片| 精品国产超薄肉色丝袜足j| 99久久无色码亚洲精品果冻| 亚洲av成人一区二区三| 88av欧美| 欧美中文综合在线视频| 午夜免费成人在线视频| 1024手机看黄色片| 亚洲精品一卡2卡三卡4卡5卡| 免费观看人在逋| 丁香六月欧美| 97超视频在线观看视频| 成人亚洲精品av一区二区| 欧美日本亚洲视频在线播放| 国产真实乱freesex| 欧美绝顶高潮抽搐喷水| 久久精品综合一区二区三区| 精品久久久久久久久久免费视频| avwww免费| 国产单亲对白刺激| 午夜福利在线在线| 亚洲色图 男人天堂 中文字幕| 黄色成人免费大全| 日日干狠狠操夜夜爽| 亚洲国产日韩欧美精品在线观看 | 免费av毛片视频| 特大巨黑吊av在线直播| 人人妻人人澡欧美一区二区| 夜夜夜夜夜久久久久| 日韩精品青青久久久久久| 久9热在线精品视频| 欧美三级亚洲精品| 国产精品久久视频播放| 又黄又爽又免费观看的视频| 听说在线观看完整版免费高清| 一级毛片精品| 亚洲av免费在线观看| 精品国产乱子伦一区二区三区| 亚洲精品色激情综合| 精品久久久久久久久久免费视频| 国产私拍福利视频在线观看| www.熟女人妻精品国产| 国产又色又爽无遮挡免费看| 色av中文字幕| 最新中文字幕久久久久 | 精品电影一区二区在线| 别揉我奶头~嗯~啊~动态视频| 一进一出抽搐gif免费好疼| 99在线视频只有这里精品首页| 国产一区二区三区视频了| 最近最新免费中文字幕在线| 欧美精品啪啪一区二区三区| 一个人观看的视频www高清免费观看 | 久久精品影院6| 欧美最黄视频在线播放免费| 久久香蕉国产精品| 99热精品在线国产| 女生性感内裤真人,穿戴方法视频| 看片在线看免费视频| 久久久国产精品麻豆| netflix在线观看网站| 99热只有精品国产| 久久伊人香网站| 久久婷婷人人爽人人干人人爱| 欧洲精品卡2卡3卡4卡5卡区| 亚洲激情在线av| 国产高清三级在线| 黄片小视频在线播放| 久久久精品大字幕| 国产欧美日韩精品亚洲av| 中文字幕久久专区| 19禁男女啪啪无遮挡网站| 窝窝影院91人妻| 女生性感内裤真人,穿戴方法视频| 国产亚洲精品综合一区在线观看| 视频区欧美日本亚洲| 久久久久久久久中文| 久久久久久大精品| 9191精品国产免费久久| or卡值多少钱| 久久久久免费精品人妻一区二区| 少妇裸体淫交视频免费看高清| 色老头精品视频在线观看| 天天躁日日操中文字幕| 亚洲国产精品合色在线| 麻豆av在线久日| 午夜福利在线观看免费完整高清在 | 亚洲欧美一区二区三区黑人| 手机成人av网站| 亚洲av熟女| 天天一区二区日本电影三级| 亚洲国产精品成人综合色| 亚洲av五月六月丁香网| 精品久久久久久久末码| 亚洲熟女毛片儿| 亚洲人与动物交配视频| 伊人久久大香线蕉亚洲五| 一卡2卡三卡四卡精品乱码亚洲| 丰满人妻一区二区三区视频av | 毛片女人毛片| 大型黄色视频在线免费观看| 美女高潮的动态|