• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    詞性對中英文文本聚類的影響研究

    2013-04-14 08:04:56韓普王東波劉艷云蘇新寧
    中文信息學(xué)報 2013年2期
    關(guān)鍵詞:英文特征文本

    韓普,王東波,劉艷云,蘇新寧

    (1.南京大學(xué)信息管理學(xué)院,江蘇南京210093;2.解放軍理工大學(xué)指揮自動化學(xué)院,江蘇南京210007)

    1 引言

    通常認(rèn)為,不同的詞性在文本中發(fā)揮著不同作用,承擔(dān)不同角色,重要度也不一樣,例如,名詞的重要性大于動詞,動詞的重要性大于副詞。從語言學(xué)角度看,詞性的變化,可以使語言表達(dá)更多信息,不同詞性在文本內(nèi)容表達(dá)上的功能是不同的,在句法結(jié)構(gòu)中承擔(dān)著不同角色。在文本處理時,選擇重要角色的詞性作為特征不但可以提高效率,還可能會提升處理的效果。詞性標(biāo)注是自然語言處理中進(jìn)行詞性分析的一項基礎(chǔ)工作,利用最大熵、條件隨機(jī)場、SVM等算法[1-4],該技術(shù)已經(jīng)比較成熟,目前已在信息檢索、自然語言處理、文本分類聚類等領(lǐng)域得到了廣泛應(yīng)用。

    蘇祺等[5]采用TREC數(shù)據(jù)集研究了詞性標(biāo)注對信息檢索的影響,認(rèn)為詞性標(biāo)注會對特定主題及相應(yīng)文檔集下的檢索效果有所改進(jìn),但改進(jìn)的效果不明顯。Chua[6]對Reuters-21578數(shù)據(jù)集中的前10個類別,通過基于WordNet構(gòu)建名詞集合、動詞集合、形容詞集合、副詞集合和混合詞性集合,利用多項式樸素貝葉斯算法進(jìn)行了文本分類實驗,實驗結(jié)果表明基于WordNet構(gòu)建的名詞集合的分類效果稍微好于其他四種詞性集合,并認(rèn)為名詞特征集合可以更好地表達(dá)分類信息。Liu[7]等采用基于名詞、動詞和形容詞共現(xiàn)的方法對Sougou文本分類語料中的五個類別進(jìn)行了文本聚類比較,實驗結(jié)果表明基于上述詞性的特征選擇方法要好于DF(Document Frequency)等特征選擇方法。姚清耘[8]等利用Sougou語料對所有詞性和只采用名詞為特征進(jìn)行中文文本聚類比較,結(jié)果表明只采用名詞構(gòu)建向量特征空間的聚類效果要明顯好于所有詞性參與聚類的效果。Rosell[9]基于四組瑞士語語料集,使用K-Means算法驗證了詞性選擇對瑞士語文本聚類的作用,結(jié)果認(rèn)為詞性標(biāo)注方法沒有提高瑞士語文本聚類的結(jié)果,但得出結(jié)論認(rèn)為,在瑞士語文本中,當(dāng)選擇名詞和專有名詞作為文本的特征時,可以取得和所有詞性參與聚類的結(jié)果比較接近,但后者可顯著降低文本特征維度,因此認(rèn)為名詞是瑞士語文本聚類的重要特征。Sedding[10]等通過采用詞性標(biāo)注對部分Reuters-21578語料中的多義詞進(jìn)行了先消歧再聚類,結(jié)果表明基于詞性標(biāo)注的消歧并不能提高聚類的效果。目前來看,詞性選擇在文本信息處理中已經(jīng)普遍應(yīng)用,將數(shù)詞、冠詞等詞性進(jìn)行過濾,不僅可以降低文本特征維度,還可以提高處理效果。名詞、動詞、形容詞和副詞在中英文中都是重要的詞性,這四種詞性對中英文文本聚類的影響尚需全面的實驗驗證。

    目前已有的相關(guān)研究在詞性選擇研究時,一般選取一種語料或一種聚類算法進(jìn)行比較,或僅比較分析其中的部分因素,帶有一定片面性,其結(jié)論缺乏全面的論證。為了全面考察名詞、動詞、形容詞和副詞四類主要詞性對文本聚類的貢獻(xiàn)度,本研究利用四組有代表性的中英文數(shù)據(jù)集,嘗試從更全面的角度驗證四類主要詞性對中文和英文文本聚類的影響。本研究的主要目的在于,全面地探討四種主要詞性及詞性組合對中英文文本聚類的作用,為中英文文本挖掘和文本組織提供有價值的參考。

    2 英漢詞性標(biāo)注集與數(shù)據(jù)集處理

    2.1 詞性標(biāo)注集

    在實驗開始之前,首先需要確定詞性標(biāo)注集。英語詞性標(biāo)注集主要有Penn Treebank標(biāo)注集、CLAWS5標(biāo)注集和CLAWS7標(biāo)注集,多數(shù)標(biāo)注集是在Brown標(biāo)注語料基礎(chǔ)上改進(jìn)而來。CLAWS5標(biāo)注集和CLAWS7標(biāo)注集適用于中型和大型語料庫的標(biāo)記,Penn Treebank標(biāo)注集[11]適合于小規(guī)模語料標(biāo)注,包含48個詞性標(biāo)記,是一個比較簡單的詞性標(biāo)注集。漢語詞性標(biāo)注集比較有影響的有中國科學(xué)院計算技術(shù)研究所漢語詞性標(biāo)注集和北京大學(xué)漢語文本詞性標(biāo)注標(biāo)注集。中國科學(xué)院計算技術(shù)研究所漢語詞性標(biāo)注集共有99個詞性標(biāo)記,北京大學(xué)漢語文本詞性標(biāo)注標(biāo)注集共有68個詞性標(biāo)注。

    根據(jù)語料的規(guī)模和性質(zhì),本文選擇Penn Treebank標(biāo)注集和中科院計算所漢語詞性標(biāo)注集標(biāo)注英文語料和中文語料。Penn Treebank標(biāo)注集和計算所漢語詞性標(biāo)注集都是為了語法分析的目的而構(gòu)建的,在文本聚類特征選擇時仍是過細(xì)的標(biāo)注。如中科院計算所漢語詞性標(biāo)注集V3.0版,將名詞細(xì)分為nr,nrf,ns,nt,nz,ntl等詞性,這些細(xì)分的詞性可以為深層的自然語言處理提供支撐,但選擇更細(xì)的詞性特征,會造成文本特征稀疏的問題更為突出。我們將英文和中文細(xì)分詞性進(jìn)行了合并處理,最終選擇最能體現(xiàn)文本內(nèi)容的四類詞性—名詞、動詞、形容詞和副詞。詞性標(biāo)注集合并后的信息見表1和表2。

    表1 賓州樹庫英文詞性標(biāo)注

    表2 計算所漢語詞性標(biāo)記集漢語詞性標(biāo)注V3.0

    2.2 數(shù)據(jù)集處理

    實驗所用中文和英文的數(shù)據(jù)集,不同語言分別采用不同處理方法,同一語言盡量保持一致。英文處理主要包括三部分:tokenization(斷詞)、詞性標(biāo)注和詞形還原。對于20Newsgroups和Reuters-21578數(shù)據(jù)集,在使用前需要進(jìn)行預(yù)處理等清洗工作。

    20Newsgroups由Lang收集來自20個不同新聞組的文本,Rennie將20Newsgroups整理成了三個版本的語料[12],本實驗選擇第二個版本Bydate訓(xùn)練語料部分,占總語料的60%,該版本的語料去除了原始語料中的重復(fù)部分和文本的頭部信息,更接近于真實的文本處理任務(wù)。Bydate版本的訓(xùn)練語料還是存在一些問題,部分文檔還包含PGP簽名的加密信息,也有些文檔含有亂碼,預(yù)處理階段去除了這些干擾信息。

    Reuters-21578共包含21 578篇文本,本實驗選擇Lewis基于modApt方法分割的訓(xùn)練語料[13],去除了多分類標(biāo)簽文本,保留8個單分類下的文本。對于有些文檔只有TITLE,沒有BODY,以及長度<3的短文本,本研究沒有考慮入內(nèi)。為了準(zhǔn)確進(jìn)行詞性標(biāo)注,在預(yù)處理等清洗過程中,盡量保持文本的原貌,如在詞性標(biāo)注之前,并沒有將復(fù)合詞進(jìn)行處理,也沒有進(jìn)行停用詞處理。

    在預(yù)處理之后,英文需要tokenization,其主要工作是根據(jù)空格斷詞,對于連寫詞“I’m”需要處理成“I’m”。英文詞性標(biāo)注選用Stanford Log-linear Part-Of-Speech Tagger,由斯坦福大學(xué)自然語言處理小組基于最大熵算法開發(fā),整個項目開源,目前使用較為廣泛。由于英文存在詞形變化,在詞性標(biāo)注后,通過詞形還原將變化的詞形還原生成基本詞形。

    英文數(shù)據(jù)集詞性標(biāo)注和詞形還原完成后,實驗還去除了長度小于3的單詞,一般情況認(rèn)為,長度小于3的單詞往往沒有多大意義。英文停用詞采用smart系統(tǒng)中包含的574個停用詞的詞表。此外,文本中還包含一些數(shù)字和合成詞,一并進(jìn)行統(tǒng)一處理。由于詞性識別受到上下文影響,Stanford Part-Of-Speech Tagger將“數(shù)字-單詞”、“數(shù)字-數(shù)字”等復(fù)合詞識別為名詞結(jié)構(gòu)或形容詞,如“53-year”、“8-k”,為解決該問題,處理后的復(fù)合詞根據(jù)“-”、“_”進(jìn)行斷詞處理,保留長度超過2的非數(shù)字單詞。

    中文語料本文選取了復(fù)旦文本分類語料和TanCorp V1.0語料。復(fù)旦文本分類語料分為訓(xùn)練語料和測試語料,我們選擇了其中的訓(xùn)練語料部分。復(fù)旦語料中存在大量類內(nèi)重復(fù)和類間重復(fù)文本,對于類內(nèi)重復(fù)文本,僅保留一個副本;類間重復(fù),一并去除,最終語料僅保留單標(biāo)簽文本。兩組中文語料采用中國科學(xué)院分詞工具ICTCLAS進(jìn)行分詞,詞性標(biāo)注采用中科院計算所漢語詞性標(biāo)記集二級詞性標(biāo)注,去掉數(shù)字、嘆詞、語氣詞、擬聲詞和各種標(biāo)點符號。停用詞表采用哈爾濱工業(yè)大學(xué)中文停用詞表。處理后的各語料特征數(shù)量和所占比例如表3所示。下文將處理后的20Newsgroups簡稱為20NG,Reuters-21578簡稱為8RE,復(fù)旦分類語料簡稱為FDCorp,TanCorp V1.0簡稱為TanCorp。

    表3 四種語料分布情況

    續(xù)表

    根據(jù)表3呈現(xiàn)的數(shù)據(jù),8RE和TanCorp的類別分布較為不均衡,最大數(shù)量的類分別是最小數(shù)量類的70和40倍之多。相比之下,20NG和FDCorp是分布較為均衡的語料,尤其是20NG是四組語料中分布最為均衡的語料。四組語料均是文本聚類領(lǐng)域常用的數(shù)據(jù)集,既存在類別分布均衡的語料,也存在分布不均衡的語料,這樣選擇盡量避免單一類型語料的影響。

    3 實驗及結(jié)果分析

    3.1 數(shù)據(jù)集詞性分布

    我們首先對四組語料中的詞性分布進(jìn)行了統(tǒng)計,為了研究四類主要詞性及詞性組合對文本聚類的影響,我們設(shè)計4組單一詞性和5組混合詞性共9組實驗,每組特征統(tǒng)計結(jié)果見表4。

    表4 四組語料中不同詞性及詞性組合統(tǒng)計

    為了降低單一聚類算法帶來的影響,本文采用劃分聚類和層次聚類兩種常用的聚類算法進(jìn)行聚類實驗。考慮到初始種子選擇對原始K-means算法影響較大,劃分聚類算法選擇K-means Clustering和Bisecting K-means Clustering;層次聚類算法選擇Agglomerative Hierarchical Algorithms。K-means Clustering和Agglomerative Hierarchical是常見的算法,在此不作贅述。Bisecting K-means Clustering算法,也稱為二分k均值算法?;舅枷胧牵簽榱说玫絢個簇,將所有點的集合分裂成兩個簇,從這些簇中選取一個繼續(xù)分裂,如此下去,直到產(chǎn)生k個簇。

    3.2 實驗評價方法

    本實驗采用熵(Entropy)和純度(Purity)兩個評價方法來評價聚類結(jié)果。假設(shè)待聚類的文本集人工標(biāo)注為q個類別。通過某一次聚類實驗,得到k個結(jié)果簇,對于包含nr個對象的簇Sr的熵E可以計算如式(1)所示:

    nir是第i個類中被聚到第r個簇中對象的數(shù)量,整個聚類實驗結(jié)果的熵計算如式(2):

    同樣,對于聚類結(jié)果簇Sr的純度可以計算如式(3):

    整個聚類實驗結(jié)果的純度如式(4)所示:

    純度是正確聚類的文檔數(shù)占總文檔數(shù)的比例,表示某一個簇中占主導(dǎo)地位類別的數(shù)量與該簇數(shù)量的比值。其值在0-1之間,完全錯誤的聚類時值為0,完全正確的聚類時值為1。純度的評價方法無法對退化的聚類方法給出正確的評價,如果聚類算法把每篇文檔單獨(dú)聚成一類,該方法認(rèn)為所有文檔都被正確分類,純度為1。比較公正的評價是與熵結(jié)合起來,熵是系統(tǒng)混亂程度的度量,值在0到1之間,越靠近0說明該類的成員越是由同一個類組成,越靠近1說明該類的成員組成越混亂,該值體現(xiàn)了結(jié)果簇中每個類的分布情況,其值越小,聚類整體效果越好。

    3.3 實驗結(jié)果分析

    本文采用劃分聚類和層次聚類的三種算法,對四組單標(biāo)簽中英文分類文本語料進(jìn)行了聚類實驗,以期更全面準(zhǔn)確地比較詞性對中英文文本聚類的影響??紤]在實際應(yīng)用中,聚類結(jié)果簇的數(shù)目往往是未知的,實驗時對每組語料選擇k=5、k=10、k=15和k=20進(jìn)行聚類。在三種聚類算法下共得到108(9×4×3)組實驗結(jié)果,由于實驗數(shù)據(jù)量較大,為了更全面展示多次聚類結(jié)果,最終聚類結(jié)果為每組實驗在三種聚類算法下得到的平均值。聚類結(jié)果見圖1至圖4,詳細(xì)數(shù)據(jù)見表5。

    圖1 20NG中不同詞性和詞性組合聚類結(jié)果

    圖2 8RE中不同詞性和詞性組合聚類結(jié)果

    圖3 FDCorp中不同詞性和詞性組合聚類結(jié)果

    圖4 TanCorp中不同詞性和詞性組合聚類結(jié)果

    表5 四組數(shù)據(jù)集的聚類結(jié)果

    續(xù)表

    實驗數(shù)據(jù)說明,由于四組語料中均存在短文本,在選擇單一詞性為文本特征時,造成了部分文檔長度為0,實驗中刪除了長度為0的文本,所以在選擇單一副詞詞性時,其文本總量略小于總文本數(shù)。

    參考圖1~4、表4和表5數(shù)據(jù),從詞性比例、聚類結(jié)果的Purity和Entropy,分別就四個單一詞性和五組詞性組合進(jìn)行分析。

    1)單一詞性特征的數(shù)量比較

    四種單一詞性特征數(shù)量在中文和英文中的比例差異較大,但對于同一語種的兩組語料,同一詞性所占比例比較接近。根據(jù)表4顯示,名詞特征在英文語料中所占的比例遠(yuǎn)高于在中文語料中的比例;動詞特征在中文語料中所占的比例遠(yuǎn)高于在英文語料中的比例;形容詞在英文語料中的比例略低于動詞,但在中文語料中的比例遠(yuǎn)低于動詞;副詞在英文語料中的比例非常低,在中文語料中的比例和形容詞接近。在數(shù)量和比例上,四類詞性特征是文本特征的重要組成部分,尤其是在英文語料中比重很大。

    2)單一詞性特征對文本聚類的影響分析

    名詞:表5和圖1~4顯示,在四個單一詞性中,名詞是對文本聚類影響最重要的詞性。采用單一名詞特征聚類的結(jié)果遠(yuǎn)好于其他單一詞性特征聚類的結(jié)果,甚至與采用詞性組合的特征所達(dá)到的結(jié)果十分接近。表5數(shù)據(jù)顯示,雖然選擇單一名詞詞性作為文本的聚類特征可以實現(xiàn)較好的聚類效果,但是僅僅采用名詞特征還不能達(dá)到最優(yōu)的聚類。

    動詞:四種詞性中,在數(shù)量上,動詞是除了名詞之外比例最大詞性,尤其是在兩組中文語料中,動詞所占的比例僅次于名詞。但不同語種語料之間,動詞比例存在較大差異。在聚類效果上,采用單一動詞特征的聚類效果明顯低于采用單一名詞特征的聚類效果。在兩組英文語料中,動詞所占的比例遠(yuǎn)低于名詞,僅選擇動詞特征會造成文本特征稀疏,這可能是造成單一動詞特征在英文語料中聚類效果差的主要原因。在兩組中文語料中,盡管動詞的比例占總特征的30%左右,但其聚類效果遠(yuǎn)低于名詞的聚類效果,這表明,動詞作為特征對文本的區(qū)分度不如名詞。對于兩組中文語料,單一動詞為特征在Purity低于單一名詞為特征時10%左右,在Entropy上高于單一名詞為特征時10%左右。對于兩組英文語料,由于動詞比例較低,這兩個差距變得更大。

    形容詞:在數(shù)量上,該詞性在兩種語言中分布差異較大。兩組中文語料中,形容詞數(shù)量是四種詞性比例最小的,但在兩組英文語料中,該詞性的比例與動詞所占比例較為接近。在聚類效果上,該詞性在四組語料中也表現(xiàn)很大差異。對于兩組英文語料,該詞性在Entropy上均低于動詞,但遠(yuǎn)高于名詞和其他詞性組合;在Purity上,該詞性遠(yuǎn)低于名詞和其他詞性組合,在20NG中,其表現(xiàn)要好于動詞,但在8RG中,該詞性的表現(xiàn)略低于動詞。通過兩組英文語料,我們認(rèn)為,在英文中,和動詞相比,形容詞對文本的類別有更好的區(qū)分能力。在兩組中文語料中,該詞性在Entropy和Purity上,都遠(yuǎn)不及動詞,在Entropy上,高于動詞20%以上,在Purity上,低于動詞20%以上。在兩語種語料中,形容詞的表現(xiàn)差異很大,其根本原因是在中文語料中,形容詞所占的比例非常低,僅為總詞性特征的5%左右,但就兩組英文語料來看,單一形容詞比單一動詞在文本類別上有更好的區(qū)分能力。

    副詞:在數(shù)量上,該詞性特征所占比例較小。中文語料中,該詞性比例略高于形容詞,但在英文語料中,該詞性的比例非常低,僅占總特征的2%左右。在聚類效果上,該詞性在四組語料中的表現(xiàn)最差,這在英文中比較容易理解,僅選擇該詞性為特征時,造成文本的特征非常稀疏,不利于文本的聚類。在中文語料中,雖然該詞性的比例高于形容詞,但其聚類的效果卻不及形容詞。根據(jù)形容詞和副詞的聚類結(jié)果,我們認(rèn)為,在中文中,副詞在表征文本內(nèi)容的區(qū)分度上不及形容詞。

    3)詞性組合對文本聚類的影響

    經(jīng)過對單一詞性在中英文文本聚類的結(jié)果比較,發(fā)現(xiàn)名詞和形容詞具有更好的文本類別區(qū)分度。為了進(jìn)一步驗證詞性組合對聚類的影響,我們選擇了N-V、N-A、N-V-A、N-V-A-D和All-POS共五組詞性組合進(jìn)行了實驗。根據(jù)圖1~4顯示,五組詞性組合在四組語料聚類的表現(xiàn)非常一致。但從表5數(shù)據(jù)上看,五組詞性組合存在細(xì)微不同。

    N-V和N-A:兩詞性組合在兩組英文中的比例均在80%左右,從聚類的Purity和Entropy上,NV的效果要好于N-A,雖然在20NG中,單一形容詞詞性作為特征時要優(yōu)于單一動詞,但同一語料中,N-V的效果略好于N-A,或者是很接近。在兩組中文語料中,N-V的數(shù)量高于N-A 20%以上,N-V詞性組合在數(shù)量上占有絕對優(yōu)勢,但N-V與N-A的效果卻比較接近,我們認(rèn)為主要是名詞特征在起重要作用。

    N-V-A和N-V-A-D:在數(shù)量上,這兩種組合比例都很高,尤其在英文語料中,所占比例接近于All-POS。聚類結(jié)果上,N-V-A和N-V-A-D是往往能夠?qū)崿F(xiàn)最優(yōu)聚類的詞性組合。尤其是N-V-A-D詞性組合,在四組語料的多次實驗中,實現(xiàn)最優(yōu)聚類的次數(shù)最多。根據(jù)多次實驗結(jié)果,我們認(rèn)為,名詞是表征文本內(nèi)容特征最重要的詞性,其他三種詞性動詞、形容詞和副詞對文本內(nèi)容表征也有不同的貢獻(xiàn)度,對文本類別區(qū)分度均有正的影響。

    All-POS:該詞性組合是去除了停用詞、數(shù)詞和標(biāo)點符號后,所有的詞性特征組合。從數(shù)量上,在英文語料中,除了四種主要詞性,其他詞性數(shù)量幾乎可以忽略,在聚類結(jié)果上,和N-V-A-D組合相比,All-POS為特征時聚類結(jié)果不升反降,表明,四類主要詞性外的其他詞性對文本類別區(qū)分度有負(fù)作用;在中文語料中,除了四種主要詞性,其他詞性大約占總特征的10%,在中文語料中,存在和英文語料類似的現(xiàn)象,雖然特征數(shù)量增加了,但All-POS聚類結(jié)果不及N-V-A和N-V-A-D的聚類結(jié)果。

    雖然四組有代表性的數(shù)據(jù)集并不能涵蓋所有的語料分布情況,但本文的研究可以反映大部分的情況。通過多次實驗,我們發(fā)現(xiàn),在中英文文本聚類中,詞性是一個重要的影響因素。名詞是表征本文內(nèi)容的重要特征,在所有詞性中,其類別區(qū)分度最高。僅采用單一名詞特征聚類,可以實現(xiàn)較好的聚類結(jié)果,甚至與保留所有詞性的聚類效果比較接近,但采用單一名詞為特征,可使文本維度大大降低,對于英文,文本維度可以降低30%以上,對于中文,文本維度可以降低60%左右,在聚類的速度上很占優(yōu)勢。但僅僅采用單一名詞作為文本特征,不能達(dá)到最優(yōu)的聚類結(jié)果。在多數(shù)情況下,選用名詞、動詞、形容詞和副詞的組合特征得到的聚類結(jié)果,要好于單一詞性和其他詞性組合的聚類結(jié)果。四種主要詞性之外的其他詞性對文本聚類有負(fù)影響。

    4 結(jié)論

    本文選用四組有代表性的中英文語料,采用三種聚類算法驗證了詞性對中英文文本聚類的影響。通過實驗我們得出如下結(jié)論:(1)名詞、動詞、形容詞和副詞是文本特征的重要組成部分,但在中文和英文中,各詞性所占的比例有很大差異;(2)在中文和英文中,名詞均是最重要的語言知識體,是表征文本內(nèi)容最重要的詞性,在單一詞性中其類別區(qū)分度最高,僅采用單一名詞特征聚類的結(jié)果與保留所有詞性時的結(jié)果相當(dāng)。動詞、形容詞和副詞對文本聚類均有不同的貢獻(xiàn)度,同一詞性貢獻(xiàn)度在兩語種之間存在差異。相對于英文,不同詞性特征及其組合在中文文本聚類中呈現(xiàn)的差異更為穩(wěn)定;(3)通常情況下,采用去除停用詞,保留所有特征參與文本聚類的方法,并不能實現(xiàn)最優(yōu)的聚類結(jié)果;(4)在中英文文本聚類中,多數(shù)情況下,采用名詞、動詞、形容詞和副詞四類詞性組合特征得到的聚類結(jié)果,要好于其他詞性組合的聚類結(jié)果。在下一步工作中我們將研究詞性之外的因素對文本聚類的作用,在一些常用特征的基礎(chǔ)上再考慮不同詞性對于聚類結(jié)果的影響;下一步還要對不同詞性特征進(jìn)行加權(quán),進(jìn)一步挖掘?qū)垲愑兄匾饔玫囊蛩亍?/p>

    [1] J Gimenez,L Marquez.Fast and accurate part-ofspeech tagging:the SVM approach revisited[A]//Proceedings of the 4th RANLP,Bulgaria,2003:158-165.

    [2] 王麗杰,車萬翔,劉挺.基于SVMTool的中文詞性標(biāo)注[J].中文信息學(xué)報,2009,23(4):16-21.

    [3] Y C Wu,J C Yang,Y S Lee.Description of the NCU Chinese Word Segmentation and Part-of-Speech Tagging for SIGHAN Bakeoff 2008[C]//Proceedings of the SIGHAN,2008.

    [4] A Chen,Y Zhang,G Sun.A Two-Stage Approach to Chinese Part-of-Speech Tagging[C]//Proceedings of 6th SIGHAN Workshop on Chinese Language processing.Indian,2007:82-85.

    [5] 蘇祺,昝紅英,胡景賀,等.詞性標(biāo)注對信息檢索系統(tǒng)性能的影響[J].中文信息學(xué)報,2005,19(2):58-65.

    [6] S Chua.The Role of Parts-of-Speech in Feature Selection[C]//Proceedings of the International MultiConference of Engineers and Computer Scientists.Hong Kong.2008.

    [7] Z T Liu,W C Yu,Y L Deng.A Feature Selection Method for Document Clustering Based on Part-of-Speech and Word Co-Occurrence[C]//Proceedings of the 7th International Conference on Fuzzy Systems and Knowledge Discovery(FSKD 2010).Yantai,China.

    [8] 姚清耘,劉功申,李翔.基于向量空間模型的文本聚類算法[J].計算機(jī)工程,2008,34(18):39-41.

    [9] M Rosell.Part of speech tagging for text clustering in swedish[C]//Proceedings of the 17th Nordic Conference of Computational Linguistics.Odense,Denmark.2009.

    [10] J L Sedding,D Kazakov.Wordnet-based text document clustering[C]//Proceedings of the Third Workshop on Robust Methods in Analysis of Natural Language Data(ROMAND).Geneva,2004:104-113.

    [11] M P Marcus,B Santorini,M A Marcinkiewicz.Building a Large Annotated Corpus of English:The Penn Treebank[J].Computational Linguistics,1993,19(2):313-330.

    [12] J Rennie.20Newsgroups dataset[EB/OL].[2012-03-16].http://people.csail.mit.edu/jrennie/20Newsgroups/.

    [13] D Lewis.Reuters-21578dataset[EB/OL].[2012-03-16].http://www.daviddlewis.com/resources/testcollections/reuters21578/.

    猜你喜歡
    英文特征文本
    如何表達(dá)“特征”
    在808DA上文本顯示的改善
    不忠誠的四個特征
    基于doc2vec和TF-IDF的相似文本識別
    電子制作(2018年18期)2018-11-14 01:48:06
    抓住特征巧觀察
    英文摘要
    英文摘要
    英文摘要
    財經(jīng)(2016年19期)2016-08-11 08:17:03
    英文摘要
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    国产高清激情床上av| 国产一区二区三区在线臀色熟女| 天堂动漫精品| 12—13女人毛片做爰片一| 97碰自拍视频| 精品电影一区二区在线| 国产99白浆流出| 18禁观看日本| 日韩成人在线观看一区二区三区| 色在线成人网| 日韩欧美一区二区三区在线观看| 免费高清视频大片| 一个人免费在线观看电影 | 精品久久久久久成人av| 久久国产精品人妻蜜桃| 日韩欧美国产在线观看| 中文字幕精品亚洲无线码一区| 女人被狂操c到高潮| 亚洲av电影不卡..在线观看| 成熟少妇高潮喷水视频| 欧美国产日韩亚洲一区| 亚洲av成人精品一区久久| 韩国av一区二区三区四区| 国产午夜精品论理片| 中文资源天堂在线| av天堂中文字幕网| 色哟哟哟哟哟哟| 国产精品久久久久久亚洲av鲁大| 国产成人系列免费观看| 巨乳人妻的诱惑在线观看| 日韩欧美三级三区| 亚洲九九香蕉| 国模一区二区三区四区视频 | 亚洲欧美精品综合一区二区三区| 长腿黑丝高跟| 国产黄色小视频在线观看| www.www免费av| 亚洲人成电影免费在线| 亚洲国产中文字幕在线视频| 成人鲁丝片一二三区免费| 中文字幕人妻丝袜一区二区| 亚洲一区二区三区色噜噜| 宅男免费午夜| 国产成人一区二区三区免费视频网站| 五月玫瑰六月丁香| 国产精品九九99| 日本免费a在线| 欧美成人性av电影在线观看| 最近视频中文字幕2019在线8| 视频区欧美日本亚洲| 叶爱在线成人免费视频播放| 51午夜福利影视在线观看| 嫩草影院入口| 99精品久久久久人妻精品| 中出人妻视频一区二区| 国产精品永久免费网站| 精品国内亚洲2022精品成人| 亚洲国产欧美网| 国产黄片美女视频| 亚洲成人免费电影在线观看| 亚洲中文字幕一区二区三区有码在线看 | 亚洲人成网站在线播放欧美日韩| 亚洲美女黄片视频| 99精品欧美一区二区三区四区| 十八禁人妻一区二区| 欧美大码av| 在线a可以看的网站| 久久亚洲精品不卡| 亚洲精品久久国产高清桃花| 久久久精品大字幕| 男人舔奶头视频| 天天添夜夜摸| 精品久久蜜臀av无| 在线观看66精品国产| 黄色女人牲交| 两性夫妻黄色片| 精品国产乱子伦一区二区三区| 不卡一级毛片| 天天添夜夜摸| 亚洲国产精品久久男人天堂| 国产视频一区二区在线看| 免费电影在线观看免费观看| 国产精品久久久久久人妻精品电影| 欧美日本亚洲视频在线播放| 亚洲中文av在线| 两个人视频免费观看高清| 亚洲欧美精品综合久久99| 免费在线观看视频国产中文字幕亚洲| 国内揄拍国产精品人妻在线| a在线观看视频网站| 国产综合懂色| 每晚都被弄得嗷嗷叫到高潮| 久久久久久久午夜电影| 国产69精品久久久久777片 | 亚洲18禁久久av| 免费看十八禁软件| 欧美成人免费av一区二区三区| 两性午夜刺激爽爽歪歪视频在线观看| 精品国产三级普通话版| 久久午夜亚洲精品久久| 波多野结衣巨乳人妻| 成人国产一区最新在线观看| 欧美日韩乱码在线| 国产精品 欧美亚洲| 亚洲精品一卡2卡三卡4卡5卡| 国产精品av视频在线免费观看| 老鸭窝网址在线观看| 日本在线视频免费播放| 两个人的视频大全免费| 听说在线观看完整版免费高清| 国产日本99.免费观看| 搡老熟女国产l中国老女人| 亚洲国产精品sss在线观看| 国产精品自产拍在线观看55亚洲| 综合色av麻豆| 成人高潮视频无遮挡免费网站| 69av精品久久久久久| 91老司机精品| 亚洲人与动物交配视频| 在线观看免费午夜福利视频| 熟女人妻精品中文字幕| 久久久国产成人精品二区| 狂野欧美激情性xxxx| 国产 一区 欧美 日韩| 亚洲av成人不卡在线观看播放网| 久久香蕉精品热| 99热这里只有精品一区 | 国产精品美女特级片免费视频播放器 | 亚洲avbb在线观看| 免费在线观看日本一区| 国产激情偷乱视频一区二区| 99久久精品一区二区三区| 欧美最黄视频在线播放免费| 成人精品一区二区免费| 曰老女人黄片| 男人舔奶头视频| 婷婷六月久久综合丁香| 亚洲国产精品成人综合色| 亚洲天堂国产精品一区在线| 悠悠久久av| 国产一区二区在线av高清观看| 国产成人av教育| 好看av亚洲va欧美ⅴa在| 美女午夜性视频免费| 国模一区二区三区四区视频 | 噜噜噜噜噜久久久久久91| e午夜精品久久久久久久| 亚洲最大成人中文| 99热只有精品国产| 美女高潮的动态| 久久久久国产精品人妻aⅴ院| 久久精品夜夜夜夜夜久久蜜豆| 在线观看午夜福利视频| 99久久精品一区二区三区| 精品久久久久久,| 一个人观看的视频www高清免费观看 | 夜夜看夜夜爽夜夜摸| 长腿黑丝高跟| 老司机福利观看| 成人特级黄色片久久久久久久| 床上黄色一级片| 久久久国产成人精品二区| 久久国产精品影院| 成在线人永久免费视频| 日韩欧美国产在线观看| 国产三级在线视频| 俺也久久电影网| 国产伦精品一区二区三区四那| av中文乱码字幕在线| 精品免费久久久久久久清纯| 怎么达到女性高潮| 亚洲国产看品久久| 欧美日韩一级在线毛片| 成年版毛片免费区| 综合色av麻豆| 国产又黄又爽又无遮挡在线| 日本与韩国留学比较| 久久亚洲真实| 99久久99久久久精品蜜桃| 亚洲片人在线观看| 18禁黄网站禁片午夜丰满| 91九色精品人成在线观看| 男女做爰动态图高潮gif福利片| 真人一进一出gif抽搐免费| 欧美高清成人免费视频www| 少妇丰满av| 好男人在线观看高清免费视频| 亚洲一区二区三区不卡视频| 日本精品一区二区三区蜜桃| 成人亚洲精品av一区二区| 日本黄色视频三级网站网址| 午夜亚洲福利在线播放| 国内精品久久久久精免费| 亚洲成人精品中文字幕电影| 欧美乱妇无乱码| 搡老熟女国产l中国老女人| 国产精品久久久久久精品电影| 成人性生交大片免费视频hd| 亚洲精品一卡2卡三卡4卡5卡| 麻豆国产97在线/欧美| 成年女人毛片免费观看观看9| 国产视频一区二区在线看| 淫秽高清视频在线观看| 日本在线视频免费播放| 亚洲真实伦在线观看| 日本 欧美在线| 国产激情偷乱视频一区二区| 色吧在线观看| 性欧美人与动物交配| 亚洲 欧美 日韩 在线 免费| 国产黄色小视频在线观看| 精品久久久久久久久久免费视频| 啦啦啦免费观看视频1| 精品欧美国产一区二区三| 免费在线观看视频国产中文字幕亚洲| 国产一区二区在线av高清观看| 欧美日韩亚洲国产一区二区在线观看| 午夜福利高清视频| 麻豆av在线久日| 中文字幕高清在线视频| 97超视频在线观看视频| 精品午夜福利视频在线观看一区| 男人舔女人的私密视频| 桃红色精品国产亚洲av| 欧美精品啪啪一区二区三区| 国产精品爽爽va在线观看网站| 女警被强在线播放| 九九在线视频观看精品| 国产黄色小视频在线观看| 怎么达到女性高潮| 国产主播在线观看一区二区| 欧美色欧美亚洲另类二区| 99视频精品全部免费 在线 | 九九在线视频观看精品| 91久久精品国产一区二区成人 | 免费看光身美女| 国产精品一区二区三区四区久久| 蜜桃久久精品国产亚洲av| 此物有八面人人有两片| 香蕉国产在线看| 欧美日韩瑟瑟在线播放| 听说在线观看完整版免费高清| 制服人妻中文乱码| 99re在线观看精品视频| e午夜精品久久久久久久| 动漫黄色视频在线观看| 最近最新中文字幕大全免费视频| netflix在线观看网站| 亚洲激情在线av| 久久久国产成人精品二区| 黄色 视频免费看| av视频在线观看入口| 国产激情欧美一区二区| 久久中文看片网| www国产在线视频色| 国产高清视频在线播放一区| 99riav亚洲国产免费| 国产精品亚洲美女久久久| 99精品欧美一区二区三区四区| 国产成人欧美在线观看| 亚洲精品在线观看二区| 久久久国产成人免费| 婷婷精品国产亚洲av| 天天添夜夜摸| 成人精品一区二区免费| 久久精品影院6| 国内久久婷婷六月综合欲色啪| av中文乱码字幕在线| 国产欧美日韩一区二区精品| 伊人久久大香线蕉亚洲五| 欧美成人一区二区免费高清观看 | 性色av乱码一区二区三区2| 国产激情欧美一区二区| 欧美黑人欧美精品刺激| 丰满人妻熟妇乱又伦精品不卡| 色在线成人网| 国产日本99.免费观看| 色哟哟哟哟哟哟| 嫩草影院入口| 亚洲av五月六月丁香网| а√天堂www在线а√下载| 看片在线看免费视频| 宅男免费午夜| 国产精品 欧美亚洲| 天天躁狠狠躁夜夜躁狠狠躁| 免费在线观看成人毛片| 欧美一区二区精品小视频在线| 老鸭窝网址在线观看| 无限看片的www在线观看| 国产精品日韩av在线免费观看| 欧美大码av| 国产不卡一卡二| 国内精品久久久久久久电影| 久久精品人妻少妇| 亚洲国产色片| 999久久久精品免费观看国产| 男女视频在线观看网站免费| 天天一区二区日本电影三级| 我要搜黄色片| 国产伦在线观看视频一区| 国产一区二区在线av高清观看| 日韩欧美在线二视频| 老熟妇仑乱视频hdxx| 丰满人妻一区二区三区视频av | 18禁美女被吸乳视频| 一卡2卡三卡四卡精品乱码亚洲| 中文字幕av在线有码专区| 色老头精品视频在线观看| 国产精品久久久人人做人人爽| 后天国语完整版免费观看| 高清在线国产一区| 黄色日韩在线| 久久精品国产清高在天天线| 国产成人影院久久av| 久久久久久久久免费视频了| 黄色 视频免费看| 免费大片18禁| 成年人黄色毛片网站| 亚洲第一欧美日韩一区二区三区| 岛国在线观看网站| 欧美午夜高清在线| 欧美色视频一区免费| 精品一区二区三区av网在线观看| 日本熟妇午夜| 久久久国产欧美日韩av| 老汉色av国产亚洲站长工具| 在线观看免费午夜福利视频| 网址你懂的国产日韩在线| 麻豆国产97在线/欧美| 欧美另类亚洲清纯唯美| 国产精品香港三级国产av潘金莲| 亚洲欧美精品综合久久99| 亚洲乱码一区二区免费版| 中文字幕精品亚洲无线码一区| 午夜视频精品福利| 久99久视频精品免费| 麻豆久久精品国产亚洲av| 一本久久中文字幕| 国产午夜福利久久久久久| 亚洲精品久久国产高清桃花| 国产精品久久久久久久电影 | 久久伊人香网站| 一a级毛片在线观看| 精品午夜福利视频在线观看一区| 在线观看一区二区三区| www.精华液| av欧美777| 亚洲av电影不卡..在线观看| 久久精品aⅴ一区二区三区四区| 亚洲av电影不卡..在线观看| 久久精品国产亚洲av香蕉五月| 亚洲av电影不卡..在线观看| 久久这里只有精品中国| 久久伊人香网站| 久久精品aⅴ一区二区三区四区| 亚洲avbb在线观看| 国产免费av片在线观看野外av| 法律面前人人平等表现在哪些方面| 18禁黄网站禁片免费观看直播| 欧美黄色淫秽网站| 99re在线观看精品视频| 久久伊人香网站| 国产伦精品一区二区三区视频9 | 小蜜桃在线观看免费完整版高清| 中文字幕熟女人妻在线| 国产精品99久久久久久久久| 日本免费a在线| 亚洲无线观看免费| 狠狠狠狠99中文字幕| 亚洲va日本ⅴa欧美va伊人久久| 精品免费久久久久久久清纯| 精品福利观看| 午夜免费激情av| 一个人看的www免费观看视频| 成人特级av手机在线观看| 深夜精品福利| 国产成人影院久久av| 亚洲欧美日韩高清在线视频| 国产精品久久久av美女十八| 久久午夜亚洲精品久久| 搡老熟女国产l中国老女人| 国产精品免费一区二区三区在线| 狂野欧美激情性xxxx| 久久久久久人人人人人| 欧美成人一区二区免费高清观看 | 丰满人妻一区二区三区视频av | av女优亚洲男人天堂 | 男女视频在线观看网站免费| 免费一级毛片在线播放高清视频| 热99在线观看视频| 日本一二三区视频观看| 99国产精品99久久久久| 色综合亚洲欧美另类图片| 99久久精品国产亚洲精品| 日本黄色视频三级网站网址| а√天堂www在线а√下载| 丁香六月欧美| 99久久精品热视频| e午夜精品久久久久久久| 亚洲中文字幕一区二区三区有码在线看 | 精品一区二区三区四区五区乱码| 黄色日韩在线| 精品国产乱码久久久久久男人| 一级毛片女人18水好多| 热99在线观看视频| 97超级碰碰碰精品色视频在线观看| 亚洲精品在线美女| 欧美zozozo另类| 搡老熟女国产l中国老女人| 老汉色av国产亚洲站长工具| 亚洲欧洲精品一区二区精品久久久| 亚洲自拍偷在线| 操出白浆在线播放| 色哟哟哟哟哟哟| 国产成人aa在线观看| 伊人久久大香线蕉亚洲五| 国产视频内射| 精品国产三级普通话版| 精品久久久久久久久久免费视频| 色综合站精品国产| 特级一级黄色大片| 欧美成人性av电影在线观看| 亚洲人成网站在线播放欧美日韩| 别揉我奶头~嗯~啊~动态视频| 午夜福利高清视频| 欧美3d第一页| 草草在线视频免费看| 国产高清videossex| 国产成年人精品一区二区| 在线观看免费视频日本深夜| 亚洲欧美日韩卡通动漫| 一级毛片高清免费大全| 国产精品一区二区三区四区久久| a级毛片在线看网站| 久久中文字幕人妻熟女| 国产久久久一区二区三区| 一区福利在线观看| 亚洲一区高清亚洲精品| 国产极品精品免费视频能看的| 岛国在线免费视频观看| 国内精品一区二区在线观看| 国产精品爽爽va在线观看网站| 精品欧美国产一区二区三| av在线蜜桃| 亚洲国产色片| 成人av一区二区三区在线看| 男人的好看免费观看在线视频| 国产黄片美女视频| 午夜亚洲福利在线播放| 国产亚洲精品av在线| 久久久久久久久久黄片| 欧美中文综合在线视频| 99国产极品粉嫩在线观看| 久9热在线精品视频| 国产视频一区二区在线看| 欧美激情在线99| 91在线观看av| 国产一区二区激情短视频| 日韩大尺度精品在线看网址| 香蕉av资源在线| 在线播放国产精品三级| 18禁黄网站禁片免费观看直播| 久久久久性生活片| 麻豆久久精品国产亚洲av| 十八禁人妻一区二区| 激情在线观看视频在线高清| 久久中文字幕一级| 麻豆一二三区av精品| 久久久久久久久久黄片| 国产久久久一区二区三区| 巨乳人妻的诱惑在线观看| 美女高潮的动态| 日韩精品青青久久久久久| 久久久久九九精品影院| 亚洲色图av天堂| 亚洲av第一区精品v没综合| 无限看片的www在线观看| 久久中文字幕人妻熟女| 日韩欧美在线乱码| 琪琪午夜伦伦电影理论片6080| 久久香蕉国产精品| www.精华液| 亚洲 国产 在线| 色播亚洲综合网| 亚洲av片天天在线观看| 美女高潮喷水抽搐中文字幕| 色尼玛亚洲综合影院| 男人舔女人下体高潮全视频| 国产单亲对白刺激| 999久久久国产精品视频| 一本一本综合久久| 在线观看免费视频日本深夜| 国产精品 国内视频| 免费av不卡在线播放| 亚洲aⅴ乱码一区二区在线播放| 不卡av一区二区三区| 一区二区三区激情视频| 岛国在线免费视频观看| 国产麻豆成人av免费视频| 午夜影院日韩av| 精品99又大又爽又粗少妇毛片 | 午夜亚洲福利在线播放| 香蕉久久夜色| 51午夜福利影视在线观看| 国产精品国产高清国产av| 亚洲欧美日韩卡通动漫| 国产精品98久久久久久宅男小说| 国产成人影院久久av| 亚洲成人久久性| 操出白浆在线播放| 国产三级在线视频| www.精华液| 久久中文看片网| 国产aⅴ精品一区二区三区波| 日韩欧美三级三区| 精品国内亚洲2022精品成人| 视频区欧美日本亚洲| 亚洲成av人片在线播放无| av在线天堂中文字幕| 两性午夜刺激爽爽歪歪视频在线观看| 一夜夜www| 色老头精品视频在线观看| 色播亚洲综合网| 国产黄片美女视频| 中国美女看黄片| av福利片在线观看| 欧美成人一区二区免费高清观看 | 久久九九热精品免费| ponron亚洲| 欧美中文日本在线观看视频| 男人舔女人下体高潮全视频| 久久午夜综合久久蜜桃| 亚洲,欧美精品.| 中文字幕久久专区| 九色成人免费人妻av| 波多野结衣巨乳人妻| 欧美日韩乱码在线| 久久国产精品影院| 亚洲色图 男人天堂 中文字幕| 亚洲精品在线美女| 亚洲人与动物交配视频| 亚洲国产精品999在线| 久久草成人影院| 亚洲美女视频黄频| 国产精品一区二区免费欧美| 国产av不卡久久| 国产欧美日韩精品一区二区| 九九热线精品视视频播放| 欧美乱码精品一区二区三区| 在线观看美女被高潮喷水网站 | 亚洲精品美女久久av网站| 精品一区二区三区av网在线观看| 国产精品,欧美在线| 亚洲欧洲精品一区二区精品久久久| 免费av毛片视频| 国产 一区 欧美 日韩| 亚洲18禁久久av| 窝窝影院91人妻| 亚洲无线在线观看| 国产熟女xx| 搡老妇女老女人老熟妇| 国内精品一区二区在线观看| 母亲3免费完整高清在线观看| 精品福利观看| 亚洲精华国产精华精| 亚洲中文字幕日韩| 国产欧美日韩一区二区精品| 每晚都被弄得嗷嗷叫到高潮| 黄色片一级片一级黄色片| av天堂在线播放| www国产在线视频色| 在线观看一区二区三区| 级片在线观看| 黄片小视频在线播放| 国产精品野战在线观看| 一二三四社区在线视频社区8| 亚洲九九香蕉| 国产熟女xx| 国产一区二区三区在线臀色熟女| 欧美高清成人免费视频www| 狠狠狠狠99中文字幕| 亚洲人成网站在线播放欧美日韩| 国产精品久久视频播放| 欧美激情久久久久久爽电影| 免费人成视频x8x8入口观看| 黄色成人免费大全| www.www免费av| 老熟妇仑乱视频hdxx| 午夜激情欧美在线| 亚洲成人精品中文字幕电影| 法律面前人人平等表现在哪些方面| 丰满人妻一区二区三区视频av | 亚洲一区高清亚洲精品| 成人三级黄色视频| 久久久久久久久免费视频了| 日韩av在线大香蕉| 亚洲精品一区av在线观看| 国产在线精品亚洲第一网站| 18禁美女被吸乳视频| 伊人久久大香线蕉亚洲五| 九色国产91popny在线| 久久久久久久精品吃奶| 午夜免费成人在线视频| 久久久精品大字幕| a级毛片在线看网站| 亚洲美女黄片视频| 夜夜躁狠狠躁天天躁| 少妇裸体淫交视频免费看高清| 一区二区三区高清视频在线| 色尼玛亚洲综合影院| 一个人免费在线观看电影 | 亚洲av电影不卡..在线观看| 中文字幕熟女人妻在线| 黄色 视频免费看| 伦理电影免费视频|