韓普,王東波,劉艷云,蘇新寧
(1.南京大學(xué)信息管理學(xué)院,江蘇南京210093;2.解放軍理工大學(xué)指揮自動化學(xué)院,江蘇南京210007)
通常認(rèn)為,不同的詞性在文本中發(fā)揮著不同作用,承擔(dān)不同角色,重要度也不一樣,例如,名詞的重要性大于動詞,動詞的重要性大于副詞。從語言學(xué)角度看,詞性的變化,可以使語言表達(dá)更多信息,不同詞性在文本內(nèi)容表達(dá)上的功能是不同的,在句法結(jié)構(gòu)中承擔(dān)著不同角色。在文本處理時,選擇重要角色的詞性作為特征不但可以提高效率,還可能會提升處理的效果。詞性標(biāo)注是自然語言處理中進(jìn)行詞性分析的一項基礎(chǔ)工作,利用最大熵、條件隨機(jī)場、SVM等算法[1-4],該技術(shù)已經(jīng)比較成熟,目前已在信息檢索、自然語言處理、文本分類聚類等領(lǐng)域得到了廣泛應(yīng)用。
蘇祺等[5]采用TREC數(shù)據(jù)集研究了詞性標(biāo)注對信息檢索的影響,認(rèn)為詞性標(biāo)注會對特定主題及相應(yīng)文檔集下的檢索效果有所改進(jìn),但改進(jìn)的效果不明顯。Chua[6]對Reuters-21578數(shù)據(jù)集中的前10個類別,通過基于WordNet構(gòu)建名詞集合、動詞集合、形容詞集合、副詞集合和混合詞性集合,利用多項式樸素貝葉斯算法進(jìn)行了文本分類實驗,實驗結(jié)果表明基于WordNet構(gòu)建的名詞集合的分類效果稍微好于其他四種詞性集合,并認(rèn)為名詞特征集合可以更好地表達(dá)分類信息。Liu[7]等采用基于名詞、動詞和形容詞共現(xiàn)的方法對Sougou文本分類語料中的五個類別進(jìn)行了文本聚類比較,實驗結(jié)果表明基于上述詞性的特征選擇方法要好于DF(Document Frequency)等特征選擇方法。姚清耘[8]等利用Sougou語料對所有詞性和只采用名詞為特征進(jìn)行中文文本聚類比較,結(jié)果表明只采用名詞構(gòu)建向量特征空間的聚類效果要明顯好于所有詞性參與聚類的效果。Rosell[9]基于四組瑞士語語料集,使用K-Means算法驗證了詞性選擇對瑞士語文本聚類的作用,結(jié)果認(rèn)為詞性標(biāo)注方法沒有提高瑞士語文本聚類的結(jié)果,但得出結(jié)論認(rèn)為,在瑞士語文本中,當(dāng)選擇名詞和專有名詞作為文本的特征時,可以取得和所有詞性參與聚類的結(jié)果比較接近,但后者可顯著降低文本特征維度,因此認(rèn)為名詞是瑞士語文本聚類的重要特征。Sedding[10]等通過采用詞性標(biāo)注對部分Reuters-21578語料中的多義詞進(jìn)行了先消歧再聚類,結(jié)果表明基于詞性標(biāo)注的消歧并不能提高聚類的效果。目前來看,詞性選擇在文本信息處理中已經(jīng)普遍應(yīng)用,將數(shù)詞、冠詞等詞性進(jìn)行過濾,不僅可以降低文本特征維度,還可以提高處理效果。名詞、動詞、形容詞和副詞在中英文中都是重要的詞性,這四種詞性對中英文文本聚類的影響尚需全面的實驗驗證。
目前已有的相關(guān)研究在詞性選擇研究時,一般選取一種語料或一種聚類算法進(jìn)行比較,或僅比較分析其中的部分因素,帶有一定片面性,其結(jié)論缺乏全面的論證。為了全面考察名詞、動詞、形容詞和副詞四類主要詞性對文本聚類的貢獻(xiàn)度,本研究利用四組有代表性的中英文數(shù)據(jù)集,嘗試從更全面的角度驗證四類主要詞性對中文和英文文本聚類的影響。本研究的主要目的在于,全面地探討四種主要詞性及詞性組合對中英文文本聚類的作用,為中英文文本挖掘和文本組織提供有價值的參考。
在實驗開始之前,首先需要確定詞性標(biāo)注集。英語詞性標(biāo)注集主要有Penn Treebank標(biāo)注集、CLAWS5標(biāo)注集和CLAWS7標(biāo)注集,多數(shù)標(biāo)注集是在Brown標(biāo)注語料基礎(chǔ)上改進(jìn)而來。CLAWS5標(biāo)注集和CLAWS7標(biāo)注集適用于中型和大型語料庫的標(biāo)記,Penn Treebank標(biāo)注集[11]適合于小規(guī)模語料標(biāo)注,包含48個詞性標(biāo)記,是一個比較簡單的詞性標(biāo)注集。漢語詞性標(biāo)注集比較有影響的有中國科學(xué)院計算技術(shù)研究所漢語詞性標(biāo)注集和北京大學(xué)漢語文本詞性標(biāo)注標(biāo)注集。中國科學(xué)院計算技術(shù)研究所漢語詞性標(biāo)注集共有99個詞性標(biāo)記,北京大學(xué)漢語文本詞性標(biāo)注標(biāo)注集共有68個詞性標(biāo)注。
根據(jù)語料的規(guī)模和性質(zhì),本文選擇Penn Treebank標(biāo)注集和中科院計算所漢語詞性標(biāo)注集標(biāo)注英文語料和中文語料。Penn Treebank標(biāo)注集和計算所漢語詞性標(biāo)注集都是為了語法分析的目的而構(gòu)建的,在文本聚類特征選擇時仍是過細(xì)的標(biāo)注。如中科院計算所漢語詞性標(biāo)注集V3.0版,將名詞細(xì)分為nr,nrf,ns,nt,nz,ntl等詞性,這些細(xì)分的詞性可以為深層的自然語言處理提供支撐,但選擇更細(xì)的詞性特征,會造成文本特征稀疏的問題更為突出。我們將英文和中文細(xì)分詞性進(jìn)行了合并處理,最終選擇最能體現(xiàn)文本內(nèi)容的四類詞性—名詞、動詞、形容詞和副詞。詞性標(biāo)注集合并后的信息見表1和表2。
表1 賓州樹庫英文詞性標(biāo)注
表2 計算所漢語詞性標(biāo)記集漢語詞性標(biāo)注V3.0
實驗所用中文和英文的數(shù)據(jù)集,不同語言分別采用不同處理方法,同一語言盡量保持一致。英文處理主要包括三部分:tokenization(斷詞)、詞性標(biāo)注和詞形還原。對于20Newsgroups和Reuters-21578數(shù)據(jù)集,在使用前需要進(jìn)行預(yù)處理等清洗工作。
20Newsgroups由Lang收集來自20個不同新聞組的文本,Rennie將20Newsgroups整理成了三個版本的語料[12],本實驗選擇第二個版本Bydate訓(xùn)練語料部分,占總語料的60%,該版本的語料去除了原始語料中的重復(fù)部分和文本的頭部信息,更接近于真實的文本處理任務(wù)。Bydate版本的訓(xùn)練語料還是存在一些問題,部分文檔還包含PGP簽名的加密信息,也有些文檔含有亂碼,預(yù)處理階段去除了這些干擾信息。
Reuters-21578共包含21 578篇文本,本實驗選擇Lewis基于modApt方法分割的訓(xùn)練語料[13],去除了多分類標(biāo)簽文本,保留8個單分類下的文本。對于有些文檔只有TITLE,沒有BODY,以及長度<3的短文本,本研究沒有考慮入內(nèi)。為了準(zhǔn)確進(jìn)行詞性標(biāo)注,在預(yù)處理等清洗過程中,盡量保持文本的原貌,如在詞性標(biāo)注之前,并沒有將復(fù)合詞進(jìn)行處理,也沒有進(jìn)行停用詞處理。
在預(yù)處理之后,英文需要tokenization,其主要工作是根據(jù)空格斷詞,對于連寫詞“I’m”需要處理成“I’m”。英文詞性標(biāo)注選用Stanford Log-linear Part-Of-Speech Tagger,由斯坦福大學(xué)自然語言處理小組基于最大熵算法開發(fā),整個項目開源,目前使用較為廣泛。由于英文存在詞形變化,在詞性標(biāo)注后,通過詞形還原將變化的詞形還原生成基本詞形。
英文數(shù)據(jù)集詞性標(biāo)注和詞形還原完成后,實驗還去除了長度小于3的單詞,一般情況認(rèn)為,長度小于3的單詞往往沒有多大意義。英文停用詞采用smart系統(tǒng)中包含的574個停用詞的詞表。此外,文本中還包含一些數(shù)字和合成詞,一并進(jìn)行統(tǒng)一處理。由于詞性識別受到上下文影響,Stanford Part-Of-Speech Tagger將“數(shù)字-單詞”、“數(shù)字-數(shù)字”等復(fù)合詞識別為名詞結(jié)構(gòu)或形容詞,如“53-year”、“8-k”,為解決該問題,處理后的復(fù)合詞根據(jù)“-”、“_”進(jìn)行斷詞處理,保留長度超過2的非數(shù)字單詞。
中文語料本文選取了復(fù)旦文本分類語料和TanCorp V1.0語料。復(fù)旦文本分類語料分為訓(xùn)練語料和測試語料,我們選擇了其中的訓(xùn)練語料部分。復(fù)旦語料中存在大量類內(nèi)重復(fù)和類間重復(fù)文本,對于類內(nèi)重復(fù)文本,僅保留一個副本;類間重復(fù),一并去除,最終語料僅保留單標(biāo)簽文本。兩組中文語料采用中國科學(xué)院分詞工具ICTCLAS進(jìn)行分詞,詞性標(biāo)注采用中科院計算所漢語詞性標(biāo)記集二級詞性標(biāo)注,去掉數(shù)字、嘆詞、語氣詞、擬聲詞和各種標(biāo)點符號。停用詞表采用哈爾濱工業(yè)大學(xué)中文停用詞表。處理后的各語料特征數(shù)量和所占比例如表3所示。下文將處理后的20Newsgroups簡稱為20NG,Reuters-21578簡稱為8RE,復(fù)旦分類語料簡稱為FDCorp,TanCorp V1.0簡稱為TanCorp。
表3 四種語料分布情況
續(xù)表
根據(jù)表3呈現(xiàn)的數(shù)據(jù),8RE和TanCorp的類別分布較為不均衡,最大數(shù)量的類分別是最小數(shù)量類的70和40倍之多。相比之下,20NG和FDCorp是分布較為均衡的語料,尤其是20NG是四組語料中分布最為均衡的語料。四組語料均是文本聚類領(lǐng)域常用的數(shù)據(jù)集,既存在類別分布均衡的語料,也存在分布不均衡的語料,這樣選擇盡量避免單一類型語料的影響。
我們首先對四組語料中的詞性分布進(jìn)行了統(tǒng)計,為了研究四類主要詞性及詞性組合對文本聚類的影響,我們設(shè)計4組單一詞性和5組混合詞性共9組實驗,每組特征統(tǒng)計結(jié)果見表4。
表4 四組語料中不同詞性及詞性組合統(tǒng)計
為了降低單一聚類算法帶來的影響,本文采用劃分聚類和層次聚類兩種常用的聚類算法進(jìn)行聚類實驗。考慮到初始種子選擇對原始K-means算法影響較大,劃分聚類算法選擇K-means Clustering和Bisecting K-means Clustering;層次聚類算法選擇Agglomerative Hierarchical Algorithms。K-means Clustering和Agglomerative Hierarchical是常見的算法,在此不作贅述。Bisecting K-means Clustering算法,也稱為二分k均值算法?;舅枷胧牵簽榱说玫絢個簇,將所有點的集合分裂成兩個簇,從這些簇中選取一個繼續(xù)分裂,如此下去,直到產(chǎn)生k個簇。
本實驗采用熵(Entropy)和純度(Purity)兩個評價方法來評價聚類結(jié)果。假設(shè)待聚類的文本集人工標(biāo)注為q個類別。通過某一次聚類實驗,得到k個結(jié)果簇,對于包含nr個對象的簇Sr的熵E可以計算如式(1)所示:
nir是第i個類中被聚到第r個簇中對象的數(shù)量,整個聚類實驗結(jié)果的熵計算如式(2):
同樣,對于聚類結(jié)果簇Sr的純度可以計算如式(3):
整個聚類實驗結(jié)果的純度如式(4)所示:
純度是正確聚類的文檔數(shù)占總文檔數(shù)的比例,表示某一個簇中占主導(dǎo)地位類別的數(shù)量與該簇數(shù)量的比值。其值在0-1之間,完全錯誤的聚類時值為0,完全正確的聚類時值為1。純度的評價方法無法對退化的聚類方法給出正確的評價,如果聚類算法把每篇文檔單獨(dú)聚成一類,該方法認(rèn)為所有文檔都被正確分類,純度為1。比較公正的評價是與熵結(jié)合起來,熵是系統(tǒng)混亂程度的度量,值在0到1之間,越靠近0說明該類的成員越是由同一個類組成,越靠近1說明該類的成員組成越混亂,該值體現(xiàn)了結(jié)果簇中每個類的分布情況,其值越小,聚類整體效果越好。
本文采用劃分聚類和層次聚類的三種算法,對四組單標(biāo)簽中英文分類文本語料進(jìn)行了聚類實驗,以期更全面準(zhǔn)確地比較詞性對中英文文本聚類的影響??紤]在實際應(yīng)用中,聚類結(jié)果簇的數(shù)目往往是未知的,實驗時對每組語料選擇k=5、k=10、k=15和k=20進(jìn)行聚類。在三種聚類算法下共得到108(9×4×3)組實驗結(jié)果,由于實驗數(shù)據(jù)量較大,為了更全面展示多次聚類結(jié)果,最終聚類結(jié)果為每組實驗在三種聚類算法下得到的平均值。聚類結(jié)果見圖1至圖4,詳細(xì)數(shù)據(jù)見表5。
圖1 20NG中不同詞性和詞性組合聚類結(jié)果
圖2 8RE中不同詞性和詞性組合聚類結(jié)果
圖3 FDCorp中不同詞性和詞性組合聚類結(jié)果
圖4 TanCorp中不同詞性和詞性組合聚類結(jié)果
表5 四組數(shù)據(jù)集的聚類結(jié)果
續(xù)表
實驗數(shù)據(jù)說明,由于四組語料中均存在短文本,在選擇單一詞性為文本特征時,造成了部分文檔長度為0,實驗中刪除了長度為0的文本,所以在選擇單一副詞詞性時,其文本總量略小于總文本數(shù)。
參考圖1~4、表4和表5數(shù)據(jù),從詞性比例、聚類結(jié)果的Purity和Entropy,分別就四個單一詞性和五組詞性組合進(jìn)行分析。
1)單一詞性特征的數(shù)量比較
四種單一詞性特征數(shù)量在中文和英文中的比例差異較大,但對于同一語種的兩組語料,同一詞性所占比例比較接近。根據(jù)表4顯示,名詞特征在英文語料中所占的比例遠(yuǎn)高于在中文語料中的比例;動詞特征在中文語料中所占的比例遠(yuǎn)高于在英文語料中的比例;形容詞在英文語料中的比例略低于動詞,但在中文語料中的比例遠(yuǎn)低于動詞;副詞在英文語料中的比例非常低,在中文語料中的比例和形容詞接近。在數(shù)量和比例上,四類詞性特征是文本特征的重要組成部分,尤其是在英文語料中比重很大。
2)單一詞性特征對文本聚類的影響分析
名詞:表5和圖1~4顯示,在四個單一詞性中,名詞是對文本聚類影響最重要的詞性。采用單一名詞特征聚類的結(jié)果遠(yuǎn)好于其他單一詞性特征聚類的結(jié)果,甚至與采用詞性組合的特征所達(dá)到的結(jié)果十分接近。表5數(shù)據(jù)顯示,雖然選擇單一名詞詞性作為文本的聚類特征可以實現(xiàn)較好的聚類效果,但是僅僅采用名詞特征還不能達(dá)到最優(yōu)的聚類。
動詞:四種詞性中,在數(shù)量上,動詞是除了名詞之外比例最大詞性,尤其是在兩組中文語料中,動詞所占的比例僅次于名詞。但不同語種語料之間,動詞比例存在較大差異。在聚類效果上,采用單一動詞特征的聚類效果明顯低于采用單一名詞特征的聚類效果。在兩組英文語料中,動詞所占的比例遠(yuǎn)低于名詞,僅選擇動詞特征會造成文本特征稀疏,這可能是造成單一動詞特征在英文語料中聚類效果差的主要原因。在兩組中文語料中,盡管動詞的比例占總特征的30%左右,但其聚類效果遠(yuǎn)低于名詞的聚類效果,這表明,動詞作為特征對文本的區(qū)分度不如名詞。對于兩組中文語料,單一動詞為特征在Purity低于單一名詞為特征時10%左右,在Entropy上高于單一名詞為特征時10%左右。對于兩組英文語料,由于動詞比例較低,這兩個差距變得更大。
形容詞:在數(shù)量上,該詞性在兩種語言中分布差異較大。兩組中文語料中,形容詞數(shù)量是四種詞性比例最小的,但在兩組英文語料中,該詞性的比例與動詞所占比例較為接近。在聚類效果上,該詞性在四組語料中也表現(xiàn)很大差異。對于兩組英文語料,該詞性在Entropy上均低于動詞,但遠(yuǎn)高于名詞和其他詞性組合;在Purity上,該詞性遠(yuǎn)低于名詞和其他詞性組合,在20NG中,其表現(xiàn)要好于動詞,但在8RG中,該詞性的表現(xiàn)略低于動詞。通過兩組英文語料,我們認(rèn)為,在英文中,和動詞相比,形容詞對文本的類別有更好的區(qū)分能力。在兩組中文語料中,該詞性在Entropy和Purity上,都遠(yuǎn)不及動詞,在Entropy上,高于動詞20%以上,在Purity上,低于動詞20%以上。在兩語種語料中,形容詞的表現(xiàn)差異很大,其根本原因是在中文語料中,形容詞所占的比例非常低,僅為總詞性特征的5%左右,但就兩組英文語料來看,單一形容詞比單一動詞在文本類別上有更好的區(qū)分能力。
副詞:在數(shù)量上,該詞性特征所占比例較小。中文語料中,該詞性比例略高于形容詞,但在英文語料中,該詞性的比例非常低,僅占總特征的2%左右。在聚類效果上,該詞性在四組語料中的表現(xiàn)最差,這在英文中比較容易理解,僅選擇該詞性為特征時,造成文本的特征非常稀疏,不利于文本的聚類。在中文語料中,雖然該詞性的比例高于形容詞,但其聚類的效果卻不及形容詞。根據(jù)形容詞和副詞的聚類結(jié)果,我們認(rèn)為,在中文中,副詞在表征文本內(nèi)容的區(qū)分度上不及形容詞。
3)詞性組合對文本聚類的影響
經(jīng)過對單一詞性在中英文文本聚類的結(jié)果比較,發(fā)現(xiàn)名詞和形容詞具有更好的文本類別區(qū)分度。為了進(jìn)一步驗證詞性組合對聚類的影響,我們選擇了N-V、N-A、N-V-A、N-V-A-D和All-POS共五組詞性組合進(jìn)行了實驗。根據(jù)圖1~4顯示,五組詞性組合在四組語料聚類的表現(xiàn)非常一致。但從表5數(shù)據(jù)上看,五組詞性組合存在細(xì)微不同。
N-V和N-A:兩詞性組合在兩組英文中的比例均在80%左右,從聚類的Purity和Entropy上,NV的效果要好于N-A,雖然在20NG中,單一形容詞詞性作為特征時要優(yōu)于單一動詞,但同一語料中,N-V的效果略好于N-A,或者是很接近。在兩組中文語料中,N-V的數(shù)量高于N-A 20%以上,N-V詞性組合在數(shù)量上占有絕對優(yōu)勢,但N-V與N-A的效果卻比較接近,我們認(rèn)為主要是名詞特征在起重要作用。
N-V-A和N-V-A-D:在數(shù)量上,這兩種組合比例都很高,尤其在英文語料中,所占比例接近于All-POS。聚類結(jié)果上,N-V-A和N-V-A-D是往往能夠?qū)崿F(xiàn)最優(yōu)聚類的詞性組合。尤其是N-V-A-D詞性組合,在四組語料的多次實驗中,實現(xiàn)最優(yōu)聚類的次數(shù)最多。根據(jù)多次實驗結(jié)果,我們認(rèn)為,名詞是表征文本內(nèi)容特征最重要的詞性,其他三種詞性動詞、形容詞和副詞對文本內(nèi)容表征也有不同的貢獻(xiàn)度,對文本類別區(qū)分度均有正的影響。
All-POS:該詞性組合是去除了停用詞、數(shù)詞和標(biāo)點符號后,所有的詞性特征組合。從數(shù)量上,在英文語料中,除了四種主要詞性,其他詞性數(shù)量幾乎可以忽略,在聚類結(jié)果上,和N-V-A-D組合相比,All-POS為特征時聚類結(jié)果不升反降,表明,四類主要詞性外的其他詞性對文本類別區(qū)分度有負(fù)作用;在中文語料中,除了四種主要詞性,其他詞性大約占總特征的10%,在中文語料中,存在和英文語料類似的現(xiàn)象,雖然特征數(shù)量增加了,但All-POS聚類結(jié)果不及N-V-A和N-V-A-D的聚類結(jié)果。
雖然四組有代表性的數(shù)據(jù)集并不能涵蓋所有的語料分布情況,但本文的研究可以反映大部分的情況。通過多次實驗,我們發(fā)現(xiàn),在中英文文本聚類中,詞性是一個重要的影響因素。名詞是表征本文內(nèi)容的重要特征,在所有詞性中,其類別區(qū)分度最高。僅采用單一名詞特征聚類,可以實現(xiàn)較好的聚類結(jié)果,甚至與保留所有詞性的聚類效果比較接近,但采用單一名詞為特征,可使文本維度大大降低,對于英文,文本維度可以降低30%以上,對于中文,文本維度可以降低60%左右,在聚類的速度上很占優(yōu)勢。但僅僅采用單一名詞作為文本特征,不能達(dá)到最優(yōu)的聚類結(jié)果。在多數(shù)情況下,選用名詞、動詞、形容詞和副詞的組合特征得到的聚類結(jié)果,要好于單一詞性和其他詞性組合的聚類結(jié)果。四種主要詞性之外的其他詞性對文本聚類有負(fù)影響。
本文選用四組有代表性的中英文語料,采用三種聚類算法驗證了詞性對中英文文本聚類的影響。通過實驗我們得出如下結(jié)論:(1)名詞、動詞、形容詞和副詞是文本特征的重要組成部分,但在中文和英文中,各詞性所占的比例有很大差異;(2)在中文和英文中,名詞均是最重要的語言知識體,是表征文本內(nèi)容最重要的詞性,在單一詞性中其類別區(qū)分度最高,僅采用單一名詞特征聚類的結(jié)果與保留所有詞性時的結(jié)果相當(dāng)。動詞、形容詞和副詞對文本聚類均有不同的貢獻(xiàn)度,同一詞性貢獻(xiàn)度在兩語種之間存在差異。相對于英文,不同詞性特征及其組合在中文文本聚類中呈現(xiàn)的差異更為穩(wěn)定;(3)通常情況下,采用去除停用詞,保留所有特征參與文本聚類的方法,并不能實現(xiàn)最優(yōu)的聚類結(jié)果;(4)在中英文文本聚類中,多數(shù)情況下,采用名詞、動詞、形容詞和副詞四類詞性組合特征得到的聚類結(jié)果,要好于其他詞性組合的聚類結(jié)果。在下一步工作中我們將研究詞性之外的因素對文本聚類的作用,在一些常用特征的基礎(chǔ)上再考慮不同詞性對于聚類結(jié)果的影響;下一步還要對不同詞性特征進(jìn)行加權(quán),進(jìn)一步挖掘?qū)垲愑兄匾饔玫囊蛩亍?/p>
[1] J Gimenez,L Marquez.Fast and accurate part-ofspeech tagging:the SVM approach revisited[A]//Proceedings of the 4th RANLP,Bulgaria,2003:158-165.
[2] 王麗杰,車萬翔,劉挺.基于SVMTool的中文詞性標(biāo)注[J].中文信息學(xué)報,2009,23(4):16-21.
[3] Y C Wu,J C Yang,Y S Lee.Description of the NCU Chinese Word Segmentation and Part-of-Speech Tagging for SIGHAN Bakeoff 2008[C]//Proceedings of the SIGHAN,2008.
[4] A Chen,Y Zhang,G Sun.A Two-Stage Approach to Chinese Part-of-Speech Tagging[C]//Proceedings of 6th SIGHAN Workshop on Chinese Language processing.Indian,2007:82-85.
[5] 蘇祺,昝紅英,胡景賀,等.詞性標(biāo)注對信息檢索系統(tǒng)性能的影響[J].中文信息學(xué)報,2005,19(2):58-65.
[6] S Chua.The Role of Parts-of-Speech in Feature Selection[C]//Proceedings of the International MultiConference of Engineers and Computer Scientists.Hong Kong.2008.
[7] Z T Liu,W C Yu,Y L Deng.A Feature Selection Method for Document Clustering Based on Part-of-Speech and Word Co-Occurrence[C]//Proceedings of the 7th International Conference on Fuzzy Systems and Knowledge Discovery(FSKD 2010).Yantai,China.
[8] 姚清耘,劉功申,李翔.基于向量空間模型的文本聚類算法[J].計算機(jī)工程,2008,34(18):39-41.
[9] M Rosell.Part of speech tagging for text clustering in swedish[C]//Proceedings of the 17th Nordic Conference of Computational Linguistics.Odense,Denmark.2009.
[10] J L Sedding,D Kazakov.Wordnet-based text document clustering[C]//Proceedings of the Third Workshop on Robust Methods in Analysis of Natural Language Data(ROMAND).Geneva,2004:104-113.
[11] M P Marcus,B Santorini,M A Marcinkiewicz.Building a Large Annotated Corpus of English:The Penn Treebank[J].Computational Linguistics,1993,19(2):313-330.
[12] J Rennie.20Newsgroups dataset[EB/OL].[2012-03-16].http://people.csail.mit.edu/jrennie/20Newsgroups/.
[13] D Lewis.Reuters-21578dataset[EB/OL].[2012-03-16].http://www.daviddlewis.com/resources/testcollections/reuters21578/.