單世超,欒翠菊
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
基于局部特征選擇的微博中文文本分類(lèi)研究
單世超,欒翠菊
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
微博文本內(nèi)容短小、用詞不規(guī)范等缺點(diǎn),使得微博文本的研究區(qū)別于通常的文本研究。目前微博研究很多,但缺少合適的帶有標(biāo)簽的微博語(yǔ)料庫(kù)。分析微博數(shù)據(jù)獲取方案給出合適的帶有分類(lèi)標(biāo)簽的微博語(yǔ)料庫(kù),然后通過(guò)傳統(tǒng)分類(lèi)算法進(jìn)行分類(lèi)評(píng)估驗(yàn)證;由于微博短文本維度高存在嚴(yán)重的特征稀疏問(wèn)題,全局特征選擇算法容易忽略對(duì)某個(gè)類(lèi)別重要但對(duì)語(yǔ)料集關(guān)聯(lián)度小的特征,并采用局部特征選擇方案。實(shí)驗(yàn)結(jié)果證明局部特征選擇方法可以獲得更高的分類(lèi)效果。
微博;中文文本分類(lèi);全局特征選擇;局部特征選擇;WEKA
新浪微博在國(guó)內(nèi)作為重要的社交網(wǎng)絡(luò)平臺(tái),極大影響了人們的生活方式。隨著網(wǎng)絡(luò)的發(fā)展,人們?cè)絹?lái)越多的通過(guò)微博平臺(tái)交流,這樣使得對(duì)微博的研究?jī)r(jià)值越來(lái)越大。對(duì)新浪微博的研究工作與人們的生活也日益密切相關(guān)。據(jù)微博發(fā)布的2016年第三季度財(cái)報(bào)顯示:截止2016年9月30日,微博月活躍人數(shù)已達(dá)到2.97億,較2015年同期相比增長(zhǎng)34%[1]。
Farzindar[2]首先指出Twitter文本短小、語(yǔ)法不規(guī)范,使得對(duì)其的研究存在很多新的挑戰(zhàn),然后提出一種關(guān)于Twitter流的事件檢測(cè)技術(shù)研究;王[3]回顧和總結(jié)國(guó)內(nèi)外近幾年在微博短文本研究方面的主要成果,認(rèn)為微博短文本研究離商業(yè)應(yīng)用還有相當(dāng)長(zhǎng)的路,然而微博短文本的學(xué)習(xí)及應(yīng)用研究仍有廣闊的研究空間;劉[4]鑒于微博文本短小特點(diǎn),訓(xùn)練語(yǔ)料集生成主題模型,對(duì)微博短文本利用主題擴(kuò)展方式減緩微博文本短帶來(lái)的影響;王[5]和黃[6]則分別利用關(guān)聯(lián)規(guī)則和語(yǔ)義相似實(shí)現(xiàn)對(duì)微博短文本擴(kuò)展。
雖然目前國(guó)內(nèi)微博研究有很多,但存在一個(gè)普遍現(xiàn)象是過(guò)多研究分類(lèi)算法本身,并沒(méi)有給出統(tǒng)一、合適的帶有類(lèi)別標(biāo)簽的微博語(yǔ)料集。然而對(duì)于數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)研究,數(shù)據(jù)才是基石,因此對(duì)微博文本的研究合理性必須建立在確切合理的語(yǔ)料集之上。(1)文章通過(guò)研究微博數(shù)據(jù)的獲取方案,給出合理的微博文本語(yǔ)料集,并介紹合適的預(yù)處理方案。通過(guò)傳統(tǒng)的文本分類(lèi)模型評(píng)估驗(yàn)證語(yǔ)料集的合理性。(2)在特征選擇方案上,針對(duì)全局特征選擇方法偏向于選擇對(duì)整體語(yǔ)料集關(guān)聯(lián)程度強(qiáng)但對(duì)單個(gè)類(lèi)別關(guān)聯(lián)程度低的特征,提出局部特征選擇方法。對(duì)給出的語(yǔ)料集,實(shí)驗(yàn)結(jié)果證明局部方法要優(yōu)于全局方法。
微博文本分類(lèi)的流程包括微博文本預(yù)處理,文本表示,特征選擇,分類(lèi)器模型評(píng)估四個(gè)過(guò)程,文章基于WEKA平臺(tái)實(shí)現(xiàn)分類(lèi)評(píng)估階段處理過(guò)程。分類(lèi)流程圖如圖1,詳細(xì)介紹如下:
a.信息提?。簭陌敫袷交臄?shù)據(jù)源TXT文檔集中提取出只包含分類(lèi)信微博的text字段信息,組成文檔集,通過(guò)NLPIR漢語(yǔ)分詞系統(tǒng)分詞得到分詞文檔集。
b.數(shù)據(jù)格式轉(zhuǎn)換:通過(guò)WEKA平臺(tái)提供的TextDi?rectoryLoader類(lèi),將分詞后的語(yǔ)料集生成WEKA可以處理的ARFF文件。
c.空間向量轉(zhuǎn)換:使用WEKA平臺(tái)提供的String?ToWordVetor,對(duì)每一篇文檔生成向量空間模型。權(quán)重采用TFIDF。
d.特征選擇:采用IG,CHI兩種。
e.分類(lèi)評(píng)估:分類(lèi)器采用NaiveBayesM。
圖1 微博文本分類(lèi)流程圖
1.1 VSMVSM文本表示模型和TFIDFTFIDF權(quán)重
在文本分類(lèi)領(lǐng)域文本表示模型有多種,空間向量模型(VSM)作為最常用的文本表示模型。語(yǔ)料集D中的每一篇文檔d都是由一組詞組成的向量表示,即d=(w1,w2,…,wn),D={d|d=(w1,w2,…,wn)}。
其中wi(i=1,2,…,n)表示對(duì)應(yīng)的詞的權(quán)重。首先假設(shè)語(yǔ)料集的全部詞特征為t1,t2,…,tnn個(gè)特征,w表示相關(guān)特征t對(duì)文檔d的代表程度。即向量(w1,w2,…,wn)代表所有特征對(duì)文檔的表示程度,該向量越是表示該文檔的程度越強(qiáng)表示該權(quán)重表示方法越好。傳統(tǒng)的權(quán)重表示方法有詞頻(TF),逆文檔頻(IDF),和詞頻文檔頻(TFIDF)。如公式(1)-(3):
其中N(ti,d)表示詞ti在文檔d中出現(xiàn)的次數(shù);N(D)表示文檔d中所有詞的數(shù)目;|D|表示語(yǔ)料集中的文檔數(shù)目,|ti,D|表示語(yǔ)料集D中包含詞ti的文檔數(shù)目;其中加1是為了防止分母為0做的平滑處理。詞頻表示詞在文檔中出現(xiàn)的次數(shù)越多越可以表示該文檔;逆文檔頻表示詞在越少的文檔中出現(xiàn)越可以表示該文檔。TFIDF算法則表示兩者的結(jié)合方案。
1.2 IIGG和CCHHII特征選擇算法
對(duì)于大的語(yǔ)料集,文檔中的詞數(shù)目有上萬(wàn)維,不可能把所有文檔表示為上萬(wàn)維的特征空間。因此必須從上萬(wàn)維的特征空間中選擇出更能表征語(yǔ)料集的特征,即用到了特征降維方法。常用的特征降維方法有特征選擇和特征生成算法[7],文章中主要利用特征選擇算法。
特征選擇算法規(guī)定一個(gè)函數(shù),函數(shù)表征每一個(gè)特征對(duì)語(yǔ)料集的重要程度,經(jīng)過(guò)排序確認(rèn)最靠前的特定數(shù)目的特征。下面介紹常用的兩種:信息增益(IG)和卡方(CHI)特征選擇算法。
(1)信息增益特征選擇算法
IG特征選擇算法基于信息熵概念,熵用來(lái)衡量數(shù)據(jù)集信息量的多少。熵越小說(shuō)明信息量越少數(shù)據(jù)集越純[8],信息增益比較原語(yǔ)料集信息熵與某特征條件下的數(shù)據(jù)集信息熵的差值。信息增益越大,證明該特征可以更好地劃分語(yǔ)料集,該特征條件下數(shù)據(jù)里的熵越小數(shù)據(jù)越純。如公式(4)-(6):
其中假設(shè)文檔D分為c1,c2,…,cn個(gè)類(lèi)別;H(D,tj)表示有tj的所有文檔的分類(lèi)信息熵,同理H(D,-tj)表示不含有tj的所有文檔的分類(lèi)信息熵。信息增益公式見(jiàn)公式(6)。
(2)卡方特征選擇算法
卡法特征選擇算法基于統(tǒng)計(jì)學(xué)中的卡方假設(shè)檢驗(yàn),首先假設(shè)結(jié)論H成立,如果卡方統(tǒng)計(jì)值大于閾值就認(rèn)為假設(shè)不成立推翻假設(shè)H。在文本分類(lèi)中,衡量特征是否與類(lèi)別相關(guān),假設(shè)特征與類(lèi)別相關(guān),如果特征與類(lèi)別的卡方統(tǒng)計(jì)值越大就認(rèn)為兩者越相關(guān)。定義為公式(7):
其中N表示所有文檔數(shù)目,A表示包含單次tj并且屬于ci的文檔數(shù)目,B表示包含tj不屬于ci的文檔數(shù)目,C表示不包含tj但屬于ci的文檔數(shù)目,D表示不包含tj又不屬于ci的文檔數(shù)目??ǚ街翟酱蟊硎総j與ci越關(guān)聯(lián),而一般需要計(jì)算tj對(duì)整個(gè)語(yǔ)料集的關(guān)聯(lián)程度,通常認(rèn)為該值為特征對(duì)所有類(lèi)別卡法值的最大值,如公式(8):
1.3 分類(lèi)器與評(píng)估指標(biāo)
分類(lèi)器用來(lái)確定模型,通過(guò)一定的分類(lèi)算法實(shí)現(xiàn)模型的建立過(guò)程,并通過(guò)合適的評(píng)估指標(biāo)驗(yàn)證。文章選取NaiveBayesM和SVM分類(lèi)器,評(píng)估準(zhǔn)則使用F1值。
(1)NaiveBayesM 分類(lèi)器
NaiveBayesM基于樸素貝葉斯定理,如公式(9):
在已知文檔下的類(lèi)別的條件概率稱(chēng)為后驗(yàn)概率,可以通過(guò)計(jì)算類(lèi)別的先驗(yàn)概率和類(lèi)別條件下文檔出現(xiàn)的條件概率,并且基于假設(shè):d中的特征ti相互獨(dú)立。通常情況下,P(t|c)表示c類(lèi)別中出現(xiàn)t詞的文檔頻率,但是由于這樣會(huì)丟失詞在文檔中的出現(xiàn)頻次,因此多項(xiàng)式模型認(rèn)為P(t|c)為詞t在c類(lèi)別中出現(xiàn)的詞頻比例。如公式(10):
(2)SVM 分類(lèi)器
SVM分類(lèi)器是針對(duì)小數(shù)量集表現(xiàn)優(yōu)異的分類(lèi)器。在線性可分的情況下,尋找可以分割兩類(lèi)的超平面,同時(shí)使得邊界的支持向量到超平面的距離最大化。即通過(guò)最大化間隔的方法尋找最優(yōu)的分類(lèi)超平面。針對(duì)線性不可分的情況,通過(guò)構(gòu)造高維空間將問(wèn)題轉(zhuǎn)換為線性可分。針對(duì)構(gòu)造高維空間難以計(jì)算的問(wèn)題,引入核函數(shù)代替。
(3)評(píng)估準(zhǔn)則
分類(lèi)結(jié)果評(píng)估方法有準(zhǔn)確率P、召回率R、F1值,準(zhǔn)確率表示每類(lèi)分類(lèi)結(jié)果預(yù)測(cè)為真的數(shù)目中確實(shí)為真的數(shù)目所占的比例,衡量分類(lèi)結(jié)果的可信任度;召回率表示分類(lèi)結(jié)果確實(shí)為真的數(shù)目中預(yù)測(cè)出來(lái)的數(shù)目所占的比例,衡量分類(lèi)結(jié)果的文本丟失率;F1是綜合P,R的一種分類(lèi)性能度量值。
2.1 數(shù)據(jù)獲取方案
雖然目前有很多關(guān)于微博文本的相關(guān)研究,但是到目前為止卻沒(méi)有合適的帶有標(biāo)簽的微博文本語(yǔ)料集。微博數(shù)據(jù)獲取方案有兩種[9],通過(guò)API接口獲取或者頁(yè)面解析。API數(shù)據(jù)獲取方案簡(jiǎn)單,但每次只能獲取有限的微博,分為公共用戶、關(guān)注用戶、和雙向關(guān)注用戶的微博三種,限制數(shù)據(jù)的獲取,也沒(méi)有標(biāo)簽。頁(yè)面解析方案可以實(shí)現(xiàn)將頁(yè)面看到所有內(nèi)容都獲取,但實(shí)現(xiàn)起來(lái)有很多困難。文章采用頁(yè)面解析方案獲取微博內(nèi)容,主要解決以下問(wèn)題:
模擬登錄:微博頁(yè)面數(shù)據(jù)采用延遲加載策略,并不是一次性獲取無(wú)限數(shù)據(jù)。如未登錄狀態(tài),只能瀏覽很少量的微博數(shù)據(jù)。實(shí)驗(yàn)采用請(qǐng)求攜帶cookie方式,每次發(fā)送請(qǐng)求會(huì)被認(rèn)為登錄狀態(tài)。
自動(dòng)加載:數(shù)據(jù)延遲加載策略要求是動(dòng)態(tài)的獲取數(shù)據(jù),即需要不斷的發(fā)送帶有分頁(yè)標(biāo)識(shí)的請(qǐng)求。實(shí)驗(yàn)通過(guò)模擬實(shí)現(xiàn)請(qǐng)求自動(dòng)生成,不斷順序獲取數(shù)據(jù)。
展示全文:微博取消140字符的限制長(zhǎng)度后,出現(xiàn)很多長(zhǎng)文微博。需要點(diǎn)擊“顯示更多”發(fā)送請(qǐng)求才可以查看全文。實(shí)驗(yàn)?zāi)M如果博文中有查看更多會(huì)自動(dòng)生成請(qǐng)求并發(fā)送。
定時(shí)請(qǐng)求:新浪出于對(duì)數(shù)據(jù)的保護(hù),不可能讓不斷的獲取數(shù)據(jù)。因此在獲取每個(gè)類(lèi)別的微博文本時(shí)會(huì)出現(xiàn)無(wú)響應(yīng)的情況,此時(shí)實(shí)驗(yàn)設(shè)計(jì)停止該類(lèi)別開(kāi)始下一個(gè)類(lèi)別的數(shù)據(jù)獲取任務(wù)。另外,為了獲取更多的微博數(shù)據(jù),實(shí)驗(yàn)設(shè)計(jì)實(shí)現(xiàn)隔一小時(shí)獲取一次數(shù)據(jù)。最終實(shí)現(xiàn)3天獲取大約兩萬(wàn)條微博數(shù)據(jù)。
2.2 預(yù)處理方案
頁(yè)面解析后的數(shù)據(jù)保存為以微博編號(hào)為名字的txt文檔,有微博編號(hào)、博主昵稱(chēng)、博主編號(hào)、發(fā)表日期、發(fā)表內(nèi)容和所屬類(lèi)別字段。預(yù)處理首先需要做微博內(nèi)容字段提取,分詞,停用詞過(guò)濾四個(gè)步驟。
(1)微博內(nèi)容提取
頁(yè)面解析后保存的是微博各元數(shù)據(jù)組成的文件,實(shí)驗(yàn)部分僅僅需要分析微博內(nèi)容。解析程序?qū)崿F(xiàn)對(duì)內(nèi)容字段的提取。
(2)分詞
采用的分詞方法是中科院分詞系統(tǒng)NLPIR漢語(yǔ)分詞系統(tǒng),NLPIR新增微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提取。程序使用NLPIR提供的Java程序接口,編寫(xiě)程序?qū)崿F(xiàn)微博文本分詞,詞性標(biāo)注,新詞識(shí)別,用戶字典等功能。其中新詞識(shí)別效果很好,識(shí)別出像“麻婆豆腐”,“藍(lán)瘦香菇”,“倒計(jì)時(shí)”等新詞。
(3)停用詞過(guò)濾
在基于NLPIR漢語(yǔ)分詞系統(tǒng)基礎(chǔ)之上,擴(kuò)展去停用詞的程序。除了基本的中英文停用詞表外,還添加有HTML頁(yè)面標(biāo)簽轉(zhuǎn)義符,微博停用詞表。解析頁(yè)面獲得數(shù)據(jù)難免有很多HTML的轉(zhuǎn)義符,如空格的轉(zhuǎn)義#nbsp;另外在觀察微博文本過(guò)程中發(fā)現(xiàn)很多垃圾的詞語(yǔ),如“L網(wǎng)頁(yè)鏈接”,“O秒拍視頻”等詞加入微博停用詞表。
在CHI特征選擇算法中,認(rèn)為特征對(duì)語(yǔ)料集的CHI值為特征對(duì)所有類(lèi)別CHI值的最大值。然后通過(guò)排序?qū)Ρ人刑卣鲗?duì)語(yǔ)料集的CHI值,最后選取最高的M個(gè)特征。但是這種方法容易忽略與某個(gè)類(lèi)別相關(guān),但是CHI值很小的某些特征。即對(duì)某個(gè)類(lèi)別相關(guān)的特征并沒(méi)有對(duì)整個(gè)類(lèi)別的CHI很大,而忽略該特征。局部特征選擇方法從類(lèi)別角度出發(fā),從特征與類(lèi)別的CHI值矩陣中,抽選對(duì)每個(gè)類(lèi)別影響CHI值最大的前M/C個(gè)特征。C表示類(lèi)別數(shù)目,這樣可以使得特征選擇算法并不偏袒于某個(gè)類(lèi)別。
圖2 IG和CHI+BayesM實(shí)驗(yàn)F1值趨勢(shì)圖
圖3 IG和CHI+BayesM時(shí)間效率趨勢(shì)圖
“新浪微博發(fā)現(xiàn)欄塊”[10]具有分類(lèi)的微博數(shù)據(jù),實(shí)驗(yàn)通過(guò)對(duì)該頁(yè)面的9個(gè)類(lèi)別的不同頁(yè)面解析,獲取微博數(shù)目近10萬(wàn)條。包括電影,動(dòng)漫,科技,美食,美妝,萌寵,時(shí)尚,時(shí)事和體育類(lèi)別。實(shí)驗(yàn)1分別采用IG和CHI特征選擇算法,NaiveBayesM分類(lèi)器;實(shí)驗(yàn)2針對(duì)CHI特征選擇算法做局部特征選擇。實(shí)驗(yàn)環(huán)境是Win10 64位操作系統(tǒng),8G內(nèi)存,i7-6700HQ CPU,Eclipse開(kāi)發(fā)工具。
4.1 語(yǔ)料集驗(yàn)證實(shí)驗(yàn)
特征選擇數(shù)目選擇1000-12000個(gè),每隔1000做一次實(shí)驗(yàn),總的特征數(shù)目為12267。IG和CHI特征選擇算法與NaiveBayesM分類(lèi)器結(jié)合的F1值實(shí)驗(yàn)結(jié)果圖如圖 2,3。
觀察圖2、3,從F1評(píng)估結(jié)果圖可以看出IG和CHI特征選擇大致相同,隨著特征數(shù)目的增多F1不斷提高,但最后都趨于最高值,最高達(dá)到0.905,由此可以看出文章給出的語(yǔ)料集是很適合的。從時(shí)間效率圖可以看出隨著特征數(shù)目的增多,分類(lèi)器的訓(xùn)練時(shí)間也增多,IG特征選擇算法稍微耗時(shí)高。由于在試驗(yàn)中發(fā)現(xiàn)SVM分類(lèi)算法時(shí)間效率高達(dá)965.163秒,故并沒(méi)有針對(duì)SVM分類(lèi)器做實(shí)驗(yàn)對(duì)比。
4.2 局部特征選擇實(shí)驗(yàn)
對(duì)CHI特征選擇算法采用局部特征選擇算法,分類(lèi)器使用NaiveBayesM。實(shí)驗(yàn)結(jié)果如圖4,5。
圖4,5中橫坐標(biāo)1000/968表示每個(gè)類(lèi)別選取1000均分9份(類(lèi)別數(shù))111個(gè)最高的特征,最終合并的時(shí)候是968個(gè)特征,有32個(gè)特征重合。以此類(lèi)推。從圖中可以明顯看出局部特征選擇算法的優(yōu)異性能,在每個(gè)劃分下效果都要比全局特征選擇方案好,并且實(shí)際用的是更少的特征(如1000到968)。局部特征選擇方法在實(shí)際特征數(shù)目為8千多情況下效果最優(yōu),F(xiàn)1值為0.917。比全局特征選擇算法最高F1值0.905高1.2%,并且實(shí)際特征數(shù)目是8866個(gè)。從圖5也可以看到局部方法時(shí)間效率也有很大程度提高,最長(zhǎng)14.48秒是全局28.49秒的0.5倍。
圖5 全局與局部特征選擇算法時(shí)間效率對(duì)比圖
實(shí)驗(yàn)中涉及微博數(shù)據(jù)獲取程序,微博語(yǔ)料集,預(yù)處理程序,和相關(guān)的分類(lèi)程序[11-13]。
文章通過(guò)微博數(shù)據(jù)獲取方案給出合適的帶有標(biāo)簽的微博語(yǔ)料集,并通過(guò)實(shí)驗(yàn)方法證明語(yǔ)料集的可用性;然后針對(duì)全局特征選擇算法的缺點(diǎn),采用均分的局部特征選擇方法,實(shí)驗(yàn)證明效果有很明顯的提高。但文章的研究還存在不足之處,因?yàn)槲恼率遣捎镁值木植刻卣鬟x擇策略并沒(méi)有考慮不同類(lèi)別的影響程度,因此將來(lái)的研究可以在此基礎(chǔ)之上提出更加完善的局部特征選擇方法。
[1]新浪微博數(shù)據(jù)中心.http://mt.sohu.com/20170206/n479989368.shtml[EB/OL].[2017-03].
[2]Farzindar Atefeh,Weal Khreich.A Survey of Techniques for Event Detection in Twitter[J].Computational Intelligence,2015,31(1):132-164.
[3]王連喜.微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J].圖書(shū)情報(bào)工作,2013,57(11):125-131.
[4]劉麗娟.基于LDA特征擴(kuò)展的微博短文本分類(lèi)[D].河北:燕山大學(xué),2015.
[5]王細(xì)微.一種基于特征擴(kuò)展的中文短文本分類(lèi)方法[J].計(jì)算機(jī)應(yīng)用,2009,29(3):843-845.
[6]黃賢英.一種新的微博短文本特征詞選擇算法[J].計(jì)算機(jī)工程與科學(xué),2015,37(9):1761-1767.
[7]LI J,ChENG K,WANG S,et al.Feature Selection:A Data Perspective[J].2016.
[8]韓家煒.數(shù)據(jù)挖掘概念與技術(shù)(第3版)[M].機(jī)械工業(yè),2012.
[9]廉捷.新浪微博數(shù)據(jù)挖掘方案[J].清華大學(xué)學(xué)報(bào),2011,51(10):1301-1305.
[10]新浪.微博發(fā)現(xiàn)欄塊微博分類(lèi)頁(yè)面[EB/OL].[2016-10-11].http://d.weibo.com/102803_ctg1_1199_-_ctg1_1199.
[11]單世超.分類(lèi)程.[EB/OL].[2017-4-22].https://pan.baidu.com/s/1c1I7fLu.
[12]單世超.爬蟲(chóng)程序.[EB/OL].[2017-4-22].https://pan.baidu.com/s/1pLhTfuj
[13]單世超.有標(biāo)簽的微博語(yǔ)料集[EB/OL].[2017-4-22].https://pan.baidu.com/s/1geXZZWn.
Research on Chinese Text Classification Based on Partial Feature Selection
SHAN Shi-chao,LUAN Cui-ju
(College of Information Engineering,Shanghai Maritime University,Shanghai 201306)
Microblogging text because of short content,words and other disadvantages,making microblogging text is different from the usual text study.At present,there are many microblogging research,but the lack of appropriate microblogging corpus with tags,through the analysis of microblogging data acquisition program gives a suitable tag with the microblogging corpus,and then through the traditional classification algorithm for classification and verification.Due to the serious feature sparse problem,the global feature selection algorithm is easy to ig?nore the feature that is important to a certain category but has a small correlation degree to the corpus.Adopts the local feature selection scheme.The experimental results show that the local feature selection method can obtain higher classification effect.
1007-1423(2017)23-0011-06
10.3969/j.issn.1007-1423.2017.23.003
單世超(1992-),男,河南省許昌市,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、軟件設(shè)計(jì);Email:1363180272@qq.com欒翠菊(1974-),女,吉林省梅河口市,副教授,博士,研究方向?yàn)橹悄軟Q策、數(shù)據(jù)挖掘等
2017-05-04
2017-07-20
Microblogging;Chinese Text Classification;Global Feature Selection;Partial Feature Selection;WEKA