• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于局部特征選擇的微博中文文本分類(lèi)研究

    2017-09-28 10:31:56單世超欒翠菊
    現(xiàn)代計(jì)算機(jī) 2017年23期
    關(guān)鍵詞:博文特征選擇數(shù)目

    單世超,欒翠菊

    (上海海事大學(xué)信息工程學(xué)院,上海 201306)

    基于局部特征選擇的微博中文文本分類(lèi)研究

    單世超,欒翠菊

    (上海海事大學(xué)信息工程學(xué)院,上海 201306)

    微博文本內(nèi)容短小、用詞不規(guī)范等缺點(diǎn),使得微博文本的研究區(qū)別于通常的文本研究。目前微博研究很多,但缺少合適的帶有標(biāo)簽的微博語(yǔ)料庫(kù)。分析微博數(shù)據(jù)獲取方案給出合適的帶有分類(lèi)標(biāo)簽的微博語(yǔ)料庫(kù),然后通過(guò)傳統(tǒng)分類(lèi)算法進(jìn)行分類(lèi)評(píng)估驗(yàn)證;由于微博短文本維度高存在嚴(yán)重的特征稀疏問(wèn)題,全局特征選擇算法容易忽略對(duì)某個(gè)類(lèi)別重要但對(duì)語(yǔ)料集關(guān)聯(lián)度小的特征,并采用局部特征選擇方案。實(shí)驗(yàn)結(jié)果證明局部特征選擇方法可以獲得更高的分類(lèi)效果。

    微博;中文文本分類(lèi);全局特征選擇;局部特征選擇;WEKA

    0 引言

    新浪微博在國(guó)內(nèi)作為重要的社交網(wǎng)絡(luò)平臺(tái),極大影響了人們的生活方式。隨著網(wǎng)絡(luò)的發(fā)展,人們?cè)絹?lái)越多的通過(guò)微博平臺(tái)交流,這樣使得對(duì)微博的研究?jī)r(jià)值越來(lái)越大。對(duì)新浪微博的研究工作與人們的生活也日益密切相關(guān)。據(jù)微博發(fā)布的2016年第三季度財(cái)報(bào)顯示:截止2016年9月30日,微博月活躍人數(shù)已達(dá)到2.97億,較2015年同期相比增長(zhǎng)34%[1]。

    Farzindar[2]首先指出Twitter文本短小、語(yǔ)法不規(guī)范,使得對(duì)其的研究存在很多新的挑戰(zhàn),然后提出一種關(guān)于Twitter流的事件檢測(cè)技術(shù)研究;王[3]回顧和總結(jié)國(guó)內(nèi)外近幾年在微博短文本研究方面的主要成果,認(rèn)為微博短文本研究離商業(yè)應(yīng)用還有相當(dāng)長(zhǎng)的路,然而微博短文本的學(xué)習(xí)及應(yīng)用研究仍有廣闊的研究空間;劉[4]鑒于微博文本短小特點(diǎn),訓(xùn)練語(yǔ)料集生成主題模型,對(duì)微博短文本利用主題擴(kuò)展方式減緩微博文本短帶來(lái)的影響;王[5]和黃[6]則分別利用關(guān)聯(lián)規(guī)則和語(yǔ)義相似實(shí)現(xiàn)對(duì)微博短文本擴(kuò)展。

    雖然目前國(guó)內(nèi)微博研究有很多,但存在一個(gè)普遍現(xiàn)象是過(guò)多研究分類(lèi)算法本身,并沒(méi)有給出統(tǒng)一、合適的帶有類(lèi)別標(biāo)簽的微博語(yǔ)料集。然而對(duì)于數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí)研究,數(shù)據(jù)才是基石,因此對(duì)微博文本的研究合理性必須建立在確切合理的語(yǔ)料集之上。(1)文章通過(guò)研究微博數(shù)據(jù)的獲取方案,給出合理的微博文本語(yǔ)料集,并介紹合適的預(yù)處理方案。通過(guò)傳統(tǒng)的文本分類(lèi)模型評(píng)估驗(yàn)證語(yǔ)料集的合理性。(2)在特征選擇方案上,針對(duì)全局特征選擇方法偏向于選擇對(duì)整體語(yǔ)料集關(guān)聯(lián)程度強(qiáng)但對(duì)單個(gè)類(lèi)別關(guān)聯(lián)程度低的特征,提出局部特征選擇方法。對(duì)給出的語(yǔ)料集,實(shí)驗(yàn)結(jié)果證明局部方法要優(yōu)于全局方法。

    1 相關(guān)工作

    微博文本分類(lèi)的流程包括微博文本預(yù)處理,文本表示,特征選擇,分類(lèi)器模型評(píng)估四個(gè)過(guò)程,文章基于WEKA平臺(tái)實(shí)現(xiàn)分類(lèi)評(píng)估階段處理過(guò)程。分類(lèi)流程圖如圖1,詳細(xì)介紹如下:

    a.信息提?。簭陌敫袷交臄?shù)據(jù)源TXT文檔集中提取出只包含分類(lèi)信微博的text字段信息,組成文檔集,通過(guò)NLPIR漢語(yǔ)分詞系統(tǒng)分詞得到分詞文檔集。

    b.數(shù)據(jù)格式轉(zhuǎn)換:通過(guò)WEKA平臺(tái)提供的TextDi?rectoryLoader類(lèi),將分詞后的語(yǔ)料集生成WEKA可以處理的ARFF文件。

    c.空間向量轉(zhuǎn)換:使用WEKA平臺(tái)提供的String?ToWordVetor,對(duì)每一篇文檔生成向量空間模型。權(quán)重采用TFIDF。

    d.特征選擇:采用IG,CHI兩種。

    e.分類(lèi)評(píng)估:分類(lèi)器采用NaiveBayesM。

    圖1 微博文本分類(lèi)流程圖

    1.1 VSMVSM文本表示模型和TFIDFTFIDF權(quán)重

    在文本分類(lèi)領(lǐng)域文本表示模型有多種,空間向量模型(VSM)作為最常用的文本表示模型。語(yǔ)料集D中的每一篇文檔d都是由一組詞組成的向量表示,即d=(w1,w2,…,wn),D={d|d=(w1,w2,…,wn)}。

    其中wi(i=1,2,…,n)表示對(duì)應(yīng)的詞的權(quán)重。首先假設(shè)語(yǔ)料集的全部詞特征為t1,t2,…,tnn個(gè)特征,w表示相關(guān)特征t對(duì)文檔d的代表程度。即向量(w1,w2,…,wn)代表所有特征對(duì)文檔的表示程度,該向量越是表示該文檔的程度越強(qiáng)表示該權(quán)重表示方法越好。傳統(tǒng)的權(quán)重表示方法有詞頻(TF),逆文檔頻(IDF),和詞頻文檔頻(TFIDF)。如公式(1)-(3):

    其中N(ti,d)表示詞ti在文檔d中出現(xiàn)的次數(shù);N(D)表示文檔d中所有詞的數(shù)目;|D|表示語(yǔ)料集中的文檔數(shù)目,|ti,D|表示語(yǔ)料集D中包含詞ti的文檔數(shù)目;其中加1是為了防止分母為0做的平滑處理。詞頻表示詞在文檔中出現(xiàn)的次數(shù)越多越可以表示該文檔;逆文檔頻表示詞在越少的文檔中出現(xiàn)越可以表示該文檔。TFIDF算法則表示兩者的結(jié)合方案。

    1.2 IIGG和CCHHII特征選擇算法

    對(duì)于大的語(yǔ)料集,文檔中的詞數(shù)目有上萬(wàn)維,不可能把所有文檔表示為上萬(wàn)維的特征空間。因此必須從上萬(wàn)維的特征空間中選擇出更能表征語(yǔ)料集的特征,即用到了特征降維方法。常用的特征降維方法有特征選擇和特征生成算法[7],文章中主要利用特征選擇算法。

    特征選擇算法規(guī)定一個(gè)函數(shù),函數(shù)表征每一個(gè)特征對(duì)語(yǔ)料集的重要程度,經(jīng)過(guò)排序確認(rèn)最靠前的特定數(shù)目的特征。下面介紹常用的兩種:信息增益(IG)和卡方(CHI)特征選擇算法。

    (1)信息增益特征選擇算法

    IG特征選擇算法基于信息熵概念,熵用來(lái)衡量數(shù)據(jù)集信息量的多少。熵越小說(shuō)明信息量越少數(shù)據(jù)集越純[8],信息增益比較原語(yǔ)料集信息熵與某特征條件下的數(shù)據(jù)集信息熵的差值。信息增益越大,證明該特征可以更好地劃分語(yǔ)料集,該特征條件下數(shù)據(jù)里的熵越小數(shù)據(jù)越純。如公式(4)-(6):

    其中假設(shè)文檔D分為c1,c2,…,cn個(gè)類(lèi)別;H(D,tj)表示有tj的所有文檔的分類(lèi)信息熵,同理H(D,-tj)表示不含有tj的所有文檔的分類(lèi)信息熵。信息增益公式見(jiàn)公式(6)。

    (2)卡方特征選擇算法

    卡法特征選擇算法基于統(tǒng)計(jì)學(xué)中的卡方假設(shè)檢驗(yàn),首先假設(shè)結(jié)論H成立,如果卡方統(tǒng)計(jì)值大于閾值就認(rèn)為假設(shè)不成立推翻假設(shè)H。在文本分類(lèi)中,衡量特征是否與類(lèi)別相關(guān),假設(shè)特征與類(lèi)別相關(guān),如果特征與類(lèi)別的卡方統(tǒng)計(jì)值越大就認(rèn)為兩者越相關(guān)。定義為公式(7):

    其中N表示所有文檔數(shù)目,A表示包含單次tj并且屬于ci的文檔數(shù)目,B表示包含tj不屬于ci的文檔數(shù)目,C表示不包含tj但屬于ci的文檔數(shù)目,D表示不包含tj又不屬于ci的文檔數(shù)目??ǚ街翟酱蟊硎総j與ci越關(guān)聯(lián),而一般需要計(jì)算tj對(duì)整個(gè)語(yǔ)料集的關(guān)聯(lián)程度,通常認(rèn)為該值為特征對(duì)所有類(lèi)別卡法值的最大值,如公式(8):

    1.3 分類(lèi)器與評(píng)估指標(biāo)

    分類(lèi)器用來(lái)確定模型,通過(guò)一定的分類(lèi)算法實(shí)現(xiàn)模型的建立過(guò)程,并通過(guò)合適的評(píng)估指標(biāo)驗(yàn)證。文章選取NaiveBayesM和SVM分類(lèi)器,評(píng)估準(zhǔn)則使用F1值。

    (1)NaiveBayesM 分類(lèi)器

    NaiveBayesM基于樸素貝葉斯定理,如公式(9):

    在已知文檔下的類(lèi)別的條件概率稱(chēng)為后驗(yàn)概率,可以通過(guò)計(jì)算類(lèi)別的先驗(yàn)概率和類(lèi)別條件下文檔出現(xiàn)的條件概率,并且基于假設(shè):d中的特征ti相互獨(dú)立。通常情況下,P(t|c)表示c類(lèi)別中出現(xiàn)t詞的文檔頻率,但是由于這樣會(huì)丟失詞在文檔中的出現(xiàn)頻次,因此多項(xiàng)式模型認(rèn)為P(t|c)為詞t在c類(lèi)別中出現(xiàn)的詞頻比例。如公式(10):

    (2)SVM 分類(lèi)器

    SVM分類(lèi)器是針對(duì)小數(shù)量集表現(xiàn)優(yōu)異的分類(lèi)器。在線性可分的情況下,尋找可以分割兩類(lèi)的超平面,同時(shí)使得邊界的支持向量到超平面的距離最大化。即通過(guò)最大化間隔的方法尋找最優(yōu)的分類(lèi)超平面。針對(duì)線性不可分的情況,通過(guò)構(gòu)造高維空間將問(wèn)題轉(zhuǎn)換為線性可分。針對(duì)構(gòu)造高維空間難以計(jì)算的問(wèn)題,引入核函數(shù)代替。

    (3)評(píng)估準(zhǔn)則

    分類(lèi)結(jié)果評(píng)估方法有準(zhǔn)確率P、召回率R、F1值,準(zhǔn)確率表示每類(lèi)分類(lèi)結(jié)果預(yù)測(cè)為真的數(shù)目中確實(shí)為真的數(shù)目所占的比例,衡量分類(lèi)結(jié)果的可信任度;召回率表示分類(lèi)結(jié)果確實(shí)為真的數(shù)目中預(yù)測(cè)出來(lái)的數(shù)目所占的比例,衡量分類(lèi)結(jié)果的文本丟失率;F1是綜合P,R的一種分類(lèi)性能度量值。

    2 微博數(shù)據(jù)獲取和預(yù)處理方案

    2.1 數(shù)據(jù)獲取方案

    雖然目前有很多關(guān)于微博文本的相關(guān)研究,但是到目前為止卻沒(méi)有合適的帶有標(biāo)簽的微博文本語(yǔ)料集。微博數(shù)據(jù)獲取方案有兩種[9],通過(guò)API接口獲取或者頁(yè)面解析。API數(shù)據(jù)獲取方案簡(jiǎn)單,但每次只能獲取有限的微博,分為公共用戶、關(guān)注用戶、和雙向關(guān)注用戶的微博三種,限制數(shù)據(jù)的獲取,也沒(méi)有標(biāo)簽。頁(yè)面解析方案可以實(shí)現(xiàn)將頁(yè)面看到所有內(nèi)容都獲取,但實(shí)現(xiàn)起來(lái)有很多困難。文章采用頁(yè)面解析方案獲取微博內(nèi)容,主要解決以下問(wèn)題:

    模擬登錄:微博頁(yè)面數(shù)據(jù)采用延遲加載策略,并不是一次性獲取無(wú)限數(shù)據(jù)。如未登錄狀態(tài),只能瀏覽很少量的微博數(shù)據(jù)。實(shí)驗(yàn)采用請(qǐng)求攜帶cookie方式,每次發(fā)送請(qǐng)求會(huì)被認(rèn)為登錄狀態(tài)。

    自動(dòng)加載:數(shù)據(jù)延遲加載策略要求是動(dòng)態(tài)的獲取數(shù)據(jù),即需要不斷的發(fā)送帶有分頁(yè)標(biāo)識(shí)的請(qǐng)求。實(shí)驗(yàn)通過(guò)模擬實(shí)現(xiàn)請(qǐng)求自動(dòng)生成,不斷順序獲取數(shù)據(jù)。

    展示全文:微博取消140字符的限制長(zhǎng)度后,出現(xiàn)很多長(zhǎng)文微博。需要點(diǎn)擊“顯示更多”發(fā)送請(qǐng)求才可以查看全文。實(shí)驗(yàn)?zāi)M如果博文中有查看更多會(huì)自動(dòng)生成請(qǐng)求并發(fā)送。

    定時(shí)請(qǐng)求:新浪出于對(duì)數(shù)據(jù)的保護(hù),不可能讓不斷的獲取數(shù)據(jù)。因此在獲取每個(gè)類(lèi)別的微博文本時(shí)會(huì)出現(xiàn)無(wú)響應(yīng)的情況,此時(shí)實(shí)驗(yàn)設(shè)計(jì)停止該類(lèi)別開(kāi)始下一個(gè)類(lèi)別的數(shù)據(jù)獲取任務(wù)。另外,為了獲取更多的微博數(shù)據(jù),實(shí)驗(yàn)設(shè)計(jì)實(shí)現(xiàn)隔一小時(shí)獲取一次數(shù)據(jù)。最終實(shí)現(xiàn)3天獲取大約兩萬(wàn)條微博數(shù)據(jù)。

    2.2 預(yù)處理方案

    頁(yè)面解析后的數(shù)據(jù)保存為以微博編號(hào)為名字的txt文檔,有微博編號(hào)、博主昵稱(chēng)、博主編號(hào)、發(fā)表日期、發(fā)表內(nèi)容和所屬類(lèi)別字段。預(yù)處理首先需要做微博內(nèi)容字段提取,分詞,停用詞過(guò)濾四個(gè)步驟。

    (1)微博內(nèi)容提取

    頁(yè)面解析后保存的是微博各元數(shù)據(jù)組成的文件,實(shí)驗(yàn)部分僅僅需要分析微博內(nèi)容。解析程序?qū)崿F(xiàn)對(duì)內(nèi)容字段的提取。

    (2)分詞

    采用的分詞方法是中科院分詞系統(tǒng)NLPIR漢語(yǔ)分詞系統(tǒng),NLPIR新增微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提取。程序使用NLPIR提供的Java程序接口,編寫(xiě)程序?qū)崿F(xiàn)微博文本分詞,詞性標(biāo)注,新詞識(shí)別,用戶字典等功能。其中新詞識(shí)別效果很好,識(shí)別出像“麻婆豆腐”,“藍(lán)瘦香菇”,“倒計(jì)時(shí)”等新詞。

    (3)停用詞過(guò)濾

    在基于NLPIR漢語(yǔ)分詞系統(tǒng)基礎(chǔ)之上,擴(kuò)展去停用詞的程序。除了基本的中英文停用詞表外,還添加有HTML頁(yè)面標(biāo)簽轉(zhuǎn)義符,微博停用詞表。解析頁(yè)面獲得數(shù)據(jù)難免有很多HTML的轉(zhuǎn)義符,如空格的轉(zhuǎn)義#nbsp;另外在觀察微博文本過(guò)程中發(fā)現(xiàn)很多垃圾的詞語(yǔ),如“L網(wǎng)頁(yè)鏈接”,“O秒拍視頻”等詞加入微博停用詞表。

    3 局部特征選擇算法

    在CHI特征選擇算法中,認(rèn)為特征對(duì)語(yǔ)料集的CHI值為特征對(duì)所有類(lèi)別CHI值的最大值。然后通過(guò)排序?qū)Ρ人刑卣鲗?duì)語(yǔ)料集的CHI值,最后選取最高的M個(gè)特征。但是這種方法容易忽略與某個(gè)類(lèi)別相關(guān),但是CHI值很小的某些特征。即對(duì)某個(gè)類(lèi)別相關(guān)的特征并沒(méi)有對(duì)整個(gè)類(lèi)別的CHI很大,而忽略該特征。局部特征選擇方法從類(lèi)別角度出發(fā),從特征與類(lèi)別的CHI值矩陣中,抽選對(duì)每個(gè)類(lèi)別影響CHI值最大的前M/C個(gè)特征。C表示類(lèi)別數(shù)目,這樣可以使得特征選擇算法并不偏袒于某個(gè)類(lèi)別。

    圖2 IG和CHI+BayesM實(shí)驗(yàn)F1值趨勢(shì)圖

    圖3 IG和CHI+BayesM時(shí)間效率趨勢(shì)圖

    4 實(shí)驗(yàn)與結(jié)果分析

    “新浪微博發(fā)現(xiàn)欄塊”[10]具有分類(lèi)的微博數(shù)據(jù),實(shí)驗(yàn)通過(guò)對(duì)該頁(yè)面的9個(gè)類(lèi)別的不同頁(yè)面解析,獲取微博數(shù)目近10萬(wàn)條。包括電影,動(dòng)漫,科技,美食,美妝,萌寵,時(shí)尚,時(shí)事和體育類(lèi)別。實(shí)驗(yàn)1分別采用IG和CHI特征選擇算法,NaiveBayesM分類(lèi)器;實(shí)驗(yàn)2針對(duì)CHI特征選擇算法做局部特征選擇。實(shí)驗(yàn)環(huán)境是Win10 64位操作系統(tǒng),8G內(nèi)存,i7-6700HQ CPU,Eclipse開(kāi)發(fā)工具。

    4.1 語(yǔ)料集驗(yàn)證實(shí)驗(yàn)

    特征選擇數(shù)目選擇1000-12000個(gè),每隔1000做一次實(shí)驗(yàn),總的特征數(shù)目為12267。IG和CHI特征選擇算法與NaiveBayesM分類(lèi)器結(jié)合的F1值實(shí)驗(yàn)結(jié)果圖如圖 2,3。

    觀察圖2、3,從F1評(píng)估結(jié)果圖可以看出IG和CHI特征選擇大致相同,隨著特征數(shù)目的增多F1不斷提高,但最后都趨于最高值,最高達(dá)到0.905,由此可以看出文章給出的語(yǔ)料集是很適合的。從時(shí)間效率圖可以看出隨著特征數(shù)目的增多,分類(lèi)器的訓(xùn)練時(shí)間也增多,IG特征選擇算法稍微耗時(shí)高。由于在試驗(yàn)中發(fā)現(xiàn)SVM分類(lèi)算法時(shí)間效率高達(dá)965.163秒,故并沒(méi)有針對(duì)SVM分類(lèi)器做實(shí)驗(yàn)對(duì)比。

    4.2 局部特征選擇實(shí)驗(yàn)

    對(duì)CHI特征選擇算法采用局部特征選擇算法,分類(lèi)器使用NaiveBayesM。實(shí)驗(yàn)結(jié)果如圖4,5。

    圖4,5中橫坐標(biāo)1000/968表示每個(gè)類(lèi)別選取1000均分9份(類(lèi)別數(shù))111個(gè)最高的特征,最終合并的時(shí)候是968個(gè)特征,有32個(gè)特征重合。以此類(lèi)推。從圖中可以明顯看出局部特征選擇算法的優(yōu)異性能,在每個(gè)劃分下效果都要比全局特征選擇方案好,并且實(shí)際用的是更少的特征(如1000到968)。局部特征選擇方法在實(shí)際特征數(shù)目為8千多情況下效果最優(yōu),F(xiàn)1值為0.917。比全局特征選擇算法最高F1值0.905高1.2%,并且實(shí)際特征數(shù)目是8866個(gè)。從圖5也可以看到局部方法時(shí)間效率也有很大程度提高,最長(zhǎng)14.48秒是全局28.49秒的0.5倍。

    圖5 全局與局部特征選擇算法時(shí)間效率對(duì)比圖

    5 結(jié)語(yǔ)

    實(shí)驗(yàn)中涉及微博數(shù)據(jù)獲取程序,微博語(yǔ)料集,預(yù)處理程序,和相關(guān)的分類(lèi)程序[11-13]。

    文章通過(guò)微博數(shù)據(jù)獲取方案給出合適的帶有標(biāo)簽的微博語(yǔ)料集,并通過(guò)實(shí)驗(yàn)方法證明語(yǔ)料集的可用性;然后針對(duì)全局特征選擇算法的缺點(diǎn),采用均分的局部特征選擇方法,實(shí)驗(yàn)證明效果有很明顯的提高。但文章的研究還存在不足之處,因?yàn)槲恼率遣捎镁值木植刻卣鬟x擇策略并沒(méi)有考慮不同類(lèi)別的影響程度,因此將來(lái)的研究可以在此基礎(chǔ)之上提出更加完善的局部特征選擇方法。

    [1]新浪微博數(shù)據(jù)中心.http://mt.sohu.com/20170206/n479989368.shtml[EB/OL].[2017-03].

    [2]Farzindar Atefeh,Weal Khreich.A Survey of Techniques for Event Detection in Twitter[J].Computational Intelligence,2015,31(1):132-164.

    [3]王連喜.微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J].圖書(shū)情報(bào)工作,2013,57(11):125-131.

    [4]劉麗娟.基于LDA特征擴(kuò)展的微博短文本分類(lèi)[D].河北:燕山大學(xué),2015.

    [5]王細(xì)微.一種基于特征擴(kuò)展的中文短文本分類(lèi)方法[J].計(jì)算機(jī)應(yīng)用,2009,29(3):843-845.

    [6]黃賢英.一種新的微博短文本特征詞選擇算法[J].計(jì)算機(jī)工程與科學(xué),2015,37(9):1761-1767.

    [7]LI J,ChENG K,WANG S,et al.Feature Selection:A Data Perspective[J].2016.

    [8]韓家煒.數(shù)據(jù)挖掘概念與技術(shù)(第3版)[M].機(jī)械工業(yè),2012.

    [9]廉捷.新浪微博數(shù)據(jù)挖掘方案[J].清華大學(xué)學(xué)報(bào),2011,51(10):1301-1305.

    [10]新浪.微博發(fā)現(xiàn)欄塊微博分類(lèi)頁(yè)面[EB/OL].[2016-10-11].http://d.weibo.com/102803_ctg1_1199_-_ctg1_1199.

    [11]單世超.分類(lèi)程.[EB/OL].[2017-4-22].https://pan.baidu.com/s/1c1I7fLu.

    [12]單世超.爬蟲(chóng)程序.[EB/OL].[2017-4-22].https://pan.baidu.com/s/1pLhTfuj

    [13]單世超.有標(biāo)簽的微博語(yǔ)料集[EB/OL].[2017-4-22].https://pan.baidu.com/s/1geXZZWn.

    Research on Chinese Text Classification Based on Partial Feature Selection

    SHAN Shi-chao,LUAN Cui-ju
    (College of Information Engineering,Shanghai Maritime University,Shanghai 201306)

    Microblogging text because of short content,words and other disadvantages,making microblogging text is different from the usual text study.At present,there are many microblogging research,but the lack of appropriate microblogging corpus with tags,through the analysis of microblogging data acquisition program gives a suitable tag with the microblogging corpus,and then through the traditional classification algorithm for classification and verification.Due to the serious feature sparse problem,the global feature selection algorithm is easy to ig?nore the feature that is important to a certain category but has a small correlation degree to the corpus.Adopts the local feature selection scheme.The experimental results show that the local feature selection method can obtain higher classification effect.

    1007-1423(2017)23-0011-06

    10.3969/j.issn.1007-1423.2017.23.003

    單世超(1992-),男,河南省許昌市,碩士研究生,主要研究方向:數(shù)據(jù)挖掘、軟件設(shè)計(jì);Email:1363180272@qq.com欒翠菊(1974-),女,吉林省梅河口市,副教授,博士,研究方向?yàn)橹悄軟Q策、數(shù)據(jù)挖掘等

    2017-05-04

    2017-07-20

    Microblogging;Chinese Text Classification;Global Feature Selection;Partial Feature Selection;WEKA

    猜你喜歡
    博文特征選擇數(shù)目
    有機(jī)物“同分異構(gòu)體”數(shù)目的判斷方法
    第一次掙錢(qián)
    誰(shuí)和誰(shuí)好
    Kmeans 應(yīng)用與特征選擇
    電子制作(2017年23期)2017-02-02 07:17:06
    《哲對(duì)寧諾爾》方劑數(shù)目統(tǒng)計(jì)研究
    Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
    牧場(chǎng)里的馬
    聯(lián)合互信息水下目標(biāo)特征選擇算法
    打電話2
    基于特征選擇和RRVPMCD的滾動(dòng)軸承故障診斷方法
    精品少妇一区二区三区视频日本电影| 老司机在亚洲福利影院| 乱人伦中国视频| 国产精品一区二区三区四区久久 | 精品午夜福利视频在线观看一区| 午夜91福利影院| 国产乱人伦免费视频| 国产精品久久久av美女十八| 88av欧美| 国产精品1区2区在线观看.| 老熟妇仑乱视频hdxx| 久久精品aⅴ一区二区三区四区| 日本免费a在线| 成人黄色视频免费在线看| 亚洲欧洲精品一区二区精品久久久| 色婷婷久久久亚洲欧美| 少妇粗大呻吟视频| 亚洲中文av在线| 波多野结衣一区麻豆| 欧美大码av| 国产精品98久久久久久宅男小说| 美女大奶头视频| 免费观看人在逋| 日本撒尿小便嘘嘘汇集6| 丁香六月欧美| 国产av在哪里看| 亚洲精品国产精品久久久不卡| av网站免费在线观看视频| 两人在一起打扑克的视频| 一级毛片高清免费大全| 国产精品综合久久久久久久免费 | 午夜福利免费观看在线| 国产97色在线日韩免费| 国产亚洲精品一区二区www| 人人妻,人人澡人人爽秒播| 亚洲,欧美精品.| 色精品久久人妻99蜜桃| 黑人猛操日本美女一级片| 欧美不卡视频在线免费观看 | 久久人人爽av亚洲精品天堂| 又紧又爽又黄一区二区| 88av欧美| 国产成人av教育| 黄色毛片三级朝国网站| 女人高潮潮喷娇喘18禁视频| 国产精品爽爽va在线观看网站 | 俄罗斯特黄特色一大片| 99久久综合精品五月天人人| 久久精品亚洲精品国产色婷小说| 涩涩av久久男人的天堂| 高清黄色对白视频在线免费看| 老司机午夜福利在线观看视频| 久久久久久久久中文| www日本在线高清视频| 成年人黄色毛片网站| 久久久水蜜桃国产精品网| 午夜亚洲福利在线播放| 色精品久久人妻99蜜桃| 久久久久久亚洲精品国产蜜桃av| 高潮久久久久久久久久久不卡| 亚洲一区中文字幕在线| 最好的美女福利视频网| 亚洲第一青青草原| 淫秽高清视频在线观看| 每晚都被弄得嗷嗷叫到高潮| 久久久国产欧美日韩av| 久久久国产欧美日韩av| 国产三级黄色录像| 一边摸一边抽搐一进一小说| 久99久视频精品免费| 久久久久精品国产欧美久久久| 午夜免费鲁丝| www日本在线高清视频| 动漫黄色视频在线观看| 波多野结衣av一区二区av| 亚洲精品一二三| 精品免费久久久久久久清纯| 两性夫妻黄色片| 国内久久婷婷六月综合欲色啪| netflix在线观看网站| 女人被躁到高潮嗷嗷叫费观| 欧美黄色片欧美黄色片| 午夜福利在线观看吧| 精品日产1卡2卡| 午夜91福利影院| 国产亚洲精品久久久久久毛片| 国产主播在线观看一区二区| 亚洲一码二码三码区别大吗| 久久久精品国产亚洲av高清涩受| 搡老乐熟女国产| 水蜜桃什么品种好| 久久国产精品男人的天堂亚洲| 国产成人精品在线电影| 制服诱惑二区| www.熟女人妻精品国产| 老司机亚洲免费影院| 超碰97精品在线观看| 成人三级黄色视频| 老汉色av国产亚洲站长工具| 69av精品久久久久久| 日韩有码中文字幕| 黑人欧美特级aaaaaa片| 精品国产乱子伦一区二区三区| 欧美性长视频在线观看| 国产一区二区三区视频了| 亚洲国产精品sss在线观看 | 亚洲av日韩精品久久久久久密| 成人手机av| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲 欧美一区二区三区| 变态另类成人亚洲欧美熟女 | 后天国语完整版免费观看| 看片在线看免费视频| 国产亚洲av高清不卡| 午夜免费成人在线视频| 国产精品免费一区二区三区在线| 欧美日韩亚洲综合一区二区三区_| 老鸭窝网址在线观看| 很黄的视频免费| 成人影院久久| 欧美国产精品va在线观看不卡| 日韩免费av在线播放| 成人特级黄色片久久久久久久| 亚洲av成人不卡在线观看播放网| 久久狼人影院| 性色av乱码一区二区三区2| bbb黄色大片| 精品一区二区三区av网在线观看| 在线十欧美十亚洲十日本专区| 波多野结衣高清无吗| 丝袜美腿诱惑在线| 亚洲欧洲精品一区二区精品久久久| 日韩中文字幕欧美一区二区| 男女床上黄色一级片免费看| 精品熟女少妇八av免费久了| av电影中文网址| 欧美在线黄色| 制服诱惑二区| 亚洲va日本ⅴa欧美va伊人久久| 精品一品国产午夜福利视频| 丝袜人妻中文字幕| 国产成人精品久久二区二区免费| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲国产欧美一区二区综合| av天堂久久9| 亚洲国产欧美日韩在线播放| 国产精品av久久久久免费| 老司机午夜福利在线观看视频| 欧美日韩精品网址| 亚洲熟妇中文字幕五十中出 | 久久久国产欧美日韩av| 桃红色精品国产亚洲av| 亚洲欧美一区二区三区久久| 巨乳人妻的诱惑在线观看| 亚洲一区二区三区欧美精品| 91老司机精品| 91成人精品电影| 啪啪无遮挡十八禁网站| 啦啦啦在线免费观看视频4| 日韩欧美国产一区二区入口| 狠狠狠狠99中文字幕| 在线播放国产精品三级| 成人国产一区最新在线观看| 国产伦人伦偷精品视频| 国产日韩一区二区三区精品不卡| 成人国产一区最新在线观看| 久久久久久久精品吃奶| 欧美最黄视频在线播放免费 | 免费在线观看黄色视频的| 成人精品一区二区免费| 一进一出好大好爽视频| x7x7x7水蜜桃| 亚洲五月色婷婷综合| 亚洲熟妇中文字幕五十中出 | 国产精品久久久人人做人人爽| www.www免费av| 国产精品一区二区免费欧美| 亚洲全国av大片| 欧美激情高清一区二区三区| 一级片'在线观看视频| 侵犯人妻中文字幕一二三四区| 日韩欧美三级三区| 亚洲欧美激情综合另类| 亚洲一区中文字幕在线| 十八禁网站免费在线| 国产国语露脸激情在线看| 在线观看舔阴道视频| 久久精品aⅴ一区二区三区四区| 一区二区三区精品91| 亚洲av成人一区二区三| 他把我摸到了高潮在线观看| 欧美人与性动交α欧美精品济南到| 真人做人爱边吃奶动态| 精品国产一区二区三区四区第35| av超薄肉色丝袜交足视频| 9色porny在线观看| 亚洲精品成人av观看孕妇| 村上凉子中文字幕在线| videosex国产| 波多野结衣一区麻豆| av天堂久久9| 国产精品98久久久久久宅男小说| 一级a爱片免费观看的视频| 日韩视频一区二区在线观看| 国产熟女午夜一区二区三区| 亚洲欧洲精品一区二区精品久久久| 91在线观看av| 精品电影一区二区在线| 久久精品aⅴ一区二区三区四区| 叶爱在线成人免费视频播放| 欧美丝袜亚洲另类 | ponron亚洲| 午夜福利在线免费观看网站| 亚洲国产中文字幕在线视频| 成人av一区二区三区在线看| 天堂中文最新版在线下载| 女人精品久久久久毛片| 动漫黄色视频在线观看| 最近最新中文字幕大全免费视频| 久久国产精品人妻蜜桃| 日本欧美视频一区| 久久久精品国产亚洲av高清涩受| 欧美不卡视频在线免费观看 | 色老头精品视频在线观看| 国产精品香港三级国产av潘金莲| 操出白浆在线播放| 亚洲精品成人av观看孕妇| 国产av精品麻豆| 中文字幕最新亚洲高清| 亚洲自拍偷在线| 在线观看免费日韩欧美大片| 99久久99久久久精品蜜桃| 国产精品久久久人人做人人爽| 精品久久久久久电影网| 国产一区二区三区视频了| 久久人妻熟女aⅴ| 午夜免费鲁丝| 亚洲国产看品久久| 99久久精品国产亚洲精品| 一二三四在线观看免费中文在| 国产成人精品在线电影| 精品国产乱子伦一区二区三区| 日本欧美视频一区| 亚洲成a人片在线一区二区| 国产亚洲精品久久久久久毛片| 国产精品爽爽va在线观看网站 | www.www免费av| 精品国产国语对白av| 宅男免费午夜| 国产成人啪精品午夜网站| 亚洲专区中文字幕在线| 一个人免费在线观看的高清视频| x7x7x7水蜜桃| 在线国产一区二区在线| av天堂在线播放| 香蕉丝袜av| 欧美成人免费av一区二区三区| www日本在线高清视频| 亚洲精品国产区一区二| 1024香蕉在线观看| 午夜免费激情av| 黄色a级毛片大全视频| 动漫黄色视频在线观看| 老汉色av国产亚洲站长工具| 在线观看日韩欧美| 亚洲国产欧美网| 亚洲成人精品中文字幕电影 | 一级片'在线观看视频| 亚洲av五月六月丁香网| 欧美在线黄色| 日韩高清综合在线| 精品一区二区三区av网在线观看| 成人av一区二区三区在线看| 美女高潮到喷水免费观看| 很黄的视频免费| 欧美不卡视频在线免费观看 | 国产精品1区2区在线观看.| 一个人免费在线观看的高清视频| 丰满迷人的少妇在线观看| 无遮挡黄片免费观看| 久99久视频精品免费| 少妇 在线观看| 91av网站免费观看| 美国免费a级毛片| 亚洲久久久国产精品| 美女扒开内裤让男人捅视频| 免费看a级黄色片| 中文欧美无线码| 无限看片的www在线观看| 长腿黑丝高跟| 午夜免费鲁丝| 少妇被粗大的猛进出69影院| 最新在线观看一区二区三区| 成人av一区二区三区在线看| 黄片大片在线免费观看| 成年版毛片免费区| 亚洲av第一区精品v没综合| 日日摸夜夜添夜夜添小说| 另类亚洲欧美激情| 在线av久久热| av天堂在线播放| 欧美色视频一区免费| 色老头精品视频在线观看| 黑丝袜美女国产一区| 一级毛片女人18水好多| 国产精品国产av在线观看| 亚洲第一欧美日韩一区二区三区| 黄色 视频免费看| 日韩大码丰满熟妇| 亚洲色图av天堂| 丝袜美腿诱惑在线| 一本综合久久免费| 亚洲av日韩精品久久久久久密| 我的亚洲天堂| 免费在线观看完整版高清| 国产精品 欧美亚洲| 亚洲国产精品999在线| 日本vs欧美在线观看视频| 色哟哟哟哟哟哟| 国产精品 国内视频| 欧美人与性动交α欧美软件| 精品乱码久久久久久99久播| 操出白浆在线播放| 免费在线观看影片大全网站| 精品免费久久久久久久清纯| 亚洲精品国产色婷婷电影| 美女大奶头视频| 日韩一卡2卡3卡4卡2021年| 身体一侧抽搐| 这个男人来自地球电影免费观看| 国产乱人伦免费视频| 男女之事视频高清在线观看| 无限看片的www在线观看| 91成年电影在线观看| 日韩大尺度精品在线看网址 | 中文欧美无线码| 国产精品免费视频内射| 精品福利永久在线观看| 色婷婷久久久亚洲欧美| 在线看a的网站| 又黄又粗又硬又大视频| 久久中文字幕人妻熟女| 亚洲一区二区三区不卡视频| 久久久久久大精品| 精品国产国语对白av| 女生性感内裤真人,穿戴方法视频| 欧美久久黑人一区二区| 91精品三级在线观看| 最近最新中文字幕大全电影3 | 欧美精品啪啪一区二区三区| 国产亚洲精品久久久久5区| 精品卡一卡二卡四卡免费| 国产一区二区三区综合在线观看| 人人妻人人添人人爽欧美一区卜| 在线免费观看的www视频| 欧美中文综合在线视频| 精品一区二区三卡| 欧美日韩亚洲国产一区二区在线观看| 国产又色又爽无遮挡免费看| 成熟少妇高潮喷水视频| 国产不卡一卡二| 校园春色视频在线观看| 国产xxxxx性猛交| 在线av久久热| 亚洲国产看品久久| 法律面前人人平等表现在哪些方面| 精品一品国产午夜福利视频| 大码成人一级视频| 99re在线观看精品视频| 国产精品永久免费网站| 欧美午夜高清在线| 亚洲精品国产色婷婷电影| 久久精品国产亚洲av香蕉五月| 精品午夜福利视频在线观看一区| 天天影视国产精品| 成人亚洲精品av一区二区 | 伦理电影免费视频| 91麻豆精品激情在线观看国产 | 五月开心婷婷网| 免费观看精品视频网站| 国产黄a三级三级三级人| 我的亚洲天堂| 国产一区二区在线av高清观看| 窝窝影院91人妻| 久久精品影院6| 可以在线观看毛片的网站| 国产一区二区三区综合在线观看| 国产精品野战在线观看 | 欧美乱色亚洲激情| 18禁美女被吸乳视频| 亚洲自偷自拍图片 自拍| 久久精品国产亚洲av高清一级| 不卡av一区二区三区| 久久99一区二区三区| 在线十欧美十亚洲十日本专区| 日本a在线网址| 激情在线观看视频在线高清| 国产精品 国内视频| 黄色成人免费大全| 久久久久九九精品影院| 侵犯人妻中文字幕一二三四区| 亚洲九九香蕉| 午夜免费鲁丝| 在线观看免费视频网站a站| 国产精品秋霞免费鲁丝片| 亚洲欧美精品综合一区二区三区| 五月开心婷婷网| svipshipincom国产片| 韩国精品一区二区三区| 午夜福利在线观看吧| 精品久久久精品久久久| 99在线人妻在线中文字幕| 法律面前人人平等表现在哪些方面| 久久人人97超碰香蕉20202| 母亲3免费完整高清在线观看| 真人做人爱边吃奶动态| 18禁国产床啪视频网站| 一级片'在线观看视频| 18禁观看日本| 99riav亚洲国产免费| 日韩国内少妇激情av| 91精品三级在线观看| 丰满人妻熟妇乱又伦精品不卡| 涩涩av久久男人的天堂| 波多野结衣一区麻豆| 夜夜看夜夜爽夜夜摸 | a在线观看视频网站| 国产欧美日韩综合在线一区二区| 757午夜福利合集在线观看| 99精国产麻豆久久婷婷| 搡老熟女国产l中国老女人| 精品久久久久久久毛片微露脸| 啦啦啦在线免费观看视频4| 欧美激情 高清一区二区三区| av天堂久久9| 日韩欧美一区二区三区在线观看| 99久久综合精品五月天人人| 午夜免费成人在线视频| 亚洲欧美日韩另类电影网站| 色婷婷久久久亚洲欧美| 欧美激情极品国产一区二区三区| 欧洲精品卡2卡3卡4卡5卡区| 国产三级在线视频| 18禁黄网站禁片午夜丰满| 亚洲国产精品合色在线| 身体一侧抽搐| 国产精品久久久久久人妻精品电影| 一本综合久久免费| 90打野战视频偷拍视频| 亚洲精品国产色婷婷电影| 欧美在线黄色| 97超级碰碰碰精品色视频在线观看| 黄色 视频免费看| 99香蕉大伊视频| 在线观看www视频免费| 久久亚洲真实| 国产成人免费无遮挡视频| 久热这里只有精品99| 十八禁人妻一区二区| 最近最新免费中文字幕在线| 色婷婷久久久亚洲欧美| 久久精品影院6| av天堂久久9| 精品人妻在线不人妻| 91麻豆av在线| 久久欧美精品欧美久久欧美| 亚洲黑人精品在线| 无人区码免费观看不卡| 日韩精品中文字幕看吧| 久久人妻福利社区极品人妻图片| 淫妇啪啪啪对白视频| 日本精品一区二区三区蜜桃| 亚洲在线自拍视频| 久久精品国产清高在天天线| 日本三级黄在线观看| 男人舔女人下体高潮全视频| 亚洲成a人片在线一区二区| 在线视频色国产色| 中出人妻视频一区二区| 国产av在哪里看| 99在线视频只有这里精品首页| 亚洲一区中文字幕在线| 精品久久久久久久毛片微露脸| 亚洲色图综合在线观看| 久久精品影院6| 91老司机精品| 国产欧美日韩一区二区三| 午夜成年电影在线免费观看| 午夜福利欧美成人| 色综合欧美亚洲国产小说| 国产xxxxx性猛交| 少妇的丰满在线观看| 久久久国产欧美日韩av| 久久久国产成人精品二区 | 久久中文字幕人妻熟女| 国产亚洲精品一区二区www| 日韩视频一区二区在线观看| 男男h啪啪无遮挡| 欧美黑人欧美精品刺激| 久久久久精品国产欧美久久久| 国产蜜桃级精品一区二区三区| av片东京热男人的天堂| 女人高潮潮喷娇喘18禁视频| 女警被强在线播放| 免费在线观看影片大全网站| 精品熟女少妇八av免费久了| 男人舔女人的私密视频| 久久九九热精品免费| 老熟妇乱子伦视频在线观看| 在线看a的网站| 热99国产精品久久久久久7| 久久中文字幕一级| 欧美 亚洲 国产 日韩一| 亚洲九九香蕉| 亚洲专区字幕在线| 天堂中文最新版在线下载| 又黄又粗又硬又大视频| 亚洲国产精品一区二区三区在线| 级片在线观看| 亚洲av成人av| 正在播放国产对白刺激| 亚洲精品美女久久久久99蜜臀| 丁香六月欧美| 久久中文字幕一级| 手机成人av网站| 午夜免费激情av| 黄色 视频免费看| 99riav亚洲国产免费| 精品一区二区三区视频在线观看免费 | 一进一出抽搐gif免费好疼 | 亚洲精品在线美女| 十八禁人妻一区二区| 国产亚洲精品久久久久久毛片| 国产黄色免费在线视频| av免费在线观看网站| 国产精品 国内视频| 看免费av毛片| 国产免费现黄频在线看| 午夜日韩欧美国产| 成年人免费黄色播放视频| 一本综合久久免费| 久久天躁狠狠躁夜夜2o2o| 在线观看免费视频日本深夜| 久久精品成人免费网站| 久久香蕉精品热| 大香蕉久久成人网| 男人舔女人的私密视频| 操出白浆在线播放| 涩涩av久久男人的天堂| 成熟少妇高潮喷水视频| 他把我摸到了高潮在线观看| 中出人妻视频一区二区| 国产精品国产av在线观看| 黄色毛片三级朝国网站| 中文字幕人妻丝袜制服| 色婷婷久久久亚洲欧美| a级毛片在线看网站| 97人妻天天添夜夜摸| 久久九九热精品免费| 欧美日韩黄片免| 国产成人一区二区三区免费视频网站| 侵犯人妻中文字幕一二三四区| 99香蕉大伊视频| 免费少妇av软件| 日韩欧美在线二视频| 黄色女人牲交| 欧美在线黄色| 国产亚洲欧美精品永久| 久久久国产欧美日韩av| 大码成人一级视频| 亚洲精品一二三| 怎么达到女性高潮| 亚洲人成77777在线视频| 757午夜福利合集在线观看| 男人的好看免费观看在线视频 | 亚洲av美国av| 久久亚洲精品不卡| 黄片播放在线免费| 黄色视频不卡| 欧美最黄视频在线播放免费 | 在线看a的网站| 国产精品99久久99久久久不卡| 久久久久国内视频| 亚洲三区欧美一区| 久久性视频一级片| 亚洲一区二区三区色噜噜 | 色综合婷婷激情| 交换朋友夫妻互换小说| 黑人巨大精品欧美一区二区mp4| 中亚洲国语对白在线视频| 国产精品综合久久久久久久免费 | 亚洲一区二区三区欧美精品| 亚洲成人免费电影在线观看| 午夜老司机福利片| 欧美在线黄色| 最新美女视频免费是黄的| 亚洲伊人色综图| 级片在线观看| 日韩欧美一区二区三区在线观看| 91大片在线观看| 老汉色av国产亚洲站长工具| 国产免费男女视频| 欧美成人性av电影在线观看| 97人妻天天添夜夜摸| 国产精品美女特级片免费视频播放器 | 国产国语露脸激情在线看| 亚洲第一av免费看| 多毛熟女@视频| 亚洲成av片中文字幕在线观看| 一本综合久久免费| 免费看十八禁软件| 丝袜在线中文字幕| 亚洲欧美激情综合另类| 丁香欧美五月| 亚洲欧洲精品一区二区精品久久久|