• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進(jìn)TF-IDF算法的文本分類方法研究

    2016-10-17 06:00:43賀科達(dá)朱錚濤
    關(guān)鍵詞:分類特征文本

    賀科達(dá), 朱錚濤, 程 昱

    (廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州 510006)

    ?

    基于改進(jìn)TF-IDF算法的文本分類方法研究

    賀科達(dá), 朱錚濤, 程昱

    (廣東工業(yè)大學(xué) 信息工程學(xué)院,廣東 廣州 510006)

    類別關(guān)鍵詞是文本分類首先要解決的關(guān)鍵問題,在研究利用類別關(guān)鍵詞及TF-IDF算法對(duì)文本進(jìn)行分類的基礎(chǔ)上,提出了一種改進(jìn)的TF-IDF算法.首先建立類別關(guān)鍵詞庫,并對(duì)其進(jìn)行擴(kuò)充及去重,克服了向量空間模型不能很好調(diào)節(jié)權(quán)重的缺點(diǎn).通過加入文檔長(zhǎng)度權(quán)值修正文檔中關(guān)鍵詞的權(quán)重,有效地解決了原有特征詞條類別區(qū)分能力不足的問題.采用貝葉斯分類方法,結(jié)合實(shí)驗(yàn)驗(yàn)證了該算法的有效性,提高了文本分類的準(zhǔn)確度.

    提?。?特征選擇; 文本分類; 預(yù)處理

    隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,全球信息化以驚人的速度快速發(fā)展.近年來更是在全球范圍內(nèi)掀起了傳播數(shù)據(jù)信息的浪潮,企業(yè)積累了大量的數(shù)據(jù),這是它們最為寶貴的財(cái)富.對(duì)海量數(shù)據(jù)的獲取、匯總、聚類[1]、分類顯得尤為重要,其中文本分類的作用也越來越重要.文本分類[2]指對(duì)于所給出的文本集合,將每篇文檔歸入到按照預(yù)先定義的一個(gè)或者多個(gè)主題類別當(dāng)中.而文本自動(dòng)分類則是通過計(jì)算機(jī)程序來實(shí)現(xiàn)文本的準(zhǔn)確、高效的分類.文本分類是數(shù)據(jù)挖掘中的一個(gè)重要內(nèi)容.中文文本分類的基本步驟是中文分詞、特征提取、訓(xùn)練模型、預(yù)測(cè)類別等步驟.在眾多的文本分類算法中,主要有Rocchio算法、樸素貝葉斯分類算法[3]、決策樹算法[4]、K-means算法、神經(jīng)網(wǎng)絡(luò)算法和SVM(Support Vector Machine)算法[5].

    文本分類的研究可以追溯到20世紀(jì)60年代, 1957年美國IBM公司的盧恩(H.P.Luhn)提出的基于詞頻統(tǒng)計(jì)的抽詞標(biāo)引法[6],在這一領(lǐng)域進(jìn)行了開創(chuàng)性的研究.對(duì)于TF-IDF算法,國內(nèi)外學(xué)者做了大量的改進(jìn)工作,研究?jī)?nèi)容主要圍繞IDF計(jì)算方法展開,對(duì)其進(jìn)行改進(jìn).TF-IDF算法源于Salton在文獻(xiàn)[7]中提出的TFDF算法.此后,Salton多次論證TFDF算法在信息檢索中的有效性[8].在此基礎(chǔ)上,國外學(xué)者Forman[9]運(yùn)用概率統(tǒng)計(jì)方法度量并比較關(guān)于類別分布的顯著性,對(duì)IDF的計(jì)算方法采用二元正太分割(Bi-Nor-mal Separation)計(jì)算方法.Lan等[10]提出TF-RF算法,用相關(guān)性頻率(RF)方法代替IDF計(jì)算方法,在這一領(lǐng)域進(jìn)行了卓有成效的研究.國內(nèi)學(xué)者張玉芳等[11]提出增加在某一個(gè)類中頻繁出現(xiàn)的詞條的權(quán)重,結(jié)合遺傳算法[12]使得分類準(zhǔn)確率有所提高.張瑾[13]通過加入位置權(quán)值及詞跨度權(quán)值來避免單純采用TF-IDF算法產(chǎn)生的偏差.雖然還有一些學(xué)者對(duì)TF-IDF方法進(jìn)行了其他方面的一些改進(jìn),但是還存在特征詞權(quán)值波動(dòng),對(duì)信息增益、信息熵、相關(guān)性頻率等計(jì)算量大,復(fù)雜度高等問題[14].針對(duì)這些問題,本文研究TF-IDF改進(jìn)算法,解決向量空間模型問題,通過加入文檔長(zhǎng)度權(quán)值,修正文檔中關(guān)鍵詞的權(quán)重,有效地解決了因?yàn)闄?quán)值問題使得特征詞條的類別區(qū)分能力不足的問題.

    1 文本預(yù)處理

    1.1文本分詞及關(guān)鍵詞選取

    文本分詞是文本處理中最基本的過程,在中文文本中可以選擇字、詞或者詞組作為文本的特征項(xiàng),相比較而言,詞比字和詞組具有更多優(yōu)勢(shì),具有更強(qiáng)的表達(dá)能力,更加容易切分.因此,在對(duì)文本進(jìn)行預(yù)處理時(shí)采用的方法通常是分詞處理.本文采用ICTCLAS[15]對(duì)每篇文章進(jìn)行中文分詞,根據(jù)特征權(quán)重計(jì)算方法構(gòu)建VSM(Vector Space Model)模型.如果把所有的詞都作為特征項(xiàng),則特征向量維數(shù)過大,計(jì)算量也隨之變大,故需要減少詞的數(shù)量以此來降低向量空間維數(shù),從而減少計(jì)算量,提高計(jì)算速度和精準(zhǔn)度.本文采用選取關(guān)鍵詞對(duì)文章進(jìn)行降維,對(duì)于每一個(gè)類別的文章都有其對(duì)應(yīng)的關(guān)鍵詞,而每篇文章都是圍繞相應(yīng)的主題展開的,各個(gè)主題之間都有相對(duì)明顯的區(qū)別,每個(gè)類可以通過類別關(guān)鍵詞來表示.所以,文本中的關(guān)鍵詞對(duì)文本分類具有特殊的作用.例如,一篇關(guān)于環(huán)境的文章中可能會(huì)出現(xiàn)“海嘯”、“大氣污染”、“溫室效應(yīng)”等詞匯.根據(jù)類別關(guān)鍵詞可以組成關(guān)鍵詞詞庫,這樣使得分類效率和速度得到很大的提升.關(guān)鍵詞庫組建主要包括以下幾個(gè)方面:

    (1) 通過分詞軟件得到類別關(guān)鍵詞詞匯列表;

    (2) 根據(jù)人工分類體系將每個(gè)類別中的文章主題詞組成一個(gè)類別詞庫;

    (3) 根據(jù)關(guān)鍵詞的同義詞對(duì)其進(jìn)行拓展,然后去掉重復(fù)詞匯.

    1.2文本表示

    在對(duì)文本進(jìn)行分類時(shí),需將文本轉(zhuǎn)化為向量,能夠被計(jì)算機(jī)處理,其中向量空間模型是文本表示的常用模型之一.VSM[16]模型概念簡(jiǎn)單,把文本內(nèi)容轉(zhuǎn)化為向量運(yùn)算,并且以空間上的相似度表達(dá)語義相似度,直觀易懂.文檔被看作為一個(gè)多維向量,特征項(xiàng)當(dāng)作其中的一維,特征項(xiàng)的TF-IDF值作為向量分量的值,通過余弦距離來表達(dá)文本相似性度量.

    2 TF-IDF算法及其改進(jìn)

    2.1傳統(tǒng)的TF-IDF及其存在的問題

    TF-IDF是一種統(tǒng)計(jì)方法,廣泛應(yīng)用于文本分類, TF指的是一個(gè)詞或者詞組在文檔中的頻率,其主要思想[17]是:若在一篇文章中某個(gè)詞或詞組的TF值高且其在其他的文章中的TF值小,那么就認(rèn)為該詞或者詞組的類別區(qū)分能力強(qiáng),和其他的詞或詞組相比,其更適宜用于分類.TF-IDF實(shí)際上是:TF×IDF,TF詞頻(Term Frequency) 表示詞條在文檔d中出現(xiàn)的頻率,IDF反文檔頻率(Inverse Document Frequency)是一個(gè)詞或者詞組的普遍重要性的度量,常用計(jì)算公式為式(1)、(2)[18]:

    (1)

    其中t表示特征詞條在文檔w中出現(xiàn)的次數(shù),s表示文檔w中出現(xiàn)的總詞條數(shù).

    (2)

    其中D表示語料庫中文檔總數(shù),d表示包含特征詞條的文檔總數(shù).

    由式(2)[19]可知,如果語料庫中的某一類文檔C中包含特征詞條t的文檔數(shù)為n,而在其他類中包含t的文檔總數(shù)為m.所以,在文檔集中所有包含特征詞條t的文檔數(shù)d=n+m,當(dāng)n增大的時(shí)候,d也會(huì)增大.當(dāng)d增大時(shí),按照式(2)得到的IDF的值會(huì)變小,則說明該特征詞條t的對(duì)于文檔類別來說,它不能很好地區(qū)別于其他的文本類別,表明它的類別區(qū)分能力不是很強(qiáng).但是在實(shí)際文本分類中,如果特征詞條t在文本類別Ci中的文檔中頻繁出現(xiàn),那么就說明特征詞條t能夠很好地代表類別Ci的文本的特征,具有較好的類別區(qū)分能力.對(duì)于類似特征詞條t這樣的詞條,在進(jìn)行權(quán)重賦值時(shí),相較于其他的特征詞條應(yīng)該賦予更高的權(quán)重,并應(yīng)當(dāng)選來作為Ci類文本的特征詞,便于與其他類的文檔有所區(qū)別.當(dāng)關(guān)鍵詞在其他類頻繁出現(xiàn)時(shí),原有IDF計(jì)算方法造成了分類能力的下降,這就是TF-IDF算法的不足之處.

    2.2改進(jìn)后的TF-IDF算法

    在多數(shù)文本分類中,特別是多類別文本分類中,對(duì)于某個(gè)特征詞條,該詞條可能會(huì)出現(xiàn)在該類別的多個(gè)文本中,也有可能出現(xiàn)在其他類別中,故而會(huì)使得特征詞條的權(quán)值不同.而權(quán)值的不同對(duì)分類的穩(wěn)定性產(chǎn)生很大的影響,在一定程度上會(huì)有波動(dòng)現(xiàn)象.

    針對(duì)權(quán)值波動(dòng)現(xiàn)象,本文提出了IDF的改進(jìn)算法.在所選的數(shù)據(jù)集中有待分類文檔的類別集合C={C1,C2,…,Cm},Cm(Cm∈C)中的文檔集合D={d1,d2,…,dn},其中n為文檔的數(shù)目.文檔中出現(xiàn)的特征詞集合I={i1,i2,…,ik},其中ik為Cm中所有出現(xiàn)的特征詞以及根據(jù)其拓展后的特征詞集合.針對(duì)傳統(tǒng)TF-IDF算法的不足,計(jì)算IDF時(shí),以特征值的頻率與對(duì)應(yīng)文檔的長(zhǎng)度乘積比代替特征值的頻率比,對(duì)其進(jìn)行了均值化,這樣可以修正文檔中的關(guān)鍵詞權(quán)重,減少文檔長(zhǎng)度對(duì)權(quán)值的影響.改進(jìn)的IDF權(quán)重計(jì)算公式:

    (3)

    其中mi1表示特征詞條i在Ci類文本i1中出現(xiàn)的次數(shù),li1表示文本i1的長(zhǎng)度,t表示所屬類別中包含特征詞條i的文本數(shù)目,ni2表示除了Ci類外,在其他類文本i2中特征詞條i出現(xiàn)的次數(shù),li2表示文本i2的長(zhǎng)度,s表示所屬類別中包含特征詞條i的文本數(shù)目,n表示文本中特征詞條i的總數(shù)目,li3表示文本i3的長(zhǎng)度,k表示包含特征詞條i的文本總數(shù).

    2.3分類算法

    本文描述了文本預(yù)處理的方法并分析了TF-IDF算法的不足之處,據(jù)此本文對(duì)其進(jìn)行了優(yōu)化,在此基礎(chǔ)上本文利用貝葉斯算法[20]對(duì)文本進(jìn)行分類,并通過實(shí)驗(yàn)來評(píng)價(jià)TF-IDF算法的性能.其主要步驟如下:

    (1) 通過分詞軟件對(duì)數(shù)據(jù)集中的文本進(jìn)行關(guān)鍵詞提取并對(duì)其進(jìn)行擴(kuò)展得到關(guān)鍵詞庫;

    (2) 對(duì)得到的關(guān)鍵詞庫建立VSM模型,把文本內(nèi)容轉(zhuǎn)化為向量運(yùn)算;

    (3) 利用優(yōu)化后的TF-IDF算法分別計(jì)算每個(gè)關(guān)鍵詞的TF-IDF值;

    (4) 將獲得的TF-IDF值作為特征向量,采用貝葉斯算法對(duì)文本進(jìn)行分類,結(jié)合實(shí)驗(yàn)評(píng)估改進(jìn)算法的性能.

    3 實(shí)驗(yàn)及分析

    3.1評(píng)價(jià)標(biāo)準(zhǔn)

    對(duì)于優(yōu)化后的算法需對(duì)其性能進(jìn)行評(píng)估,評(píng)估文本分類系統(tǒng)的性能,國際上有通用的評(píng)估指標(biāo),包括召回率(Recall)、查準(zhǔn)率(Precision)和F1評(píng)估值3項(xiàng).本實(shí)驗(yàn)采用這3項(xiàng)指標(biāo)對(duì)改進(jìn)的后的TF-IDF算法進(jìn)行測(cè)試.其對(duì)應(yīng)的公式[21]分別如下:

    (4)

    召回率是衡量文本分類系統(tǒng)從數(shù)據(jù)集中分類成功度的一項(xiàng)指標(biāo),體現(xiàn)了分類的完備性,A表示分類正確的文本數(shù),(A+B)表示總的文本數(shù).

    (5)

    查準(zhǔn)率是衡量文本系統(tǒng)中分類的準(zhǔn)確程度,A表示分類正確的文本數(shù),(A+C)表示總的文本數(shù).

    (6)

    召回率和查準(zhǔn)率之間具有互逆關(guān)系,它們反映了分類準(zhǔn)確性的兩個(gè)不同方面,當(dāng)P的指標(biāo)上升時(shí),會(huì)導(dǎo)致R的指標(biāo)下降.所以取兩者的調(diào)和均值,由此可知,F(xiàn)1的值越大,分類效率也就越好.

    3.2實(shí)驗(yàn)數(shù)據(jù)

    數(shù)據(jù)集采用復(fù)旦大學(xué)計(jì)算機(jī)信息與技術(shù)系國際數(shù)據(jù)庫中心自然語言處理小組的語料庫,選取了其中6個(gè)主題作為本文的數(shù)據(jù)集,其中包括計(jì)算機(jī)、環(huán)境、農(nóng)業(yè)、經(jīng)濟(jì)、政治、體育.經(jīng)過選取關(guān)鍵詞后,將文本分為訓(xùn)練文本和測(cè)試文本,兩者彼此不重疊.各主題類的實(shí)驗(yàn)文本數(shù)如表1所示.

    表1 實(shí)驗(yàn)數(shù)據(jù)

    3.3實(shí)驗(yàn)結(jié)果及分析

    實(shí)驗(yàn)分別對(duì)文本進(jìn)行關(guān)鍵詞提取,根據(jù)2.2提出的方法分別計(jì)算每個(gè)關(guān)鍵詞的TF-IDF值,采用貝葉斯算法對(duì)文本進(jìn)行分類,把經(jīng)本文改進(jìn)的TF-IDF的分類效果與引入位置權(quán)值及詞跨度權(quán)值的TF-IDF的分類效果進(jìn)行比較,得到的分類結(jié)果如表2所示.

    表2 改進(jìn)方法的比較實(shí)驗(yàn)結(jié)果

    表2中R、P和F1,R′、P′和F1′分別指的是引入位置權(quán)值及詞跨度權(quán)值的TF-IDF算法以及經(jīng)本文改進(jìn)后的TF-IDF算法計(jì)算得出的召回率、查準(zhǔn)率及F1值.從表2的實(shí)驗(yàn)結(jié)果可以看出,經(jīng)過本文改進(jìn)的TF-IDF,不管是召回率、查準(zhǔn)率還是F1值,相比于引入位置權(quán)值及詞跨度權(quán)值的TF-IDF算法都有一定的提升.可以分析得出本文改進(jìn)的TF-IDF算法在文本分類領(lǐng)域中有一定的優(yōu)勢(shì).

    4 結(jié)語

    本文針對(duì)類別關(guān)鍵詞改進(jìn)了TF-IDF算法,首先對(duì)文本進(jìn)行關(guān)鍵詞提取,然后通過計(jì)算其改進(jìn)后的TF-IDF值形成特征向量,最后根據(jù)貝葉斯算法對(duì)文本進(jìn)行分類.性能對(duì)照實(shí)驗(yàn)結(jié)果表明,經(jīng)過對(duì)TF-IDF算法進(jìn)行優(yōu)化后,分類準(zhǔn)確率得到了一定的改善.也就是說改進(jìn)后的TF-IDF方法優(yōu)于引入位置權(quán)值及詞跨度權(quán)值的TF-IDF的分類效果.本文通過提取類別關(guān)鍵詞,減少了特征向量維數(shù),使得分類的時(shí)間效率有了一定的提高,可以減少約3%.因此改進(jìn)后的TF-IDF方法是有效且可行的.

    關(guān)鍵詞的選取工作還有待進(jìn)一步完善:當(dāng)兩個(gè)類別相近時(shí),其關(guān)鍵詞也有很多同義詞,故而會(huì)使得分類效果不好,比如實(shí)驗(yàn)中容易將農(nóng)業(yè)類的文章劃分到環(huán)境類中.

    [1] 蔣盛益,王連喜.聚類分析研究的挑戰(zhàn)性問題[J]. 廣東工業(yè)大學(xué)學(xué)報(bào), 2014, 31(3):32-38.

    JIANG S Y, WANG L X. Some challenges in clustering analysis[J]. Journal of Guangdong University of Technology, 2014, 31(3): 32-38.

    [2] 譚學(xué)清,周通,羅琳.一種基于類平均相似度的文本分類算法[J].現(xiàn)代圖書情報(bào)技術(shù), 2014, 250 (9): 66-73.

    TAN X Q, ZHOU T, LUO L. A text classification algorithm based on the average category similarity[J].New Technology of Library and Information Service, 2014, 250 (9): 66-73.

    [3] GENG X L, GAO X Y, ZHAO B. Research on Chinese text classification based on Naive Bayesian method[C]∥Proceedings of the Fifth International Symposium on Test Automation & Instrumentation (Vol.1).[S. l.]:[s. n.], 2014: 226-230.

    [4] KATZ G, SHABTAIA, ROKACH L. CONFDTREE O N: A statistical method for improving decision trees[J].Data Management and Data Mining, 2014,29(3):392-407.

    [5] 陳培文,傅秀芬.采用SVM 方法的文本情感極性分類研究[J].廣東工業(yè)大學(xué)學(xué)報(bào),2014,31(3):95-101.

    CHEN P W, FU X F. Research on sentiment classification of texts based on SVM[J]. Journal of Guangdong University of Technology, 2014, 31(3): 95-101.

    [6] 沈志斌,白清源.文本分類中特征權(quán)重算法的改進(jìn)[J].南京師范大學(xué)學(xué)報(bào), 2008, 8(4): 95-98.

    SHEN Z B, BAI Q Y. Improvement of feature weighting algorithm in text classification[J]. Journal of Nanjing Normal University, 2008, 8(4): 95-98.

    [7] SALTON G, YU C T. On the construction of effective vocabularies for information retrieval[J]. ACM Sigplan Notices, 1975, 9(3): 48-60.

    [8] SALTON G. Extended boolean information retrieval[J].Cornell University, 1983, 11(4): 95-98.

    [9] FORMAN G. BNS feature scaling: an improved representation over TF-IDF for SVM text classification[C]∥Proceedings of the 17th ACM Conference on Information and Knowledge Management. USA, California: ACM, 2008: 263-270.

    [10] LAN M, TAN C L, LOW H B, et al. A comprehensive comparative study on term weighting schemes for text categorization with support vector machines[C]∥Special Interest Tracks and Posters of the 14th International Conference on World Wide Web.[S.l.]: ACM, 2005: 1032-1033.

    [11] 張玉芳,彭時(shí)名,呂佳.基于文本分類TFIDF方法的改進(jìn)與應(yīng)用[J].計(jì)算機(jī)工程, 2006, 32(19): 76-78.

    ZHANG Y F, PENG S M, LYU J. Improvement and application of TFIDF method based on text classification[J] Computer Engineering, 2006, 32(19): 76-78.

    [12] 谷小青,易當(dāng)祥,劉春和.遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)與權(quán)值[J].廣東工業(yè)大學(xué)學(xué)報(bào),2006, 23(4): 64-69

    GU X Q, YI D X, LIU C H. Optimization of topological structure and weight value of artificial neural network using genetic algorithm[J]. Journal of Guangdong University of Technology, 2006, 23(4): 64-69.

    [13] 張瑾.基于改進(jìn)TF-IDF算法的情報(bào)關(guān)鍵詞提取方法[J].情報(bào)雜志, 2014, 33(4): 153-155.

    ZHANG J. A method of intelligence key words extraction based on improved TF-IDF[J]. Journal of Intelligence, 2014, 33(4): 153-155.

    [14] 王清毅,張波,蔡慶生.目前數(shù)據(jù)挖掘算法的評(píng)價(jià)[J].小型微型計(jì)算機(jī)系統(tǒng), 2000, 21(1): 75-78.

    WANG Q Y, ZHANG B, CAI Q S. Evaluation of current data mining algorithms[J] Mini- Micro System, 2000, 21(1): 75-78.

    [15] ZHANG H P, YU H K, XIONG D Y, et al. HHMM-Based Chinese lexical analyzer ICTCLAS[C]∥Proceedings of the second SIGHAN workshop on Chinese language processing-Volume 17. PA: Association for Computational Linguistics, 2003: 184-187.

    [16] 郭慶琳,李艷梅,唐琦. 基于VSM的文本相似度計(jì)算的研究[J].計(jì)算機(jī)應(yīng)用研究2008, 25(11): 3256-3258.

    GUO Q L, LI Y M, TANG Q. Similarity computing of documents based on VSM[J]. Application Research of Computer, 2008, 25(11): 3256-3258.

    [17] 覃世安,李法運(yùn).文本分類中TF-IDF方法的改進(jìn)研究[J].現(xiàn)代圖書情報(bào)技術(shù), 2013, 38(10): 27-30.

    TAN S A, LI F Y. Improved TF-IDF method in text classification[J]. New Technology of Library and Information Service, 2013, 38(10): 27-30.

    [18] GERARD SALTON,CHRISTOPHER BUCKLEY.Term-weighting approaches in automatic text retrieval[J]. Information Processing & Management,1988, 24( 5) : 513 -523.

    [19] 徐山,杜衛(wèi)鋒.不可靠語料庫的提純及詞權(quán)度量指標(biāo)IDF的改進(jìn)[J].微型機(jī)與應(yīng)用, 2013, 32(4): 61-63.

    XU S, DU W F. The purification of unreliable corpus and the improvement of word weight index IDF[J]. Microcomputer & Its Applications, 2013, 32(4): 61-63.

    [20] 駱樺,張喜梅.基于貝葉斯分類法的股票選擇模型的研究[J].浙江理工大學(xué)學(xué)報(bào), 2015, 33(3): 418-422.

    LUO H, ZHANG X M. Research on stock selection model based on bayesian classifier[J]. Journal of Zhejiang Sci-Tech University, 2015, 33(3): 418-422.

    [21] YIMING Y. An evaluation of statistic approaches to text categorization[J]. Information Retrieva, 1999, 1(12): 69-90.

    A Research on Text Classification Method Based on Improved TF-IDF Algorithm

    He Ke-da, Zhu Zheng-tao,Cheng Yu

    (School of Information Engineering, Guangdong University of Technology, Guangzhou 510006, China)

    Establishing category keywords is the key problem in text classification, which should be solved first. On the basis of the classification of text by using the category keywords and TF-IDF algorithm, an improved TF-IDF algorithm has been proposed to overcome the shortcomings of the vector space model, which cannot well adjust the weights. Firstly, category keyword library should be established, and the expansion and duplication be carried out. The weight of keywords in the document is modified by the addition of the length of the document, and the shortage of the original features of the entry class distinction ability is solved effectively. By using Bayesian classification method, combined with the experiments, the effectiveness of the algorithm is verified, and the accuracy of text classification improved.

    extraction; feature selection; text classification; pretreatment

    2015- 09- 22

    國家自然科學(xué)基金資助項(xiàng)目(11204043)

    賀科達(dá)(1989-),男,碩士研究生,主要研究方向?yàn)閿?shù)據(jù)與文本挖掘.

    朱錚濤(1967-),男,副教授,博士,主要研究方向?yàn)橛?jì)算機(jī)視覺檢測(cè)技術(shù).E-mail:511972136@qq.com

    10.3969/j.issn.1007- 7162.2016.05.009

    TP393

    A

    1007-7162(2016)05- 0049- 05

    猜你喜歡
    分類特征文本
    分類算一算
    如何表達(dá)“特征”
    在808DA上文本顯示的改善
    不忠誠的四個(gè)特征
    分類討論求坐標(biāo)
    基于doc2vec和TF-IDF的相似文本識(shí)別
    電子制作(2018年18期)2018-11-14 01:48:06
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    抓住特征巧觀察
    文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
    母亲3免费完整高清在线观看| 免费看光身美女| 亚洲国产中文字幕在线视频| 天堂网av新在线| 搡老熟女国产l中国老女人| 国产免费男女视频| 欧美激情久久久久久爽电影| 亚洲精品亚洲一区二区| 婷婷精品国产亚洲av在线| 一级毛片女人18水好多| 亚洲成人久久爱视频| 欧美乱妇无乱码| 俺也久久电影网| 在线观看免费视频日本深夜| 亚洲色图av天堂| xxxwww97欧美| 成人特级av手机在线观看| 他把我摸到了高潮在线观看| 日韩成人在线观看一区二区三区| 不卡一级毛片| 伊人久久精品亚洲午夜| 国产v大片淫在线免费观看| 亚洲人与动物交配视频| 国产欧美日韩一区二区三| 国产 一区 欧美 日韩| av女优亚洲男人天堂| 久久亚洲真实| 观看免费一级毛片| 久久久成人免费电影| 国产精品亚洲一级av第二区| 叶爱在线成人免费视频播放| 国产一级毛片七仙女欲春2| 成人鲁丝片一二三区免费| 欧美性感艳星| 欧美黄色片欧美黄色片| 国产蜜桃级精品一区二区三区| 亚洲精品一区av在线观看| 波多野结衣高清无吗| 此物有八面人人有两片| 国产三级中文精品| 国产99白浆流出| 国产激情偷乱视频一区二区| 夜夜夜夜夜久久久久| 欧美激情在线99| 久久久国产精品麻豆| 听说在线观看完整版免费高清| 欧美在线一区亚洲| 欧美xxxx黑人xx丫x性爽| 99热只有精品国产| 两个人的视频大全免费| 久久精品国产亚洲av涩爱 | 女同久久另类99精品国产91| 久久精品亚洲精品国产色婷小说| 9191精品国产免费久久| 成人一区二区视频在线观看| 国产欧美日韩一区二区精品| 国产亚洲精品久久久com| 久久精品综合一区二区三区| 又粗又爽又猛毛片免费看| 网址你懂的国产日韩在线| 天堂网av新在线| 午夜激情欧美在线| 精品久久久久久久末码| 亚洲精品国产精品久久久不卡| 精品人妻1区二区| 日韩欧美精品v在线| 久久精品夜夜夜夜夜久久蜜豆| 不卡一级毛片| 精品一区二区三区视频在线观看免费| 黄色日韩在线| 午夜福利高清视频| 国产老妇女一区| 国内精品一区二区在线观看| 最近最新中文字幕大全电影3| 国模一区二区三区四区视频| 国产精品免费一区二区三区在线| av黄色大香蕉| 久久精品91无色码中文字幕| 99国产综合亚洲精品| 欧美日韩综合久久久久久 | 欧美乱色亚洲激情| 色av中文字幕| 国产精品女同一区二区软件 | 日本一本二区三区精品| 亚洲男人的天堂狠狠| 成人av在线播放网站| 欧美色欧美亚洲另类二区| 国产精品久久久久久久久免 | 国产不卡一卡二| 久久精品国产99精品国产亚洲性色| 国产又黄又爽又无遮挡在线| 亚洲av美国av| 中文亚洲av片在线观看爽| 国产激情欧美一区二区| 国产精品永久免费网站| 男插女下体视频免费在线播放| 午夜免费观看网址| 老司机深夜福利视频在线观看| 亚洲国产精品成人综合色| 久久精品91蜜桃| 精品无人区乱码1区二区| 香蕉av资源在线| 国产激情欧美一区二区| 亚洲五月婷婷丁香| 岛国视频午夜一区免费看| 老汉色∧v一级毛片| 国产单亲对白刺激| 亚洲五月天丁香| 最近视频中文字幕2019在线8| 有码 亚洲区| 99在线人妻在线中文字幕| 亚洲 国产 在线| 亚洲精品一卡2卡三卡4卡5卡| 一个人看视频在线观看www免费 | 最后的刺客免费高清国语| 天天躁日日操中文字幕| 男人舔女人下体高潮全视频| 91字幕亚洲| 色在线成人网| 日韩欧美一区二区三区在线观看| 免费电影在线观看免费观看| 中文字幕人妻丝袜一区二区| 女生性感内裤真人,穿戴方法视频| 听说在线观看完整版免费高清| 亚洲av熟女| 亚洲精华国产精华精| 桃红色精品国产亚洲av| 天堂√8在线中文| 久久精品综合一区二区三区| 国产三级黄色录像| 香蕉丝袜av| 亚洲国产欧洲综合997久久,| av视频在线观看入口| 欧美一区二区亚洲| 欧美色欧美亚洲另类二区| 亚洲欧美一区二区三区黑人| 香蕉丝袜av| 99久久无色码亚洲精品果冻| 国产成人福利小说| 一进一出好大好爽视频| av国产免费在线观看| 亚洲美女视频黄频| 中文资源天堂在线| 一夜夜www| 国产极品精品免费视频能看的| 国产精品一区二区三区四区免费观看 | 长腿黑丝高跟| 极品教师在线免费播放| 欧美性猛交╳xxx乱大交人| 长腿黑丝高跟| 久久久国产精品麻豆| 成人无遮挡网站| 国产主播在线观看一区二区| 亚洲人成网站高清观看| 国产三级中文精品| xxxwww97欧美| 男插女下体视频免费在线播放| 国产精品三级大全| 日韩欧美三级三区| 国产精品久久久久久精品电影| 午夜免费成人在线视频| 亚洲av成人不卡在线观看播放网| 此物有八面人人有两片| 日韩成人在线观看一区二区三区| 黄片小视频在线播放| 88av欧美| 久久久精品大字幕| 国产精品亚洲av一区麻豆| 久99久视频精品免费| 国内精品久久久久久久电影| 免费无遮挡裸体视频| 在线观看av片永久免费下载| 男人舔奶头视频| 精品国产三级普通话版| 有码 亚洲区| 香蕉av资源在线| 搡女人真爽免费视频火全软件 | 亚洲人成伊人成综合网2020| 国产精品久久久久久久久免 | 少妇丰满av| 亚洲国产精品久久男人天堂| 一个人免费在线观看电影| 久久久精品欧美日韩精品| 成年女人看的毛片在线观看| 欧美性感艳星| 黄色女人牲交| 色在线成人网| 成人性生交大片免费视频hd| 男女午夜视频在线观看| 无限看片的www在线观看| 中文字幕久久专区| 欧美zozozo另类| 国内精品久久久久精免费| 国内毛片毛片毛片毛片毛片| 怎么达到女性高潮| 99久久精品国产亚洲精品| 俺也久久电影网| 一夜夜www| 久99久视频精品免费| 最近最新免费中文字幕在线| 一个人免费在线观看电影| 九九热线精品视视频播放| 亚洲国产欧洲综合997久久,| 亚洲精品美女久久久久99蜜臀| 国产主播在线观看一区二区| 国产高清激情床上av| 色播亚洲综合网| 黄色视频,在线免费观看| a级毛片a级免费在线| 啦啦啦韩国在线观看视频| 欧美中文日本在线观看视频| 亚洲成人久久爱视频| 欧美日韩黄片免| 日本三级黄在线观看| 国产成人系列免费观看| 日本三级黄在线观看| 欧美成狂野欧美在线观看| 1024手机看黄色片| 亚洲aⅴ乱码一区二区在线播放| 一a级毛片在线观看| 日韩中文字幕欧美一区二区| 国产淫片久久久久久久久 | 日本与韩国留学比较| 精品午夜福利视频在线观看一区| 男插女下体视频免费在线播放| 亚洲中文日韩欧美视频| 免费看十八禁软件| 免费大片18禁| 亚洲最大成人中文| 91久久精品国产一区二区成人 | 欧美日韩瑟瑟在线播放| 亚洲欧美日韩高清在线视频| 久久久成人免费电影| 欧美中文综合在线视频| 一本一本综合久久| 国产69精品久久久久777片| 国产色婷婷99| 一区二区三区国产精品乱码| 国产精品亚洲美女久久久| 级片在线观看| 国产真人三级小视频在线观看| 欧美成人a在线观看| 夜夜爽天天搞| 免费观看的影片在线观看| 精品久久久久久久末码| 免费看美女性在线毛片视频| 免费看美女性在线毛片视频| 精品一区二区三区av网在线观看| 亚洲自拍偷在线| 99久久久亚洲精品蜜臀av| av在线天堂中文字幕| 九九热线精品视视频播放| 欧美黑人欧美精品刺激| 国产在线精品亚洲第一网站| 国产精品,欧美在线| 午夜免费观看网址| 亚洲av免费在线观看| 久久久成人免费电影| 日本精品一区二区三区蜜桃| 午夜a级毛片| 高潮久久久久久久久久久不卡| 国产欧美日韩一区二区三| 国产免费一级a男人的天堂| 日本黄色视频三级网站网址| 国产99白浆流出| 日韩人妻高清精品专区| 亚洲精品成人久久久久久| 十八禁网站免费在线| 黄色视频,在线免费观看| 俺也久久电影网| 色综合欧美亚洲国产小说| 国产欧美日韩一区二区精品| 可以在线观看的亚洲视频| 制服人妻中文乱码| 亚洲人成网站在线播| 村上凉子中文字幕在线| 国产免费一级a男人的天堂| 午夜福利在线在线| 禁无遮挡网站| 亚洲国产色片| 成年免费大片在线观看| 精品午夜福利视频在线观看一区| 欧美黄色淫秽网站| 亚洲欧美日韩高清在线视频| 国产毛片a区久久久久| 亚洲 国产 在线| 欧美精品啪啪一区二区三区| 日韩免费av在线播放| 欧美绝顶高潮抽搐喷水| 又粗又爽又猛毛片免费看| 国产精品久久久人人做人人爽| 91在线精品国自产拍蜜月 | 欧美zozozo另类| 91久久精品国产一区二区成人 | 桃红色精品国产亚洲av| 精品日产1卡2卡| 真实男女啪啪啪动态图| 啦啦啦韩国在线观看视频| 一区二区三区激情视频| 亚洲成av人片免费观看| 欧美在线黄色| 91久久精品电影网| 亚洲国产精品sss在线观看| 美女高潮喷水抽搐中文字幕| 性色av乱码一区二区三区2| 色综合欧美亚洲国产小说| 国产av麻豆久久久久久久| 精品电影一区二区在线| 久久精品综合一区二区三区| 成人午夜高清在线视频| 最近最新免费中文字幕在线| 国产高清三级在线| 99视频精品全部免费 在线| 大型黄色视频在线免费观看| 日韩欧美三级三区| 欧美日韩福利视频一区二区| 夜夜躁狠狠躁天天躁| 黄色日韩在线| 丁香欧美五月| 最近视频中文字幕2019在线8| 久久天躁狠狠躁夜夜2o2o| or卡值多少钱| av国产免费在线观看| 欧美一区二区国产精品久久精品| 午夜福利视频1000在线观看| xxx96com| 亚洲最大成人中文| 国产精品av视频在线免费观看| 国产精品久久视频播放| 欧美中文综合在线视频| 一区二区三区激情视频| 久久香蕉国产精品| 欧美乱妇无乱码| 麻豆一二三区av精品| 日本五十路高清| 午夜福利免费观看在线| 亚洲av日韩精品久久久久久密| 欧美性感艳星| 国产精品美女特级片免费视频播放器| 一卡2卡三卡四卡精品乱码亚洲| 精品久久久久久久久久免费视频| 欧美成人一区二区免费高清观看| 99久久无色码亚洲精品果冻| 亚洲久久久久久中文字幕| 黄色成人免费大全| 黄色女人牲交| 日韩欧美精品免费久久 | 欧美日韩乱码在线| 岛国在线免费视频观看| 99久国产av精品| 精品一区二区三区av网在线观看| 亚洲国产欧美网| 99国产极品粉嫩在线观看| 97超视频在线观看视频| 99国产精品一区二区蜜桃av| 日本一二三区视频观看| 99热6这里只有精品| 成人一区二区视频在线观看| 国产精品综合久久久久久久免费| 久久久久久久久久黄片| 亚洲色图av天堂| 免费av毛片视频| 成人无遮挡网站| 高清在线国产一区| 亚洲 欧美 日韩 在线 免费| 波多野结衣高清作品| 精品熟女少妇八av免费久了| 91麻豆av在线| 日韩精品中文字幕看吧| 国产三级中文精品| 色播亚洲综合网| 欧美成人a在线观看| 一本精品99久久精品77| 国产黄片美女视频| 国产私拍福利视频在线观看| 麻豆国产av国片精品| 18禁在线播放成人免费| 欧美xxxx黑人xx丫x性爽| 狂野欧美白嫩少妇大欣赏| 九色国产91popny在线| 免费在线观看亚洲国产| 国产色婷婷99| 午夜福利在线在线| 国产高清视频在线观看网站| 色播亚洲综合网| 国产成人啪精品午夜网站| 在线观看66精品国产| 国产高清激情床上av| 99国产精品一区二区蜜桃av| 国产精品美女特级片免费视频播放器| 丁香六月欧美| 一进一出抽搐gif免费好疼| 午夜福利免费观看在线| 国产日本99.免费观看| 脱女人内裤的视频| av中文乱码字幕在线| 高清日韩中文字幕在线| 亚洲精华国产精华精| 国产日本99.免费观看| 亚洲男人的天堂狠狠| 亚洲va日本ⅴa欧美va伊人久久| 午夜福利高清视频| 久久久精品大字幕| 亚洲电影在线观看av| 有码 亚洲区| av片东京热男人的天堂| netflix在线观看网站| 婷婷亚洲欧美| 真人做人爱边吃奶动态| 三级男女做爰猛烈吃奶摸视频| www日本黄色视频网| 一a级毛片在线观看| 久久久久国内视频| 九色国产91popny在线| 亚洲一区二区三区色噜噜| 久久精品影院6| 国产成人aa在线观看| 99热这里只有是精品50| 欧美不卡视频在线免费观看| 91av网一区二区| 我要搜黄色片| 国产精品嫩草影院av在线观看 | 在线观看免费午夜福利视频| 欧美色欧美亚洲另类二区| 一边摸一边抽搐一进一小说| 亚洲avbb在线观看| 午夜激情福利司机影院| netflix在线观看网站| 人人妻人人澡欧美一区二区| 99热只有精品国产| а√天堂www在线а√下载| 色视频www国产| 日韩欧美在线乱码| 欧美又色又爽又黄视频| 午夜福利免费观看在线| 精品久久久久久久末码| 国产aⅴ精品一区二区三区波| 精品一区二区三区av网在线观看| 欧美区成人在线视频| 国产精品久久久久久精品电影| 无遮挡黄片免费观看| 国产国拍精品亚洲av在线观看 | 韩国av一区二区三区四区| 伊人久久精品亚洲午夜| 少妇丰满av| 免费看美女性在线毛片视频| 亚洲精品粉嫩美女一区| 欧美性猛交黑人性爽| 免费在线观看成人毛片| 亚洲成av人片在线播放无| 久久精品91蜜桃| 香蕉av资源在线| 日本撒尿小便嘘嘘汇集6| 国产成人影院久久av| 国产高清有码在线观看视频| 美女高潮的动态| 色综合婷婷激情| 麻豆成人av在线观看| av在线蜜桃| 国产一区二区在线观看日韩 | 国模一区二区三区四区视频| av中文乱码字幕在线| 天天添夜夜摸| 首页视频小说图片口味搜索| h日本视频在线播放| 十八禁网站免费在线| 男插女下体视频免费在线播放| 法律面前人人平等表现在哪些方面| 综合色av麻豆| 少妇人妻精品综合一区二区 | 免费观看人在逋| 午夜两性在线视频| 99久久99久久久精品蜜桃| 亚洲成av人片在线播放无| 美女黄网站色视频| 岛国在线免费视频观看| 午夜激情欧美在线| 美女被艹到高潮喷水动态| 人妻夜夜爽99麻豆av| 亚洲av免费在线观看| 一边摸一边抽搐一进一小说| 午夜福利成人在线免费观看| 91九色精品人成在线观看| 午夜福利高清视频| 色综合站精品国产| 成人亚洲精品av一区二区| 老司机深夜福利视频在线观看| 国产老妇女一区| 亚洲 国产 在线| 51午夜福利影视在线观看| 精品久久久久久久久久久久久| 色老头精品视频在线观看| 日本 av在线| 国产一区二区三区在线臀色熟女| 日韩高清综合在线| 国产精品电影一区二区三区| 色在线成人网| 欧美在线一区亚洲| 一本精品99久久精品77| 国产精品综合久久久久久久免费| 亚洲av免费在线观看| 国产精华一区二区三区| 18+在线观看网站| av中文乱码字幕在线| 国产精品爽爽va在线观看网站| 在线观看午夜福利视频| 99久国产av精品| 亚洲国产日韩欧美精品在线观看 | 免费看a级黄色片| 制服丝袜大香蕉在线| 国产av一区在线观看免费| av天堂中文字幕网| 亚洲美女黄片视频| 国模一区二区三区四区视频| 最新美女视频免费是黄的| 精品一区二区三区视频在线观看免费| 他把我摸到了高潮在线观看| 欧美乱妇无乱码| 久99久视频精品免费| 好看av亚洲va欧美ⅴa在| 国产伦精品一区二区三区视频9 | 亚洲无线在线观看| 色精品久久人妻99蜜桃| 色av中文字幕| 国产乱人伦免费视频| 97超视频在线观看视频| 97超级碰碰碰精品色视频在线观看| 成人欧美大片| 欧美又色又爽又黄视频| 午夜福利免费观看在线| 亚洲人成网站在线播| 国产视频一区二区在线看| 噜噜噜噜噜久久久久久91| bbb黄色大片| xxx96com| 中文字幕av成人在线电影| 欧美一区二区亚洲| 国产精品久久久久久人妻精品电影| 成熟少妇高潮喷水视频| 日本成人三级电影网站| 噜噜噜噜噜久久久久久91| 亚洲在线自拍视频| 女人高潮潮喷娇喘18禁视频| 美女cb高潮喷水在线观看| 天堂av国产一区二区熟女人妻| 两个人的视频大全免费| 18禁美女被吸乳视频| 免费看日本二区| 99热这里只有是精品50| 欧美乱色亚洲激情| 国产午夜精品久久久久久一区二区三区 | 午夜福利视频1000在线观看| 国产在线精品亚洲第一网站| 人人妻,人人澡人人爽秒播| 午夜福利视频1000在线观看| 久久精品国产综合久久久| 午夜a级毛片| xxxwww97欧美| 黄色成人免费大全| 听说在线观看完整版免费高清| 国产精品永久免费网站| 成人永久免费在线观看视频| 欧美bdsm另类| 色视频www国产| 91久久精品电影网| 99在线视频只有这里精品首页| 亚洲国产精品合色在线| www.色视频.com| 美女高潮的动态| 高潮久久久久久久久久久不卡| 天堂动漫精品| 熟女少妇亚洲综合色aaa.| 成人国产综合亚洲| 精品人妻偷拍中文字幕| 俺也久久电影网| 一本综合久久免费| 国产私拍福利视频在线观看| 久久草成人影院| 不卡一级毛片| 五月伊人婷婷丁香| 免费搜索国产男女视频| 中文字幕久久专区| 悠悠久久av| 久久午夜亚洲精品久久| 一区二区三区国产精品乱码| 国产91精品成人一区二区三区| 欧美日本亚洲视频在线播放| 91在线精品国自产拍蜜月 | 少妇裸体淫交视频免费看高清| 可以在线观看毛片的网站| 日韩欧美一区二区三区在线观看| 真人一进一出gif抽搐免费| 国产视频一区二区在线看| 亚洲精品粉嫩美女一区| 精品久久久久久久久久免费视频| 美女免费视频网站| 国产精品亚洲av一区麻豆| 一区二区三区高清视频在线| 久久久久国内视频| 午夜免费男女啪啪视频观看 | av专区在线播放| 欧美黄色片欧美黄色片| 国内久久婷婷六月综合欲色啪| 亚洲 欧美 日韩 在线 免费| 亚洲av第一区精品v没综合| 麻豆一二三区av精品| 哪里可以看免费的av片| 色尼玛亚洲综合影院| 亚洲精品一区av在线观看| 在线观看免费午夜福利视频| 波野结衣二区三区在线 | 欧美在线一区亚洲| 国产熟女xx| 天堂√8在线中文| 欧美中文日本在线观看视频|