• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類(lèi)

      2020-11-23 07:35:18王彬司楊濤付軍濤
      科技風(fēng) 2020年31期
      關(guān)鍵詞:特征詞

      王彬 司楊濤 付軍濤

      摘 要:本文提出一種基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類(lèi)方法,目的是利用改進(jìn)的TF-IDF算法提取新聞文本中的特征詞集合,然后計(jì)算每個(gè)特征詞的TF-IDF值,并將TF-IDF值形成特征向量作為貝葉斯算法的輸入來(lái)實(shí)現(xiàn)新聞文本的分類(lèi)。本文隨機(jī)搜集了大量的不同類(lèi)別的新聞文本進(jìn)行分類(lèi)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該方法對(duì)不同類(lèi)別的新聞都有較好的分類(lèi)效果。

      關(guān)鍵詞:新聞分類(lèi);TF-IDF;貝葉斯算法;特征詞

      以前,人們主要從電視、報(bào)紙等傳統(tǒng)媒介獲取新聞,通過(guò)這種方式獲取的新聞數(shù)量有限,且新聞的受眾群體也不太普遍。隨著科技和網(wǎng)絡(luò)時(shí)代的發(fā)展,電腦和智能手機(jī)等電子設(shè)備的普及,人們獲取新聞的方式逐漸轉(zhuǎn)變?yōu)閺木W(wǎng)絡(luò)上獲取為主。網(wǎng)絡(luò)新聞不僅數(shù)據(jù)量巨大,而且更新和傳播的速度都非??臁:A康木W(wǎng)絡(luò)新聞一方面使用戶(hù)可獲得的信息量越來(lái)越多,極大地推動(dòng)信息的傳遞,但另一方面也使用戶(hù)獲取自己感興趣或?qū)ψ约河杏眯畔⒌男式档汀R虼?,?duì)網(wǎng)絡(luò)新聞加以分類(lèi),僅呈現(xiàn)給用戶(hù)他們比較感興趣的新聞是一個(gè)值得研究的問(wèn)題[1]。

      在文本分類(lèi)領(lǐng)域,統(tǒng)計(jì)學(xué)習(xí)方法是一種被廣泛應(yīng)用的方法。統(tǒng)計(jì)分類(lèi)方法的基本思想是先將文本分詞,再運(yùn)用一定的規(guī)則將樣本文本轉(zhuǎn)換為特征向量,然后構(gòu)建合適的分類(lèi)模型,將特征向量作為模型的輸入對(duì)模型進(jìn)行優(yōu)化訓(xùn)練,訓(xùn)練完的模型即可實(shí)現(xiàn)文本的分類(lèi)。文本分類(lèi)的方法有很多,目前常用的方法有KNN算法、支持向量機(jī)、貝葉斯算法等。本文將采用一種基于改進(jìn)的TF-IDF和貝葉斯算法的分類(lèi)方法對(duì)新聞進(jìn)行分類(lèi)。

      1 基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類(lèi)

      1.1 改進(jìn)的TF-IDF算法

      TF-IDF算法可以用來(lái)評(píng)估一個(gè)字詞對(duì)一個(gè)語(yǔ)料庫(kù)或文件集中的一份給定文件中的重要程度。一個(gè)字詞的重要性與它在某份文件中出現(xiàn)的次數(shù)正相關(guān),字詞在文件中出現(xiàn)的次數(shù)越多重要性越大,但同時(shí)與它在語(yǔ)料庫(kù)中出現(xiàn)的頻率成負(fù)相關(guān),語(yǔ)料庫(kù)中出現(xiàn)的次數(shù)越多,則該字詞的重要性越小[2,3]。因此,TF-IDF值可以用來(lái)作為對(duì)新聞文本分類(lèi)的依據(jù)。

      詞頻(term frequency,TF)指的是一個(gè)字詞在一份給定文件中出現(xiàn)的總的次數(shù)。逆向文件頻率(inverse document frequency,IDF)可以由語(yǔ)料庫(kù)中的文件總數(shù)除以包含該字詞的文件數(shù)目,再將得到的商取對(duì)數(shù)獲得。若某一字詞在一個(gè)文件內(nèi)部的詞頻較高,而在整個(gè)語(yǔ)料庫(kù)中的詞頻較低,那么這個(gè)字詞對(duì)該文件的重要性比較大。所以,TF-IDF值可以用來(lái)過(guò)濾常用字詞,僅保留文檔中可以突出文檔特征的字詞。

      傳統(tǒng)的TF-IDF算法是將經(jīng)過(guò)分詞的文件作為輸入(可通過(guò)結(jié)巴分詞器進(jìn)行分詞,并去除停用詞),輸出是每個(gè)字詞的TF-IDF值,然后將TF-IDF值從大到小排序,取前TOP-N個(gè)字詞作為特征詞用于分類(lèi)。TF-IDF算法步驟如下:

      步驟1:統(tǒng)計(jì)每個(gè)字詞在文件中出現(xiàn)的次數(shù),計(jì)算字詞的TF值,計(jì)算方法如公式(1)所示。

      2 實(shí)驗(yàn)結(jié)果

      本文隨機(jī)搜集了10類(lèi)共100000份新聞文本進(jìn)行分類(lèi)實(shí)驗(yàn),10個(gè)類(lèi)別分別為體育、軍事、游戲、科技、財(cái)經(jīng)、電影、美食、綜藝、時(shí)尚、情感,每個(gè)類(lèi)別的新聞樣本各10000份。然后從每個(gè)類(lèi)別中隨機(jī)抽出7000份作為訓(xùn)練樣本,剩余的3000份作為測(cè)試樣本。最后利用改進(jìn)的TF-IDF和貝葉斯算法的新聞分類(lèi)方法驗(yàn)證分類(lèi)效果,各個(gè)類(lèi)別分類(lèi)的精確率、召回率和F1值統(tǒng)計(jì)值如下表所示。從統(tǒng)計(jì)值中可見(jiàn),本文所提的方法對(duì)不同類(lèi)別的新聞的分類(lèi)精確率都比較高,較好地實(shí)現(xiàn)了新聞文本分類(lèi)效果。

      3 結(jié)語(yǔ)

      本文提出了一種基于改進(jìn)的TF-IDF和貝葉斯算法的新聞分類(lèi)方法,并隨機(jī)搜集了大量的體育、軍事、游戲等類(lèi)別的新聞文本進(jìn)行分類(lèi)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該方法較好地實(shí)現(xiàn)了新聞分類(lèi),但如何進(jìn)一步提高新聞分類(lèi)的精確率,還有待進(jìn)一步研究。

      參考文獻(xiàn):

      [1]劉冬瑤,劉世杰,陳宇星,張文波,周振.新聞文本自動(dòng)分類(lèi)概述[J].電腦知識(shí)與技術(shù),2017,13(35).

      [2]李春梅.基于TF-IDF的網(wǎng)頁(yè)新聞分類(lèi)的研究與應(yīng)用[J].貴州師范大學(xué)學(xué)報(bào),2015,33(06).

      [3]張?jiān)萍?基于TF-IDF和互信息的推薦算法[J].計(jì)算機(jī)時(shí)代,2019(12).

      [4]楊欣,郭建彬.基于改進(jìn)TF-IDF的百度百科詞語(yǔ)相似度計(jì)算[J].甘肅科學(xué)學(xué)報(bào),2019(2).

      [5]祁小軍,蘭海翔,盧涵宇,丁蕾錠,薛安琪.貝葉斯、KNN和SVM算法在新聞文本分類(lèi)中的對(duì)比研究[J].電腦知識(shí)與技術(shù),2019,15(25).

      [6]周紅衛(wèi),周宏印.基于向量空間用戶(hù)興趣模型的態(tài)勢(shì)情報(bào)信息分發(fā)機(jī)制[J].指揮信息系統(tǒng)與技術(shù),2015,6(6).

      [7]梁珂,李健,陳穎雪,劉志鋼.基于樸素貝葉斯的文本情感分類(lèi)及實(shí)現(xiàn)[I].智能計(jì)算機(jī)與應(yīng)用,2019(5).

      [8]馮勇,屈渤浩,徐紅艷,王嶸冰,張永剛.融合TF-IDF和LDA的中文FastText短文分類(lèi)方法[J].應(yīng)用科學(xué)學(xué)報(bào),2019(03).

      [9]曾小芹.基于Python的中文結(jié)巴分析技術(shù)實(shí)現(xiàn)[J].信息與電腦,2019(18).

      作者簡(jiǎn)介:王彬,男,漢族,碩士,研發(fā)工程師,研究方向:自然語(yǔ)言處理。

      猜你喜歡
      特征詞
      基于Simhash改進(jìn)的文本去重算法
      基于類(lèi)信息的TF-IDF權(quán)重分析與改進(jìn)①
      一種面向財(cái)務(wù)文本分類(lèi)的TF-IDF改進(jìn)算法
      基于改進(jìn)TFIDF算法的郵件分類(lèi)技術(shù)
      OPEN:一個(gè)基于評(píng)論的商品特征抽取及情感分析框架
      基于Word2vec的文檔分類(lèi)方法①
      產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      領(lǐng)域詞義關(guān)聯(lián)實(shí)驗(yàn)數(shù)據(jù)獲取的一些方法
      面向文本分類(lèi)的特征詞選取方法研究與改進(jìn)
      方言特征詞理論與研究方法綜述
      安徽省| 什邡市| 灵寿县| 馆陶县| 湖口县| 石门县| 江西省| 琼海市| 龙里县| 宜君县| 遵化市| 嘉峪关市| 新竹市| 沧源| 泽库县| 凤山市| 沙田区| 教育| 师宗县| 县级市| 平顶山市| 休宁县| 河曲县| 江达县| 鹤峰县| 惠安县| 东城区| 三原县| 四子王旗| 久治县| 定襄县| 栖霞市| 高碑店市| 县级市| 密云县| 定陶县| 安平县| 柳江县| 顺义区| 青岛市| 沽源县|