楊 彬,韓慶文,雷 敏,張亞鵬,劉向國(guó),楊亞強(qiáng),馬雪峰
(1.重慶大學(xué)通信工程學(xué)院,重慶400044;2.重慶阿爾法碳索科技有限公司,重慶400000)
基于改進(jìn)的TF-IDF權(quán)重的短文本分類(lèi)算法
楊 彬1,韓慶文1,雷 敏2,張亞鵬2,劉向國(guó)2,楊亞強(qiáng)2,馬雪峰2
(1.重慶大學(xué)通信工程學(xué)院,重慶400044;2.重慶阿爾法碳索科技有限公司,重慶400000)
短文本具有特征稀疏的特點(diǎn),如采用TF-IDF權(quán)重和算法來(lái)選擇短文本特征,很多具有專(zhuān)業(yè)領(lǐng)域信息特征而訓(xùn)練集中未出現(xiàn)過(guò)的特征將被忽略,從而導(dǎo)致待分類(lèi)文本集的權(quán)值分布比較集中,區(qū)分度小,最終影響短文本信息推送。因此,一種基于改進(jìn)的TF-IDF權(quán)重的短文本分類(lèi)算法被提出。該算法通過(guò)同義詞對(duì)分類(lèi)器的關(guān)鍵詞庫(kù)進(jìn)行擴(kuò)展和基于特征長(zhǎng)度對(duì)短文本權(quán)值進(jìn)行加權(quán),使得文本集的權(quán)值方差增大。與直接對(duì)短文本進(jìn)行擴(kuò)展的算法相比,該算法具有更快的分類(lèi)速度。
短文本;TF-IDF權(quán)重;特征擴(kuò)展
近年來(lái),隨著社交網(wǎng)絡(luò)服務(wù)的逐漸興起,產(chǎn)生了海量的短文本數(shù)據(jù)。短文本通常是指語(yǔ)義表達(dá)精煉、長(zhǎng)度較短(不超過(guò)100個(gè)字符)的文本,如網(wǎng)絡(luò)評(píng)論、新聞標(biāo)題、微博等。短文本能反映人們對(duì)輿論事件的不同態(tài)度和看法,在搜索引擎、情感分析等領(lǐng)域發(fā)揮著重要的作用。如何從海量短文本中挖掘出專(zhuān)業(yè)領(lǐng)域信息成為一大挑戰(zhàn)[1]。主流的文本分類(lèi)算法均采用機(jī)器學(xué)習(xí)的方法,例如K近鄰(k-nearest neighbors,KNN)[2]、樸素貝葉斯(Na??ve Bayes)、最大熵(maximum entropy)[3]、支持向量機(jī)(support vectormachine,SVM)[4]、神經(jīng)網(wǎng)絡(luò)(neural networks)等,利用事先手工標(biāo)記的具有確定類(lèi)別的文本進(jìn)行訓(xùn)練得到分類(lèi)器模型,通過(guò)分類(lèi)器模型預(yù)測(cè)待檢測(cè)文本的類(lèi)別。由于短文本具有特征稀疏的特點(diǎn),在進(jìn)行文檔特征表示時(shí),采用傳統(tǒng)的基于詞語(yǔ)出現(xiàn)頻次和文檔數(shù)量間的關(guān)系來(lái)選擇特征詞,因此很多具有專(zhuān)業(yè)領(lǐng)域信息特征而訓(xùn)練集中未出現(xiàn)過(guò)的特征將被忽略,導(dǎo)致分類(lèi)效果不理想,待分類(lèi)文本集的權(quán)值分布比較集中,文本區(qū)分度小,影響短文本信息推送。
短文本分類(lèi)問(wèn)題主要是降低特征向量空間的高維性和文檔特征向量的稀疏性。從向量空間模型來(lái)看,確定特征項(xiàng)后,如何計(jì)算特征權(quán)重是文檔分類(lèi)的重點(diǎn)。
本文給出了一種基于改進(jìn)的TF-IDF權(quán)重的短文本分類(lèi)算法,旨在解決短文本分類(lèi)中的數(shù)據(jù)稀疏性與文本區(qū)分度問(wèn)題,使得短文本分類(lèi)信息推送滿(mǎn)足用戶(hù)需求。
近年已有很多學(xué)者為解決短文本分類(lèi)問(wèn)題中的稀疏性問(wèn)題作了相關(guān)研究。目前國(guó)內(nèi)外學(xué)者的主要研究方向是對(duì)短文本特征進(jìn)行擴(kuò)展。特征擴(kuò)展主要有基于相似度擴(kuò)展和基于知識(shí)庫(kù)擴(kuò)展[5]。文獻(xiàn)[6]使用搜索引擎返回結(jié)果來(lái)比較詞語(yǔ)相似度,缺點(diǎn)是在線(xiàn)查詢(xún)依賴(lài)網(wǎng)絡(luò)因而比較耗時(shí),不利于時(shí)效要求較高的實(shí)時(shí)應(yīng)用。文獻(xiàn)[7-8]提出了使用維基百科作為固定的資源搜索庫(kù),文獻(xiàn)[8]進(jìn)一步采用Lucene(https://lucene.apache.org/)對(duì)維基百科建立索引,將Lucene返回結(jié)果作為擴(kuò)展特征。文獻(xiàn)[1]提出了一種基于詞矢量相似度的分類(lèi)方法,通過(guò)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練得到詞矢量,然后對(duì)測(cè)試集中出現(xiàn)的集外詞利用詞矢量之間的相似度進(jìn)行擴(kuò)展。上述方法都是利用外部相關(guān)數(shù)據(jù)來(lái)衡量詞語(yǔ)相似度對(duì)原始文本進(jìn)行擴(kuò)展?;谡Z(yǔ)義知識(shí)庫(kù)擴(kuò)展方法主要是依據(jù)語(yǔ)義知識(shí)庫(kù)的概念關(guān)系進(jìn)行擴(kuò)展,語(yǔ)義知識(shí)庫(kù)包括HowNet、WordNet、FrameNet等。Hu Xia等[9-10]將短文本原始詞特征以及種子詞特征構(gòu)成層次表示模型,然后借助外部資源來(lái)擴(kuò)展獲取基于種子詞特征的語(yǔ)義信息。文獻(xiàn)[11]考慮了特征之間的語(yǔ)義關(guān)聯(lián),使用基于主題本體的特征擴(kuò)展方法,達(dá)到了較好的分類(lèi)性能?;谥R(shí)庫(kù)擴(kuò)展方法不需在線(xiàn)連接外部知識(shí)庫(kù),雖然省去了聯(lián)網(wǎng)時(shí)間,但需計(jì)算相似度,因此也會(huì)影響分類(lèi)速度。
考慮短文本分類(lèi)推送系統(tǒng)對(duì)分類(lèi)速度的要求,本文提出通過(guò)同義詞對(duì)分類(lèi)器的關(guān)鍵詞庫(kù)進(jìn)行擴(kuò)展,既降低短文本的特征稀疏性,又保證一定的分類(lèi)速度。
在分類(lèi)算法選擇方面,文獻(xiàn)[12]對(duì)SVM算法與權(quán)重和算法作了詳細(xì)對(duì)比分析,認(rèn)為雖然SVM算法針對(duì)短文本分類(lèi)是一種成熟并且性能優(yōu)良的算法,但若采用的訓(xùn)練集規(guī)模較小會(huì)降低了SVM的性能,而權(quán)重和算法在訓(xùn)練集規(guī)模較小的情況下性能卻優(yōu)于SVM算法。TF-IDF權(quán)重和算法[13]通過(guò)計(jì)算待分類(lèi)文本特征詞分別在各個(gè)類(lèi)別中所出現(xiàn)的權(quán)重和,將待分類(lèi)文本所屬類(lèi)別定為權(quán)重和最大的類(lèi)別。TF-IDF權(quán)重和算法簡(jiǎn)單有效,但是權(quán)值分布比較集中,文本區(qū)分度小。因此,本文對(duì)TF-IDF權(quán)重和算法進(jìn)行改進(jìn),提出基于改進(jìn)的TF-IDF權(quán)重的短文本分類(lèi)算法來(lái)解決上述問(wèn)題。
TF-IDF權(quán)重和算法是基本的文本分類(lèi)算法,流程如圖1所示。
圖1 TF-IDF權(quán)重和算法流程
算法主要步驟如下:
1)選取具有確定類(lèi)別的文本數(shù)據(jù)集(訓(xùn)練集),對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)處理。一般包括分詞、去除停用詞、去除特殊符號(hào)等。
2)提取訓(xùn)練集特征值,利用TF-IDF計(jì)算特征值,生成特征向量,形成詞典。
3)通過(guò)分類(lèi)器計(jì)算測(cè)試文本的特征詞在每個(gè)類(lèi)別中所對(duì)應(yīng)的權(quán)重之和,并將最大權(quán)重和對(duì)應(yīng)的類(lèi)別確定為測(cè)試文本的所屬類(lèi)別。
TF-IDF算法涉及到兩個(gè)關(guān)鍵技術(shù),即特征向量空間的形成和權(quán)重選擇,下面分別進(jìn)行闡述。
2.1 向量空間模型
文本表示主要是將文本轉(zhuǎn)換成計(jì)算機(jī)更好地理解、容易處理的形式。常見(jiàn)的文本表示模型主要有3種:布爾模型(Boolean model)[14],概率模型和VSM向量空間模型。向量空間模型[15]是目前應(yīng)用最多且效果較好的方法之一。
向量空間模型(vector space model,VSM)由G.Salton等提出,是當(dāng)前最常用的文本特征表示方法。在該模型中最小的數(shù)據(jù)單元是特征項(xiàng),字、詞和詞組都可以用來(lái)作為特征項(xiàng)進(jìn)行處理。將文本d看作是向量空間中的一個(gè)n維向量,如式(1)所示:
其中:ti表示文本d的第i個(gè)特征項(xiàng);wi表示文本d的第i個(gè)特征項(xiàng)對(duì)應(yīng)的特征權(quán)重。特征權(quán)重的大小表示該特征包含文本類(lèi)別信息的多少。
2.2 TF-IDF權(quán)重
特征提取主要是將文本中能代表并且可以區(qū)分該文本的特征詞提取出來(lái)。進(jìn)行特征提取時(shí),最關(guān)鍵的就是確定特征詞的權(quán)重。目前有很多種計(jì)算特征權(quán)重的方法,包括文檔頻度、互信息、χ2統(tǒng)計(jì)量、信息增益等。
TF-IDF(term frequency-inverse document frequency)的概念被公認(rèn)為信息檢索中最重要的發(fā)明,在搜索、文獻(xiàn)分類(lèi)和其他相關(guān)領(lǐng)域有廣泛的應(yīng)用[16]。TF-IDF函數(shù)作為計(jì)算特征項(xiàng)權(quán)值函數(shù),是在信息檢索領(lǐng)域常用的方式,由Salton首次論證提出。其主要思想為:在特定的文檔中,一個(gè)詞語(yǔ)出現(xiàn)的頻率越高,出現(xiàn)的范圍越小,說(shuō)明該詞區(qū)分文檔內(nèi)容屬性的標(biāo)識(shí)能力越強(qiáng),其權(quán)重自然就越大。計(jì)算公式如下:
其中:count(t)為單詞t在某一領(lǐng)域內(nèi)的文章(一般稱(chēng)為前景語(yǔ)料)中出現(xiàn)的次數(shù);N為實(shí)驗(yàn)的全部語(yǔ)料(一般稱(chēng)為背景語(yǔ)料)的文本總數(shù);n為該詞在背景語(yǔ)料文本中出現(xiàn)的次數(shù)。
TF是詞t在前景語(yǔ)料中出現(xiàn)的頻率,一般來(lái)說(shuō),該值越大,說(shuō)明該詞對(duì)于前景語(yǔ)料來(lái)說(shuō)就越具有代表性。IDF表示的是該詞使用范圍的大小。當(dāng)某個(gè)詞在背景語(yǔ)料中經(jīng)常出現(xiàn)時(shí)(即n很大),就可以認(rèn)為這個(gè)詞是一個(gè)大范圍內(nèi)使用的常用詞,對(duì)于任何領(lǐng)域來(lái)說(shuō)都不具備代表性,所以它的IDF值恰好因?yàn)閚很大而變得很小。
通過(guò)TF和IDF計(jì)算得到特征權(quán)重,可以使表示前景語(yǔ)料特征的單詞獲得高權(quán)值,使常用普通詞獲得低權(quán)值。利用這一特性,將專(zhuān)業(yè)領(lǐng)域文本作為前景語(yǔ)料,普通語(yǔ)料作為背景語(yǔ)料,計(jì)算每個(gè)單詞TF-IDF值,提取權(quán)值最大的前幾項(xiàng)(本文取前100)作為前景語(yǔ)料的文本向量。
如前所述,TF-IDF權(quán)重和算法的最大問(wèn)題在于短文本的特征權(quán)重區(qū)分度不足,究其原因是由于特征權(quán)重的計(jì)算問(wèn)題,因此本文提出改進(jìn)的TFIDF權(quán)重以解決短文本分類(lèi)中的數(shù)據(jù)稀疏性與文本區(qū)分度問(wèn)題。
改進(jìn)的TF-IDF權(quán)重在計(jì)算方式上進(jìn)行如下改進(jìn):首先基于特征長(zhǎng)度進(jìn)行加權(quán),在計(jì)算文本特征權(quán)重時(shí),對(duì)于不同長(zhǎng)度的特征分配不同的權(quán)重系數(shù);然后基于知識(shí)庫(kù)擴(kuò)展,通過(guò)同義詞庫(kù)對(duì)訓(xùn)練集進(jìn)行擴(kuò)展,間接實(shí)現(xiàn)原始文本擴(kuò)展。
3.1 特征長(zhǎng)度加權(quán)
TF-IDF權(quán)重忽略了特征長(zhǎng)度對(duì)類(lèi)別主題的表達(dá)作用的影響。兩個(gè)長(zhǎng)度不同的特征,長(zhǎng)的特征對(duì)于主題的表達(dá)作用明顯要大于短的特征[12]。因此,計(jì)算文本特征權(quán)重時(shí),基于特征長(zhǎng)度進(jìn)行加權(quán),給予長(zhǎng)度更長(zhǎng)的特征分配更大的權(quán)重系數(shù)。特征詞的長(zhǎng)度l和長(zhǎng)度權(quán)重lw的關(guān)系如式(3)所示。
改進(jìn)的TF-IDF權(quán)重計(jì)算公式:
對(duì)式(4)中詞頻項(xiàng)進(jìn)行歸一化處理得到實(shí)際應(yīng)用的公式為:
其中s為特征集的大小。
3.2 訓(xùn)練集擴(kuò)展
由于通過(guò)計(jì)算相似度來(lái)擴(kuò)展原始文本是在分類(lèi)階段進(jìn)行,勢(shì)必要在運(yùn)算性能上付出代價(jià),因此本文考慮在特征提取階段對(duì)訓(xùn)練集進(jìn)行擴(kuò)展,從而間接實(shí)現(xiàn)待分類(lèi)文本的特征擴(kuò)展。具體做法是在實(shí)現(xiàn)類(lèi)別特征向量提取后,從同義詞典中找出所有特征對(duì)應(yīng)的同義詞將其加入類(lèi)別特征向量。
例如,在訓(xùn)練階段,給定某類(lèi)別的特征向量t={ti},根據(jù)同義詞集求出ti所對(duì)應(yīng)的同義詞oi,得到該類(lèi)別對(duì)應(yīng)的同義詞集合o={oi},將o并入該類(lèi)別的特征向量t,最終得到擴(kuò)展訓(xùn)練集t’=在預(yù)測(cè)階段,對(duì)新文本向量p={pi},計(jì)算與訓(xùn)練集t′的交集q=(p∩t)∪(p∩o)。實(shí)際上,p∩o可以看作是對(duì)文本向量p的擴(kuò)展。
基于改進(jìn)的TF-IDF權(quán)重的短文本分類(lèi)推送系統(tǒng)架構(gòu)如圖2所示。系統(tǒng)主要由數(shù)據(jù)預(yù)處理、特征向量提取、反饋、信息推送4部分組成。
圖2 基于改進(jìn)的TF-IDF權(quán)重的短文本分類(lèi)推送系統(tǒng)架構(gòu)
4.1 數(shù)據(jù)預(yù)處理
首先,利用開(kāi)源分詞工具結(jié)巴分詞(https://github.com/fxsjy/jieba/tree/jieba3k)對(duì)文本進(jìn)行分詞并計(jì)算改進(jìn)的TF-IDF權(quán)值,生成特征權(quán)值詞典。通過(guò)正則表達(dá)式去除停用詞以及一些與文本類(lèi)別表現(xiàn)不相干的詞,如日期、數(shù)量詞等。
4.2 特征向量提取
對(duì)于訓(xùn)練集,需要先進(jìn)行同義詞擴(kuò)展,之后才能提取,得到分類(lèi)器。同義詞擴(kuò)展采用了《哈工大信息檢索研究室同義詞詞林?jǐn)U展版》(http://www.ltp-cloud.com/),該詞典共包含77 343條詞語(yǔ)。對(duì)于某一類(lèi)別中本身具有多個(gè)同義詞的情況,取其中的最大權(quán)值作為這些同義詞的權(quán)值。
對(duì)于測(cè)試集文本,取前3 000個(gè)關(guān)鍵詞作為文本的向量表示。
4.3 反饋
待分析文本通過(guò)分類(lèi)器進(jìn)行測(cè)試,得到最終分類(lèi)結(jié)果,并通過(guò)將分類(lèi)結(jié)果反饋回訓(xùn)練集以提高分類(lèi)的準(zhǔn)確度。本文采用人工干預(yù)的方式進(jìn)行反饋,通過(guò)人工判斷后,將分類(lèi)正確的文本加入訓(xùn)練數(shù)據(jù),將分類(lèi)錯(cuò)誤的文本從訓(xùn)練數(shù)據(jù)中刪除,并進(jìn)行再訓(xùn)練。
4.4 信息推送
將每個(gè)類(lèi)別的權(quán)值均值作為推送閾值,待分析文本權(quán)值大于該閾值則進(jìn)行信息推送。
5.1 實(shí)驗(yàn)設(shè)置
本文在實(shí)驗(yàn)數(shù)據(jù)集選擇方面,選擇通過(guò)網(wǎng)頁(yè)爬蟲(chóng)抓取的中新網(wǎng)新聞標(biāo)題數(shù)據(jù)集作為短文本語(yǔ)料。分成5個(gè)類(lèi)別:體育、娛樂(lè)、房產(chǎn)、健康、汽車(chē)。每個(gè)類(lèi)別采集2 000條標(biāo)題。
由于數(shù)據(jù)集樣本高度不均衡,因此在進(jìn)行分類(lèi)結(jié)果的對(duì)比實(shí)驗(yàn)時(shí),采用5折交叉驗(yàn)證(5-fold cross-validation)。即:將數(shù)據(jù)集平均分為5份,取其中4份作為訓(xùn)練集、1份作為測(cè)試集進(jìn)行多次測(cè)試。最終通過(guò)求平均值得到實(shí)驗(yàn)結(jié)果,從而消除實(shí)驗(yàn)結(jié)果的偶然性,同時(shí)也確保測(cè)試集與訓(xùn)練集不會(huì)產(chǎn)生交集。
5.2 評(píng)價(jià)方法
本文采用通用的性能評(píng)價(jià)指標(biāo),分別是準(zhǔn)確率、召回率和F1值。準(zhǔn)確率(Precision,P)等于正確分類(lèi)的文檔數(shù)除以被分類(lèi)器識(shí)別為該類(lèi)的文檔數(shù),召回率(Recall,R)等于正確分類(lèi)的文檔數(shù)除以被測(cè)試的該類(lèi)文檔數(shù)。F1值的計(jì)算公式如下:
另外,為使文本權(quán)值區(qū)分度更大以便于進(jìn)行信息推送,還需要評(píng)價(jià)待分類(lèi)文本集的權(quán)值方差,權(quán)值方差越大,各文本的區(qū)分度就越大,就越利于信息推送。
5.3 實(shí)驗(yàn)結(jié)果與分析
分別采用本文算法(算法1)同原始的權(quán)重和算法(算法2)在準(zhǔn)確率、召回率、F1值以及權(quán)值方差等方面進(jìn)行比較。算法1和算法2的準(zhǔn)確率、召回率、F1值的實(shí)驗(yàn)結(jié)果如圖3所示??梢钥闯鏊惴?和算法2性能相差不大,算法1略?xún)?yōu)于算法2。算法1和算法2的權(quán)值方差如圖4所示。從圖4可以看出:算法1的各個(gè)類(lèi)別的方差明顯較算法2高,更加利于信息的篩選與推送。
在分類(lèi)速度方面,與文獻(xiàn)[9](算法3)進(jìn)行對(duì)比。算法1和算法3對(duì)10 000條新聞標(biāo)題的分類(lèi)時(shí)間分別為4.15 s和8.64 s。算法1進(jìn)行知識(shí)庫(kù)擴(kuò)展是通過(guò)對(duì)分類(lèi)器擴(kuò)展來(lái)間接進(jìn)行的,算法3是分類(lèi)時(shí)直接對(duì)訓(xùn)練文本進(jìn)行擴(kuò)展。實(shí)驗(yàn)數(shù)據(jù)表明:算法3耗費(fèi)更多時(shí)間,算法1更適用于實(shí)時(shí)性要求高的推送系統(tǒng)。
圖3 算法1和算法2的準(zhǔn)確率、召回率、F1值
圖4 算法1和算法3的權(quán)值方差
針對(duì)短文本分類(lèi)中的數(shù)據(jù)稀疏性與文本區(qū)分度問(wèn)題,本文提出改進(jìn)的TF-IDF權(quán)重和算法。實(shí)驗(yàn)結(jié)果表明:該算法雖然在分類(lèi)性能方面沒(méi)有實(shí)現(xiàn)大的提升,但該算法通過(guò)同義詞庫(kù)對(duì)分類(lèi)器進(jìn)行擴(kuò)展和基于特征長(zhǎng)度對(duì)短文本權(quán)值進(jìn)行加權(quán),增加了各文本的區(qū)分度,從而使得推送的文本更符合用戶(hù)的需求。本文在知識(shí)庫(kù)擴(kuò)展上沒(méi)有采用直接擴(kuò)展,因此獲得了速度優(yōu)勢(shì),但并未實(shí)現(xiàn)準(zhǔn)確率提升。分析原因是從網(wǎng)絡(luò)上采集的新聞標(biāo)題短文本語(yǔ)料,包含大量網(wǎng)絡(luò)用語(yǔ)和縮略詞等,導(dǎo)致系統(tǒng)不能準(zhǔn)確分詞,進(jìn)而不能準(zhǔn)確提取特征向量。下一步工作將完善用戶(hù)詞典,使得分詞更準(zhǔn)確,從而減小分詞不準(zhǔn)確對(duì)分類(lèi)系統(tǒng)性能的影響。
[1] 馬成龍,姜亞松,李艷玲,等.基于詞矢量相似度的短文本分類(lèi)[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(12):18-22.
[2] ANH V N,MOFFAT A.Improved word-aligned binary compression for text indexing[J].IEEE Transactions on Knowledge&Data Engineering,2006(6):857-861.
[3] SHIEHW Y,CHUNGCP.A statistics-based approach to incrementally update inverted files[J].Information processing&management,2005,41(2):275-288.
[4] KOBAYASHIM,TAKEDA K.Information retrieval on the web[J].ACM Computing Surveys(CSUR),2000,32(2):144-173.
[5] FERRAGINA P,SCAIELLA U.Tagme:on-the-fly annotation of short text fragments(by wikipedia entities)[C]//Proceedings of the 19th ACM international conference on Information and knowledge management.[S.l.]:ACM,2010:1625-1628.
[6] BOLLEGALA D,MATSUO Y,ISHIZUKA M M.Measuring semantic similarity between words using web search engines[J].International Conference on World Wide Web,2007(7):757-766.
[7] GABRILOVICH E,MARKOVITCH S.Computing Semantic Relatedness Using Wikipedia-based Explicit Semantic Analysis[C]//IJCAI.India:[s.n.],2007:1606-1611.
[8] BANERJEE S,RAMANATHAN K,GUPTA A.Clustering short texts using wikipedia[C]//Proceedings of the 30th annual international ACM SIGIR conference on Research and development in information retrieval.Amsterdam:ACM,2007:787-788.
[9] HU X,SUN N,ZHANG C,et al.Exploiting internal and external semantics for the clustering of short texts using world knowledge[C]//Proceedings of the18th ACM conference on Information and knowledge management.Hong Kong:ACM,2009:919-928.
[10]HU X,TANG L,LIU H.Enhancing accessibility of microblogging messages using semantic knowledge[C]//Proceedings of the 20th ACM international conference on Information and knowledge management.Glasgow:ACM,2011:2465-2468.
[11]湛燕,陳昊.基于主題本體擴(kuò)展特征的短文本分類(lèi)[J].河北大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,34(3):307-311.
[12]王海濤,趙艷瓊,岳磅.基于標(biāo)題的中文新聞分類(lèi)研究Research of Chinese News Classification Based on Titles[J].Hans Journal of Data Mining,2013(3):33.
[13]徐易.基于短文本的分類(lèi)算法研究[D].上海:上海交通大學(xué),2010.
[14]COOPER W S.Getting beyond boole[J].Information Processing&Management,1988,24(3):243-248.
[15]SALTON G,WONG A,YANG C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620.
(責(zé)任編輯楊黎麗)
Short Text Classification Algorithm Based on Improved TF-IDFW eight
YANG Bin1,HAN Qing-wen1,LEIMin2,ZHANG Ya-peng2,LIU Xiang-guo2,YANG Ya-qiang2,MA Xue-feng2
(1.College of Communication Engineering,Chongqing University,Chongqing 400030,China;(2.Discarbonry Technology,Chongqing 40000,China)
The short text is characterized by sparse features.If TF-IDF weights algorithm is adopted to select features,many professional features,which are not seen in the training set,would be ignored.So the text to be classified,whose weight distribution is relatively concentrated,has very small distinction.And then the information push would be affected.Therefore,Short text classification algorithm based on improved TF-IDF weight is proposed.The algorithm enhanced the variance of weights by two measures.On the one hand,keywords in classifier are extended by synonyms.On the other hand,the weight of the short text is adjusted based on the feature length.Compared with direct extension of text to be classified,the algorithm has faster classification speed.
short text;TF-IDFweight;feature extension
TP391
A
1674-8425(2016)12-0108-06
10.3969/j.issn.1674-8425(z).2016.12.017
2015-10-10
國(guó)家自然科學(xué)基金青年基金資助項(xiàng)目(41404027)
楊彬(1983—),男,重慶人,碩士研究生,主要從事數(shù)據(jù)挖研究,E-mail:1556917794@qq.com。
楊彬,韓慶文,雷敏,等.基于改進(jìn)的TF-IDF權(quán)重的短文本分類(lèi)算法[J].重慶理工大學(xué)學(xué)報(bào)(自然科學(xué)),2016(12):108-113.
format:YANG Bin,HAN Qing-wen,LEI Min,et al.Short Text Classification Algorithm Based on Improved TF-IDF Weight[J].Journal of Chongqing University of Technology(Natural Science),2016(12):103-113.