袁 磊
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)
基于改進(jìn)CHI特征選擇的情感文本分類(lèi)研究*
袁 磊
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,安徽 合肥 230009)
為了提高情感文本分類(lèi)的準(zhǔn)確率,對(duì)英文情感文本不同的預(yù)處理方式進(jìn)行了研究,同時(shí)提出了一種改進(jìn)的卡方統(tǒng)計(jì)量(CHI)特征提取算法??ǚ浇y(tǒng)計(jì)量是一種有效的特征選擇方法,但分析發(fā)現(xiàn)存在負(fù)相關(guān)現(xiàn)象和傾向于選擇低頻特征詞的問(wèn)題。為了克服不足之處,在考慮到詞頻、集中度和分散度等因素的基礎(chǔ)上,考慮文本的長(zhǎng)短不均衡和特征詞分布,對(duì)詞頻進(jìn)行歸一化,提出了一種改進(jìn)的卡方統(tǒng)計(jì)量特征提取算法。利用經(jīng)典樸素貝葉斯和支持向量機(jī)分類(lèi)算法在均衡語(yǔ)料、非均衡語(yǔ)料和混合長(zhǎng)短文本語(yǔ)料上實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:新的方法提高了情感文本分類(lèi)的準(zhǔn)確率。
情感分類(lèi); 預(yù)處理; 卡方統(tǒng)計(jì)量; 特征選擇
互聯(lián)網(wǎng)的普及和用戶的增加極大促進(jìn)了電子商務(wù)的發(fā)展。和傳統(tǒng)的購(gòu)物不同,由于地域的局限性,用戶缺少線下的體驗(yàn),對(duì)商品的質(zhì)量和賣(mài)家的情況不是很了解,更傾向于先看網(wǎng)絡(luò)評(píng)論然后再做購(gòu)買(mǎi)決策。同時(shí)生產(chǎn)廠商為了解用戶需求,提高產(chǎn)品質(zhì)量,需要了解用戶對(duì)產(chǎn)品的購(gòu)買(mǎi)喜好和使用后的評(píng)價(jià)意見(jiàn),過(guò)去通常通過(guò)社會(huì)調(diào)查或人工手段分析這些信息,然而隨著互聯(lián)網(wǎng)信息爆發(fā)性地增長(zhǎng),傳統(tǒng)人工的手段已經(jīng)無(wú)法滿足快速變化的市場(chǎng)需求。因此,如何快速自動(dòng)地識(shí)別龐大的評(píng)價(jià)數(shù)據(jù)其中表達(dá)的對(duì)人物、事件、產(chǎn)品等的情感信息,判斷用戶的情感傾向,獲取需要的有用信息,已成為當(dāng)前的迫切需求。
文本情感分析就是在這樣的背景下應(yīng)運(yùn)而生。與傳統(tǒng)的文本信息處理不同,文本情感分析所關(guān)注的是文本所體現(xiàn)出作者的情感信息,而不是文本描述表示的內(nèi)容。文本情感分析又稱為意見(jiàn)挖掘,是指通過(guò)計(jì)算機(jī)技術(shù)對(duì)帶有情感色彩的文本進(jìn)行主客觀性分析處理,歸納和推理得到文本的情感傾向性的過(guò)程[1]。
現(xiàn)有的文本情感分析工作主要可以主要分為兩個(gè)方向,基于情感知識(shí)的方法和基于機(jī)器學(xué)習(xí)的方法[2]。前者主要是依靠一些已有的情感詞典或領(lǐng)域詞典以及主觀文本中帶有情感極性的組合評(píng)價(jià)單元進(jìn)行計(jì)算,來(lái)獲取情感文本的情感極性;后者主要是使用機(jī)器學(xué)習(xí)的方法,對(duì)文本大量特征選擇和訓(xùn)練模型 ,然后根據(jù)訓(xùn)練出的模型完成文本分類(lèi)工作。本文采用機(jī)器學(xué)習(xí)的方法進(jìn)行文本情感分類(lèi)的研究。
文本情感分類(lèi)前,需要將文本表示成計(jì)算機(jī)可以識(shí)別的方式。目前,文本文檔通常采用向量空間模型[2](VSM), VSM中一個(gè)文檔有多維的向量構(gòu)成,每個(gè)向量是一個(gè)特征項(xiàng),即文本中的單詞或短語(yǔ)。如果直接將文本中所有的詞作為特征項(xiàng),會(huì)導(dǎo)致文本的空間向量維度過(guò)大,造成文本稀疏并且包含大量的噪聲。合理的特征選擇,不僅減少了分類(lèi)時(shí)間,而且去除冗余的信息,提高了分類(lèi)精度,所以特征選擇對(duì)文本情感分類(lèi)至關(guān)重要。常用的特征選擇算法有:文檔頻率(document frequency,DF),信息增益(information gain,IG),互信息(mutual information,MI ),卡方統(tǒng)計(jì)量(Chi-square statistic,CHI),期望交叉熵( expected cross entropy,ECE)等。
許多學(xué)者近年來(lái)傾向于研究特征選擇問(wèn)題,李杰[3]對(duì)語(yǔ)音情感識(shí)別當(dāng)中的特征進(jìn)行了概述;程廣濤[4]對(duì)圖像領(lǐng)域的HOG特征進(jìn)行了研究;Yang教授[5]針對(duì)文本分類(lèi)問(wèn)題,在分析和比較了IG,DF,MI和 CHI等特征選擇方法后,得出IG 和CHI方法分類(lèi)效果相對(duì)較好的結(jié)論。IG相對(duì)于其他方法計(jì)算量比較大,本文將主要對(duì)卡方統(tǒng)計(jì)量CHI進(jìn)行研究和改進(jìn)。熊忠陽(yáng)[6]分析了卡方統(tǒng)計(jì)量的不足,并提出將頻度、集中度、分散度應(yīng)用到卡方統(tǒng)計(jì)方法上,對(duì)卡方統(tǒng)計(jì)進(jìn)行改進(jìn);裴英博[7]提出了一種改進(jìn)的CHI統(tǒng)計(jì)權(quán)重計(jì)算方法,引入了新的頻度、相關(guān)度和分散度3個(gè)計(jì)算因子,提高了CHI統(tǒng)計(jì)方法在不均衡數(shù)據(jù)集上的表現(xiàn);王光[8]集合CHI與IG兩種算法的優(yōu)點(diǎn),得到一種集合特征選擇方法CCIF;邱云飛[9]在原有的卡方特征選擇的方法上通過(guò)增加3個(gè)調(diào)節(jié)參數(shù)以調(diào)節(jié)模型中特征項(xiàng)的權(quán)重,使得新的特征加權(quán)模型傾向于選擇集中分布在某一類(lèi)里的特征項(xiàng);徐明[10]通過(guò)對(duì)微博文本特征信息的分析與研究,改進(jìn)卡方統(tǒng)計(jì)量使其適合微博的特征提??;肖雪[11]提出最低頻CHI選擇算法,彌補(bǔ)卡方特征選擇對(duì)低頻詞的偏袒;Jin[12]將詞頻和詞的分布區(qū)間引入到CHI特征選擇算法,提高了文本分類(lèi)的宏平均和微平均。
前述對(duì)卡方統(tǒng)計(jì)量改進(jìn)都是對(duì)傳統(tǒng)文本分類(lèi)的改進(jìn),本文研究了不同預(yù)處理對(duì)英文評(píng)論語(yǔ)料情感分類(lèi)的影響,同時(shí)研究傳統(tǒng)卡方統(tǒng)計(jì)量特征提取的方法對(duì)情感分類(lèi)結(jié)果的影響,并且分析卡方統(tǒng)計(jì)量的不足,在考慮到詞頻、集中度和分散度等因素的基礎(chǔ)上,考慮文本的長(zhǎng)短不均衡和特征詞分布,對(duì)詞頻進(jìn)行歸一化,提出基于改進(jìn)的卡方統(tǒng)計(jì)量特征選擇算法。最后,用樸素貝葉斯和支持向量機(jī)在均衡語(yǔ)料、非均衡語(yǔ)料、混合長(zhǎng)度語(yǔ)料上分別進(jìn)行情感分類(lèi)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示,改進(jìn)的特征提取方法提高了分類(lèi)的效果。
2.1 卡方統(tǒng)計(jì)量
卡方統(tǒng)計(jì)量衡量的是特征項(xiàng)t和類(lèi)別ci之間的相關(guān)程度。假設(shè)特征t和類(lèi)別ci之間符合具有一階自由度的卡方分布,特征t對(duì)于類(lèi)ci的卡方值越高,攜帶的類(lèi)別信息越多,其與該類(lèi)之間的相關(guān)性越大。特征項(xiàng)t對(duì)于文檔類(lèi)別ci的CHI 值算法式(1)如下
(1)
式中 N=A+B+C+D;ci為某一特定類(lèi)別;t為特定的特征項(xiàng);A為屬于類(lèi)別ci且包含特征項(xiàng)t的文檔頻數(shù);B為不屬于類(lèi)別ci但包含特征項(xiàng)t的文檔頻數(shù);C為屬于類(lèi)別ci但不包含特征項(xiàng) t的文檔頻數(shù);D為既不屬于類(lèi)別ci也不包含特征項(xiàng)t的文檔頻數(shù);N為訓(xùn)練語(yǔ)料中的文檔總數(shù)。
式(1)的結(jié)果反映了特征項(xiàng)t和文檔類(lèi)別ci之間的相關(guān)程度。統(tǒng)計(jì)值越大,特征項(xiàng)t和文檔類(lèi)別越相關(guān);當(dāng)CHI(t,ci)=0,表示特征項(xiàng)t和文檔類(lèi)別ci是相互獨(dú)立的。
2.2 卡方統(tǒng)計(jì)量分析和改進(jìn)
Yang[5]的研究表明,CHI特征選擇方法相對(duì)于傳統(tǒng)的特征選擇方法效果要好,但仍然存在一些問(wèn)題:
1)卡方統(tǒng)計(jì)量衡量的是特征項(xiàng)t和類(lèi)別ci之間的相關(guān)程度,特征項(xiàng)對(duì)于某類(lèi)的卡方值越高,其與該類(lèi)之間的相關(guān)性越大,攜帶的類(lèi)別信息越多。分析式(1),當(dāng)AD-BC>0時(shí),說(shuō)明特征項(xiàng)t和類(lèi)別ci正相關(guān),即特征項(xiàng)可能出現(xiàn)在類(lèi)別ci中,CHI統(tǒng)計(jì)量越大,說(shuō)明特征項(xiàng)t和類(lèi)別ci的相關(guān)程度越大,可以作為特征選擇的特征項(xiàng);當(dāng)AD-BC<0時(shí),說(shuō)明類(lèi)別和特征項(xiàng)呈負(fù)相關(guān),此時(shí)計(jì)算出的CHI統(tǒng)計(jì)量的值越大,反而特征項(xiàng)t和類(lèi)別成負(fù)相關(guān)程度越大。文獻(xiàn)[13]指出,文本分類(lèi)中,特征的重要性主要是由正相關(guān)因素決定的,此時(shí)的特征項(xiàng)t,不適合保留。所以,當(dāng)AD-BC<0時(shí),將此時(shí)特征項(xiàng)t的CHI置為0,在計(jì)算中不予考慮。
2)卡方統(tǒng)計(jì)方法只考慮了特征項(xiàng)出現(xiàn)的文檔頻數(shù),而沒(méi)有考慮到詞頻的影響,夸大了低頻詞的作用。如果一個(gè)特征項(xiàng)t只在某一類(lèi)的少量文檔中頻繁出現(xiàn),則計(jì)算出來(lái)的卡方統(tǒng)計(jì)量的值比較小,有可能在特征選擇的時(shí)候被排除掉。但該特征項(xiàng)可能在某一類(lèi)中具有很好的區(qū)分性。
針對(duì)此問(wèn)題,將特征項(xiàng)的頻度考慮到卡方統(tǒng)計(jì)量的計(jì)算當(dāng)中,但以前的工作[5~11]沒(méi)有考慮到每篇文檔長(zhǎng)度的不一致,實(shí)際的評(píng)論文本中,文本的長(zhǎng)度差異可能很大。為此考慮文檔的長(zhǎng)度,提出對(duì)每篇文檔的詞頻進(jìn)行歸一化方法。設(shè)訓(xùn)練文本中類(lèi)別有類(lèi)別C={C1,C2,…,Cm};訓(xùn)練集中類(lèi)別Ci中有文本Ci={di1,di2…din};特征項(xiàng)t在文本dij(1≤j≤n)出現(xiàn)的頻度為tfij;dfij表示文本dij(1≤j≤n)中特征詞的個(gè)數(shù);Ni表示類(lèi)別Ci的文檔總數(shù)。則特征項(xiàng)t在類(lèi)別Ci中出現(xiàn)的歸一化長(zhǎng)度頻度 (normalizedlengthfrequency,NLF)表達(dá)式如下
(2)
在一個(gè)類(lèi)中不僅詞頻大小,還考慮詞頻的分布,一個(gè)特征項(xiàng)t在類(lèi)別ci中的分布越均勻比集中分布要更有價(jià)值,更值得保留。提出詞頻分布(frequencydistribution,FD),采用式(5)衡量分布
(3)
式中 α為很小的一個(gè)數(shù),實(shí)驗(yàn)中將α設(shè)為0.001。
FD反映特征項(xiàng)t在類(lèi)別中的詞頻分布,F(xiàn)D越小,說(shuō)明特征項(xiàng)詞頻在類(lèi)別ci分布越均勻,特征更有價(jià)值。綜合考慮詞頻在文本中的歸一化詞頻和詞在類(lèi)中的分布,形成歸一化詞頻 (normalizedfrequency,NF)表達(dá)為
(4)
引入此公式主要解決卡方統(tǒng)計(jì)量只考慮文本的頻數(shù),而沒(méi)有考慮詞頻的問(wèn)題。同時(shí)考慮到實(shí)際當(dāng)中文本長(zhǎng)度的不同和FD,對(duì)詞頻進(jìn)行了歸一化的處理,通過(guò)式(4)計(jì)算得到特征t對(duì)類(lèi)ci的NF。
3)為了使改進(jìn)的算法適合不均衡情感文本分類(lèi),將文獻(xiàn)[8]中闡述的集中度和分散度引入到卡方特征計(jì)算中。集中度 (concentrationinformation,CI)越大說(shuō)明特征越集中在某一類(lèi)當(dāng)中,特征項(xiàng)越有價(jià)值。分散度 (distributioninformation,DI)表示一個(gè)特征項(xiàng)是否在一個(gè)類(lèi)中均勻分布,DI越大表示該特征項(xiàng)在一個(gè)類(lèi)中的分布越廣。假設(shè)A表示含有此特征t的類(lèi)ci的文檔數(shù),B表示含有特征項(xiàng)t,但不屬于ci類(lèi)的文檔數(shù),C表示不含有特征項(xiàng)t的類(lèi)ci文檔數(shù)。集中度CI和分散度DI分別表示為
(5)
(6)
改進(jìn)后的算法,考慮到詞頻和FD,更加傾向于選擇特征詞出現(xiàn)的NF多,且均勻分布在一個(gè)類(lèi)的特征,同時(shí)去對(duì)負(fù)相關(guān)的情況進(jìn)行了處理,改進(jìn)后的詞頻歸一化卡方統(tǒng)計(jì)量(normalizedfrequencyChi-squarestatistic,NF-CHI)特征提取算法,其計(jì)算式如下
(7)
3.1 實(shí)驗(yàn)數(shù)據(jù)設(shè)置與流程
實(shí)驗(yàn)數(shù)據(jù)與工具:對(duì)于中文文本分類(lèi)存在分詞問(wèn)題,分詞的準(zhǔn)確率會(huì)影響分類(lèi)的結(jié)果,而英文一個(gè)單詞就可以表示一個(gè)特征項(xiàng),不會(huì)因?yàn)榉衷~對(duì)文本分類(lèi)的結(jié)果造成影響,所以選擇英文電影評(píng)論語(yǔ)料。選擇斯坦福學(xué)者采集的英文電影評(píng)論語(yǔ)料[15],其中包含12 500個(gè)正向情感語(yǔ)料,12 500個(gè)負(fù)向情感語(yǔ)料。
情感分類(lèi)一般包括預(yù)處理、特征選擇、特征表示、特征加權(quán)、分類(lèi)訓(xùn)練和分類(lèi)結(jié)果衡量。對(duì)英文文本進(jìn)行預(yù)處理,包括去除停詞、詞形還原(lemmatization)和詞根還原(stemming)。詞形還原是把一個(gè)任何形式的語(yǔ)言詞匯還原為一般形式(能表達(dá)完整語(yǔ)義),例如將“drove”處理為“drive”,在根據(jù)停詞詞典去除停詞;詞根還原指抽取詞的詞干或詞根形式,例如將“effective”處理為“effect”,本文將對(duì)預(yù)處理的方式進(jìn)行研究,找到最佳的預(yù)處理方式。
進(jìn)行特征選擇,采用傳統(tǒng)的卡方特征統(tǒng)計(jì)量(CHI)與本文提出的NF-CHI特征選擇算法。本文使用文本分類(lèi)中常用的TF-IDF權(quán)重算法計(jì)算向量中各特征詞的權(quán)重值。
本文采用Weka3.6數(shù)據(jù)挖掘開(kāi)源工具進(jìn)行文本分類(lèi)驗(yàn)證,輸入各文檔的特征權(quán)重值文件。分別采用樸素貝葉斯 (naive Bayes,NB) 算法和支持向量機(jī)(SVM)算法進(jìn)行分類(lèi)實(shí)驗(yàn)。在平臺(tái)的設(shè)置中,采用十折交叉驗(yàn)證,即將數(shù)據(jù)集分成10份,輪流將其中的9份作為訓(xùn)練語(yǔ)料,1份作為測(cè)試語(yǔ)料,最后輸出平均得到的結(jié)果。
3.2 實(shí)驗(yàn)效果評(píng)價(jià)標(biāo)準(zhǔn)
文本分類(lèi)的性能評(píng)價(jià)指標(biāo)主要是召回率R準(zhǔn)確率P和F值(F1-measure)。
假定:類(lèi)別ci的分類(lèi)結(jié)果中,a為分類(lèi)器將輸入文本正確地分類(lèi)到類(lèi)別的個(gè)數(shù),b為分類(lèi)器將輸入文本錯(cuò)誤地分到了某個(gè)類(lèi)別的個(gè)數(shù),c為分類(lèi)器將輸入文本錯(cuò)誤地排除在某個(gè)類(lèi)別之外的個(gè)數(shù)。具體公式如下
(8)
(9)
(10)
3.3 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)1,不同預(yù)處理對(duì)文本分類(lèi)結(jié)果的影響,對(duì)英文文本的預(yù)處理包括去停詞,詞形還原,詞根還原。首先定義以下4個(gè)數(shù)據(jù)集:數(shù)據(jù)集DN0,原始語(yǔ)料不進(jìn)行任何處理;數(shù)據(jù)集DN1,在數(shù)據(jù)集DN0基礎(chǔ)上進(jìn)行詞形還原;數(shù)據(jù)集DN2,在數(shù)據(jù)集DN1基礎(chǔ)上進(jìn)行去除停詞操作;數(shù)據(jù)集DN3,在數(shù)據(jù)集DN2基礎(chǔ)上進(jìn)行詞根還原。從語(yǔ)料庫(kù)中選擇2 000篇正向語(yǔ)料,2 000篇負(fù)向語(yǔ)料,采用CHI提取400維特征,采用TF-IDF權(quán)重算法加權(quán),分別SVM進(jìn)行分類(lèi),其準(zhǔn)確率見(jiàn)表1。
表1 不同預(yù)處理SVM分類(lèi)器下的準(zhǔn)確率
從表1中可以看出:采用DN3的數(shù)據(jù)集的準(zhǔn)確率最高,即對(duì)數(shù)據(jù)集進(jìn)行詞形還原、去除停詞和詞根還原,后面的實(shí)驗(yàn)將采用此方案對(duì)實(shí)驗(yàn)進(jìn)行預(yù)處理。
實(shí)驗(yàn)2,基于均衡語(yǔ)料的對(duì)比實(shí)驗(yàn)。從語(yǔ)料庫(kù)中選擇2 000篇正向語(yǔ)料,2 000篇負(fù)向語(yǔ)料,分別采用的傳統(tǒng)的CHI和本文提出的NF-CHI特征提取算法提取400維特征,采用TF-IDF權(quán)重算法加權(quán),分別SVM進(jìn)行分類(lèi),結(jié)果如表2。
表2 400維度SVM分類(lèi)器下兩種方法對(duì)比 %
根據(jù)表2可以看出:改進(jìn)的NF-CHI特征提取算法相比傳統(tǒng)的CHI特征提取算法在提取400維特征時(shí),改進(jìn)的算法SVM分類(lèi)的效果平均準(zhǔn)確率P,平均召回率R和平均的F值都有一定的提高。說(shuō)明改進(jìn)的CHI提高了情感文本分類(lèi)的準(zhǔn)確率。
實(shí)驗(yàn)3,改進(jìn)的NF-CHI方法和傳統(tǒng)CHI的特征提取的方法在不同維度下對(duì)比實(shí)驗(yàn)。選取正負(fù)情感語(yǔ)料各2 000篇,采用SVM分類(lèi)器,分別在不同維度下進(jìn)行改進(jìn)的卡方特征提取算法和傳統(tǒng)的卡方特征提取算法進(jìn)行實(shí)驗(yàn),最后進(jìn)行準(zhǔn)確率的比較,實(shí)驗(yàn)結(jié)果如圖1。
圖1 不同維度下SVM分類(lèi)器的準(zhǔn)確率
從圖1看出:采用SVM分類(lèi)時(shí),采用NF-CHI特征選擇后的分類(lèi)的準(zhǔn)確率比傳統(tǒng)的CHI的準(zhǔn)確率有小幅提升。在維度為800時(shí)提升最大,達(dá)到0.8 %,準(zhǔn)確率最高達(dá)到90.6 %。說(shuō)明改進(jìn)的CHI提高了情感文本分類(lèi)的準(zhǔn)確率。
實(shí)驗(yàn)4,基于不均衡語(yǔ)料的對(duì)比實(shí)驗(yàn)。一般真實(shí)評(píng)論中正向的評(píng)論大于負(fù)向的語(yǔ)料,實(shí)驗(yàn)選擇2 000篇正向語(yǔ)料。1 000篇負(fù)向語(yǔ)料,使用NB分類(lèi)器分類(lèi),在不同維度下進(jìn)行NF-CHI特征提取算法和傳統(tǒng)的CHI特征選擇進(jìn)行比較。不同維度的F值見(jiàn)實(shí)驗(yàn)結(jié)果圖2。
圖2 不均衡語(yǔ)料下NB分類(lèi)器F值
從圖2中看出:改進(jìn)后的特征選擇算法分類(lèi)的F值普遍比傳統(tǒng)的CHI要高,開(kāi)始隨著特征維度的增加F值提高,當(dāng)維度達(dá)到300,出現(xiàn)過(guò)擬合現(xiàn)象,傳統(tǒng)CHI文本的分類(lèi)F值反而下降;但改進(jìn)的NF-CHI特征選擇后的分類(lèi)的F值仍然上升,到700維的時(shí)候達(dá)到峰值,此時(shí)F值為84.7 %。通過(guò)圖2看出改進(jìn)的NF-CHI的下降幅度更小,表明改進(jìn)的算法更加穩(wěn)定。維度在700維,本文提出的方法F值比傳統(tǒng)的CHI提高了1.4 %。實(shí)驗(yàn)結(jié)果表明,本文提出的NF-CHI算法對(duì)非均衡語(yǔ)料同樣有效。
實(shí)驗(yàn)5,基于混合長(zhǎng)短文本語(yǔ)料的對(duì)比實(shí)驗(yàn)。為了驗(yàn)證改進(jìn)NF-CHI特征提取算法對(duì)文本長(zhǎng)短差異較大的語(yǔ)料同樣適用,分別從正負(fù)向情感的12 500篇語(yǔ)料庫(kù)中人工取出1 000篇長(zhǎng)文本與1 000篇短文本,選取結(jié)果中其中長(zhǎng)文本最短含有468單詞,短文本最多含有的單詞數(shù)為109個(gè)。使用SVM分類(lèi)器進(jìn)行分類(lèi),在不同特征選擇維度下進(jìn)行分類(lèi)準(zhǔn)確率對(duì)比。實(shí)驗(yàn)結(jié)果見(jiàn)圖3所示。
圖3 混合長(zhǎng)短文本語(yǔ)料的SVM分類(lèi)器的準(zhǔn)確率
從圖3中看出:本文提出的NF-CHI特征提取算法進(jìn)行分類(lèi)的準(zhǔn)確率普遍高于傳統(tǒng)的CHI, 隨著維度的增加,分類(lèi)效果提高,在維度達(dá)到1 400時(shí),本文提出的NF-CHI準(zhǔn)確率達(dá)到88.8 %。實(shí)驗(yàn)證明,本文提出的NF-CHI算法對(duì)混合長(zhǎng)短文本的語(yǔ)料同樣有效。
本文對(duì)情感文本分類(lèi)的研究中,針對(duì)英文不同的預(yù)處理方式進(jìn)行研究,發(fā)現(xiàn)采用詞形還原,去除停詞,詞根還原的預(yù)處理方式準(zhǔn)確率最高,同時(shí)針對(duì)CHI特征提取算法存在負(fù)相關(guān)現(xiàn)象以及傾向于選擇低頻特征詞的問(wèn)題。本文考慮詞頻和詞頻的分布,提出一種NF,并過(guò)濾掉負(fù)相關(guān)的詞,引入集中度和分散度的因素,得到一種改進(jìn)的卡方特征選擇算法。最后采用NB和SVM算法對(duì)均衡語(yǔ)料,非均衡語(yǔ)料和混合長(zhǎng)短文本的語(yǔ)料上分別進(jìn)行分類(lèi)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:相比傳統(tǒng)的卡方特特征提取算法本文提出的方法提高了情感文本分類(lèi)準(zhǔn)確率。后續(xù)的工作中,對(duì)情感進(jìn)行多層次的分類(lèi),并嘗試融入語(yǔ)義層次上的特征,進(jìn)一步地提高情感分類(lèi)的準(zhǔn)確度。
[1] 楊立公,朱 儉,湯世平.文本情感分析綜述[J].計(jì)算機(jī)應(yīng)用,2013,33(6):1574-1607.
[2] 趙妍妍,秦 兵,劉 挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.
[3] 李 杰,周 萍.語(yǔ)音情感識(shí)別中特征參數(shù)的研究進(jìn)展[J].傳感器與微系統(tǒng),2012,31(2):4-7.
[4] 程廣濤,陳 雪,郭照莊.基于HOG特征的行人視覺(jué)檢測(cè)方法[J].傳感器與微系統(tǒng),2011,30(7):68-70.
[5] Yang Y,Pedersen J O.A comparative study on feature selection in text categorization[C]∥Proceedings of the Fourteenth Internatio-nal Conference on Machine Learning,Morgan Kaufmann Publi-shers Inc,1997:412-420.
[6] 熊忠陽(yáng),張鵬招,張玉芳.基于χ2統(tǒng)計(jì)的文本分類(lèi)特征選擇方法的研究[J].計(jì)算機(jī)應(yīng)用,2008,28(2):513-514.
[7] 裴英博,劉曉霞.文本分類(lèi)中改進(jìn)型CHI特征選擇方法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(4):128-130.
[8] 王 光,邱云飛,史慶偉.集合CHI與IG的特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(7):2454-2456.
[9] 邱云飛,王 威,劉大有,等.基于方差的CHI特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(4):1304-1306.
[10] 徐 明,高 翔,許志剛,等.基于改進(jìn)卡方統(tǒng)計(jì)的微博特征提取方法[J].計(jì)算機(jī)工程與應(yīng)用,2014(19):113-117.
[11] 肖 雪,盧建云,余 磊,等.基于最低詞頻CHI的特征選擇算法研究[J].西南大學(xué)學(xué)報(bào):自然科學(xué)版,2015(6):137-142.
[12] Jin C,Ma T,Hou R,et al.Chi-square statistics feature selection based on term frequency and distribution for text categoriza-tion[J].IETE Journal of Research,2015,61(4):1-12.
[13] Galavotti L,Sebastiani F,Simi M.Experiments on the use of feature selection and negative evidence in automated text categorization[C]∥Proceedings of the 4th European Conference on Research and Advanced Technology for Digital Libraries,Springer-Verlag,2000:59-68.
[14] Maas A L,Daly R E,Pham P T,et al.Learning word vectors for sentiment analysis[C]∥Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies,Association for Computational Linguistics,2011:142-150.
Study on sentiment text classification based on improved CHI feature selection*
YUAN Lei
(School of Computer and Information,Hefei University of Technology,Hefei 230009,China)
In order to improve the accuracy of sentiment text classification,different preprocessing methods of the sentiment of English text is studied,and an improved algorithm of Chi-square statistic(CHI)feature extraction is put forward.CHI is one of the most efficient feature selection methods,but there are two weaknesses,negative correlation phenomenon and tend to choose low-frequency feature words.In order to overcome these two shortcomings,on the basis of taking into account factors of word frequency,concentration information and dispersion information,considering the length of the text is not balanced and the distribution of feature words,word frequency is normalized,CHI feature extraction algorithm is proposed.Using classical naive Bayes and support vector machine(SVM)classification algorithms experiments is carried out on balanced corpus,imbalanced corpus and mixed-length corpus,and experimental results show that the new method improves accuracy of sentiment text classification.
sentiment classification; preprocessing; Chi-square statistic(CHI); feature selection
10.13873/J.1000—9787(2017)05—0047—05
2016—05—19
國(guó)家自然科學(xué)基金重點(diǎn)資助項(xiàng)目(61432004);安徽省自然科學(xué)基金資助項(xiàng)目(1508085QF119);中國(guó)博士后基金資助項(xiàng)目(2015M580532);模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題資助項(xiàng)目(201407345)
TP 391
A
1000—9787(2017)05—0047—05
袁 磊(1991-),男,通訊作者,碩士,研究方向?yàn)閿?shù)據(jù)挖掘,Email:yuanlei_uestc@163.com。