閻亞亞
摘要:電商市場(chǎng)日益完善,網(wǎng)絡(luò)購(gòu)物成為更多人的消費(fèi)方式,用戶在電商平臺(tái)上保留了大量的產(chǎn)品評(píng)論信息,通過人工對(duì)文本評(píng)論情感分類任務(wù)愈加艱巨,文本情感的自動(dòng)分類作為自然語(yǔ)言處理技術(shù)的重要一門,近年來受到各界的廣泛關(guān)注。本文首先對(duì)京東網(wǎng)頁(yè)上爬取的某商品評(píng)論文本做預(yù)處理,重點(diǎn)研究詞袋模型和TF-IDF兩種文本特征選擇方法下不同文本分類算法的分類效果,研究結(jié)果表明TF-IDF下的文本分類效果顯著優(yōu)于詞袋模型。
關(guān)鍵詞:詞袋模型;TF-IDF;文本分類
中圖分類號(hào):TP391.1? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2021)28-0138-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Comparative Study of Word-bag Models and TF-IDF in Text Classification
YAN Ya-ya
(Chongqing Industrial and Commercial University, Chongqing 400067,China)
Absrtact: E-commerce market is becoming more and more perfect, online shopping has become more and more people's consumption mode, users have retained a large number of product comment information on the e-commerce platform, through manual text comment emotional classification task is becoming more and more arduous. As an important natural language processing technology, text emotion automatic classification has attracted wide attention in recent years. This paper first preprocesses the text of a commodity comment crawling on the JingDong web page, focusing on the classification effect of different text classification algorithms under the word bag model and TF-IDF two text feature selection methods. The results show that the text classification effect under TF-IDF is significantly better than that of the word bag model.
Key words: word bag model; TF-IDF; text classification
隨著大數(shù)據(jù)、云技術(shù)等現(xiàn)代化信息技術(shù)不斷發(fā)展,電商市場(chǎng)也成為經(jīng)濟(jì)市場(chǎng)的重要部分,人們開始普遍習(xí)慣網(wǎng)絡(luò)購(gòu)物模式,很多購(gòu)物平臺(tái)保留了大量用戶的評(píng)價(jià)信息,這些信息體現(xiàn)用戶對(duì)商品的真實(shí)購(gòu)買體驗(yàn),對(duì)于新用戶來說,根據(jù)他人的評(píng)論內(nèi)容決定是否購(gòu)買此商品,因此,這些評(píng)論信息對(duì)新用戶的購(gòu)買行為產(chǎn)生一定影響,同時(shí),商家也可通過用戶評(píng)論提高相關(guān)服務(wù)水平。類似此類評(píng)論信息更新速度快,信息量大,傳統(tǒng)的人工文本處理不能滿足發(fā)展需求,所以自動(dòng)文本分類技術(shù)日益成為時(shí)代背景下的研究熱點(diǎn)。
1文本分類概述及研究現(xiàn)狀
文本分類可以理解為按照一定的分類標(biāo)準(zhǔn)或體系使用計(jì)算機(jī)對(duì)文本集實(shí)現(xiàn)對(duì)文本自動(dòng)打標(biāo)簽的分類過程[1],文本分類的目的是將文檔集合中為止類型的文本自動(dòng)識(shí)別到一個(gè)類別或幾個(gè)類別中。復(fù)旦大學(xué)李榮陸依據(jù)最大熵模型進(jìn)行中文文本分類研究[2]。文本特征選取是文本分類的重要過程,ChuanWan等人提出了一種基于文本結(jié)構(gòu)的SABigam算法可以對(duì)文本進(jìn)行復(fù)合特征的提取[3]。徐冠華等人詳細(xì)地對(duì)文本特征提取方法做了研究,從封裝式特征選擇算法和過濾式特征選擇算法兩方面進(jìn)行總結(jié)[4]。朱夢(mèng)等人引入特征詞類間分布的表現(xiàn)力指數(shù)的特征選取算法[5]。文本分類在應(yīng)用于眾多領(lǐng)域中,學(xué)者對(duì)于文本分類的研究逐漸深入,文本自動(dòng)分類技術(shù)愈加成熟。
2相關(guān)工作
本文為研究詞袋模型和TF-IDF進(jìn)行文本特征選擇處理方法對(duì)文本分類效果的不同,設(shè)計(jì)了以下總體框架如圖1所示。
2.1文本采集及預(yù)處理
2.1.1文本采集
本文使用八爪魚采集器,從京東商品網(wǎng)頁(yè)上隨機(jī)獲取某商品的文本評(píng)論內(nèi)容,將數(shù)據(jù)集保存在excel表格中,每條評(píng)價(jià)內(nèi)容對(duì)應(yīng)相應(yīng)的評(píng)價(jià)態(tài)度,對(duì)應(yīng)為1-5星,5星為評(píng)價(jià)最好的星級(jí),這里采用人工打標(biāo)簽方式將星級(jí)劃分為兩種情感態(tài)度,其中1-2級(jí)為差評(píng),3-5級(jí)為好評(píng)。
2.1.2文本預(yù)處理
首先對(duì)采集到的文本數(shù)據(jù)進(jìn)行去重、刪除異常樣本處理,得到有效樣本2566條,其中好評(píng)2083條,差評(píng)483條,并采用jieba分詞工具進(jìn)行分詞,將文本中的停用詞剔除;其次拆分訓(xùn)練集和測(cè)試集,得到訓(xùn)練樣本1924條,測(cè)試樣本642條。
2.2文本表示
文本是由詞和短語(yǔ)構(gòu)成的符號(hào)序列。要將自然語(yǔ)言處理問題轉(zhuǎn)化成機(jī)器可學(xué)習(xí)的數(shù)學(xué)模型,首先要對(duì)詞和文本進(jìn)行向量化建模,即將自然語(yǔ)言轉(zhuǎn)化為向量,這一過程叫做文本表示。