郭田奇
【摘要】隨著互聯(lián)網(wǎng)的迅速發(fā)展,團(tuán)購(gòu)作為新興的電子商務(wù)盈利模式,已成為整個(gè)O2O(Online To Offline)市場(chǎng)不可或缺的一部分 ,對(duì)商家和消費(fèi)者都有一定的引導(dǎo)和借鑒作用,因此運(yùn)用大數(shù)據(jù)的方法對(duì)團(tuán)購(gòu)評(píng)論的研究也具有更加現(xiàn)實(shí)的意義。本文運(yùn)用R語言從團(tuán)購(gòu)網(wǎng)頁上抓取了蘭州市火鍋店的評(píng)論數(shù)據(jù),建立語料庫進(jìn)而實(shí)現(xiàn)對(duì)評(píng)論的篩選,采用樸素貝葉斯分類算法建模,從大量的評(píng)論數(shù)據(jù)中訓(xùn)練垃圾評(píng)論的分類器,通過對(duì)已有模型進(jìn)行改進(jìn),使之更加適用于網(wǎng)購(gòu)評(píng)論的分類,最終實(shí)現(xiàn)對(duì)團(tuán)購(gòu)評(píng)論的最大化利用。研究結(jié)果表明:通過樸素貝葉斯算法模型訓(xùn)練出的分類器最終對(duì)有效評(píng)論的識(shí)別率達(dá)到99.4%,對(duì)垃圾評(píng)論的識(shí)別率達(dá)到54.6%,該分類器能準(zhǔn)確識(shí)別有效評(píng)論,對(duì)于垃圾評(píng)論的識(shí)別率有待提高,但仍具有一定的參考價(jià)值。
【關(guān)鍵詞】R語言 樸素貝葉斯 團(tuán)購(gòu)評(píng)論 分類
一、研究背景
(一)O2O市場(chǎng)現(xiàn)狀
近年來,資本市場(chǎng)、互聯(lián)網(wǎng)巨頭與實(shí)體商業(yè)紛紛加速布局O2O領(lǐng)域,O2O產(chǎn)業(yè)如雨后春筍般在全國(guó)各地興起。調(diào)查顯示,有43.8%的網(wǎng)民表示喜歡在互聯(lián)網(wǎng)上發(fā)表評(píng)論,其中非常喜歡的占6.7%,比較喜歡的占37.1% 網(wǎng)絡(luò)空間已經(jīng)成為人們發(fā)表言論的重要場(chǎng)所。
二線城市團(tuán)購(gòu)餐飲美食O2O用戶滲透率為23.2%,網(wǎng)上訂餐訂座O2O用戶滲透率為17.5%。從用戶層面來看,一二線城市餐飲和休閑O2O的用戶滲透率較高,非O2O用戶成功轉(zhuǎn)化成餐飲和休閑O2O用戶的概率較高,因此餐飲、休閑O2O市場(chǎng)發(fā)展已經(jīng)相對(duì)成熟。
(二)研究?jī)?nèi)容
本文通過分析大量的垃圾評(píng)論,設(shè)定了一些泛化規(guī)則來提取評(píng)論所包含的明顯的特征詞,以此作為垃圾評(píng)論類的特征項(xiàng),由于垃圾評(píng)論也會(huì)隨著網(wǎng)絡(luò)用戶的興趣轉(zhuǎn)移發(fā)生變化,為了提高分類器的過濾性能,我們通過對(duì)訓(xùn)練樣本,人工對(duì)樣本進(jìn)行標(biāo)注,基于樸素貝葉斯的算法思想,通過對(duì)蘭州市大眾點(diǎn)評(píng)網(wǎng)站上的有關(guān)于火鍋店鋪的團(tuán)購(gòu)消費(fèi)的評(píng)論數(shù)據(jù)進(jìn)行分類,剔除垃圾評(píng)論,從而為消費(fèi)者提供了更為高效的選擇,也為商家提升自己提供了優(yōu)質(zhì)數(shù)據(jù)的支持。
二、基于樸素貝葉斯的垃圾評(píng)論過濾算法
基于樸素貝葉斯分類算法的過濾模型包括訓(xùn)練模塊和分類模塊兩部分,實(shí)現(xiàn)步驟首先計(jì)算算先驗(yàn)概率P(C1);
P(C1)=■ (2.1)
P(C2)=■ (2.2)
對(duì)訓(xùn)練集中的所有評(píng)論進(jìn)行分詞處理,統(tǒng)計(jì)每個(gè)詞的詞頻;依據(jù)統(tǒng)計(jì)結(jié)果以特定的方法提取特征詞,生成特征詞集F=W1,W2,…,Wn計(jì)算特征詞Wi的類條件概率P(xi│C),對(duì)新輸入的評(píng)論進(jìn)行分詞,特征提取,生成代表該評(píng)論的特征向量X;計(jì)算P(x│c)和P(c│x)比較兩者計(jì)算結(jié)果,測(cè)試評(píng)論屬于概率值較大的那一類。
三、模型求解
(一)數(shù)據(jù)搜集
本文的數(shù)據(jù)是基于大眾點(diǎn)評(píng)網(wǎng)蘭州市火鍋團(tuán)購(gòu)評(píng)論數(shù)據(jù)。數(shù)據(jù)的爬取工作,主要使用R語言,符合以下特點(diǎn),認(rèn)為是垃圾評(píng)論:①顯示廣告信息,有超鏈接、色情等;②與餐飲、火鍋和團(tuán)購(gòu)沒有關(guān)系的評(píng)論;③具有人身攻擊或者思想不健康的評(píng)論;④含有大量數(shù)字和其他符號(hào)的。
本文從大眾點(diǎn)評(píng)上爬取蘭州市火鍋店的評(píng)論數(shù)據(jù),共5568條數(shù)據(jù)。數(shù)據(jù)分為有效評(píng)論和垃圾評(píng)論,同時(shí)將所有數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,訓(xùn)練集為4000條數(shù)據(jù),測(cè)試集為1568條數(shù)據(jù)。在訓(xùn)練集和測(cè)試集中有效評(píng)論和垃圾評(píng)論各自所占的比例為0.11:0.89,0.20:0.80。
(二)模型評(píng)估與優(yōu)化
通過訓(xùn)練集的數(shù)據(jù)進(jìn)行建模,構(gòu)建樸素貝葉斯分類器,用測(cè)試集來評(píng)估分類器的表現(xiàn),預(yù)測(cè)垃圾評(píng)論的準(zhǔn)確率偏低,40%左右,原因是不少的垃圾評(píng)論被識(shí)別為有效評(píng)論,垃圾評(píng)論在數(shù)據(jù)集中的分布不均勻,評(píng)論中有效詞數(shù)量頻率遠(yuǎn)高于含有垃圾評(píng)論的詞數(shù),導(dǎo)致分類器容易誤判,但分類器對(duì)有效評(píng)論的識(shí)別率高達(dá)99.1%。
模型建立詞條-文檔矩陣,擴(kuò)大進(jìn)入詞條-文檔矩陣的長(zhǎng)度,同時(shí)小幅降低進(jìn)入字典詞語出現(xiàn)的頻率,分類器的識(shí)別率由40%上升到54.6%, 通過優(yōu)化之后的模型,不僅分類器對(duì)垃圾評(píng)論的識(shí)別率大幅提高了將近15個(gè)百分點(diǎn),而且對(duì)有效評(píng)論的識(shí)別率也從99.1%上升到了更為精確的99.4%。
四、結(jié)論與展望
本文結(jié)合R語言的網(wǎng)絡(luò)爬蟲技術(shù),詳細(xì)介紹了數(shù)據(jù)采集的過程,同時(shí)給出了基于爬取數(shù)據(jù)對(duì)垃圾評(píng)論的定義,運(yùn)用R語言完成了數(shù)據(jù)建模,得出了基于樸素貝葉斯的分類器,同時(shí)對(duì)測(cè)試集的數(shù)據(jù)進(jìn)行預(yù)測(cè)和對(duì)比,以此來評(píng)估分類器的表現(xiàn),根據(jù)預(yù)測(cè)結(jié)果分析分類器對(duì)垃圾評(píng)論識(shí)別準(zhǔn)確率偏低的原因,對(duì)模型進(jìn)行了簡(jiǎn)單的優(yōu)化,使分類器對(duì)垃圾評(píng)論識(shí)別準(zhǔn)確率顯著提高。
本文對(duì)于一些具有明顯特征的垃圾平評(píng)論的識(shí)別效果不錯(cuò),但是對(duì)一些沒有明顯特征而且包含大量中性詞語的評(píng)論識(shí)別效果率不是很好,還有待于進(jìn)一步的提高和完善,可以考慮從以下幾個(gè)方面研究:
(1)很多評(píng)論都帶有消費(fèi)者的主觀感情,因此可以參考情感計(jì)算的方法在提取特征詞的時(shí)候考慮詞語的感情傾向等問題;
(2)網(wǎng)絡(luò)上面的新詞和不合語法的日常用語不斷更新,需要構(gòu)建一個(gè)實(shí)時(shí)的網(wǎng)絡(luò)文本字典,正確區(qū)分垃圾評(píng)論;
(3)更多的考慮消費(fèi)者與評(píng)論內(nèi)容所屬行業(yè)的聯(lián)系,從多角度分析消費(fèi)者的行為偏好,更加全面的理解消費(fèi)者的評(píng)論內(nèi)容;
隨著大數(shù)據(jù)技術(shù)的不斷發(fā)展,中文文本挖掘的研究也會(huì)越來越重要?,F(xiàn)階段針對(duì)文本分類的研究很多,關(guān)于中文分詞的算法也很多,如何將這些研究和算法更好的應(yīng)用在對(duì)垃圾評(píng)論的過濾上,值得我們進(jìn)一步的思考和實(shí)踐。
參考文獻(xiàn):
[1]中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].2015.
[2]王佐仁,楊琳.貝葉斯統(tǒng)計(jì)推斷及其主要進(jìn)展[J].統(tǒng)計(jì)與信息論壇, 2012.
[3]許高建,胡學(xué)鋼,王慶人.文本挖掘中的中文分詞算法研究及實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展, 2007.