摘 要:以本地美團(tuán)網(wǎng)美食類(lèi)店鋪為例,爬取在線(xiàn)大量數(shù)據(jù),按目標(biāo)格式注入Google的BERT模型(Bidirectional Encoding Representations from Transformers.),并構(gòu)建研究對(duì)象所適用的數(shù)據(jù)模型,對(duì)潛在評(píng)論情感極性能夠準(zhǔn)確預(yù)測(cè),對(duì)正向情感評(píng)價(jià)最高可達(dá)98%準(zhǔn)確率,98%召回率,F(xiàn)1-Score最高達(dá)0.98。特別地也分析了其負(fù)向F1-Score的成因,并提出利用F1-Score構(gòu)建平臺(tái)分流與展現(xiàn)推廣付費(fèi)的思路。
關(guān)鍵詞:BERT;F1 score;情感極性;在線(xiàn)評(píng)論;預(yù)測(cè)模型
一、引言
“在線(xiàn)用戶(hù)評(píng)論”,作為運(yùn)營(yíng)數(shù)據(jù)來(lái)源的主要渠道,為電商運(yùn)營(yíng)決策和平臺(tái)分配流量提供了直接的依據(jù)。很多大型的電商平臺(tái)都設(shè)計(jì)了相應(yīng)的評(píng)論板塊,有的側(cè)重于追加評(píng)論,主要體現(xiàn)用戶(hù)的事后真實(shí)體驗(yàn)評(píng)價(jià),而有的側(cè)重于事中評(píng)價(jià)。情感極性一般分為正面、負(fù)面和中性。用戶(hù)通過(guò)分值與文本做出相應(yīng)的評(píng)論并不能反映出真實(shí)的情感極性。例如,“這頓餐看起來(lái)很不錯(cuò),大氣上檔次,但是貴了……”,到底用戶(hù)的情感是正面還是負(fù)面呢?很難做出有效判斷,這就需要對(duì)文本做出挖掘。用戶(hù)的情感極性對(duì)商品用戶(hù)推薦、平臺(tái)流量分配權(quán)重、商戶(hù)業(yè)務(wù)改進(jìn)至關(guān)重要。
二、文獻(xiàn)綜述
業(yè)界與學(xué)術(shù)界都對(duì)文本情感分析(NLP)做出了大量的探索實(shí)踐與理論積累,相關(guān)的情感分析研究方法有分別基于詞典、機(jī)器學(xué)習(xí)、詞典+機(jī)器學(xué)習(xí)、弱標(biāo)注、深度學(xué)習(xí)等方法。有文獻(xiàn)綜述提到,“Hamouda等提出建立一個(gè)包含表情符號(hào)的情感詞匯庫(kù)進(jìn)行情感識(shí)別;Pang等將機(jī)器學(xué)習(xí)算法用于情感分類(lèi)任務(wù);還有利用挖掘評(píng)論數(shù)據(jù)中反映情感語(yǔ)義的弱標(biāo)注信息,以及分別基于卷積神經(jīng)網(wǎng)絡(luò)的、長(zhǎng)短期記憶、深度信念網(wǎng)絡(luò)等分類(lèi)模型的深度學(xué)習(xí)”。隨著研究發(fā)現(xiàn),深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò)模型)成為了主流方向,其最大特點(diǎn)是采用了詞向量的嵌入技術(shù)——Word2Vec方法,但是對(duì)同一句子中有情感極性矛盾,或同一個(gè)詞在不同位置導(dǎo)致歧義的多個(gè)情感詞則無(wú)能為力, 這時(shí)“多頭注意力機(jī)制(Multi-head Attention Mechanism)”的引入能夠很好地解決類(lèi)似問(wèn)題。Yin(2015)提出基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),Wang(2016)提出結(jié)合注意力機(jī)制的LSTM網(wǎng)絡(luò),梁斌(2017)提出多注意力卷積神經(jīng)網(wǎng)絡(luò)MATT,但是缺乏對(duì)中文領(lǐng)域的分析。Devlin,Jacob(2018)等人提出了BERT模型,在tensor2tensor庫(kù)基礎(chǔ)上,利用MLM與NLP機(jī)制進(jìn)行雙向預(yù)訓(xùn)練,生成上游模型,在此模型上進(jìn)行下游的自定義任務(wù),能夠滿(mǎn)足中文和英文等文本挖掘,其性能指標(biāo)遠(yuǎn)勝OpenAI GPT和ELMo(兩種順序的LTSM),其在SQuAD測(cè)試中排名第一(Nov,2018)。劉玉林(2018)等通過(guò)建立電商食品領(lǐng)域級(jí)情感詞典,在算法上引入NLP中2元語(yǔ)法加強(qiáng)情感結(jié)果判斷,建立情感指數(shù),結(jié)合真實(shí)在線(xiàn)數(shù)據(jù)進(jìn)行實(shí)證,得出優(yōu)化方向,但是沒(méi)有展示其準(zhǔn)確率和F1分值。
本文將爬取雍和會(huì)在美團(tuán)網(wǎng)站在線(xiàn)評(píng)論數(shù)據(jù),注入BERT模型,構(gòu)建其店鋪的情感極性評(píng)價(jià)模型,并計(jì)算其準(zhǔn)確率和F1分值。該模型可以用來(lái)指導(dǎo)店鋪提升客戶(hù)滿(mǎn)意度,也可以幫助平臺(tái)分配流量和用戶(hù)推薦,具有現(xiàn)實(shí)意義。
三、研究方法
STEP1:爬取美團(tuán)網(wǎng)福州地區(qū)美食類(lèi)好評(píng)排名Top2的“雍和會(huì)海鮮姿造(三坊七巷店)”上萬(wàn)條評(píng)論數(shù)據(jù)。
STEP2:利用Pandas包清洗數(shù)據(jù)。
STEP3:將原始數(shù)據(jù)按比例拆分為訓(xùn)練數(shù)據(jù)集(10564條)、測(cè)試數(shù)據(jù)集(3302條)和驗(yàn)證數(shù)據(jù)集(2641條),并將打分等級(jí)劃分為兩種極性,超過(guò)閾值為1,否則為0;增加sentiment標(biāo)簽,刪除star標(biāo)簽。
STEP4:利用FastAI包初始化BERT模型(Chinese版本)。
STEP5:將上述訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集按需要裝入在DataFrame,DataBunch。數(shù)據(jù)會(huì)在前后加上標(biāo)簽【CLS】和【SEP】,用以區(qū)分句子,從而符合模型格式。
STEP6:利用Learner的lr_find()函數(shù),采用CrossEntropyLoss()交叉熵?fù)p失函數(shù)作為參數(shù),進(jìn)行“學(xué)習(xí)”,并畫(huà)出學(xué)習(xí)曲線(xiàn),生成下游任務(wù)的最終模型。
STEP7:按照指定學(xué)習(xí)率,計(jì)算一周期,得出其相關(guān)準(zhǔn)確率與耗時(shí)。
STEP8:評(píng)估模型——預(yù)測(cè)相關(guān)文本,進(jìn)行指標(biāo)評(píng)價(jià),并展示【precision,recall,f1-score】和含混矩陣。
STEP9:設(shè)計(jì)對(duì)比實(shí)驗(yàn)組。
四、實(shí)證分析
1.數(shù)據(jù)來(lái)源
爬取“雍和會(huì)”美團(tuán)在線(xiàn)評(píng)論數(shù)據(jù),提取評(píng)價(jià)與打分等信息,并進(jìn)行清洗。清洗后的在線(xiàn)評(píng)論數(shù)據(jù)規(guī)模,從22336降至16507個(gè)數(shù)據(jù)。
2.清洗:sentiment是根據(jù)star分值經(jīng)過(guò)相應(yīng)條件轉(zhuǎn)化為0或1.條件:若star分值大于30為1,反則為0。這里正面評(píng)價(jià)1較多。
3.數(shù)據(jù)轉(zhuǎn)換為目標(biāo)格式
4.分類(lèi)報(bào)告
5.對(duì)比組
按照上述方法,隨機(jī)打開(kāi)美團(tuán)首頁(yè),選取福州地區(qū)美食類(lèi)綜合排名第4名(廣告位)“旺巴蜀小郡肝火鍋串串香(東二環(huán)泰禾店)”,其綜合分?jǐn)?shù)為3.7分,顯示評(píng)論數(shù)1600條,但實(shí)際爬去后顯示評(píng)價(jià)數(shù)5000多條,清洗后也有3500多條。再按選取福州地區(qū)綜合排名第12名“V-ONE|西雅圖海鮮自助輕姿造(王府井店)”,其綜合分?jǐn)?shù)為4分,顯示評(píng)論數(shù)1888條,清洗后也有1000多條。爬取數(shù)據(jù)、清洗、建模、評(píng)估,相同條件下(30分為閾值,學(xué)習(xí)率為2e-5)進(jìn)行挖掘。
五、結(jié)論與建議
通過(guò)實(shí)驗(yàn)發(fā)現(xiàn):BERT模型能夠較準(zhǔn)確地區(qū)分正負(fù)面情感極性,這個(gè)案例中,其店鋪排名第2名,F(xiàn)1-score可平均達(dá)到0.77,這個(gè)數(shù)值并不太出色,但如果只觀測(cè)正面情感評(píng)價(jià),F(xiàn)1-score可最高達(dá)到0.98,這是由于選取當(dāng)?shù)睾迷u(píng)率最高的美食類(lèi)店鋪,造成數(shù)據(jù)偏向正向情感,而負(fù)向情感偏向較少。見(jiàn)下表。
綜合分?jǐn)?shù)反映消費(fèi)者滿(mǎn)意程度,(1)第2名與第4名相比,明顯第四名口碑差距較大,因此在負(fù)向f1分反而較大,正向相對(duì)很小;(2)第2名與第12名相比,口碑相差不大,總體前者口碑優(yōu)于后者,但從模型指標(biāo)看,前者平均f1比后者少0.02,但是正向f1分具有明顯增量0.11,主要由于負(fù)f1分拖累0.15,因此整體不如后者平均f1指標(biāo);同時(shí),雖然前者平均f1分少于后者,但是前者的準(zhǔn)確率明顯由于后者0.09個(gè)單位。(3)第4名與第12名相比,只有負(fù)向f1分高于后者,這說(shuō)明其差評(píng)較易發(fā)生。但是由于其是付費(fèi)展現(xiàn),因此超出后者8個(gè)位置。(4)第12名的平均f1分最高。
總的來(lái)說(shuō),BERT模型能有效抽取情感極性,但是由于樣本來(lái)源于真實(shí)就餐環(huán)境,口碑較好店鋪正評(píng)價(jià)較多于負(fù)評(píng)價(jià),會(huì)導(dǎo)致正向f1分偏高,而負(fù)向f1分偏低;口碑較差店鋪負(fù)評(píng)價(jià)多于正評(píng)價(jià),會(huì)導(dǎo)致反向f1偏高,正向f1偏低;中等口碑介于兩者之間,但是其平均f1分為最高。模型在適當(dāng)情況下,或許可以獲得高出0.79的f1分。因此不能完全依賴(lài)此指標(biāo)孤立評(píng)價(jià)模型。反而,該模型的評(píng)價(jià)指標(biāo)體系可以用來(lái)指導(dǎo)店鋪運(yùn)營(yíng)、平臺(tái)流量分配于商品推薦。作為平臺(tái)可以利用正向f1分將更多流量分配給這樣的店鋪,也可以向負(fù)向f1分較高的用戶(hù)收取較高的推廣費(fèi)用。
參考文獻(xiàn):
[1]朱曉霞,宋嘉欣,張曉緹.基于主題挖掘技術(shù)的文本情感分析綜述[J/OL].情報(bào)理論與實(shí)踐:1-13[2019-10-28].http://kns.cnki.net/kcms/detail/11.1762.G3.20190715.0941.004.html.
[2]洪巍,李敏.文本情感分析方法研究綜述[J].計(jì)算機(jī)工程與科學(xué),2019,41(04):750-757.
[3]梁斌,劉全,徐進(jìn),周倩,章鵬.基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J].計(jì)算機(jī)研究與發(fā)展,2017,54(08):1724-1735.
[4]Devlin,Jacob et al.“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.”NAACL-HLT (2019).
[5]Wenpeng,Yin et al.[J].ABCNN:Attention-Based Convolutional Neural Network for Modeling Sentence Pairs,Transactions of the Association for Computational Linguistics,2016,Vol.4,pp.566-567.
[6]Wang Yequan,Huang Minlie,Zhao Li,et al.“Attentionbased LSTM for aspect-level sentiment classification”[C].Proc of the 2016 Conf on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2016:606-615.
[7]劉玉林,菅利榮.基于文本情感分析的電商在線(xiàn)評(píng)論數(shù)據(jù)挖掘[J].統(tǒng)計(jì)與信息論壇,2018,33(12):119-124.
作者簡(jiǎn)介:魏一?。?985- ),男,漢族,河南安陽(yáng)人,碩士,講師,研究方向:跨境電商與數(shù)據(jù)挖掘