• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于BERT模型的餐飲電商在線(xiàn)評(píng)論情感挖掘

    2020-03-18 01:17:38魏一丁
    商場(chǎng)現(xiàn)代化 2020年1期
    關(guān)鍵詞:在線(xiàn)評(píng)論預(yù)測(cè)模型

    摘 要:以本地美團(tuán)網(wǎng)美食類(lèi)店鋪為例,爬取在線(xiàn)大量數(shù)據(jù),按目標(biāo)格式注入Google的BERT模型(Bidirectional Encoding Representations from Transformers.),并構(gòu)建研究對(duì)象所適用的數(shù)據(jù)模型,對(duì)潛在評(píng)論情感極性能夠準(zhǔn)確預(yù)測(cè),對(duì)正向情感評(píng)價(jià)最高可達(dá)98%準(zhǔn)確率,98%召回率,F(xiàn)1-Score最高達(dá)0.98。特別地也分析了其負(fù)向F1-Score的成因,并提出利用F1-Score構(gòu)建平臺(tái)分流與展現(xiàn)推廣付費(fèi)的思路。

    關(guān)鍵詞:BERT;F1 score;情感極性;在線(xiàn)評(píng)論;預(yù)測(cè)模型

    一、引言

    “在線(xiàn)用戶(hù)評(píng)論”,作為運(yùn)營(yíng)數(shù)據(jù)來(lái)源的主要渠道,為電商運(yùn)營(yíng)決策和平臺(tái)分配流量提供了直接的依據(jù)。很多大型的電商平臺(tái)都設(shè)計(jì)了相應(yīng)的評(píng)論板塊,有的側(cè)重于追加評(píng)論,主要體現(xiàn)用戶(hù)的事后真實(shí)體驗(yàn)評(píng)價(jià),而有的側(cè)重于事中評(píng)價(jià)。情感極性一般分為正面、負(fù)面和中性。用戶(hù)通過(guò)分值與文本做出相應(yīng)的評(píng)論并不能反映出真實(shí)的情感極性。例如,“這頓餐看起來(lái)很不錯(cuò),大氣上檔次,但是貴了……”,到底用戶(hù)的情感是正面還是負(fù)面呢?很難做出有效判斷,這就需要對(duì)文本做出挖掘。用戶(hù)的情感極性對(duì)商品用戶(hù)推薦、平臺(tái)流量分配權(quán)重、商戶(hù)業(yè)務(wù)改進(jìn)至關(guān)重要。

    二、文獻(xiàn)綜述

    業(yè)界與學(xué)術(shù)界都對(duì)文本情感分析(NLP)做出了大量的探索實(shí)踐與理論積累,相關(guān)的情感分析研究方法有分別基于詞典、機(jī)器學(xué)習(xí)、詞典+機(jī)器學(xué)習(xí)、弱標(biāo)注、深度學(xué)習(xí)等方法。有文獻(xiàn)綜述提到,“Hamouda等提出建立一個(gè)包含表情符號(hào)的情感詞匯庫(kù)進(jìn)行情感識(shí)別;Pang等將機(jī)器學(xué)習(xí)算法用于情感分類(lèi)任務(wù);還有利用挖掘評(píng)論數(shù)據(jù)中反映情感語(yǔ)義的弱標(biāo)注信息,以及分別基于卷積神經(jīng)網(wǎng)絡(luò)的、長(zhǎng)短期記憶、深度信念網(wǎng)絡(luò)等分類(lèi)模型的深度學(xué)習(xí)”。隨著研究發(fā)現(xiàn),深度學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò)模型)成為了主流方向,其最大特點(diǎn)是采用了詞向量的嵌入技術(shù)——Word2Vec方法,但是對(duì)同一句子中有情感極性矛盾,或同一個(gè)詞在不同位置導(dǎo)致歧義的多個(gè)情感詞則無(wú)能為力, 這時(shí)“多頭注意力機(jī)制(Multi-head Attention Mechanism)”的引入能夠很好地解決類(lèi)似問(wèn)題。Yin(2015)提出基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),Wang(2016)提出結(jié)合注意力機(jī)制的LSTM網(wǎng)絡(luò),梁斌(2017)提出多注意力卷積神經(jīng)網(wǎng)絡(luò)MATT,但是缺乏對(duì)中文領(lǐng)域的分析。Devlin,Jacob(2018)等人提出了BERT模型,在tensor2tensor庫(kù)基礎(chǔ)上,利用MLM與NLP機(jī)制進(jìn)行雙向預(yù)訓(xùn)練,生成上游模型,在此模型上進(jìn)行下游的自定義任務(wù),能夠滿(mǎn)足中文和英文等文本挖掘,其性能指標(biāo)遠(yuǎn)勝OpenAI GPT和ELMo(兩種順序的LTSM),其在SQuAD測(cè)試中排名第一(Nov,2018)。劉玉林(2018)等通過(guò)建立電商食品領(lǐng)域級(jí)情感詞典,在算法上引入NLP中2元語(yǔ)法加強(qiáng)情感結(jié)果判斷,建立情感指數(shù),結(jié)合真實(shí)在線(xiàn)數(shù)據(jù)進(jìn)行實(shí)證,得出優(yōu)化方向,但是沒(méi)有展示其準(zhǔn)確率和F1分值。

    本文將爬取雍和會(huì)在美團(tuán)網(wǎng)站在線(xiàn)評(píng)論數(shù)據(jù),注入BERT模型,構(gòu)建其店鋪的情感極性評(píng)價(jià)模型,并計(jì)算其準(zhǔn)確率和F1分值。該模型可以用來(lái)指導(dǎo)店鋪提升客戶(hù)滿(mǎn)意度,也可以幫助平臺(tái)分配流量和用戶(hù)推薦,具有現(xiàn)實(shí)意義。

    三、研究方法

    STEP1:爬取美團(tuán)網(wǎng)福州地區(qū)美食類(lèi)好評(píng)排名Top2的“雍和會(huì)海鮮姿造(三坊七巷店)”上萬(wàn)條評(píng)論數(shù)據(jù)。

    STEP2:利用Pandas包清洗數(shù)據(jù)。

    STEP3:將原始數(shù)據(jù)按比例拆分為訓(xùn)練數(shù)據(jù)集(10564條)、測(cè)試數(shù)據(jù)集(3302條)和驗(yàn)證數(shù)據(jù)集(2641條),并將打分等級(jí)劃分為兩種極性,超過(guò)閾值為1,否則為0;增加sentiment標(biāo)簽,刪除star標(biāo)簽。

    STEP4:利用FastAI包初始化BERT模型(Chinese版本)。

    STEP5:將上述訓(xùn)練數(shù)據(jù)集、測(cè)試數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集按需要裝入在DataFrame,DataBunch。數(shù)據(jù)會(huì)在前后加上標(biāo)簽【CLS】和【SEP】,用以區(qū)分句子,從而符合模型格式。

    STEP6:利用Learner的lr_find()函數(shù),采用CrossEntropyLoss()交叉熵?fù)p失函數(shù)作為參數(shù),進(jìn)行“學(xué)習(xí)”,并畫(huà)出學(xué)習(xí)曲線(xiàn),生成下游任務(wù)的最終模型。

    STEP7:按照指定學(xué)習(xí)率,計(jì)算一周期,得出其相關(guān)準(zhǔn)確率與耗時(shí)。

    STEP8:評(píng)估模型——預(yù)測(cè)相關(guān)文本,進(jìn)行指標(biāo)評(píng)價(jià),并展示【precision,recall,f1-score】和含混矩陣。

    STEP9:設(shè)計(jì)對(duì)比實(shí)驗(yàn)組。

    四、實(shí)證分析

    1.數(shù)據(jù)來(lái)源

    爬取“雍和會(huì)”美團(tuán)在線(xiàn)評(píng)論數(shù)據(jù),提取評(píng)價(jià)與打分等信息,并進(jìn)行清洗。清洗后的在線(xiàn)評(píng)論數(shù)據(jù)規(guī)模,從22336降至16507個(gè)數(shù)據(jù)。

    2.清洗:sentiment是根據(jù)star分值經(jīng)過(guò)相應(yīng)條件轉(zhuǎn)化為0或1.條件:若star分值大于30為1,反則為0。這里正面評(píng)價(jià)1較多。

    3.數(shù)據(jù)轉(zhuǎn)換為目標(biāo)格式

    4.分類(lèi)報(bào)告

    5.對(duì)比組

    按照上述方法,隨機(jī)打開(kāi)美團(tuán)首頁(yè),選取福州地區(qū)美食類(lèi)綜合排名第4名(廣告位)“旺巴蜀小郡肝火鍋串串香(東二環(huán)泰禾店)”,其綜合分?jǐn)?shù)為3.7分,顯示評(píng)論數(shù)1600條,但實(shí)際爬去后顯示評(píng)價(jià)數(shù)5000多條,清洗后也有3500多條。再按選取福州地區(qū)綜合排名第12名“V-ONE|西雅圖海鮮自助輕姿造(王府井店)”,其綜合分?jǐn)?shù)為4分,顯示評(píng)論數(shù)1888條,清洗后也有1000多條。爬取數(shù)據(jù)、清洗、建模、評(píng)估,相同條件下(30分為閾值,學(xué)習(xí)率為2e-5)進(jìn)行挖掘。

    五、結(jié)論與建議

    通過(guò)實(shí)驗(yàn)發(fā)現(xiàn):BERT模型能夠較準(zhǔn)確地區(qū)分正負(fù)面情感極性,這個(gè)案例中,其店鋪排名第2名,F(xiàn)1-score可平均達(dá)到0.77,這個(gè)數(shù)值并不太出色,但如果只觀測(cè)正面情感評(píng)價(jià),F(xiàn)1-score可最高達(dá)到0.98,這是由于選取當(dāng)?shù)睾迷u(píng)率最高的美食類(lèi)店鋪,造成數(shù)據(jù)偏向正向情感,而負(fù)向情感偏向較少。見(jiàn)下表。

    綜合分?jǐn)?shù)反映消費(fèi)者滿(mǎn)意程度,(1)第2名與第4名相比,明顯第四名口碑差距較大,因此在負(fù)向f1分反而較大,正向相對(duì)很小;(2)第2名與第12名相比,口碑相差不大,總體前者口碑優(yōu)于后者,但從模型指標(biāo)看,前者平均f1比后者少0.02,但是正向f1分具有明顯增量0.11,主要由于負(fù)f1分拖累0.15,因此整體不如后者平均f1指標(biāo);同時(shí),雖然前者平均f1分少于后者,但是前者的準(zhǔn)確率明顯由于后者0.09個(gè)單位。(3)第4名與第12名相比,只有負(fù)向f1分高于后者,這說(shuō)明其差評(píng)較易發(fā)生。但是由于其是付費(fèi)展現(xiàn),因此超出后者8個(gè)位置。(4)第12名的平均f1分最高。

    總的來(lái)說(shuō),BERT模型能有效抽取情感極性,但是由于樣本來(lái)源于真實(shí)就餐環(huán)境,口碑較好店鋪正評(píng)價(jià)較多于負(fù)評(píng)價(jià),會(huì)導(dǎo)致正向f1分偏高,而負(fù)向f1分偏低;口碑較差店鋪負(fù)評(píng)價(jià)多于正評(píng)價(jià),會(huì)導(dǎo)致反向f1偏高,正向f1偏低;中等口碑介于兩者之間,但是其平均f1分為最高。模型在適當(dāng)情況下,或許可以獲得高出0.79的f1分。因此不能完全依賴(lài)此指標(biāo)孤立評(píng)價(jià)模型。反而,該模型的評(píng)價(jià)指標(biāo)體系可以用來(lái)指導(dǎo)店鋪運(yùn)營(yíng)、平臺(tái)流量分配于商品推薦。作為平臺(tái)可以利用正向f1分將更多流量分配給這樣的店鋪,也可以向負(fù)向f1分較高的用戶(hù)收取較高的推廣費(fèi)用。

    參考文獻(xiàn):

    [1]朱曉霞,宋嘉欣,張曉緹.基于主題挖掘技術(shù)的文本情感分析綜述[J/OL].情報(bào)理論與實(shí)踐:1-13[2019-10-28].http://kns.cnki.net/kcms/detail/11.1762.G3.20190715.0941.004.html.

    [2]洪巍,李敏.文本情感分析方法研究綜述[J].計(jì)算機(jī)工程與科學(xué),2019,41(04):750-757.

    [3]梁斌,劉全,徐進(jìn),周倩,章鵬.基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析[J].計(jì)算機(jī)研究與發(fā)展,2017,54(08):1724-1735.

    [4]Devlin,Jacob et al.“BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.”NAACL-HLT (2019).

    [5]Wenpeng,Yin et al.[J].ABCNN:Attention-Based Convolutional Neural Network for Modeling Sentence Pairs,Transactions of the Association for Computational Linguistics,2016,Vol.4,pp.566-567.

    [6]Wang Yequan,Huang Minlie,Zhao Li,et al.“Attentionbased LSTM for aspect-level sentiment classification”[C].Proc of the 2016 Conf on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2016:606-615.

    [7]劉玉林,菅利榮.基于文本情感分析的電商在線(xiàn)評(píng)論數(shù)據(jù)挖掘[J].統(tǒng)計(jì)與信息論壇,2018,33(12):119-124.

    作者簡(jiǎn)介:魏一?。?985- ),男,漢族,河南安陽(yáng)人,碩士,講師,研究方向:跨境電商與數(shù)據(jù)挖掘

    猜你喜歡
    在線(xiàn)評(píng)論預(yù)測(cè)模型
    基于矩陣?yán)碚撓碌母咝=處熑藛T流動(dòng)趨勢(shì)預(yù)測(cè)
    東方教育(2016年9期)2017-01-17 21:04:14
    基于支持向量回歸的臺(tái)灣旅游短期客流量預(yù)測(cè)模型研究
    在線(xiàn)評(píng)論情感屬性的動(dòng)態(tài)變化
    基于神經(jīng)網(wǎng)絡(luò)的北京市房?jī)r(jià)預(yù)測(cè)研究
    商情(2016年43期)2016-12-23 14:23:13
    在線(xiàn)評(píng)論對(duì)電子商務(wù)商品銷(xiāo)量的影響研究
    中文信息(2016年10期)2016-12-12 11:01:20
    中國(guó)石化J分公司油氣開(kāi)發(fā)投資分析與預(yù)測(cè)模型研究
    基于IOWHA法的物流需求組合改善與預(yù)測(cè)模型構(gòu)建
    在線(xiàn)評(píng)論對(duì)消費(fèi)者購(gòu)買(mǎi)意圖的影響研究
    商(2016年10期)2016-04-25 10:03:58
    基于預(yù)測(cè)模型加擾動(dòng)控制的最大功率點(diǎn)跟蹤研究
    科技視界(2016年1期)2016-03-30 13:37:45
    在線(xiàn)評(píng)論與消費(fèi)者行為的研究進(jìn)展與趨勢(shì)展望
    軟科學(xué)(2015年6期)2015-07-10 02:32:49
    眉山市| 漳浦县| 喜德县| 铁岭市| 太湖县| 彭山县| 龙陵县| 云林县| 天门市| 平潭县| 荥阳市| 浮梁县| 金坛市| 安图县| 锡林浩特市| 大丰市| 泸州市| 肇庆市| 古丈县| 自治县| 辰溪县| 平湖市| 定襄县| 民勤县| 东乌| 盐亭县| 岱山县| 新竹市| 建始县| 吉林省| 特克斯县| 江油市| 日土县| 南阳市| 和田市| 定南县| 神农架林区| 蛟河市| 余干县| 个旧市| 洪洞县|