周陳超 趙玲瑜 趙波 柳孔明 孟佳洋
摘要:用戶評(píng)論對(duì)網(wǎng)上商城有著非常重要的作用,它能極大推動(dòng)潛在客戶的轉(zhuǎn)化。但是評(píng)論涉及商品的方方面面,數(shù)量多內(nèi)容雜,需要進(jìn)行分類和匯總以抽取核心信息。針對(duì)評(píng)論對(duì)象的分類問題,文章設(shè)計(jì)一個(gè)結(jié)合注意力機(jī)制的LSTM(Long Short-Term Memory)模型。模型首先使用LSTM訓(xùn)練用戶評(píng)論,然后采用注意力機(jī)制聚焦關(guān)鍵信息優(yōu)化分類結(jié)果。在SemEval-2014數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明,模型對(duì)評(píng)論對(duì)象分類的準(zhǔn)確率較高。
關(guān)鍵詞: 用戶評(píng)論;評(píng)論對(duì)象分類;LSTM;注意力機(jī)制
中圖分類號(hào): TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)32-0214-02
Abstract:User reviews play a very important role in online shopping malls, which can greatly promote the conversion of potential customers. It is difficult for ordinary users to make full use of a large number of user reviews, so it is very important to classify and summarize these reviews. Aiming at the classification of review objects, this paper proposes a Long Short-Term Memory (LSTM) model based on attention mechanism. The model first uses LSTM to train user reviews and then uses the attention mechanism to capture important information related to categories for classification. The experimental results on the SemEval-2014 dataset show that the model can effectively classify review objects。
Key words:user reviews;review object classification;long short-term memory;attention mechanism
隨著電子商務(wù)的發(fā)展,網(wǎng)上積聚了海量的用戶評(píng)論,這些評(píng)論作為一種口碑成為用戶購買決策的重要參考[1]。用戶去沒去過的飯店聚餐時(shí),經(jīng)常會(huì)去“大眾點(diǎn)評(píng)”查看其他人的點(diǎn)評(píng)。但是,用戶的點(diǎn)評(píng)非常多。在“大眾點(diǎn)評(píng)”中,“全聚德”單個(gè)門店的點(diǎn)評(píng)就有六七千條,涉及菜品、口味、價(jià)格以及服務(wù)等方方面面,用戶自己很難看完這些信息,挑著看又存在以偏概全的問題。因此需要開發(fā)系統(tǒng)對(duì)用戶評(píng)論進(jìn)行對(duì)象分類、提取摘要,為用戶提供簡(jiǎn)要精準(zhǔn)的關(guān)鍵內(nèi)容。對(duì)評(píng)論進(jìn)行分類就是其中的一項(xiàng)重要任務(wù),評(píng)論的分類為進(jìn)一步的情感分析和意見摘要提供精確的類別信息[2]。
用戶評(píng)論對(duì)象分類目前已有一些研究。Brychcin等[3]結(jié)合Tf-Idf和詞袋模型為每個(gè)類別設(shè)計(jì)一個(gè)最大熵分類器。Kiritchenko等[4]基于N-gram特征以及根據(jù)點(diǎn)互信息設(shè)計(jì)的詞典分別為每個(gè)類別構(gòu)造一個(gè)SVM分類器,分類的F1值達(dá)到88.6%。注意力機(jī)制(attention mechanism)最開始在圖像分析領(lǐng)域取得成功,目的從眾多信息中選擇出對(duì)當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。Wang等人[5]結(jié)合注意力機(jī)制使用LSTM實(shí)現(xiàn)評(píng)論類別的細(xì)粒度的情感分析,效果很好。但是評(píng)論對(duì)象分類方面注意力機(jī)制的研究還不多。
文章使用預(yù)先訓(xùn)練好的詞向量,將文字形式的評(píng)論映射到可計(jì)算的向量空間。詞向量能夠?qū)⒄Z言數(shù)字化,量化表征詞語之間的相關(guān)關(guān)系,并能進(jìn)行計(jì)算。LSTM整合句子的語義信息,注意力機(jī)制捕捉涉及分類的關(guān)鍵要素,基于注意力機(jī)制的輸出為所有類別分別構(gòu)建一個(gè)二元分類器。
1 評(píng)論對(duì)象分類問題描述
根據(jù)事先確定的分類信息,評(píng)論對(duì)象分類問題是判斷評(píng)論的句子包含哪些類別[6]。某一商品有[C={c1,c2,...,cT}] T個(gè)類別,評(píng)論數(shù)據(jù)集有[S={s1,s2,...,sK}] K個(gè)句子,針對(duì)所有句子,判斷每個(gè)類別[ci]的二元標(biāo)簽向量[yij]。[yij=1]表示句子[sj]評(píng)論的對(duì)象包含類別[ci],[yij=0]則表示句子[sj]評(píng)論的對(duì)象不包含類別[ci],句子涉及的類別數(shù)不定。
2 基于注意力LSTM的評(píng)論對(duì)象分類模型(A-LSTM)
評(píng)論對(duì)象分類首先要提取出與類別有關(guān)聯(lián)的特征信息,然后判斷這些特征信息和類別的關(guān)系。A-LSTM基于注意力機(jī)制識(shí)別與類別有關(guān)聯(lián)的特征信息,框架如圖1所示。
2.1輸入詞向量
模型使用經(jīng)Mikolov等[7]的CBOW方法預(yù)訓(xùn)練的詞向量,[E∈Rd×|V|],其中d是詞向量的維度,即把每個(gè)詞映射為d維向量,|V|表示詞向量的大小,即包含多少詞的詞向量。根據(jù)詞向量將評(píng)論中的句子[sj]轉(zhuǎn)化成詞向量列表[{e1,...,et,...,eLj}],其中[ei∈Rd][6]。
2.2 LSTM提取語義信息
LSTM是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),解決一般的循環(huán)神經(jīng)網(wǎng)絡(luò)存在的長(zhǎng)期依賴問題[8]。LSTM能夠記憶歷史的文字輸入信息,進(jìn)而提取整個(gè)句子的語義特征用于分類訓(xùn)練。
2.3 注意力機(jī)制
提取與類別關(guān)聯(lián)的特征信息是對(duì)評(píng)論對(duì)象進(jìn)行準(zhǔn)確分類的關(guān)鍵,注意力機(jī)制在這里非常有用。類別信息加入模型的計(jì)算中,結(jié)合注意力機(jī)制聚焦關(guān)鍵的特征信息,經(jīng)Softmax計(jì)算后進(jìn)行分類。模型為每個(gè)類別構(gòu)造一個(gè)分類器。
句子的LSTM輸出詞向量[h1,h2,...,hN]記為[H∈Rd×N],句子S的長(zhǎng)度N,類別信息的詞向量為vc。加入類別詞向量后,注意力能更好地進(jìn)行聚焦。
模型使用softmax將句子S關(guān)于類別vc的特征向量表達(dá)映射為關(guān)于vc的條件概率分布。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)數(shù)據(jù)
論文使用英文的SemEval-2014 [9] Restaurant 數(shù)據(jù)集。實(shí)驗(yàn)使用Mikolov等人的word2vec算法預(yù)先訓(xùn)練的詞向量,輸出向量為300維,采用U(-0.01,0.01)隨機(jī)初始化未登錄詞向量。
參考SemEval評(píng)價(jià)方法,實(shí)驗(yàn)結(jié)果以F1值進(jìn)行比較。
其中正確率(P)和召回率(R)定義如下:
S為算法給出的標(biāo)簽,G是正確的標(biāo)簽。
3.2 實(shí)驗(yàn)結(jié)果
據(jù)表1,“price”“food” 以及“service”的分類準(zhǔn)確率高, “anecdote/misc” 和“ambience”的分類準(zhǔn)確率相對(duì)差一點(diǎn)。
“ambience”的分類準(zhǔn)確率最差,主要是因?yàn)橛?xùn)練語料少。在訓(xùn)練語料中, “price”出現(xiàn)一百五十多次,但“ambience”僅出現(xiàn)二十幾次。相比之下,訓(xùn)練出來的參數(shù)代表性不足,分類效果不佳。四個(gè)類別之外的其他類別為“anecdote/misc”類,包含的要素雜亂,沒有一個(gè)準(zhǔn)確的概括性強(qiáng)的類別信息加入注意力計(jì)算中,因此分類效果不好。“anecdote/misc” 和“ambience”分類準(zhǔn)確率低,一方面是訓(xùn)練的數(shù)據(jù)集太少,覆蓋面不夠;另一方面是由于注意力計(jì)算時(shí)加入的類別詞概括性和準(zhǔn)確性不夠,無法代表類別特征。這些都是下一步改進(jìn)的重點(diǎn)。
4 結(jié)論
在評(píng)論對(duì)象的分類研究中,文章提出基于注意力機(jī)制的LSTM模型對(duì)評(píng)論對(duì)象進(jìn)行分類。詞向量將模糊的文字轉(zhuǎn)化為可計(jì)算的、可對(duì)比的語義向量;LSTM整合評(píng)論的語義信息,注意力機(jī)制極大提高分類計(jì)算的有效性。實(shí)驗(yàn)結(jié)果表明模型的分類效果挺好。
下一步將針對(duì)類別詞代表性不夠的問題,通過整合類別特征等方法,提高類別向量的代表性,進(jìn)而提升分類的效果。
參考文獻(xiàn):
[1] Adjei M T,Noble S M,Noble C H.The influence of C2C communications in online brand communities on customer purchase behavior[J].Journal of the Academy of Marketing Science,2010,38(5):634-653.
[2] Liu B. Opinion Mining and Sentiment Analysis[J]. Synthesis Lectures on Human Language Technologies, 2011, 2(2):459-526
[3] Brychcin T, Konkol M, Steinberger J. UWB: Machine Learning Approach to Aspect-Based Sentiment Analysis[C]// Semeval, 2014
[4] Kiritchenko S,Zhu X D,Cherry C,et al.NRC-Canada-2014:detecting aspects and sentiment in customer reviews[C]//Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014).Dublin,Ireland.Stroudsburg,PA,USA:Association for Computational Linguistics,2014:437-442.
[5] Wang Y Q,Huang M L,zhu X Y,et al.Attention-based lstm for Aspect-level sentiment classification[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing.Austin,Texas.Stroudsburg,PA,USA:Association for Computational Linguistics,2016:606-615.
[6] 周陳超,陳群,李戰(zhàn)懷,等.基于注意力和雙向LSTM的評(píng)價(jià)對(duì)象類別判定[J].西北工業(yè)大學(xué)學(xué)報(bào),2019,37(3):558-564.
[7] Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[EB/OL].2013:arXiv:1301.3781[cs.CL].https://arxiv.org/abs/1301.3781.
[8] 秦賀然,劉瀏,李斌,等.融入實(shí)體特征的典籍自動(dòng)分類研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(9):68-76.
[9] Pontiki M,Galanis D,Pavlopoulos J,et al.SemEval-2014 task 4:aspect based sentiment analysis[C]//Proceedings of the 8th International Workshop on Semantic Evaluation (SemEval 2014).Dublin,Ireland.Stroudsburg,PA,USA:Association for Computational Linguistics,2014:27-35.
【通聯(lián)編輯:唐一東】