吳迪,劉月恒,孟宏,邱顯榮,張青川
摘要:互聯(lián)網(wǎng)的快速發(fā)展,使得輿情信息會(huì)在短時(shí)間內(nèi)大范圍傳播。通過(guò)構(gòu)建化妝品相關(guān)的知識(shí)圖譜能夠快速有效地發(fā)現(xiàn)輿情的焦點(diǎn)內(nèi)容,有助于相關(guān)部門更好地掌握輿情導(dǎo)向,并且很好地支持后期的輿情分析。關(guān)系抽取和命名實(shí)體識(shí)別是構(gòu)建知識(shí)圖譜的關(guān)鍵技術(shù)。針對(duì)化妝品輿情存在的多實(shí)體關(guān)系問(wèn)題,文章在BERT預(yù)訓(xùn)練模型的基礎(chǔ)上構(gòu)建了BERT-BiLSTM-CRF化妝品輿情實(shí)體關(guān)系抽取模型。在化妝品輿情數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:基于BERT-BiLSTM-CRF的化妝品輿情實(shí)體關(guān)系抽取模型比常用的幾種神經(jīng)網(wǎng)絡(luò)模型高出2.68%~4.83%,驗(yàn)證了模型的合理性和有效性。
關(guān)鍵詞:化妝品輿情;BERT;關(guān)系抽取
中圖分類號(hào):TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)33-0025-03
1 概述
隨著社交平臺(tái)的快速發(fā)展,網(wǎng)民可以隨時(shí)隨地通過(guò)自己的社交軟件參與輿情事件的討論、發(fā)表觀點(diǎn)、表達(dá)態(tài)度[1]。近年來(lái),化妝品輿情的體量不斷增加,在最近的統(tǒng)計(jì)信息中,化妝品負(fù)面輿情整體占比呈上升趨勢(shì)。快速把握輿情信息的焦點(diǎn)內(nèi)容有助于對(duì)輿情事件做出及時(shí)處理,正確引導(dǎo)公眾的情緒,從而避免造成更嚴(yán)重的后果。然而在互聯(lián)網(wǎng)平臺(tái)存在大量的非結(jié)構(gòu)化、具有歧義的文本數(shù)據(jù)。因此如何快速、精準(zhǔn)且有效地對(duì)海量數(shù)據(jù)進(jìn)行分析處理并將其轉(zhuǎn)換為可以直接查詢的結(jié)構(gòu)化信息是至關(guān)重要的。
化妝品輿情知識(shí)圖譜是以化妝品行業(yè)為基礎(chǔ),挖掘化妝品輿情事件之間的內(nèi)在聯(lián)系,在化妝品安全、化妝品輿情分析等方面都發(fā)揮著重要的作用。實(shí)體關(guān)系抽取是構(gòu)建化妝品輿情知識(shí)圖譜的重要基礎(chǔ)工作之一,實(shí)體識(shí)別是指從文本中提取已命名的實(shí)體,并將其劃分為指定的類別。關(guān)系提取是為了識(shí)別實(shí)體之間的一些語(yǔ)義關(guān)系。
在之前的研究中大多采用神經(jīng)網(wǎng)絡(luò)模型來(lái)抽取實(shí)體和關(guān)系,Li[1]提出了一個(gè)增量聯(lián)合框架,使用結(jié)構(gòu)化感知器提取實(shí)體和關(guān)系。Bai等人[2]提出了通過(guò)詞嵌入的方式提取局部語(yǔ)義特征,設(shè)計(jì)了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的片段注意機(jī)制來(lái)提取實(shí)體關(guān)系。與CNN模型相比,RNN能更好地學(xué)習(xí)語(yǔ)句中上下文的語(yǔ)義信息。Socher等人[3]首次將矩陣-遞歸神經(jīng)網(wǎng)絡(luò)模型(MV-RNN)應(yīng)用于自然語(yǔ)言處理,有效地解決了單詞向量模型無(wú)法捕捉長(zhǎng)短語(yǔ)或句子的組成意義的問(wèn)題。長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)模型[4]與RNN模型具有相同的總體框架。但是LSTM允許每個(gè)神經(jīng)單元忘記或保留信息,在一定程度上解決了RNN存在的爆炸梯度問(wèn)題。Zhang等[5]提出了一種基于LSTM序列的位置感知注意機(jī)制,該機(jī)制與一種實(shí)體位置感知注意相結(jié)合,以實(shí)現(xiàn)更好的關(guān)系提取性能。隨著預(yù)訓(xùn)練模型的不斷發(fā)展,BERT預(yù)訓(xùn)練語(yǔ)言模型在各種自然語(yǔ)言處理任務(wù)上都取得了表較好的效果。Gao等[6]提出了一種基于BERT的醫(yī)學(xué)關(guān)系提取模型,該模型將從預(yù)先訓(xùn)練的語(yǔ)言模型中獲得的整個(gè)句子信息與兩個(gè)醫(yī)療實(shí)體的對(duì)應(yīng)信息相結(jié)合,完成關(guān)系提取任務(wù)。
本文在分析現(xiàn)有實(shí)體關(guān)系抽取方法的優(yōu)劣的基礎(chǔ)上,針對(duì)化妝品輿情方面的語(yǔ)料,構(gòu)建了基于BERT-BiLSTM_CRF的實(shí)體關(guān)系抽取模型,能夠很好地抽取實(shí)體和關(guān)系信息。
2 基于BERT-BiLSTM-CRF的化妝品輿情實(shí)體關(guān)系抽取模型
本文構(gòu)建的是實(shí)體關(guān)系抽取模型包括是BERT層、BiLSTM層和CRF層三部分,模型結(jié)構(gòu)如圖1所示。
2.1 BERT層
基于已有的Word2Vec、GPT等語(yǔ)言模型,2018年Google團(tuán)隊(duì)提出BERT[7]預(yù)訓(xùn)練語(yǔ)言模型,該模型可以學(xué)習(xí)輸入序列的特征表示,然后再把學(xué)習(xí)的特征表示應(yīng)用到不同的下游任務(wù)中任務(wù)。BERT可以通過(guò)無(wú)監(jiān)督的方式使用大量未標(biāo)記的文本進(jìn)行訓(xùn)練。通過(guò)構(gòu)建標(biāo)記語(yǔ)言模型,BERT可以隨機(jī)覆蓋或替換句子中的任何單詞,使模型能夠預(yù)測(cè)被上下文隨機(jī)覆蓋的部分,得到該單詞的分布式上下文表示。BERT模型中Transformer采用自注意力機(jī)制和全連接層處理輸入的文本。Transformer采用的多頭注意力機(jī)制,可以獲得多個(gè)維度的信息。本文模型將BERT的輸出結(jié)果輸入BiLSTM[8]層中。
2.2 BiLSTM層
BiLSTM接收BERT輸出的向量作為輸入,從而獲得更加全面的語(yǔ)義信息。BiLSTM對(duì)每個(gè)訓(xùn)練序列應(yīng)用一個(gè)前向和后向LSTM網(wǎng)絡(luò),兩個(gè)LSTM網(wǎng)絡(luò)連接到同一個(gè)輸出層。LSTM計(jì)算主要是三個(gè)門結(jié)構(gòu):輸入門、遺忘門和輸出門。具體計(jì)算公式如下所示:
[it=σ(Wi?[ht-1,Xt]+bi)] (1)
[ft=σ(Wf?[ht-1,Xt]+bf)] (2)
[Ct=tanh(WC?[ht-1,Xt]+bC)] (3)
[ot=σ(Wo?[ht-1,Xt]+bo)] (4)
[Ct=ft*Ct-1+it*Ct)] (5)
[ht=ot*tanh(Ct)] (6)
其中,[Wi]、[Wf]、[Wo]是加權(quán)矩陣,[bi]、[bf]、[bo]是LSTM的偏差。[it]、[ft]、[ot]分別代表t時(shí)刻的輸入門、遺忘門和輸出門,[Xt]表示在t時(shí)刻的輸入,[ht]表示在t時(shí)刻的輸出。
2.3 CRF層
條件隨機(jī)場(chǎng)(CRF)[9]是一種以指定的隨機(jī)變量為輸入,解決隨機(jī)輸出變量的條件概率分布的算法。近年來(lái),它被廣泛應(yīng)用于詞性標(biāo)記、句法分析和命名實(shí)體識(shí)別等領(lǐng)域。CRF可以考慮相鄰標(biāo)記結(jié)果之間的關(guān)系,并在全文中得到最優(yōu)的標(biāo)記序列結(jié)果。CRF的基本算法定義如下:
[S(x,y)=i=1nAyi-1yi+i=0npi].[yi] ? ? ? ?(7)
[P(y|x)=eS(x,y)~y∈YxeS(x, ~y)]? ? ? ? ? ? ? ? ? ? ? ? ? ? (8)
其中BiLSTM層的輸出結(jié)果定義為[Pmn],其中n表示單詞數(shù),m表示標(biāo)簽類別。其中,[Pij]表示第i個(gè)標(biāo)簽與第j個(gè)標(biāo)簽匹配的概率。對(duì)于輸入的句子序列x={x1,x2,...,xn}及其預(yù)測(cè)的序列y={y1,y2,...,yn}。
3 實(shí)驗(yàn)
3.1 數(shù)據(jù)集與數(shù)據(jù)預(yù)處理
本文將在化妝品輿情領(lǐng)域單獨(dú)構(gòu)建的輿情數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集。自建語(yǔ)料庫(kù)從專業(yè)和權(quán)威網(wǎng)站通過(guò)爬蟲(chóng)獲取有關(guān)化妝品輿情(如百度、微博)的數(shù)據(jù)。對(duì)需要處理的數(shù)據(jù)采用BIO標(biāo)注方式,其中,B表示實(shí)體的第一個(gè)字,I表示第二個(gè)單詞以及后面的字和O表示不屬于特定實(shí)體的詞。
3.2 實(shí)驗(yàn)參數(shù)設(shè)置
3.3評(píng)價(jià)指標(biāo)
本文采用三個(gè)常見(jiàn)的指標(biāo),即精度(P)、召回率(R)和F1來(lái)評(píng)估模型。計(jì)算公式如下:
[Pi=TPiTPi+FPi]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(9)
其中P代表精確度,TP表示實(shí)際正類,預(yù)測(cè)也為正類的數(shù)量,F(xiàn)P表示實(shí)際負(fù)類,預(yù)測(cè)為正類的數(shù)量。
[R=TPiTPi+FNi]? ? ? ? ? ? ? ?; ? ? ? ? ? ? ? ?(10)
其中R代表召回率,TP表示實(shí)際正類,預(yù)測(cè)也為正類的數(shù)量,F(xiàn)N表示實(shí)際正類,預(yù)測(cè)為負(fù)類的數(shù)量。
[F1=P*R*2P+R ]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (11)
其中P為精確度,R為召回率。
3.4結(jié)果分析
實(shí)驗(yàn)結(jié)果如表2所示,筆者的模型在P、R、F1三個(gè)指標(biāo)上均取得了更好的效果。此外,通過(guò)對(duì)比不同模型之間的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn),BERT+CRF模型的性能高于BERT+Softmax模型,證明了CRF模型可以有效解決標(biāo)簽之間的依賴關(guān)系,避免生成錯(cuò)誤的標(biāo)簽序列。BERT+Bi-LSTM模型的性能高于BERT+CRF模型與BERT+Softmax模型,證明了雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)可以有效利用上下文信息,并可以有效建模序列特征之間的依賴。
4 結(jié)束語(yǔ)
本文提出了一種基于Bert-BiLSTM-CRF的化妝品輿情實(shí)體關(guān)系提取模型,該模型通過(guò)Bert對(duì)文本進(jìn)行向量化,隨后利用BiLSTM模型學(xué)習(xí)上下文信息,更好地進(jìn)行特征提取,進(jìn)而完成實(shí)體關(guān)系的提取。實(shí)驗(yàn)結(jié)果表明,本文提出的模型相較于其他深度學(xué)習(xí)模型在性能上更優(yōu)。
參考文獻(xiàn):
[1] Li Q,Ji H.Incremental joint extraction of entity mentions and relations[J].52nd Annual Meeting of the Association for Computational Linguistics,ACL 2014 - Proceedings of the Conference,2014,1:402-412.
[2] Bai T,Guan H T,Wang S,et al.Traditional Chinese medicine entity relation extraction based on CNN with segment attention[J].Neural Computing and Applications,2022,34(4):2739-2748.
[3] Socher, Richard? Semantic Compositionality through Recursive Matrix-Vector Spaces.EMNLP ,2012.
[4] Miwa M,Bansal M.End-to-end relation extraction using LSTMs on sequences and tree structures[J].54th Annual Meeting of the Association for Computational Linguistics,ACL 2016 - Long Papers,2016,2:1105-1116.
[5] Zhang Y H,Zhong V,Chen D Q,et al.Position-aware attention and supervised data improve slot filling[C]//Proceedings of the 2017 Conference on Empirical Methods in Natural\n Language Processing.Copenhagen,Denmark.Stroudsburg,PA,USA:Association for Computational Linguistics,2017s.
[6] Gao S X,Du J L,Zhang X.Research on relation extraction method of Chinese electronic medical records based on BERT[C]//Proceedings of the 2020 6th International Conference on Computing and Artificial Intelligence.Tianjin,China.New York:ACM,2020:487-490.
[7] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deep bidirectional transformers for language understanding[EB/OL].2018:arXiv:1810.04805.https://arxiv.org/abs/1810.04805
[8] Chen C M.Feature set identification for detecting suspicious URLs using Bayesian classification in social networks[J].Information Sciences,2014,289:133-147.
[9] Lafferty J D,McCallum A,Pereira F C N.Conditional random fields:probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning.New York:ACM,2001:282-289.
【通聯(lián)編輯:唐一東】