蘇明星,吳厚月,張順香
安徽理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽淮南,232001
方面抽取是文本方面級(jí)情感分析任務(wù)的核心子任務(wù)之一,能否準(zhǔn)確且全面地抽取出評(píng)論文本中所表達(dá)的方面詞,決定了后續(xù)情感分析任務(wù)是否能順利展開(kāi)。越來(lái)越多研究者開(kāi)始關(guān)注如何提高抽取結(jié)果的準(zhǔn)確度,進(jìn)而促進(jìn)文本方面級(jí)情感分析的研究[1]。在商品中文評(píng)論信息的方面及研究領(lǐng)域中,方面抽取的目標(biāo)是從給定的商品評(píng)價(jià)文本中抽取出用戶(hù)評(píng)價(jià)的具體方面,方面是指評(píng)論文本中觀點(diǎn)詞所指向的最小對(duì)象[2],即表達(dá)商品屬性的詞。一般而言,抽取方法的主要思想是:首先,對(duì)輸入的文本序列進(jìn)行詞嵌入獲得文本的向量化表示;然后,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱(chēng)CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱(chēng)RNN)等網(wǎng)絡(luò)結(jié)構(gòu)對(duì)輸入文本進(jìn)行特征提取;最后,利用CRF求解出最優(yōu)的標(biāo)簽結(jié)果。
傳統(tǒng)詞嵌入是通過(guò)樣本數(shù)據(jù)進(jìn)行訓(xùn)練得到一個(gè)靜態(tài)向量映射矩陣,即一個(gè)詞由唯一的詞向量表示,對(duì)于中文的一詞多義不同和語(yǔ)境的表征特點(diǎn),造成抽取結(jié)果出現(xiàn)偏差。因此,在抽取商品評(píng)論信息中的方面詞時(shí),需要考慮如何讓詞向量能在不同語(yǔ)境下表示不同的含義,避免因?yàn)橐辉~多義造成抽取準(zhǔn)確率下降。
對(duì)于如何提高詞向量表征能力的研究,已有很多的研究成果出現(xiàn)。其中表現(xiàn)最為突出的是Google團(tuán)隊(duì)提出的BERT預(yù)訓(xùn)練語(yǔ)言模型[3],該模型通過(guò)學(xué)習(xí)詞向量與上下文的關(guān)系函數(shù)而非詞向量的方式解決了無(wú)法表征一詞多義問(wèn)題,并在各類(lèi)的英文NLP任務(wù)上取得目前最好的成績(jī)。本研究嘗試將BERT預(yù)訓(xùn)練語(yǔ)言模型引入商品中文評(píng)論的方面抽取任務(wù)中,提高抽取結(jié)果的準(zhǔn)確度。在面向商品中文評(píng)論的方面抽取任務(wù)中,本文提出一種基于BERT的商品中文評(píng)論方面抽取模型。所提出的模型在序列標(biāo)注基準(zhǔn)網(wǎng)絡(luò)BiGRU-CRF的基礎(chǔ)上引入BERT預(yù)訓(xùn)練模型和注意力機(jī)制作為模型的輔助信息,進(jìn)一步提高抽取的準(zhǔn)確度。BERT+BiGRU相結(jié)合確保了模型能夠充分學(xué)習(xí)到文本序列的上下文信息和詞向量之間的長(zhǎng)期依賴(lài),引入注意力機(jī)制是考慮到文本序列中不同詞對(duì)于抽取目標(biāo)有不同程度的影響,有利于降低非目標(biāo)詞對(duì)抽取結(jié)果的影響。
目前,面向商品中文評(píng)論信息的方面抽取研究常用的方法可以分為基于規(guī)則與統(tǒng)計(jì)相結(jié)合的方法、基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法。
早期對(duì)于文本序列的方面抽取研究,是基于人工制定的規(guī)則和統(tǒng)計(jì)學(xué)知識(shí),從繁雜的評(píng)論信息文本中抽取出相應(yīng)的研究目標(biāo)。Hu等[4]在進(jìn)行屬性抽取研究任務(wù)時(shí),發(fā)現(xiàn)絕大多數(shù)的顯示屬性都是名詞或者名詞性的短語(yǔ),因此他們將對(duì)應(yīng)的關(guān)聯(lián)規(guī)則引入進(jìn)屬性抽取任務(wù)中,提高了抽取的準(zhǔn)確度。在此基礎(chǔ)上,Zhuang等[5]利用評(píng)論對(duì)象和評(píng)論意見(jiàn)之間的依存關(guān)系,提出一種融合依存關(guān)系的抽取方法,從電影評(píng)論文本中抽取出“對(duì)象-意見(jiàn)”詞對(duì)。Wang等[6]通過(guò)已有的語(yǔ)料訓(xùn)練出評(píng)價(jià)對(duì)象和評(píng)價(jià)意見(jiàn)的種子集,利用Bootstrapping算法對(duì)評(píng)論文本進(jìn)行交替識(shí)別,抽取出文本中的評(píng)價(jià)對(duì)象和意見(jiàn)詞。雖然基于規(guī)則與統(tǒng)計(jì)相結(jié)合的方法在一定程度上提高了抽取的準(zhǔn)確度,但該類(lèi)方法依賴(lài)大量人工制定的規(guī)則,導(dǎo)致方法抽取預(yù)定規(guī)則之外的屬性的能力是很差的,方法不具有普適性。
基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法摒棄了人工制定規(guī)則的研究思路,將抽取任務(wù)利用傳統(tǒng)機(jī)器學(xué)習(xí)的思維轉(zhuǎn)化成序列標(biāo)注問(wèn)題。Jin等[7]利用隱馬爾可夫模型(HMM)通過(guò)訓(xùn)練語(yǔ)料學(xué)習(xí)如何標(biāo)記出評(píng)價(jià)對(duì)象。樂(lè)娟等[8]在研究京劇領(lǐng)域的命名實(shí)體識(shí)別的任務(wù)中,引入隱馬爾可夫模型,取得較好的實(shí)驗(yàn)結(jié)果。Jakob等[9]首次嘗試將條件隨機(jī)場(chǎng)模型(CRF) 用于評(píng)論文本中商品屬性的抽取任務(wù),提高了抽取的準(zhǔn)確度。彭春艷等[10]將CRF、單詞間的距離依賴(lài)關(guān)系和單詞的結(jié)構(gòu)特征相結(jié)合,在生物命名實(shí)體識(shí)別任務(wù)中取得較高的提升。鞠九朋等[11]在地理空間命名實(shí)體識(shí)別任務(wù)中,通過(guò)將CRF模型與關(guān)聯(lián)規(guī)則相結(jié)合,提高了識(shí)別的準(zhǔn)確度和全面性。雖然基于傳統(tǒng)的機(jī)器學(xué)習(xí)方法不要人工制定相應(yīng)的規(guī)則,方法的普適性大大提高,但是由于機(jī)器學(xué)習(xí)方法的本身特性,大量繁瑣的特征工程依舊需要消耗大量的人力資源。
為了能減少繁瑣的特征工程,在抽取領(lǐng)域中,引入深度學(xué)習(xí)的方法。蘇豐龍等[12]將深度學(xué)習(xí)的詞嵌入(Word Embedding)應(yīng)用到領(lǐng)域?qū)嶓w屬性抽取任務(wù)中。Li等[13]將雙向的長(zhǎng)短期記憶單元網(wǎng)絡(luò)(Bi-LSTM)和注意力機(jī)制相結(jié)合,實(shí)現(xiàn)抽取屬性過(guò)程和情感分析過(guò)程特征共享。Toh等[14]在傳統(tǒng)的CRF模型的基礎(chǔ)之上,引入雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bi-RNN),在官方數(shù)據(jù)集SemEval 2016中獲得最優(yōu)的評(píng)價(jià)效果。深度學(xué)習(xí)通過(guò)大量的訓(xùn)練語(yǔ)料學(xué)習(xí),給能避免傳統(tǒng)機(jī)器學(xué)習(xí)需要人工選擇的過(guò)程,這類(lèi)端到端的神經(jīng)網(wǎng)絡(luò)模型越來(lái)越被學(xué)者選擇。
文本提出的抽取方法是建立在已有的標(biāo)注序列基準(zhǔn)模型BiGRU+CRF基礎(chǔ)之上的,引入BERT預(yù)訓(xùn)練模型編碼商品中文評(píng)論,解決傳統(tǒng)詞嵌入無(wú)法表征一詞多義的問(wèn)題。另外,為了模型能學(xué)習(xí)到更具體的文本特征將注意力機(jī)制引入進(jìn)來(lái),進(jìn)一步提高模型的特征學(xué)習(xí)能力。
文本所提出的抽取模型由以下四個(gè)部分組成:編碼層、文本特征提取層、注意力層和CRF層,模型具體結(jié)構(gòu)如圖1所示。以下是各層的功能簡(jiǎn)介:
圖1 基于BERT的商品中文評(píng)論方面抽取模型
(1)編碼層:通過(guò)BERT預(yù)訓(xùn)練模型來(lái)對(duì)輸入的原始序文本進(jìn)行編碼,獲得具有強(qiáng)表征能力的詞向量。
(2)文本特征提取層:利用雙向的GRU網(wǎng)絡(luò)結(jié)構(gòu)對(duì)序列文本進(jìn)行特征提取,獲取文本特征。
(3)注意力層:為提取出的每一個(gè)文本特征賦予不同的關(guān)注度,表示不同文本特征在本任務(wù)中的不同重要程度,進(jìn)一步提取需要的文本特征。
(4)CRF層:將上游網(wǎng)絡(luò)模型的輸出輸入到條件隨機(jī)場(chǎng)(CRF)中,找出最優(yōu)的抽取結(jié)果,完成商品評(píng)論文本中方面詞的抽取。
在商品中文評(píng)論方面抽取領(lǐng)域,通過(guò)傳統(tǒng)詞嵌入技術(shù)只能獲得靜態(tài)詞向量,不能根據(jù)當(dāng)前上下文來(lái)動(dòng)態(tài)表征字詞的多義性。近些年來(lái),隨著B(niǎo)ERT預(yù)訓(xùn)練語(yǔ)言模型的廣泛使用,已經(jīng)在眾多的英文NLP任務(wù)上證明了該模型能夠有效解決傳統(tǒng)詞向量無(wú)法表征一詞多義問(wèn)題,BERT預(yù)訓(xùn)練語(yǔ)言模型的具體框架結(jié)構(gòu)如圖2所示。BERT模型主要是基于雙向的Transformer網(wǎng)絡(luò)架構(gòu),Transformer模型是由Google提出的一種摒棄RNN只依賴(lài)Self-Attention機(jī)制的新網(wǎng)絡(luò)架構(gòu)。Self-Attention機(jī)制的存在,讓輸入文本序列的任意單元都可以進(jìn)行交互,沒(méi)有長(zhǎng)度的限制問(wèn)題,高效捕獲長(zhǎng)距離上下文語(yǔ)義特征,再加上采用雙向的Transformer編碼器結(jié)構(gòu),當(dāng)前單元的左右語(yǔ)境信息也可以有效捕獲。
圖2 BERT預(yù)訓(xùn)練語(yǔ)言模型結(jié)構(gòu)示意圖
BERT模型在進(jìn)行預(yù)訓(xùn)練的過(guò)程中,對(duì)訓(xùn)練語(yǔ)料進(jìn)行字級(jí)別的遮蔽(Mask)處理再對(duì)這一遮蔽進(jìn)行推理預(yù)測(cè),從而完成預(yù)訓(xùn)練。以空格為分割的英文而言,這樣的遮蔽處理是不會(huì)破壞詞的本身含義,但對(duì)于中文而言,字級(jí)別的遮蔽會(huì)導(dǎo)致詞匯產(chǎn)生偏差。針對(duì)BERT如何應(yīng)用在中文的NLP任務(wù)上,哈工大和科大訊飛聯(lián)合布全詞覆蓋的中文BERT模型[15],遮蔽處理不再是以字為基本單位,而是以詞為基本單位,在多個(gè)中文數(shù)據(jù)集上的表現(xiàn)都超越了原始的BERT模型。
本文對(duì)原始中文評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理后,將序列文本S={S1,S2,…,Sn},n為輸入文本詞個(gè)數(shù),通過(guò)one-hot編碼后輸入到BERT模型中,模型輸出文本序列的詞向量表示,即X={X1,X2,…,Xn}。
本文采取門(mén)控循環(huán)網(wǎng)絡(luò)GRU作為文本特征的抽取網(wǎng)絡(luò),GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體,是為了解決RNN長(zhǎng)期記憶和反向傳播中的梯度問(wèn)題而提出來(lái)的,其網(wǎng)絡(luò)單元具體結(jié)構(gòu)如圖3。
圖3 門(mén)控循環(huán)單元GRU
GRU的輸入和輸出結(jié)構(gòu)與普通的RNN是一樣的:時(shí)刻t,輸入xt和上一個(gè)節(jié)點(diǎn)傳遞下來(lái)的隱藏狀態(tài)ht-1,這個(gè)隱藏狀態(tài)包含了序列文本的歷史信息,得到當(dāng)前隱藏節(jié)點(diǎn)的輸出yt和傳遞給下一個(gè)節(jié)點(diǎn)的隱藏狀態(tài)ht。GRU內(nèi)部設(shè)有兩個(gè)門(mén)控狀態(tài):重置門(mén)控和更新門(mén)控,通過(guò)這兩個(gè)門(mén)控來(lái)解決原始RNN帶來(lái)的梯度問(wèn)題。
在時(shí)刻t,模型接受輸入xt和隱藏狀態(tài)ht-1,通過(guò)GRU內(nèi)部的門(mén)控結(jié)構(gòu)對(duì)傳入的數(shù)據(jù)進(jìn)行處理,當(dāng)前節(jié)點(diǎn)輸出yt和傳遞下一個(gè)時(shí)序的隱藏狀態(tài)ht。內(nèi)部具體門(mén)控計(jì)算公式如(1)~(5)所示:
(1)
(2)
(3)
(4)
yt=σ(Wo·ht)
(5)
為了能夠充分挖掘到上下文的長(zhǎng)依賴(lài)關(guān)系,采用雙向GRU模型,分別對(duì)前文信息和后文信息同時(shí)進(jìn)行處理,通過(guò)BERT預(yù)訓(xùn)練模型獲得詞向量矩陣表示X={X1,X2,…,Xn},輸入到BiLSTM模型中,t時(shí)刻,前向GRU和后向GRU輸出的隱藏層狀態(tài)分別表示為式(6)和式(7):
(6)
(7)
將向前GRU隱藏狀態(tài)(6)和向后GRU隱藏狀態(tài)(7)拼接起來(lái)形成新的狀態(tài)向量記為ht,作為t時(shí)刻BiGRU隱藏層的輸出。
在處理序列文本問(wèn)題時(shí),傳統(tǒng)的BiGRU-CRF模型對(duì)待每一個(gè)單詞的重視程度都是一樣的,這一點(diǎn)明顯與現(xiàn)實(shí)中的情況不符合,為了區(qū)分每個(gè)詞對(duì)任務(wù)的不同程度的重要性,在傳統(tǒng)的模型基礎(chǔ)上引入注意力機(jī)制。將文本特征提取層輸出的文本特征向量輸入到注意力計(jì)算層中,計(jì)算每個(gè)詞向量的重要程度。計(jì)算方法如式(8):
αi=softmax(S(K,Q))
(8)
計(jì)算得到的αi稱(chēng)為注意力分布(概率分布),S(K,Q)是注意力打分機(jī)制,這里采用縮放點(diǎn)積形式計(jì)算:
(9)
注意力分布αi可以解釋為在上下文查詢(xún)Q時(shí),第i個(gè)信息受關(guān)注程度,這里采用線性加權(quán)信息選擇機(jī)制對(duì)輸入信息X進(jìn)行編碼,編碼公式:
(10)
其中,Q表示Query矩陣;K表示Key矩陣;V表示Value矩陣,三個(gè)矩陣都是由文本特征向量經(jīng)過(guò)線性變換得來(lái)的。D是文本向量的維度數(shù),除以向量維度數(shù)的開(kāi)方主要是為了梯度穩(wěn)定。注意力機(jī)制的實(shí)質(zhì)就是一個(gè)尋址的過(guò)程,給定一個(gè)和任務(wù)相關(guān)的查詢(xún)Query向量q,通過(guò)計(jì)算與Key的注意力分布并附加在Value上,從而計(jì)算注意力的值。
如果輸出詞之間存在較強(qiáng)的依賴(lài)關(guān)系(存在強(qiáng)依賴(lài)的標(biāo)簽詞),GRU無(wú)法對(duì)這些約束進(jìn)行建模,性能將會(huì)受到限制。因此,上述網(wǎng)絡(luò)模型的輸出后,使用經(jīng)典的線性CRF模型來(lái)標(biāo)注評(píng)論文本中的商品方面詞。CRF模型能夠建模狀態(tài)之間的轉(zhuǎn)移概率(標(biāo)注標(biāo)簽之間的依賴(lài)關(guān)系),通過(guò)考慮標(biāo)簽之間的轉(zhuǎn)移概率關(guān)系從而獲取一個(gè)全局最優(yōu)的標(biāo)注序列。
從注意力計(jì)算層獲得的結(jié)果需要接入到一個(gè)線性層,將向量映射到m(標(biāo)簽個(gè)數(shù))維空間得到矩陣Z。Z矩陣為n×m,其中n為輸入句子中詞的個(gè)數(shù);m為標(biāo)簽類(lèi)別數(shù);表示預(yù)測(cè)輸入句子S中第i個(gè)單詞被標(biāo)注為標(biāo)簽j的概率值。再將矩陣Z輸入到CRF模型中,通過(guò)計(jì)算得到最優(yōu)的標(biāo)簽輸出。CRF模型具體計(jì)算公式如式(11):
(11)
W(X,Y) 表示給定輸入序列X,對(duì)應(yīng)的標(biāo)簽序列Y的預(yù)測(cè)估分,其中S表示標(biāo)簽之間的概率轉(zhuǎn)移矩陣,即Syi-1,yi為標(biāo)簽yi-1轉(zhuǎn)移到標(biāo)簽yi的概率值,Zi,yi表示第i個(gè)詞映射到標(biāo)簽yi的非歸一化概率。標(biāo)簽序列預(yù)測(cè)概率公式如式(12):
(12)
Y′代表真實(shí)的文本標(biāo)注序列,YX表示輸入序列的所有可能產(chǎn)生的標(biāo)注序列。在模型訓(xùn)練階段,通過(guò)似然函數(shù)得到有效合理的標(biāo)簽輸出序列,在模型預(yù)測(cè)階段,通過(guò)公式(13)得到全局最優(yōu)的一組標(biāo)簽序列。
(13)
本實(shí)驗(yàn)選擇pytorch框架進(jìn)行網(wǎng)絡(luò)的搭建,所提出的抽取方法中CRF層是由CRF++0.58開(kāi)源工具包實(shí)現(xiàn)訓(xùn)練和測(cè)試的,實(shí)驗(yàn)所使用到的訓(xùn)練集和測(cè)試集均是采用爬蟲(chóng)方式從淘寶和京東的在線商品評(píng)論中爬取出來(lái),采用了合工大信息檢索實(shí)驗(yàn)室的LTP工具進(jìn)行分詞等處理,編碼層的BERT模型也是采用了哈工大和訊飛聯(lián)合發(fā)布的中文版開(kāi)源包。
分別從淘寶和京東上爬取商品評(píng)論文本從而構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集,并對(duì)數(shù)據(jù)集進(jìn)行清除無(wú)情感傾向的語(yǔ)句、去除含有隱式方面詞的評(píng)論文本、分類(lèi)處理。最終得到只包含“手機(jī)評(píng)論”“相機(jī)評(píng)論”和“男士衣服評(píng)論”三種不帶中性語(yǔ)句的商品評(píng)論文本,其中“手機(jī)評(píng)論”文本中共有2 178條語(yǔ)句,“相機(jī)評(píng)論”文本中共有1 782條語(yǔ)句,“男士衣服評(píng)論”文本中共有2 956條語(yǔ)句。對(duì)預(yù)處理過(guò)的商品評(píng)論文本進(jìn)行人工標(biāo)注(“手機(jī)評(píng)論”“相機(jī)評(píng)論”和“男士衣服評(píng)論”的標(biāo)注數(shù)目分別為2 013、1 518和2 874條),并將7/10已經(jīng)標(biāo)注的文本數(shù)據(jù)作為本實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù),剩余已標(biāo)注的部分?jǐn)?shù)據(jù)則作為測(cè)試數(shù)據(jù)。
標(biāo)注數(shù)據(jù)的任務(wù)由本文作者和另一位作者一同完成,為了保證標(biāo)注準(zhǔn)確性,對(duì)同一份數(shù)據(jù)各自進(jìn)行標(biāo)注,標(biāo)注完成后進(jìn)行交叉對(duì)比,標(biāo)注任務(wù)利用到網(wǎng)上開(kāi)源的文本注釋工具軟件doccano,采用通用的BIO三元標(biāo)注法對(duì)數(shù)據(jù)集中的中文文本進(jìn)行標(biāo)注。
文本采用的評(píng)價(jià)標(biāo)準(zhǔn)分別為準(zhǔn)確率(P)、召回率(R)和F1值。其定義如公式(14)~(16):
(14)
(15)
(16)
其中,TP代表抽取方法抽取到正確商品方面的數(shù)量,F(xiàn)P代表抽取方法抽取錯(cuò)誤商品方面的數(shù)量,F(xiàn)N代表抽取方法沒(méi)有抽取目標(biāo)商品方面的數(shù)量。
3.3.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)環(huán)境部署在華為云服務(wù)器,進(jìn)行模型訓(xùn)練和模型測(cè)試的具體實(shí)驗(yàn)環(huán)境配置如表1所示。
表1 模型訓(xùn)練的環(huán)境配置
3.3.2 實(shí)驗(yàn)參數(shù)
模型的編碼層采用了哈工大和科大訊飛聯(lián)合發(fā)布的中文BERT預(yù)訓(xùn)練語(yǔ)言模型,Transformer共有12層,中間的隱藏層維度數(shù)為768,注意力頭12個(gè),合計(jì)共有110 M參數(shù)。模型訓(xùn)練過(guò)程中,batchsize設(shè)置成64,dropout設(shè)置成0.5,學(xué)習(xí)率采用普遍使用的1×10-5,文本特征提取層中的BiGRU向前和向后隱藏狀態(tài)的維度都設(shè)置成128,優(yōu)化器選擇Adam對(duì)模型訓(xùn)練損失最小化。
3.3.3 實(shí)驗(yàn)方法
為了驗(yàn)證文本提出的方法相比基于傳統(tǒng)詞嵌入的抽取方法提高了抽取準(zhǔn)確率,選擇了兩種傳統(tǒng)的抽取方法作為實(shí)驗(yàn)對(duì)比;另外為了驗(yàn)證模型引入注意力機(jī)制對(duì)準(zhǔn)確率的提高作用,分別又做了另外三組的消融實(shí)驗(yàn),即去除注意力機(jī)制、去除BiGRU模塊以及單獨(dú)的BERT模型。六組實(shí)驗(yàn)數(shù)據(jù)相同,使用的抽取方法具體如下:
(1)實(shí)驗(yàn)A利用傳統(tǒng)詞嵌入Word2Vec訓(xùn)練本文的數(shù)據(jù)集,將獲得的詞向量輸入文本序列標(biāo)注的基準(zhǔn)模型BiGRU-CRF里,抽取出評(píng)論文本中出現(xiàn)的商品方面詞;
(2)實(shí)驗(yàn)B利用傳統(tǒng)詞嵌入Glove訓(xùn)練本文的數(shù)據(jù)集,將獲得的詞向量輸入基準(zhǔn)模型BiGRU-CRF種,進(jìn)行任務(wù)抽取;
(3)實(shí)驗(yàn)C將本文的數(shù)據(jù)集利用BERT預(yù)訓(xùn)練語(yǔ)言模型得到動(dòng)態(tài)詞向量,輸入BiGRU-CRF中完成抽取方面詞;
(4)實(shí)驗(yàn)D只使用BERT模型,數(shù)據(jù)輸入BERT模型后直接進(jìn)入分類(lèi)器,輸出最終結(jié)果;
(5)實(shí)驗(yàn)E在實(shí)驗(yàn)D基礎(chǔ)上加入了CRF模塊;
(6)實(shí)驗(yàn)F使用本文所提出的抽取模型。
根據(jù)3.3設(shè)置的實(shí)驗(yàn)方法,在文本的數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),表2給出六組實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果。
從表2可以看出,實(shí)驗(yàn)A和實(shí)驗(yàn)B在文本的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果準(zhǔn)確率P、召回率R和F1值相差很?。粚?shí)驗(yàn)C的F1值相比前兩個(gè)傳統(tǒng)抽取模型分別增加了7.11%和7.73%;單獨(dú)BERT模型做抽取任務(wù)的實(shí)驗(yàn)D相比較實(shí)驗(yàn)A和實(shí)驗(yàn)B,實(shí)驗(yàn)結(jié)果都有明顯提升;在實(shí)驗(yàn)C基礎(chǔ)之上引入注意力機(jī)制的實(shí)驗(yàn)F相比于實(shí)驗(yàn)C在F1值上增長(zhǎng)了1.09%。因此,文本提出的基于BERT的商品中文評(píng)論方面詞抽取模型(實(shí)驗(yàn)F)在準(zhǔn)確度、召回率和F1值上均優(yōu)于傳統(tǒng)詞嵌入的抽取方法(實(shí)驗(yàn)A、B),能夠更好學(xué)習(xí)到商品評(píng)論文本的上下文語(yǔ)義信息。
表2 6組實(shí)驗(yàn)結(jié)果對(duì)比
實(shí)驗(yàn)F與實(shí)驗(yàn)C、D和E的對(duì)比可以看出,在BERT模型的基礎(chǔ)之上引入BiGRU和CRF模塊可以有效提升最終的抽取結(jié)果,這可能是因?yàn)锽ERT模型對(duì)于處理標(biāo)簽之間依賴(lài)的能力較弱,其后增加的CRF模塊能較好地彌補(bǔ)BERT的這一缺陷。
實(shí)驗(yàn)C和實(shí)驗(yàn)F的對(duì)比實(shí)驗(yàn)結(jié)果證明,引入注意力機(jī)制有利于提高抽取任務(wù)的準(zhǔn)確度??梢岳斫鉃橐胱⒁饬C(jī)制,可以降低無(wú)關(guān)詞對(duì)于CRF層的影響,讓模型更加關(guān)注對(duì)應(yīng)任務(wù)目標(biāo),減少非目標(biāo)詞對(duì)抽取結(jié)果的影響。
另外,通過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn)規(guī)定的句子長(zhǎng)度(sequence length模型超參)不同,對(duì)實(shí)驗(yàn)的準(zhǔn)確率、召回率和F1值影響也不同,對(duì)此猜測(cè)可能是因?yàn)锽ERT層和BiGRU層的輸入規(guī)模所導(dǎo)致。BERT層和BiGRU層內(nèi)部結(jié)構(gòu)都考慮到上下文信息,不同的句子長(zhǎng)度所帶來(lái)的上下文信息量也是不同的,導(dǎo)致最后實(shí)驗(yàn)結(jié)果的不同。通過(guò)實(shí)驗(yàn)可以確定sequence length設(shè)置成512時(shí)能夠取得較好的結(jié)果。
在商品中文評(píng)論方面抽取研究領(lǐng)域中,針對(duì)傳統(tǒng)抽取方法的詞嵌入無(wú)法表征中文漢詞在具體語(yǔ)境下產(chǎn)生一詞多義的問(wèn)題,本文提出一種基于BERT的商品評(píng)論方面抽取模型。將BERT預(yù)訓(xùn)練語(yǔ)言模型應(yīng)用到商品中文評(píng)論方面抽取領(lǐng)域,并證明其提高了抽取的準(zhǔn)確度,為之后的商品中文方面情感分析任務(wù)提供研究基礎(chǔ)。
本研究的方法是基于方面詞在商品評(píng)論文本中顯示表達(dá)的基礎(chǔ)上,對(duì)于隱式的商品方面本文在數(shù)據(jù)處理階段過(guò)濾掉了。因此,如何提取商品中文評(píng)論文本中的隱式方面,需要開(kāi)啟新的研究方向。