• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      加入梯度均衡機(jī)制的端到端方面級(jí)情感分析

      2023-09-13 03:14:54羅涵天楊雅婷
      關(guān)鍵詞:類別梯度標(biāo)簽

      羅涵天,楊雅婷+,馬 博,董 瑞,李 曉

      (1.中國(guó)科學(xué)院新疆理化技術(shù)研究所 多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊 830011;2.中國(guó)科學(xué)院大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,北京 100049;3.中國(guó)科學(xué)院新疆理化技術(shù)研究所 新疆民族語(yǔ)音語(yǔ)言信息處理實(shí)驗(yàn)室,新疆 烏魯木齊 830011)

      0 引 言

      方面級(jí)情感分析(aspect-based sentiment analysis,ABSA)的任務(wù)是對(duì)文本中一個(gè)或者多個(gè)對(duì)象進(jìn)行情感極性的分類,為對(duì)象打上情感標(biāo)簽。給定一段文本sentence={W1,W2,W3,…,Wn}, 文本中包含s個(gè)方面詞(aspect),目標(biāo)是預(yù)測(cè)s個(gè)方面詞的情感極性。例如:I like apples,but I don’t like pears。其中apples和pears為方面詞,其情感極性分別為正向和負(fù)向,而端到端的ABSA就是將方面詞和情感極性同時(shí)抽取出來(lái)。

      端到端ABSA任務(wù)中,樣本的標(biāo)簽類別存在不平衡的問(wèn)題。方面詞標(biāo)簽在總標(biāo)簽數(shù)中所占的比例較小,而非方面詞占據(jù)了絕大多數(shù),這樣會(huì)導(dǎo)致模型在訓(xùn)練的過(guò)程中過(guò)多的學(xué)習(xí)非方面詞標(biāo)簽,使得非方面詞標(biāo)簽的梯度權(quán)重過(guò)大。從損失函數(shù)的角度來(lái)說(shuō),以往常用的方法是使用交叉熵?fù)p失,交叉熵?fù)p失函數(shù)不能有效降低易分類類別標(biāo)簽的權(quán)重,而Focal損失雖然可以通過(guò)增加難分樣本的權(quán)重來(lái)緩解標(biāo)簽類別不平衡,但一些諸如錯(cuò)標(biāo)、漏標(biāo)等潛在的離群點(diǎn)的樣本標(biāo)簽仍然會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成影響。因此,為了緩解端到端ABSA類別標(biāo)簽不平衡的問(wèn)題,從梯度的角度出發(fā)是一個(gè)比較好的策略。本文提出使用梯度均衡損失來(lái)緩解此類問(wèn)題,從梯度的角度對(duì)比不同的損失函數(shù)所帶來(lái)的影響,并探究使用一種通過(guò)指數(shù)式遞減加權(quán)的移動(dòng)平均的方法,用來(lái)估計(jì)變量局部的均值,進(jìn)一步從梯度的角度對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行探究。

      1 相關(guān)工作

      早期的ABSA以情感詞典或是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法[1]為主,這些方法不能很好地提取句子的語(yǔ)義信息,因而使得句子的分類效果不佳。近幾年常用的模型以深度學(xué)習(xí)方法為主,如基于RNN[2,3]的方法,基于Transformer[4]的方法以及基于Bert[5]的方法等。

      ABSA任務(wù)中的標(biāo)簽主要有兩種標(biāo)注方式,一種是聯(lián)合標(biāo)記方式(Pipline/Joint)[6],一種是統(tǒng)一標(biāo)記(Collapsed)[7,8]方式。聯(lián)合標(biāo)記方式是將方面詞和情感極性聯(lián)合建模,如先識(shí)別方面屬性:“B”、“I”、“O”,再識(shí)別情感級(jí)性:“POS”、“NEG”、“NEG”等,非方面詞則識(shí)別為“O”。統(tǒng)一標(biāo)記方式是將方面詞以及情感極性同時(shí)抽取出來(lái),如“B-NEG”和“I-POS”。基于聯(lián)合標(biāo)記的方式需要先抽取方詞再對(duì)方面詞進(jìn)行情感極性分類,早期常用Pipline的方式來(lái)進(jìn)行研究,但是這種方式很容易產(chǎn)生誤差傳播,在近幾年的學(xué)術(shù)界中研究較少,本文的研究的方法是基于Collapsed的方式,標(biāo)簽標(biāo)記方式樣例見(jiàn)表1。

      表1 標(biāo)簽標(biāo)記方式

      其中“B”即為begin表示一個(gè)方面詞的開(kāi)頭,“I”即為 inside表示方面詞中的一部分,“O”即為outside表示非方面詞,“POS”、“NEU”、“NEG”分別表示積極、中性、消極的情感極性,在現(xiàn)有的ABSA標(biāo)注數(shù)據(jù)集中,常出現(xiàn)類別不平衡的情況,即標(biāo)簽“O”所占的比重遠(yuǎn)大于 “POS”、“NEU”、“NEG”等標(biāo)簽,本文對(duì)4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集Laptop、Rest14、Rest15、Rest16做了統(tǒng)計(jì),標(biāo)簽分布統(tǒng)計(jì)如圖1所示。

      圖1 標(biāo)簽分布統(tǒng)計(jì)

      從圖中可以看出,標(biāo)簽“O”在所有標(biāo)簽中占的比重遠(yuǎn)大于標(biāo)簽“POS”、“NEU”、“NEG”,這樣容易導(dǎo)致模型在訓(xùn)練的時(shí)候,對(duì)易學(xué)習(xí)的標(biāo)簽“O”分配較高的權(quán)重,進(jìn)而對(duì)全局的梯度造成影響,在過(guò)去的研究中緩解梯度分配不均常用的方法為Focal損失[9],它最早是用于解決目標(biāo)檢測(cè)任務(wù)中類別標(biāo)簽不平衡的問(wèn)題,實(shí)驗(yàn)結(jié)果表明在不影響模型速度的情況下,能將one-stage detector的準(zhǔn)確率,達(dá)到two-stage detector的效果。Focal損失是在交叉熵的基礎(chǔ)上進(jìn)行修改的,可以減少易分樣本的權(quán)重,使得模型更加聚焦于難分類樣本。

      后來(lái)B Li等[10]對(duì)目標(biāo)檢測(cè)任務(wù)中類別標(biāo)簽不平衡問(wèn)題做了更深一步的研究,提出了梯度均衡損失(gradient harmonizing mechanism loss,GHM-Loss)并且實(shí)驗(yàn)結(jié)果要優(yōu)于使用Focal損失的結(jié)果。Focal損失只考慮了易分類樣本的權(quán)重,未考慮離群點(diǎn)等樣本的權(quán)重,而GHM-Loss考慮了離群點(diǎn)樣本,并且可以對(duì)離群點(diǎn)樣本進(jìn)行抑制從而提升模型的泛化能力以及魯棒性。離群點(diǎn)樣本指的是在樣本標(biāo)簽標(biāo)記中可能出現(xiàn)的錯(cuò)標(biāo)、漏標(biāo)或者是潛在噪聲樣本,這樣的樣本會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成影響。在基于聯(lián)合標(biāo)記方式(Joint)的ABSA方法中,H Luo等[11]將方面屬性抽取(aspect terms extraction,ATE)和方面情感分類(aspect sentiment classification,ASC)任務(wù)聯(lián)合建模,提出了梯度協(xié)調(diào)和級(jí)聯(lián)標(biāo)記模型,引入了梯度均衡損失來(lái)緩解類別標(biāo)簽不平衡,并達(dá)到了顯著效果。

      對(duì)于統(tǒng)一標(biāo)記的ABSA模型中此類問(wèn)題的研究較少,本文從中受到啟發(fā),基于BERT端到端的ABSA模型,引入了梯度均衡機(jī)制,并做了多組對(duì)比實(shí)驗(yàn),使用交叉熵?fù)p失、Focal損失、以及梯度均衡損失在多個(gè)數(shù)據(jù)集中進(jìn)行對(duì)比實(shí)驗(yàn)。本文還在此基礎(chǔ)上探究了指數(shù)滑動(dòng)平均(exponential moving average,EMA)對(duì)實(shí)驗(yàn)結(jié)果的影響,EMA可用來(lái)緩解因離群點(diǎn)樣本集中在同一個(gè)小批量數(shù)據(jù)而產(chǎn)生噪聲的影響,并且可以控制前面的數(shù)據(jù)對(duì)滑動(dòng)窗口內(nèi)值的影響,從而使得模型訓(xùn)練更穩(wěn)定,魯棒性更強(qiáng)。

      2 模型和方法

      2.1 Focal 損失

      對(duì)于分類問(wèn)題損失函數(shù)的定義,以往常用的方法是使用交叉熵?fù)p失,公式如下

      CELoss=-∑Ni=1yi*log(pi)=-log(pn)

      (1)

      其中,pn為第n類輸出對(duì)應(yīng)的概率值,y為樣本標(biāo)簽的one-hot向量表示,Tsung-Yi Lin等為緩解目標(biāo)檢測(cè)任務(wù)中類別標(biāo)簽不平衡的問(wèn)題,以提升one-stage detector的準(zhǔn)確率使其達(dá)到two-stage detector的效果,提出了Foca損失。在目標(biāo)檢測(cè)樣本中,負(fù)樣本數(shù)量占總樣本的數(shù)量很大,因此梯度總和的占比很大,并且大多樣本是易分樣本。改進(jìn)后的交叉熵?fù)p失即為Focal損失,簡(jiǎn)單來(lái)說(shuō)它通過(guò)降低易分類別樣本的權(quán)重,增加難分樣本的權(quán)重來(lái)緩解標(biāo)簽類別不平衡。其公式如下

      FCLoss=-αn(1-pn)λlog(pn)

      (2)

      其中,αn表示第n個(gè)類別樣本的權(quán)重,pn表示輸出第n類的概率值,(1-pn)λ是用來(lái)調(diào)整難易分類樣本所占的比例,此方法降低了易學(xué)習(xí)樣本類別標(biāo)簽的權(quán)重,較好地緩解了類別標(biāo)簽不平衡。

      2.2 梯度均衡機(jī)制(gradient harmonizing mechanism)

      B Li等提出了梯度均衡機(jī)制(gradient harmonizing mechanism,GHM),其目的是為進(jìn)一步解決類別標(biāo)簽不平衡的問(wèn)題,它在目標(biāo)檢測(cè)任務(wù)中實(shí)驗(yàn)結(jié)果中優(yōu)于Focal損失,其與Focal損失最主要的區(qū)別是Focal損失只考慮了降低易學(xué)習(xí)樣本的權(quán)重,沒(méi)考慮到潛在離群點(diǎn)樣本的標(biāo)簽權(quán)重。而梯度均衡機(jī)制則考慮到了離群點(diǎn)標(biāo)簽,從梯度分布的角度將梯度進(jìn)行均衡,并且有效緩解了樣本中可能出現(xiàn)因離群點(diǎn)而引起的噪聲的問(wèn)題。定義x為模型的輸出,則有

      p=softmax(x)

      (3)

      那么x的梯度將定義為

      g=?CELoss?x=|p-pt|

      (4)

      其中,pt表示真實(shí)標(biāo)簽的類別,將g稱為梯度范數(shù),其值可以表示一個(gè)樣本分類難易程度的屬性,在本文研究的數(shù)據(jù)集中,標(biāo)簽的分布極不平衡,標(biāo)簽“O”相較于其它標(biāo)簽占了總類別標(biāo)簽中的大多數(shù),通常在這種情況下,標(biāo)簽“O”所占的比重過(guò)大會(huì)對(duì)全局梯度產(chǎn)生較大的影響,另外對(duì)于某些潛在的離群點(diǎn)標(biāo)簽來(lái)說(shuō),如果模型過(guò)多的學(xué)習(xí)這些離群點(diǎn)標(biāo)簽,也會(huì)對(duì)實(shí)驗(yàn)結(jié)果造成影響。

      2.3 梯度密度(gradient density)

      梯度密度是為了緩解模型訓(xùn)練過(guò)程中梯度分布不協(xié)調(diào)的問(wèn)題,將梯度密度函數(shù)定義為

      d(g)=1lε(g)∑Nk=1δε(gk,g)

      (5)

      其中,gk表示第k個(gè)樣本的梯度范數(shù),且當(dāng)g-ε2≤gk

      θ=d(gi)Tl

      (6)

      梯度調(diào)和參數(shù)定義為

      βi=1θ

      (7)

      其中,Tl為樣本的總數(shù)和,當(dāng)樣本梯度為均勻分布的時(shí)候βi=1, 當(dāng)樣本梯度較大的時(shí)候,將會(huì)對(duì)權(quán)重進(jìn)行向下加權(quán)處理。

      2.4 梯度均衡損失(gradient harmonizing mechanism loss)

      梯度均衡損失可被定義為

      GHLoss=1N∑Ni=1βiCELoss=∑Ni=1CELossd(gi)

      (8)

      其中,N為樣本的數(shù)量,其中g(shù)=|p-pt|, 表示樣本的梯度范數(shù),pt表示真實(shí)的樣本類別標(biāo)簽,p為經(jīng)過(guò)softmax(x) 操作后模型預(yù)測(cè)的概率值。定義單位區(qū)域長(zhǎng)度ε,M=1ε為分成區(qū)域的區(qū)間數(shù)。定義γi為單元區(qū)域,γi=[(i-1)ε,iε], 其中i為第i個(gè)單元區(qū)域的索引。定義Ri為位于第i個(gè)單元區(qū)域的樣本數(shù)量,定義

      ind(g)=ks.t.(k-1)ε≤g

      (9)

      ind(g) 為g所在單元區(qū)域的索引。此梯度密度的近似為

      d^(g)=Rind(g)ε=MRind(g)

      (10)

      其中,d^(g) 表示統(tǒng)一單元區(qū)域內(nèi)的樣本具有相同的梯度密度。

      2.5 指數(shù)滑動(dòng)平均(exponential moving average,EMA)

      在定義的單位區(qū)域內(nèi)的,可能會(huì)有多個(gè)離群點(diǎn)樣本數(shù)據(jù),這樣容易產(chǎn)生噪聲并對(duì)實(shí)驗(yàn)結(jié)果造成影響,因此本文使用指數(shù)滑動(dòng)平均的方法(exponential moving average,EMA)來(lái)緩解這個(gè)問(wèn)題,這是一種通過(guò)指數(shù)式遞減加權(quán)的移動(dòng)平均的方法,可以用來(lái)估計(jì)變量局部的均值。定義移動(dòng)平均數(shù)

      Vti=(1-α)Rti+αVt-1i

      (11)

      其中,α為動(dòng)量系數(shù)(momentum parameter),Rti表示第i個(gè)單元區(qū)域下的樣本第t次迭代時(shí)刻的樣本數(shù)。這樣可以使用Vi代替Ri來(lái)平滑梯度密度,降低極端值的對(duì)實(shí)驗(yàn)結(jié)果的影響,可再次定義梯度密度為

      d^(g)=Vind(g)ε=MVind(g)

      (12)

      2.6 模型基線

      針對(duì)模型結(jié)構(gòu),本文采用了基于BERT的端到端ABSA模型作為本文的baseline模型進(jìn)行研究,模型結(jié)構(gòu)如圖2所示,輸入為訓(xùn)練文本,經(jīng)BERT層,將輸出的隱藏層向量輸入ABSA分類層中,最后輸出情感分類結(jié)果。其中在ABSA分類層中本文使用了多個(gè)模型(GRU、Transformer、SAN)進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)部分將在下一個(gè)模塊進(jìn)行討論。

      圖2 端到端的ABSA模型結(jié)構(gòu)

      3 實(shí) 驗(yàn)

      3.1 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

      本文采用4個(gè)標(biāo)準(zhǔn)ABSA數(shù)據(jù)集,laptop、rest14、rest15、rest16來(lái)源于SemEval challenges,在數(shù)據(jù)集中,統(tǒng)計(jì)了不同數(shù)據(jù)集中訓(xùn)練集、驗(yàn)證集和測(cè)試集,以及總樣本的語(yǔ)料句子數(shù),見(jiàn)表2。

      表2 樣本數(shù)統(tǒng)計(jì)

      本文采用精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1-score)作為評(píng)價(jià)指標(biāo)來(lái)評(píng)估方法的優(yōu)劣,各項(xiàng)指標(biāo)的計(jì)算公式為

      Precision=TPTP+FP

      (13)

      Recall=TPTP+FN

      (14)

      F1=(2×Precision×Recall)Precision+Recall

      (15)

      Precision表示預(yù)測(cè)為正例樣本中實(shí)際為正例的樣本所占的比例,Recall表示實(shí)際為正例的樣本中預(yù)測(cè)為正例的樣本在所占的比例,其中F1值為Precision和Recall的調(diào)和均值。

      3.2 參數(shù)設(shè)置

      首先本文使用BERT預(yù)訓(xùn)練語(yǔ)言模型為“bert-base-uncased”模型,transformer層為12層,且隱藏層維度為768維。在參數(shù)設(shè)置中,優(yōu)化器本文使用AdamW,初始學(xué)習(xí)率設(shè)為2e-5,batchsize設(shè)置為32,實(shí)驗(yàn)的環(huán)境參數(shù)見(jiàn)表3。

      表3 實(shí)驗(yàn)環(huán)境配置

      3.3 對(duì)比模型及方法

      本文基于BERT的端到端ABSA模型,將其作為baseline模型,探究了引入Focal損失以及梯度均衡機(jī)制對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)的影響,并且在ABSA分類層中使用了線性模型、基于RNN的模型(GRU)、基于自注意力的模型(SAN)以及基于transformer(TFM)的模型方法。除此之外還對(duì)比了近幾年的ABSA論文中的結(jié)果,模型介紹如下:

      DREGCN[12]提出了一種使用基于多任務(wù)學(xué)習(xí)的新型依存句法知識(shí)增強(qiáng)交互體系結(jié)構(gòu),使模型能夠充分利用句法知識(shí)來(lái)進(jìn)行分類,并且設(shè)計(jì)了一個(gè)依賴關(guān)系嵌入圖網(wǎng)絡(luò)(DREGCN)。

      IMN[13]提出了一種交互式多任務(wù)學(xué)習(xí)網(wǎng)絡(luò),引入了一種消息傳遞機(jī)制,信息可通過(guò)一組共享的潛在變量迭代地傳遞給不同任務(wù)。

      DOER[14]提出了一種交叉共享RNN框架,通過(guò)使用雙循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)各任務(wù)語(yǔ)義表征,并使用交叉共享單元來(lái)考慮任務(wù)之間的關(guān)系。

      DHGNN[15]提出了一種動(dòng)態(tài)異構(gòu)圖的方法,為兩個(gè)子任務(wù)進(jìn)行聯(lián)合建模。

      GRU Gate Recurrent Unit是循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種,將其作為本文研究中ABSA分類層模型之一,它通過(guò)使用門(mén)控機(jī)制可以有效緩解長(zhǎng)期記憶問(wèn)題以及梯度消失問(wèn)題。

      SAN由自注意力(self-attention)以及殘差連接組成,是自注意力網(wǎng)絡(luò)的一種變體結(jié)構(gòu),將其作為本文研究中的ABSA分類層模型之一。

      TFM使用Transformer Encoder結(jié)構(gòu)作為本文研究中的ABSA分類層模型之一。

      3.4 實(shí)驗(yàn)結(jié)果及分析

      在實(shí)驗(yàn)中本文將交叉熵?fù)p失、Focal損失、梯度均衡損失分別用-CEL、-FL以及-GHML表示,在實(shí)驗(yàn)數(shù)據(jù)中DHGNN、DORE、IMN、DREGC的實(shí)驗(yàn)結(jié)果以及Laptop數(shù)據(jù)集中的部分實(shí)驗(yàn)結(jié)果均來(lái)自原始論文的實(shí)驗(yàn)數(shù)據(jù),其中P、R、F1分別表示精確率、召回率和F1分?jǐn)?shù),各模型實(shí)驗(yàn)對(duì)比見(jiàn)表4。

      表4 各模型實(shí)驗(yàn)對(duì)比/%

      從實(shí)驗(yàn)結(jié)果中,可以看出Focal損失和梯度均衡損失都對(duì)模型的性能有所提升,并且都可緩解類別標(biāo)簽不平衡的問(wèn)題,通過(guò)多項(xiàng)評(píng)價(jià)指標(biāo)可以得出本文所提出的方法在實(shí)驗(yàn)結(jié)果中優(yōu)于許多強(qiáng)baseline模型,并且在基于BERT的端到端ABSA模型中,F(xiàn)1分?jǐn)?shù)指標(biāo)提升較為顯著。對(duì)于最優(yōu)結(jié)果,Laptop數(shù)據(jù)集中Bert+Linear-GHL的F1分?jǐn)?shù)相較于baseline增長(zhǎng)了3.14%,在Rest14數(shù)據(jù)集中Bert+TFM-GHL的F1分?jǐn)?shù)相較于baseline增長(zhǎng)了1.43%,Rest15數(shù)據(jù)集中Bert+GRU-GHL的F1分?jǐn)?shù)相較于baseline增長(zhǎng)了1.22%,Rest16數(shù)據(jù)集中Bert+TFM-GHL的F1分?jǐn)?shù)相較于baseline增長(zhǎng)了1.96%,這說(shuō)明本文所提出的方法對(duì)于優(yōu)化提升端到端的ABSA模型的性能有著重要的意義。

      為直觀分析本文的實(shí)驗(yàn)較于基線模型的影響,進(jìn)行了案例分析,對(duì)比了基線模型加和入梯度均衡機(jī)制的模型前后對(duì)于分類結(jié)果的影響,典型案例研究見(jiàn)表5。

      表5 典型案例研究

      本文研究了多個(gè)例子進(jìn)行案例分析研究,表5為展示的幾個(gè)典型的例子,其中(1)、(2)所示的案例為最為典型,模型無(wú)法正確識(shí)別方面詞信息,將“B-POS”識(shí)別成了“O”,加入梯度均衡機(jī)制以后可以有所改善;(3)為樣本標(biāo)簽標(biāo)記有歧義的文本語(yǔ)句,雖基線識(shí)別正確,將這段話中l(wèi)unch和buffet識(shí)別為負(fù)面(“NEG”)的情感,但是句子的本意應(yīng)偏向于積極的情感極性,加入梯度均衡機(jī)制以后,識(shí)別結(jié)果正確;(4)中為情感識(shí)別錯(cuò)誤的情況,梯度均衡機(jī)制也可以較好地改善此類問(wèn)題。

      3.5 參數(shù)設(shè)置對(duì)實(shí)驗(yàn)結(jié)果的影響

      每個(gè)訓(xùn)練樣本最適合的分割區(qū)間數(shù)M都不相同,為探究劃分區(qū)間數(shù)量對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)的影響,本文設(shè)置不同的區(qū)間數(shù)M,并進(jìn)行了實(shí)驗(yàn),以Bert+Linear模型為例,本文分別將ε設(shè)置為5,10,15,20,25,30并使用F1分?jǐn)?shù)(F1-score)評(píng)價(jià)指標(biāo)來(lái)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行探究,F(xiàn)1分?jǐn)?shù)隨區(qū)域數(shù)M變化如圖3所示。

      圖3 F1分?jǐn)?shù)隨區(qū)域數(shù)M的變化

      不同M值下的實(shí)驗(yàn)結(jié)果見(jiàn)表6。

      表6 不同M值下實(shí)驗(yàn)的F1分?jǐn)?shù)

      從實(shí)驗(yàn)結(jié)果中我那可以看出區(qū)間數(shù)M的設(shè)置對(duì)實(shí)驗(yàn)結(jié)果有略微影響,并且每個(gè)數(shù)據(jù)集中M的最優(yōu)值都不相同,M的值代表了劃分梯度范數(shù)函數(shù)值的區(qū)間數(shù),單位區(qū)間范圍就是ε,在M的設(shè)置中,隨著M的增加,分割的區(qū)間數(shù)增加,可能會(huì)導(dǎo)致梯度密度統(tǒng)計(jì)不準(zhǔn)確。因此需要設(shè)置一個(gè)合適的值來(lái)選定合適的M,在4個(gè)數(shù)據(jù)集Laptop,Rest14,Rest15,Rest16的實(shí)驗(yàn)中,實(shí)驗(yàn)分別在M為15,10,15,25的時(shí)候達(dá)到最優(yōu),其F1分?jǐn)?shù)分別達(dá)到0.6357、0.7343、0.6229、0.6889。

      除此之外本文還探究了加入EMA前后對(duì)比實(shí)驗(yàn)結(jié)果,在相同參數(shù)下F1分?jǐn)?shù)的實(shí)驗(yàn)結(jié)果對(duì)比如圖4所示。

      圖4 加入EMA前后對(duì)比F1分?jǐn)?shù)

      實(shí)驗(yàn)結(jié)果表明加入EMA確實(shí)可以提升模型的性能,在4個(gè)數(shù)據(jù)集中進(jìn)行了實(shí)驗(yàn),F(xiàn)1分?jǐn)?shù)分別提升了0.69%、1.7%、0.26%、0.71%,EMA把每次梯度下降更新后的權(quán)重的值和前一次更新的值關(guān)聯(lián)了起來(lái),使得更新后的值受限于前面更新的值,因此加入EMA確實(shí)可以有效降低潛在極端值對(duì)實(shí)驗(yàn)結(jié)果的影響,并且可以使得模型的性能得到提升。

      4 結(jié)束語(yǔ)

      本文提出使用梯度均衡機(jī)制來(lái)緩解端到端方面級(jí)情感分類中類別標(biāo)簽不平衡的問(wèn)題。并在多個(gè)數(shù)據(jù)集中進(jìn)行了多組實(shí)驗(yàn),探究了指數(shù)滑動(dòng)平均對(duì)梯度造成的影響,在4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文提出的方法相比baseline方法有了較為明顯的提升。但是本實(shí)驗(yàn)對(duì)于梯度區(qū)間數(shù)的選取策略還不夠完善。下一步工作,將繼續(xù)探究緩解類別標(biāo)簽不平衡的其它方法以及細(xì)化區(qū)間數(shù)的選取策略,進(jìn)一步提高模型的分類性能。

      猜你喜歡
      類別梯度標(biāo)簽
      一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
      一種自適應(yīng)Dai-Liao共軛梯度法
      一類扭積形式的梯度近Ricci孤立子
      無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      標(biāo)簽化傷害了誰(shuí)
      服務(wù)類別
      基于多進(jìn)制查詢樹(shù)的多標(biāo)簽識(shí)別方法
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      收藏| 民勤县| 东海县| 汝南县| 将乐县| 卓资县| 永川市| 望城县| 滕州市| 城固县| 罗源县| 镇远县| 宁武县| 安岳县| 普洱| 姜堰市| 内乡县| 广昌县| 小金县| 明水县| 宁化县| 高尔夫| 拜泉县| 建瓯市| 治县。| 平湖市| 江西省| 太湖县| 亳州市| 萝北县| 淮安市| 舞阳县| 万荣县| 平定县| 高清| 巴彦淖尔市| 灵璧县| 濉溪县| 沧源| 镇雄县| 新安县|