• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于圖卷積網(wǎng)絡的特定方面情感分析

    2022-01-01 13:19:22閆金鳳邵新慧
    中文信息學報 2022年10期
    關鍵詞:句法注意力語義

    閆金鳳, 邵新慧

    (東北大學 理學院,遼寧 沈陽 110000)

    0 引言

    情感分析也稱意見挖掘,其研究的目標是自動挖掘和分析文本中的立場、觀點、看法、情緒和喜惡等主觀信息。傳統(tǒng)的情感分析主要是面向文檔或者句子,也就是文檔層面的情感分類,這種粗粒度的分類只考慮文檔整體的情感傾向,在現(xiàn)實應用中是不夠的。特定方面情感分析(ABSA)是一種細粒度的情感分類任務,目的是識別句子中明確給出的方面的情感極性。方面級情感分析在自然語言處理和信息檢索領域受到越來越多的關注,在個性化推薦等各種應用中發(fā)揮著重要作用。

    現(xiàn)有的研究表明,方面項和它上下文之間的相互作用對于識別給定方面的情感極性是至關重要的。此外,句法信息在方面級情感分析中也發(fā)揮著重要作用[1]。通常,研究人員使用機器學習算法對句子中給定目標的情感進行分類。一些早期的工作使用手工特征,如情感詞典和語言詞袋特征訓練分類器來進行特定目標的情感分類[2]。這些方法高度依賴于所選特征的質(zhì)量,需要耗費大量的人工特征工程。在后來的研究中,各種基于神經(jīng)網(wǎng)絡的方法開始流行。其中大多數(shù)研究是基于LSTM,部分是基于CNN[3],還有將二者相結(jié)合的研究[4]等等。許多基于神經(jīng)網(wǎng)絡的方法通過注意力機制將特定的方面信息嵌入到句子表示中[5],也有一些研究已經(jīng)應用了注意力機制來生成方面特定的句子表示[6],或者根據(jù)方面單詞來轉(zhuǎn)換句子表示[7]。然而,這些研究依賴于作為序列編碼器的復雜遞歸神經(jīng)網(wǎng)絡(RNN)來推斷上下文的隱藏語義。這些研究存在的第一個問題是語義建模只使用RNN結(jié)合傳統(tǒng)的注意力機制。RNN的每個輸出狀態(tài)都依賴于之前的狀態(tài),在語義建模中,可能會丟失長距離語義信息,無法進行輸入數(shù)據(jù)的并行計算[8]。此外,傳統(tǒng)的注意力機制由于權(quán)重值分布過于分散,容易引入過多的噪聲,從而難以準確提取出足夠多的與特定方面相關的上下文情感信息。這些研究存在的第二個問題是所用方法在很大程度上忽略了句子的句法結(jié)構(gòu)。為了考慮依存關系樹,Nguyen等人[9]采用遞歸神經(jīng)網(wǎng)絡對句子的二叉樹建模。這種方法存在的問題是,依賴樹的結(jié)構(gòu)更像一個圖,因為一個節(jié)點可以包含兩個以上的子節(jié)點。這些模型不足以表示句法結(jié)構(gòu),它們只能處理二叉樹結(jié)構(gòu)。

    針對以上問題,該文提出一種基于圖卷積和注意力的網(wǎng)絡模型(CA-GCN),主要工作如下:

    (1) 采用卷積神經(jīng)網(wǎng)絡結(jié)合雙向LSTM抽取文本中更抽象的特征以及詞的位置信息和單詞之間的相關語義信息。

    (2) 在句子的依存關系樹上利用圖卷積神經(jīng)網(wǎng)絡來提取句法信息,捕獲詞的依存關系。

    (3) 考慮到上下文對方面的影響,利用多頭交互注意力通過上下文隱藏狀態(tài)的平均值和方面的隱藏狀態(tài)向量生成新的方面表示,將其與含句法信息的上下文表示再次利用多頭交互注意力融合。之后利用多頭自注意力捕捉交互信息后的句子內(nèi)部關系。

    1 相關工作

    早期關于特定方面情感分析的工作主要集中在手工提取特征來訓練情感分類器[10],例如詞袋特征和情感詞典特征。近年來,遞歸神經(jīng)網(wǎng)絡在方面級情感分析中取得了巨大的成功,因為它們可以在沒有手工特征的情況下生成保留豐富語義信息的句子的低維向量[11]。此外,使用注意力機制可以增強句子表示,以便集中在給定方面的句子的關鍵部分[12]。ATAE-LSTM[5]結(jié)合了LSTM和注意力機制,該模型將特定方面的信息嵌入?yún)⑴c到注意力權(quán)重的計算中。RAM[13]改進了記憶網(wǎng)絡,用雙向LSTM表示記憶,并使用門控循環(huán)單位網(wǎng)絡來組合句子表示的多頭注意力輸出。AEN[12]避免了重復,并且在上下文和特定方面之間應用了多個多頭注意力。IAN[6]采用雙向注意力機制分別交互學習上下文和方面詞的注意權(quán)重。TNet[7]模型利用CNN來提取句子中相對重要的信息,同時對樸素CNN進行了進一步的處理使其適合該任務。GCAE[3]模型結(jié)合了CNN和門控機制,利用CNN提取句子特征,然后利用Tanh-ReLU門控單元根據(jù)給定的不同方面有選擇地輸出情感特征。MGAN[14]模型是一種多粒度注意力網(wǎng)絡,結(jié)合粗粒度和細粒度注意力來捕捉方面和上下文在詞級別上的交互,用方面對齊損失來描述擁有共同上下文的方面之間在方面級別上的相互影響。然而,這些研究都沒有考慮句法信息,忽略了詞與詞之間的句法依存關系,這可能導致在識別特定方面的情感極性時出現(xiàn)歧義。

    圖卷積網(wǎng)絡[15]在處理包含豐富關系信息的圖形數(shù)據(jù)方面是有效的。許多研究致力于將GCN擴展到與圖像相關的任務。陳等人[16]利用圖卷積網(wǎng)絡建立了用于多標簽圖像識別的模型。圖卷積網(wǎng)絡最近在自然語言處理中也受到越來越多的關注,如語義角色標注[17]、機器翻譯[18]和關系分類[19]。一些工作探索用于文本分類的圖神經(jīng)網(wǎng)絡[20-21],他們將一個文檔、一個句子或一個單詞視為一個圖形節(jié)點,并依靠節(jié)點之間的關系來構(gòu)建圖形。最近流行的一種學習句法感知表示的方法是在依賴樹上使用圖卷積神經(jīng)網(wǎng)絡模型[22-24],其允許信息以句法方式在方面術(shù)語和上下文單詞之間傳遞。而且他們的工作表明[7],GCN能有效捕捉節(jié)點之間的關系。

    2 模型

    針對這一任務,我們提出CA-GCN模型,模型的框架如圖1所示。接下來,我們將詳細介紹模型的各個部分。

    圖1 模型框架

    2.1 詞嵌入

    詞嵌入是將每個單詞映射到一個高維向量空間。定義L=Rdemb×|V|為預訓練Glove的嵌入矩陣,demb是詞向量的維度,|V|是詞匯量大小,然后將每一個單詞ωi∈R|V|映射到其對應的嵌入向量ei∈Rdemb×1,該嵌入向量是嵌入矩陣L的列向量。

    2.2 BiLSTM神經(jīng)網(wǎng)絡

    利用BiLSTM提取句子和方面詞的隱含語義,并能獲得句子的長依賴序列信息。其核心是利用記憶細胞來記憶長期的歷史信息,并用門控的機制對其進行管理。在門控機制中,門和記憶細胞的表達式如式(1)所示。

    (1)

    (2)

    同樣,我們可以得到方面詞的隱藏狀態(tài)ht。

    2.3 卷積神經(jīng)網(wǎng)絡

    卷積神經(jīng)網(wǎng)絡的核心組成部分是卷積層。本文采用兩層卷積層。

    (3)

    (4)

    Tanh函數(shù)及其導數(shù)的圖像如圖2所示。

    圖2 Tanh函數(shù)及其導函數(shù)

    2.4 獲取面向方面的特征

    在本研究中,我們采取面向方面的特征提取策略: 在句子的句法依存樹上應用多層圖卷積,然后在其頂部采用掩蔽的方法獲得面向方面的特征。

    2.4.1 依存樹上的圖卷積

    圖3 句子的依存關系

    (5)

    (6)

    F(·)是分配位置權(quán)重的函數(shù),它可以增強上下文靠近方面的詞的重要性。同時,這樣做可以減少依存解析過程中可能自然產(chǎn)生的噪聲和偏差。具體的來說,函數(shù)F(·)定義為:

    (7)

    (8)

    2.4.2 特定方面的掩碼

    在這一層中,我們屏蔽掉非方面詞的隱藏狀態(tài)向量,保持方面詞的狀態(tài)不變,如式(9)所示。

    (9)

    2.5 注意力機制

    在這一部分中,我們將句法信息和語義信息進行交互,完成最后的拼接。

    2.5.1 方面感知注意力

    基于面向方面的特征,從隱藏狀態(tài)向量Hc中檢索與方面詞語義相關的重要特征,并相應地為每個上下文詞設置基于檢索的關注權(quán)重。注意力權(quán)重的計算如式(10)所示。

    (10)

    這里,點積用于衡量方面組成單詞和句子中的單詞之間的語義相關性,使得方面特定的掩蔽發(fā)揮作用。不同的是我們在點積函數(shù)計算后加入了一層tanh激活函數(shù),這一附加層顯著提高了性能。預測的最終表示如式(11)所示。

    (11)

    2.5.2 多頭注意力

    本文定義一個鍵序列k={k1,k2,…,kn}和一個查詢序列q={q1,q2,…,qn}。注意力值是通過用鍵計算注意力分布并將其附加到值來獲得的。在自然語言處理領域中,鍵和值通常是相同的,因此這里鍵=值。然后用一個注意力函數(shù)將鍵和查詢投影到一個輸出序列中,如式(12)所示。

    Attention(k,q)=softmax(fm(k,q))k

    (12)

    fm函數(shù)是用來研究qj和ki的語義關聯(lián),如式(13)所示。

    fm(ki,qj)=tanh([ki;qj]·Wa)

    (13)

    其中,Wa∈R2dh是學習到的權(quán)重矩陣。多頭注意力能夠在并行子空間中學習n個頭的不同分數(shù),頭之間的參數(shù)并不共享,因為q和k的值是不斷變化的。將N個頭的輸出進行拼接并映射到特定的隱藏維度,如式(14)所示。

    (14)

    多頭交互注意力是q不同于k的常見形式。在本文中,利用多頭交互注意力進行上下文到方面的關注,根據(jù)查詢向量為方面詞分配注意力權(quán)重,查詢向量是通過對上下文隱藏輸出Hc的平均池化獲得。對于一個方面的每個隱藏單詞向量,注意力權(quán)重計算如式(13)所示。

    在計算單詞注意力權(quán)重之后,我們可以獲得方面隱藏表示的加權(quán)組合作為新的方面表示,如式(15)所示。

    (15)

    Hgt=MHA(HL,Htc)

    (16)

    (17)

    2.6 輸出

    (18)

    得到最終特征表示u后,送入Softmax層,得到不同方面情感極性的概率分布,如式(19)所示。

    (19)

    2.7 模型訓練

    本模型采用具有交叉熵損失和L2正則化的標準梯度下降算法訓練,采用反向傳播算法更新權(quán)重和參數(shù),如式(20)所示。

    (20)

    3 實驗

    3.1 數(shù)據(jù)集

    為了驗證模型的有效性,我們的實驗在三個數(shù)據(jù)集上進行: Twitter數(shù)據(jù)集,SemEval 2014 任務中的筆記本Lap14和餐廳Rest14數(shù)據(jù)集評論數(shù)據(jù)集。選擇準確率和調(diào)和平均F1值對模型進行評估。實驗結(jié)果是通過三次隨機初始化的平均值獲得的。數(shù)據(jù)集的統(tǒng)計信息如表1所示。

    表1 數(shù)據(jù)集的統(tǒng)計信息

    模型中超參數(shù)的設置: Glove詞嵌入維度為300,學習率為0.001,L2正則化系數(shù)為0.000 01,批量大小設為32。為了防止過擬合,Dropout的值設為0.5。卷積網(wǎng)絡和圖卷積網(wǎng)絡的層數(shù)設為兩層,多頭注意力的頭數(shù)設為3,模型權(quán)重均勻分布初始化,此外,模型使用Adam作為優(yōu)化器。

    超參數(shù)分析

    (1) 卷積網(wǎng)絡的層數(shù)

    卷積網(wǎng)絡中卷積網(wǎng)絡的層數(shù)和卷積核的窗口高度是影響模型性能的重要參數(shù)。我們在Lap14數(shù)據(jù)集上用不同數(shù)量的CNN層、不同窗口高度的卷積核進行了測試。結(jié)果如圖4、圖5所示。

    圖4 CNN層數(shù)對模型影響

    圖5 CNN卷積核窗口高度對模型影響

    由圖可以看出,卷積網(wǎng)絡層數(shù)為2時模型的性能最好,卷積核的窗口高度為3時模型性能最好。卷積核窗口高度設置過小會導致卷積得到的特征過少,設置過大會導致過擬合。

    (2) GCN的層數(shù)

    GCN層數(shù)也是影響模型性能的一個重要參數(shù)。我們在Lap14數(shù)據(jù)集上用不同數(shù)量的GCN層進行了測試。結(jié)果如圖6所示。

    從圖6可以看出,當GCN層數(shù)為2時,模型達到最佳性能。然而,當層數(shù)大于2時,模型的性能隨著GCN層數(shù)的增加而惡化。這可能是因為隨著GCN層數(shù)的增加,模型參數(shù)增多,導致模型更難訓練,導致過擬合。為了避免過多的訓練參數(shù)和過擬合,本文將GCN層數(shù)設置為2。

    圖6 GCN層數(shù)對模型的影響

    (3) 多頭注意力的頭的個數(shù)

    多頭注意力的頭的個數(shù)也會影響模型性能。我們Lap14數(shù)據(jù)集上用不同數(shù)量的注意力頭數(shù)進行了測試,結(jié)果如圖7所示。

    從圖7可以看出,準確度和F1評分的值隨著頭個數(shù)的增加而波動,但當頭取3時,準確率和F1值最高。然后準確率和F1的值隨著頭個數(shù)的升高而降低。我們推測,由于頭數(shù)的增加,太多上下文單詞的產(chǎn)生對語義信息的整合產(chǎn)生不必要的干擾,混淆了當前單詞的表示。因此,當頭的個數(shù)取3時,模型的性能更好。本文將注意力頭數(shù)設置為3。

    圖7 多頭注意力的頭數(shù)對模型影響

    3.2 實驗結(jié)果

    選擇基線模型進行比較,來評估模型的有效性,實驗結(jié)果如表2所示。

    表2 各模型試驗結(jié)果 (單位: %)

    LSTM[25]模型由LSTM得到句子的隱含層輸出,然后通過Softmax分類器得到情感分類。

    IAN[6]模型使用兩個基于注意力的LSTM網(wǎng)絡分別生成方面術(shù)語和上下文的表示,然后將上下文表示和方面表示連接起來,用于預測方面的情感極性。

    AEN[26]模型主要由嵌入層、注意編碼層、特定方面注意層和輸出層組成。為了避免重復,它使用基于注意力的編碼器在方面和相應的上下文之間建模。

    TNet-LF[7]模型提出了一種在句子中生成特定于方面的單詞表示的方法,該方法結(jié)合了一種用于保存來自RNN層的原始上下文信息的機制。

    GCAE[3]模型通過兩個卷積層分別建模方面信息和上下文信息,兩個門控單元通過給定的方面選擇性地輸出情感特征。

    ASGCN[23]模型在句子的依存關系樹上利用圖卷積網(wǎng)絡(GCN),以利用句法信息和詞的依存關系。

    由表2可以看出,LSTM方法的性能最差,因為其將方面與其他上下文詞同等對待,并且沒有充分利用方面信息。這也驗證了方面的重要性[27]。IAN是基于注意力的基本模型,它考慮了方面的重要性,同時通過交互注意力機制的交互改善了上下文和方面詞之間的交互,與LSTM模型相比實現(xiàn)了穩(wěn)定的改進,說明了上下文和方面交互信息的重要性。AEN僅使用多頭注意力機制對上下文和特定方面進行語義建模。不使用Bi-LSTM,可能無法充分考慮整個句子從前到后和從后到前的語境語義。與以上三種基線模型相比,TNet-LF在數(shù)據(jù)集上的表現(xiàn)略好是因為它很好地將特定的方面信息整合到詞的表示中,而上下文保持機制能夠很好地保留語義信息,但其缺點是沒有考慮句法信息。由于ASGCN模型結(jié)合了句法信息,該模型的效果優(yōu)于不考慮句法信息的模型。在ASGCN模型中,多層圖卷積結(jié)構(gòu)是在LSTM輸出的基礎上實現(xiàn)的,隨后是過濾掉非方面詞的屏蔽機制僅保留特定方面的特征。然而,帶有句法信息的上下文表示丟失了。我們不能斷定某些帶有句法信息的語境詞在確定特定方面的情感極性時是無用的,所以我們將所有帶有句法信息的語境詞通過多頭交互注意力與方面信息進行交互。之后經(jīng)過多頭自我注意的并行計算,句法信息豐富的詞會更加突出,更有利于充分利用句法信息確定特定方面的情感極性。本文很好地利用了語義信息、句法信息及其交互信息,并實現(xiàn)了滿意的效果。

    3.3 消融實驗

    為了進一步確定CA-GCN模型中每個部分對模型性能的貢獻程度和每個部分的重要性,我們對CA-GCN模型進行了消融研究,結(jié)果如表3所示。

    表3 模型消融結(jié)果 (單位: %)

    首先,我們?nèi)コ龍D卷積網(wǎng)絡,但保留位置權(quán)重和特定于方面的掩蔽,三個數(shù)據(jù)集上的準確率和F1值普遍下降,這說明句法信息對于有針對性的情感分類是很有幫助的。第二,去除方面掩碼,驗證了特定方面屏蔽的重要性。第三,去除卷積網(wǎng)絡,說明進一步提取語義信息這一想法的可行性。第四,去除多頭交互注意力。多頭交互注意力旨在組合特征并交互學習語法信息和句法信息之間的相關性,拼接和池化可以取代多頭交互注意力,但是學習過程不再是互動的,我們發(fā)現(xiàn)在Twitter數(shù)據(jù)集上準確率和F1值略有提升,這可能是因為Twitter數(shù)據(jù)集中的大多數(shù)句子的句法結(jié)構(gòu)并不完美,句法信息的引入會干擾對特定方面情感極性的預測。另外兩個數(shù)據(jù)集上的表現(xiàn)說明了句法和語義信息交互的重要性。第五,去除Tanh激活函數(shù)層,除模型在Rest14數(shù)據(jù)集上的性能略有提高外,其他均下降,驗證了這一附加層添加的有效性。最后,去除多頭自注意力,多頭自注意力主要用于提取更豐富的語義信息,去除后導致模型在三個數(shù)據(jù)集上的表現(xiàn)都變差。這表明,模型應用多頭自我注意力可有效地捕捉豐富的語義信息。

    3.4 案例研究

    為了更好地理解CA-GCN模型是如何工作的,我們提供了一個案例研究和幾個測試示例。特別地,我們將IAN、CA-GCN提供的注意力得分在表4中可視化,以及它們對這些例子的預測和相應的真實標簽。

    表4 IAN,CA-GCN模型對測試例子的注意力分數(shù)的可視化,以及他們的預測和相應的標簽

    第一個例句:“great food but the service was dreadful!”在這個句子中包含兩個方面,這可能會阻礙基于注意力的模型將這些方面與其相關的描述性詞匯精確地結(jié)合起來。第二個例句“The staff should be a bit more friendly”使用了一個虛擬詞“should”,給檢測隱含語義帶來了額外的困難。最后一個例句中包含了否定,這很容易導致模型做出錯誤的預測。

    雖然IAN能夠針對不同的方面使用不同的修飾語,但它無法對具有特殊風格的句子進行情感極性推理。我們的CA-GCN模型正確地處理了所有三個樣本,這意味著GCN有效地將語法依賴信息集成到豐富的語義表示中。特別的是,CA-GCN對第二個和第三個句子的預測是正確的,但兩個樣本的關注點似乎都有偏差。這顯示了CA-GCN捕捉遠程多詞特征的能力。

    4 結(jié)論

    本文采用卷積神經(jīng)網(wǎng)絡結(jié)合LSTM抽取文本中更抽象的特征以及詞的位置信息和單詞之間的相關語義信息,并在句法依賴樹上建立圖卷積網(wǎng)絡來編碼句法信息。然后通過多頭互動注意力與語義信息互動,利用多頭自注意力提取交互信息中更為豐富的語義信息。這很好地利用了語義信息、句法信息和其交互信息,并且和其他深度學習模型進行比較,證明了其有效性。

    雖然目前的模型取得了良好的實驗結(jié)果,但仍有大量工作需要改進。我們打算減少模型的訓練參數(shù),使我們的模型更加輕量級。第二,提取更多原始的上下文語義信息也將是我們未來工作的重要組成部分。最后,本模型可以擴展為通過捕獲方面詞之間的依賴性來同時判斷多個方面的情感。

    猜你喜歡
    句法注意力語義
    讓注意力“飛”回來
    句法與句意(外一篇)
    中華詩詞(2021年3期)2021-12-31 08:07:22
    述謂結(jié)構(gòu)與英語句法配置
    語言與語義
    句法二題
    中華詩詞(2018年3期)2018-08-01 06:40:40
    詩詞聯(lián)句句法梳理
    中華詩詞(2018年11期)2018-03-26 06:41:32
    “揚眼”APP:讓注意力“變現(xiàn)”
    傳媒評論(2017年3期)2017-06-13 09:18:10
    A Beautiful Way Of Looking At Things
    “上”與“下”語義的不對稱性及其認知闡釋
    認知范疇模糊與語義模糊
    阳山县| 武乡县| 南川市| 南澳县| 武城县| 靖边县| 闻喜县| 新野县| 文水县| 缙云县| 新昌县| 灵台县| 衡东县| 雅安市| 禄劝| 金塔县| 三都| 昌都县| 保山市| 中方县| 六盘水市| 白水县| 儋州市| 浏阳市| 上蔡县| 淮安市| 赣榆县| 建湖县| 遂平县| 汝南县| 万山特区| 大连市| 凤阳县| 花垣县| 于田县| 辽中县| 红河县| 全椒县| 板桥市| 泰宁县| 郧西县|