宋 振,徐雅斌
(1.北京信息科技大學 計算機學院,北京 100101;2.北京信息科技大學 網(wǎng)絡文化與數(shù)字傳播北京市重點實驗室,北京 100101)
針對意見領袖對于敏感輿論傳播舉足輕重的作用,設計了基于多任務學習方法并結合自注意力機制的意見領袖敏感輿論傾向識別方案,方案的整體架構如圖1所示。
圖1 意見領袖的敏感輿論傾向識別框架
(1)篩選涉及敏感詞的文本:首先對意見領袖歷史文本進行預處理;然后對文本中的敏感詞和變形詞進行識別;利用設計的識別規(guī)則來識別變形敏感詞,并對識別出來的變形敏感詞,采用“指紋匯聚”技術打上與原始敏感詞相同的指紋值。
(2)語義指紋技術快速識別文本輿論傾向:首先篩選出包含敏感詞的文本,根據(jù)語義生成算法計算其語義指紋,然后與事先建立的語義指紋庫(D_tof)中的文本計算語義相似距離,對于語義相似距離小于設定閾值的文本,直接從指紋庫獲取其敏感輿論傾向。
(3)MTL-SA-LSTM模型識別文本輿論傾向:對上一步匹配失敗的文本,利用MTL-SA-LSTM模型識別其敏感輿論傾向。對于識別結果,計算其語義指紋值并添加到語義指紋庫中,實現(xiàn)語義指紋庫的自動擴充,以便后續(xù)相似文本的快速識別。
本文創(chuàng)新點如下:
(1)采用多任務學習方法,同時對敏感輿論和輿論傾向進行識別;通過任務間的相互支持,有效提高識別效果;此外,通過增加自注意力機制,提取任務的主要特征,進一步提升識別準確率。
(2)采用指紋匯聚技術關聯(lián)敏感詞和變形詞,實現(xiàn)敏感詞的快速識別;采用語義指紋技術建立語義指紋庫,實現(xiàn)對重復或相似文本敏感輿論傾向的快速精準檢測,提升識別效率。
為了識別意見領袖的輿論傾向,國內外學者針對微博等社交網(wǎng)絡開展了識別方法研究。針對教育網(wǎng)絡數(shù)據(jù),通過聚類獲取同一個教育網(wǎng)絡輿情數(shù)據(jù),然后擴充情緒詞典,增加教育相關名詞情緒值,通過分析評論文本表達的情緒來識別其輿論傾向[1]。針對彈幕數(shù)據(jù)特點,構建了彈幕數(shù)據(jù)的停用詞表和彈幕情感詞典,在此基礎上利用卷積神經(jīng)網(wǎng)絡分析彈幕數(shù)據(jù)的情感傾向來識別輿論傾向[2]。從涉及新疆暴亂的新聞入手,通過兩次非負矩陣分解生成窗口主題和動態(tài)主題,然后對主題熱度、關鍵詞、內容變化進行分析,通過內容情感極性的變化來分析輿論傾向的變化情況[3]。通過話題快速聚類收集相關話題博文,然后對博文的情感強度進行量化計算,通過時序回歸分析追蹤熱點話題的情感變化來預測公眾的輿論傾向[4]。針對傳統(tǒng)文本表示模型在小數(shù)據(jù)集下效果不好及易過擬合的問題,通過雙向表示來提取特征,提出了一種深度雙向自編碼的輿論傾向識別模型,提高了模型的泛化能力[5]。針對關鍵詞分析熱點話題,然后根據(jù)粉絲數(shù)、關注關系、信息傳播等特征挖掘出關鍵用戶和事件,分析熱點話題文本的情感傾向來預測該話題的輿論傾向[6]。以上研究方法基本都是基于情感分析來實現(xiàn)輿論傾向的識別工作,但是單純的情感分析容易誤判,比如對負向敏感輿論的負向傾向其結果為正向敏感輿論傾向。
為了解決現(xiàn)有敏感詞檢測算法不能準確識別讀音和字形相似的變形詞問題,綜合考慮敏感詞讀音和字形進行特殊編碼,提出了模糊匹配的敏感詞相似度對比算法[7]。首先構建不文明語言數(shù)據(jù)集,然后將變壓器的雙向編碼器表示與雙向長期內存網(wǎng)絡與條件隨機場相結合來識別敏感詞,以此來檢測敏感信息[8]。針對粗粒度情感分析不能準確提取對敏感詞的情感傾向問題,通過提取評價詞和評價對象對文本進行細粒度情感分析,提高了敏感情感傾向識別的準確性[9]。采用貝葉斯濾波技術來檢測敏感內容,通過字符串近似匹配技術來提高檢測性能[10]。通過制定規(guī)則提取敏感詞短語結合情感詞典,分析發(fā)文者對敏感詞的情感來分析文本的敏感性,解決了傳統(tǒng)關鍵詞匹配忽視上下文信息導致誤報的問題[11]。通過敏感事件觸發(fā)抽取敏感事件序列,根據(jù)敏感事件、文本信息、構建的敏感詞典進行相似度計算,綜合各個信息的權重來識別文本的敏感性[12]。針對敏感詞的變形特點設計相應的識別規(guī)則,然后利用指紋匯聚技術將變形詞與原詞進行關聯(lián),較好解決了敏感詞的識別問題[13]。以上研究大多都是基于敏感關鍵詞實現(xiàn)對敏感文本的識別,方法簡單有效,但是缺乏靈活性,并且過于依賴關鍵詞庫。
涉及敏感輿論的文本往往具有一定的語義傾向,但是包含敏感詞匯的文本不一定具有輿論傾向。所以識別敏感輿論傾向時,需要從語義角度對文本中的敏感輿論及對該輿論表達的態(tài)度進行聯(lián)合識別,才能得出最準確的意見領袖的敏感輿論傾向。
通過對語義分析技術在反恐領域中應用現(xiàn)狀的分析,表明語義對于其研究的重要性[14]。定量分析了敏感輿論與其情感極性之間的關系,并提出了敏感關鍵詞與情感極性協(xié)同分析的敏感信息識別方法[15]。通過HotNet情感詞典與中國情感詞匯本體論構建情感詞典,根據(jù)輿論時序狀態(tài)下的情感變化,來分析民眾的輿論傾向[16]。以上研究表明,在敏感主題的基礎上考慮情感傾向因素具有一定的合理性并且能在很大程度上提高敏感輿論傾向識別的準確率。
近年來,深度學習發(fā)展迅速,通過標注大規(guī)模語料,利用深度學習技術去學習文本潛在的語法和語義特征,有效彌補了人工提取特征的不足,具有更好的靈活性和魯棒性[17]。提出基于自注意力機制的情感分類方法,利用神經(jīng)網(wǎng)絡學習上下文信息,然后利用自注意力學習詞語的權重信息,提高了情感分類的準確性[18]。提出基于魯棒多任務學習模型,對微博用戶進行大五人格預測,既共享多個任務之間的關聯(lián)信息,又能識別出不相關任務,增強了模型的魯棒性,取得了較好的效果[19]。對多標簽病例進行建模分析,構建基于長短時記憶網(wǎng)絡的疾病預測模型,充分考慮病人醫(yī)學特征變化規(guī)律[20]。采用分類訓練解決事件多標簽的問題,采用多任務學習方法對各事件子類進行相互增強的聯(lián)合學習,進而有效緩解分類訓練后的語料稀疏問題[21]。提出一種多任務學習模型對罪名預測和法條推薦兩個任務進行聯(lián)合建模同時采用統(tǒng)計方法從案情描述中抽取有助于區(qū)分易混淆罪名的指示性罪名關鍵詞,并將它們融入到多任務學習模型中[22]。
以上研究可以看出深度多任務學習可以有效緩解數(shù)據(jù)不足及不均衡的問題,并且利用任務間的特征共享進一步提升識別效果。
意見領袖在發(fā)布敏感輿論時,為了逃避檢測,往往會對敏感詞進行變形處理,例如字詞拆分、夾雜特殊符號等。雖然敏感詞進行變形偽裝之后與原敏感詞形式不同,但是其詞義并沒有發(fā)生改變。
針對這種情況,我們采用指紋匯聚技術,通過將變形敏感詞與原始敏感詞打上相同的指紋進行關聯(lián),保證變形詞與敏感詞詞義上的一致性。
指紋匯聚過程如下所示:
敏感詞搜集,建立敏感詞庫;
敏感詞指紋值獲?。豪肑enKins Hash函數(shù)對原始敏感詞進行哈希處理,得到一個唯一的哈希值作為其指紋值,寫入敏感詞庫。
變形敏感詞識別:針對敏感詞變形的特點設計了如下變形詞識別規(guī)則。
規(guī)則1:繁體字轉化為簡體字,去除文本中的特殊符號;
規(guī)則2:分詞結果存在拼音或拼音首字母,以字母為中心,將前后4個字化為拼音或首字母;
規(guī)則3:分詞結果存在3個或以上連續(xù)單字,將單字轉化為對應的拼音;
將規(guī)則2、規(guī)則3得到的拼音或拼音首字母與敏感詞庫中的敏感詞的拼音及首字母進行比對,比對成功則視為敏感變形詞。
例如:原始敏感詞wi=“國慶”, 首先利用JenKins函數(shù)對其進行哈希處理,得到一個唯一的hash值:101001,即敏感詞wi的指紋值fi=“101001”。 (文中為了便于說明問題,采用6位的指紋值,但實際上采用的是64位指紋值)。然后將識別出的每一個對應該敏感詞的變形詞(如“guo慶”、“過慶”、“G慶”)都映射到同一個指紋值上,這樣所有的變形詞,最終在文中所代表的都是該原始敏感詞。指紋匯聚過程如圖2所示。
圖2 敏感詞指紋匯聚
收集到敏感詞3844個,通過Jenkins Hash函數(shù)計算出每一個敏感詞的指紋值,同時對識別出的每個變形詞,打上與其原始敏感詞相同的指紋值。
在對涉及敏感輿論文本進行分析時,發(fā)現(xiàn)存在很多相似度很高或重復的文本內容,針對此類文本,若是逐條利用MTL-SA-LSTM模型進行識別,勢必會產(chǎn)生很大的時間開銷,并造成不必要的系統(tǒng)資源浪費。為了進一步提高模型的識別效率,對于相似度較高的文本,利用語義指紋技術對其進行快速識別。采用SWFG-SFG語義生成算法來計算文本的語義指紋,該算法步驟如下:
輸入:識別文本S。
輸出:待識別文本的語義指紋值F。
(1)對文本進行分詞得到詞集合;
(2)識別敏感詞及其變形詞,并從D_po指紋庫獲取其指紋值;
(3)對第一步得到的詞集合進行哈希處理,得到其二進制哈希值,將詞頻當作該詞的權重,然后調整各詞語的hash值:若hash值第i位是1置為其權值,為0置為負權值;
(4)對上一步得到的hash值集合,進行按位求和,得到序列值。第i位為正則置為1,為負則置為0,由此得到最終文本的語義指紋值。
(5)循環(huán)處理從意見領袖歷史文本中篩選出的每一條文本。
下面以實例來解釋語義指紋的生成過程:
待識別文本S: 歡度國慶,我們一起助力guo慶。
在進行分詞、去除停用詞后,識別敏感詞及其變形詞并進行指紋匯聚,得到如下結果: {“歡度”,“國慶”(101001),“我們”,“一起”,“助力”,“guo慶”(101001)}。
各元素詞頻統(tǒng)計: {“國慶”(2),“歡度”(1),“我們”(1),“一起”(1),“助力”(1)}。
接下來計算各元素hash值: {101001,“111011”,“101100”,“100100”,“001001”}。
根據(jù)詞頻調整各位元素的hash值: {2-22-2-22,“111-111”,“1-111-1-1”,“1-1-11-1-1”,“-1-11-1-11”}。
對獲得的詞語hash值集合,進行按位求和,得F′={4-44-2-42}。 根據(jù)每一位的符號(正為1,負為0)得到文本S的語義指F={101001}。
根據(jù)上一節(jié)生成的語義指紋,可以對重復的或相似度較高的文本進行快速識別。通過與事先建立的語義指紋庫D_tof進行對比,計算其漢明距離,當兩者漢明距離小于設置的閾值,就認為兩文本重復,具有相同的輿論傾向。當兩者漢明距離大于設定的閾值,則通過設計的模型進行識別其輿論傾向。對識別出來的結果,將對應文本及其語義指紋存入到語義指紋庫中,實現(xiàn)指紋庫的自動擴充,以便后續(xù)對相似文本進行快速識別。
識別過程如下所示:
對待識別文本,通過SWFG-SFG算法計算其語義指紋Fi。
將上一步得到的指紋值與語義指紋庫D_tof中的指紋值計算漢明距離,若存在小于設置閾值的語義指紋值,就認為其為重復文本,直接從指紋庫獲取其輿論傾向。
漢明距離值計算如下
dh=numof1(Fi⊕Fj)
(1)
式中:dh為求得的漢明距離,⊕表示異或運算, numof1() 函數(shù)用于計算1的個數(shù),F(xiàn)i和Fj為兩個語義指紋的二進制字符串。
針對敏感輿論傾向識別的問題,目前研究較少。已有的方法是通過分析文本中敏感詞的情感極性來識別輿論傾向,但是由于中文博大精深,語義表達形式多樣化,有些文本的語義比較復雜,理解難度很大。僅僅包含敏感詞的文本未必是敏感輿論,而且情感詞對敏感輿論的修飾關系難以判斷準確,因此容易出現(xiàn)錯判的情況,導致識別準確率不高。為此,本文采用深度學習的方式解決語義理解的難題。通過對大量標注的文本進行訓練得到模型。但是針對我們的需求,需要解決敏感輿論的識別和敏感輿論傾向的識別這兩個問題,而且這兩個問題密切相關。如果單獨對每個任務分別進行識別,則割裂了兩個任務之間的關聯(lián)性。因此我們采用多任務學習機制來同時進行兩個任務的識別工作,通過共享參數(shù)來獲取兩個任務間的共享特征,兩個任務相互促進,提升識別準確率。
由于每個詞對于文本分類結果的重要程度有所不同。因此,我們引入自注意力機制,學習詞語在句子中的權重值,句子中重要程度高的詞具有較高的權值,突顯出重要詞對分類結果的影響,進一步提升模型的識別準確率。
相對于CNN等深度學習模型來說,基于長短時神經(jīng)網(wǎng)絡的方法可以有效利用文本間的時序關系和文本內長間距詞語間的依賴關系,并且長短時記憶網(wǎng)絡具有較好的特征抽取性能及較高的文本分類性能。
因此我們將敏感輿論識別和敏感輿論傾向識別兩個任務進行聯(lián)合學習,同時在神經(jīng)網(wǎng)絡中增加自注意力層,構建基于多任務學習的輿論傾向識別長短時神經(jīng)網(wǎng)絡模型(long-short-term memory based on multi-task and self-attention,MTL-SA-LSTM),來進行意見領袖的敏感輿論傾向識別工作。
我們設計的基于多任務學習的輿論傾向識別長短時神經(jīng)網(wǎng)絡識別模型(MTL-SA-LSTM)如圖3所示。
圖3 基于多任務學習的輿論傾向識別長短時神經(jīng)網(wǎng)絡模型
MTL-SA-LSTM模型包括以下4個主要的部分:
(1)數(shù)據(jù)預處理層
主要是對文本進行分詞、去除停用詞、根據(jù)word2vec訓練的skip gram模型將文本切分結果轉化為詞向量的表示。
假設文本S包含k個詞,則有S=s1⊕s2…⊕si⊕sk, 其中si表示文本的第i個詞,⊕表示拼接。對不同長度的文本進行長度補齊,給定一個閾值n, 超過指定長度的文本截取前n個詞,不足長度的文本采用特定標志補齊。以文本S為例
(2)
將文本中的每個詞都映射為一個低維稠密向量,在詞向量表中詞語所在位置為1,其余的位置全部置0,得到初始化詞向量表E,vsi為第i個詞在詞向量表的位置。通過式(3)將文本轉化為n×d維的詞向量矩陣
(3)
(2)特征學習層
通過LSTM神經(jīng)網(wǎng)絡對文本進行編碼,并且學習文本中上下文的依賴關系。LSTM神經(jīng)網(wǎng)絡結構如圖4所示。
圖4 長短時記憶神經(jīng)網(wǎng)絡結構
(4)
其中,it為相應時刻輸入詞語需要記憶的信息,ft表示需要丟棄的信息,wi、wf、wc、wo、ui、uf、uc、uo為LSTM模型的權重矩陣,bi,bc,bf,bo為偏置向量。
(3)自注意力權重調整層
自注意力層的主要目的是學習每個位置上詞語的權重值,使得任務學習時將注意力轉移到在句子里占據(jù)重要作用的詞語上,由于多任務學習具有相同的輸入,但是每個詞語在兩個任務中起到的重要性是不同的,因此,在自注意力層對詞語的權重進行調整,對于本任務起到重要作用的詞語賦予更大的權值。
以敏感輿論識別為例,htask1為特征學習層輸出的n維向量,注意力向量α={αt}1≤t≤n, 則句子的語義表示計算過程如式(5)所示
(5)
其中,符號含義:wt∈Rn×r,wn∈Rn×r,wa∈Rr×r為權重矩陣,ba∈Rr是偏置向量。αt∈Rn是特征學習層輸出序列中第t個位置的注意力權重進行歸一化的結果。et∈Rn由隱藏層前向連接網(wǎng)絡計算注意力分配,通過激活函數(shù)將其約束在[-1,1]之間,隨后利用矩陣M∈R1×r進一步提取特征。10-8是為了避免歸一化過程出現(xiàn)分母為0的問題加入的一個極小非0值,h′∈Rr是利用注意力向量對特征學習層輸出序列進行加權平均得到的向量。
(4)全連接分類層
分類層對最終學習到的特征矩陣h′進行分類預測,通過計算其在每一個類別上的似然概率分布,然后對概率值進行歸一化,取歸一化后的m維向量中最大的值對應的類別作為其分類結果。
概率分布計算公式如式(6)所示
f∶s→y={y1,y2,…,ym}
(6)
最后采用交叉熵作為損失函數(shù),對模型進行優(yōu)化,任務的損失函數(shù)如下所示:
任務1,敏感輿論識別的損失函數(shù)
(7)
任務2,對敏感輿論的態(tài)度識別的損失函數(shù)
(8)
總的損失函數(shù)
Lloss=λLtask1+Ltask2
(9)
4.1.1 實驗數(shù)據(jù)及預處理
本文實驗所用的數(shù)據(jù)包括爬取的新浪微博數(shù)據(jù)集以及網(wǎng)上收集的現(xiàn)有新浪微博數(shù)據(jù)集,數(shù)據(jù)涉及用戶表和文本表兩個部分,原始數(shù)據(jù)集總共3 542 164條文本數(shù)據(jù)。本文基于項目中意見領袖識別研究成果,獲得意見領袖225位,針對意見領袖的歷史文本數(shù)據(jù)進行分析其敏感輿論傾向。為了進行意見領袖敏感輿論傾向的識別,本文收集敏感詞3844個,從數(shù)據(jù)集中篩選出包含敏感輿論的文本13 803條,最終正向文本5525條、負向文本1306條、中性文本6972條,組成實驗數(shù)據(jù)集。
為確保訓練數(shù)據(jù)的準確性,本文對所用數(shù)據(jù)采用人工標注,主要包含兩個標簽:
lable1:文本是否涉及敏感輿論(是、否);
lable2:敏感輿論傾向(正向、負向、中性);
例如:香港暴亂嚴重影響了香港的發(fā)展,對此感到痛心疾首。(香港暴亂:敏感輿論;對此感到痛心疾首:正向敏感輿論傾向。)
數(shù)據(jù)預處理的目的是為了獲取更規(guī)范的數(shù)據(jù)集,剔除一些與實驗類別無關甚至帶來噪聲的數(shù)據(jù)。由于新浪微博的文本內容比較口語化,表達形式比較多樣,文本中經(jīng)常包含鏈接、表情符號、圖片及其它無意義的特殊符號,因此需要對這些特殊的表示進行替換處理,否則將會對后續(xù)的特征學習產(chǎn)生干擾。替換處理情況見表1。
表1 替換處理
4.1.2 實驗環(huán)境及實驗參數(shù)設置
本文的實驗環(huán)境見表2。
表2 相關實驗環(huán)境
在進行基于多任務學習的輿論傾向識別長短時神經(jīng)網(wǎng)絡模型分類前,本文選取了中科院漢語分詞工具NLPIR/ICTCLAS進行分詞處理,然后將分詞結果合并成詞語級別的訓練數(shù)據(jù),選取gensim的word2vec工具對數(shù)據(jù)進行訓練,獲取其詞向量空間。
本文對詞向量進行訓練時采用的訓練參數(shù)如下:
(1)選用skip gram模型;
(2)上下文滑動窗口大小為6;
(3)單詞向量維度設為300。
對于語料庫中沒有出現(xiàn)過的詞語,進行隨機初始化處理。
基于多任務學習的長短時神經(jīng)網(wǎng)絡識別模型,損失函數(shù)中λ的取值,通過在模型訓練時設置不同的取值,比較在測試集中的各個評價指標,來選取合適的值。本文通過對比測試集的評價指標,選取經(jīng)驗值λ=0.05。 模型其它參數(shù)設置見表3。
表3 模型參數(shù)設置
4.2.1 基于指紋相似度的輿論傾向識別實驗
針對語義指紋閾值選取實驗,首先選取一個容量在2000條文本的實驗數(shù)據(jù)集,其中包含200條重復或相似度較高的文本;采用SWFC-SFG文本語義指紋計算方法,然后計算文本語義指紋的漢明距離來計算文本間的語義相似距離,針對實驗數(shù)據(jù)集進行實驗,觀察在不同閾值下的相似內容檢測的查全率和查準率變化,以確定最佳語義相似度距離值。
針對本實驗,本文選取1~8共8個距離閾值進行實驗,實驗結果如圖5所示。
圖5 不同閾值下的查準率及查全率
文本相似度的判定是為了在遇到與語義指紋庫中重復或相似度較高的文本時可以直接從指紋庫中獲取該文本的輿論傾向,因此該實驗中查準率格外重要。由圖5可以看出,當閾值大于4之后,查準率開始下降,將會導致誤判現(xiàn)象的發(fā)生。
為了保證查準率為1,根據(jù)圖5的實驗結果可以確定最佳的閾值距離為4,即當待測文本與語義指紋庫中存在語義距離小于5時,就可以判斷兩文本具有相同的敏感輿論傾向,因而就可以直接從指紋庫中獲取其輿論傾向,以減少不必要的預測時間開銷。
4.2.2 輿論傾向識別效率對比實驗
為了進一步驗證本文方法的高效性,將本文方法MTL-SA-LSTM、本文方法結合語義指紋+MTL-SA-LSTM、文獻[15]的方法在不同數(shù)據(jù)量下的檢測耗時進行了對比實驗,實驗結果如圖6所示。
圖6 不同方法檢測耗時對比
從圖6可以看出,本文方法相對于文獻[15]在相同數(shù)據(jù)量下檢測耗時較小。文獻[15]將敏感輿論傾向識別割裂成兩個任務,先進行敏感輿論的識別,在此基礎上進行輿論傾向的識別工作,不僅需要訓練兩個分類器,而且分成兩步進行,對于涉及敏感輿論的文本需要經(jīng)過兩個分類器進行識別;而本文方法訓練一個模型,同時識別敏感輿論的輿論傾向,進一步節(jié)省時間,說明多任務學習有助于提高敏感輿論傾向的識別效率。
并且從圖6可以看出本文方法結合語義指紋又進一步減小了檢測時間開銷,對于敏感輿論傾向數(shù)據(jù)集進行分析,其中包含很多重復或相似度較高的文本,因此利用語義指紋技術快速識別此類文本,避免了模型識別時間開銷。圖6可以說明多任務學習和語義指紋技術都有助于提高敏感輿論傾向的識別效率。
4.2.3 基于深度學習的輿論傾向識別實驗
為了驗證本文方案的準確性,將本文方法與樸素貝葉斯、SVM、KNN等傳統(tǒng)機器學習算法進行對比,實驗的結果如圖7所示。
圖7 本文方法與傳統(tǒng)機器學習分類算法實驗對比
通過對比其查準率、查全率及F值作為不同方法性能的評價指標。查準率即在所有我們預測為正向敏感輿論傾向文本中,實際上確實為正向敏感輿論傾向的百分比,越高越好。查全率即在所有實際上為準確正向敏感輿論傾向文本中,成功預測為正向敏感輿論傾向的百分比,越高越好。從圖7不難看出,在相同的數(shù)據(jù)集下,本文方法在各方面都要優(yōu)于傳統(tǒng)機器學習分類算法。
為了進一步驗證本文方法的有效性,將本文方案與單任務神經(jīng)網(wǎng)絡LSTM、文獻[15](順序識別兩個任務)、文獻[18](LSTM-attention)等深度學習分類方法在相同的數(shù)據(jù)集下進行對比實驗,通過比較其查全率、查全率和F值來進一步說明本文方法的有效性。實驗結果如圖8所示。
圖8 本文方法與深度學習分類算法實驗對比
從圖8可以看出結合自注意力機制的文獻[18]的方法識別效果優(yōu)于傳統(tǒng)長短時神經(jīng)網(wǎng)絡模型;本文基于多任務學習結合注意力機制的方法識別效果優(yōu)于文獻[18]的單任務學習結合注意力機制的方法,且優(yōu)于文獻[15]的分兩步識別敏感輿論傾向的方法。從圖8可以看出,自注意力機制和多任務學習方法都有助于提高敏感輿論傾向識別的準確性。
為了對意見領袖的輿論傾向進行快速精準的檢測,本文提出了采用多任務學習方法,同時對敏感輿論和意見領袖的敏感輿論傾向進行識別,在實現(xiàn)“一箭雙雕”的同時,通過任務間的相互支持有效提高識別效果,同時提升敏感輿論傾向的識別效率;并且在神經(jīng)網(wǎng)絡中增加自注意力層,學習不同位置詞語對于敏感輿論傾向識別的重要程度,突顯出其中主要詞語對識別結果的影響,進一步提升識別準確率;同時本文采用了語義指紋技術,通過語義指紋技術可以快速識別高度相似或重復的文本,進一步提高了識別效率。實驗結果表明,本文提出的方法不僅提高了識別準確率,而且識別效率也有了很大的提升。
由于敏感輿論傾向涉及領域比較廣,模型的效果比較依賴數(shù)據(jù)集,因此更加全面地收集相關敏感詞及擴充訓練數(shù)據(jù)集是進一步提高識別效果的有效方法。