• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    考慮反諷語(yǔ)義識(shí)別的協(xié)同雙向編碼輿情評(píng)論情感分析研究

    2022-05-12 12:58:08潘宏鵬劉忠軼
    情報(bào)雜志 2022年5期
    關(guān)鍵詞:雙向輿情語(yǔ)義

    潘宏鵬 汪 東 劉忠軼 李 軻

    (1.中國(guó)人民公安大學(xué)公安管理學(xué)院 北京 100076;2.中國(guó)人民解放軍火箭軍士官學(xué)校作戰(zhàn)保障系 濰坊 262500)

    0 引 言

    互聯(lián)網(wǎng)的廣泛普及賦予了社會(huì)公眾充分的網(wǎng)絡(luò)話語(yǔ)權(quán)和輿情參與能力,并由此誕生了官方與公眾兩大輿論場(chǎng)。截至2020年12月,我國(guó)互聯(lián)網(wǎng)普及率已達(dá)70.4%,手機(jī)網(wǎng)民比例高達(dá)99.7%[1],其中80.3%將新浪微博作為新聞信息的獲取渠道[2]。可見(jiàn),在信息平權(quán)時(shí)代,“新浪微博”已成為人們掌握新聞信息的重要源頭,同時(shí)它憑借自身便捷性、時(shí)空自由性、全民參與性等特點(diǎn),很容易成為情緒傳遞與輿情爆發(fā)的主要策源地。2020下半年以來(lái),伴隨著杭州“交警噴老人辣椒水”、南昌“誰(shuí)是yuwei”等事件的網(wǎng)絡(luò)曝光,社會(huì)公眾對(duì)于輿情事件的關(guān)注度也在不斷提高,輿情呈現(xiàn)爆發(fā)式超速傳播的趨勢(shì)。與其他新聞?lì)愋筒煌氖?,輿情事件的產(chǎn)生極易引起社會(huì)公眾的重點(diǎn)關(guān)注。尤其是意見(jiàn)領(lǐng)袖及其微博下網(wǎng)民評(píng)論的負(fù)面情緒一旦發(fā)酵,就會(huì)不斷衍生出有損政府公信力的輿情風(fēng)波,甚至將對(duì)社會(huì)秩序造成難以估量的影響。

    文本情感分析是自然語(yǔ)言處理的重要研究領(lǐng)域,對(duì)于解決上述問(wèn)題可發(fā)揮有效作用??紤]到自然語(yǔ)言的復(fù)雜特性,輿情評(píng)論除了直接性的情感表達(dá)外,往往伴有多種復(fù)雜的修辭特征,一類(lèi)最常見(jiàn)的即為反諷型。例如某政府輿情事件中網(wǎng)民評(píng)論,“真不愧是我大天朝的人民警察,向90歲老漢噴辣椒水的身姿真英勇”,這顯然是一句典型的反諷文本,看似表達(dá)的是積極健康的心態(tài),實(shí)則蘊(yùn)含著具有強(qiáng)烈諷刺意味的負(fù)面情緒。但傳統(tǒng)的自然語(yǔ)言處理模型會(huì)根據(jù)“不愧”“英勇”等詞將這句話判別為正面情感,無(wú)法做到對(duì)文本信息的精確處理,這顯然是不符合任務(wù)要求的。這正是目前輿情情感識(shí)別技術(shù)的難點(diǎn)所在。

    基于此,本文將在雙向編碼表征網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),通過(guò)將反諷語(yǔ)義/非反諷語(yǔ)義、正面情感/負(fù)面情感兩種領(lǐng)域的語(yǔ)義信息進(jìn)行合并,設(shè)計(jì)出一種協(xié)同雙向編碼輿情評(píng)論情感識(shí)別模型。相關(guān)部門(mén)在對(duì)摻雜反諷語(yǔ)義的輿情評(píng)論文本進(jìn)行情感識(shí)別時(shí),在反諷識(shí)別向量的指導(dǎo)下,模型會(huì)根據(jù)評(píng)論文本的不同性質(zhì)進(jìn)行不同的對(duì)應(yīng)處理,從而增強(qiáng)模型對(duì)輿情評(píng)論文本的反諷識(shí)別力與泛化程度。

    1 相關(guān)工作

    文本情感分析技術(shù),又稱(chēng)意見(jiàn)挖掘技術(shù),其基本原理為:通過(guò)爬蟲(chóng)挖掘,對(duì)輿情事件微博話題中的意見(jiàn)領(lǐng)袖評(píng)論和網(wǎng)民評(píng)論文本進(jìn)行收集,對(duì)其情感極性進(jìn)行分析,基于此為相關(guān)部門(mén)掌握網(wǎng)民訴求與疏導(dǎo)輿論提供幫助。在輿情分析、特征畫(huà)像、網(wǎng)民訴求量化等方面,該技術(shù)可發(fā)揮重要作用??v觀學(xué)術(shù)界關(guān)于文本情感分析技術(shù)的探索和改進(jìn),前人研究主要集中在情感詞典構(gòu)建、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域,且分別已取得優(yōu)秀的研究成果。

    1.1情感詞典構(gòu)建領(lǐng)域情感詞典構(gòu)建是一種基于詞典獲取待測(cè)文本中情感詞的情感值,再通過(guò)加權(quán)計(jì)算以確定文本整體情感傾向的方法。黃立赫等基于BTM主題模型提取視頻彈幕主題信息,基于情感詞典和顏文字詞典計(jì)算不同時(shí)間窗口下的主題情感類(lèi)別和情感強(qiáng)度,建立視頻彈幕在線輿情事件監(jiān)控模型[3]。李永帥提出了一種基于雙向長(zhǎng)短期記憶模型的動(dòng)態(tài)詞典構(gòu)建方法,并通過(guò)對(duì)CBOW模型的改進(jìn),構(gòu)建了應(yīng)用ECBOW模型的動(dòng)態(tài)情感詞典[4]??偟膩?lái)說(shuō),以情感詞典為基礎(chǔ)的文本情感分析技術(shù)存在很大的弊端——過(guò)度依賴(lài)詞典的構(gòu)建質(zhì)量。換句話說(shuō),只要詞典內(nèi)容足夠豐富,就可以獲得較好的情感分析效果。但詞典的研究設(shè)計(jì)必然從研究伊始就受制于研究者的主觀性思維,因此其分類(lèi)效果很難再進(jìn)行實(shí)質(zhì)性改進(jìn)。

    1.2機(jī)器學(xué)習(xí)領(lǐng)域在機(jī)器學(xué)習(xí)領(lǐng)域,樸素貝葉斯(簡(jiǎn)稱(chēng)為NB)與支持向量機(jī)(簡(jiǎn)稱(chēng)為SVM)是常用于文本情感分析任務(wù)的經(jīng)典算法。楊爽等提出了基于詞性、情感、句型和語(yǔ)義等特征的SVM情感分類(lèi)方法,可實(shí)現(xiàn)五級(jí)情感分類(lèi),準(zhǔn)確率得到明顯提高[5]。Pang等人使用NB、SVM等機(jī)器學(xué)習(xí)模型對(duì)電影評(píng)論數(shù)據(jù)集進(jìn)行情感分類(lèi)判斷,實(shí)驗(yàn)結(jié)果表明,SVM模型的準(zhǔn)確率可以達(dá)到82.9%[6]。Birjali等將支持向量機(jī)與樸素貝葉斯算法相結(jié)合,提出了一種基于WordNet語(yǔ)言詞典訓(xùn)練集的語(yǔ)義分析算法,能夠?qū)崿F(xiàn)自動(dòng)檢測(cè)自殺內(nèi)容的文本[7]。綜合上述機(jī)器學(xué)習(xí)研究,可以發(fā)現(xiàn):基于機(jī)器學(xué)習(xí)算法的文本情感分析能力較情感詞典來(lái)說(shuō)已有極大提高,但其算法局限性成為了制約自身準(zhǔn)確率與泛化能力的關(guān)鍵。例如,樸素貝葉斯對(duì)樣本的代表性有較高要求,因此在處理較小樣本的分類(lèi)任務(wù)時(shí),會(huì)出現(xiàn)不能覆蓋所有屬性等現(xiàn)象。

    1.3深度學(xué)習(xí)領(lǐng)域隨著深度學(xué)習(xí)算法與神經(jīng)網(wǎng)絡(luò)的興起,文本情感分析技術(shù)有了新的突破方向。張海濤等構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的輿情情感分析模型,將深度學(xué)習(xí)算法應(yīng)用于輿情研究領(lǐng)域,提高了輿情文本分類(lèi)的準(zhǔn)確性[8]。Dong為了解決基于目標(biāo)詞的情感分析問(wèn)題,提出了自適應(yīng)遞歸神經(jīng)網(wǎng)絡(luò),在語(yǔ)法中使用依賴(lài)解析樹(shù)來(lái)查找與目標(biāo)單詞相關(guān)的單詞,通過(guò)自下向上不斷遞歸得到目標(biāo)單詞的向量表示[9]。同樣地,張柳等針對(duì)當(dāng)前微博評(píng)論中常見(jiàn)的上下文信息有限、外語(yǔ)詞匯較多的文本情感分析現(xiàn)狀,提出了一種基于詞向量的多尺度卷積神經(jīng)網(wǎng)絡(luò)微博評(píng)論情感分類(lèi)模型[10]。綜合來(lái)看,現(xiàn)有基于深度學(xué)習(xí)的文本情感識(shí)別技術(shù)大多圍繞卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)展開(kāi),雖克服了傳統(tǒng)機(jī)器學(xué)習(xí)算法在數(shù)據(jù)采樣與樣本代表性方面的某些局限,但算法本身仍對(duì)樣本的數(shù)據(jù)規(guī)模有較高要求。因此,對(duì)于輿情評(píng)論這樣較小的數(shù)據(jù)集來(lái)說(shuō),深度學(xué)習(xí)算法仍然難以取得更加出色的分析效果。

    近年來(lái),遷移學(xué)習(xí)思想的產(chǎn)生拉開(kāi)了預(yù)訓(xùn)練模型的序幕。2018年,谷歌(Google)公司研發(fā)出了基于轉(zhuǎn)換器的雙向編碼表征網(wǎng)絡(luò),在包含文本情感分析在內(nèi)的11項(xiàng)自然語(yǔ)言處理任務(wù)中均取得了最佳成績(jī)[11]。Sun等提出了一種基于方面級(jí)任務(wù)的情感分類(lèi)方法,對(duì)雙向編碼表征的預(yù)訓(xùn)練模型進(jìn)行了微調(diào),并運(yùn)用前人文章數(shù)據(jù)集取得了較好的分類(lèi)結(jié)果[12]。孫靖超用偽標(biāo)簽的方法克服了需要雙向編碼表征數(shù)據(jù)集需要大量人工標(biāo)注的難題,并證明了雙向編碼表征模型對(duì)于輿情情感分析任務(wù)的可行性[13]??偟膩?lái)說(shuō),相比于CNN和RNN等深度學(xué)習(xí)算法,雙向編碼表征模型只需構(gòu)建注意力機(jī)制,就可解決傳統(tǒng)方法無(wú)法并行處理的問(wèn)題。同時(shí),遷移學(xué)習(xí)思想賦予了模型將開(kāi)放領(lǐng)域?qū)W到的知識(shí)遷移到下游任務(wù)的能力,這為同領(lǐng)域小規(guī)模語(yǔ)言處理效果改善提供了極大幫助,突破了機(jī)器學(xué)習(xí)與深度學(xué)習(xí)算法對(duì)數(shù)據(jù)規(guī)模有高要求的局限性,適用于解決輿情評(píng)論的情感極性分析。

    2 協(xié)同雙向編碼表征的模型框架與改進(jìn)思想

    可見(jiàn),以雙向編碼表征為代表的預(yù)訓(xùn)練模型是當(dāng)前文本情感分析研究的前沿領(lǐng)域,可對(duì)情感詞典、機(jī)器學(xué)習(xí)算法與深度學(xué)習(xí)算法的模型局限進(jìn)行對(duì)應(yīng)改善。需要注意的是,上述改善僅針對(duì)正常語(yǔ)義表征的文本,不適用于摻雜有反諷語(yǔ)義的復(fù)雜文本。但反諷這一修辭手法在輿情事件評(píng)論中的確十分常見(jiàn),如果不能對(duì)這一問(wèn)題進(jìn)行考慮,文本情感分析技術(shù)就無(wú)法為幫助相關(guān)部門(mén)掌握民意發(fā)揮實(shí)質(zhì)性用途。

    圖1 技術(shù)路線圖

    遺憾的是,這一問(wèn)題尚未引起國(guó)內(nèi)外學(xué)者的重視,目前學(xué)術(shù)界關(guān)于這一問(wèn)題的研究寥寥無(wú)幾。[14-15]基于此,本文將在雙向編碼表征模型的基礎(chǔ)上進(jìn)行圖1所示的改進(jìn),在爬蟲(chóng)抓取評(píng)論文本并預(yù)處理后,通過(guò)兩個(gè)普通雙向編碼表征模型的協(xié)同組合,合并輿情評(píng)論文本中的反諷語(yǔ)義/非反諷語(yǔ)義、正面情感/負(fù)面情感兩種領(lǐng)域語(yǔ)義信息。進(jìn)一步,運(yùn)用LDA等主題提取技術(shù),對(duì)情感識(shí)別無(wú)誤的輿情評(píng)論進(jìn)行觀點(diǎn)挖掘并使其可視化,致力于為相關(guān)部門(mén)提供更直觀可靠的管理決策。

    2.1模型框架與運(yùn)行原理從框架層面分析,協(xié)同雙向編碼表征模型的主體結(jié)構(gòu)由兩個(gè)普通雙向編碼表征模型與一個(gè)額外全連接層組合而成,通過(guò)不同領(lǐng)域語(yǔ)義的信息融合與處理,保證了模型框架的完整性與設(shè)計(jì)合理性。而從運(yùn)行原理層面分析,協(xié)同雙向編碼表征模型可被視為“語(yǔ)義理解模塊”“反諷識(shí)別模塊”和“協(xié)同決策模塊”的功能組合。具體來(lái)說(shuō),對(duì)于輸入層中的待測(cè)評(píng)論文本,“語(yǔ)義理解模塊”通過(guò)編碼和特征提取以獲得情感語(yǔ)義信息。“反諷識(shí)別模塊”通過(guò)編碼和特征提取以獲取輿情評(píng)論文本的反諷信息。之后,語(yǔ)義信息和反諷信息同時(shí)輸入到“協(xié)同決策模塊”中進(jìn)行特征融合與協(xié)同訓(xùn)練,最終由“協(xié)同決策模塊”給出最終的情感極性識(shí)別結(jié)果。模型結(jié)構(gòu)如圖2所示。

    圖2 協(xié)同雙向編碼表征模型

    在特征提取層中,“反諷識(shí)別模塊”通過(guò)運(yùn)用預(yù)訓(xùn)練與遷移學(xué)習(xí)思想,負(fù)責(zé)完成輿情評(píng)論文本反諷特征抽取和分析任務(wù)。通過(guò)銜接基于雙向Transformer結(jié)構(gòu)的反諷雙向編碼表征層和全連接層,該模塊可對(duì)抽取到的文本反諷特征進(jìn)行深層次分析,逐漸增強(qiáng)模型對(duì)輿情評(píng)論反諷信息的鑒別能力。為保障預(yù)訓(xùn)練效果,本文專(zhuān)門(mén)構(gòu)建了反諷語(yǔ)義文本數(shù)據(jù)集,用來(lái)進(jìn)行“反諷/非反諷”的二值語(yǔ)義分類(lèi)任務(wù)訓(xùn)練。通過(guò)大量針對(duì)性訓(xùn)練,該模塊可出色完成輿情評(píng)論文本的反諷語(yǔ)義識(shí)別任務(wù)。同理,“語(yǔ)義理解模塊”在結(jié)構(gòu)上與“反諷識(shí)別模塊”相似,通過(guò)語(yǔ)義雙向編碼表征層與全連接層的銜接與針對(duì)性訓(xùn)練,保證模塊對(duì)評(píng)論文本正負(fù)語(yǔ)義信息的獲取能力。

    進(jìn)一步,考慮到反諷評(píng)論文本的存在會(huì)對(duì)文本整體情感極性造成極大轉(zhuǎn)折,需要在信息融合層中引入第三個(gè)模塊—— “協(xié)同決策模塊”。該模塊由信息合并層與全連接層構(gòu)成。通過(guò)信息合并層將前述兩個(gè)模塊中的反諷信息和正負(fù)語(yǔ)義信息融合,全連接層將對(duì)融合后的信息進(jìn)行更深層次學(xué)習(xí),形成以反諷信息指導(dǎo)、糾錯(cuò)、扶正正負(fù)語(yǔ)義信息的優(yōu)化能力。

    綜上,針對(duì)待測(cè)的輿情評(píng)論文本,由“語(yǔ)義理解模塊”提取正負(fù)語(yǔ)義信息;由預(yù)訓(xùn)練完成的“反諷識(shí)別模塊”采用反諷識(shí)別能力,在情感極性識(shí)別任務(wù)中進(jìn)行遷移應(yīng)用,提取輿情評(píng)論文本中的反諷語(yǔ)義信息。 接下來(lái),由“協(xié)同決策模塊”對(duì)“反諷/非反諷”、“正面/負(fù)面”兩種領(lǐng)域信息進(jìn)行融合,根據(jù)待測(cè)輿情評(píng)論文本是否存在反諷語(yǔ)義,給出其情感極性識(shí)別結(jié)果。如此循環(huán)訓(xùn)練,識(shí)別結(jié)果的準(zhǔn)確性將使得“語(yǔ)義理解模塊”和“協(xié)同決策模塊”的模型參數(shù)不斷調(diào)整優(yōu)化。通過(guò)上述過(guò)程的模型收斂,協(xié)同雙向編碼表征模型將對(duì)摻雜有反諷語(yǔ)義的復(fù)雜輿情評(píng)論形成較好的情感極性識(shí)別力。

    2.2基于遷移學(xué)習(xí)的可行性分析從本質(zhì)上說(shuō),雙向編碼表征模型屬于遷移學(xué)習(xí)的應(yīng)用范疇。遷移學(xué)習(xí)中一個(gè)較為重要的概念就是微調(diào)(fine-tuning),它允許研究者在處理新的下游任務(wù)時(shí),不用再重復(fù)人力和時(shí)間從零開(kāi)始訓(xùn)練模型,而只需要對(duì)模型中的參數(shù)進(jìn)行微調(diào)即可實(shí)現(xiàn)遷移學(xué)習(xí)。因此,在模型框架層面,負(fù)責(zé)反諷語(yǔ)義識(shí)別與正負(fù)情感識(shí)別的兩個(gè)普通雙向編碼表征模型均采用的是“預(yù)訓(xùn)練+全連接層”的結(jié)構(gòu)。以反諷語(yǔ)義雙向編碼表征模型為例,反諷文本在經(jīng)過(guò)預(yù)處理、向量化、輸入到預(yù)訓(xùn)練完成的雙向編碼表征模型后,研究者就可通過(guò)反向傳播算法對(duì)模型各部分參數(shù)、權(quán)重進(jìn)行微調(diào),然后將谷歌官方預(yù)訓(xùn)練模型遷移到反諷識(shí)別任務(wù)上。

    協(xié)同雙向編碼表征模型就是通過(guò)向量拼接的方式,在圖2所示的信息融合層中增加一個(gè)額外的全連接層,由其完整保留輿情評(píng)論文本的反諷語(yǔ)義和正負(fù)情感語(yǔ)義兩種領(lǐng)域信息。從可行性上分析,通過(guò)兩個(gè)普通雙向編碼表征模型的協(xié)同配合,協(xié)同雙向編碼表征模型既能理解正常語(yǔ)義評(píng)論的情感表達(dá),又能準(zhǔn)確判斷反諷輿情評(píng)論的情感極性。

    2.3輸入序列與特征表示雙向編碼表征模型的輸入層包含了輿情評(píng)論中各個(gè)字符的原始向量,這些向量既可以是隨機(jī)初始值,也可以是通過(guò)Word2Vec等分詞算法計(jì)算的輸出值。模型的輸出層則是經(jīng)雙向Transformer層提取特征后、已融合全句文本語(yǔ)義信息的字符向量表示,如圖3所示(以評(píng)論文本“點(diǎn)贊,支持警方”為例)。

    圖3 輸入序列與特征表示

    2.4特征提取層在特征抽取層中,雙向編碼表征模型采用的是雙向Transformer,改進(jìn)了ELMo模型特征提取能力不充分和GPT模型信息不足的缺點(diǎn)。如圖4所示,每個(gè)Transformer均由多頭注意力機(jī)制層(Multi-Head Attention)、標(biāo)準(zhǔn)化層(Normalization)和全連接前饋神經(jīng)網(wǎng)絡(luò)層(Feed Forward)構(gòu)成。

    圖4 編碼器結(jié)構(gòu)

    在模型對(duì)輿情評(píng)論文本特征進(jìn)行抽取的過(guò)程中,Transformer中的多頭注意力機(jī)制可發(fā)揮重要作用。在圖5所示的模型構(gòu)成中,多頭注意力機(jī)制由多個(gè)自注意力機(jī)制(Self Attention)組成,這也構(gòu)成了雙向編碼表征模型在處理細(xì)粒度文本時(shí)的語(yǔ)義理解能力與信息獲取能力。模型的輸入層均包含有每個(gè)字符對(duì)應(yīng)的Q、K和V向量,且分別通過(guò)其與權(quán)值矩陣WQ、WK和WV的相乘,可得到相同維度的矩陣。

    在多頭注意力機(jī)制中,每一個(gè)單獨(dú)的自注意力機(jī)制關(guān)注的都僅是輿情評(píng)論文本某一種維度的信息。在經(jīng)過(guò)公式(1)和公式(2)的疊加后,多頭注意力機(jī)制就能夠獲取輿情評(píng)論文本多種范圍的語(yǔ)義信息,保證了雙向編碼表征模型在處理細(xì)粒度語(yǔ)義任務(wù)時(shí)的信息獲取能力。

    圖5 多頭注意力機(jī)制

    MultiHead(Q,K,V)=

    linear(Wlconcat(head1,head2…h(huán)eadn)+b)

    (1)

    headi=Attention(QWQi,KWKi,VWVi)

    (2)

    (3)

    2.5模型結(jié)果輸出輸出層根據(jù)文本內(nèi)容的不同,會(huì)有下述兩種處理方案。

    a.若待測(cè)文本為正常情感表征,不含反諷語(yǔ)義,模型就會(huì)按照普通雙向編碼表征模型識(shí)別方法,進(jìn)行文本情感極性分析,直接輸出情感極性結(jié)果。

    b.若語(yǔ)句中摻雜有反諷語(yǔ)義,模型則會(huì)根據(jù)反諷識(shí)別結(jié)果,在普通識(shí)別的基礎(chǔ)上對(duì)情感極性進(jìn)行調(diào)整,幫助糾正其中識(shí)別錯(cuò)的文本語(yǔ)句后,輸出真實(shí)的情感極性。

    基于此,協(xié)同雙向編碼表征模型可提高摻雜有反諷語(yǔ)義的復(fù)雜輿情評(píng)論文本情感識(shí)別的準(zhǔn)確率,為相關(guān)部門(mén)提供更加準(zhǔn)確可靠的算法支持。

    3 實(shí)驗(yàn)應(yīng)用研究

    3.1案例簡(jiǎn)介與熱度分析2020年12月4日,安徽省安慶市望江縣一名女子意欲跳河輕生,在民警到達(dá)現(xiàn)場(chǎng)并安撫的情況下,該女子最終不幸溺亡。這起事件發(fā)生后,迅速引起了社會(huì)的重點(diǎn)關(guān)注,現(xiàn)場(chǎng)圍觀群眾拍攝的短視頻也迅速在微信、抖音等社交平臺(tái)傳播并引起熱議,微博也極快地產(chǎn)生了該起政府輿情的熱門(mén)話題。以“知微數(shù)據(jù)公司”旗下“知微事見(jiàn)”為案例分析工具,可基于其公開(kāi)的事件影響力指數(shù)為輿情事件熱度分析提供參考(http://www.zhiweidata.com/),在“知微事見(jiàn)”中,事件影響力指數(shù)是指事件在自媒體(主要指微博和微信)和其他網(wǎng)媒平臺(tái)累積傳播效果的加和,并歸一化為(0,100)間的指數(shù)[16]。如表1所示,從2020年12月4日到12月10日20時(shí),該輿情事件的整體影響力指數(shù)高達(dá)68.5,社會(huì)關(guān)注度遠(yuǎn)超同期77%的社會(huì)類(lèi)事件。

    表1 “知微事見(jiàn)”影響力指數(shù)

    為響應(yīng)持續(xù)發(fā)酵的網(wǎng)絡(luò)輿情,如表2所示,多家主流媒體相繼加入討論并發(fā)表評(píng)論。12月6日,“#央視主播評(píng)望江女孩輕生溺亡#”登上熱搜,最高排名第三。

    表2 媒體報(bào)道情況

    3.2實(shí)驗(yàn)數(shù)據(jù)集的獲取與預(yù)處理本次實(shí)驗(yàn)使用“八爪魚(yú)”采集器進(jìn)行數(shù)據(jù)抓取,該軟件優(yōu)勢(shì)在于:軟件根據(jù)新浪微博、今日頭條等不同網(wǎng)站設(shè)計(jì)了相應(yīng)采集策略與接口,研究者可根據(jù)需要自定義參數(shù)以保證目標(biāo)數(shù)據(jù)的完整性與穩(wěn)定性。

    a.反諷數(shù)據(jù)集的獲取?;谛吕宋⒉┑呢S富語(yǔ)料資源,本文通過(guò)搜索熱門(mén)輿情事件的關(guān)鍵詞、輿情話題排行榜、微博大V等多路徑進(jìn)行評(píng)論文本抓取,對(duì)反諷語(yǔ)義的輿情評(píng)論進(jìn)行收集,用“0”表示“反諷評(píng)論”,用“1”表示“非反諷評(píng)論”。

    b.正負(fù)情感數(shù)據(jù)集的獲取。同理,本文針對(duì)4.1中案例,對(duì)2020年12月4日至12月10日之間“#警察注視女生溺亡被停職#”等話題中媒體和大V發(fā)文下的網(wǎng)民評(píng)論進(jìn)行數(shù)據(jù)抓取并進(jìn)行標(biāo)記,用“0”表示“正面評(píng)論”,用“1”表示“負(fù)面評(píng)論”。

    在獲得兩個(gè)數(shù)據(jù)集后,為提高準(zhǔn)確性,通常在實(shí)驗(yàn)之前需先對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)清洗等預(yù)處理操作。通常包括以下步驟:

    a.過(guò)濾無(wú)效文本。由于數(shù)據(jù)采集均來(lái)自于新浪微博話題,因此收集到的文本數(shù)據(jù)中往往存在“轉(zhuǎn)發(fā)”以及“圖片鏈接”等,這些無(wú)效噪聲應(yīng)予以過(guò)濾。

    b.去除文本中的特殊字符、帶有“微博話題”的空白數(shù)據(jù)、帶有“http://…….com”的網(wǎng)絡(luò)來(lái)源鏈接。另外,需剔除相關(guān)話題的推送鏈接,因?yàn)檫@也可能存在一定的情感傾向,會(huì)對(duì)原始案例產(chǎn)生干擾。例如本次研究話題下可能會(huì)出現(xiàn)“沉痛緬懷某犧牲民警”的推送鏈接,鏈接里包含的“沉痛”“緬懷”等詞會(huì)對(duì)原本數(shù)據(jù)集的情感判定帶來(lái)影響。

    c.使用Jieba工具包進(jìn)行分詞并去除停用詞,通過(guò)雙向編碼表征模型將文本數(shù)據(jù)轉(zhuǎn)化為詞向量。

    d.最后,本文共得到反諷語(yǔ)句9 742條,非反諷語(yǔ)句9 647條,組成了19 389條語(yǔ)料的反諷數(shù)據(jù)集。同理,得到正向評(píng)論語(yǔ)句16 491條,負(fù)面評(píng)論語(yǔ)句16 830條,組成了33 321條語(yǔ)料的正負(fù)情感數(shù)據(jù)集。分別隨機(jī)選取兩個(gè)數(shù)據(jù)集中的80%作為各自訓(xùn)練集,10%作為各自驗(yàn)證集,10%作為各自測(cè)試集。

    3.3實(shí)驗(yàn)環(huán)境與超參數(shù)取值實(shí)驗(yàn)工具包是Anaconda,通過(guò)谷歌官方發(fā)布的訓(xùn)練前權(quán)重來(lái)使用雙向編碼表征模型,實(shí)驗(yàn)環(huán)境配置如表3所示。

    表3 實(shí)驗(yàn)環(huán)境與配置情況

    在模型訓(xùn)練過(guò)程中,一般采用正則化方法可提高模型的魯棒性。為保證模型具有較高的泛化能力,在微調(diào)時(shí)通常設(shè)置較低的學(xué)習(xí)率。本實(shí)驗(yàn)將學(xué)習(xí)率取值為2×10-5。其他超參數(shù)的取值如表4所示。

    表4 超參數(shù)取值

    3.4模型效果評(píng)估輿情評(píng)論情感分析,本質(zhì)上屬于文本情感的二分類(lèi)任務(wù),因此模型評(píng)估可采用混淆矩陣法。具體來(lái)說(shuō),混淆矩陣就是通過(guò)各項(xiàng)指標(biāo)將數(shù)據(jù)分類(lèi)結(jié)果轉(zhuǎn)化為(0,1)之間的比率,并以此進(jìn)行標(biāo)準(zhǔn)化衡量(比率越接近1,模型的輸出結(jié)果越好)。

    精確率(下文簡(jiǎn)稱(chēng)為“P”)是指“模型預(yù)測(cè)為正向的樣本中有多少是真正的該類(lèi)樣本”。如式(4)所示,TP代表“真實(shí)值是正向,模型預(yù)測(cè)為正向的樣本數(shù)”,F(xiàn)P代表“真實(shí)值是負(fù)向,但模型預(yù)測(cè)為正向的數(shù)量”。

    (4)

    召回率(下文簡(jiǎn)稱(chēng)為“R”)是指“樣本中屬于正向分類(lèi)的數(shù)據(jù)被準(zhǔn)確預(yù)測(cè)的比率”。如式(5)所示,F(xiàn)N代表“真實(shí)值是正向,但模型預(yù)測(cè)為負(fù)向的樣本數(shù)”。

    (5)

    準(zhǔn)確率(下文簡(jiǎn)稱(chēng)為“A”),是指“模型所有預(yù)測(cè)準(zhǔn)確的結(jié)果占總樣本量的比率”。如式(6)所示,TN代表“真實(shí)值是負(fù)向,模型認(rèn)為是負(fù)向的數(shù)量”。

    (6)

    為對(duì)模型進(jìn)行更好的整體性評(píng)價(jià),在P與R的基礎(chǔ)上,按照式(7)產(chǎn)生指標(biāo)F1。

    (7)

    3.5對(duì)比實(shí)驗(yàn)如2.3所述,文本情感識(shí)別領(lǐng)域當(dāng)前的研究熱點(diǎn)在于以深度學(xué)習(xí)算法解決該任務(wù)。其中較為成熟和主流的主要是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的Text-LSTM與基于卷積神經(jīng)網(wǎng)絡(luò)的Text-CNN兩種方法路線。前者利用了RNN結(jié)構(gòu)保留歷史信息并不斷增加新信息的特性,能夠適應(yīng)文本分析任務(wù)中綜合理解上下文關(guān)系的需求,并通過(guò)遺忘門(mén)、更新門(mén)和輸出門(mén)等結(jié)構(gòu)較好地解決了常規(guī)RNN網(wǎng)絡(luò)的梯度消失現(xiàn)象。后者則通過(guò)定義不同的卷積核,提取輿情評(píng)論文本中的不同局部特征,在池化層(Max pooling)處理基礎(chǔ)上對(duì)特征向量進(jìn)行拼接挑選,通過(guò)由局部到整體的方法實(shí)現(xiàn)對(duì)文本的語(yǔ)義理解。但當(dāng)前關(guān)于上述兩種深度學(xué)習(xí)模型的研究,很少就輿情評(píng)論文本中的反諷句式進(jìn)行專(zhuān)門(mén)的針對(duì)性設(shè)計(jì)和研究。本文的協(xié)同雙向編碼表征模型,在“語(yǔ)義理解模塊”之外專(zhuān)門(mén)引入了“反諷識(shí)別模塊”,通過(guò)協(xié)同訓(xùn)練,在一定程度上有效彌補(bǔ)了上述深度學(xué)習(xí)算法的研究不足。

    基于此,在對(duì)比實(shí)驗(yàn)中,可將協(xié)同雙向編碼表征模型設(shè)置為對(duì)照組,將普通雙向編碼表征模型、Text-LSTM、Text-CNN設(shè)置為實(shí)驗(yàn)組。根據(jù)公式(4)至(7),計(jì)算上述四種模型對(duì)應(yīng)的P、R、A和F1值,對(duì)比結(jié)果如表5所示。

    表5 實(shí)驗(yàn)結(jié)果 %

    對(duì)比普通雙向編碼表征模型,協(xié)同雙向編碼表征模型在準(zhǔn)確率A上有1.5%的提升,相對(duì)錯(cuò)誤率降低了24.6%。對(duì)比Text-LSTM、Text-CNN模型,協(xié)同雙向編碼表征模型的準(zhǔn)確率分別提升了30.3%與35.1%。另外,通過(guò)各模型P、R、F1指標(biāo)對(duì)比也可看出,協(xié)同雙向編碼表征模型在精確度和查全能力上都擁有更好性能。

    4 研究結(jié)果

    4.1語(yǔ)句識(shí)別效果評(píng)價(jià)為直觀看出改進(jìn)后模型對(duì)反諷語(yǔ)句的識(shí)別效果,本文挑選了若干具有反諷語(yǔ)義的輿情評(píng)論,并將各對(duì)比模型的識(shí)別結(jié)果列出。

    表6 語(yǔ)句識(shí)別效果對(duì)比

    對(duì)比可見(jiàn),對(duì)照組的三種模型對(duì)于摻雜反諷語(yǔ)義的評(píng)論均未準(zhǔn)確識(shí)別情感極性。而協(xié)同雙向編碼表征模型,由于融合了反諷語(yǔ)義信息,因而能夠?qū)浨樵u(píng)論進(jìn)行針對(duì)性的處理,從整體上提升了情感識(shí)別準(zhǔn)確性。

    4.2主題可視化與管理對(duì)策在5.1的基礎(chǔ)上,基于LDA模型進(jìn)行文本主題詞提取,依據(jù)詞向量的權(quán)重生成如圖6所示的觀點(diǎn)詞云圖。

    圖6 詞云圖

    正面情感極性的評(píng)論關(guān)鍵詞,主要包括“警察”“支持”“點(diǎn)贊”等。此類(lèi)評(píng)論主要是現(xiàn)場(chǎng)目擊群眾以及在安徽警方發(fā)布通告后的網(wǎng)民,對(duì)事發(fā)中民警施救方法的評(píng)價(jià)。如“民警的施救是科學(xué)的,貿(mào)然下水救人反而會(huì)刺激輕生者”“支持人民警察”等。

    另一方面,在情感極性為負(fù)面的評(píng)論中,關(guān)鍵詞則主要包括“圍觀”“救”“目睹”等。比起正面情緒評(píng)論,輿情事件中的負(fù)面情緒更應(yīng)引起政府有關(guān)部門(mén)的重點(diǎn)關(guān)注。因?yàn)橐坏┌l(fā)酵,網(wǎng)民情緒很可能會(huì)將矛盾引向線下,甚至形成“蝴蝶效應(yīng)”影響其他事件。鑒于此,圖6為政府有關(guān)部門(mén)及時(shí)掌握網(wǎng)民訴求、穩(wěn)定網(wǎng)絡(luò)社會(huì)安定提供了突破口。產(chǎn)生這些負(fù)面情緒的原因主要包括三個(gè)方面:第一,對(duì)于施救現(xiàn)場(chǎng)警察在岸邊不下水的行為,網(wǎng)民認(rèn)為這是不作為的表現(xiàn),相關(guān)部門(mén)未盡到職責(zé);第二,對(duì)于少女輕生現(xiàn)象,網(wǎng)民們表示對(duì)溺水事件的悲哀和對(duì)生命的敬畏;第三,網(wǎng)友認(rèn)為民警救援時(shí)應(yīng)攜救生衣、救生圈等裝備。

    基于上述原因分析,相關(guān)部門(mén)應(yīng)在未來(lái)加強(qiáng)以下幾方面的管理:首先,各部門(mén)應(yīng)加強(qiáng)應(yīng)急預(yù)案準(zhǔn)備工作,并提升自身職業(yè)技能,切實(shí)履行自身職責(zé)。其次,定期邀請(qǐng)專(zhuān)家學(xué)者、社會(huì)媒體等各方面力量,定期研討輿情事件,協(xié)助政府有關(guān)部門(mén)做好網(wǎng)絡(luò)輿情治理工作。最后,在輿情事件發(fā)生后,政府應(yīng)及時(shí)組織調(diào)查力量介入,第一時(shí)間發(fā)布通告和公開(kāi)視頻資料,幫助網(wǎng)民掌握事件全貌,澄清謠言和不實(shí)言論。

    5 結(jié) 論

    針對(duì)摻雜有反諷語(yǔ)義的輿情評(píng)論情感識(shí)別,本文提出了一種協(xié)同雙向編碼表征模型。通過(guò)組合兩個(gè)普通雙向編碼表征模型,將反諷/非反諷、正面/負(fù)面兩種領(lǐng)域的語(yǔ)義信息進(jìn)行合并,用反諷識(shí)別信息指導(dǎo)正負(fù)語(yǔ)義信息的理解。進(jìn)一步,與普通雙向編碼表征模型和Text-LSTM等深度學(xué)習(xí)模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果證明:在處理?yè)诫s有反諷語(yǔ)義的輿情評(píng)論文本情感分析任務(wù)時(shí),協(xié)同雙向編碼表征模型具備更好的性能,可為相關(guān)部門(mén)進(jìn)行輿情管控提供更加精準(zhǔn)的決策支持。

    猜你喜歡
    雙向輿情語(yǔ)義
    雙向度的成長(zhǎng)與自我實(shí)現(xiàn)
    出版人(2022年11期)2022-11-15 04:30:18
    語(yǔ)言與語(yǔ)義
    輿情
    輿情
    “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
    一種軟開(kāi)關(guān)的交錯(cuò)并聯(lián)Buck/Boost雙向DC/DC變換器
    輿情
    一種工作頻率可變的雙向DC-DC變換器
    認(rèn)知范疇模糊與語(yǔ)義模糊
    基于雙向預(yù)測(cè)的圖像去噪
    河南科技(2014年19期)2014-02-27 14:15:24
    县级市| 富阳市| 光山县| 永和县| 阿克陶县| 建昌县| 大洼县| 乾安县| 蓬溪县| 巴中市| 河曲县| 光山县| 竹北市| 共和县| 紫金县| 西盟| 岳阳县| 博湖县| 新疆| 灌云县| 历史| 平和县| 尉犁县| 博爱县| 三门县| 巴东县| 禄丰县| 孙吴县| 龙岩市| 渝北区| 兴隆县| 信丰县| 龙南县| 涿鹿县| 苍南县| 寻乌县| 九台市| 宜兰县| 滨州市| 汾阳市| 和静县|