嚴(yán) 帥 張藝博
(成都錦城學(xué)院,四川 成都 611731)
在語言學(xué)與計(jì)算機(jī)兩大研究領(lǐng)域,尤其是在對(duì)中文復(fù)雜情感識(shí)別的探索中,諷刺與反語、反諷這兩個(gè)近義詞在定義上經(jīng)常產(chǎn)生混淆。深度學(xué)習(xí)作為近年來人工智能領(lǐng)域逐漸成熟的技術(shù),為我們提供了全新的視角與方法來探索和理解這類復(fù)雜的語言現(xiàn)象。其通過模擬人腦神經(jīng)網(wǎng)絡(luò)的工作原理,在大量語料庫中學(xué)習(xí)和提取語言的深層次特征,從而能夠?qū)崿F(xiàn)對(duì)中文諷刺等復(fù)雜情感的精準(zhǔn)識(shí)別。
無論是社交媒體情感分析,還是智能客服語義理解等場(chǎng)景,都需要對(duì)中文諷刺進(jìn)行準(zhǔn)確的識(shí)別和處理以提升任務(wù)效果。諷刺與反語、反諷雖然在情緒表達(dá)的功能與效果上較為相似,但在具體界定和語境運(yùn)用上存在一定的差異。這種差異可能導(dǎo)致語料庫構(gòu)建過程中采集和標(biāo)注的不準(zhǔn)確,進(jìn)而影響基于深度學(xué)習(xí)的中文諷刺識(shí)別分類模型的訓(xùn)練效果。因此,有必要深入分析諷刺規(guī)律,探索有效的諷刺語料庫有效性驗(yàn)證方法,以及利用注意力機(jī)制捕捉與諷刺密切相關(guān)的上下文信息,以提升模型訓(xùn)練效果。
《辭?!穼ⅰ胺凑Z”定義為用與本意相反的話語來表達(dá)本意。李澤娟(2010)認(rèn)為反語可以等價(jià)理解為說反話[1]。閻蘋等(2009)則認(rèn)為反語是通過使用與字面意思相反的話語來表達(dá)難以直接表述的內(nèi)容[2]。反語可劃分為正義反說和反義正說兩類。正義反說指用否定的形式來表達(dá)肯定的意思,從而形成一種反差的效果。這種反差不僅增強(qiáng)了語言的趣味性,還使得表達(dá)的內(nèi)容更加引人注目。例如“自古以來主賢臣直,……今魏征敢于立言勸諫,全賴圣上賢明”[3]中,“賴”字與夸獎(jiǎng)本意的相反關(guān)系。反義正說則是用肯定的形式來表達(dá)否定的意思,這種方式與正義反說正好相反,它是通過將負(fù)面的內(nèi)容以正面的方式表達(dá)出來。如“我真是喜歡讓我春游不了的雨天”(出自本文構(gòu)建的數(shù)據(jù)集IROLIT 2024)中,“喜歡”一詞與不喜歡本意的相反關(guān)系。反語的修辭重點(diǎn)在于“反”而不在于反諷和諷刺兩種修辭所著重強(qiáng)調(diào)的“諷”,這是反語與兩者最明顯的區(qū)別。
《辭海》將“反諷”定義為語境對(duì)一個(gè)陳述語的明顯的歪曲。曾衍桃(2006)認(rèn)為作者在生成反諷時(shí)關(guān)注的生成重點(diǎn)在于是否產(chǎn)生嘲弄嘲諷的情緒,而不著重在于說反話[4]。本文認(rèn)為,反諷是通過言辭與實(shí)際情況之間的明顯矛盾來表達(dá)言外之意的一種修辭方式。它往往依賴于特定的語境和聽者的理解,因?yàn)樽置嫔系囊饬x與實(shí)際意圖之間存在差異。反諷與反語之間存在“反”這一共性,但反語主要依賴于字面意義與實(shí)際意圖之間的反差,而反諷則更側(cè)重于言辭與實(shí)際情況之間的矛盾。如“多養(yǎng)珍禽異獸,敵人就不敢來了,如果敵人從東方來了,可以下令麋鹿把他們頂回去,就不用士兵了”[5]中,表面是通過言辭在贊同“多養(yǎng)珍禽異獸以抵御敵人”的主意,實(shí)際上“珍禽異獸能夠抵御敵人的能力”與事實(shí)之間存在明顯矛盾,正是這種矛盾構(gòu)成了反諷的核心。
《辭?!穼ⅰ爸S刺”定義為用譏刺和嘲諷來揭露、挖苦丑陋的落后事物和荒謬行為。范岳(1981)認(rèn)為諷刺時(shí)常以反語的形式表現(xiàn)出來,且有些諷刺的效果是通過說話者的語言同他所要表達(dá)的真實(shí)思想之間的矛盾性造成的[6]。曹婉君(1999)則認(rèn)為反語可以具有諷刺意味,但大多數(shù)情況下并不具有諷刺意味[7]。本文認(rèn)為諷刺是反諷的擴(kuò)展,諷刺在反諷的定義基礎(chǔ)上不再過于依賴言辭與實(shí)際情況之間的矛盾,而是引入了諷刺情景信息詳細(xì)度與客觀事實(shí)矛盾需求間的反比關(guān)系。諷刺情景信息詳細(xì)度越接近于極限,諷刺對(duì)語境反轉(zhuǎn)陳述句表面意思的需求就越低,同時(shí)諷刺還常運(yùn)用比喻和夸張等修辭手法。整個(gè)句子沒有構(gòu)造反轉(zhuǎn)和矛盾,而是通過細(xì)化闡述以提高諷刺情景信息詳細(xì)度,并降低對(duì)客觀事實(shí)矛盾的需求或使用夸張手法。
目前已有的中文諷刺識(shí)別研究中存在語料庫規(guī)模太小、諷刺數(shù)據(jù)標(biāo)注方法不夠準(zhǔn)確等語料庫質(zhì)量問題。Tang等(2014)用基于表情符的規(guī)則從plurk挖掘繁體中文諷刺語料1 005條,并總結(jié)了多種諷刺語言模式[8]。此語料庫基于傳統(tǒng)反語的“說反話”定義,但將數(shù)據(jù)歸類為“高強(qiáng)度副詞短語+正形容詞短語+負(fù)面背景”“高強(qiáng)度積極形容詞+負(fù)面背景”“高強(qiáng)度積極名詞+負(fù)面背景”等基于語法結(jié)構(gòu)的反諷分類模式,存在定義不明、反諷分類模式泛用性較低等語料庫質(zhì)量問題。例如,給詞語添加雙引號(hào)制造反語以及將語境聯(lián)系產(chǎn)生反諷等多種反諷模式都無法歸類進(jìn)Tang的諷刺模式中。大部分諷刺研究者都是直接使用已有語料庫或在已有語料庫基礎(chǔ)上進(jìn)行少量擴(kuò)充。例如,李明峰等(2018)使用Tang標(biāo)注的1 005條諷刺語料與從COAE2014中抽取篩選的2 000條非諷刺語料構(gòu)成語料庫[9]。Sun等(2016)通過人工篩選,從新浪微博獲取了1 030條諷刺語料,加上Tang的1 005條反諷語料以及從微博、博客隨機(jī)獲取的1 000條非反諷語料,共同構(gòu)建了一個(gè)包含反諷、諷刺和正常三個(gè)類別的語料庫[10]。但這些語料庫存在的共有問題是忽視了語料庫的質(zhì)量對(duì)模型效果的影響。即便對(duì)模型進(jìn)行了優(yōu)化,也沒有很好把握到諷刺文本的多種特征。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是主要用于處理網(wǎng)格狀數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),其通過卷積層對(duì)數(shù)據(jù)的空間層級(jí)特征自動(dòng)進(jìn)行提取,并通過池化層減小數(shù)據(jù)的空間維度[11]。通過對(duì)多層次的抽象特征表示進(jìn)行學(xué)習(xí),CNN模型能更好地理解和捕捉輸入文本數(shù)據(jù)的局部和全局結(jié)構(gòu)。
諷刺文本有時(shí)是短小的句子,CNN能通過卷積操作捕捉局部的語義特征,有效地識(shí)別一些局部的情感表達(dá)。CNN通過卷積核的滑動(dòng)操作可保持平移不變性,即模型能無視情感表達(dá)所在位置影響來檢測(cè)情感特征。這對(duì)處理諷刺文本中情感信息的位置不確定性有一定幫助。
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)[12]作為一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),相比傳統(tǒng)的RNN結(jié)構(gòu),其設(shè)計(jì)的初衷在于解決長(zhǎng)期依賴問題。LSTM的核心結(jié)構(gòu)包括細(xì)胞狀態(tài)、輸入門、遺忘門和輸出門。這些組件使得網(wǎng)絡(luò)具有了長(zhǎng)期記憶、抗梯度消失和靈活性等特點(diǎn)。在處理諷刺文本這樣的復(fù)雜長(zhǎng)語境時(shí),LSTM具有獨(dú)特優(yōu)勢(shì)。諷刺文本通常具有多層次的語義結(jié)構(gòu)和豐富的上下文信息,傳統(tǒng)模型往往難以捕捉其中的長(zhǎng)期依賴關(guān)系。而LSTM能夠通過其門控結(jié)構(gòu)對(duì)文本中的關(guān)鍵信息進(jìn)行更有效的提取,特別是其對(duì)輸入的敏感性可調(diào),使得網(wǎng)絡(luò)能夠根據(jù)情感表達(dá)的細(xì)微變化進(jìn)行靈活調(diào)整,從而更好地捕捉諷刺文本中的情感信息變化。此外,LSTM對(duì)變長(zhǎng)序列的處理能力也使其更適應(yīng)諷刺文本的多樣化長(zhǎng)度,為諷刺識(shí)別模型的建模提供了更大的靈活性。
注意力機(jī)制允許神經(jīng)網(wǎng)絡(luò)在處理輸入數(shù)據(jù)時(shí)集中注意力于相關(guān)的部分。其克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中隨著輸入長(zhǎng)度增加系統(tǒng)的性能下降、輸入順序不合理導(dǎo)致系統(tǒng)的計(jì)算效率低下、系統(tǒng)缺乏對(duì)特征的提取和強(qiáng)化等局限,能更好地建模具有可變長(zhǎng)度的序列數(shù)據(jù),以此增強(qiáng)自身捕獲遠(yuǎn)程依賴信息的能力,在減少層深度的同時(shí)提高精度[13]。
在深度學(xué)習(xí)中,注意力機(jī)制能夠通過不斷調(diào)整權(quán)重的方式將網(wǎng)絡(luò)的關(guān)注點(diǎn)聚焦于數(shù)據(jù)中最重要的小部分。注意力機(jī)制會(huì)對(duì)序列中各元素與其余元素之間的相似度進(jìn)行計(jì)算,并歸一化為注意力權(quán)重。再將每個(gè)元素與其注意力權(quán)重進(jìn)行加權(quán)求和,以產(chǎn)生自注意力輸出。注意力機(jī)制對(duì)中文語境諷刺文本的處理,在理想情況下會(huì)對(duì)每個(gè)元素計(jì)算相似度,找出差值過大個(gè)體并增大其輸入權(quán)重。相似度差值過大的元素,為語句中的不和諧元素,即諷刺語句中“反”的部分。因此,在由注意力機(jī)制對(duì)語句中的不和諧元素增大權(quán)重后,模型相比引入注意力機(jī)制前能更精確地捕捉到諷刺語句的特點(diǎn),從而增強(qiáng)模型訓(xùn)練效果。
基于對(duì)諷刺及其近義詞定義與相互關(guān)系的探討,本文認(rèn)為無論是自身真實(shí)意圖與陳述句表面意思相反的諷刺型反語,還是通過語境來反轉(zhuǎn)陳述句表面意思的反諷,都屬于諷刺領(lǐng)域的一部分。反語中的大部分反義正說和少部分帶有幸災(zāi)樂禍的正義反說屬于諷刺型反語,反諷與諷刺型反語由于各自“反”的性質(zhì)不同所以兩者是諷刺中相隔離開的概念,諷刺相比反諷而言有更多的情景信息以及修辭手法的使用,其所含情景信息越多,修辭手法程度越強(qiáng),對(duì)語境反轉(zhuǎn)陳述句表面意思的需求就越低,在情景信息詳細(xì)度與修辭手法程度達(dá)到一定量時(shí),無須任何種類的“反”都可以體現(xiàn)出諷刺。所以諷刺是部分反語、小情景反諷、修辭諷刺和大情景諷刺共同組成的概念,有必要從詞語反向、事實(shí)違背、修辭強(qiáng)度、情景信息量與事實(shí)反向間的關(guān)系等方向展開探討。
本文基于近似關(guān)系的諷刺定義提出更符合諷刺產(chǎn)生規(guī)律的諷刺文本采集標(biāo)準(zhǔn),此標(biāo)準(zhǔn)將詞語反向和事實(shí)違背量化為違和度,將修辭強(qiáng)度量化為標(biāo)點(diǎn)符號(hào)的使用情況,將情景信息量量化為文本長(zhǎng)度。其中違和度包括“形容詞褒貶不和諧”“感謝或期望不和諧”“同音字或諧音字替代不和諧”“雙引號(hào)表反義不和諧”“稱呼與自嘲不和諧”“專有名詞及關(guān)聯(lián)標(biāo)題不和諧”“程度不和諧”。為保證文本分類的可靠性,采用人工采集與標(biāo)注方法。本文分別從Tang的語料庫獲得了946條(2014年)、從新浪微博采集了1 331條(2018年)、從B站采集了670條(2024年),共計(jì)2 947條中文諷刺文本,與2 947句從三個(gè)采集點(diǎn)隨機(jī)采集的非諷刺文本構(gòu)成共計(jì)5 894條文本的中文諷刺語料庫IROLIT 2024,其文本長(zhǎng)度單位為字符。此語料庫中的諷刺文本長(zhǎng)度分布與非諷刺文本長(zhǎng)度分布大致接近,且0~20字符長(zhǎng)度之間的文本數(shù)量分布的坡度遠(yuǎn)比20~30和30~100字符長(zhǎng)度之間的文本數(shù)量分布的坡度陡峭??梢园l(fā)現(xiàn),各社交媒體的用戶在發(fā)表看法時(shí)更傾向于使用字符長(zhǎng)度為20~100的文本。不論是諷刺還是非諷刺文本,如果社交媒體用戶希望表達(dá)復(fù)雜情感,都需要結(jié)合一定情景信息量,而情景信息量的多少很大程度上取決于文本長(zhǎng)度。
為驗(yàn)證中文諷刺特征規(guī)律隨時(shí)間變化這一觀點(diǎn),本文對(duì)自建自標(biāo)注IROLIT 2024語料庫進(jìn)行了中文諷刺情感符號(hào)使用頻度隨時(shí)間變化的統(tǒng)計(jì)分析。
本文對(duì)數(shù)據(jù)集中所包含的三個(gè)來源的數(shù)據(jù)分別按照時(shí)間進(jìn)行了統(tǒng)計(jì),三個(gè)來源分別是2014年的plurk,2018年的新浪微博和2024年的B站。為保證結(jié)論的嚴(yán)謹(jǐn)性,之后又從2024年的plurk、新浪微博、B站各采集100條文本作為同一年代不同平臺(tái)條件下的補(bǔ)償文本,用于補(bǔ)償平臺(tái)不同對(duì)統(tǒng)計(jì)結(jié)果的影響,提高統(tǒng)計(jì)結(jié)果的可靠性。以下是補(bǔ)償系數(shù)和補(bǔ)償結(jié)果公式:
圖1 中文諷刺情感符號(hào)頻度隨時(shí)間變化規(guī)律
本節(jié)實(shí)驗(yàn)在訓(xùn)練時(shí)語料庫均采用4.2節(jié)中建立的IROLIT 2024諷刺語料庫,并對(duì)各模型學(xué)習(xí)率和訓(xùn)練輪數(shù)等參數(shù)的設(shè)置進(jìn)行了統(tǒng)一,以保證對(duì)比結(jié)果的變量控制。考慮到本文將中文諷刺識(shí)別任務(wù)設(shè)定為文本二分類的任務(wù),選擇常用于文本分類任務(wù)的兩種實(shí)驗(yàn)性能指標(biāo)——準(zhǔn)確率和F1值作為本實(shí)驗(yàn)中評(píng)價(jià)模型性能的指標(biāo)。按照語句長(zhǎng)度分布規(guī)律使用IROLIT 2024對(duì)Tang的含1 005條諷刺語料的COLING 2014語料庫進(jìn)行了非諷刺文本的補(bǔ)充,使其變成由數(shù)量均衡的諷刺文本和非諷刺文本構(gòu)成的COLING 2014_Z語料庫。之后對(duì)IROLIT 2024和COLING 2014_Z進(jìn)行了十折交叉,將兩個(gè)語料庫各自分成了訓(xùn)練集、驗(yàn)證集和測(cè)試集并分兩種情景進(jìn)行對(duì)抗訓(xùn)練實(shí)驗(yàn)。情景一是使用COLING 2014_Z自身的訓(xùn)練集、驗(yàn)證集和測(cè)試集在各模型上進(jìn)行訓(xùn)練和測(cè)試。情景二則是使用COLING 2014_Z的訓(xùn)練集、驗(yàn)證集和IROLIT 2024的測(cè)試集在各模型上進(jìn)行訓(xùn)練。訓(xùn)練模型構(gòu)建了TextCNN、TextRCNN、DPCNN、TextRNN、Transformer、LSTM、FastText這7個(gè)深度學(xué)習(xí)常用模型,訓(xùn)練效果如表1所示。
表1 對(duì)抗訓(xùn)練情景實(shí)驗(yàn)結(jié)果比較
對(duì)抗訓(xùn)練實(shí)驗(yàn)結(jié)果表明,即使用于測(cè)試的IROLIT 2024測(cè)試集中包含一些COLING 2014_Z語料庫在訓(xùn)練中已見過的文本,依舊讓原本在情景一中自身測(cè)試集上獲得了較高精確度和F1值的COLING 2014_Z語料庫在情景二中IROLIT 2024測(cè)試集上獲得的精確度和F1值產(chǎn)生了明顯的下降,最終在所有訓(xùn)練模型上的平均精確度下降了25.51%,平均F1值下降了26.94%。
依據(jù)對(duì)抗訓(xùn)練情景實(shí)驗(yàn)結(jié)果,本文認(rèn)為傳統(tǒng)諷刺定義過于寬泛,易產(chǎn)生定義不清的問題。COLING 2014語料庫采用的諷刺模式定義的范圍也過于狹窄,很大程度上影響諷刺語料庫中諷刺種類與特征的多樣性以及在這一語料庫上訓(xùn)練獲得的模型的泛化性能。本實(shí)驗(yàn)采取使用新語料庫的測(cè)試集對(duì)以往語料庫進(jìn)行測(cè)試攻擊的方式,證明了本文基于近似關(guān)系的諷刺定義相比以往中文諷刺語料庫構(gòu)建的諷刺定義標(biāo)準(zhǔn),能更好地捕捉不同種類和特征的中文諷刺文本,且擁有更好的泛化性能與可靠性。
此外,本文還選取TextRNN模型與LSTM模型進(jìn)行注意力機(jī)制效果實(shí)驗(yàn),并與引入注意力機(jī)制后的TextRNN_Att和LSTM_Att模型訓(xùn)練效果進(jìn)行對(duì)比,結(jié)果如表2所示。
表2 注意力機(jī)制效果實(shí)驗(yàn)結(jié)果比較
注意力機(jī)制效果實(shí)驗(yàn)結(jié)果表明,引入注意力機(jī)制后,RNN模型各方面性能反而下降,而LSTM模型則有明顯提升。推測(cè)RNN由于其簡(jiǎn)單循環(huán)結(jié)構(gòu),加入注意力機(jī)制后可能無法有效利用額外信息而性能下降,同時(shí)RNN更容易受梯度消失影響,此缺點(diǎn)會(huì)在引入注意力機(jī)制后進(jìn)一步加劇,而注意力機(jī)制需要更穩(wěn)定的梯度來進(jìn)行學(xué)習(xí)。相比之下,LSTM本身已經(jīng)具有處理長(zhǎng)期依賴的能力,引入注意力機(jī)制后,LSTM獲得了更加精細(xì)的信息篩選方式,使得模型在預(yù)測(cè)每個(gè)輸出時(shí),能夠更加準(zhǔn)確地關(guān)注到對(duì)應(yīng)的輸入信息。因此,引入注意力機(jī)制在對(duì)中文語境諷刺的判斷任務(wù)中并不一定對(duì)所有架構(gòu)的模型都具有正向作用,是否引入這一機(jī)制需要結(jié)合實(shí)際情況判斷。
本文提出了新的諷刺定義并按照該定義構(gòu)造了新的中文諷刺語料庫IROLIT 2024,為未來的中文諷刺語料庫構(gòu)建提出了中文諷刺標(biāo)注改進(jìn)思路。隨后基于新語料庫進(jìn)行了中文諷刺情感規(guī)律的探索,得出了語料庫長(zhǎng)度分布特點(diǎn)及用戶諷刺習(xí)慣隨時(shí)間推移在不斷變化的結(jié)論,為將來如何更符合諷刺發(fā)展規(guī)律地選擇和捕捉中文諷刺特征提供了新的思路和角度。
本文重點(diǎn)分析了深度學(xué)習(xí)技術(shù)融入諷刺識(shí)別任務(wù)的思路,包括CNN、LSTM、注意力機(jī)制等,特別是通過實(shí)驗(yàn)分析證明了基于新定義的語料庫構(gòu)建方法的有效性,并結(jié)合新語料庫驗(yàn)證了注意力機(jī)制的引入進(jìn)一步幫助神經(jīng)網(wǎng)絡(luò)模型捕捉中文諷刺的上下文特征,但也存在梯度問題風(fēng)險(xiǎn)。此發(fā)現(xiàn)不僅為未來自然語言處理研究者提供了新方法,也為相關(guān)具體應(yīng)用提供了風(fēng)險(xiǎn)規(guī)避建議。
展望未來,研究將持續(xù)關(guān)注中文諷刺的語言學(xué)解構(gòu)、中文諷刺相關(guān)規(guī)律探索、注意力機(jī)制優(yōu)化以更好地捕捉中文諷刺特征等方向,以期推動(dòng)自然語言處理技術(shù)進(jìn)一步發(fā)展。