張亞洲,俞 洋,朱少林,陳 銳,戎 璐,梁 輝
(鄭州輕工業(yè)大學軟件學院,河南鄭州 450002)
現(xiàn)代漢語詞典將“諷刺”解釋為“諷刺是一種修辭策略,通過夸張、比喻等手法對人或事進行揭露、批評或嘲笑”.諷刺表達的字面含義往往與真實意圖截然相反,從而可以完全扭轉作者的情感極性,傳遞出批評或嘲弄的隱含情緒.隨著互聯(lián)網(wǎng)與社交網(wǎng)絡的迅速發(fā)展,越來越多的用戶參與網(wǎng)上聊天、評論互動等,諷刺語言的使用日趨頻繁,在日常對話中扮演著重要的角色.例如,“你看這位大哥面相如何?”,“我覺得他長得真有創(chuàng)意,太抽象了”.
識別文本中的諷刺情感在許多領域都有廣泛的應用,例如幫助企業(yè)預測消費者對其產(chǎn)品的態(tài)度,根據(jù)用戶偏好進行個性化推薦,或幫助政府機關了解民眾的輿論態(tài)勢等[1].因此,學術界與工業(yè)界對識別文本中的諷刺產(chǎn)生了濃厚的興趣[2,3].一般而言,諷刺識別是指利用自然語言處理技術、統(tǒng)計知識、機器或深度學習等,對語句、文檔、對話等不同粒度的文本的諷刺極性進行鑒別.諷刺識別也屬于情感分類的子任務.傳統(tǒng)的諷刺識別方法主要集中在敘述式文本,例如產(chǎn)品評論,微博等,沒有涉及到用戶之間的互動對話.
對話諷刺識別正在成為該領域一個嶄新且更具挑戰(zhàn)性的研究課題,主要是因為:(1)互動對話中,每位談話者并不獨立,而是持續(xù)受到其他談話者的影響,導致其諷刺情緒前后發(fā)生變化;(2)談話者間的交互,默認隱藏了許多信息,例如他們的性別、周圍環(huán)境、文化背景等[4,5].目前的對話諷刺識別方法主要探討上下文作用或學習上下文依賴,難以考慮自然語言固有的不確定性.
量子的必要性解釋在語言哲學范疇上,根據(jù)已有的研究成果[6,7],自然語言固有的不確定性是指人類情感活動的自發(fā)性,不經(jīng)過任何先前的知覺,而由身體的組織、精力或由對象接觸外部感官而發(fā)生于自身的原始感官印象,即主觀情感無需經(jīng)過任何理性推理過程而自動生成,且情感活動的變化無需任何符合理性邏輯的理由.即使已經(jīng)收集了全部先驗知識,也可能無法提前預知人類的情感起伏.例1:小明發(fā)現(xiàn)他的手機壞了,小明可能會感到難過,生氣,也可能感到高興.如果小明生性節(jié)儉,那么小明會自然感到傷心;如果小明正好想換一部新手機,那么小明會有一種找到借口的高興.因此,情感規(guī)律具備這樣的內(nèi)在不確定性.反映到書面語言(文本)上,指的是情感表達的不完備性與上下文性,使得其無法孤立地表達確切的情感[7].已有的方法都是建立自經(jīng)典概率和經(jīng)典邏輯基礎上,認為任何時刻(即使在決策判斷之前),建模對象的狀態(tài)也是確定的.然而一旦面對情感活動的不可確定性時,經(jīng)典概率有時很難發(fā)揮作用.國內(nèi)外的科學家們已經(jīng)證實人類的情感與決策并不總是遵循經(jīng)典概率,譬如琳達問題[8],次序選擇(即人們對先聽好消息后聽壞消息與先聽壞消息后聽好消息兩種順序有不同的情感態(tài)度)[9]等.
量子概率(Quantum Probability,QP)作為量子物理中建模不確定粒子行為的數(shù)學框架,已被用于描述人工智能中各種自然語言處理任務[10~13].作為量子力學背后的抽象數(shù)學與統(tǒng)計解釋,量子概率不應只被用于描述微觀物理世界的規(guī)律,而同樣可以脫離原始的物理背景,作為一種數(shù)學框架應用于信息科學等宏觀領域.注意,這種應用并不是把宏觀系統(tǒng)還原為微觀粒子的量子效應,而是將它看作是一個整體系統(tǒng).鑒于基于量子理論的對話諷刺識別研究幾近空白,本文計劃將量子幾何的哲學思想與數(shù)學主義應用于對話諷刺識別領域,從量子視角重新探討情感表達與演化的本質屬性,構建量子啟發(fā)的對話諷刺識別網(wǎng)絡模型,為自然語言處理與人工智能領域提供一種新思路.
本文提出一種量子概率啟發(fā)式對話諷刺識別網(wǎng)絡(Quantum Probability Inspired Network,QPIN).具體而言,QPIN 包含一個復值話語嵌入層,一個量子復合層,一個量子測量層以及一個全連接層.首先,本文將對話中每句話語視作是一組單詞的類量子疊加,表示為復值向量.其次,我們將相鄰話語之間的上下文交互建模為量子系統(tǒng)與其周圍環(huán)境的交互,構成一個量子復合系統(tǒng),由密度矩陣表示.再次,鑒于量子系統(tǒng)的信息與性質可以由量子測量結果的概率分布描述,我們對每句話語進行量子測量,進一步提取諷刺特征,將其輸入到全連接層和softmax函數(shù)獲得諷刺識別結果.
本文在MUStARD 與2020 Sarcasm Detection Reddit Track兩個基準數(shù)據(jù)集上進行實驗評價,以驗證QPIN模型的有效性.通過與眾多前沿模型的比較,例如卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN),雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,BiGRU),多頭注意力長短期記憶網(wǎng)絡(Multi-Head Attention
based Bidirectional Long Short Term Memory,MHABiLSTM),上下文LSTM(Contextual Long Short Term Memory,C-LSTM),雙向自注意力變換網(wǎng)絡(Bidirectional Encoder Representations from Transformers,BERT),上下文交互網(wǎng)絡(Contextual Network,C-Net)以及多任務學習框架(Multi-Task Learning,MTL),表明本文的方法在F1與Acc指標上取得更高的分類結果.
本文的主要創(chuàng)新貢獻有以下幾點.(1)首次利用量子概率,提出面向對話諷刺識別的量子概率啟發(fā)式網(wǎng)絡.它能夠自然地將量子理論引入到宏觀人工智能領域,是一套從文本表征到上下文交互再到特征識別的端到端式理論結構,探索量子理論的潛力.(2)引入復數(shù)概率幅,提出一種復值話語表示方法.該方法將文本話語表征為指數(shù)形式的復值向量,將振幅與語義知識聯(lián)系起來,將隱藏的相位角與情感知識聯(lián)系起來,既能夠同時捕捉語義與情感,也能夠借助復數(shù)概率幅描述不確定性.(3)提出一種建模話語上下文性的量子復合表示方法.量子復合將能夠以“全局到局部”方式建模上下文交互.
量子概率理論是由馮·諾依曼發(fā)展建立的一種基于線性代數(shù)的一般化概率理論,目的是解釋量子理論的數(shù)學基礎[14,15].量子概率理論是量子力學背后的抽象數(shù)學與統(tǒng)計解釋,它更關心的是符號之間抽象的關系與結構,而非符號對應的實物(例如物理量).因此,量子概率并不是只能描述微觀粒子,同樣可以脫離于原始物理背景,而去描述宏觀系統(tǒng)中的類量子現(xiàn)象,例如人類決策判斷、次序效應、認知干涉、不確定性等.
在量子概率中,量子概率空間封裝于復數(shù)希爾伯特空間H.希爾伯特空間是歐式空間的直接推廣,是一個無限維的內(nèi)積空間,被廣泛應用于數(shù)學分析與量子力學中.量子概率中,假設一個量子狀態(tài)向量u=(u1u2…un)T∈H,記作左矢|u>.它的轉置向量,記作右矢<u|.兩個狀態(tài)向量|u>和|v>的外積構成一個矩陣,記作|u><v|.對于狀態(tài)向量|u>,在u方向上的投影算符可以寫作Π=|u><u|,代表量子概率空間的基本事件.
量子疊加是指一個量子系統(tǒng)可以同時處于多個互斥基態(tài)的疊加態(tài),直到它被測量.測量之后,該系統(tǒng)從疊加態(tài)塌縮到其中一個基態(tài)上.假設{|w1>|w2>…|wn>}構成量子概率空間上的一組正交基,那么|u>=,其中zj是復數(shù)權值.
量子概率中,量子態(tài)可以處于純態(tài),也可以處于混合態(tài).純態(tài)對應于希爾伯特空間中的狀態(tài)向量|u>,而混合態(tài)是由幾種純態(tài)依照概率組成的量子態(tài),由密度矩陣ρ表示.假設量子系統(tǒng)處于純態(tài)|u1>|u2>…|un>的混合中,對應的密度矩陣定義為其中pj代表每個純態(tài)的經(jīng)典概率,全部概率的總和為1.密度矩陣是經(jīng)典理論中位置和狀態(tài)概率分布的量子擴展,將量子態(tài)與經(jīng)典不確定性容納進同一體系下,描述了系統(tǒng)全部信息與性質.
本文提出的QPIN 模型,如圖1 所示.QPIN 模型包含一個復值嵌入層、一個量子復合層、一個量子測量層以及一個全連接層.
圖1 類量子交互網(wǎng)絡結構示意圖.?表示張量積,?表示向量外積操作,⊙表示逐位相乘,⊕表示矩陣相加,表示量子測量操作
受李秋池的工作啟發(fā)[11],本文采用復值嵌入表示方法.鑒于單詞是組成人類語言的基本單元,本文將對話中的每個單詞w視作一個基態(tài)|w>,假設{|w1>|w2>…|wn>}構成對話希爾伯特空間Hdig的正交基向量.本文采用獨熱編碼(one-hot encoding)去表示每一個單詞基向量例如第j個基向量
為了捕捉諷刺話語中的不確定性,本文將每句話語視作是一組單詞基向量{|w1>|w2>…|wn>}的量子疊加.那么目標話語ut可以表示為:
其中,zj是第j個單詞的復數(shù)概率幅,滿足.i稱為虛數(shù)單位,r是概率幅的振幅,θ是相位角.本文賦予振幅與相位具體的含義,將振幅與語義信息關聯(lián),將相位角置為情感傾向程度,從而同時建模了語義與情感信息.
在量子概率中,理想的量子測量描述了被測系統(tǒng),測量裝置以及周圍環(huán)境(例如臨近系統(tǒng))的完全交互.但是,在實際測量中,我們認為測量裝置與周圍環(huán)境并不會同等地參與被測系統(tǒng)的交互,即它們的參與程度不是相等的,例如距離遠的系統(tǒng)與距離近的系統(tǒng)對被測系統(tǒng)的影響是不同的.這種交互類似于對話中不同話語之間的交互.不同的上下文話語表達著不同強度的人際交互.
本文將目標話語|ut>視作被測系統(tǒng),將其上下文{|c1>|c2>…|cλ>…|ck>}視作周圍環(huán)境.兩者的交互構成一個量子復合系統(tǒng),例如目標話語|ut>與第λ個上下文話語|cλ>之間的交互構成了一個量子復合系統(tǒng).考慮到所有上下文的影響,本文建模每一個上下文與目標語句的交互,構造出k個不同的復合系統(tǒng).其中,第λ個復合系統(tǒng)形式化為:
其中,p(λ)是第λ個復合系統(tǒng)的交互概率,衡量第λ個上下文話語的交互程度,我們在模型訓練過程中自動更新它的值.
根據(jù)式(3),目標話語已經(jīng)由密度矩陣ρt表示.本文使用密度矩陣表示的原因是:密度矩陣能夠統(tǒng)一目標話語的全部信息與性質,例如語義知識,情感信息,上下文交互,概率分布信息等.
其中,tr是跡操作,γ∈[1,2,…,G].fγ是特征向量ft的第γ個特征分量,得到ft=(f1f2…fγ…fG).
本文同樣設計一個卷積層針對密度矩陣提取特征.目的是調查量子測量與卷積層的特征提取效率對比,旨在理解量子測量對宏觀信息提取的潛力,如圖2所示.
圖2 卷積層對話語密度矩陣提取特征框架
本文嘗試了不同的卷積核,并根據(jù)最優(yōu)實驗結果,設置了4個卷積核,卷積核大小分別是{1,2,3,4}×d,對目標話語的密度矩陣進行卷積操作,對卷積后的特征最大池化,將池化后的信息連接到一起構成諷刺特征ft=(f1f2…fG).
其中,N是訓練集樣本量表示真值標簽表示預測標簽,t是話語索引,?是類別索引,μ‖φ‖2是正則項.本文使用反向傳播算法訓練網(wǎng)絡模型并更新參數(shù).為了避免訓練過程中出現(xiàn)過擬合現(xiàn)象,本文使用隨機剪枝策略.
介紹量子概率啟發(fā)式對話諷刺識別網(wǎng)絡(下面簡寫為QPIN)之后,本文詳細闡述并討論其與現(xiàn)有深度神經(jīng)網(wǎng)絡方法的區(qū)別與相似.
相似之處從模型構建角度分析,QPIN 與深度神經(jīng)網(wǎng)絡,譬如卷積神經(jīng)網(wǎng)絡、全連接神經(jīng)網(wǎng)絡及長短期記憶網(wǎng)絡等類似,仍然采用深度學習與逐層訓練的思路,包含了輸入層、隱藏層、輸出層等基本組件,通過深度多層抽象,逐漸將初始的“低層”特征表示轉化為“高層”特征表示.整個訓練是一個端到端式監(jiān)督學習與擬合過程.
區(qū)別之處從模型構建角度分析,QPIN 與已有的神經(jīng)網(wǎng)絡存在五點不同:(1)整體架構不同,QPIN 是量子概率驅動的架構,由量子理論中的核心組件自下而上搭建而成,具備量子概率的數(shù)學支撐,每一個組件都有物理解釋,不是作為“黑盒子”使用;(2)輸入層不同,首次將復數(shù)帶入到諷刺識別任務中,將每句話表征為復值表示,不再是實數(shù)向量;(3)隱藏層不同,QPIN采用量子符合與混合態(tài)構建隱藏層.目標話語與上下文的交互,被視作是k個復合系統(tǒng)上的量子混合態(tài),表示為密度矩陣;(4)特征提取方式不同,已有方法通常直接采用全連接層提取特征和降維,而QPIN 以一種測量的視角,采用G個測量算符對目標話語的密度矩陣表示進行量子測量,提取最終特征.從研究目標分析,QPIN 作為量子諷刺識別領域的有效嘗試,旨在推動量子人工智能與量子信息處理的發(fā)展.
本文采用MUStARD[16]和2020 Sarcasm Detection Reddit Track[17]兩個基準數(shù)據(jù)集進行實驗.MUStARD 數(shù)據(jù)集收集自“生活大爆炸”、“老友記”等情景喜劇,共包含690 個視頻對話.每個對話記錄了目標話語以及對話上下文話語,其中目標話語被標注為“諷刺”或“非諷刺”.
2020 SarcasmDetection Reddit Track(下面簡寫為Reddit)收集自Reddit 論壇,僅包含文本模態(tài).它共有3 100個諷刺博文,3 100個非諷刺博文以及18 618個上下文博文.實驗數(shù)據(jù)統(tǒng)計如表1所示.
表1 實驗數(shù)據(jù)統(tǒng)計
本文采用精確率(Precision,P)、召回率(Recall,R)、微觀F1(Micro-F1,Mi-F)及準確率(Accuracy,Acc)作為性能評估指標,詳細參數(shù)設置如表2所示.
表2 參數(shù)設置
為了評估QPIN 的有效性與實際性能,本文對比了一系列前沿基線模型.它們分別是:
(1)CNN[18]:它包含兩個卷積層,一個全連接層.它采用預訓練的GloVe詞向量對話語文本執(zhí)行諷刺分類.
(2)BiGRU:它采用一個雙向的門控循環(huán)網(wǎng)絡去學習目標話語的隱藏狀態(tài),輸入到softmax 函數(shù)執(zhí)行諷刺識別.它考慮了單詞的歷史和未來的上下文信息.
(3)MHA-BiLSTM[19]:它使用自然語言處理領域內(nèi)熱門的多頭注意力機制,并與雙向LSTM 融合去抽取目標話語中更突出的特征,學習更優(yōu)的話語表示.
(4)C-LSTM[4]:它首先利用CNN 去提取話語特征,然后將歷史話語特征與目標話語特征拼接,輸入到LSTM中執(zhí)行諷刺識別.
(5)SVM+BERT[16]:它首先利用BERT 得到目標話語的向量表示,然后輸進SVM 分類器執(zhí)行諷刺分類.本文將SVM的核函數(shù)設置為“高斯核”.此外,本文也將上下文特征與目標話語特征拼接,以考慮上下文的影響.
(6)C-Net:它利用目標話語的標簽去標注上下文話語,然后利用目標話語與上下文訓練BERT,學習話語上下文表示.
(7)MTL:它是最前沿的多模態(tài)多任務學習框架,首先提出段內(nèi)與段外兩種注意力機制去學習段內(nèi)與段外信息,拼接這兩種信息得到話語表示.其次,利用情感知識幫助提升諷刺識別的性能.為了公平比較,本文只用文本與圖像模態(tài)的結果.
(8)QMSA[12]:為了驗證本文提出QPIN 的有效性,本文對比了其他量子啟發(fā)的多模態(tài)情感分類模型.與QPIN 不同,QMSA 采用的是實數(shù)BERT向量構建每一句文本與圖像文檔的密度矩陣,并不考慮對話上下文,最后將密度矩陣輸入到SVM分類器中執(zhí)行諷刺分類.
(9)QSR[10]:它是一個基于量子理論的文本情感分類模型,利用量子語言模型與word2vec 將其表征為量子疊加態(tài),利用最大似然估計訓練為密度矩陣,輸入到隨機森林分類器中執(zhí)行分類.
(10)QMN[4]:QMN 使用密度矩陣去表征文本與圖像特征,通過LSTM 提取上下文特征后,采用量子干涉對文本與圖像特征進行融合.
此外,本文也設計了QPIN 的三種變體,分別是QPIN-QM,QPIN-CNN和QPIN-QM-CNN.其中,QPINQM 只使用量子測量層提取特征,QPIN-CNN 只使用卷積層提取特征,而QPIN-QM-CNN 將量子測量與卷積層提取的特征拼接到一起,組成的新特征輸入到全連接層執(zhí)行分類.
各個模型在MUStARD 數(shù)據(jù)集上的實驗結果如表3所示.MUStARD 數(shù)據(jù)集采集自情景喜劇,對話中邏輯跳躍性強,由于是演繹性樣本,臺詞隱喻性、刻意性強,比較考驗模型的上下文理解與文本表征能力.因此,在該數(shù)據(jù)集上模型的上下文建模與語義捕捉能力影響其性能.BiGRU、MHA-BiLSTM、C-LSTM、SVM+BERT、CNet、MTL 以及QPIN 模型全部優(yōu)于CNN.原因是它們均考慮到了上下文信息,表明在對話諷刺識別中上下文的重要性.BiGRU、MHA-BiLSTM 與C-LSTM 三個RNN變體模型中性能處于同一水平,BiGRU 獲得最高F1 結果,而C-LSTM 獲得最高準確率.相比于這三種模型,SVM+BERT 在微觀F1 指標上表現(xiàn)更好,這依賴于預訓練BERT能夠提供更優(yōu)良的話語表示.SVM+BERT顯著地超越CNN,在F1 與Acc 指標上分別提升13.3%與9.7%.這展示了預訓練語言模型的特征抽象能力.此外,BERT 作為預訓練模型,已經(jīng)在龐大的數(shù)據(jù)集上訓練完成.但是BERT 計算量過于龐大且參數(shù)量遠高于CNN.相比于BiGRU、MHA-BiLSTM 與C-LSTM,SVM+BERT 在F1 指標上獲得顯著改進,分別提升了3.7%、5.4%與4.4%.但是在Acc指標上沒有顯著改進,甚至落后于MHA-BiLSTM 與C-LSTM.原因可能是MUStARD數(shù)據(jù)集數(shù)量很少,且角色話語分布極度不平衡,導致MHA-BiLSTM 與C-LSTM 獲得很低的F1分值,卻擁有較高的Acc 分值.LSTM 的優(yōu)勢在于建模短文本上下文,一定程度上緩解了梯度消失的缺點.對于這種不平衡數(shù)據(jù)集,機器學習領域通用做法是更加注重F1 指標上的表現(xiàn).SVM+BERT(+上下文)通過將上下文特征與目標話語拼接,提升了微弱的性能.
表3 各個模型在MUStARD數(shù)據(jù)集上的實驗結果
作為最新的對話諷刺識別模型之一,C-Net 通過建模談話者間的依賴信息,超越SVM+BERT 而獲得不錯的結果.在眾多基線模型中,MTL 取得最優(yōu)實驗結果.相比于C-Net,MTL 分別在F1 與準確率方面提升了1.8%和1.7%.原因在于MTL 既考慮到上下文信息,也利用了情感知識對諷刺識別的幫助.QMSA作為經(jīng)典的量子啟發(fā)的多模態(tài)情感分類模型,其性能表現(xiàn)不佳.原因是QMSA 是淺層模型,僅僅利用定義構建密度矩陣,也并不考慮對話上下文,限制了文檔的表征能力.QMSA 不是端到端模型結構,密度矩陣自定義之后不會根據(jù)訓練集而自適應學習.通過與QPIN-QM 的結構對比,QPIN-QM 在文檔表示上引入了復值,包含了BERT實數(shù)部分與虛數(shù)部分,該表示相比于QMSA加入新的補充知識,即相位角.此外,引入了上下文復合表示與密度矩陣的可學習設置,使得能夠根據(jù)上下文不同,自適應學習話語密度矩陣.這兩個組件對QPIN 模型性能的提升貢獻度最大,也是QPIN-QM 顯著超越QMSA 模型的主要原因,體現(xiàn)了QPIN 的先進性與創(chuàng)新性.QSR 性能結果相比于QMSA更差,原因是其既不考慮多模態(tài)信息,不涉及多模態(tài)表示,也不考慮對話上下文交互,嚴重限制QSR 模型分類能力.QMN 作為目前量子對話情感分類領域中最前沿的方法之一,性能結果非常良好,超越了C-Net,僅次于MTL,證明了量子對話情感分類方法的潛力.
相比于MUStARD,Reddit 數(shù)據(jù)集不僅樣本量更大,每條話語也更長,且僅包含文本模態(tài).但是Reddit數(shù)據(jù)集是論壇回復性樣本,上下文的時效性較長,交互性較差.同時,每條話語都是長文本,對于捕捉關鍵信息,譬如表達諷刺的單詞或短語,更加困難.長文本內(nèi)單詞間的上下文性也需要考慮在內(nèi).因此從樣本角度,Reddit 數(shù)據(jù)集更加考驗模型的語義、情感表征能力.各個模型在Reddit 數(shù)據(jù)集上的實驗結果如表4 所示.CNN、BiGRU、C-LSTM 性能最差,而MHA-BiLSTM 表現(xiàn)相對較好.因為Reddit 數(shù)據(jù)集中上下文話語篇幅較長,上下文建模更為困難,使得拼接上下文話語特征入LSTM 效果不明顯.SVM+BERT 顯著地超越CNN、BiGRU、C-LSTM,在F1 與Acc 分值上分別提升了1.4%、2.7%,6.3%、6.3%,4.5%、4.1%.這表明在數(shù)據(jù)量更大、數(shù)據(jù)分布平衡的數(shù)據(jù)集上,BERT 憑借預訓練模型顯露出明顯的優(yōu)勢.類似地,SVM+BERT(+上下文)憑借BERT 的特征學習能力,超越了傳統(tǒng)的神經(jīng)網(wǎng)絡結構,原因是LSTM 抽取特征的能力遠弱于Transformer.
表4 各個模型在Reddit數(shù)據(jù)集上的實驗結果
C-Net 與MTL 作為最前沿的對話諷刺識別框架在各項指標上勝過其他基線模型,且兩者獲得近乎相等的識別結果.原因是兩者均是基于預訓練語言模型設計文本表征方法,如BERT和ALBERT,均可以建模長文本內(nèi)部的單詞上下文以及利用多頭注意力機制捕捉長文本中的關鍵信息.而作為量子啟發(fā)的多模態(tài)情感分析模型QMSA 表現(xiàn)非常差,其準確率位列最后一位.QMSA 模型的兩大核心組件分別是密度矩陣與多模態(tài)干涉特征融合.鑒于Reddit數(shù)據(jù)集只包含文本數(shù)據(jù),并不涉及多模態(tài)交互.QMSA中的量子啟發(fā)的決策融合完全失效,只剩下利用量子理論定義文本密度矩陣,且不會隨著訓練過程而改進.初始密度矩陣表征能力有限且固定,這嚴重限制了QMSA 在Reddit 數(shù)據(jù)集上的性能.相比而言,QPIN 的四個核心組件:復值表示、上下文復合表示、端到端式訓練以及量子測量均沒有受到數(shù)據(jù)集的影響.因此QPIN 遠遠超過QMSA 框架,獲得最佳了性能.
本文提出的QPIN-CNN 與QPIN-QM 仍然優(yōu)于CNet 與MTL,取得優(yōu)良的識別結果,F(xiàn)1 分數(shù)分別達到67.5%與68.0%.但是由于本文在Reddit 數(shù)據(jù)集上僅選擇了800 個量子測量算符,遠遠少于在MUStARD 數(shù)據(jù)集中的1 400個測量算符,使得QPIN-QM 提取的特征維度減少,降低了信息承載與描述能力,導致QPIN-CNN與QPIN-QM 相差無幾,處于同一水平.這表明,測量算符的數(shù)目將會直接影響QPIN 的性能.QPIN-QM-CNN以微弱優(yōu)勢超越了QPIN-CNN與QPIN-QM,取得最佳識別性能.原因是在測量算符數(shù)目較少的情況下,結合CNN 以補充提取特征是一種性能補償手段.相比于MTL,QPIN-QM-CNN 分別在F1 與準確率方面提升了2.3%和2.3%.
本文已經(jīng)分別從動機、理論層面詳細描述了量子概率的潛力.為了支撐這一觀點,本節(jié)將從實驗角度出發(fā),通過對比經(jīng)典(貝葉斯)概率與量子概率的實驗結果,驗證量子概率的有效性.對于貝葉斯概率方法,本文將設計與QPIN 相似的網(wǎng)絡結構,以保證兩者公平比較.鑒于貝葉斯概率并無復數(shù)、密度矩陣、量子復合與量子測量等概念,本文首先利用BERT 得到每句話語的語義向量表示,并將每句話語的情感極性作為補充特征與之拼接,成為新特征(該設置對比復值嵌入表示).其次,對目標話語與其上下文的特征進行線性相加,用于捕捉上下文信息(該設置對比量子復合).再次,將上下文特征輸入到樸素貝葉斯分類器中獲得目標話語的預測概率,作為進一步提取的概率特征(該設置對比量子測量層).最后,將這些預測概率輸入到全連接層得到諷刺識別結果.對比結果如表5所示.
表5 量子概率與經(jīng)典概率實驗結果
可以觀察到,在MUStARD 與Reddit 數(shù)據(jù)集上,量子概率啟發(fā)的網(wǎng)絡QPIN 在F1 值與準確率方面均顯著超越經(jīng)典概率方法NB+BERT.該實驗結果支撐了本文的理論論點,表明量子概率從動機、理論與實驗都有較大潛力,可以作為另外一種更加一般化的概率體系去解決自然語言處理難題.
鑒于對話中談話者角色也會影響諷刺極性的判斷,例如情景喜劇“生活大爆炸”中“謝爾頓”這一角色相較于其他角色表達更多的諷刺,本文將談話者的角色信息作為一種補充知識考慮到QPIN 模型內(nèi),分析角色對模型性能的影響.此外,鑒于Reddit數(shù)據(jù)集都是論壇用戶,用戶名各種各樣,并不體現(xiàn)特定諷刺信息,其角色信息并沒有記錄,因此我們只建模MUStARD 數(shù)據(jù)集中的角色信息.我們采用兩種方法引入角色信息以及角色對諷刺的影響:(1)利用BERT 將每個角色名表征為向量,與對應的話語向量拼接成一個新向量,再執(zhí)行后續(xù)的量子復合等操作;(2)受Transformer 模型啟發(fā),將每位角色與諷刺表達的關聯(lián)度作為縮放因子γ,例如“謝爾頓”與諷刺表達的關聯(lián)度較大,那么可以設置γ=1.2,“拉杰什”與諷刺表達關聯(lián)度較低,可以設置γ=0.8.該縮放因子γ與諷刺特征ft=(f1f2…fγ…fG)結合組成新的諷刺特征fnewt=γft.然后,我們將新諷刺特征輸入到全連接層獲得諷刺識別結果.為了尋求最佳性能,我們將每位角色的縮放因子γ隨機初始化,并設置為可訓練.詳細的實驗結果如表6所示.
表6 角色信息實驗結果
可以觀察到,僅僅利用BERT 將每位角色表征為向量的做法并未取得模型性能的提升,與之前的QPINQM 處于同一性能水平,表明這種融入角色信息的方法過于樸素,需要更加詳細深入的角色建模方法.第二種只采用縮放因子的方式以0.66%的微弱優(yōu)勢超過了當前的QPIN-QM,表明了角色引入對模型性能的幫助與必要性.第三種同時利用縮放因子和角色向量的方法并未超越第二種,但是勝過QPIN-QM.這印證了我們之前的解釋,即僅僅將角色名表征為BERT 向量對模型提升并無實質性幫助.綜上,縮放因子的效果仍然有待提升,需要進一步深入研究,這些將留給我們下一步工作.
對話諷刺識別是一項嶄新且具有挑戰(zhàn)性的人工智能任務.本文嘗試了將量子概率與復數(shù)體系引入到經(jīng)典諷刺識別中.基于此,本文提出了一種量子概率啟發(fā)的對話諷刺識別網(wǎng)絡模型,旨在建模人類諷刺語言中固有的不確定性問題.本文在兩個基準數(shù)據(jù)集上進行了大規(guī)模實驗,驗證了本文提出方法的有效性.本文也進行了一系列模型分析,例如量子概率與經(jīng)典概率方法對比分析、參數(shù)分析等,全方面剖析QPIN 模型的優(yōu)缺點,探索了量子概率在諷刺識別任務的潛力.