張亞洲 王夢遙 戎璐 俞洋 趙東明 秦璟
北京大學(xué)學(xué)報(自然科學(xué)版) 第60卷 第1期 2024年1月
Acta Scientiarum Naturalium Universitatis Pekinensis, Vol. 60, No. 1 (Jan. 2024)
10.13209/j.0479-8023.2023.075
國家自然科學(xué)基金青年基金(62006212)、中國博士后科學(xué)基金(2023M733907)、信息物理社會可信服務(wù)計算教育部重點實驗室開放基金(CPSDSC202103)和Project of Strategic Importance Grant of the Hong Kong Polytechnic University (1-ZE2Q)資助
2023–05–17;
2023–07–31
ChatGPT可否充當(dāng)情感專家?——調(diào)查其在情感與隱喻分析的潛力
張亞洲1,2王夢遙1戎璐3俞洋1趙東明4秦璟2,?
1.鄭州輕工業(yè)大學(xué)軟件學(xué)院, 鄭州 450002; 2.香港理工大學(xué)護理學(xué)院, 香港 999077; 3.鄭州輕工業(yè)大學(xué)人事處, 鄭州 450002; 4.中國移動通信集團天津有限公司人工智能實驗室, 天津 3000201; ?通信作者, E-mail: harry.qin@polyu.edu.hk
為了探索 ChatGPT 情感分析能力以及對主觀性和隱喻性理解的潛力, 將 ChatGPT 在 5 個情感、幽默與隱喻基準(zhǔn)數(shù)據(jù)集上展開評估, 通過與領(lǐng)域內(nèi)最前沿的模型對比, 討論其在不同任務(wù)上的優(yōu)勢與局限。此外, 還通過對比 ChatGPT 與人類在情感分析中的性能差別, 發(fā)現(xiàn) ChatGPT 在情感、幽默與隱喻任務(wù)上與人類結(jié)果分別相差 9.52%, 16.64%和 6.69%。實驗結(jié)果表明, 盡管 ChatGPT 在對話生成方面獲得最佳表現(xiàn), 但是其在情感理解方面仍具有改進的潛力。最后, 通過改善提示模板, 調(diào)查 ChatGPT 在情感理解場景下對提示模板的敏感性。
ChatGPT; 情感分析; 幽默檢測; 隱喻識別
情感是人類生命體驗的載體, 用于感知、辨析與理解人類潛在意圖, 驅(qū)動人類的決策與行為。情感理解能力是人與機器的主要區(qū)別之一。鑒于人類語言的主觀性, 人們可以通過語言表達各種情感狀態(tài), 如喜悅、憤怒和幽默等, 也可以通過語言感知他人的情感狀態(tài)[1]。情感分析旨在利用語言規(guī)則、語料庫和自然語言處理技術(shù)等, 幫助機器自動識別和分析人類的情感狀態(tài), 并準(zhǔn)確地做出回應(yīng)。目前主流的范式是借助 Transformer 預(yù)訓(xùn)練語言模型(pre- trained language models, PLMs)優(yōu)良的上下文特征提取能力, 通過微調(diào)或提示捕捉情感線索, 快速完成情感預(yù)測[2]。
隨著預(yù)訓(xùn)練語言模型日趨龐大, 參數(shù)量激增, 語言模型在下游任務(wù)中的性能顯著提升, 自然語言處理領(lǐng)域開始邁入大語言模型時代。例如 GPT-3[3]以及 InstructGPT[4]等大型語言模型(large language models, LLMs)在語言生成、語言理解、文本分類以及語言翻譯等任務(wù)中取得顯著的進步。2022 年11 月, 由 OpenAI 公司發(fā)行的代表性大語言模型ChatGPT 引起學(xué)術(shù)界與工業(yè)界的關(guān)注。ChatGPT 基于 GPT-3.5 大型語言模型, 通過對齊人類的真實意圖, 即采用基于人類反饋的強化學(xué)習(xí)(reinforcement learning from human feedback, RLHF), 在大規(guī)模無標(biāo)注語料庫上完成訓(xùn)練。與傳統(tǒng)的強化學(xué)習(xí)相比, RLHF 利用人類提供的反饋[5]來指導(dǎo)模型進行學(xué)習(xí)(人類通過指導(dǎo)模型的行為來提供即時反饋, 模型可以在學(xué)習(xí)過程中利用這些反饋來調(diào)整自己的行為)。這種方法使得模型學(xué)習(xí)過程更加高效, 同時也提高了學(xué)習(xí)質(zhì)量。ChatGPT 在諸多下游任務(wù)中展露最前沿的能力, 包括對人工輸入的復(fù)雜問題提供高質(zhì)量的答案, 編寫代碼[6], 識別人類情感, 在面臨敏感話題(例如暴力和政治敏感等)時, 拒絕不恰當(dāng)請求, 甚至可以根據(jù)后續(xù)對話自我糾正先前的錯誤, 等等。因此, 與傳統(tǒng)的語言模型相比, ChatGPT擁有顯著的人類語言理解優(yōu)勢, 是實現(xiàn)通用人工智能的主要途徑之一, 已經(jīng)作為智能助手廣泛應(yīng)用于各個行業(yè)。
ChatGPT 在取得巨大成功的同時, 亦引發(fā)研究者更多的思考與疑問。鑒于人類語言固有的主觀性與隱喻性, 對 ChatGPT 情感理解能力的定量分析卻鮮有涉及。首先, 情感表達與理解是一項非常抽象與主觀的任務(wù), 涉及個體差異(同一個情感表達被不同個體解讀為不同情感)、情感多樣性(悲傷夾雜著憤怒)、上下文性(同樣的表達在不同語境下傳達不同的情感)等多種因素, ChatGPT 的情感理解能力因而需要嚴(yán)謹(jǐn)?shù)脑u估。面對更加高級的情感語言表達方式(例如幽默和隱喻等), 人類經(jīng)常通過隱含映射和雙關(guān)語等間接地表達情感, 那么 ChatGPT 如何處理語言的多義性、映射和隱含信息, 是否有潛力作為情感專家也亟需業(yè)界的正確評估。最后, 鑒于 ChatGPT 是根據(jù)人類設(shè)計的提示語生成答案, 調(diào)查ChatGPT 在情感理解場景下對提示模板的敏感性顯得尤為必要。
本文主要關(guān)注 3 個問題: 1) ChatGPT 是否能夠準(zhǔn)確地理解人類情感?與人類判斷情感的差距有多大?2) ChatGPT 是否能夠準(zhǔn)確地理解高級情感表達方式?3)不同的提示策略是否對 ChatGPT 的判定結(jié)果產(chǎn)生影響?
本文在 5 個情感、幽默與隱喻基準(zhǔn)數(shù)據(jù)集上, 對 ChatGPT(2023 年 3 月 23 版)展開評估, 通過與領(lǐng)域內(nèi) 20 個最前沿模型的對比, 討論其在不同任務(wù)中的優(yōu)勢與局限, 對比 ChatGPT 與人類在情感、幽默和隱喻分析方面的性能。此外, 還通過系統(tǒng)性地改變提示策略, 進一步分析提示策略對 ChatGPT 理解人類情感能力的影響。
從谷歌的 T5 到 OpenAI GPT 系列, 大語言模型不斷涌現(xiàn), 例如, GPT-3, PALM[7], Galactica[8]和LLaMA[9]。這些 LLM 以包含千億參數(shù)的模型架構(gòu)為基底, 并在大量數(shù)據(jù)集上進行訓(xùn)練。這種縮放訓(xùn)練策略提高了語言模型對自然語言的理解和生成能力, 即便不更新其參數(shù), 也在很多自然語言處理任務(wù)中帶來顯著的提升。例如, 在問答任務(wù)中, 這些LLM 通過理解問題和文本語境, 給出更加自然、流暢、準(zhǔn)確的回答[10](如 ChatGPT 模型); 在文本分類任務(wù)中, 通過對 LLM 進行微調(diào), 可以獲得比傳統(tǒng)方法更好的準(zhǔn)確率和泛化能力[11](如 BERT 模型); 在機器翻譯任務(wù)中, LLM 可用于語言表示和對齊, 幫助提高翻譯的質(zhì)量和效率(如 Transformer 模型)。
作為基于 GPT-3.5 的對話生成模型, ChatGPT在情感分析任務(wù)中得到廣泛應(yīng)用。例如, 在對話系統(tǒng)中, ChatGPT 可以生成更加自然的情感豐富的回復(fù), 并且可以在情感分析任務(wù)中識別用戶的情感表達。越來越多的研究人員根據(jù)各種基準(zhǔn)進行評估, 探索 ChatGPT 的能力邊界。Zhuo 等[12]對 ChatGPT的可靠性和穩(wěn)定性進行定量分析, Jiao 等[13]對其多語言翻譯能力做了初步探究, Bang 等[14]從多任務(wù)、多語言和多模態(tài)方面評估 ChatGPT 的生成能力。與已有研究不同, 本文的重心是調(diào)查 ChatGPT 在主觀性任務(wù)中的表現(xiàn), 特別是對幽默和隱喻等復(fù)雜情感語言的理解能力。通過一個全面的評估, 判定ChatGPT 是否有潛力作為一個情感專家或助手, 從而促進情感智能方向的研究。
自然語言處理領(lǐng)域一直在追求更加智能化的算法模型, 用來模擬人類對語言的處理方式。本文圍繞測試任務(wù)、實驗數(shù)據(jù)、對比模型、評價標(biāo)準(zhǔn)和實驗結(jié)果等, 對 ChatGPT 在情感分析領(lǐng)域的性能展開全面評估, 探索其在情感分析領(lǐng)域的應(yīng)用潛力。
本文將開展以下 4 項代表性情感分析任務(wù)。
1)主觀性情感分析: 從主觀性文本中自動識別和提取文本表達的情感狀態(tài), 分為積極、消極和中性 3 種。
2)方面級情感分析: 從文本中提取特定方面(如商品價格、服務(wù)質(zhì)量和用餐環(huán)境等)的情感極性, 分為正面、負面和中性 3 種。
3)幽默檢測: 判斷文本中是否包含幽默元素, 將文本分為幽默和非幽默兩類。
4)隱喻識別: 對文本中的隱喻進行識別和解釋, 并判斷句子表達的是褒義還是貶義情感。
本研究選取 5 個廣泛評測的中文情感數(shù)據(jù)集: SMP2020 微博情感分類數(shù)據(jù)集(Usual 和 Virus)、SMP2020 文本幽默檢測數(shù)據(jù)集(Humor)、ASAP 中文評論分析數(shù)據(jù)集和隱喻式數(shù)據(jù)集(Metaphor)。Usual 和 Virus 數(shù)據(jù)集分別包含 6 類情緒, 將愉悅情緒(happy)歸類為積極樣本, 悲傷(sad)和憤怒(angry)情緒合并為消極樣本, 無情緒(neutral)定義為中性樣本。作為文本幽默數(shù)據(jù)集, Humor 包含幽默和非幽默標(biāo)簽, 用于幽默識別任務(wù)中。ASAP 是一個大型的中餐館評論數(shù)據(jù)集, 用于方面類別的情感分析(aspect based sentiment analysis, ABSA)。Metaphor是一個中文隱喻數(shù)據(jù)集, 包含褒義和貶義標(biāo)簽, 用于隱喻識別任務(wù)。實驗樣本分布如表 1 所示。
本實驗將以上 5 個數(shù)據(jù)集分別用于對比評估ChatGPT 和其他 SOTA 模型。本文調(diào)用 ChatGPTAPI進行評測。同時, 本文挑選一系列最前沿的情感分析模型用于情感、幽默和隱喻任務(wù)評測。它們分別是 CMCNN[15], Bi-LSTM+Attention[16], CapsNet-BERT[17], DMM-CNN[18], CBMA[19], ACSA-gene-ration[20], AC-MIMLLN[21], QA-BERT[22], SGCN[23], DSPN[24], XLNet[25], GCN-BERT[26], DeepMet-S[27], MGF[28], BGCN[29], KEG[30], SaGE[31], BSI[32], Transformer[33]和 IASPS[34]。其中, Bi-LSTM+ Attention, CMCNN, CapsNet-BERT, GCN-BERT, DSPN, XLNet 和 DeepMet-S 模型使用 Github 開源代碼實現(xiàn), DMM-CNN, ACSA-generation, CBMA, AC-MIMLLN, BSI 和 Transformer 根據(jù)相關(guān)文獻模型和參數(shù)復(fù)現(xiàn); MGF, BGCN, QA-BERT, IASPS, KEG, SaGE 和 BSI模型直接采用文獻結(jié)果。
本文采用精確率(precision,)、召回率(recall,)、微觀 F1 值(Micro-F1)和準(zhǔn)確率(accuracy, Acc)作為模型的性能評估指標(biāo)。選擇微觀 F1 指標(biāo)的原因是它在計算中考慮了每個類別的數(shù)量。評估指標(biāo)的計算公式如下:
表1 數(shù)據(jù)集統(tǒng)計
其中, TP 代表真陽性, FP 代表假陽性, TN 代表真陰性, FN 代表假陰性。
情感分析任務(wù)的分析結(jié)果如表 2 所示??梢园l(fā)現(xiàn), 在測試集上, ChatGPT 在情感分析任務(wù)中的表現(xiàn)可以媲美甚至超越其他模型。在 Usual 和 Virus數(shù)據(jù)集上, 主觀性情感分析的 Macro-F1 分別為82.16%和 80.20%, 比一些傳統(tǒng)的算法(如 Bi-LSTM +Attenion 以及 DMM-CNN 等)表現(xiàn)更好, 與使用BERT 模型提供詞向量的 CMCNN 語言模型相比, ChatGPT 的 Macro-F1 在 Usual 和 Virus 數(shù)據(jù)集上分別提升 1.37%和 2.16%。但是與 LLM 相比, Chat-GPT 的優(yōu)勢并不明顯, 相較于 MGF 模型, Macro-F1在 Usual 和 Virus 數(shù)據(jù)集上分別落后 1.70%和0.17%。從實驗結(jié)果來看, ChatGPT 在不同數(shù)據(jù)集的情感分析任務(wù)中表現(xiàn)穩(wěn)定。因此, ChatGPT 值得在實際應(yīng)用中進一步探索。
作為更細粒度的情感分析任務(wù), 在進行方面類別情感分析時, 模型需要同時注意文本中的內(nèi)容特征、詞性特征和位置特征, 并同時充分學(xué)習(xí)內(nèi)容詞、方面詞和情感詞之間的聯(lián)系。從表 2 中 ASAP實驗結(jié)果看, ChatGPT 比其他模型(如 QA-BERT 和CapsNet-BERT 等)表現(xiàn)良好, 比端到端方式的遠監(jiān)督金字塔網(wǎng)絡(luò) DSPN 提升 3.57%, 但相比語言模型ACSA-generation 降低了 0.71%, 相比語言模型 AC-MIMLLN 降低 0.44%, 表明 ChatGPT 雖然能夠從長文本中準(zhǔn)確識別方面詞, 有效地捕捉文本中的上下文信息和情感表達, 但不能作為方面情感分析的最優(yōu)模型。
從文本的語言表達層面來說, 人類情感可劃分為顯式情感和隱式情感, 隱式情感包含隱喻型和反諷型。目前, 隱喻沒有被廣泛承認(rèn)的正式定義, 本文將隱式情感理解為: 在字面意義之外的、不包含明顯的情感詞, 但通過隱晦、間接的語言片段表達出主觀情感。例如, “她的樣貌也就只能做個備胎”, 雖然句中并未出現(xiàn)情感詞匯, 但“備胎”卻被隱喻為“替補選項”, 表達說話者的負面情感。在實際情況中, 語言模型對隱喻情感的分析可能更加復(fù)雜, 這是因為隱喻的含義通常依賴語境和個人經(jīng)驗, 存在不同的解釋。因此, 對隱喻句子的情感分析需要考慮上下文、文化背景和作者意圖等因素, 是一項更具挑戰(zhàn)性的任務(wù)。本文采用的隱喻式數(shù)據(jù)集 Meta-phor 的情感示例如表 3 所示。
表2 情感分析任務(wù)實驗結(jié)果(%)
ChatGPT 在隱喻情感分析任務(wù)和幽默任務(wù)中的實驗結(jié)果如表 4 所示??梢园l(fā)現(xiàn), 在更加復(fù)雜的隱喻情感分析任務(wù)中, 與幾個基線模型相比, ChatGPT表現(xiàn)出色, 以 85.71%的 Macro-F1 超越 CCL 中文隱喻情感識別任務(wù)第一名約 1.01%, 比基于 RoBERTa的閱讀理解(reading comprehension)式隱喻識別模型DeepMet-S 提升 1.94%。這是由于 ChatGPT 在大規(guī)模語料集的訓(xùn)練下, 從大量數(shù)據(jù)中學(xué)習(xí)到隱喻的模式和特征。
表3 隱喻式樣本
從表 4 可以看出, ChatGPT 在幽默任務(wù)中的表現(xiàn)相對落后于其他模型, 與基于 BERT 的強化語境與語義信息的幽默識別模型 BSI 相比, ChatGPT 的Macro-F1 落后 7.34%, 與基于不一致、模糊、句法特性的幽默識別模型 IASPS 相比, Macro-F1 落后7.04%。幽默識別任務(wù)涉及對語言上下文和語義的深入理解, 而 ChatGPT 對這些因素的理解不一定是最優(yōu)的。例如, 一些幽默句子中包含的網(wǎng)絡(luò)用語“YYDS”和“No 作 No Die”, ChatGPT 不能識別它們的真正含義。此外, BSI 等語言模型更專注于特定類型的情感分析任務(wù), 并且使用更好的架構(gòu)和技術(shù), 因此在幽默識別任務(wù)中表現(xiàn)更好。ChatGPT 還有很大的發(fā)展空間, 未來可以進一步優(yōu)化模型, 以便適應(yīng)更復(fù)雜的自然語言處理任務(wù)。
通過實驗還發(fā)現(xiàn), 在不改變問題線程的情況下, 隨著測試樣例的增加, ChatGPT 的性能也會相對提高(圖 1)。可以看出, 準(zhǔn)確率和 Macro-F1 隨測試樣例數(shù)同步增長, 表明ChatGPT 在不改變線程的情況下可以有效地學(xué)習(xí)到測試樣例中的有效信息, 通過數(shù)據(jù)的反饋, 不斷改進自身的情感分析能力, 從而不斷優(yōu)化自身模型。
表4 隱喻分析的實驗結(jié)果(%)
圖1 ChatGPT性能指標(biāo)隨測試樣例增加的變化
我們使用 SMP2020 微博情緒分類技術(shù)測評公開的兩個數(shù)據(jù)集 Usual 和 Humor 以及 CCL2018 隱喻數(shù)據(jù)集 Metaphor 進行測試, 同時招募 5 名 18~35 歲不同社會身份(包括學(xué)生、工人、職員和商人等)志愿者, 經(jīng)過語言理解測試后, 對這 3 個數(shù)據(jù)集進行情感、幽默和隱喻標(biāo)注, 經(jīng)過最大投票后獲得最終標(biāo)注結(jié)果。為了調(diào)查 ChatGPT 與人類情感標(biāo)注的時間效率, 統(tǒng)計兩者的分類用時(均為 5 次結(jié)果的平均值)。
如表 5 所示, ChatGPT 與人類評價在情感、幽默和隱喻數(shù)據(jù)集上均取得良好的分類結(jié)果(F1 值均超過 70%)。人類評價結(jié)果的準(zhǔn)確率與 Macro-F1 均超過 90%, 與 ChatGPT 相比, 人類情感專家在Usual, Virus 和 Metaphor 數(shù)據(jù)集上的 F1 值分別提升9.52%, 16.64%和 6.69%。這一結(jié)果表明: 1)情感、幽默與隱喻分析是挑戰(zhàn)性任務(wù); 2)盡管 ChatGPT 在文本生成和代碼生成等任務(wù)中取得令人矚目的進步, 但其情感理解能力與人類仍然存在較大的差距。
表 6 給出幾個 ChatGPT 識別錯誤的案例。識別錯誤的原因包括以下幾個方面。
1)上下文理解能力。ChatGPT 雖然擁有強大的自然語言處理能力, 但它的上下文理解能力比不上人類。情感分析任務(wù)需要結(jié)合上下文來理解句子或文本的情感含義, 人類可以通過背景知識、語境和生活經(jīng)驗, 更好地理解和識別情感, 而 ChatGPT 需要依賴已有的語料庫和模型訓(xùn)練數(shù)據(jù)。
表5 ChatGPT和人類在情感分析任務(wù)上的實驗結(jié)果
表6 錯誤舉例
2)主觀性識別。情感分析是一項主觀性較強的任務(wù), 人類在情感表達和理解方面具有很強的主觀能力。然而, 對 ChatGPT 來說, 情感分析任務(wù)往往需要基于規(guī)則和標(biāo)注的方法進行分類, 這種方法很難完全覆蓋所有情感表達的多樣性和主觀性。
3)跨文化和跨語言差異。情感分析還面臨跨文化和跨語言差異的問題。情感的表達和理解因不同文化和語言環(huán)境而異, 因此需要對不同的文化和語言進行針對性的處理和訓(xùn)練。在處理跨文化和跨語言情感時, ChatGPT 可能存在一定的困難。
4)數(shù)據(jù)不平衡和偏差。情感分析任務(wù)需要大量的標(biāo)注數(shù)據(jù)來訓(xùn)練模型, 但是標(biāo)注數(shù)據(jù)的質(zhì)量和平衡性對模型的性能和準(zhǔn)確度具有決定性的影響。如果數(shù)據(jù)集中的情感類別存在偏差或不平衡, 將導(dǎo)致模型對某些情感的分類能力不足, 從而影響整體性能。
綜上所述, 情感分析任務(wù)具有很強的主觀性和復(fù)雜性, ChatGPT 作為一種自然語言處理技術(shù), 還需要進一步的改進和優(yōu)化, 才能更好地處理這種任務(wù)。
此外, 本研究從大眾點評商家用戶評價中隨機選取 800 條評論, 均分為互不重疊的兩組(A 和 B)。將 A 組輸入 ChatGPT 模型中, 輸出預(yù)測情感結(jié)果, 然后讓 3 位志愿者參考此結(jié)果進行最終標(biāo)注, 判斷該用戶對商品的情感極性。3 位志愿者能夠在 0.3小時完成 A 組 400 條評論的情感標(biāo)注, 其中 6 條評論的情感標(biāo)注錯誤, 準(zhǔn)確率達到 98.50%。B 組不采用任何人工智能輔助工具, 由 3 位志愿者直接標(biāo)注, 經(jīng)過 1.6 小時才完成標(biāo)注, 其中 11 條評論的情感標(biāo)注錯誤, 準(zhǔn)確率為 97.25%。上述結(jié)果表明 ChatGPT已經(jīng)可以直接輔助商家判斷用戶對商品的評價, 幫助商家更好地改進商品質(zhì)量。如果將其應(yīng)用到大規(guī)模客戶滿意度調(diào)研中, ChatGPT 的時效性優(yōu)勢與分析準(zhǔn)確率將會更加凸顯, 可以推動客戶滿意度調(diào)研的智能化建設(shè)。
ChatGPT 是一個基于“無監(jiān)督學(xué)習(xí)”的大語言模型, 對于自然語言處理任務(wù), 特定的任務(wù)提示會觸發(fā) ChatGPT 對文本的不同理解力。受文獻[35–36]啟示, 本文試圖通過 ChatGPT 來生成對情感分析任務(wù)的 3 個提示(圖 2)。實驗中發(fā)現(xiàn), 不同的提示模板在任務(wù)中的表現(xiàn)存在差異, 因此需找出一種提示策略(本文只針對問答類提示和填空類提示), 使得ChatGPT 的判定結(jié)果較優(yōu)。
問答類或填空類提示策略的選擇都有可能對情感分析任務(wù)的判定結(jié)果產(chǎn)生影響。如表 7 所示, 我們設(shè)計兩個提示策略, 對于問答類提示, 本文給出精確的情感極性; 對于填空類提示, 則讓 ChatGPT填上它認(rèn)為的情感, 通過對比 ChatGPT 在兩種提示下情感分析任務(wù)的性能指標(biāo), 判定哪種提示策略對ChatGPT 實現(xiàn)情感分析任務(wù)更友好。
從表 7 可以看出, 問答類提示策略可以更清楚地填補問題的答案(例如情感分析中的積極、消極和中性), 只要提供足夠的上下文信息, ChatGPT 就可能做出更準(zhǔn)確的回答。問答類提示策略通常需要ChatGPT 對問題進行理解, 然后提取相關(guān)信息, 因此 ChatGPT 只需要從問題中獲取足夠的信息, 便可在回答問題時提供最相關(guān)的情感分析結(jié)果, 這種提示方式會使 ChatGPT 更注重文本中的關(guān)鍵信息。對于填空類提示策略, 則要求 ChatGPT 根據(jù)給定的文本和填空部分進行分析, 這種提示方式使 ChatGPT更注重上下文的理解以及對文本的整體情感的分析。在一些情況下, 填空類提示策略可能帶來更加準(zhǔn)確的情感分析結(jié)果, 因為在填空類提示策略下, ChatGPT 會更加關(guān)注文本的整體情感和上下文語境, 而不僅僅是某個特定的單詞或短語。
圖2 ChatGPT生成情感分析提示
表7 提示模板
圖 3 的實驗結(jié)果表明, ChatGPT 使用填空類提示的性能指標(biāo)均優(yōu)于問答類提示??梢钥闯? 填空類提示的 F1 分值比問答類提示提高 5.41%, 表明填空類提示能提高 ChatGPT 對文本的理解力, 而不僅僅是分析文本中某個帶有情感極性的詞語, 更適合將 ChatGPT 用于情感分析任務(wù)中。
本文在 5 個情感、幽默與隱喻基準(zhǔn)數(shù)據(jù)集上, 對 ChatGPT 的情感理解能力展開評估, 通過與領(lǐng)域內(nèi)最前沿模型對比, 驗證 ChatGPT 的優(yōu)勢與局限性。實驗結(jié)果表明, ChatGPT 能夠取得良好的情感識別結(jié)果, 獲得 86.07%的情感識別準(zhǔn)確率。此外, 本文也對比 ChatGPT 與人類在情感分析中的性能, 在情感、幽默和隱喻任務(wù)中的準(zhǔn)確率比人類結(jié)果低 9.52%, 16.64%和 6.69%。因此, 盡管 ChatGPT 在對話生成方面獲得最佳表現(xiàn), 但是其在情感理解方面仍具有改進的潛力。最后, 本文嘗試通過改善提示模板, 表明 ChatGPT 在情感理解場景下對填空提示策略的適應(yīng)性更好。總而言之, 與情感分析模型和人類情感相比, ChatGPT 在性能上尚需要進一步改善, 但是在 80.61%的案例中獲得可接受的結(jié)果, 時間效率明顯提升, 在實時性情感分析場景下, 可以作為情感分析助手, 輔助人類展開情感判斷。
圖3 提示策略的實驗結(jié)果
本文結(jié)果表明, ChatGPT 在理解語言方面表現(xiàn)出色, 但它僅能理解人類語言的表層含義, 對語言背后的深層含義和真正意圖的理解能力仍然有限。因此, ChatGPT 在處理復(fù)雜的語言任務(wù)(例如推理和隱喻理解等)時, 表現(xiàn)不如人類。此外, Chat-GPT 在訓(xùn)練時僅通過海量的文本數(shù)據(jù)來學(xué)習(xí)語言規(guī)律和模式, 而缺乏外部知識和常識的補充。因此, 當(dāng)需要進行跨領(lǐng)域或跨知識庫的任務(wù)時, ChatGPT可能缺乏相關(guān)領(lǐng)域的專業(yè)知識和常識, 導(dǎo)致模型輸出的錯誤或不準(zhǔn)確。
由于算力與成本限制, 本文僅針對大語言模型中最具代表性的 ChatGPT 展開調(diào)查, 忽略了其他已提出的大語言模型, 如 GPT-4, LLaMA 和 BLOOM等。此外, 本文提出 4 種情感測試場景, 忽略了其他類型的情感分析任務(wù)(如諷刺識別和欲望檢測等)。對其他大語言模型展開全面的對比與評估, 對實現(xiàn)通用情感智能尤為必要, 也將是我們未來的研究方向。
[1] Payal M. Unexpected surprise: emotion analysis and aspect based sentiment analysis (ABSA) of user ge-nerated comments to study behavioral intentions of tourists. Tourism Management Perspectives, 2023, 45: 101063
[2] Wang T, Roberts A, Hesslow D, et al. What language model architecture and pretraining objective works best for zero-shot generalization? // International Conference on Machine Learning. Baltimore, 2022: 22964–22984
[3] Tom B, Benjamin M, Nick R, et al. Language models are few-shot learners. Advances in Neural Information Processing Systems, 2020, 33: 1877–1901
[4] Long Ouyang, Jeff W, Xu Jiang, et al. Training lan-guage models to follow instructions with human feed-back. Advances in Neural Information Processing Systems, 2022, 35: 27730–27744
[5] Cao Z, Wong K C, Lin C T. Weak human preference supervision for deep reinforcement learning. IEEE Transactions on Neural Networks and Learning Sys-tems, 2021, 32(12): 5369–5378
[6] Xu F F, Alon U, Neubig G, et al. A systematic eva-luation of large language models of code // Pro-ceedings of the 6th ACM SIGPLAN International Symposium on Machine Programming. New York, 2022: 1–10
[7] Chen T, Allauzen C, Huang Y, et al. Large-scale language model rescoring on long-form data // 2023 IEEE International Conference on Acoustics. Rhodes Island, 2023: 1–5
[8] Taylor R, Kardas M, Cucurull G, et al. Galactica: a large language model for science [EB/OL]. (2022–11–16)[2023–05–30]. https://doi.org/10.48550/arXiv.2211. 09085
[9] Touvron H, Lavril T, Izacard G, et al. LLaMA: open and efficient foundation language models [EB/OL]. (2023–02–27) [2023–05–30]. https://doi.org/10.48550 /arXiv.2302.13971
[10] Wang Zengzhi, Xie Qiming, Ding Zixiang, et al. Is ChatGPT a good sentiment analyzer? A preliminary study [EB/OL]. (2023–04–10) [2023–05–30]. https:// doi.org/10.48550/arXiv.2304.04339
[11] Li Wenchang, Chen Yixing, John P L. Stars are all you need: a distantly supervised pyramid network for document-level end-to-end sentiment analysis [EB/ OL]. (2023–05–02)[2023–05–30]. https://doi.org/10.4 8550/arXiv.2305.01710
[12] Zhuo T Y, Huang Yuyin, Chen Chunyang, et al. Exp-loring AI ethics of ChatGPT: a diagnostic analysis [EB/OL]. (2023–05–29) [2023–05–30]. https://doi.org/ 10.48550/arXiv.2301.12867
[13] Jiao Wenxiang, Wang Wenxuan, Huang J, et al. Is ChatGPT a good translator? A preliminary study [EB/OL]. (2023–03–19) [2023–05–30]. https://doi.org/ 10.48550/arXiv.2301.08745
[14] Bang Yejin, Cahyawijaya S, Lee N, et al. A multitask, multilingual, multimodal evaluation of ChatGPT on reasoning, hallucination, and interactivity [EB/OL]. (2023–02–28)[2023–05–30]. https://doi.org/10.48550/ arXiv.2302.04023
[15] Liu Chang, Wang Jie, Liu Xuemeng, et al. Deep CM-CNN for spectrum sensing in cognitive radio. IEEE Journal on Selected Areas in Communications, 2019, 37(10): 2306–2321
[16] 李衛(wèi)疆, 漆芳. 基于多通道雙向長短期記憶網(wǎng)絡(luò)的情感分析. 中文信息學(xué)報, 2019, 33(12): 119–128
[17] Jiang Q, Chen L, Xu R, et al. A challenge dataset and effective models for aspect-based sentiment analysis // Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). Hong Kong, 2019: 6280–6285
[18] Mao Longbiao, Yan Yan, Xue Jinghao, et al. Deep multi-task multi-label CNN for effective facial attri-bute classification. IEEE Transactions on Affective Computing, 2020, 13(2): 818–828
[19] Wang Bingkun, Shan Donghong, Fan Aiwan, et al. A sentiment classification method of web social media based on multidimensional and multilevel modeling. IEEE Transactions on Industrial Informatics, 2022, 18(2): 1240–1249
[20] Liu Jian, Teng Zhiyang, Cui Leyang, et al. Solving aspect category sentiment analysis as a text generation task // Proceedings of the 2021 Conference on Empi-rical Methods in Natural Language Processing. Punta Cana, 2021: 4406–4416
[21] Li Yuncong, Yang Zhe, Yin Cunxiang, et al. A joint model for aspect-category sentiment analysis with shared sentiment prediction layer // China National Conference on Chinese Computational Linguistics. Hainan, 2020: 388–400
[22] Jia S, Cao J. The method for plausibility evaluation of knowledge triple based on QA // China Conference on Knowledge Graph and Semantic Computing. Singa-pore, 2022: 228–235
[23] 方澄, 李貝, 韓萍, 等. 基于語法依存圖的中文微博細粒度情感分類. 計算機應(yīng)用, 2023, 43(4): 1056–1061
[24] Amoroso F. Adaptive A/D converter to suppress CW interference in DSPN spread-spectrum communica-tions. IEEE Transactions on communications, 1983, 31(10): 1117–1123
[25] Yang Z, Dai Z, Yang Y, et al. XLNet: generalized autoregressive pretraining for language understanding. Advances in Neural Information Processing Systems, 2019, 32: 5754–5764
[26] Liu B. GCN-BERT and memory network based multi-label classification for event text of the Chinese government hotline. IEEE Access, 2022, 10: 109267–109276
[27] LeCun Y, Bengio Y, Hinton G. Deep learning. Nature, 2015, 521: 436–444
[28] 楊春霞, 姚思誠, 宋金劍. 一種融合字詞信息的中文情感分析模型. 計算機工程與科學(xué), 45(3): 512–519
[29] 方澄, 李貝, 韓萍. 基于全局特征圖的半監(jiān)督微博文本情感分類. 信號處理, 2021, 37(6): 1066–1074
[30] Khan S, Naseer M, Hayat M, et al. Transformers in vision: a survey. ACM Computing Surveys (CSUR), 2022, 54(10): 1–41
[31] 張聲龍, 劉穎, 馬艷軍. SaGE: 基于句法感知圖 卷積神經(jīng)網(wǎng)絡(luò)和ELECTRA的中文隱喻識別模型// 第二十屆中國計算語言學(xué)大會. 呼和浩特, 2021: 667–677
[32] Deepa M D. Bidirectional encoder representations from transformers (BERT) language model for senti-ment analysis task. Turkish Journal of Computer and Mathematics Education, 2021, 12(7): 1708–1721
[33] Cao H, Wang Y, Chen J, et al. Swin-Unet: Unet-like pure transformer for medical image segmentation // European conference on computer vision. Cham, 2022: 205–218
[34] 趙一鳴, 潘沛, 毛進. 基于任務(wù)知識融合與文本數(shù)據(jù)增強的醫(yī)學(xué)信息查詢意圖強度識別研究. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7(2): 38–47
[35] Brown T, Mann B, Ryder N, et al. Language models are few-shot learners. Advances in Neural Information Processing Systems, 2020, 33: 1877–1901
[36] Wei J, Wang Xuezhi, Schuurmans D, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 2022, 35: 24824–24837
Can ChatGPT Be Served as the Sentiment Expert? An Evaluation of ChatGPT on Sentiment and Metaphor Analysis
ZHANG Yazhou1,2, WANG Mengyao1, RONG Lu3, YU Yang1, ZHAO Dongming4, QIN Jing2,?
1. School of Software Engineering, Zhengzhou University of Light Industry, Zhengzhou 450002; 2. School of Nursing, The Hong Kong Polytechnic University, Hong Kong 999077; 3. Human Resources Office, Zhengzhou University of Light Industry, Zhengzhou 450002; 4. Artificial Intelligence Laboratory, China Mobile Communication Group Tianjin Co, Tianjin 300020; ? Corresponding author, E-mail: harry.qin@polyu.edu.hk
To explore the potential for subjective understanding, the subjectivity and metaphorical nature of ChatGPT, this paper evaluates ChatGPT on five sentiment, humor, and metaphor benchmark datasets and discusses its strengths and limitations on different tasks by comparing it with the most cutting-edge models in the field. In addition, this paper also compares the performance of ChatGPT and humans in sentiment analysis, with gaps of 9.52%, 16.64% and 6.69% in human results on sentiment, humor and metaphor tasks. The results suggest that although ChatGPT achieves the best performance in dialogue generation, it still has potential for improvement in sentiment understanding. Finally, this paper investigates ChatGPT’s sensitivity to cueing templates in an emotion understanding scenario by improving the cueing templates.
ChatGPT; sentiment analysis; humor detection; metaphor recognition