Subjective knowledge dialogue response generation model based on ABSA and dynamic few-shot prompting
Rao Dongning,Zhuang Jietao (School ofComputers,Guangdong UniversityofTechnology,Guangzhou 51ooo6,China)
Abstract:Inthelatest task-oriented dialoguesystem challenges,efectivelyutilizing subjective knowledge(e.g.,personal opinions)iscrucialforaddresingusers’specificneeds.However,duetotheiherentlysubjectivenatureofsuchknowledge, howto efectively integrate and leveragethis information hasbecome a key focus of research.This paper proposeda method called DynSense,aimedataddresing thechallngeof generatingcomprehensiveand generalizedresponsesfrommultiplerelevant subjective user opinions.DynSense firstlyemployedaspect-basedsentiment analysis (ABSA)to parse the aspects and sentiment polarities withinsubjective knowledge snippets,aligning them with theuser’squery.Then,it utilizedanadvanced dialoguemodel thatcombined thedialoguecontext withABSA-enhanced information to generateresponses.AspeciallydesignedDynMatchalgorithm guidedthe model to generate morerelevantresponses bydynamicallselecting high-quality knowledgefragmentsmost similartothecurrentqueryasfew-shot prompts.The experimental resultsdemonstrate thatDynSense exhibits exceptionalabilityincapturing latentsemantic featuresand emotional tendencies,generating precise,comprehensive, andhighlyalignedresponses basedonpastuserreviews.Compared toexisting models,DynSenseshowssignificantimprovements across various evaluation metrics on the SK-TOD benchmark.
Key words:task-oriented dialogue systems;subjectiveknowledge;aspect-based sentiment analysis (ABSA);dynamic fewshot prompts
0引言
經(jīng)典的任務(wù)導(dǎo)向型對話系統(tǒng)主要依賴于事實(shí)性知識(shí),例如文獻(xiàn)[1\~4]中所使用的常見問題(FAQ)數(shù)據(jù)庫。然而,Majumder等人[5]的研究表明,對話建模正在向融入主觀信息的方向轉(zhuǎn)變。這包括個(gè)性化的數(shù)據(jù),如用戶體驗(yàn)、個(gè)人見解及用戶偏好,從而使對話更具情境相關(guān)性和吸引力。通過整合主觀知識(shí),現(xiàn)代對話系統(tǒng)旨在增強(qiáng)其響應(yīng)性和個(gè)性化能力,進(jìn)而提升用戶滿意度及對話整體質(zhì)量。這一轉(zhuǎn)變不僅克服了純事實(shí)性互動(dòng)的局限,還滿足了對更細(xì)膩、更人性化對話不斷增長的需求。
第十一屆對話系統(tǒng)技術(shù)挑戰(zhàn)賽(The11thDialogSystemTechnologyChallenge,DSTC11)作為最新的國際對話系統(tǒng)技術(shù)競賽,發(fā)布了首個(gè)結(jié)合主觀知識(shí)與客觀知識(shí)的任務(wù)導(dǎo)向型對話系統(tǒng)基準(zhǔn)數(shù)據(jù)集——SK-TOD(subjective knowledge-groundedtask-orienteddialogue)[6]。該數(shù)據(jù)集標(biāo)志著對話系統(tǒng)研究領(lǐng)域的一大進(jìn)步,因?yàn)樗状螌⒂脩粼u(píng)論等主觀信息與FAQ等客觀信息融合在一起,用于構(gòu)建更加情境化和人性化的對話系統(tǒng)。圖1展示了一個(gè)SK-TOD的具體實(shí)例,系統(tǒng)需要根據(jù)包含“cozyambiance”在內(nèi)的用戶評(píng)論(主觀知識(shí))以及FAQ(客觀知識(shí)),綜合生成對“environmentandatmosphere”這一詢問(即對話中的最后一個(gè)提問)的回答。藍(lán)色詞“environmentand at-mosphere”是用戶詢問的方面。主觀知識(shí)片段中,紅色詞語表示正面評(píng)價(jià),棕色詞語表示負(fù)面短語(見電子版)。
文獻(xiàn)[7\~11]表明,盡管預(yù)訓(xùn)練對話模型或通過提示工程引導(dǎo)的大規(guī)模語言模型在經(jīng)典對話生成任務(wù)中展現(xiàn)了令人滿意的表現(xiàn),但在SK-TOD基準(zhǔn)測試中,如何有效地引導(dǎo)這些模型從眾多主觀知識(shí)中提煉出相關(guān)要素,并生成能全面反映過往評(píng)價(jià)的綜合性回復(fù),依然是一個(gè)艱巨的挑戰(zhàn)。此外,由于主觀知識(shí)通常包含大量與當(dāng)前詢問無關(guān)的信息,處理這些噪聲成為了一個(gè)需要解決的問題,并且模型生成的回復(fù)在情感準(zhǔn)確性方面與預(yù)期標(biāo)準(zhǔn)之間仍存在差距[12]。這表明,要在保持對話自然流暢的同時(shí),確保回復(fù)的情感契合度,還需要進(jìn)一步的技術(shù)創(chuàng)新和方法探索。
為此,本文提出了一種面向SK-TOD基準(zhǔn)的動(dòng)態(tài)少樣本提示與基于ABSA增強(qiáng)的回復(fù)生成(dynamicfew-shotpromptingandABSA-enhanced response generation,DynSense)方法。首先引入了基于方面的情感分析(ABSA)[13]技術(shù),以精確捕捉知識(shí)片段中不同方面的情感分布,并為后續(xù)生成過程提供更多語義支持。此外,為實(shí)現(xiàn)用戶詢問與相關(guān)知識(shí)片段的方面對齊,本文運(yùn)用相同技術(shù)抽取并構(gòu)建方面項(xiàng),以此引導(dǎo)模型聚焦關(guān)鍵信息,濾除無關(guān)內(nèi)容。隨后,本文提出了基于相似對齊的動(dòng)態(tài)樣本選擇(dynamic sample selection via similarity alignment,Dyn-Match)。該算法通過動(dòng)態(tài)選取與當(dāng)前詢問最為匹配的對話樣本構(gòu)建少樣本提示(few-shotprompts),有效引導(dǎo)模型學(xué)習(xí)合適的回復(fù)風(fēng)格,縮小生成回復(fù)與標(biāo)準(zhǔn)回復(fù)之間的差距。最終,利用先進(jìn)的對話系統(tǒng)模型生成基于對話上下文和經(jīng)ABSA增強(qiáng)的知識(shí)片段的回復(fù)。
本文的貢獻(xiàn)如下:a)通過ABSA捕捉主觀知識(shí)片段的情感傾向和方面信息以進(jìn)行數(shù)據(jù)增強(qiáng);b)提出DynMatch算法用于動(dòng)態(tài)選擇最相似的樣本構(gòu)建少樣本提示;c)系統(tǒng)性評(píng)估了所提方法在預(yù)訓(xùn)練模型和大型語言模型中的有效性,驗(yàn)證了其廣泛的適用性和優(yōu)越性能。
1背景知識(shí)
1.1SK-TOD基準(zhǔn):第十一屆對話系統(tǒng)技術(shù)挑戰(zhàn)賽賽題五
最近,任務(wù)導(dǎo)向型對話研究領(lǐng)域意識(shí)到,使對話系統(tǒng)能夠利用主觀知識(shí)(如用戶評(píng)論或反饋)變得尤為重要。因此,自2013年以來一直為對話研究提供通用測試平臺(tái)的DSTC(對話系統(tǒng)技術(shù)挑戰(zhàn)賽),在其最近舉辦的第十一屆比賽中(DSTC11)將SK-TOD挑戰(zhàn)設(shè)為第五賽道。此次發(fā)布的SK-TOD數(shù)據(jù)集是首個(gè)包含主觀知識(shí)的任務(wù)導(dǎo)向型對話的基準(zhǔn)數(shù)據(jù)集,這種類型的知識(shí)在其他自然語言處理應(yīng)用中也有研究,例如意見挖掘[14]和問答系統(tǒng)[15]
值得關(guān)注的是,經(jīng)典的任務(wù)導(dǎo)向型對話系統(tǒng)幫助用戶完成特定目標(biāo),例如,將用戶輸入轉(zhuǎn)換為語義表示,包括領(lǐng)域、意圖、槽位等,但其受限于領(lǐng)域API或數(shù)據(jù)庫等事實(shí)性知識(shí)。而SK-TOD旨在突破這一限制,通過整合外部的主觀知識(shí),來增強(qiáng)對話系統(tǒng)的響應(yīng)能力。這種方法不僅提升了對話的自然度和信息量,還使得系統(tǒng)能夠更好地理解和適應(yīng)用戶的個(gè)性化需求。然而,這也引入了新的挑戰(zhàn),例如如何有效地篩選和聚合不同來源的主觀信息,確保生成的回復(fù)既準(zhǔn)確又具代表性。此外,面對眾包數(shù)據(jù)的質(zhì)量參差不齊,確保模型生成的回復(fù)在保持信息完整性的同時(shí),還能維持高精度和高召回率,成為了SK-TOD研究中的關(guān)鍵議題。
在競賽中涌現(xiàn)出了許多杰出的想法,例如Ke等人[16]利用模型集成策略來應(yīng)對生成任務(wù)中未見過的實(shí)例。此外,大語言模型在競賽中也有大量的應(yīng)用,比如Jung等人[1]使用大語言模型進(jìn)行主觀知識(shí)數(shù)據(jù)增強(qiáng),Krause等人[17]使用瀑布式提示技術(shù)生成回復(fù)。值得注意的是,大語言模型的生成效果在基于n-gram匹配的評(píng)測指標(biāo)下并未表現(xiàn)出超過預(yù)訓(xùn)練模型的效果,本文也將在后續(xù)篇幅和實(shí)驗(yàn)中討論這個(gè)問題。
1.2基于方面項(xiàng)的情感分析:捕捉用戶傾向的重要工具
鑒于SK-TOD著重于處理主觀知識(shí),準(zhǔn)確分析評(píng)論者的情感傾向顯得尤為關(guān)鍵。情感分析作為一項(xiàng)廣受青睞的技術(shù),在此領(lǐng)域內(nèi)發(fā)揮著重要作用。更進(jìn)一步地,基于方面的情感分析(ABSA)不僅能夠有效地識(shí)別文本中的情感極性,而且還能夠精細(xì)地提取出具體提及的各個(gè)方面。當(dāng)前最為先進(jìn)的技術(shù)之一便是InstructABSA[13],它通過在每個(gè)訓(xùn)練樣本中引入正面、負(fù)面以及中立的例子來進(jìn)行指令優(yōu)化。
在本文中,進(jìn)一步強(qiáng)調(diào)了ABSA在對齊用戶查詢與主觀知識(shí)片段方面的作用,這有助于剔除無關(guān)的知識(shí)要素,從而減少其對生成結(jié)果的潛在影響。此外,更細(xì)粒度的情感分析結(jié)果能夠指導(dǎo)模型生成更具情感概括性的回復(fù)。
1.3提示工程:大模型時(shí)代的新范式
在對話系統(tǒng)中,提示工程(promptengineering)的應(yīng)用日益凸顯其重要性,尤其是在提升人機(jī)交互質(zhì)量和自然度方面。提示工程通過精心設(shè)計(jì)輸入給模型的提示信息,能夠顯著改善模型生成輸出的質(zhì)量與相關(guān)性[18]
本文著重強(qiáng)調(diào)了利用相似對齊策略動(dòng)態(tài)構(gòu)建少樣本提示(few-shotprompts)的方法,旨在增強(qiáng)模型響應(yīng)的一致性,并實(shí)現(xiàn)用戶輸入與系統(tǒng)預(yù)期響應(yīng)模式的有效對齊,從而消除非相關(guān)反饋,提高對話流程的效率與準(zhǔn)確性。
2 問題定義
在SK-TOD中,對話上下文被表示為一個(gè)對話序列 U 令u∈U 為對話中的第 i 個(gè)對話序列,設(shè) Φt 為當(dāng)前時(shí)間步,則 Ut= u1,…,ut 。此外,對于給定的對話,有 n 個(gè)( n∈N) 知識(shí)片段,即 K={k1,…,kn} 。對話系統(tǒng)應(yīng)基于 Ut 以及所有相關(guān)知識(shí)片段 K ,生成一條回復(fù) ,即
3 DynSense
3.1 總體框架
SK-TOD挑戰(zhàn)在通用知識(shí)的基礎(chǔ)上引入了主觀知識(shí),但如何有效引導(dǎo)模型捕捉主觀觀點(diǎn),以賦予對話系統(tǒng)更為精細(xì)的情感感知能力,依然是一項(xiàng)巨大的挑戰(zhàn)。為了解決這一問題,
DynSense提出了一種創(chuàng)新的知識(shí)增強(qiáng)方法,結(jié)合了ABSA技術(shù)與領(lǐng)域知識(shí)庫,能夠有效地為每個(gè)知識(shí)候選項(xiàng)添加情感極性、方面和觀點(diǎn)信息,從而為生成模型提供更加精細(xì)和情感豐富的輸入。在此基礎(chǔ)上,DynSense引入了DynMatch算法,通過示例提示引導(dǎo)模型學(xué)習(xí)如何基于ABSA增強(qiáng)后的主觀知識(shí)和上下文片段生成回復(fù)。DynMatch不僅通過動(dòng)態(tài)選擇與當(dāng)前對話相關(guān)的高質(zhì)量示例,幫助模型更好地理解用戶的情感需求,還能夠引導(dǎo)模型學(xué)習(xí)特定的回復(fù)風(fēng)格,使得生成的回復(fù)更具一致性和個(gè)性化。
如圖2所示,DynSense的整體架構(gòu)包含ABSA知識(shí)增強(qiáng)模塊和回復(fù)生成模塊,這兩個(gè)模塊在流水線中依次運(yùn)行。
在ABSA知識(shí)增強(qiáng)模塊中,系統(tǒng)首先從對話上下文中識(shí)別出相關(guān)實(shí)體,并從無結(jié)構(gòu)的領(lǐng)域知識(shí)庫中收集與對應(yīng)實(shí)體相關(guān)的主觀知識(shí)作為候選知識(shí)。隨后,系統(tǒng)通過方面情感分析技術(shù)(ABSA)為每個(gè)知識(shí)候選項(xiàng)添加相關(guān)的方面條目、觀點(diǎn)條目以及情感極性信息,以便提供更全面的知識(shí)表示。這種基于ABSA的知識(shí)增強(qiáng)有助于更準(zhǔn)確地捕捉用戶的意圖和情感,從而提升模型的表現(xiàn)。
在回復(fù)生成模塊中,系統(tǒng)將對話上下文與ABSA增強(qiáng)后的知識(shí)片段進(jìn)行結(jié)構(gòu)化拼接,構(gòu)造語義豐富的上下文輸入。隨后,系統(tǒng)利用基于相似對齊的示例選擇方法(DynMatch)動(dòng)態(tài)構(gòu)建少量高相關(guān)性的示例提示,以引導(dǎo)生成過程。最后,系統(tǒng)通過BARTGPT-4或LLaMA-3等強(qiáng)大的生成模型生成最終回復(fù),確保輸出內(nèi)容不僅符合用戶的語境需求,還能夠整合相關(guān)的主觀知識(shí)和用戶情感。
3.2 ABSA知識(shí)增強(qiáng)模塊
ABSA知識(shí)增強(qiáng)模塊通過InstructABSA實(shí)現(xiàn),旨在通過指令提示來執(zhí)行ABSA中的方面情感對提?。╝spectsentimentpair extraction,ASPE)任務(wù)。
給定一個(gè)句子 Si=(w1i,…,wni) ,其中 n 是句子中的詞匯數(shù),ASPE的目標(biāo)是識(shí)別并提取句子中的方面項(xiàng)及其對應(yīng)的情感極性。具體來說,對于每個(gè)輸入樣本,通過添加特定任務(wù)指令提示 InstASPE 微調(diào)語言模型。 InstASPE 的結(jié)構(gòu)如下:
InstASPE=Definition+2×PosEx+2×NegEx+2×NeuEx (2)其中:Definition是ASPE任務(wù)描述; PosEx,NegEx 和 NeuEx 分別表示正面例子、負(fù)面例子和中立例子。
因此,基于InstructABSA實(shí)現(xiàn)的ASPE任務(wù)可以描述為
[Ai,SPi]=LMASPE(Si∣InstASPE)
其中 是 Si 中的方面項(xiàng)集合,且 m?n;SPi= (sp1i,…,spmi) 是每個(gè)方面項(xiàng)對應(yīng)的情感極性集合, spki∈{ posi-tive,negative,neutral; LMAPSE 是專門為ASPE任務(wù)訓(xùn)練或微調(diào)的語言模型。
本文進(jìn)一步構(gòu)建了一個(gè)增強(qiáng)知識(shí)庫,通過擴(kuò)展原有知識(shí)片段的方面項(xiàng)和對應(yīng)情感傾向,顯著豐富了其知識(shí)的表現(xiàn)形式。
對于原始知識(shí)片段 ,經(jīng)過InstructABSA的處理后,得到新的知識(shí)片段集合 K'={k1′,…,kn′} ,其中每個(gè)
包含了原知識(shí)片段 ki 擴(kuò)展后的信息。具體而言,每個(gè)擴(kuò)展后的知識(shí)片段
可以表示為
k′i=ki∪{(Aj,SPj)}j=1m
其中 ?j 指的是第 j 組方面情感對,共有 ?m 組。
構(gòu)建增強(qiáng)知識(shí)庫的過程可以描述為
K′=∪i=1n(ki∪{(Aj,SPj)}j=1m)
此外,對于用戶詢問句,本文特別關(guān)注其與知識(shí)片段中方面項(xiàng)的精準(zhǔn)對齊。在提取過程中,采用了與知識(shí)片段處理相似的流程,但僅保留方面項(xiàng)信息,忽略情感極性標(biāo)簽。這樣的雙重用途設(shè)計(jì),使得ABSA增強(qiáng)模塊在知識(shí)提取和情感分析任務(wù)中展現(xiàn)出更高的靈活性與實(shí)用性。實(shí)驗(yàn)顯示用戶查詢和知識(shí)片段中總共包含2277個(gè)方面項(xiàng),涵蓋多種實(shí)體和情感主題。
3.3DynMatch算法
DynMatch算法(算法1)通過從候選集中動(dòng)態(tài)選擇與當(dāng)前用戶詢問最相似的 n 組對話,并利用這些對話中的知識(shí)片段和參考回復(fù)來構(gòu)建少樣本提示(few-shotprompt)。
算法1DynMatch算法
輸入:候選對話樣本集合CS,其中上下文的最后一句被稱為查詢;所有知識(shí)片段的集合 KB ;當(dāng)前用戶詢問句 q ;需要選取的最相似案例數(shù) n
輸出 knmm{Ω,rn}{ :
選取的最相似案例及其對應(yīng)的知識(shí)片段和參考回復(fù)
1將 q 編碼為 eq ,并將每個(gè)查詢 q′∈CS 編碼為 eq′
2將所有 eq′ 保存到向量數(shù)據(jù)庫中
3使用Faiss找到與 eq 最相似的前 n 個(gè)查詢句 q1* *,q2*,…,qn*
4初始化 s 為空列表
5for i=1 到 n do
6 獲取 qi* 對應(yīng)的所有知識(shí)片段 {ki1,ki2,…,kimi} 和參考回復(fù) ri
7 將 添加到 s 中
8 end for
9 return
DynMatch算法首先從SK-TOD數(shù)據(jù)集的訓(xùn)練集構(gòu)造一個(gè)少量示例候選集(CS),隨后,它將 中所有用戶詢問句進(jìn)行編碼,得到對應(yīng)的嵌入表示并構(gòu)建向量數(shù)據(jù)庫(第1、2行)。對于當(dāng)前用戶的詢問,通過查詢向量數(shù)據(jù)庫,找到最相似的前n 個(gè)查詢 q1* …,qn* 。最后,遍歷這 Ωn 個(gè)最相似的詢問案例,獲取每個(gè)案例對應(yīng)的所有知識(shí)片段及參考回復(fù),形成最終結(jié)果集s (第3\~9行)。
根據(jù)文獻(xiàn)[19],相似度得分定義如式(6)所示,即給定兩個(gè) d 維向量 X 和 Y ,使用Faiss中的IndexFlatL2計(jì)算得到相似度分?jǐn)?shù)并獲取索引信息。
3.4基于DynMatch及ABSA增強(qiáng)的回復(fù)生成模塊
通過將實(shí)體-方面-情感作為知識(shí)的一部分(即ABSA增強(qiáng)后的知識(shí)),同時(shí),多個(gè)相似案例在提示模板中的示例部分得以層次化構(gòu)建,從而引導(dǎo)模型學(xué)習(xí)生成具有針對性的輸出模式。
如圖3所示,基于當(dāng)前對話上下文和知識(shí)片段,根據(jù)Dyn-Match算法動(dòng)態(tài)獲取與其最相似的 n 個(gè)案例之后,DynSense構(gòu)建了一個(gè)結(jié)構(gòu)化的提示promptDynSense:
FormatCurCase(q,K′)
其中:Definition是任務(wù)描述;FormatCase和FormatCurCase是格式化函數(shù),分別用于將相似案例和當(dāng)前用戶案例整合成結(jié)構(gòu)化文本,兩者不同之處在于后者的回復(fù)由模型生成。
之后,模型接收 promptDynSense 并生成對當(dāng)前用戶查詢的回復(fù):
其中 ?f 是生成模型; θ 是模型參數(shù): 是模型輸出文本。
為使生成的回復(fù) 盡可能接近真實(shí)的目標(biāo)回復(fù) r ,本文使用交叉熵?fù)p失(cross-entropyloss)來優(yōu)化模型參數(shù) θ
其中: T 是回復(fù)的長度(即目標(biāo)回復(fù)的詞數(shù)); yt 是目標(biāo)回復(fù) r 中第 Φt 個(gè)詞的真實(shí)分布; 是生成模型 fθ 在第 Φt 個(gè)時(shí)間步上生成的詞的概率分布。
4 實(shí)驗(yàn)與分析
4.1數(shù)據(jù)集策略
本文使用的數(shù)據(jù)集來自于DSTC11track5賽事數(shù)據(jù)集SK-TOD,該數(shù)據(jù)集是MultiWOZ2.1的增強(qiáng)版本,該版本數(shù)據(jù)集引入了一個(gè)額外的主觀知識(shí)庫(reviews/faqs),是目前唯一一個(gè)面向主觀知識(shí)融入的多領(lǐng)域任務(wù)型對話基準(zhǔn)數(shù)據(jù)集。
此外,對于DynMatch算法,本文將訓(xùn)練集劃分為兩個(gè)子集:一個(gè)較大的子集用于訓(xùn)練,另外一個(gè)較小的子集用于選擇少樣本示例。這兩個(gè)子集在知識(shí)片段標(biāo)簽數(shù)量方面具有相同的分布。具體數(shù)據(jù)分布可見表1、2。
4.2 實(shí)驗(yàn)設(shè)置
本研究選用BART-Large作為預(yù)訓(xùn)練語言模型,并選用了包括GPT、Claude 、Llama、DeepSeek、Qwen 在內(nèi)的主流大規(guī)模語言模型進(jìn)行對比分析。同時(shí),以InstructABSA-2作為ABSA增強(qiáng)模塊的核心模型,并利用SBERTall-MiniLM-L6-V2與Faiss-gpu 1.5.3 構(gòu)建向量數(shù)據(jù)庫。所有實(shí)驗(yàn)均在兩塊RTX3090(24GB內(nèi)存)顯卡上運(yùn)行,整個(gè)項(xiàng)目基于PyTorch框架開發(fā)。
本文使用生成任務(wù)常見的評(píng)估指標(biāo)來評(píng)估生成回復(fù)的質(zhì)量,包括METEOR(M)[20]、GLEU(G)[21]、BERTScore(B)[22]CIDEr(C)[23]、Interesting(I)[24]、Entailment(E)[25]。此外,考慮到對話系統(tǒng)的特殊性,引入了專門為此類系統(tǒng)設(shè)計(jì)的評(píng)價(jià)標(biāo)準(zhǔn)[26]。本文利用大語言模型(LLM)為基礎(chǔ)的評(píng)估方法(例如GPT3.5),對生成回復(fù)的恰當(dāng)性、正確性和情感準(zhǔn)確性進(jìn)行評(píng)估。圖4提供了大模型評(píng)估的范例。
4.3 實(shí)驗(yàn)結(jié)果與分析
為了全面評(píng)估本文方法在SK-TOD基準(zhǔn)測試中的性能提升,本文選擇賽事官方baseline(表3中的DSTCbaseline,微調(diào)BART-base模型)作為對比基線之一。此外,選取了賽事中表現(xiàn)最優(yōu)的三個(gè)方案作為基準(zhǔn)進(jìn)行對比(第一名:team13;第二名:teaml4;第三名:team7):
a) tan13[27] :引入偽標(biāo)簽機(jī)制標(biāo)識(shí)包含正負(fù)評(píng)價(jià)的知識(shí)片段,并使用大型語言模型(如GPT-3)進(jìn)行數(shù)據(jù)增強(qiáng)以生成更多樣化的訓(xùn)練樣本,從而提升模型處理混合意見的能力。
b) tan14[28] :通過集成BART、Long-T5和LLaMA等多個(gè)大型語言模型,并采用低秩適應(yīng)(LoRA)技術(shù)優(yōu)化資源利用,同時(shí)使用GPT-4對生成的回復(fù)進(jìn)行評(píng)分排序,最終實(shí)現(xiàn)了一個(gè)高效且性能優(yōu)越的回復(fù)生成系統(tǒng)。
c) 1eam7[16] :提出了一種差異感知集成方法(difference-awareensemblemethod),通過組合不同專長的模型(如處理已見實(shí)例、未見實(shí)例以及噪聲環(huán)境的專家模型)的優(yōu)勢,來優(yōu)化最終的回復(fù)生成。
此外,為了進(jìn)一步驗(yàn)證DynSense方法的通用性,本文進(jìn)行了廣泛的實(shí)驗(yàn),將多種先進(jìn)的語言模型作為DynSense架構(gòu)的主干組件,包括但不限于BART[29]、 GPT[30,31] 、LLaMA[32,33]Claude Qwen[33] 、DeepSeek[34]和 ChatGLM[35]
如表3所示,DynSense在1-shot設(shè)置下其性能達(dá)到最優(yōu),全面超越了所有基線方法。通過1-shot(DynMatch)與1-shot(Rnd)及 0-shot 的消融實(shí)驗(yàn)可以看出,DynMatch算法構(gòu)建的動(dòng)態(tài)少樣本提示,有效地引導(dǎo)模型學(xué)習(xí)輸出模式,表現(xiàn)出顯著的性能優(yōu)勢。
另一方面,隨著Few-Shot樣本數(shù)量的增加,整體性能呈現(xiàn)出非線性變化的趨勢:從1-shot到2-shot,階段性能出現(xiàn)一定程度的下降,但在 3-shot 設(shè)置下則有所回升。在1-shot設(shè)置中,由于單一樣本的信息明確且結(jié)構(gòu)化,模型能夠有效提取關(guān)鍵特征;然而,2-shot設(shè)置下,樣本之間可能存在語義沖突或冗余信息,增加了模型對關(guān)鍵信息聚焦的難度,進(jìn)而影響性能表現(xiàn)。當(dāng)樣本數(shù)量進(jìn)一步增加到3-shot時(shí),更多的語義和上下文信息為模型提供了額外的支持,緩解了樣本間潛在的矛盾,并顯著提升了模型的整體性能。
表4進(jìn)一步表明,在SK-TOD基準(zhǔn)上,使用BART作為預(yù)訓(xùn)練模型進(jìn)行微調(diào),比采用大語言模型作為骨干模型更為有效。值得關(guān)注的是,基于大語言模型的基線方案在Entailment(E)[25]分?jǐn)?shù)上表現(xiàn)突出,這表明了大語言模型對于主觀知識(shí)的學(xué)習(xí)理解更為深刻。然而,大部分情況下,大語言模型傾向于生成更長的回復(fù),導(dǎo)致在METEOR(M)[20]、GLEU(G)[21]等以 n -gram為基礎(chǔ)的評(píng)價(jià)指標(biāo)上表現(xiàn)不佳。通過采用DynSense方法,可以在保持大語言模型強(qiáng)大的學(xué)習(xí)能力的同時(shí),引導(dǎo)其生成更短的回復(fù),這些回復(fù)更接近于參考回復(fù),從而在多個(gè)評(píng)價(jià)指標(biāo)上實(shí)現(xiàn)顯著提升。此外觀察到,ChatGLM在對ABSA增強(qiáng)型主觀知識(shí)的理解能力上存在一定的局限性,其輸出結(jié)果未能超越簡單的復(fù)述層面,未能提供深人的情感傾向總結(jié)或有價(jià)值的回復(fù)內(nèi)容,這使得輸出對于實(shí)際應(yīng)用來說效用有限。值得注意的是,在涉及其他大語言模型的基準(zhǔn)實(shí)驗(yàn)中也偶有類似現(xiàn)象出現(xiàn)。然而,通過引入DynSense,所有參與測試的大語言模型均能夠有效依據(jù)示例提示,學(xué)習(xí)相關(guān)知識(shí)片段中的ABSA背景信息,并生成更為綜合且富有洞見的回復(fù)。
表5展示了基于大型語言模型對回復(fù)質(zhì)量的評(píng)估結(jié)果,評(píng)估維度包括恰當(dāng)性、正確性和情感準(zhǔn)確性。在這些評(píng)估指標(biāo)上,Dyn-Sense在結(jié)合不同語言模型時(shí)表現(xiàn)出了顯著的性能優(yōu)勢,表明其在引導(dǎo)模型生成更符合實(shí)際需求的回復(fù)方面具有強(qiáng)大的能力。此外,通過對比基準(zhǔn)大模型實(shí)驗(yàn)與應(yīng)用了DynSense方法的大模型實(shí)驗(yàn)結(jié)果,進(jìn)一步驗(yàn)證了DynSense在與不同語言模型結(jié)合時(shí)所展現(xiàn)出的穩(wěn)定性和適應(yīng)性。
此外,圖5通過100個(gè)樣本可視化了用戶詢問的嵌人表示,表明大多數(shù)樣本對之間的語義距離較近,進(jìn)一步驗(yàn)證了DynMatch算法的有效性。
最后,表6提供了對圖1案例多模型生成結(jié)果的對比分析。結(jié)果顯示, DynSenseBART-large 的回復(fù)與參考回復(fù)最為接近;GPT-4o的回復(fù)雖然保留了充分的過往評(píng)論細(xì)節(jié),但略顯冗長;通過引人DynSense、GPT-4o的回復(fù),在語言上變得更加簡練,并且風(fēng)格更貼近參考回復(fù)。相比之下,DSTCbaseline模型的回復(fù)最為概括,但在細(xì)節(jié)和情感表達(dá)方面有所不足。
5結(jié)束語
主觀知識(shí)對話系統(tǒng)在電子商務(wù)平臺(tái)(如淘寶和天貓)、旅游服務(wù)平臺(tái)(如攜程和去哪兒)以及餐飲服務(wù)平臺(tái)(如美團(tuán)和餓了么)的評(píng)論自動(dòng)回復(fù)中,展現(xiàn)出巨大的應(yīng)用潛力。這類系統(tǒng)不僅能夠處理以往難以量化的主觀性問題,例如統(tǒng)計(jì)用戶好評(píng)的比例,還能顯著減少人工客服的介人,提供即時(shí)且成本效益高的響應(yīng)機(jī)制,從而為用戶提供精準(zhǔn)且極具參考價(jià)值的反饋。此外,這些系統(tǒng)能夠快速識(shí)別并回應(yīng)顧客的情感傾向和具體關(guān)切,無須人類干預(yù)即可保持高效運(yùn)作,確保全天候的支持。這不僅提升了客戶滿意度,還優(yōu)化了運(yùn)營效率。
為了進(jìn)一步提升這種系統(tǒng)的性能,本文提出了DynSense方法,該方法融合了ABSA技術(shù),并引入了動(dòng)態(tài)構(gòu)建少量樣本提示(few-shotprompts)的DynMatch算法,在主觀知識(shí)驅(qū)動(dòng)的對話系統(tǒng)任務(wù)中取得了顯著進(jìn)展。廣泛的實(shí)驗(yàn)證明,DynSense不僅能夠有效地識(shí)別并利用關(guān)鍵信息元素,還能引導(dǎo)模型學(xué)習(xí)與目標(biāo)輸出相匹配的模式,且其在不同的語言模型上表現(xiàn)出良好的適應(yīng)性和兼容性。在未來的工作中,筆者計(jì)劃進(jìn)一步拓展DynSense的能力,包括探索更多的外部知識(shí)源(例如電影評(píng)論、書籍評(píng)價(jià)等)及多語言語料的應(yīng)用,以期構(gòu)建更加豐富多元
的主觀知識(shí)庫,進(jìn)而促進(jìn) SK-TOD 基準(zhǔn)測試的持續(xù)發(fā)展與完善。
參考文獻(xiàn):
[1]Vath D, VanderlynL, VuNT. Conversational tre search:anewhybrid dialog task [C]//Proc of the 17th Conference of the European Chapter of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2O23:1264- 1280.
[2]徐愷,王振宇,王旭,等.基于強(qiáng)化學(xué)習(xí)的任務(wù)型對話策略研究 綜述[J].計(jì)算機(jī)學(xué)報(bào),2024,47(6):1201-1231.(Xu Kai, Wang Zhenyu,Wang Xu,etal. A survey of task-oriented dialogue policies based on reinforcement learning[J]. Chinese Journal of Computers,2024,47(6):1201-1231.)
[3]羅紅,陸??。惥昃?,等.基于雙層解碼的多輪情感對話生成 模型[J].計(jì)算機(jī)應(yīng)用研究,2024,41(6):1778-1783.(Luo Hong,Lu Haijun,Chen Juanjuan,et al.Multi-turn emotion dialogue generation model based on dual-decoder[J].Application Research of Computers,2024,41(6): 1778-1783.)
[4]汪紅松,葉浩賢,李嘉展.融合背景知識(shí)和常識(shí)感知的對話生成 [J].計(jì)算機(jī)應(yīng)用研究,2024,41(10):2993-299.(Wang Hongsong,Ye Haoxian,Li Jiazhan.Integration of background knowledge and common sense perception for dialogue generation[J]. Application Research ofComputers,2024,41(10):2993-2999.)
[5]Majumder BP,Jhamtani H,Berg-Kirkpatrick T,et al.Achieving conversational goals with unsupervised post-hoc knowledge injection [C]//Proc of the 6Oth Annual Meting of the Assciation for Computational Linguistics(Volume1:Long Papers). Stroudsburg,PA:Association for Computational Linguistics, 2022: 3140-3153.
[6]Kim S,Gella S,Zhao C,et al.Task-oriented conversational modeling with subjective knowledge track in DSTC11[C]// Proc of the 11th Dialog System Technology Challenge. Stroudsburg,PA:Association for Computational Linguistics,2023:274-281.
[7]He Wanwei,Dai Yinpei, Zheng Yinhe,et al. GALAXY:a generative pre-trained model for task-oriented dialog with semi-supervised learning and explicit policy injection[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA:AAAI Press,2022:10749- 10757.
[8]Guo Shuyu,Zhang Shuo,Sun Weiwei,et al.Towards explainable conversational recommender systems [C]//Proc of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York:ACM Press,2023:2786-2795.
[9]Wang Xi,Rahmani H,Liu Jiqun,et al. Improving conversational recommendation systems via biasanalysis and language-modelenhanced data augmentation [C]//Findings of the Association for Computational Linguistics: EMNLP 2O23. Stroudsburg,PA: Association for Computational Linguistics,2023:3609-3622.
[10]Lee Y J,Lim C G,Choi H J.Does GPT-3generate empathetic dialogues?A novel in-context example selection method and automatic evaluation metric for empathetic dialogue generation [C]//Proc of International Conference on Computational Linguistics.2022.
[11] Jung H, Yeen H, Lee J,et al. Enhancing task-oriented dialog system with subjective knowledge:a large language model-based data augmentation framework[C]//Proc of the 11th Dialog System Technology Challenge. Stroudsburg,PA:Association for Computational Linguistics,2023:150-165.
[12] Zhao Chao,Gella S,Kim S,et al.“What do others think?”: Taskoriented conversational modeling with subjective knowledge[C]// Proc of the 24th Meeting of the Special Interest Group on Discourse and Dialogue. Stroudsburg,PA:Association for Computational Linguistics,2023: 309-323.
[13]Scaria K,Gupta H,Goyal S,et al. InstructABSA:instruction learning for aspect based sentiment analysis [C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg,PA:Association for Computational Linguistics,2024:720-736.
[14] Zhao He,Huang Longtao,Zhang Rong,et al. SpanMlt:a spanbasedmulti-task learning framework forpair-wise aspect and opinion termsextraction[C]//Proc of the58th Annual Meetingof the Association for Computational Linguistics. Stroudsburg,PA:Association for Computational Linguistics,2020:3239-3248.
[15]Bjerva J,Bhutani N,Golshan B,et al. SubjQA:a dataset for subjectivity and review comprehension[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2020: 5480-5494.
[16]Ke Changxin,Sun Churui,Ma Longxuan,et al.A diffrence-aware ensemble method for task-oriented dialoguewith subjectiveknowledge [C]//Proc of the11th Dialog System Technology Challenge. Stroudsburg,PA:Association for Computational Linguistics,2023: 216-225.
[17]Krause L, Santamarfa SB,Van der Meer M, et al. Leveraging fewshot data augmentation and waterfall prompting for response generation [C]//Proc of the 11th Dialog System Technology Challenge. Stroudsburg,PA:Association for Computational Linguistics,2023: 193-205.
[18]Liu Pengfei,Yuan Weizhe,F(xiàn)u Jinlan,etal.Pre-train,prompt,and predict:a systematic survey of prompting methods in natural language processing[J]. ACM Computing Surveys,2023,55(9):195.
[19]Sun Yiyou,Ming Yifei,Zhu Xiaojin,et al. Out-of-distribution detection with deep nearest neighbors[EB/OL].(2022-12-08).https://arxiv.org/abs/2204.06507.
[20]Banerjee S,Lavie A.METEOR:an automatic metric for mt evaluation with improved correlation with human judgments[C]//Proc of ACLWorkshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg,PA:Association for Computational Linguistics,20o5:65-72.
[21] Wu Yonghui, Schuster M, Chen Z,et al. Google’s neural machine translation system:bridging the gap between human and machine translation[EB/OL].(2016-09-27)[2024-11-04].http://arxiv. org/abs/1609.08144.
[22] Zhang Tianyi,Kishore V,Wu F,et al.BERTScore:evaluating text generation with BERT[C]//Proc of International Conferenceon Learning Representations.2020.
[23] Vedantam R, Zitnick C L,Parikh D. CIDEr:consensus-based image description evaluation [C]//Proc of IEEE Conference on Computer Vision and Patern Recognition. Piscataway,NJ: IEEE Press, 2015: 4566-4575.
[24]Prasad A,Saha S,ZhouXiang,et al.ReCEval:evaluating reasoning chains via correctness and informativeness[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA:Association for Computational Linguistics,2023:10066-10086.
[25]Mehri S,Eskenazi M.Unsupervised evaluationof interactive dialog with DialoGPT[C]//Proc of the 21st Annual Meeting of the Special Interest Group on Discourse and Dialogue,the 1st Virtual Meeting. Stroudsburg,PA:Association for Computational Linguistics,2020: 225-235.
[26]Jiang Zhihua,Ye Guanghui,Rao Dongning,et al.IM2:an interpretable and multi-category integrated metric framework for automatic dialogue evaluation [C]// Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA: Association for Computational Linguistics,2022:11091-11103.
[27]Joo S,LeeKIl,Min K,etal.Leveraging ensemble techniques and metadata for subjective knowledge-grounded conversational systems [C]//Proc of the 11th Dialog System Technology Challenge. Stroudsburg,PA:Association for Computational Linguistics,2023: 206-215.
[28]Huang Xin,TanKM,Duan Richeng,et al.Ensemble method via ranking model for conversational modeling with subjective knowledge [C]//Procof the1th Dialog System Technology Challnge. Stroudsburg,PA:Association for Computational Linguistics,2023: 177-184.
[29]Lewis M,Liu Yinhan,Goyal N,et al.BART:denoising sequenceto-sequence pre-training for natural language generation,translation, and comprehension[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Associationfor Computational Linguistics,2O20:7871-7880.
[30]Achiam J,Adler S,Agarwal S,et al. GPT-4 technical report [EB/ OL].(2023-03-15)[2025-01-03].http://arxiv.org/abs/2303. 08774.
[31]Hurst A,Lerer A,Goucher A P,et al.GPT-4o system card[EB/ OL].(2024-08-08)[2025-01-03]. http://arxiv.org/abs/2410. 21276.
[32]Touvron H,Martin L,Stone K,et al.LLaMA 2:open foundation and fine-tuned chat models[EB/OL].(2023-07-19)[2024-11- 04].http://arxiv.org/abs/2307.09288.
[33]Yang An,Yang Baosong,Zhang Beichen,et al.Qwen2.5 technical report[EB/OL].(2024-12-19)[2025-01-03].http://arxiv. org/abs/2412.15115.
[34]Liu Aixin,F(xiàn)eng Bei, Xue Bing,et al. DeepSeek-V3 technical report [EB/OL].(2024)[2025-01-03].http://arxiv.org/abs/2412. 19437.
[35]Zeng Aohan,XuBin,WangBowen,et al.ChatGLM:a familyof large language models from GLM-130B to GLM-4 all tools [EB/OL]. (2024)[2025-01-03].htp://arxiv.org/abs/2406.12793.