李昱珩 朱彥霞
摘 要:【目的】探討智能對話系統(tǒng)中任務(wù)型對話模型的設(shè)計,提出一個基于監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的任務(wù)型對話系統(tǒng)框架?!痉椒ā坎捎帽O(jiān)督學(xué)習(xí)和強化學(xué)習(xí)相結(jié)合的方法。首先,將開放域?qū)υ捘P偷纳苫貜?fù)嵌入到任務(wù)型回復(fù)的過程中,構(gòu)建一個綜合的對話模型。其次,利用監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)的方法,構(gòu)建對話策略模型,用于指導(dǎo)對話系統(tǒng)的決策過程。最后,采用深度強化學(xué)習(xí)算法進行優(yōu)化更新,以提高對話系統(tǒng)的性能?!窘Y(jié)果】實驗結(jié)果表明,任務(wù)型對話系統(tǒng)模型在評估指標BLEU、ROUGE和F1分數(shù)方面優(yōu)于其他基準模型。該模型具備良好的對話生成能力和回復(fù)多樣性,能夠生成準確且多樣化的回復(fù)?!窘Y(jié)論】通過綜合應(yīng)用監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的方法,成功設(shè)計了一個基于任務(wù)型對話模型的智能對話系統(tǒng)框架。該框架在任務(wù)型對話上取得了較好的性能,為智能對話系統(tǒng)的發(fā)展提供了有益的探索。
關(guān)鍵詞:任務(wù)型對話系統(tǒng);監(jiān)督學(xué)習(xí);強化學(xué)習(xí)
中圖分類號:TP181? ? ? 文獻標志碼:A? ? 文章編號:1003-5168(2024)06-0020-05
DOI:10.19968/j.cnki.hnkj.1003-5168.2024.06.004
Design and Implementation of a Task-Oriented Dialogue Model Based on Supervised Learning and Deep Reinforcement Learning
LI Yuheng1 ZHU Yanxia2
(1. School of Mathematical Sciences, East China Normal University, Shanghai 200241, China; 2. Henan General Hospital, Zhengzhou 450000, China)
Abstract:[Purposes] This study aims to explore the design of task-oriented dialogue models in intelligent conversational systems and propose a task-oriented dialogue system framework based on supervised learning and reinforcement learning. [Methods] The study adopts a combined approach of supervised learning and reinforcement learning. Firstly, the generation replies from open-domain dialogue models are incorporated into the task-oriented dialogue process, constructing a comprehensive dialogue model. Then, using methods of supervised learning and transfer learning, a dialogue policy model is constructed to guide the decision-making process of the dialogue system. Finally, deep reinforcement learning algorithms are employed for optimization and updates to enhance the performance of the dialogue system. [Findings] Experimental results demonstrate that the task-oriented dialogue system model outperforms other baseline models in evaluation metrics such as BLEU, ROUGE, and F1 scores. The model exhibits good dialogue generation capabilities and response diversity, generating accurate and diverse replies. [Conclusions] The study successfully designs an intelligent dialogue system framework based on task-oriented dialogue models by integrating supervised learning and reinforcement learning. The framework shows promising performance in task-oriented dialogue tasks, providing valuable exploration for the development of intelligent conversational systems.
Keywords: task-oriented dialogue system; supervised learning; reinforcement learning
0 引言
隨著人工智能技術(shù)的快速發(fā)展,人機交互、智能助手、智能客服、問答咨詢等人機對話場景的廣泛應(yīng)用,以及ChatGPT的問世極大地推動了自然語言處理(Natural Language Processing,NLP)領(lǐng)域的快速進展,使得智能對話系統(tǒng)的研究成為學(xué)術(shù)界及各應(yīng)用行業(yè)的研究熱點之一。
目前,智能對話系統(tǒng)主要分為開放域?qū)υ捪到y(tǒng)和任務(wù)型對話系統(tǒng)。開放域?qū)υ捪到y(tǒng)主要用于閑聊領(lǐng)域,旨在提供自由流暢的對話體驗。而任務(wù)型對話系統(tǒng)則專注于幫助用戶完成特定任務(wù),旨在提供任務(wù)相關(guān)的指導(dǎo)和支持。任務(wù)型對話系統(tǒng)的設(shè)計旨在滿足用戶對特定任務(wù)的需求,并通過提供準確的指導(dǎo)和目標導(dǎo)向的交互,能夠提供準確的信息和服務(wù),在特定的領(lǐng)域的任務(wù)中表現(xiàn)出色,實用性較強。近年來,任務(wù)型對話系統(tǒng)的關(guān)鍵技術(shù)取得了顯著的進展,并在眾多領(lǐng)域得到廣泛應(yīng)用。典型的任務(wù)型對話系統(tǒng)包括蘋果的Siri、微軟的小娜(Cortana)[1]、阿里巴巴的天貓精靈[2]和京東的JIMI客服機器人等。然而,任務(wù)型對話系統(tǒng)在特定任務(wù)的應(yīng)用場景中依然面臨著對話數(shù)據(jù)規(guī)模有限以及用戶需求復(fù)雜、需要進行多輪互動等挑戰(zhàn)。為了提高對話任務(wù)的效率,本研究對基于監(jiān)督學(xué)習(xí)與強化學(xué)習(xí)的任務(wù)型對話模型進行了研究與探索。
1 相關(guān)研究
1.1 任務(wù)型對話系統(tǒng)一般過程
任務(wù)型對話系統(tǒng)實現(xiàn)方式主要是端到端(End-to-End)和管道(Pipeline)。端到端方法[3]使用單一模塊直接完成從輸入的文本建模到輸出的回復(fù),其訓(xùn)練參數(shù)少、泛化能力強、應(yīng)用場景較靈活,但優(yōu)化難度與解釋性較差。管道方法[4]將系統(tǒng)視為一個流水線,把任務(wù)分為自然語言理解(Natural Language Understanding,NLU)、對話狀態(tài)跟蹤(Dialog State Tracking,DST)、對話策略學(xué)習(xí)(Dialogue Policy Learning,DPL)、自然語言生成(Natural Language Generation,NLG)4個模塊,模塊間可并行且通過級聯(lián)實現(xiàn)對話,其復(fù)雜度高、易于解釋、商用性強。
任務(wù)型對話系統(tǒng)的一般過程如圖1所示。任務(wù)系統(tǒng)首先通過自然語言理解(NLU)將用戶話語(Utterance)轉(zhuǎn)化為語義信息,并提取用戶意圖(Intent)和槽值(Slot)信息;其次對話狀態(tài)跟蹤(DST)根據(jù)自然語言理解(NLU)的信息評估得到用戶目標和請求,構(gòu)建并記錄對話狀態(tài);再次對話策略學(xué)習(xí)(DPL)根據(jù)對話狀態(tài)(Dialog State)來決策系統(tǒng)采取的動作(Action);最后自然語言生成將對話策略(DPL)生成的對話動作轉(zhuǎn)換為最終的自然語言。
1.2 任務(wù)型對話系統(tǒng)研究進展
在任務(wù)型對話系統(tǒng)中,準確理解用戶意圖并提取槽值數(shù)據(jù)中的關(guān)鍵信息對于實現(xiàn)準確性至關(guān)重要[5],因此,近年來NLU領(lǐng)域涌現(xiàn)出許多新的技術(shù)及應(yīng)用成果。葉銥雷等[6]針對任務(wù)型多輪對話,提出了一種粗粒度意圖識別方法,該方法針對特定復(fù)雜場景下的多輪對話,將意圖識別任務(wù)分解為對話序列標注和意圖分類兩個任務(wù),有效地提高用戶意圖識別率;高作緣和陶宏才[7]提出了一種基于RoBERTa-WWW及可模塊替換的壓縮多任務(wù)聯(lián)合模型,該模型意圖識別、語義槽填充等聯(lián)合進行訓(xùn)練,同時引入Focalloss機制均衡優(yōu)化數(shù)據(jù);王明虎等[8]提出了一種基于RoBERTa和圖增強Transformer的序列推薦方法,該方法利用RoBERTa對評論文本進行預(yù)訓(xùn)練,以捕捉語義特征和初步建模用戶的個性化興趣,將商品交互的時序特征圖輸入到圖增強Transformer后,再接入全連接層,以提升用戶興趣偏好的整體性捕捉和實現(xiàn)對商品的預(yù)測評分。
對話策略是根據(jù)自然語言理解的結(jié)果和對話狀態(tài)跟蹤的輸出來制定對話動作,因此對話策略學(xué)習(xí)在自然語言理解和自然語言生成中發(fā)揮著重要作用。Levin等[9]最早將對話策略建模稱為馬爾可夫決策過程(Markov Decision Process,MDP)并進行了復(fù)雜性分析,為基于強化學(xué)習(xí)的對話策略研究奠定了基礎(chǔ);Takanobu等[10]提出了一種基于對抗性逆強化學(xué)習(xí)的引導(dǎo)對話策略學(xué)習(xí)算法,用于多領(lǐng)域任務(wù)導(dǎo)向?qū)υ捴械穆?lián)合獎勵估計和策略優(yōu)化;Wu等[11]提出了Switch-DDQ框架,該框架擴展了Deep Dyna-Q(DDQ)框架,集成一個切換器,該切換器可以自動確定使用真實體驗還是模擬體驗進行Q學(xué)習(xí),提高了模型訓(xùn)練效率。
2 設(shè)計與實驗
2.1 基于監(jiān)督學(xué)習(xí)與強化學(xué)習(xí)的任務(wù)型對話模型設(shè)計
監(jiān)督學(xué)習(xí)(Supervised Learning,SL)和強化學(xué)習(xí)(Reinforcement Learning,RL)是機器學(xué)習(xí)領(lǐng)域中兩個重要的分支。監(jiān)督學(xué)習(xí)是一種利用已標記的訓(xùn)練數(shù)據(jù)去學(xué)習(xí)輸入函數(shù)與輸出函數(shù)之間映射關(guān)系的機器學(xué)習(xí)任務(wù)。它通常應(yīng)用于解決分類問題和回歸問題,其中分類問題涉及將輸入實例分配到預(yù)定義的類別中,而回歸問題涉及預(yù)測連續(xù)值輸出。強化學(xué)習(xí)是一種涉及智能體(Agent)與環(huán)境(Environment)之間不斷交互的學(xué)習(xí)過程。在這個過程中,智能體通過與環(huán)境進行交互,不斷學(xué)習(xí)并改進其策略(Policy),以最大化獲得其回報(Reward)。強化學(xué)習(xí)的目標是通過試錯和學(xué)習(xí),使智能體能夠在復(fù)雜的動態(tài)環(huán)境中做出準確的決策并獲得最大的累積回報[12]。強化學(xué)習(xí)過程的實質(zhì)[13]是Agent隨著時間推移與環(huán)境交互反饋進行不斷學(xué)習(xí)的過程。在t時刻,Agent接受狀態(tài)s遵循π(a|s)策略從動作空間中選擇一個動作a,作用于環(huán)境,環(huán)境反饋獎賞r并且依據(jù)概率P(s'|s,a)轉(zhuǎn)換到下一個狀態(tài)St'。強化學(xué)習(xí)的最終目的是通過調(diào)整自身策略來最大化累計獎賞Rt=[k=0∞λrt+k],其中:λ∈[0,1]為折扣因子;狀態(tài)動作函數(shù)為Qπ(s,a)=[E(t=0∞γrt|S=s,A=a,π]),根據(jù)π=argmaxQπ(s,a)(a∈A)得到最優(yōu)策略。深度強化學(xué)習(xí)是深度學(xué)習(xí)與強化學(xué)習(xí)的深度融合,該方法可通過構(gòu)建并訓(xùn)練Agent用于知識庫的構(gòu)建與學(xué)習(xí),其原理框架如圖2所示。
目前,基于強化學(xué)習(xí)的對話策略技術(shù)[14]主要有基于值函數(shù)逼近的對話策略、基于策略梯度的對話策略、基于層次的對話策略、基于強化學(xué)習(xí)模型的對話策略、基于逆強化學(xué)習(xí)的對話策略等。在現(xiàn)實世界中,非基于模型的對話策略算法的訓(xùn)練試錯成本相對較高,在考慮成本的前提下,一種可行的方法是利用成熟的模型來完成環(huán)境交互過程。具體來說就是根據(jù)學(xué)習(xí)到的模型去規(guī)劃一系列動作,然后將這些動作應(yīng)用于相似的場景中(如采用Model Predictive Control,MPC模型[15]),或者根據(jù)模型生成模擬樣本數(shù)據(jù)并利用這些模擬數(shù)據(jù)進行策略或值函數(shù)的評估(如Dyna-Q方法[16]),這樣的方法能夠在較低的成本下改善對話策略算法的性能。
本研究設(shè)計的基于監(jiān)督學(xué)習(xí)和強化學(xué)習(xí)的任務(wù)型對話系統(tǒng)框架如圖3所示。該框架將開放域?qū)υ捘P偷纳苫貜?fù)嵌入到任務(wù)型回復(fù)的過程中。首先,采用監(jiān)督學(xué)習(xí)的方法構(gòu)建對話策略模型,利用行業(yè)中現(xiàn)有的真實對話數(shù)據(jù)集。其次,借鑒遷移學(xué)習(xí)思想,將用戶輸入傳遞給現(xiàn)有的成熟或開源的對話模型,獲取初步的用戶意圖和槽值,并進行初步的用戶或Agent反饋,計算Q(s,a|θi)。最后,在此基礎(chǔ)上將初步形成的用戶意圖和槽值傳入基于監(jiān)督學(xué)習(xí)構(gòu)建的對話模型中,獲取Yi,并計算損失函數(shù)L(θi)=Es,a,r,s'[Yi-Q(s,a|θi))2](其中:s表示當前狀態(tài);a表示當前狀態(tài)下采取的動作;r表示當前狀態(tài)下采取a動作所對應(yīng)的獎懲;s'代表下一個狀態(tài);i表示迭代次數(shù))。在訓(xùn)練過程中,記錄真實用戶體驗過程,并利用深度強化學(xué)習(xí)算法更新對話模型和經(jīng)驗池。
本模型中基于監(jiān)督學(xué)習(xí)生成的對話模型,可作為基于開放模型的對話模型遷移到新環(huán)境中的驗證。同時,在真實環(huán)境中應(yīng)用深度強化學(xué)習(xí),能夠?qū)崿F(xiàn)對模型的優(yōu)化更新,減少真實人員驗證的參與度。
2.2 任務(wù)型對話模型實驗
2.2.1 實驗環(huán)境與測試數(shù)據(jù)。
2.2.1.1 實驗環(huán)境。本實驗操作系統(tǒng)為Windows 10;處理器為 amd ryzen 55 800x;內(nèi)存128 GB;顯卡為A4 000;采用Python編程語言3.6版本。
2.2.1.2 實驗測試數(shù)據(jù)。以某大賽提供的電商客服為實驗數(shù)據(jù)[17],實驗數(shù)據(jù)集合基本情況見表1。
2.2.2 實驗過程及結(jié)果。
2.2.2.1 數(shù)據(jù)預(yù)處理過程。本研究的數(shù)據(jù)預(yù)處理工作包括對Session進行拆分以獲取對話歷史記錄,合并同一ID用戶的連續(xù)對話內(nèi)容,刪除停用詞等操作。對于多輪對話,本研究保留了上一輪的對話信息,數(shù)據(jù)集構(gòu)建的樣例如圖4所示。
2.2.2.2 任務(wù)型對話測試。本模型測試過程中的一個回復(fù)生成情況如圖5所示。
2.2.2.3 性能測試。本研究使用了Seq2Seq模型、BERT-Retrieval模型與本研究提出的模型對測試數(shù)據(jù)集進行了實驗對比和性能評估。在深度強化學(xué)習(xí)中,本研究將折扣因子γ設(shè)為0.7,dropout概率設(shè)為0.05。模型的優(yōu)化方法采用了Adam優(yōu)化器,學(xué)習(xí)速率設(shè)為0.001。BLEU和ROUGE分數(shù)是廣泛應(yīng)用于自然語言處理和多輪對話生成任務(wù)中的評估指標,用于衡量模型輸出與目標文本之間的相似度;DISTINCT2用于評估回復(fù)的多樣性;而F1分數(shù)則用于評估準確性和召回率。各模型性能測試結(jié)果見表2。
從表2可知,本研究模型在BLEU、ROUGE和F1分數(shù)方面表現(xiàn)優(yōu)于其他基準模型,這表明該研究模型在對話生成方面能夠有效地學(xué)習(xí)京東客服的對話模式,并且回復(fù)模型的多樣性也表現(xiàn)較好。
3 結(jié)語
本研究基于監(jiān)督學(xué)習(xí)和深度強化學(xué)習(xí)的模型設(shè)計了一個整合開放域任務(wù)型對話模型的框架。通過監(jiān)督學(xué)習(xí)方法構(gòu)建對話策略模型,利用真實任務(wù)型對話數(shù)據(jù)集進行訓(xùn)練;利用遷移學(xué)習(xí)思想,將用戶輸入傳遞給開放域?qū)υ捘P?,獲取初步的用戶意圖、槽值、Agent反饋;用t時刻輸入詞匯及基于監(jiān)督學(xué)習(xí)對話策略輸出詞匯作為t時刻狀態(tài);用度量相似性的評價指標雙語評估替換指標作為獎勵。同時,記錄真實用戶體驗并利用深度強化學(xué)習(xí)算法更新對話模型和經(jīng)驗池,減少了真實人員驗證的參與度,且該模型在實驗中性能表現(xiàn)較好。
參考文獻:
[1]HOY M B.Alexa,siri,cortana,and more: an introduction to voice assistants[J].Med Ref Serv Q,2018(1):81-88.
[2]天貓精靈鮑娟:天貓精靈用AI連接家庭全場景智慧營銷[J].國際品牌觀察,2021(20):47-48.
[3]王堃,林民,李艷玲.端到端對話系統(tǒng)意圖語義槽聯(lián)合識別研究綜述[J].計算機工程與應(yīng)用,2020(14):14-25.
[4]趙陽洋,王振宇,王佩,等.任務(wù)型對話系統(tǒng)研究綜述[J].計算機學(xué)報,2020(10):1862-1896.
[5]于丹,閆曉宇,王艷秋,等.任務(wù)型對話機器人的設(shè)計及其應(yīng)用[J].軟件工程,2021(2):55-59.
[6]葉銥雷,曹斌,范菁,等.面向任務(wù)型多輪對話的粗粒度意圖識別方法[J].小型微型計算機系統(tǒng),2020(8):1620-1626.
[7]高作緣,陶宏才.面向任務(wù)型對話機器人的多任務(wù)聯(lián)合模型研究[J].成都信息工程大學(xué)學(xué)報,2023(3):251-257.
[8]王明虎,石智奎,蘇佳,等.基于RoBERTa和圖增強Transformer的序列推薦方法[J].計算機工程,2024:1-12.
[9]LEVIN E,PIERACCINI R,ECKERT W. Learning dialogue strategies within the Markov decision process framework[C]. 1997 IEEE Workshop on Automatic Speech Recognition and Understanding Proceedings,1997:72-79.
[10]TAKANOBU R,ZHU H L,HUAN M L.Guided dialog policy learning: reward estimation for multi-domain task-oriented dialog[J]. CoRR,2019:100-110.
[11]WU Y X, LI X J, LIU J J, etal. Switch-based Active Deep Dyna-Q: Efficient Adaptive Planning for Task-Completion Dialogue Policy Learning[J]. Proceedings? of the AAAI Conference on Artificial Intelligence,2019(33):7289-7296.
[12]MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature,2015(7540):529-33.
[13]馬騁乾,謝偉,孫偉杰.強化學(xué)習(xí)研究綜述[J].指揮控制與仿真,2018(6):68-72.
[14]徐愷,王振宇,王旭,等.基于強化學(xué)習(xí)的任務(wù)型對話策略研究綜述[J].計算機學(xué)報,2024,1-33.
[15]KOLLER T, BERKENKAMP F, TURCHETTA M, et al. Learning-Based Model Predictive Control for Safe Exploration[J]. Annual Review of Control,Robotics,and Autonomous Systems,2020(3):269-296.
[16]PENG B L, LI X J, GAO J F, et al. Deep dyna-q: Integrating planning for task-completion dialogue policy learning[C]. Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne,Australia,2018:2182-219.
[17]SIMON J Y. JDDC-Baseline-Seq2Seq[EB/OL]. (2018-05-07)[2023-11-12]. https://github.com/SimonJYang/JDDC-Baseline-Seq2Seq.