鐘可立 王小捷
中圖分類(lèi)號(hào):TN91; TN919.8 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1009-6868 (2015) 05-0050-006
摘要:部分可觀測(cè)馬爾可夫決策過(guò)程(POMDP)廣泛應(yīng)用于建模決策任務(wù)。模型中的觀測(cè)矩陣主要用來(lái)建模環(huán)境的不確定性,通常很難從訓(xùn)練數(shù)據(jù)中直接獲取,需要引入額外的信息進(jìn)行估計(jì)。通過(guò)引入信息熵來(lái)修正模型中的觀測(cè)矩陣,修正后的觀測(cè)矩陣更能反映環(huán)境的不確定性。模擬環(huán)境下的實(shí)驗(yàn)表明,引入信息熵進(jìn)行修正估計(jì)的觀測(cè)矩陣有效提高了POMDP模型的性能,而在基于POMDP模型的對(duì)話(huà)系統(tǒng)中,修正的估計(jì)提高了系統(tǒng)的決策準(zhǔn)確度。
關(guān)鍵詞:部分可觀測(cè)馬爾可夫決策過(guò)程;不確定性;意圖識(shí)別;觀測(cè)矩陣;信息熵
Abstract: Partially Observable Markov Decision Process (POMDP) is a decision model used extensively for decision tasks. The observation matrix of the model is a channel that reflects the uncertainty of surroundings, which is hard to do directly from the corpus. Extra information needs to be introduced for estimation of the observation matrix and better reflection of surroundings. The concept of information entropy is introduced to modify the observation matrix in the model by which the modified observation matrix can reflect the uncertainty of the situation more precisely. Simulated experiment and real situation show that introducing information entropy to modify the observation matrix improves performance of the POMDP model together with the decision-making accuracy in a dialogue system based on POMDP.
Key words: partially observable markov decision process; uncertainty; intention identification; observation matrix; information entropy
人機(jī)對(duì)話(huà)是語(yǔ)言信息處理中的一個(gè)重要應(yīng)用任務(wù),對(duì)話(huà)管理是對(duì)話(huà)系統(tǒng)中的核心組成部分,決定了對(duì)話(huà)系統(tǒng)的質(zhì)量,為此出現(xiàn)了很多關(guān)于對(duì)話(huà)管理模型的研究。
已有的對(duì)話(huà)管理技術(shù)[1]主要包括:基于自動(dòng)機(jī)的方法[2-3],基于框架的方法[4-5],基于信息狀態(tài)的方法[6],基于概率模型的方法[7-8]?;谧詣?dòng)機(jī)的方法雖然易于設(shè)計(jì),但是不靈活,不自然,難以應(yīng)付復(fù)雜的任務(wù)?;诳蚣艿姆椒▽?shí)現(xiàn)的復(fù)雜度較低,但是對(duì)話(huà)比較機(jī)械,人機(jī)交互的自然度較低?;谛畔顟B(tài)的方法比較靈活,能豐富的表達(dá)對(duì)話(huà)的狀態(tài),把對(duì)話(huà)過(guò)程看作是一列規(guī)則的變化,但是需要人工的定義規(guī)則與策略。概率方法主要基于馬爾可夫決策過(guò)程(MDP)與部分可觀測(cè)馬爾可夫決策過(guò)程(POMDP)模型。與前3種方法相比,基于POMDP的方法不需要人工定義策略,而是通過(guò)數(shù)據(jù)學(xué)習(xí)策略,POMDP將客觀世界的動(dòng)態(tài)特性用狀態(tài)轉(zhuǎn)移來(lái)描述,在狀態(tài)不完全可觀測(cè)的情況下,系統(tǒng)通過(guò)與環(huán)境交互,進(jìn)行決策,管理對(duì)話(huà)過(guò)程。
雖然基于POMDP模型的對(duì)話(huà)管理具有更大的靈活性,可用于狀態(tài)不完全可觀測(cè)的情況,但是模型需要統(tǒng)計(jì)狀態(tài)轉(zhuǎn)移矩陣,在訓(xùn)練過(guò)程比較依賴(lài)于數(shù)據(jù);需要定義回報(bào)函數(shù),目前沒(méi)有很好的估計(jì)方法;需要估計(jì)觀測(cè)概率矩陣,一般情況下是很難從數(shù)據(jù)中直接估計(jì)。這些問(wèn)題會(huì)給基于POMDP模型的對(duì)話(huà)管理帶來(lái)困難。
基于POMDP模型的對(duì)話(huà)管理是根據(jù)當(dāng)前的信念狀態(tài)分布來(lái)選擇動(dòng)作,因此信念狀態(tài)的估計(jì)會(huì)直接影響到系統(tǒng)決策性能,而觀測(cè)函數(shù)的估計(jì)也會(huì)直接影響到信念狀態(tài)的估計(jì)。在對(duì)話(huà)系統(tǒng)中,POMDP模型的觀測(cè)函數(shù)一般是建模從用戶(hù)對(duì)話(huà)意圖到系統(tǒng)狀態(tài)的映射,但是,用戶(hù)對(duì)話(huà)意圖本身并不是直接可獲得的,它是由用戶(hù)的語(yǔ)言輸入來(lái)體現(xiàn)的。一方面,用戶(hù)對(duì)話(huà)意圖十分豐富,且同一對(duì)話(huà)意圖可以用幾乎是無(wú)限種不同的語(yǔ)言輸入來(lái)表現(xiàn),另一方面,對(duì)一個(gè)確定的語(yǔ)言輸入的意圖識(shí)別也會(huì)存在不確定性,更不用說(shuō)語(yǔ)言輸入本身的識(shí)別也可能存在不確定性。因此,很難直接從訓(xùn)練數(shù)據(jù)直接獲得,而需要另外的技術(shù)來(lái)進(jìn)行估計(jì)。對(duì)觀測(cè)函數(shù)專(zhuān)門(mén)研究的文獻(xiàn)不多。文獻(xiàn)[9]簡(jiǎn)單地把語(yǔ)音識(shí)別錯(cuò)誤率引入到觀測(cè)函數(shù)的估計(jì)中,主要建模語(yǔ)音輸入識(shí)別錯(cuò)誤的影響,但并不考慮對(duì)識(shí)別結(jié)果進(jìn)行用戶(hù)意圖識(shí)別時(shí)的錯(cuò)誤。這種估計(jì)方法也沒(méi)有把訓(xùn)練數(shù)據(jù)的信息考慮到里面,性能較差。文獻(xiàn)[10]結(jié)合連續(xù)信息與離散信息并應(yīng)用到貝葉斯網(wǎng)路里面,觀測(cè)的集合大小有4種,即觀測(cè)是離散的,連續(xù)信息指的是觀測(cè)的概率,但需要相關(guān)閾值確定離散信息,閾值的確定給計(jì)算POMDP的回報(bào)值帶來(lái)困難。文獻(xiàn)[7]對(duì)觀測(cè)函數(shù)進(jìn)行擴(kuò)展,在原來(lái)的基礎(chǔ)上加入置信度(Confidence)分?jǐn)?shù),用置信度來(lái)衡量該觀測(cè)包含的信息量和對(duì)策略規(guī)劃的重要程度,但是此方法的參數(shù)h很難估計(jì),由于是直接引入置信度,因此很難在現(xiàn)有的工具訓(xùn)練模型。
觀測(cè)函數(shù)是描述內(nèi)部狀態(tài)與外部環(huán)境之間的聯(lián)系。對(duì)話(huà)管理的一個(gè)關(guān)鍵性的問(wèn)題是部分可觀測(cè)帶來(lái)的不確定性[11-12],而信息的不確性可以使用信息熵來(lái)衡量,因此為了使觀測(cè)函數(shù)更能反映環(huán)境的不確定信息和其所包含的信息量,本文引入信息熵來(lái)修正觀測(cè)概率。
1 POMDP模型及觀測(cè)函數(shù)
的估計(jì)
一個(gè)POMDP模型可以用一個(gè)六元組[]來(lái)描述,其含義如下:
*[S]:系統(tǒng)的狀態(tài)集合
*[A]:系統(tǒng)的動(dòng)作集合
*[T(s′,a,s)]:系統(tǒng)的狀態(tài)轉(zhuǎn)移函數(shù),描述的是當(dāng)系統(tǒng)在狀態(tài)s下執(zhí)行動(dòng)作a可能轉(zhuǎn)移到[s′]的概率
*[R(s,a)]:系統(tǒng)的報(bào)酬函數(shù),描述的是當(dāng)在狀態(tài)s下執(zhí)行動(dòng)作a時(shí),系統(tǒng)獲得的立即回報(bào)值
*[Z]:系統(tǒng)的觀測(cè)集合
*[O(s′,a,o)]:系統(tǒng)的觀測(cè)函數(shù),其中[o∈Z]
POMDP問(wèn)題結(jié)構(gòu)如圖1所示。每個(gè)時(shí)刻,系統(tǒng)會(huì)處于一個(gè)隱狀態(tài)s,系統(tǒng)會(huì)根據(jù)當(dāng)前的信念分布b,選擇一個(gè)動(dòng)作a,得到一個(gè)立即回報(bào)r,然后轉(zhuǎn)移到下一個(gè)隱狀態(tài)[s′],[s′]依賴(lài)于s、a。此時(shí)系統(tǒng)會(huì)得到新的觀測(cè)[o′],[o′]依賴(lài)于[s′]、a,然后根據(jù)動(dòng)作a,新的觀測(cè)[o′],更新當(dāng)前的信念分布,繼續(xù)選擇動(dòng)作。其中關(guān)于[o′]的觀測(cè)概率,可用于確定轉(zhuǎn)移到[s′]狀態(tài)的置信度。
在POMDP中,觀測(cè)函數(shù)一般情況下是很難直接從數(shù)據(jù)中估計(jì)得到,需要額外的信息去加強(qiáng)對(duì)觀測(cè)函數(shù)的估計(jì),反映環(huán)境的不確定性。
文獻(xiàn)[9]在研究基于語(yǔ)音輸入的人機(jī)對(duì)話(huà)系統(tǒng)建模時(shí),把語(yǔ)音識(shí)別錯(cuò)誤率引入到觀測(cè)矩陣的估計(jì)中,而語(yǔ)音識(shí)別結(jié)果到意圖的映射是一對(duì)一的。雖然這里是針對(duì)語(yǔ)言識(shí)別錯(cuò)誤,假設(shè)輸入為文本,不存在語(yǔ)音識(shí)別錯(cuò)誤時(shí),這里的語(yǔ)音識(shí)別錯(cuò)誤也可以看成是意圖識(shí)別的錯(cuò)誤,因此,相同的模型可以建模文本輸入時(shí)存在意圖識(shí)別錯(cuò)誤的情形。因此,后文中我們會(huì)替換使用語(yǔ)音識(shí)別和意圖識(shí)別,其反映的都是類(lèi)似的觀測(cè)中的不確定性,可以類(lèi)似進(jìn)行建模。設(shè)[perr]為語(yǔ)音識(shí)別錯(cuò)誤率,如果用戶(hù)的意圖與系統(tǒng)觀測(cè)到的用戶(hù)意圖或行為一致的話(huà),認(rèn)為觀測(cè)概率為1-[perr];否則觀測(cè)概率[perr|Au|-1],其中[Au]為觀測(cè)集合的個(gè)數(shù)。這種方法把語(yǔ)音識(shí)別的整體錯(cuò)誤率信息引入到觀測(cè)函數(shù)里面,但是卻沒(méi)有反映當(dāng)前對(duì)話(huà)的信息。
文獻(xiàn)[7]和文獻(xiàn)[13]對(duì)文獻(xiàn)[9]觀測(cè)函數(shù)進(jìn)行擴(kuò)展,在原來(lái)的基礎(chǔ)上加入置信度分?jǐn)?shù),反映當(dāng)前對(duì)話(huà)的信息。在每個(gè)觀測(cè)概率前乘以相應(yīng)的觀測(cè)置信度分?jǐn)?shù)。這種方法把觀測(cè)o分成兩部分,一部分是離散的觀測(cè)值,代表語(yǔ)音識(shí)別或意圖識(shí)別的假設(shè);一部分是連續(xù)分?jǐn)?shù),衡量該假設(shè)的置信度。由于直接在觀測(cè)函數(shù)里面加入連續(xù)性的分?jǐn)?shù),目前訓(xùn)練工具基本都是要求觀測(cè)部分是離散的,因此無(wú)法在現(xiàn)有的工具上直接訓(xùn)練。
2 改進(jìn)的觀測(cè)函數(shù)估計(jì)方法
在文獻(xiàn)[14]中,每一個(gè)語(yǔ)音輸入只有一個(gè)識(shí)別結(jié)果,即只使用識(shí)別率最高或分?jǐn)?shù)最高的結(jié)果,相當(dāng)于使用1-best識(shí)別結(jié)果。
但是,語(yǔ)音識(shí)別通常并不完美,采用1-best顯然沒(méi)有采用n-Best(n>1)得到的信息豐富。直接利用1-best結(jié)果作為觀測(cè)已經(jīng)一定程度損失了語(yǔ)音信息。例如:假設(shè)一個(gè)語(yǔ)音輸入的標(biāo)準(zhǔn)識(shí)別結(jié)果是“我要購(gòu)買(mǎi)從北京到廣州的機(jī)票”,其1-best結(jié)果為“我要購(gòu)買(mǎi)東京到廣州的機(jī)票”。如果還有2rd-best的結(jié)果“我要購(gòu)買(mǎi)從北京到廣西的機(jī)票”以及3rd-best的結(jié)果“我要購(gòu)買(mǎi)從北京到杭州的機(jī)票”,甚至N-best的結(jié)果...其中N-best列表中的第一個(gè)地點(diǎn)很有可能出現(xiàn)“北京”的次數(shù)多于其他的地點(diǎn),采用語(yǔ)音識(shí)別的N-best結(jié)果可以使觀測(cè)的結(jié)果更能反映真實(shí)的狀態(tài),使信念分布提供更具體的信息。
本文關(guān)注輸入為文本的人機(jī)對(duì)話(huà)系統(tǒng)管理。如上所述,對(duì)于文本輸入的對(duì)話(huà),語(yǔ)言輸入假設(shè)是正確的,那么需要考慮的是意圖識(shí)別的錯(cuò)誤。在采用POMDP建模時(shí),需要基于文本輸入估計(jì)對(duì)話(huà)意圖作為真正的觀測(cè)。一般,對(duì)每輪對(duì)話(huà)中用戶(hù)的輸入進(jìn)行一次意圖識(shí)別,對(duì)于一段語(yǔ)言輸入判斷其言語(yǔ)意圖,可以用分類(lèi)器(意圖識(shí)別器)來(lái)進(jìn)行識(shí)別,本文在實(shí)驗(yàn)中會(huì)選擇采用兩種不同的意圖分類(lèi)器進(jìn)行考查,無(wú)論哪種分類(lèi)器,均可以得到N-best識(shí)別結(jié)果。隨后的問(wèn)題就是,如何有效利用這些N-best信息。
本文提出利用N-best信息,計(jì)算其信息熵,引入到觀測(cè)函數(shù)中,用于修正觀測(cè)矩陣的值,使觀測(cè)函數(shù)包含環(huán)境不確定性的信息,更加客觀的描述環(huán)境。
為每個(gè)觀測(cè)得到的是一個(gè)N-best列表(由意圖識(shí)別器獲得),N-best列表記錄的最可能的N個(gè)用戶(hù)意圖假設(shè),N-best列表中同時(shí)還記錄了意圖識(shí)別器為每個(gè)用戶(hù)意圖分配的概率,例如:
[o=[
本節(jié)基于對(duì)話(huà)系統(tǒng)對(duì)修正后的觀測(cè)函數(shù)對(duì)POMDP模型的性能進(jìn)行定量分析。實(shí)驗(yàn)分別在模擬和實(shí)際的對(duì)話(huà)系統(tǒng)中進(jìn)行。
模擬系統(tǒng)實(shí)驗(yàn)是在給定一組策略下,經(jīng)過(guò)多輪決策,估計(jì)總的期望回報(bào)。使用基于SARSOP 算法的Approximate POMDP Planning工具包,模擬決策次數(shù)是1 000次。
真實(shí)系統(tǒng)實(shí)驗(yàn)是在一個(gè)以機(jī)器人教學(xué)為目的的對(duì)話(huà)系統(tǒng)下進(jìn)行的,通過(guò)接收實(shí)際的人類(lèi)語(yǔ)言輸入,POMDP模型采用修正后的觀測(cè)函數(shù)(其他參數(shù)不變)進(jìn)行決策,產(chǎn)生相應(yīng)的應(yīng)對(duì)句子。
實(shí)驗(yàn)采用的對(duì)話(huà)系統(tǒng)結(jié)構(gòu)如圖2所示,UserState為用戶(hù)的狀態(tài)即意圖,Obs為系統(tǒng)的觀測(cè)部分,由于需要計(jì)算Obs的信息熵,因此該觀測(cè)值不是1-best,而是N-best,Action是對(duì)話(huà)系統(tǒng)的動(dòng)作,Reward是系統(tǒng)得到的長(zhǎng)期累計(jì)回報(bào)值,并不是當(dāng)前得到的立即回報(bào)值。
系統(tǒng)根據(jù)用戶(hù)的意圖來(lái)選擇動(dòng)作,達(dá)到學(xué)習(xí),回答,詢(xún)問(wèn)的結(jié)果。在該系統(tǒng)的設(shè)計(jì)中,使用156個(gè)對(duì)話(huà)作為訓(xùn)練語(yǔ)料,建模一個(gè)基于POMDP的對(duì)話(huà)系統(tǒng),需要完成7部分工作。
(1)狀態(tài)
在POMDP模型框架之上構(gòu)建的對(duì)話(huà)系統(tǒng),模型中的信念狀態(tài)包含當(dāng)前狀態(tài)的信息和歷史信息,允許系統(tǒng)不直接知道確定的狀態(tài),根據(jù)信念狀態(tài)分布做出決策,所以可以把用戶(hù)的意圖直接作為狀態(tài)變量。用戶(hù)意圖總共分4種類(lèi)型:對(duì)話(huà)開(kāi)始/結(jié)束狀態(tài);教學(xué)意圖,教學(xué)形狀、類(lèi)別、顏色、名稱(chēng)、部位;查詢(xún)意圖,查詢(xún)名稱(chēng)、顏色、形狀、部位;其他意圖。
(2)動(dòng)作
動(dòng)作是對(duì)話(huà)系統(tǒng)根據(jù)當(dāng)前信念狀態(tài)分布信息采取的操作,用于與用戶(hù)交互。對(duì)話(huà)系統(tǒng)的動(dòng)作可以分為5類(lèi):對(duì)話(huà)開(kāi)始/結(jié)束;回答,回答形狀、類(lèi)別、顏色、名稱(chēng)、部位;提問(wèn),提問(wèn)名稱(chēng)、顏色、形狀、部位;學(xué)習(xí),學(xué)習(xí)形狀、類(lèi)別、顏色、名稱(chēng)、部位;其他。
(3)觀測(cè)
這個(gè)系統(tǒng)的觀測(cè)是用戶(hù)說(shuō)話(huà)意圖的表現(xiàn),主要是用于描述在系統(tǒng)的角度下用戶(hù)意圖的表現(xiàn),所以把觀測(cè)狀態(tài)集合定義為和狀態(tài)集合一樣。
(4)狀態(tài)轉(zhuǎn)移函數(shù)
系統(tǒng)是根據(jù)當(dāng)前的信念狀態(tài)得出動(dòng)作,從而影響用戶(hù)的下一步的狀態(tài),由于把用戶(hù)狀態(tài)定義為用戶(hù)意圖,即會(huì)影響用戶(hù)意圖。不同的動(dòng)作選擇會(huì)對(duì)用戶(hù)意圖的改變有著不同的影響。狀態(tài)轉(zhuǎn)移函數(shù)用于記錄當(dāng)前意圖下,執(zhí)行動(dòng)作后,下一個(gè)出現(xiàn)某意圖的可能性。
(5)觀察函數(shù)
一般情況下觀測(cè)函數(shù)是很難直接從訓(xùn)練語(yǔ)料直接統(tǒng)計(jì)出來(lái),也是POMDP模型最復(fù)雜,最有挑戰(zhàn)性的部分。不同的狀態(tài)、動(dòng)作會(huì)導(dǎo)致不同的觀察出現(xiàn)。觀測(cè)函數(shù)的性能也是直接影響信念狀態(tài)的更新,從而影響對(duì)話(huà)系統(tǒng)的決策。為了方便計(jì)算,該系統(tǒng)認(rèn)為系統(tǒng)的觀測(cè)只跟當(dāng)前的意圖相關(guān),與前一個(gè)動(dòng)作無(wú)關(guān),即[p(o|s′u,a)=p(o|s′u)]。
(6)回報(bào)函數(shù)
回報(bào)函數(shù)是用于描述在當(dāng)前意圖的情況下執(zhí)行某動(dòng)作后得到的回報(bào)?;貓?bào)函數(shù)的定義雖然比較簡(jiǎn)單,但是卻不能很好的定義回報(bào)函數(shù)。目前一般都是按照系統(tǒng)的實(shí)際用途人工定義回報(bào)函數(shù)。系統(tǒng)根據(jù)用戶(hù)意圖采取正確的動(dòng)作就可以得到正的回報(bào),執(zhí)行錯(cuò)誤的動(dòng)作就會(huì)得到負(fù)的回報(bào)。比如,如果當(dāng)前用戶(hù)意圖是Teach類(lèi)別的話(huà),系統(tǒng)采取Rlearn動(dòng)作,就會(huì)得到+200的回報(bào),采取Rquery類(lèi)別的動(dòng)作就會(huì)得到+150回報(bào),否則會(huì)得到-200回報(bào);如果當(dāng)前意圖是End,用戶(hù)采取的動(dòng)作是Rend,代表對(duì)話(huà)結(jié)束,可以給出+1000的回報(bào)。
(7)Belief初始值
如果沒(méi)有對(duì)話(huà)的開(kāi)始狀態(tài),一般情況下是每個(gè)狀態(tài)的Belief值定義為一樣,效果比較好。
根據(jù)這7部分的定義,搭建一個(gè)基于POMDP模型的對(duì)話(huà)系統(tǒng),這個(gè)模型總共有12種狀態(tài),9種動(dòng)作,12種觀測(cè),折扣因子為0.9,因?yàn)橐腴_(kāi)始/結(jié)束狀態(tài),初始狀態(tài)的信念值只有Start的值為1,其他狀態(tài)的值為0。
為了加快POMDP模型的速度,訓(xùn)練時(shí)沒(méi)有采用精確求解算法,而是采用SARSOP近似算法。
為了更全面的考察上文提出的修正觀測(cè)概率方法在基于POMDP的對(duì)話(huà)系統(tǒng)的效果,設(shè)計(jì)了兩個(gè)實(shí)驗(yàn)。
3.2 模擬環(huán)境實(shí)驗(yàn)
意圖識(shí)別模塊使用條件隨機(jī)場(chǎng)(CRF)和支持向量機(jī)(SVM)兩種分類(lèi)器來(lái)估計(jì)觀測(cè)概率,同時(shí)為了體現(xiàn)加入修正方法后,系統(tǒng)的健壯性,在估計(jì)狀態(tài)轉(zhuǎn)移時(shí)同時(shí)使用4種不同的平滑方法(不使用平滑(Origin),最大熵,最大使然,Good-turing)估計(jì)狀態(tài)轉(zhuǎn)移概率。模擬次數(shù)是1 000次。
表1的意圖識(shí)別分類(lèi)器都是使用CRF,而表1的第二列實(shí)驗(yàn)的POMDP模型中的觀測(cè)概率是沒(méi)有經(jīng)過(guò)修正的,第三列的觀測(cè)概率是經(jīng)過(guò)修正的。從表1可以看出,經(jīng)過(guò)修正后的系統(tǒng)回報(bào)值比沒(méi)有經(jīng)過(guò)修正的系統(tǒng)回報(bào)值要大,最高提高了2.5%,最低提高了2%。
表2的意圖識(shí)別分類(lèi)器都是使用SVM,而第二列實(shí)驗(yàn)的POMDP模型中的觀測(cè)概率是沒(méi)有經(jīng)過(guò)修正的,第三列的觀測(cè)概率是經(jīng)過(guò)修正的。從表2可以看出,經(jīng)過(guò)修正后的系統(tǒng)回報(bào)值比沒(méi)有經(jīng)過(guò)修正的系統(tǒng)回報(bào)值要大,最高提高了35%,最低提高了3.4%。
主要結(jié)論是:修正帶來(lái)了性能提高,且不論是CRF還是SVM,都能提高。主要原因是觀測(cè)函數(shù)是反映環(huán)境的不確定性與意圖識(shí)別的錯(cuò)誤信息的一個(gè)渠道,因此加入信息熵的概率來(lái)修正觀測(cè)概率在理論上也有所支持。
3.3 真實(shí)對(duì)話(huà)實(shí)驗(yàn)
上一組實(shí)驗(yàn)是直接經(jīng)過(guò)POMDP模型仿真模擬得出的結(jié)果,下面這一組實(shí)驗(yàn)是放在真實(shí)對(duì)話(huà)中測(cè)試經(jīng)過(guò)修正觀測(cè)概率后給對(duì)話(huà)系統(tǒng)帶來(lái)的影響。
表3、表4中的每個(gè)實(shí)驗(yàn)都包含3個(gè)測(cè)試樣本集,第一個(gè)樣本集的對(duì)話(huà)輪數(shù)是212,第二個(gè)樣本集的對(duì)話(huà)輪數(shù)是87,第三個(gè)樣本集的對(duì)話(huà)輪數(shù)是100。分別對(duì)比表3和表4,可知對(duì)觀測(cè)概率經(jīng)過(guò)修正后,在真實(shí)對(duì)話(huà)中,該對(duì)話(huà)系統(tǒng)的決策準(zhǔn)確度比沒(méi)有使用修正的觀測(cè)矩陣的系統(tǒng)是要高的,對(duì)系統(tǒng)的決策性能有所提高。
通過(guò)實(shí)驗(yàn)一與實(shí)驗(yàn)二兩組實(shí)驗(yàn)可知,使用CRF分類(lèi)進(jìn)行意圖識(shí)別得到的期望回報(bào)整體上會(huì)比使用SVM方法的要大,主要是因?yàn)楸疚氖褂玫幕赟VM分類(lèi)器的意圖識(shí)別模塊的識(shí)別錯(cuò)誤率perr為0.17,而基于CRF分類(lèi)的意圖識(shí)別錯(cuò)誤率perr為0.05,也就是說(shuō)意圖識(shí)別錯(cuò)誤率的大小會(huì)直接影響到模型的性能大小。
使用SVM作為意圖識(shí)別模塊的對(duì)話(huà)系統(tǒng)經(jīng)過(guò)修改觀測(cè)概率方法后,系統(tǒng)決策性能的提升幅度比使用CRF的要大,主要是因?yàn)楸疚氖褂玫幕赟VM分類(lèi)器的意圖識(shí)別模塊的識(shí)別錯(cuò)誤率比基于CRF分類(lèi)的意圖識(shí)別錯(cuò)誤率要大,也就是說(shuō)CRF的意圖識(shí)別率已經(jīng)很高,修正前與修正后的概率變化不大,而SVM的意圖識(shí)別錯(cuò)誤率比CRF的大,修正的觀測(cè)概率給對(duì)話(huà)系統(tǒng)帶來(lái)比較大的影響。如果從信息熵的角度來(lái)看的話(huà),經(jīng)過(guò)計(jì)算,使用CRF的意圖識(shí)別的系統(tǒng)得到的觀測(cè)平均信息熵是0.3168,而是用SVM的意圖識(shí)別的系統(tǒng)得到的觀測(cè)平均信息熵是1.0557。平均信息熵越高,不確定性越大,越需要修正觀測(cè)矩陣,可提升的性能也越大。平均信息熵越低,代表觀測(cè)比較可靠,越不需修正,甚至可以直接相信觀測(cè),同樣可提升的性能也不大。
因此在意圖識(shí)別錯(cuò)誤率比較高的情況是有必要對(duì)觀測(cè)概率進(jìn)行合理的修正,以達(dá)到提高對(duì)話(huà)系統(tǒng)的決策性能的效果。
3.4 實(shí)驗(yàn)總結(jié)
意圖識(shí)別模塊的性能很明顯對(duì)模型的期望回報(bào)有著很大的影響,模型的期望回報(bào)是反應(yīng)該模型的性能重要指標(biāo),系統(tǒng)是通過(guò)意圖識(shí)別的結(jié)果對(duì)具有不確定性的環(huán)境的進(jìn)行估計(jì),根據(jù)不完全可觀測(cè)的結(jié)果,進(jìn)行決策,執(zhí)行動(dòng)作,得到回報(bào)獎(jiǎng)賞,進(jìn)而與環(huán)境交互。因此意圖識(shí)別的性能和對(duì)環(huán)境的估計(jì)準(zhǔn)確程度與對(duì)話(huà)系統(tǒng)的性能有著密切關(guān)系。通過(guò)實(shí)驗(yàn)與分析可知,在意圖識(shí)別錯(cuò)誤率一定的情況下,在觀測(cè)函數(shù)估計(jì)中引入對(duì)環(huán)境不確定性的信息,通過(guò)信息熵描述環(huán)境的不確定性,提高系統(tǒng)對(duì)環(huán)境的估計(jì)與判斷,使系統(tǒng)在不完全可觀測(cè)的情況下,提高決策的準(zhǔn)確度與模型的期望回報(bào)。
4 結(jié)論
在本文中,把描述環(huán)境不確定性的信息熵加入到觀測(cè)函數(shù)里,修正觀測(cè)概率。以一個(gè)簡(jiǎn)單的機(jī)器人教學(xué)系統(tǒng)為例子實(shí)現(xiàn)具體的POMDP模型,并通過(guò)兩個(gè)實(shí)驗(yàn)考察觀測(cè)概率經(jīng)過(guò)修正后與修正前的性能差異,驗(yàn)證使用修正后的觀測(cè)概率的系統(tǒng)得到較好的效果。
作為使用POMDP模型來(lái)搭建對(duì)話(huà)系統(tǒng)這個(gè)方向的初步工作,本文的結(jié)果說(shuō)明對(duì)話(huà)的決策性能受很多方面影響。可以通過(guò)很多方面提高對(duì)話(huà)決策性能,回報(bào)函數(shù)反映執(zhí)行某動(dòng)作得到的立即回報(bào),也是與環(huán)境交互的結(jié)果之一,因此今后可以把回報(bào)函數(shù)的信息加入到觀測(cè)函數(shù)里面,增強(qiáng)觀測(cè)函數(shù)對(duì)環(huán)境的描述。