宋清源 傅衛(wèi)平 王 雯 高志強(qiáng)周勁草郝大鵬
(1.西安理工大學(xué)機(jī)械與精密儀器工程學(xué)院,陜西西安 710048;2.西安外事學(xué)院工學(xué)院,陜西西安 710077;3.西安航空學(xué)院理學(xué)院,陜西西安 710077)
自動(dòng)駕駛汽車(chē)代替人類(lèi)駕駛汽車(chē)出行將成為未來(lái)的必然趨勢(shì);同時(shí),在相當(dāng)長(zhǎng)時(shí)期內(nèi),自動(dòng)駕駛汽車(chē)將與人類(lèi)交通參與者(包括行人和人工駕駛的各種機(jī)動(dòng)與非機(jī)動(dòng)車(chē)輛)共享城市道路.為了在城市復(fù)雜混合交通環(huán)境中安全高效行駛,自動(dòng)駕駛車(chē)輛需要正確估計(jì)人類(lèi)交通參與者的行為意圖,并像人類(lèi)駕駛車(chē)輛那樣與人類(lèi)交通參與者自然地相互作用[1-2].否則,面對(duì)交通參與者不遵守交通規(guī)則的場(chǎng)景,自動(dòng)駕駛汽車(chē)是寸步難行的[3].人類(lèi)交通參與者的行為及其相互作用在現(xiàn)實(shí)世界中往往具有明顯的不確定性和非理性,而自動(dòng)駕駛的“長(zhǎng)尾”問(wèn)題與非理性的行為意圖和不確定的相互作用有關(guān)[4],需要采用正確而有效的認(rèn)知與決策理論進(jìn)行研究.但是,目前尚缺少有關(guān)研究人類(lèi)交通參與者非理性行為的有效方法.
交叉路口是典型的交通參與者相互作用場(chǎng)景.自動(dòng)駕駛車(chē)輛在無(wú)右轉(zhuǎn)指示燈的交叉口即將右轉(zhuǎn)時(shí),會(huì)與非機(jī)動(dòng)車(chē)道的其他交通參與者發(fā)生交互行為.目前,對(duì)人類(lèi)交通參與者的認(rèn)知與決策行為研究多基于完全理性的和相互獨(dú)立的假設(shè)[5],并且均采用基于經(jīng)典概率的認(rèn)知與決策理論進(jìn)行研究,然而,已有人類(lèi)行為認(rèn)知與決策理論的研究結(jié)果表明,人類(lèi)的行為與經(jīng)典認(rèn)知與決策理論中的完全理性假設(shè)是不相容的[6],基于經(jīng)典概率的認(rèn)知與決策理論不能準(zhǔn)確地描述人類(lèi)的行為及其相互作用,這使得自主駕駛系統(tǒng)不能有效處理其他交通參與者的非理性行為以及相互作用等固有的不確定性,因而成為影響自主車(chē)輛安全運(yùn)行的主要瓶頸之一.而量子理論為研究人類(lèi)交通參與者不確定性行為(包括非理性行為)及其相互作用提供了一種新途徑.
學(xué)者們將人類(lèi)交通參與者的人體特征、為動(dòng)作作為意圖估計(jì)的依據(jù),研究者們進(jìn)行了大量利用人體特征進(jìn)行行為預(yù)測(cè)的研究.Koehler等人[7]使用行人運(yùn)動(dòng)的輪廓推斷行人過(guò)街的意圖.該輪廓線(xiàn)的主要特征是行人身體彎曲程度和腿部伸展程度;Kooij等人[8]借助頭部朝向特征估計(jì)行人意圖,他們認(rèn)為,當(dāng)行人面朝接近車(chē)輛時(shí),行人更有可能在過(guò)街之前與車(chē)輛進(jìn)行協(xié)商;Fang等人[9]使用了單目視覺(jué)二維姿態(tài)估計(jì)方法預(yù)測(cè)行人和騎自行車(chē)人的過(guò)街行為,經(jīng)典概率模型不適用于真實(shí)場(chǎng)景.這使得上述方法有一定局限性.更多的學(xué)者開(kāi)始利用基于經(jīng)典概率模型的機(jī)器學(xué)習(xí)去估計(jì)行人意圖.Markus等人[10]將部分可見(jiàn)馬爾科夫(partially observable Markov decision process,POMDP)模型與緊急制動(dòng)系統(tǒng)結(jié)合,用POMDP預(yù)測(cè)行人發(fā)生碰撞的概率,減少不必要的制動(dòng);Jos等人[11]用增長(zhǎng)的隱馬爾科夫模型(grow hidden Markov models,GHMMs)從在線(xiàn)數(shù)據(jù)中學(xué)習(xí),無(wú)需人工干預(yù).實(shí)驗(yàn)表明在基于社會(huì)力的運(yùn)動(dòng)模型中利用GHMM估計(jì)的人的預(yù)期位置,與基于標(biāo)準(zhǔn)恒速模型相比,可以獲得顯著的性能提高,Wu等人[12]提出了一種基于馬爾科夫模型(Markov decision process,MDP)的概率方法來(lái)預(yù)測(cè)城市環(huán)境中的行人運(yùn)動(dòng),Koehler等人[13]等人提出常用的解決復(fù)雜環(huán)境中行人意圖估計(jì)問(wèn)題的方法是動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(dynamic Bayes network,DBN),它從概率圖形模型中繼承了各種建模方案和大量精確和近似推理和學(xué)習(xí)技術(shù),Kooij等人[8]提出采用DBN和切換線(xiàn)性動(dòng)力系統(tǒng)(switching linear dynamics system,SLDS)來(lái)推斷下一個(gè)行人的運(yùn)動(dòng),Rudenko等人[15]提出了一種用于行人預(yù)測(cè)的DBN,該DBN有兩種運(yùn)動(dòng)模式(行走和站立).基于經(jīng)典概率模型的機(jī)器學(xué)習(xí)對(duì)預(yù)估行人假設(shè)為完全理性,在實(shí)際環(huán)境中行人不一定按照既定的模式運(yùn)動(dòng).
絕大多數(shù)研究?jī)H把交通參與者看成是沒(méi)有認(rèn)知能力的運(yùn)動(dòng)物體,假設(shè)其行為是理性的.然而,已經(jīng)有證據(jù)表明,對(duì)于人類(lèi)的某些行為,特別是非理性行為,包括交通環(huán)境中的人類(lèi)行為,往往偏離基于經(jīng)典概率的行為理論預(yù)期[16],因而可能成為自動(dòng)駕駛安全導(dǎo)航的潛在風(fēng)險(xiǎn).
量子力學(xué)是上世紀(jì)最偉大的發(fā)現(xiàn),極大地推動(dòng)著現(xiàn)代科學(xué)技術(shù)的發(fā)展,成為了新興科學(xué)技術(shù)的理論支柱.認(rèn)知領(lǐng)域的學(xué)者發(fā)現(xiàn),量子力學(xué)中干涉和糾纏與人類(lèi)認(rèn)知中的交互作用有很多相似的特點(diǎn),這一發(fā)現(xiàn)促使量子力學(xué)的數(shù)學(xué)表達(dá)方法被構(gòu)建,并將量子概率引入認(rèn)知領(lǐng)域,嘗試?yán)昧孔恿W(xué)獨(dú)有的特征建立認(rèn)知模型,解釋基于經(jīng)典概率的認(rèn)知決策理論無(wú)法解釋的人類(lèi)認(rèn)知領(lǐng)域難題,建立在量子概率基礎(chǔ)上的量子認(rèn)知決策理論逐漸孕育而生[17],不僅形成了日臻成熟的理論體系,而且得到日益廣泛的應(yīng)用[2].特別是在與無(wú)人駕駛技術(shù)最密切相關(guān)的移動(dòng)機(jī)器人領(lǐng)域初顯的量子端倪[16],更讓人們看到了應(yīng)用量子理論解決自動(dòng)駕駛認(rèn)知與決策問(wèn)題的潛力和可能性.量子理論為研究人類(lèi)交通參與者不確定性行為(包括非理性行為)及其相互作用提供了一種新途徑.量子概率與經(jīng)典機(jī)器學(xué)習(xí)理論(MDP,POMDP,DBN,HMM等)結(jié)合產(chǎn)生的量子認(rèn)知決策理論,為自動(dòng)駕駛系統(tǒng)認(rèn)知決策研究提供了更為先進(jìn)且有效可行的理論工具.
綜上所述,目前尚缺少考慮人類(lèi)交通參與者非理性行為的自動(dòng)駕駛認(rèn)知與決策的系統(tǒng)性方法,雖然量子認(rèn)知與決策理論近年來(lái)取得長(zhǎng)足發(fā)展,為研究考慮人類(lèi)交通參與者行為(包括非理性行為)和相互作用的自動(dòng)駕駛認(rèn)知與決策問(wèn)題提供了新的方法,但是目前尚無(wú)應(yīng)用于自動(dòng)駕駛領(lǐng)域的研究案例.本文將量子認(rèn)知理論與錨定效應(yīng)相結(jié)合,以交叉路口自動(dòng)駕駛汽車(chē)右轉(zhuǎn)與非機(jī)動(dòng)車(chē)道上的交通參與者發(fā)生交互為背景,分析自動(dòng)駕駛車(chē)輛右轉(zhuǎn)時(shí)非機(jī)動(dòng)車(chē)輛和行人的行為意圖及其演化規(guī)律,建立量子決策模型,為自動(dòng)駕駛車(chē)輛行駛提供策略依據(jù).
如圖1所示,自主車(chē)即將右轉(zhuǎn),在臨近交叉口處觀(guān)察到非機(jī)動(dòng)車(chē)和行人,但對(duì)行人或非機(jī)動(dòng)車(chē)的未來(lái)狀態(tài)(直行、左轉(zhuǎn)或右轉(zhuǎn))未知.可分情況討論:1)若行人或非機(jī)動(dòng)車(chē)右轉(zhuǎn),則行人或非機(jī)動(dòng)車(chē)占內(nèi)側(cè)道路,自主車(chē)占外側(cè)道路,不發(fā)生交互行為,可以忽略;2)若行人或非機(jī)動(dòng)車(chē)直行或者左轉(zhuǎn),都會(huì)與自主車(chē)發(fā)生交互行為,行人或非機(jī)動(dòng)車(chē)可能會(huì)在行進(jìn)過(guò)程中發(fā)生不確定性或非理性行為,比較典型且經(jīng)常發(fā)生的行為如行人或非機(jī)動(dòng)車(chē)不遵守交通規(guī)則.行人突然接打電話(huà).非機(jī)動(dòng)車(chē)由于路滑翻車(chē)等,這些行為都會(huì)影響到交互結(jié)果(發(fā)生碰撞或安全通過(guò)).
在自主車(chē)與行人或非機(jī)動(dòng)車(chē)發(fā)生交互之前,將真實(shí)交通場(chǎng)景中的停車(chē)線(xiàn)(圖中標(biāo)注目標(biāo)線(xiàn))作為目標(biāo),設(shè)自主車(chē)從當(dāng)前位置到目標(biāo)線(xiàn)的時(shí)間為T(mén)1,行人或者非機(jī)動(dòng)車(chē)從當(dāng)前位置到目標(biāo)線(xiàn)的時(shí)間為T(mén)2,比較T1與T2的大小,為自主車(chē)提前采取正確的決策提供了有效的策略依據(jù).特別需要說(shuō)明的是,自主車(chē)將T1設(shè)置為交互時(shí)的參照時(shí)間,設(shè)定T1為估測(cè)值,將T2設(shè)定為實(shí)際值,若T1 根據(jù)以上分析,在能夠考慮到行人或非機(jī)動(dòng)車(chē)的不確定因素和非理性行為的情況下正確判斷T1與T2的大小,能夠在真實(shí)路況中,做出正確且符合實(shí)際情況的決策,是本次研究的重點(diǎn). 所謂錨定效應(yīng)(anchoring effect)是指當(dāng)人們需要對(duì)某個(gè)事件做定量估測(cè)時(shí),會(huì)將某些特定數(shù)值作為目標(biāo)值,目標(biāo)值像錨一樣制約著估測(cè)值.在做決策的時(shí)候,會(huì)不自覺(jué)地給予最初獲得的信息過(guò)多的重視[18]. 根據(jù)第3.1節(jié)所設(shè)定的場(chǎng)景,圖1中不論自主車(chē)還是非機(jī)動(dòng)車(chē)或行人,過(guò)了目標(biāo)線(xiàn)之后便是沖突交互區(qū)域,將自主車(chē)當(dāng)前位置至目標(biāo)線(xiàn)位置的時(shí)間t1設(shè)定為目標(biāo)值,將自主車(chē)預(yù)估非機(jī)動(dòng)車(chē)/行人到達(dá)目標(biāo)線(xiàn)位置的時(shí)間t2/t3分別設(shè)定為估測(cè)值,通過(guò)量子認(rèn)知模型結(jié)合錨定效應(yīng),準(zhǔn)確判定t1與t2/t3的大小,從而幫助自主車(chē)做出加速通過(guò)或減速讓行的決策. 圖1 自動(dòng)駕駛車(chē)輛右轉(zhuǎn)與非機(jī)動(dòng)車(chē)和行人交互場(chǎng)景Fig.1 The scene of autonomous vehicle turning right with nonmotor vehicle and pedestrians interaction 本文將自主車(chē)觀(guān)測(cè)到目標(biāo)線(xiàn)時(shí)還未到目標(biāo)線(xiàn)的非機(jī)動(dòng)車(chē)和行人定義為處于錨定條件,自主車(chē)未觀(guān)測(cè)到目標(biāo)線(xiàn)時(shí)非機(jī)動(dòng)車(chē)和行人定義為沒(méi)有處于錨定條件.在沒(méi)有處于錨定條件時(shí),有兩種相互排斥且完全包含所有情形組成的集合,即估測(cè)值低于和高于標(biāo)準(zhǔn)值,集合內(nèi)的元素用量子態(tài)的形式表示成{|L>,|H >},其中:|L>表示估測(cè)值低于目標(biāo)值,|H >表示估測(cè)值高于目標(biāo)值.最終測(cè)量時(shí)的狀態(tài)可以寫(xiě)成兩者的疊加態(tài),即|ψ>=α|L>+β|H>,其中α和β均為復(fù)數(shù),且滿(mǎn)足歸一化條件|α|2+|β|2=1.據(jù)量子波幅性質(zhì),估測(cè)值低于目標(biāo)值的概率為α,而高于目標(biāo)值的概率為β. 處于錨定條件時(shí),可以用集合{|LL>,|LH >,|HL>,|HH >}來(lái)表示所有可能的情況,其中第1個(gè)字母表示所處于的錨定條件,L表示低錨定條件,在同等條件下由于非機(jī)動(dòng)車(chē)到達(dá)目標(biāo)線(xiàn)時(shí)間比行人用時(shí)少,故本文中的低錨定條件表示自主車(chē)與非機(jī)動(dòng)車(chē)交互;同理,H表示高錨定條件,在本文中表示自主車(chē)與行人交互;第2個(gè)字母表示估測(cè)值和目標(biāo)值相比,L表示比目標(biāo)值低,H表示比目標(biāo)值高.所以此時(shí)可以用函數(shù)來(lái)表示: 式中:M表示從未進(jìn)入錨定條件到進(jìn)入錨定條件的過(guò)渡矩陣;ψL表示自主車(chē)還沒(méi)有進(jìn)入錨定條件時(shí),非機(jī)動(dòng)車(chē)或行人到達(dá)目標(biāo)線(xiàn)位置的時(shí)間(估測(cè)值)低于自主車(chē)從當(dāng)前位置到目標(biāo)線(xiàn)位置的時(shí)間(目標(biāo)值)的概率波幅函數(shù),同理,ψH與之類(lèi)似;ψLL表示在低錨定條件下即自主車(chē)與非機(jī)動(dòng)車(chē)交互時(shí),估測(cè)值比目標(biāo)值低的概率波幅函數(shù),其他與之類(lèi)似. 當(dāng)自主車(chē)進(jìn)入錨定條件進(jìn)行比較估測(cè)值與目標(biāo)值時(shí),自主車(chē)的信念行為狀態(tài)會(huì)依據(jù)收益矩陣動(dòng)態(tài)地從初始狀態(tài)ψ(0)轉(zhuǎn)變?yōu)樽罱K狀態(tài)ψ(t),這一過(guò)程可以用薛定諤方程(式2)的解(式3)描述: 設(shè)矩陣U(t)=e?itHA為酉矩陣(unitary matrix),其中第i行第j列元素的模的平方|Uij(t)|2表示在時(shí)間t內(nèi)從狀態(tài)j轉(zhuǎn)變?yōu)闋顟B(tài)i的概率.該矩陣滿(mǎn)足U?U=I,以保證狀態(tài)ψ的內(nèi)積不變,從而確保決策者在決策時(shí)轉(zhuǎn)變?yōu)樗锌赡芑鶓B(tài)概率之和保持為I[17].在薛定諤方程中,哈密頓矩陣HA起著關(guān)鍵作用,在上述模型中,哈密頓矩陣僅根據(jù)決策者自身的收益矩陣建立,如下: 其中: 式中:uL,uH分別表示自主車(chē)判定估測(cè)值比目標(biāo)值低、估測(cè)值比目標(biāo)值高的效用函數(shù),在本文中uL=uH=u,取值范圍為u ∈[0,1].特別要說(shuō)明的是,自主車(chē)在行駛過(guò)程中始終觀(guān)察前方的路況,數(shù)值越趨向1,代表估測(cè)值與目標(biāo)值越接近. 在此基礎(chǔ)上,考慮到環(huán)境的不確定因素和非機(jī)動(dòng)車(chē)或行人的非理性行為,加入“認(rèn)知失調(diào)”矩陣[17],“認(rèn)知失調(diào)”矩陣表示的是出現(xiàn)不確定因素和非理性行為時(shí),行為隨信念發(fā)生改變的關(guān)系: 上式建立的意義是:當(dāng)自主車(chē)將要做出估計(jì)值比目標(biāo)值低或者高的決策時(shí)(行為),第1個(gè)/第2個(gè)矩陣分別將參與決策的低錨定條件/高錨定條件考慮進(jìn)去(信念).特別要說(shuō)明的是 式中:γ表示信念與行為的糾纏的參數(shù),其值越大,表示在相同時(shí)間內(nèi),這種糾纏的程度越大,取值范圍為γ ∈[0,1].若γ >0那么第1行和最后1行的增長(zhǎng)速度要大于中間行,所以,信念和行為一致的狀態(tài)的振幅會(huì)增加. 式(4)-(5)本身不足以描述自主車(chē)與非機(jī)動(dòng)車(chē)和行人交互的行為,因?yàn)樗鼰o(wú)法解釋偏好如何隨回報(bào)而變化.將式(4)-(5)結(jié)合后得到HC=HA+HB.因此,初始狀態(tài)到最終狀態(tài)的時(shí)間演化既反映了收益的影響,也反映了“認(rèn)知失調(diào)”的過(guò)程. 在MATLAB平臺(tái)上進(jìn)行仿真計(jì)算,分為3種情況:1)自主車(chē)估測(cè)非機(jī)動(dòng)車(chē)到達(dá)目標(biāo)線(xiàn)的時(shí)間(估測(cè)值)與自主車(chē)到達(dá)目標(biāo)線(xiàn)的時(shí)間(目標(biāo)值)偏差概率分布;2)自主車(chē)估測(cè)行人到達(dá)目標(biāo)線(xiàn)的時(shí)間(估測(cè)值)與自主車(chē)到達(dá)目標(biāo)線(xiàn)的時(shí)間(目標(biāo)值)偏差概率分布;3)自主車(chē)估測(cè)非機(jī)動(dòng)車(chē)和行人組成的群體(以下簡(jiǎn)稱(chēng)群體)到達(dá)目標(biāo)線(xiàn)的時(shí)間(估測(cè)值)與自主車(chē)到達(dá)目標(biāo)線(xiàn)的時(shí)間(目標(biāo)值)偏差概率分布. 計(jì)算以上3種情況時(shí)需要對(duì)初始函數(shù)ψ(0)進(jìn)行設(shè)定,在估測(cè)非機(jī)動(dòng)車(chē)到達(dá)目標(biāo)線(xiàn)時(shí)間時(shí),由于此時(shí)行人到達(dá)目標(biāo)線(xiàn)的時(shí)間暫不考慮,所以ψHL和ψHH均為0;同理,在估測(cè)行人到達(dá)目標(biāo)線(xiàn)時(shí)間時(shí),ψLL和ψLH均為0;在估計(jì)群體到達(dá)目標(biāo)線(xiàn)時(shí)間時(shí),對(duì)各個(gè)概率波幅函數(shù)平均分配.特別需要注意的是,量子的概率振幅是模平方的形式,且滿(mǎn)足歸一性:ψ(0)表示如下: 式中ψ1(0),ψ2(0),ψ0(0)分別表示自主車(chē)估測(cè)非機(jī)動(dòng)車(chē)、行人、群體到達(dá)目標(biāo)線(xiàn)的時(shí)間這一過(guò)程的初始函數(shù). 與錨定效應(yīng)結(jié)合的新量子決策模型在計(jì)算自主車(chē)與非機(jī)動(dòng)車(chē)交互時(shí)估測(cè)值比目標(biāo)值低的概率分布時(shí),除了要考慮自主車(chē)觀(guān)測(cè)到的非機(jī)動(dòng)車(chē)的狀態(tài)之外,還要將可能出現(xiàn)的行人的狀態(tài)考慮進(jìn)去,最終的結(jié)果是ψLL和ψHL的和的概率振幅.計(jì)算自主車(chē)與行人或群體交互時(shí)與此同理. 隨著信念與行為糾纏的參數(shù)γ(橫坐標(biāo))從0到糾纏最大值1,代表在真實(shí)道路環(huán)境中自主車(chē)與其他交通參與者(非機(jī)動(dòng)車(chē)和行人)交互時(shí)非機(jī)動(dòng)車(chē)或行人出現(xiàn)的非理性行為從完全理性至非理性程度逐漸增大,如在完全理性下,非機(jī)動(dòng)車(chē)或行人在到達(dá)路口時(shí)速度應(yīng)逐漸降低,待觀(guān)察清楚后再起步前進(jìn),但若實(shí)際情形是非機(jī)動(dòng)車(chē)或行人出現(xiàn)非理性行為時(shí),在達(dá)到路口過(guò)程中速度非但不降速反而越來(lái)越快,則其加速度越大可以理解為信念與行為糾纏的參數(shù)越接近1. 當(dāng)效用函數(shù)分別為u=1,u=0.8,u=0.6,u=0.4,u=0.2及u=0時(shí)上述3種情況的概率分布(縱坐標(biāo)),最終得到結(jié)果如圖2-7所示. 圖2 u=1時(shí)自主車(chē)分別估測(cè)非機(jī)動(dòng)車(chē)(上)、行人(中)和群體(下)到達(dá)目標(biāo)線(xiàn)的時(shí)間(估測(cè)值)與自主車(chē)到達(dá)目標(biāo)線(xiàn)的時(shí)間(目標(biāo)值)偏差概率分布Fig.2 When u=1,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 圖3 u=0.8時(shí)自主車(chē)分別估測(cè)非機(jī)動(dòng)車(chē)(上)、行人(中)和群體(下)到達(dá)目標(biāo)線(xiàn)的時(shí)間(估測(cè)值)與自主車(chē)到達(dá)目標(biāo)線(xiàn)的時(shí)間(目標(biāo)值)偏差概率分布Fig.3 When u=0.8,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 圖4 u=0.6時(shí)自主車(chē)分別估測(cè)非機(jī)動(dòng)車(chē)(上)、行人(中)和群體(下)到達(dá)目標(biāo)線(xiàn)的時(shí)間(估測(cè)值)與自主車(chē)到達(dá)目標(biāo)線(xiàn)的時(shí)間(目標(biāo)值)偏差概率分布Fig.4 When u=0.6,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 圖5 u=0.4時(shí)自主車(chē)分別估測(cè)非機(jī)動(dòng)車(chē)(上)、行人(中)和群體(下)到達(dá)目標(biāo)線(xiàn)的時(shí)間(估測(cè)值)與自主車(chē)到達(dá)目標(biāo)線(xiàn)的時(shí)間(目標(biāo)值)偏差概率分布Fig.5 When u=0.4,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 圖6 u=0.2時(shí)自主車(chē)分別估測(cè)非機(jī)動(dòng)車(chē)(上)、行人(中)和群體(下)到達(dá)目標(biāo)線(xiàn)的時(shí)間(估測(cè)值)與自主車(chē)到達(dá)目標(biāo)線(xiàn)的時(shí)間(目標(biāo)值)偏差概率分布Fig.6 When u=0.2,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 圖7 u=0時(shí)自主車(chē)分別估測(cè)非機(jī)動(dòng)車(chē)(上)、行人(中)和群體(下)到達(dá)目標(biāo)線(xiàn)的時(shí)間(估測(cè)值)與自主車(chē)到達(dá)目標(biāo)線(xiàn)的時(shí)間(目標(biāo)值)偏差概率分布Fig.7 When u=0,the autonomous vehicle respectively estimated the deviation probability distribution of the time(estimated value)of non-motor vehicle(up),pedestrian(middle) and group (down) to reach the target line and the time (target value) of autonomous vehicle to reach the target line 在錨定效應(yīng)下圖2-7可以簡(jiǎn)化理解:帶菱形線(xiàn)表示非機(jī)動(dòng)車(chē)(上)、行人(中)和群體(下)先到目標(biāo)線(xiàn)的概率,帶三角形線(xiàn)表示自主車(chē)先到目標(biāo)線(xiàn)的概率.前文所述,u越趨近于1,代表估測(cè)值與目標(biāo)值越接近. 由圖2-7可知,當(dāng)u=1時(shí),即估測(cè)值與目標(biāo)值最接近時(shí),自主車(chē)估測(cè)非機(jī)動(dòng)車(chē)或者行人到達(dá)目標(biāo)線(xiàn)的時(shí)間均小于自身到達(dá)目標(biāo)線(xiàn)的時(shí)間,在信念與行為糾纏的參數(shù)γ最大時(shí),群體與自主車(chē)同時(shí)到達(dá)目標(biāo)線(xiàn).此時(shí)自主車(chē)應(yīng)該提前減速,等待非機(jī)動(dòng)車(chē)和行人完全通過(guò)后再通過(guò),避免交叉口處的擁堵. 當(dāng)u=0.8,γ≥0.9時(shí),自主車(chē)比非機(jī)動(dòng)車(chē)先到達(dá)目標(biāo)線(xiàn),此時(shí)自主車(chē)應(yīng)加速通過(guò),行人和群體仍然比自主車(chē)先到達(dá)目標(biāo)線(xiàn),但其概率值與u=1時(shí)相比略有下降. 當(dāng)u=0.6時(shí),γ≥0.73時(shí)自主車(chē)比非機(jī)動(dòng)車(chē)先到達(dá)目標(biāo)線(xiàn)位置,其他與u=0.8類(lèi)似. 當(dāng)u=0.4時(shí),γ≥0.52時(shí)自主車(chē)比非機(jī)動(dòng)車(chē)先到達(dá)目標(biāo)線(xiàn)位置,其他與u=0.8類(lèi)似. 當(dāng)u=0.2時(shí),γ≥0.3時(shí)自主車(chē)比非機(jī)動(dòng)車(chē)先達(dá)到目標(biāo)線(xiàn)位置,其他與u=0.8類(lèi)似. 當(dāng)u=0時(shí),即估測(cè)值與目標(biāo)值相差最大時(shí),自主車(chē)比非機(jī)動(dòng)車(chē)先達(dá)到目標(biāo)線(xiàn)位置,此時(shí)自主車(chē)應(yīng)加速通過(guò);行人在γ=0 時(shí)與自主車(chē)同時(shí)到達(dá),隨著γ增加,行人比自主車(chē)先到達(dá)目標(biāo)線(xiàn)位置的概率更大,自主車(chē)應(yīng)減速讓行;群體與自主車(chē)到達(dá)目標(biāo)線(xiàn)位置的時(shí)間順序不再隨著γ的增加而變化,會(huì)一直與自主車(chē)同時(shí)達(dá)到目標(biāo)線(xiàn)位置,此時(shí)自主車(chē)應(yīng)減速讓行. 自動(dòng)駕駛車(chē)輛需要正確估計(jì)人類(lèi)交通參與者的不確定及非理性行為意圖,并像人類(lèi)駕駛車(chē)輛那樣與人類(lèi)交通參與者自然地相互作用.為了驗(yàn)證提出方法的有效性,將本文提出的錨定效應(yīng)下的量子決策模型和累積前景理論模型(非理性行為評(píng)價(jià)方法)在同一個(gè)數(shù)據(jù)集中評(píng)價(jià)其實(shí)驗(yàn)表現(xiàn)情況.下面簡(jiǎn)要介紹累積前景理論模型. 累積前景理論(cumulative prospect theory,CPT)由Kahneman和Tversky[19]提出,它以一種統(tǒng)一的方式闡述了許多帶有偏見(jiàn)或非理性的人類(lèi)行為.與傳統(tǒng)的預(yù)期效用理論(expected utility theory,EUT)相比,CPT在前景的定義中引入了兩個(gè)額外的概念:1)P:定義在效用上的值函數(shù)V;2) 定義在累積概率上的決策權(quán)函數(shù)π.每個(gè)動(dòng)作都由下列方程評(píng)估: 式中:函數(shù)V是嚴(yán)格遞增函數(shù),u+和u?分別為與參考效用u0相比,u的收益和損失.決策權(quán)重定義為 式中:w±是嚴(yán)格遞增函數(shù),通常,當(dāng)u≥u0(增益)時(shí),V(u)為凸函數(shù),當(dāng)u≤u0(損耗)時(shí),V(u)為凹函數(shù),且損耗比增益更陡峭.圖8(上)顯示了當(dāng)u0=0被設(shè)置為參考效用時(shí)值函數(shù)的一個(gè)示例,許多實(shí)驗(yàn)研究表明,V和w的代表函數(shù)形式可以寫(xiě)成 圖8 值函數(shù)(上圖)和權(quán)函數(shù)(下圖)的例子Fig.8 Examples of value and weight functions 式中:α,β,γ,θ ∈(0,1],λ≥1在圖8(下)中,這種決策權(quán)重函數(shù)可以很好地描述人類(lèi)傾向于高估低概率事件的發(fā)生而低估高概率事件的發(fā)生的觀(guān)察到的行為. CPT模型假設(shè)決策者選擇產(chǎn)生式(8)中定義的最大值的行為,即 實(shí)驗(yàn)數(shù)據(jù)集參考[20],選取無(wú)信號(hào)燈環(huán)形路口為交互地點(diǎn),在該路口處非機(jī)動(dòng)車(chē)、行人及群體出現(xiàn)頻繁,如圖9所示. 圖9 數(shù)據(jù)集(無(wú)信號(hào)燈環(huán)形路口)中交互場(chǎng)景Fig.9 An interaction scenario in a dataset(a traffic roundabout without lights) 在此數(shù)據(jù)集中共搜集到283次目標(biāo)車(chē)右轉(zhuǎn)時(shí)與其他交通參與者交互場(chǎng)景,分別用錨定效應(yīng)下的量子決策模型和累積前景理論模型(CPT)對(duì)其進(jìn)行驗(yàn)證.錨定效應(yīng)下的量子決策模型中假設(shè)信念與行為糾纏的參數(shù)γ隨著交互處交通流密集程度線(xiàn)性增加,即交互處越擁堵γ越趨近1;CPT中設(shè)定{ap,ay}是判定目標(biāo)車(chē)/其他交通參與者先到目標(biāo)線(xiàn)時(shí),目標(biāo)車(chē)采取加速通過(guò)/減速讓行的動(dòng)作集,按照文獻(xiàn)[21]中的方法將CPT中的參數(shù)通過(guò)逆強(qiáng)化學(xué)習(xí)(inverse reinforcement learning,IRL)的方式獲得,假設(shè)U是由一些特征組成的線(xiàn)性組合,這些特征包括:速度、加速度、緊急制動(dòng)和安全性. 將兩種模型的驗(yàn)證結(jié)果在下表中展示,結(jié)果表明,錨定效應(yīng)下的量子決策模型的決策正確率要高于累積前景理論模型,根據(jù)文獻(xiàn)[21]的結(jié)果,錨定效應(yīng)下的量子決策模型相比于神經(jīng)網(wǎng)絡(luò)模型結(jié)果接近且不需要大量數(shù)據(jù)驅(qū)動(dòng),這使得錨定效應(yīng)下的量子決策模型數(shù)據(jù)效率更高. 從結(jié)果上看,錨定效應(yīng)下的量子決策模型在自主車(chē)右轉(zhuǎn)場(chǎng)景決策時(shí)更具有優(yōu)勢(shì),主要原因有以下幾點(diǎn):1)CPT模型計(jì)算得到的概率值是基于經(jīng)典概率計(jì)算得出的,并沒(méi)有考慮到產(chǎn)生疊加態(tài)時(shí)的情況,如在設(shè)置動(dòng)作集時(shí),僅有加速通過(guò)和減速讓車(chē)兩個(gè)動(dòng)作,而沒(méi)有兩者之間的狀態(tài),在實(shí)際場(chǎng)景中,很多交互車(chē)輛都會(huì)有猶豫不定的時(shí)候,故此方法并沒(méi)有從根本上解決非理性的決策問(wèn)題;2)在文獻(xiàn)[21]中對(duì)CPT中的參數(shù)進(jìn)行逆強(qiáng)化學(xué)習(xí)(IRL)時(shí)沒(méi)有考慮到交互雙方相互作用的影響,導(dǎo)致成功率相對(duì)較低;3)錨定效應(yīng)下的量子決策模型相比于CPT模型考慮到了動(dòng)作集合中的疊加態(tài),舍棄掉完全理性假設(shè),與實(shí)際情況更加相符. 表1 CPT模型與錨定效應(yīng)下的量子決策模型成功率比較Table 1 Success rate comparison between CPT model and quantum decision model under anchoring effect 本文用量子理論與錨定效應(yīng)相結(jié)合,構(gòu)建出新量子決策模型,通過(guò)仿真和對(duì)比實(shí)驗(yàn),證明了該模型能夠在考慮到其他交通參與者存在非理性行為的情況下正確決策自動(dòng)駕駛車(chē)輛右轉(zhuǎn)行為,與非機(jī)動(dòng)車(chē)、行人及群體交互時(shí)能夠像人類(lèi)駕駛員一樣做出正確合理的決策,確保通行時(shí)的安全和高效. 在下一步的研究中,作者將應(yīng)用更加復(fù)雜的交通場(chǎng)景,用量子理論進(jìn)一步探索交通參與者之間的相互作用問(wèn)題.幫助自動(dòng)駕駛車(chē)輛能夠更加清晰地分析真實(shí)的路況信息,促進(jìn)自動(dòng)駕駛車(chē)輛更加安全和高效.本文為自動(dòng)駕駛場(chǎng)景中人類(lèi)交通參與者有限理性行為的研究提供了參考框架.作者相信,隨著量子認(rèn)知與決策理論的進(jìn)一步發(fā)展以及研究者們的不斷探索,其在自動(dòng)駕駛領(lǐng)域中的應(yīng)用將更為廣泛深入.3.2 錨定效應(yīng)下的量子決策模型構(gòu)建
4 仿真分析
5 實(shí)驗(yàn)分析
5.1 累積前景理論模型(CPT)
5.2 數(shù)據(jù)集
5.3 實(shí)驗(yàn)結(jié)果
6 總結(jié)及展望