梁耀中
(上海工程技術(shù)大學(xué) 機(jī)械與汽車工程學(xué)院, 上海 201620)
無人駕駛行為決策是決定無人駕駛汽車安全性、穩(wěn)定性的關(guān)鍵技術(shù),城區(qū)復(fù)雜交通場景無人駕駛行為決策是制約無人駕駛車輛實(shí)現(xiàn)大規(guī)模應(yīng)用推廣的關(guān)鍵技術(shù),研究復(fù)雜交通場景多交通參與者交互動態(tài)決策對于解決城區(qū)交通擁堵、減少因?yàn)轳{駛?cè)似隈{駛和失誤導(dǎo)致的車禍以及提高人們美好出行的體驗(yàn)具有重要意義。
目前,基于因果推理的貝葉斯網(wǎng)絡(luò)(BN)無人駕駛行為決策方法,結(jié)合了圖論和概率論的優(yōu)勢,可以透明化地對于決策過程進(jìn)行可視化演示,分層模塊化的BN 可以減少模型決策的推理時間,提高決策的實(shí)時性。 對于靜態(tài)BN 理論研究和應(yīng)用已經(jīng)較為成熟,包括對BN 網(wǎng)絡(luò)的構(gòu)建、結(jié)構(gòu)和參數(shù)學(xué)習(xí)、因果推理等。 蔡炳萬等學(xué)者[1]提出了基于本體的BN知識推理研究方法。 史志富[2]基于BN 實(shí)現(xiàn)了UCAV 編隊(duì)對地攻擊圖形化和可視化的智能決策過程。 趙樹恩等學(xué)者[3]基于BN 建立了無人車換道決策模型,通過NGSIM 數(shù)據(jù)集進(jìn)行測試,驗(yàn)證了模型具有較高的準(zhǔn)確率。 孫雪等學(xué)者[4]提出了利用本體與BN 因果推理相結(jié)合的行為決策方法,實(shí)現(xiàn)了對駕駛場景中不確定性信息的描述和充分表達(dá)。
利用BN 對智能決策和因果決策取得了良好的效果,凸顯了BN 在不確定性結(jié)構(gòu)推理和表達(dá)方面有著諸多優(yōu)勢。 動態(tài)貝葉斯網(wǎng)絡(luò)(DBN)為概率論與圖論的結(jié)合,通過有向無環(huán)圖對關(guān)系進(jìn)行描述,把傳統(tǒng)的BN 與時間相結(jié)合,形成的具有時序數(shù)據(jù)的動態(tài)的網(wǎng)絡(luò)模型。 目前,國內(nèi)外對于DBN 的研究取得了一些進(jìn)展。 Zhang 等學(xué)者[5]、范璐洋[6]通過狀態(tài)轉(zhuǎn)移得到了相鄰時間的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)之間的關(guān)系。 張亮[7]提出了一種引進(jìn)評分函數(shù)的貝葉斯網(wǎng)絡(luò)序列更新模型的結(jié)構(gòu)和參數(shù)的變化,但卻并未涉及邊結(jié)構(gòu)節(jié)點(diǎn)之間的因果相關(guān)性。 肖秦琨[8]、陳云[9]提出了從數(shù)據(jù)中學(xué)習(xí)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),基于評分搜索的方法對結(jié)構(gòu)進(jìn)行尋優(yōu),實(shí)現(xiàn)了對無人機(jī)動態(tài)化、智能化的自主優(yōu)化,但該算法對數(shù)據(jù)集匹配度要求較大,且對于樣本數(shù)據(jù)缺失和小樣本數(shù)據(jù)集并不適用。
綜上所述,本文提出一種增強(qiáng)利他主義的方法對交通參與者交互決策的博弈過程進(jìn)行了優(yōu)化,并利用最大信息系數(shù)對DBN 的結(jié)構(gòu)進(jìn)行更新,提高了決策模型的實(shí)時性和準(zhǔn)確率。
多交通參與者交互是指復(fù)雜駕駛場景中多臺車輛和行人以及其他交通參與者在空間和時間上相互接近并相互作用的場景。 若自動駕駛交互決策過程過于保守,會使自動駕駛車輛通行效率降低;若自動駕駛決策過于激進(jìn),則會提高交互過程沖突的風(fēng)險,導(dǎo)致交通事故的發(fā)生。
博弈論[10]可通過獎勵函數(shù)來有效地約束不同交通參與者的交互行為。 在多交通參與者交互場景中,一個交通參與者扮演領(lǐng)導(dǎo)者,另一個交通參與者扮演追隨者。 當(dāng)追隨者會對領(lǐng)導(dǎo)者的選擇表現(xiàn)出最優(yōu)的情況下,則獲得最大化獎勵。
十字路口交通參與者交互的場景如圖1 所示。由圖1 可知,如果Ve是領(lǐng)導(dǎo)者,Ve會選擇保持車速直行,并獲得獎勵1,跟隨者V0會選擇讓步,得到0的獎勵。 如果V0是領(lǐng)導(dǎo)者,會選擇保持車速向右(TR),并獲得獎勵1,而Ve則會被迫減速向左。 如果沒有事先確定領(lǐng)導(dǎo)者和追隨者,碰撞就會出現(xiàn)。
圖1 交通參與者獎勵Fig. 1 Traffic participant incentive
利他主義[11]可以用來解決沖突場景,將交互駕駛問題建模為一個在獎勵矩陣上,每個交通參與者選擇的動作可獲得相應(yīng)的獎勵。 在圖1(b)中,如果α1=1,那么Ve在執(zhí)行車道變更時獲得有效獎勵0,減速并允許V0繼續(xù)時獲得獎勵1。
圖2 為一般的獎勵矩陣,如果Ve和V0分別都采取減速的動作,Ve將獲得r111的獎勵,V0將獲得r112的獎勵。 純利他主義獎勵用利他主義系數(shù)α來定義:
圖2 一般的獎勵矩陣Fig. 2 General reward matrix
其中,- i對應(yīng)于未被i索引的代理,而是用于執(zhí)行決策的有效獎勵代理。 如果α為0,那么代理對彼此漠不關(guān)心;如果α值為1,那么代理將進(jìn)行合作,以使相同的獎勵最大化。 然而,利他主義并不能完全消除沖突(AOC),因?yàn)槿绻?=1 將再次陷入沖突,即V0和Ve都假設(shè)自己是追隨者,這樣會大大降低行駛的效率。
重復(fù)迭代直到該系統(tǒng)達(dá)到穩(wěn)態(tài),得到了增強(qiáng)利他獎勵的定義:
稱為增強(qiáng)利他獎勵,是一種在評估選項(xiàng)時考慮雙方的利他主義值。 對于給定的獎勵矩陣,最好選擇一種最小化AOC的決策方法。 假設(shè)行為(Keep,TR)對于Ve是最優(yōu)的,而(Dec,Keep)對于V0是最優(yōu)的。 對于獎勵矩陣:
在這些約束條件下,無論參數(shù)的價值如何,對獎勵矩陣的決策就可以有效避免沖突。
表1 給出不同方法的AOC定義以及與圖1(b)中的獎勵矩陣相對應(yīng)的評價,設(shè)置了Ve=r211- r121和V0=r122- r212的緊湊性。 由圖1(b)中的獎勵矩陣,即可計算出各種交互式?jīng)Q策模型的AOC值見表2。
表1 各種交互式?jīng)Q策模型Tab. 1 Various interactive decision models
從表2 可以看出,增強(qiáng)利他主義的AOC明顯優(yōu)于其他考慮的模型。 這意味著,在[0,1]中利他主義得分的重復(fù)配對中,該模型沖突發(fā)生率最低,對于通過給予獎勵降低模型的AOC,增強(qiáng)利他主義始終優(yōu)于其他模型。
圖3 顯示了在V0=1 時,對Ve繪制的AOC結(jié)果。 對于0.33<Ve<3, 增強(qiáng)利他主義達(dá)到最小值,證明所建模型在沖突最小化方面的優(yōu)越性。
圖3 不同交互模型AOC測試Fig. 3AOCtest for different interaction models
初始的動態(tài)貝葉斯網(wǎng)絡(luò)是一個穩(wěn)態(tài)變化的過程[12]。 在BN 中加入狀態(tài)轉(zhuǎn)移概率,建立穩(wěn)態(tài)DBN決策模型。 通過靜態(tài)模型中的一個時間點(diǎn)的狀態(tài),并將其轉(zhuǎn)化為相鄰時間點(diǎn)的概率。 假設(shè)上一個節(jié)點(diǎn)狀態(tài) 為x, 則t時間 后 的 節(jié) 點(diǎn) 狀 態(tài) 為x′,P(x′ |p(x′)) 為x′中節(jié)點(diǎn)的條件概率分布,設(shè)轉(zhuǎn)移概率為λ,則:
依據(jù)時間變化構(gòu)建的車輛無人駕駛行為決策狀態(tài)轉(zhuǎn)移貝葉斯網(wǎng)絡(luò)如圖4 所示。
圖4 狀態(tài)轉(zhuǎn)移貝葉斯網(wǎng)絡(luò)Fig. 4 State transition Bayesian networks
因此研究推得,動態(tài)貝葉斯網(wǎng)絡(luò)模型在x[1],x[2],…,x[t] 上的聯(lián)合概率分布為:
當(dāng)DBN 處于非穩(wěn)態(tài)時,無人駕駛交互場景變化較大,當(dāng)無人車通過傳感器感知到了其他交通參與者,并對其進(jìn)行態(tài)勢評估后作為貝葉斯網(wǎng)絡(luò)節(jié)點(diǎn),此時貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)也會隨著改變。 是否把新的態(tài)勢評估節(jié)點(diǎn)加入到貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)中,以及該節(jié)點(diǎn)與BN 其他節(jié)點(diǎn)的因果關(guān)系是亟需確定的。
最大信息系數(shù)(MIC)[13]可以檢測出變量間的依賴關(guān)系。 最大信息系數(shù)檢測方法魯棒性較好,對于不同類型的函數(shù),當(dāng)X與Y存在Y = f(x) 函數(shù)關(guān)系時,都有MIC(X,Y)=1;反之,如果X和Y之間相互獨(dú)立,則MIC(X,Y)=0。 給定包含2 個隨機(jī)變量X和Y的數(shù)據(jù)集D,這2 個隨機(jī)變量之間的最大信息系數(shù)為:
其中,n為變量X和Y的樣本變量個數(shù),B(n)=n0.6是變量X,Y的網(wǎng)格大小。 利用MIC更新貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)同樣經(jīng)過3 個步驟:
(1)基于MIC生成有向無環(huán)圖。 如果2 個節(jié)點(diǎn)之間的MIC很高,要么這2 個節(jié)點(diǎn)彼此直接關(guān)聯(lián),要么通過1 個或2 個中間節(jié)點(diǎn)相互關(guān)聯(lián)。 如果2 個節(jié)點(diǎn)之間的MIC很低,則節(jié)點(diǎn)相互獨(dú)立。
Step 1計算節(jié)點(diǎn)之間MIC。 可由如下公式進(jìn)行計算:
其中,i,j為節(jié)點(diǎn)序號,n為總的節(jié)點(diǎn)個數(shù)。
Step 2找到每個節(jié)點(diǎn)Xi(i =1,2,…,n) 中的最大MIC為MMIC(Xi)。
Step 3去掉冗余邊。 對MIC設(shè)定閾值к, 可減少無向圖中的冗余邊。 如果2 個節(jié)點(diǎn)之間的MIC值滿足如下條件,則在這2 個變量之間建立一條無向邊,即:
其中,為保證無向圖中包含大部分實(shí)際網(wǎng)絡(luò)中存在的邊,取к =0.9 為閾值因子。 以此構(gòu)造一個初始無向結(jié)構(gòu)。
(2)保證無向圖節(jié)點(diǎn)連通。 為了保證無向圖結(jié)構(gòu)中節(jié)點(diǎn)完全連通性,連通分量間的MMIC:若含有m個狀態(tài)的連通分量A和具有n個節(jié)點(diǎn)狀態(tài)的聯(lián)通分量B滿足下式條件,則說明節(jié)點(diǎn)之間具有聯(lián)通性:
對無向圖進(jìn)行連通性檢測,對于非連通圖則需要添加無向邊進(jìn)行連通性修復(fù)。 計算任意2 個連通分量的MMIC值,每次選取MMIC值最大的2 個連通分量,在最大的連通分量max {MIC(Xi,Xj)} 的節(jié)點(diǎn)之間建立一條無向邊,構(gòu)成新的連通分量,如此重復(fù)計算連通分量的MMIC,直至連通。
(3)確定節(jié)點(diǎn)因果關(guān)系。 無向網(wǎng)絡(luò)的完整連接要求確定無向邊的方向,也就是節(jié)點(diǎn)間的因果關(guān)系,從而得到一個有向無環(huán)的貝葉斯網(wǎng)絡(luò)。 各連通分量間因果關(guān)系使用條件相對平均熵(CRAE) 來確定。節(jié)點(diǎn)X與節(jié)點(diǎn)Y之間的平均熵可以表示為:
利用最大互信息系數(shù)的節(jié)點(diǎn)間的因果關(guān)系,構(gòu)造出一條有向曲線,用以描述復(fù)雜環(huán)境下無人車輛與環(huán)境感知與決策之前的因果關(guān)系,實(shí)現(xiàn)對動態(tài)貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)更新。 MIL 結(jié)構(gòu)學(xué)習(xí)過程如圖5 所示。
圖5 MIL 結(jié)構(gòu)學(xué)習(xí)過程Fig. 5 MIL structure learning process
在給出了各節(jié)點(diǎn)的初始概率后,利用貝葉斯網(wǎng)絡(luò)的推理算法,得到各節(jié)點(diǎn)的全部可能狀態(tài)的概率分布。 本文在BN 結(jié)構(gòu)及參數(shù)的確定、貝葉斯網(wǎng)絡(luò)構(gòu)建完成后,通過引入新的證據(jù),利用聯(lián)合樹算法[14]對貝葉斯網(wǎng)絡(luò)進(jìn)行準(zhǔn)確的推理。 在將貝葉斯網(wǎng)轉(zhuǎn)化為聯(lián)結(jié)樹之后,每一個節(jié)點(diǎn)都需要指定概率,也就是把聯(lián)結(jié)樹作為初始化,這樣就可以獲得具有功能的聯(lián)結(jié)樹。 利用各個簇節(jié)點(diǎn)間的信息進(jìn)行傳輸,使得聯(lián)結(jié)樹達(dá)到整體一致性,從而達(dá)到穩(wěn)定狀態(tài),可以求出任意節(jié)點(diǎn)的概率分布。 貝葉斯網(wǎng)絡(luò)聯(lián)結(jié)樹算法流程如圖6 所示。
圖6 聯(lián)合樹算法推理流程圖Fig. 6 Joint tree algorithm inference flow chart
通過聯(lián)結(jié)樹算法,當(dāng)貝葉斯網(wǎng)絡(luò)獲得新的證據(jù)時,通過轉(zhuǎn)換對聯(lián)結(jié)樹進(jìn)行初始化,將貝葉斯網(wǎng)絡(luò)的條件概率分配到對應(yīng)聯(lián)結(jié)樹的團(tuán)節(jié)點(diǎn),并通過勢函數(shù)對信息進(jìn)行傳遞和更新。
團(tuán)節(jié)點(diǎn)接收信息后,也會將信息傳輸給相鄰節(jié)點(diǎn)。 聯(lián)結(jié)樹全局一致時,可以對新的證據(jù)進(jìn)行傳輸,對貝葉斯網(wǎng)絡(luò)后驗(yàn)概率進(jìn)行計算,從而實(shí)現(xiàn)了BN節(jié)點(diǎn)概率的推理,行為決策節(jié)點(diǎn)最大后驗(yàn)概率為無人車當(dāng)前場景采取的動作。
基于Prescan 平臺與Matlab/Simulink 聯(lián)合仿真實(shí)現(xiàn)復(fù)雜交通場景DBN 無人駕駛行為決策。 通過Prescan 建立了一個典型的十字路口復(fù)雜的交通場景,并對傳感器參數(shù)進(jìn)行了設(shè)置。 無人駕駛仿真工作站簡圖如圖7 所示。
圖7 無人駕駛仿真工作站Fig. 7 Unmanned driving simulation workstation
通過Matlab 添加BNT1.0.7 工具箱,構(gòu)建貝葉斯網(wǎng)絡(luò)模型,并嵌入到Simulink 中,運(yùn)行貝葉斯網(wǎng)絡(luò)算法,實(shí)現(xiàn)復(fù)雜交通場景無人車因果推理決策的實(shí)時仿真。
對典型十字路口復(fù)雜交通場景進(jìn)行模型搭建,添加場景元素和交通參與者,并對交通參與者行駛行為進(jìn)行設(shè)定。 VisViewer 可對交通場景進(jìn)行3D 展示如圖8 所示。
圖8 場景可視化仿真重建Fig. 8 Scene visualization simulation reconstruction
把經(jīng)過駕駛員模型的車輛速度、制動力等信息以及雷達(dá)感知到的距離輸出給BN 算法模塊,經(jīng)過控制模塊再輸出給車輛動力學(xué)模型,實(shí)現(xiàn)對車輛的控制。 BN 算法聯(lián)合仿真設(shè)計如圖9 所示。
圖9 BN 控制算法聯(lián)合仿真圖Fig. 9 Co-simulation diagram of BN control algorithm
無人駕駛車輛直行與前方交通參與者交互行駛通過十字路口的場景如圖10 所示。 由圖10 可知,通過雷達(dá)和攝像頭傳感器模塊檢測到前方多個交通參與者及行人正通過斑馬線的行為圖景。 此時車輛發(fā)動機(jī)轉(zhuǎn)速為1736 rpm,車速為34 km/h,采取40%制動力。
圖10 城區(qū)十字路口行駛場景Fig. 10 Urban intersection driving scene
車輛縱向駕駛行為如圖11 所示。 由圖11 可看到在2.4 s 時,車輛與前方車輛距離減小,且左前方有行人通過斑馬線,控制系統(tǒng)發(fā)出預(yù)警,車輛減速,采取40%制動。 無人車采取制動,與前方車輛距離越來越大。 5 s 時,無人車輛與前方車輛距離達(dá)到40 m,無人車加速行駛。 5.8 s 時無人車與前方車輛距離急劇減小,小于最小安全距離。 此時控制系統(tǒng)發(fā)出full auto-braking 指令,車輛采取100%制動,直至速度降為0。
圖11 車輛縱向駕駛行為Fig. 11 Vehicle longitudinal driving behavior
車輛橫向駕駛行為如圖12 所示。 由圖12 可看到,車輛橫向加速度為0,判知車輛做出的橫向行為決策是保持直行。 無人車在復(fù)雜十字路口,判知無人車目標(biāo)行駛方向直行,且與周圍交通參與者相對時距較近時,采取跟隨前方車輛低速行駛決策。
圖12 車輛橫向駕駛行為Fig. 12 Vehicle lateral driving behavior
本文針對復(fù)雜交通場景多交通參與者動態(tài)交互過程,提出了一種基于多交通參與者交互動態(tài)貝葉斯網(wǎng)絡(luò)模型。 研究了靜態(tài)貝葉斯網(wǎng)絡(luò)到動態(tài)貝葉斯網(wǎng)絡(luò)的時序變化。 基于增強(qiáng)利他主義對交通參與者之間的博弈交互獎勵機(jī)制進(jìn)行優(yōu)化。 提出了一種基于狀態(tài)轉(zhuǎn)移和MIC的動態(tài)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法,對交互場景中DBN 的結(jié)構(gòu)進(jìn)行更新,解決了無人駕駛行為決策不斷交互的實(shí)時性問題,更適用于復(fù)雜多變的交互駕駛環(huán)境。 并通過Prescan 與Matlab/Simulink 聯(lián)合仿真,驗(yàn)證了動態(tài)貝葉斯網(wǎng)絡(luò)決策模型的場景適應(yīng)性和決策方法的可行性。