陸 陽 陽
(江蘇工程職業(yè)技術學院,南通 226007)
車輛協(xié)同感知是指相互連接的車輛通過V2V 通信[1](vehicle-to-vehicle communication,車輛間通信,簡稱V2V 通信)交換原始或處理過的傳感器數據來增強安全性。無論是人工駕駛還是自動駕駛,傳感器捕獲的盲點數據均有助于避免車輛碰撞。本地車載傳感器的感知范圍和檢測精度有限,當目標物體遠離傳感器或被道路物體遮擋時,可能無法準確檢測并處理。雖然協(xié)同感知是增強互聯車輛感知能力的有效方案,但它過于依賴V2V 通信,會產生大量數據,易導致網絡擁塞。為保證通信可靠,每個連接的車輛都應智能選擇傳輸數據,以節(jié)省網絡資源。本文提出了基于強化學習的網聯車輛協(xié)同感知方法,通過交換各自采集的傳感器數據,每個連接的車輛使用本地車載傳感器和通信獲得的數據來了解周圍環(huán)境,能有效避開盲區(qū),提高行車安全系數。使用CIVS[2](Cooperative & Intelligent Vehicle Simulation,車輛智能協(xié)同仿真,簡稱CIVS)仿真平臺來評估該方法,結果顯示,該方法比傳統(tǒng)單車環(huán)境感知方法檢測范圍更大、精度更高。
對協(xié)同感知方法的研究可以從傳感器的數據處理、無線網絡的應用等多方面展開。許多研究人員利用傳感器融合來提高數據的可靠性和一致性,Rauch 等[3]提出了一種兩步融合架構,Chen 等[4]設計了基于3D 點云的協(xié)同感知方法,以增強自動駕駛車輛的檢測能力,但要求車載傳感器必須是激光雷達傳感器。也有文獻闡述了協(xié)同感知網絡方面的研究成果,Gunther 等[5]通過車載點對點網絡研究了協(xié)同感知的可行性,還研究了標準分散式擁塞控制機制的可行性。強化學習[6]是一種流行的機器學習技術,被應用于車載通信中,Ye 等[7]利用強化學習對V2V 通信進行資源分配,每個V2V 鏈路都能找到最佳的傳輸功率。強化學習對于復雜的優(yōu)化問題應用前景也很廣闊。
協(xié)同感知增強了車輛的感知能力,但車輛需要智能選擇傳輸數據以節(jié)省網絡資源。圖1 給出了兩個實例場景,車輛均配備車載傳感器和V2X 通信(Vehicle to X,意為vehicle to everything,即車與物通信)接口。如圖1a 所示,當所有車輛能相互看到時,不需要通過協(xié)同感知來共享數據。如圖1b 所示,車輛B 看不到車輛C 時,來自周圍車輛的協(xié)同感知數據有助于安全駕駛。同時,由于網絡資源有限,周圍參與協(xié)同感知的車輛需要智能選擇有益的數據。
圖1 車輛路況實例場景
強化學習能使智能體(Agent)在交互式環(huán)境中學習。強化學習包括3 個基本概念:狀態(tài)(state,描述智能體的當前狀態(tài))、動作(action,表示智能體在每個狀態(tài)下可以執(zhí)行的操作)和獎勵(reward,描述了智能體執(zhí)行某種動作后引起的正面或負面的環(huán)境反饋)。強化學習的總體目標是通過學習使總回報最大化。本文的基于強化學習的網聯車輛協(xié)同感知方法通過強化學習來確定每個連接的車輛要傳輸哪些本地車載傳感器捕獲到的周圍環(huán)境信息。系統(tǒng)采用的強化學習技術為Q-Network[8]。首先在Q-learning 中創(chuàng)建并維護一個Q-table 作為智能體選擇最佳策略的參考表。智能體可以查詢Q-table,以確定與所有“狀態(tài)—動作”對關聯的獎勵。在訓練期間,通過式(1)不斷計算和更新存儲在Q-table 中的Q-value:
式(1)中 α 是學習因子,st是當前狀態(tài),at是時間 t 的動作,Q( )st,at是動作值函數估計值,rt是獎勵,γ 是折扣因子,maxaQ(st+1,a)是下一個動作的預估獎勵,Qnew(st,at)是新的動作值函數估計值。如式(2)所述,智能體選擇最佳行動以獲得最大化獎勵,A 是動作集。
強化學習Q-learning 算法的完整描述如下:給定有限離散狀態(tài)和行為空間馬爾可夫決策過程的狀態(tài)集S 和動作集A,其中折扣因子為γ,以表格形式存儲動作值函數估計值Q(s,a)及動作選擇策略π。強化學習Q-learning 算法步驟為:第一步,初始化動作值函數和學習因子α,初始化馬爾可夫決策過程的狀態(tài),令時間t=0;第二步,循環(huán),直到滿足停止條件位置。循環(huán)算法為:①對當前狀態(tài)st,根據動作選擇策略π決定時間t的行為at,并觀測下一時刻的狀態(tài)st+1;②根據迭代公式(1)更新當前“狀態(tài)—動作”對的動作值函數估計值Q(st,at);③ 更新學習因子,令t=t+1,返回①。
由于Q-table 可能會因大量的狀態(tài)和動作而變得很大,因此采用卷積神經網絡。在Q-Network 中輸入是智能體的狀態(tài),輸出是該狀態(tài)所有可能操作的Q-value。
圖2 所示為系統(tǒng)模型的架構。在該模型中,每個連接的車輛通過V2X 通信并從相鄰的車輛接收協(xié)同感知信息。此外,車輛還在本地融合來自多個車載傳感器的信息,如攝像頭、激光雷達和多普勒雷達。在處理這兩類數據后,模型將通過V2X 通信網絡將接收到的感知數據進行全局融合。由于有很多融合本地傳感器和V2X 通信數據的策略[3],因此本模型不依賴于任何特定的融合算法,同時優(yōu)先考慮局部感知的信息。為避免車輛通信中的信息泛濫,本模型只傳輸基于本地車載傳感器的感知信息。在進行全局融合后將信息投影到基于網格的容器中,用于強化學習中的狀態(tài)st。
圖2 傳感器融合模型
由于強化學習的目標是通過訓練來實現長期回報最大化的,故本文將協(xié)同感知的狀態(tài)、動作和獎勵設計為:
1)狀態(tài)。對狀態(tài)st使用兩個信息,即扇形投影和網絡擁塞水平。首先,用扇形投影維護感知數據,如圖3 所示,將車輛可視區(qū)域分割成5×3 的網格。如表1 所示,每個網格有13 個投影候選類別中的1 類。這13 個類別由4 個因素決定,即局部感知、BSM(Basic Safety Message,基本安全信息,簡稱BSM)傳輸、CPM(Cooperative Perception Message,協(xié)同感知信息,簡稱CPM)傳輸和CPM 中的對象。
圖3 扇形投影
如表1 所示,局部感知分為3 類,即空、占用及遮擋。網格中沒有對象時標記為空。當本地傳感器檢測到某個網格中存在對象時,標記為占用。當某個網格被對象遮擋時,標記為遮擋。所有互聯的車輛將BSM 作為安全標準進行傳輸。由于每個智能體根據其狀態(tài)來控制CPM 的傳輸,因此智能體可能會從相鄰連接的車輛中接收CPM。此外,本文使用網絡負載φ 作為狀態(tài)st的一部分,需要在網絡擁塞時限制傳輸的感知數據量。網絡負載φ 根據最近時間窗口內接收到的BSM 和CPM 的數據量計算得出。本文將網絡負載φ 分為5 個等級。當周圍沒有車輛時,網絡負載φ 為1 級;當車輛密度高時,如在擁擠的市區(qū),網絡負載φ 則為5 級。雖然智能體無法估計接收者的網絡擁塞水平,但智能體和接收者都在V2X 通信的通信范圍內,因此假設他們具有相似的網絡條件??傊瑫r間窗口W 內的所有信息,包括扇形投影和網絡擁塞級別都作為卷積神經網絡的輸入數據。
表1 扇形投影分類
2) 動作。系統(tǒng)的目標是減少車輛通信中的冗余信息,同時保持目標跟蹤誤差在較低水平。本文的模型中,定義了動作空間A={Transmit,Discard},其中當動作變?yōu)門ransmit(傳輸)時智能體傳輸CPM,當動作變?yōu)镈iscard(丟棄)時智能體不傳輸CPM,動作由卷積神經網絡輸出的Q-value 值確定。
3) 獎勵。本文設計了協(xié)同感知獎勵,以提高感知能力的同時減少CPM 中的重復消息。在式(3)和式(4)中給出了獎勵機制 rt,ω,m,n,其中有 1 個獎勵和 3 個懲罰。rt,ω,m,n是在時間 t 內目標對象 ω 在發(fā)射器 m 和接收器n 的通信中獲得的獎勵。
式(3)、式(4)中,λ 表示獎勵因子,t 表示時間,當接收器 n 未檢測到共享對象 ω 時,值設為 1。ucpm、u?ist和unetconfig表示懲罰,是常量,值為負數。θ 表示在時間t 內包含對象ω 的CPM 的數量,通過該因子,模型可以在多個車輛共享相同的信息時給出更大的懲罰。φ 表示u?ist的懲罰因子。Tω是通過接收器n 的局部感知來監(jiān)測對象ω 的最新時間戳。Ct,n是接收器n 在時間t 上的網絡擁塞水平。
對于Q-learning,本文設計了3 個卷積層和2 個連接層組成的卷積神經網絡。第一個卷積層有32 個8×8 的內核,步幅為 2;第二層有 64 個 4×4 的內核,步幅為 2;第三層有 64 個 3×3 的內核,步幅為 1;第四層是完全連接的512 個單元;第五層有1 個用于每個動作、傳輸(Transmit)和丟棄(Discard)的單元。
本文使用CIVS 車輛仿真平臺進行模擬測試,并與單車感知方法、多源信息融合的環(huán)境感知方法[9]、動態(tài)傳播的協(xié)同感知方法[8]在網絡負載和目標檢測可靠性方面進行比較。圖4 為4 種不同車輛密度環(huán)境下CPM 共享數據的數量對比,可見基于強化學習的網聯車輛協(xié)同感知方法減少了CPM 中共享的數據量,降低了網絡負載。圖5 為不同訓練時間下不同方法的檢測率對比,檢測率越高,可靠性越高。在訓練時間不足時,多源信息融合的環(huán)境感知方法調用了本地多個硬件,檢測率最高;由于網絡擁塞和數據丟包,基于強化學習的網聯車輛協(xié)同感知方法在訓練初期檢測率提高不明顯,但不斷訓練后,檢測率逐步提高。圖6 為不同訓練時間下不同方法的數據包接收率對比,接收率越高表示車輛間通信質量越好。多源信息融合方法需要多個車載傳感器傳遞感知數據,數據量較大,因此其接收率最低,動態(tài)傳播的協(xié)同感知方法受網絡狀態(tài)影響較大,數據包接收率波動較大,基于強化學習的網聯車輛協(xié)同感知方法隨著訓練時間的增加數據包接收率逐漸提高且優(yōu)于其余3種方法。
圖4 不同車輛密度下CPM 中共享數據量的對比
圖5 不同訓練時間下不同方法的檢測率對比
圖6 不同訓練時間下不同方法的數據包接收率對比
本文提出了一種基于強化學習的網聯車輛協(xié)同感知方法,互相連接的車輛智能地選擇傳輸的數據來保持網絡中較低的數據流量,通過減少網絡負載降低數據包沖突的風險。仿真平臺測試表明,該方法相比單車感知方法、多源信息融合的環(huán)境感知方法等提高了感知的準確性和可靠性,但該方法還存在局限性,后期研究還需考慮周圍建筑物對車輛通信和感知的影響。