陳吉清 舒孝雄 蘭鳳崇? 王俊峰
(1.華南理工大學(xué) 機(jī)械與汽車工程學(xué)院,廣東 廣州510640; 2.廣東省汽車工程重點實驗室,廣東 廣州510640)
道路交通安全問題是世界性問題,而自動駕駛汽車無疑對減少交通事故的發(fā)生具有重要意義。隨著無人駕駛技術(shù)等級的提高,面向傳統(tǒng)汽車的測試工具與測試方法已不能滿足自動駕駛汽車測試的需要,基于場景的自動駕駛系統(tǒng)(ADSs)車輛測試及評估相關(guān)的仿真框架和標(biāo)準(zhǔn)已成為當(dāng)前的研究熱點[1- 2]。自動駕駛汽車場景化測試的核心在于定向構(gòu)建高測試需求場景,而自動駕駛汽車的駕駛場景主要來源有標(biāo)準(zhǔn)法規(guī)、自然駕駛數(shù)據(jù)、交通事故數(shù)據(jù)、模擬數(shù)據(jù)[2- 3]。自然駕駛數(shù)據(jù)場景不能充分驗證自動駕駛汽車在危險場景下的安全性,而交通事故場景具有真實危險場景的特征,能夠補充自動駕駛汽車的高風(fēng)險場景。
國外基于交通事故數(shù)據(jù)的自動駕駛或高級駕駛輔助系統(tǒng)(ADAS)的測試場景研究較多[4- 6],而國內(nèi)在基于自然駕駛數(shù)據(jù)或交通事故數(shù)據(jù)構(gòu)建測試場景方面主要集中在研究汽車-兩輪車(TWS)場景、汽車-行人場景[7- 9],很少考慮道路路段類型的測試場景研究[10]。由于國情的差異,中國的交通環(huán)境具有獨特交通特征,有別于歐美等國家。有研究指出歐盟的車輛事故發(fā)生在交叉路口的事故數(shù)占1/3,在十字路口的致命傷害和嚴(yán)重傷害比例最高,約為43.9%和43.2%[11];而中國的車輛交通事故多發(fā)生在普通路段(包括無交叉路口的直路和曲率較小的彎道),死亡人數(shù)占總死亡人數(shù)的76.25%,其次是交叉路口(包括三枝分叉口、四枝分叉口、多分枝交叉口和環(huán)形交叉),占17.5%[12]。城市道路中,普通路段和交叉路口路段人流密集、交通工具多樣和交通環(huán)境復(fù)雜是事故發(fā)生的主要原因。在城市道路上,自動駕駛汽車或智能網(wǎng)聯(lián)汽車主要應(yīng)用在物流、共享出行和公共交通等領(lǐng)域的應(yīng)用場景,而且目前針對行人的AEB測試場景研究和法規(guī)較為成熟[10,13],因此相比人-車事故的場景研究,更需要對城鎮(zhèn)道路上包含乘用車與駕乘交通工具的道路使用者的測試場景進(jìn)行研究。
文中基于641例涉及道路路段類型的真實事故數(shù)據(jù),選擇了合理的場景要素和聚類變量,通過對聚類變量的獨熱編碼和聚類分析,結(jié)合天氣、第1碰撞點位置、車輛速度和事故發(fā)生前車輛具體運動類型4個危險事故特征構(gòu)建了自動駕駛測試場景。
國家車輛事故深度調(diào)查體系(NAIS)數(shù)據(jù)庫是一個采集較為嚴(yán)重車輛交通事故的數(shù)據(jù)庫,是中國起步最早、最詳細(xì)的交通事故數(shù)據(jù)庫之一。道路類型一般可分為公路和城市道路,公路可分為高速公路、一級公路等。在NAIS數(shù)據(jù)庫中,道路按路段信息可分為普通路段、三枝分叉口、四枝分叉口、多分枝交叉口、環(huán)形交叉、高架路段、匝道口、隧道和其他特殊路段等路段。
為了保證數(shù)據(jù)的代表性和典型性,對NAIS數(shù)據(jù)庫中1 909例事故數(shù)據(jù)進(jìn)行統(tǒng)計分析后,再確定場景數(shù)據(jù)。在數(shù)據(jù)中共有1 130例事故數(shù)據(jù)(在參與方總數(shù)為2的事故中占70.7%),包含了所有路段的數(shù)據(jù),如表1所示。根據(jù)表1的數(shù)據(jù)分布,最后將641例全部的普通路段和路口路段(包括T型路口和X型路口)事故案例作為場景數(shù)據(jù),其中經(jīng)過事故重建的事故數(shù)據(jù)有134例,占21%,滿足下一步分析危險事故特征的需要。
表1 數(shù)據(jù)分布Table 1 Distribution of data
文中選擇采用漢明距離(Hamming Distance)和K-Medoids聚類算法中常見的PAM算法[9,11],并利用R語言進(jìn)行實現(xiàn)。為解決同一名義尺度變量多屬性取值的問題,采取對名義變量進(jìn)行了獨熱編碼的數(shù)據(jù)前處理,這與國內(nèi)場景研究[7- 8,10]的解決方案相比更具有靈活處理非連續(xù)型數(shù)值特征的優(yōu)勢,同時也在一定程度上進(jìn)行了特征擴(kuò)充。
(1)漢明距離
假設(shè){A1,A2,…,Am}是一個樣本的屬性特征序列,對象X和Y由唯一的{A1,A2,…,Am}描述,X由{x1,x2,…xm}描述,Y由{y1,y2,…,ym}描述,則定義d(X,Y)是向量X=(x1,x2,…,xm)與向量Y=(y1,y2,…,ym)之間對應(yīng)元素不相等的個數(shù)和[14]。
(1)
(2)
(2)獨熱編碼
獨熱編碼又稱一位有效編碼,其方法是使用N位狀態(tài)寄存器來對N個狀態(tài)進(jìn)行編碼,每個狀態(tài)都有獨立的寄存器位,并且在任意時候,其中只有一位有效[15]。
(3)PAM算法和聚類質(zhì)量評價
PAM算法適用于樣本數(shù)量較小的聚類分析,它分為構(gòu)建和交換兩個步驟[11]。對聚類質(zhì)量的評價和簇數(shù)k的選擇上,選擇平均輪廓系數(shù)(ASW)為K-Medoids算法聚類質(zhì)量的評價指標(biāo)是合理的[11]。ASW比較均衡地體現(xiàn)了簇內(nèi)的聚合度和簇間的分離度,ASW值的取值范圍為[-1,1],一般來說ASW值越高,聚類質(zhì)量越好。
自動駕駛系統(tǒng)面臨的主要挑戰(zhàn)是復(fù)雜的城市環(huán)境、臨時工作區(qū)域和惡劣天氣條件下的能見度差,而路面特征、道路線形和照明被認(rèn)為是次要影響因素[11]。因此,針對復(fù)雜的城市環(huán)境這一影響要素,結(jié)合交通環(huán)境要素和測試車輛基礎(chǔ)信息兩大測試場景要素,以及對場景可量化、可復(fù)現(xiàn)和高保真的要求[2],進(jìn)行了場景要素的確定,并以此為基礎(chǔ)進(jìn)行聚類變量的選擇。目前對場景要素的種類和具體內(nèi)容還有待研究[2],所以將車輛速度和交互對象速度作為危險事故特征來描述場景。進(jìn)一步結(jié)合事故數(shù)據(jù)分布選擇的場景要素如圖1所示。
圖1 場景要素
通過對1 130例事故數(shù)據(jù)的初步統(tǒng)計分析,將641例場景數(shù)據(jù)按照路口類型分為兩類分別進(jìn)行聚類分析比較合理:第1類是無路口的普通路段(376例),第2類是路口路段(265例)??紤]到車輛的駕駛動作和相對運動可以較大程度地描述事故雙方的運動情況,結(jié)合事故雙方的碰撞部位和交通法規(guī)可以確定交互對象的駕駛動作和起始方位,而且在實際交通環(huán)境中,交互對象駕駛動作往往具有復(fù)雜性和多樣性,所以不將交互對象駕駛動作作為聚類變量。綜上,選擇時間、路段類型、交互對象類型、車輛駕駛動作和相對運動5個場景要素作為聚類變量。
使用Cramer’s V統(tǒng)計量來衡量兩個分類變量對之間的關(guān)聯(lián)強(qiáng)度,接近1的值顯示強(qiáng)關(guān)聯(lián),接近0的值顯示弱關(guān)聯(lián)或無關(guān)聯(lián)[9]。
對第1類事故數(shù)據(jù)和第2類事故數(shù)據(jù)進(jìn)行相關(guān)性分析,以普通路段數(shù)據(jù)為例,相關(guān)分析結(jié)果如表2 所示。從表中可以看出,Cramer’s V接近于0,變量之間都為弱關(guān)聯(lián),總體上相關(guān)性對聚類結(jié)果無實質(zhì)影響。
一般來說,簇的數(shù)量越高,輪廓系數(shù)就越高,較高數(shù)量的簇可能是過擬合,較低數(shù)量的簇可能是欠擬合[11]。根據(jù)簇數(shù)大小和簇有效性之間折衷的思想選擇最佳的族數(shù)(k),限于篇幅限制,文中以普通路段數(shù)據(jù)為例,對最佳簇數(shù)做出選擇。
表2 普通路段數(shù)據(jù)相關(guān)性分析Table 2 Correlation analysis of common sections data
結(jié)合ASW值和不同簇數(shù)的最小簇樣本數(shù)來確定最佳簇數(shù)[9]。最佳簇數(shù)確定規(guī)則:一是最小簇樣本數(shù)占總樣本的比例須大于等于某一比例,而該比例根據(jù)ASW值及其變化情況確定;二是在具有較高最小簇樣本數(shù)下選擇具有較高ASW值的簇數(shù);三是具有較高ASW值時,為減小錯誤聚類的可能,選擇總體負(fù)輪廓系數(shù)較小的簇數(shù)。
如圖2所示,對于9個或更多的簇數(shù),每個簇中的最小樣本數(shù)減少到小于等于23個(占總樣本的6.1%),因樣本量過小且6到8個簇數(shù)的ASW值較高(在0.4以上),所以不進(jìn)行選擇。圖2中6個簇數(shù)、7個簇數(shù)和8個簇數(shù)具有較高的ASW值且有相同的最小簇樣本數(shù),其ASW值分別為0.415、0.442和0.464。對比6個簇數(shù)輪廓系數(shù)圖(如圖3所示)、7個簇數(shù)輪廓系數(shù)圖和8個簇數(shù)輪廓系數(shù)圖可知,6個簇數(shù)的輪廓系數(shù)圖出現(xiàn)負(fù)輪廓系數(shù)的樣本明顯較少,即被放置在錯誤聚類中的樣本較少,所以選擇6為最佳簇數(shù)。
圖2 普通路段不同簇數(shù)ASW值和最小簇樣本數(shù)
對于普通路段數(shù)據(jù),選擇簇數(shù)為6的情況下得到的聚類結(jié)果如表3所示,表中加粗的頻數(shù)代表了聚類中心點的聚類變量取值。定義各個簇中心點的聚類變量取值為每一個簇的典型場景的屬性,典型的車輛碰撞危險場景為C1-C6,如場景C1描述為:在白天,普通路段,直行的乘用車碰撞垂直方向上行駛的動力兩輪車。對于路口數(shù)據(jù),通過聚類分析,判斷確定最佳簇數(shù)為9,并進(jìn)行相應(yīng)的場景分析。
圖3 普通路段6個簇數(shù)的輪廓系數(shù)圖
表3 普通路段每簇聚類結(jié)果頻數(shù)表Table 3 Frequency of clustering variables in each cluster for common sections data
為進(jìn)一步描述和分析危險場景并提取測試場景,對典型的車輛碰撞危險場景中具體描述場景的危險事故特征進(jìn)行研究。結(jié)合典型的車輛碰撞危險場景定義如下8個因素為危險事故特征:天氣、第1 碰撞點位置、車輛速度、交互對象速度、碰撞點相對于路口的距離、碰撞最終位置與碰撞點的方位距離、碰撞前平均減速度和事故發(fā)生前車輛具體運動類型。由于部分特征數(shù)據(jù)難以獲得或者丟失嚴(yán)重,所以只對天氣、第1碰撞點位置、車輛速度和事故發(fā)生前車輛具體運動類型4個特征進(jìn)行統(tǒng)計分析。
(1)天氣
考慮到自動駕駛汽車主要是通過雷達(dá)、相機(jī)等傳感器來感知環(huán)境,且易受到惡劣天氣的影響,所以對天氣中晴、陰、雨和其他4個取值進(jìn)行統(tǒng)計分析,分析可得天氣特征在6個場景中分布基本一致,占比最大的是晴天(占60%以上)。
(2)第1碰撞點位置
如圖4所示,除C6場景外,車輛碰撞位置在前側(cè)的比例占75%以上。
圖4 普通路段車輛第1碰撞點位置的分布
如圖5所示,6個場景的交互對象的第1碰撞點位置分布不同。交互對象中,C2場景碰撞位置在后側(cè)最多(占58.7%),其次是前側(cè),可推測該場景為交互對象被乘用車追尾;C3場景交互對象碰撞位置在前側(cè)的占比最大,可推測C3場景中乘用車與交互對象正面碰撞;C4和C5場景交互對象碰撞位置在前側(cè)的占比大,且交互對象都為乘用車;C6場景的交互對象的碰撞位置在后側(cè)(占33.7%)和右側(cè)(占19.3%)相對其他類占比較大,這與C6場景中乘用車前側(cè)和左側(cè)占比大相對應(yīng),可以推測參與方在向右變道時與乘用車發(fā)生碰撞。
圖5 普通路段交互對象第1碰撞點位置分布
(3)事故發(fā)生前車輛具體運動類型
如圖6所示,全部場景中的車輛具體運動類型為勻速直行占比最大,右轉(zhuǎn)、向左變道和向右變道等具體車輛運動類型占比較小。
圖6 普通路段事故發(fā)生前車輛具體運動類型分布
(4)車輛速度
經(jīng)過事故重建的數(shù)據(jù)在各類典型車輛碰撞危險場景數(shù)據(jù)中約占22%,所以車輛速度的置信度較高,較好地貼近了事故案列的真實速度分布。如表4 所示,C2、C3和C4場景碰撞前的車速較高,C5場景的平均車速最低,C2場景的平均車速最高。對車輛速度的統(tǒng)計分析可以為測試場景的測試車速提供依據(jù)。為便于測試場景進(jìn)行測試,根據(jù)50百分位車速確定測試車車速。如C1場景,以靠近50百分位車速和5的倍數(shù)確定基準(zhǔn)測試車速為40 km/h。
表4 普通路段乘用車速度分布Table 4 Velocity distribution of host vehicles in different core scenarios for common sections
通過聚類分析得到了15個典型車輛碰撞危險場景,結(jié)合第1碰撞點位置特征,確定了交互對象的起始方位和駕駛動作,進(jìn)一步結(jié)合其他危險事故特征,以車輛為測試車,以交互對象為目標(biāo)車,構(gòu)建了15個自動駕駛測試場景,包括6個普通路段的測試場景和9個路口路段的測試場景,測試場景描述和部分場景示意圖分別如表5和圖7所示。
對比表5中場景描述可知,車輛的第1碰撞點位置集中在車前側(cè),其次為左側(cè);在普通路段的場景車速普遍比路口場景的車速高;測試場景中目標(biāo)車40.0%涉及M1類乘用車;測試場景中關(guān)于PTW(包括摩托車和電動助力車)的測試場景占15個測試場景的53.3%,占6個普通路段測試場景的66.6%。為了便于與相似的車輛測試場景研究[9- 10]進(jìn)行討論,將測試場景以目標(biāo)車類型分類,將典型車輛測試場景分為9個關(guān)于TWS的場景和6個關(guān)于乘用車的場景。
表5 自動駕駛汽車測試場景Table 5 Test scenarios of autonomous vehicles
圖7 部分測試場景示意圖
關(guān)于TWS的測試場景中,場景C1、J3、J4和J9與文獻(xiàn)[9]的場景1描述基本一致,場景J6與文獻(xiàn)[9]的場景4描述基本一致。研究的場景得到了文獻(xiàn)[9]的驗證,且具有更詳細(xì)的場景描述,如將文獻(xiàn)[9]的場景4具體到X型路口的J6場景??傮w來看,得到的關(guān)于TWS的測試場景與文獻(xiàn)[9]有一定差異,因為本文研究的數(shù)據(jù)是NAIS數(shù)據(jù)庫,更傾向于嚴(yán)重程度較高的事故,而文獻(xiàn)[9]研究的數(shù)據(jù)是中國深度事故數(shù)據(jù)庫(CIDAS),具有更全面的事故類型。但相比文獻(xiàn)[9]的研究本文有3個優(yōu)勢:一是場景描述更具體,特別是在較高比例事故重建的基礎(chǔ)上分析了碰撞車速的分布;二是考慮了路段類型,對場景的位置環(huán)境有更明確的描述;三是場景更具有事故嚴(yán)重性和危險性。
文獻(xiàn)[10]使用不同年份的NAIS數(shù)據(jù)庫,選取了499例路口事故數(shù)據(jù),研究得到了8個關(guān)于路口路段的場景。文獻(xiàn)[10]的場景3和文中場景J4描述基本一致,場景5和文中場景J8描述基本一致,且場景J8與Euro-NCAP最新發(fā)布的規(guī)程中推薦2020年引入的AEB十字路口場景基本描述相符[10]。本文與文獻(xiàn)[10]相比沒有區(qū)分事故案例中主動碰撞方和被動碰撞方,并沒有把天氣、信號燈類型和車速等作為聚類變量,所以提取到的場景與文獻(xiàn)[9]研究得到的測試場景有明顯的目標(biāo)車車型的差異。但本文的研究對象更具有針對性,其將目標(biāo)車類型具體為乘用車、貨車、PTW和自行車,并提出了危險事故特征,描述了測試車和目標(biāo)車的第1碰撞點位置,采用更有優(yōu)勢的獨熱編碼進(jìn)行數(shù)據(jù)前處理。綜上,研究得到的測試場景是對事故數(shù)據(jù)另一角度的合理描述。
(1)針對中國交通事故較多發(fā)生在普通路段和路口路段的獨特交通環(huán)境特征,考慮了道路路段類型,對乘用車與駕乘交通工具的道路使用者的自動駕駛汽車測試場景進(jìn)行了研究,得到了15個涉及道路路段類型的自動駕駛汽車測試場景,測試場景包括6個關(guān)于普通路段的場景和9個關(guān)于路口路段的場景,其中9個是關(guān)于乘用車-TWS的場景,6個是關(guān)于乘用車-乘用車的場景。
(2)自動駕駛汽車測試場景中測試車碰撞的目標(biāo)車是M1類乘用車、動力兩輪車和自行車;測試場景中關(guān)于動力兩輪車的測試場景占總測試場景的53.3%,占普通路段測試場景的66.6%,相比其他測試場景是最可能發(fā)生的測試場景。
(3)提出的天氣、第1碰撞點位置、車輛速度等危險事故特征能夠更好地描述和明確測試場景;結(jié)合獨熱編碼的數(shù)據(jù)前處理方法具有靈活處理非連續(xù)型數(shù)值特征的優(yōu)勢,同時在一定程度上進(jìn)行了特征擴(kuò)充。