陳君毅, 李如冰, 邢星宇, 蒙昊藍, 余卓平
(同濟大學 汽車學院, 上海 201804)
在自動駕駛技術的開發(fā)中需要進行大量的測試、評價和驗證,尤其需要突出自動駕駛車輛作為智能系統(tǒng)的任務決策能力和復雜環(huán)境的認知與理解等能力.研究自動駕駛車輛的智能性評價方法有利于促進汽車工業(yè)設計、生產(chǎn)和銷售的良性循環(huán),刺激汽車生產(chǎn)商提高汽車智能化水平,并為消費者購車時提供參考.然而目前對于如何評價自動駕駛車輛的智能性還沒有統(tǒng)一的標準法規(guī),各研發(fā)單位及測試機構從不同角度、不同應用范圍給出了自己的評價指標和評價方法.本文圍繞自動駕駛車輛智能性評價進行了深入的分析和總結.
首先,對自動駕駛車輛智能性定義進行了綜述和對比;之后,系統(tǒng)梳理了現(xiàn)階段自動駕駛車輛智能性評價選取的評價指標;然后,按定性評價和定量評價兩種方式對評價方法進行了整理和概述,并分析了不同評價方法的應用特點;最后,就自動駕駛車輛智能性評價的進一步發(fā)展提出了若干研究方向的展望.
美國汽車工程師學會(SAE)將自動駕駛技術分為L0~L5六個級別[1],本文中自動駕駛車輛是指按照SAE定義L4級及以上的車輛.即按照功能設計,車輛在限定條件下,應能完成所有動態(tài)駕駛任務,如果出現(xiàn)需要人類介入的情況,則認為自動駕駛系統(tǒng)未滿足功能需求.
自動駕駛汽車智能性一般可看作是人工智能的一個專門領域.人工智能是指機器能夠完成需要人類智能才能完成的任務[2],或者機器在同樣的任務中表現(xiàn)出和人類似的、甚至是超過人類的智能[3],以此引申出自動駕駛車輛的智能性是指車輛具備和人類相當、甚至超過人類的駕駛技能.基于這種思想,Kalik等[4]將圖靈測試應用于自動駕駛車輛智能性評估中,根據(jù)人類觀察者能否將自動駕駛車輛與人類駕駛車輛區(qū)分開,來對自動駕駛車輛的智能性做出評價.
本節(jié)上述智能性定義是從自動駕駛車輛的行為表現(xiàn)出發(fā),也有部分學者從自動駕駛汽車應當具備的能力出發(fā)確定智能性定義.Li等[5]認為自動駕駛汽車的智能性是指自動駕駛汽車在環(huán)境中感知信息、決策規(guī)劃并采取自適應行為的能力.Huang等[6]認為智能性是無人系統(tǒng)為了能夠完成所分配的目標所具有的綜合感知、認知、分析、溝通、計劃、決策和執(zhí)行等能力.Beernaert等[7]強調了自動(Automatic)和智能(Intelligence)的區(qū)別,自動意味著一個系統(tǒng)只能按預先編好的程序運行,智能意味著一個系統(tǒng)能夠處理人工未預先定義的異常.閆巖等[8]認為智能性意味著還具有自主運行能力,認為智能性應能夠體現(xiàn)系統(tǒng)的自我管理能力,最小化人工干預,并具有動態(tài)自處理和任務執(zhí)行能力.
綜上所述,自動駕駛車輛的智能性意味著在行為表現(xiàn)上與人類相似(甚至超越人類);在能力上,具有感知、決策、規(guī)劃能力,自主運行能力,能夠處理人工未預先定義的異常.除智能性外,也有部分學者提出了自主性的概念,由于自主性和智能性之間沒有清晰的界限,因此本文中不做區(qū)分,統(tǒng)稱為智能性.
選取評價指標是自動駕駛車輛智能性評價的前提和基礎.智能性評價過程中首先需要明確評價目的和評價對象,在此基礎上再選擇具體的評價指標,以下從這兩方面展開分析.
2.1.1評價目的
(1) 縱向比較
縱向比較是指在技術開發(fā)驗證階段,比較自動駕駛車輛智能性的某個方面相較于自身上一個版本的改進情況,不需要全面綜合地對比不同自動駕駛車輛的智能性差異,側重于智能性的某個方面.例如Koon等[9]為研發(fā)的無人駕駛車輛設計了專用測試賽道,最后根據(jù)無人駕駛車輛通過賽道的時間和測試過程中偏離賽道的次數(shù)評價智能性.
(2) 橫向比較
橫向比較要求全面綜合地比較多輛自動駕駛車輛,單一方面無法完整反映智能性水平,評價指標相比于縱向比較覆蓋面更廣.典型的是Huang等[6]提出的ALFUS (無人系統(tǒng)自主級別框架,autonomy levels for unmanned systems)評測框架,如圖1所示.該框架對被測系統(tǒng)的智能水平進行了等級劃分,主要考慮任務完成過程中的任務復雜度、環(huán)境復雜度和人工獨立程度等因素,將智能水平劃分為10級.
圖1 ALFUS評測框架
2.1.2評價對象
(1) 面向無人乘坐車輛
無人乘坐車輛的使用目的是執(zhí)行特殊任務,而非運載乘員.面向無人乘坐車輛的智能性評價將車輛視為自主行駛的智能機器人,評價獨立完成任務的能力和完成質量,不考慮用戶體驗相關指標.如美國國防高級研究計劃局(DARPA)在2004、2005年舉行了兩屆沙漠越野比賽DARPA Grand Challenge[10-11],對未完成任務的車輛以行駛距離排序,對完成任務的車輛以完成任務排序.2007年舉辦的DARPA Urban Challenge[12]在城市環(huán)境中進行,最終綜合考慮車輛在行駛過程中的任務完成時間、任務完成質量(違反交通規(guī)則或表現(xiàn)出危險行為扣除相應分數(shù))進行評價.
(2) 面向有人乘坐車輛
有人乘坐車輛以運載乘員為目的,要求自動駕駛車輛不僅能夠自主行駛,還需要能夠提供較好的用戶體驗,評價指標中包含用戶體驗相關指標.例如Adaptive項目[13]通過問卷調查收集試乘人員對自動駕駛車輛的評價,評價指標包括信任程度、有用程度、可接受程度、是否愿意購買等.
評價指標包括整車級指標和系統(tǒng)級指標兩大類,以下對這兩種類別的典型評價指標進行了整理和分析.
2.2.1整車級指標
整車級指標是自動駕駛車輛在完成任務過程中的各種行為表現(xiàn),評價時將自動駕駛車輛視為一個完整的系統(tǒng),不需要了解系統(tǒng)內(nèi)部結構如何,只需按系統(tǒng)的輸入和輸出信息對整個系統(tǒng)進行評價.
對于整車級指標,可以選擇客觀指標(在測試中實際測量獲得指標屬性值)或者主觀指標(人類評價確定指標屬性值),如表1、表2所示.選擇不同類型的指標將影響指標體系顆粒程度,主觀指標的最細粒度可以是任務級別,客觀指標需要進一步將任務細化到可測量的指標.例如同樣是“通過路口"指標,Meng等[14]分解為{停車精度、起步時間、平均速度、制動減速度}等客觀子指標,對于每一個子指標根據(jù)測試數(shù)據(jù)來確定指標屬性值;孫揚[15]則直接利用專家調查法評價自動駕駛車輛在通過路口過程中體現(xiàn)出的智能性水平.
表1 整車級客觀指標
表2 整車級主觀指標
主觀指標和客觀指標各有優(yōu)劣,客觀指標屬性值是客觀測量值,不受人為因素影響,但由于智能性本身具有模糊性,在不同場景下指標的理想值不同(如在干燥路面和濕滑路面,跟車距離的理想值不同),客觀測量值和智能性水平之間并非線性對應,因此僅根據(jù)實際測量屬性值不足以判斷智能性優(yōu)劣;主觀指標雖然較好地體現(xiàn)了智能性的模糊性特點,但受人為因素干擾較大.
2.2.2系統(tǒng)級指標
系統(tǒng)級指標是指將自動駕駛車輛的智能性分拆到子系統(tǒng)或者子能力等指標,對子系統(tǒng)或子能力分別進行測試評價,進而匯總成為整車的智能性評價結果.典型的系統(tǒng)級指標如表3所示.
整車級指標雖然能反映整車級別的智能性優(yōu)劣,但對自動駕駛車輛環(huán)境感知、決策規(guī)劃和控制等子系統(tǒng)缺乏直觀的反映,并未指出具體哪項系統(tǒng)的不足和以后需改進的方向;另外自動駕駛車輛的智能行為由環(huán)境-任務-車輛三者交互激發(fā)[21],不同環(huán)境和任務對車輛智能行為影響不同,自動駕駛車輛在特定駕駛任務和環(huán)境中的表現(xiàn)能否反映更廣泛條件下的智能性水平有待進一步研究.
表3 系統(tǒng)級指標
系統(tǒng)級指標雖然能直觀反映各子系統(tǒng)或子能力的優(yōu)劣,但是自動駕駛車輛是一個復雜的智能體,子系統(tǒng)或子能力之間并沒有絕對的相對重要性關系,如何將各子系統(tǒng)或子能力評價結果綜合成為整車的智能性水平仍具有很大挑戰(zhàn)性.
自動駕駛車輛智能性評價指標確定后,需要選擇合適的評價方法,以確定評價對象在各評價指標上的評價結果,包括定量評價方法和定性評價方法.
定量評價方法采用數(shù)學的方法,收集和處理數(shù)據(jù)資料,最終以精確的數(shù)值概括全部的評價信息,包括獨立指標評價方法和聯(lián)合指標評價方法.
獨立指標評價方法不區(qū)分不同指標之間的重要性差異,在獲得評價對象在各個指標的評價結果后并沒有關聯(lián)在一起形成總體評價.例如Wei等[22]根據(jù)自動駕駛車輛到達設定終點的平均時間、平均加速度、車道變換次數(shù)、與前車距離小于10m的總時間等數(shù)據(jù)進行智能性評估.獨立指標評價方法僅適用于獨立地對比不同評價對象在各評價指標上的表現(xiàn)差異,由于不能得出整體的評價結果,便不能在整體上判斷各評價對象的智能性優(yōu)劣,因此應用較少.
應用廣泛的是聯(lián)合指標評價方法,該方法用多個評價指標分別說明被評價對象的不同方面,最終對各評價指標結果綜合,用一個總指標來說明被評價對象的綜合水平.該方法在建立指標體系后還需要進一步確定指標權重并選擇集結模型,以下對不同指標權重確定方法和集結模型的應用特點和局限進行了分析.
3.1.1確定指標權重
指標權重確定方法可分為主觀賦權法和客觀賦權法.主觀賦權法由專家根據(jù)經(jīng)驗進行主觀判斷得到權重,應用較多的是層次分析法.由專家通過兩兩比較判斷的方式確定每兩個指標之間的相對重要性,進而建立判斷矩陣K.K中的每一個元素rij代表指標i相對于指標j的相對重要性程度,之后求解判斷矩陣的特征向量作為各評價指標的權重系數(shù)[23-25].除層次分析法外,也有部分學者采用等權法[26],即默認各評價指標的權重相同.
客觀賦權法通過對實際獲得的指標屬性值進行計算分析,進而得出權重系數(shù).應用較多的是熵權法.各被測車輛在某個指標的屬性值差異程度越大,提供的信息量便越多,該指標的權重也越大[27].客觀評價法利用比較完善的數(shù)學模型和方法,不受人為因素影響,適用于評價指標均為客觀指標的情況.但客觀賦權方法獲得的指標權重依賴于測試結果;且當評價對象不同時指標權重隨之改變,即指標權重不具有普適性.
有部分學者采用組合賦權法[28],即分別在主觀賦權法和客觀賦權法內(nèi)部找出最合理的權重系數(shù),再根據(jù)具體情況確定主、客觀賦權法權重系數(shù)所占的比例,最后求出綜合評價權重系數(shù).該方法一定程度上既反映了決策者的主觀信息,又可以利用原始數(shù)據(jù),使權重系數(shù)具有客觀性,但結果的準確性有賴于對主觀賦權和客觀賦權權重系數(shù)所占比例的確定.
指標權重的基本規(guī)律是指標體現(xiàn)的任務復雜程度越高,權重越大.任務復雜度越高的指標越能反映被測對象的技術水平,相對重要性較高,且通常不同被測對象在該指標的差異性更大.因此無論采用主觀或客觀賦權法,權重均較大.如文獻[27]采用客觀賦權法,指標“停車精度"權重為0.113,指標“車速保持"權重僅為0.092;文獻[15]指采用主觀賦權法,指標“U型轉彎"權重為0.47,指標“直道保持"權重僅為0.05.
3.1.2選擇集結模型
聯(lián)合指標評價方法需要選擇集結模型將多個評價指標屬性值“合成"為一個整體的綜合評價值,集結模型包括灰色關聯(lián)度法、逼近理想解排序法(TOPSIS,technique for order preference by similarity to an ideal solution)方法、模糊綜合評價法、反向傳播(BP,back propagation)神經(jīng)網(wǎng)絡法和加權算術平均法.
灰色關聯(lián)度法[17]通過比較各自動駕駛車輛與理想方案(各評價指標的最優(yōu)屬性值構成的序列)之間的關聯(lián)度確定各指標得分,之后用評價指標權重向量對各指標結果進行綜合,獲得綜合評價結果.關聯(lián)度越大,說明該車輛與最優(yōu)方案的態(tài)勢越一致,智能性越好.但是當其中某個評價對象改變時,理想方案很可能隨之變化,從而導致所有評價對象的評價結果均發(fā)生變化,因而僅適用于對特定幾個評價對象進行排序,即評價結果不具有普適性.
TOPSIS方法[29]根據(jù)各車輛與正理想解的接近程度以及與負理想解的遠離程度進行智能性相對優(yōu)劣的評價,其中正、負理想解分別是所有車輛中各評價指標的最優(yōu)、最劣屬性值構成的序列,該方法獲得的評價結果同樣不具有普適性.
模糊綜合評價法[23,25]首先確定評價指標集合和評價等級集合,之后確定每一個評價指標對各評價等級的隸屬度,便可以確定一個模糊評價矩陣R,用評價指標權重向量對模糊評價矩陣R進行合成運算,從而得到模糊綜合評價結果向量.模糊綜合評價法適用于評價指標為多層次指標體系且包含主觀指標的情況.
BP神經(jīng)網(wǎng)絡法[30]將客觀指標的屬性值進作為BP神經(jīng)網(wǎng)絡模型的輸入,將專家評價結果作為網(wǎng)絡模型的輸出,之后用足夠多的樣本訓練這個模型,訓練好的神經(jīng)網(wǎng)絡能夠模擬專家進行評價.該方法不能提供顯式的解析表達式,這使得無法得知造成兩個評價對象評價結果差異的確切原因,適用于被評對象規(guī)模較大時進行自動評價.
加權算術平均法利用加權的算術平均值來綜合各指標的評價信息,如Zhao等[27]以自動駕駛車輛完成任務的成本函數(shù)值為指標屬性值,以通過熵權法獲得的權值為指標權重,應用加權平均算法獲得綜合評價結果,但是該方法單項指標的極值會影響評價結果的準確性.
各集結模型的特點歸納如表4所示,在實際應用過程中,需要根據(jù)評價時具備的條件以及對評價結果的要求選擇合適的集結模型.
表4 自動駕駛車輛智能性評價集結模型
定性評價方法從自動駕駛車輛智能性本質出發(fā),利用專家的知識、經(jīng)驗和判斷,通過觀察被評價對象的表現(xiàn)或狀態(tài),以歸納分析等非量化手段對自動駕駛車輛智能性進行評價.最終的評價結果是宏觀的智能性水平劃分,而非精確的數(shù)值.如王越超等[19]提出的蛛網(wǎng)模型從一個原點往外輻射出幾條軸,每條軸代表一個決定智能性的關鍵技術,在每個軸上根據(jù)技術成熟度分為若干個等級,最后把每條軸上的對應點連接起來構成蛛網(wǎng)的緯線,以此評價智能性,如圖2所示.
圖2 智能性評價蛛網(wǎng)模型
3.3.1評價結果
定性評價的結果是宏觀的智能性水平劃分,側重于從智能性的本質上對自動駕駛車輛進行評價,相比于定量評價方法,其結果更加穩(wěn)定可靠.但只有當自動駕駛車輛的智能性水平存在顯著差異時才能區(qū)分出性能優(yōu)劣,針對自動駕駛車輛產(chǎn)品無法做出智能性水平的詳細定位和精確評價,針對技術研發(fā)也不能提供研發(fā)方向的精確性引導.
定量評價以精確數(shù)值概括全部的評價信息,適用于需要對不同自動駕駛車輛的智能性優(yōu)劣做精確分析的場合.評價結果直觀明確,利于工程實踐和自動駕駛車輛性能逐步提高.
3.3.2評價過程
從評價過程來看,定性評價方法以歸納分析等非量化手段對自動駕駛車輛智能性進行評價,對測試數(shù)據(jù)的要求不高,數(shù)學工具簡單.定量評價中獨立指標評價方法同樣數(shù)學工具簡單,但對測試數(shù)據(jù)有較高要求.聯(lián)合指標評價方法首先需要區(qū)別不同評價指標的重要性差異,還需要將評價對象在各指標的評價結果綜合成一個總體評價結果,因此需要用到復雜的數(shù)學工具,操作也更為復雜.定性評價方法和定量評價方法應用特點匯總如表5所示.
表5 自動駕駛汽車智能性評價方法應用特點
智能性評價是開展自動駕駛技術研發(fā)和應用的重要環(huán)節(jié),本文對現(xiàn)階段自動駕駛車輛智能性評價指標和評價方法進行了梳理和分析.目前世界范圍內(nèi)尚未建立完善的自動駕駛車輛智能性評價體系,在該領域內(nèi)仍有很多問題需要深入研究,主要體現(xiàn)在:
(1) 評價框架:目前的評價目標都集中于車輛本身在一定的外界條件和環(huán)境下的某一項或多項性能或能力上,缺乏系統(tǒng)性和完整性.有必要結合智能主體的思想,明確自動駕駛汽車智能性的內(nèi)涵,從而確定自動駕駛車輛智能性的評價框架.
(2) 評價指標:部分評價指標體系中包含主觀指標,如何盡可能減少主觀指標數(shù)量,以及降低主觀指標帶來的人為因素干擾仍有待研究.
(3) 賦權方法:目前的指標權重確定方法均存在一定局限,主觀賦權法受人為因素干擾,客觀賦權法不能體現(xiàn)該指標對于智能性的重要性程度,賦權方法有待進一步研究.