吳振昕 何云廷 于立嬌 付雷 陳盼
(中國第一汽車集團有限公司智能網(wǎng)聯(lián)開發(fā)院,長春 130011)
主題詞:駕駛風(fēng)格識別 工況辨識 機器學(xué)習(xí) 決策融合
車載電控系統(tǒng)數(shù)量日益增多且高度智能集成化,產(chǎn)生了大量數(shù)據(jù),如何基于T-Box上傳的數(shù)據(jù)開展挖掘分析,并通過挖掘數(shù)據(jù)價值創(chuàng)新業(yè)務(wù)引流衍生新的與車輛相關(guān)的業(yè)務(wù),將是各大整車廠由生產(chǎn)車輛的傳統(tǒng)業(yè)務(wù)向汽車生態(tài)圈拓展業(yè)務(wù)轉(zhuǎn)型的重要途徑。
駕駛風(fēng)格識別是車聯(lián)網(wǎng)領(lǐng)域的一項新興技術(shù),早期由于車輛數(shù)據(jù)量較小,其應(yīng)用范圍受限。隨著車載T-Box的普及,車輛數(shù)據(jù)逐漸豐富化,駕駛風(fēng)格識別應(yīng)用廣度和深度不斷擴大。目前,駕駛風(fēng)格識別研究方法大體分為3種:駕駛風(fēng)格問卷調(diào)查、基于底盤數(shù)據(jù)和/或先進駕駛輔助系統(tǒng)(Advanced Driver Assisted System,ADAS)數(shù)據(jù)的統(tǒng)計分析、基于底盤數(shù)據(jù)和/或ADAS數(shù)據(jù)的機器學(xué)習(xí)分析[1-2]。由于駕駛員可能隱瞞自己某些偏向危險的駕駛行為及問卷題目設(shè)置困難等原因,駕駛風(fēng)格調(diào)查問卷精度不高?;诘妆P數(shù)據(jù)和/或ADAS數(shù)據(jù)的統(tǒng)計分析方法對與駕駛風(fēng)格強相關(guān)的車輛狀態(tài)參數(shù)進行統(tǒng)計分析得到駕駛風(fēng)格識別結(jié)果,但面對海量數(shù)據(jù)時,統(tǒng)計分析方法的數(shù)據(jù)處理能力捉襟見肘。機器學(xué)習(xí)的優(yōu)勢是處理海量數(shù)據(jù),隨著車聯(lián)網(wǎng)平臺的廣泛建立和T-Box數(shù)據(jù)上傳頻率的增大,車輛狀態(tài)數(shù)據(jù)量呈指數(shù)級增長,基于底盤數(shù)據(jù)和/或ADAS數(shù)據(jù)的機器學(xué)習(xí)方法識別駕駛風(fēng)格因精度高、機器學(xué)習(xí)技術(shù)成熟等原因具有廣闊的研究與應(yīng)用空間。
本文利用數(shù)據(jù)挖掘技術(shù)開展基于大數(shù)據(jù)的駕駛風(fēng)格識別研究,建立了駕駛風(fēng)格數(shù)據(jù)庫,進行工況辨識,并提取工況特征建立駕駛風(fēng)格識別模型,獲得了駕駛員總體駕駛風(fēng)格標簽。駕駛風(fēng)格識別結(jié)果可應(yīng)用于ADAS開發(fā)及個性化定制、車輛能量控制、汽車電控系統(tǒng)控制參數(shù)調(diào)節(jié)、駕駛員能力提升及保險等后市場服務(wù)[3-5],為未來整車企業(yè)向服務(wù)生態(tài)提供商轉(zhuǎn)型提供有力支撐。
為了訓(xùn)練并測試機器學(xué)習(xí)模型,本文將駕駛風(fēng)格數(shù)據(jù)庫分為固定工況試驗數(shù)據(jù)和自然駕駛試驗數(shù)據(jù),分別將兩種數(shù)據(jù)用于訓(xùn)練和測試機器學(xué)習(xí)模型,為駕駛風(fēng)格識別建立可靠的數(shù)據(jù)庫基礎(chǔ)。固定工況的選擇依據(jù)前期大量的調(diào)研與對標結(jié)果確定,包括換道、轉(zhuǎn)彎、跟車等7種工況。
本文實車試驗采用1輛試驗樣車和1輛環(huán)境車,在城市道路開展實車駕駛試驗,提取各工況數(shù)據(jù),構(gòu)建駕駛風(fēng)格數(shù)據(jù)庫。
2.1.1 車輛改裝
基于信號需求對試驗樣車進行改裝,在車輛正前方、正后方分別安裝毫米波雷達,在車輛正前方安裝前視圖像單元。
試驗設(shè)備采用多通道CANoe和Dewe43數(shù)據(jù)采集儀,其中CANoe主要采集試驗車輛動力CAN信號、正前方雷達傳感器信號、正后方雷達傳感器信號及前視圖像單元信號,Dewe43用于采集環(huán)境車輛的動力CAN數(shù)據(jù)。
2.1.2 駕駛員篩選及試驗路線規(guī)劃
資料顯示,我國在冊機動車駕駛員男女比例約為1.8∶1[2],本文篩選駕駛員時男女比例定為2∶1。為了避免參與試驗的駕駛員駕駛風(fēng)格偏向某一方面導(dǎo)致試驗數(shù)據(jù)分布不均,在進行試驗前通過《駕駛員駕駛風(fēng)格調(diào)查問卷》進行初選,根據(jù)問卷得分在總體中的分布、性別、年齡和駕齡篩選參與試驗的駕駛員??紤]樣本分布的均衡合理,不僅要保證男女比例,而且須覆蓋不同年齡分段(25~55歲)、不同的實際駕駛風(fēng)格,本文從262名參與問卷調(diào)查的駕駛員中篩選出80名駕駛員參與實車試驗。
試驗路線如圖1示,分為規(guī)定工況路線和自由駕駛路線。試驗時,每位駕駛員需要提前熟悉車輛和試驗路線,試驗開始后,每位駕駛員分別在50 km/h和70 km/h兩種常用車速下進行3次重復(fù)試驗。
常見的數(shù)據(jù)預(yù)處理方法包括濾波、缺失值處理、異常值處理、歸一化、重采樣、單位轉(zhuǎn)換等。車輛底盤CAN信號含有噪聲,導(dǎo)致信號毛刺比較多。為了提高分析精度,根據(jù)各原始信號及其噪聲的特點對其進行濾波處理。以縱向加速度信號為例,其含高頻噪聲成分較多,可采用低通濾波器,根據(jù)縱向加速度信號的頻率屬性設(shè)置濾波器通帶截止頻率為3 Hz,阻帶截止頻率為6 Hz。濾波后信號高頻部分的幅值明顯減小,低頻部分幅值不變,符合縱向加速度信號的頻率屬性。
圖1 試驗路線
根據(jù)車輛動力學(xué)原理進行工況辨識,從駕駛風(fēng)格數(shù)據(jù)庫中提取出7種固定工況,即轉(zhuǎn)彎工況、變道工況、超車工況、掉頭工況、跟車工況、起動工況和停止工況,然后利用工況辨識結(jié)果識別駕駛員風(fēng)格。
本文以轉(zhuǎn)彎工況為例說明工況辨識邏輯,其他工況辨識原理與轉(zhuǎn)彎工況相同,只是提取的特征不同。
根據(jù)車輛動力學(xué)原理,與直線行駛相比,轉(zhuǎn)彎時車輛航向角、橫擺角速度和側(cè)向加速度會發(fā)生明顯變化[6],根據(jù)實車試驗轉(zhuǎn)彎工況的統(tǒng)計分析結(jié)果確定轉(zhuǎn)彎工況辨識邏輯的各項判定閾值,轉(zhuǎn)彎工況辨識邏輯如圖2示。
圖2 轉(zhuǎn)彎工況辨識邏輯
為了驗證轉(zhuǎn)彎工況辨識邏輯的準確性,利用車輛GPS信號繪制車輛運動軌跡,標出已辨識出的轉(zhuǎn)彎工況,辨識效果如圖3示。
圖3 轉(zhuǎn)彎工況辨識邏輯驗證
由圖3可知,該邏輯可以較準確地辨識出轉(zhuǎn)彎工況。在較低車速下,不同駕駛員間的操縱差異較小,故本文研究中、高車速下的駕駛風(fēng)格識別。結(jié)果顯示,該辨識邏輯可以用于駕駛風(fēng)格識別中的轉(zhuǎn)彎工況辨識。
基于第3節(jié)工況辨識結(jié)果,利用無監(jiān)督機器學(xué)習(xí)方法——K均值法對每種工況下的數(shù)據(jù)進行聚類分析,得到每種工況下駕駛風(fēng)格識別結(jié)果;然后利用決策融合方法將每種工況下的風(fēng)格識別結(jié)果進行決策融合,得到駕駛員的總體駕駛風(fēng)格標簽。
機器學(xué)習(xí)是一門研究如何通過計算的手段、利用經(jīng)驗改善系統(tǒng)自身性能的學(xué)科[7],其研究的主要內(nèi)容是在計算機上利用數(shù)據(jù)產(chǎn)生“模型”的方法,即“學(xué)習(xí)算法”。隨著數(shù)據(jù)量不斷積累,傳統(tǒng)的數(shù)據(jù)分析方法不能有效處理大量數(shù)據(jù),機器學(xué)習(xí)算法很好地解決了這一問題,廣泛應(yīng)用于計算機科學(xué)的眾多分支領(lǐng)域以及交叉學(xué)科。
大數(shù)據(jù)的其特點是容量大、速度快、模態(tài)多、難辨識、價值大、密度低[8-9]。機器學(xué)習(xí)能夠很好地應(yīng)對大數(shù)據(jù)分析的困難和挑戰(zhàn),成為分析大數(shù)據(jù)的主流技術(shù)。按照機器學(xué)習(xí)過程中使用的樣本是否存在標簽,可將其分為監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)[10]。監(jiān)督學(xué)習(xí)是指訓(xùn)練的數(shù)據(jù)樣本帶有標簽,在訓(xùn)練過程中利用標簽評價模型的訓(xùn)練結(jié)果、調(diào)試模型參數(shù)、改進模型精度,根據(jù)標簽從訓(xùn)練樣本中學(xué)習(xí)對象的劃分規(guī)則[11]。非監(jiān)督學(xué)習(xí)適用于樣本標簽難以獲得的情況,通過學(xué)習(xí)數(shù)據(jù)間內(nèi)在模式和規(guī)律獲得樣本的特征[12]。非監(jiān)督學(xué)習(xí)的典型算法有自動編碼器、受限玻爾茲曼機、深度置信網(wǎng)絡(luò)等,主要應(yīng)用于聚類、異常檢測等。
本文的研究目的是駕駛員駕駛風(fēng)格識別,在實際應(yīng)用場景中駕駛員風(fēng)格標簽未知,所以本文選擇無監(jiān)督機器學(xué)習(xí)方法對駕駛風(fēng)格進行聚類。常用的聚類方法有劃分聚類、層次聚類、密度聚類,其中劃分聚類常見的方法有K均值法、CLARANS算法等,層次聚類典型的算法包括BIRICH、CURE等,密度聚類典型算法有具有噪聲的基于密度的聚類(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)方法、通過點排序識別聚類結(jié)構(gòu)(Ordering Points To Identify the Clustering Structure,OPTICS)算法等[13]。
以上各種聚類方法中,K均值法是最經(jīng)典、應(yīng)用最廣泛的算法之一,該方法用質(zhì)心定義原型,其質(zhì)心是一組點的均值,常用于n維連續(xù)空間中的對象[14]。綜合考慮各種聚類方法的優(yōu)缺點及使用場合,選擇K均值法對駕駛風(fēng)格進行聚類。
K均值法采用貪心策略,通過迭代優(yōu)化來近似求解最小化平方誤差,對于給定的樣本集D={x1,x2,…,xm},K均值針對聚類所得簇劃分C={C1,C2,…,Ck}最小化平方誤差:
式(1)刻畫了簇內(nèi)樣本圍繞簇均值向量的緊密程度,E越小,則簇內(nèi)樣本相似度越高。K均值算法流程如圖4示。
圖4 K均值算法流程
在一段行程中,可能包含多個工況及某一工況多次出現(xiàn),例如轉(zhuǎn)彎、跟車、變道等工況,駕駛風(fēng)格識別需要將某一工況出現(xiàn)一次的識別結(jié)果與到目前為止已經(jīng)存在的該工況多次出現(xiàn)的識別結(jié)果融合,然后再把不同工況的識別結(jié)果融合,得到一段行程駕駛風(fēng)格識別的最終結(jié)果。因此,本文決策融合算法分為兩個層級:同一工況級決策融合,不同工況級決策融合。
決策融合方法的選擇取決于分類器輸出的類型:如果分類器輸出概率值或范圍值,那么融合這兩種類型輸出的算法稱為軟決策融合算法;如果分類器輸出的結(jié)果是類標簽或類的集合,那么融合這兩種類型輸出的算法稱為硬決策融合算法。常見的軟決策融合算法包括乘積法、求和法、最大/最小值法、均值法等[15-16],常見的硬決策融合算法包括投票法、貝葉斯法、D-S證據(jù)理論、神經(jīng)網(wǎng)絡(luò)、粗糙集理論等[17-18]。
本文聚類輸出的結(jié)果屬于標簽類,所以需要選擇一種硬決策融合算法。同一工況下融合識別結(jié)果的特點是多條識別結(jié)果融合、新產(chǎn)生工況的識別結(jié)果與歷史識別結(jié)果融合,由于駕駛風(fēng)格受交通環(huán)境影響可能會發(fā)生變化,為了體現(xiàn)工況識別結(jié)果的變化,選擇D-S證據(jù)理論作為融合方法,避免投票法和貝葉斯計算先驗概率時湮沒新進識別結(jié)果。D-S證據(jù)理論于1967年提出,它比傳統(tǒng)的概率論能更好地的把握問題的未知性和不確定,從而在多傳感器信息融合中得到了廣泛的應(yīng)用。
設(shè)m1和m2是兩個相互獨立的基本概率賦值,那么組合后的基本概率賦值為m=m1⊕m2,即對兩個證據(jù)進行融合,D-S證據(jù)理論提供了一種計算兩個證據(jù)融合后的基本概率的方法。
4.3.1 特征提取與特征選擇
提取表征駕駛風(fēng)格的特征是建立機器學(xué)習(xí)模型的基礎(chǔ),并且選擇特征的優(yōu)劣很大程度決定了模型的準確度。
試驗采集的車輛狀態(tài)信號中,能反映駕駛員駕駛風(fēng)格的信號主要包括車速、縱向加速度、油門踏板開度、側(cè)向加速度、橫擺角速度、航向角、轉(zhuǎn)向盤轉(zhuǎn)角及其角速度共8個通道信號,根據(jù)本文提出的工況辨識邏輯獲得駕駛員駕駛工況數(shù)據(jù)后,需要提取可以表征駕駛風(fēng)格的特征,用于建立和訓(xùn)練機器學(xué)習(xí)模型。對于每個通道信號利用統(tǒng)計學(xué)方法提取統(tǒng)計特征,例如轉(zhuǎn)彎工況下,提取車速的均值、最大值、最小值、方差、標準差、協(xié)方差、均方根、四分位值等統(tǒng)計量。利用此法處理8個通道信號,共得到105個特征。
從原始數(shù)據(jù)提取的特征會包含離群樣本點,這樣的數(shù)據(jù)點會對特征處理過程中的歸一化產(chǎn)生影響,所以需要剔除離群點,以還原特征數(shù)據(jù)正常分布,如圖5、圖6所示。
在不同工況下需對90個特征進行篩選以降低聚類模型的復(fù)雜度,提高其精度。首先根據(jù)特征方差大小進行特征篩選,得到35個方差較大的特征,然后利用車輛動力學(xué)先驗知識和因子分析(Factor analysis)方法進一步篩選特征,最終得到3個關(guān)鍵特征,即轉(zhuǎn)向盤角速度最大值、橫擺角速度最大值、側(cè)向加速度最大值,用于建立和訓(xùn)練聚類模型。
圖5 特征中存在數(shù)值較大的離群點
圖6 剔除離群點后數(shù)據(jù)特征分布
4.3.2 駕駛風(fēng)格聚類模型
根據(jù)先驗知識,一般將駕駛風(fēng)格分為謹慎型、一般型、激進型,因此K均值方法中K=3。聚類完成后,根據(jù)特征的數(shù)值大小分布情況并結(jié)合車輛動力學(xué)原理,為聚類得到的3個簇分別打上標簽。以80名駕駛員的6 700多個換道工況為例,利用K均值方法對換道數(shù)據(jù)進行聚類,結(jié)果如圖7所示。
圖7 換道工況聚類結(jié)果
評價聚類模型優(yōu)劣通常有兩種方法,一種是基于對象間距,另一種是基于人工主觀標簽結(jié)果。由于本文的目的是識別駕駛風(fēng)格,除考慮聚類模型本身性能的優(yōu)劣外,還要結(jié)合業(yè)務(wù)背景考慮風(fēng)格聚類結(jié)果與實際情況是否相符,因此采用與人工主觀標簽結(jié)果對比來評價聚類模型的優(yōu)劣。人工主觀標簽由具有豐富經(jīng)驗的、了解駕駛風(fēng)格評價方法并全程參與試驗的專家提供。
4.3.3 駕駛風(fēng)格決策融合模型
以換道工況為例,利用D-S證據(jù)理論進行決策融合的過程為[19]:
a.設(shè)n為D-S證據(jù)理論進行決策融合的最小工況數(shù),前n個換道工況識別出的3類風(fēng)格頻數(shù)分別為m0、m1、m2,當(dāng)?shù)?n+1)個換道工況出現(xiàn)時,第(n-1)、n、(n+1)個換道工況識別出的3類風(fēng)格頻數(shù)分別為p0、p1、p2;
b.計算前n個換道工況下3類風(fēng)格出現(xiàn)的概率分別為r0=m0/(m0+m1+m2)、r1=m1/(m0+m1+m2)、r2=m2/(m0+m1+m2),得到概率矩陣R=(r0,r1,r2);
c. 計算第(n-1)、n、(n+1)個換道工況下3類風(fēng)格出現(xiàn)的概率分別為s0=p0/(p0+p1+p2)、s1=p1/(p0+p1+p2)、s2=p2/(p0+p1+p2),得到概率矩陣S=(s0,s1,s2);
d. 計算矩陣R與ST之積,得到混合矩陣N=R?ST=
e. 計算不確定系數(shù)K1=s0r1+s0r2+s1r0+s1r2+s2r0+s2r1;
f. 計算D-S證據(jù)理論概率融合矩陣M=(M1,M2,M3),其中M1=s0r0/(1-K1),M2=s1r1/(1-K1),M3=s2r2/(1-K1),當(dāng)K1=1時表示相互融合的事件相互獨立,無法進行融合;
g.應(yīng)用D-S證據(jù)理論融合判據(jù)確定融合后的類,預(yù)先設(shè)定門限值e1,令L1=maxMi,L2=maxMi,(Mi≠L1),如果L1-L2>e1,則L1對應(yīng)的類為融合后的類。
駕駛風(fēng)格決策融合模型首先采用D-S證據(jù)理論對同一工況的多個識別結(jié)果進行融合,然后進行不同工況識別結(jié)果融合。以換道工況為例,80名駕駛員換道工況的D-S證據(jù)理論融合結(jié)果與人工標簽對比結(jié)果如表1示。
表1 換道工況D-S證據(jù)理論融合結(jié)果與專家主觀標簽對比 名
由表1可知,一般型與謹慎型和激進型均有交叉,謹慎型與激進型基本無交叉,主要原因有:駕駛員的駕駛風(fēng)格受交通環(huán)境、道路條件等環(huán)境因素影響會發(fā)生遷移;有些駕駛員在不同工況下體現(xiàn)出的風(fēng)格不同,導(dǎo)致某一工況的風(fēng)格識別結(jié)果與總體風(fēng)格標簽即專家主觀標簽不一致??傮w看,K均值法用于換道工況駕駛風(fēng)格識別的精度在可接受范圍內(nèi)。
完成同一工況不同識別結(jié)果的融合后,得到該工況下駕駛員駕駛風(fēng)格識別結(jié)果。同理,利用D-S證據(jù)理論對其他新進工況的識別結(jié)果與歷史識別結(jié)果融合,更新每個工況的風(fēng)格識別結(jié)果。
由于工況數(shù)量有限且每個工況由一條識別結(jié)果代表,鑒于工況數(shù)據(jù)有限以及駕駛員風(fēng)格在不同工況下具有一定傾向性的特點,選擇投票法融合不同工況下的駕駛風(fēng)格識別結(jié)果。投票法是最常見、最簡單的決策融合算法,統(tǒng)計各個工況識別結(jié)果出現(xiàn)的頻數(shù),出現(xiàn)頻數(shù)最多的識別結(jié)果即是此駕駛員對應(yīng)的總體駕駛風(fēng)格。
采用投票法將多種工況的風(fēng)格識別結(jié)果進行融合,融合結(jié)果與人工標簽對比結(jié)果如表2所示。
表2 不同工況投票法融合結(jié)果與專家主觀標簽對比 名
由表2可知,不同工況的融合結(jié)果與專家主觀標簽的對比結(jié)果較表1好,印證了前文駕駛員在不同工況下體現(xiàn)的風(fēng)格存在差異,激進型駕駛員不是在所有工況下都激進駕駛的分析。駕駛風(fēng)格識別關(guān)注識別結(jié)果的查準率,即正確地識別每一種類型,不關(guān)注誤判率,謹慎型查準率為16/(16+4+0)=80%,一般型查準率為38/(38+6+4)=79.2%,激進型查準率為10/(10+2)=83.3%。
由此可見,本文建立的由聚類模型和決策融合模型組成的風(fēng)格識別模型查準率較高,能夠滿足駕駛風(fēng)格識別研究的需求。
基于駕駛風(fēng)格數(shù)據(jù)庫,首先利用工況辨識邏輯提取特征數(shù)據(jù)段,然后利用統(tǒng)計學(xué)方法、特征選擇和提取方法提取特征,最后用K均值方法聚類,并對聚類結(jié)果進行D-S證據(jù)理論融合,得到單一工況的風(fēng)格識別結(jié)果。按照此思路,得到其他工況的風(fēng)格識別結(jié)果,最終利用投票法得到最終的風(fēng)格識別結(jié)果,經(jīng)過驗證,本文開發(fā)的駕駛風(fēng)格識別模型查準率達到80%。
后續(xù)研究將利用本文建立的駕駛風(fēng)格識別模型分析160位用戶體驗數(shù)據(jù)的駕駛風(fēng)格,進一步改進識別模型,并利用該模型處理用戶通過T-Box上傳至云平臺的數(shù)據(jù),分析其駕駛風(fēng)格,為駕駛員駕駛行為、駕駛行為保險(Usage Based Insurance,UBI)等研究提供依據(jù)。