金輝, 呂明
(北京理工大學(xué) 機(jī)械與車輛學(xué)院,北京 100081)
駕駛風(fēng)格研究是智能駕駛輔助的熱點問題. 較早時,美國福特公司的Lu等[1]提出一種駕駛員建議系統(tǒng),該系統(tǒng)根據(jù)車輛狀態(tài)與極限操縱條件將駕駛員劃分為了四種類型. 除了對于駕駛風(fēng)格本身的研究,不少學(xué)者也就如何高效準(zhǔn)確識別進(jìn)行了諸多嘗試. 宋威龍等[2]研究了基于模糊邏輯的駕駛員激進(jìn)程度判別模型,并推斷出駕駛員的駕駛類型;Yi等[3]通過多項式回歸混合聚類和Akaike準(zhǔn)則應(yīng)用于個體駕駛員性格和駕駛軌跡研究;郝景賢等[4]利用K-Means聚類分析駕駛風(fēng)格并驗證了聚類結(jié)果.
本文主要研究的駕駛風(fēng)格未來可應(yīng)用于自動變速系統(tǒng)等智能車輛縱向控制系統(tǒng),故主要考慮縱向動力學(xué)特性,所研究的工況是在車輛的日常行駛過程中占比高的起步工況,將實驗收集到的大量數(shù)據(jù)利用主成分分析法(principal component analysis, PCA)篩選出能夠較好反映駕駛風(fēng)格的特征參數(shù),采用聚類算法對降維后數(shù)據(jù)進(jìn)行分析,在分析結(jié)果基礎(chǔ)上建立基于Fisher判別的駕駛員格識別方法,對比經(jīng)典和改進(jìn)Fisher判別的識別效果,驗證改進(jìn)的Fisher判別有效性和準(zhǔn)確性.
對駕駛風(fēng)格進(jìn)行分析和研究須采集大量駕駛數(shù)據(jù),主要采集自搭建好的駕駛模擬器. 為充分反映駕駛員不同的駕駛風(fēng)格,實驗內(nèi)容是模擬駕駛員在沒有其他車輛干擾時使從靜止?fàn)顟B(tài)在直線道路上自由起步,如將縱向車速0~20 km/h界定為起步工況,通過駕駛模擬器采集到了不同駕駛員的234組實驗數(shù)據(jù)樣本,經(jīng)過處理后,每組數(shù)據(jù)樣本包括最高車速、平均車速、車速標(biāo)準(zhǔn)差等9個可用于表征駕駛風(fēng)格的參數(shù)[5].
現(xiàn)對全部9個特征參數(shù)都進(jìn)行降維處理,以期能夠降低數(shù)據(jù)關(guān)系的復(fù)雜程度,篩選出最能反映駕駛風(fēng)格特征的幾個關(guān)鍵參數(shù). 目前比較成熟的降維算法有遺傳算法(genetic algorithm,GA)、t-SNE算法和PCA等,綜合考慮計算效率和計算量,本文采用PCA來進(jìn)行降維處理,原理是由于眾多原始變量之間存在內(nèi)在聯(lián)系關(guān)系,通過對原始變量相關(guān)矩陣研究,線性組合形成幾個新的成分.
在PCA計算中一般滿足n
(1)
式中λi為第i個成分對應(yīng)的特征根.
表1 方差貢獻(xiàn)率和累計貢獻(xiàn)率Tab.1 Total and cumulative variance explained
現(xiàn)在可使用一個綜合評價值F來評價每個主成分Yi和每個標(biāo)準(zhǔn)化后的原始數(shù)據(jù)xj對原始數(shù)據(jù)的影響大小情況[6],綜合評價指標(biāo)F的計算如式(2)所示,可知xj的系數(shù)Lj的絕對值大小反映了xj對綜合評價指標(biāo)F的影響大小.
(2)
式中Lj為在綜合評價指數(shù)F中第j個向量分量xj的系數(shù).
F與xj關(guān)系式中系數(shù)Lj絕對值最大的3個表征參數(shù)分別是加速踏板行程變化率標(biāo)準(zhǔn)差、加速踏板行程變化率平均值和加速踏板最大行程,其系數(shù)絕對值依次是0.133 88、0.162 86和0.145 86,故選用這3個參數(shù)來表征該工況下駕駛員的駕駛風(fēng)格特征.
使用高斯混合分布模型算法(Gaussian mixture mode, GMM)來進(jìn)行聚類分析時,需要提前確定聚類中心數(shù),通常采用計算數(shù)據(jù)聚類的Silhouette值來進(jìn)行聚類效果評價. 數(shù)據(jù)集樣本個體的輪廓系數(shù)Si計算如式(3)所示,對于整個數(shù)據(jù)集的某次聚類而言其輪廓系數(shù)Sk如式(4)所示.
(3)
(4)
式中:ai為簇內(nèi)不相似度;bi為簇間不相似度;n為樣本個數(shù);k為聚類中心數(shù).
由式(3)可知Si的取值應(yīng)介于-1~1之間,當(dāng)Si的取值越接近1則表示對該樣本的分類越合理,在設(shè)定了聚類中心數(shù)后計算Sk值,結(jié)果如表2所示.
表2 聚類中心數(shù)目的Sk值Tab.2 Sk value of number of cluster centers
表2中在聚類有效性分析時,選擇最佳聚類中心數(shù)目的方法是Sk值越大,聚類效果越好. 如果單從數(shù)學(xué)的角度考慮,聚類中心數(shù)為2時最合適,但若考慮到實際人們對于實物的分類習(xí)慣,選擇更符合人們認(rèn)知規(guī)律的3個聚類中心作為本文后續(xù)研究的基礎(chǔ). 根據(jù)文獻(xiàn)[7]及考慮本文研究的實際問題,將駕駛風(fēng)格分為保守型、一般型和激進(jìn)型三種類型.
在從原始數(shù)據(jù)篩選得出的三個表征參數(shù)后,需要使用一定的算法來對數(shù)據(jù)集進(jìn)行聚類處理以優(yōu)化計算效率和效果,常見的聚類算法有基于密度的聚類算法(density-based spatial clustering of applications with noise,DBSCAN)、K-Means算法和GMM算法等. 同樣在考慮計算效率和實際計算效果后,本文選用GMM算法來進(jìn)行聚類分析,GMM模型是由多個高斯分布線性組合疊加而成,能給出每個樣本的類別隸屬概率,這種聚類模型更適用于駕駛風(fēng)格這類界限較模糊的軟聚類問題.
GMM算法模型常使用基于隱變量學(xué)習(xí)的最大期望算法(expectation-maximization algorithm,EM)來求解. 如圖1所示是將采集到234組數(shù)據(jù)使用EM算法計算求解GMM模型的結(jié)果.
可見樣本數(shù)據(jù)基本被分成了三類且每一類中都存在聚類中心,其詳細(xì)聚類結(jié)果如表3所示,共得到了三個類群,第一個類群包含95組樣本,第二個類群包含78組樣本,第三個類群包含61組樣本,從第一類群到第三類群,聚類中心的三個參數(shù)都在增大,考慮三個參數(shù)的實際物理意義,即代表駕駛員在駕駛時油門的平均行程和最大行程都在增加,油門行程的波動也在增加,這說明駕駛員對動力性的需求顯然在增加,故可認(rèn)為三個類群依次代表的駕駛風(fēng)格為保守型、一般型和激進(jìn)型,使用GMM算法獲得的聚類中心和聚類參數(shù)范圍是用于起步工況下駕駛風(fēng)格識別研究的基礎(chǔ).
表3 GMM算法聚類中心及聚類范圍Tab.3 Clustering center and range with GMM algorithms
駕駛風(fēng)格識別屬于模式判別問題,一般常用的模式判別方法分為無監(jiān)督學(xué)習(xí)判別方法和有監(jiān)督學(xué)習(xí)判別方法,無監(jiān)督學(xué)習(xí)判別方法對原始數(shù)據(jù)要求較低,但通常準(zhǔn)確性不好. 本文選擇屬于有監(jiān)督學(xué)習(xí)判別方法的Fisher判別,它是一種高效簡便易用的降維判別方法,對樣本總體分布沒有特定要求,具有良好的實時運算性能和合適的精確度,更加適合車載識別的需求.
經(jīng)典Fisher判別是將多維空間中的數(shù)據(jù)點在低維空間上投影,以使得投影后不同類數(shù)據(jù)之間盡可能遠(yuǎn)離(類間離差度A盡量大),同時又讓同類數(shù)據(jù)之間盡可能接近(類內(nèi)離差度E盡量小). Fisher判別就是尋找這個最佳投影方向以完成優(yōu)化,判別目標(biāo)函數(shù)J的表達(dá)式如式(10)所示,通過求判別目標(biāo)函數(shù)J的最大值即可求解出最佳投影方向向量u,在求解過程中可知J和u是矩陣A、E的廣義特征根及對應(yīng)的特征向量.
(5)
在求出u后可以構(gòu)造判別函數(shù),判別函數(shù)如式(6)所示.
yl(x)=ux′,
(6)
式中:yl(x)為判別函數(shù)得分;x為總體樣本數(shù)據(jù)矩陣.
判別分類的準(zhǔn)則是假設(shè)把總體分成m類,若某一個樣本z要屬于第n類(n 由于Fisher判別是有監(jiān)督學(xué)習(xí)判別算法,故在樣本數(shù)據(jù)中按照統(tǒng)計學(xué)要求按8:2比例構(gòu)造訓(xùn)練集和測試集,同時每組數(shù)據(jù)是隨機(jī)編號的,聚類分成三類后每組數(shù)據(jù)也具有隨機(jī)性,因此可選取每一類數(shù)據(jù)的前80%作為訓(xùn)練集,其余的20%作為測試集. Fisher判別函數(shù)的參數(shù)生成通過使用訓(xùn)練集的學(xué)習(xí)訓(xùn)練獲得,測試集不參與這些參數(shù)的生成訓(xùn)練過程,最后將獲得的判別函數(shù)用于對測試集中數(shù)據(jù)所屬類別的識別,識別結(jié)果如表4所示. 表4 經(jīng)典Fisher測試集識別結(jié)果Tab.4 Recognition results of classical Fisher test sets 由表4可知,若以GMM聚類分析獲得的結(jié)果作為參考結(jié)果,經(jīng)典Fisher判別在三種駕駛風(fēng)格類型的測試集中正確識別了38組樣本數(shù)據(jù),總體正確率達(dá)到了80.9%,超過了80%的識別正確率說明經(jīng)典Fisher判別的有效性. 經(jīng)典Fisher的識別正確率雖然已超過80%,但還有提升空間,現(xiàn)考慮改進(jìn)Fisher判別來進(jìn)一步提高識別正確率,改進(jìn)的判別方法還是基于原判別函數(shù),但引入了一個權(quán)重因子p,將目標(biāo)函數(shù)從分式型變成了差式型,從而構(gòu)造出差值最大化模型,其計算式如式(7)所示. J2=pu′Au-(1-p)u′Eu= u′[p(A+E)-E]u. (7) 式中p為權(quán)重因子. 由前文可知u的解就是矩陣p(A+E)-E的最大特征根所對應(yīng)的特征向量,當(dāng)權(quán)重因子分別取0或1時表示所有待分類的個體全部被歸為同一類或各自形成獨立的小類,故該因子用于衡量個體在總體中的所占的比重大小,能夠通過調(diào)整p方便地產(chǎn)生多種互異的結(jié)果,在不同p取值下通過求判別目標(biāo)函數(shù)J2的最大值. 調(diào)節(jié)p的取值可獲得多個判別函數(shù),用回帶后的識別正確率來衡量權(quán)重因子p的取值是否合適. 為確定權(quán)重因子p的最佳取值或取值范圍,需在0~1之間試取,本文選擇0.1作為權(quán)重因子p試取步長,用測試集檢驗所得到的不同判別函數(shù),獲得的權(quán)重因子p取值與測試集識別正確率的關(guān)系如圖2所示. 由圖2可得,在獲得的權(quán)重因子p取值中,當(dāng)p∈[0.1,0.3] 時,測試集的識別正確率為85.4%;當(dāng)p∈[0.4,0.9]時,測試集識別正確率上升至87.2%,此時具有最好的識別正確率,具體判別結(jié)果如表5所示,可得使用改進(jìn)的Fisher判別在計算量并無較大變化,但對數(shù)據(jù)樣本的識別正確率提升了6.3%. 表5 改進(jìn)Fisher測試集識別結(jié)果Tab.5 Recognition results of modified Fisher test set 綜上所述,對于本文所研究的工況,即便使用經(jīng)典Fisher判別也可獲得80%以上的測試集識別正確率,在引入權(quán)重因子p并進(jìn)行合適取值后,使得識別正確率得到進(jìn)一步提升,可認(rèn)為改進(jìn)的Fisher判別對于所研究工況的駕駛風(fēng)格具有較好的識別效果. 本文通過實驗收集到的數(shù)據(jù)針對在起步工況下駕駛員的駕駛風(fēng)格進(jìn)行了研究,利用PCA來篩選簡化表征參數(shù),運用GMM算法進(jìn)行聚類分析,獲得了從保守型風(fēng)格到激進(jìn)型風(fēng)格的三種聚類結(jié)果;最后建立了Fisher判別的識別模型,比較了運用經(jīng)典和改進(jìn)的Fisher判別的效果,改進(jìn)的Fisher判別識別正確率可達(dá)到85%以上. 由此可以構(gòu)建一套易用且有效準(zhǔn)確的駕駛風(fēng)格識別方法,并可將識別到的結(jié)果運用到車輛的自動變速系統(tǒng)、電動助力轉(zhuǎn)向系統(tǒng)和自適應(yīng)主動懸架系統(tǒng)的控制中,以實現(xiàn)更加符合駕駛員要求的個性化響應(yīng)并可作為制定人和車輛協(xié)同控制策略的基礎(chǔ).3.2 改進(jìn)Fisher判別
4 結(jié)束語