劉子譚 朱平 劉旭鵬 劉釗
(1.上海交通大學(xué),上海 200240;2.上汽大眾汽車有限公司,上海 201805)
行駛工況是通過(guò)數(shù)據(jù)分析所構(gòu)建的一個(gè)區(qū)域內(nèi)一系列代表性的速度-時(shí)間數(shù)據(jù),可以模擬真實(shí)的交通狀況,以測(cè)試車輛尾氣排放和燃料消耗。此外,其在交通協(xié)同控制、新車評(píng)價(jià)、風(fēng)險(xiǎn)評(píng)估和車輛的設(shè)計(jì)、選型、匹配和控制策略等方面有著廣泛的應(yīng)用[1-3]。
常用的行駛工況構(gòu)建方法是短行程法,將數(shù)據(jù)劃分成短行程片段,通過(guò)分析片段特征參數(shù)組合生成對(duì)應(yīng)的行駛工況[4]。Lin 等采用短片段劃分以及隨機(jī)過(guò)程選擇方法構(gòu)建了行駛工況[5]。Fotouhi和Montazaeri 描述了基于短行程和K 均值聚類方法的汽車行駛工況構(gòu)建過(guò)程,將開發(fā)的行駛工況特征與FTP-75、聯(lián)合國(guó)歐洲經(jīng)濟(jì)委員會(huì)(Economic Commission for Europe,ECE)汽車法規(guī)和市郊循環(huán)工況(Extra Urban Driving Cycle,EUDC)進(jìn)行了對(duì)比分析[6]。同濟(jì)大學(xué)胡志遠(yuǎn)利用短行程、主成分分析、聚類分析等方法對(duì)上海市公交車進(jìn)行研究,生成了最優(yōu)短行程組合[7]。吉林大學(xué)秦大同等利用K 均值聚類算法與工況選擇方法構(gòu)建了較為精準(zhǔn)的區(qū)域行駛工況[8]。李孟良等學(xué)者采集了北京、上海和廣州車輛行駛速度等運(yùn)動(dòng)學(xué)特征,生成3個(gè)城市的工況并與ECE 15 工況相比較,說(shuō)明中國(guó)城市行駛工況的特點(diǎn)[9]。彭美春等學(xué)者沿廣州市中心區(qū)2 條典型公交線路進(jìn)行試驗(yàn),得到廣州市公交車行駛工況并與歐洲瞬態(tài)循環(huán)(European Transient Cycle,ETC)城市工況進(jìn)行了比較[10]。
我國(guó)汽車行駛工況方面的標(biāo)準(zhǔn)、試驗(yàn)方法、測(cè)試手段等全面沿用新歐洲行駛工況(New European Driving Cycle,NEDC),但其與中國(guó)的相似程度較低。李孟良等學(xué)者根據(jù)采集的北京市、上海市、廣州市實(shí)際道路工況提出了QC/T 759—2006《汽車試驗(yàn)用城市運(yùn)轉(zhuǎn)循環(huán)》,但該工況提出較早,對(duì)當(dāng)前廣州市實(shí)際交通狀況的適應(yīng)性有待驗(yàn)證。因此,構(gòu)建較為精確的廣州市交通特征行駛工況對(duì)于分析廣州市交通狀態(tài),以及廣州市機(jī)動(dòng)車排放測(cè)試、新車仿真有著重要價(jià)值。
本文利用短行程法、主成分分析及聚類方法,并針對(duì)K均值聚類穩(wěn)定性較差的缺陷進(jìn)行改進(jìn)研究,將改進(jìn)后的聚類方法應(yīng)用于工況構(gòu)建,生成了廣州市行駛工況并與美國(guó)、歐洲等地區(qū)的典型行駛工況進(jìn)行比較,給出廣州市工況的特點(diǎn)。
先將數(shù)據(jù)劃分成短行程片段,再根據(jù)片段特征參數(shù),將具有相似特征的片段聚合成3 類,對(duì)生成的類數(shù)據(jù)集采用一定的片段拼接算法生成行駛工況[7,11],本文采用的行駛工況構(gòu)建流程如圖1所示。
圖1 短行程構(gòu)建流程
主成分分析法是一種多元統(tǒng)計(jì)方法,可以通過(guò)較少的綜合變量盡可能多地反映原變量的信息。本文數(shù)據(jù)量大、數(shù)據(jù)維度多,且各維度之間有一定的信息重疊,通過(guò)主成分分析能夠大幅減小數(shù)據(jù)規(guī)模,提高計(jì)算效率。
K 均值聚類(K-Means)作為最常用的聚類算法之一,具有算法簡(jiǎn)單、收斂速度快等優(yōu)點(diǎn)。K 中心點(diǎn)聚類(K-Medoids)與K 均值聚類不同,選用類中位置居于最中心的對(duì)象作為迭代過(guò)程新聚類中心。模糊C 均值算法(Fuzzy C-Means,F(xiàn)CM)與K 均值聚類方法的主要區(qū)別在于FCM采用模糊劃分,使得每個(gè)數(shù)據(jù)點(diǎn)用[0,1]區(qū)間內(nèi)的隸屬度來(lái)確定其屬于各個(gè)類的程度。高斯混合模型(Gaussian Mixture Models,GMM)每個(gè)維度用均值和標(biāo)準(zhǔn)差(方差)描述簇的形狀。
行駛工況的構(gòu)建采用數(shù)據(jù)解析方法,對(duì)于樣本量和樣本質(zhì)量有一定要求。表1 顯示了收集數(shù)據(jù)的基本信息。每日數(shù)據(jù)由多個(gè)短行程組成,數(shù)據(jù)記錄從汽車起動(dòng)開始到汽車熄火結(jié)束。車型選擇需要考慮用戶覆蓋不同的職業(yè)和年齡段,選擇了A0 級(jí)、A 級(jí)、B 級(jí)車型共計(jì)20 輛。經(jīng)過(guò)6 個(gè)月的廣泛采樣,共采集了廣州市2 800余萬(wàn)條行駛數(shù)據(jù)。
表1 數(shù)據(jù)采集基本信息
短行程是汽車行駛過(guò)程中一個(gè)怠速開始到下一個(gè)怠速開始的運(yùn)動(dòng)學(xué)片段,可以看作怠速段與運(yùn)動(dòng)段的組合。通過(guò)道路試驗(yàn)得到汽車運(yùn)行過(guò)程中的速度-時(shí)間數(shù)據(jù),將數(shù)據(jù)分割成111 321 個(gè)短行程片段。為了描述短片段的特征,選用行駛距離、最高車速、最大加速度、最小減速度、平均加速度、平均減速度、加速度標(biāo)準(zhǔn)差、平均車速、平均運(yùn)行車速、速度標(biāo)準(zhǔn)差、減速時(shí)間、加速時(shí)間、怠速時(shí)間、巡航時(shí)間、片段時(shí)間作為特征參數(shù)。
對(duì)原始數(shù)據(jù)進(jìn)行主成分分析,結(jié)果如表2所示。選擇使累計(jì)貢獻(xiàn)率達(dá)到90%的前4 個(gè)主成分代表所有原始變量,使得主成分方差貢獻(xiàn)率達(dá)到91.28%。
表2 主成分貢獻(xiàn)率及累計(jì)貢獻(xiàn)百分率
聚類方法多種多樣,其效果對(duì)行駛工況構(gòu)建的精度也有重要影響。行駛工況構(gòu)建過(guò)程中涉及大量數(shù)據(jù)的處理,根據(jù)聚類方法適用性選取K 均值聚類、K 中心點(diǎn)聚類、模糊聚類與高斯混合聚類進(jìn)行比較分析。
為了判斷聚類方法的優(yōu)劣,聚類中心設(shè)為3 個(gè),分別運(yùn)用4種方法進(jìn)行10次聚類并對(duì)結(jié)果進(jìn)行計(jì)算分析。
短片段的速度特征是描述片段的重要參數(shù),每個(gè)類的速度分布也能較直接地的反映聚類效果,10 次聚類每一類的最大速度頻率分布如圖2所示。
圖2 最大速度頻率分布
為了描述聚類穩(wěn)定性,計(jì)算相關(guān)變量,比較聚類中心偏差值ε,ε越小,穩(wěn)定性越高。計(jì)算公式為:
式中,K為聚類中心數(shù)量;N為試驗(yàn)次數(shù);nij為第i次試驗(yàn)第j類聚類中心坐標(biāo);-n為N次試驗(yàn)的平均值。
ε的計(jì)算結(jié)果如表3所示。由圖2、表3可知,4種方法生成的類速度分布整體趨勢(shì)相似,且每類的速度分布有明顯差別,因此可將3 類劃分為低、中、高速類。此外,結(jié)果反映出了聚類結(jié)果的穩(wěn)定性:模糊聚類10次聚類頻率分布曲線幾乎重合,偏差小、穩(wěn)定性好;K中心點(diǎn)聚類次之;高斯混合較為發(fā)散;K 均值聚類則出現(xiàn)了混亂的結(jié)果,偏差值較大。
表3 聚類穩(wěn)定性評(píng)價(jià)指標(biāo)
速度、加速度聯(lián)合概率分布是描述工況狀態(tài)的重要指標(biāo),也是短行程拼接篩選的依據(jù)。每一類內(nèi)部速度、加速度聯(lián)合分布差異越小,越易篩選到與該類聯(lián)合分布匹配的短片段。
輪廓系數(shù)(Silhouette Coefficient)是描述輪廓團(tuán)聚性的變量。對(duì)于單個(gè)樣本,計(jì)算公式為:
式中,a為其與同類別中其他樣本的平均距離;b為其與距離最近的不同類別中樣本的平均距離。
對(duì)于一個(gè)樣本集合,輪廓系數(shù)是所有樣本輪廓系數(shù)的平均值。輪廓系數(shù)取值范圍是[0,1],同類別樣本距離越相近且不同類別樣本距離越遠(yuǎn),即數(shù)值越大,團(tuán)聚性越高。
圖3所示為4種聚類方法平均速度與平均加速度聯(lián)合分布情況,表4 所示為4 種適應(yīng)性指標(biāo)??傻脙煞NK聚類中各類的速度、加速度聯(lián)合分布具有更明顯的團(tuán)聚性,低速類的平均加速度整體較高,高速類的平均加速度整體較低,這與實(shí)際低、高速行駛狀態(tài)相一致,說(shuō)明K聚類更適合該樣本,其中K均值聚類樣本適應(yīng)性最好。
表5 所示為4 種聚類方法的平均聚類時(shí)間,由圖5可以明顯看出K 均值聚類在計(jì)算時(shí)間方面較其他聚類算法有明顯優(yōu)勢(shì)。
圖3 平均速度與平均加速度聯(lián)合分布
表4 聚類適應(yīng)性評(píng)價(jià)指標(biāo)
表5 聚類平均時(shí)間
為了量化描述聚類效果以及聚類的穩(wěn)定性,采用緊密性(Compactness)CP與分離性(Separation)SP指標(biāo)。前者描述各點(diǎn)到聚類中心的平均距離,越小說(shuō)明同一類緊密度越高,效果越好;后者描述各聚類中心兩兩之間的平均距離,越大說(shuō)明不同類間隔性越高,效果越好。緊密型指標(biāo)和分離性指標(biāo)的計(jì)算方法分別為:
式中,k為聚類中心個(gè)數(shù);Ωi為第i個(gè)聚類集合;wi為第i個(gè)聚類中心;xi為第i個(gè)聚類所包含的元素。
表6 所示為4 種聚類CP與SP指標(biāo)的均值與方差。4 種聚類方法得到的CP與SP指標(biāo)均值接近,且聚類緊密度與間隔度此消彼長(zhǎng),但指標(biāo)方差差別較大,模糊聚類方差最小,K 中心點(diǎn)聚類次之,高斯混合聚類最大,K均值聚類較大,這與穩(wěn)定性指標(biāo)分析結(jié)果相吻合。
圖4、圖5 分別 為4 種方法10 次 聚類CP值 與SP值。10次聚類結(jié)果中模糊聚類與K中心點(diǎn)聚類指標(biāo)變動(dòng)小,高斯混合整體波動(dòng)較大,而K 均值聚類出現(xiàn)了尖點(diǎn)。因此,4 種聚類方法準(zhǔn)確性效果相似,但穩(wěn)定性有差異。其中,模糊聚類、K中心點(diǎn)聚類穩(wěn)定性較好,高斯混合聚類較差,而K均值聚類除了一次偏差較大的不合理聚類外,其余結(jié)果較穩(wěn)定。
表6 CP與SP均值與方差
圖4 10次聚類CP值
圖5 10次聚類SP值
綜上,K均值聚類綜合性能較優(yōu),樣本適應(yīng)性最好,聚類效率最高,但其穩(wěn)定性有待改進(jìn)。
K均值聚類對(duì)初始值較敏感,結(jié)果發(fā)生突變的主要原因是初始聚類中心選到了數(shù)據(jù)集中的邊緣點(diǎn)或者孤立點(diǎn)。針對(duì)這一問(wèn)題,對(duì)數(shù)據(jù)集進(jìn)行統(tǒng)計(jì)學(xué)分析。
在數(shù)據(jù)空間中,通常認(rèn)為處于低密度區(qū)域的點(diǎn)為噪聲點(diǎn)[12]。由表7主成分統(tǒng)計(jì)特征參數(shù)可得,主成分均值均為0,每一維數(shù)據(jù)具有正態(tài)性,且其置信度90%區(qū)間范圍相對(duì)于原有區(qū)間范圍大幅縮小。每個(gè)維度都采用置信度90%區(qū)間范圍計(jì)算的聯(lián)合分布概率為75.98%,點(diǎn)平均密度增加為原來(lái)的15 萬(wàn)倍,即舍棄了原空間中的邊緣點(diǎn)與孤立點(diǎn)。
因此采用置信度90%區(qū)間作為K 均值聚類初始聚類中心的選擇區(qū)間,10次聚類結(jié)果如表8所示,改進(jìn)前、后聚類中心偏差減小,輪廓系數(shù)增加,CP和SP指標(biāo)方差減小,穩(wěn)定性提高顯著,且計(jì)算效率相近。
表7 數(shù)據(jù)集統(tǒng)計(jì)特征參數(shù)
表8 改進(jìn)前、后參數(shù)對(duì)比
根據(jù)某汽車企業(yè)的測(cè)試標(biāo)準(zhǔn),行駛工況時(shí)間長(zhǎng)度為1 800 s,其中低、中、高速時(shí)間分別為413 s、920 s和467 s,利用改進(jìn)的K均值聚類法構(gòu)建廣州市行駛工況如圖6示。
選取9 個(gè)指標(biāo)對(duì)生成的工況進(jìn)行驗(yàn)證,表9 為試驗(yàn)數(shù)據(jù)與擬合工況參數(shù)對(duì)比結(jié)果??梢?jiàn),改進(jìn)方法生成的廣州市道路行駛工況各項(xiàng)誤差均小于10%,低、中、高速類以及整體平均相對(duì)誤差為小于6%,運(yùn)動(dòng)學(xué)特征較吻合。
圖6 廣州市行駛工況
行駛工況的主要運(yùn)動(dòng)學(xué)特征為汽車行駛的速度和加速度,且兩者具有強(qiáng)相關(guān)性。因此,能準(zhǔn)確描述數(shù)據(jù)集運(yùn)動(dòng)學(xué)信息的行駛工況應(yīng)具有與原數(shù)據(jù)集相似的速度-加速度聯(lián)合分布。由表9 可知,廣州市低、中、高速以及整體速度-加速度聯(lián)合分布概率卡方檢驗(yàn)值均小于0.1,即卡方檢驗(yàn)合格,說(shuō)明擬合工況與試驗(yàn)數(shù)據(jù)顯著相關(guān)。通過(guò)運(yùn)動(dòng)學(xué)特征比較以及速度-加速度頻率分布卡方檢驗(yàn)證明,利用本研究方法所得到的行駛工況能夠反映實(shí)際道路交通狀況。
表9 試驗(yàn)與擬合工況參數(shù)對(duì)比
將廣州市行駛工況與國(guó)際上常用的行駛工況全球統(tǒng)一輕型車油耗測(cè)試規(guī)程(World Light Vehicle Test Procedure,WLTP)、NEDC、美國(guó)城市道路循環(huán)(Urban Dynamometer Driving Schedule,UDDS)、日本工況JC08、中國(guó)汽車試驗(yàn)用城市運(yùn)轉(zhuǎn)循環(huán)(QC/T 759—2016)相比較,結(jié)果如圖7所示。由圖7可以看出:廣州市行駛工況怠速比例高達(dá)27%,速度分布頻率隨著速度的提高逐漸降低,最高速度約為110 km/h;而UDDS、NEDC 以及QC/T 759 循環(huán)中速段頻率高于低速段;WLTP 速度分布較平均;JC08 低速分布頻率最高。QC/T 759 循環(huán)最高速度為90 km/h,顯然不符合廣州市實(shí)際交通工況。因此,廣州市工況低速段比例較高、平均速度較低,與其他代表性工況有一定差異。
圖7 廣州市行駛工況與世界典型行駛工況速度頻率分布對(duì)比
對(duì)廣州市工況的相關(guān)運(yùn)動(dòng)學(xué)參數(shù)分析可得,廣州市車輛運(yùn)行加、減速比例高達(dá)60%以上,加、減速頻繁,起停過(guò)程多、怠速比例高,交通狀況較擁堵,相應(yīng)的燃油消耗和尾氣排放高,交通狀況有待改善。因此,中國(guó)現(xiàn)行NEDC 以及QC/T 759 工況不能完全反映廣州市的實(shí)際交通狀況,而本文構(gòu)建的廣州市行駛工況代表性、準(zhǔn)確度高。
本文以廣州市為例,利用短行程法、主成分分析法對(duì)采集的數(shù)據(jù)集進(jìn)行處理。對(duì)4 種聚類方法進(jìn)行比較分析,并對(duì)K 均值聚類進(jìn)行了改進(jìn),改進(jìn)算法穩(wěn)定性大幅提高,生成的行駛工況平均相對(duì)誤差小于6%。
通過(guò)分析廣州市試驗(yàn)數(shù)據(jù)與行駛工況的特征參數(shù),驗(yàn)證了工況的準(zhǔn)確性。廣州市工況與世界典型工況對(duì)比結(jié)果表明,廣州市行駛工況加減速比例高、低速段占主導(dǎo)、交通狀態(tài)較擁堵,與其他代表性工況有一定差異。本文構(gòu)建的工況在速度分布等方面較中國(guó)現(xiàn)行的測(cè)試工況NEDC 和QC/T 759—2016 更符合廣州市的交通特點(diǎn)。