王同根
摘 要:本文通過(guò)研究新能源車(chē)輛出行特征,從出行強(qiáng)度、時(shí)空軌跡角度,挖掘車(chē)輛行為特征差異,構(gòu)建表征車(chē)輛屬性的指標(biāo)維度,提出無(wú)監(jiān)督學(xué)習(xí)中的聚類(lèi)分析法,識(shí)別新能源車(chē)輛的應(yīng)用場(chǎng)景,采用上海市新能源車(chē)輛數(shù)據(jù)進(jìn)行驗(yàn)證,證明提出方法的準(zhǔn)確性。
關(guān)鍵詞:新能源車(chē);出行強(qiáng)度;時(shí)空軌跡;聚類(lèi)分析
0 引言
隨著充電技術(shù)不斷成熟,相關(guān)政策鼓勵(lì),新能源動(dòng)力車(chē)輛得到了廣泛推廣。2020年,中國(guó)新能源汽車(chē)銷(xiāo)量達(dá)到136.7萬(wàn)輛[1]。同時(shí),新能源車(chē)輛用戶行為研究逐步成為熱點(diǎn),包括出行行為、充電行為,涉及用戶分類(lèi)研究,常見(jiàn)地將用戶根據(jù)行駛里程分為長(zhǎng)里程、短里程用戶[2,3],缺少用戶使用場(chǎng)景深入研究,以及大規(guī)模數(shù)據(jù)實(shí)踐案例。然而,新能源用戶場(chǎng)景識(shí)別劃分,不僅有助于推動(dòng)新能源車(chē)輛推廣應(yīng)用,而且能有效支撐政府對(duì)于網(wǎng)約車(chē)輛監(jiān)管,具有很強(qiáng)的必要性。
本文提出一種基于無(wú)監(jiān)督聚類(lèi)法的車(chē)輛應(yīng)用場(chǎng)景識(shí)別方法,通過(guò)挖掘時(shí)空行為特征差異,構(gòu)建衡量車(chē)輛屬性的指標(biāo)維度。采用K-MEANS算法對(duì)車(chē)輛進(jìn)行聚類(lèi)分析,綜合手肘法和輪廓系數(shù),法判斷最優(yōu)分類(lèi)數(shù),根據(jù)每類(lèi)結(jié)果指標(biāo)特征,確定車(chē)輛具體應(yīng)用場(chǎng)景,即私家通勤、兼職網(wǎng)約、專職網(wǎng)約車(chē)輛。最后,采用上海市新能源汽車(chē)出行數(shù)據(jù),識(shí)別車(chē)輛應(yīng)用場(chǎng)景,通過(guò)與互聯(lián)網(wǎng)平臺(tái)注冊(cè)數(shù)據(jù)相互校驗(yàn),驗(yàn)證算法的精度和有效性。
1 數(shù)據(jù)介紹及預(yù)處理
研究數(shù)據(jù)來(lái)源于上海市新能源汽車(chē)公共數(shù)據(jù)采集與監(jiān)測(cè)平臺(tái),分析樣本為乘用車(chē)輛10萬(wàn)輛,其中,已有網(wǎng)約標(biāo)簽車(chē)輛1 000輛。數(shù)據(jù)信息包括采集時(shí)間、經(jīng)緯度、累計(jì)里程等字段,采集頻率為10 s~30 s。
數(shù)據(jù)預(yù)處理步驟分為數(shù)據(jù)清洗、車(chē)輛次行切割、車(chē)輛日出行數(shù)據(jù)處理。數(shù)據(jù)清洗中,去除里程數(shù)據(jù)丟失嚴(yán)重的車(chē)輛,過(guò)濾經(jīng)緯度、時(shí)間跳變的記錄;以30 min間隔,將原始數(shù)據(jù)進(jìn)行切分,形成車(chē)輛次出行時(shí)空軌跡,即時(shí)間、經(jīng)緯度序列;以日為單位,處理車(chē)輛每日出行特征,包括日出行時(shí)間、日出行里程。
2 行為特征分析
從車(chē)輛出行強(qiáng)度、時(shí)空軌跡方面,挖掘樣本車(chē)輛、網(wǎng)約車(chē)輛使用特征差異性,提出表征車(chē)輛應(yīng)用場(chǎng)景屬性的多維度指標(biāo),作為聚類(lèi)分析模型輸入。
2.1 出行強(qiáng)度特征
出行強(qiáng)度是衡量車(chē)輛應(yīng)用場(chǎng)景最直觀特征,常用的評(píng)價(jià)指標(biāo),如行駛里程、時(shí)長(zhǎng)、次數(shù)。相比周末、節(jié)假日不確定性影響,工作日出行特征趨于穩(wěn)定,選擇工作日時(shí)間指標(biāo)值;由于數(shù)據(jù)源特點(diǎn),提取載客次行為有難度,不同場(chǎng)景車(chē)輛日出行次數(shù)差異不大;為減少極端、隨機(jī)日出行的影響,考慮反映月出行強(qiáng)度的指標(biāo)?;诖?,選擇工作日均出行時(shí)間、工作日均出行距離以及每月工作日百公里天數(shù),作為出行強(qiáng)度特征指標(biāo)。
圖1~3為出行強(qiáng)度指標(biāo)統(tǒng)計(jì)分布的直方圖和箱線圖,從圖中看出,相比網(wǎng)約車(chē)輛,未知車(chē)輛數(shù)值區(qū)間跨度更大,中位數(shù)數(shù)值明顯較低,四分位箱體更窄,異常值集中在較大值一側(cè),分布呈現(xiàn)右偏態(tài),而網(wǎng)約分布則呈現(xiàn)標(biāo)準(zhǔn)正態(tài)分布。反映未知車(chē)輛樣本混合了私家、網(wǎng)約以及兼職等不同場(chǎng)景的車(chē)輛,且出行強(qiáng)度較低的樣本分布更為集中。
2.2 軌跡相似度特征
軌跡作為一種重要的時(shí)空對(duì)象數(shù)據(jù)類(lèi)型和信息源,通過(guò)提取軌跡數(shù)據(jù)中的相似性與異常特征,并有助于發(fā)現(xiàn)其中有意義的模式。目前,時(shí)空軌跡的應(yīng)用范圍涵蓋了人類(lèi)行為、交通物流等。本文選取軌跡相似度特征,作為衡量車(chē)輛應(yīng)用場(chǎng)景另一維度,相比出行強(qiáng)度,側(cè)重描述車(chē)輛出行路徑的規(guī)律性:私家通勤車(chē)輛軌跡相對(duì)穩(wěn)定,一段時(shí)間內(nèi)具有較高的相似性;網(wǎng)約車(chē)輛出行隨機(jī)性較強(qiáng),軌跡之間的關(guān)聯(lián)度較低;兼職車(chē)輛軌跡特征處于兩者之間。
考慮車(chē)輛軌跡長(zhǎng)度靈活性,采用動(dòng)態(tài)時(shí)間歸整(DTW)算法計(jì)算軌跡之間的相似度值[4]。同時(shí),為了衡量一段時(shí)間內(nèi)的軌跡特征,以車(chē)輛所有軌跡間相似度的均值,作為軌跡相似度特征的指標(biāo)。
圖4分別為典型車(chē)輛軌跡相似度時(shí)間變化圖、軌跡相似度數(shù)值分布直方圖,從軌跡相似度時(shí)間變化和分布情況,網(wǎng)約車(chē)輛相似度值區(qū)間大、極值高,且軌跡波動(dòng)性較大;相比之下,未知車(chē)輛具有明顯的周期性,且軌跡相似度集中在低值區(qū)域。從軌跡相似度角度判斷,未知車(chē)輛是私家通勤車(chē)輛可能性較高。
3 方法描述
在車(chē)輛行為特征研究基礎(chǔ)上,采用無(wú)監(jiān)督學(xué)習(xí)K-MEANS聚類(lèi)方法,對(duì)特征相近車(chē)輛進(jìn)行聚類(lèi)分析,根據(jù)每類(lèi)的特征值情況,進(jìn)一步判斷每類(lèi)車(chē)輛應(yīng)用場(chǎng)景。
3.1 分類(lèi)最優(yōu)K值確定
K-MEANS算法關(guān)鍵需預(yù)先確定分類(lèi)k值,最優(yōu)k值對(duì)應(yīng)車(chē)輛場(chǎng)景類(lèi)別。本文綜合手肘法和輪廓系數(shù)法[5],判斷k值。
(1)手肘法,隨著聚類(lèi)數(shù)k的增大,樣本劃分更加精細(xì),每個(gè)簇的聚合程度逐漸提高,誤差平方和sse逐漸變小。當(dāng)k小于真實(shí)聚類(lèi)數(shù),sse下降幅度很大,當(dāng)k到達(dá)真實(shí)聚類(lèi)數(shù),sse的下降幅度會(huì)驟減。
(2)輪廓系數(shù)法,選擇輪廓系數(shù)較大所對(duì)應(yīng)的k值。當(dāng)樣本i輪廓系數(shù)接近1,說(shuō)明樣本i聚類(lèi)合理,接近-1,則說(shuō)明樣本i更應(yīng)該分類(lèi)到另外的簇。
圖5為誤差平方和、輪廓系數(shù)隨著k值變化的曲線圖。根據(jù)手肘法,k>3誤差平方和值降幅明顯放緩,k最優(yōu)值為3;根據(jù)輪廓系數(shù)法,k最優(yōu)取值為2、3。綜合考慮,車(chē)輛場(chǎng)景聚類(lèi)為3類(lèi),即私家通勤、兼職網(wǎng)約、專職網(wǎng)約。
3.2 K-MEANS聚類(lèi)算法步驟
K-MEANS是一個(gè)迭代型算法[6],在確定最優(yōu)分類(lèi)k值為3的基礎(chǔ)上,具體算法步驟:
(1)準(zhǔn)備車(chē)輛特征向量數(shù)據(jù)集,其中,代表車(chē)輛集合,分別代表日均出行里程、日均出行時(shí)間、百公里天數(shù)、軌跡相似度四個(gè)特征值向量;
(2)隨機(jī)初始化3個(gè)數(shù)據(jù)點(diǎn),作為3組類(lèi)別中心點(diǎn);
(3)計(jì)算每個(gè)數(shù)據(jù)點(diǎn)到中心點(diǎn)的距離,選擇距離最短的,將車(chē)輛劃分到該類(lèi)別,最終得到3個(gè)類(lèi)別的車(chē)輛集合,,;
(4)對(duì)于每個(gè)類(lèi)別,重新計(jì)算其中心點(diǎn),其中,,;
(5)重復(fù)步驟(3)、(4),直到每一類(lèi)中心在每次迭代后變化不大為止,得到3組車(chē)輛集合,即車(chē)輛應(yīng)用場(chǎng)景聚類(lèi)結(jié)果。
4 結(jié)果和分析
利用構(gòu)建的算法,對(duì)上海市未知車(chē)輛的應(yīng)用場(chǎng)景進(jìn)行識(shí)別,結(jié)果如表1所示。私家通勤、兼職網(wǎng)約、全職網(wǎng)約車(chē)輛數(shù)占比分別為70.7%、15.8%、13.5%,工作日均出行距離分別為41、116、213公里,日均出行時(shí)間分別為105、246、557分鐘,與相關(guān)調(diào)研的結(jié)論一致:私家通勤車(chē)輛以上下班為主,通勤距離通常小于50 km,專職車(chē)輛在使用上與巡游出租車(chē)相近,行駛距離通常大于200 km,而兼職車(chē)輛處于私家、專職之間,出行強(qiáng)度適中。在此基礎(chǔ)上,進(jìn)一步對(duì)1 300輛合規(guī)網(wǎng)約車(chē)輛進(jìn)行聚類(lèi)分析,網(wǎng)約場(chǎng)景的識(shí)別率達(dá)到83%,識(shí)別準(zhǔn)確率較高。
參考文獻(xiàn):
[1]2020年汽車(chē)工業(yè)經(jīng)濟(jì)運(yùn)行情況簡(jiǎn)析[R].上海省汽車(chē)行業(yè)協(xié)會(huì),2020.
[2]上海市新能源汽車(chē)大數(shù)據(jù)研究報(bào)告2020[R].上海省汽車(chē)行業(yè)協(xié)會(huì),2020.
[3]夏嚴(yán).基于用戶出行行為特性的插電式混合動(dòng)力汽車(chē)全生命周期效能分析[D].東南大學(xué),2019.
[4]龔璽.時(shí)空軌跡聚類(lèi)方法研究進(jìn)展[J].地理科學(xué)進(jìn)展,2011(30):522-534.
[5]董炎焱.基于SSE的全局最優(yōu)K-means算法[J].電子技術(shù)與軟件工程,2018(11):196-197.
[6]秦嘉誠(chéng).基于K-means聚類(lèi)算法優(yōu)化方法的研究[J].信息技術(shù),2019(1):66-70.