徐可超 王涵笑 霍思遠 谷曉彤
摘 要:共享汽車行業(yè)曾在幾年前廣為繁榮,但由于其所具有的重模式、高成本、難以盈利等弊端,造成企業(yè)難以持續(xù)融資,行業(yè)難以持續(xù)繁榮的困境。如今,隨著汽車車型更新?lián)Q代日益迅速,加之疫情影響經(jīng)濟發(fā)展,消費者更傾向于輕便的用車模式,使得具有“分時租賃”特點的共享汽車獲得很大發(fā)展機遇。本文綜合利用Excel、Python軟件,先以經(jīng)緯度為橫縱目標對附件數(shù)據(jù)進行離群值剔除與可視化展示,并將其在空間上劃分成25個區(qū)域,從而更準確地研究其空間特征;其次,使用Matlab軟件構(gòu)建DBSCAN聚類算法模型,將不同區(qū)域共享汽車的實際密度情況以熱力圖形式在地圖上可視展現(xiàn),得出共享汽車分布主要集中在經(jīng)度34.78377、緯度32.0556等區(qū)域附近,這些區(qū)域大多集中位于城市中心,人口密度相對高,共享汽車使用頻率高的結(jié)論,同時編程得出不同型號車輛在整體區(qū)域信息的出現(xiàn)頻率次數(shù)表,進行不同維度變化分析,得到共享汽車使用集中在早午晚高峰期,該時間段內(nèi)人流量大,用車需求量高,汽車使用頻率高的結(jié)論。
關(guān)鍵詞:聯(lián)合調(diào)度優(yōu)化模型 共享汽車 DBSCAN聚類算法
Abstract:The shared car industry once prospered a few years ago, but due to its heavy model, high cost, and difficulty in profitability, it is difficult for companies to continue financing and the industry to continue to prosper. Nowadays, with the increasingly rapid replacement of car models and the impact of the epidemic on economic development, consumers are more inclined to use the light-weight car model, making shared cars with the characteristics of “time-sharing lease” a great opportunity for development. In this paper, using Excel and Python software comprehensively, outlier removal and visual display of the attachment data are first performed with the latitude and longitude as the horizontal and vertical targets, and the space is divided into 25 regions, so as to more accurately study its spatial characteristics: secondly. Using Matlab software to build the DBSCAN clustering algorithm model, the actual density of shared cars in different areas is visually displayed on the map in the form of heat maps. It is concluded that the distribution of shared cars is mainly concentrated in areas near longitude 34.78377 and latitude 32.0556. Most of these areas is concentrated in the center of the city, the population density is relatively high, and the frequency of shared cars is high. At the same time, it is programmed to draw the frequency table of the appearance frequency of different types of vehicles in the overall area, and analyze the changes in different dimensions. It is obtained that the use of shared cars is concentrated in the morning, afternoon and evening. During the peak period, the flow of people is large, the demand for cars is high, and the frequency of car use is high.
Key words:joint scheduling optimization model, car sharing, DBSCAN clustering algorithm
1 引言
共享汽車行業(yè)曾在2015年以來“百花齊放”,受到投資融資方青睞,但由于其具有重模式、高成本、難以盈利等特點,導致其難以持續(xù)繁榮,陸續(xù)有公司因為融資問題倒閉。在2019年,在共享汽車行業(yè),中小企業(yè)不斷出局,頭部平臺拉動了行業(yè)重新增長,增速甚至超過網(wǎng)約車和線上租車。
2 模型建立
2.1 數(shù)據(jù)信息可視化分析與數(shù)據(jù)處理
由于附件中為列表數(shù)據(jù)集信息,為方便觀察特征,以經(jīng)緯度為橫縱坐標,利用Python軟件對其進行可視化處理,共享汽車經(jīng)緯度分布中部分區(qū)域出現(xiàn)離群點,為保證整體數(shù)據(jù)集分析的可靠性,減少模型因歧異值帶來的誤差,需要剔除離群點,剔除后的分布圖像如圖1所示。
針對分布圖中整體較為密集的集中停車點,以經(jīng)緯度為劃分標準進行區(qū)域劃分,形成一個5*5的正方形矩陣區(qū)域。為了解各區(qū)域中共享汽車數(shù)量關(guān)于時間的變化情況,了解其汽車流量的高峰期低谷期,將區(qū)域數(shù)據(jù)按時間標準轉(zhuǎn)化為多列,以凌晨3;00-6;00、早上6;00-8;00、上午8;00-11;30、中午13;00-17;00、傍晚;17;00-19;00、晚上;19;00-23;00、深夜;23;00-3;00的標準劃分時間段;同時,以是否為假期、周末、節(jié)假日來考慮個列,從而得到各區(qū)域在一天不同時間段內(nèi)的停車數(shù)量變化。
2.2 DBSCAN空間密度聚類分析
首先定義以下概念,給定數(shù)據(jù)集D和參數(shù)ε和MinPts,有以下定義:
(1)ε-鄰域:對xj∈D,其ε-鄰域包含數(shù)據(jù)集D中和xj距離不大于ε的樣本,即;
Nε(xj)={xj∈D∣dist(xj,xj)≤ε}
(2)核心對象:若xj的ε-鄰域至少包含MinPts各樣本,即∣Nε(xj)∣≥MinPts,則xj是一個核心對象;
(3)密度直達:若xj位于xi的ε-鄰域內(nèi),且xi是核心對象,則稱xj由xi密度直達;
(4)密度可達:對xi與xj,若存在樣本序列P1,P2,…,Pn,其中P1=xi,Pn=xj,且Pi+1,由Pi密度直達,則稱xj由xi密度可達;
(5)密度相連:對xi與xj,若存在xk使得xi與xj均由xk密度可達,則稱xj由xi密度相連。
基于以上定義,DBSCAN聚類算法流程步驟為:
●輸入數(shù)據(jù)集D={x1,x2,…,xm}及參數(shù)ε和MinPts,從數(shù)據(jù)集中隨機抽取一個未被訪問的對象,在其-鄰域內(nèi)滿足閾值要求的稱為核心對象;
●遍歷全部數(shù)據(jù)集,找到所有從對象的密度可達對象,形成新的簇;
●利用密度相連,產(chǎn)生最終簇結(jié)果;
●重復步驟2與3,直到訪問數(shù)據(jù)集中的所有對象為止。
因本題聚類密度均勻且分布較為集中,將各區(qū)域停車車輛數(shù)量等相關(guān)信息作為數(shù)據(jù)集,以=0.05km和MinPts=261為參數(shù)進行DBSCAN密度聚類。[1]使用Matlab軟件編程得到不同區(qū)域的在地圖上的車輛密度分布熱力圖如圖2。
3 模型求解
由聚類處理后數(shù)據(jù)可以得出:該城市共享汽車分布主要集中在城市中心,其人口密度相對較高的維度。對各天區(qū)域車輛數(shù)氣泡進行分析,并結(jié)合上文中各區(qū)域一天不同時間段內(nèi)的汽車數(shù)量折線圖,可以得出一天中不同區(qū)域不同時間的車輛數(shù)目變化情況,進而得到按時間段劃分的車輛時間變化趨勢,其各區(qū)域一天中停車數(shù)目分配大致相同,在早午晚高峰期內(nèi)中心區(qū)域車流量多,汽車數(shù)量多,在邊緣郊區(qū)汽車數(shù)量少,而在其他時間段內(nèi)汽車數(shù)量大致穩(wěn)定。
可以綜合得出,按天車流量在每月中旬呈上升趨勢,到達峰值后持續(xù)下降,上下旬均會出現(xiàn)一個較為平緩的增長趨勢,并呈現(xiàn)先增后降的趨勢;同時,用車數(shù)量在年末到達高峰期,這一期間人們用車需求增長迅速,共享汽車使用數(shù)量大幅增長;在18、19年內(nèi),12月/第四季度車輛數(shù)目均要多于1月/第一季度車輛數(shù)。
在時間上集中于早午晚高峰期,在這段時間內(nèi)人流量大,用車需求量高,汽車使用頻率高;在共享汽車型號上,最受消費者歡迎的汽車為234號汽車,其次為199號、235號等,共享汽車使用次數(shù)在數(shù)據(jù)集中均高于2000次,受歡迎的汽車型號均高于3000次,使用頻繁。
4 總結(jié)
停車點是基于經(jīng)緯度定位,且數(shù)據(jù)龐大,密度集中,基于密度的聚類算法以數(shù)據(jù)集在空間分布上的稠密程度為依據(jù)進行聚類,能處理任意形狀和大小的簇,方便處理多而繁瑣的停車點數(shù)據(jù)[2]。利用DBSCAN聚類算法時,可在聚類的同時發(fā)現(xiàn)樣本數(shù)據(jù)異常點,方便處理大量的影響數(shù)據(jù)有效性的異常值。[3]采用特征性分析,引入錫爾系數(shù)作為判斷的依據(jù),有利于從多個角度為調(diào)度的方案提供依據(jù)。
密度聚類算法對于輸入?yún)?shù)和MinPts敏感,確定參數(shù)較為困難,帶有一定的估算性質(zhì)。特征性分析對于次要因素包含度不高,推廣使用具有一定的局限性,仍需要進一步優(yōu)化。而DBSCAN空間密度聚類模型本身自帶的參數(shù)帶有一定的主觀性,可以利用遺傳算法對模型進行進一步優(yōu)化改進。本題所建立的模型具有較好的理論基礎(chǔ),得到的聯(lián)合優(yōu)化模型可以作為共享汽車企業(yè)的參考相關(guān)依據(jù)。聯(lián)合優(yōu)化模型為多模型綜合使用,適應(yīng)性廣,其不僅僅適用于共享汽車,也能推廣到共享單車等其他行業(yè)領(lǐng)域。
參考文獻:
[1]馬小賓,侯國林,李莉,楊燕.基于DBSCAN算法的民宿集群識別、分布格局及影響因素——以南京市為例[J].人文地理,2021,36(01):84-93.
[2]王倩倩,孟繁宇,曾益萍,張少標,吳國華,楊麗麗.基于DBSCAN聚類的城市區(qū)域火災(zāi)風險計算方法——以深圳市鹽田區(qū)為例[J].中國安全生產(chǎn)科學技術(shù),2021,17(02):177-182.
[3]Ester M,Kriegel H P,Sander J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise[C]. Portland,Oregon,USA:The AAAI Press,1996:226-231.
作者簡介
徐可超:(2002.01—),男,漢族,山東濱州人,在讀本科。研究方向:智能開采。