張蕾,邢治河,高魯營(yíng),顧曦
中國(guó)石油天然氣股份有限公司規(guī)劃總院
加油站的銷售潛力是指在現(xiàn)有的軟硬件條件下,加油站可能達(dá)到的最大銷售量在外部條件允許時(shí)可以轉(zhuǎn)化為加油站的實(shí)際銷售能力[1]。從實(shí)際應(yīng)用來(lái)看,對(duì)加油站進(jìn)行精確的潛力測(cè)算有兩方面的意義:一是可以對(duì)正在運(yùn)營(yíng)的加油站進(jìn)行測(cè)算,作為加油站提高量效的標(biāo)準(zhǔn)或者參考,也可以作為加油站轉(zhuǎn)讓或者運(yùn)行評(píng)估的重要指標(biāo);二是對(duì)于準(zhǔn)備規(guī)劃或者建設(shè)的加油站進(jìn)行虛擬測(cè)算,可以作為加油站建設(shè)可行性的重要參考。
加油站的潛力測(cè)算是成品油銷售企業(yè)在站點(diǎn)投資、實(shí)際經(jīng)營(yíng)等方面非常重要的參考工具,是企業(yè)決策的重要依據(jù)。但從應(yīng)用情況來(lái)看,當(dāng)前常用的潛力測(cè)算方法存在較為明顯的問(wèn)題。一方面是投資決策的影響因素復(fù)雜:從國(guó)內(nèi)外已有文獻(xiàn)來(lái)看,全部影響因素指標(biāo)可能達(dá)到50 個(gè)甚至上百個(gè);對(duì)于不同的站點(diǎn)之間,其影響因素的權(quán)重存在差異,甚至同一個(gè)站點(diǎn)的影響因素也會(huì)隨時(shí)間和周邊環(huán)境而變化。另一方面則是數(shù)據(jù)客觀性不足:一是人工取數(shù)導(dǎo)致客觀性不足,如道路車流量的估計(jì)一般由當(dāng)?shù)毓芾砣藛T手工統(tǒng)計(jì),可能由于地點(diǎn)、時(shí)間、人為操作等情況出現(xiàn)誤差,導(dǎo)致數(shù)據(jù)不能反映周邊道路的真實(shí)情況;二是調(diào)研數(shù)據(jù)存在滯后性,由于當(dāng)前對(duì)周邊環(huán)境、站前道路、站址條件等數(shù)據(jù)獲取主要采取走訪調(diào)研的方式,數(shù)據(jù)獲取渠道不固定,指標(biāo)權(quán)威性欠缺,且數(shù)據(jù)更新不夠及時(shí),導(dǎo)致站點(diǎn)投資的基礎(chǔ)數(shù)據(jù)準(zhǔn)確性不足,無(wú)法滿足動(dòng)態(tài)評(píng)估需求。因此,在愈加激烈的成品油零售市場(chǎng)競(jìng)爭(zhēng)中,如何充分利用內(nèi)外部數(shù)據(jù)信息和先進(jìn)分析技術(shù)精確測(cè)算銷售潛力,是當(dāng)前亟需解決的重要問(wèn)題。
過(guò)去幾十年,不斷有新的預(yù)測(cè)理論和算法被提出,從傳統(tǒng)的線性模型到現(xiàn)在廣泛使用的機(jī)器學(xué)習(xí)、深度學(xué)習(xí)[2],各種線性與非線性模型層出不窮。國(guó)內(nèi)外用于能源領(lǐng)域的主流預(yù)測(cè)方法有各類基于回歸模型[3-4]、時(shí)間序列模型預(yù)測(cè)的方法[5],灰色預(yù)測(cè)的方法以及基于BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)方法[6],等等。近些年來(lái)LSTM(長(zhǎng)短期記憶網(wǎng)絡(luò))已被廣泛應(yīng)用于能源領(lǐng)域的預(yù)測(cè)問(wèn)題中:Tulensalo 等[7]使用LSTM 學(xué)習(xí)電力市場(chǎng)與天氣之間的關(guān)系,并對(duì)電力系統(tǒng)的總網(wǎng)損進(jìn)行預(yù)測(cè);Laib 等[8]使用LSTM 模型來(lái)對(duì)不同地區(qū)的天然氣消耗量進(jìn)行預(yù)測(cè);Li 等[9]提出結(jié)合LSTM 模型與特征選擇技術(shù)來(lái)對(duì)電價(jià)進(jìn)行預(yù)測(cè)。眾多的模型與其他領(lǐng)域的預(yù)測(cè)案例也為加油站潛在銷量預(yù)測(cè)提供了方法思路和參考經(jīng)驗(yàn)。
傳統(tǒng)的加油站銷量預(yù)測(cè)一般轉(zhuǎn)化為時(shí)間序列的預(yù)測(cè)問(wèn)題,使用時(shí)間序列的滑動(dòng)平均模型、指數(shù)平滑模型、ARIMA(差分整合移動(dòng)平均自回歸)模型等預(yù)測(cè)方法對(duì)銷量進(jìn)行預(yù)測(cè)。李艷東等[10]提出了一種采用指數(shù)平滑對(duì)加油站銷量進(jìn)行預(yù)測(cè)的方法,該方法預(yù)測(cè)速度快但精度相對(duì)較低,對(duì)銷量數(shù)據(jù)的平穩(wěn)性有很高的要求,并且無(wú)法刻畫(huà)其他因素對(duì)于銷量的影響;楊慶等[11]基于線性判定將銷量序列分為是否線性,對(duì)于非線性的銷量序列則使用BP神經(jīng)網(wǎng)絡(luò)對(duì)未來(lái)銷量進(jìn)行預(yù)測(cè);張晨等[12]基于決策樹(shù)與集成學(xué)習(xí),使用混合決策樹(shù)的方法,將隨機(jī)森林與梯度提升樹(shù)的預(yù)測(cè)結(jié)果進(jìn)行加權(quán)作為對(duì)加油站銷量的預(yù)測(cè);盧晨輝等[13]與潘詩(shī)元等[14]都使用LSTM 結(jié)合其他對(duì)銷量影響的特征構(gòu)建加油站銷量預(yù)測(cè)模型,對(duì)銷量序列進(jìn)行預(yù)測(cè)。
上述銷量預(yù)測(cè)方法主要是基于單個(gè)加油站銷量的時(shí)間序列數(shù)據(jù)對(duì)其未來(lái)銷量進(jìn)行預(yù)測(cè),因此納入的特征也主要是天氣、油價(jià)、氣溫等對(duì)銷量有影響的時(shí)間序列數(shù)據(jù),而對(duì)于反映加油站自身屬性的特征(如加油站分類、站點(diǎn)類型、占地面積等)以及所處的地理空間信息均沒(méi)有納入考慮,例如:占地大小不同的加油站之間銷售能力存在差異;高速公路沿線加油站的銷售能力也與城區(qū)內(nèi)加油站的銷售能力存在差異。因此上述方法無(wú)法適用于不同地點(diǎn)、不同特征的加油站的銷售潛力預(yù)測(cè)。
地理信息數(shù)據(jù)在國(guó)民經(jīng)濟(jì)各個(gè)領(lǐng)域都有著十分廣泛的應(yīng)用,POI(Point of Interest,興趣點(diǎn))數(shù)據(jù)作為一種代表地理實(shí)體的點(diǎn)狀地理空間數(shù)據(jù),反映了實(shí)體所承載的人類活動(dòng)與地理位置之間的相互關(guān)聯(lián)性。通過(guò)POI 數(shù)據(jù)與其他地理信息數(shù)據(jù)的應(yīng)用,能夠在商業(yè)設(shè)施建設(shè)前綜合考慮資源配置、交通條件、地理特征等當(dāng)?shù)氐氖袌?chǎng)潛力因素,輔助設(shè)施建設(shè)的選址工作[15]。杜蘭等[16]結(jié)合景區(qū)內(nèi)道路網(wǎng)與POI 信息,對(duì)景區(qū)游客接待中心的最優(yōu)選址進(jìn)行了研究。此外,帥春燕等[17]也曾結(jié)合換電數(shù)據(jù)、外賣數(shù)據(jù)和POI 數(shù)據(jù),使用線性回歸與K-Means 聚類算法,研究換電柜的需求與周邊POI 之間的關(guān)系,提出電動(dòng)自行車換電柜的選址策略。
本文結(jié)合加油站自身的屬性、運(yùn)營(yíng)數(shù)據(jù)以及周邊的地理空間信息,通過(guò)因子分析的方法構(gòu)建指數(shù),并通過(guò)聚類、分類等方法對(duì)影響加油站銷售的周邊地理空間環(huán)境進(jìn)行建模,從而實(shí)現(xiàn)對(duì)不同地點(diǎn)、不同特征的已有加油站的銷售情況的評(píng)價(jià)以及對(duì)新建加油站的銷售潛力的預(yù)測(cè),解決當(dāng)前實(shí)際測(cè)算中遇到的問(wèn)題,是利用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)站點(diǎn)管理精細(xì)化的有益探索。
考慮到影響加油站銷售的變量較多,本文通過(guò)客觀數(shù)據(jù)對(duì)加油站周邊信息進(jìn)行分解,如:用車流量數(shù)據(jù)來(lái)實(shí)現(xiàn)對(duì)汽車保有情況的估計(jì);用網(wǎng)格內(nèi)的人口、活動(dòng)、道路、光強(qiáng)度等反映經(jīng)濟(jì)發(fā)展、消費(fèi)需求、交通發(fā)展等;用POI 數(shù)據(jù)反映周邊的人流、車流、商業(yè)服務(wù)、競(jìng)爭(zhēng)對(duì)手、能源替代等。
本文所使用數(shù)據(jù)包括空間信息數(shù)據(jù)及運(yùn)營(yíng)數(shù)據(jù),其中:空間信息數(shù)據(jù)包括道路環(huán)境數(shù)據(jù)、地理POI數(shù)據(jù)及車流量數(shù)據(jù);運(yùn)營(yíng)數(shù)據(jù)包括加油站自身明細(xì)數(shù)據(jù)及銷售數(shù)據(jù)(汽油銷量、柴油銷量及非油品收入)。通過(guò)研究加油站周邊的地理空間信息對(duì)加油站銷售水平的影響,構(gòu)建指數(shù)體系與預(yù)測(cè)模型對(duì)加油站的銷售潛力進(jìn)行預(yù)測(cè)。由于包頭市是呼包鄂城市群中心城市之一,具有發(fā)達(dá)的公路交通,代表性較強(qiáng),因此以包頭市為例對(duì)預(yù)測(cè)方法進(jìn)行闡述。
道路環(huán)境數(shù)據(jù)來(lái)源于中國(guó)科學(xué)院地理科學(xué)與資源研究所(簡(jiǎn)稱地理資源所),包括調(diào)查和計(jì)算所得的人口數(shù)(POP)、活動(dòng)指數(shù)(DAI、NAI)、道路密度(RD)、夜光強(qiáng)度(LI)和建筑地表面積(BSA)。
地理POI 數(shù)據(jù)來(lái)源于百度地圖開(kāi)放平臺(tái)提供的API(接口),通過(guò)基于Python 2.7 的爬蟲(chóng)程序爬取獲得。POI 通常包含名稱、地址、坐標(biāo)、類別等4個(gè)屬性,一個(gè)POI 可以是一個(gè)小區(qū)、一家商場(chǎng)、一個(gè)公交站等。加油站周邊的POI 信息可以反映各個(gè)加油站所在區(qū)域的地理特征,側(cè)面反映人流量和車流量,對(duì)加油站的銷售情況起到重要影響。
車流量數(shù)據(jù)采用年度月平均道路車流量,包括汽油汽車、柴油汽車、摩托車。對(duì)于沒(méi)有記錄車流量的加油站,采用反距離加權(quán)插值法對(duì)其車流量進(jìn)行插補(bǔ)處理,即該加油站的道路車流量是所有有記錄加油站道路車流量的加權(quán)和,權(quán)重與距離成反比。
加油站自身內(nèi)部數(shù)據(jù)多為分類變量和定序變量,轉(zhuǎn)化變量類型后可直接使用。銷售數(shù)據(jù)中非油品收入采用當(dāng)年日平均收入;汽油銷量和柴油銷量均采用當(dāng)年日平均銷量,且已合并油品型號(hào)。即使是同一個(gè)加油站,汽油、柴油和非油品的銷售水平也并不一致。圖1 為各加油站3 類商品銷量對(duì)比,圖中每一行代表一個(gè)加油站,每一列分別代表汽油、柴油與非油品的銷售情況,網(wǎng)格中顏色越深表示該加油站該類商品的銷量(或收入)越高??梢钥吹剑浩秃头怯推返匿N售水平比較相似,汽油銷量較高的加油站傾向于有較高的非油品銷量;而柴油銷售水平則與二者不太一致,柴油銷售高的加油站往往汽油與非油品的銷售水平較低。
圖1 各加油站3 種商品銷量對(duì)比
原始的POI 數(shù)據(jù)以每個(gè)POI 作為個(gè)體,包括每個(gè)POI 的名稱、地址、地理坐標(biāo)、所屬類別等屬性,數(shù)據(jù)量十分龐大,且不利于以加油站為個(gè)體分析周邊地理環(huán)境對(duì)銷售水平的影響。本研究認(rèn)為加油站的銷售水平只會(huì)受周邊的地理環(huán)境影響,因此,為方便后續(xù)的數(shù)據(jù)分析,以加油站為中心檢索周邊的POI 數(shù)據(jù),并據(jù)此整理出每個(gè)加油站周邊各類POI的分布,以便用于接下來(lái)的數(shù)據(jù)分析。
基于地理資源所提供的網(wǎng)格(邊長(zhǎng)為1/600 的經(jīng)度或緯度,約合160 m),以加油站所在網(wǎng)格為中心,附近的n×n個(gè)小網(wǎng)格組成網(wǎng)格單元,根據(jù)圖2 所示A、B、C、D 這4 個(gè)邊界點(diǎn)的經(jīng)緯度確定檢索范圍,將網(wǎng)絡(luò)單元內(nèi)n2個(gè)網(wǎng)格的道路環(huán)境數(shù)據(jù)及POI 數(shù)據(jù)匯總。
圖2 確定檢索區(qū)域范圍示意(以n=5 為例)
POI 數(shù)據(jù)提供的信息由檢索范圍的大小控制,若搜索范圍過(guò)小,提供的信息太少;反之則會(huì)使得各加油站周邊存在交叉,減小了各加油站之間的地理差異。為了探索合適的搜索范圍,分別嘗試以多個(gè)檢索范圍(n=5,n=9 和n=15)獲取各個(gè)加油站的地理POI 數(shù)據(jù),得到對(duì)應(yīng)的POI 數(shù)據(jù)分布。最終確定以n=15(即2 400 m×2 400 m)為檢索范圍進(jìn)行POI 數(shù)據(jù)的獲取,得到83 個(gè)POI 變量,其中每個(gè)變量的數(shù)據(jù)代表相應(yīng)關(guān)鍵詞下的POI 個(gè)數(shù)。
由于數(shù)據(jù)中存在某些變量全部單一取值或是取值0 的比例很高,這些變量無(wú)法在數(shù)據(jù)分析中提供有效的信息,為了提高后續(xù)數(shù)據(jù)分析結(jié)果的準(zhǔn)確性,采取了兩步預(yù)處理去除質(zhì)量不佳的冗余變量,即去掉單一取值的變量以及取值為0 的比例超過(guò)80%的POI 變量。
為了探究影響加油站銷售情況的因素,結(jié)合清洗后的數(shù)據(jù),將各加油站的銷售情況作為響應(yīng)變量,將能夠?qū)ζ洚a(chǎn)生影響的解釋變量用于解釋與說(shuō)明加油站銷售情況的變化。解釋變量主要分為以下3 類:反映加油站自身屬性信息的變量,如資產(chǎn)性質(zhì)、所在道路等;有關(guān)加油站各類面積的變量,如占地面積、便利店面積等;反映加油站周邊區(qū)域空間信息的道路環(huán)境變量和POI 變量。由于變量個(gè)數(shù)眾多,達(dá)到109 個(gè),且POI 變量取值較為稀疏,因此考慮在第二類和第三類原始變量的基礎(chǔ)上構(gòu)建指數(shù),增強(qiáng)模型的效果與可解釋性,同時(shí)也可以通過(guò)指數(shù)來(lái)反映加油站區(qū)域范圍內(nèi)潛在客戶群體的規(guī)模。
為構(gòu)建指數(shù),需要先將原始變量按照一定的特征(如都是反映加油站周邊商業(yè)服務(wù)設(shè)施的變量,或都是對(duì)加油站自身規(guī)模的變量等)分成幾類,然后在每一類原始變量的基礎(chǔ)上構(gòu)建一個(gè)因子反映這一類變量中的信息,其作為一個(gè)指數(shù)變量,用于后續(xù)的分析。
本文首先構(gòu)造了6 個(gè)連續(xù)型的指數(shù)。將預(yù)處理后的變量根據(jù)意義相近的原則,參考GB 50137—2011《城市用地分類與規(guī)劃建設(shè)用地標(biāo)準(zhǔn)》劃分成了6 個(gè)指數(shù)類,分別為活動(dòng)指數(shù)、公共管理服務(wù)設(shè)施、商業(yè)服務(wù)設(shè)施、交通道路、綠地廣場(chǎng)和加油站綜合面積。各指數(shù)類包括變量如下:
1)活動(dòng)指數(shù):POP、DAI、NAI、RD、LI、BSA、AREA。
2)公共管理服務(wù)設(shè)施:廁所、療養(yǎng)院、養(yǎng)老院、大學(xué)、中學(xué)、小學(xué)、幼兒園、圖書(shū)館、培訓(xùn)、科研、博物館、高爾夫球場(chǎng)、滑雪場(chǎng)、賽馬場(chǎng)、體育館、羽毛球館、網(wǎng)球場(chǎng)、溜冰場(chǎng)、健身房、醫(yī)院、郵局。
3)商業(yè)服務(wù)設(shè)施:移動(dòng)、聯(lián)通、電信、小區(qū)、美容、商場(chǎng)、超市、便利店、煙酒、特產(chǎn)、服裝店、體育用品、家具、建材、電器、度假村、農(nóng)家樂(lè)、餐飲、銀行、典當(dāng)、證券、保險(xiǎn)、影院、KTV、夜總會(huì)、棋牌室、網(wǎng)吧、婚慶、彩票、雜志社、報(bào)社、出版社、商務(wù)寫(xiě)字樓、工業(yè)園、工廠。
4)交通道路:汽車銷售、汽車服務(wù)、汽車維修、駕校、汽車租賃、高速服務(wù)區(qū)、停車場(chǎng)、檢測(cè)站、火車站、地鐵站、客運(yùn)站、公交車站、碼頭、汽油汽車道路車數(shù)量合計(jì)、柴油汽車道路車數(shù)量合計(jì)、摩托車道路車數(shù)量合計(jì)。
5)綠地廣場(chǎng):公園、教堂、寺廟、釣魚(yú)、動(dòng)物園、植物園、水族館、游樂(lè)園。
6)加油站綜合面積:占地面積、罩棚面積、停車場(chǎng)面積、便利店面積。
基于上述分類,使用因子分析方法對(duì)每個(gè)指數(shù)類分別構(gòu)建因子作為指數(shù),通過(guò)方差貢獻(xiàn)率反映變量對(duì)因子的依賴程度,包頭市每個(gè)指數(shù)因子的方差貢獻(xiàn)率見(jiàn)表1。
表1 包頭市各指數(shù)因子方差貢獻(xiàn)率
其次,各加油站周邊競(jìng)品加油站數(shù)量轉(zhuǎn)化為0-1 變量作為競(jìng)品指數(shù),以反映加油站周邊是否存在競(jìng)爭(zhēng),即在加油站周邊不存在競(jìng)品加油站時(shí)將競(jìng)品指數(shù)記為0,反之記為1。
最后將上述構(gòu)建的指數(shù)變量與原始解釋變量中第一類反映加油站自身屬性的變量合并,共同作為后續(xù)建模分析所使用的解釋變量。
建立大數(shù)據(jù)模型的目的是對(duì)加油站的潛在銷售能力進(jìn)行測(cè)算。基于構(gòu)建的指數(shù)因子,通過(guò)聚類分析評(píng)價(jià)現(xiàn)有的加油站銷售水平,再通過(guò)判別分析實(shí)現(xiàn)對(duì)新加油站銷售潛能的預(yù)測(cè)。圖3 為建模流程示意,主要分為超高銷量(收入)甄別、非超高銷量(收入)加油站的聚類分析、基于聚類結(jié)果判別新加油站的所屬類別等3 個(gè)步驟。
圖3 模型主要流程示意
進(jìn)行超高銷量甄別的主要原因是,一個(gè)城市內(nèi)存在個(gè)別加油站的銷量(收入)遠(yuǎn)高于其他加油站的情況,為保障模型的穩(wěn)定性,需要對(duì)這些特殊加油站進(jìn)行專門(mén)的分析。依據(jù)加油站經(jīng)驗(yàn)分布圖中是否存在斷層現(xiàn)象識(shí)別這類特殊加油站是否存在,若無(wú)斷層現(xiàn)象則不存在超高銷量(收入)的加油站。若一個(gè)加油站被判斷為超高銷量(收入)加油站,則其銷量(收入)預(yù)測(cè)值為所有超高銷量(收入)加油站的均值;若其被判斷為非超高銷量(收入)加油站,進(jìn)行后續(xù)的分析。
根據(jù)包頭市67 個(gè)加油站汽油銷量的經(jīng)驗(yàn)分布中的斷層,將超高銷量的加油站記為1,非超高銷量的加油站記為0。如圖4 所示,汽油銷量在8 000 L處存在斷層,因此將汽油銷量超過(guò)8 000 L 的8 個(gè)加油站標(biāo)注為超高銷量的加油站。
圖4 包頭市加油站汽油銷量的經(jīng)驗(yàn)分布
根據(jù)人工標(biāo)注的結(jié)果,基于原始解釋變量訓(xùn)練了隨機(jī)森林分類器,參考隨機(jī)森林分類器給出的重要變量和樹(shù)的劃分準(zhǔn)則確定甄別準(zhǔn)則。需要注意的是,由于超高銷量與非超高銷量的加油站數(shù)目過(guò)于懸殊,為了提高模型對(duì)于前者的識(shí)別能力,在訓(xùn)練隨機(jī)森林模型前,先對(duì)超高銷量加油站的數(shù)據(jù)進(jìn)行了過(guò)采樣處理,即通過(guò)有放回地抽取超高銷量加油站,提高超高銷量加油站的占比以構(gòu)建一個(gè)平衡的數(shù)據(jù)集進(jìn)行建模。根據(jù)隨機(jī)森林分類器,找到重要性排名前三的變量,分別是便利店、培訓(xùn)、特產(chǎn)。圖5 為重要變量分布圖,其中較深的藍(lán)色反映了超高銷量加油站汽油銷量的分布,反之則反映了非超高銷量加油站汽油銷量的分布。
圖5 重要變量分布
綜合選出的重要變量以及隨機(jī)森林分類器中樹(shù)的分節(jié)點(diǎn)情況,最終得到甄別為超高銷量的標(biāo)準(zhǔn)為:便利店數(shù)量大于30 個(gè),培訓(xùn)機(jī)構(gòu)數(shù)量大于55 個(gè),且特產(chǎn)店數(shù)量大于7 個(gè)。
使用超高銷量加油站銷量的平均值10 583 L 作為包頭市超高銷量加油站銷量的預(yù)測(cè)值,即:對(duì)于一個(gè)加油站,若其被甄別為超高銷量的加油站,則使用10 583 L 作為對(duì)其日均銷量的預(yù)測(cè);對(duì)于其他非超高銷量的加油站則繼續(xù)進(jìn)行建模分析。
考慮到特征上相近的加油站應(yīng)當(dāng)具有類似的銷售潛力,因此對(duì)于其他未被甄別為超高銷量的加油站,通過(guò)上文合成的指數(shù)及自身屬性所構(gòu)造的解釋變量對(duì)加油站進(jìn)行聚類分析。
為了在對(duì)加油站聚類時(shí)能夠充分考慮加油站在特征上的差異以及在地理空間分布上的差異,本文采用加油站之間的Gower(高爾)距離和空間距離的加權(quán)距離進(jìn)行聚類。Gower 距離是一種可以同時(shí)處理特征中連續(xù)性變量、分類型變量及定序型變量的距離計(jì)算方法。設(shè)Gower 距離為dg,空間距離為ds,則加權(quán)距離dw為:
式中權(quán)重w使用遍歷搜索來(lái)確定最優(yōu)權(quán)重,即令權(quán)重從0.30 到1.00,以0.05 的間隔逐步增加,選擇使得聚類效果最佳的權(quán)重作為最終用于構(gòu)造距離的權(quán)重。
為了評(píng)價(jià)、比較不同權(quán)重下的聚類效果,使用“中位數(shù)差/標(biāo)準(zhǔn)差”指標(biāo)(MS 指標(biāo))。該指標(biāo)取值越大,表示各個(gè)類別的中位數(shù)之間存在差異越大且類別內(nèi)部標(biāo)準(zhǔn)差較小,說(shuō)明各個(gè)類別的銷售水平差距越大,解釋變量對(duì)銷售水平的差異刻畫(huà)得越好。因此選擇使MS 指標(biāo)達(dá)到最大的權(quán)重。
若聚為2 類,MS 指標(biāo)取值的定義為:
若聚為3 類,MS 指標(biāo)取值的定義為:
式中:MMS——MS 指標(biāo)的值;m1,m2和m3——從小到大排列后的各類中位數(shù);s1,s2和s3——對(duì)應(yīng)各類內(nèi)的標(biāo)準(zhǔn)差。
MS 指標(biāo)只能用在確定類數(shù)K之后選出最優(yōu)的距離權(quán)重,無(wú)法直接比較不同類別個(gè)數(shù)對(duì)應(yīng)的聚類結(jié)果。為了確定最優(yōu)的類別個(gè)數(shù),研究使用DBI(Davies-Bouldin Index,戴維森堡丁指數(shù))指標(biāo),DBI 越小表示類內(nèi)的樣本距離類中心的距離越近,同時(shí)類間距離越遠(yuǎn),即聚類效果越好。由于包括包頭市在內(nèi)的6 個(gè)城市的加油站數(shù)量較少,只需要考慮類別個(gè)數(shù)是2 或3 的情況,選擇使得DBI 最小的類別個(gè)數(shù)。
因此,在對(duì)加油站進(jìn)行聚類時(shí),首先固定類別個(gè)數(shù)為2 和3,通過(guò)MS 指標(biāo)分別選擇聚成2 類與聚成3 類的最優(yōu)權(quán)重,再通過(guò)DBI 指標(biāo)對(duì)比以上兩個(gè)結(jié)果,確定最終的類別個(gè)數(shù)。
去掉8 個(gè)超高銷量的加油站,將剩下的59 個(gè)非超高銷量加油站按照解釋變量進(jìn)行聚類。根據(jù)DBI指標(biāo),確定最優(yōu)類別個(gè)數(shù)為3 類。
當(dāng)聚成3 類時(shí):MS 指標(biāo)隨權(quán)重的變化情況見(jiàn)圖6,最終選擇能夠使MS 指標(biāo)取值最大的權(quán)重w=0.9;按照加權(quán)后的距離,將剩下的59 個(gè)加油站聚成3 類,將這3 類按銷量中位數(shù)從高到低分別命名為高銷量(1 類)、中銷量(2 類)、低銷量(3類),各類加油站的汽油銷量箱線圖見(jiàn)圖7。
圖6 MS 指標(biāo)隨Gower 距離權(quán)重變化情況
對(duì)于現(xiàn)有的加油站,將每個(gè)銷量分類的銷量的10%分位數(shù)作為對(duì)其銷售水平評(píng)價(jià)的指標(biāo),銷量低于該值的加油站評(píng)價(jià)為銷量不達(dá)標(biāo)。最終可以得到3 個(gè)銷量分類10%分位數(shù)分別為1 362、265 和217,即對(duì)于高銷量分類的加油站,若其汽油月均銷量低于1 362 L 則判定其銷量不達(dá)標(biāo)。
為了探索解釋變量對(duì)銷售水平影響的重要性,研究比較了不同類加油站之間變量分布的差異。在不同銷量分類中差異越大的變量,說(shuō)明其對(duì)聚類的影響越大,也即對(duì)汽油銷量的影響越大。圖8 為6 個(gè)連續(xù)型指數(shù)在不同銷量分類中分布的箱線圖,可以從中比較這些指數(shù)在聚類后所得不同分類中的分布差異。
圖8 各因子在不同銷量組別中的分布箱線圖
對(duì)于8 個(gè)非連續(xù)型的解釋變量(1 個(gè)競(jìng)品指數(shù)和7 個(gè)描述加油站自身屬性的變量),則可使用卡方檢驗(yàn)法檢驗(yàn)變量與分類之間的獨(dú)立性,利用卡方檢驗(yàn)法的P值來(lái)反映解釋變量對(duì)于聚類的影響,P值越小反映變量與分類之間的相關(guān)越強(qiáng)。各變量卡方檢驗(yàn)P值見(jiàn)表2。
若要在一個(gè)給定的坐標(biāo)點(diǎn)建立一個(gè)新的加油站,也可使用本模型對(duì)該加油站的銷售潛能進(jìn)行預(yù)測(cè)。
首先,在前述聚類結(jié)果的基礎(chǔ)上訓(xùn)練隨機(jī)森林和支持向量機(jī)(SVM)作為分類模型,對(duì)新加油站所屬的類別進(jìn)行判別;其次,根據(jù)判別結(jié)果將其劃分到上一步聚類所得到的高銷量、中銷量、低銷量類別之中;最后,以其所屬類別的銷量分類的中位數(shù)作為對(duì)該加油站的預(yù)期銷售潛能。
此外,對(duì)于每一類加油站,都可使用Bootstrap方法構(gòu)建其銷量中位數(shù)的99%置信區(qū)間。這樣,新加油站可以使用分類模型給出其所屬類別銷量中位數(shù)的99%置信區(qū)間作為新加油站銷量的預(yù)測(cè)區(qū)間。各銷量分類中汽油銷量的預(yù)測(cè)區(qū)間見(jiàn)圖9,圖中顏色部分表示中位數(shù)的置信區(qū)間即預(yù)測(cè)區(qū)間,紅色字體標(biāo)注中位數(shù)置信區(qū)間覆蓋這一類樣本的占比。
圖9 各銷量分類中汽油銷量的預(yù)測(cè)區(qū)間
為了驗(yàn)證模型的有效性,另選了5 個(gè)城市對(duì)模型進(jìn)行驗(yàn)證,分別是呼和浩特、巴彥淖爾、哈爾濱、太原和運(yùn)城。模型建立和運(yùn)行結(jié)果與包頭模型基本一致,僅在最終的建議結(jié)果方面存在一定的差異。
本文對(duì)6 個(gè)城市加油站模型的結(jié)果進(jìn)行了評(píng)估。對(duì)于超高銷量(收入)甄別部分,按“甄別正確的加油站數(shù)量/總加油站數(shù)量”計(jì)算準(zhǔn)確率,6 個(gè)城市3 類商品的甄別準(zhǔn)確率均達(dá)到90%以上。對(duì)于新加油站銷售預(yù)測(cè)部分,分別使用留一法交叉驗(yàn)證、5折交叉驗(yàn)證法及10 折交叉驗(yàn)證法對(duì)分類模型的準(zhǔn)確率進(jìn)行評(píng)估,準(zhǔn)確率均達(dá)到85%以上。結(jié)果顯示,本研究能夠合理準(zhǔn)確地對(duì)加油站的銷售水平進(jìn)行評(píng)價(jià)和預(yù)測(cè)。
本文提出了一種基于地理信息數(shù)據(jù)的加油站銷售潛力預(yù)測(cè)模型。該模型基于加油站地理信息數(shù)據(jù)使用因子分析構(gòu)建了指數(shù),并作為后續(xù)分析的解釋變量,同時(shí)反映加油站區(qū)域范圍內(nèi)的客戶群體規(guī)模。為了對(duì)不同加油站的銷售潛力進(jìn)行評(píng)價(jià),采用聚類分析將銷售潛力非超高的加油站聚成幾類,并使用類中位數(shù)作為對(duì)加油站銷售潛力評(píng)價(jià)的標(biāo)準(zhǔn)。
對(duì)于新建加油站則通過(guò)其所處區(qū)域的地理特征及加油站本身特征,使用分類模型將其分到聚類所得到的幾類加油站中,并使用類中位數(shù)的置信區(qū)間作為銷售潛力的區(qū)間預(yù)測(cè),盡管對(duì)預(yù)測(cè)精度有所犧牲,但提高了預(yù)測(cè)的穩(wěn)定性及可解釋性。結(jié)果顯示,本文提出的預(yù)測(cè)模型能夠?qū)佑驼镜匿N售潛力進(jìn)行合理評(píng)價(jià)和準(zhǔn)確預(yù)測(cè)。從業(yè)人員能夠根據(jù)預(yù)測(cè)結(jié)果進(jìn)行運(yùn)營(yíng)決策,也能夠?qū)⒛P蛯?duì)銷售潛力的預(yù)測(cè)作為新建加油站選址決策的量化依據(jù)。目前來(lái)看,實(shí)際經(jīng)營(yíng)中,將潛在銷量作為加油站經(jīng)營(yíng)能力提升參考值的做法較多,且多個(gè)站點(diǎn)均取得了較為明顯的效果,例如2018 年應(yīng)用該指標(biāo)并優(yōu)化的加油站單站日銷量平均提升0.6 t。在新站選址中,本文給出的方法可以作為一種客觀的參考值,但目前還沒(méi)有實(shí)際的數(shù)據(jù)進(jìn)行佐證。
本文是對(duì)加油站潛力數(shù)據(jù)測(cè)算的一種方法探索,還有進(jìn)一步深化的空間:一是在實(shí)際應(yīng)用中,將本方法進(jìn)行工程化后,可以實(shí)現(xiàn)對(duì)線上數(shù)據(jù)的自動(dòng)采集和實(shí)時(shí)動(dòng)態(tài)更新,保證數(shù)據(jù)測(cè)算的準(zhǔn)確性;二是可以在不同區(qū)域考慮大樣本的聚類分析,并加入對(duì)不同區(qū)域站點(diǎn)的異質(zhì)性討論,能夠?qū)?shí)際的站點(diǎn)經(jīng)營(yíng)和站點(diǎn)選址實(shí)現(xiàn)精確化的測(cè)算;三是本方法探索中給出的中位數(shù)等參數(shù),也可以根據(jù)市場(chǎng)和公司整體戰(zhàn)略需求進(jìn)行調(diào)整,以實(shí)現(xiàn)對(duì)實(shí)際經(jīng)營(yíng)的支撐。