張華成,鄒 萬,劉建明,鐘曉雄,楊 兵
(桂林電子科技大學(xué) 計(jì)算機(jī)與信息完全學(xué)院,桂林 541004)
伴隨著汽車保有量的迅速增加,停車難問題已成為無法忽視的城市通病,因停車問題引發(fā)的糾紛屢見不鮮.無論是超大型城市,還是特大城市,甚至只有幾十萬、十幾萬人口的中小型城市,車輛迫切的停車需求與可用停車位不充足的矛盾都日益突出.因此,如何對城市中有停車需求的車輛進(jìn)行宏觀的停車誘導(dǎo),成為地方政府面臨的一大難題.為解決這個(gè)問題,降低停車時(shí)間成和經(jīng)濟(jì)成本,智能停車系統(tǒng)[1]是最有效的辦法之一.而城市中所有停車場當(dāng)前可用停車位都已知是智能停車系統(tǒng)能正常運(yùn)行的前提.目前停車數(shù)據(jù)主要通過傳感器采集和與停車場直接合作的方式獲得,但因?yàn)橥\噲鲱愋汀a(chǎn)權(quán)的多樣性、經(jīng)濟(jì)成本及安裝施工等原因的限制導(dǎo)致大范圍的停車場數(shù)據(jù)處于缺失狀態(tài).其次,不同停車場以及不同轄區(qū)的系統(tǒng)以往都是獨(dú)立運(yùn)行,必然存在數(shù)據(jù)兼容問題,而且由于缺乏統(tǒng)一標(biāo)準(zhǔn),也不能實(shí)現(xiàn)數(shù)據(jù)共享,多種原因?qū)е码y以將所有停車數(shù)據(jù)加入到大系統(tǒng)中形成規(guī)模.因此,城市中相同數(shù)據(jù)形式的停車數(shù)據(jù)往往是非充分的[2].
考慮到直接獲得充分的停車場數(shù)據(jù)有足夠的挑戰(zhàn)性,本文希望在經(jīng)濟(jì)時(shí)間成本可控范圍內(nèi)對缺失數(shù)據(jù)的停車場進(jìn)行數(shù)據(jù)修復(fù).停車數(shù)據(jù)受時(shí)空兩個(gè)維度的綜合影響,不同停車場間的數(shù)據(jù)可能差異極大,如果直接將數(shù)據(jù)特征明顯不同的停車數(shù)據(jù)當(dāng)成一個(gè)樣本集進(jìn)行學(xué)習(xí)訓(xùn)練,會得到無法解釋的生成數(shù)據(jù).針對這個(gè)問題,本文使用K-means 聚類的方法按空間特征相似性將停車場劃分為多個(gè)簇,對每個(gè)簇單獨(dú)進(jìn)行數(shù)據(jù)修補(bǔ).通過可獲得的停車場公開數(shù)據(jù)量化各個(gè)停車場的影響力,對影響力高的停車場安裝傳感器以獲得真實(shí)數(shù)據(jù),在此基礎(chǔ)上修復(fù)其余停車場的停車數(shù)據(jù).因?yàn)椴煌乩砦恢?、?guī)模、收費(fèi)標(biāo)準(zhǔn)等多種狀況對停車場的影響,不能簡單的用一般插值法的方式修復(fù).因此本文采用數(shù)據(jù)增強(qiáng)技術(shù),也就是通俗意義上的數(shù)據(jù)生成/修補(bǔ)技術(shù).通過這種方法,能在有限感知條件下下獲取大量高仿真的停車數(shù)據(jù).
本文的停車數(shù)據(jù)為時(shí)序數(shù)據(jù),目前時(shí)序數(shù)據(jù)修補(bǔ)領(lǐng)域的研究主要是一些插值法[3],主要為3 類,基于拉格朗日插值法的數(shù)據(jù)修補(bǔ)方法、基于牛頓插值法的數(shù)據(jù)修補(bǔ)方法、基于分段線性插值法的數(shù)據(jù)修補(bǔ)方法[4],其中基于分段線性插值法的數(shù)據(jù)修補(bǔ)方法效果較好.上述方法的特點(diǎn)是需要一定的先驗(yàn)知識,常常被用于有一定歷史數(shù)據(jù)的修補(bǔ)領(lǐng)域中,然而由于經(jīng)濟(jì)成本、安裝施工、經(jīng)濟(jì)產(chǎn)權(quán)等原因,多數(shù)停車場歷史數(shù)據(jù)難以獲得,因此是用插值法在對停車場數(shù)據(jù)修補(bǔ)時(shí)會有較大局限性.
在機(jī)器學(xué)習(xí)中,處理數(shù)據(jù)缺失問題一般采用數(shù)據(jù)增強(qiáng)技術(shù),也就是傳統(tǒng)意義上的數(shù)據(jù)生成或數(shù)據(jù)修復(fù)技術(shù).數(shù)據(jù)生成目前已成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),其中優(yōu)秀的生成模型有生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)[5],該模型由一個(gè)生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成,在每一次迭代中,判別器的目的是區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù),而生成器則期望生成以假亂真的數(shù)據(jù),在零和博弈的思想下,最終達(dá)到一個(gè)兩者都可接收的結(jié)果.由于GAN 在時(shí)序數(shù)據(jù)中訓(xùn)練起來非常不穩(wěn)定,因此直接使用GAN 可能會生成無意義的數(shù)據(jù).目前一種高效的的生成方式是將在時(shí)序數(shù)據(jù)表現(xiàn)良好的LSTM 網(wǎng)絡(luò)與GAN 結(jié)合得到的循環(huán)生成式對抗網(wǎng)絡(luò)(Recurrent Generative Adversarial Networks,RGAN)[6],該方法雖然能快速生成時(shí)序數(shù)據(jù),但缺點(diǎn)是生成結(jié)果伴有明顯的抖動和相位差,針對生成數(shù)據(jù)震動較大這個(gè)不足,本文的解決思路是將時(shí)間序列升維,使用在二維數(shù)據(jù)有強(qiáng)大特征提取能力的深度卷積對抗生成網(wǎng)絡(luò)(Deep Convolution Generative Adversarial Networks,DCGAN)[7]提高生成數(shù)據(jù)的穩(wěn)定性,實(shí)驗(yàn)表明該方法使生成結(jié)果更加穩(wěn)定,抖動減少.
本文的停車數(shù)據(jù)指的是關(guān)于停車場的空車位的時(shí)間序列,考慮到不同停車場同一時(shí)刻可用停車位數(shù)量差異較大引起的數(shù)據(jù)難以訓(xùn)練問題,本文將空車位的時(shí)間序列除以停車場的規(guī)模,轉(zhuǎn)換成空車率的時(shí)間序列.對于區(qū)域O中的n個(gè)停車場,表示為P={p1,p2,···,pi,···|i=1,2,···,n}則 停車場pi的空車率數(shù)據(jù)可表示為U=s為時(shí)間序列的長度.實(shí)驗(yàn)將樣本點(diǎn)的停車數(shù)據(jù)作為訓(xùn)練集,使用改進(jìn)后的DCGAN 模型生成其余停車場的停車數(shù)據(jù).改進(jìn)后的生成器如圖1所示.
圖1 改進(jìn)后的DCGAN 生成模型
圖1(a)描述的是,將100 維均勻分布的z投影到一個(gè)具有多個(gè)特征圖的小空間范圍的卷積中表示,用一系列步長為4 的卷積將這種高維的表示方式轉(zhuǎn)換為64×64 像素的圖像,注意不適用全連接層和池化層.另外,在生成器中引入正態(tài)性檢驗(yàn)的過濾器,用來保證生成的曲線效果可以接受,如圖1(b)所示.其中,正態(tài)性過濾器使用的算法為D’Agostino-Pearson 檢驗(yàn),該方法是一種對分布的偏度和峰度進(jìn)行綜合評定的方法[8].D值的公式如下:
在式(1)中,n為樣本總數(shù),ri為停車場pi的的停車數(shù)據(jù).得到D值后,通過D界值表確定P′的值,按照P′值判斷這組樣本是否符合正太性分布.如果P′小于設(shè)定的閾值?,則這組生成樣本不符合正態(tài)性檢驗(yàn),反之符合正態(tài)性檢驗(yàn),并保留這組生成樣本.
不同停車場的停車數(shù)據(jù)差異較大,這是因?yàn)橥\噲霾豢赡軉为?dú)存在于地理空間中,一定會受周圍空間信息的影響,地理空間信息其實(shí)也就是地理興趣點(diǎn)(Point Of Interest,POI),包括住宅、商場、學(xué)校、公交站等,不同POI 對停車場有不同的影響.比如某景區(qū)附近的停車場,其停車位在節(jié)假日使用率明顯高過工作日;住宅區(qū)附近的停車場車位占用率在下班時(shí)段明顯高于上班時(shí)段;商場周圍停車場的車位使用率在周末顯著上升.換句話說,附近空間信息相似的兩停車場其數(shù)據(jù)一定具有相似性,如圖2所示.
圖2 停車場間的拓?fù)潢P(guān)系
可以看到兩對停車場停車數(shù)據(jù)差異明顯;而對于兩對中的任何一對,對內(nèi)停車數(shù)據(jù)卻很接近.因此本文根據(jù)停車場的各POI 數(shù)量,對每個(gè)停車場轉(zhuǎn)成高維向量的形式,通過對停車場高維向量的聚類實(shí)現(xiàn)將停車場按數(shù)據(jù)差異分類的目的.
以停車場為圓心、Rt為容忍度半徑的圓用Op表示.圓內(nèi)的POI 會對停車場產(chǎn)生影響,圓外的POI 對停車場的影響不考慮.假設(shè)在區(qū)域Ω 內(nèi)有n個(gè)停車場,如果城市中主要的POI 有h種,那么,對于任意一個(gè)停車場pi統(tǒng)計(jì)Rt內(nèi)h種主要POI 的數(shù)量可構(gòu)建一個(gè)h維的向量作其特征向量,記為vi,表示為用來表示停車場受地理空間的影響.考慮到停車場的經(jīng)緯度也會對停車數(shù)據(jù)產(chǎn)生影響,將停車場pi的經(jīng)緯度信息用一個(gè)2 維向量,記為μi.對于停車場pi的地理空間信息用(2+h)維向量esi=(ui,vi)唯一標(biāo)定,則n個(gè)停車場的高維向量記為ES={es1,es2,···,esi,···|i=1,2,···,n}.基于K-means 的聚類算法更適合對高維向量進(jìn)行聚類,在本文中,將對停車場高維聚類的公式為:
其中,C={C1,C2,···Cj,···|j=1,2,···,k}為聚類產(chǎn)生的k個(gè)簇,mj為簇Cj的質(zhì)心,E為成簇Cj內(nèi)樣本與簇均值向量mj的靠近程度,a0是經(jīng)緯度2 維向量和POI 高維向量的權(quán)重.
區(qū)域內(nèi)的停車場間相互影響,具體表現(xiàn)為影響力越強(qiáng)的停車場吸引車輛停車的能力越強(qiáng),當(dāng)一個(gè)影響力強(qiáng)的停車場因?yàn)闊o空閑停車位而無法繼續(xù)停車時(shí),車輛會向周圍影響力較弱的停車場進(jìn)行疏散.換句話說,在一個(gè)區(qū)域內(nèi)某個(gè)停車場的影響力越強(qiáng)的,則這個(gè)停車場越能代表這個(gè)區(qū)域的停車場.因此,如果對停車場按影響力進(jìn)行排序,那么只要知道影響力較高的停車場的停車數(shù)據(jù),就可以通過某種方式對其余停車場的數(shù)據(jù)進(jìn)行修復(fù).本節(jié)的目的是篩選出影響力較強(qiáng)的停車場.
基于一般的認(rèn)知標(biāo)準(zhǔn),與周圍其它停車場連通度越高的停車場往往表現(xiàn)出更高的影響力,因?yàn)槿藗兏鼉A向于前往停車場較密集的區(qū)域,這樣會增加停車的成功率,當(dāng)一個(gè)停車場由于某種原因無法停車時(shí),可以輕松的向與之連通的停車場疏散.此外,相鄰?fù)\噲鲆矔ハ嘤绊懀唧w表現(xiàn)在一個(gè)區(qū)域內(nèi)影響力最強(qiáng)的停車場附近停車場評分會稍低,但明顯高于更遠(yuǎn)處的停車場(類似于地理上的等高線).因此,實(shí)驗(yàn)需要將停車場的拓?fù)潢P(guān)系用數(shù)學(xué)方式描述.假設(shè)有6 個(gè)停車場,它們的拓?fù)潢P(guān)系可用無向圖表示,如圖3所示.
圖3 停車場間的拓?fù)潢P(guān)系
對于圖3中任意兩個(gè)停車場pi和pj,如果存在連通關(guān)系,那么它們間的距離設(shè)為dij.上圖中的拓?fù)潢P(guān)系也可用矩陣的形式表示:
考慮到距離的數(shù)值差異較大難以計(jì)算,將pi和pj距離dij換成pi和pj的連通度,并做歸一化處理,用sij表示pi和pj的轉(zhuǎn)移概率,則新的矩陣也就是概率轉(zhuǎn)移矩陣如下:
一個(gè)連通度很高的停車場會存在多種無法停車的情況,比如私有停車場、收費(fèi)過高的停車場.因此,除了考慮停車場的連通度之外,還需量化停車場的靜態(tài)信息.
根據(jù)我國相關(guān)的法律法規(guī),任何一個(gè)合法經(jīng)營的停車場都必須以公示牌的形式公開的展示該停車場的類型、收費(fèi)標(biāo)準(zhǔn)、規(guī)模等信息,這些信息一定程度上代表了停車場相對于其它停車場的影響力.不難發(fā)現(xiàn),不同的信息有著不同的深層含義,具體如下:
(1) 停車場類型:主要分為4 種,住宅、辦公、政府、商場.其中,住宅類型和政府類型的停車場開放程度最低,外來車輛很難進(jìn)入,商場類型停車場開放程度最高.用1≥x≥0 來表示不同類型停車場的開放程度,當(dāng)x=0 時(shí)不對外開放.
(2) 收費(fèi)標(biāo)準(zhǔn):不同收入階層能接受的收費(fèi)區(qū)間不同,低收費(fèi)的停車場能被大多數(shù)收入階層的人接受,而收費(fèi)較高的停車場只吸引高收入階層的人.因此,收費(fèi)標(biāo)準(zhǔn)可以表示停車場的受歡迎程度,用y≥0 表示停車場的收費(fèi)標(biāo)準(zhǔn),當(dāng)y=0 時(shí),停車場最受歡迎.
(3) 停車場規(guī)模:停車場的規(guī)??梢员硎就\噲龅姆?wù)能力,顯然,規(guī)模越大的停車場無疑影響力越強(qiáng),用z>0 表示停車場的服務(wù)能力
通過式(5)來量化靜態(tài)信息對停車場影響力的影響,也就是對其評分[2]:
其中,SV表示停車場的評分值.i為停車場pi的編號,zi/||z||和yi/||y||的目的是對收費(fèi)標(biāo)準(zhǔn)和停車場規(guī)模歸一化處理.用SV={SV1,SV2,…,SVi,…|i=1,2,…,n}表示區(qū)域O中的n個(gè)停車場的評分向量.
考慮到停車場的靜態(tài)信息和拓?fù)潢P(guān)系都對停車場的影響力有顯著影響,因此如何合理的統(tǒng)籌這兩部分,成為必須要解決的問題.本文的方法是在已知概率轉(zhuǎn)移矩陣M′的條件下,求解平穩(wěn)狀態(tài)下向量SV的值,可表示為SV=M′.SV,顯然,SV是循環(huán)定義的,所以引入著名的冪迭代法求解平穩(wěn)狀態(tài)下向量SV.將式(1)得到的評分向量作為初始評分向量SV0,與轉(zhuǎn)移概率矩陣M’作為冪迭代法的輸入,多次迭代不斷修正評分值SV,直到SVi和SVi+1的差值小于一個(gè)閾值θ時(shí),迭代終止,并取SVi作為最終的評分向量.迭代公式如下:
實(shí)驗(yàn)選取影響力較大的部分停車場為樣本點(diǎn),來修復(fù)其余停車場的停車數(shù)據(jù).由于停車數(shù)據(jù)受到人類社會的活動的影響,一定程度上停車數(shù)據(jù)是滿足正態(tài)分布的,可用式(1)中的D值檢驗(yàn)證真實(shí)停車數(shù)據(jù)是否存在正態(tài)性,當(dāng)數(shù)據(jù)存在明顯正態(tài)性時(shí),則可根據(jù)二八定律[9],也就是影響力最大的前20%的停車場基本包括該簇停車場全部的特征,停車數(shù)據(jù)因受多種復(fù)雜因素的影響,在服從同一分布的前提下必然含有一定的多樣性.一般數(shù)學(xué)方法生成的同分布數(shù)據(jù)極為相似,不滿足停車數(shù)據(jù)的特點(diǎn),而這正是GAN 的優(yōu)勢所在,因此本文基于GAN 的思想學(xué)習(xí)樣本數(shù)據(jù)分布并生成新的停車數(shù)據(jù).與傳統(tǒng)大量部署傳感器獲得數(shù)據(jù)的方式相比,顯著降低了時(shí)間和經(jīng)濟(jì)成本.
考慮到直接使用一維時(shí)間序列生成同簇?cái)?shù)據(jù)時(shí),其結(jié)果難免伴隨有明顯抖動[6].為了使生成數(shù)據(jù)的效果更平滑,需要對一維時(shí)間序列升維.本文解決方式是將其轉(zhuǎn)為二維曲線,并以圖像方式保存,如圖4所示.
圖4 一條真實(shí)的空車率曲線
將篩選出的二維曲線集做為學(xué)習(xí)樣本,采用基于圖1的DCGAN 模型中訓(xùn)練.一條生成曲線如圖5所示.
圖5 一條生成的空車率曲線
從圖5可以看到,生成圖像伴隨有明顯的噪聲,因此需要對生成數(shù)據(jù)進(jìn)行降噪處理.本文試驗(yàn)中對生成圖像的處理包括如下3 步.
第一步,需要把產(chǎn)生的圖片灰度化.即將灰度化之前的RGB 值分別設(shè)為R1、G1和B1,相應(yīng)的,灰度化后的值設(shè)為R2、G2和B2.用公式表示為:
第二步,將灰度化的做二值化處理.二值化處理方法為設(shè)定一個(gè)閾值γ,遍歷矩陣中每一個(gè)數(shù)值,如果該數(shù)值大于γ則設(shè)為255,若像素點(diǎn)值小于該閾值則設(shè)為0.
第三步,將異常值處理.下一節(jié)將提到.
圖5中異常值分為兩類,在曲線峰值處像素點(diǎn)過于密集,稱為毛刺點(diǎn);在曲線外零星的像素點(diǎn),稱為離群點(diǎn).
對于毛刺點(diǎn),實(shí)驗(yàn)采用均值濾波的方法[10],降低毛刺點(diǎn)處像素點(diǎn)的密度.均值濾波的公式如下所示.
其中,t代表時(shí)間軸和r為空車率;W表示濾波窗口,大小取默認(rèn)的3×3;表示遍歷原圖像所有像素點(diǎn);最后f′(t,r)表示濾波之后的新圖像.
對于離群點(diǎn),實(shí)驗(yàn)采用局部異常因子LOF 算法(Local Outlier Factor)[11]來尋找.思想是通過比較每個(gè)點(diǎn)q和其鄰域點(diǎn)的密度來判斷該點(diǎn)是否為離群點(diǎn).設(shè)Nq(k) 表示以q為圓心,dk(q) 為半徑的圓,其中dk(q)為點(diǎn)q到第k遠(yuǎn)點(diǎn)的距離.實(shí)驗(yàn)中選k為3.尋找離群點(diǎn)用到的公式如下:
式(9)中,distk(q,o)表示可達(dá)距離,d(q,o)表示點(diǎn)q到點(diǎn)o的距離.當(dāng)點(diǎn)o在Nq(k)圓內(nèi),則distk(q,o)等于dk(q),當(dāng)點(diǎn)o在圓Nq(k) 外,則distk(q,o) 等于d(q,o).
式(10)定義了局部可達(dá)密度lrdk(q),可以理解為一個(gè)密度,密度越高,則認(rèn)為越可能屬于同一簇,反之,越可能是離群點(diǎn).其中|Nk(q)|描述的是q為圓心,鄰域?yàn)閐k(o)點(diǎn)的個(gè)數(shù).
因?yàn)槊芏鹊拈撝惦y以選定,實(shí)驗(yàn)引入局部離群因子來判定每個(gè)點(diǎn)q是否為離群點(diǎn),如式(11)所示.其中,LOFk(q)描述的是點(diǎn)q在圓Nq(k)的局部可達(dá)密度lrdk(q)與點(diǎn)q的局部可達(dá)密度之比的平均數(shù).如果這個(gè)比值越接近1,說明點(diǎn)q的鄰域點(diǎn)密度越接近,q和鄰域同屬一簇;如果這個(gè)比值越小于1,說明q的密度高于其鄰域點(diǎn)密度,q為正常點(diǎn);如果這個(gè)比值越大于1,說明q的密度小于其鄰域點(diǎn)密度,q越可能是離群點(diǎn).
本實(shí)驗(yàn)的目的是在有限感知的前提下,獲得足夠多的停車數(shù)據(jù),為基于機(jī)器學(xué)習(xí)的停車誘導(dǎo)系統(tǒng)提供充足的數(shù)據(jù)支撐.目標(biāo)區(qū)域停車場的靜態(tài)信息,通過百度地圖拓展包BMap 得到.本文的思路是篩選出樣本點(diǎn),通過對樣本點(diǎn)安裝傳感器可以得到實(shí)時(shí)停車數(shù)據(jù),基于這些樣本點(diǎn)來修復(fù)剩余的實(shí)時(shí)停車數(shù)據(jù),達(dá)到實(shí)驗(yàn)?zāi)康?而現(xiàn)實(shí)情況是沒有條件安裝這些傳感器,因此選擇已知2017年6月停車數(shù)據(jù)的深圳市羅湖區(qū)的392 個(gè)停車場來進(jìn)行仿真實(shí)驗(yàn)(實(shí)驗(yàn)收據(jù)為采購獲得),最后將修復(fù)的數(shù)據(jù)與測試數(shù)據(jù)對比來篩選出合理的生成數(shù)據(jù).
目標(biāo)區(qū)域主要POI 分布如圖6所示.
圖6 深圳市羅湖區(qū)主要POI 分布
考慮到空間信息差異大的停車場間停車數(shù)據(jù)同樣差異過大,在篩選樣本停車場前需要將停車場進(jìn)行聚類.實(shí)驗(yàn)中,為方便計(jì)算,取容忍度Rt為310 米,在地圖中恰好約等于1′,對每個(gè)停車場統(tǒng)計(jì)其半徑310 米方位內(nèi)POI 的7 維向量.結(jié)合其位置得到9 維向量.部分停車場的9 維向量如表1所示.
對392 個(gè)停車場進(jìn)行高維聚類,結(jié)果如圖7所示.
表1 部分停車場的9 維向量
圖7 對停車場的聚類結(jié)果
可以看到停車場數(shù)量最多的簇為‘type0’,因此仿真實(shí)驗(yàn)選取簇‘type0’的150 個(gè)停車場進(jìn)行后續(xù)實(shí)驗(yàn).
‘type0’的150 個(gè)的停車曲線和正態(tài)性檢驗(yàn)結(jié)果如圖8和表2所示.從圖8可以看到,有3 條數(shù)據(jù)明顯異常的噪聲數(shù)據(jù),做剔除處理.對其余147 條數(shù)據(jù)在8928 個(gè)時(shí)刻檢驗(yàn)使用式(1)其正態(tài)性,設(shè)閾值?為0.05.結(jié)果如表2所示.不滿足正態(tài)性的組數(shù)不足25%,可以認(rèn)為整體是符合正態(tài)性的,因此停車數(shù)據(jù)適用于二八定律.
圖8 簇“type0”停車場的空車率數(shù)據(jù)
表2 樣本數(shù)據(jù)的正態(tài)性檢驗(yàn)
第二步對150 個(gè)停車場進(jìn)行編號,根據(jù)式(3)-式(6)及停車場間的空間拓?fù)潢P(guān)系,計(jì)算所有停車場的評分,并排序.如表3所示.
取θ為0.01,當(dāng)?shù)螖?shù)達(dá)到105 時(shí),評分值趨于穩(wěn)定,并全部保存.可以看到序號為74 和73 的停車場存在約等于,而最終的卻遠(yuǎn)遠(yuǎn)大于的情況.導(dǎo)致這種情況的原因是兩停車場的拓?fù)潢P(guān)系也就是連通度差異較大.具體來說,序號為74 的停車場與周圍停車場的連通度遠(yuǎn)遠(yuǎn)大于序號為73 的停車場,當(dāng)車輛在74 號或73 號停車場無法停車時(shí),處于74 號停車場的車輛更容易疏散到附近停車場.序號為39 和74 的停車場,存在和差異較大,而和卻比較接近,這還是由連通度差異較大導(dǎo)致的.74 號停車場連通度大于39 號停車場,一定程度上彌補(bǔ)了74 號停車場先天條件的不足.評分結(jié)果符合 公眾認(rèn)知,可被接受.
表3 停車場評分的迭代過程
在深圳市羅湖區(qū),對應(yīng)簇‘type0’中147 個(gè)有數(shù)據(jù)的停車場,篩選出30 個(gè)樣本點(diǎn),在此基礎(chǔ)上修復(fù)其余停車場的停車數(shù)據(jù).實(shí)驗(yàn)以2017年6月整月為時(shí)間跨度,每5 分鐘為時(shí)間間隔,可劃分出8928 個(gè)時(shí)間節(jié)點(diǎn),并繪制空車率線圖像.一條真實(shí)的停車曲線如圖4所示.
使用DCGAN 為生成模型,設(shè)置隱層神經(jīng)元為600個(gè),批處理大小為1,學(xué)習(xí)率為0.004.在生成過程中,每一次迭代生成器都會學(xué)習(xí)樣本點(diǎn)在2017年6月的空車率數(shù)據(jù),并盡可能生成與樣本點(diǎn)相似的數(shù)據(jù).由于在DCGAN 生成模型中加了正態(tài)性檢驗(yàn)過濾器,所以生成的數(shù)據(jù)一定是符合正態(tài)性的.DCGAN 的生成過程如圖9所示.
從圖9中可以看到隨著迭代次數(shù)的增加,生成圖像從模糊逐漸變得清晰,實(shí)驗(yàn)取第800 次迭代的結(jié)果.圖5為最終得到的一條生成結(jié)果,從中可以看到生成的數(shù)據(jù)存在較多的噪聲,需要進(jìn)行降噪處理.降噪的第一步是要進(jìn)行灰度化處理,灰度化公式中的系數(shù)如表4所示.
具體二值化的做法是從圖5左上角遍歷每一個(gè)數(shù)值點(diǎn),設(shè)定閾值γ為140,當(dāng)像素點(diǎn)的像素值大于該閾值將該值重新設(shè)為255,當(dāng)像素值小于該閾值時(shí)則設(shè)為0.最后對二值化后的圖像刪除毛刺點(diǎn)和離群點(diǎn).圖10為圖5經(jīng)過去噪的效果.
圖9 DCGAN 生成數(shù)據(jù)的過程.
圖10 圖5經(jīng)過去噪處理的效果
從圖10中可以看到,生成數(shù)據(jù)一定程度的保留了原始空車率數(shù)據(jù)的概率分布信息,即可表示出時(shí)間和空車率的關(guān)系.另一方面,由于DCGAN 本身的特性,生成結(jié)果不僅和真實(shí)數(shù)據(jù)有相似的概率分布,且有一定的多樣性.因此,只要生成結(jié)果集足夠大,就會包含該簇所有停車場的空車率數(shù)據(jù).
表4 式(7)的系數(shù)設(shè)置.
為了對比生成數(shù)據(jù)的效果,本文還復(fù)現(xiàn)了RGAN生成停車數(shù)據(jù)的實(shí)驗(yàn).設(shè)置隱層神經(jīng)元50,批處理大小為1,學(xué)習(xí)率為0.03.使用與上文實(shí)驗(yàn)相同的訓(xùn)練集進(jìn)行學(xué)習(xí),生成過程如圖11所示.
在圖11中,Iteration 表示迭代次數(shù).在迭代100 次時(shí)曲線無規(guī)律,隨著學(xué)習(xí)的進(jìn)行,曲線漸漸變得平滑,當(dāng)?shù)螖?shù)達(dá)到4000 時(shí),曲線趨于平穩(wěn),但仍有數(shù)據(jù)跳變的情況.本文實(shí)驗(yàn)選取第4000 次迭代結(jié)果.
考慮到 GAN 網(wǎng)絡(luò)本身的缺陷,無論是本文基于 DCGAN的生成模型還是已有的基于RGAN 的生成模型,都難免會生成十分異常的輸出,因此需要對生成的數(shù)據(jù)進(jìn)行評估,及時(shí)剔除明顯錯誤的生成數(shù)據(jù).具體做法是在每一個(gè)時(shí)間節(jié)點(diǎn)計(jì)算生成數(shù)據(jù)與117 條真實(shí)數(shù)據(jù)誤差,當(dāng)一條生成數(shù)據(jù)在85%的時(shí)間節(jié)點(diǎn)上與真實(shí)數(shù)據(jù)集的誤差都小于0.05,則保留這條數(shù)據(jù),反之則丟棄.兩種方法耗時(shí)對比和生成數(shù)據(jù)結(jié)果對比如表5和圖12所示.
圖11 RGAN 生成數(shù)據(jù)的過程.
表5 兩種數(shù)據(jù)修補(bǔ)方法耗時(shí)對比.
從表5中,可以看到基于DCGAN 的停車場數(shù)據(jù)修補(bǔ)方法相較基于RGAN 的停車場數(shù)據(jù)修補(bǔ)方法耗時(shí)顯著降低.從圖12可以看出,一方面無論RGAN 生成模型還是DCGAN 生成模型,其生成數(shù)據(jù)和真實(shí)數(shù)據(jù)視覺上大致相似,因此兩種方法均存在一定合理性.另一方面RGAN 生成的數(shù)據(jù)出現(xiàn)了異常偏移和明顯抖動,而DCGAN 生成數(shù)據(jù)較RGAN 生成數(shù)據(jù)更為平滑.這可能是RGAN 網(wǎng)絡(luò)對樣本集學(xué)習(xí)過于充分而導(dǎo)致的泛化性能不強(qiáng),且DCGAN 面向的二維數(shù)據(jù)比RGAN 處理的一維數(shù)據(jù)有更多的特征.考慮到停車數(shù)據(jù)受人類社會活動的影響,一般情況下其數(shù)據(jù)變化是一個(gè)循序漸進(jìn)的過程(如圖12中的真實(shí)數(shù)據(jù)),特殊情況下有出現(xiàn)短期大幅跳變的可能,比如體育場周邊的停車場,在有球賽的時(shí)其空車率會急促降低,但如果多數(shù)生成曲線均存在急劇抖動現(xiàn)象,會導(dǎo)致其與真實(shí)數(shù)據(jù)間的方差變大,因此需要曲線平滑.兩種生成數(shù)據(jù)與真實(shí)數(shù)據(jù)方差如表6所示.
圖12 真實(shí)數(shù)據(jù)和生成數(shù)據(jù)對比效果
表6 兩種修補(bǔ)方法生成數(shù)據(jù)的離散程度
因此就修補(bǔ)速度和生成數(shù)據(jù)直觀效果,基于DCGAN模型的修補(bǔ)方法均明顯優(yōu)于基于RGAN 模型的修補(bǔ)方法,更符合公眾認(rèn)知.
為了進(jìn)一步比較兩種生成數(shù)據(jù)的質(zhì)量,還需衡量生成數(shù)據(jù)與非樣本點(diǎn)的真實(shí)數(shù)據(jù)之間的誤差.本文引入均方根值(RMS)、均方根分誤差(RMSE)、平均絕對誤差(MAE)來描述這種誤差,并用卡方檢驗(yàn)(Chisquare test)計(jì)算兩種生成數(shù)據(jù)和真實(shí)數(shù)據(jù)同分布的比例,設(shè)置卡方檢驗(yàn)顯著性水平為0.05,在8928 個(gè)時(shí)間點(diǎn)上判斷生成數(shù)據(jù)和真實(shí)數(shù)據(jù)是否屬于同一分布,如果卡方檢驗(yàn)的P值大于0.05,則此時(shí)刻的生成數(shù)據(jù)與真實(shí)數(shù)據(jù)屬于同一分布.兩種方法修復(fù)數(shù)據(jù)對比如表7所示.
表7 兩種數(shù)據(jù)修補(bǔ)方法效果對比
從表7可以看出,基于RGAN 的數(shù)據(jù)修補(bǔ)方法的誤差分析和正確率均稍好于基于DCGAN 的數(shù)據(jù)修補(bǔ)方法,這是因?yàn)镽GAN 中的LSTM 對文本數(shù)據(jù)解釋性較好.因此,總結(jié)兩種方法的優(yōu)缺點(diǎn)如表8所示.
表8 兩種生成方法的優(yōu)缺點(diǎn)
為了在降低經(jīng)濟(jì)時(shí)間成本的前提下,獲得城市中的所有停車場的停車數(shù)據(jù),本文提出了一種基于DCGAN生成模型來修復(fù)缺失數(shù)據(jù)的全新技術(shù),可通過對樣本停車數(shù)據(jù)的學(xué)習(xí)訓(xùn)練生成與之同分布的新數(shù)據(jù),由于GAN 網(wǎng)絡(luò)生成數(shù)據(jù)多樣的特征,理論上只要新數(shù)據(jù)數(shù)量足夠大,就一定會包含該簇所有停車場的停車數(shù)據(jù).其中要解決的細(xì)節(jié)問題主要由兩點(diǎn)組成.首先,不同地理信息的停車場數(shù)據(jù)差異巨大,這樣會導(dǎo)致生成數(shù)據(jù)可解釋性差.本文的方法是統(tǒng)計(jì)停車場周圍POI 的類型和數(shù)量將停車場映射為高維向量,使用K-means 算法將數(shù)據(jù)特征相似的停車場歸為一個(gè)簇,針對各個(gè)簇分別進(jìn)行數(shù)據(jù)修復(fù)實(shí)驗(yàn);其次,為了降低成本,本文希望僅通過少量數(shù)據(jù)就能學(xué)習(xí)到足夠特征來生成同分布的新數(shù)據(jù).對于任意一個(gè)簇,本文做法是利用PageRank算法的思想通過對停車場的公開信息和停車場間的連通度的迭代計(jì)算,算出各個(gè)停車場的影響力評分值,在驗(yàn)證停車數(shù)據(jù)遵循二八定律的后,將影響力最大的20%停車場作為樣本停車場,通過安裝傳感器等方式獲取樣本停車場數(shù)據(jù),以此為樣本修復(fù)該簇其余的停車場停車數(shù)據(jù).
本文的方法目前還不能針對具體停車場進(jìn)行點(diǎn)對點(diǎn)的修復(fù).下一步主要研究方向是對特定停車場的數(shù)據(jù)進(jìn)行修復(fù).