丁 悅,周健勇 (上海理工大學(xué) 管理學(xué)院,上海200093)
近年來城市軌道交通處于一個(gè)持續(xù)發(fā)展的階段,它給人們的出行帶來了極大的便利。全國各地陸陸續(xù)續(xù)規(guī)劃了大量的交通線路,而地鐵線路的站點(diǎn)則是城市軌道交通線網(wǎng)中的一個(gè)關(guān)鍵節(jié)點(diǎn),各地鐵站點(diǎn)成為了城市社會(huì)經(jīng)濟(jì)活動(dòng)中的熱點(diǎn)區(qū)域,而又因?yàn)楦鞣N類型的站點(diǎn)在城市中的區(qū)域條件、交通功能、土地利用等存在一定的差異,所以對(duì)各個(gè)站點(diǎn)進(jìn)行科學(xué)的分類,對(duì)城市功能的分區(qū)和評(píng)估城市軌道交通的建設(shè)有著重大意義。
本文對(duì)浙江省寧波市軌道交通的地鐵站點(diǎn)進(jìn)行抽樣分級(jí)研究。寧波是中國大陸第21 個(gè)開通軌道交通的城市,截止到2019年7 月份,共有線路3 條,總長91 千米,第一條線路于2014 年5 月30 日開通運(yùn)營,未來運(yùn)營的路段將會(huì)接二連三開通。但是為了使地鐵站點(diǎn)的利用價(jià)值更高,根據(jù)站點(diǎn)屬性和周邊情況,解決站點(diǎn)與客流不相匹配的問題,需要對(duì)站點(diǎn)的分級(jí)進(jìn)行合理的優(yōu)化,使得軌道交通的建設(shè)有更充分的意義。
縱觀我國國內(nèi)的站點(diǎn)分級(jí)現(xiàn)狀,分級(jí)體系由來已久,也各有千秋。分級(jí)大體上可以總結(jié)為3 類,第一,以分時(shí)段客流量為指標(biāo);第二,以客流屬性和周邊環(huán)境服務(wù)為指標(biāo);第三,以它的地理位置和交通組織為指標(biāo)?;谶@些指標(biāo),國內(nèi)研究者大多數(shù)是通過實(shí)地調(diào)研數(shù)據(jù)的方法進(jìn)行分級(jí),而隨著數(shù)據(jù)挖掘的日趨成熟,可以通過更多的方式獲取數(shù)據(jù),使其更多的應(yīng)用于城市空間中。而且國內(nèi)對(duì)于站點(diǎn)分級(jí)的標(biāo)準(zhǔn)至今也未達(dá)成統(tǒng)一的共識(shí),有的是將站點(diǎn)劃分成4 個(gè)等級(jí);有的是將站點(diǎn)劃分成區(qū)域?qū)蛐?;有的是劃分成區(qū)域;有的是按照職能劃分等。
從國外對(duì)于地鐵站點(diǎn)分級(jí)的研究現(xiàn)狀來看,他們大都是以城市站點(diǎn)為研究對(duì)象,郊區(qū)只作為其中的子類,一般是根據(jù)車站形式、客流量、服務(wù)區(qū)域等開放的空間場所特性為指標(biāo)去給站點(diǎn)分級(jí),比如韓國的首爾是從客流量去分析站點(diǎn)尺度;日本的東京將地鐵站分為市區(qū)和郊區(qū),再根據(jù)不同指標(biāo)給站點(diǎn)進(jìn)行分類等。在這些研究中,很多因素以及差異性受到了忽略,缺乏很多定量的標(biāo)準(zhǔn)。
本文基于前輩研究的基礎(chǔ)上,將浙江省寧波市地鐵的64 個(gè)站點(diǎn),根據(jù)站點(diǎn)基礎(chǔ)、實(shí)際客流、周邊情況等因素提取8 個(gè)主要指標(biāo),采用貝葉斯推斷的EM 算法對(duì)主要指標(biāo)進(jìn)行聚類分析,并將站點(diǎn)科學(xué)地分為居住導(dǎo)向型、商業(yè)導(dǎo)向型、就業(yè)導(dǎo)向型3種類型,將每個(gè)站點(diǎn)賦予各個(gè)類型百分比。解決了之前單一的分級(jí)方法,這樣可以獲得更合理的結(jié)果,也能更好地對(duì)站點(diǎn)進(jìn)行價(jià)值評(píng)級(jí),促進(jìn)城市軌道交通更好的發(fā)展;也為寧波市廣告、通信、商業(yè)、TOD 的長遠(yuǎn)發(fā)展奠定了理論依據(jù)和參考價(jià)值。
EM 算法最早是Dempster、Laird 和Rubin 在1977 年提出的,通常是在數(shù)據(jù)不完備的靜態(tài)數(shù)據(jù)模型中的期望最大化算法,簡稱EM 算法,是計(jì)算模型參數(shù)的最大似然估計(jì)值。EM 算法本質(zhì)上是一種迭代算法,是根據(jù)上一步估計(jì)出的參數(shù)值來猜測隱變量最可能的值,再用猜測的值作為隱變量的值,重新估計(jì)參數(shù)的值,反復(fù)迭代計(jì)算,直至收斂,也就是似然函數(shù)值達(dá)到最大。每一次迭代都能保證似然函數(shù)值增加,并且收斂到一個(gè)極大值。它的每一次迭代包括兩步:第一步求期望,稱為E 步;第二步求極大值,稱為M 步。EM 算法以及它的改進(jìn)版本常常被用于機(jī)器學(xué)習(xí)算法的參數(shù)求解,包括高斯混合模型、概率主成分分析、隱馬爾可夫模型等,用于解決數(shù)據(jù)缺失的問題。比如營銷流程的管理、客流人群的篩選、圖像分割、醫(yī)學(xué)中的動(dòng)物意外死亡、記錄儀器發(fā)生故障、被調(diào)查者拒絕回答相關(guān)調(diào)查項(xiàng)目等。
本文對(duì)算法中的符號(hào)定義如表1 所示:
表1
EM 算法給定相互獨(dú)立的數(shù)據(jù)X={X1,…,Xn}和含有隱變量Z和參數(shù)θ 的概率模型f(X,Z,θ ),根據(jù)極大似然估計(jì)理論,θ 的最優(yōu)估計(jì)在似然取極大值時(shí)得出θ如果考慮表示缺失數(shù)據(jù)的隱變量,則:
以離散為例,用極大似然估計(jì)的方法對(duì)上式取自然對(duì)數(shù):
引入隱分布q(Z),將對(duì)數(shù)似然:
當(dāng)右側(cè)取全局極大值時(shí),θ 至少使左側(cè)取局部極大值,右側(cè)表示為L(θ,q)后,則求解目標(biāo)為其中L(θ,q)是似然優(yōu)化估計(jì)的下限,EM 算法它的下限逼近對(duì)數(shù)似然的極大值。
傳統(tǒng)的EM 算法是一種迭代求精算法,它主要是由期望步和最大化步構(gòu)成,最基本的思想是先估計(jì)出缺失數(shù)據(jù)的初值,再計(jì)算模型參數(shù)的值,然后再不斷迭代E 步和M 步,不斷更新,直至收斂。它的具體步驟如下:隨機(jī)選擇K個(gè)對(duì)象代表簇的中心,以此猜測其他數(shù)據(jù);不斷執(zhí)行E 步和M 步直至收斂。
(1) E 步
(2) M 步
在極大似然估計(jì)理論下,EM 算法隨機(jī)選擇對(duì)象作為簇的中心,只能給出參數(shù)θ 的單點(diǎn)估計(jì),導(dǎo)致聚類的不穩(wěn)定,以及邊緣數(shù)據(jù)對(duì)算法影響過大,使得結(jié)果輸出的正確率偏低。當(dāng)引入貝葉斯推斷的方法后,能夠解決分布過度擬合的問題,首先對(duì)數(shù)據(jù)源進(jìn)行分類,將分類結(jié)果作為使用范圍,在每個(gè)類中反復(fù)執(zhí)行E 步和M 步,直到收斂為止,充分利用EM 算法容易到達(dá)局部最優(yōu)的點(diǎn),使其更好的聚類,更快的收斂,得到更準(zhǔn)確的數(shù)據(jù)填充值,在此基礎(chǔ)上,引入P(θ|m),此時(shí)離散形式表示為:
考慮隱分布q Z,( )
θ 后,可得隱變量的自由能:
第二步:把結(jié)果作為新的數(shù)據(jù)集,在這些數(shù)據(jù)集中分別使用EM 算法計(jì)算期望最大值。E 步是用P(XLi∈CLiK)分別將Li中的XLi派到CLiK中。M 步是用之前得到的概率重新計(jì)算模型參數(shù)當(dāng)算法收斂之后,用mLiK作為Li中k的最大化值,并用這個(gè)值填充缺失數(shù)字。
為了更好地說明此算法的應(yīng)用,下面舉一個(gè)二維指標(biāo)的實(shí)例進(jìn)行詳細(xì)說明。首先構(gòu)造1 000 個(gè)二維隨機(jī)變量x1,x2,…,x1000,其中Xi=(ui,vi),i=1,2,…,1 000,且是由3 個(gè)高斯分布混合而成的。選取2 個(gè)指標(biāo)分別于x軸、y軸,結(jié)果導(dǎo)向類型為3 種。
原始分布如圖1(所有二維隨機(jī)變量處于一個(gè)離散狀態(tài)且有向3 個(gè)方向聚類的趨勢):
經(jīng)過EM 算法運(yùn)行后分布如圖2 至圖4 所示:
圖1
圖2 初始圖
圖3 中間圖
圖4 結(jié)果圖
經(jīng)過EM 算法不斷運(yùn)行迭代,分布圖逐漸會(huì)趨于一個(gè)收斂的狀態(tài),此時(shí)將其結(jié)果輸出。在這個(gè)例子中,3 個(gè)樣本的3 次結(jié)果導(dǎo)向類型的百分比數(shù)據(jù)見表2,可見這3 個(gè)樣本逐漸走向同一個(gè)趨勢,因?yàn)楦髯越Y(jié)果百分比也是逐漸收斂,此時(shí)將每個(gè)樣本的結(jié)果數(shù)據(jù)輸出,得到各個(gè)類型百分比。然后根據(jù)的百分比結(jié)果,結(jié)合具體應(yīng)用再分析。
表2 其中3 個(gè)同類別樣本輸出的數(shù)據(jù)
基于寧波軌道交通地鐵站點(diǎn)的現(xiàn)狀,本文對(duì)寧波地鐵64 個(gè)站點(diǎn)進(jìn)行深入的分級(jí)研究。綜合軌道交通站點(diǎn)的現(xiàn)狀和一些文獻(xiàn)研究的基礎(chǔ)上,本文從站點(diǎn)基礎(chǔ)、實(shí)際客流、周邊情況等方面提取了8 個(gè)主要指標(biāo)進(jìn)行評(píng)級(jí)研究,分別是早高峰真實(shí)客流進(jìn)出比、客流偏度、客流高峰小時(shí)系數(shù)、客流時(shí)段分布均衡系數(shù)、周邊居民區(qū)數(shù)量、周邊公交數(shù)量、周邊商場人流量、周邊寫字樓數(shù)量。表3 為其中12 個(gè)站點(diǎn)的指標(biāo)數(shù)據(jù)。
表3 某中一些站點(diǎn)的指標(biāo)數(shù)據(jù)
客流偏度是數(shù)據(jù)分布形態(tài)的量,表示總體取值分布的對(duì)稱性,其需與正態(tài)分布作比較,當(dāng)客流偏度為0 時(shí),數(shù)據(jù)分布形態(tài)和正態(tài)分布的偏斜程度相同;當(dāng)客流偏度大于0 時(shí),右偏;當(dāng)客流偏度小于0 時(shí),左偏。
客流高峰小時(shí)系統(tǒng)數(shù)P的定義為:P=Qi/Qd。其中,Qi表示第i小時(shí)的客流量;Qd表示全天的客流量;P的最大值即為客流高峰小時(shí)系數(shù)。
客流時(shí)段分布均衡系數(shù)U的定義為:U=G/H。其中,G表示高峰時(shí)間段的小時(shí)平均客運(yùn)量;H表示平峰時(shí)間段的小時(shí)平均客運(yùn)量;當(dāng)U>2 時(shí),表示很不均衡;當(dāng)1.6≤U≤2 時(shí),不均衡;當(dāng)U<1.6 時(shí),較均衡。
數(shù)據(jù)預(yù)處理就是對(duì)數(shù)據(jù)進(jìn)行規(guī)范化的處理,以便于接下來進(jìn)行數(shù)據(jù)挖掘的工作。當(dāng)從不同維度去評(píng)價(jià)指標(biāo)時(shí),往往呈現(xiàn)的結(jié)果在數(shù)據(jù)值上的差異性非常大,如果沒有數(shù)據(jù)預(yù)處理的過程,則會(huì)對(duì)后續(xù)的數(shù)據(jù)分析有一定的影響。一般的預(yù)處理就是將數(shù)據(jù)按照一定的比例放縮,使其維持在一個(gè)特定的數(shù)值區(qū)間內(nèi)。在某些指標(biāo)處理中經(jīng)常會(huì)用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級(jí)的指標(biāo)能夠進(jìn)行比較和加權(quán)。
z-score標(biāo)準(zhǔn)化:
標(biāo)準(zhǔn)分?jǐn)?shù)也叫z分?jǐn)?shù),它是一個(gè)分?jǐn)?shù)與平均數(shù)的差再除以標(biāo)準(zhǔn)差的過程。用公式表示為:z= x-( )
μ /σ。其中:x為某一具體分?jǐn)?shù),μ 為平均數(shù),σ 為標(biāo)準(zhǔn)差。z值的量代表著原始分?jǐn)?shù)和母體平均值之間的距離,是以標(biāo)準(zhǔn)差為單位計(jì)算。在原始分?jǐn)?shù)低于平均值時(shí)z為負(fù)數(shù),反之則為正數(shù)。
標(biāo)準(zhǔn)差計(jì)算公式:
假設(shè)有一組數(shù)值X1,X2,X3,…,Xn(實(shí)數(shù)),其平均值為μ,標(biāo)準(zhǔn)差公式為:它是一組數(shù)據(jù)平均值分散程度的度量,一個(gè)大的標(biāo)準(zhǔn)差,代表大部分?jǐn)?shù)值和平均值間差異大;一個(gè)小的標(biāo)準(zhǔn)差,代表這些數(shù)值較接近平均值。
表4 為其中12 個(gè)站點(diǎn)的指標(biāo)數(shù)據(jù)預(yù)處理結(jié)果。
表4 數(shù)據(jù)預(yù)處理的結(jié)果
聚類分析是應(yīng)用最廣泛的一種分類技術(shù),它把性質(zhì)相近的個(gè)體歸為一類,使得同一類中的個(gè)體具有高度的同質(zhì)性,不同類之間的個(gè)體具有高度的異質(zhì)性。聚類分析的職能是建立一種分類方法,它是將一批樣品或變量,按照它們?cè)谛再|(zhì)上的相似程度進(jìn)行分類。
本文采用貝葉斯推斷的EM 算法對(duì)站點(diǎn)進(jìn)行評(píng)級(jí)分析,將8 個(gè)指標(biāo)聚合成兩類,分別為客流情況和周邊情況,去除掉一個(gè)影響小的指標(biāo),由此每個(gè)類別中算出3 個(gè)重要指標(biāo),進(jìn)而采用EM 算法分別對(duì)兩類指標(biāo)進(jìn)行聚類分析,不斷迭代,當(dāng)數(shù)據(jù)趨于收斂時(shí),將所有站點(diǎn)的結(jié)果類型各個(gè)百分比輸出。
下面分別是根據(jù)第一類、第二類指標(biāo)聚類的12 個(gè)站點(diǎn)樣本的數(shù)據(jù)展示,如表5、表6 所示。
表5 第一類指標(biāo)的數(shù)據(jù)輸出
圖5、圖6 分別是根據(jù)第一類、第二類指標(biāo)聚類的所有站點(diǎn)的三維聚類效果圖。
本次實(shí)驗(yàn)對(duì)寧波的64 個(gè)站點(diǎn)進(jìn)行了研究,由于站點(diǎn)數(shù)量有限,聚類的結(jié)果不是特別明顯,但是根據(jù)兩類指標(biāo)的聚類結(jié)果,得出了每個(gè)站點(diǎn)在3 種結(jié)果導(dǎo)向型中各自的百分比,2 種結(jié)果雖然百分比的數(shù)字不同,但是都是有著各自的指向型。根據(jù)結(jié)果將所有站點(diǎn)聚成6 類,第一類商業(yè)導(dǎo)向型,如東門口、外灘大橋、城隍廟、寧波火車站等;第二類居住導(dǎo)向型,如澤民、五鄉(xiāng)、云霞路等;第三類就業(yè)導(dǎo)向型,如海晏北路、南部商務(wù)區(qū)、世紀(jì)大道等;第四類商業(yè)、居住導(dǎo)向型,如櫻花公園、舟孟北路等;第五類商業(yè)、就業(yè)導(dǎo)向型,如福明路、江廈橋東等;第六類就業(yè)、居住導(dǎo)向型,如藕池、寧波大學(xué)、孔浦等。
表6 第二類指標(biāo)的數(shù)據(jù)輸出
圖5 所有站點(diǎn)聚類的三維圖
圖6 所有站點(diǎn)聚類的三維圖
城市軌道交通的發(fā)展為寧波市的長遠(yuǎn)規(guī)劃打下了基礎(chǔ),使得城市框架更加平衡,將全市6 個(gè)區(qū)緊密聯(lián)系起來,解決了交通污染的問題,方便了人們的日常出行,也避免采用限牌的策略。本文采用了貝葉斯推斷的EM 算法對(duì)寧波市64 個(gè)地鐵站點(diǎn)進(jìn)行分級(jí)。研究表明:(1) EM 算法具有一定的局限性,當(dāng)指標(biāo)過多,或者是數(shù)據(jù)缺失的時(shí)候,不能很好地進(jìn)行數(shù)據(jù)處理,當(dāng)我們采用貝葉斯推斷后,可以先將指標(biāo)進(jìn)行分類,根據(jù)不同類別,輸出結(jié)果,再進(jìn)行分析。(2) 根據(jù)聚類分析輸出的結(jié)果數(shù)據(jù)可知,本文可以將寧波所有地鐵站點(diǎn)分為6 大類:居住導(dǎo)向型;就業(yè)導(dǎo)向型;商業(yè)導(dǎo)向型;商業(yè)、居住導(dǎo)向型;商業(yè)、就業(yè)導(dǎo)向型;就業(yè)、居住導(dǎo)向型,也證實(shí)了貝葉斯推斷的EM 算法在處理此類交通指標(biāo)數(shù)據(jù)問題方面的有效性。(3) 對(duì)于地鐵站點(diǎn)的價(jià)值研究也是一個(gè)不斷探索的過程,隨著指標(biāo)的增多、城市的發(fā)展、地鐵線路的增加以及數(shù)據(jù)處理技術(shù)的革新,對(duì)站點(diǎn)的研究也會(huì)處于一個(gè)不斷優(yōu)化的過程中。而本文研究主要是為了對(duì)目前的站點(diǎn)進(jìn)行更加科學(xué)地分級(jí),為城市軌道交通的下一步研究奠定了理論依據(jù);促進(jìn)了廣告、通信、商業(yè)和新經(jīng)濟(jì)的發(fā)展;有助于進(jìn)一步了解城市空間格局和社會(huì)特征。