同濟(jì)大學(xué)建筑設(shè)計(jì)研究院(集團(tuán))有限公司
近年來(lái),隨著智能交通系統(tǒng)的不斷建設(shè)和發(fā)展,各類(lèi)設(shè)備提供了多種多樣的被動(dòng)的交通數(shù)據(jù)(如智能公交卡數(shù)據(jù)、手機(jī)數(shù)據(jù)、車(chē)載GPS數(shù)據(jù)等)。這些數(shù)據(jù)為進(jìn)一步的交通規(guī)劃與分析提供了豐富、準(zhǔn)確的數(shù)據(jù)基礎(chǔ),然而這些數(shù)據(jù)也存在固有缺陷,由于設(shè)計(jì)初衷為監(jiān)控或管理,其不包含有出行目的,而出行目的為交通出行行為中的重要屬性,對(duì)進(jìn)一步的交通規(guī)劃分析尤為重要。因此,國(guó)內(nèi)外學(xué)者在出行目的推測(cè)方面展開(kāi)了深入研究,嘗試采用不同的方法來(lái)推測(cè)出行目的。
從研究方法上看,該領(lǐng)域的研究主要分為兩個(gè)階段。第一個(gè)階段為基于簡(jiǎn)單規(guī)則的判斷[1-5],主要利用時(shí)間屬性進(jìn)行初步篩選,再根據(jù)空間屬性和個(gè)人信息特征對(duì)出行目的進(jìn)行判斷。該類(lèi)方法在不同的數(shù)據(jù)源和邏輯規(guī)則結(jié)構(gòu)下,推算的準(zhǔn)確率差異較大,整體準(zhǔn)確性不高,大約在70%左右。第二個(gè)階段主要采用機(jī)器學(xué)習(xí)類(lèi)的方法[6-13]。該類(lèi)方法類(lèi)型較廣,不同的方法間運(yùn)行效率和準(zhǔn)確性差異較大,但推算的準(zhǔn)確性整體較高,大約在75%~95%之間;相較基于規(guī)則類(lèi)的方法,機(jī)器學(xué)習(xí)方法對(duì)多維度數(shù)據(jù)的處理能力較強(qiáng),模型的適應(yīng)性較強(qiáng)。該類(lèi)方法主要包含有支持向量機(jī)、貝葉斯網(wǎng)絡(luò)、決策樹(shù)、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)等。
盡管在該領(lǐng)域國(guó)內(nèi)外的研究方法較為豐富,但對(duì)出行目的的研究大多數(shù)是不同的學(xué)者在不同的數(shù)據(jù)源和不同的模型條件下的單一方法的準(zhǔn)確性分析或少量方法的對(duì)比分析,尚未對(duì)該領(lǐng)域幾類(lèi)表現(xiàn)較好的方法應(yīng)用較廣泛的方法進(jìn)行相同條件下的橫向比較。
因此,本文通過(guò)總結(jié)國(guó)內(nèi)外在該領(lǐng)域的研究方法,總結(jié)出表現(xiàn)較好,較為廣泛應(yīng)用的五類(lèi)方法——決策樹(shù)、隨機(jī)森林、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò);在此基礎(chǔ)上,根據(jù)德陽(yáng)和資陽(yáng)的居民出行調(diào)查數(shù)據(jù),在相同數(shù)據(jù)源條件下,對(duì)這幾類(lèi)方法的推算準(zhǔn)確性進(jìn)行比較(見(jiàn)表1)。
表1 國(guó)內(nèi)外研究方法概況
為探索各類(lèi)機(jī)器學(xué)習(xí)方法在出行目的推算上的準(zhǔn)確性與普遍性規(guī)律,排除單一數(shù)據(jù)源的偶然性,本文以德陽(yáng)和資陽(yáng)兩個(gè)城市的居民出行調(diào)查數(shù)據(jù)為基礎(chǔ),同時(shí)考慮到出行目的推算的后期應(yīng)用以智能公交卡數(shù)據(jù)為主,因此在研究中提取居民出行調(diào)查數(shù)據(jù)中的公交出行數(shù)據(jù),并根據(jù)智能卡所能獲取的數(shù)據(jù)屬性類(lèi)型進(jìn)行兩種條件的設(shè)置(見(jiàn)表2),即完整變量條件的模型和不含有個(gè)人屬性特征下的模型[14]。
德陽(yáng)出行調(diào)查數(shù)據(jù)包含3 217個(gè)家庭共計(jì)21 287次出記錄(見(jiàn)表3);資陽(yáng)居民出行調(diào)查數(shù)據(jù)包含3 347個(gè)家庭共計(jì)25 096次出記錄(見(jiàn)表4)。對(duì)于每一位出行者,其包含有出行目的在內(nèi)的18種屬性特征[15]。
根據(jù)國(guó)內(nèi)外研究經(jīng)驗(yàn)及Spearman檢驗(yàn)可知:出行次序、停留時(shí)間與出行目的具有相關(guān)性(見(jiàn)表5)。由于在基礎(chǔ)數(shù)據(jù)中不含有這兩個(gè)屬性,因此在本文中主要補(bǔ)充兩個(gè)字段:出行的停留時(shí)間、出行次序。
停留時(shí)間lt(lasting time)是指該出行者在目的地的停留時(shí)間,其為同一出行者下一次的出發(fā)時(shí)間sti+1(i=1,2,3……n)和上一次的到達(dá)時(shí)間ati(i=1,2,3……n)之差;對(duì)于一天內(nèi)最后一次出行的停留時(shí)間的計(jì)算,假設(shè)該出行者第二日與第一日相同,當(dāng)日第一次出行的出發(fā)時(shí)間st1與當(dāng)日最后一次出行的到達(dá)時(shí)間atn(i=1,2,3……n)的之差,既停留時(shí)間lt=24-atn+st1。
出行次序則是依時(shí)間排序的同一出行者當(dāng)日的第1次出行到第N次出行的時(shí)間順序。
據(jù)此規(guī)則,進(jìn)行數(shù)據(jù)補(bǔ)充和清洗。
最終得到德陽(yáng)共有2 296次公交出行,資陽(yáng)為2 424次公交出行。
表2 模型設(shè)置條件
表3 德陽(yáng)居民出行調(diào)查數(shù)據(jù)樣例一
表4 德陽(yáng)居民出行調(diào)查數(shù)據(jù)樣例二
表5 屬性變量相關(guān)性分析
本文主要采用五類(lèi)機(jī)器學(xué)習(xí)方法進(jìn)行目的推測(cè),分別分析在不同的數(shù)據(jù)源和不同的輸入變量條件下模型的準(zhǔn)確性及整體的穩(wěn)定性。
一個(gè)性能良好的機(jī)器學(xué)習(xí)模型可以從海量訓(xùn)練數(shù)據(jù)集中提取出那些最有實(shí)際意義和價(jià)值的信息,并進(jìn)行處理,生成能夠清晰的描述分類(lèi)問(wèn)題的規(guī)則集。分類(lèi)準(zhǔn)確率(召回率)用于描述機(jī)器學(xué)習(xí)模型應(yīng)用于測(cè)試數(shù)據(jù)集或未知數(shù)據(jù)集時(shí)的分類(lèi)能力高低,其公式為Recall=TP/(TP+FN)。本文以推測(cè)的出行目的準(zhǔn)確性為目標(biāo),因此采用準(zhǔn)確率(召回率)作為主要指標(biāo),當(dāng)準(zhǔn)確率相同時(shí)以精確率(Precision=TP/(TP+FP))作為同條件下的次要指標(biāo),最終根據(jù)測(cè)試數(shù)據(jù)的準(zhǔn)確率和精確率以評(píng)價(jià)模型優(yōu)劣(見(jiàn)表6)。
表6 機(jī)器學(xué)習(xí)性能指標(biāo)
2.2.1 決策樹(shù)(CHAID)
決策樹(shù)模型是基于熵或Gini指標(biāo)判斷不同的類(lèi)別間的最佳區(qū)分節(jié)點(diǎn)得到的樹(shù)模型結(jié)構(gòu)(見(jiàn)圖1)。在模型設(shè)置過(guò)程中,由于出行目的為分類(lèi)變量,因此利用卡方自動(dòng)檢驗(yàn)算法來(lái)自動(dòng)搜索變量產(chǎn)生最大差異的方案,以構(gòu)建最佳決策點(diǎn)的分枝過(guò)程。在該模型中設(shè)置50%為訓(xùn)練數(shù)據(jù),50%為驗(yàn)證數(shù)據(jù),最大樹(shù)深度為3層,并設(shè)置95%的置信水平防止其過(guò)擬合。在模型的訓(xùn)練及驗(yàn)證過(guò)程中,通過(guò)大量試驗(yàn),保證其訓(xùn)練集和測(cè)試集的準(zhǔn)確性差異較?。ㄒ话阈∮?%),以得到模型的準(zhǔn)確性的最終結(jié)果。由此得到的準(zhǔn)確性分類(lèi)結(jié)果如表7所示。
由模型的準(zhǔn)確性可知,在條件一和條件二下,同城市的模型準(zhǔn)確性變化較?。ㄐ∮?%),即模型在不同的輸入條件下推測(cè)能力較為穩(wěn)定,準(zhǔn)確性約為83%左右。
表7 決策樹(shù)模型準(zhǔn)確性分析
2.2.2 隨機(jī)森林(RF)
隨機(jī)森林是建立在CART決策樹(shù)基礎(chǔ)上的組合算法模型,其通過(guò)自助法重采樣技術(shù),不斷生成訓(xùn)練樣本和測(cè)試樣本,由訓(xùn)練樣本生成多個(gè)分類(lèi)樹(shù)組成隨機(jī)森林,測(cè)試數(shù)據(jù)的分類(lèi)結(jié)果按照分類(lèi)樹(shù)投票多少形成的分?jǐn)?shù)而定,由此得到最終的分類(lèi)結(jié)果(見(jiàn)表8 )。
由模型的準(zhǔn)確性可知(見(jiàn)表9),在條件一和條件二下,德陽(yáng)模型的準(zhǔn)確性在條件一時(shí)最佳約為93%,在條件二時(shí)準(zhǔn)確性相比決策樹(shù)也較高,約為87%。資陽(yáng)的模型準(zhǔn)確性較穩(wěn)定,約為86%,優(yōu)于決策樹(shù)模型。
圖1 決策樹(shù)模型結(jié)構(gòu)(德陽(yáng)條件一樣例)
表8 隨機(jī)森林決策規(guī)則(德陽(yáng)條件一樣例)
表9 隨機(jī)森林模型準(zhǔn)確性分析
2.2.3 神經(jīng)網(wǎng)絡(luò)(MLP)
MLP神經(jīng)網(wǎng)絡(luò)是基于BP算法的多層感知器模型。
在兩種條件下,由模型的準(zhǔn)確性分析可知其預(yù)測(cè)數(shù)據(jù)的準(zhǔn)確性變化幅度較?。ㄐ∮?%),模型整體較為穩(wěn)定,準(zhǔn)確率大約在82%左右(見(jiàn)圖2、圖3、表10)。
圖2 德陽(yáng)5種目的準(zhǔn)確性(條件一樣例)
圖3 資陽(yáng)5種目的準(zhǔn)確性(條件一樣例)
表10 MLP神經(jīng)網(wǎng)絡(luò)模型準(zhǔn)確性分析
2.2.4 支持向量機(jī)(SVM)
支持向量機(jī)根據(jù)最優(yōu)分類(lèi)面將樣本進(jìn)行分類(lèi),當(dāng)其不能在超平面進(jìn)行線性劃分時(shí),則通過(guò)核函數(shù)將其映射到多維空間再進(jìn)行劃分。
在訓(xùn)練模型時(shí),為防止模型過(guò)度擬合,需充分調(diào)整訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的隨機(jī)種子,使訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)準(zhǔn)確性差異小于5%,以避免其過(guò)擬合,當(dāng)其達(dá)到較為穩(wěn)定的狀態(tài)時(shí)以此狀態(tài)下的最高準(zhǔn)確性作為模型分類(lèi)的結(jié)果。
由此,得到最終的模型準(zhǔn)確性如表11所示:
表11 支持向量機(jī)準(zhǔn)確性分析
由分析結(jié)果可知,該模型在兩種條件下準(zhǔn)確性普遍較高,大約在90%~93%,相較其他方法訓(xùn)練較為充分,模型整體較為穩(wěn)定,準(zhǔn)確率高。
對(duì)于城市的規(guī)劃和建設(shè)來(lái)說(shuō),居住區(qū)是一個(gè)重要的組成部分,他是城市居民生活的地方,是人們基本生存生理需要的地方。在住宅小區(qū)園林景觀設(shè)計(jì)的過(guò)程中,主要是生態(tài)綠化、生活品質(zhì)等方面的綜合應(yīng)用,除此之外,在推動(dòng)住宅小區(qū)生態(tài)景觀設(shè)計(jì)的基礎(chǔ)上,如何創(chuàng)造符合各個(gè)年齡段居民需求的運(yùn)動(dòng)、活動(dòng)空間,提高居住環(huán)境的舒適度與幸福感都是需要景觀設(shè)計(jì)過(guò)程中關(guān)注的問(wèn)題。通過(guò)規(guī)劃設(shè)計(jì)來(lái)增強(qiáng)居民的歸屬感和舒適度,并在和諧的環(huán)境中相互交流,增強(qiáng)鄰里之間的溝通。
2.2.5 貝葉斯網(wǎng)絡(luò)(BAYESIAN)
貝葉斯分類(lèi)方法是一種展現(xiàn)已知數(shù)據(jù)集屬性分布的方法,其最終計(jì)算結(jié)果完全依賴(lài)于訓(xùn)練樣本中類(lèi)別和特征的分布(見(jiàn)圖4)。
圖4 貝葉斯網(wǎng)絡(luò)準(zhǔn)確性分析
由分析結(jié)果可知,對(duì)于德陽(yáng)的出行目的推算結(jié)果準(zhǔn)確性相對(duì)較低,大約在57%~67%,對(duì)于資陽(yáng)的模型則是訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)相差較大,模型不穩(wěn)定且推測(cè)的準(zhǔn)確性相對(duì)其他模型較低,約為73%~75%(見(jiàn)表12)。
表12 貝葉斯網(wǎng)絡(luò)準(zhǔn)確性分析
對(duì)比不同條件下相同城市的各類(lèi)機(jī)器學(xué)習(xí)方法推測(cè)的準(zhǔn)確性,以此判斷是否存在較為穩(wěn)定的模型對(duì)于出行目的推測(cè)類(lèi)問(wèn)題具有良好的適應(yīng)性。
由圖5可知,RF和SVM準(zhǔn)確性在90%以上,CHAID在85%作用,MLP模型準(zhǔn)確性略低于CHAID模型,總體的推測(cè)準(zhǔn)確性為RF>SVM>CHAID>MLP;BAYESIAN準(zhǔn)確性相對(duì)這四類(lèi)較低。
由圖6可知,SVM推測(cè)準(zhǔn)確性在90%以上,RF和CHAID大于85%,總體的推測(cè)準(zhǔn)確性為SVM>RF> CHAID;MLP準(zhǔn)確率略低于CHAID;BAYESIAN準(zhǔn)確性相對(duì)這四類(lèi)較低,差異較大。
由圖7可知,S V M推測(cè)準(zhǔn)確性在90%以上,RF、CHAID和MLP大于80%,總體的推測(cè)準(zhǔn)確性為SVM>RF>CHAID>MLP;BAYESIAN準(zhǔn)確性相對(duì)這四類(lèi)較低。
由圖8可知,SVM推測(cè)準(zhǔn)確性在90%左右,RF、MLP和CHAID大于80%,總體的推測(cè)準(zhǔn)確性為SVM>RF>MLP>CHAID;BAYESIAN準(zhǔn)確性相對(duì)這四類(lèi)較低。
根據(jù)模型的準(zhǔn)確性分析可知,在五種模型四種條件下,模型的分類(lèi)結(jié)果整體呈現(xiàn)出較為穩(wěn)定的排序,既SVM>RF>CHAID>MLP>BAYESIAN,在這五類(lèi)方法中,模型的準(zhǔn)確性平均高于80%,而B(niǎo)AYESIAN模型準(zhǔn)確性波動(dòng)較大、不穩(wěn)定,且模型準(zhǔn)確性不高。CHAID和MLP模型準(zhǔn)確性較為相近,但CHAID整體準(zhǔn)確性略高于MLP。
圖5 德陽(yáng)模型間對(duì)比分析(條件一)
圖6 德陽(yáng)模型間對(duì)比分析(條件二)
圖7 資陽(yáng)模型間對(duì)比分析(條件一)
圖8 資陽(yáng)模型間對(duì)比分析(條件二)
由此分析可知,在出行目的推斷中SVM對(duì)模型推斷有較為良好的準(zhǔn)確性,為推測(cè)中的最優(yōu)模型。
本文在分別探索了兩種數(shù)據(jù)源,兩類(lèi)模型設(shè)置條件下五種機(jī)器學(xué)習(xí)方法模型的準(zhǔn)確性,由圖5~圖8可知,在四種情況下,SVM、RF模型的準(zhǔn)確性較高且較為穩(wěn)定,普遍呈現(xiàn)出SVM>RF>CHAID的趨勢(shì),即這三類(lèi)方法對(duì)于出行目的推測(cè)這個(gè)領(lǐng)域表現(xiàn)較好,適應(yīng)性較強(qiáng)。
在不同的條件下,同數(shù)據(jù)源模型的準(zhǔn)確性普遍變化較小,這也說(shuō)明了個(gè)人屬性特征對(duì)于出行目的的推測(cè)影響較小,由此可知在變量較少的條件下出行目的推測(cè)模型也具有穩(wěn)健性,故該類(lèi)模型對(duì)采用被動(dòng)數(shù)據(jù)進(jìn)行出行目的挖掘具有可實(shí)施性和應(yīng)用前景。