周思藝,李天瑞,2,3,4*
(1.西南交通大學(xué) 計(jì)算機(jī)與人工智能學(xué)院,成都 611756;2.可持續(xù)城市交通智能化教育部工程研究中心,成都 611756;3.綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實(shí)驗(yàn)室(西南交通大學(xué)),成都 611756;4.四川省制造業(yè)產(chǎn)業(yè)鏈協(xié)同與信息化支撐技術(shù)重點(diǎn)實(shí)驗(yàn)室(西南交通大學(xué)),成都 611756)
隨著城市化和現(xiàn)代化的快速發(fā)展,城市形態(tài)正發(fā)生演變[1],關(guān)乎居民出行的交通站點(diǎn)也變得更加重要。要發(fā)展智慧城市,如何有效分析交通站點(diǎn)的人流時空特性和多元環(huán)境因素的影響是未來城市規(guī)劃的關(guān)鍵。
交通智能(Integrated Circuit,IC)卡的使用已經(jīng)積累了大量的乘客出行信息,每日的刷卡記錄數(shù)都是百萬級,為分析站點(diǎn)的流時空特性提供了可能。IC 卡的數(shù)據(jù)包括旅客身份類型、源-目的地(Origin Destination,OD)[2]名稱、時間。通過對乘客OD 數(shù)據(jù)的分析,可以得到站點(diǎn)間人流的流動規(guī)律,但現(xiàn)有工作更多關(guān)注居民的移動模式和城市功能區(qū)的劃分等,缺少更全面地展示交通站點(diǎn)的流時空特性和多元環(huán)境因素的研究。IC 卡的數(shù)據(jù)規(guī)模大,直接在地圖上繪制OD 數(shù)據(jù)的空間分布容易出現(xiàn)遮擋,不易于用戶分析流傳輸?shù)目臻g特性,若多元數(shù)據(jù)類型多,更難以結(jié)合對比分析,因此,如何從海量IC 卡數(shù)據(jù)提取交通站點(diǎn)的OD 流時空模式,并提出一種抽象的多元時間序列數(shù)據(jù)可視化方法展示是需要解決的問題。
為此,本文設(shè)計(jì)一個面向OD 流的支持多元數(shù)據(jù)探索的交互式分層可視分析系統(tǒng)。針對直接可視化大規(guī)模刷卡數(shù)據(jù)的空間分布容易視覺遮擋的問題,提出基于正交非負(fù)矩陣分解(Orthogonal Nonnegative Matrix Decomposition,ONMF)的OD 流聚類方法,對大規(guī)模交通站點(diǎn)聚類。隨后,設(shè)計(jì)了地圖視圖和流傳輸演化視圖,分別對流空間特征和流傳輸時序演化分析,使用戶能結(jié)合時間序列從聚類社區(qū)層和站點(diǎn)層兩個不同層級的細(xì)節(jié)快速分析和對比站點(diǎn)的流時空模式。針對元數(shù)據(jù)類型多更難以結(jié)合對比分析的問題,設(shè)計(jì)了站點(diǎn)多元時序數(shù)據(jù)視圖對比分析多種時序數(shù)據(jù)的變化,開發(fā)了一個可視框架來可視化和探索交通站點(diǎn)的流時空特性和多元環(huán)境因素,并提供了易用的交互操作,幫助用戶高效率地探索和對比分析。最后,本文基于真實(shí)世界數(shù)據(jù)集利用聚類評估指標(biāo)輪廓系數(shù)(Silhouette Coefficient,SC)對OD 流聚類方法定量評估,并通過案例研究對系統(tǒng)的有效性定性評估。
本文的主要工作如下:
1)提出基于ONMF 對OD 流聚類的方法,有利于后續(xù)從宏觀和微觀角度分析OD 流的時空模式。對大規(guī)模站點(diǎn)聚類后再結(jié)合可視化過濾方法,避免大規(guī)模OD 流在地圖上造成視覺遮擋的問題。
2)設(shè)計(jì)了流空間特征可視化視圖分層展示聚類層和站點(diǎn)層,并設(shè)計(jì)了一系列交互操作,輔助用戶通過多視圖聯(lián)動,從聚類層級和站點(diǎn)層級了解流傳遞的時空特性和異常。
3)設(shè)計(jì)了交通流傳遞視圖,輔助分析OD 流的時間模式。本文改進(jìn)傳統(tǒng)的?;鶊D,并展示站點(diǎn)聚類簇間在時間序列上的流傳遞,有利于用戶從簡潔、直觀的聚類社區(qū)層角度分析站點(diǎn)間的流傳遞模式,進(jìn)而發(fā)現(xiàn)潛在調(diào)查社區(qū)。
4)設(shè)計(jì)站點(diǎn)多元時序數(shù)據(jù)對比視圖,輔助用戶更全面地分析站點(diǎn)的流時序變化和空氣質(zhì)量、空氣溫度、相對濕度和降雨量這4 類多元環(huán)境數(shù)據(jù)的時序變化情況。
?;鶊D是一種特定類型的流程圖,能很好地展示數(shù)據(jù)屬性從某個狀態(tài)到另一種狀態(tài)的變化過程。EcoLens[3]基于?;鶊D,利用KM(Kuhn-Munkres)算法優(yōu)化布局,通過不同時間片區(qū)域的轉(zhuǎn)換條表示區(qū)域演變,直觀地展示空間簇的演化特征。時間線(Timeline)也是一種有效的可視化設(shè)計(jì),例如,基于聚類和疊加的可視化方法TimeRadar[4],通過一個抽象的時間線視圖,使分析人員對多個事件序列的演化有一個整體的概述。ACSeeker[5]將多因素數(shù)據(jù)分別編碼在以年份為單位的Timeline 上,以揭示和比較多個因素在學(xué)術(shù)生涯的不同階段如何變化。故事線(Storyline)是一種特殊的Timeline,可以讓用戶跟蹤各個數(shù)據(jù)項(xiàng)的時間模式。Liu 等[6]提出了一個有效的優(yōu)化方法產(chǎn)生實(shí)時可交互的、美觀的故事情節(jié)可視化;Tanahashi 等[7]提出了一種提高可視化可讀性的布局優(yōu)化算法,應(yīng)用于故事情節(jié)流數(shù)據(jù)分析的新框架;Zhou 等[8]將Storyline 應(yīng)用于空氣質(zhì)量數(shù)據(jù)集,描述不同尺度的空氣質(zhì)量監(jiān)測站點(diǎn)隨時間的聚類演化事件。一些研究工作針對個性化任務(wù)需求,從具體應(yīng)用的角度作可視化分析。楊歡歡等[9]針對鐵路OD 行程線路這類階段性時間序列數(shù)據(jù)類型提出了基于螺旋圖的可視化模型;考慮到可視化需要相關(guān)技能和知識提供開發(fā)支持,如D(3Data-Driven Document)[10]、Vega[11]等、趙韋鑫等[12]提出了一種面向交通軌跡的數(shù)據(jù)流可視化方法,開發(fā)了推薦向?qū)Э梢暬ぞ咭龑?dǎo)用戶構(gòu)建數(shù)據(jù)流圖。
以上方法都能有效輔助用戶了解數(shù)據(jù)流在時間上的變化趨勢;但隨著分析對象數(shù)據(jù)量的增大,容易造成視覺遮擋或者需要更大的視圖,不利于用戶分析。針對如何展示大規(guī)模站點(diǎn)間人流的流動在時間序列上變化,本文設(shè)計(jì)一種基于聚類結(jié)果的交通流演化視圖,通過聚類將分析對象轉(zhuǎn)換成聚類簇的宏觀層級。在結(jié)果可視化上,改進(jìn)?;鶊D視覺編碼,利用KM 算法優(yōu)化布局,并提供過濾交互操作,盡可能減少不必要的視覺遮擋,輔助用戶更快發(fā)現(xiàn)潛在調(diào)查區(qū)域。
許多領(lǐng)域都有OD 時空數(shù)據(jù)產(chǎn)生,為了用簡明扼要的圖表說明復(fù)雜的數(shù)據(jù)關(guān)系,隱喻[13]和交互式可視化方法[14]經(jīng)常被學(xué)者使用。在帶有地理標(biāo)簽的社交媒體數(shù)據(jù)中,Chen等[15]設(shè)計(jì)了一種多個屬性空間聚合和過濾的交互式分析方法,輔助用戶探索運(yùn)動的語義,包括運(yùn)輸方法、頻繁訪問序列和關(guān)鍵字描述;R-Map[16]基于地圖隱喻,用地圖上不同的元素編碼社交媒體轉(zhuǎn)發(fā)信息的不同特征。在網(wǎng)絡(luò)安全領(lǐng)域,VisAware[17]作為一種簡潔、可縮放的態(tài)勢感知交互式可視化方法,幫助分析網(wǎng)絡(luò)入侵的時空分布。在移動通信領(lǐng)域,Jiang 等[18]提出了基于地圖的可視分析工具Aureole,用于在空間和時間方面交互式探索和分析蜂窩網(wǎng)絡(luò);Zhou 等[19]基于自適應(yīng)藍(lán)噪聲采樣方法,增強(qiáng)了簡化流圖的空間分布和網(wǎng)絡(luò)拓?fù)涮卣鳎⒃O(shè)計(jì)了一個交互式流量環(huán)狀圖突出顯示感興趣的局部區(qū)域,并可視化其比較指標(biāo)。在足球領(lǐng)域,Wang等[20]在ForVizor 可視分析系統(tǒng)中設(shè)計(jì)了一個新穎的隊(duì)形變化的時空可視化表示多變量特征,允許分析師可視分析隊(duì)形的演變,并跟蹤球員在隊(duì)形內(nèi)隨時間的空間流動。在交通數(shù)據(jù)中,Jin 等[3]設(shè)計(jì)了特定可視化字形針對單個區(qū)域的流量展示和具有相同模式的區(qū)域的流量整體展示;Liu 等[21]基于時空OD 數(shù)據(jù)和興趣點(diǎn)(Points Of Interest,POI)數(shù)據(jù)設(shè)計(jì)了交互式可視化分析系統(tǒng),通過地圖和其他視圖聯(lián)動解釋城市功能區(qū)劃分的結(jié)果;Deng 等[22]設(shè)計(jì)了一組有效的可視化來支持位置導(dǎo)航、影響檢查和級聯(lián)探索,并促進(jìn)深入地級聯(lián)分析交通擁堵情況。
以上方法都采用可視化字形組合表示多變量屬性,取得了較好的時空對比分析效果;但現(xiàn)有交通站點(diǎn)可視分析工作較少考慮除POI 以外的多元數(shù)據(jù)影響。為此,本文設(shè)計(jì)站點(diǎn)多元時序數(shù)據(jù)對比視圖,可實(shí)現(xiàn)對流時間模式、空氣質(zhì)量、環(huán)境溫度、相對濕度、降雨量在時間序列的對比,有利于用戶更全面地分析站點(diǎn)的多元信息,并提供與地圖的交互操作,可以時空聯(lián)動分析。
針對數(shù)據(jù)規(guī)模大多會影響OD 流的空間模式分析,如圖1 所示,本文基于ONMF 方法對站點(diǎn)聚類,引入空間平滑和多元因素的影響優(yōu)化結(jié)果,并設(shè)計(jì)社區(qū)自畫像視圖分析聚類簇的統(tǒng)計(jì)屬性,站點(diǎn)時間序列視圖分析聚類簇的流傳輸?shù)臅r間模式和地圖視圖分析流傳輸?shù)目臻g模式。針對多元時序數(shù)據(jù),設(shè)計(jì)了站點(diǎn)時間序列視圖,用戶可直觀對比分析多元數(shù)據(jù),從而完成系統(tǒng)分析任務(wù)。
圖1 系統(tǒng)分析流程Fig.1 System analysis flow
本文為更全面展示交通站點(diǎn)的流時空特性和外部多元環(huán)境因素,將所需完成的分析任務(wù)分成如下3 點(diǎn):
1)交通流傳輸模式。確定站點(diǎn)社區(qū)之間的人流傳輸模式和站點(diǎn)與站點(diǎn)之間的人流傳輸模式,并發(fā)現(xiàn)潛在的調(diào)查區(qū)域。
2)交通流時間模式。分析單個站點(diǎn)的小時級別和天級別的交通流演化模式。
3)交通流對比分析。實(shí)現(xiàn)對比分析不同站點(diǎn)流在時間序列上的差異,同一站點(diǎn)在不同日期的流量模式差異對比,同一站點(diǎn)在不同日期、同一時刻的差異對比,同一站點(diǎn)在一天內(nèi)的流變化趨勢分析,以及多元數(shù)據(jù)之間的對比。
系統(tǒng)使用的數(shù)據(jù)包括IC 卡數(shù)據(jù)、公交站點(diǎn)數(shù)據(jù)、城市POI 數(shù)據(jù)、溫度、濕度、降雨量和空氣中SO2、NO2、PM2.5含量,數(shù)據(jù)如表1 所示。
表1 數(shù)據(jù)描述Tab.1 Data description
IC 卡數(shù)據(jù)包括脫敏后的乘客編號id,成年人、小孩、老人和學(xué)生這4 種乘客類型type,上下車的時間up_date 和down_date,上下車的公交站點(diǎn)up_id 和down_id。公交站點(diǎn)數(shù)據(jù)包括站點(diǎn)的id、名稱name 和經(jīng)緯度lng 和lat。POI 數(shù)據(jù)包括POI 的名稱name、類別type 和經(jīng)緯度lng 和lat。溫度、相對濕度、降雨量和空氣中SO2、NO2、PM2.5的含量數(shù)據(jù)中,date 都是以小時為時間粒度,并包含每類數(shù)據(jù)對應(yīng)的監(jiān)測站點(diǎn)id、名稱name、經(jīng)緯度信息lng、lat 和監(jiān)測值value。
2.3.1 熱量指數(shù)計(jì)算
溫度超過27℃,相對濕度高會降低汗液的蒸發(fā)速率,導(dǎo)致身體散熱的速度降低,也會產(chǎn)生過熱的感覺,因此只用溫度衡量天氣的熱度較為局限。熱量指數(shù)(Heat Index,HI)是一個結(jié)合空氣溫度和相對濕度的指數(shù),考慮到高溫(溫度大于等于27℃)時,當(dāng)相對濕度增加,人體真正感受到的溫度會超過實(shí)際溫度,可以更全面地衡量身體消除多余熱量的能力。計(jì)算如式(1)[23]所示:
其中:T為環(huán)境干球溫度(單位℃),R為相對濕度(百分比值),c1為-8.784 694 755 56,c2為 1.611 394 11,c3為2.338 548 838 89,c4為-0.146 116 05,c5為-0.012 308 094,c6為 -0.016 248 227 777 8,c7為 0.002 211 732,c8為0.000 725 46,c9為-0.000 003 582。
HI 對應(yīng)熱度影響類別E,分為涼爽(Cool)、溫暖(Warm)、注意過熱而疲勞(Caution)、小心熱痙攣(Extreme Caution)、有熱痙攣和熱衰竭的危險(Danger)和極度炎熱(Extreme Danger)這6 類逐漸遞增的熱度級別,如式(2)所示:
2.3.2 空氣質(zhì)量指數(shù)計(jì)算
空氣質(zhì)量指數(shù)(Air Quality Index,AQI)可以定量描述空氣質(zhì)量狀況。通過計(jì)算,將多類描述AQI 的監(jiān)測值轉(zhuǎn)換成AQI 的等級,便于用戶快速感知當(dāng)前的空氣情況。利用式(3)計(jì)算多種污染物的AQI 值,并依據(jù)表2 判斷AQI 屬于優(yōu)(Good)、良(Moderate)、輕度污染(Unhealthy for Sensitive Groups)、污染(Unhealthy)、嚴(yán)重污染(Very Unhealthy)這5 個類別中哪一類空氣質(zhì)量類別。
表2 AQI等級判斷邊界值Tab.2 AQI level judgment boundary values
其中:I為空氣質(zhì)量指數(shù),C為當(dāng)前類別的污染物濃度,Clow和Chigh分別是斷點(diǎn)濃度的最小邊界值和大邊界值,Ilow和Ihigh分別是表2 中斷點(diǎn)濃度最小和最大的邊界值對應(yīng)的空氣質(zhì)量指數(shù)。
2.4.1 流特征提取
以N個站點(diǎn)為調(diào)查對象,以時間粒度t計(jì)算每個站點(diǎn)在t內(nèi)的流入流出的人數(shù)。每個站點(diǎn)由一個2N維的特征向量P描述。向量中前N個字段表示從站點(diǎn)i出發(fā)到其余N-1個站點(diǎn)下車的人流量;后N個字段表示從其余站點(diǎn)出發(fā)到i站點(diǎn)下車的人流量。這樣,如圖2所示,在時間間隔t內(nèi),可以得到一個特征矩陣DOD,t,利用它捕獲t時間內(nèi)的類模式。不同時間的矩陣形成了特征矩陣時間序列,這個矩陣序列表征了每個區(qū)域隨時間變化的移動性模式,并用于后面的聚類分析。
圖2 特征提取方法Fig.2 Feature extraction method
2.4.2 流特征聚類
ONMF 相對非負(fù)矩陣分解(Nonnegative Matrix Factorization,NMF)方法[24],多了正交的優(yōu)點(diǎn),可以保證解的唯一性,有利于對嚴(yán)格聚類解釋。因此,本文提出一種適應(yīng)流特征矩陣的ONMF 算法分析上述特征矩陣時間序列中捕獲的站點(diǎn)相關(guān)性。該方法基于原始的ONMF 方法新增了空間平滑正則化項(xiàng)和多元數(shù)據(jù)平滑正則化項(xiàng)兩個正則化約束項(xiàng),如式(4)所示:
式(4)的第一項(xiàng)是從原始數(shù)據(jù)中提取潛在流移動模式,利用ONMF 分解特征矩陣到兩個非負(fù)矩陣Ht和Wt,分別捕獲潛在模式的空間分布和模式語義。其中,Ht表示K個模式發(fā)生在N個站點(diǎn)的可能性,Wt表示潛在模式具有一定特征的概率。K是在分析中要找到所期望的潛在模式數(shù),本文取使得損失最小時的K。
式(4)的第二項(xiàng)是空間平滑正則化項(xiàng),利用λ1控制平滑度,引入鄰接矩陣A,其中Ai,j∈{0,1}表示兩個站點(diǎn)i和j是否功能區(qū)相同,確保一個站點(diǎn)與其相似站點(diǎn)共享相似的移動模式,滿足共識中類似功能區(qū)(例如學(xué)校區(qū)域)的站點(diǎn)有相似的移動模式。
式(4)的第三項(xiàng)是多元數(shù)據(jù)平滑正則化項(xiàng),利用λ2控制平滑度,引入鄰接矩陣B,其中Bi,j∈{0,1}表示站點(diǎn)i和j是否多元數(shù)據(jù)相同。
最后利用梯度下降求解更新矩陣,并將結(jié)果應(yīng)用于可視化視圖。
針對前文提出3 個分析任務(wù),本文設(shè)計(jì)了基于OD 流和多元數(shù)據(jù)的分層可視分析系統(tǒng),從聚類社區(qū)層角度分析交通流傳遞模式,從站點(diǎn)層分析交通流時間模式和外部多元環(huán)境對交通流的影響。如圖3 所示,系統(tǒng)由4 個視圖組成。
圖3 基于OD流和多元數(shù)據(jù)的分層可視分析系統(tǒng)界面Fig.3 Hierarchical visual analysis system interface based on OD flow and multivariate data
地圖視圖基于Mapbox.gl 地圖開發(fā)框架和城市的矢量地圖對站點(diǎn)的空間特征可視化。為了滿足不同細(xì)節(jié)需求的交通流信息在地圖上的展示,本系統(tǒng)針對分析對象,設(shè)置了兩種不同的可視化社區(qū)層和站點(diǎn)層。
社區(qū)層分為3 個部分,如圖4 所示。最外層用于編碼分層社區(qū)信息,弧的長度編碼表示該社區(qū)所包含的站點(diǎn)數(shù),包含站點(diǎn)數(shù)越多,弧越長;反之越短。內(nèi)置的5 個環(huán)用于編碼各類POI(興趣點(diǎn))的分布情況,環(huán)上的柱狀圖編碼社區(qū)每個站點(diǎn)對應(yīng)的該類型設(shè)施數(shù),柱狀圖越高,則表示該站點(diǎn)一定區(qū)域內(nèi)包含該類型設(shè)施數(shù)多;反之越少。內(nèi)置環(huán)內(nèi)的空白則是地圖,即站點(diǎn)層,并以點(diǎn)的形式編碼站點(diǎn),點(diǎn)的位置編碼站點(diǎn)的空間分布。
圖4 分層社區(qū)的POI分布可視化設(shè)計(jì)Fig.4 Visual design of POI distribution in hierarchical communities
流傳輸演化視圖基于桑基圖的表現(xiàn)形式,輔助用戶分析分層社區(qū)間的交通流傳播模式,如圖3(d)所示。視圖按時間順序水平排列成一組時間窗口,借鑒BicaVis[25]將相鄰時間窗口的背景顏色設(shè)置為不同亮度級別以增強(qiáng)可區(qū)分性。用?;鶊D的節(jié)點(diǎn)編碼分層社區(qū),用連線編碼社區(qū)間存在交通流傳遞,連線的透明度編碼傳遞的流值大小,透明度參數(shù)值越高,傳遞的流值越大;反之,越小。此外,系統(tǒng)提供過濾交互方法,用戶通過設(shè)定過濾系數(shù)過濾掉不需要分析的流傳遞信息。
在地圖視圖中點(diǎn)擊選擇要分析的站點(diǎn)后,圖3(b)所示的站點(diǎn)視圖將顯示該站點(diǎn)的多元數(shù)據(jù)在時間序列上的變化。為了實(shí)現(xiàn)2.1 節(jié)的系統(tǒng)分析任務(wù)3,站點(diǎn)視圖提供展開和折疊模式,以供用戶對比分析。
折疊模式 上方是河流圖,橫軸代表以小時為單位的時間,縱軸上對應(yīng)的陰影寬度代表對應(yīng)時段的流量值,展示了同一站點(diǎn)一天的流量變化趨勢。下方是柱狀圖,橫軸代表以天為單位的時間,縱軸代表對應(yīng)日期的流量值,展示了同一站點(diǎn)不同日期的天流量,同時可以橫向?qū)Ρ?。針對查看具體日期的小時流量變化趨勢的需求,系統(tǒng)提供一種選擇關(guān)聯(lián)的交互方法。用戶點(diǎn)擊選擇對應(yīng)日期的柱狀圖,柱狀圖將高亮顯示,同時上方的河流圖也會更新,并顯示為所選日期對應(yīng)的小時級別的流量。
展開模式 每個圓圈表示一個分析的時段點(diǎn),第一層外圈是一個圓環(huán),以弧度表示當(dāng)前時段的流量占所有日期該時段的最大流量值的占比,以便于用戶對比分析同一時刻不同日期的流量;圓環(huán)內(nèi)以4 種紋理分別表示4 個等級的空氣質(zhì)量指數(shù)。第二層外圈是一個環(huán)形餅狀圖,展示當(dāng)前時間段的乘客類型,其中粉色代表成年人,紫色代表小孩,黃色代表老人,藍(lán)色代表學(xué)生。最外側(cè)采用棒棒糖圖(Lollipop Chart)展示對應(yīng)時刻的多元數(shù)據(jù)降雨量值和熱度值HI。它是一種特殊形式的柱形圖,不僅能像柱形圖一樣對數(shù)值型數(shù)據(jù)可視化,而且柱形變成線條減少了展示空間,視覺上更簡潔和美觀。本系統(tǒng)基于Lollipop Chart 用點(diǎn)的飽和度編碼HI 值的6個級別,并用棍的高度編碼降雨量值的大小,棍越高降雨量值越大;反之,越小。
社區(qū)自畫像視圖以列表的形式展示了社區(qū)聚類簇的周圍興趣點(diǎn)分布、平均流入流量、平均流出流量和平均乘車時長這4 種詳細(xì)信息,每一行對應(yīng)一個聚類簇。基于徑向柱狀圖,展示周圍興趣點(diǎn)分布,包括旅游、醫(yī)療、教育、住宅、娛樂興趣點(diǎn)的總和?;跈M向柱狀圖,分別將平均流入流量和平均流出流量值映射到矩形的寬度,方便用戶橫向?qū)Ρ攘魅肓鞒鲋?,同時也可以縱向?qū)Ρ炔煌鐓^(qū)簇的某一類流量值?;谙渚€圖,通過可視化上四分位數(shù)、中位數(shù)、下四分位數(shù)、上下邊界值等統(tǒng)計(jì)量,展示該社區(qū)簇的平均乘車時長分布。
本文系統(tǒng)數(shù)據(jù)集時間范圍在2017 年1 月1 日至2017 年2月28 日每天5 點(diǎn)至23 點(diǎn)的數(shù)據(jù),其中新加坡公交車的IC 卡數(shù)據(jù)共計(jì)4 228 個公交站點(diǎn),每天百萬級刷卡數(shù)據(jù)。
本文以2017 年2 月1 日的OD 流特征矩陣作為OD 流聚類方法的實(shí)驗(yàn)數(shù)據(jù),其中時間間隔t為1 d,N為4 228。
由于本文的聚類方法針對OD 數(shù)據(jù)的應(yīng)用場景,所以采用聚類的內(nèi)部評估指標(biāo)輪廓系數(shù)SC 定量評估相同原始數(shù)據(jù)的聚類效果。第i個站點(diǎn)的SC 計(jì)算如式(5)所示:
該評估指標(biāo)通過每個站點(diǎn)的平均簇內(nèi)距離a和到其他簇的平均距離b來衡量,其值介于-1 和1 之間,越接近1 聚類效果越好。對所有站點(diǎn)的SC 求平均,就是該聚類方法的定量評估值。
基于ONMF 的OD 流聚類方法,聚類得到8 個聚類簇,聚類結(jié)果在可視化方法中的應(yīng)用在4.2.1 節(jié)時空傳輸模式案例中分析。
4.1.1 參數(shù)對比實(shí)驗(yàn)
如2.4.2 節(jié)所述,基于ONMF 的OD 流聚類方法在實(shí)現(xiàn)過程中需要確定模式數(shù)量值K、加權(quán)系數(shù)λ1和λ2。本文通過參數(shù)對比實(shí)驗(yàn)確定各參數(shù)的值。
模式數(shù)量值K是要分解的低秩矩陣的維度,也是在分析中要找到的所期望的潛在模式數(shù)。設(shè)置參數(shù)對實(shí)驗(yàn),取K={2,3,4,5,6,7,8,9}中最能恢復(fù)原始流特征矩陣能力的值,即損失最小時的值。通過如圖5 所示的實(shí)驗(yàn)結(jié)果分析,確定K值為8 時,誤差最小。
圖5 模式數(shù)量值K的敏感性分析實(shí)驗(yàn)Fig.5 Sensitivity analysis experiments for mode quantity value K
加權(quán)系數(shù)λ1和λ2分別控制空間平滑度和多元數(shù)據(jù)平滑度。設(shè)置參數(shù)對比實(shí)驗(yàn),從0.000 1、0.000 5、0.001、0.005、0.01、0.05、0.1 和0.5 中選擇使得兩個加權(quán)參數(shù),獨(dú)立約束聚類中效果最優(yōu)時的參數(shù)的值,即SC 值取得最大時對應(yīng)的值。通過如圖6 所示的實(shí)驗(yàn)結(jié)果分析,確定加權(quán)系數(shù)λ1為0.1 時聚類效果最好,λ2為0.000 1 時聚類效果最好。
圖6 加權(quán)參數(shù)的確定Fig.6 Determination of weighting coefficient
4.1.2 方法對比實(shí)驗(yàn)
將本文的聚類方法與NMF、MEP-ONMF(Maximum-Entropy-Principle based ONMF)[26]、ONMF-A[27]、EM-ONMF(EM-like algorithm for ONMF)[28]、ONMFS[29]這5 個方法在相同數(shù)據(jù)上分別聚類,并從聚類的定量評估指標(biāo)SC 和運(yùn)行時間兩方面作聚類性能對比。
設(shè)置的方法對比實(shí)驗(yàn),將每個方法分解的低秩矩陣H作為K-means 的輸入進(jìn)行聚類,并計(jì)算對應(yīng)的SC 值和運(yùn)行時間。每個方法獨(dú)立運(yùn)行7 次,設(shè)置實(shí)驗(yàn)中的低秩矩陣維度值和K-means 聚類數(shù)均為8,并取中位數(shù)作為結(jié)果。
聚類效果定量評估結(jié)果顯示,本文方法在聚類評價指標(biāo)SC 值為0.941,聚類效果較好。如圖7(a)所示,本文方法比直接用OD 流特征矩陣作K-means 聚類效果提升了0.253,且SC 值均高于NMF、ONMF-A、EM-ONMF 和MEP-ONMF 四個方法,但是比ONMFS 差一點(diǎn),低0.009。
圖7 方法對比實(shí)驗(yàn)結(jié)果Fig.7 Experiment results of method comparison
運(yùn)行時間定量評估結(jié)果顯示,本文方法的運(yùn)行時間為40.79 s,和運(yùn)行較快的MEP-ONMF 和NMF 方法相比,在時間消耗上相差在1 s 內(nèi),時間效率較高。如圖7(b)所示,聚類效果最好的ONMFS 方法的運(yùn)行時間較長,為295 s。
因此,從聚類效果和運(yùn)行時間綜合分析,本文提出的OD流聚類方法相較于其他方法在OD 數(shù)據(jù)應(yīng)用場景中更有效。
4.1.3 消融實(shí)驗(yàn)
設(shè)置消融實(shí)驗(yàn)對比原始方法、只加了空間平滑約束矩陣A、只加了多元數(shù)據(jù)平滑約束矩陣B、兩個約束矩陣都加了的本文方法這4 種情況在聚類效果上的差異。
通過比較聚類評價指標(biāo)SC 的提升值,驗(yàn)證了本文聚類方法的兩個約束矩陣能有效提取OD 流的特征并聚類。消融實(shí)驗(yàn)結(jié)果如表3 所示,添加空間平滑約束矩陣A比原始方法在聚類效果上提升了0.024,添加多元數(shù)據(jù)平滑約束矩陣B比原始方法在聚類效果上提升了0.023,兩個約束矩陣都加的方法(本文方法)相較于原始方法,聚類效果提升了0.028。
表3 消融實(shí)驗(yàn)結(jié)果Tab.3 Ablation experimental results
案例將運(yùn)用新加坡數(shù)據(jù)集從流的時空傳輸模式、流的時間模式對比和多元時序數(shù)據(jù)對比三個方面分析,并通過與相關(guān)工作能解決的任務(wù)比較評估系統(tǒng)應(yīng)用能力。
4.2.1 時空傳輸模式
從流傳輸演化視圖可以分析站點(diǎn)簇的傳輸時間模式,結(jié)合地圖視圖可以分析傳輸?shù)目臻g模式。如圖8 所示,選擇聚類簇3,結(jié)合時間序列和節(jié)點(diǎn)連接線的透明度,發(fā)現(xiàn)該聚類簇的流量主要發(fā)生在7 點(diǎn)至9 點(diǎn)和17 點(diǎn)至19 點(diǎn)。
圖8 站點(diǎn)聚類簇3交通流傳輸?shù)臅r空模式分析Fig.8 Spaio-temporal pattern analysis of traffic flow transmission in cluster 3 of bus stops
選擇要分析的7 點(diǎn)至9 點(diǎn)流傳輸連線a,地圖顯示聚類簇3 流向聚類簇4 空間主要分布在5 個區(qū)域。本文以直徑300 m 分析周圍POI 屬性。a1 為44009 站點(diǎn),周圍有1 個圖書館和1 個社區(qū)聯(lián)絡(luò)所;a2 為28009 站點(diǎn),周圍有2 個醫(yī)院、1 個銀行和1 個圖書館;a3 為52009 站點(diǎn),周圍有1 個學(xué)校、2 個幼兒園、2 個銀行分別為馬來亞銀行支行和華僑銀行支行;a4為84009 站點(diǎn),周圍有1 個學(xué)校、1 個幼兒園和1 個圖書館;a5為75009 站點(diǎn),周圍有1 個大華銀行支行、1 個圖書館、1 個音樂培訓(xùn)學(xué)校和3 個醫(yī)療相關(guān)地點(diǎn)。
選擇要分析的17 至19 點(diǎn)流傳輸線b,地圖顯示聚類簇3流向聚類簇7 空間主要分布在2 個區(qū)域,仍以直徑300 m 分析周圍POI 屬性。b1 為44699 站點(diǎn)和44779 站點(diǎn),周圍是多個住宅社區(qū);b2 為53231 站點(diǎn),周圍有1 個地鐵站、1 個圖書館、3 個社區(qū)中心、3 個學(xué)前學(xué)校、3 個銀行分別為大華銀行支行、華僑銀行支行和星展銀行支行。
4.2.2 時間模式對比
在地圖站點(diǎn)選擇中a1~a5 這5 個站點(diǎn),站點(diǎn)視圖可以分析對比這些站點(diǎn)在時間序列上的流情況和周圍多元環(huán)境因素,如圖9 所示。
圖9 站點(diǎn)多元時序數(shù)據(jù)對比分析Fig.9 Comparative analysis of multivariate time series data of bus stops
通過分析發(fā)現(xiàn),5 個站點(diǎn)(a1~a5)在天流量級別上均沒有明顯的周期規(guī)律,但2017 年1 月28 日至1 月30 日(實(shí)線框部分)的天流量均小于周圍的天流量,結(jié)合新加坡公共假期發(fā)現(xiàn),這幾日是中國新年,居民休假。通過3.3 節(jié)提到的視圖折疊模式可以只顯示某個站點(diǎn)流的時間序列變化。故選擇44009站點(diǎn)(a1)對應(yīng)這幾日折疊模式下的流量,分析發(fā)現(xiàn)這幾日的小時流量沒有工作日2 月1 日相同的早高峰。1 月28 日處于中國新年的周六和1月21日正常周末的周六顯示的小時流量存在區(qū)別,假期居民都在9點(diǎn)以后才開始大量出行。
展開模式可以分析小時流量級別的詳細(xì)信息。從站點(diǎn)人員類別分析,6 點(diǎn)至7 點(diǎn)公交站點(diǎn)附近都存在一大部分學(xué)生,這也與站點(diǎn)附近都存在教育相關(guān)地點(diǎn)相符。
4.2.3 多元時序數(shù)據(jù)對比
查看a1~a5 展開模式,對比分析站點(diǎn)時序熱度值的差異。如圖9 所示,Lollipop Chart 中可視化編碼的熱度值,發(fā)現(xiàn)5 個站點(diǎn)晚上熱度值均比白天高,和新加坡2017 年年度氣候報告中指出的熱島效應(yīng)相一致。44009 站點(diǎn)(a1)和28009 站點(diǎn)(a2)一天的環(huán)境熱度模式相似,均屬于10 點(diǎn)之后熱度值上升,到22 點(diǎn)之后開始轉(zhuǎn)成適宜溫度。52009 站點(diǎn)(a3)、84009 站點(diǎn)(a4)和75009 站點(diǎn)(a5)一天的環(huán)境熱度模式相似,均是早晨和下午涼爽,晚上開始變熱,區(qū)別在于a3 和a4站點(diǎn)炎熱時間從10 點(diǎn)至13 點(diǎn),夜晚也不能轉(zhuǎn)涼爽,a5 站點(diǎn)是從10 點(diǎn)至11 點(diǎn),炎熱的時間縮短了2 h,并且夜晚21 點(diǎn)能轉(zhuǎn)涼爽。這個差異是由于新加坡各區(qū)受日光照射不同造成的。
展開模式對比分析降雨量對居民乘坐公共交通工具的影響。17101 站點(diǎn)(c1)在2017 年2 月23 日的多元數(shù)據(jù)變化,15 時出現(xiàn)大暴雨(實(shí)線框),根據(jù)內(nèi)層環(huán)的弧度占比發(fā)現(xiàn)對人們出行并沒有造成過大的影響,但紋理編碼的AQI 等級加重了一級,結(jié)束后2 h 周圍環(huán)境逐漸升溫,并且AQI 值也回到好的狀態(tài)。
4.2.4 系統(tǒng)評估
為了更好地發(fā)現(xiàn)系統(tǒng)的優(yōu)點(diǎn)和不足,將系統(tǒng)功能與近幾年的其他工作根據(jù)群體移動模式,挖掘時空異常和隱藏關(guān)系、探索分析各種統(tǒng)計(jì)屬性、多尺度時空分析、個體多元數(shù)據(jù)分析(需要有除POI 以外的多元數(shù)據(jù))這6 個OD 數(shù)據(jù)可視分析的典型應(yīng)用作對比。對比結(jié)果如表4 所示。
表4 系統(tǒng)應(yīng)用對比結(jié)果Tab.4 Comparison results of system application
從表4 可以看出,所提系統(tǒng)在群體移動時空模式分析、宏觀層面的群體的統(tǒng)計(jì)屬性和微觀層面的個體多元信息都能有對應(yīng)的功能支撐;但在空間異常分析方面顯示出不足。
基于OD 流數(shù)據(jù)、POI 數(shù)據(jù)和多元環(huán)境數(shù)據(jù),本文構(gòu)建一個基于OD 流的多元數(shù)據(jù)分層可視分析系統(tǒng),設(shè)計(jì)了4 種可視化字形完成流時空模式分析和多元數(shù)據(jù)可視化。基于流傳輸演化視圖分析站點(diǎn)聚類社區(qū)簇間的流傳輸;基于地圖視圖分析交通流的空間特征;基于站點(diǎn)視圖分析交通流的時間模式和外部多元因素的相互影響;基于社區(qū)自畫像視圖分析聚類社區(qū)的周圍POI 情況和統(tǒng)計(jì)屬性,包括流入流量、流出流量、平均出行時間。在新加坡公交車IC 卡的數(shù)據(jù)集上驗(yàn)證,實(shí)驗(yàn)證實(shí)該系統(tǒng)可以全面地探索分析交通站點(diǎn)的流時空特性和外部多元環(huán)境因素的影響。
本系統(tǒng)目前還存在一些不足之處,因IC 卡的數(shù)據(jù)規(guī)模龐大,直接將所有原始數(shù)據(jù)導(dǎo)入系統(tǒng)中需要較高的存儲資源和計(jì)算資源,所以系統(tǒng)目前不能支持探索分析實(shí)時數(shù)據(jù)。