趙凡,馬小東,任芃錕
1.中國(guó)科學(xué)院新疆理化技術(shù)研究所,新疆 烏魯木齊 830011
2.中國(guó)科學(xué)院大學(xué),北京 100049
3.新疆民族語(yǔ)音語(yǔ)言信息處理研究室,新疆 烏魯木齊 830011
時(shí)空數(shù)據(jù)是包含了時(shí)序特征及空間特征的數(shù)據(jù)集合,針對(duì)時(shí)空數(shù)據(jù)的研究是目前數(shù)據(jù)分析領(lǐng)域的重要方向之一。在時(shí)空數(shù)據(jù)分類中有一種類型具備了特有的數(shù)據(jù)特征,這些數(shù)據(jù)記錄的是個(gè)體在某固定空間位置里的駐留狀態(tài)信息,常見(jiàn)的業(yè)務(wù)場(chǎng)景包括網(wǎng)吧上網(wǎng)記錄、賓館住宿記錄以及停車場(chǎng)出入記錄等。這類數(shù)據(jù)記錄了不同用戶不同時(shí)間段在固定的地點(diǎn)停留的信息,從中可以繪制不同特征的用戶畫(huà)像,總結(jié)個(gè)體的行為模式,挖掘出具有相似行為的群體,對(duì)從業(yè)者精準(zhǔn)營(yíng)銷、安全防控等領(lǐng)域有很重要的指導(dǎo)意義。
現(xiàn)有的統(tǒng)計(jì)分析或機(jī)器學(xué)習(xí)等數(shù)據(jù)挖掘技術(shù)很難做到從龐雜的時(shí)空數(shù)據(jù)中發(fā)現(xiàn)系統(tǒng)化的知識(shí),自動(dòng)識(shí)別復(fù)雜的模式,這為相關(guān)數(shù)據(jù)的分析工作帶來(lái)不小的挑戰(zhàn)。如何通過(guò)更為自然、智能的方式提升相關(guān)人員對(duì)個(gè)體/群體時(shí)空信息的理解能力和利用效率,已經(jīng)成為當(dāng)前信息領(lǐng)域必須解決的關(guān)鍵問(wèn)題之一。為了充分挖掘利用海量時(shí)空數(shù)據(jù)其中蘊(yùn)藏的價(jià)值,需要結(jié)合數(shù)據(jù)分析與可視化技術(shù),即把復(fù)雜時(shí)空數(shù)據(jù)轉(zhuǎn)換為業(yè)務(wù)人員更易理解的圖形,通過(guò)人-機(jī)信息交互得到更多更有價(jià)值的知識(shí)。
因此可視分析方法已成為目前大數(shù)據(jù)分析領(lǐng)域近期研究的熱點(diǎn)。使用數(shù)據(jù)可視分析方法分析數(shù)據(jù)記錄特征,發(fā)現(xiàn)用戶行為模式,展示統(tǒng)計(jì)結(jié)果,將復(fù)雜的數(shù)據(jù)用直觀的表現(xiàn)手段呈現(xiàn),增強(qiáng)用戶信息認(rèn)知能力,減少用戶的認(rèn)知負(fù)荷,提升數(shù)據(jù)分析結(jié)論的可解釋性。
本文以網(wǎng)吧用戶上網(wǎng)記錄數(shù)據(jù)為基礎(chǔ),研究用戶模型構(gòu)建和行為模式發(fā)現(xiàn)方法,結(jié)合先進(jìn)的多模態(tài)可視化技術(shù),支持多角度、多視圖的數(shù)據(jù)描述,通過(guò)色彩、布局、方向、形狀等多維度的渲染,實(shí)現(xiàn)了一個(gè)針對(duì)此類時(shí)空數(shù)據(jù)的可視分析系統(tǒng)SRDVis,該系統(tǒng)開(kāi)發(fā)目標(biāo)是滿足相關(guān)業(yè)務(wù)監(jiān)管人員的管理和經(jīng)營(yíng)需求,已在相關(guān)領(lǐng)域開(kāi)展應(yīng)用并取得了良好的效果。
時(shí)序數(shù)據(jù)指的是包含時(shí)間屬性的數(shù)據(jù),體現(xiàn)數(shù)據(jù)隨時(shí)間變化的規(guī)律以及數(shù)據(jù)分布的時(shí)間規(guī)律,時(shí)序數(shù)據(jù)可視化在數(shù)據(jù)可視化領(lǐng)域目前屬于熱點(diǎn)研究,例如使用時(shí)間軸的線性和周期時(shí)間可視化,使用日歷視圖的可視化,或分支和多角度時(shí)間可視化[1]等。有的研究工作則試圖解決大規(guī)模時(shí)序數(shù)據(jù)可視化中的視覺(jué)混淆問(wèn)題,例如使用平行坐標(biāo)圖[2],或使用多模態(tài)可視化技術(shù)結(jié)合多種視圖的方式[3]。
常見(jiàn)的時(shí)序數(shù)據(jù)可視化的映射方式有基于時(shí)間坐標(biāo)軸的柱狀圖、折線圖等[4-6]視圖。針對(duì)有周期性時(shí)序數(shù)據(jù)特征的設(shè)計(jì)空間表達(dá),Weber 等[7]提出一種基于螺旋線的新方法。有學(xué)者使用可重新排序的圖表矩陣,通過(guò)交互式探索來(lái)比較相關(guān)數(shù)據(jù)的不同側(cè)重點(diǎn)[8-9]。Javed 等[10]提出的Stack Zooming 交互式構(gòu)建多焦點(diǎn)縮放的層次結(jié)構(gòu)。Gruendl 等[11]針對(duì)高維時(shí)序數(shù)據(jù)提出了平行坐標(biāo)圖的三維擴(kuò)展。
除了設(shè)計(jì)新穎的視圖,研究者還通過(guò)結(jié)合用戶視覺(jué)信息和人機(jī)交互的手段幫助人們提高數(shù)據(jù)分析的效率,如Martin 等[12]設(shè)計(jì)刷選式動(dòng)態(tài)過(guò)濾技術(shù)來(lái)探索時(shí)序數(shù)據(jù)的特征。Yang 等[13]提出DOSFA 發(fā)現(xiàn)多維度數(shù)據(jù)間的相似性,通過(guò)交互的維度層次結(jié)構(gòu)操作,探索不同維度之間關(guān)系。Furnas 等[14]使用上下文用戶界面交互技術(shù)。Zhao[15]和Chen 等[16]使用多視圖關(guān)聯(lián)協(xié)調(diào)技術(shù)實(shí)現(xiàn)多元復(fù)雜數(shù)據(jù)的可視分析任務(wù)。
地理空間數(shù)據(jù)普遍具有稀疏、多維、時(shí)空等特點(diǎn),使用地圖視圖是最常見(jiàn)的空間數(shù)據(jù)可視化方法。除此之外,Cornee 等[17]提出基于點(diǎn)(特征編碼、顏色、密度、連接)的交互探索世界貿(mào)易數(shù)據(jù)的方法。Chen 等[18]采用分層多類采樣技術(shù)來(lái)表現(xiàn)多類數(shù)據(jù)特征,使用分層多類藍(lán)噪聲采樣方案,生成點(diǎn)分布的可視化抽象。Guo 等[19]提出基于核的密度估計(jì),使用流密度聚類模型,過(guò)濾重復(fù)信息來(lái)表示移民情況。Collins 等[20]引入氣泡集方法,使用一個(gè)連續(xù)的、閉合的、等值線來(lái)描繪集合的成員。Yuan 等[21]提出的高維傳遞函數(shù),結(jié)合3D 時(shí)空視圖等多種視圖高效支持多模態(tài)數(shù)據(jù)探索。
SRDVis 系統(tǒng)使用的是公開(kāi)數(shù)據(jù)集,來(lái)源自ChinaVis2017 數(shù)據(jù)可視分析挑戰(zhàn)二,該集合中包含重慶市內(nèi)3 000 多個(gè)網(wǎng)吧的基本信息及2016年三個(gè)月約1 600 萬(wàn)行上網(wǎng)脫敏記錄,數(shù)據(jù)大小為1.7G。本章首先介紹該數(shù)據(jù)集的數(shù)據(jù)格式,數(shù)據(jù)分析的任務(wù),然后介紹系統(tǒng)工作流程和數(shù)據(jù)處理方法。
根據(jù)數(shù)據(jù)的描述,聯(lián)系具體問(wèn)題,可以對(duì)駐留行為時(shí)空數(shù)據(jù)進(jìn)行以下幾個(gè)任務(wù)來(lái)進(jìn)行分析:
任務(wù)1:全局時(shí)空特征分析,主要是展示所有記錄數(shù)據(jù)的時(shí)空統(tǒng)計(jì)特征及網(wǎng)吧的經(jīng)營(yíng)情況。例如按日期區(qū)分統(tǒng)計(jì)上網(wǎng)人數(shù)和上網(wǎng)時(shí)間,按每天的時(shí)段區(qū)分上網(wǎng)人數(shù)和上網(wǎng)時(shí)間,及按照用戶年齡、性別進(jìn)行統(tǒng)計(jì)。
任務(wù)2:用戶行為模式分析,主要是對(duì)數(shù)據(jù)中的個(gè)體用戶行為記錄進(jìn)行分析。行為特征包括周期性、趨勢(shì)、高頻使用階段以及不同用戶間的行為相似程度。例如統(tǒng)計(jì)不同省市的上網(wǎng)人數(shù)、人均平均上網(wǎng)時(shí)間和次數(shù),或按不同籍貫統(tǒng)計(jì)分析對(duì)應(yīng)的人群上網(wǎng)行為特征,包括常去網(wǎng)吧的地理分布特征等。
任務(wù)3:共現(xiàn)群體發(fā)現(xiàn),發(fā)現(xiàn)可能存在共現(xiàn)行為的群體。在網(wǎng)吧個(gè)人行為記錄數(shù)據(jù)中,將多個(gè)人在同一個(gè)網(wǎng)吧,“同時(shí)”上機(jī)且“同時(shí)”下機(jī)定義為一個(gè)群體。這里的“同時(shí)”表示一個(gè)極短的時(shí)間間隔,本文中,我們將這一閾值定義為5 分鐘,即同一個(gè)網(wǎng)吧中,兩兩用戶之間上機(jī)的時(shí)間間隔必須在5 分鐘之內(nèi),且下機(jī)時(shí)也滿足此條件。該閾值的越大則挖掘出的群體越多,同時(shí)設(shè)置群體最小規(guī)模為2 人。
SRDVis 系統(tǒng)主要分為數(shù)據(jù)處理、數(shù)據(jù)分析及數(shù)據(jù)可視化3 個(gè)部分,如圖1所示。數(shù)據(jù)處理部分主要是對(duì)原始數(shù)據(jù)進(jìn)行清洗和重新組織,提取分析所需的特征;數(shù)據(jù)分析部分主要是建立完善的用戶畫(huà)像標(biāo)簽體系結(jié)構(gòu),從不同維度對(duì)用戶進(jìn)行描述,對(duì)個(gè)體行為進(jìn)行建模,探索可能存在的群體模式;數(shù)據(jù)可視化部分采用多模塊協(xié)同交互式可視界面,展示記錄數(shù)據(jù)時(shí)變特性及空間分布特征。
圖1 系統(tǒng)工作流程圖Fig.1 System workflow
數(shù)據(jù)處理工作首先是數(shù)據(jù)清洗,包括修正格式異常的數(shù)據(jù),缺少字段的數(shù)據(jù),或字段不合規(guī)范的數(shù)據(jù),或字段明顯不合情理的數(shù)據(jù),去除格式異常的上網(wǎng)日期、上網(wǎng)人員生日、籍貫等數(shù)據(jù)。其次是從上網(wǎng)記錄中清除經(jīng)緯度為空的網(wǎng)吧,并刪除與該網(wǎng)吧有關(guān)的上網(wǎng)記錄,去除不需要的字段。最后將毫無(wú)規(guī)律的數(shù)據(jù)整理成兩種格式,分別為以網(wǎng)吧的數(shù)據(jù)標(biāo)識(shí)為主要索引的記錄文件(包含了網(wǎng)吧的經(jīng)緯度位置信息、經(jīng)過(guò)脫敏后的網(wǎng)吧名稱信息以及經(jīng)過(guò)統(tǒng)計(jì)處理后的經(jīng)營(yíng)信息)和以日期為主索引的記錄文件,且文件中的記錄按上機(jī)時(shí)間排序,以便于之后進(jìn)行數(shù)據(jù)分析任務(wù)和各種視圖可視化。
數(shù)據(jù)分析工作主要包括用戶模型構(gòu)建和共現(xiàn)群體發(fā)現(xiàn)。我們針對(duì)原始數(shù)據(jù)類型特點(diǎn),使用特征提取、文本分類、社區(qū)發(fā)現(xiàn)、LDA 等挖掘算法提取用戶特征,抽象出標(biāo)簽化的用戶模型,標(biāo)簽包括用戶靜態(tài)數(shù)據(jù)例如性別、年齡、所在地域等基礎(chǔ)屬性,還有動(dòng)態(tài)行為數(shù)據(jù)包括上網(wǎng)時(shí)間、上網(wǎng)地點(diǎn)、上網(wǎng)時(shí)長(zhǎng)等。然后根據(jù)個(gè)體行為模式特點(diǎn)進(jìn)行聚類,實(shí)現(xiàn)對(duì)群體的定義及劃分,最后挖掘個(gè)體及群體的行為模式,構(gòu)建個(gè)體-群體的關(guān)聯(lián)體系。
本節(jié)對(duì)SRDVis 系統(tǒng)中的可視化視圖設(shè)計(jì)思路和方法進(jìn)行詳細(xì)描述和功能介紹。
展示數(shù)據(jù)的時(shí)序特征時(shí),我們仿照表盤(pán)設(shè)計(jì)了一種基于極坐標(biāo)的時(shí)間特征展示視圖,如圖2(a)所示,該圖將圓周劃分為24 等份,每一份代表了一天對(duì)應(yīng)的時(shí)間,最小單位為小時(shí),同時(shí)使用不同顏色將每天的時(shí)間劃分為工作時(shí)段(藍(lán)色)、休息時(shí)段(綠色)、夜晚時(shí)段(紅色)三部分,可以直觀地展示這三類時(shí)段中數(shù)據(jù)的分布情況。
圖2 上網(wǎng)行為時(shí)序特征可視化視圖Fig.2 Visualization view of time series characteristics of online behavior
基于該坐標(biāo)系,可以繪制圓心相同、半徑不同、長(zhǎng)度不同的固定寬度弧線,代表行為記錄的時(shí)間延續(xù)情況,如圖2(b)所示?;【€顏色分為兩種,其中綠色弧線代表當(dāng)天為休息日,藍(lán)色弧線代表當(dāng)天為工作日?;【€沿順時(shí)針繪制,起點(diǎn)和終點(diǎn)代表上網(wǎng)的開(kāi)始和結(jié)束時(shí)間,長(zhǎng)度代表本次上網(wǎng)時(shí)長(zhǎng),弧線距圓心的距離代表日期的先后順序,即靠近圓心代表日期較早,遠(yuǎn)離圓心代表日期較晚。本系統(tǒng)用此視圖展示個(gè)人所有上網(wǎng)延續(xù)時(shí)間的數(shù)據(jù)特征。
另外在坐標(biāo)系中還可以嵌套南丁格爾玫瑰圖來(lái)展示不同時(shí)段的數(shù)據(jù)統(tǒng)計(jì)信息,如圖2(c)及圖3(c)所示,其中每小時(shí)的統(tǒng)計(jì)數(shù)據(jù)條使用不同顏色繪制,從圓心到圓周的數(shù)據(jù)條長(zhǎng)度代表統(tǒng)計(jì)數(shù)量的多少。該圖不易展示每部分?jǐn)?shù)據(jù)的精確數(shù)量,但能展示出一天內(nèi)不同時(shí)間分段的統(tǒng)計(jì)數(shù)字變化趨勢(shì)。本系統(tǒng)使用該圖展示人數(shù)和總上網(wǎng)時(shí)長(zhǎng)的數(shù)據(jù)統(tǒng)計(jì)量。
另外系統(tǒng)使用日歷矩陣圖來(lái)表現(xiàn)更大時(shí)間尺度范圍的離散數(shù)據(jù),以便于分析特定時(shí)間段內(nèi)的行為特征。如圖3(b)上方的兩個(gè)視圖所示,每一小方格代表一天,將對(duì)應(yīng)日期的記錄統(tǒng)計(jì)數(shù)量熱力值繪制在圖上,顏色深淺代表了記錄發(fā)生的數(shù)量多少。此視圖對(duì)全局?jǐn)?shù)據(jù)的時(shí)序行為特征分布進(jìn)行了有效的可視化支持。
圖3 是SRDVis 系統(tǒng)的主界面之一,用來(lái)呈現(xiàn)數(shù)據(jù)的時(shí)空屬性分布特征。系統(tǒng)中使用基于行政區(qū)域地圖的熱力圖來(lái)展示數(shù)據(jù)中的人員地理空間分布特征,如圖3(a)所示,其中左圖是全國(guó)行政區(qū)域地圖,展示了來(lái)源于不同省市的上網(wǎng)人員總計(jì)數(shù),各行政區(qū)域的顏色越偏向紅色說(shuō)明該省(市)的人群數(shù)量越多,右圖是重慶的行政區(qū)域地圖,用熱力圖的方式展示各地人群去往特定場(chǎng)所的分布,數(shù)據(jù)使用的是進(jìn)行過(guò)隨機(jī)偏離坐標(biāo)的網(wǎng)吧位置信息,熱力點(diǎn)紅色越密集的地方說(shuō)明去的人數(shù)越多。通過(guò)對(duì)左圖的點(diǎn)擊切換省市操作可以動(dòng)態(tài)展示不同籍貫的上網(wǎng)人員在重慶各地網(wǎng)吧的地理空間分布情況。
圖3 SRDVis 系統(tǒng)數(shù)據(jù)時(shí)空特征分析界面視圖Fig.3 Data spatio-temporal characteristic analysis interface view of SRDVis system
除了使用地圖展示全局統(tǒng)計(jì)數(shù)據(jù)的空間分布特征,系統(tǒng)還需要分析個(gè)人上網(wǎng)行為的時(shí)空特征,總結(jié)存在相似規(guī)律的同類用戶行為模式。因此我們根據(jù)每?jī)纱紊暇W(wǎng)記錄之間的間隔時(shí)空屬性特征來(lái)描述個(gè)人上網(wǎng)行為特征,其中包括了兩次上網(wǎng)記錄的間隔時(shí)間及相同或不同網(wǎng)吧地點(diǎn)之間的聯(lián)系。
首先,我們從數(shù)據(jù)集中選擇某人的所有上網(wǎng)記錄,然后我們得到3 個(gè)列表:
其中Ltime1表示該用戶開(kāi)始上網(wǎng)的時(shí)間集合,Ltime2表示該用戶結(jié)束上網(wǎng)的時(shí)間集合,Lbar是用戶所在網(wǎng)吧對(duì)應(yīng)的地理坐標(biāo)集合(無(wú)重復(fù))。接下來(lái),我們計(jì)算出每?jī)纱紊暇W(wǎng)行為之間的時(shí)間間隔列表:
其中in= tbn+1-ten,表示第n 次上網(wǎng)結(jié)束時(shí)間與第n+1次上網(wǎng)開(kāi)始時(shí)間的間隔。然后計(jì)算出每次上網(wǎng)的時(shí)間長(zhǎng)度列表:
其中on-1= ten-tbn。之后我們將Linterval及Lonline集合數(shù)據(jù)一起映射到極坐標(biāo),就顯示出具有交錯(cuò)表示的視圖,其中黑色部分代表了上網(wǎng)的時(shí)長(zhǎng),灰色部分代表了兩次上網(wǎng)時(shí)間間隔的時(shí)長(zhǎng)。餅圖的大小代表了用戶活動(dòng)范圍的大小,我們使用Lbar數(shù)據(jù)集計(jì)算半徑(MC_R),即計(jì)算包含所有網(wǎng)吧的地理節(jié)點(diǎn)形成的最小包圍圓(MC),這里MC_R 是MC 的半徑。依據(jù)Lbar集合的無(wú)重復(fù)元素?cái)?shù)量,可以展示幾種不同的狀態(tài)如圖4所示。圖4(a)是只有一個(gè)網(wǎng)吧的情況,定義MC_R 是餅圖半徑的最小值(例如5px)。圖4(b)有兩個(gè)網(wǎng)吧,使用線段(LS)連接兩點(diǎn),定義MC的中心是LS 的中點(diǎn),MC_R 是LS 的長(zhǎng)度的1/2。圖4(c)有三個(gè)網(wǎng)吧,連接三點(diǎn)構(gòu)成三角形,頂點(diǎn)代表網(wǎng)吧,然后計(jì)算出三角形的外接圓(CMC),這里的CMC 就是MC。如果存在多于三個(gè)網(wǎng)吧的情況,則如圖4(d)中所示,使用模擬退火法生成最小包圍圓。圖4 設(shè)計(jì)的餅圖中,用戶上網(wǎng)總時(shí)長(zhǎng)分兩種情況,一種是查看個(gè)體用戶的上網(wǎng)行為時(shí)空分布特征時(shí)的本用戶統(tǒng)計(jì)上網(wǎng)總時(shí)長(zhǎng),從1 小時(shí)到3 個(gè)月不等;還有一種情況涉及到多用戶的行為特征比較,這時(shí)會(huì)以總上網(wǎng)時(shí)長(zhǎng)最長(zhǎng)的用戶時(shí)間總長(zhǎng)度為基礎(chǔ),繪制同其比較用戶的行為特征。
圖4 個(gè)人上網(wǎng)行為時(shí)空分布特征可視化設(shè)計(jì)Fig.4 Visual design of spatial-temporal distribution characteristics of personal online behavior
系統(tǒng)還設(shè)計(jì)了一些對(duì)固有特征進(jìn)行統(tǒng)計(jì)展示的視圖,如圖3(d)所示,左圖為柱形折現(xiàn)結(jié)合視圖,用來(lái)分析統(tǒng)計(jì)人員的籍貫信息,藍(lán)色柱狀表示來(lái)自該地區(qū)人員的數(shù)量,橙色折線表示該地區(qū)人員記錄產(chǎn)生的平均時(shí)長(zhǎng);右圖用區(qū)域堆疊圖展示不同年齡段的上網(wǎng)人員總數(shù),同時(shí)使用紅藍(lán)顏色區(qū)域區(qū)分人員性別。
另外在圖7(b)中還使用了平行坐標(biāo)圖展示了對(duì)不同年齡段人群上網(wǎng)的特征分布,使用多條平行的豎直坐標(biāo)軸表示數(shù)據(jù)的多個(gè)維度,在坐標(biāo)軸上刻畫(huà)某一維度的數(shù)據(jù)數(shù)值或者分類,然后用線連接某一數(shù)據(jù)項(xiàng)在所有坐標(biāo)軸上的點(diǎn),有效分析上網(wǎng)與年齡階段以及時(shí)長(zhǎng)之間的關(guān)系。
系統(tǒng)使用基于時(shí)間軸甘特圖的改進(jìn)視圖來(lái)表現(xiàn)兩人或多人之間行為的共現(xiàn)關(guān)系,如圖5所示,其中x 坐標(biāo)軸代表了時(shí)間,y 坐標(biāo)軸是每個(gè)上網(wǎng)用戶,使用平行與x 軸的甘特圖表示每位用戶的行為記錄發(fā)生時(shí)段,并將每個(gè)時(shí)段按5 分鐘劃分,使用平行于y 軸的虛線連接同時(shí)出現(xiàn)的用戶,顏色相同的甘特線代表這些用戶是在同一場(chǎng)所。
圖5 個(gè)人上網(wǎng)行為共現(xiàn)關(guān)系視圖Fig.5 Co-occurrence relationship view of personal online behavior
同時(shí)系統(tǒng)設(shè)計(jì)了使用力導(dǎo)向的關(guān)系圖表現(xiàn)所有具備共現(xiàn)情況的用戶,如圖6所示,圖中節(jié)點(diǎn)代表一個(gè)用戶,每條線都代表了兩點(diǎn)之間至少有3 次時(shí)空特征重合的現(xiàn)象,時(shí)空特征重合指的是對(duì)應(yīng)的兩個(gè)用戶的上網(wǎng)行為記錄中,存在著地點(diǎn)一致(即兩人上網(wǎng)所在網(wǎng)吧為同一個(gè)),以及兩人的上網(wǎng)時(shí)間區(qū)域有重疊的現(xiàn)象。經(jīng)統(tǒng)計(jì),所有可能的用戶共現(xiàn)事件都發(fā)生在3 天之內(nèi),因此在力導(dǎo)向關(guān)系圖中設(shè)置了1-3 天的顏色區(qū)分。其中灰色的節(jié)點(diǎn)說(shuō)明所有的重合事件都發(fā)生在同一天,藍(lán)色的代表了兩天,橙色的代表了3 天。甘特圖和力導(dǎo)向關(guān)系圖的結(jié)合可以有效且直觀地顯示出群體成員的聚集時(shí)間范圍,對(duì)群體的發(fā)現(xiàn)和對(duì)群體行為分析十分有益。
圖6 人群共現(xiàn)關(guān)系可視化視圖Fig.6 Visualization view of crowd co-occurrence relationship
本節(jié)中,通過(guò)兩個(gè)實(shí)際的案例來(lái)說(shuō)明分析方法與系統(tǒng)的有效性,其中案例一是基于上網(wǎng)人員的固有屬性及行為特征繪制全局用戶畫(huà)像,實(shí)現(xiàn)對(duì)數(shù)據(jù)統(tǒng)計(jì)特征的識(shí)別和分析。案例二是發(fā)現(xiàn)可能存在的共現(xiàn)群體并展示個(gè)人的上網(wǎng)記錄時(shí)空分布特征。
首先按人均計(jì)算每個(gè)區(qū)域的上網(wǎng)時(shí)間與次數(shù),結(jié)果如圖7(a)所示,柱形圖是人均上網(wǎng)時(shí)間(單位:分鐘),線性圖是人均上網(wǎng)次數(shù)(單位:次)??梢钥闯鋈司暇W(wǎng)時(shí)間與上網(wǎng)次數(shù)不同省份之間的差距不大,人均時(shí)間最長(zhǎng)和次數(shù)最多的記錄都是西藏,人均時(shí)間最短的是天津,人均次數(shù)最少的是重慶(人均1 次)。
圖7 用戶畫(huà)像可視化展示Fig.7 Visualization display of user persona
其次,用戶年齡、上網(wǎng)時(shí)長(zhǎng)、用戶數(shù)量及網(wǎng)吧數(shù)量的關(guān)聯(lián)關(guān)系使用平行坐標(biāo)圖展示,如圖7(b)所示。可以看出1980年前出生的用戶去網(wǎng)吧次數(shù)和使用時(shí)長(zhǎng)都很少,主力用戶是80 后和90 后的用戶,同時(shí)這一階段的用戶年齡與上網(wǎng)時(shí)長(zhǎng)呈反比關(guān)系。
接下來(lái)是使用區(qū)域堆疊圖展示不同籍貫上網(wǎng)人員的年齡及性別分布畫(huà)像,圖7(c)的數(shù)據(jù)來(lái)自上海,這里將上網(wǎng)人員的年齡分為5 組,分別是70 前(1970 前)、70 后(1970-1980)、80 后(1980-1990)、90 后(1990-2000)及00 后(2000 后),藍(lán)色表示男性、紅色表示女性。從中可以看到網(wǎng)吧用戶中90 后人數(shù)占比最多,其次是80 后,男性人數(shù)大大超過(guò)女性人數(shù)。
最后是展示流動(dòng)人口的上網(wǎng)時(shí)間與時(shí)長(zhǎng)的特征,這里使用了圖7(d)中的日歷熱力圖及圖7(e)中的基于極坐標(biāo)的南丁格爾圖來(lái)分別表現(xiàn)不同尺度下的人員分布特征,最小單位分別是“天”和“小時(shí)”。圖中展示的是來(lái)自北京的上網(wǎng)人員畫(huà)像,其中左邊視圖展示的是不同日期及不同時(shí)段上網(wǎng)人數(shù)的分布,右邊視圖反映的是不同日期及不同時(shí)段的平均每人上網(wǎng)的時(shí)長(zhǎng)分布(單位是分鐘)?;镜臅r(shí)間分布情況是:休息日多于工作日,11月人數(shù)多于10月和12月,上網(wǎng)時(shí)段以12 點(diǎn)至21 點(diǎn)人數(shù)最多,上網(wǎng)時(shí)間分布則比較平均。
我們將網(wǎng)吧用戶可能存在的共現(xiàn)群體定義為至少有兩個(gè)用戶上網(wǎng)時(shí)空特征重合,即同一時(shí)段這兩名用戶在同一網(wǎng)吧上網(wǎng)。在系統(tǒng)展示所有可能的共現(xiàn)關(guān)系時(shí)過(guò)濾了上網(wǎng)記錄少于3 次的用戶,因?yàn)閭€(gè)人記錄太少會(huì)造成偶然因素過(guò)大使得分析結(jié)果不準(zhǔn)確。最終我們篩選出個(gè)人上網(wǎng)次數(shù)大于3 次的數(shù)據(jù)進(jìn)行分析,計(jì)算每個(gè)網(wǎng)吧中兩兩用戶之間的共現(xiàn)情況作為邊,有共現(xiàn)關(guān)系的用戶作為點(diǎn),再次篩選出共現(xiàn)關(guān)系大于等于3 次的點(diǎn)和邊,形成了最終的關(guān)系圖如圖8(a)所示。
該圖中每條線都代表了兩點(diǎn)之間至少有3 次時(shí)空特征重合的現(xiàn)象,其中橙色的節(jié)點(diǎn)說(shuō)明有3 天都發(fā)生了時(shí)空特征重合事件,顯然橙色節(jié)點(diǎn)之間所形成的子圖代表一個(gè)群體的可能最大。
為了驗(yàn)證圖中的群體是否是真實(shí)存在的,我們使用基于時(shí)間軸甘特圖的改進(jìn)視圖來(lái)詳細(xì)描述兩人或多人之間上網(wǎng)行為的關(guān)系,如圖8(b)所示。通過(guò)觀察這個(gè)發(fā)現(xiàn)的群體,我們可以發(fā)現(xiàn)這5 人出現(xiàn)時(shí)空共現(xiàn)的重合點(diǎn)集中在同一天的12 小時(shí)之內(nèi),且這5 人在其他時(shí)間段均沒(méi)有出現(xiàn)共現(xiàn)現(xiàn)象(其中的2人或3 人也沒(méi)有),到此可以大致判斷這種共現(xiàn)可能是一次巧合。為了進(jìn)一步加強(qiáng)判斷,通過(guò)查看每人的詳細(xì)上網(wǎng)記錄進(jìn)行比較,如圖8(c)所示,給出了這5 人其中的1 人的上網(wǎng)記錄詳細(xì)時(shí)序視圖及時(shí)空分布視圖,再通過(guò)比較其他幾人的個(gè)人特征視圖,可以發(fā)現(xiàn)這幾人之中確實(shí)沒(méi)有時(shí)空特征相似的情況,因此得出結(jié)論,這5 人不是共現(xiàn)群體。而橙色節(jié)點(diǎn)代表的2 個(gè)用戶(視圖可參見(jiàn)圖5)的重合上網(wǎng)時(shí)間分布在3 天不同的日期中,且沒(méi)有其他額外的上網(wǎng)記錄,結(jié)合個(gè)人詳細(xì)記錄的比較,我們可以判斷出這2 名用戶可能是屬于一個(gè)共現(xiàn)群體的。
圖8 共現(xiàn)關(guān)系發(fā)現(xiàn)及用戶行為展示Fig.8 Co-occurrence relationship discovery and user behavior display
本文基于現(xiàn)實(shí)的時(shí)空數(shù)據(jù)(包括個(gè)體行為記錄等)設(shè)計(jì)并實(shí)現(xiàn)了SRDVis 系統(tǒng),該系統(tǒng)使用可視化視圖來(lái)輔助分析不同特征人群的上網(wǎng)行為,為業(yè)務(wù)監(jiān)管人員提供可能的群體行為判斷、預(yù)測(cè)等分析手段。SRDVis 系統(tǒng)使用可視化分析方法,可以幫助用戶從海量、異構(gòu)、復(fù)雜的數(shù)據(jù)中發(fā)現(xiàn)感興趣的信息,獲得更深入的理解。文中的可視化方案設(shè)計(jì)簡(jiǎn)潔明了,針對(duì)每個(gè)設(shè)計(jì)任務(wù)使用多種視圖來(lái)輔助分析,部分視圖設(shè)計(jì)對(duì)多種包含時(shí)間空間信息的業(yè)務(wù)領(lǐng)域數(shù)據(jù)分析系統(tǒng)的可視化實(shí)現(xiàn)都有很好的適用性,包括基于極坐標(biāo)的時(shí)序特征視圖、基于行政區(qū)域地圖的熱力圖、時(shí)空分布特征餅圖、基于時(shí)間軸甘特圖的共現(xiàn)視圖及日歷矩陣、平行坐標(biāo)等視圖均在其他時(shí)空數(shù)據(jù)分析系統(tǒng)中得到實(shí)際應(yīng)用,例如停車場(chǎng)數(shù)據(jù)分析系統(tǒng)等,具有一定的擴(kuò)展性。
團(tuán)隊(duì)后續(xù)的研究工作包括擴(kuò)展數(shù)據(jù)集,整合天氣、節(jié)假日等多種數(shù)據(jù)源,進(jìn)行數(shù)據(jù)融合分析,并從框架、模型、算法、設(shè)計(jì)到交互方式,使SRDVis系統(tǒng)更加完善,從而提高從業(yè)者數(shù)據(jù)營(yíng)運(yùn)能力,實(shí)現(xiàn)業(yè)務(wù)監(jiān)管部門(mén)對(duì)相關(guān)異常事件的事前預(yù)警和事后監(jiān)督反饋。
利益沖突聲明
所有作者聲明不存在利益沖突關(guān)系。