陳略,熊宸,蔡銘
中山大學(xué)智能工程學(xué)院/廣東省智能交通系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510006
近年來手機(jī)信令由于其覆蓋范圍廣、采樣率高等特點(diǎn)被廣泛應(yīng)用于城市職住空間組織結(jié)構(gòu)、居民通勤特征等研究。張?zhí)烊焕脷v史每日20:00-次日8:00 的夜間手機(jī)數(shù)據(jù)訓(xùn)練識(shí)別,以出現(xiàn)概率最高且比例超過60%的區(qū)域作為用戶的居住地。同理,利用歷史工作日9:00-18:00 的手機(jī)數(shù)據(jù)訓(xùn)練識(shí)別工作地[1]。丁亮等選取早晚特殊時(shí)間點(diǎn),若某一手機(jī)用戶每天至少有3個(gè)時(shí)間點(diǎn)在同一基站或附近1 000 m 內(nèi)的基站,就將該基站識(shí)別為該日該用戶的工作地或居住地[2]。許寧等根據(jù)深圳市企事業(yè)單位工作時(shí)段和深圳市居民生活習(xí)慣,設(shè)定工作時(shí)段為09:00-18:00,夜間睡眠時(shí)段為00:00-06:00,篩選用戶在工作(居住)時(shí)段累計(jì)停留時(shí)間超過閾值的基站作為該用戶的工作(居?。┑厮鶎?duì)應(yīng)的基站[3]。職住地識(shí)別方法雖然已有眾多成果發(fā)表,但大多文獻(xiàn)更關(guān)注職住地識(shí)別結(jié)果的應(yīng)用,極少關(guān)注職住地識(shí)別算法本身的可靠性。
由于手機(jī)信令的固有特性以及當(dāng)前職住地識(shí)別算法存在的問題,在實(shí)際應(yīng)用中仍有諸多問題亟待解決。本研究通過闡述手機(jī)信令特性,剖析目前職住地識(shí)別算法中的關(guān)鍵因素,并提出了解決這些問題的職住地識(shí)別算法。
手機(jī)信令數(shù)據(jù)是一種典型時(shí)間序列數(shù)據(jù),由基站的經(jīng)緯度和時(shí)間戳構(gòu)成。手機(jī)信令數(shù)據(jù)影響職住地識(shí)別的兩個(gè)重要特性為稀疏性和空間不確定性。
由于手機(jī)信令產(chǎn)生方式的無規(guī)律性,導(dǎo)致其采樣頻率非常不規(guī)則。與一般時(shí)空軌跡數(shù)據(jù)不同,手機(jī)信令包括主動(dòng)和被動(dòng)兩種產(chǎn)生方式。主動(dòng)產(chǎn)生為數(shù)據(jù)流量上網(wǎng)、發(fā)短信、撥號(hào)等行為觸發(fā)的基站響應(yīng);被動(dòng)產(chǎn)生包括收短信、接電話以及心跳數(shù)據(jù)等行為觸發(fā)的基站響應(yīng)。因此手機(jī)數(shù)據(jù)的時(shí)間密度因用戶而異,并且非常不規(guī)則。通常在某一小段時(shí)間內(nèi),手機(jī)數(shù)據(jù)密集出現(xiàn),在較長且不規(guī)律的時(shí)間后,手機(jī)數(shù)據(jù)再次密集發(fā)生[4]。手機(jī)數(shù)據(jù)的稀疏特性使得軌跡點(diǎn)時(shí)間間隔較大,CDR數(shù)據(jù)的時(shí)間間隔可以達(dá)到數(shù)小時(shí)之久[5],而信令數(shù)據(jù)的時(shí)間間隔通常也超過1 h[6],長時(shí)間間隔的軌跡無法分析用戶在間隔時(shí)段的定位,因此在通常職住地識(shí)別算法中,如果以基站經(jīng)緯度位置點(diǎn)為停留單元,通過信令逐行相減的方法得到每一個(gè)用戶在每一個(gè)位置的停留時(shí)間[7]。當(dāng)相鄰的長時(shí)間間隔軌跡點(diǎn)位置不相同時(shí),將該時(shí)段納入基站停留時(shí)間,可能會(huì)導(dǎo)致增加虛假的停留點(diǎn)或者基站停留時(shí)長被夸大。
手機(jī)信令中大量存在的乒乓和漂移數(shù)據(jù)導(dǎo)致手機(jī)信令數(shù)據(jù)存在著較大的空間不確定性。文獻(xiàn)指出,乒乓切換和漂移數(shù)據(jù)約占數(shù)據(jù)總量的30%[8]。乒乓切換和漂移數(shù)據(jù)是由手機(jī)信令的定位原理和基站工作機(jī)制所產(chǎn)生的。用戶定位以其所在基站覆蓋范圍內(nèi)的基站位置所表示,而我國目前城市內(nèi)基站布設(shè)普遍比較密集,基站的覆蓋范圍相互重疊區(qū)域大。處于多個(gè)基站覆蓋范圍內(nèi)的地點(diǎn)地理位置受基站信號(hào)強(qiáng)度的變化而不斷切換基站,因而產(chǎn)生乒乓切換現(xiàn)象。一般來說基站有負(fù)荷優(yōu)化調(diào)節(jié)機(jī)制,當(dāng)鄰近基站的用戶負(fù)荷過大,會(huì)自動(dòng)切換更遠(yuǎn)但用戶負(fù)荷更少的基站,從而產(chǎn)生了信號(hào)漂移[4]。乒乓切換和數(shù)據(jù)漂移并非用戶真實(shí)的移動(dòng)軌跡,這類震蕩的軌跡點(diǎn)具有緊密的時(shí)空關(guān)系,可視為一個(gè)整體,表示同一個(gè)語義地點(diǎn),若把乒乓切換和漂移數(shù)據(jù)當(dāng)作普通軌跡數(shù)據(jù)處理,則會(huì)多出許多虛假的語義地點(diǎn),真正的語義地點(diǎn)停留時(shí)間則會(huì)被削弱。
從手機(jī)信令廣泛存在的稀疏性和空間不確定性可以看出,以基站為對(duì)象單元,研究職住地識(shí)別算法不合理,存在較大的誤差。
職住地識(shí)別算法涉及的重要因素包括時(shí)間規(guī)則和空間聚合距離[9]兩個(gè)部分。職住地識(shí)別方法的時(shí)間規(guī)則可以歸納為:
1.1.1 時(shí)間閾值法劃分居住時(shí)間段,例如20:00至次日8:00。通常將居民每天夜間時(shí)間段內(nèi)停留時(shí)間超過閾值時(shí)間且一個(gè)月內(nèi)出現(xiàn)次數(shù)大于閾值次數(shù)的停留點(diǎn),作為居民的居住地[7]。劃分日間時(shí)間段,以同樣的方法識(shí)別工作地[10]。
時(shí)間閾值法的職住地識(shí)別率完全由劃分時(shí)間段、停留時(shí)間閾值和天數(shù)閾值的經(jīng)驗(yàn)值決定,具有較強(qiáng)的不確定性。
1.1.2 累計(jì)停留時(shí)間法劃分居住時(shí)間段和工作時(shí)間段,選取時(shí)間段內(nèi)停留時(shí)間最長的停留點(diǎn)作為居住地和工作地[11-13]。累計(jì)停留時(shí)間的變形算法將全天劃分為多個(gè)時(shí)窗,依次計(jì)算軌跡與每個(gè)時(shí)窗的疊合度,將軌跡點(diǎn)停留時(shí)間區(qū)間轉(zhuǎn)換為連續(xù)的多個(gè)時(shí)窗,通過多日軌跡疊加識(shí)別每個(gè)時(shí)窗的多日穩(wěn)定點(diǎn)。合并距離小于閾值的多日穩(wěn)定點(diǎn)的時(shí)窗,選取日間和夜間時(shí)間段內(nèi)停留時(shí)間最長的多日穩(wěn)定點(diǎn)作為工作地和居住地[14]。累計(jì)停留時(shí)間法的識(shí)別結(jié)果與劃分時(shí)間段直接相關(guān)。
1.1.3 信息熵法將觀測時(shí)間段內(nèi)的各停留點(diǎn)停留時(shí)長與相對(duì)觀測時(shí)長的比例作為一種信息輸入,通過信息熵反映劃分時(shí)段內(nèi)用戶活動(dòng)的強(qiáng)度[7],信息熵越小,活動(dòng)強(qiáng)度越小,居住或工作停留的確定性越強(qiáng)。
計(jì)算時(shí)間段內(nèi)各停留點(diǎn)U1,U2,…,Un的停留時(shí)間Ti相對(duì)總觀測時(shí)長T的比例pi、信息熵H(U)。若信息熵小于設(shè)定信息熵閾值,則將其中停留時(shí)間概率最大的停留點(diǎn)識(shí)別為居住地和工作地。即
信息熵法可以算是累積停留時(shí)間法的變形,但信息熵的閾值不容易確定,且信息熵與劃分時(shí)段相關(guān)。
通過時(shí)間規(guī)則可知,識(shí)別結(jié)果與劃分時(shí)間段緊密相關(guān),但時(shí)間段劃分由人為決定,沒有度量的指標(biāo),劃分的有效性未知,且忽視了個(gè)體不同的作息規(guī)律。
由于移動(dòng)通信網(wǎng)絡(luò)空間不確定性的特點(diǎn),用戶定位的基站并不一定所處實(shí)際位置最鄰近的基站。因此需要對(duì)一定空間距離的基站進(jìn)行聚合,并視為同一位置點(diǎn)。若以基站作為研究單元,不設(shè)置空間聚合距離,則基站間的震蕩切換會(huì)被識(shí)別為不同的停留位置,實(shí)際停留位置的停留時(shí)間變短,實(shí)際停留位置將被切分成多個(gè)停留位置,停留時(shí)間可能無法達(dá)到時(shí)間規(guī)則的要求;將基站按一定的算法空間聚合,若聚合距離過大會(huì)將出行的軌跡點(diǎn)也納入停留位置,導(dǎo)致真正的停留位置時(shí)長變長,從而導(dǎo)致職住地識(shí)別錯(cuò)誤,同時(shí)職住地理位置準(zhǔn)確度也會(huì)受到影響,因此選擇空間聚類算法正確界定停留區(qū)域的邊界對(duì)職住地的識(shí)別至關(guān)重要。傾向于職住結(jié)果應(yīng)用的職住地識(shí)別算法中對(duì)空間測度的描述一般直接采用基站為研究單元,如以基站經(jīng)緯度位置點(diǎn)為單元,通過信令逐行相減的方法得到每一個(gè)用戶在每一個(gè)位置的停留時(shí)間[7],但這種操作會(huì)導(dǎo)致職住地識(shí)別算法的有效性降低。以距離鄰近的基站空間聚合的停留點(diǎn)為研究單元,空間聚類算法一般定義一定的距離閾值作為合并的依據(jù),如文獻(xiàn)[14-15]。但距離閾值的大小對(duì)空間測度影響有待研究。對(duì)于停留區(qū)域邊界的界定通過停留時(shí)間影響時(shí)間規(guī)則進(jìn)而影響算法對(duì)職住地的識(shí)別??偨Y(jié)上述職住地識(shí)別算法可以發(fā)現(xiàn):
(1)時(shí)間規(guī)則對(duì)時(shí)段劃分和停留時(shí)長閾值等參數(shù)的選擇依據(jù)不足,而這些參數(shù)會(huì)對(duì)職住地識(shí)別的有效性產(chǎn)生嚴(yán)重影響。
(2)以基站為停留研究單元,不對(duì)基站進(jìn)行空間聚合,忽視了手機(jī)信令的稀疏性和空間不確定性,直接削弱實(shí)際停留位置的停留時(shí)間;以基站聚類的停留區(qū)域?yàn)橥A魡卧?,空間算法對(duì)停留邊界識(shí)別的準(zhǔn)確度會(huì)影響時(shí)間規(guī)則內(nèi)停留時(shí)長的度量,以及職住地的判斷和職住位置的準(zhǔn)確度。
(3)職住地識(shí)別是一個(gè)綜合性決策問題,需同時(shí)考慮停留時(shí)段、停留時(shí)長、停留天數(shù)等特性,但目前算法先對(duì)職住時(shí)段劃分,再統(tǒng)計(jì)劃分時(shí)段內(nèi)的停留時(shí)間,缺乏對(duì)停留時(shí)段和停留時(shí)長等特征的綜合分析。
(4)目前職住地識(shí)別算法只能定性地獲得職住地的地理位置而無法獲得其職住規(guī)律特性,如職住的時(shí)段和時(shí)長。
因此,本研究提出了一種基于停留點(diǎn)語義的職住地決策方法。
本研究提出的基于手機(jī)信令軌跡點(diǎn)識(shí)別的職住地綜合決策算法流程,如圖1所示。其中,聯(lián)結(jié)同化流程和時(shí)空密度聚類算法已在文獻(xiàn)[16]中詳細(xì)介紹,本文僅著重于軌跡點(diǎn)識(shí)別中的空間簇聯(lián)合以及職住地判斷中的相關(guān)算法。
圖1 算法流程Fig.1 Algorithm process
時(shí)空聯(lián)結(jié)同化流程已經(jīng)將具有停留特點(diǎn)的時(shí)間緊密性的網(wǎng)格位置聯(lián)結(jié)成簇,但由于受手機(jī)信令的基站定位和調(diào)節(jié)機(jī)制影響,同一語義的活動(dòng)地點(diǎn)的空間位置通常不止一個(gè)基站,由于乒乓切換和數(shù)據(jù)漂移發(fā)生的無規(guī)律性,同一語義地點(diǎn)的不同基站之間存在時(shí)間連續(xù)的但不發(fā)生切換的情況,此時(shí)同一語義地點(diǎn)的不同基站表現(xiàn)為兩個(gè)不同的軌跡簇;同時(shí)由于手機(jī)信令采樣間隔不均等特點(diǎn),若同一語義地點(diǎn)的不同基站坐標(biāo)之間時(shí)間間隔較大,缺乏時(shí)空緊密性,同一語義地點(diǎn)會(huì)被分成不同的軌跡簇。
以上情況均會(huì)切割真正的停留點(diǎn),削弱停留時(shí)長,對(duì)職住地的時(shí)間規(guī)則識(shí)別造成影響。因此,空間簇聯(lián)合目的是通過簇的長時(shí)間的定位規(guī)律識(shí)別區(qū)分地點(diǎn)語義,進(jìn)一步區(qū)分停留區(qū)域的邊界,以彌補(bǔ)手機(jī)信令的采樣間隔造成的空間不確定性,并確定時(shí)間不緊密的簇之間的空間關(guān)系。
考慮到有意義的活動(dòng)語義地點(diǎn)是經(jīng)常發(fā)生且具有規(guī)律性的,可以通過多次的時(shí)空緊密的軌跡簇之間位置點(diǎn)的相互交集,將具有位置點(diǎn)交集的簇聯(lián)合為同一語義地點(diǎn)。多天出現(xiàn)的語義地點(diǎn)定義為固定語義地點(diǎn),表示經(jīng)常性停留或經(jīng)過的語義地點(diǎn)。通過識(shí)別固定語義點(diǎn)可以更加錨固工作地、居住地以及餐廳等經(jīng)常性停留的活動(dòng)地點(diǎn),使得職住地的識(shí)別更加準(zhǔn)確。
固定語義地點(diǎn)通過多天的交集軌跡簇重疊空間聯(lián)合確定。將含有相同網(wǎng)格位置標(biāo)號(hào)的軌跡簇聯(lián)合成為同一語義地點(diǎn)。軌跡簇空間聯(lián)合識(shí)別語義地點(diǎn)如表1 所示,以簇6 為例,簇6 是一個(gè)典型的震蕩的時(shí)空聯(lián)結(jié)同化簇,簇中含有的位置點(diǎn)(2037,1094)和(2041,1093)分別用紅框和藍(lán)框表示,簇2、3、5 中均含有簇6 中的位置點(diǎn),因此可以將原本缺乏時(shí)間緊密性的簇1、2、3,以及簇5、6空間聯(lián)結(jié)起來,識(shí)別為同一語義c3。
表1 軌跡簇空間聯(lián)合識(shí)別語義地點(diǎn)Table 1 Spatial association of trace clusters to identify semantic locations
語義地點(diǎn)的識(shí)別結(jié)果如圖2所示。同樣顏色的位置點(diǎn)代表同一語義點(diǎn)。從圖中可以看出,即使語義地點(diǎn)之間距離并不遠(yuǎn),但語義的區(qū)分度卻很明顯,沒有出現(xiàn)大片軌跡點(diǎn)連成同一語義地點(diǎn)的情況。其中,從上到下圓圈中的語義地點(diǎn)依次為工作地、居住地、餐廳,與用戶標(biāo)簽地點(diǎn)一致,可見規(guī)律停留語義地點(diǎn)的網(wǎng)格位置之間常有切換,可通過含有相同位置的軌跡簇聯(lián)合進(jìn)一步錨固停留語義點(diǎn)。而且通過多天軌跡簇沒有交集可以區(qū)分距離靠近的不同語義點(diǎn)。
圖2 語義點(diǎn)識(shí)別結(jié)果Fig.2 Semantic point recognition results
對(duì)比簇空間聯(lián)合前后停留點(diǎn)識(shí)別精度,如表2所示。簇空間聯(lián)合后的空間精度和時(shí)間精度均高于簇空間聯(lián)合前,說明簇空間聯(lián)合識(shí)別語義地點(diǎn)能夠使得停留區(qū)域更錨固,時(shí)間識(shí)別精度更高,且簇聯(lián)合固定語義能夠有效地識(shí)別停留區(qū)域邊界。
表2 簇空間聯(lián)合前后停留點(diǎn)識(shí)別精度的對(duì)比Table 2 Comparison of recognition accuracy of retention points before and after cluster space combination
2.2.1 熵權(quán)法賦時(shí)段權(quán)重由于職住地的停留時(shí)段比其他活動(dòng)的停留時(shí)段有更強(qiáng)的規(guī)律性,表現(xiàn)在職住地停留時(shí)段與其他活動(dòng)時(shí)段相比停留次數(shù)更多且停留語義地點(diǎn)比較單一和固定,因此可以計(jì)算時(shí)段語義熵來表征處于職住時(shí)段的可能性。某時(shí)段內(nèi)停留次數(shù)越多,停留語義地點(diǎn)越固定,時(shí)段熵越小,表明該時(shí)段為職住時(shí)段的可能性越大;反之,熵越大,表明該時(shí)段的停留地點(diǎn)的偶然性越大,即該時(shí)段為職住時(shí)段的可能性越小。
對(duì)時(shí)間軸各時(shí)間段內(nèi)停留的各語義進(jìn)行統(tǒng)計(jì),某時(shí)間段i的語義熵由該時(shí)段數(shù)據(jù)集內(nèi)被訪問的次數(shù)ni和語義停留區(qū)域的分布構(gòu)成。pij為語義j的停留次數(shù)在該時(shí)段i訪問次數(shù)中出現(xiàn)的概率。k為時(shí)段i內(nèi)出現(xiàn)的語義停留區(qū)域的個(gè)數(shù),時(shí)段熵為
可以看出,相同語義停留區(qū)域的分布下,被訪問次數(shù)ni大的時(shí)段信息熵更?。幌嗤脑L問次數(shù)ni下,語義停留區(qū)域分布確定性更強(qiáng)的時(shí)段信息熵更小。以表3為例,某時(shí)段語義停留區(qū)域A、B、C各訪問3 次與A、B、C 各訪問2 次的分布相同,但被訪問次數(shù)多(A、B、C 各訪問3次)的時(shí)段語義熵更??;當(dāng)時(shí)段被訪問總次數(shù)ni相同時(shí),如A、B、C 各訪問3 次與A 訪問8 次、B 訪問1 次相比,語義停留區(qū)域分布更均勻的信息熵更大,時(shí)段不確定性更強(qiáng)。
表3 時(shí)段熵示例Table 3 Period entropy example
根據(jù)時(shí)段語義熵對(duì)時(shí)段賦權(quán)值。時(shí)段語義熵更小的,權(quán)值更大,有
2.2.2 到達(dá)和離去時(shí)段離散化為了提取用戶出行、停留的時(shí)段和時(shí)長等特征,根據(jù)語義停留區(qū)域的到達(dá)、離去時(shí)間分布對(duì)連續(xù)時(shí)間軸進(jìn)行離散化,合理劃分時(shí)間段,使得區(qū)間既能有效區(qū)分不同時(shí)段的分布特征又不過度分散獨(dú)立。本研究使用基于數(shù)據(jù)分布特征信息熵聚類的MDLP算法[17-18]對(duì)數(shù)據(jù)進(jìn)行聚類并劃分時(shí)間軸,以避免劃分后破壞數(shù)據(jù)的分布特征。MDLP 算法如表4 所示。MDLP 離散化以任意語義點(diǎn)Cm 到達(dá)(離去)時(shí)間段的次數(shù)為特征,依據(jù)信息熵聚類時(shí)間段。具體步驟如下:
表4 信息熵MDLP離散化具體算法偽代碼Table 4 Information entropy MDLP discretization algorithm code
(1) 先將時(shí)間軸劃分為k個(gè)基本時(shí)間段Di(1 ≤i≤k),計(jì)算任意語義Cm 停留區(qū)域在多天數(shù)據(jù)時(shí)間軸上的總信息熵E(Cm),如式(4)所示。
(2)遍歷每兩個(gè)時(shí)間段Di和Di+1之間的候選劃分(Di,Di+1),計(jì)算劃分后左右兩部分的總加權(quán)信息熵E(Di,Di+1),如式(5)所示。
2.2.3 職住地多屬性決策方法 到達(dá)和離去時(shí)間軸 離 散 化 得 到 切 點(diǎn) 的 集 合 cutD={(Di0,Di0+1),(Di1,Di1+1),…,(Din,Din+1)},根據(jù)切點(diǎn)劃分時(shí)間軸,得到對(duì)應(yīng)的時(shí)間軸切片的時(shí)間段集合
其中Tx,y為基礎(chǔ)時(shí)段Dx到Dy的時(shí)段集合,
T1,i0={D0,D1…,Di0},
Ti0+1,i1={Di0+1,Di0+2,…,Di1},
Tin-1+1,in={Din-1+1,Din-1+2,…,Din},
Tin+1,k={Din+1,Din+2,…,Dk}.
正如前文所述,職住地的判斷是一個(gè)區(qū)間數(shù)多屬性權(quán)重未知的決策問題。信息熵越大,信息的不確定性越大,信息的可用性越低;在綜合決策系統(tǒng)中,所有方案在屬性Gj下差異越大,則對(duì)方案的排序作用越大,屬性的權(quán)重應(yīng)賦越大值,因此可以通過信息熵確定屬性權(quán)重。
本研究所采用自行開發(fā)的app 采集志愿者的一周的信令數(shù)據(jù),數(shù)據(jù)除時(shí)間戳和基站經(jīng)緯度外還帶有移動(dòng)或停留標(biāo)簽,以驗(yàn)證算法的識(shí)別效果。
用戶的時(shí)段活躍度,如圖3 所示。用戶夜間00:00-8:00 時(shí)段活躍度最低,日間下午時(shí)段活躍度也較低,結(jié)果顯示通過信息熵來度量時(shí)段有效性是合理的。
圖3 時(shí)段權(quán)值示例Fig.3 Example of period weight
信息熵MDLP離散化能根據(jù)離去分布特征把連續(xù)的時(shí)間軸劃分為具有特征規(guī)律的時(shí)間段,有利于離去規(guī)律的提取。通過離散化語義停留點(diǎn)到達(dá)時(shí)間段和離去時(shí)段,組合成停留時(shí)段區(qū)間數(shù),并計(jì)算停留時(shí)段區(qū)間數(shù)的時(shí)段權(quán)重區(qū)間數(shù)。以停留時(shí)段權(quán)重區(qū)間數(shù)和停留時(shí)長區(qū)間數(shù)為屬性,經(jīng)職住地識(shí)別問題轉(zhuǎn)變?yōu)橥A魰r(shí)段和停留時(shí)長的多屬性區(qū)間數(shù)決策問題,得到停留時(shí)段和停留時(shí)長的區(qū)間數(shù)決策矩陣,如表5所示。
表5 職住地決策矩陣ATable 5 Place of residence and workplace decision matrix A
對(duì)決策矩陣A進(jìn)行規(guī)范化,停留時(shí)段和停留時(shí)長均為效益型屬性,得到規(guī)范化矩陣R,如表6 所示。決策矩陣R-、R+列歸一化,得到矩陣R?-、R?+,如表7、8所示。
表6 職住地規(guī)范化矩陣RTable 6 Normalization matrix R of residence and workplace
表7 職住地歸一化矩陣R?-Table 7 Residence and workplace normalization matrix R?-
根據(jù)歸一化的上下限矩陣計(jì)算各屬性的熵和權(quán)重,如表9、10所示。設(shè)區(qū)間數(shù)上、下限的偏好相同,即α=β= 0.5 可得各屬性的綜合權(quán)重w=(0.206 5,0.793 5)。利用綜合權(quán)重計(jì)算各方案的綜合屬性值Zi分別為
表9 矩陣R-各屬性的信息熵和權(quán)重Table 9 Entropy and weight of matrix R-attributes
表8 職住地歸一化矩陣R?+Table 8 Residence and workplace normalization matrix R?+
表10 矩陣R+各屬性的信息熵和權(quán)重Table 10 Entropy and weight of matrix R+attributes
Zi(i= 0,1,2,3,4,5,6)兩兩比較的可能度矩陣P=(pij)7×7,如表11所示。
表11 各語義綜合屬性值兩兩比較的可能度矩陣PTable 11 The possibility matrix P for the comparison of the comprehensive attribute values of each scheme
由排序向量v及矩陣P中的可能度,得到可能度矩陣P的排序向量,通過分量的大小對(duì)方案進(jìn)行排序,確定最優(yōu)方案。
由于居住時(shí)段比工作時(shí)段的活動(dòng)更少,穩(wěn)定性更強(qiáng),因此在排序的前兩個(gè)語義地點(diǎn)中選擇停留時(shí)段屬性值較大的作為居住地,停留時(shí)段屬性值小的作為工作地。第i0語義與第i1語義停留時(shí)段屬性值大小以決策矩陣停留時(shí)段區(qū)間可能度來度量。若p(ai0j≥ai1j)>0.5,則i0為居住地,i1為工作地,否則i1為居住地,i0為工作地。在例子中,C3 和C8 的決策矩陣停留時(shí)段區(qū)間分別為a41=[2.399 4,5.365 0]、a51=[3.439 1,5.988 6],可能度p(a41≥a51)= 0.349 2,小于0.5,因此C8 為居住地,C3為居住地,識(shí)別結(jié)果與軌跡標(biāo)簽吻合。
為了比較多屬性決策算法與傳統(tǒng)的職住地算法的優(yōu)劣,對(duì)采集的標(biāo)簽數(shù)據(jù)采用兩種算法進(jìn)行職住地識(shí)別。由于時(shí)間閾值法是傳統(tǒng)職住地算法的基礎(chǔ)算法,其余算法大多是其的延伸,因此選取時(shí)間閾值法作為常規(guī)算法。
對(duì)數(shù)據(jù)量、劃分的時(shí)間段、停留時(shí)間閾值和天數(shù)閾值,采用全樣本量一周的數(shù)據(jù),根據(jù)經(jīng)驗(yàn)設(shè)定不同的劃分時(shí)間段slot、停留時(shí)間閾值T和天數(shù)閾值θ等參數(shù),比較不同參數(shù)下時(shí)間閾值法的識(shí)別結(jié)果,如表12、13 所示。統(tǒng)一設(shè)置居住地天數(shù)閾值為4,工作地天數(shù)閾值為3,表示在劃分時(shí)間段slot 內(nèi),停留時(shí)間閾值大于T的停留點(diǎn)出現(xiàn)天數(shù)大于4天的停留點(diǎn)為居住地,類似地得到工作地。
表12 各參數(shù)組合的時(shí)間閾值法居住地識(shí)別結(jié)果Table 12 Time threshold method of residence identification results of each parameter combination
由表中可以看出,常規(guī)職住地識(shí)別算法受劃分的時(shí)間段slot、停留時(shí)間閾值T和天數(shù)閾值θ等參數(shù)直接影響較大,由于時(shí)間段的經(jīng)驗(yàn)劃分無法挖掘用戶的作息規(guī)律,對(duì)于日間活躍時(shí)段無法有效識(shí)別用戶工作地,因此常規(guī)職住地算法具有很強(qiáng)的局限性。
表13 各參數(shù)組合的時(shí)間閾值法工作地識(shí)別結(jié)果Table 13 Time threshold method of residence identification results of each parameter combination
本研究提出的多屬性決策算法不依賴于時(shí)段的劃分,以及一系列閾值參數(shù)的選取,可以根據(jù)用戶日常出行作息規(guī)律習(xí)慣自動(dòng)挖掘用戶職住的規(guī)律,從而識(shí)別職住地。多屬性決策算法只與用戶數(shù)據(jù)樣本量有關(guān)。因此對(duì)不同樣本量分別為3天、4天、5天、6天和一周全樣本量的識(shí)別結(jié)果進(jìn)行對(duì)比,如表14所示。
表14 各語義綜合屬性值兩兩比較的可能度矩陣PTable 14 Possibility matrix for pairwise comparison of each semantic comprehensive attribute value
根據(jù)表14 可知,除了2020 年1 月10 日至2020年1月12日的樣本由于規(guī)律性差別較大,導(dǎo)致職住地識(shí)別反向外,其余15 個(gè)樣本的職住地均識(shí)別正確,說明職住地多屬性決策算法能夠較為全面地考慮停留時(shí)間段和停留時(shí)長等職住屬性,自動(dòng)挖掘職住的規(guī)律特征,同時(shí)具有較強(qiáng)的穩(wěn)定性,且在樣本量較小的情況下仍然有較強(qiáng)的職住識(shí)別能力。
本研究總結(jié)了目前職住地算法中存在的時(shí)間規(guī)則中時(shí)段劃分和時(shí)間閾值設(shè)置依據(jù)不足、空間聚合距離大小的設(shè)置方法有效性未知、缺乏對(duì)多種職住屬性的綜合考慮以及只能定性識(shí)別職住地理位置而無法挖掘用戶作息規(guī)律等突出問題。并基于軌跡點(diǎn)識(shí)別,提出了軌跡簇空間聯(lián)合流程,通過實(shí)驗(yàn)證明該流程能夠提升停留區(qū)域識(shí)別的時(shí)空精度,錨固停留區(qū)域時(shí)段和時(shí)長的準(zhǔn)確度。在準(zhǔn)確劃分軌跡停留區(qū)域時(shí)空界限的前提下,通過時(shí)段停留次數(shù)和停留點(diǎn)分布特性計(jì)算時(shí)段熵,度量時(shí)段屬于職住時(shí)段的可能性,對(duì)時(shí)段賦權(quán)值。通過對(duì)任意語義停留點(diǎn)到達(dá)和離去時(shí)段的離散化,以停留時(shí)段和停留時(shí)長為特征構(gòu)建職住地綜合決策矩陣,識(shí)別出最可能的職住地語義。通過與傳統(tǒng)的職住地識(shí)別算法對(duì)比,可知多屬性決策方法的識(shí)別準(zhǔn)確率優(yōu)于傳統(tǒng)職住地算法,在樣本較小的情況下仍具有較強(qiáng)的穩(wěn)定性,可以直接應(yīng)用于現(xiàn)實(shí)數(shù)據(jù)。
中山大學(xué)學(xué)報(bào)(自然科學(xué)版)(中英文)2022年2期