王長(zhǎng)碩 蒲英霞,2,3*
1(南京大學(xué)地理與海洋科學(xué)學(xué)院 江蘇 南京 210023)2(南京大學(xué)江蘇省地理信息技術(shù)重點(diǎn)實(shí)驗(yàn)室 江蘇 南京 210023)3(南京大學(xué)江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心 江蘇 南京 210023)
城市是人類聚居的主要形式之一,是經(jīng)濟(jì)社會(huì)發(fā)展和文化交流的主要載體[1]。城市居民通過(guò)在城市不同區(qū)域、不同場(chǎng)所間的通勤和遷移,滿足居家、上班、購(gòu)物、娛樂(lè)等生產(chǎn)和生活需求,實(shí)現(xiàn)生存發(fā)展和價(jià)值追求[2]。城市居民的出行行為包括出行目的、出行方式、出行時(shí)間等,與其包括社會(huì)角色在內(nèi)的群體標(biāo)簽之間相輔相成、互相約束。例如,當(dāng)“學(xué)生”群體的出行目的地為“電影院”等娛樂(lè)場(chǎng)所時(shí),其出行行為將受到一定時(shí)間限制,大多選擇工作日晚間或周末;而若在工作日上午出門,前往“學(xué)?!睂W(xué)習(xí)這一出行行為則具有更高的概率。通過(guò)城市居民群體分類和出行特征分析,有助于發(fā)現(xiàn)城市居民的出行行為模式及變化規(guī)律,理解居民在城市中的時(shí)空參與性,從而更好地服務(wù)于人類生活需要[3]。
自19世紀(jì)起,地理學(xué)家、交通學(xué)家和社會(huì)學(xué)家從個(gè)體行為理論[4-5]、居民出行目的[6]、出行方式[7-9]、出行特征[10-11]等不同方向?qū)Τ鞘芯用癯鲂行袨檫M(jìn)行了研究。傳統(tǒng)城市居民出行特征研究一般是以交通小區(qū)為單位分析居民出行交通活動(dòng)(集計(jì)模型),進(jìn)而獲取一個(gè)時(shí)段內(nèi)(一般是一個(gè)晝夜)的全體城市居民的宏觀出行特征信息,主要包括出行頻率、出行目的、出行時(shí)間分布等。在此基礎(chǔ)上,建立回歸分析模型等探索居民出行規(guī)律。隨著城市的發(fā)展和人們生活水平的提高,居民出行方式越來(lái)越多元化和復(fù)雜化,居民出行調(diào)查數(shù)據(jù)的獲取周期長(zhǎng)、成本高,傳統(tǒng)方法逐漸顯現(xiàn)出其局限性。全球定位系統(tǒng)(GPS)、遙感技術(shù)(RS)和地理信息系統(tǒng)(GIS)的發(fā)展使得新的數(shù)據(jù)采集方法和分析手段不斷涌現(xiàn),國(guó)內(nèi)外學(xué)者基于手機(jī)信令數(shù)據(jù)[12]、公交車刷卡數(shù)據(jù)[13]、GPS軌跡數(shù)據(jù)[14-17]和社交媒體數(shù)據(jù)[18],開展了人類出行行為[13,16-17]、土地利用分類[12,14-15,18]等研究。例如,鄭林江等[17]基于出租車軌跡數(shù)據(jù),提出一種基于網(wǎng)格密度的GScan聚類算法,以重慶市為例分析居民出行熱點(diǎn)區(qū)域。
由Blei等[19]提出的潛在狄利克雷分布(Latent Dirichlet Allocation,LDA)模型在探究城市居民時(shí)空行為方面具有較好的潛力。作為一種概率生成模型,LDA具有潛在語(yǔ)義挖掘和主題提取能力,已被廣泛應(yīng)用于自然語(yǔ)言處理、文本分類、場(chǎng)景分類等領(lǐng)域[20-21]。該模型包含“詞匯-主題-文檔”三個(gè)層次,其中隱含主題由詞匯的多項(xiàng)分布表示,而文檔則用隱含主題的多項(xiàng)分布表示,通過(guò)模型求解確定每一篇文檔所隱含主題的概率分布,進(jìn)而對(duì)未知文檔完成文本分類?;诔鞘芯用癯鲂行袨榈奶卣鞣诸惡臀谋痉诸愌芯烤哂幸欢ǖ南嗨菩?,城市居民在不同時(shí)空間扮演社會(huì)角色的不同,導(dǎo)致同一居民存在多種對(duì)應(yīng)的群體類別,因此可以根據(jù)居民的出行行為構(gòu)建語(yǔ)料庫(kù),利用LDA模型將居民劃分為具有不同出行特征的群體。
LDA模型是貝葉斯方法的具體應(yīng)用。貝葉斯方法的優(yōu)勢(shì)在于將定性或定量的先驗(yàn)信息與樣本信息結(jié)合,通過(guò)學(xué)習(xí)機(jī)制,共同得出模型和變量的后驗(yàn)概率分布,它不僅可以避免僅使用先驗(yàn)信息可能帶來(lái)的主觀偏見,還可避免缺乏樣本信息時(shí)的大量盲目搜索與計(jì)算[22-23]。然而傳統(tǒng)的LDA模型并沒(méi)有借助樣本信息外的其他信息作為先驗(yàn),導(dǎo)致了其非監(jiān)督特性。Labeled-LDA模型通過(guò)附加類別標(biāo)簽,將類別先驗(yàn)信息融入LDA模型,克服了傳統(tǒng)LDA強(qiáng)制分配隱含主題的缺陷,有效提高了分類的準(zhǔn)確性和結(jié)果的可解釋性[24-25]。因此,基于Labeled-LDA模型挖掘城市居民出行行為,可以得到具有現(xiàn)實(shí)意義、易于解釋的群體類別。
憑借著用戶參與的廣泛性與即時(shí)性、信息擴(kuò)散模式與速度等方面的優(yōu)勢(shì),移動(dòng)社交媒體數(shù)據(jù)在表達(dá)城市居民日常出行行為方面具有明顯優(yōu)勢(shì)。2016年末的統(tǒng)計(jì)顯示,Twitter的月活躍用戶量已超過(guò)3億,平均每位用戶擁有208位直接社交朋友[26]。據(jù)此,本文利用2014年波士頓海量Twitter簽到數(shù)據(jù),構(gòu)建居民出行活動(dòng)模式模型和Labeled-LDA模型,將社會(huì)角色標(biāo)簽作為附加先驗(yàn)信息,在群體和個(gè)體尺度上分析城市居民的日常出行行為,探究居民出行時(shí)空特征,為居民在不同時(shí)空間表現(xiàn)出的不同出行行為特征提供概率解釋。
為探究城市居民日常出行規(guī)律,分析不同群體時(shí)空出行特征,本文建立表征城市居民出行行為的定量模型,現(xiàn)給出如下定義:
定義1移動(dòng)軌跡。處于活動(dòng)A1的城市居民在TL時(shí)間離開某地RO,在TA時(shí)間到達(dá)另一地點(diǎn)RD,目的為活動(dòng)A2,則包含出行目的的居民出行移動(dòng)軌跡可表示為如下的一個(gè)六元組M:
M=
(1)
定義2活動(dòng)模式。當(dāng)優(yōu)先考慮居民出行活動(dòng)的目的,探究群體或個(gè)體出行目的規(guī)律時(shí),忽略居民出行的地理位置差異,則移動(dòng)軌跡可表示為如下的一個(gè)四元組M+:
M+=
(2)
現(xiàn)實(shí)生活中,居民日常的出行狀態(tài):“離開”或“到達(dá)”常影響其出行目的和起訖地理位置,并呈現(xiàn)較強(qiáng)的規(guī)律性,例如學(xué)生群體工作日的“離開”常常指離開“家”到達(dá)“學(xué)?!薄?/p>
將每一個(gè)居民個(gè)體作為一篇文檔,居民的群體類別作為主題,居民出行活動(dòng)模式作為詞匯,可以運(yùn)用Labeled-LDA模型對(duì)城市居民進(jìn)行群體分類,如圖1所示。
城市居民的所有出行行為信息→語(yǔ)料庫(kù)城市居民→文檔具有不同出行特征的人群→文檔的主題居民出行活動(dòng)模式→詞匯
圖1 Labeled-LDA用于居民群體分類的思想類比
為分析城市居民的出行行為特征,探究居民扮演的社會(huì)角色作為先驗(yàn)信息與居民出行行為模式之間的潛在規(guī)律,研究從以下三個(gè)階段展開:居民出行活動(dòng)模式構(gòu)建,基于LDA模型提取社會(huì)角色先驗(yàn)信息,基于Labeled-LDA模型完成群體分類和出行特征分析。首先使用Twitter簽到數(shù)據(jù)提取城市居民出行活動(dòng)類型和時(shí)間等信息,生成居民出行活動(dòng)模式;其次建立LDA模型處理活動(dòng)模式,得到典型群體的出行活動(dòng)分布,并作為先驗(yàn)信息;最后建立Labeled-LDA模型,完成城市居民群體分類,于群體尺度和個(gè)體尺度分析居民出行特征。
圖2 Labeled-LDA模型圖解[24]
算法1Labeled-LDA模入:語(yǔ)料庫(kù)D={d1,d2,…,dm…,dM},Dirichlet超參數(shù)α、β,主題數(shù)量K,先驗(yàn)標(biāo)簽Φ,先驗(yàn)標(biāo)簽集Λ(d)。
輸出:文檔-主題多項(xiàng)分布θ(d),主題-詞匯多項(xiàng)分布φk。
步驟1對(duì)于每一個(gè)主題變量k∈{1,2,…,K}:
產(chǎn)生φk=(φk,1,φk,2,…,φk,V)~Dir(·|β);
步驟2對(duì)于每一篇文檔d:
步驟2.1對(duì)于其中的每一個(gè)主題變量:
步驟2.2產(chǎn)生α(d)=L(d)×α;
步驟2.3產(chǎn)生θ(d)=(θl1,θl2,…,θld)~Dir(·|α(d));
步驟2.4遍歷對(duì)于該文檔中的每一個(gè)詞匯:
產(chǎn)生詞匯wi∈{1,2,…,V}~Mult(·|φzi)。
模型可以得到居民群體類別的后驗(yàn)概率(對(duì)應(yīng)文檔-主題后驗(yàn)概率分布)、居民出行活動(dòng)模式對(duì)群體類別的解釋強(qiáng)度(對(duì)應(yīng)主題-詞匯后驗(yàn)概率分布),結(jié)合兩者能夠?qū)Τ鞘芯用竦某鲂行袨橐?guī)律做出定量解釋和歸納。
在標(biāo)簽集Λ(d)的設(shè)置過(guò)程中,本文使用傳統(tǒng)LDA模型對(duì)城市居民的出行行為進(jìn)行探索性分類,得到典型的居民群體,提取其出行活動(dòng)分布作為先驗(yàn)信息。具體過(guò)程如下:
算法2Labeled-LDA標(biāo)簽集設(shè)入:基于簽到數(shù)據(jù)的波士頓城市居民出行活動(dòng)模式(樣本信息D),基于LDA模型的探索性分類結(jié)果(先驗(yàn)信息)。
輸出:波士頓城市居民先驗(yàn)標(biāo)簽集Λ(d)。
步驟1分析傳統(tǒng)LDA模型探索性分類結(jié)果,得到具有典型出行行為特征的群體,提取其出行活動(dòng)分布向量作為先驗(yàn)分布曲線。
步驟2對(duì)于每一位波士頓居民:
步驟2.1遍歷該居民的所有出行活動(dòng)模式:M+=
步驟2.2基于歐氏距離比較該居民的出行活動(dòng)分布曲線與步驟1中的先驗(yàn)曲線,計(jì)算曲線相似度。
步驟2.3選擇最大曲線相似度對(duì)應(yīng)的群體類別(社會(huì)角色)作為該居民的先驗(yàn)標(biāo)簽。
步驟3完成先驗(yàn)標(biāo)簽集設(shè)置,繼續(xù)Labeled-LDA建模。
求解含有隱含變量的概率主題模型非常困難,無(wú)法通過(guò)常用的最大似然函數(shù)方法對(duì)模型進(jìn)行推導(dǎo),目前比較常用的方法包括期望最大化算法(Expectation Maximization,EM)以及馬爾可夫鏈蒙特卡洛算法(Markov Chain Monte Carlo,MCMC)等。Labeled-LDA模型的似然函數(shù)為非凸函數(shù),采用EM算法容易得到局部最優(yōu)解,而由于多項(xiàng)分布和狄利克雷分布具有共軛特性,基于MCMC的吉布斯抽樣可以極大簡(jiǎn)化抽樣復(fù)雜度,因此我們使用吉布斯方法對(duì)參數(shù)進(jìn)行抽樣,獲得參數(shù)的后驗(yàn)分布[21]。
本文利用美國(guó)波士頓2014年Twitter簽到數(shù)據(jù)展開實(shí)驗(yàn)。源簽到數(shù)據(jù)時(shí)間跨度自美國(guó)東部時(shí)間2013年12月31日至2014年12月31日,記錄了用戶經(jīng)去隱私化處理的ID、簽到時(shí)間、活動(dòng)類型、簽到時(shí)所在地的建筑物ID、所在地的重要性、家庭住址等信息。
如表1所示,源簽到數(shù)據(jù)中各用戶的不同簽到記錄由“,”鏈接,同一簽到記錄下,各數(shù)據(jù)項(xiàng)由“&”鏈接。每位用戶的第一個(gè)簽到記錄為補(bǔ)充的家庭地址信息,以活動(dòng)類型為“0”作為標(biāo)記,除家庭地址的經(jīng)緯度外其他信息無(wú)實(shí)際意義。從第二個(gè)簽到記錄開始為用戶的實(shí)際簽到數(shù)據(jù),依次包括地址重要性、建筑物ID、簽到時(shí)間、輔助簽到時(shí)間(位于一年中的第幾天)、活動(dòng)類型五個(gè)信息。其中,活動(dòng)類型共有12種,活動(dòng)類型代碼與實(shí)際意義的聯(lián)系見表2。
表1 美國(guó)波士頓簽到數(shù)據(jù)示例
表2 活動(dòng)類型的實(shí)際含義及其映射
根據(jù)活動(dòng)模式模型,本文將Twitter簽到數(shù)據(jù)一一映射為居民出行活動(dòng)模式,并生成對(duì)應(yīng)的活動(dòng)模式詞匯。由于城市居民出行的活動(dòng)周期通常為一天,因此以一個(gè)小時(shí)為時(shí)間間隔離散化時(shí)間,得到值為0~23的時(shí)間序列。為避免時(shí)間與活動(dòng)類型混淆,本文將活動(dòng)類型映射為“A-L”(表2)。例如,某波士頓居民于2014年5月1日0時(shí)在“家”簽到,然后于當(dāng)日9時(shí)在“學(xué)?!焙灥?,則其對(duì)應(yīng)的活動(dòng)模式詞匯為A_0_D及A_D_9。
本文對(duì)由簽到數(shù)據(jù)生成的活動(dòng)模式進(jìn)行了統(tǒng)計(jì)。源數(shù)據(jù)中總用戶數(shù)量為14 177人,可生成3 879 072條活動(dòng)模式??紤]到數(shù)據(jù)量不能過(guò)小,本文最終選定年簽到數(shù)據(jù)量高于1 500條的588位用戶及其1 705 568條活動(dòng)模式,作為后續(xù)研究的數(shù)據(jù)源。
使用JAVA語(yǔ)言搭建LDA模型,對(duì)城市居民活動(dòng)模式詞匯進(jìn)行處理,生成居民群體類別的后驗(yàn)概率(文檔-主題后驗(yàn)概率分布)及居民出行活動(dòng)模式對(duì)群體類別的解釋強(qiáng)度(主題-詞匯后驗(yàn)概率分布)。本文將LDA模型類別數(shù)量(K)設(shè)置為10,模型迭代次數(shù)設(shè)為3 000。對(duì)于文檔和主題先驗(yàn)Dirichlet分布超參數(shù)(α和β),本文根據(jù)文獻(xiàn)[27-28]的研究,取α=50/K,β=0.01,此時(shí)模型性能較好。
LDA模型可得到10種群體類別。表3為居民出行活動(dòng)模式詞匯從屬于各群體類別的后驗(yàn)概率分布,取排名前十的結(jié)果。概率越大,排名越靠前,越能解釋其相對(duì)應(yīng)的群體類別。
表3 居民出行活動(dòng)模式對(duì)群體類別的解釋強(qiáng)度
通過(guò)分析各活動(dòng)模式對(duì)群體類別的解釋性,我們可以總結(jié)和歸納出群體類別的現(xiàn)實(shí)意義。其中,群體類別1、5、6、7、8具有典型的出行行為模式,分別與居家人員、夜間活動(dòng)族、大學(xué)生、上班族、中小學(xué)生的出行行為相接近,因此提取這5個(gè)群體的出行活動(dòng)分布作為先驗(yàn)信息(表4及圖3),為每一位居民設(shè)置先驗(yàn)標(biāo)簽。
表4 典型居民群體的出行活動(dòng)分布向量
圖3 典型居民群體的出行活動(dòng)分布曲線
Labeled-LDA模型主題數(shù)量設(shè)為5,其余參數(shù)同傳統(tǒng)LDA模型。模型可以得到波士頓各居民屬于5個(gè)群體類別的后驗(yàn)概率分布,如表5所示,編號(hào)為1934319254的波士頓居民屬于居家人員、夜間活動(dòng)族、大學(xué)生、上班族和中小學(xué)生的后驗(yàn)概率分別為0.015、0.407、0.172、0.086和0.320。其中,屬于夜間活動(dòng)族的概率最大,說(shuō)明該居民通過(guò)Twitter簽到所反映出來(lái)的日常出行行為更符合夜間活動(dòng)族群體。
表5 Labeled-LDA建模結(jié)果
為分析各群體出行行為時(shí)空特征,本文設(shè)置后驗(yàn)概率最大的類別作為該居民的群體類別,提取波士頓居民在2014年任意30天內(nèi)的出行行為,結(jié)果如圖4所示,橫軸代表以一小時(shí)計(jì)的30天(共720小時(shí)),縱軸代表各群體類別的波士頓居民。同時(shí),本文統(tǒng)計(jì)了Labeled-LDA主題-詞匯后驗(yàn)概率分布,表6所示為排名前十的居民出行活動(dòng)模式詞匯。
圖4 波士頓居民群體的出行行為分布
表6 Labeled-LDA建模結(jié)果:主題-詞匯分布
居家人員的出行行為以“家”與“購(gòu)物場(chǎng)所”、“家”與“家”、“娛樂(lè)場(chǎng)所”之間的通勤為主。更為具體地,早上9點(diǎn)或10點(diǎn),居家人員從“家”出發(fā)前往“購(gòu)物場(chǎng)所”,于9點(diǎn)或10點(diǎn)到達(dá)(由活動(dòng)模式A_9_I、A_I_9、I_I_10、A_I_10反映,下類似);上午10點(diǎn),居家人員在“購(gòu)物場(chǎng)所”采購(gòu)家用生活物品、食物時(shí),在不同“購(gòu)物場(chǎng)所”區(qū)域內(nèi)移動(dòng),居民可能一邊購(gòu)物一邊悠閑玩手機(jī)(I_I_10、I_10_I);下午,居家人員可能于13點(diǎn)左右前往“娛樂(lè)場(chǎng)所”娛樂(lè)和休閑;而到了21點(diǎn),居家人員或返回“家”中,或由“家”中出發(fā)前往其他區(qū)域休閑后再度返“家”(A_21_A、A_A_21)。
夜間活動(dòng)族的出行行為以“家”與“家”、“家”與“辦公場(chǎng)所”、“購(gòu)物場(chǎng)所”之間的通勤為主。更為具體地,夜間活動(dòng)族于早上8點(diǎn)離開“辦公場(chǎng)所”(F_A_10、F_F_8),在10點(diǎn)到達(dá)“家”中;在“家”中,他們或休息到12點(diǎn)后再度出門,或不休息直接出門前往其他活動(dòng)類型區(qū)域,或者休憩結(jié)束后居家玩手機(jī),期間多次使用Twitter簽到(A_A_10、A_10_A、A_A_12及A_A_12);夜間活動(dòng)族在15點(diǎn)左右會(huì)前往“購(gòu)物場(chǎng)所”采購(gòu)生活物品,他們?cè)凇百?gòu)物場(chǎng)所”的行為方式與居家人員一樣,一邊購(gòu)物一邊悠閑玩手機(jī),然后他們于15點(diǎn)左右返回家中;最后,在17點(diǎn)夜間活動(dòng)族會(huì)返回“辦公場(chǎng)所”上班,如果沒(méi)有排班的話,他們則在19點(diǎn)或返回“家”中,或由“家”中出發(fā)前往其他區(qū)域休閑后再度返“家”。
大學(xué)生的出行行為以“大學(xué)”與“大學(xué)”、“大學(xué)”與“家”、“家”與“家”之間的通勤為主。更為具體地,早上8點(diǎn)或9點(diǎn),大學(xué)生到達(dá)“大學(xué)”并在“大學(xué)”內(nèi)部通勤,可能是在不同教室上課或?qū)W習(xí),但他們時(shí)常使用Twitter簽到;下午大學(xué)生的出行行為也是如此,在“大學(xué)”內(nèi)部通勤;直到17點(diǎn)或更晚,家在波士頓的大學(xué)生陸續(xù)返回“大學(xué)”;從17點(diǎn)開始至21點(diǎn),部分大學(xué)生或返回“家”中,或由“家”中出發(fā)前往其他區(qū)域休閑后再度返“家”。
上班族的出行行為以“家”與“辦公場(chǎng)所”之間的通勤為主。更為具體地,早上8點(diǎn)或9點(diǎn),他們于“家”出發(fā)前往“辦公場(chǎng)所”,并于9點(diǎn)或10點(diǎn)到達(dá);中午11點(diǎn)至12點(diǎn),上班族在“辦公場(chǎng)所”內(nèi)通勤,可能是在公司內(nèi)部或附近吃完午飯,然后回到公司繼續(xù)上班;17點(diǎn)左右工作結(jié)束,上班族開始返“家”;到了19點(diǎn)至21點(diǎn),他們則在家中休閑刷手機(jī),使用Twitter簽到,或由“家”中出發(fā)前往其他區(qū)域休閑后再度返“家”。
中小學(xué)生群體的出行行為以“家”與“學(xué)?!?、“學(xué)?!迸c“學(xué)校”、“家”與“家”之間的通勤為主。更為具體地,早上7點(diǎn)至9點(diǎn),學(xué)生從“家”出發(fā)前往“學(xué)?!遍_啟一天的學(xué)習(xí)歷程;中午12點(diǎn),部分學(xué)生會(huì)離開“學(xué)?!钡竭_(dá)“家”中,也有部分學(xué)生一直在“學(xué)?!?;到了16、17點(diǎn)左右,學(xué)生們結(jié)束了一天的學(xué)習(xí)開始返回“家”中,或已經(jīng)到“家”,而他們?cè)诘竭_(dá)“家”后,有可能前往其他區(qū)域休閑,并于更晚時(shí)候再度返“家”。
為進(jìn)一步探究引入先驗(yàn)信息對(duì)模型結(jié)果的影響,本文統(tǒng)計(jì)了各群體居民的活動(dòng)類型占比(后驗(yàn)分布),對(duì)比傳統(tǒng)LDA模型得到的居民活動(dòng)類型占比(先驗(yàn)分布),分析在使用先驗(yàn)信息后,Labeled-LDA模型得到的居民出行行為變化情況。
如表7所示,居家人員群體于“購(gòu)物場(chǎng)所”、“學(xué)?!被顒?dòng)的后驗(yàn)概率相比先驗(yàn)有一定幅度的提升,而于“娛樂(lè)場(chǎng)所”活動(dòng)的后驗(yàn)概率則下降,說(shuō)明Labeled-LDA在有效加入先驗(yàn)信息進(jìn)行分類的同時(shí),沒(méi)有忽略樣本數(shù)據(jù)自身的信息特征。夜間活動(dòng)族于“辦公場(chǎng)所”的后驗(yàn)概率與先驗(yàn)概率相比,提高了0.058,這一方面說(shuō)明該群體在“辦公場(chǎng)所”出行行為與他們的日常生活聯(lián)系緊密,另一方面給出了該群體在現(xiàn)實(shí)生活中所對(duì)應(yīng)的實(shí)際人群的可能性解釋,例如夜間工作的藍(lán)領(lǐng)員工、從事夜間基礎(chǔ)設(shè)施服務(wù)的服務(wù)類型人員等。大學(xué)生群體于地點(diǎn)“大學(xué)”有關(guān)的出行活動(dòng)概率達(dá)到了20.5%,即他們?cè)谌粘I钪杏形宸种坏某鲂行袨椋涑霭l(fā)地或目的地為“大學(xué)”,遠(yuǎn)高于相應(yīng)的樣本頻率和先驗(yàn)概率,說(shuō)明Labeled-LDA模型有效提取了該群體于“大學(xué)”的出行行為模式。上班族群體于“辦公場(chǎng)所”的通勤行為中,后驗(yàn)概率為17.6%,相比先驗(yàn)有所升高,說(shuō)明出行行為模式更集中于“辦公場(chǎng)所”的居民被歸類為上班族群體。
表7 波士頓居民群體的活動(dòng)類型分布
續(xù)表7
在實(shí)際生活中,“人”常常扮演著多個(gè)角色,比如工作日在“學(xué)?!睍r(shí),居民扮演“學(xué)生”角色,而放假期間在“家”時(shí),居民則扮演“居家人員”的角色,城市居民的出行行為隨著不同時(shí)空間扮演社會(huì)角色的不同而發(fā)生著巨大的變化。Labeled-LDA模型將先驗(yàn)信息(標(biāo)簽)和樣本信息(波士頓居民出行活動(dòng)模式)相結(jié)合,基于吉布斯抽樣通過(guò)不斷迭代采樣而得到波士頓居民屬于各群體類別的后驗(yàn)概率分布,這一貝葉斯過(guò)程所產(chǎn)生的模型結(jié)果,在一定程度上反映了個(gè)體出行行為的不確定性。
例如,Labeled-LDA得到ID號(hào)35793087的波士頓居民屬于居家人員、夜間活動(dòng)族、大學(xué)生、上班族和中小學(xué)生的后驗(yàn)概率分別為0.445、0.470、0.050、0.023和0.012,屬于夜間活動(dòng)族的后驗(yàn)概率最大,因此被分為夜間活動(dòng)族(表5)。然而,這并不意味著該居民在任一時(shí)刻的出行行為都反映了夜間活動(dòng)族群體的出行行為特征。如圖5所示,本文提取了該居民于某工作日(3天,不連續(xù))和某周末(2天,不連續(xù))的活動(dòng)模式,可以發(fā)現(xiàn)工作日該居民的出行行為十分符合3.3節(jié)對(duì)夜間活動(dòng)族群體出行行為的總結(jié)規(guī)律,然而,他/她于周末的出行行為卻更貼近居家人員群體。
圖5 波士頓某居民工作日/周末活動(dòng)模式展示
由于個(gè)體自身的不確定性,導(dǎo)致個(gè)體出行行為所表征的出行規(guī)律在不同時(shí)間周期的表現(xiàn)均有所不同。Labeled-LDA模型能基于先驗(yàn)信息和樣本信息,得到城市居民屬于不同群體類別的后驗(yàn)概率分布,對(duì)個(gè)體出行行為的不確定性起到了一定的解釋作用,能在一定程度上反映城市居民出行行為的復(fù)雜性。
本文提出一種基于Labeled-LDA的城市居民群體分類和出行特征分析框架。首先利用城市居民的海量Twitter簽到數(shù)據(jù),構(gòu)建居民出行活動(dòng)模式模型定量表征城市居民的日常出行行為;其次構(gòu)建潛在狄利克雷分布模型LDA對(duì)城市居民進(jìn)行探索性分類,針對(duì)分類結(jié)果提取典型城市居民群體的出行活動(dòng)分布作為先驗(yàn)信息;最后,構(gòu)建標(biāo)簽狄利克雷分布模型Labeled-LDA,將城市居民劃分為居家人員、夜間活動(dòng)族、大學(xué)生、上班族及中小學(xué)生五個(gè)群體,于群體維度分析城市居民的出行行為特征,并討論個(gè)體出行行為的不確定性。
通過(guò)引入先驗(yàn)信息,Labeled-LDA模型能夠有效完成城市居民在群體維度的出行行為特征分類,并定量解釋居民群體的出行行為規(guī)律。以后驗(yàn)概率分布形式給出的Labeled-LDA模型群體分類結(jié)果,有效體現(xiàn)了個(gè)體出行行為的復(fù)雜性與不確定性,為城市居民在不同時(shí)間和地點(diǎn)表現(xiàn)出不同群體的出行行為特征提供了定量的數(shù)據(jù)支撐。