張玉桃
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
基于旅客社交網(wǎng)絡(luò)中的家庭出行預(yù)測(cè)
張玉桃
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
家庭是客運(yùn)市場(chǎng)最常見(jiàn)的消費(fèi)單元之一。如果能夠?qū)彝卧谖磥?lái)一段時(shí)間是否出行做出準(zhǔn)確的預(yù)測(cè),將有助于客運(yùn)、旅游等相關(guān)行業(yè)為家庭旅客提供個(gè)性化的服務(wù)和相關(guān)產(chǎn)品推薦。預(yù)測(cè)一個(gè)家庭在未來(lái)一段時(shí)間是否會(huì)出行是一個(gè)分類問(wèn)題。構(gòu)建家庭的人口統(tǒng)計(jì)學(xué)特征、歷史行為特征以及預(yù)測(cè)時(shí)間窗口特征作為分類屬性,使用多種分類算法進(jìn)行家庭出行的預(yù)測(cè)。還構(gòu)建基于共同出行關(guān)系的旅客社交網(wǎng)絡(luò),通過(guò)構(gòu)建家庭成員的社交網(wǎng)絡(luò)屬性來(lái)進(jìn)一步描述家庭特征。在一個(gè)旅客歷史數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了較好的效果。
旅客社交網(wǎng)絡(luò);家庭出行;行為預(yù)測(cè)
家庭是社會(huì)的基本單位,也是客運(yùn)領(lǐng)域中最常見(jiàn)的出行消費(fèi)單元之一。由于家庭出行受到時(shí)間、經(jīng)濟(jì)等多種因素的影響,因此家庭出行呈現(xiàn)出不確定。如果能夠準(zhǔn)確地預(yù)測(cè)出家庭在一個(gè)時(shí)間段內(nèi)是否出行,將有助于客運(yùn)、旅行社、酒店等服務(wù)行業(yè)為家庭提供個(gè)性化的出行服務(wù)或產(chǎn)品推薦[1]。例如客運(yùn)公司可以為家庭預(yù)留相鄰座位以提高旅客的滿意度;旅行社可以根據(jù)家庭的出行習(xí)慣為家庭推薦適合的旅行線路等。此外,本研究還可以為相關(guān)組織或者政府提供決策支持。例如當(dāng)?shù)卣梢詤⒖记皝?lái)旅游的家庭模式(夫妻旅游、親子旅游)來(lái)開發(fā)相應(yīng)的旅游產(chǎn)品,完善基礎(chǔ)設(shè)施[2]和調(diào)整目的地意象(Destination Image)[3]等以促進(jìn)當(dāng)?shù)亟?jīng)濟(jì)發(fā)展。
與此同時(shí),客運(yùn)企業(yè)信息化水平的提高使得其積累的海量旅客信息和歷史出行信息得以有效利用,為我們從中發(fā)現(xiàn)家庭的出行特征提供了有效地途徑,為預(yù)測(cè)家庭出行提供了充分的條件。我們從旅客的歷史出行記錄中提取了旅客間的共同出行關(guān)系,構(gòu)建了旅客社交網(wǎng)絡(luò)。圖1給出一個(gè)簡(jiǎn)單的旅客社交網(wǎng)絡(luò)及家庭團(tuán)體示例,括號(hào)中的文字分別代表對(duì)應(yīng)旅客的性別(F代表女、M代表男)、年齡和出行總次數(shù),邊上數(shù)字代表旅客間共同出行次數(shù),紅色實(shí)線代表家庭關(guān)系,藍(lán)色點(diǎn)線代表同事關(guān)系,綠色虛線代表朋友關(guān)系。該圖反映了旅客社交網(wǎng)絡(luò)中的旅客間關(guān)系以及家庭內(nèi)部關(guān)系。
圖1 一個(gè)簡(jiǎn)單的旅客社交網(wǎng)絡(luò)及家庭團(tuán)體示例
Smart和Neale[4]認(rèn)為家庭旅游就是屬于家庭行為的一種,而家庭旅游行為是為了創(chuàng)造一種家庭觀念,也就是說(shuō)擁有一種作為統(tǒng)一的、穩(wěn)定的和有愛(ài)的家庭的共同認(rèn)知。Nick Johns和Szilvia Gyimóthy[5]以后現(xiàn)代家庭旅游經(jīng)歷為研究對(duì)象,將家庭旅游定義為由家庭成員共同參與,并在度假過(guò)程中相互影響的活動(dòng)。Peercy和McCleary[6]則認(rèn)為,近年來(lái)由于家庭結(jié)構(gòu)的變化,部分家庭旅游是由(外)祖父母與孫子(女)同行,有部分家庭旅游是由一對(duì)夫婦與孩子及(外)祖父母三代同行,有的是父母雙方帶孩子出游或父母單方(單親父母)與孩子同行。綜合以上研究,本文設(shè)定,家庭出行是指由全部或部分家庭成員參與的,從出發(fā)地向目的地移動(dòng)的交通行為。
只有預(yù)測(cè)一個(gè)時(shí)間段內(nèi)的家庭出行才有實(shí)際意義。因此,要預(yù)測(cè)家庭出行,首先要確定預(yù)測(cè)時(shí)間窗口。本研究將選取一個(gè)月為預(yù)測(cè)時(shí)間窗口。即給定一個(gè)當(dāng)前日期,利用當(dāng)前日期之前一年的歷史出行記錄來(lái)預(yù)測(cè)未來(lái)一個(gè)月內(nèi)家庭是否會(huì)出行。
把家庭出行預(yù)測(cè)問(wèn)題定義為一個(gè)傳統(tǒng)的分類問(wèn)題。我們構(gòu)造了一系列的特征屬性來(lái)描述家庭,包括家庭人口統(tǒng)計(jì)學(xué)特征(例如家庭人口數(shù)、不同年齡段的小孩個(gè)數(shù)等)、家庭歷史出行特征(例如家庭出行次數(shù)、累計(jì)出行里程等)、家庭成員歷史出行特征(例如家庭成員出行次數(shù)、家庭成員節(jié)假日出行次數(shù)等)、預(yù)測(cè)時(shí)間窗口特征(例如是否有節(jié)假日、節(jié)假日長(zhǎng)度等)等,然后利用這些特征訓(xùn)練分類器。然而,僅僅利用以上這些特征屬性對(duì)家庭出行進(jìn)行預(yù)測(cè)是遠(yuǎn)遠(yuǎn)不夠的。因?yàn)椴煌募彝ピ谝恍┨卣魃系谋憩F(xiàn)是相似的。
因此,我們從旅客歷史出行信息中提取旅客間的共同出行關(guān)系,構(gòu)建一種特定類型的大規(guī)模旅客社交網(wǎng)絡(luò)。該網(wǎng)絡(luò)可以在某種程度上反映旅客之間的社會(huì)關(guān)系。我們利用旅客間的社會(huì)關(guān)系來(lái)設(shè)計(jì)描述不同家庭的特征屬性。一個(gè)家庭的出行在一定程度上可能會(huì)受到在周圍社會(huì)關(guān)系的影響,而且關(guān)系強(qiáng)度不同,影響效果也不同。
本節(jié)中,我們將給出一些必要的定義,并對(duì)要研究的問(wèn)題形式化。
定義1:旅客社交網(wǎng)絡(luò)旅客社交網(wǎng)絡(luò)用于表示旅客間的關(guān)系和強(qiáng)度??梢苑?hào)化為G={V,E},其中,V表示所有節(jié)點(diǎn)的集合,pi表示一個(gè)旅客,且pi∈V;E表示網(wǎng)絡(luò)中所有的邊的集合,每條邊代表旅客間的社會(huì)關(guān)系。
定義2:家庭旅客網(wǎng)絡(luò)中的家庭是指同屬于一個(gè)社會(huì)家庭的部分或者全部旅客集合??梢远x如下:CF=(VF,EF),其中VF是家庭成員集合,且VF∈V;EF家庭成員間關(guān)系的集合,且EF∈E。
定義3:旅客個(gè)體屬性及出行記錄集合家庭旅客出行記錄集合是家庭旅客出行信息總和??梢苑?hào)化為RP={V,AV,AVH},其中,V表示所有旅客個(gè)體的集合;AV表示旅客個(gè)體自身屬性的集合,例如年齡、性別等;AVH表示旅客歷史出行記錄的結(jié)合,例如歷史出行次數(shù)、累計(jì)出行里程等。
定義4:家庭屬性及出行記錄集合家庭出行記錄集合是指家庭中兩個(gè)或兩個(gè)以上的旅客出行的家庭出行信息總和??梢苑?hào)化為RF={CF,AC,ACH},其中,CF表示家庭的集合;AC表示家庭自身屬性的集合,例如家庭人口數(shù),各年齡段小孩的個(gè)數(shù)等;ACH表示家庭歷史出行記錄的結(jié)合,例如家庭歷史出行次數(shù),累計(jì)出行里程等。
與德國(guó)漢斯-賽德?tīng)柣饡?huì)等國(guó)外機(jī)構(gòu)就土地整理與空間規(guī)劃問(wèn)題進(jìn)行國(guó)際研討,達(dá)成青州市南張樓區(qū)域發(fā)展項(xiàng)目執(zhí)行協(xié)議。圖為德國(guó)專家為南張樓村題詞。
問(wèn)題1:如何預(yù)測(cè)家庭在未來(lái)的一個(gè)時(shí)間窗口是否出行:在構(gòu)建了旅客社交網(wǎng)絡(luò)G={V,E}之后,可以獲得家庭出行特征屬性集A={AB,AG,W},其中AB表示家庭的基本屬性集合,包括家庭人口數(shù)、各個(gè)年齡階段的小孩個(gè)數(shù)等的自然屬性,也包括飛行次數(shù),飛行里程等的歷史行為屬性等;AG表示家庭中旅客網(wǎng)絡(luò)關(guān)系屬性集合,包括家庭旅客與其他旅客間關(guān)系、家庭旅客所在社交網(wǎng)絡(luò)結(jié)構(gòu)等。W表示預(yù)測(cè)時(shí)間窗口的屬性,包括是否有節(jié)假日,節(jié)假日的長(zhǎng)度等。根據(jù)特征屬性值,我們可以設(shè)計(jì)預(yù)測(cè)家庭是否出行的函數(shù),通過(guò)計(jì)算函數(shù)值來(lái)預(yù)測(cè)家庭是否會(huì)出行(函數(shù)結(jié)果只有兩種取值,0為不出行,1為出行),其預(yù)測(cè)函數(shù)如下:
為了方便后續(xù)描述,表1列出了本文所用的相關(guān)記號(hào)。
要解決家庭出行預(yù)測(cè)這個(gè)分類問(wèn)題,需要構(gòu)建家庭的特征屬性來(lái)描述家庭。首先構(gòu)造家庭的基本屬性,包括人口統(tǒng)計(jì)學(xué)特征,家庭人口單人出行特征,家庭出行特征和預(yù)測(cè)時(shí)間窗口特征。由于基本屬性不能全面準(zhǔn)確描述不同類型的家庭,我們構(gòu)造了旅客社交網(wǎng)絡(luò),來(lái)構(gòu)建家庭的網(wǎng)絡(luò)屬性,更加全面地對(duì)旅客團(tuán)體進(jìn)行描述。
表1 本文用到的記號(hào)
民客運(yùn)商的旅客信息系統(tǒng)中記錄了旅客的所有歷史出行記錄。每條記錄記載了一個(gè)旅客組g一起購(gòu)票和出行事實(shí)。我們根據(jù)出行記錄中的旅客共同購(gòu)票和出行行為,構(gòu)建旅客社交網(wǎng)絡(luò),該網(wǎng)絡(luò)從某個(gè)側(cè)面反映了旅客之間的真實(shí)社會(huì)關(guān)系。
給定一個(gè)出行記錄集合S={gn},我們通過(guò)從每個(gè)旅客組gn中抽取共同出行關(guān)系來(lái)得到旅客社交網(wǎng)絡(luò)G=(V,E),如算法1所示。
算法1:構(gòu)建旅客社交網(wǎng)絡(luò)
(1)基本屬性
基本屬性集的特征屬性屬于實(shí)際存在的事實(shí),我們通過(guò)分析不同性質(zhì)的家庭可能存在的客觀差異,結(jié)合社會(huì)學(xué)相關(guān)方面的知識(shí),構(gòu)造出家庭人口統(tǒng)計(jì)學(xué)特征、家庭成員歷史行為特征、家庭歷史行為特征以及時(shí)間窗口特征四個(gè)方面的特征屬性。
人口統(tǒng)計(jì)學(xué)特征是基于旅客的靜態(tài)屬性(比如年齡、性別、籍貫、姓氏等)的統(tǒng)計(jì)特征,表2列出了影響家庭出行的部分人口統(tǒng)計(jì)學(xué)特征。
表2 部分人口統(tǒng)計(jì)學(xué)特征
我們構(gòu)造了一系列家庭成員歷史出行行為特征,如表3所示。
對(duì)于家庭整體的歷史出行行為,構(gòu)造了如表4所示的特征。
表3 部分家庭成員旅行特征
表4 家庭整體旅行特征
時(shí)間窗口特征用來(lái)反映要預(yù)測(cè)的時(shí)間段的特點(diǎn),如是否有節(jié)假日,節(jié)假日的天數(shù)以及旺季淡季等,如表5所示。
表5 部分預(yù)測(cè)時(shí)間窗口特征
(2)網(wǎng)絡(luò)屬性
本文中考慮了幾種常見(jiàn)的邊的網(wǎng)絡(luò)結(jié)構(gòu)特征,其形式化描述如表6所示。
表6 基于網(wǎng)絡(luò)的特征
分類算法是解決分類問(wèn)題的方法,通過(guò)對(duì)已知類別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預(yù)測(cè)新數(shù)據(jù)的類別。單一的分類方法主要包括:決策樹、貝葉斯、決策表等;另外還有用于組合單一分類方法的集成學(xué)習(xí)算法,如Bagging算法等。
本文我們將使用C4.5決策樹、隨機(jī)森林、貝葉斯網(wǎng)絡(luò)、DecisionTable和Bagging五種傳統(tǒng)分類算法進(jìn)行家庭在預(yù)測(cè)時(shí)間窗口內(nèi)的出行預(yù)測(cè)。
家庭的出行預(yù)測(cè)可以應(yīng)用于多種交通領(lǐng)域。我們從某客運(yùn)商采集一個(gè)旅客歷史出行數(shù)據(jù)集對(duì)家庭出行進(jìn)行預(yù)測(cè)。
我們采集的數(shù)據(jù)集包含家庭旅客信息和家庭信息兩個(gè)部分。其中家庭旅客信息包括家庭旅客匿名ID、性別和年齡等;家庭信息包括家庭ID、家庭人口數(shù)、家庭出行時(shí)間等。其中含有4510名旅客,1510個(gè)家庭。
給定一個(gè)當(dāng)前日期和一個(gè)預(yù)測(cè)時(shí)間窗口,我們使用前一年的出行記錄,預(yù)測(cè)家庭在預(yù)測(cè)時(shí)間窗口內(nèi)是否會(huì)出行。我們標(biāo)注了16832個(gè)樣本,其中正樣本14739個(gè),負(fù)樣本2093個(gè)。
在實(shí)驗(yàn)中,我們采用邏輯回歸和隨機(jī)森林的分類方法。分類過(guò)程中進(jìn)行十重交叉驗(yàn)證。分別用準(zhǔn)確率、召回率指標(biāo)對(duì)兩種方法進(jìn)行評(píng)測(cè)。設(shè)TP、TN、FP和FN分別表示正確預(yù)測(cè)家庭出行的家庭數(shù)量、正確預(yù)測(cè)家庭不出行的家庭數(shù)量、錯(cuò)誤預(yù)測(cè)家庭出行的家庭數(shù)量以及錯(cuò)誤預(yù)測(cè)家庭不出行的家庭數(shù)量,則:
實(shí)驗(yàn)結(jié)果列舉如下:
表7 各種分類方法分類結(jié)果
由以上的實(shí)驗(yàn)結(jié)果可以看出,使用貝葉斯網(wǎng)絡(luò)分類準(zhǔn)確率為78.4%,使用決策表分類的準(zhǔn)確率為88.7%(提高了10.3%),為了更好地比較幾種方法的分類效果,圖2分別給出了它們的ROC曲線,從圖中可以明顯看出在預(yù)測(cè)家庭出行問(wèn)題上,決策表分類算法要優(yōu)于其他幾種分類方法。
本文提出了一種依靠數(shù)據(jù)挖掘中分類手段來(lái)預(yù)測(cè)家庭是否出行的方法。通過(guò)旅客出行記錄中家庭旅客出行信息以及家庭出行歷史數(shù)據(jù),構(gòu)建分類的特征屬性。為了更加全面的描述家庭,本文還通過(guò)旅客歷史記錄,構(gòu)建了旅客社交網(wǎng)絡(luò),利用該網(wǎng)絡(luò)反映的旅客間關(guān)系,構(gòu)建了反映旅客出行關(guān)系的網(wǎng)絡(luò)屬性?;谶@些屬性,在一個(gè)旅客歷史數(shù)據(jù)集上做了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,我們所提出的方法可以有效地預(yù)測(cè)旅客社交網(wǎng)絡(luò)中的家庭是否出行。
圖2 分類方法ROC曲線
[1]R.Nicole,J.Carlson,P.J.Rosenberger.Factors Affecting Group-Oriented Travel Intention to Major Events[J].Journal of Travel Tourism Marking,2012,29(2):185-204.
[2]S.I.So,X.Y.Lehto.The Situation Influence of Travel Group Composition:Contrasting Japanese Family Travelers with Other Travel Parties[J].Journal of Travel Tourism Marketing,2007,20:79-91
[3]S.Pike,C.Ryan.Destination Positioning Analysis Through a Comparison Of Cognitive,Affective,Conative Perceptions[J].Journal of Travel Research,2004,42:333-342.
[4]Neale B,Smart C.Agents or Dependants:Struggling to Listen to Children in Family Law and Family Research[M].Centre for Research on Family,Kinship&Childhood,Department of Sociology and Social Policy,University of Leeds,1998.
[5]Johns N,Gyimóthy S.Postmodern Family Tourism at Legoland[J].Scandinavian Journal of Hospitality and Tourism,2003,3(1):3-23.
[6]Peercy M A,Mccleary K W.The Impact of the Year-Round School Calendar on the Family Vacation:An Exploratory Case Study[J]. Journal of Hospitality&Tourism Research,2011,35(2):147-170.
[7]Zalatan A.Wives Involvement in Tourism Decision Processes[J].Annals of Tourism Research,1998,25(4):890-903.
[8]Iso-Ahola S E.Toward A Social Psychological Theory Of Tourism Motivation:A Rejoinder[J].Annals of tourism research,1982,9(2): 256-262.
[9]X.Y.Lehto,Y.-C.Lin,Y.Chen.Family Vacation Activities and Family Cohesion[J].Journal of Travel&Tourism Marketing,2012,29: 835-850.
[10]María José Barlés-Arizón,Elena Fraj-Andrés,Eva Martínez-Salinas.Family Vacation Decision Making:The Role of Woman[J].Journal of Travel&Tourism Marketing,2013,30:873-890.
[11]Y.Lin,H.Wan,R.Jiang,Z.Wu,X Jia.Inferring the Travel Purposes of Passenger Groups for Better Understanding of Passengers[J]. IEEE Transactions on Intelligent Transportation System,2014.DOI:10.1109/TITS.2014.2329422.
[12]D.Jensen,J.Neville,and B.Gallagher.Why Collective Inference Improves Relational Classification[J].Proc.10th SIGKDD,2004,pp. 593-598
[13]S.A.Macskassy and F.Provost.Classification in Networked Data:A Toolkit and a Univariate Case Study[J].Mach.Learn.Res.vol.8. pp.935-983,2007.
[14]R.Kumar,J.Novak,and A.Tomkins.Structure and Evolution of Online Social Networks[J].Proc.12th SIGKDD,2006,pp.611-617.
[15]A.Mislove,M.Marcon,K.P.Gummadi,P.Druschel,and B.Bhattacharjee.Measurement and Analysis of Online Social Networks[J]. Proc.in 7th IMC,2007,pp.29-42.
Predicting the Family Travels Based on Passenger Social Networks
ZHANG Yu-tao
(School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044)
Family passenger groups are one of the most popular travel consumption units in the passenger transportation market.If we can make an accurate forecast that if a family will travel over the next period of time,it will help the passenger transportation,tourism and other related industries to provide personalized products or services for families.Family travel prediction is defined as a classification problem. The solution is constructing family’s demographic characteristics,historical behavior characteristics and predicting time window features for a classifier to forecast family travels.We also construct passenger social networks by extracting co-travel relations between passengers from their historical travel records and generate the social network features of family members to further describe the family characteristics.Experiments on a historical passenger travel data set show the efficiency of our method.
Passenger Social Networks;Family Travel;Travel Prediction
1007-1423(2016)08-0025-06
10.3969/j.issn.1007-1423.2016.08.005
張玉桃(1990-),女,山東泰安人,碩士,研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)
2015-12-30
2016-02-28