徐 濤,徐召朋,盧 敏
(1.中國(guó)民航大學(xué)a.信息技術(shù)科研基地,b.計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津300300;2.中山大學(xué)機(jī)器智能與先進(jìn)計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,廣州510275)
面對(duì)日益激烈的市場(chǎng)競(jìng)爭(zhēng),航空公司通過開辟新航線或加大熱門航線的運(yùn)力爭(zhēng)相發(fā)展和擴(kuò)大航線網(wǎng)絡(luò)以提升市場(chǎng)競(jìng)爭(zhēng)力.開辟新航線或加大熱門航線的運(yùn)力首要解決航線價(jià)值或航線收益的計(jì)算問題.現(xiàn)階段,航線價(jià)值通常是以航線客流量的統(tǒng)計(jì)為基礎(chǔ),并結(jié)合票價(jià)信息來計(jì)算.但是,僅利用航線的客流量和票價(jià)信息難以評(píng)估旅客帶給航線的潛在價(jià)值.發(fā)現(xiàn)具有高潛在價(jià)值的航線能夠幫助航空公司解決后期因客源不足引起的營(yíng)運(yùn)效益降低問題.因此,航線價(jià)值計(jì)算問題的解決,對(duì)航空公司的發(fā)展具有重要的意義.
為了能夠發(fā)現(xiàn)具有高潛在價(jià)值的航線,本文提出了一種基于旅客出行意圖的航線潛在價(jià)值計(jì)算模型來計(jì)算航線的潛在價(jià)值.提出了航線潛在價(jià)值的概念,將難以直觀描述的旅客出行行為及旅客偏好融入到航線價(jià)值計(jì)算中,達(dá)到航線潛在價(jià)值計(jì)算的目的;提出出行意圖的概念,將旅客的出行行為按照出行意圖進(jìn)行劃分并量化,在計(jì)算航線潛在價(jià)值的同時(shí)將航線按照出行意圖進(jìn)行了分類.
本文主要通過中國(guó)民航旅客訂票數(shù)據(jù)集來研究航線的價(jià)值,而該數(shù)據(jù)集中并不包含有關(guān)航線價(jià)值的信息.但可以通過統(tǒng)計(jì)航線上的客流量來定義航線的價(jià)值,將其定義為
在基于旅客出行意圖的航線潛在價(jià)值計(jì)算模型中引入出行意圖的概念,將旅客的出行行為進(jìn)行細(xì)分.出行意圖由主題模型[1-4]中文本主題的概念引申而來.文本主題表示一種隱含的概念,具體表示為一系列相關(guān)的單詞,以及它們?cè)谠摳拍钕鲁霈F(xiàn)的概率.因此,出行意圖可以表示為一系列相關(guān)的航線,以及航線出現(xiàn)在該出行意圖下的概率.
借鑒主題模型中文本的生成過程來模擬旅客出行記錄的生成.旅客出行時(shí)先確定出行意圖,然后在該意圖下選擇航線.因此,在獲得旅客隱含的出行意圖分布及每個(gè)意圖中航線的分布后,結(jié)合旅客對(duì)艙位的偏好來計(jì)算出的航線價(jià)值便是航線的潛在價(jià)值.
記U為旅客組成的集合,U中所有旅客出行時(shí)乘坐的航線組成航線集合R.借助貝葉斯公式將基于旅客出行意圖的航線潛在價(jià)值計(jì)算模型定義為
式中:P(r)表示航線r的價(jià)值,r∈R;P(u)表示旅客u對(duì)艙位偏好所產(chǎn)生的價(jià)值,u∈U;P(zu|u)表示旅客u擁有出行意圖zu的概率;P(r|zu)表示確定出行意圖zu后選擇航線r的概率.
(1)旅客出行意圖分布及出行意圖下航線分布的定義.
記每位旅客u包含自身出行意圖的向量為θu,θu中的元素是旅客u選擇不同意圖的概率值,則所有旅客的出行意圖構(gòu)成“旅客—意圖”矩陣Θ.此外,假設(shè)共有K種出行意圖,每種出行意圖z由不同航線在該出行意圖中出現(xiàn)的概率組成,記為向量φz,針對(duì)所有出行意圖形成“意圖—航線”矩陣Φ.為方便起見,將每條航線r進(jìn)行編號(hào).旅客u在出行中選擇航線r的概率可表述為
式中:z表示某次出行旅客的意圖.
由于旅客u選擇航線r的過程中加入了旅客出行意圖的潛在信息,因此,式(3)表示旅客u在出行中選擇航線r的概率值也代表著該旅客u所賦予航線r的價(jià)值.最終,我們可以將旅客出行記錄的生成用圖1所示的流程來表示.其中α與β都表示Dirichlet分布的參數(shù)先驗(yàn)參數(shù).
圖1 旅客出行記錄生成圖Fig.1 The generation chart of passenger travel records
(2)旅客出行意圖分布及出行意圖下航線分布的求解.
由于向量θ是旅客選擇出行意圖的分布,假設(shè)共有K種出行意圖,則θ符合K維多項(xiàng)式分布.同理,向量φ符合|R|維多項(xiàng)式分布.由統(tǒng)計(jì)學(xué)知識(shí)可知,θ和φ會(huì)具有先驗(yàn)分布,此處選擇Dirichlet分布作為θ和φ的先驗(yàn)分布形成共軛結(jié)構(gòu)以提高參數(shù)估計(jì)的精度[7],并簡(jiǎn)化估計(jì)的過程.
所有旅客的出行意圖分布P(z|U)加入先驗(yàn)分布可表示為
同理,各出行意圖下航線的分布P(r|z)可表示為
綜合式(4)和式(5),可得所有旅客出行意圖及出行時(shí)所乘航線的聯(lián)合分布為
利用Gibbs Sampling方法對(duì)式(6)進(jìn)行采樣.由于航線r是觀測(cè)到的已知數(shù)據(jù),出行意圖是隱含變量,所以真正需要采樣的分布是P(z|r).其公式推導(dǎo)為
式中:zi表示第i條航線對(duì)應(yīng)的出行意圖變量;下標(biāo)?i表示變量不包含第i條航線的情況.
式(7)最后一步的推導(dǎo)應(yīng)用了Dirichlet分布的期望公式,因此,只要獲得每條航線r的意圖z的標(biāo)號(hào),便可通過簡(jiǎn)單的計(jì)數(shù)方式獲得“旅客—意圖”矩陣Θ和“意圖—航線”矩陣Φ.主要過程是遍歷旅客出行時(shí)的航線集合,按照式(9)進(jìn)行不斷的迭代,從而更改不同航線分配到不同的出行意圖下的概率.
式中:θuz表示旅客u選擇出行意圖z產(chǎn)生的價(jià)值;φzr表示出行意圖z下確定航線r產(chǎn)生的價(jià)值.
旅客對(duì)艙位偏好所產(chǎn)生的價(jià)值由其歷次出行累積得來.設(shè)旅客的每次出行及旅客間的出行相互獨(dú)立,且對(duì)不同的艙位賦予不同的艙位系數(shù),則所有旅客組成的集合U因艙位偏好所具有的價(jià)值為
對(duì)式(10)使用最大似然估計(jì)法,可得
通常,航空公司通過里程累積計(jì)劃吸引和獎(jiǎng)勵(lì)旅客,在里程累積計(jì)劃中,旅客出行時(shí)不同的艙位選擇會(huì)被賦予不同的里程累積系數(shù),不同艙位的里程累積系數(shù)事實(shí)上反映了不同艙位在航空公司收益中的重要性,因此,式(11)中艙位系數(shù)γc的選擇用航空公司對(duì)不同艙位的里程累積系數(shù)替代.式(11)中得到旅客u出行時(shí)的概率可用來評(píng)估旅客因其對(duì)艙位偏好所產(chǎn)生的價(jià)值.
截止調(diào)查前,安徽省普通高等學(xué)校大學(xué)生總?cè)藬?shù)約為萬.為了保證問卷的可靠性,取問卷調(diào)查置信水平為95%(相應(yīng)的),誤差值,概率值,此時(shí)樣本方差最大.計(jì)算得到.考慮到信息覆蓋度不足,假設(shè)問卷有效回收率為,因此,此時(shí)的樣本量為.最終發(fā)放600份問卷,實(shí)際回收有效樣本509份,回收率,其中,訂購(gòu)過外賣的樣本有480份.
最終可得基于旅客出行意圖的航線潛在價(jià)值計(jì)算模型為
實(shí)驗(yàn)數(shù)據(jù)集選取中國(guó)民航旅客訂座系統(tǒng)中2010年1月1日~2011年12月31日2年的旅客訂票數(shù)據(jù),其數(shù)據(jù)量是48.9 G.包含訂票記錄數(shù)102 305 312條,旅客96 298 451人,航線1 634條.數(shù)據(jù)內(nèi)容包含身份證號(hào),性別,所選航空公司,航班號(hào),艙位,起飛機(jī)場(chǎng),到達(dá)機(jī)場(chǎng)等17個(gè)屬性.
旅客的偏好需要通過出行次數(shù)的累積來體現(xiàn).旅客出行次數(shù)偏少,則其對(duì)艙位的偏好模糊,出行意圖也會(huì)過于單一,不僅不會(huì)提高計(jì)算的準(zhǔn)確性,還會(huì)導(dǎo)致出行意圖中航線分布不均勻.為更好地獲得旅客偏好及出行意圖,選擇年出行次數(shù)5次及以上的旅客作為基準(zhǔn)實(shí)驗(yàn)數(shù)據(jù),篩選后的數(shù)據(jù)如表1所示.
實(shí)驗(yàn)中,對(duì)缺失艙位信息的旅客訂票數(shù)據(jù)以經(jīng)濟(jì)艙信息補(bǔ)全.航線信息則利用訂票數(shù)據(jù)中“起飛機(jī)場(chǎng)”“到達(dá)機(jī)場(chǎng)”兩個(gè)屬性來唯一標(biāo)識(shí),這兩個(gè)屬性在旅客訂票數(shù)據(jù)中都由國(guó)際航空運(yùn)輸協(xié)會(huì)(International Air Transport Association,IATA)規(guī)定的機(jī)場(chǎng)“三字碼”來表示,于是,將旅客訂票數(shù)據(jù)所表示的出行記錄預(yù)處理為如圖1所示的短文本格式作為基于旅客偏好的航線潛在價(jià)值計(jì)算模型的輸入.該文本數(shù)據(jù)以行為單位,每行代表1名旅客的出行記錄.各行的第1列表示加密后的旅客身份證信息,具有唯一性,其余各列由旅客出行時(shí)選擇的起飛機(jī)場(chǎng)和到達(dá)機(jī)場(chǎng)的兩個(gè)“三字碼”拼接而成的航線組成.
表1 年出行次數(shù)5次及以上的數(shù)據(jù)集Table 15 times and above data sets for annual trips
圖2 基于旅客偏好的航線潛在價(jià)值計(jì)算模型的輸入樣例Fig.2 Input sample of route potential value calculation model based on passenger preference
由于旅客訂票數(shù)據(jù)量龐大,使用傳統(tǒng)數(shù)據(jù)庫(kù)進(jìn)行操作經(jīng)常會(huì)出現(xiàn)內(nèi)存溢出的情況,且航線價(jià)值的計(jì)算也涉及大矩陣運(yùn)算.為加快對(duì)旅客訂票數(shù)據(jù)的處理采用Hadoop并行平臺(tái)中的MapReduce技術(shù)[5-7]及Fast LDA[8]技術(shù)進(jìn)行數(shù)據(jù)的預(yù)處理及大矩陣的運(yùn)算.
雖然航線潛在價(jià)值的計(jì)算屬于回歸預(yù)測(cè)的范疇,但由于對(duì)航線價(jià)值定義并沒有一種統(tǒng)一的標(biāo)準(zhǔn),所以不能單純的用均方誤差來評(píng)估模型的性能.因此,通過衡量航線價(jià)值排名的相似性來驗(yàn)證基于旅客出行意圖的航線價(jià)值計(jì)算方法的有效性.而肯德爾相關(guān)系數(shù)(Kendall Rank Correlation Coefficient,KRCC)[9-10]與斯皮爾曼相關(guān)系數(shù)(Spermans Rank Correlation Coefficient,SRCC)[11-12]常用于評(píng)價(jià)兩個(gè)有序序列的相似性,所以將這兩個(gè)系數(shù)作為模型的評(píng)價(jià)指標(biāo).實(shí)驗(yàn)的具體過程如下:
(1)利用2010年與2011年的數(shù)據(jù)分別計(jì)算出不同出行意圖數(shù)目下的PL2010(r)與PL2011(r)并對(duì)其降序排列.
(2)利用2010年與2011年的數(shù)據(jù)分別計(jì)算出P2010(r)與P2011(r)并對(duì)其降序排列.
(3)計(jì)算步驟(1)與步驟(2)中各自前N項(xiàng)(Top-N)的肯德爾相關(guān)系數(shù)與斯皮爾曼相關(guān)系數(shù).
模型中設(shè)置出行意圖的先驗(yàn)分布參數(shù)α值為50/K,出行意圖中航線先驗(yàn)分布參數(shù)β值為0.01,出行意圖的數(shù)目分別設(shè)置為10,30,50和100.
航線潛在價(jià)值的計(jì)算引入了出行意圖的概念,即假設(shè)旅客出行時(shí)會(huì)先確定出行意圖,并在確定出行意圖后選擇航線.因此,在某種層面來講也假設(shè)了不同航線會(huì)屬于不同的出行意圖.圖2給出了某些出行意圖下排名前10的航線序列(以2010年數(shù)據(jù)所得).
圖2由“意圖—航線”矩陣Φ轉(zhuǎn)置并濾除掉概率值后生成,并已按概率值的大小進(jìn)行了排序.以列為單位,每列表示某種出行意圖下包含的航線.從聚類角度來看,如果不考慮各航線出現(xiàn)在意圖中的概率,基于旅客偏好的航線潛在價(jià)值計(jì)算模型中用Gibbs Sampling方法獲得的“意圖—航線”矩陣Φ將航線按照出行意圖進(jìn)行了聚類.
圖3 某些出行意圖下前10的航線Fig.3 The first ten air-routes of some travel intentions
表2給出了P2010(r)與P2011(r)在不同Top-N中的相關(guān)系數(shù)τ與rs.表3則給出了不同出行意圖數(shù)目下PL2010(r)與PL2011(r)在不同Top-N中的相關(guān)系數(shù)τ與rs.
表2 P2010(r)與P2011(r)在不同Top-N中的相關(guān)系數(shù)τ與rsTable 2 Correlation coefficientτandrsofP2010(r)andP2011(r)in different Top-N
表3 不同出行意圖數(shù)目PL2010(r)與PL2011(r)在不同Top-N中相關(guān)系數(shù)τ與rsTable 3 The correlation coefficients of different travel intention numbersPL2010(r)andPL2011(r)in differentTop-Nareτandrs
從表2與表3的對(duì)比中可以看出,當(dāng)出行意圖數(shù)目一定時(shí),基于旅客偏好的航線潛在價(jià)值計(jì)算模型得到的PL2010(r)與PL2011(r)的相關(guān)系數(shù)τ和rs大多高于P2010(r)與P2011(r)之間的相關(guān)系數(shù).其原因在于計(jì)算P(r)時(shí)僅僅考慮旅客的出行次數(shù),而基于旅客偏好的航線潛在價(jià)值計(jì)算模型將旅客對(duì)艙位的偏好及旅客的出行行為進(jìn)行了量化,并融入到航線的價(jià)值計(jì)算中,不僅考慮了出行次數(shù),還考慮了每名旅客的出行特征.所以基于旅客偏好的航線潛在價(jià)值計(jì)算模型具有比基準(zhǔn)方法更好的性能.
從表3中可見,當(dāng)出行意圖數(shù)目分別選取10,30,50時(shí),PL2010(r)與PL2011(r)在Top-5中的相關(guān)系數(shù)τ及rs均為1.000,即基于旅客出行意圖的航線潛在價(jià)值計(jì)算方法在選取出行意圖數(shù)目分別為10,30,50時(shí)對(duì)排名前5的航線價(jià)值的挖掘準(zhǔn)確率達(dá)到100%.其原因是基于旅客偏好的航線潛在價(jià)值計(jì)算模型將航線按照旅客的出行意圖進(jìn)行了分類,而同一航線可能被賦予不同的出行意圖,在計(jì)算中被多次帶入公式運(yùn)算,使得擁有多種出行意圖的航線具有較高的價(jià)值,從而驗(yàn)證了該模型在挖掘高價(jià)值航線方面具有很大的優(yōu)勢(shì).此外,當(dāng)Top-N中N≥35時(shí),相關(guān)系數(shù)τ和rs分別在0.700與0.850上下波動(dòng),這是因?yàn)镹值的變動(dòng),會(huì)使2010年與2011年2年的航線價(jià)值序列中排序不一致的對(duì)數(shù)所占的比例有所變化,但會(huì)穩(wěn)定在一定范圍內(nèi),說明了本文方法性能的穩(wěn)定性.
從表3中還可見,當(dāng)Top-N一定時(shí),PL2010(r)與PL2011(r)的相關(guān)系數(shù)τ和rs在出行意圖數(shù)目為30時(shí)均取值最大,之后隨著出行意圖數(shù)目的增加會(huì)隨之下降,并趨于平穩(wěn).這是因?yàn)楫?dāng)出行意圖數(shù)目過大時(shí),旅客對(duì)某些出行意圖的選擇會(huì)變成小概率事件,在該意圖下選擇航線時(shí)會(huì)出現(xiàn)概率趨近于0的情況,從而弱化了旅客能夠賦予航線的價(jià)值,從而表明旅客出行意圖數(shù)目的確定并不是越大越好.
針對(duì)民航航線網(wǎng)絡(luò)中航線價(jià)值計(jì)算問題提出了基于旅客出行偏好的航線潛在價(jià)值計(jì)算模型.該模型引入出行意圖的概念,將旅客的出行行為劃分為出行意圖的確定及意圖下航線的確定兩個(gè)階段,并結(jié)合旅客對(duì)艙位的偏好,從而達(dá)到計(jì)算航線潛在價(jià)值的目的.此外,出行意圖的引入,在計(jì)算航線潛在價(jià)值的同時(shí),還可以將航線按照出行意圖進(jìn)行聚類.
然而,基于旅客偏好的航線潛在價(jià)值計(jì)算模型在考慮旅客出行時(shí),將其看作是相互獨(dú)立的,未考慮不同出行之間的相互聯(lián)系和依賴關(guān)系.然而旅客的實(shí)際出行中存在如購(gòu)買往返機(jī)票或因無直達(dá)航線而需要轉(zhuǎn)機(jī)等多種相互關(guān)聯(lián)或依賴情形,這些情形中航線的關(guān)聯(lián)及依賴關(guān)系對(duì)旅客意圖的分布和意圖下航線的分布都會(huì)產(chǎn)生影響,從而影響到航線潛在價(jià)值的計(jì)算.今后的工作將會(huì)考慮對(duì)旅客出行時(shí)所選航線的關(guān)聯(lián)及依賴關(guān)系進(jìn)行建模來計(jì)算航線的潛在價(jià)值,使航線潛在價(jià)值的計(jì)算更符合旅客的出行行為.