張明遠(yuǎn) ,陳莘文 ,孫立君 ,杜文博 ,*,曹先彬 ,*
? 2021 THE AUTHORS. Published by Elsevier LTD on behalf of Chinese Academy of Engineering and Higher Education Press Limited Company This is an open access article under the CC BY-NC-ND license(http://creativecommons.org/licenses/by-nc-nd/4.0/).
隨著世界民用航空業(yè)的飛速發(fā)展,嚴(yán)重的航班延誤仍然是一個(gè)重要問題。航班延誤不僅使乘客不愿考慮航空交通或再次選擇同一家航空公司[1-4],而且迫使航空公司承擔(dān)飛機(jī)維護(hù)和機(jī)隊(duì)利用率不足的額外費(fèi)用[5]。此外,航班延誤導(dǎo)致燃油消耗和二氧化碳排放量增加,對(duì)環(huán)境造成了極大危害[6,7]。除了上面列出的直接影響外,航班延誤對(duì)整個(gè)社會(huì)經(jīng)濟(jì)發(fā)展都具有負(fù)面影響[8]。
許多因素使得此問題變得更復(fù)雜和棘手,這些因素通常為異常天氣[9]和技術(shù)原因[10],其中技術(shù)原因主要包括空中交通管制[11]、設(shè)施容量不足或者調(diào)度不當(dāng)[12]、運(yùn)行程序更改[13]和緩沖時(shí)間不足[14]等。因此,挖掘潛在的航班延誤模式并設(shè)計(jì)適當(dāng)?shù)牟呗苑浅@щy[15]。最近,基于歷史觀測數(shù)據(jù)的分析方法已被證明不受上述約束影響并適用于包含隱藏信息的動(dòng)態(tài)數(shù)據(jù)[16]。因此,促進(jìn)系統(tǒng)認(rèn)知和決策的方法是充分利用歷史數(shù)據(jù)[17]。例如,當(dāng)遇到惡劣天氣時(shí),可以查詢天氣條件相似的過去幾天,并參考當(dāng)日空中交通管制員采取的行動(dòng)。近期的幾項(xiàng)研究[18-23]致力于發(fā)現(xiàn)空中交通管理中的固定模式。Liu等[19]介紹了一種半監(jiān)督學(xué)習(xí)算法,可以將相似的日期劃分為不同的模式。第一步先量化每小時(shí)航空天氣預(yù)報(bào)數(shù)值之間的距離(表示相似性),然后確定總距離較小的日期。他們應(yīng)用此方法在紐瓦克自由國際機(jī)場(EWR)進(jìn)行了兩個(gè)案例研究,并證明了其有效性。Mukherjee等[20]也提出了一種根據(jù)航空天氣條件對(duì)運(yùn)行模式進(jìn)行分類的方法。他們使用天氣指數(shù)作為輸入并應(yīng)用因子分析來確定主要的天氣模式,然后,使用Ward的最小方差法將日期聚類。屬于同一模式的日期共享相似的天氣模式。除天氣條件外,一些研究還試圖從其他角度確定相似的日期。Grabbe等[21]使用k-means聚類算法來識(shí)別地面延誤程序中的相似日期,并對(duì)地面延誤程序的開始和結(jié)束時(shí)間以及計(jì)劃的到達(dá)率數(shù)據(jù)應(yīng)用期望最大化(EM)算法。其他類似的研究主要關(guān)注空中交通流量和航班延誤以確定相似的模式[24]。Gorripaty等[17]測量了需求和容量數(shù)據(jù)中的主要成分,但對(duì)數(shù)據(jù)進(jìn)行聚類分析后發(fā)現(xiàn),需求或容量中沒有固定的模式。通過確定國內(nèi)直飛航班到達(dá)延誤的周期性模式,Abdel-Aty等[25]發(fā)現(xiàn)統(tǒng)計(jì)方法未能有效檢測某些模式。
盡管做了一些研究,但是這些研究在理解航班延誤模式方面仍然存在差距。如上所述,一種有效的方法是在時(shí)空歷史數(shù)據(jù)中找到聚類模式[26,27]。但是,由于該數(shù)據(jù)的高維特性,其很難在歐式空間中找到明顯不同的模式[28]。因此,后續(xù)研究提出了潛在成分分析的方法來揭示隱藏的模式,諸如潛在分布分析[29]、潛在特征分析(包括響應(yīng)理論和Rasch模型)以及層次分析等方法,可以利用從張量分解中獲得的特征來形成投影和維度較低的子空間,以增強(qiáng)時(shí)空交通動(dòng)態(tài)模式的底層聚類結(jié)構(gòu)[30]。這些方法開辟了交通科學(xué)領(lǐng)域的新方向[31],如城市流動(dòng)性分析[32-34]、交通速度預(yù)測[35]、交通數(shù)據(jù)缺失[36,37]和船舶航跡恢復(fù)[38]。
受上述方法的啟發(fā),本文的主要研究目標(biāo)是使用大量的空中交通數(shù)據(jù)來了解潛在的空中交通和航班延誤模式。首先將飛行記錄數(shù)據(jù)視為從泛分布中抽取的多元觀測概率數(shù)據(jù),將概率分解問題等價(jià)為Tucker潛在類別分析模型來挖掘主要模式。然后,提出一個(gè)估計(jì)模型用于在已知信息極少的情況下判定延誤程度。本文的其余部分安排如下:第2節(jié)介紹模型框架;第3節(jié)展示一個(gè)基于中國航空數(shù)據(jù)的案例研究;第4節(jié)給出主要結(jié)論。
本節(jié)介紹了以概率為基礎(chǔ)的飛行數(shù)據(jù)建模的總體框架。目的是從不同角度描述空中交通和航班延誤的主要模式及其相互作用。第2.1節(jié)介紹了在框架中使用的數(shù)據(jù)表示方法;第2.2節(jié)提出了一種非負(fù)Tucker分解(NTD)方法;第2.3節(jié)描述了潛在類別分析(LCA)方法。
我們令xa= (xa1, ...,xaq)T代表一個(gè)飛行記錄a,其中q代表維數(shù),即單個(gè)行程記錄中的屬性維度。為了表征航班的特征,每個(gè)元素可以表示航班的離港機(jī)場(xa1)、離港時(shí)間(xa2)、離港日期(xa3)、延誤程度(xa4)等。
為方便起見,將這些值映射為離散值。xaβ∈{1, ...,wq}為屬性β(β= 1, ...,q)從1開始的離散值。β表示屬性的索引。wq表征維度為q的離散值向量。以離港機(jī)場為例,對(duì)于記錄a來說,xa1= 1代表機(jī)場1。xa2∈{1, ...,24}表示航班的離港時(shí)間,每個(gè)值對(duì)應(yīng)一天中的一個(gè)小時(shí)。然后,使用4年(2014—2017年)的飛行記錄數(shù)據(jù)介紹我們的方法,其中所有航班的離港日期按時(shí)間順序編號(hào)為xa3∈{1, ..., 1461}。由于到港延誤與空中航班時(shí)段密切關(guān)聯(lián),可能會(huì)受到空中飛行加速、減速的影響,因此本文考慮采用離港延誤而非到港延誤來研究航班延誤模式,以更好地反映目標(biāo)機(jī)場的運(yùn)行狀態(tài)。根據(jù)美國聯(lián)邦航空管理局(FAA)制定的規(guī)則及相關(guān)研究,延誤航班是指比計(jì)劃時(shí)間晚15 min以上起飛的航班??紤]實(shí)際情況,本文選擇較計(jì)劃離港時(shí)間晚45 min和90 min作為閾值。因此,本文將每個(gè)航班的離港延誤分為4個(gè)級(jí)別:① < 15 min;② 15~45 min;③ 45~90 min;④ > 90 min。我們分別用xa4∈{1, ..., 4}表示“準(zhǔn)時(shí)”“輕度延誤”“中度延誤”和“重度延誤”。
已有研究表明,張量分解在各種情況下都顯示出許多優(yōu)點(diǎn),尤其是當(dāng)必須將數(shù)據(jù)分解為加性成分之和時(shí)[39]。張量分解最早由Tucker [40]在1963年提出,非負(fù)NTD [41,42]是在張量分解基礎(chǔ)上獲得的,用于處理自然數(shù)據(jù)的非負(fù)觀測值。NTD是一個(gè)強(qiáng)大的工具,可以從高維張量數(shù)據(jù)中提取基于非負(fù)數(shù)部分的潛在分量,同時(shí)保留數(shù)據(jù)的多線性結(jié)構(gòu)[24]。從數(shù)學(xué)維度來說,它將張量分解為一組矩陣和一個(gè)核心張量。
給定K階張量χ,NTD將任意一個(gè)非負(fù)K階張量R+是正實(shí)數(shù)空間;K是空間維度;I是正交基)分解為非負(fù)核心張量(J是正交基)和K個(gè)非負(fù)矩陣的模積
式中,A(1),A(2),A(3), ...,A(K)被稱為因子矩陣;?是核心張量,顯示了不同因子矩陣之間的交互作用和連接程度。在這種方法中,核心張量?和因子矩陣A(K)在元素上為非負(fù)數(shù)。具體如下:
式中,F(xiàn)為矩陣范數(shù)。
潛在類別分析是一種統(tǒng)計(jì)方法,可從多元分類數(shù)據(jù)中找到潛在類別[43,44]。潛在類別模型公式如下:
式中,Pi1,i2,...,iN表示概率分布方程;i是維度指標(biāo);T是每個(gè)維度類別的模式數(shù)量;N是維度數(shù)量;t是每個(gè)維度模式的索引;pt是加為1的概率是條件概率;?和μ是概率矩陣的維度。潛在類別分析通過條件獨(dú)立性的標(biāo)準(zhǔn)來定義潛在類別。這意味著每個(gè)變量在統(tǒng)計(jì)上獨(dú)立于每個(gè)潛在類別中的每個(gè)其他變量。因此,可以將概率張量中的每個(gè)元素計(jì)算為所有模式組合的總和。
式中,θ(N)是表示模式N的概率向量。
在本研究中,我們使用了潛在類別模型,該模型假設(shè)每個(gè)觀察值都是由基礎(chǔ)類別的混合生成的,并且每個(gè)類別都與唯一的概率分布相關(guān)。因此,聯(lián)合分布被認(rèn)為是乘積多項(xiàng)式與觀測概率的混合。使用第2.1節(jié)中的符號(hào),可以將所有飛行記錄x匯總為一個(gè)維度φ=w1×w2×... ×wm的m階張量,并且張量中的每個(gè)單元格(v1,v2, ...,vm)(v代表張量的一個(gè)維度)都是對(duì)飛行數(shù)量∑δ(xa1=υ1, ...,xam=υm)的計(jì)數(shù)。δ是一個(gè)二值的指示函數(shù),δ= 1為真,δ=0為假。為了更好地理解數(shù)據(jù)集的內(nèi)部聯(lián)系,我們將這些飛行記錄放入一個(gè)概率張量中,其每個(gè)值代表一個(gè)飛行記錄屬于該坐標(biāo)的概率。每個(gè)值的概率張量表示屬于特定單元格的飛行概率pc(xa1=υ1, ...,xam=υm)。觀測概率(也是概率質(zhì)量函數(shù))可以通過Tucker分解以類似的方式重新生成。
核心張量π捕捉了不同維度模式之間的交互性。是概率因子矩陣,代表了維度N的主要模式。可以將概率張量中的每個(gè)元素計(jì)算為所有模式組合的總和。
本文分析的數(shù)據(jù)集由中國民用航空局(CAAC)提供。鑒于本文的研究目的是為空中交通和機(jī)場管理提供決策支持,因此航班延誤情況是本文研究重點(diǎn)。而且,空中交通流量是延誤情況的基礎(chǔ)。因此,本文選擇空中交通流量和航班延誤作為主要研究對(duì)象。選擇離港延誤是因?yàn)槠淇梢愿玫胤从畴x港機(jī)場和空域的擁擠程度。表1列出了航班數(shù)據(jù)的分類值。該數(shù)據(jù)庫包含13 492 326架國內(nèi)航班。所有航班共連接224個(gè)機(jī)場,其中北京首都國際機(jī)場的航班數(shù)最多,占所有機(jī)場航班數(shù)的6.3%。航班的出發(fā)日期為2014年1月1日—2017年12月31日,出發(fā)時(shí)間可以為一天之內(nèi)的任何時(shí)間??梢钥闯觯鶕?jù)出發(fā)延誤時(shí)間可以將所有航班分為4組。4個(gè)組中的航班數(shù)占比分別為37%、38%、14%和11%。這些航班的平均離港延誤時(shí)間為31.08 min。2008年2月9日是航班數(shù)量最多的一天,為12 419架次。2014年1月1日是航班數(shù)量最少的一天,為7009架次。機(jī)場最為繁忙的時(shí)間段是8:00~9:00,其中有6%的航班在此時(shí)間段內(nèi)起飛。
表1 飛行數(shù)據(jù)的分類值
本文假設(shè)飛行記錄是從通用分布中采樣的多元變量。將13 492 326次飛行記錄匯總為同一張量。每個(gè)觀測值包含4個(gè)變量,包括離港機(jī)場、離港日期、離港時(shí)間和延誤程度??偨M合為224 × 1461 × 24 × 4。在這里,我們使用一個(gè)大小為3(離港機(jī)場,A)× 4(離港日期的編號(hào),D)× 5(一天中的時(shí)間,H)× 4(延誤程度,L)的核心張量π來捕獲不同模式間的相互作用。盡管更大的核心張量可以包含更多信息并反映不同模式之間的全面關(guān)系,但是較小的核心張量可以促進(jìn)對(duì)結(jié)果的解釋。此外,現(xiàn)有研究表明,結(jié)果在不同尺寸的核心張量上基本一致[48]。在下文中,我們將以核心張量大小[3 × 4 ×5 × 4]為例介紹主要結(jié)果。
圖1(a)描繪了5個(gè)模式的離港時(shí)間分布。模式H1占所有航班的18.7%,其從11:00開始逐漸上升,并在24:00達(dá)到峰值。模式H2與高斯分布的形狀相似,其在17:00達(dá)到峰值,并且該模式占據(jù)所有航班的24.4%。與H1和H2相比,H3和H5分布更加集中。它們在早上顯著增加,到中午突然下降。模式H4在11:00達(dá)到峰值,然后在一天的其余時(shí)間連續(xù)下降。H3、H4和H5的比例分別為22.9%、22.2%和11.8%。離港日期的因子矩陣由1461行和4列組成,這些因子矩陣描述了原始離港日期和離港日期模式之間的對(duì)應(yīng)關(guān)系。我們分析了一年中不同月份和一周中不同日期的模式,并匯總了一年中不同月份和一周7天的日期模式的分布概率,以確定流量分布如何與離港日期交互。一周7天的日期模式如圖1(b)所示。模式W1集中在工作日,而模式W3的峰值出現(xiàn)在周末兩天。模式W2和W4則呈現(xiàn)相反趨勢。W2主要集中在星期一、星期六和星期日,模式W4主要集中在星期三、星期四和星期五。圖1(c)顯示了不同月份的模式。我們可以觀察到明顯的季節(jié)多樣性。模式M1主要集中在秋冬季,而模式M2主要集中在冬季和春季。模式M3集中在春季,而模式M4主要分布在夏季,夏季是航空系統(tǒng)的旅行高峰時(shí)段。
圖1.不同維度的主要模式。(a)每個(gè)模式(列)的離港時(shí)間在因子矩陣中的概率分布Probability(H);(b)離港日期在星期幾的概率分布Probability(W);(c)離港日期在月份的概率分布Probability(M)。
雖然上述計(jì)算過程未考慮任何空間位置信息,我們?nèi)钥梢酝ㄟ^機(jī)場的地理位置來識(shí)別這些模式的特點(diǎn)。作為中國的交通樞紐,北京首都國際機(jī)場以A1和A2模式為主。此外,模式A1主要分布在東南部地區(qū),而模式A2主要分布在西南部地區(qū)。模式A3主要由中西部地區(qū)的機(jī)場組成。
圖2顯示了延誤程度因子矩陣中每個(gè)模式(列)的延誤程度的組成。L1、L2、L3和L4代表不同延誤程度的航班,從“準(zhǔn)時(shí)”到“重度延誤”(如2.1節(jié)所述)不等。與原始張量相比,延誤程度模式幾乎保持不變,但存在不同延誤程度的航班。圖2顯示了每個(gè)延誤程度模式的組成,分別占總樣本數(shù)量的40.7%、10.5%、29.1%和19.7%。應(yīng)當(dāng)指出,延誤是空中交通擁堵的一種表現(xiàn),因此延誤程度與時(shí)空因素中的交通流量特性密切相關(guān)。為了進(jìn)一步分析,我們采用延誤程度模式和其他模式之間的條件概率來研究相互作用。我們根據(jù)貝葉斯定理計(jì)算條件概率分布Probability(L|H)。給定離港時(shí)間模式,延誤程度模式的條件分布為:
Probability(L|H)顯示了延誤程度模式如何與離港時(shí)間模式交互??梢钥闯觯J絃1表示“準(zhǔn)時(shí)”時(shí)間與所有模式密切相關(guān),這表明“準(zhǔn)時(shí)”航班在一天中的任何時(shí)候都占據(jù)主流。H1表示全天呈上升趨勢的飛行流量模式,與延誤模式L2相關(guān)聯(lián),后者對(duì)應(yīng)“輕度延誤”的航班。H2主要由離港時(shí)間模式L3和L4覆蓋,表示高等級(jí)延誤與下午的流量高度相關(guān)。H3、H4和H5主要由L3和L4覆蓋。這可以用以下事實(shí)來解釋:由于大多數(shù)機(jī)場的空中交通繁忙,早晨離港高峰期間的航班可能會(huì)“重度延誤”。
圖2. 延誤因子矩陣中每個(gè)模式(列)的延誤程度概率Probability(L)。
根據(jù)離港時(shí)間模式和延誤程度模式的因子矩陣,我們發(fā)現(xiàn)在M1/W1、M2/W2和M3/W3中,“準(zhǔn)時(shí)”和“輕度延誤”模式最多。但是,M4/W4表示流量主要集中在工作日和夏季,并且往往會(huì)出現(xiàn)“重度延誤”。
如式(10)所示,機(jī)場模式也與延誤程度模式相關(guān)。顯而易見的是,模式A3主要由L1覆蓋,這可能表示中西部地區(qū)機(jī)場的空中交通延誤較少。與A3相比,A1和A2更可能產(chǎn)生“重度延誤”,這可以用中西部地區(qū)機(jī)場相對(duì)較少的交通流量和充足的空域資源來解釋。如上面的分析所示,延誤受時(shí)間和空間的影響很大。為了進(jìn)一步探討模式之間的相互作用,我們提出了沿時(shí)間和空間維度的模式關(guān)聯(lián)。如圖3所示,(L2,H1)的值大于A1中其他單元格的值,這表明當(dāng)下午或傍晚的航班從東南部地區(qū)的機(jī)場起飛時(shí),它們會(huì)稍有延誤。我們還在(L3,H3)的A2模式內(nèi)觀察到大量飛行流量,而這種流量很少出現(xiàn)在A1和A3中。由此可知,在上午高峰期,從西南部地區(qū)機(jī)場起飛的航班通常會(huì)有“中度延誤”。如前所述,由于中西部地區(qū)機(jī)場(A3)的運(yùn)力過剩,航班延誤的可能性很小,此現(xiàn)象與A3中的單元格(L1,H2~H4)一致。
圖3.不同機(jī)場模式的延誤程度和離港時(shí)間的關(guān)聯(lián)。
實(shí)際數(shù)據(jù)表明,張量分解能夠使我們解釋基于潛在因素的復(fù)雜依賴性和高階相互作用。核心張量π以非常有效且信息豐富的方式描述了不同模式之間的交互。該框架有助于我們理解和解釋大型數(shù)據(jù)集中模式之間的潛在相互作用和復(fù)雜依賴性,從而加深我們對(duì)空中交通管理的理解。
在此基礎(chǔ)上,存在另一個(gè)重大問題。如果僅考慮從時(shí)間和空間信息中提取的有關(guān)潛在模式的信息,是否可以估計(jì)延誤程度?盡管以前的研究表明,航班延誤可歸因于許多復(fù)雜因素[49],但這一問題可能具有重大意義。首先,由于各種延誤原因的共同作用,產(chǎn)生了基于歷史信息的潛在模式。例如,夏季極端天氣頻繁發(fā)生,并且夏季與嚴(yán)重的延誤模式有強(qiáng)烈的相互作用。其次,由于時(shí)空信息不要求我們詳細(xì)了解運(yùn)行特性,因此,僅離港時(shí)間和離港機(jī)場等基本信息就可以幫助我們事先對(duì)延誤進(jìn)行初步評(píng)估。第三,航空系統(tǒng)的高度動(dòng)態(tài)性和復(fù)雜性使人們相信,無法通過基本信息來估計(jì)延誤。因此,如果實(shí)現(xiàn)了準(zhǔn)確的估計(jì),那么我們的框架所產(chǎn)生的潛在模式的有效性也得到了證明。由于該框架對(duì)這個(gè)問題的適應(yīng)性,為了進(jìn)一步探索,本研究采用隨機(jī)森林(RF)算法來構(gòu)建估計(jì)模型[50]。RF的優(yōu)點(diǎn)包括:①可以對(duì)泛化誤差產(chǎn)生內(nèi)部無偏估計(jì);②可在大型數(shù)據(jù)庫上高效運(yùn)行;③具有對(duì)變量之間相互作用進(jìn)行建模的能力[51]。具體來說,RF是B顆樹的集合{Γ1(X), ...,ΓB(X)},其中X= (x1, ...,xρ)是描述符的ρ維向量。集合產(chǎn)生B個(gè)輸出其中是第b顆樹的估計(jì)。匯總所有樹的輸出以產(chǎn)生一個(gè)最終估計(jì)對(duì)于分類問題,是大多數(shù)樹估計(jì)的類別。模型訓(xùn)練程序如下:
(1)準(zhǔn)備訓(xùn)練數(shù)據(jù)。準(zhǔn)備訓(xùn)練數(shù)據(jù)的ρ維樣本及其類別標(biāo)簽。
(2)選擇參數(shù)。E:每棵樹的最大深度;C:分割內(nèi)部節(jié)點(diǎn)所需的最小樣本數(shù);V:每次拆分的變量;ML:在葉節(jié)點(diǎn)處需要的最小樣本數(shù)。
(3)增長分類樹。對(duì)于b= 1~B,從訓(xùn)練數(shù)據(jù)中繪制一定尺寸(Sd)的引導(dǎo)樣本Z*。使用大約2/3的原始訓(xùn)練樣本生長分類樹,將剩下的1/3樣本保留為所謂的袋外(OOB)樣本。
(4)樹的生成。對(duì)于每個(gè)引導(dǎo)樣本,進(jìn)行下述過程以生成一棵樹Γb(X)。在每個(gè)節(jié)點(diǎn)上,選擇最佳變量/分割點(diǎn),并將該節(jié)點(diǎn)拆分為兩個(gè)節(jié)點(diǎn),直到該節(jié)點(diǎn)的樣本數(shù)小于C,該樹將增長到最大尺寸E,而不會(huì)被修剪。重復(fù)上述步驟,直到B顆樹長出。
(5)結(jié)果輸出。通過將樹的估算值與森林中所有類似樹的多數(shù)投票進(jìn)行匯總來估算新數(shù)據(jù)。輸出其中是對(duì)第b顆樹的估計(jì)。
為了評(píng)估估計(jì)模型的性能,使用4個(gè)指數(shù),參考式(11)~(14)。F1macro為宏平均數(shù),用于對(duì)所有類別(1,...,u)加權(quán)平均。F1micro為微平均數(shù),用于對(duì)所有樣本平均加權(quán),從而有利于樣本預(yù)測結(jié)果的提升。加權(quán)分?jǐn)?shù)在每個(gè)標(biāo)簽中找到平均值,然后按每個(gè)類的真實(shí)實(shí)例數(shù)加權(quán)。AccuracyOOB是訓(xùn)練樣本集Z*的平均準(zhǔn)確度,僅使用其引導(dǎo)樣本中沒有的樹[52]。
式中,Pmacro是宏精確率;Rmacro是宏召回率。Precisionu表示TPu數(shù)除以TPu和FPu的總數(shù)(TPu是類別u中將正類正確預(yù)測為正類的數(shù)量,F(xiàn)Pu是類別u中將負(fù)類錯(cuò)誤預(yù)測為正類的數(shù)量),而Recallu定義為TPu數(shù)除以TPu和FNu的總數(shù)(FNu是類別u中將正類錯(cuò)誤預(yù)測為負(fù)類的數(shù)量)。
式中,Pmicro是微精確率;Rmicro是微召回率。
式中,Su是類別u中的樣本數(shù)量;S為樣本數(shù)量。
式中,TPOOB是OOB樣本中將正類正確預(yù)測為正類的數(shù)量,F(xiàn)NOOB是OOB樣本中將正類錯(cuò)誤預(yù)測為負(fù)類的數(shù)量。FPOOB是OOB樣本中將負(fù)類錯(cuò)誤預(yù)測為正類的數(shù)量,TNOOB是OOB樣本中將負(fù)類正確預(yù)測為負(fù)類的數(shù)量。
本研究使用了潛在的時(shí)空模式數(shù)據(jù)。分類問題涉及識(shí)別4個(gè)延誤程度(“準(zhǔn)時(shí)”“輕度延誤”“中度延誤”和“重度延誤”)。為了估計(jì)模型在實(shí)際中的執(zhí)行效果,本文采用了交叉驗(yàn)證策略。一輪交叉驗(yàn)證涉及將所有記錄分為5個(gè)互補(bǔ)子集,其中對(duì)4個(gè)子集執(zhí)行訓(xùn)練過程,然后在另一個(gè)測試集上驗(yàn)證分析。接下來,將驗(yàn)證結(jié)果在5個(gè)回合中取平均值,以估算模型的性能??偣彩褂昧?3 492 326條記錄。如上所述,選擇每種模式下的飛行概率值(潛在的時(shí)空模式)作為特征,即{A1~A4,H1~H5,W1~W4,M1~M4},每個(gè)功能的范圍是0~1。
樹的數(shù)量是最重要的變量,其應(yīng)該足夠大以使RF的泛化誤差收斂。在圖4中,我們發(fā)現(xiàn)當(dāng)B從100增加到150 時(shí),AccuracyOOB從53.1%變?yōu)?3.4%;當(dāng)B大于150 時(shí),AccuracyOOB稍微增加。在B大于150后,RF分類器對(duì)B的增加幾乎不敏感。為了獲得更好的參數(shù)集,本文使用了網(wǎng)格搜索方法,即通過嘗試其他參數(shù)的若干種組合來確定此模型的最佳參數(shù)值。
各個(gè)類別的整體性能和準(zhǔn)確性如圖5所示。正如先前的研究所指出的,由于延誤主要由動(dòng)態(tài)操作因素決定,因此難以在延誤發(fā)生之前做出準(zhǔn)確判斷[53,54]。我們的模型僅考慮通過基本飛行信息揭示的潛在模式,在這種情況下,RF的所有性能指標(biāo)均達(dá)到50%以上,各個(gè)類別的準(zhǔn)確度分別為60.0%、46.0%、44.0%和65.0%,這是一個(gè)非常積極的表現(xiàn)。它表示可以僅根據(jù)時(shí)間和機(jī)場信息預(yù)先估算不同航班延誤的概率?!皽?zhǔn)時(shí)”模式和“重度延誤”模式由于具有獨(dú)特的特征而被更準(zhǔn)確地分類。即使該算法在分類“輕度延誤”和“中度延誤”類別時(shí)比較困難,但混淆矩陣對(duì)角線附近的深色區(qū)域表示錯(cuò)誤的估計(jì)值具有較小的偏差。
圖4. 樹的數(shù)量對(duì)模型性能的影響。
圖5. 分類結(jié)果。(a)不同指標(biāo)衡量的總體表現(xiàn);(b)混淆矩陣。
在本文中,我們開發(fā)了一個(gè)概率分解框架,該框架可將大量飛行記錄數(shù)據(jù)轉(zhuǎn)換為時(shí)空高維張量。我們的目的是調(diào)查空中交通和航班延誤的時(shí)空動(dòng)態(tài)模式。我們假設(shè)每個(gè)飛行觀測都是從泛分布中產(chǎn)生的樣本。然后,我們使用非負(fù)張量因子分解方法進(jìn)行數(shù)據(jù)處理。結(jié)果表明,清晰的模式可以被挖掘出來。核心張量也有效展示了不同模式的相互作用,解釋了延誤與時(shí)空模式之間的關(guān)系。另外,“重度延誤”往往發(fā)生于每一天的下午,尤其是工作日和夏季的高峰期。從中西部地區(qū)機(jī)場起飛的航班在一天中的任何時(shí)間都很少有延誤的可能性。
通過在空間和時(shí)間維度上加強(qiáng)對(duì)航班的了解,該框架可以為航班延誤的建模提供啟發(fā)。而且,本文已經(jīng)證明潛在模式對(duì)延誤有一定作用。隨著空間和時(shí)間信息的整合,潛在的模式可以給出有關(guān)延誤程度的估計(jì)結(jié)果。在高度動(dòng)態(tài)的環(huán)境和延誤復(fù)雜性的背景下,此結(jié)果使我們對(duì)空中交通和航班延誤與時(shí)間和空間的相互作用有了新的認(rèn)識(shí)。該框架通過潛在類別模型和概率分解方法對(duì)海量航空數(shù)據(jù)進(jìn)行深入了解。研究結(jié)果可以幫助機(jī)場運(yùn)營商和空中交通管理人員,根據(jù)從歷史情景中獲得的經(jīng)驗(yàn),更好地制訂空中交通管理策略和完善機(jī)場內(nèi)部管理。未來可以進(jìn)一步研究涉及更多因素(如天氣和航線屬性)的相互作用的航班延誤問題。
致謝
感謝美國南佛羅里達(dá)大學(xué)的張瑜博士和美國卡內(nèi)基梅隆大學(xué)的張沈麒對(duì)本文撰寫工作給予的支持和建議。該研究獲得國家重點(diǎn)研發(fā)計(jì)劃(2019YFF0301400)及國家自然科學(xué)基金(61671031、61722102和61961146005)資助。
Compliance with ethics guidelines
Mingyuan Zhang, Shenwen Chen, Lijun Sun, Wenbo Du, and Xianbin Cao declare that they have no conflict of interest or financial conflicts to disclose.