吳 迪,羊 釗,劉芳子,王 兵,黃 明
(1.蘇州規(guī)劃設(shè)計(jì)研究院股份有限公司常熟分公司,蘇州215500; 2.南京航空航天大學(xué) 民航學(xué)院,南京210000;3.中國民用航空局空中交通管理局,北京100022;4.中國民用航空珠海進(jìn)近管制中心,珠海519000)
在民航運(yùn)輸過程中,空中交通管制員可以快速獲取一系列航空器運(yùn)行的實(shí)時(shí)位置坐標(biāo),從而得到航空器的飛行軌跡.飛行軌跡聚類是分析軌跡問題的一種有效方法.通過對(duì)航空器飛行軌跡的聚類分析,可以得到中心軌跡,識(shí)別盛行交通流,鑒別異常軌跡,輔助飛行程序設(shè)計(jì),并幫助航空公司了解航班的運(yùn)行情況,合理調(diào)整飛行計(jì)劃.
目前國內(nèi)外學(xué)者關(guān)于飛行軌跡聚類方法開展了大量研究.例如,王增福等[1]基于平面坐標(biāo)數(shù)據(jù),提出基于減法聚類的自適應(yīng)軌跡聚類算法;Frank等[2]提出基于軌跡點(diǎn)比對(duì)的軌跡聚類方法;Gariel等[3]通過軌跡數(shù)據(jù)進(jìn)行聚類分析,提出基于最長公共子序列的相似性度量算法.Lee等提出了基于軌跡離群點(diǎn)的分割異常檢測(cè),并分為一個(gè)兩層的軌跡劃分策略和混合使用給予距離和密度的檢測(cè)方法[4];并通過研究軌跡相似性度量方法在異常檢測(cè)及異常偏差的應(yīng)用,分析聚類方法的有效性以及其時(shí)間成本,并應(yīng)用于海岸監(jiān)控方面[5-6];Piciarelli等分析了軌跡聚類并應(yīng)用在視頻監(jiān)控上[7];Jasse等使用聚類方法分析飛機(jī)飛行數(shù)據(jù),并應(yīng)用于飛機(jī)異常軌跡監(jiān)測(cè)[8];Eckstein等研究了自動(dòng)的軌跡分類[9];Vlachos等研究發(fā)現(xiàn)了多維軌跡的相似性度量算法[10].王超[11]等提出了根據(jù)軌跡聚類集構(gòu)造平均軌跡的方法,并改進(jìn)了Frank的算法.為指導(dǎo)飛行程序的改善和發(fā)現(xiàn)管制員的指揮模式,王超等[12]在分析歷史軌跡的基礎(chǔ)上,對(duì)軌跡特征點(diǎn)進(jìn)行劃分,提出了基于改進(jìn)的模糊C_Means軌跡聚類方法.王濤波等[13]采用模糊聚類算法,分析平均中心軌跡對(duì)進(jìn)離場飛行程序設(shè)計(jì)優(yōu)化的影響.馬廣輝等[14]在采用歐式距離對(duì)歷史軌跡進(jìn)行聚類分析的基礎(chǔ)上,設(shè)計(jì)出符合航空器在終端區(qū)運(yùn)行的多條水平進(jìn)場路徑.
盡管國內(nèi)外學(xué)者關(guān)于軌跡聚類已開展大量研究,但現(xiàn)有文獻(xiàn)中在聚類過程中主要依賴于經(jīng)緯度數(shù)據(jù),而高度數(shù)據(jù)多用于確定軌跡特征點(diǎn).此外,現(xiàn)有研究較少涉及聚類中心軌跡在不同時(shí)間段的差異性.受不同時(shí)段空域擁擠程度、臨時(shí)航線使用等因素的影響,航空器繞飛、等待、延誤、變更航線等會(huì)對(duì)實(shí)際聚類中心產(chǎn)生較大影響.鑒于此,本文采集航空器進(jìn)場軌跡數(shù)據(jù),采用K-means聚類方法挖掘航空器飛行中心軌跡,并對(duì)比其在不同時(shí)間段的差異.
本文采集上海虹橋機(jī)場(ZSSS)—北京首都國際機(jī)場(ZBAA)ADS-B數(shù)據(jù)進(jìn)行聚類分析.將軌跡數(shù)據(jù)按照白天(8:00~20:00)和夜間(20:00-次日8:00)時(shí)間段進(jìn)行劃分,通過數(shù)據(jù)預(yù)處理,篩選得到40條進(jìn)場軌跡數(shù)據(jù),每條軌跡采用氣壓高度為5 700 m以下的100個(gè)特征點(diǎn)反應(yīng)軌跡特征.根據(jù)ADS-B數(shù)據(jù)來看,一條航班信息的更新間隔通常在4 s到幾分鐘不等,由航班唯一識(shí)別碼(VFID)、航班呼號(hào)(CallSign)、航空器型號(hào)(AcfType)、經(jīng)度(Longitude)、緯度(Latitude)、氣壓高度(Height)、地速(Speed)、起飛機(jī)場四字碼(Depaddr)、降落機(jī)場四字碼(Arraddr)、監(jiān)視時(shí)間戳(Monitor Time)等有效字段組成.航空器運(yùn)行軌跡可表示為:
表1 航班ADS-B數(shù)據(jù)示例
A={A1,A2,…,Ai,…,An}
(1)
其中:Ai為一條航空器的軌跡,i∈[1,n],n為進(jìn)場軌跡的總條數(shù).
每條軌跡數(shù)據(jù)都是由多個(gè)軌跡點(diǎn)組成的,且每條軌跡的航跡點(diǎn)總數(shù)量不同,因此,可將Ai表示為:
Ai={mi1,mi2,…,mij,…,min}
(2)
其中:i為航空器的識(shí)別碼,n為進(jìn)場航空器對(duì)應(yīng)的軌跡總數(shù)量.每一個(gè)航跡點(diǎn)mij定義為一個(gè)四維向量即:
mij={Xi,Yi,Zi,Ti}
(3)
其中:Xi、Yi、Zi、Ti分別表示第i條軌跡中航跡點(diǎn)的橫坐標(biāo)經(jīng)度、縱坐標(biāo)緯度、飛行高度和航跡點(diǎn)監(jiān)視時(shí)間戳.
由于ADS-B數(shù)據(jù)是通過自動(dòng)廣播機(jī)載設(shè)備將航空器的識(shí)別信息自動(dòng)傳輸給地面設(shè)備,受信號(hào)遮擋、干擾,接收站不同等多種因素的影響,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.數(shù)據(jù)預(yù)處理主要包括去除重復(fù)的航跡點(diǎn)、修正或刪除異常點(diǎn)、軌跡校準(zhǔn).根據(jù)航班的ADS-B經(jīng)度、緯度和高度數(shù)據(jù),會(huì)出現(xiàn)離群點(diǎn),在聚類過程中需要將這些點(diǎn)剔除.
聚類算法是數(shù)據(jù)挖掘中的一種基礎(chǔ)算法.將具體或抽象的數(shù)據(jù)集對(duì)象劃分成若干個(gè)簇,使得劃分后的數(shù)據(jù)集盡可能相似.本文采用聚類算法將軌跡數(shù)據(jù)根據(jù)不同特性分成多個(gè)類別.基于現(xiàn)采集的40條軌跡數(shù)據(jù),為對(duì)比不同時(shí)間段內(nèi)航空器進(jìn)場飛行軌跡的差異,本文以白天(8:00~20:00)和夜間(20:00~次日8:00)為例,采用K-means算法對(duì)于該時(shí)間段內(nèi)軌跡數(shù)據(jù)進(jìn)行聚類分析.首先根據(jù)每一個(gè)簇中對(duì)象的平均值(即簇的質(zhì)心)來計(jì)算對(duì)象與簇之間的距離,具體過程描述如下:
1)由于每條軌跡數(shù)據(jù)均由多個(gè)軌跡點(diǎn)構(gòu)成,且每條軌跡的航跡點(diǎn)數(shù)量各不相同,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理.將每條軌跡數(shù)據(jù)規(guī)范為由同等數(shù)量的航跡點(diǎn)構(gòu)成,用K表示初始聚類類別數(shù),同時(shí)隨機(jī)選擇K個(gè)數(shù)據(jù)對(duì)象作為初始的簇中心;本文采用手肘法和輪廓系數(shù)法等來確定合適的K值.手肘法[15]是一種利用SSE(Sum of the Squared Errors,誤差平方和)和K值的關(guān)系圖確認(rèn)最優(yōu)K值的方式,SSE可替換為樣本點(diǎn)到聚類中心歐式距離平均值.在聚類過程中,K值越大,數(shù)據(jù)被分割得越詳細(xì),此時(shí)誤差平方和不斷減小.手肘法的思想是當(dāng)K值小于真實(shí)聚類數(shù)時(shí),隨著K值的增大,SSE的變化幅度會(huì)很大;當(dāng)K達(dá)到真實(shí)聚類數(shù)目時(shí),隨著K的增大,SSE的變化關(guān)系圖會(huì)趨于平緩.所以當(dāng)手肘法所繪制的折線圖,夾角最小時(shí),數(shù)據(jù)K值為數(shù)據(jù)的最優(yōu)聚類數(shù).手肘法步驟如下:
①輸入20組軌跡數(shù)據(jù);
②根據(jù)K-means確定K值的大致取值范圍,本文在算法中選取1~10;
③進(jìn)行所有K值的聚類;
④采用下式計(jì)算誤差平方和:
(4)
其中:Zi是第i個(gè)簇,p是Zi中的樣本點(diǎn),Li代表Zi的質(zhì)心,代表所有數(shù)據(jù)對(duì)象的平均表值,k代表分組類別數(shù).輸出所有K值與其對(duì)應(yīng)的誤差平方和;
⑤繪制二維圖形,確認(rèn)最優(yōu)K值.
2)計(jì)算軌跡數(shù)據(jù)中的每個(gè)對(duì)象與各質(zhì)心之間的歐氏距離,將其劃分到與其距離最近的簇;重新計(jì)算每個(gè)簇的質(zhì)心.其中距離計(jì)算公式為:
(5)
其中:mir為軌跡Ai上的一點(diǎn),mjr為軌跡Aj上的一點(diǎn),D為軌跡Ai與軌跡Aj上兩點(diǎn)之間的歐氏距離.
3)判斷準(zhǔn)則函數(shù)收斂是否收斂,如果不收斂,算法跳轉(zhuǎn)至第②步;否則算法結(jié)束.
采用K-means聚類算法將給定的N條軌跡數(shù)據(jù)對(duì)象分成K個(gè)簇,通過手肘算法確定最佳類別數(shù)目,可以得出最優(yōu)軌跡類別數(shù)目下的四維軌跡聚類.
在北京首都國際機(jī)場,航空器在進(jìn)場階段,從JB NDB臺(tái)開始執(zhí)行ZBAA STARRWY18R/18L/19進(jìn)場程序,通過該臺(tái)高度(L)為5 700 m,通過JR NDB臺(tái)的高度(L)為5 400 m,沿該臺(tái)6°方位線飛至HUR VOR/DME 臺(tái)276°徑向線,高度(A)為2 400 m,距離HUR臺(tái)55.93 km,右轉(zhuǎn)沿KM NDB臺(tái)100°方位線直飛,再切HUR280°徑向線處到達(dá)IAF,此處距離HUR臺(tái)40.74 km,高度(A)為2 100 m.
基于ADS-B數(shù)據(jù),選取并處理進(jìn)場軌跡共40條,處理異常軌跡與離群點(diǎn),查找是否有明顯的數(shù)據(jù)缺失情況.并根據(jù)時(shí)間分為兩組各20條數(shù)據(jù),并采用上文所述方法,在Matlab中實(shí)現(xiàn).結(jié)果如圖1所示.
圖1 8:00~20:00 軌跡歐氏距離手肘圖
圖1為白天(8:00~20:00)時(shí)間段軌跡歐氏距離手肘圖,其中橫坐標(biāo)表示聚類個(gè)數(shù)K,縱坐標(biāo)表示誤差平方和SSE,當(dāng)K值小于如圖所示最優(yōu)聚類數(shù)3時(shí),隨著K值的增大,手肘圖所示兩點(diǎn)間的連線較為陡峭.當(dāng)K=3時(shí),隨K值變大,手肘圖所示縱軸兩點(diǎn)間的連線呈下降趨勢(shì)且逐漸趨于平緩.拐點(diǎn)處所對(duì)應(yīng)的值,即K=3,為8:00~20:00的軌跡數(shù)據(jù)聚類時(shí)的最優(yōu)類別數(shù).
圖2 20:00~次日8:00 軌跡歐氏距離手肘圖
圖2夜間(20:00~次日8:00)時(shí)間段軌跡歐氏距離手肘圖,當(dāng)K值小于2時(shí),隨著K值的增大,手肘圖所示兩點(diǎn)間的連線較為陡峭.當(dāng)K=2時(shí),隨K值變大,如手肘圖所示,橫坐標(biāo)數(shù)值越來越大是時(shí),SSE呈下降趨勢(shì),兩點(diǎn)之間的連線夾角越來越大,直到夾角接近或超過180°.因此,20:00~次日8:00的軌跡數(shù)據(jù)聚類最優(yōu)K值為2.
圖3為白天(8:00~20:00)時(shí)間段軌跡聚類中心圖,其中X軸與Y軸分別表示其中X軸與Y軸分別表示航空器經(jīng)度和緯度的飛行位置,Z軸表示航空器飛行高度.
圖3 8:00~20:00聚類軌跡圖
圖4 20:00~次日8:00聚類軌跡圖
對(duì)比圖3中的3條聚類中心航可以看出第一類中心軌跡與第二類中心軌跡和第三類中心軌跡偏差較大,該時(shí)間段內(nèi),空域相對(duì)繁忙,考慮管制員負(fù)荷等原因航空器容易發(fā)生繞飛或等待.圖4為夜間(20:00~次日8:00)時(shí)間段軌跡聚類中心圖,與圖3相對(duì)比,由于夜間航空器繞飛少,兩類中心軌跡趨勢(shì)較為一致.
本文采用軌跡聚類分析方法對(duì)不同時(shí)間段的同一跑道進(jìn)場航班的歷史軌跡數(shù)據(jù)進(jìn)行分析.通過對(duì)軌跡數(shù)據(jù)的經(jīng)緯度、高度及監(jiān)視時(shí)間的四維數(shù)據(jù)進(jìn)行處理,提取特征點(diǎn),采用K-means方法聚類出航空器運(yùn)行的中心軌跡,并對(duì)比分析不同時(shí)間段聚類中心軌跡之間的差異.以白天(8:00~20:00)和夜間(20:00~次日8:00)為例進(jìn)行時(shí)間段劃分.研究結(jié)果表明,航空器實(shí)際運(yùn)行會(huì)因?yàn)榭沼驌頂D程度、臨時(shí)航線使用等因素的影響,產(chǎn)生繞飛、等待、延誤、變更航線等行為,對(duì)實(shí)際聚類中心產(chǎn)生較大影響.因此,在對(duì)航空器飛行中心軌跡聚類過程中加入時(shí)間劃分會(huì)提高聚類的準(zhǔn)確性.本文采用的時(shí)間劃分聚類方法對(duì)軌跡數(shù)據(jù)的依賴性比較高.未來的研究需要進(jìn)一步增加實(shí)驗(yàn)數(shù)據(jù),提高數(shù)據(jù)質(zhì)量,以計(jì)算出更符合航空器實(shí)際運(yùn)行的中心軌跡.