張魏寧,胡明華,杜婧涵,尹嘉男
(南京航空航天大學,民航學院,南京 211106)
持續(xù)增長的空中交通需求驅動了航空運輸業(yè)的蓬勃發(fā)展,與此同時,也伴隨著空域擁擠、飛行沖突等問題的出現。為了維持飛機間適當的間隔,確保其安全、高效、有序地運行,空中交通管制員需要實時監(jiān)視空域交通態(tài)勢并向飛行員發(fā)布管制指令[1]。然而,當交通密度達到空域容量限制時,管制員處于較高的工作負荷狀態(tài),可能會導致操作錯誤進而引發(fā)不安全事件。扇區(qū)復雜度[2],作為客觀描述管制員監(jiān)視和管理所負責扇區(qū)交通狀況難度的指標,在一定程度上反應管制員所面臨的管制壓力。預先準確地評估扇區(qū)復雜度,一方面,有利于更好地進行交通流量管理,通過調節(jié)交通流量達到空域容需平衡;另一方面,能夠作為動態(tài)空域配置的參考依據,通過重新規(guī)劃管制扇區(qū)并合理分配有限的管制資源來平衡各管制員的工作負荷[3]。
針對扇區(qū)復雜度的評估問題,已有較多國內外學者進行研究。LAUDEMAN等[4]首次引入動態(tài)密度概念,將各種潛在影響因素,例如,交通流量、沖突擾動等進行線性組合。相比交通密度而言,動態(tài)密度與扇區(qū)復雜度的相關性更高,解釋性更強。此外,為捕獲各因素間存在的復雜非線性關系,GIANAZZA 等[5]利用神經網絡模型學習各因素與扇區(qū)狀態(tài)之間的聯(lián)系。本質上,這些模型通常將復雜度評估問題轉化為一般模式識別問題[6],即以容易獲得的雷達軌跡數據計算的各種影響因素作為輸入,精準預測能夠代表實際扇區(qū)復雜度的量化指標,例如,管制員身體活動、主觀評分、扇區(qū)狀態(tài)等。近年來,研究人員發(fā)現扇區(qū)復雜度評估模型的效果通常依賴于數量充足、標記可靠的數據集[7]。然而,獲取這樣的數據集往往需要領域專家積極參與并付出昂貴的時間代價,例如,空中交通管制員實時地反饋對空域運行態(tài)勢和工作負荷的主觀感受等。因此,在樣本量較小的數據集上建立評估模型更具有實際意義。針對該問題,ZHU等[8]在因子噪聲和獨立性分析的指導下,生成多個因子子集,構建集成學習模型預測扇區(qū)復雜度。CAO 等[9]提出基于知識轉移的扇區(qū)復雜度評價框架,通過挖掘并融合目標扇區(qū)和其他非目標扇區(qū)中隱藏的知識,增強小樣本環(huán)境下扇區(qū)復雜度的預測性能。在多個扇區(qū)下進行的實驗驗證了該框架的優(yōu)越性。
本文以少量、有標記的數據集為基礎,提出基于條件生成對抗網絡的扇區(qū)復雜度評估框架,利用條件生成對抗網絡生成包含不同復雜度等級的有監(jiān)督樣本,豐富已有數據集的多樣性,以此緩解數據集中存在的樣本量較小和類別不平衡問題。在中國中南區(qū)域扇區(qū)的真實運行數據下,應用多種扇區(qū)復雜度評估模型進行實例驗證。
首先,利用雷達軌跡數據計算的潛在影響因素和相應的主觀復雜度等級得到待評估扇區(qū)原始數據集,并將其劃分為訓練集和測試集兩部分,根據訓練數據集學習條件生成對抗網絡;然后,利用該網絡生成指定標號的樣本得到生成數據集,并使用結合訓練數據集和生成數據集的增廣數據集訓練扇區(qū)復雜度評估模型;最后,基于訓練好的評估模型預測待評估扇區(qū)測試數據集的復雜度等級。基于條件生成對抗網絡的扇區(qū)復雜度評估框架如圖1所示。
圖1 基于條件生成對抗網絡的扇區(qū)復雜度評估框架Fig.1 Sector complexity evaluation framework based on conditional generative adversarial network
扇區(qū)復雜度往往受多種因素的共同影響,基于已有文獻,本文從交通流量、航空器性能和潛在沖突3個維度構建復雜度指標體系。其中,交通流量類指標直接反映扇區(qū)當下及未來一段時間內航空器的分布情況,通常作為空管系統(tǒng)實際應用中描述空域交通態(tài)勢的基礎指標;航空器性能類指標主要包括與航空器運行相關的速度參數,體現運行過程中產生的波動性;潛在沖突類指標從不同角度量化航空器間的碰撞風險,例如,分離、匯聚敏感度指標描述了航空器速度、航向變化對相對距離帶來的影響,是引起管制員工作負荷激增的重要因素。扇區(qū)復雜度指標體系如表1所示。
表1 扇區(qū)復雜度指標體系Table 1 Sector complexity index system
本文采集了中國中南區(qū)域某扇區(qū)在2019年12月1~7日的真實雷達數據,每個數據包含:航班號、時間戳、位置(經度、緯度和高度)、速度等信息。根據該數據源,以1 min 為基本時間粒度計算了表1中的23個復雜度指標(潛在沖突類指標的計算方法參考文獻[5]),并選取部分樣本給管制專家進行復雜度等級的標定,包括:低、中、高3個等級。最終,整個數據集由1060條有標號的扇區(qū)復雜度樣本組成,其中復雜度等級從低到高的樣本數量分別為:455、436 和169。可以看出,由于該空域實際的運行情況,在這些已標記復雜度等級的數據中,復雜度等級高的樣本數量遠少于等級低的樣本數量,這種類別不平衡現象進一步增加了復雜度評估模型的評估難度。
為緩解數據集小樣本量和類別不平衡現象給復雜度評估模型精度帶來的影響,需要學習不同復雜度等級下各指標的潛在分布規(guī)律,進而生成多樣化的有標記樣本擴增數據集。
生成對抗網絡(Generative Adversarial Networks, GAN)是利用對抗式的學習過程估計生成模型的框架[10],被廣泛應用在圖像、視頻、文本等生成任務中。GAN 由判別器和生成器組成,生成器根據隨機噪聲生成樣本,目標在于生成盡可能符合真實樣本分布的樣本;判別器用于推測輸入樣本是真實樣本還是生成樣本,目標是對樣本來源進行準確地預測。整個框架統(tǒng)一的優(yōu)化目標為
式中:E為數學期望;G和D分別為構成生成器和判別器的神經網絡或深度模型的參數;pdata(x)和pz(z)分別為真實樣本x和隨機噪聲z的分布;G(z)為基于隨機噪聲z生成的樣本;D(x)為樣本x屬于真實樣本的概率。通過基于隨機梯度下降法的迭代優(yōu)化對G和D進行交替訓練,使得生成器可以學習訓練樣本的真實生成分布,進而從該分布中生成新的樣本。GAN 和CGAN 的模型結構如圖2所示。
由于GAN 模型只能從隨機噪聲中生成樣本,限制了其使用價值。近年來,不少學者通過對生成器的輸入提供額外信息生成更多樣化、高質量的樣本,這類GAN 模型被稱為條件生成對抗網絡(Conditional Generative Adversarial Networks,CGAN)[11]。以樣本類別標號作為輔助信息為例,CGAN的模型結構如圖2(b)所示。相比GAN模型,CGAN 的生成器在類別標號與隨機噪聲的共同作用下,生成指定類別的樣本;其判別器不僅推測輸入樣本的來源,還要預測樣本所屬的類別。整個框架的優(yōu)化目標分為樣本正確來源的似然Ls和樣本正確類別的似然Lc,即
圖2 GAN和CGAN的模型結構Fig.2 Model structure of GAN and CGAN
式中:p(y)為生成樣本的類別標號的分布;pdata(x,y)為真實樣本x及其類別標號y的聯(lián)合分布;G(z,y)為基于隨機噪聲z和指定類別標號y生成的樣本;C(y|x)為樣本x屬于類別標號y的概率。在模型訓練的過程中,判別器的目標為最大化Ls+Lc,而生成器的目標為最小化Ls-Lc。由于引入了類別標號的先驗知識和Lc的優(yōu)化目標,CGAN 生成樣本的多樣性和穩(wěn)定性往往優(yōu)于GAN。因此,本文選取CGAN作為生成樣本的基本模型,在已有扇區(qū)復雜度數據集上,生成更豐富的樣本,進而增強后續(xù)扇區(qū)復雜度評估模型的精度。扇區(qū)復雜度有標記樣本生成算法如表2所示。CGAN 模型的訓練過程詳細內容見參考文獻[11]。
表2 基于CGAN模型的扇區(qū)復雜度有標記樣本生成算法Table 2 Algorithm for generating labeled samples of sector complexity based on CGAN model
將扇區(qū)復雜度評估問題視為機器學習中的有監(jiān)督分類任務。利用管制專家對扇區(qū)樣本復雜度等級的標定結果作為監(jiān)督信息,分別基于邏輯回歸、支持向量機和隨機森林這3種經典的分類算法建立扇區(qū)復雜度評估模型。其中,邏輯回歸(Logistic Regression, LR)模型是經典的分類方法,通過最大化數據集對數似然來估計模型參數。由于該模型屬于線性分類方法,因此,將其視為基線模型;支持向量機(Support Vector Machines, SVM)模型則學習能夠正確劃分數據集類別的超平面,可以借助核函數解決非線性分類問題;隨機森林(Random Forest, RF)模型是集成學習的代表性方法,在有差異性的數據子集中訓練多個基分類器,并根據各個分類器的預測情況利用簡單投票法給出最終的分類結果。
為了驗證各模型的評估性能以及生成樣本對復雜度評估結果的影響,設置多種配置下的訓練集。如表3所示,R_L、R_M、R_H 分別表示低、中、高等級的真實訓練集,F_L、F_M、F_H 分別表示與R_L、R_M、R_H 樣本數量相同的低、中、高等級的生成樣本集。其中,配置1~4 針對類別不平衡問題;配置1、5、6、7、8、9針對小樣本問題。為保持數據規(guī)模一致性,配置8、9分別表示重復相同的真實訓練集2次、3次。
表3 訓練集的不同配置Table 3 Different configuration of training set
此外,為了對比不同實驗配置下分類模型的效果,使用Micro-average F1-score (Micro-F1)和Macro-average F1-score (Macro-F1)兩種常見的評價指標。作為F1-score 評價指標在多分類問題下的拓展,Macro-F1根據每一類的精確率和召回率計算相應類別F1-score,然后求算數平均,即
式中:k為類別數;Ri和Pi分別為第i類的召回率和精確率。Micro-F1 則首先計算所有類別總體的召回率和精確率,進而計算F1-score,即
式中:Rmi和Pmi分別為總體的召回率和精確率,即
式中:ATP,i、AFP,i和AFN,i分別為第i類的真正類、假正類、假負類樣本個數。從Micro-F1 和Macro-F1的計算方法可以看出,Micro-F1在多分類問題中等同于準確率,因此,更容易受到大樣本類別的影響;Macro-F1由于平等地看待各個類別,更易受到小樣本類別的影響。
本文基于深度學習框架Keras 2.0.8 實現CGAN模型。生成器的輸入包含兩部分,分別為隨機噪聲向量(77 維)和類別標號one-hot 向量(3 維),兩者拼接成完整的輸入向量(80 維)。輸出為特定類別下的生成樣本(23 維),其各維度分別對應表1中的各復雜度指標。中間隱藏層由全連接層和ReLU激活函數組成。判別器則以生成樣本或真實樣本作為輸入,輸出為給定樣本屬于真實樣本的概率和屬于各類別的概率,中間部分的隱藏層由全連接層和LeakyReLU 激活函數組成。為緩解訓練過程可能存在的過擬合和梯度彌散現象,引入Dropout 和Batch Normalization 機制。整個模型參數通過截斷正態(tài)分布進行初始化,并利用Adam 優(yōu)化器進行訓練,學習率和批量大小分別設置為0.0002 和32,Batch Normalization 的動量設置為0.8,Dropout 的比率設置為0.1。此外,模型隱藏層個數及相應神經元數量分別根據最小重建誤差準則[12]和本征維數估計[13]進行確定。CGAN模型結構如表4所示。
此外,基于機器學習庫Scikit-learn 0.22.2 實現各種扇區(qū)復雜度評估模型。在訓練集上利用10折交叉驗證的方法,確定了各模型的最優(yōu)超參數。對于SVM模型,選擇徑向基函數作為核函數,懲罰參數C設置為1.0;對于RF 模型,共集成了10 個深度為6 的決策樹進行預測。整個數據集被隨機打亂順序并用70%的數據作為訓練集,30%數據作為測試集。其中,訓練集首先用于訓練CGAN模型生成樣本,進而與生成樣本一起學習復雜度評估模型,測試集僅用于復雜度評估模型的性能驗證。
基于CGAN 模型的具體實現,進行了1000 次的迭代訓練,訓練過程中判別器對樣本來源的預測精度變化情況如圖3所示。
由圖3可知,在200次迭代之前,預測精度呈現波動狀態(tài)。從200次迭代以后,預測精度隨著迭代次數的增加而逐漸降低,最終穩(wěn)定在50%左右。這一現象直接反映了判別器對任意給定樣本無法區(qū)分是真實訓練樣本還是生成樣本,也間接體現了生成器所學習的數據分布隨著迭代次數的增加逐漸接近于真實訓練數據的分布。
圖3 樣本來源的預測精度隨迭代次數的變化Fig.3 Prediction accuracy of sample source varies with number of iterations
利用充分訓練的CGAN模型,基于所提出的有標記樣本生成算法,生成與訓練集各類別樣本數目相同的樣本。由于各復雜度指標的取值范圍不同,使用min-max 標準化方法將各指標映射到0~1 之間。為能夠定量地對比生成樣本與真實樣本,分別統(tǒng)計了訓練集和生成集各復雜度指標的均值和標準差,并可視化兩者的相對誤差。如圖4所示。
圖4 生成集與訓練集在均值和標準差上的相對誤差Fig.4 Relative error between generating set and training set in mean and standard deviation
各復雜度指標在均值上的相對誤差基本在5%以內,充分體現了CGAN模型學習到了真實數據的總體分布情況。此外,標準差的相對誤差普遍較高,尤其是從第10個復雜度指標開始,即潛在沖突類指標。通過觀察標準差的具體數值可以發(fā)現,該現象是由于真實樣本集的潛在沖突類指標的標準差較小而生成集的標準差較大所導致。這種生成樣本與真實樣本之間的差異可以豐富樣本的多樣性,有效地增加樣本數量,尤其是樣本量較少的高復雜度樣本,提高后續(xù)復雜度評估模型的魯棒性和預測能力。
為分析生成樣本對扇區(qū)復雜度評估精度帶來的影響,基于表2中7 種訓練集配置分別學習了LR、SVM 和RF 模型。由于生成樣本具有隨機性,利用訓練好的CGAN 模型生成30 組不同的樣本集,依次評估每組樣本集,得到Micro-F1 和Macro-F1 評價指標,并以平均值作為最終的性能結果。訓練集配置為1~4下3種評估模型測試集的Macro-F1和Micro-F1影響如圖5所示。
圖5 不同訓練集配置對3種評估模型的Macro-F1和Micro-F1影響Fig.5 Impact of different training set configurations on Macro-F1 and Micro-F1 of three evaluation models
由圖5可知,同一訓練集配置下,RF 模型的Macro-F1指標和Micro-F1指標最高,LR模型的指標最低,反映了不同模型的學習能力不同。隨著生成的高復雜度樣本的增多,各模型的指標均持續(xù)提高,表明了生成樣本能夠有效改善類別不平衡問題對性能的影響。進一步觀察同一模型下指標的變化情況,Macro-F1 指標比Micro-F1 指標性能提升明顯,這是由于Macro-F1 指標更易受小樣本類別分類效果的影響,隨著生成小樣本類別樣本數量的增加,其分類效果有明顯的改善。
訓練集配置為1、5、6、7、8、9 下3 種評估模型測試集的Macro-F1 和Micro-F1 分別如圖6和圖7所示。
圖6 不同訓練集配置下3種評估模型在測試集下的Macro-F1Fig.6 Macro-F1 of three evaluation models in test set under different training sets
圖7 不同訓練集配置下3種評估模型在測試集下的Micro-F1Fig.7 Micro-F1 of three evaluation models in test set under different training sets
由圖6和圖7可以發(fā)現,兩種評價指標取得了一致的變化情況。從配置1 到配置7,LR、SVM 和RF 模型的Macro-F1 指標分別增長了13.53%、12.53%和10.70%;Micro-F1 指標分別增長了10.01%、9.55%和5.98%。不論何種評估模型,配置5的性能遠小于配置1。這體現了在各類樣本數量相同的情況下,生成樣本較真實樣本在樣本多樣性上仍有一定的不足。此外,相較于配置1,配置6的性能有了明顯的提高。這表明,通過混合生成樣本得到的增廣樣本集能夠增強復雜度指標的表達能力,緩解有標簽樣本量較少給模型預測帶來的局限性。配置7在配置6的基礎上進一步增加生成樣本的數量,其性能僅有較小的提高。該現象反映了性能的提升不取決于生成樣本的數量,而在于是否有效地豐富了樣本的多樣性。相較于配置6 與配置7,配置8與配置9本質上沒有擴充有效訓練樣本的數量,因此,測試集性能幾乎沒有提升,也從側面驗證了生成樣本多樣性的重要性。
進一步給出不同配置條件下各評估模型總體的召回率和精確率,如表5所示。
表5 測試集的總體召回率和精確率(Rmi Pmi)Table 5 Overall recall and precision of test set(Rmi Pmi)
由表5可知,配置5的總體召回率比精確率高;配置1、6、7、8、9 的總體召回率低于精確率。整體上看,召回率和精確率相差不大。
以上實驗結果一致表明,生成樣本能夠有效提高小樣本環(huán)境下復雜度評估模型的性能。
本文的主要結論如下
(1)提出的基于條件生成對抗網絡的扇區(qū)復雜度有標記樣本生成算法的實驗結果表明,生成樣本的復雜度指標與真實樣本在均值上的相對誤差普遍小于5%,在標準差上的相對誤差普遍大于5%。說明條件生成對抗網絡能夠有效地學習各復雜度指標的分布情況,與真實樣本相比,具有一定的區(qū)分度。
(2)在扇區(qū)實際運行數據下,采用邏輯回歸、支持向量機、隨機森林算法驗證了生成樣本對扇區(qū)復雜度評估精度的有效性。對于Macro-F1 指標,評估精度分別增長了13.53%、12.53%和10.70%;對于Micro-F1 指標,評估精度分別增長了10.01%、9.55%和5.98%。表明生成樣本能夠很好地補充原始數據集,提高扇區(qū)復雜度的評估精度,為交通流量管理和管制負荷量化提供支持。