夏侯康 王麗娟 林勖 江敏婷 羅浩賢
摘? 要: 有效地預(yù)測安檢通道開放數(shù),對合理制定機(jī)場安檢排班有重要的指導(dǎo)意義,能夠提升機(jī)場安全保障和旅客體驗。隨著大數(shù)據(jù)的浪潮,大數(shù)據(jù)機(jī)器學(xué)習(xí)在各領(lǐng)域已有廣泛的應(yīng)用,本文將其應(yīng)用到了機(jī)場安檢通道開放數(shù)的預(yù)測上。結(jié)合安檢人數(shù)歷史數(shù)據(jù)和航班信息數(shù)據(jù),實現(xiàn)對安檢人數(shù)的預(yù)測,進(jìn)而實現(xiàn)安檢通道口的預(yù)測,并對比多種算法預(yù)測效果。
關(guān)鍵詞: 安檢通道數(shù);大數(shù)據(jù);機(jī)器學(xué)習(xí);XGBoost
中圖分類號: TP181? ? 文獻(xiàn)標(biāo)識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.10.034
本文著錄格式:夏侯康,王麗娟,林勖,等. 基于大數(shù)據(jù)與機(jī)器學(xué)習(xí)的安檢通道開放數(shù)預(yù)測[J]. 軟件,2020,41(10):137140
【Abstract】: Effectively predicting the opening number of security inspection channels has important guiding significance for the reasonable formulation of airport security inspection schedules, and can improve airport security and passenger experience. With the wave of big data, big data machine learning has been widely used in various fields. This article applies it to the prediction of the opening number of airport security channels. Combining the historical data of security inspection number and flight information data, it can realize the prediction of security inspection number, and then realize the prediction of security inspection channel, and compare the prediction effects of various algorithms.
【Key words】: Number of security check channels; Big data; Machine learning; XGBoost
0? 引言
隨著中國經(jīng)濟(jì)的快速發(fā)展,民航業(yè)數(shù)據(jù)呈現(xiàn)出了爆發(fā)式的增長。一個機(jī)場在生產(chǎn)運(yùn)營的各個階段,都會源源不斷地產(chǎn)生數(shù)據(jù),同時系統(tǒng)和數(shù)據(jù)庫會把數(shù)據(jù)存儲下來,機(jī)場積累了大量各種各樣的數(shù)據(jù)。如何在旅客吞吐量高速增長的情況下,使用機(jī)場內(nèi)有限的保障資源,仍然保持良好的服務(wù)質(zhì)量,這是一個值得研究的問題。目前,大多數(shù)國內(nèi)機(jī)場仍然通過人工調(diào)配設(shè)備和加大人力資源來盡可能地滿足旅客安全需要與服務(wù)體驗。這種方式,存在相當(dāng)多弊端。為了更科學(xué)的提升機(jī)場的管理效能,使旅客的出行體驗更加便捷、高效和個性化,需要新的技術(shù)體系去實現(xiàn)[1-2]。
1? 大數(shù)據(jù)與機(jī)器學(xué)習(xí)平臺搭建
對于樞紐機(jī)場來說,每天安檢人數(shù)龐大,安檢過程中產(chǎn)生的數(shù)據(jù)量通常會達(dá)到千萬條,甚至上億條。Hadoop是Apache Foundation開發(fā)的分布式系統(tǒng)基礎(chǔ)設(shè)施,其軟件框架能夠處理大量數(shù)據(jù)[3]。HDFS(Hadoop Distribu-tedFileSystem)分布式文件系統(tǒng)為海量數(shù)據(jù)提供了存儲空間,MapReduce有效提高了大數(shù)據(jù)的處理速度[4-6]。
大數(shù)據(jù)技術(shù)下的機(jī)器學(xué)習(xí)平臺支持海量數(shù)據(jù)處理,利用并行計算,構(gòu)建模型流程,支持常見的機(jī)器學(xué)習(xí)算法,支持常用的特征工程組件。本文選擇了 mllib,mllib是spark中的機(jī)器學(xué)習(xí)庫,包括了大量的機(jī)器學(xué)習(xí)算法。通過簡單的配置可以進(jìn)行模型訓(xùn)練和評估,支持決策樹和神經(jīng)網(wǎng)絡(luò)等多種模型訓(xùn)練。大數(shù)據(jù)技術(shù)下的機(jī)器學(xué)習(xí)平臺如圖1所示。
2? 算法綜述
GBDT(Grdient Boosted Regression Tree)是一種迭代決策樹算法,通過構(gòu)造一組弱的學(xué)習(xí)器(樹),并把多棵決策樹的結(jié)果累加起來作為最終的預(yù)測進(jìn)行輸出[7]。XGBoost是基于GBDT梯度提升框架提出的一種可擴(kuò)展的Boosting算法,是大型分布式通用GBDT庫,實現(xiàn)GBDT和一些在梯度廣義線性機(jī)器學(xué)習(xí)的集成算法框架,能利用 CPU 多線程并行加速樹的構(gòu)建,支持 YARN、MPI等多個平臺,實現(xiàn)分布式運(yùn)算[8]。
模型的參數(shù)用來讓數(shù)據(jù)更好的擬合預(yù)測結(jié)果,改變參數(shù)就是改變了已有模型。目標(biāo)函數(shù)在保證模型泛化能力同時將代價降至最小。XGBoost算法在梯度提升樹的基礎(chǔ)上采用前向分布算法,初始提升樹
XGBoost算法的優(yōu)勢在于設(shè)計和構(gòu)建高度可擴(kuò)展的端到端提升樹,提出了一個合理加權(quán)分位數(shù)略圖(weighted quantile sketch)來計算候選集,它引入了一種新穎的稀疏感知算法用于并行樹學(xué)習(xí)。它提出了一個有效的用于核外樹形學(xué)習(xí)的緩存感知塊結(jié)構(gòu),并用緩存加速尋找排序后被打亂的索引的列數(shù)據(jù)。
3? 基于大數(shù)據(jù)與機(jī)器學(xué)習(xí)的安檢通道數(shù)預(yù)測
3.1? 數(shù)據(jù)處理及模型構(gòu)建
3.1.1? 數(shù)據(jù)獲取
利用大數(shù)據(jù)hadoop平臺對國內(nèi)某樞紐機(jī)場的海量數(shù)據(jù)進(jìn)行處理,獲取所需要的原始數(shù)據(jù),選取2018年9月至2019年9月安檢和航班信息相關(guān)數(shù)據(jù),并進(jìn)行探索分析。
3.1.2? 數(shù)據(jù)清洗
為了避免數(shù)據(jù)不穩(wěn)定對預(yù)測效果造成影響,結(jié)合業(yè)務(wù)知識和分析結(jié)果,對原始數(shù)據(jù)進(jìn)行了預(yù)處理,如圖2所示。
3.1.3? 特征工程
分析歷史安檢旅客數(shù)據(jù)發(fā)現(xiàn):(1)每個區(qū)域每天的安檢數(shù)據(jù)呈現(xiàn)規(guī)律性,所以將安檢人數(shù)統(tǒng)計值作為了特征;(2)安檢人數(shù)受時間、節(jié)假日、航季等因素影響,因此,分區(qū)域選取了時間相關(guān)、節(jié)假日、航季等數(shù)據(jù)作為了基礎(chǔ)特征。航班架次與旅客人數(shù)有著直接的關(guān)系,結(jié)合國內(nèi)樞紐機(jī)場推薦的值機(jī)時間及對歷史數(shù)據(jù)的統(tǒng)計分析,將航班計劃起飛前2小時的航班都記為正在安檢的航班,計算得到的航班架次數(shù)據(jù)作為了特征。
統(tǒng)計分析航班歷史運(yùn)載旅客數(shù)據(jù),獲得該航班在每個時間片人數(shù)的分布,累計每個航班的分布情況,并結(jié)合當(dāng)日安檢人數(shù)總數(shù),得到了旅客分布。
3.1.4? 模型構(gòu)建
在開始訓(xùn)練之前,首先劃分訓(xùn)練集、測試集和預(yù)測集,對數(shù)據(jù)進(jìn)行歸一化處理。對于具有相同規(guī)律的數(shù)據(jù)集以外的數(shù)據(jù)(數(shù)據(jù)集中沒有出現(xiàn)的數(shù)據(jù)),訓(xùn)練后的模型可以給出適當(dāng)?shù)妮敵觥1疚膶δP屯ㄟ^Hyperopt 進(jìn)行參數(shù)自動調(diào)優(yōu),對模型不斷進(jìn)行凸優(yōu)化,在多次快速迭代中選出最優(yōu)超參數(shù)組合。
3.2? 預(yù)測結(jié)果與分析
本文對國內(nèi)某樞紐機(jī)場的兩個安檢區(qū)域,以10 min為粒度,進(jìn)行人數(shù)預(yù)測。利用訓(xùn)練集和內(nèi)部測試集(2018年9月1日-2019年9月22日),通過調(diào)參,得到每個區(qū)域的最優(yōu)參數(shù)及模型,預(yù)測(2019年9月23日-2019年9月29日)。通過均方根誤差(RMSE)評估預(yù)測精度及預(yù)測方法表現(xiàn)力。
(1)真實數(shù)據(jù)形態(tài)及趨勢
(2)人數(shù)預(yù)測結(jié)果分析
利用XGBoost算法對兩個區(qū)域安檢人數(shù)進(jìn)行預(yù)測,預(yù)測結(jié)果與真實值對比圖如圖4所示??梢钥闯觯琗GBoost算法能夠很好的擬合出數(shù)據(jù)趨勢和周期,這說明該模型具有較好的普適性和泛化能力。
有較好的表現(xiàn),平均誤差雖有波動,但總體均低于5%。
3.3? 通道數(shù)轉(zhuǎn)換及分析
選取4.2節(jié)中安檢人數(shù)預(yù)測結(jié)果,結(jié)合樞紐機(jī)場安檢業(yè)務(wù)規(guī)則,分區(qū)域進(jìn)行通道數(shù)的換算。轉(zhuǎn)換公式如下:
通道口的開關(guān)取決于安檢人數(shù)的多少,通過預(yù)測的人數(shù)轉(zhuǎn)換得到的通道數(shù),更加合理科學(xué)。基于大數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)的安檢通道數(shù)預(yù)測,能夠解決旅客在安檢區(qū)域長時間滯留的問題,亦能為安檢工作人員調(diào)配和工作分配提供科學(xué)性導(dǎo)和數(shù)據(jù)支持。
4? 結(jié)論
通過大數(shù)據(jù)機(jī)器學(xué)習(xí)技術(shù),挖掘安檢區(qū)域歷史人數(shù)信息和航班動態(tài)數(shù)據(jù)中潛在的規(guī)律,以預(yù)測未來一段時間該區(qū)域的旅客人數(shù)變化,進(jìn)而預(yù)測安檢通道數(shù),合理的調(diào)配人力和物力資源,提升旅客在機(jī)場的體驗度,也能夠及時避免因旅客長時間滯留而引發(fā)的安全性事件。
參考文獻(xiàn)
[1]李向明. 大數(shù)據(jù)在機(jī)場運(yùn)營管理中的運(yùn)用研究[J]. 空運(yùn)商務(wù), 2017(3): 20-22.
[2]?;? 大數(shù)據(jù)時代下的機(jī)場旅客數(shù)據(jù)價值挖掘[J]. 綜合運(yùn)輸, 2015, 37(11): 92-95+135.
[3]彭仁通. Hadoop的核心技術(shù)研究或概述[J]. 科技廣場, 2012(5): 41-43.
[4]Condie T, Mineiro P, Polyzotis N, et al. Machine learning for big data[C]//2013.
[5]陳康, 向勇, 喻超. 大數(shù)據(jù)時代機(jī)器學(xué)習(xí)的新趨勢[J]. 電信科學(xué), 2012, 28(12): 88-95.
[6]李尚晉. 大數(shù)據(jù)環(huán)境下的機(jī)器學(xué)習(xí)研究[J]. 電子世界, 2018(1): 62-63.
[7]Friedman J H . Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.
[8]Tianqi Chen, Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. knowledge discovery and data mining, 2016.