宋海瑞 廖必凱
摘 ?要: 把數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和可視化等大數(shù)據(jù)研究的關(guān)鍵技術(shù)應(yīng)用到機場綜合管理數(shù)據(jù)庫建設(shè)中。利用數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和可視化等大數(shù)據(jù)研究的關(guān)鍵技術(shù),實現(xiàn)機場在建設(shè)綜合管理數(shù)據(jù)庫過程中,各類型海量數(shù)據(jù)處理、數(shù)據(jù)倉庫建設(shè)、數(shù)據(jù)的分析及價值發(fā)現(xiàn)。進而為機場建設(shè)綜合管理數(shù)據(jù)庫提供了設(shè)計方案。
關(guān)鍵詞: 大數(shù)據(jù); 機場; 數(shù)據(jù)倉庫; 數(shù)據(jù)挖掘; 可視化
中圖分類號:TP392 ? ? ? ? ?文獻標(biāo)志碼:A ? ? 文章編號:1006-8228(2015)07-36-03
Research on the application of Big data in construction of airport management database
Song Hairui, Liao Bikai
(The Second Research Institute of CAAC, Chengdu, Sichuan 610041, China)
Abstract: Applying the key technology of Big data research, i.e. data warehouse, data mining and visualization, etc. in the construction of airport comprehensive management database, use these key technologies to realize the various types of massive data processing, data warehouse building, data analysis and value found. And then, provide the design scheme for the construction of airport comprehensive management database.
Key words: Big data; airport management; data warehouse; data mining; visualization
0 引言
目前,國內(nèi)大部分機場已建設(shè)了各類業(yè)務(wù)信息系統(tǒng),這些系統(tǒng)基本能滿足機場運行和管理層面的業(yè)務(wù)需求。如何利用現(xiàn)有的手段和技術(shù)水平更好地整合利用這些系統(tǒng)運行多年產(chǎn)生的各類歷史業(yè)務(wù)數(shù)據(jù)并發(fā)掘其潛在價值,進而為機場改進決策,提高服務(wù)質(zhì)量,增加運營收益是大部分國內(nèi)機場在建設(shè)機場綜合管理數(shù)據(jù)庫過程中面臨的主要問題[1]。當(dāng)前,大數(shù)據(jù)技術(shù)、數(shù)據(jù)倉庫技術(shù)以及數(shù)據(jù)挖掘技術(shù)在很多領(lǐng)域的成熟應(yīng)用為機場綜合管理數(shù)據(jù)庫建設(shè)提供了技術(shù)支撐和實現(xiàn)途徑。
1 大數(shù)據(jù)綜述
大數(shù)據(jù)是繼云計算,物聯(lián)網(wǎng)之后 IT產(chǎn)業(yè)又一次顛覆性的技術(shù)革命,對國家治理模式,企業(yè)決策,組織和業(yè)務(wù)流程,以及個人生活方式等都將產(chǎn)生巨大影響。大數(shù)據(jù)挖掘和應(yīng)用可創(chuàng)造出超萬億美元的價值,是未來IT領(lǐng)域最大的市場機遇之一。
大數(shù)據(jù)不是一種新技術(shù),也不是一種新產(chǎn)品,而是一種新現(xiàn)象和新思想,是近來研究的一個技術(shù)熱點。大數(shù)據(jù)具有四個主要特點:數(shù)據(jù)種類繁多、數(shù)據(jù)體量巨大、價值密度低、處理速度快。因此傳統(tǒng)的數(shù)據(jù)庫時代的數(shù)據(jù)處理方式已經(jīng)遠遠不能滿足大數(shù)據(jù)時代的數(shù)據(jù)處理要求,這就需要用新的數(shù)據(jù)思維和技術(shù)來應(yīng)對[2]。
大數(shù)據(jù)技術(shù)是一系列收集、存儲、管理、處理、分析、共享和可視化技術(shù)的集合。適用于大數(shù)據(jù)的關(guān)鍵技術(shù)包括數(shù)據(jù)分布技術(shù)、任務(wù)分解技術(shù)、數(shù)據(jù)挖掘技術(shù)、數(shù)據(jù)倉庫技術(shù)、可視化技術(shù)等。數(shù)據(jù)分布技術(shù)和任務(wù)分解技術(shù)是Hadoop的核心思想。數(shù)據(jù)挖掘技術(shù)是結(jié)合統(tǒng)計數(shù)據(jù)和機器學(xué)習(xí),使用數(shù)據(jù)庫管理技術(shù)從大型數(shù)據(jù)集中提取有用信息和知識的技術(shù)。數(shù)據(jù)挖掘的工具及方式包括回歸、分類、關(guān)聯(lián)分析、演化分析、聚類分析、序列模式等。大數(shù)據(jù)研究中典型的數(shù)據(jù)倉庫技術(shù)包括Greenplum、Hive、Big Table的分布式數(shù)據(jù)庫系統(tǒng)和HBase的非關(guān)系型數(shù)據(jù)庫系統(tǒng)。可視化技術(shù)是通過創(chuàng)建圖片、圖表或動畫等展示大數(shù)據(jù)分析的結(jié)果。典型的可視化技術(shù)包括標(biāo)簽云及Clustergram技術(shù)等。
2 機場運行面臨的數(shù)據(jù)處理的挑戰(zhàn)
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身就是資產(chǎn)。云計算為數(shù)據(jù)資產(chǎn)提供了保管、訪問的場所和渠道,但如何盤活數(shù)據(jù)資產(chǎn),使其為企業(yè)決策乃至個人生活服務(wù),是大數(shù)據(jù)的核心議題。目前,國內(nèi)主要機場普遍采用以機場運行數(shù)據(jù)庫為核心的建設(shè)模式,該模式以航班信息為主要信息源,以中間件平臺為基礎(chǔ),實現(xiàn)信息集成系統(tǒng)、離港系統(tǒng)、航班顯示系統(tǒng)、廣播系統(tǒng)等生產(chǎn)系統(tǒng)的數(shù)據(jù)交互以及旅客服務(wù)類系統(tǒng)、機場及航站樓的設(shè)備設(shè)施保障系統(tǒng)的協(xié)同運作。基于機場的運行模式,數(shù)據(jù)產(chǎn)生于航班保障和旅客服務(wù)的各個方面,如航班信息數(shù)據(jù)、業(yè)務(wù)處理數(shù)據(jù)、行李數(shù)據(jù)、旅客服務(wù)類數(shù)據(jù)、設(shè)備設(shè)施監(jiān)測數(shù)據(jù)、物流數(shù)據(jù)、交通樞紐的運力及車位數(shù)據(jù)、商業(yè)服務(wù)數(shù)據(jù)、財務(wù)辦公類數(shù)據(jù)等海量的數(shù)據(jù)[3]。
在大數(shù)據(jù)時代,“數(shù)據(jù)海量、知識匱乏”是大數(shù)據(jù)時代多數(shù)企業(yè)的通病。雖然機場在日常運行管理中會產(chǎn)生大量的運營數(shù)據(jù),然而大部分機場的運行數(shù)據(jù)庫僅僅實現(xiàn)航班數(shù)據(jù)的實時處理,無法深入挖掘出隱藏在海量數(shù)據(jù)背后潛在的價值。因此建立機場綜合管理數(shù)據(jù)庫,應(yīng)用大數(shù)據(jù)技術(shù)實現(xiàn)對機場數(shù)據(jù)的綜合管理以及深入挖掘是十分必要的。
3 構(gòu)建方案
構(gòu)建機場綜合管理數(shù)據(jù)倉庫涉及海量數(shù)據(jù)信息,既有大量航班實時運行數(shù)據(jù),又有海量的歷史數(shù)據(jù)。數(shù)據(jù)倉庫的建設(shè)應(yīng)該支持機場綜合分析管理的各個方面,包括航班運行分析及管理、旅客服務(wù)質(zhì)量分析及管理、設(shè)備設(shè)施運行效率分析及管理、決策支持分析、規(guī)劃及招商分析等。經(jīng)過重新設(shè)計的數(shù)據(jù)倉庫可以根據(jù)不同的主題設(shè)計不同的屬性集,從而減少數(shù)據(jù)處理量,針對不同的主題數(shù)據(jù)庫可以采取粗糙集的屬性歸約算法刪除數(shù)據(jù)中的冗余信息,得到精簡的數(shù)據(jù)集,然后將決策樹所表示的數(shù)據(jù)集表示為分類規(guī)則知識并儲存在規(guī)則知識庫中。系統(tǒng)數(shù)據(jù)流程為采集各種數(shù)據(jù)庫中的各類數(shù)據(jù),重整結(jié)構(gòu)和調(diào)整數(shù)據(jù)后歸類存放在數(shù)據(jù)倉庫中,然后由多維分析工具多層次分類成有效信息,與知識庫、方法庫、模型庫、數(shù)據(jù)挖掘工具有機結(jié)合,最后通過可視化工具將分析結(jié)果呈現(xiàn)給用戶。
4 總體架構(gòu)
根據(jù)機場的特點,綜合管理數(shù)據(jù)倉庫,其體系結(jié)構(gòu)如圖1所示。從圖1中可以看出,數(shù)據(jù)倉庫的總體架構(gòu)共分五部分:數(shù)據(jù)源、數(shù)據(jù)處理、綜合管理數(shù)據(jù)庫、數(shù)據(jù)分析提取以及數(shù)據(jù)可視化[4]。
4.1 數(shù)據(jù)源層
在機場航班運行過程中將涉及到多方面的數(shù)據(jù)源,如航班數(shù)據(jù)、旅客數(shù)據(jù)、行李數(shù)據(jù)、設(shè)備設(shè)施監(jiān)控數(shù)據(jù)、物流數(shù)據(jù)、行政辦公類數(shù)據(jù)、安全數(shù)據(jù)、商業(yè)數(shù)據(jù)等等。還涉及到很多外部數(shù)據(jù)源,如天氣數(shù)據(jù)、空管數(shù)據(jù)、航空公司數(shù)據(jù)、商業(yè)運行數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)等。這些數(shù)據(jù)源有些是歷史數(shù)據(jù),有些是實時運行數(shù)據(jù),它們存儲在不同區(qū)域不同部門的異構(gòu)數(shù)據(jù)庫中。
4.2 數(shù)據(jù)處理
數(shù)據(jù)處理是對一個存儲區(qū),裝載維度表和事實表,為輸出到數(shù)據(jù)集市做好準(zhǔn)備。由于數(shù)據(jù)源數(shù)據(jù)內(nèi)容往往交叉,所以需要按照互動性對觀測數(shù)據(jù)進行分類,數(shù)據(jù)大致分為兩類:結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。同時,由于原始數(shù)據(jù)中有噪聲數(shù)據(jù)、冗余數(shù)據(jù)及缺失數(shù)據(jù)等問題,需要對數(shù)據(jù)進行處理,通過轉(zhuǎn)換、凈化和標(biāo)準(zhǔn)化處理后,數(shù)據(jù)被重新組織成面向主題的、一致的數(shù)據(jù),置入數(shù)據(jù)倉庫之中。
4.3 綜合管理數(shù)據(jù)庫
數(shù)據(jù)倉庫實現(xiàn)對預(yù)測主題和信息的存儲與綜合。預(yù)測執(zhí)行完成后的結(jié)果存儲在數(shù)據(jù)倉庫中,形成決策信息庫。如航班運行分析管理,就可以把大量的航班運行數(shù)據(jù)、設(shè)備設(shè)施監(jiān)控數(shù)據(jù)存入到數(shù)據(jù)倉庫中,和其他已存入數(shù)據(jù)倉庫的數(shù)據(jù)信息進行綜合分析,得出航班保障過程中最優(yōu)的設(shè)備設(shè)施運行及管理方案。該方案可根據(jù)航班情況按需分配登機橋、通道、照明、空調(diào)、扶梯等設(shè)備設(shè)施,從而提高設(shè)備/設(shè)施的利用率,降低航班運行保障成本。引入數(shù)據(jù)集市是因為通過將數(shù)據(jù)倉庫和數(shù)據(jù)集市分離的方法,可以使數(shù)據(jù)倉庫集中精力解決數(shù)據(jù)整合和清理等問題,而數(shù)據(jù)集市則致力于為特定的決策過程提供服務(wù)。數(shù)據(jù)倉庫在數(shù)據(jù)源和直接面對決策支持過程的數(shù)據(jù)集市之間形成了一個緩沖,數(shù)據(jù)集市可以面向一個優(yōu)良的數(shù)據(jù)倉庫來建設(shè),數(shù)據(jù)源的變化可以不直接影響到數(shù)據(jù)集市。
4.4 數(shù)據(jù)分析提取
經(jīng)過數(shù)據(jù)處理后的數(shù)據(jù)可以通過聯(lián)機分析處理技術(shù)(OLAP)來支撐復(fù)雜的決策分析過程。聯(lián)機分析處理基于數(shù)據(jù)集合中的信息,運用航班運行規(guī)律開發(fā)相關(guān)的模型庫、知識庫、進行聯(lián)機數(shù)學(xué)運算和數(shù)據(jù)加工處理,并提供靈活、交互式的統(tǒng)計、趨勢分析和預(yù)測,為機場管理部門提供輔助決策[5]。鑒于機場的特點,可以把數(shù)據(jù)分類成實時性數(shù)據(jù)和非實時性數(shù)據(jù)。通過搭建云計算平臺采用MapReduce技術(shù)、Hadoop技術(shù)對數(shù)據(jù)進行處理[6]。數(shù)據(jù)挖掘工具從數(shù)據(jù)倉庫中挖掘的知識形成知識庫。知識庫是領(lǐng)域知識,用于進行知識推理實現(xiàn)定性分析輔助決策。模型庫和方法庫為決策問題提供定量分析(模型計算)和輔助決策信息。方法庫由預(yù)測方法字典和方法算法類庫組成。模型庫由預(yù)測模型字典、模型參數(shù)字典和模型存儲庫組成。OLAP(聯(lián)機分析處理)與模型庫、方法庫、知識庫進行信息交互,與圖形用戶界面進行多次對話完成預(yù)測分析過程。
4.5 數(shù)據(jù)可視化
建設(shè)數(shù)據(jù)倉庫和對數(shù)據(jù)進行挖掘的最終目的是讓機場管理人員能夠方便地使用這一集成的決策支持環(huán)境,以獲取有價值的信息,從而能對未來航班保障、旅客服務(wù)等做出迅捷準(zhǔn)確的判斷,進而制定相應(yīng)的對策。因此,界面友好、功能強大的可視化工具也需要被集成到總體架構(gòu)中。機場綜合管理數(shù)據(jù)庫匯總了各種數(shù)據(jù)源的數(shù)據(jù),存儲了海量的非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)應(yīng)用的復(fù)雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構(gòu)和數(shù)據(jù)的動態(tài)交互方面。因此,需要利用人工智能、視覺智能技術(shù)等改變數(shù)據(jù)處理和知識提煉方式,通過輔助圖像分析以及人機推理技術(shù),開發(fā)面向各種任務(wù)的處理快速、可定制的視覺分析軟件。通過視覺分析軟件的應(yīng)用,讓分布在不同部門的機場用戶可以根據(jù)具體需求進行數(shù)據(jù)分析,得到有價值的可視化信息。
5 總結(jié)及展望
目前,國內(nèi)機場特別是大型機場,在運營過程中積累了大量的運營數(shù)據(jù),由于過去缺乏有效的技術(shù)手段,大量的歷史數(shù)據(jù)并未得到有效利用。大數(shù)據(jù)技術(shù)日趨成熟,因此,機場運營管理數(shù)據(jù)庫建設(shè)過程中完全可以利用大數(shù)據(jù)技術(shù),運用數(shù)據(jù)挖掘等工具對海量的運營數(shù)據(jù)進行價值發(fā)現(xiàn),實現(xiàn)機場的業(yè)務(wù)增值及服務(wù)質(zhì)量提升。如在旅客服務(wù)方面,可以改變傳統(tǒng)的被動式服務(wù)方式,利用大數(shù)據(jù)技術(shù)提前分析掌握旅客需求,使服務(wù)前移,為旅客提供個性化的服務(wù);如在航班業(yè)務(wù)方面,可以利用大數(shù)據(jù)技術(shù)對所保障航班的資源配置、人員配置情況進行深入分析,挖掘保障合約、機型、到場時間與地面服務(wù)、資源配置以及人員排班的潛在規(guī)律,從而為航班保障計劃的優(yōu)化提供數(shù)據(jù)支撐;如在應(yīng)對航班延誤等突發(fā)情況,可以用大數(shù)據(jù)對歷史航班延誤情況進行深入分析,根據(jù)不同原因制定有效的應(yīng)對措施,延誤發(fā)生時利用大數(shù)據(jù)技術(shù)及時掌握旅客的微博、微信等輿情,從而盡早的啟動應(yīng)急預(yù)案。
通過以上分析可知,大數(shù)據(jù)在機場領(lǐng)域有著良好的應(yīng)用前景,尤其是國內(nèi)一些大型機場正在進行綜合管理數(shù)據(jù)庫的建設(shè),這也為大數(shù)據(jù)在機場領(lǐng)域的應(yīng)用提供了很好的契機。但是,在大數(shù)據(jù)應(yīng)用層面,相關(guān)研究仍然在很大程度上集中在以“云計算”為核心的大數(shù)據(jù)相關(guān)計算機技術(shù)與軟件的開發(fā)上[7]。如何把大數(shù)據(jù)研究應(yīng)用于實際的學(xué)科領(lǐng)域,特別是機場領(lǐng)域,目前仍處于理論階段。由于具體條件的限制,本文只是從總體上對大數(shù)據(jù)技術(shù)在機場綜合管理數(shù)據(jù)庫建設(shè)過程中的應(yīng)用進行了探討和分析,提出了設(shè)計方案,為將來大數(shù)據(jù)在機場的實際應(yīng)用提供參考。
參考文獻:
[1] 孫召利.大數(shù)據(jù)在民航領(lǐng)域應(yīng)用的初步研究[J].空運商務(wù),2014.345:
11-15
[2] 盧建昌,樊圍國.大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)在電力企業(yè)中的應(yīng)用[J].
廣東電力,2014.27(9):88-94
[3] 周建忠.機場應(yīng)用大數(shù)據(jù)初探[J].交通企業(yè)管理,2014.9:68-70
[4] 虞健飛,朱家元,張恒喜.數(shù)據(jù)倉庫設(shè)計過程研究[J].計算機工程,
2003.29(19):146-169
[5] 吉根林,趙斌.面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘綜述[J].南京師大學(xué)報(自
然科學(xué)版),2014.37(1):1-7
[6] 嚴(yán)霄鳳,張德馨.大數(shù)據(jù)研究[J].計算機技術(shù)與發(fā)展,2013.23(4):
168-172
[7] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,
2013.50(1):146-169