張銘
(中國鐵道科學(xué)研究院 電子計算技術(shù)研究所,北京 100081)
隨著近年各特大城市軌道交通快速形成網(wǎng)絡(luò),其他城市規(guī)劃建設(shè)也正在向網(wǎng)絡(luò)化邁進。從運營管理角度,對日益龐大的線網(wǎng)進行全面的信息掌握與綜合監(jiān)察,作為輔助運營決策的手段,是必不可少的基礎(chǔ)保障。由于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫等存儲和管理手段,已無法承受幾何級數(shù)增長的數(shù)據(jù)量和適應(yīng)快速獲取分析結(jié)果的需求,對大存儲、高效檢索、即時分析、數(shù)據(jù)挖掘提出了更高要求。因此,搭建線網(wǎng)數(shù)據(jù)中心平臺,通過采集各線路的運營信息,進行統(tǒng)一存儲、處理、規(guī)劃、共享,供日常運營監(jiān)控、應(yīng)急管理和運營組織優(yōu)化等業(yè)務(wù)應(yīng)用。此外,不同于積累多年的單線運營管理方式,線網(wǎng)條件下的運營指標(biāo)核算、服務(wù)水平評估、線路間及樞紐的換乘接駁、網(wǎng)絡(luò)客流的動態(tài)分析等頻繁衍生出的新問題,在大數(shù)據(jù)應(yīng)用的時代,提出了新的訴求。
數(shù)據(jù)中心及數(shù)據(jù)挖掘方面近年在各行業(yè)已有前瞻性探索[1-3],王德文等[4]提出了基于云計算的新一代電力數(shù)據(jù)中心的基礎(chǔ)架構(gòu),為智能電網(wǎng)的業(yè)務(wù)系統(tǒng)、數(shù)據(jù)挖掘與輔助決策等提供海量數(shù)據(jù)的存儲、管理與計算環(huán)境;汪祖云等[5]提出了交通行業(yè)的數(shù)據(jù)中心局域網(wǎng)和共享交換平臺的架構(gòu)設(shè)計理念;羅亮等[6]從能耗業(yè)務(wù)角度提出了面向云計算數(shù)據(jù)中心的設(shè)計;張彧鋒等[7]從城市軌道交通運營安全保障角度提出了基于數(shù)據(jù)中心的應(yīng)用管理系統(tǒng);梁艷平等[8]分析了軌道交通部分基礎(chǔ)數(shù)據(jù)庫元數(shù)據(jù)的內(nèi)容,基于各類設(shè)備故障數(shù)據(jù)進行診斷和挖掘分析[9-10]。本文從城市軌道交通網(wǎng)絡(luò)化運營角度,面向數(shù)據(jù)資源整合和挖潛,提出線網(wǎng)數(shù)據(jù)中心的構(gòu)建方案和線網(wǎng)運行監(jiān)控狀態(tài)、故障報警、近線和離線業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)中心資源池的機制,以及為運營評估及業(yè)務(wù)提供決策平臺。
1)快速增長的數(shù)據(jù)規(guī)模
城市軌道交通各類系統(tǒng)覆蓋機電專業(yè)監(jiān)控系統(tǒng)、業(yè)務(wù)系統(tǒng)和辦公系統(tǒng)等,根據(jù)收集的數(shù)據(jù),列車運行和設(shè)備監(jiān)控系統(tǒng)產(chǎn)生的報警數(shù)據(jù)日達5 GB;客流量因線網(wǎng)規(guī)模差異,北京、上海地鐵工作日均客運量1 000萬人次以上,廣州地鐵日均客運量700萬人次以上,深圳地鐵日均客運量300萬人次以上,南京、武漢、成都、西安等城市地鐵日均客運量100萬人次以上,進出站、斷面、換乘客流及統(tǒng)計等各類數(shù)據(jù)量十分龐大。非結(jié)構(gòu)化數(shù)據(jù),如一條線路(按30站計)產(chǎn)生的視頻監(jiān)控數(shù)據(jù)量(按15日循環(huán)周期)達500 GB。按5條線路規(guī)模計算,線網(wǎng)級系統(tǒng)的累計結(jié)構(gòu)化數(shù)據(jù)量可達3 TB/年,非結(jié)構(gòu)化數(shù)據(jù)因業(yè)務(wù)量差異數(shù)據(jù)量更大。隨著線路開通里程的增長,存儲數(shù)據(jù)量很快達到1 PB及以上。數(shù)據(jù)結(jié)構(gòu)、格式、類型混雜,缺乏與業(yè)務(wù)的關(guān)聯(lián)性,存在基礎(chǔ)數(shù)據(jù)不全而無效數(shù)據(jù)大量存儲的現(xiàn)象,為了提高數(shù)據(jù)質(zhì)量,有必要通過容納大數(shù)據(jù)量級的數(shù)據(jù)倉庫和標(biāo)準(zhǔn)化建模,使數(shù)據(jù)資源效益得以發(fā)揮。
2)多源異構(gòu)的數(shù)據(jù)共享
各類數(shù)據(jù)資源包括來自互聯(lián)網(wǎng)的現(xiàn)場報送信息、來自辦公網(wǎng)的信息、來自生產(chǎn)內(nèi)網(wǎng)的專業(yè)監(jiān)控和行車信號信息。針對跨網(wǎng)、復(fù)雜業(yè)務(wù)數(shù)據(jù)的接口,需要保障信息安全的同時,采用高頻數(shù)據(jù)采集、多通道隊列、通信服務(wù)協(xié)議等多種通信方式實現(xiàn)采集,不同類型數(shù)據(jù)的獲取方式與業(yè)務(wù)系統(tǒng)特點及數(shù)據(jù)內(nèi)容融合緊密相關(guān)。
3)網(wǎng)絡(luò)化運營統(tǒng)計分析與評估需求
線網(wǎng)條件下,對行車類、客流類、能耗類、服務(wù)類等考核運營效果的各項指標(biāo)計算,不是簡單地由各條分線路指標(biāo)的疊加,而是對網(wǎng)絡(luò)化運營效益的綜合考量,需要對線網(wǎng)實際運行的數(shù)據(jù)深入分析。計算方法和評估指標(biāo)體系等有待論證和檢驗,這就需要歷史數(shù)據(jù)資源的收集和對比校驗。
4)線網(wǎng)數(shù)據(jù)資源的挖潛
數(shù)據(jù)中心平臺,對累積的數(shù)據(jù)進行特征分析、建模和高效運算,通過仿真、數(shù)據(jù)挖掘等方法,為制訂有效的節(jié)能方案、運營組織優(yōu)化方案、指導(dǎo)新線規(guī)劃和設(shè)備選型等提供決策依據(jù)。
根據(jù)網(wǎng)絡(luò)化運營管理和決策分析的需求,搭建面向多用戶的信息集中共享、資源高效利用、運行可靠的軌道交通線網(wǎng)數(shù)據(jù)服務(wù)和綜合業(yè)務(wù)的數(shù)據(jù)中心平臺,實現(xiàn)信息的統(tǒng)一采集、長期存儲、統(tǒng)計分析、業(yè)務(wù)調(diào)用的功能。根據(jù)數(shù)據(jù)源的信息特點和支撐業(yè)務(wù)分支的目標(biāo)導(dǎo)向[11-12],將線網(wǎng)數(shù)據(jù)中心系統(tǒng)劃分為“四個業(yè)務(wù)板塊”,即數(shù)據(jù)采集、數(shù)據(jù)管理、統(tǒng)計分析、評估決策,同時與軌道交通企業(yè)的各類信息系統(tǒng)接口,形成穩(wěn)定、長期的數(shù)據(jù)資源融合與挖掘運用。
城市軌道交通的數(shù)據(jù)中心平臺具有其特殊性:首先,數(shù)據(jù)源來自于各分立系統(tǒng),覆蓋車輛、行車、機電設(shè)備、客流、運營管理等多個專業(yè),數(shù)據(jù)內(nèi)容具有專業(yè)的分散性;其次,圍繞運營決策與評估考核業(yè)務(wù),須對應(yīng)于業(yè)務(wù)主題找到各專業(yè)數(shù)據(jù)之間的關(guān)聯(lián)性,并聚合于具有高度自組織性的主題域;再次,數(shù)據(jù)類型和內(nèi)容眾多,具有近線、離線等數(shù)據(jù)采集時效的多樣性,以及隨時空變化特性、業(yè)務(wù)視角差異性和多維分析預(yù)測的復(fù)雜性。因此,數(shù)據(jù)中心的框架、數(shù)據(jù)融合的深度及專業(yè)化的數(shù)據(jù)模型,對于軌道交通線網(wǎng)級別的運營管理和決策支持具有重要意義,也是搭建城軌數(shù)據(jù)中心平臺面臨的主要問題。
1)監(jiān)控數(shù)據(jù)融合與共享
采集各線路控制中心及業(yè)務(wù)系統(tǒng)的信息,包括行車、供電、設(shè)備、防災(zāi)報警、客流、視頻監(jiān)控等,可歸納為13類運營監(jiān)控系統(tǒng)信息,7種數(shù)據(jù)結(jié)構(gòu)類型[13]。建立數(shù)據(jù)共享平臺,匯總各類數(shù)據(jù),如圖1所示。
在數(shù)據(jù)采集的基礎(chǔ)上,通過統(tǒng)一處理對多專業(yè)的信息集成與實時監(jiān)察,可掌握線網(wǎng)行車、線網(wǎng)電力運行狀態(tài),包括多線路共享主變電所能耗監(jiān)控與聯(lián)動控制;采集線網(wǎng)客流的出、入站客流數(shù)據(jù)[14-15],線路斷面客流、換乘客流信息,從實時客流監(jiān)察預(yù)警和歷史客流預(yù)測角度劃分數(shù)據(jù)結(jié)構(gòu)。劃分實時數(shù)據(jù)、近線數(shù)據(jù)和離線數(shù)據(jù),實時信息用于線網(wǎng)運行狀態(tài)的監(jiān)察,根據(jù)故障報警信息及時啟動應(yīng)急處置;近線數(shù)據(jù)和離線數(shù)據(jù)分別載入歷史庫,用于各種維度的統(tǒng)計和評估核算。
圖1 數(shù)據(jù)采集邏輯原理Fig. 1 Principle of data collection
2)基于數(shù)據(jù)倉庫的一體化數(shù)據(jù)管理
根據(jù)業(yè)務(wù)分析需求建模導(dǎo)入數(shù)據(jù)倉庫,將行車、設(shè)備、調(diào)度指揮、突發(fā)事件、客流等數(shù)據(jù)分類、存儲、分析、挖掘,建立完整的元數(shù)據(jù)管理體系,包括元數(shù)據(jù)的定義、收集、管理和發(fā)布的流程。
3)基于大數(shù)據(jù)與多媒體的集成應(yīng)用
軌道交通企業(yè)對外發(fā)布的客流信息、運營信息、突發(fā)事件應(yīng)急信息等,利用實時庫的快速處理特性和應(yīng)用集市的邏輯生成機制,通過內(nèi)網(wǎng)、移動客戶端、數(shù)據(jù)接口等方式,實現(xiàn)集通信工具、呼叫中心等方式一體化的信息發(fā)布。通過知識庫及預(yù)測結(jié)果調(diào)用綜合,將分析和反饋信息進一步收集,實現(xiàn)信息的收納和共享。
4)網(wǎng)絡(luò)化運營統(tǒng)計分析與評估決策
針對運營考核和監(jiān)管需求,構(gòu)建網(wǎng)絡(luò)化運營業(yè)務(wù)數(shù)據(jù)的統(tǒng)計、查詢和運營評估的應(yīng)用集市,形成業(yè)務(wù)調(diào)用的關(guān)聯(lián)關(guān)系的統(tǒng)一視圖,并進一步結(jié)合遠期規(guī)劃,建立評估決策模型,為多維、分段的歷史數(shù)據(jù)分析挖掘和預(yù)測提供基礎(chǔ)。
根據(jù)不同的業(yè)務(wù)對象,建立分層架構(gòu),即數(shù)據(jù)接口層、數(shù)據(jù)模型層、應(yīng)用集市層、業(yè)務(wù)訪問層,上層面向用戶訪問,應(yīng)用框架如圖2所示。
圖2 數(shù)據(jù)中心平臺的分層框架Fig. 2 Schematic of the data center platform
1)數(shù)據(jù)接口層
主要承擔(dān)數(shù)據(jù)的采集,作為系統(tǒng)接口通道,根據(jù)接口數(shù)據(jù)的實效性、數(shù)據(jù)量、數(shù)據(jù)內(nèi)容等不同條件,設(shè)置接口通信協(xié)議轉(zhuǎn)換實現(xiàn)數(shù)據(jù)的獲取,即可設(shè)計接口模型,將接口類型標(biāo)準(zhǔn)化、規(guī)則化。獲取的數(shù)據(jù)通過抽取、清理、轉(zhuǎn)換、加載過程轉(zhuǎn)入數(shù)據(jù)建模,根據(jù)業(yè)務(wù)規(guī)則建立統(tǒng)一視圖后,為數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化做準(zhǔn)備[16-17]。按照不同分類形式劃分為:
①按業(yè)務(wù)類型,劃分為客流數(shù)據(jù)、列車運行數(shù)據(jù)、設(shè)備運營數(shù)據(jù)、票務(wù)數(shù)據(jù)、清算數(shù)據(jù)、應(yīng)用系統(tǒng)的融合數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等。
②按數(shù)據(jù)類型,劃分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括可建立數(shù)據(jù)表統(tǒng)一存儲在數(shù)據(jù)庫中的數(shù)據(jù),如基礎(chǔ)設(shè)施、業(yè)務(wù)類數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)主要包括站點監(jiān)視視頻信息和規(guī)范與圖紙,以及預(yù)案、數(shù)據(jù)接口等文件類信息。
③按時效性可劃分為實時數(shù)據(jù)、非實時數(shù)據(jù)。
實時數(shù)據(jù):在數(shù)據(jù)變化時立即由控制端控制器傳給采集端,即發(fā)送端、接收端同步,包括行車運行信息、設(shè)備運行信息和故障報警信息等。非實時數(shù)據(jù):這類數(shù)據(jù)在數(shù)據(jù)變化時經(jīng)一定間隔時間后傳給采集端,包括各線路的運營數(shù)據(jù)、階段統(tǒng)計數(shù)據(jù)等。
不同分類間互有交叉,例如:列車運行類數(shù)據(jù)包括列車運行的具體位置、時間等實時信息,及列車運行圖等非實時信息,因此可對數(shù)據(jù)多級劃分:
①階段性信息:按照設(shè)定的采集周期自動接收各線路上傳的運營數(shù)據(jù),如車站一段時間內(nèi)的溫濕度統(tǒng)計、線路的用電量統(tǒng)計、各站的客流數(shù)據(jù)統(tǒng)計等,為運營人員分析整體情況進行決策積累數(shù)據(jù)。
②實時采集:用于滿足數(shù)據(jù)中心實時、非實時業(yè)務(wù)需求,通過特定通信協(xié)議,監(jiān)控源系統(tǒng)實時上傳所需數(shù)據(jù),上傳時間可通過參數(shù)化設(shè)置。
③定時采集:用于滿足數(shù)據(jù)中心離線業(yè)務(wù)需求,系統(tǒng)通過特定通信協(xié)議,在預(yù)定的時段內(nèi)(通常為非運營時段)向生產(chǎn)系統(tǒng)采集所需數(shù)據(jù)。各生產(chǎn)系統(tǒng)在預(yù)定的時段前,須以預(yù)定的格式存檔。
此外,數(shù)據(jù)倉庫形成統(tǒng)一的數(shù)據(jù)資源池,為上層業(yè)務(wù)的調(diào)用封裝出接口供訪問數(shù)據(jù)。
2)數(shù)據(jù)模型層
根據(jù)大規(guī)模數(shù)據(jù)和線網(wǎng)綜合業(yè)務(wù)的處理需求,采用數(shù)據(jù)倉庫作為線網(wǎng)數(shù)據(jù)中心平臺的基礎(chǔ)數(shù)據(jù)庫。由于數(shù)據(jù)源系統(tǒng)很多[18],從分散而異構(gòu)的源數(shù)據(jù)到最終的層次分明的展示數(shù)據(jù),需要設(shè)置多層級過濾,對數(shù)據(jù)倉庫進行分層設(shè)計。
業(yè)務(wù)建模劃分為5個層面:調(diào)度管理、客運管理、車輛管理、設(shè)備管理、安全監(jiān)察。
①調(diào)度管理模型:行車、設(shè)備、消防環(huán)控調(diào)度、指揮與運營調(diào)度、突發(fā)事件應(yīng)急處置、事故處理及調(diào)查、夜間施工管理。
②客運管理模型:運輸計劃及運行圖、運營與應(yīng)急協(xié)調(diào)、質(zhì)量分析與控制考核、質(zhì)量管理、客運組織與服務(wù)、站務(wù)與乘務(wù)。
③車輛管理模型:檢修計劃、故障分析、采購、車輛調(diào)度運力優(yōu)化、技術(shù)改造、機務(wù)管理。
④設(shè)備管理模型:維修計劃、固定資產(chǎn)管理、故障排查、新線及試運行管理、多專業(yè)協(xié)同檢修。
⑤安全監(jiān)察模型:安全巡查、應(yīng)急預(yù)案管理、事故統(tǒng)計、安全考核評估、案例知識庫。
將邏輯建模作為重要環(huán)節(jié),使其直觀映射業(yè)務(wù)部門的需求,如設(shè)定對外預(yù)警與預(yù)防準(zhǔn)備和運營組織調(diào)整方案的邏輯關(guān)聯(lián)模型等。依據(jù)業(yè)務(wù)規(guī)則轉(zhuǎn)譯為模型內(nèi)的關(guān)系,清晰地反映業(yè)務(wù)操作模式。設(shè)計的邏輯模型滿足第三范式(3NF),減少數(shù)據(jù)冗余,提高訪問效率[19]。建模的過程中,對各種原始數(shù)據(jù)、衍生數(shù)據(jù)和元數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,形成有序的標(biāo)準(zhǔn)數(shù)據(jù)并進行統(tǒng)一管理和維護,保證存儲數(shù)據(jù)的安全,具備保護機制。
3)語義應(yīng)用層
面向軌道交通日常業(yè)務(wù)進行應(yīng)用集市的設(shè)計,包括統(tǒng)計分析集市、運營評估集市、決策分析集市、客流查詢集市。采取在數(shù)據(jù)倉庫中劃分空間,建立邏輯集市,單獨劃定邏輯區(qū)域用于存放前端應(yīng)用訪問的實體表或視圖,不放置處理的中間數(shù)據(jù),并嚴格遵循命名規(guī)則,同時多個應(yīng)用集市之間數(shù)據(jù)重復(fù)利用。以客流管理的應(yīng)用集市為例,邏輯分區(qū)設(shè)置為“乘客分群、客流特征分析、路網(wǎng)不均衡性分析、客流預(yù)測、重大活動與節(jié)假日分析、車站限流分析、突發(fā)事件應(yīng)急響應(yīng)、換乘樞紐接駁、客流預(yù)測”。
因為應(yīng)用集市依賴于業(yè)務(wù)需求和數(shù)據(jù)倉庫的整體建設(shè)規(guī)劃,所以對數(shù)據(jù)倉庫的總體設(shè)計的高度穩(wěn)定性提出極高要求。為各數(shù)據(jù)集市分配獨立的數(shù)據(jù)庫區(qū)域,空間大小可根據(jù)實際使用大小靈活調(diào)整。通過負載管理來分配資源,實現(xiàn)提升數(shù)據(jù)集市的服務(wù)能力。根據(jù)“不同的業(yè)務(wù)策略”在“不同時段”為“不同類型的對象”提供“不同的資源權(quán)限”,從而為不同類型用戶提供差異化服務(wù),資源權(quán)限的切換由數(shù)據(jù)倉庫平臺自動完成,資源權(quán)限由系統(tǒng)自動分配或執(zhí)行變更。
4)安全管理體系
由于生產(chǎn)運營調(diào)度系統(tǒng)通常位于企業(yè)生產(chǎn)內(nèi)網(wǎng),屬于信息安全等級保護三級,而日常業(yè)務(wù)系統(tǒng)位于辦公網(wǎng),其中部分系統(tǒng)對外發(fā)布信息,如時刻表、乘客查詢信息等,則與互聯(lián)網(wǎng)相連。因此,對應(yīng)不同級別網(wǎng)絡(luò),建立信息安全管理體系,各系統(tǒng)數(shù)據(jù)進入數(shù)據(jù)倉庫融合。將線網(wǎng)數(shù)據(jù)中心平臺的系統(tǒng)劃分多個區(qū),包括應(yīng)用區(qū)、數(shù)據(jù)區(qū)、接口區(qū)等,設(shè)置安全管理中心,通過配置硬件安全設(shè)備,如網(wǎng)閘、防火墻、堡壘機、入侵檢測、入侵防御、審計系統(tǒng)等,配置防病毒軟件、用戶認證、數(shù)據(jù)安全等安全過濾和控制,保障信息安全。
線網(wǎng)數(shù)據(jù)中心需建立統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)體系,在構(gòu)建數(shù)據(jù)倉庫前首先執(zhí)行ETL(extract-transform-load)過程,即數(shù)據(jù)從不同的數(shù)據(jù)庫或異構(gòu)數(shù)據(jù)源中,流向統(tǒng)一的目標(biāo)數(shù)據(jù)庫,去映射源數(shù)據(jù),載入業(yè)務(wù)模型的數(shù)據(jù)倉庫或數(shù)據(jù)集市。ETL連接著數(shù)據(jù)倉庫和匯集數(shù)據(jù)的業(yè)務(wù)系統(tǒng),確保新的業(yè)務(wù)數(shù)據(jù)持續(xù)流入數(shù)據(jù)倉庫,同時保證生成的結(jié)果反映最新的業(yè)務(wù)動態(tài)。
1)數(shù)據(jù)抽取
數(shù)據(jù)抽取包括增量、全量及自定義抽取方式,具備異步和同步抽取,靈活設(shè)定抽取頻率。對行車、設(shè)備監(jiān)控、故障報警、時刻表文件等大批量數(shù)據(jù)以日為單位增加抽取,對客流類數(shù)據(jù)以文件存儲的,以單個文件傳輸?shù)闹芷跒閱挝?,作為?shù)據(jù)抽取頻率可全量抽取。
2)數(shù)據(jù)轉(zhuǎn)換
從數(shù)據(jù)采集系統(tǒng)獲取源數(shù)據(jù)時進行數(shù)據(jù)轉(zhuǎn)換,包括數(shù)據(jù)的定義、數(shù)據(jù)結(jié)構(gòu)和錯誤數(shù)據(jù)的轉(zhuǎn)換處理等,如時刻表文件的解析分為工作日、非工作日、節(jié)假日,各自成表。轉(zhuǎn)換的內(nèi)容包括格式和類型轉(zhuǎn)換、數(shù)據(jù)的翻譯、匹配、聚合等。
3)數(shù)據(jù)加載
將常規(guī)格式的數(shù)據(jù)以批量模式加載到數(shù)據(jù)倉庫,并對部分業(yè)務(wù)類數(shù)據(jù)分別處理入庫,如以5 min為單位積累的客流文件。也可并行加載,如BAS和PSCADA數(shù)據(jù)表,采用自動加載模式,但對于線路控制中心OCC上報的運營日報、月報等需手工加載,如直接追加、全部覆蓋、更新追加。
4)數(shù)據(jù)檢查與異常控制
由于各數(shù)據(jù)源的數(shù)據(jù)質(zhì)量不可控,因此進行數(shù)據(jù)檢查,包括接口數(shù)據(jù)的及時性、完整性和正確性,設(shè)置各種類型的數(shù)據(jù)質(zhì)量檢查規(guī)則、檢查規(guī)則的上下閾值,在第一時間根據(jù)規(guī)則提醒相關(guān)人員處理數(shù)據(jù)質(zhì)量故障,并對各類異常數(shù)據(jù)進行必要的處理。經(jīng)過處理的數(shù)據(jù)劃分為以下3種類型。
①基礎(chǔ)數(shù)據(jù):基礎(chǔ)數(shù)據(jù)層面定義為全局概念,以便對一些基礎(chǔ)或通用類信息保持一致的認識,如管理者、設(shè)備。
②公共代碼:對多個源系統(tǒng)不一致的數(shù)據(jù)定義進行整合,供其他系統(tǒng)引用,以保證可識別的一致性,如基礎(chǔ)設(shè)施、專業(yè)。
③統(tǒng)計指標(biāo):設(shè)置以業(yè)務(wù)為導(dǎo)向的公式化計算引擎,提供可分解的全局性統(tǒng)計指標(biāo),并使計算調(diào)取的數(shù)據(jù)遵循這些指標(biāo)的數(shù)據(jù)標(biāo)準(zhǔn)。
系統(tǒng)中元數(shù)據(jù)的業(yè)務(wù)流程邏輯關(guān)系如圖3所示。通過建立完整的元數(shù)據(jù)管理體系,包括元數(shù)據(jù)的發(fā)布、瀏覽、查詢、關(guān)聯(lián)分析及追溯等,業(yè)務(wù)人員從而及時準(zhǔn)確地了解數(shù)據(jù)倉庫的數(shù)據(jù)內(nèi)容。以此為基礎(chǔ),以便快速進行數(shù)據(jù)查詢、數(shù)據(jù)資源管理、數(shù)據(jù)模型管理、業(yè)務(wù)信息以及變更管理等。
圖3 系統(tǒng)元數(shù)據(jù)的業(yè)務(wù)流程Fig. 3 Business flow of system metadata
根據(jù)數(shù)據(jù)倉庫面向主題的特性,按照數(shù)據(jù)模型分主題組織和存放數(shù)據(jù),對所有數(shù)據(jù)分類,根據(jù)各自業(yè)務(wù)劃分不同的主題,由主題域來建模。主題域是對某個主題進行分析后確定主題的邊界。根據(jù)線網(wǎng)數(shù)據(jù)中心的業(yè)務(wù),將數(shù)據(jù)倉庫的數(shù)據(jù)模型設(shè)計為10個主題域,分別為當(dāng)事人(party)、線網(wǎng)(subway network)、位置 (location)、設(shè)備 (equipment)、行車(trip)、OD(origination and destination)、客流 (passenger flow)、票務(wù) (ticket)、清算 (clearing)、事件(event),其構(gòu)件關(guān)系如圖4所示。
以行車信息的主題域為例,數(shù)據(jù)視圖如圖5所示。
圖4 數(shù)據(jù)倉庫專業(yè)主題域的構(gòu)件關(guān)系Fig. 4 Component relation of commerial data warehouse
圖5 行車信息主題域的數(shù)據(jù)視圖Fig. 5 Data flowchart of a train-based domain
劃分不同類型主題域,由于基礎(chǔ)數(shù)據(jù)是業(yè)務(wù)系統(tǒng)或各渠道采集進入數(shù)據(jù)倉庫的,通過唯一定義,歸納資源、行程、當(dāng)事人等業(yè)務(wù)數(shù)據(jù);而公用數(shù)據(jù)是在基礎(chǔ)數(shù)據(jù)基礎(chǔ)上按照一定的業(yè)務(wù)規(guī)則匯總的數(shù)據(jù),被多業(yè)務(wù)主題所共享;專用數(shù)據(jù)則是從部門視角或獨立業(yè)務(wù)主題出發(fā),經(jīng)過特定業(yè)務(wù)智能產(chǎn)生的數(shù)據(jù),如預(yù)測評估、故障監(jiān)視等專用數(shù)據(jù)等。
將業(yè)務(wù)邏輯關(guān)系設(shè)計為運行規(guī)則,進行線網(wǎng)數(shù)據(jù)倉庫的建模,建立遞階分層機制,遞階模型按照層次進階關(guān)系設(shè)計為4階,即臨時數(shù)據(jù)、核心數(shù)據(jù)、匯總數(shù)據(jù)、專用數(shù)據(jù)。
1)臨時數(shù)據(jù)Ⅰ階
存放從數(shù)據(jù)源采集的原始交易數(shù)據(jù),保持與數(shù)據(jù)源系統(tǒng)相同的表結(jié)構(gòu),用于部分近實時性報表。為了生成業(yè)務(wù)系統(tǒng)的鏡像區(qū),作為核心數(shù)據(jù)層的數(shù)據(jù)來源,將保留從數(shù)據(jù)源中抽取的業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)存儲的周期設(shè)計為1周,并定期轉(zhuǎn)存至數(shù)據(jù)倉庫中。
2)核心數(shù)據(jù)Ⅱ階
結(jié)合源系統(tǒng)的數(shù)據(jù)現(xiàn)狀和業(yè)務(wù)邏輯模型,設(shè)計數(shù)據(jù)模型,形成的數(shù)據(jù)結(jié)構(gòu)用于數(shù)據(jù)的管理和分析,包括基礎(chǔ)設(shè)施公用數(shù)據(jù)、線網(wǎng)運行狀態(tài)記錄、客運、維修、資產(chǎn)管理等。
3)匯總數(shù)據(jù)Ⅲ階
對不同粒度的輕量級匯總或高度匯總,來提升專用數(shù)據(jù)階的數(shù)據(jù)生成效率,存放的數(shù)據(jù)是專用數(shù)據(jù)階的多個結(jié)果數(shù)據(jù)的源數(shù)據(jù),以便重復(fù)使用。
4)專用數(shù)據(jù)Ⅳ階
頂級分層面向運營業(yè)務(wù)統(tǒng)計、評估、信息發(fā)布等應(yīng)用,經(jīng)過公共指標(biāo)或外部計算的結(jié)果,直接供各應(yīng)用功能調(diào)取。
建立遞階模型后,就可對每一個主題域進行細化、分解,直到明確模型中的業(yè)務(wù)概念后,對主題或者實體之間的關(guān)系進行建模。定義邏輯數(shù)據(jù)模型LDM(logic data model),適應(yīng)源系統(tǒng)結(jié)構(gòu)變化、業(yè)務(wù)規(guī)則變化或新增業(yè)務(wù),屏蔽源系統(tǒng)變化對應(yīng)用系統(tǒng)的影響,并在長時間內(nèi)保持穩(wěn)定。
利用數(shù)據(jù)倉庫形成的資源池,通過分析挖掘?qū)崿F(xiàn)數(shù)據(jù)的多維查詢,為統(tǒng)計分析、信息服務(wù)提供服務(wù),實現(xiàn)跨業(yè)務(wù)的數(shù)據(jù)整合共享,滿足運營公司各部門對各項業(yè)務(wù)的需要。因此,根據(jù)業(yè)務(wù)標(biāo)的,建立應(yīng)用集市,為數(shù)據(jù)倉庫定向提供指令集,主要包括運營評估類、統(tǒng)計分析類、運營業(yè)務(wù)挖掘類。
1)運營評估體系
運營指標(biāo)的創(chuàng)建包括數(shù)據(jù)建模、數(shù)據(jù)模型導(dǎo)入、業(yè)務(wù)指標(biāo)創(chuàng)建和發(fā)布。其中基礎(chǔ)指標(biāo)定義是針對直接和數(shù)據(jù)關(guān)聯(lián)的指標(biāo)。運營評估類的應(yīng)用集市主要用于計算線網(wǎng)級的運營指標(biāo),包括行車及設(shè)備類30項指標(biāo),客流類39項指標(biāo),服務(wù)水平類18項指標(biāo),能耗類綜合5項指標(biāo),票卡類14項指標(biāo)。
衍生指標(biāo)和用戶自定義指標(biāo)通過不同的組合計算及函數(shù)定義,結(jié)合常量和其他衍生指標(biāo)等計算后生成的指標(biāo),包括公式管理、指標(biāo)度量、維度管理等。歸納調(diào)用的模式,包括同比分析、環(huán)比分析、趨勢預(yù)測等,實現(xiàn)時間維度從年到分鐘的逐級鉆取,時間鉆取維度的最底層是1 min。
2)運營數(shù)據(jù)的挖掘
線網(wǎng)客流是數(shù)據(jù)中心的主要業(yè)務(wù)應(yīng)用之一,也是占用數(shù)據(jù)倉庫最大空間的數(shù)據(jù)。乘客出行特征識別與客流預(yù)測是業(yè)務(wù)挖掘應(yīng)用集市的主要應(yīng)用。從進出站客流、線路上下行區(qū)間斷面客流、換乘客流、線網(wǎng)客運量等多層次、多維度時空角度分析客流運行規(guī)律,進行需求預(yù)測,能夠為制定合理的列車開行方案和組織高效運輸提供重要的決策依據(jù)。
客流分析的數(shù)據(jù)建模主要依托OD分布和清分比例,通過特征要素提取,采用基于R語言的關(guān)聯(lián)規(guī)則算法,構(gòu)建多維群組矩陣,辨識客流乘距、時段特征、客運量的分布特點。目標(biāo)要素概括如表1。
表1 客流特征識別要素邏輯數(shù)據(jù)模型Table 1 Logical data model of passenger features recognition
在目標(biāo)導(dǎo)向和特征值的基礎(chǔ)上,根據(jù)關(guān)聯(lián)規(guī)則定義客流分析的應(yīng)用集市,數(shù)據(jù)模型如圖6所示。
根據(jù)特征分析結(jié)果,計算線網(wǎng)客流特征指標(biāo),評估客流在線網(wǎng)中的分布情況和服務(wù)水平,此處僅以典型指標(biāo)為例。
選擇線網(wǎng)層級的運營評估指標(biāo)“線網(wǎng)平均運距”“線網(wǎng)換乘系數(shù)”的計算過程說明指標(biāo)的數(shù)據(jù)模型和自定義參數(shù)的配置管理。一次出行全程的總乘車距離,表示為為線路li客運周轉(zhuǎn)量,γ為第li線路的進線量。線路li的客運量。
將以上指標(biāo)中線路li均從“基礎(chǔ)數(shù)據(jù)”和“公共代碼”數(shù)據(jù)識別并導(dǎo)入數(shù)據(jù)即可獲得。而客運周轉(zhuǎn)量和客運量的計算值是由客流量、正線運營里程等基礎(chǔ)數(shù)據(jù)計算得出的中間結(jié)果,可存儲于指標(biāo)定義的暫存表中作為計算參數(shù)。
3)客流預(yù)測立方體優(yōu)化
圖6 客流應(yīng)用集市的數(shù)據(jù)建模Fig. 6 Data flow model of a passenger-based application market
傳統(tǒng)的客流預(yù)測一般通過時間序列、票價費用等要素進行需求路徑分配預(yù)測客流量[20-21]。在數(shù)據(jù)中心平臺中根據(jù)客流特征識別的指標(biāo)要素,對各種粒度數(shù)據(jù)的OLAP交互分析,使用多維數(shù)據(jù)模型和預(yù)測立方體實現(xiàn)客流的多維空間預(yù)測建模。
預(yù)測立方體算法:
1)計算聚集:在顯示維度的時段α()、費用β()、客流特征γ()定義立方體數(shù)據(jù)空間,在其作用下的客流量聚集度量M用于存放立方體中的所有元組Passenger()。首先將數(shù)組劃分為塊,通過訪問立方體單元計算在線網(wǎng)上某一路徑下的可能客流量。
2)劃分客流運行特征的置信區(qū)間:將滿足客流特征γ(i)的指定條件下置信水平為95%以上的客流類型記作count()。此處指定條件包括工作日、節(jié)假日、大型活動、突發(fā)事件、早晚高峰、平峰時段。累計對應(yīng)的在網(wǎng)車站數(shù)、時長、乘距的進出站客流量、斷面客流量、換乘客流量。
3)查詢數(shù)據(jù)立方體“關(guān)注點”客流:提升小樣本的置信度,如多種交通方式的樞紐集散站點、票價優(yōu)惠路徑、避開擁堵路徑的可替代路徑選擇等,分配權(quán)重值,在需求客流量基礎(chǔ)上適度擴展。需精確地度量維值與立方體值的相關(guān)性,通過語義類似值即可聯(lián)機分析。
4)計算預(yù)測客流量:調(diào)取線網(wǎng)的任意組合路徑,使用數(shù)據(jù)立方體快速重復(fù)客流預(yù)測模型的構(gòu)建,預(yù)測立方體的每個單元值等于該單元數(shù)據(jù)子集上的基礎(chǔ)客流預(yù)測量,經(jīng)加權(quán)修正計算得到預(yù)測客流量。
5)預(yù)測值的優(yōu)化:采用基于概率的組合方法,對最細粒度的單元構(gòu)建模型。以斷面客流量需求預(yù)測為例,給定分段路徑的客流屬性子集,將粒度集合P < p1,···,pd>的預(yù)測立方體定義為d維數(shù)組,其中每個單元(條件[OiDi路徑對;上行;工作日早高峰時段;>線網(wǎng)平均乘距])的值即為該單元定義的基礎(chǔ)客流預(yù)測量估計值的預(yù)測修正量。
因此,利用線網(wǎng)大規(guī)??土鲾?shù)據(jù)的特征分析結(jié)果,在既有客流需求預(yù)測量基礎(chǔ)上結(jié)合各城市實際客流特點予以修正,在很大程度上改善了由單線客流預(yù)測方法直接得出線網(wǎng)客流預(yù)測理論計算值的單一性。
依托某城市軌道交通的已運營構(gòu)成線網(wǎng),近3年內(nèi)投入運營將達到9條以上線路,正在快速積累各類業(yè)務(wù)數(shù)據(jù)。隨著企業(yè)信息系統(tǒng)衍生,形成了大量分立的小型業(yè)務(wù)系統(tǒng),數(shù)據(jù)內(nèi)容交叉,關(guān)聯(lián)信息無法共享的問題日益顯著。由于快速增長的數(shù)據(jù)量,簡單整合的數(shù)據(jù)容量規(guī)模大,業(yè)務(wù)統(tǒng)計分析響應(yīng)時間受關(guān)系型數(shù)據(jù)庫的影響已無法支持實時業(yè)務(wù),因此面向網(wǎng)絡(luò)化運營的需求,搭建線網(wǎng)數(shù)據(jù)中心平臺,承擔(dān)數(shù)據(jù)采集和資源整合。
按照該軌道交通線網(wǎng)數(shù)據(jù)管理標(biāo)準(zhǔn)的要求,對源系統(tǒng)統(tǒng)一加工和整合,存儲細粒度的歷史數(shù)據(jù)區(qū)域,為各業(yè)務(wù)系統(tǒng)調(diào)用提供一致、規(guī)范的數(shù)據(jù)。該數(shù)據(jù)中心管理的數(shù)據(jù)包括:
1)業(yè)務(wù)數(shù)據(jù),包含了軌道交通內(nèi)部信息系統(tǒng)的原始數(shù)據(jù)、衍生數(shù)據(jù)、過程數(shù)據(jù)等;
2)線網(wǎng)基礎(chǔ)數(shù)據(jù),覆蓋相關(guān)的各類文件數(shù)據(jù)、基礎(chǔ)線網(wǎng)數(shù)據(jù)和基本參數(shù)數(shù)據(jù);
3)配置數(shù)據(jù),主要包括用于支撐業(yè)務(wù)工具和方案的相關(guān)配置數(shù)據(jù)和業(yè)務(wù)資源數(shù)據(jù)。
建立數(shù)據(jù)倉庫,設(shè)定主題域和邏輯模型,定義“維度表”,作為基礎(chǔ)公共表,此類代碼表在明確標(biāo)識代碼值與業(yè)務(wù)含義的基礎(chǔ)上,還具備逐級匯總功能,細化了各個維度層級之間的上下級關(guān)系,為表的逐層匯總提供了先決條件。以公共代碼表為例,說明數(shù)據(jù)倉庫的基礎(chǔ)表關(guān)聯(lián)關(guān)系,設(shè)計基礎(chǔ)代碼的邏輯模型如圖7。
圖7 數(shù)據(jù)中心基礎(chǔ)代碼邏輯模型Fig. 7 Logical model of a basic code for a data center
采集數(shù)據(jù)源包括行車信號系統(tǒng)、機電設(shè)備綜合監(jiān)控系統(tǒng)、票務(wù)清分系統(tǒng)等,采用TeraData數(shù)據(jù)倉庫產(chǎn)品,導(dǎo)入數(shù)據(jù)處理,構(gòu)建主題域進行數(shù)據(jù)建模,建立數(shù)據(jù)中心的系統(tǒng)框架。數(shù)據(jù)中心平臺包括以下業(yè)務(wù)模塊。
1)數(shù)據(jù)采集系統(tǒng):包括設(shè)備監(jiān)控實時信息采集,文件傳輸,采集接口通道監(jiān)控,接口數(shù)據(jù)質(zhì)量管理,接口雙冗余雙實時采集數(shù)據(jù)配置等模塊。
2)數(shù)據(jù)管理系統(tǒng):包括基礎(chǔ)數(shù)據(jù)字典管理,數(shù)據(jù)存檔備份管理,主數(shù)據(jù)管理,主題域關(guān)聯(lián)視圖可視化,數(shù)據(jù)同步管理等模塊。
3)統(tǒng)計評估系統(tǒng):包括行車類、設(shè)備類、客流類、服務(wù)類的基礎(chǔ)指標(biāo),衍生指標(biāo),自定義指標(biāo)的核算,多維統(tǒng)計,定制報表報告等模塊。
4)運營挖掘與決策系統(tǒng):包括線網(wǎng)行車計劃智能生成,時刻表銜接方案,客流預(yù)測仿真等模塊。
在數(shù)據(jù)倉庫的基礎(chǔ)上,為各項業(yè)務(wù)系統(tǒng)接口開放應(yīng)用集市的調(diào)用方法如圖8所示,包括:各專業(yè)監(jiān)控系統(tǒng)設(shè)備與資產(chǎn)管理系統(tǒng)物資編碼的關(guān)聯(lián);設(shè)備故障與運維管理系統(tǒng)的維修單任務(wù)派發(fā)關(guān)聯(lián);線網(wǎng)供電電量計算與運營評估考核指標(biāo)關(guān)聯(lián);優(yōu)化列車運力配置計劃、線網(wǎng)列車運行計劃、輔助生成列車運行圖等對換乘樞紐銜接方案的關(guān)聯(lián);提供路徑查詢、檢索和路徑可達性提示引導(dǎo)與售檢票系統(tǒng)的客流量關(guān)聯(lián)等。
圖8 應(yīng)用集市與業(yè)務(wù)系統(tǒng)的調(diào)用Fig. 8 Transfer of an application market and a business system
導(dǎo)入6個月的進出站客流量、斷面客流量、換乘客流量,OD路徑和清分比例表數(shù)據(jù),以6號線增量客流為模擬對象,應(yīng)用客流特征識別關(guān)聯(lián)規(guī)則算法和客流需求預(yù)測模型,將預(yù)測結(jié)果疊加到線網(wǎng)圖上,客流態(tài)勢預(yù)測仿真結(jié)果如圖9所示。
圖9 基于特征識別的客流預(yù)測仿真Fig. 9 Passenger forecast simulation based on character recognition
根據(jù)業(yè)務(wù)提煉對數(shù)據(jù)倉庫具有共性的數(shù)據(jù)訪問、統(tǒng)計需求,構(gòu)建一個面向需求的、共享的訪問服務(wù)的公共數(shù)據(jù)集。其數(shù)據(jù)流向是從基礎(chǔ)共享數(shù)據(jù)層抽取數(shù)據(jù),再對不同數(shù)據(jù)內(nèi)容詳細程度、不同時間和空間維度的數(shù)據(jù)按需提取。在數(shù)據(jù)倉庫的基礎(chǔ)上,調(diào)用運營評估應(yīng)用集市接口計算相關(guān)指標(biāo),包括線網(wǎng)滿載率、線網(wǎng)能耗指標(biāo)、線網(wǎng)設(shè)備故障率等。
我國多個大城市將很快面臨線網(wǎng)級的運營管理,構(gòu)建數(shù)據(jù)中心平臺,將通用型業(yè)務(wù)系統(tǒng)和基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)統(tǒng)一規(guī)劃,有利于避免隨業(yè)務(wù)延展,各種分立系統(tǒng)數(shù)據(jù)共享困難,系統(tǒng)重復(fù)建設(shè)、功能交叉的情況。同時,進一步分析數(shù)據(jù)融合的關(guān)聯(lián)性,從城市軌道交通業(yè)務(wù)角度,加強數(shù)據(jù)對業(yè)務(wù)的承載內(nèi)容和范圍的挖掘,為線網(wǎng)層面的運營評估、服務(wù)水平考核、多運營主體協(xié)調(diào)提供決策支持,也為軌道交通網(wǎng)絡(luò)化運營管理、輔助決策、新線規(guī)劃指導(dǎo)等提供支撐。