陳莉莉,張賽橋,狄穎琪
(1.南瑞集團(tuán)(國(guó)網(wǎng)電力科學(xué)研究院)有限公司,江蘇 南京 210032 ; 2.國(guó)電南瑞科技股份有限公司南京軌道交通技術(shù)分公司,江蘇 南京 210032)
隨著各個(gè)城市軌道線路的增加,軌道交通線路由單一化逐漸向網(wǎng)絡(luò)化發(fā)展,而網(wǎng)絡(luò)化大大提升了監(jiān)控和運(yùn)營(yíng)的復(fù)雜度。在新形勢(shì)下,軌道交通運(yùn)營(yíng)管理也面臨著更高的要求。軌道交通運(yùn)營(yíng)中每時(shí)每刻都在產(chǎn)生并積累大量的數(shù)據(jù)。隨著全國(guó)軌道交通建設(shè)進(jìn)程的加快,利用數(shù)據(jù)分析支撐并智能化運(yùn)營(yíng)管理決策是地鐵企業(yè)未來(lái)發(fā)展的必然選擇。如何有效地存儲(chǔ)、處理和分析這些數(shù)據(jù),挖掘其中有價(jià)值的信息,從而提升軌道交通的運(yùn)營(yíng)水平、科學(xué)決策能力、運(yùn)營(yíng)效益、服務(wù)和安全保障能力,已日益成為業(yè)界關(guān)注的重點(diǎn)[1]。從能效管理的角度來(lái)看,如果能夠利用已有的數(shù)據(jù),建立一種立足全局的能效分析和管理措施,必將促進(jìn)地鐵的能效運(yùn)營(yíng)管理水平。
基于大數(shù)據(jù)的軌道交通運(yùn)營(yíng)分析是一項(xiàng)新興的數(shù)據(jù)分析技術(shù)。在數(shù)據(jù)倉(cāng)庫(kù)技術(shù)基礎(chǔ)上建立的軌道交通大數(shù)據(jù)分析功能和原有的數(shù)據(jù)庫(kù)組織處理方式有所不同。關(guān)系型數(shù)據(jù)庫(kù)處理的業(yè)務(wù)是事務(wù)驅(qū)動(dòng)的,實(shí)時(shí)性要求高;而數(shù)據(jù)倉(cāng)庫(kù)業(yè)務(wù)以離線和面向決策的分析為主[2]。本文圍繞大數(shù)據(jù)中心在能效管理系統(tǒng)的實(shí)現(xiàn)方面展開(kāi)。目前,軌道交通行業(yè)已有的大數(shù)據(jù)中心是基于大量信息并行處理機(jī)(massively parallel processor ,MPP)架構(gòu)的,存在價(jià)格昂貴、升級(jí)擴(kuò)展困難等問(wèn)題。在項(xiàng)目初期,對(duì)MPP架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù)和Hadoop平臺(tái)作對(duì)比,最后選擇了更加廉價(jià)而且靈活的Hadoop平臺(tái)[3]。文中給出了基于Hadoop平臺(tái)基的能效管理系統(tǒng)的建設(shè)方案。該方案充分發(fā)掘了地鐵行業(yè)能效數(shù)據(jù)的潛在價(jià)值,從而提升了運(yùn)營(yíng)管理能力。
軌道交通的數(shù)據(jù)源包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。而能管系統(tǒng)的能耗數(shù)據(jù)主要是采樣的時(shí)序序列,時(shí)序序列為結(jié)構(gòu)化數(shù)據(jù)[4]。線路端各個(gè)車(chē)站的電表采集數(shù)據(jù)作為源數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)接口平臺(tái)的一系列清洗、轉(zhuǎn)換、標(biāo)準(zhǔn)化等過(guò)程后,存入Hadoop平臺(tái)。然后根據(jù)不同的數(shù)據(jù)來(lái)源和數(shù)據(jù)應(yīng)用,對(duì)源數(shù)據(jù)分別進(jìn)行處理。以下介紹實(shí)時(shí)流處理和歷史數(shù)據(jù)處理流程。
實(shí)時(shí)流數(shù)據(jù)組件框圖如圖1所示。
圖1 實(shí)時(shí)流數(shù)據(jù)組件框圖
Hadoop平臺(tái)具備MPP數(shù)據(jù)倉(cāng)庫(kù)所沒(méi)有的實(shí)時(shí)流處理功能。在線網(wǎng)中心把線路端各個(gè)車(chē)站的電表采集數(shù)據(jù)變化報(bào)文和報(bào)警事件消息轉(zhuǎn)發(fā)到Kafka總線,即Hadoop平臺(tái)通過(guò)Kafka總線獲取線路端的數(shù)據(jù),作為實(shí)時(shí)流處理的輸入。
實(shí)時(shí)流處理方案采用Kafka總線,實(shí)現(xiàn)時(shí)序消息的數(shù)據(jù)接入,解決時(shí)序數(shù)據(jù)高效、穩(wěn)定傳輸問(wèn)題。實(shí)時(shí)流數(shù)據(jù)的可選組件有Storm、Spark Streaming和Flink等。實(shí)際應(yīng)用中,考慮到可以通過(guò)Spark各種庫(kù)作數(shù)據(jù)分析,而且軌道交通的應(yīng)用中對(duì)數(shù)據(jù)延時(shí)并沒(méi)有太高的要求,故選擇Spark Streaming作流處理,接收Kafka的數(shù)據(jù)輸入。采用基于Redis+HBase的分層存儲(chǔ)的方式,Spark Streaming把從Kafka接收的實(shí)時(shí)流數(shù)據(jù)寫(xiě)入HBase,并采用關(guān)系型數(shù)據(jù)庫(kù)實(shí)現(xiàn)能效管理系統(tǒng)的檔案數(shù)據(jù)、模型數(shù)據(jù)及元數(shù)據(jù)的同步存儲(chǔ)[5]。
線路的數(shù)據(jù)變化和事件,比如電表的實(shí)時(shí)數(shù)據(jù)和在線狀態(tài)事件等,可以迅速接入能效管理系統(tǒng),通過(guò)實(shí)時(shí)計(jì)算和分析后,把實(shí)時(shí)處理的結(jié)果通過(guò)消息中間件發(fā)送到Web端或者其他展示平臺(tái)。有的指標(biāo),比如電能質(zhì)量,在分析過(guò)程中需要作數(shù)據(jù)分析和預(yù)測(cè)。如果在采用已有的數(shù)據(jù)作進(jìn)一步數(shù)據(jù)分析的過(guò)程中,發(fā)現(xiàn)有異常指標(biāo)需要報(bào)警,能效管理系統(tǒng)直接生成報(bào)警信號(hào),并立刻發(fā)報(bào)警到其他相關(guān)系統(tǒng)(如應(yīng)急指揮系統(tǒng)),由相關(guān)系統(tǒng)再作進(jìn)一步處理,同時(shí)在能效管理系統(tǒng)的頁(yè)面展示并寫(xiě)入報(bào)表。
歷史數(shù)據(jù)組件框圖如圖2所示。對(duì)結(jié)構(gòu)化數(shù)據(jù)而言,在系統(tǒng)初始化時(shí),第一次需要導(dǎo)入數(shù)據(jù)源的全量數(shù)據(jù),后續(xù)進(jìn)行增量存儲(chǔ)即可。該步驟可以通過(guò)通用的ETL工具對(duì)數(shù)據(jù)進(jìn)行加載、轉(zhuǎn)換、提取,并將其導(dǎo)入到Hadoop平臺(tái)。數(shù)據(jù)先導(dǎo)入HBase,然后對(duì)HBase中的歷史數(shù)據(jù)作統(tǒng)計(jì)和分析處理,并將結(jié)果寫(xiě)入Hive/Impala。BI工具通過(guò)JDBC接口讀取Hive/Impala中的數(shù)據(jù)統(tǒng)計(jì)結(jié)果,展示在Web端。
圖2 歷史數(shù)據(jù)組件框圖
同時(shí),系統(tǒng)需要具備數(shù)據(jù)補(bǔ)錄功能,在運(yùn)行錯(cuò)誤或者其他原因?qū)е聰?shù)據(jù)沒(méi)有及時(shí)錄入系統(tǒng)時(shí),采用補(bǔ)錄方式把數(shù)據(jù)批量導(dǎo)入大數(shù)據(jù)中心。
能效管理系統(tǒng)框圖如圖3所示。系統(tǒng)分為線網(wǎng)級(jí)、線路級(jí)和車(chē)站級(jí)[6-7]。
圖3 能效管理系統(tǒng)框圖
能效管理系統(tǒng)融合了信息化、智能化、自動(dòng)化等多項(xiàng)技術(shù),可用于對(duì)軌道交通的水、電、汽等能源的生產(chǎn)和使用情況進(jìn)行在線監(jiān)測(cè)、統(tǒng)計(jì)分析,實(shí)現(xiàn)能源的全方位監(jiān)控和管理。通過(guò)對(duì)能耗數(shù)據(jù)的分析與統(tǒng)計(jì),便于管理人員及時(shí)掌握各個(gè)環(huán)節(jié)的能耗情況,從而評(píng)估各類(lèi)節(jié)能設(shè)備和節(jié)能措施的實(shí)際成效,為進(jìn)一步制定節(jié)能措施、規(guī)劃節(jié)能方案提供決策依據(jù),達(dá)到降低生產(chǎn)運(yùn)營(yíng)能耗、實(shí)現(xiàn)節(jié)能減排的目的。
能效管理的實(shí)時(shí)監(jiān)控模塊除了提供圖形監(jiān)控外,還提供實(shí)時(shí)數(shù)據(jù)監(jiān)控,如監(jiān)視實(shí)時(shí)功率的波形和數(shù)值、電能質(zhì)量、能源平衡、報(bào)警和事件等,以圖型、表格形式實(shí)時(shí)顯示能源計(jì)量數(shù)據(jù)(如水、電、氣、汽、煤等)、系統(tǒng)工藝參數(shù)(如溫度、壓力、液位等)和設(shè)備運(yùn)行狀態(tài)[8]。按照數(shù)據(jù)類(lèi)型,數(shù)據(jù)分組可以劃分為能源計(jì)量、工藝參數(shù)、設(shè)備狀態(tài)等。按照工藝,系統(tǒng)劃分為供配電系統(tǒng)、供水系統(tǒng)、空調(diào)/通風(fēng)系統(tǒng)、供熱系統(tǒng)、照明系統(tǒng)等。這個(gè)模塊屬于在線數(shù)據(jù)應(yīng)用,采用實(shí)時(shí)流處理的方式進(jìn)行。
能耗統(tǒng)計(jì)模塊是離線數(shù)據(jù)應(yīng)用。它針對(duì)考核單位進(jìn)行能耗的查詢統(tǒng)計(jì)和指標(biāo)分析。查詢間隔支持按小時(shí)、按日和按月查詢,一次查詢可選擇多個(gè)考核單位或能源類(lèi)型,進(jìn)行不同考核單位之間能耗的橫向分析比較;也可以進(jìn)行不同能源類(lèi)型之間的縱向分析比較。它進(jìn)行能耗計(jì)量和統(tǒng)計(jì)、能耗指標(biāo)分析并進(jìn)行能源平衡統(tǒng)計(jì),對(duì)能源的進(jìn)口和出口的表計(jì)數(shù)據(jù)進(jìn)行分析,得到偏差率和偏差量,以發(fā)現(xiàn)能源的不平衡現(xiàn)象,從而杜絕跑冒滴漏現(xiàn)象[9]。能效管理系統(tǒng)根據(jù)采集的能耗信息,分析不正常的能源消耗,以報(bào)警的形式推送到相關(guān)
系統(tǒng),提示相關(guān)人員。最后,根據(jù)統(tǒng)計(jì)分析結(jié)果生成能耗報(bào)表和能耗考核報(bào)告,在報(bào)表中以餅圖或折線圖、曲線、表格的方式展示能耗各指標(biāo)的情況。
目前,軌道交通行業(yè)中已有的大數(shù)據(jù)中心建設(shè),采用MPP DB架構(gòu)的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。但是隨著數(shù)據(jù)量的增大和數(shù)據(jù)類(lèi)型的增多,MPP DB存在價(jià)格高昂、難以擴(kuò)展、不能存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)、不能進(jìn)行流處理的弱點(diǎn)。而Hadoop平臺(tái)的結(jié)構(gòu)更靈活,易于擴(kuò)展,存儲(chǔ)的數(shù)據(jù)量級(jí)更大,支持高并發(fā)和實(shí)時(shí)處理,又擁有大量的數(shù)據(jù)挖掘和分析庫(kù)[10]。
本文在研究和實(shí)現(xiàn)Hadoop平臺(tái)進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)分析和處理、以及數(shù)據(jù)輸出的基礎(chǔ)上,在能效管理系統(tǒng)中驗(yàn)證了方案的可行性。實(shí)踐證明,Hadoop平臺(tái)可以很好地滿足數(shù)據(jù)存儲(chǔ)、檢索、分析的需求,它的流處理功能可以滿足軌道交通行業(yè)的實(shí)時(shí)性要求。當(dāng)然,能效管理系統(tǒng)實(shí)際上只是對(duì)應(yīng)大數(shù)據(jù)中心的一個(gè)數(shù)據(jù)集市,一個(gè)功能完善的大數(shù)據(jù)中心會(huì)有很多面向各種應(yīng)用的數(shù)據(jù)集市,還需要通過(guò)項(xiàng)目的后續(xù)展開(kāi),陸續(xù)進(jìn)行實(shí)施。