施堯,楊錚宇
(1.云南電網(wǎng)有限責(zé)任公司,云南昆明,650051;2.云南電網(wǎng)有限責(zé)任公司信息中心,云南昆明,650051)
電網(wǎng)客戶服務(wù)系統(tǒng)是電網(wǎng)企業(yè)的重要服務(wù)窗口, 不斷積累著海量用戶信息數(shù)據(jù), 這些需要信息數(shù)據(jù)需要經(jīng)過系統(tǒng)的整合挖掘,從而最大化發(fā)揮其自身價值。隨著大數(shù)據(jù)技術(shù)的發(fā)展,以大數(shù)據(jù)技術(shù)作為基礎(chǔ),進(jìn)行海量電力用戶信息數(shù)據(jù)的處理分析,以此發(fā)揮對電網(wǎng)企業(yè)信息系統(tǒng)交互以及客戶服務(wù)決策的支持作用,成為電網(wǎng)客戶服務(wù)系統(tǒng)發(fā)展的趨勢?;诖?,本文針對如何利用大數(shù)據(jù)技術(shù)來滿足電網(wǎng)客戶服務(wù)系統(tǒng)對海量用戶信息數(shù)據(jù)處理需求的問題,提出面向大數(shù)據(jù)的電力用戶信息數(shù)據(jù)數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)方案。
在本系統(tǒng)設(shè)計(jì)中,數(shù)據(jù)處理策略采用MapReduce分布式計(jì)算模式,而數(shù)據(jù)加載策略則需要支持并行加載。使用多種方法應(yīng)對不同的數(shù)據(jù)抽取策略,從而提高系統(tǒng)性能。本設(shè)計(jì)中,采取以下形式來表達(dá)電網(wǎng)的結(jié)構(gòu)化數(shù)據(jù)的ETL行為:
(1)以P、W、O、M分別表示原始數(shù)據(jù)、數(shù)據(jù)倉庫的數(shù)據(jù)、不同ETL任務(wù)、數(shù)據(jù)倉庫的元數(shù)據(jù)等數(shù)據(jù)集合,則電網(wǎng)結(jié)構(gòu)化數(shù)據(jù) ETL 行為模型為N=(P,W,O,M)。
(2)ETL任務(wù)以O(shè)表示。數(shù)據(jù)抽取任務(wù)、數(shù)據(jù)導(dǎo)入任務(wù)以及數(shù)據(jù)集成任務(wù)則分別表示為
ETL的數(shù)據(jù)源表以T表示。T在i時間點(diǎn)時,數(shù)據(jù)倉庫過渡區(qū)中的數(shù)據(jù)副本以 Ti表示,時間戳以D表示,則
(3)數(shù)據(jù)源表從i至i+1的變更副本以I表示, 發(fā)生數(shù)據(jù)變更的日志號以表示,數(shù)據(jù)變更操作以M表示,變更前的數(shù)據(jù)以 To表示,變更后的數(shù)據(jù)以 Tn表示,
因?yàn)镮<T,在得到Ti+ 1 時,映射的效率高,同時不會較大地影響源數(shù)據(jù)庫性能。
(4)以關(guān)系代數(shù)來表示數(shù)據(jù)倉庫過渡區(qū)中從 Ti+ 1映射到
stat={Max,Min,Count,Sum,Avg},即得到 Ti+1在[i, i+1]時間區(qū)間的事實(shí)數(shù)據(jù)后,進(jìn)行聚集投影運(yùn)算。
多維數(shù)據(jù)分析技術(shù)是指把一個實(shí)體的多項(xiàng)重要的屬性定義為多個維,對不同維上的數(shù)據(jù)進(jìn)行比較,具有極強(qiáng)的人機(jī)互動性以及能夠靈活表達(dá)數(shù)據(jù)的優(yōu)點(diǎn)。為了能夠深度發(fā)掘電力用戶的信息數(shù)據(jù),在本系統(tǒng)設(shè)計(jì)中采用了多維分析技術(shù),通過分析模型工具,分析數(shù)據(jù)倉庫中的數(shù)據(jù)信息,并且生成服務(wù)質(zhì)量指標(biāo)分析和服務(wù)質(zhì)量分析等模型。
在本設(shè)計(jì)中,數(shù)據(jù)聚合及挖掘主要分為統(tǒng)計(jì)數(shù)據(jù)分析、預(yù)測數(shù)據(jù)分析以及決策數(shù)據(jù)分析三個部分,下面針對這三個部分進(jìn)行具體闡述。
(1)統(tǒng)計(jì)數(shù)據(jù)分析主要針對電力用戶服務(wù)管理組織方式,根據(jù)相關(guān)業(yè)務(wù)信息和分析指標(biāo),設(shè)計(jì)了多維數(shù)據(jù)模型。其中,數(shù)據(jù)統(tǒng)計(jì)值主要包括累計(jì)、增量、平均、最大、最小以及標(biāo)準(zhǔn)差等項(xiàng)的統(tǒng)計(jì)值。根據(jù)統(tǒng)計(jì)數(shù)據(jù)分析,進(jìn)行數(shù)據(jù)挖掘建模和矩陣計(jì)算, 實(shí)現(xiàn)切片、鉆取和鉆透等功能。
(2)預(yù)測數(shù)據(jù)分析基于電力相關(guān)業(yè)務(wù)規(guī)則及挖掘模型,將原始數(shù)據(jù)優(yōu)化后得到精簡數(shù)據(jù),建立線性回歸模型、多維尺度模型并進(jìn)行分析。
決策數(shù)據(jù)分析主要為定量分析及統(tǒng)計(jì)分析,算法在決策數(shù)據(jù)分析中具有著關(guān)鍵作用。在沒有隱含假設(shè)前提下, 分類回歸樹算法可以對變量與因變量之間的線性相關(guān)性進(jìn)行預(yù)測.,因此本設(shè)計(jì)中主要采用分類回歸樹算法, 并對該算法進(jìn)行封裝。
本設(shè)計(jì)采用四層系統(tǒng)架構(gòu),如圖1所示。四個層次分別為數(shù)據(jù)層、服務(wù)層、聚合層、表示層。
圖1 系統(tǒng)整體架構(gòu)
數(shù)據(jù)層能夠統(tǒng)一配置管理不同數(shù)據(jù)庫,主要包括呼叫中心、營銷系統(tǒng)、配網(wǎng)系統(tǒng)、OA系統(tǒng)、排隊(duì)叫號機(jī)等數(shù)據(jù)庫。
聚合層主要用于非結(jié)構(gòu)化數(shù)據(jù)的處理,由數(shù)據(jù)倉庫、Hadoop以及Stream流計(jì)算構(gòu)成。其中,數(shù)據(jù)倉庫為電網(wǎng)企業(yè)營銷業(yè)務(wù)數(shù)據(jù)的集合;Hadoop用于存貯非結(jié)構(gòu)化數(shù)據(jù),分析原始數(shù)據(jù)并能提高系統(tǒng)性能;Stream 流計(jì)算用于數(shù)據(jù)分析,能夠快速判定特定問題下各數(shù)據(jù)相關(guān)性。
服務(wù)層主要是在數(shù)據(jù)層以及聚合層之間進(jìn)行數(shù)據(jù)管理與數(shù)據(jù)訪問,具有模型數(shù)據(jù)映射和性能優(yōu)化的特性。模型數(shù)據(jù)映射支持對關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫和非關(guān)系型數(shù)據(jù)庫的訪問;性能優(yōu)化主要包括二級緩存、并發(fā)保護(hù)和高危查詢過濾等。
表示層主要包括數(shù)據(jù)展示構(gòu)件、數(shù)據(jù)分析構(gòu)件、報(bào)表構(gòu)件等,為系統(tǒng)用戶提供數(shù)據(jù)查詢調(diào)用的功能,以報(bào)表、圖形等形式顯示數(shù)據(jù)分析結(jié)果。
在該系統(tǒng)的功能設(shè)計(jì)方面,設(shè)置了服務(wù)質(zhì)量與客戶感知監(jiān)控、工單管理與調(diào)度、綜合服務(wù)質(zhì)量評價管理、結(jié)果展示等功能模塊,如圖2所示。
圖2 系統(tǒng)功能
本文提出的面向大數(shù)據(jù)的電力用戶信息數(shù)據(jù)挖掘系統(tǒng),在某電網(wǎng)公司中進(jìn)行應(yīng)用實(shí)測。針對該公司的營銷業(yè)務(wù),整合95598、電力營銷、計(jì)量自動化、配網(wǎng)等系統(tǒng)的數(shù)據(jù),建立高集約、高智能的管理模型以及系統(tǒng)性算法模型庫,提供全面且深入的電力數(shù)據(jù)分析和數(shù)據(jù)預(yù)測功能,對該電網(wǎng)公司的營銷環(huán)節(jié)進(jìn)行全程、多維度的閉環(huán)分析。通該電力用戶信息數(shù)據(jù)挖掘系統(tǒng),該電網(wǎng)公司實(shí)現(xiàn)了系統(tǒng)問題的及時發(fā)現(xiàn)以及高效處理,從而提高了服務(wù)質(zhì)量以及營銷工作的效率。
針對如何挖掘電網(wǎng)客戶服務(wù)系統(tǒng)中海量用戶數(shù)據(jù)信息的問題,本文基于大數(shù)據(jù)技術(shù),提出一套電力用戶信息數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)方案。通過某電網(wǎng)公司實(shí)測,證明該系統(tǒng) 通過整合電網(wǎng)公司的各業(yè)務(wù)數(shù)據(jù)庫, 構(gòu)建綜合數(shù)據(jù)分析管理系統(tǒng),能夠從中提取有價值的用戶信息數(shù)據(jù),對其進(jìn)行分析,并將結(jié)果通過圖形及報(bào)表等形式進(jìn)行展示,為電網(wǎng)企業(yè)的績效評估、運(yùn)營決策、用戶服務(wù)等提供數(shù)據(jù)支持。