劉夫新+李毅松+崔夢梟+楊棟樞
摘要:隨著智能電網(wǎng)建設(shè)飛快發(fā)展,造成電力數(shù)據(jù)種類復(fù)雜多樣化和數(shù)據(jù)質(zhì)量參差不齊的現(xiàn)狀。以傳統(tǒng)的數(shù)據(jù)質(zhì)量模型和數(shù)據(jù)質(zhì)量管理等理論為基礎(chǔ),介紹了傳統(tǒng)數(shù)據(jù)質(zhì)量系統(tǒng)的優(yōu)缺點(diǎn)。在其基礎(chǔ)上提出基于自學(xué)體系的數(shù)據(jù)質(zhì)量監(jiān)測模型,并依據(jù)模型構(gòu)建監(jiān)測系統(tǒng)。分層面詳細(xì)介紹數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng),分析了有關(guān)構(gòu)建策略,詳細(xì)介紹了自學(xué)體系中構(gòu)建的規(guī)則。為數(shù)據(jù)質(zhì)量監(jiān)測模型提供了理論支撐,健全了數(shù)據(jù)質(zhì)量監(jiān)測體系,完善數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng),支持企業(yè)科學(xué)決策,推進(jìn)信息化支撐企業(yè)管理水平的全面提升。
關(guān)鍵詞:智能電網(wǎng);電力數(shù)據(jù);質(zhì)量模型;數(shù)據(jù)質(zhì)量;自學(xué)體系; 監(jiān)測體系
中圖分類號(hào):TP181 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)31-0003-03
Abstract:With the rapid development of smart grid construction, resulting in a variety of complex and diverse data types and data quality of the status quo. Based on the traditional data quality model and data quality management theory, this paper introduces the advantages and disadvantages of the traditional data quality system. Based on the model, the data quality monitoring model based on self - learning system is put forward, and the monitoring system is built according to the model. The data quality monitoring system is introduced in detail, and the construction strategy is analyzed, and the rules of the construction of the system are introduced in detail. To provide theoretical support for data quality monitoring model, and improve the data quality monitoring system, improve data quality monitoring system, support the enterprise scientific decision-making, enhance the management level of enterprise informatization support.
Key words: Smart Grid; Electric Power Data; Quality model; Data quality; Self Learning System; Monitoring system
隨著高新技術(shù)產(chǎn)業(yè)的不斷更迭,國內(nèi)各個(gè)行業(yè)都建立了信息采集系統(tǒng),搜集海量數(shù)據(jù)。國網(wǎng)通過實(shí)施“SG186”、“SG-ERP”工程,已經(jīng)初步建成并投入運(yùn)行了國內(nèi)領(lǐng)先、國際一流的信息化平臺(tái)和覆蓋主要生產(chǎn)、經(jīng)營、管理業(yè)務(wù)領(lǐng)域的信息化應(yīng)用,電網(wǎng)業(yè)務(wù)數(shù)據(jù)從總量和種類上都已初具規(guī)模[1]。隨著智能電網(wǎng)建設(shè)加快推進(jìn),電網(wǎng)業(yè)務(wù)數(shù)據(jù)將從時(shí)效性層面進(jìn)一步豐富和拓展,這對(duì)企業(yè)信息化建設(shè)提出了新的挑戰(zhàn)。同時(shí),“三集五大”構(gòu)建了縱向貫通、橫向集成的一體化平臺(tái),產(chǎn)生了大量多樣化的數(shù)據(jù),企業(yè)開始逐漸進(jìn)入數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)的時(shí)代。
推進(jìn)信息化支撐企業(yè)管理水平的全面提升。在公司一體化信息平臺(tái)及業(yè)務(wù)數(shù)據(jù)的基礎(chǔ)上,分析、監(jiān)測各項(xiàng)核心業(yè)務(wù)的整體運(yùn)營狀況,及時(shí)發(fā)現(xiàn)并預(yù)警各類異動(dòng),支撐企業(yè)科學(xué)決策。數(shù)據(jù)共享和業(yè)務(wù)融合、各業(yè)務(wù)的深化、精益化管理應(yīng)用、企業(yè)運(yùn)營監(jiān)測均離不開高質(zhì)量的數(shù)據(jù),更好地提升數(shù)據(jù)質(zhì)量,發(fā)揮和利用好數(shù)據(jù)的價(jià)值,迫切需要提高數(shù)據(jù)質(zhì)量模型的合理性和科學(xué)性,提高建立數(shù)據(jù)質(zhì)量模型工作的效率,促進(jìn)數(shù)據(jù)治理、建立健全技術(shù)支撐體系和管理支撐體系工作,輔助企業(yè)掌握生產(chǎn)經(jīng)營全局,進(jìn)行科學(xué)決策,更深入、具體地完成企業(yè)部署的各項(xiàng)管理要求。
建立數(shù)據(jù)質(zhì)量模型是為了對(duì)數(shù)據(jù)質(zhì)量進(jìn)行量化評(píng)價(jià)并以支撐數(shù)據(jù)質(zhì)量提升工作,評(píng)價(jià)一般指用戶數(shù)據(jù)客觀傾向較強(qiáng)的指標(biāo)。例如,通過規(guī)范質(zhì)量的分別規(guī)則來查找和評(píng)價(jià)質(zhì)量,通過統(tǒng)計(jì)分析、模式分析和匹配分析等方法來測度和監(jiān)測數(shù)據(jù)質(zhì)量,通過數(shù)據(jù)分析來發(fā)現(xiàn)質(zhì)量[2]。
1 數(shù)據(jù)及數(shù)據(jù)質(zhì)量現(xiàn)狀
電力業(yè)務(wù)管理頻度低,業(yè)務(wù)管理數(shù)據(jù)多以報(bào)表式月度數(shù)據(jù)為主,沒有實(shí)現(xiàn)按天(或更高頻度)對(duì)業(yè)務(wù)進(jìn)展和狀態(tài)的管理。其次,業(yè)務(wù)過程數(shù)據(jù)錄入維護(hù)不及時(shí),數(shù)據(jù)生成時(shí)間滯后于業(yè)務(wù)過程。如人員進(jìn)入退出信息不及時(shí),業(yè)務(wù)拓展流程存在部分工程在整體完工后,才統(tǒng)一輸入各環(huán)節(jié)業(yè)務(wù)信息,無法真實(shí)反應(yīng)業(yè)務(wù)擴(kuò)展流程實(shí)際執(zhí)行過程;一是部分?jǐn)?shù)據(jù)在多個(gè)系統(tǒng)重復(fù)維護(hù),導(dǎo)致數(shù)據(jù)多源。加上業(yè)務(wù)管理重疊造成數(shù)據(jù)在不同業(yè)務(wù)系統(tǒng)中重復(fù)。二是由于數(shù)據(jù)多源及管理要求不同,導(dǎo)致同一指標(biāo)數(shù)據(jù)口徑不一致。
數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)管理的重中之重,是發(fā)揮數(shù)據(jù)價(jià)值[4],發(fā)展高階應(yīng)用的基礎(chǔ)。數(shù)據(jù)質(zhì)量模型的建立、數(shù)據(jù)質(zhì)量規(guī)則的識(shí)別是數(shù)據(jù)質(zhì)量模型管理的核心支撐[3]。
2 自學(xué)體系和傳統(tǒng)數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)間聯(lián)系
基于自學(xué)體系的數(shù)據(jù)質(zhì)量評(píng)價(jià)系統(tǒng)需基于海量歷史數(shù)據(jù),自動(dòng)分析挖掘數(shù)據(jù)質(zhì)量因素,為用戶推薦相應(yīng)質(zhì)量評(píng)價(jià)模型,而基于海量歷史數(shù)據(jù)的分析,單靠線下人工是很難完成的,而質(zhì)量模型建立后,依托此模型構(gòu)建的監(jiān)測系統(tǒng),需對(duì)數(shù)據(jù)進(jìn)行分門別類,應(yīng)用質(zhì)量評(píng)價(jià)模型,實(shí)現(xiàn)數(shù)據(jù)質(zhì)量實(shí)時(shí)評(píng)價(jià),通過預(yù)警、核查、整改等一系列手段完成數(shù)據(jù)修正,提升數(shù)據(jù)質(zhì)量。
2.1 傳統(tǒng)數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)存在問題
傳統(tǒng)數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)對(duì)數(shù)據(jù)質(zhì)量的評(píng)價(jià)采用的是全局采集方式,即針對(duì)全集數(shù)據(jù)(如所有設(shè)備的基本型數(shù)據(jù)),選擇傳統(tǒng)評(píng)價(jià)方法得到評(píng)價(jià)結(jié)論[2]。雖然傳統(tǒng)方式易于理解、方法種類多樣,也相對(duì)較成熟,但是,傳統(tǒng)評(píng)價(jià)理論存在很大局限性,具體存在兩方面問題:
1) 對(duì)數(shù)據(jù)全集的直觀評(píng)價(jià)結(jié)果是不可能表述客戶的要求。事實(shí)上,客戶得到的數(shù)據(jù)是通過信息采集系統(tǒng)加工處理之后的有關(guān)全集數(shù)據(jù)的一幅或多幅視圖,經(jīng)過僅僅是所有數(shù)據(jù)中的一個(gè)組成部分??蛻魧?duì)于數(shù)據(jù)的質(zhì)量、需求和評(píng)價(jià)必然由這些數(shù)據(jù)來反映,而不是整體數(shù)據(jù)。經(jīng)過分析過濾后,數(shù)據(jù)的質(zhì)量與原始數(shù)據(jù)的質(zhì)量相比可能不會(huì)呈線性關(guān)系,它忽略了數(shù)據(jù)分析過濾過程中帶來的影響。事實(shí)上,部分查詢結(jié)果集的數(shù)據(jù)質(zhì)量與原數(shù)據(jù)集質(zhì)量二者間有較大的差異。
2) 面對(duì)當(dāng)前國網(wǎng)數(shù)據(jù)量不斷快速增長,企業(yè)對(duì)各項(xiàng)業(yè)務(wù)融合、深化應(yīng)用、運(yùn)營監(jiān)測及分析預(yù)警和決策支撐應(yīng)用要求不斷提高,而數(shù)據(jù)整體質(zhì)量有待進(jìn)一步加強(qiáng),數(shù)據(jù)質(zhì)量相關(guān)的業(yè)務(wù)規(guī)則常態(tài)化變動(dòng)的形勢,提升數(shù)據(jù)質(zhì)量,加強(qiáng)管控必須依托信息化手段,通過建立模型、配置管理業(yè)務(wù)規(guī)則,分析模型和規(guī)則運(yùn)行效果數(shù)據(jù),進(jìn)而不斷優(yōu)化模型和規(guī)則,形成適用的模型和規(guī)則庫,盡可能減少人工重復(fù)勞動(dòng)和干預(yù),分析影響數(shù)據(jù)質(zhì)量的關(guān)鍵因素,真正有效促進(jìn)數(shù)據(jù)質(zhì)量提升。
2.2 自學(xué)體系的數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)構(gòu)建策略
基于數(shù)據(jù)中心和運(yùn)監(jiān)中心的海量歷史數(shù)據(jù),分析挖掘數(shù)據(jù)[5]質(zhì)量評(píng)價(jià)關(guān)鍵點(diǎn),使用自我演進(jìn)、自我完善的思想,識(shí)別各數(shù)據(jù)對(duì)象初始化質(zhì)量規(guī)則,并依據(jù)不斷增長的新數(shù)據(jù)情況,及時(shí)動(dòng)態(tài)調(diào)整質(zhì)量規(guī)則,形成基于自學(xué)體系的數(shù)據(jù)質(zhì)量模型,形成可量化的數(shù)據(jù)質(zhì)量評(píng)價(jià)方法,支撐數(shù)據(jù)質(zhì)量評(píng)價(jià)工作。
使用自學(xué)體系的數(shù)據(jù)質(zhì)量模型為基礎(chǔ)設(shè)計(jì)監(jiān)測系統(tǒng),動(dòng)態(tài)監(jiān)測業(yè)務(wù)數(shù)據(jù)質(zhì)量,對(duì)不符合數(shù)據(jù)質(zhì)量規(guī)則的數(shù)據(jù)進(jìn)行告警,并支撐數(shù)據(jù)問題處理流程跟蹤[6]。
2.3 自學(xué)體系中建立的規(guī)則
基于自學(xué)體系的數(shù)據(jù)質(zhì)量監(jiān)測模型建立系統(tǒng)包括以下自學(xué)規(guī)則:
1) 基于數(shù)據(jù)關(guān)聯(lián)度的自學(xué)規(guī)則,通過數(shù)據(jù)關(guān)聯(lián)關(guān)系規(guī)則、數(shù)據(jù)關(guān)聯(lián)符合度等彼此間關(guān)聯(lián)關(guān)系進(jìn)行學(xué)習(xí)。
2) 基于歷史數(shù)據(jù)的自學(xué)規(guī)則,根據(jù)歷史數(shù)據(jù)分析結(jié)果,歷史數(shù)據(jù)選取規(guī)則以及歷史數(shù)據(jù)維護(hù)規(guī)則等進(jìn)行學(xué)習(xí),建立數(shù)據(jù)質(zhì)量(評(píng)價(jià))模型,包含了歷史數(shù)據(jù)分析設(shè)置、歷史數(shù)據(jù)選取、歷史數(shù)據(jù)類型的分析設(shè)置等功能。
3) 基于數(shù)據(jù)校檢規(guī)則的自學(xué)規(guī)則,依據(jù)模型中指標(biāo)標(biāo)準(zhǔn)、計(jì)算方法、冗余性校檢規(guī)則和偏差分析規(guī)則維護(hù)等數(shù)據(jù)校檢規(guī)則進(jìn)行學(xué)習(xí),建立數(shù)據(jù)模型,包含了數(shù)據(jù)集整體的完整性校驗(yàn)規(guī)則維護(hù)、冗余校檢規(guī)則維護(hù)、一致性校驗(yàn)維護(hù)、取值標(biāo)準(zhǔn)分析規(guī)則維護(hù)和偏差分析規(guī)則維護(hù)等。
4) 數(shù)據(jù)異動(dòng)監(jiān)測與預(yù)警,基于數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)設(shè)計(jì),實(shí)時(shí)監(jiān)測數(shù)據(jù),當(dāng)數(shù)據(jù)出現(xiàn)異動(dòng)情況時(shí),能夠預(yù)警告警,并給出相應(yīng)的處理建議,存儲(chǔ)到不同地方。構(gòu)建模型包含了實(shí)時(shí)監(jiān)測數(shù)據(jù)設(shè)置、數(shù)據(jù)異動(dòng)處理建議設(shè)置和異動(dòng)處理建議內(nèi)容查詢等。
3 自學(xué)體系的數(shù)據(jù)質(zhì)量監(jiān)測模型總體設(shè)計(jì)
建立數(shù)據(jù)質(zhì)量模型是為了對(duì)數(shù)據(jù)質(zhì)量進(jìn)行量化評(píng)價(jià)并以支撐數(shù)據(jù)質(zhì)量提升工作,通過定義質(zhì)量判別規(guī)則來發(fā)現(xiàn)和評(píng)價(jià)質(zhì)量,通過統(tǒng)計(jì)分析、模式分析和匹配分析等方法來測度和評(píng)價(jià)數(shù)據(jù)質(zhì)量。模型主要是應(yīng)用架構(gòu)層、技術(shù)架構(gòu)層和安全架構(gòu)層三個(gè)層面構(gòu)成。
總體架構(gòu)設(shè)計(jì)如下圖:
3.1 應(yīng)用架構(gòu)層
模型中應(yīng)用架構(gòu)方面設(shè)計(jì)主要考慮到用戶體驗(yàn)層、展示層、應(yīng)用層、服務(wù)層、數(shù)據(jù)層以及外部系統(tǒng)。其中應(yīng)用層是基于自學(xué)體系建立的規(guī)則,包含數(shù)據(jù)異動(dòng)監(jiān)測預(yù)警、數(shù)據(jù)關(guān)聯(lián)度的自學(xué)規(guī)則、和數(shù)據(jù)質(zhì)量模型自學(xué)規(guī)則等。服務(wù)層和數(shù)據(jù)層包含了數(shù)據(jù)報(bào)表分析設(shè)計(jì)、歷史數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)和數(shù)據(jù)質(zhì)量自動(dòng)建立數(shù)據(jù)等如圖2應(yīng)用架構(gòu)設(shè)計(jì)。
3.2 技術(shù)架構(gòu)層
模型中技術(shù)架構(gòu)層面設(shè)計(jì)包含了數(shù)據(jù)源層、服務(wù)層、接口層和應(yīng)用層面。一方面提供模型的實(shí)現(xiàn)界面并提供接口和組件,從歷史數(shù)據(jù)學(xué)習(xí)中進(jìn)行模型管理。另一方面處理并展現(xiàn)數(shù)據(jù)集如圖3技術(shù)架構(gòu)設(shè)計(jì)。
1) 應(yīng)用層
應(yīng)用層,即界面控制層,一方面是向最終用戶提供使用界面,負(fù)責(zé)數(shù)據(jù)的展現(xiàn),同時(shí)接受用戶輸入數(shù)據(jù),并對(duì)輸入的數(shù)據(jù)進(jìn)行校驗(yàn),另一方面負(fù)責(zé)封裝界面層輸入的數(shù)據(jù),頁面跳轉(zhuǎn)控制,對(duì)異常進(jìn)行處理。
2) 接口層
接口層提供業(yè)務(wù)邏輯的 Java 編程接口、R 語言編程或 PLSQLJDBC/ODBC 驅(qū)動(dòng)接口,實(shí)現(xiàn)業(yè)務(wù)邏輯,對(duì)事務(wù)進(jìn)行控制,對(duì)外提供Web 服務(wù)或調(diào)用外部系統(tǒng)提供的 Web 服務(wù)等。
3) 服務(wù)層
服務(wù)層,即應(yīng)用支撐層,由自定義開發(fā)的基礎(chǔ)服務(wù)組件,或開發(fā)平臺(tái)和第三方產(chǎn)品提供的各類基礎(chǔ)組件組成。
4) 數(shù)據(jù)源層
數(shù)據(jù)源層,主要包括接口信息和運(yùn)行數(shù)據(jù)、系統(tǒng)接入數(shù)據(jù)、監(jiān)控和消息數(shù)據(jù)、數(shù)據(jù)中心和日志數(shù)據(jù)等。實(shí)現(xiàn)數(shù)據(jù)的抽取、存儲(chǔ),計(jì)算,分析模型建立,數(shù)據(jù)質(zhì)量的檢查,數(shù)據(jù)價(jià)值評(píng)估、查詢及分析統(tǒng)計(jì),可視化展示信息的存儲(chǔ)等功能。
3.3 安全架構(gòu)層
模型的構(gòu)建中完善了信息安全防御體系和信息安全治理體系。信息安全是保證基于自學(xué)體系的數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)安全穩(wěn)定運(yùn)行的關(guān)鍵,總體安全防護(hù)方案包括數(shù)據(jù)安全、網(wǎng)絡(luò)安全、物理安全和安全管理等。
4 研究成果
根據(jù)自學(xué)體系中建立的規(guī)則,通過數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)質(zhì)量評(píng)估,對(duì)選取的數(shù)據(jù)建立基于自學(xué)體系的數(shù)據(jù)質(zhì)量監(jiān)測模型的監(jiān)測系統(tǒng),解決了數(shù)據(jù)多義性和冗余性等有關(guān)問題,研究電力數(shù)據(jù)質(zhì)量監(jiān)測管理,進(jìn)而提高了電力數(shù)據(jù)的數(shù)據(jù)質(zhì)量水平[7][8],形成以下研究成果:
1) 建立數(shù)據(jù)關(guān)聯(lián)度的自學(xué)規(guī)則、歷史數(shù)據(jù)的自學(xué)規(guī)則和數(shù)據(jù)校檢規(guī)則等,為構(gòu)建模型提供了理論和思想基礎(chǔ)。
2) 通過應(yīng)用架構(gòu)層、技術(shù)架構(gòu)層和安全架構(gòu)層三個(gè)層面,分層面進(jìn)行自學(xué)體系的數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)設(shè)計(jì)提供理論基礎(chǔ)。
3) 分析了自學(xué)體系的數(shù)據(jù)質(zhì)量監(jiān)測模型,設(shè)計(jì)的數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)是參照傳統(tǒng)數(shù)據(jù)質(zhì)量模型設(shè)計(jì)的,它具備數(shù)據(jù)質(zhì)量模型優(yōu)點(diǎn),同樣也解決其部分不足,為數(shù)據(jù)質(zhì)量監(jiān)測和合理利用提供支撐。
5 結(jié)語
基于自學(xué)體系的數(shù)據(jù)質(zhì)量監(jiān)測模型采取對(duì)用戶獲得的數(shù)據(jù)視圖逐一(或部分)進(jìn)行監(jiān)測,從而得到監(jiān)測結(jié)果。通過自學(xué)體系的數(shù)據(jù)質(zhì)量監(jiān)測模型建立系統(tǒng)[9],不僅可以使工作量將大大減少,支撐數(shù)據(jù)質(zhì)量評(píng)價(jià)模型建立和數(shù)據(jù)質(zhì)量實(shí)時(shí)監(jiān)測,通過預(yù)警、核查、整改等一系列手段完成數(shù)據(jù)修正,提升數(shù)據(jù)質(zhì)量。同時(shí)也能提高數(shù)據(jù)質(zhì)量模型的合理性和科學(xué)性。
參考文獻(xiàn):
[1] 劉周斌,譚瀟.大數(shù)據(jù)應(yīng)用創(chuàng)新團(tuán)隊(duì)建設(shè)的研究與實(shí)踐[J].管理觀察,2015(1):163-165.
[2] 陳衛(wèi)東.數(shù)據(jù)質(zhì)量模型及關(guān)系代數(shù)運(yùn)算下質(zhì)量傳遞理論與方法研究[D].長沙:國防科技大學(xué),2007.
[3] Madnick S E,Wang R W,Lee Y W,et al. Overview and Framework for Data and Information Quality Research[J].ACM Journal of Data and Information Quality,2009,1(1):1-22.
[4] 袁滿,張雪.一種基于規(guī)則的數(shù)據(jù)質(zhì)量評(píng)價(jià)模型[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(3):81-89.
[5] 劉軍,呂俊峰.大數(shù)據(jù)時(shí)代及數(shù)據(jù)挖掘的應(yīng)用[N].國家電網(wǎng)報(bào),2012-05-15(10).
[6] Todoran I,Lecornu L,Khenchaf A,etal.A Methodology to Evaluate Important Dimensions of Information Quality in Systems[J].ACM Journal of Data and Information Quality,2015,6(2-3):1-22.
[7] 陳建長.電力企業(yè)統(tǒng)計(jì)內(nèi)容、范圍應(yīng)拓展[J].中國統(tǒng)計(jì),2007(05).
[8] 馬永蘭.電力企業(yè)綜合統(tǒng)計(jì)分析系統(tǒng)使用方法及常見問題探討[J].科技信息,2011(33).
[9] Pipino L,Lee Y,Wang R.Data quality assessment[J].Communications of the ACM,2002,45(4):211-2182.