許駿龍 葛志松 陳琪 穆志君 周方
摘要:隨著信息系統(tǒng)的快速發(fā)展,數(shù)據(jù)的重要性越來越凸顯,身處大數(shù)據(jù)時(shí)代,數(shù)據(jù)質(zhì)量在數(shù)據(jù)交互、數(shù)據(jù)應(yīng)用中也成為重點(diǎn)關(guān)注對(duì)象,并且數(shù)據(jù)質(zhì)量的含義也在悄然發(fā)生改變。該文對(duì)數(shù)據(jù)質(zhì)量的概念及常見的導(dǎo)致數(shù)據(jù)質(zhì)量不高的異常情況進(jìn)行了討論,并介紹了在數(shù)據(jù)獲取及數(shù)據(jù)清洗等階段加以干預(yù)提高數(shù)據(jù)質(zhì)量的方法,結(jié)合供能機(jī)構(gòu)采集的電力數(shù)據(jù)實(shí)際情況探討了提高數(shù)據(jù)質(zhì)量的手段。
關(guān)鍵詞:電力數(shù)據(jù);數(shù)據(jù)質(zhì)量;數(shù)據(jù)清洗
中圖分類號(hào):TP311 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)13-0271-02
當(dāng)今節(jié)能降耗這一主題已經(jīng)變得越來越重要,工業(yè)企業(yè)是節(jié)能降耗的主體,而計(jì)量則是節(jié)能效果量化的基礎(chǔ),是科學(xué)用能的基本條件。通過能源計(jì)量,企業(yè)確保能耗統(tǒng)計(jì)信息和相關(guān)數(shù)據(jù)資料的準(zhǔn)確性,保證能源消耗量的可比性,進(jìn)而制定合理的用能計(jì)劃。在此基礎(chǔ)上許多供能機(jī)構(gòu)或用能單位通過對(duì)能源計(jì)量表具安裝數(shù)據(jù)采集裝置或構(gòu)建遠(yuǎn)程集抄系統(tǒng)實(shí)現(xiàn)了能耗數(shù)據(jù)在線采集,但是能耗數(shù)據(jù)的獲取僅僅是最基礎(chǔ)的第一步,確保數(shù)據(jù)的準(zhǔn)確可靠、實(shí)時(shí)有效才是實(shí)現(xiàn)數(shù)據(jù)價(jià)值的重要前提,但實(shí)際上大部分在線采集的能耗數(shù)據(jù)都存在各種質(zhì)量問題,因此,本文以供能機(jī)構(gòu)獲取的電力能耗數(shù)據(jù)為例,探討如何通過科學(xué)合理的手段對(duì)大批量的數(shù)據(jù)進(jìn)行處理分析,避免過多人工干預(yù),提高工作效率。
1數(shù)據(jù)特點(diǎn)
傳統(tǒng)的數(shù)據(jù)質(zhì)量指的是數(shù)據(jù)的準(zhǔn)確性、及時(shí)性、一致性和完整性這幾個(gè)指標(biāo)在信息系統(tǒng)中得到滿足的程度[1],這四方面數(shù)據(jù)特性也是數(shù)據(jù)質(zhì)量的基本體現(xiàn)。
數(shù)據(jù)準(zhǔn)確性指的是數(shù)據(jù)本身所包含的內(nèi)容是否準(zhǔn)確,是否存在異常或者錯(cuò)誤的信息。準(zhǔn)確性關(guān)注的是數(shù)據(jù)本身的邏輯歸納,要保證其準(zhǔn)確就必須保證數(shù)據(jù)來源的真實(shí),這也是能耗數(shù)據(jù)在線采集逐漸取代人工填報(bào)的重要原因。
及時(shí)性通過獲取數(shù)據(jù)延時(shí)的時(shí)長反應(yīng),指的是數(shù)據(jù)從產(chǎn)生到最終使用一般都會(huì)有的一段時(shí)間間隔,是影響數(shù)據(jù)質(zhì)量的一個(gè)隱形因素。以功能機(jī)構(gòu)電力數(shù)據(jù)為例,由于用戶量龐大,從巡抄指令下達(dá)到最終數(shù)據(jù)獲取一般都存在一個(gè)小時(shí)以上的延時(shí)。
數(shù)據(jù)一致性通常指關(guān)聯(lián)數(shù)據(jù)之間的邏輯關(guān)系是否正確和完整,而數(shù)據(jù)存儲(chǔ)的一致性模型則可以認(rèn)為是存儲(chǔ)系統(tǒng)和數(shù)據(jù)使用者之間的一種約定[3]。
數(shù)據(jù)的完整性是指數(shù)據(jù)的信息是否完整,是否存在缺失。數(shù)據(jù)的缺失主要為某個(gè)字段信息的缺失,完整性是數(shù)據(jù)質(zhì)量的重要體現(xiàn)和基本保證,信息的缺失會(huì)導(dǎo)致應(yīng)用時(shí)的不準(zhǔn)確,也是數(shù)據(jù)質(zhì)量評(píng)估的一項(xiàng)重要考核指標(biāo)。
但是隨著信息系統(tǒng)的快速發(fā)展,數(shù)據(jù)的來源越來越豐富,數(shù)據(jù)體量和覆蓋面也越來越廣,對(duì)數(shù)據(jù)質(zhì)量的定義也從狹義走向了廣義,以上四個(gè)指標(biāo)不再是衡量數(shù)據(jù)質(zhì)量的唯一指標(biāo),在大數(shù)據(jù)的時(shí)代背景下,個(gè)人認(rèn)為數(shù)據(jù)的可用程度成為評(píng)價(jià)數(shù)據(jù)質(zhì)量的更關(guān)鍵因素。
2 數(shù)據(jù)異常情況
供能機(jī)構(gòu)現(xiàn)行的方式是通過采集終端獲取包括表具信息、終端信息、運(yùn)行狀態(tài)信息、能耗數(shù)據(jù)及變更信息在內(nèi)的各種數(shù)據(jù),由于各地采集終端數(shù)量龐大,需要實(shí)現(xiàn)采集的數(shù)據(jù)源種類繁多,采集頻次高,傳輸方式多樣,且各類數(shù)據(jù)對(duì)用戶重要程度存在差異,導(dǎo)致最終采集的數(shù)據(jù)質(zhì)量參差不齊,導(dǎo)致數(shù)據(jù)質(zhì)量不高的主要原因包括:
1) 現(xiàn)場(chǎng)的采集設(shè)備出現(xiàn)故障,造成遠(yuǎn)程抄表系統(tǒng)采集的現(xiàn)場(chǎng)數(shù)據(jù)丟失或者偏離正常值;
2) 在更換設(shè)備的時(shí)候,由于規(guī)則不同導(dǎo)致,或者有些數(shù)據(jù)需要人工獨(dú)立維護(hù)時(shí)出現(xiàn)的數(shù)據(jù)同步不及時(shí);
3) 各個(gè)供能機(jī)構(gòu)內(nèi)部的數(shù)據(jù)庫分類繁多,采集篩選出的源數(shù)據(jù)不一定可靠,沒有將更準(zhǔn)確或者完善的數(shù)據(jù)推送過來;
4) 傳輸網(wǎng)絡(luò)故障,導(dǎo)致現(xiàn)場(chǎng)數(shù)據(jù)無法傳輸?shù)街髡荆m然現(xiàn)場(chǎng)設(shè)備有存儲(chǔ)功能,但還是會(huì)導(dǎo)致數(shù)據(jù)應(yīng)用大范圍滯后[4]。
以2017年全年采集的上海市重點(diǎn)用能單位關(guān)口電力數(shù)據(jù)為例,反應(yīng)電力消耗的數(shù)據(jù)為凍結(jié)數(shù)據(jù)和負(fù)荷數(shù)據(jù)兩類,采集頻次分別為1天/次及15分鐘/次,覆蓋表頭凍結(jié)累計(jì)電量,日峰、平、谷電量、最大需量、有功功率、無功功率及平均電力負(fù)荷。針對(duì)數(shù)據(jù)缺失的情況,某個(gè)采集終端全年傳輸凍結(jié)數(shù)據(jù)統(tǒng)計(jì)情況如下圖所示:
對(duì)于數(shù)據(jù)異常的情況。觀察某些采集終端某一時(shí)段采集到的表頭凍結(jié)值曲線,可以發(fā)現(xiàn)如下異常情況:
1) 表頭讀數(shù)出現(xiàn)反向變化,突然變?yōu)?值;
2) 表頭讀數(shù)在很長時(shí)間內(nèi)無變化;
3) 表頭讀數(shù)在一定時(shí)間內(nèi)出現(xiàn)反復(fù)變化;
可以看出常規(guī)數(shù)據(jù)采集中存在毛刺值、零值、缺省值等多種異常情況,且時(shí)常存在表頭讀數(shù)長時(shí)間無變化的情況,考慮到用能單位存在季節(jié)性停產(chǎn)的可能性,此種情況需要經(jīng)驗(yàn)判斷是否屬于異常情況。
3 數(shù)據(jù)質(zhì)量控制
針對(duì)數(shù)據(jù)質(zhì)量的定義,提升數(shù)據(jù)質(zhì)量的方式大致相同,主要是在數(shù)據(jù)獲取及數(shù)據(jù)清洗等階段加以干預(yù)。在數(shù)據(jù)獲取階段,采取的手段主要針對(duì)硬件設(shè)備或網(wǎng)絡(luò)傳輸設(shè)備,增加其可靠性,減少產(chǎn)生的偶然結(jié)果對(duì)后續(xù)數(shù)據(jù)使用產(chǎn)生影響。在數(shù)據(jù)清洗階段提升數(shù)據(jù)質(zhì)量的主要方式是去除不相關(guān)的指標(biāo)、異常值、缺省值等。同時(shí)根據(jù)數(shù)據(jù)的實(shí)際情況,設(shè)計(jì)數(shù)據(jù)識(shí)別校驗(yàn)的方法,如分段設(shè)定閾值判別法、數(shù)據(jù)橫向?qū)Ρ确?、?shù)據(jù)縱向?qū)Ρ确?、置信區(qū)間估計(jì)法、多數(shù)據(jù)來源校驗(yàn)、基于數(shù)據(jù)間關(guān)聯(lián)關(guān)系的校驗(yàn)或針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化模型表示與多源多尺度數(shù)據(jù)的融合[7],達(dá)到提升數(shù)據(jù)質(zhì)量以便數(shù)據(jù)應(yīng)用。
同樣以2017年全年采集的上海市重點(diǎn)用能單位關(guān)口電力數(shù)據(jù)為例,凍結(jié)電量的采集頻次為1日/次,使用相鄰兩天的凍結(jié)電量相減可以得到當(dāng)天的用電量,對(duì)于供能機(jī)構(gòu)而言,結(jié)算日的凍結(jié)電量由于要進(jìn)行月度費(fèi)用結(jié)算,采集優(yōu)先級(jí)很高,相對(duì)而言非結(jié)算日的凍結(jié)電量采集的優(yōu)先級(jí)就比較靠后,時(shí)常出現(xiàn)缺失,針對(duì)此種情況,可以設(shè)計(jì)算法用能夠計(jì)算出來的月度用電總量對(duì)日用電量數(shù)據(jù)進(jìn)行修正,即可滿足日用電數(shù)據(jù)的展示及分析。
針對(duì)計(jì)算出單日用電數(shù)據(jù)為負(fù)值的情況,參考終端b的異常情況,判斷為由換表導(dǎo)致的單日用電數(shù)據(jù)為負(fù)值,應(yīng)該直接予以剔除,用算法對(duì)此日用電數(shù)據(jù)進(jìn)行補(bǔ)充。
針對(duì)計(jì)算出單日用電數(shù)據(jù)為零值的情況,參考終端c的異常情況,此時(shí)需要結(jié)合終端采集的負(fù)荷數(shù)據(jù)判斷企業(yè)是否存在停產(chǎn)等特殊情況導(dǎo)致的暫停用電。對(duì)于計(jì)算所得單日用電量數(shù)據(jù)明顯大于平均值的情況,也應(yīng)結(jié)合采集的負(fù)荷值判斷是否為企業(yè)停產(chǎn)后恢復(fù)用電,設(shè)定閾值并結(jié)合相鄰日用電量進(jìn)行判斷。
對(duì)于成對(duì)出現(xiàn)的絕對(duì)值相近但符號(hào)相反的異常日用電量數(shù)據(jù),參考終端d的異常情況,考慮為毛刺值導(dǎo)致的相鄰兩天日用電量異常,應(yīng)該成對(duì)剔除后用算法進(jìn)行補(bǔ)充。
4 結(jié)論
隨著網(wǎng)絡(luò)技術(shù)的和大數(shù)據(jù)技術(shù)迅猛發(fā)展,信息系統(tǒng)的連接越來越緊密,也朝著智能化、邏輯復(fù)雜化、自動(dòng)化、數(shù)據(jù)爆炸式的方向發(fā)展,數(shù)據(jù)質(zhì)量的重要性越來越凸顯。同時(shí)對(duì)數(shù)據(jù)處理速度也提出了更高的要求。數(shù)據(jù)質(zhì)量的定義在海量數(shù)據(jù)面前也在悄然改變,準(zhǔn)確性、及時(shí)性、一致性和完整性等指標(biāo)在數(shù)據(jù)質(zhì)量中的權(quán)重都在下降,可以被越來越豐富、全面的數(shù)據(jù)來彌補(bǔ)其他指標(biāo)的不足,從整個(gè)系統(tǒng)的角度來看待整個(gè)系統(tǒng)的數(shù)據(jù)質(zhì)量,增加數(shù)據(jù)的可讀性,讓海量的數(shù)據(jù)在系統(tǒng)中流轉(zhuǎn),提高整個(gè)系統(tǒng)的性能,也提高了數(shù)據(jù)最終應(yīng)用的準(zhǔn)確性。
參考文獻(xiàn):
[1] ?Aebi Daniel, Perrochon Louis, Towards Improving Data Quality[M]. 1993:278-281.
[2] 赫佳,楊海成,閻艷, 等. 面向產(chǎn)品設(shè)計(jì)任務(wù)的可配置知識(shí)組建技術(shù)[J]. 計(jì)算機(jī)集成制造系統(tǒng),2012, 18(4):705-712.
[3] 江疆,黃劍文,楊秋勇.基于廣東電網(wǎng)大數(shù)據(jù)的數(shù)據(jù)質(zhì)量管理方法[J]. 現(xiàn)代計(jì)算機(jī)(專業(yè)版),2016(7).
[4] 楊通國.智能電網(wǎng)大數(shù)據(jù)技術(shù)的發(fā)展策略分析及研究[J]. 科技展望,2016(14).
[5] 黃慧,朱齊亮,智能電網(wǎng)數(shù)據(jù)質(zhì)量控制的發(fā)展分析與展望[J]. 科技信息,2012(7):92-93.
[6] 曹建軍,刁興春,汪挺,等.數(shù)據(jù)質(zhì)量控制研究中若干基本問題[J]. 微計(jì)算機(jī)信息,2010(3).
【通聯(lián)編輯:代影】