魏嘉瑋
摘要:電網(wǎng)設(shè)備臺(tái)帳數(shù)據(jù)是電網(wǎng)生產(chǎn)運(yùn)營(yíng)分析必不可少的一部分,而且數(shù)據(jù)質(zhì)量水平直接影響了數(shù)據(jù)分析結(jié)果的準(zhǔn)確度和對(duì)策的合理性。現(xiàn)以廣東電網(wǎng)有限責(zé)任公司中山供電局的設(shè)備臺(tái)賬數(shù)據(jù)質(zhì)量為例來(lái)研究,通過(guò)總結(jié)分析設(shè)備臺(tái)帳數(shù)據(jù)的質(zhì)量現(xiàn)狀,探究影響數(shù)據(jù)質(zhì)量準(zhǔn)確性的技術(shù)、管理等原因,比較不同的檢查方法并重點(diǎn)分析基于數(shù)據(jù)分析的檢查方法,利用數(shù)據(jù)挖掘技術(shù)對(duì)文本信息進(jìn)行文本矯正。并提出能針對(duì)具體的數(shù)據(jù)質(zhì)量來(lái)改善管理措施和技術(shù)措施,為提升信息系統(tǒng)數(shù)據(jù)質(zhì)量提供了支撐。
關(guān)鍵詞:數(shù)據(jù)質(zhì)量現(xiàn)狀;準(zhǔn)確性;檢查方法;文本矯正
中圖分類號(hào):TP311.13文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)12(a)-0000-00
雖然每年網(wǎng)、省公司都會(huì)投資大量的資金人力來(lái)提升數(shù)據(jù)質(zhì)量,但是目前的數(shù)據(jù)準(zhǔn)確性依舊不夠。因?yàn)槟壳皵?shù)據(jù)質(zhì)量提升的手段相對(duì)比較單一,并且都是通過(guò)已經(jīng)制定好的檢查系統(tǒng)的規(guī)則或者算法來(lái)進(jìn)行檢查,而這種制定好的規(guī)則更多是針對(duì)填寫(xiě)的規(guī)范性或者結(jié)構(gòu)性問(wèn)題來(lái)篩選,比如判斷必填項(xiàng)是否填寫(xiě)、參數(shù)范圍是否在枚舉范圍內(nèi)等,這種檢查規(guī)則并不能檢查出數(shù)據(jù)準(zhǔn)確性問(wèn)題,另外檢查規(guī)則的涉及范圍十分有限,所以數(shù)據(jù)質(zhì)量的提升達(dá)不到理想效果。
一、設(shè)備臺(tái)帳數(shù)據(jù)質(zhì)量現(xiàn)狀
近幾年來(lái),信息系統(tǒng)不斷完善提高,但還是存在數(shù)據(jù)缺失,數(shù)據(jù)質(zhì)量準(zhǔn)確性低下等問(wèn)題。目前廣東電網(wǎng)有限責(zé)任公司中山供電局設(shè)備臺(tái)賬數(shù)據(jù)質(zhì)量的主要問(wèn)題是數(shù)據(jù)準(zhǔn)確性差,數(shù)據(jù)不完整,包括部分設(shè)備臺(tái)賬缺少數(shù)據(jù),設(shè)備參數(shù)不準(zhǔn)確及設(shè)備類別不準(zhǔn)確等問(wèn)題。設(shè)備參數(shù)不準(zhǔn)確包括饋線長(zhǎng)度不合理、生產(chǎn)廠家不合理,設(shè)備型號(hào)不準(zhǔn)確,變壓器額定電流不準(zhǔn)確等;設(shè)備類別不準(zhǔn)確具體包括開(kāi)關(guān)類型不準(zhǔn)確,配變類別不準(zhǔn)確等問(wèn)題。這些問(wèn)題會(huì)影響賬、卡、物的一致,比如不能有效支持業(yè)務(wù)應(yīng)用,不能滿足數(shù)據(jù)分析應(yīng)用要求,同時(shí)不能有效支持基于臺(tái)賬數(shù)據(jù)質(zhì)量的分析應(yīng)用,不能很好地發(fā)揮數(shù)據(jù)價(jià)值。
二、設(shè)備臺(tái)帳數(shù)據(jù)質(zhì)量的檢查方法
2.1傳統(tǒng)檢查方法
傳統(tǒng)的檢查方法就是基于已設(shè)定的規(guī)則檢查,由業(yè)務(wù)專家梳理規(guī)則,系統(tǒng)固化規(guī)則,主要是檢查必填項(xiàng)的填寫(xiě)和枚舉值的參數(shù)范圍。
傳統(tǒng)檢查方法很難檢查出數(shù)據(jù)準(zhǔn)確性問(wèn)題,比如某些字段的篩選要求不夠嚴(yán)謹(jǐn),規(guī)則檢測(cè)的數(shù)據(jù)基本全部通過(guò),但實(shí)際有效的數(shù)據(jù)仍存在數(shù)據(jù)精準(zhǔn)度不高等問(wèn)題。如主變?nèi)萘浚凑找?guī)則只要填下下面任何一個(gè)都算正確,但實(shí)際上,不同電壓等級(jí)變壓器取值會(huì)有區(qū)別,如500kV變壓器容量不可能只有800kV,110kV變壓器容量也不會(huì)是1000000kV。另外桿塔檔距要求是大于0的數(shù)字就行,但實(shí)際上還是有一個(gè)合理范圍,與桿塔高度等都有關(guān)系。
2.2.基于數(shù)據(jù)分析的檢查方法
這一種檢查方法是采用數(shù)據(jù)挖掘技術(shù),根據(jù)數(shù)據(jù)的分布特點(diǎn),建立數(shù)據(jù)分析模型,進(jìn)行數(shù)據(jù)質(zhì)量的自識(shí)別,重點(diǎn)發(fā)現(xiàn)數(shù)據(jù)的準(zhǔn)確性問(wèn)題。由于主配網(wǎng)設(shè)備臺(tái)賬涉及三千多個(gè)設(shè)備類別,共計(jì)五千多個(gè)技術(shù)參數(shù),無(wú)法對(duì)每一個(gè)參數(shù)單獨(dú)建立分析模型。本方案總體思路是開(kāi)發(fā)一套數(shù)據(jù)質(zhì)量治理組建,針對(duì)數(shù)值型參數(shù)采用離群點(diǎn)檢測(cè)組件,對(duì)于文本型參數(shù)采用文本矯正組件。
2.2.1桿塔呼稱高、全高分析
2.2.1.1截尾方法
從上圖可以明顯看出,圖中存在幾個(gè)異常點(diǎn),這些點(diǎn)與多數(shù)值比較極大,采用截尾方法處理,按照從小到大排序,截取99%以內(nèi)的數(shù)據(jù),剩下1%的數(shù)據(jù)為疑似可能值,將數(shù)據(jù)標(biāo)記。
2.2.1.2基于密度的聚類
根據(jù)業(yè)務(wù)知識(shí)可知呼稱高和全高存在一定的相關(guān)性,可能存在呼稱高和全高在一定均在正常范圍內(nèi),而呼稱高和全高差距較大。利用基于密度的聚類實(shí)現(xiàn)異常點(diǎn)的檢測(cè)。
3.文本矯正的樣例分析
文本矯正主要是利用數(shù)據(jù)挖掘技術(shù),建立標(biāo)準(zhǔn)庫(kù),通過(guò)文本挖掘計(jì)算矯正文本和標(biāo)準(zhǔn)庫(kù)中的文本信息的相似度,進(jìn)一步矯正文本信息,規(guī)范文本信息的填寫(xiě)。如設(shè)備生產(chǎn)廠家、型號(hào)等字段可采用此種方法進(jìn)行檢測(cè),具體見(jiàn)樣例分析中的文本矯正。
3.1 設(shè)備廠家文本矯正整體思路
① 首先建立標(biāo)準(zhǔn)廠家?guī)欤瑯?biāo)準(zhǔn)廠家?guī)熘饕獜臄?shù)據(jù)庫(kù)中提取和業(yè)務(wù)人員整理。
② 對(duì)歷史廠家字段(或新輸入廠家字段),利用文本挖掘手段在標(biāo)準(zhǔn)廠家?guī)熘衅ヅ渌阉鳌?/p>
③ 將標(biāo)準(zhǔn)中廠家名稱推薦給用戶。
3.2樣例說(shuō)明
四、提高設(shè)備臺(tái)賬數(shù)據(jù)質(zhì)量的建議和措施
由分析現(xiàn)有的數(shù)據(jù)質(zhì)量現(xiàn)狀得出,提出以同時(shí)加強(qiáng)管理和技術(shù)手段的方式來(lái)保證數(shù)據(jù)的準(zhǔn)確性。具體措施如下:
4.1建立設(shè)備臺(tái)賬管理制度
按月設(shè)定業(yè)務(wù)管理部門(mén)的數(shù)據(jù)考核標(biāo)準(zhǔn),完善登記使用系統(tǒng),提高使用者的責(zé)任心,確保每個(gè)部門(mén)都能執(zhí)行設(shè)備臺(tái)賬管理制度。建立數(shù)據(jù)審核管理制度,記錄每一個(gè)有問(wèn)題的數(shù)據(jù),具體到時(shí)間、人員、缺陷問(wèn)題描述等。定期檢查數(shù)據(jù)的消缺率和及時(shí)率,做到時(shí)刻監(jiān)督。并且要對(duì)已經(jīng)發(fā)現(xiàn)和處理的數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行總結(jié)歸類,比如數(shù)據(jù)質(zhì)量的監(jiān)控點(diǎn)設(shè)置、參考解決方案、實(shí)際解決方案、解決結(jié)果反饋等。并且為了跟進(jìn)信息的發(fā)展和提高業(yè)務(wù)人員的水平,完善信息系統(tǒng)的功能結(jié)構(gòu),有必要對(duì)相關(guān)業(yè)務(wù)人員展開(kāi)系統(tǒng)的培訓(xùn)。
4.2規(guī)范系統(tǒng)使用過(guò)程
有關(guān)部分要切合實(shí)際,制定可行的信息系統(tǒng)使用規(guī)范,在信息系統(tǒng)中實(shí)現(xiàn)數(shù)據(jù)的錄入、分析、整理和匯總,真正提高數(shù)據(jù)的準(zhǔn)確性。充分利用現(xiàn)有的信息資源,組建專門(mén)的培訓(xùn)隊(duì)伍,培訓(xùn)系統(tǒng)的操作方法以及注意事項(xiàng)。比如組建以信息技術(shù)為主導(dǎo)的審查人員,形成一套數(shù)據(jù)審查規(guī)范,確保審查人員經(jīng)過(guò)專門(mén)的培訓(xùn)并合理分配到每個(gè)業(yè)務(wù)部門(mén),加強(qiáng)業(yè)務(wù)部門(mén)的操作規(guī)范。
4.3完善業(yè)務(wù)模型,優(yōu)化系統(tǒng)設(shè)計(jì)
為了及時(shí)更新完善業(yè)務(wù)模型,需要對(duì)系統(tǒng)的設(shè)計(jì)進(jìn)行優(yōu)化。比如在業(yè)務(wù)部門(mén)設(shè)立專門(mén)的電話聯(lián)絡(luò)人員,及時(shí)更新用戶和信息系統(tǒng)程序員之間的聯(lián)系,電話聯(lián)絡(luò)人員可以對(duì)業(yè)務(wù)模型和數(shù)據(jù)范圍進(jìn)行監(jiān)督,必要時(shí)候可以提供技術(shù)上的幫助。
4.4完善數(shù)據(jù)質(zhì)量檢測(cè)規(guī)則
為了有效應(yīng)對(duì)不同類型數(shù)據(jù),要提取相關(guān)的有效數(shù)據(jù)并結(jié)合數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)不同的數(shù)據(jù)驚醒分析匯總,并且建立系統(tǒng)的檢測(cè)方法和制定完善的檢測(cè)規(guī)則。
4.5對(duì)歷史問(wèn)題進(jìn)行數(shù)據(jù)清理
為了對(duì)歷史數(shù)據(jù)進(jìn)行有效的清理,應(yīng)建立專門(mén)的清理組織,制定系統(tǒng)的工作方案,有序地進(jìn)行歷史數(shù)據(jù)的清理。由上級(jí)管理部門(mén)組織,各個(gè)業(yè)務(wù)部門(mén)共同參與配合,對(duì)資產(chǎn)設(shè)備進(jìn)行統(tǒng)一的盤(pán)點(diǎn)并和數(shù)據(jù)目錄進(jìn)行核對(duì)。核對(duì)結(jié)束之后檢查整理并及時(shí)更新設(shè)備臺(tái)賬,保證數(shù)據(jù)的準(zhǔn)確性和完整度。
五、總結(jié):
通過(guò)以上分析得出,提高設(shè)備臺(tái)賬數(shù)據(jù)質(zhì)量準(zhǔn)確性的具體措施。不僅對(duì)整個(gè)電網(wǎng)行業(yè)如何進(jìn)行數(shù)據(jù)質(zhì)量的提高和信息系統(tǒng)的完善有了較強(qiáng)的意識(shí),同時(shí)也對(duì)企業(yè)合理利用數(shù)據(jù)系統(tǒng)開(kāi)展業(yè)務(wù)分析,對(duì)企業(yè)決策起到參考作用。
參考文獻(xiàn):
[1]楊浩,徐暉,蕭展輝等。廣東電網(wǎng)公司生產(chǎn)信息系統(tǒng)使用化評(píng)價(jià)研究[J]。廣東電力,2010,23(4):29-34
[2]陳孟婕。數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗技術(shù)的研究與應(yīng)用[D].北京:北京郵電大學(xué),2013
[3]黨芳芳。電網(wǎng)企業(yè)業(yè)務(wù)數(shù)據(jù)質(zhì)量管控技術(shù)的研究[D].北京:華北電力大學(xué),2014