摘 要: 隨著各種技術在電力企業(yè)信息系統(tǒng)數據質量檢測中的應用,企業(yè)數據質量得到大幅度提升。然而,當前的數據質量檢測方法一般只是針對數據缺失、亂碼、特殊字符等淺表的顯性數據質量問題提出了解決方案,對于沒有明顯業(yè)務規(guī)則、隱性的數據質量問題仍然缺少有效的技術檢測手段。以廣東電網公司生產設備臺帳數據質量檢測為例,提出了基于聚類分析的數據異常值樣本離群檢測技術,探索該技術在數據質量提升中的典型應用方法,為不斷完善數據質量檢測規(guī)則提供了技術支撐。
關鍵詞: 數據質量; 聚類分析; 離群檢測; 設備臺帳; 異常值
中圖分類號: TN915?34 文獻標識碼: A 文章編號: 1004?373X(2016)15?0137?03
Abstract: With the application of various techniques in information system data quality detection of power enterprise, the enterprise data quality is improved shapely. The current data quality detection methods only can provide the solutions for the obvious data quality problems, such as data missing, messy code, special character, and lack the effective technical detection means for the unobvious business rules and recessive data quality problems. In this paper, the production equipment account data quality detection of Guangdong Power Grid Corporation is taken as an example, and the sample outlier detection technology of data abnormal value based on cluster analysis is proposed. The typical application method of this technology in data quality promotion is explored to provide the technical support for the constant improvement of data quality detection rules.
Keywords: data quality; cluster analysis; outlier detection; equipment account; abnormal value
0 引 言
近年來,隨著信息化建設進程的加快和信息系統(tǒng)的長期運行,廣東電網公司積累了大量在線數據,為業(yè)務指導和經營決策奠定了基礎。為了提升信息系統(tǒng)數據質量,加速信息系統(tǒng)的實用化,廣東電網公司建立了數據質量檢測平臺,平臺運行后,數據質量的檢測效率、檢測覆蓋面和準確率都得到大幅提升[1]。然而,當前的數據質量檢測方法一般只是針對數據缺失、亂碼、特殊字符等淺表的顯性數據質量問題提出了解決方案,對于沒有明顯業(yè)務規(guī)則、隱性的數據質量問題仍然缺少有效的技術檢測手段。如對于涉及復雜場景的潛在數據質量問題,如線路長度、設備電流值、缺陷類別等,校驗規(guī)則比較寬泛,大多數情況只考慮單個字段,缺少對指標間關聯(lián)規(guī)則的考慮,造成數據質量問題挖掘不全面、不到位。
基于聚類分析的離群檢測數據挖掘方法能夠根據數據支撐的業(yè)務目標,對海量數據進行快速、高效、準確的提取,有效挖掘出隱藏的離群數據點,分析其背后的原因,結合實際業(yè)務規(guī)則判定是否為壞數據,有針對性的進行處理,進而提高數據質量水平。本文將基于該方法在數據質量檢測中的應用展開研究。
1 基于聚類分析的離群檢測關鍵技術研究
離群點檢測是數據挖掘技術的重要研究領域之一,用來發(fā)現(xiàn)數據明顯偏離于其他數據,不滿足數據的一般行為或模式的數據。離群點的挖掘方法很多,可分為基于統(tǒng)計的、基于深度的、基于聚類的、基于距離的和基于密度的分析方法[2?3]。本文主要研究基于聚類分析的離群檢測方法。
聚類的思想主要是利用數據點和聚簇間的相互關系,通過把數據集分為多個不同的簇,使得聚簇內的數據點相似度最高,而不同聚簇間的差異度最大。主要算法[4?5]包括CLIQUE,CLARAN,K?means,F(xiàn)indCBLOF等。
根據數據點和聚簇的關系,可分為是否屬于聚簇、遠離聚簇、屬于稀疏或較小的聚簇,基于聚類的離群檢測包括以下三種思路[4]:
(1) 正常數據屬于某個類簇,而離群數據不屬于任何一個類簇。這類聚類方法不同之處在于,其不強制每個數據對象歸為一個類簇。典型算法是CLARANS。
(2) 正常數據與離其較近的類簇中心距離較近,而離群數據遠離與其最近的類簇中心?;谶@種假設的離群檢測方法通常包括兩個階段:第一階段采用聚類算法對數據進行聚類;第二階段針對每個數據對象,計算每個對象到其最近的類簇中心的距離,并將這個距離作為離群度量。典型算法為K?means。
(3) 正常數據屬于較大且較密的類簇,而離群數據位于較小和較為稀疏的類簇。該方法首先給出一個關于類簇大小和密度的閾值,小于此閾值的類簇整體都被認為是離群數據。典型算法是FindCBLOF。
針對廣東電網公司的數據現(xiàn)狀,選取K?means聚類算法作為離群點檢測的主要算法。
1.1 K?means聚類算法原理
K?means算法是很典型的基于距離的聚類算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。該算法認為簇是由距離相近的對象組成,因此把得到緊湊且獨立的簇作為最終目標。
1.2 K?means聚類算法特點
K?means聚類算法快速、簡單;對大數據集有較高的效率并且是可伸縮的;時間復雜度近似于線性,而且適合挖掘大規(guī)模數據集。
1.3 K?means聚類算法規(guī)則
2 基于聚類分析的離群點檢測方法在數據質量
檢測中的典型應用
通過對數據的初步探索可知,斷路器重量的數值在數據錄入過程中容易被忽視,部分數據存在錄入不準確的問題,由于斷路器的重量沒有明確的技術規(guī)范來確定數值范圍,基本的統(tǒng)計分析方法難以較好地定位異常值。同時絕大部分重量的錄入值是正確的,異常數據屬于少數,符合利用基于聚類分析的離群點檢測方法進行數據質量問題的檢測。利用聚類的方法可自動識別相似性較高的數據,自動按相似性分割為不同的簇,樣本數較少的簇往往存在數據質量問題。因此,選取斷路器相關數據質量檢測作為基于聚類分析的離群點檢測方法的典型應用場景。主要應用步驟包含:確定數據源、進行數據探索、確定建模數據、進行聚類分析、識別異常數據。
算法執(zhí)行過程中,初步設定聚類數為20,通過聚類指標和觀測實際評估聚類效果,重復設定合理的聚類數,不斷優(yōu)化聚類模型。根據聚類的相關指標評估原理,若偽[F]統(tǒng)計量較大而分類數較少,且[R]方不再大幅度增加,則可表明聚類效果良好,并且通過進一步查看原觀測分群情況,把數據集分為15類較為合理,加上剔除的缺失值,共16類。分析相關指標如表1所示。
建模結束后,尚需對斷路器重量數據進行業(yè)務特征刻畫,從而反映不同電壓等級的斷路器重量的特征差別。目前廣東電網數據質量管理系統(tǒng)未設定規(guī)則對主網斷路器重量字段進行數據質量檢測,由聚類結果可知,主網斷路器重量的聚類結果與電壓等級具有較強相關性。進一步分析正常數據各電壓等級的重量范圍,500 kV及以上斷路器重量可考慮設定為2 000~13 000 kg;220~252 kV斷路器重量可考慮設定為500~8 000 kg;35~145 kV斷路器重量可考慮設定為200~6 000 kg。針對各電壓等級下斷路器的重量,建議進行數據質量問題檢測的規(guī)則如表3所示。
選取主網斷路器的重量字段9 190條非缺失且電壓等級在合理范圍內的數據作為模型驗證集,應用上述案例聚類模型形成的規(guī)則進行數據質量檢測,可以發(fā)現(xiàn)1 032條存在潛在問題的記錄,模型實際檢測效果良好,能夠有效地發(fā)現(xiàn)主網斷路器重量字段的數據質量問題。為了進一步提升檢測有效性,需進行實地調研和專家訪談,對檢測規(guī)則進行評估,進一步細化和補充模型檢測規(guī)則。
3 結 語
本文針對廣東電網公司數據質量檢測中存在的問題,通過對基于聚類分析的離群檢測方法關鍵技術進行研究,以斷路器重量等相關數據質量檢測為典型應用場景,建立了該方法的應用解決方案,并提出了數據檢測規(guī)則固化的建議。對于那些沒有明確技術規(guī)范來確定數據取值范圍的連續(xù)數值類字段,可結合實際業(yè)務場景,采用聚類方法發(fā)現(xiàn)潛在數據質量問題,如設備的重量、線路長度、桿塔數量等。經應用校驗表明基于聚類分析離群檢測數據挖掘方法在數據質量檢測方面的應用效果顯著。有效提升了廣東電網公司數據質量和信息系統(tǒng)實用化水平。
參考文獻
[1] 楊浩,徐暉,蕭展輝,等.廣東電網公司生產管理信息系統(tǒng)實用化評價研究[J].廣東電力,2010,23(4):29?34.
[2] 薛安榮,姚林,鞠時光,等.離群點挖掘算法綜述[J].計算機科學,2008,35(11):13?18.
[3] RAMASWAMY S, RASTOGI R, SHIM K. Efficient algorithms for mining outliers from large data sets [J]. ACM SIGMOD record, 2000, 29(2): 427?438.
[4] 雷大江.離群檢測與離群釋義算法研究[D].重慶:重慶大學,2012.
[5] SMITH R, BIVENS A, EMBRECHTS M, et al. Clustering approaches for anomaly based intrusion detection [J]. Proceedings of intelligent engineering systems through artificial neural networks, 2002, 12: 579?584.
[6] 范明,范宏建.數據挖掘導論[M].北京:人民郵電出版社,2012.
[7] HAN J, KAMBER M, PEI J. Data mining: concepts and techniques [M]. San Francisco: Morgan Kaufmann, 2006.