鄭細(xì)端
(福建工程學(xué)院管理學(xué)院 福州 350118)
?
增強(qiáng)的K-均值算法在城市能源計(jì)量數(shù)據(jù)平臺(tái)的應(yīng)用研究*
鄭細(xì)端
(福建工程學(xué)院管理學(xué)院福州350118)
摘要能源的節(jié)能降耗一直是個(gè)熱點(diǎn)問(wèn)題,論文根據(jù)Oracle數(shù)據(jù)挖掘流程,運(yùn)用Oracle Data Miner,闡述了如何將ODM增強(qiáng)的K-均值聚類(lèi)算法應(yīng)用于城市能源計(jì)量數(shù)據(jù)平臺(tái)。選定某公司的煤耗數(shù)據(jù)為研究對(duì)象,對(duì)增強(qiáng)的K-均值聚類(lèi)算法結(jié)果進(jìn)行分析,為行業(yè)發(fā)展提供科學(xué)決策。
關(guān)鍵詞Oracle數(shù)據(jù)挖掘; 增強(qiáng)的K-均值算法; Oracle Data Miner; 數(shù)據(jù)挖掘
Class NumberTP393
知識(shí)挖掘的主要步驟有:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示。人們常使用“數(shù)據(jù)挖掘”來(lái)表示整個(gè)知識(shí)挖掘過(guò)程[1~2]。國(guó)家城市能源計(jì)量中心(福建)把城市能源計(jì)量數(shù)據(jù)平臺(tái)的建設(shè)作為工作重點(diǎn)。該平臺(tái)利用能源數(shù)據(jù)采集終端對(duì)煤、水、油、氣、電等能耗數(shù)據(jù)進(jìn)行采集和科學(xué)計(jì)量。如何充分利用采集數(shù)據(jù)分析能耗情況,獲得數(shù)據(jù)信息價(jià)值,提高數(shù)據(jù)準(zhǔn)確性、降低虛假程度、精細(xì)管理,促進(jìn)節(jié)能降耗,縮小成本,提高企業(yè)競(jìng)爭(zhēng)力,為行業(yè)發(fā)展提供策略依據(jù),已成為亟待解決的問(wèn)題[3]。
2.1Oracle數(shù)據(jù)挖掘流程
Oracle數(shù)據(jù)挖掘(Oracle Data Mining,ODM)支持?jǐn)?shù)據(jù)挖掘的跨行業(yè)標(biāo)準(zhǔn)流程CRISP-DM(Cross Industry Standard Process for Data Mining),流程構(gòu)成如圖1所示[4~5]。
1) 確定應(yīng)用問(wèn)題:確定應(yīng)用目標(biāo),背景分析,確定數(shù)據(jù)挖掘目的、工具和技術(shù)。
2) 數(shù)據(jù)采集和準(zhǔn)備:利用能源數(shù)據(jù)采集終端進(jìn)行數(shù)據(jù)采集,并用相關(guān)技術(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,完成ODM模型應(yīng)用的數(shù)據(jù)準(zhǔn)備。
3) 建模和評(píng)估:通過(guò)不斷調(diào)試設(shè)置參數(shù)選項(xiàng),進(jìn)行過(guò)程控制,評(píng)估模型結(jié)果,測(cè)試數(shù)據(jù)挖掘目標(biāo)是否達(dá)到。
4) 部署分析:分析數(shù)據(jù)挖掘結(jié)果,做出部署計(jì)劃,做好監(jiān)測(cè)和維護(hù),回顧數(shù)據(jù)挖掘流程,預(yù)測(cè)下一步的數(shù)據(jù)挖掘工作[3~6]。
圖1 Oracle數(shù)據(jù)挖掘過(guò)程
2.2增強(qiáng)的K-均值算法
ODM增強(qiáng)的K-均值(Enhanced K-means,EKM)聚類(lèi)算法,是在保持傳統(tǒng)的K-均值算法優(yōu)點(diǎn)基礎(chǔ)上,用與層次有關(guān)的方式加以改進(jìn)[7~8],具有以下特點(diǎn):
1) 以分層方式構(gòu)建模型。采用二進(jìn)制構(gòu)建了一個(gè)自頂向下分裂模型,在結(jié)點(diǎn)形成簇后繼續(xù)分裂和細(xì)化。在層次結(jié)構(gòu)中以?xún)?nèi)部節(jié)點(diǎn)的質(zhì)心改變來(lái)反映樹(shù)的變化,返回整棵樹(shù)。
2) 建成的樹(shù)可形成平衡和不平衡兩種樹(shù)。分裂最大的結(jié)點(diǎn),增加樹(shù)的大小,直到達(dá)到所需葉簇的數(shù)量。
3) 提供聚類(lèi)數(shù)據(jù)的概率計(jì)分和分配。
4) 有一個(gè)內(nèi)部數(shù)據(jù)匯總的步驟,允許具有大量案例的數(shù)據(jù)集。
5) 返回時(shí),為每個(gè)簇返回一個(gè)質(zhì)心、直方圖、和規(guī)則。質(zhì)心報(bào)告了分類(lèi)屬性或數(shù)值屬性的均值和方差模式。
增強(qiáng)的K-均值的這種漸進(jìn)的方式,避免了需要建設(shè)多個(gè)K-均值模型,并提供始終優(yōu)于傳統(tǒng)的K-均值聚類(lèi)結(jié)果。
2.3Oracle數(shù)據(jù)挖掘工具
Oracle Data Miner是Oracle Data Mining提供的一個(gè)圖形用戶(hù)界面(GUI)[9~10]。生成的代碼只使用PL/SQL和SQL,不生成Java代碼,但是生成的PL/SQL包,可以從一個(gè)Java程序中使用JDBC調(diào)用[10~11]。Oracle Data Miner在Tools->Publish as Database Table,可發(fā)布以下數(shù)據(jù)挖掘結(jié)果:屬性重要性、關(guān)聯(lián)規(guī)則、應(yīng)用結(jié)果、決策樹(shù)規(guī)則、聚類(lèi)規(guī)則、分類(lèi)測(cè)試度量、表或視圖[3~12]。
3.1確定應(yīng)用問(wèn)題
富煤、少氣、貧油是我國(guó)的能源結(jié)構(gòu),煤炭是重要的一次能源[5]。所以煤炭行業(yè)要參與各種發(fā)展機(jī)制,發(fā)展煤炭能源策略,促進(jìn)并落實(shí)節(jié)能降耗,同時(shí)也要為以煤作為原料的企業(yè)減少成本,提高競(jìng)爭(zhēng)力。因此選定煤耗數(shù)據(jù)為增強(qiáng)的K-均值算法的研究對(duì)象[3]。
3.2數(shù)據(jù)采集和準(zhǔn)備
3.2.1數(shù)據(jù)集說(shuō)明
能源數(shù)據(jù)采集終端包括記錄ID、數(shù)據(jù)段信息FILEDINFOID、設(shè)備唯一標(biāo)識(shí)碼MN、采集時(shí)間DATATIME、通信代碼PARAMNO、通信字段CPNO、傳輸值VALUE等字段。數(shù)據(jù)集中通信代碼A01代表一線(xiàn)原煤1路、A02代表二線(xiàn)原煤1路、A03代表一線(xiàn)原煤2路、A04代表二線(xiàn)原煤2路[3]。
3.2.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過(guò)程的重要工作。數(shù)據(jù)預(yù)處理得精妙與否直接影響數(shù)據(jù)分析的成敗[1,3]。首先,通過(guò)SQL語(yǔ)句進(jìn)行數(shù)據(jù)清洗去除不規(guī)范數(shù)據(jù);然后,篩選出大于0的煤炭數(shù)據(jù),集成到統(tǒng)一格式的Excel表中;最后,用寫(xiě)字板把數(shù)據(jù)轉(zhuǎn)換成能導(dǎo)入Oracle Data Miner中的文本文件格式。
圖2 數(shù)據(jù)預(yù)處理后的部分?jǐn)?shù)據(jù)
經(jīng)分析和篩選,ID、DATATIME、PARAMNO、和VALUE四個(gè)字段會(huì)影響數(shù)據(jù)挖掘結(jié)果,完成應(yīng)用于Oracle Data Mining的增強(qiáng)的K-均值算法的數(shù)據(jù)準(zhǔn)備。部分?jǐn)?shù)據(jù)結(jié)果形式如圖2所示[3]。
3.3增強(qiáng)的K-均值算法應(yīng)用
1) 建立模型
增強(qiáng)的K-均值是以分層方式構(gòu)建模型的,最終形成平衡或不平衡二叉樹(shù)[1]。按Oracle Data Miner的既定模式建模,在Advanced Settings Dialog對(duì)話(huà)框中EMK算法的具體參數(shù)設(shè)置如下[12]:
· 樣本(Sample):樣本總數(shù)選擇Retrieve Case Count自行計(jì)算,樣本類(lèi)型為隨機(jī),創(chuàng)建為表格,樣本大小中事件和隨機(jī)迭代數(shù)按默認(rèn)設(shè)置,其中的Percentage of cases自動(dòng)計(jì)算為39.63%;
· 異常處理(Outlier Treatment):中斷點(diǎn)按標(biāo)準(zhǔn)誤差形式(i取3),并以邊界值進(jìn)行替代;
· 缺失值(Missing Values):均值代數(shù)值形式替,模式代替分類(lèi)形式;
· 正?;?Normalize):非稀疏屬性按最大最小的默認(rèn)形式,最大值為1,最小值為0,稀疏屬性按線(xiàn)性比例處理;
· 建模屬性(Build):葉簇?cái)?shù)量設(shè)置為4,按歐幾里德距離函數(shù)進(jìn)行聚類(lèi),分類(lèi)標(biāo)準(zhǔn)是按標(biāo)準(zhǔn)方差的形式,最小容錯(cuò)率為0.1,最大的迭代次數(shù)為2,最小支持度為0.1,分箱的數(shù)量為4,塊增長(zhǎng)為2。
增強(qiáng)的K-均值算法生成的層次二叉樹(shù)如圖3所示,其中葉結(jié)點(diǎn)(2、4、6、7)即為葉簇的數(shù)目。
圖3 增強(qiáng)的K-均值算法生成的層次二叉樹(shù)
從Detail按扭,即可查詢(xún)每個(gè)簇屬性的質(zhì)心報(bào)告和直方圖,圖4是其中一個(gè)簇的質(zhì)心和屬性直方圖,增強(qiáng)的K-均值所獲得的簇的質(zhì)心情況如表1所示。
圖4 增強(qiáng)的K-均值算法A04部分簇的質(zhì)心和屬性直方圖
PARAMNOVALUE(噸)A016.6409A029.8217A0311.4524A049.142
A01~A04分別代表四個(gè)采煤點(diǎn),因?yàn)榉植加诓煌牡胤剑孕枰ㄟ^(guò)四條線(xiàn)路進(jìn)行數(shù)據(jù)采集。由圖4直方圖示意每路數(shù)據(jù)的分布百分比和表1的質(zhì)心報(bào)告可知,應(yīng)用增強(qiáng)的K-均值算法可得A01-A04四條通信線(xiàn)路的質(zhì)心分別為:6.6409噸、9.8217噸、11.4524噸、9.142噸,即四條線(xiàn)路所采集的煤數(shù)據(jù)的大致消耗情況。
2) 生成規(guī)則
在生成的二叉樹(shù)中,每個(gè)葉簇都代表著一條判定規(guī)則。例如從根節(jié)點(diǎn)1到葉結(jié)點(diǎn)2對(duì)應(yīng)的規(guī)則如下:
IF PARAMNO in (A04) and VALUE >= 0.0039 and VALUE <= 19.065975 THEN Cluster equal 2 Confidence (%)=94.71873129862361 and Support =6331
規(guī)則解釋如下:如果PARAMNO為(A04)、VALUE值在(0.0039,19.065975)之間,那么它屬于簇2,置信度為94.72%,一共有6331支持?jǐn)?shù)。
EKM算法根據(jù)所設(shè)置的參數(shù),所獲得的規(guī)則置信度,即準(zhǔn)確率較高,一共生成了四條規(guī)則,另外三個(gè)葉結(jié)點(diǎn)4、6、7對(duì)應(yīng)的規(guī)則如下:
(1)IF PARAMNO in (A03) and VALUE >= 0.0039 and VALUE <= 25.42 THEN Cluster equal 4 Confidence (%)=100.0 and Support =6509。
(2)IF PARAMNO in (A02) and VALUE >= 0.0039 and VALUE <= 19.065975 THEN Cluster equal 6 Confidence (%)=98.36715282181359 and Support =6205。
(3)IF PARAMNO in (A01) and VALUE >= 0.0039 and VALUE <= 12.71195 THEN Cluster equal 7 Confidence (%)=91.1041339612768 and Support =5223。
3) 模型應(yīng)用
將生成質(zhì)心、屬性直方圖和規(guī)則的模型應(yīng)用于預(yù)處理后的煤耗數(shù)據(jù)。由算法原理可知,增強(qiáng)的K-均值算法所有組件有相同的方差,符合貝葉斯概率模型的數(shù)據(jù)點(diǎn)分配到相應(yīng)的簇中。圖5是模型應(yīng)用的部分結(jié)果。
圖5 增強(qiáng)的K-均值算法應(yīng)用結(jié)果
PROBABILITY即為概率模型,也相對(duì)于算法形成的葉簇所對(duì)應(yīng)的規(guī)則,由圖5的結(jié)果顯示可知,增強(qiáng)的K-均值算法的應(yīng)用效果好,準(zhǔn)確率高,在設(shè)置參數(shù)下應(yīng)用,概率均為1,說(shuō)明Oracle Data Mining數(shù)據(jù)挖掘工具聚類(lèi)算法在煤耗數(shù)據(jù)應(yīng)用分析確實(shí)可行。每個(gè)葉簇,所對(duì)應(yīng)的規(guī)則如下:
葉簇2:VALUE less Or Equal 0.75 AND VALUE greater Or Equal 0.0;
葉簇4:VALUE less Or Equal 1.0 AND VALUE greater Or Equal 0.0;
葉簇6:VALUE less Or Equal 0.75 AND VALUE greater Or Equal 0.0;
葉簇7:VALUE less Or Equal 0.5 AND VALUE greater Or Equal 0.0。
3.4應(yīng)用結(jié)果分析與說(shuō)明
從增強(qiáng)的K-均值算法模型的應(yīng)用表明,該數(shù)據(jù)挖掘算法在城市能源計(jì)量數(shù)據(jù)平臺(tái)的應(yīng)用確實(shí)可行,運(yùn)用所獲的數(shù)據(jù)挖掘結(jié)果有較高的準(zhǔn)確率。在數(shù)據(jù)形式的應(yīng)用中,增強(qiáng)的K-均值算法有較好的容忍度,對(duì)缺失值和“0”值較為敏感,處理不當(dāng)會(huì)影響數(shù)據(jù)挖掘結(jié)果。下面對(duì)增強(qiáng)的K-均值(EKM)算法挖掘出的煤耗數(shù)據(jù)知識(shí)進(jìn)行說(shuō)明[3]:
1) 從時(shí)間的記錄,如“12.03.11.00”、“12.03.11.23”說(shuō)明該公司的運(yùn)作是24小時(shí)流水線(xiàn)作業(yè)。從能源數(shù)據(jù)采集終端的記錄可知,終端對(duì)數(shù)據(jù)的采集穩(wěn)定。
2) 終端采集的煤耗數(shù)據(jù)中有諸如0.0000等異常值,A01~A04四個(gè)采集點(diǎn)所采集的煤耗數(shù)據(jù)情況有差異。
3) 該公司屬于煤耗萬(wàn)噸的企業(yè),需要改進(jìn)的是煤耗熱量的外排處理,確實(shí)落實(shí)節(jié)能減排工作。
結(jié)合著能源的節(jié)能降耗的熱點(diǎn)問(wèn)題,將數(shù)據(jù)挖掘技術(shù)應(yīng)用在城市能源計(jì)量平臺(tái)中具有較高的研究?jī)r(jià)值和實(shí)踐指導(dǎo)意義。節(jié)能減耗工作的有效落實(shí)任重道遠(yuǎn),希望增強(qiáng)的K-均值算法在城市能源計(jì)量數(shù)據(jù)平臺(tái)應(yīng)用的數(shù)據(jù)挖掘結(jié)果,能為煤炭行業(yè)的發(fā)展提供參考意見(jiàn),也為其他能源行業(yè)帶來(lái)借鑒依據(jù)。
參 考 文 獻(xiàn)
[1] 馮寵亮.數(shù)據(jù)挖掘中若干關(guān)鍵算法的研究[D].西安:西安電子科技大學(xué),2010.
FENG Hongliang. Some Critical Algorithms Study of Data Mining[D]. Xi’an: Xidian University,2010.
[2] 蔡少偉.數(shù)據(jù)挖掘在入侵檢測(cè)中的應(yīng)用研究[D].廣州:華南理工大學(xué),2010.
CAI Shaowei. Application Research on Data Mining to Intrusion Detection[D]. Guangzhou: South China University of Technology,2010.
[3] 鄭細(xì)端.Oracle數(shù)據(jù)挖掘在城市能源計(jì)量數(shù)據(jù)平臺(tái)的應(yīng)用[J].計(jì)算機(jī)與數(shù)字工程,2014,32(7):1299-1302.ZHENG Xiduan. Application of Oracl Data Mining in the Urban Energy Measurement Data Platform[J]. Computer & Digital Engineering,2014,42(7):1299-1302.
[4] 石磊.數(shù)據(jù)挖掘在金融業(yè)中的應(yīng)用[D].上海:上海交通大學(xué),2011.
SHI Lei. Data Mining in Finance by Discussing IPO Underpricing[D]. Shanghai: Shanghai Jiaotong University,2011.
[5] 白冬艷.數(shù)據(jù)挖掘在煤炭綜合統(tǒng)計(jì)系統(tǒng)的應(yīng)用研究[D].邯鄲:河北工程大學(xué),2010.
BAI Dongyan. Application and Research of Data Mining in Comprehensive Statistic System for Coal Enterprise[D]. Handan: Hebei University of Engineering,2010.
[6] 張虹波,匡銀虎.一種應(yīng)用ODM的人侵檢測(cè)原型系統(tǒng)[J].計(jì)算機(jī)與現(xiàn)代化,2009(9):92-95.
ZHANG Hongbo, KUANG Yinhu. Model of Instrsion Decection on System Based on ODM[J]. Computer and Modernization,2009(9):92-95.
[7] 左國(guó)才,楊金民.K-means算法在電信CRM客戶(hù)分類(lèi)中的應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2010,19(2):155-159.
ZUO Guocai, YANG Jinmin. K-means Algorithun for CRM Customers in the Telecommunications Classification[J]. Computer Systems & Applications,2010,19(2):155-159.
[8] 吳湘寧,胡炫,胡光道.Oracle中使用支持向量機(jī)的時(shí)間序列預(yù)測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(14):121-125.
WU Xiangning, HU Xian, HU Guangdao. Applying Support Vector Machines to Time Series Prediction in Oracle[J]. Computer Engineering and Applications,2013,49(14):121-125.
[9] 司桂琴.基于GIS數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘研究[D].烏魯木齊:新疆大學(xué),2011.
SI Guiqin. Research of Data Mining Based on GIS Database[D]. Urumqi: Xinjiang University,2011.
[10] 王春華.基于互聯(lián)網(wǎng)的人力資源供求信息挖掘分析系統(tǒng)研究與實(shí)現(xiàn)[D].濟(jì)南:山東大學(xué),2011.
WANG Chuahua. Based on the Internet Human resources Supply and Demang Information Minging Analysis System Research and Implemetation[D]. Jinan: Shandong University,2011.
[11] 張濤.ODM數(shù)據(jù)挖掘技術(shù)在塔河數(shù)字營(yíng)林中的探索與研究[D].哈爾濱:東北林業(yè)大學(xué),2007.
ZHANG Tao. Exporation and Research of ODM Data Mining to Forest Management in Tahe[D]. Harbin: Northeast Forestry Universiy,2007.
[12] Oracle 10g Release 2 Data Mining Tutorial April 2006 Copyright, Oracle. All rights reserved,2006.
收稿日期:2015年10月9日,修回日期:2015年11月25日
作者簡(jiǎn)介:鄭細(xì)端,女,碩士研究生,助教,研究方向:系統(tǒng)工程、管理科學(xué)、數(shù)據(jù)挖掘、計(jì)算機(jī)審計(jì)、計(jì)算機(jī)過(guò)程控制系統(tǒng)等。
中圖分類(lèi)號(hào)TP393
DOI:10.3969/j.issn.1672-9722.2016.04.041
Application of Enhanced K-means Algorithm in Urban Energy Measurement Data Platform
ZHENG Xiduan
(School of Management, Fujian University of Technology, Fuzhou350118)
AbstractSaving energy and reducing consumption of energy have always been a hot issue. According to oracle data mining process. The application of Enhanced K-means algorithm in the urban energy measurement data platform is described by using data mining tools Oracle Data Miner(ODM). A company’s coal consumption in Fujian is selected as the research object. Scientific decision will be provided to coal industry by analyzing the results of the Enhanced K-means clustering algorithm.
Key WordsOracle data mining, enhanced K-means algorithm, Oracle Data Miner, data mining