• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于云計(jì)算和改進(jìn)K-means算法的海量用電數(shù)據(jù)分析方法

      2018-03-20 00:43:04張承暢張華譽(yù)羅建昌
      計(jì)算機(jī)應(yīng)用 2018年1期
      關(guān)鍵詞:海量用電聚類

      張承暢,張華譽(yù),羅建昌,何 豐

      (1.重慶郵電大學(xué) 光電工程學(xué)院,重慶 400065; 2.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065)(*通信作者電子郵箱15923180953@139.com)

      0 引言

      近年來,隨著化石能源的日益枯竭,社會(huì)對(duì)環(huán)境保護(hù)、節(jié)能減排和可持續(xù)發(fā)展的要求日益提高,未來的電網(wǎng)必須是“綠色”的電網(wǎng),未來的小區(qū)也必須是“綠色”的小區(qū)。在此背景下,居民用電行為逐步智能化,電網(wǎng)和用戶實(shí)現(xiàn)用電信息的雙向交互成為必然趨勢(shì)。由于智能小區(qū)在不斷建設(shè)和發(fā)展過程中積累了大量的基礎(chǔ)用電數(shù)據(jù),這些數(shù)據(jù)不僅具有海量、高頻、分散等特點(diǎn),而且數(shù)據(jù)之間存在關(guān)聯(lián)性和相似性[1-2]。對(duì)智能小區(qū)用戶的用電數(shù)據(jù)采用大數(shù)據(jù)分析方法進(jìn)行挖掘并研究用戶類型,可以幫助電網(wǎng)公司了解用戶消費(fèi)習(xí)慣,為用戶提供個(gè)性化、差異化的服務(wù)需求,從而幫助電網(wǎng)公司進(jìn)一步拓展服務(wù)的深度和廣度,為未來的電力需求響應(yīng)政策的制定提供數(shù)據(jù)支撐。同時(shí),電網(wǎng)公司將小區(qū)用電數(shù)據(jù)及居民用電情況及時(shí)反饋給用戶,讓用戶清楚自身用電信息,規(guī)范用電行為,挖掘節(jié)能潛力,為低碳環(huán)保作貢獻(xiàn)[3-5]。

      聚類分析[6]是數(shù)據(jù)挖掘領(lǐng)域的一種經(jīng)典方法,能夠以較高的效率挖掘出海量數(shù)據(jù)中的隱含信息。聚類分析方法也逐步應(yīng)用到智能電網(wǎng)領(lǐng)域。文獻(xiàn)[7]提出了一種應(yīng)用于電力系統(tǒng)短期負(fù)荷預(yù)測(cè)方法,采用雙向比較法對(duì)電力數(shù)據(jù)預(yù)處理后,并用K-means算法對(duì)數(shù)據(jù)進(jìn)行聚類分析,使具有相似特征屬性的數(shù)據(jù)歸為一類,達(dá)到降低數(shù)據(jù)維度的目的。文獻(xiàn)[8]中提出基于改進(jìn)K-means的電力負(fù)荷曲線聚類方法,采用了基于核方法的聚類算法實(shí)現(xiàn)負(fù)荷曲線的聚類分析,提高了聚類的準(zhǔn)確率。文獻(xiàn)[9]提出了一種基于K-means算法臺(tái)區(qū)線損率計(jì)算方法,通過K-means算法對(duì)樣本數(shù)據(jù)的聚類,解決數(shù)據(jù)分散的問題,從而提高了線損率計(jì)算的準(zhǔn)確性。文獻(xiàn)[10]中提出了一種基于優(yōu)化K-means算法的電力客戶劃分方法,采用一種將Canopy算法與K-means算法相結(jié)合的方法,解決傳統(tǒng)K-means的初始中心點(diǎn)選擇的問題,提高了聚類的穩(wěn)定性。然而,以上的聚類方法面對(duì)海量智能用電數(shù)據(jù)時(shí),存在效率低、計(jì)算量大的瓶頸,無法對(duì)海量數(shù)據(jù)進(jìn)行高效挖掘。

      圖1 基于云計(jì)算的海量用電數(shù)據(jù)分析模型架構(gòu)

      針對(duì)智能電網(wǎng)中海量數(shù)據(jù)集的存儲(chǔ)與計(jì)算問題,相關(guān)學(xué)者利用云計(jì)算技術(shù)進(jìn)行了研究與探索,并且取得了一定的成果。文獻(xiàn)[11]提出了基于聚類算法和云計(jì)算的居民用電行為分析模型,通過K-means算法將用電行為相似的用戶進(jìn)行聚類,并分析出用戶的特征,同時(shí)基于云計(jì)算技術(shù)實(shí)現(xiàn)算法的并行化,提高了聚類的效率,然而針對(duì)K-means算法中初始中心和K值的確定問題并沒有給出解決方法。文獻(xiàn)[12]中提出了一種基于云計(jì)算的智能電網(wǎng)數(shù)據(jù)挖掘的方法,文中針對(duì)傳統(tǒng)K-means算法存在的初始中心和K值問題,采用Canopy算法對(duì)數(shù)據(jù)進(jìn)行預(yù)聚類,并將結(jié)果作為K-means的輸入?yún)?shù),但Canopy算法中存在閾值T1和T2難確定的問題,并且閾值的選擇對(duì)聚類結(jié)果的影響很大。

      本文針對(duì)智能電網(wǎng)中海量用電數(shù)據(jù)的處理,提出了一種基于云計(jì)算和改進(jìn)K-means算法的用電數(shù)據(jù)分析方法。通過改進(jìn)的K-means算法,提高了算法聚類的準(zhǔn)確度,并基于MapReduce模型實(shí)現(xiàn)其并行化,提高了算法的效率。文中以海量的用電數(shù)據(jù)為基礎(chǔ),通過改進(jìn)的算法挖掘出數(shù)據(jù)中潛在的價(jià)值信息,實(shí)現(xiàn)用戶用電行為的分析,從而為電網(wǎng)公司制定最優(yōu)的用電策略提供了重要的依據(jù)。

      1 海量用電數(shù)據(jù)分析模型架構(gòu)

      本文采用云計(jì)算主/從(Master/Slave, M/S)架構(gòu)實(shí)現(xiàn)海量用戶用電數(shù)據(jù)的存儲(chǔ)和分布式計(jì)算[13],通過數(shù)據(jù)挖掘算法對(duì)數(shù)據(jù)進(jìn)行分析,提取數(shù)據(jù)中隱含的有價(jià)值的信息。圖1是基于云計(jì)算的海量用電數(shù)據(jù)分析模型架構(gòu)。

      基于云計(jì)算的海量用電數(shù)據(jù)分析模型架構(gòu)主要由云計(jì)算主服務(wù)器(Master)和云計(jì)算從服務(wù)器(Slave)組成。數(shù)據(jù)源端將采集到的用電數(shù)據(jù)傳到云計(jì)算主服務(wù)器(Master)進(jìn)行數(shù)據(jù)管理和計(jì)算任務(wù)。數(shù)據(jù)管理層負(fù)責(zé)對(duì)源數(shù)據(jù)進(jìn)行業(yè)務(wù)模型轉(zhuǎn)換和數(shù)據(jù)抽取,建立用電數(shù)據(jù)維度模型;數(shù)據(jù)計(jì)算層負(fù)責(zé)對(duì)歷史用電數(shù)據(jù)的挖掘分析和業(yè)務(wù)趨勢(shì)預(yù)測(cè),建立數(shù)據(jù)挖掘模型。云計(jì)算從服務(wù)器(Slave)根據(jù)主服務(wù)器的任務(wù)管理機(jī)制,主要負(fù)責(zé)數(shù)據(jù)存儲(chǔ)和計(jì)算任務(wù)的執(zhí)行。主服務(wù)器(Master)將接收到的用電數(shù)據(jù)經(jīng)過處理后分配到各個(gè)從服務(wù)器(Slave)分布式存儲(chǔ),同時(shí)管理相應(yīng)任務(wù)的執(zhí)行,實(shí)現(xiàn)海量用電數(shù)據(jù)的分析,快速、高效地獲取數(shù)據(jù)中有價(jià)值的信息。

      2 海量用電數(shù)據(jù)分析方法

      2.1 Hadoop云計(jì)算平臺(tái)

      Hadoop是一個(gè)使用MapReduce編程模型對(duì)大數(shù)據(jù)集進(jìn)行分布式存儲(chǔ)和處理的開源軟件架構(gòu),它是一個(gè)更容易開發(fā)和并行處理大數(shù)據(jù)集的云計(jì)算平臺(tái),具有擴(kuò)容能力強(qiáng)、成本低、效率高以及高可靠性等優(yōu)點(diǎn)。Hadoop平臺(tái)由以下兩個(gè)部分組成:Hadoop分布式文件存儲(chǔ)系統(tǒng)和MapReduce計(jì)算模型[14]。Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)采用的是主從架構(gòu),一個(gè)HDFS集群包含一個(gè)管理節(jié)點(diǎn)(NameNode)和若干數(shù)據(jù)節(jié)點(diǎn)(DataNode),每個(gè)節(jié)點(diǎn)相當(dāng)于一臺(tái)計(jì)算機(jī)(Personal Computer,PC)。而MapReduce則完成數(shù)據(jù)的計(jì)算和高效分析任務(wù)。

      2.2 改進(jìn)的K-means算法

      2.2.1 傳統(tǒng)K-means算法

      K-means是一種基于劃分的聚類方法[15],具有簡(jiǎn)單、高效和可擴(kuò)展性強(qiáng)的特點(diǎn),在各個(gè)領(lǐng)域被廣泛應(yīng)用。K-means算法通常采用兩樣本間的歐氏距離作為衡量相似性的指標(biāo),其基本思想是:在數(shù)據(jù)集D中,隨機(jī)選取K個(gè)初始聚類中心,計(jì)算余下樣本數(shù)據(jù)到初始中心的歐氏距離,根據(jù)最小距離原則將各個(gè)樣本歸入到相應(yīng)的聚類中心所在的類,然后計(jì)算每個(gè)類的所有樣本的平均距離,并更新為該類的新的聚類中心,直到誤差平方和函數(shù)穩(wěn)定在最小值。

      設(shè)數(shù)據(jù)集集合D={x1,x2,…,xn},xi=(xi1,xi2,…,xir),xj=(xj1,xj2,…,xjr),則樣本xi與樣本xj之間的歐氏距離為:

      d(xi,xj)=

      (1)

      誤差平方和函數(shù)如下:

      (2)

      其中:K為聚類類別數(shù),ri為第i類中樣本的個(gè)數(shù),ni是第i類中樣本的平均值。

      2.2.2 對(duì)傳統(tǒng)K-means算法的改進(jìn)

      傳統(tǒng)K-means聚類算法中,是隨機(jī)選取初始聚類中心,而這種隨機(jī)性會(huì)對(duì)結(jié)果造成很大的影響。為了解決最佳K值的確定和初始聚類中心選擇的問題,提出了一種加入密度參數(shù)的改進(jìn)算法。改進(jìn)算法將數(shù)據(jù)集的密度考慮到初始中心點(diǎn)的選取上,在樣本密度更大的數(shù)據(jù)集合中選取聚類中心,相比傳統(tǒng)K-means算法隨機(jī)選取聚類中心的方法,可減少這種隨機(jī)性對(duì)聚類結(jié)果帶來的影響。

      按照式(1)計(jì)算兩個(gè)樣本之間的歐氏距離d(xi,xj);

      按照式(3)計(jì)算數(shù)據(jù)集D中所有樣本間的平均距離MeanDis(D):

      (3)

      按照式(4)計(jì)算數(shù)據(jù)集中樣本i的密度:

      (4)

      由式(4)可知,ρ(i)為滿足與樣本i的距離小于MeanDis(D)的樣本元素?cái)?shù)目。所有滿足條件的樣本元素構(gòu)成一個(gè)簇,定義簇內(nèi)樣本的平均距離為:

      (5)

      (6)

      定義數(shù)據(jù)集的樣本密度ρ(i)、簇內(nèi)樣本平均距離的倒數(shù)1/a(i)和簇間距離s(i)的乘積為權(quán)值積,即:

      (7)

      傳統(tǒng)K-means算法是隨機(jī)選擇初始聚類中心,這種隨機(jī)性會(huì)對(duì)聚類結(jié)果造成很大的影響。本文提出樣本密度最大權(quán)值法,可以降低這種隨機(jī)性對(duì)聚類結(jié)果造成的不穩(wěn)定,同時(shí)提升準(zhǔn)確率。最大權(quán)值積法介紹如下。

      首先根據(jù)式(4)計(jì)算樣本元素的密度,找出密度值最大元素作為第一個(gè)聚類中心,將所有滿足式(3)中樣本與初始聚類中心的距離小于MeanDis(D)條件的樣本元素加入當(dāng)前簇,同時(shí)將這些樣本點(diǎn)從集合D中去除;按照式(4)~(7)計(jì)算余下元素權(quán)值積w,找出最大值,并選取對(duì)應(yīng)樣本元素作為第二個(gè)聚類中心,重復(fù)進(jìn)行,直到集合D為空集。其中,ρ(i)越大,代表樣本點(diǎn)i周圍元素點(diǎn)越多,元素越集中;a(i)越小,1/a(i)越大,表示簇中元素越密集;s(i)越大,說明兩簇之間距離越遠(yuǎn),其相異度就越大。因而,通過最大權(quán)值法可以求出最佳聚類中心,同時(shí),密度參數(shù)的引入,使得初始中心的選取更具有客觀性。

      2.3 基于云計(jì)算和改進(jìn)K-means算法的海量用電數(shù)據(jù)分析

      2.3.1 用電數(shù)據(jù)預(yù)處理

      在海量的居民用電數(shù)據(jù)挖掘中,為了提高算法的執(zhí)行效率,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,如圖2所示。

      圖2 數(shù)據(jù)預(yù)處理步驟

      Fig. 2 Procedure of data preprocessing

      1)數(shù)據(jù)過濾。

      在原始居民用電數(shù)據(jù)中,可能存在某個(gè)用戶某一時(shí)刻的用電信息數(shù)據(jù)被重復(fù)記錄,或者被分成多條用電信息進(jìn)行記錄。針對(duì)重復(fù)記錄的數(shù)據(jù)采用直接過濾刪除的方法,而對(duì)于后者,可以提取出用戶編號(hào)后,將用電信息進(jìn)行疊加合并,整合成一條數(shù)據(jù)進(jìn)行記錄。此外,用戶的某一條數(shù)據(jù)也可能存在若干缺失值。針對(duì)這類情況,可以事先設(shè)定一個(gè)缺失值個(gè)數(shù)閾值,當(dāng)超過閾值時(shí),直接把該條記錄刪除;反之,則只過濾掉該缺失值。

      2)數(shù)據(jù)填充。

      針對(duì)缺失值采取的處理方法是:選取缺失值的相鄰兩負(fù)荷值的平均值作為相應(yīng)的填充值。若鄰值也為空值,則相應(yīng)向前或向后查找下一個(gè)非空負(fù)荷值,若不存在非空負(fù)荷值,則以0值填充。

      3)特征提取。

      在負(fù)荷數(shù)據(jù)中,存在一些電壓值、電流值以及一些名稱和時(shí)間值,這些數(shù)據(jù)對(duì)于用電分析作用不大,因而可以不予考慮。本文選用的特征包括:峰時(shí)耗電率、負(fù)荷率、谷電負(fù)荷系數(shù)以及平段用電量百分比。

      ①峰時(shí)耗電率。用戶在高峰時(shí)段的用電量與總的用電量之間的比值。

      ②負(fù)荷率。用戶在一定時(shí)間端內(nèi)的平均負(fù)荷與最大負(fù)荷之間的比值。

      ③谷電負(fù)荷系數(shù)。用戶在低谷時(shí)段的用電量與總的用電量之間的比值。

      ④平段用電量百分比。除去高峰和低谷時(shí)段之后的用電量與總的用電量之間的比值。

      提取以上用電特征,對(duì)用戶對(duì)象進(jìn)行評(píng)價(jià)描述,并將每一個(gè)對(duì)象寫成一個(gè)矩陣:X=[x1x2…xp]。

      4)特征規(guī)范化。

      在原始數(shù)據(jù)中,提取相關(guān)用戶特征后,不同特征值可能具有不同的值域。值域較大的特征值對(duì)整體矩陣的影響將大于值域較小的特征值,從而削弱了數(shù)值小的特征的作用,因此需要對(duì)特征進(jìn)行規(guī)范化處理。

      文中采用的是區(qū)間規(guī)范化方法對(duì)特征值矩陣X=[x1x2…xp]進(jìn)行處理,計(jì)算出特征矩陣中特征值的最大值max(xi)和最小值min(xi),根據(jù)式(8)將各個(gè)特征值值域規(guī)范化到區(qū)間[0,1],得到一組規(guī)范化的矩陣V=[v1v2…vp]。

      vi=[xi-min(xi)]/[max(xi)-min(xi)]

      (8)

      其中vi∈[0,1],i=1,2,…,p。

      采用規(guī)范化處理后得到矩陣V=[v1v2…vp],最終基于該矩陣完成居民用電數(shù)據(jù)集的聚類任務(wù)。

      2.3.2 基于改進(jìn)K-means算法的用電數(shù)據(jù)并行挖掘

      用電信息數(shù)據(jù)集按行存儲(chǔ)在Hadoop分布式文件系統(tǒng)中,并將數(shù)據(jù)集分成各個(gè)切片形成子數(shù)據(jù)集,MapReduce計(jì)算架構(gòu)讀取每一個(gè)切片數(shù)據(jù)完成計(jì)算任務(wù)。首先通過并行模型計(jì)算出K-means算法的輸入?yún)?shù):初始聚類中心和最優(yōu)K值,然后將計(jì)算任務(wù)再分配給Map任務(wù)節(jié)點(diǎn),完成數(shù)據(jù)集的并行聚類任務(wù)。

      并行K-means的MapReduce計(jì)算任務(wù)執(zhí)行步驟如下。

      步驟1 對(duì)存儲(chǔ)在分布式文件系統(tǒng)(HDFS)中的智能用電數(shù)據(jù)集進(jìn)行初始化操作,產(chǎn)生〈Key,Value〉鍵值對(duì),其中Key定義為用戶編號(hào)UserID,Value定義為用戶用電信息UserInfo,即〈UserID,UserInfo〉。

      步驟2 Map任務(wù)節(jié)點(diǎn)分別計(jì)算每一個(gè)數(shù)據(jù)塊中各個(gè)樣本密度,并根據(jù)最大權(quán)值積法得到若干個(gè)簇集,計(jì)算出每一個(gè)簇集元素的均值作為該簇的鍵值Key,Reduce節(jié)點(diǎn)根據(jù)鍵值將具有相同Key值的簇集進(jìn)行數(shù)據(jù)合并。

      步驟3 計(jì)算出每一個(gè)簇集數(shù)據(jù)的均值作為該簇的聚類中心,并將Value更新為該簇的中心向量,同時(shí)將Key值依次進(jìn)行編號(hào),即為該簇的簇號(hào)。

      步驟4 通過Map函數(shù)計(jì)算Value中特征向量與K個(gè)初始聚類中心的歐氏距離,根據(jù)距離最小原則,找出其距離最小對(duì)應(yīng)簇的簇號(hào),從而得到更新的鍵值對(duì)〈Key1,Value1〉,其中Key1為距離最近簇的簇號(hào),Value1為用電信息UserInfo。

      步驟5 為了減少計(jì)算過程中的I/O通信代價(jià),Map階段之后,需要對(duì)每個(gè)分區(qū)具有相同Key值的信息進(jìn)行合并merge。在此過程中,MapReduce模型對(duì)其合并后將得到新的鍵值對(duì)〈Key2,List1〈Info〉〉,其中Info={UserInfo1,UserInfo2,…,UserInfom},m為歸入同一簇集內(nèi)的用戶數(shù),Key2為該簇的簇號(hào)。

      步驟6 定義分區(qū)函數(shù)Partition,將〈Key2,List1〈Info〉〉鍵值對(duì)信息按照Key2進(jìn)行哈希分區(qū),劃分成r個(gè)不同的分區(qū),并將每個(gè)分區(qū)送到相應(yīng)的Reduce函數(shù)。Reduce函數(shù)將每個(gè)分區(qū)中具有相同Key值的信息進(jìn)行最后的合并,得到鍵值結(jié)果〈Key3,List〈List1,List2,…,Lists〉〉,同時(shí)計(jì)算List中各個(gè)信息的累加均值作為更新為對(duì)應(yīng)簇的中心。

      步驟7 重復(fù)步驟4到步驟6,直到最終聚類結(jié)果的誤差平方和達(dá)到穩(wěn)定狀態(tài),并輸出最終K個(gè)簇的相應(yīng)信息。

      改進(jìn)的K-means并行數(shù)據(jù)挖掘算法流程如圖3所示。

      圖3 改進(jìn)的K-means并行數(shù)據(jù)挖掘算法流程

      3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

      3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)來源

      實(shí)驗(yàn)環(huán)境:實(shí)驗(yàn)使用Ubuntu12.04作為系統(tǒng)環(huán)境,搭建了基于Hadoop 1.0.4的6個(gè)節(jié)點(diǎn)的集群,包括1個(gè)Master節(jié)點(diǎn)和5個(gè)Slave節(jié)點(diǎn)。

      數(shù)據(jù)來源:

      1)實(shí)驗(yàn)一的數(shù)據(jù)來源于UCI機(jī)器學(xué)習(xí)網(wǎng)站,選用6類常用的測(cè)試數(shù)據(jù)集:Soybean-small、Iris、Wine、Segmentation、Ionoshpere、Pima Indians Diabetes。數(shù)據(jù)集的相關(guān)參數(shù)如表1所示。

      2)實(shí)驗(yàn)二和實(shí)驗(yàn)三數(shù)據(jù)來源于北京某小區(qū)2010年4月至2010年9月400戶居民的用電信息。用電信息包含:用戶編號(hào)、用電屬性、行業(yè)分類、電價(jià)、用電量以及用電時(shí)間等。每戶居民用電情況每15 min按用電時(shí)間段被記錄成一條數(shù)據(jù),并按行存儲(chǔ)在文件中,每一行數(shù)據(jù)占10 B。原始用電數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理得到規(guī)范化的特征矩陣,包括用戶編號(hào)、峰時(shí)耗電率、負(fù)荷率、谷電負(fù)荷系數(shù)以及平段用電量百分比,以此建立用戶用電分析的數(shù)據(jù)維度模型。

      表1 UCI數(shù)據(jù)集的相關(guān)參數(shù)

      3.2 實(shí)驗(yàn)結(jié)果分析

      本文基于Hadoop平臺(tái)和改進(jìn)K-means算法的居民用電數(shù)據(jù)的分析,完成以下幾個(gè)實(shí)驗(yàn)。

      1)實(shí)驗(yàn)一。為了驗(yàn)證改進(jìn)的K-means聚類算法的有效性,選用了UCI網(wǎng)站的部分?jǐn)?shù)據(jù)集,分別采用傳統(tǒng)K-means、文獻(xiàn)[12]中的算法以及本文改進(jìn)的算法進(jìn)行對(duì)比實(shí)驗(yàn)。聚類結(jié)果通過以下參數(shù)進(jìn)行衡量比較:Adjust Rand Index、聚類準(zhǔn)確率。

      圖4中的聚類結(jié)果的參數(shù)比較表明:本文改進(jìn)算法的Adjust Rand Index參數(shù)是最優(yōu)的,準(zhǔn)確率也最高,且聚類準(zhǔn)確率比傳統(tǒng)K-means算法平均高31個(gè)百分點(diǎn),比文獻(xiàn)[12]中算法高18個(gè)百分點(diǎn)。

      圖4 不同算法對(duì)UCI數(shù)據(jù)集的聚類結(jié)果

      2)實(shí)驗(yàn)二。選用不同大小的居民用電數(shù)據(jù)量,分別進(jìn)行單機(jī)模型下的數(shù)據(jù)聚類和MapReduce并行模型下的數(shù)據(jù)聚類實(shí)驗(yàn),并計(jì)算出完成聚類的時(shí)間。MapReduce并行數(shù)據(jù)聚類模型下設(shè)置1個(gè)從節(jié)點(diǎn)、2個(gè)從節(jié)點(diǎn)和4個(gè)從節(jié)點(diǎn)進(jìn)行對(duì)比實(shí)驗(yàn)。

      單機(jī)模型和MapReduce并行模型下的數(shù)據(jù)聚類耗時(shí)對(duì)比如圖5所示。

      圖5中的聚類時(shí)間對(duì)比曲線表明:當(dāng)處理小規(guī)模數(shù)據(jù)時(shí)(5 000 000、10 000 000),MapReduce模型下多節(jié)點(diǎn)和單機(jī)模型相比,聚類耗時(shí)沒有明顯提升。由于在此時(shí)的并行模型下,K-means算法聚類時(shí)間較短,主要耗時(shí)集中在并行節(jié)點(diǎn)的任務(wù)啟動(dòng)和任務(wù)分配上,因而并沒有體現(xiàn)出并行處理的高效性;當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模時(shí)(數(shù)據(jù)量大于100 000 000),MapReduce模型下多節(jié)點(diǎn)處理數(shù)據(jù)是的聚類耗時(shí)要明顯優(yōu)于單機(jī)模型,并且MapReduce模型下節(jié)點(diǎn)數(shù)越多,其聚類效率越高,說明提出的并行挖掘算法能夠高效處理海量用電數(shù)據(jù)。

      圖5 單機(jī)模型和MapReduce并行模型下的數(shù)據(jù)聚類耗時(shí)對(duì)比

      3)實(shí)驗(yàn)三?;贖adoop平臺(tái)和改進(jìn)的K-means算法,根據(jù)用電信息完成用戶的聚類任務(wù)。根據(jù)數(shù)據(jù)預(yù)處理后得到的用戶用電信息特征向量,將用電信息相似的用戶進(jìn)行聚類,同時(shí)繪出此類用戶的用電負(fù)荷曲線。

      每一類用戶的用電負(fù)荷曲線如圖6所示。

      圖6 各類用戶用電負(fù)荷曲線

      由圖6可知:用戶類型最終分為五類,每一類用戶類型具有不同的行為特征。針對(duì)一類用戶:全時(shí)段用電量很低,其耗電來源于線損,主要為閑置房居民用戶。二類用戶:全天有兩個(gè)高峰用電時(shí)段,分別在7:00以及20:00,主要為上班族用戶。三類用戶:全天有三個(gè)高峰時(shí)段,分別在7:00、12:00以及20:00,主要為退休老人族用戶。四類用戶:與三類用戶相似,具有三個(gè)高峰時(shí)段,但峰時(shí)用電量要高于三類,主要為二類與三類的混合用戶,即上班族+退休老人族用戶。五類用戶:全時(shí)段處于高用電量狀態(tài),主要為商業(yè)用戶。

      根據(jù)圖5中分析出的用戶類型,未來電網(wǎng)公司可以針對(duì)不同類型的用戶制定相應(yīng)的用電策略,指導(dǎo)居民科學(xué)合理用電。同時(shí),用戶的用電行為分析對(duì)于電網(wǎng)公司制定合理的階梯電價(jià)也具有一定的指導(dǎo)意義。

      4 結(jié)語

      本文以海量用電數(shù)據(jù)為基礎(chǔ),研究了居民用電數(shù)據(jù)分析模型架構(gòu),并提出了一種基于云計(jì)算和改進(jìn)K-means算法的用電數(shù)據(jù)分析方法。具體包括以下幾個(gè)方面的工作:

      1)傳統(tǒng)K-means聚類算法中存在初始聚類中心和最優(yōu)K值難確定的問題。本文提出了一種加入密度參數(shù)的改進(jìn)方法,在選取初始聚類中心時(shí)考慮數(shù)據(jù)集中樣本密度,定義了樣本密度、簇內(nèi)樣本平均距離的倒數(shù)以及簇間距離三者的乘積為權(quán)值積,通過最大權(quán)值積來依次確定初始中心和K值,提高了聚類的準(zhǔn)確率。

      2)提出了一種基于云計(jì)算和改進(jìn)K-means算法的用電數(shù)據(jù)分析方法。首先通過對(duì)用戶用電數(shù)據(jù)的預(yù)處理,提取用電數(shù)據(jù)中各個(gè)用戶的峰時(shí)耗電率、負(fù)荷率、谷電負(fù)荷系數(shù)以及平段用電量百分比等特征,建立數(shù)據(jù)向量維度;然后用改進(jìn)的K-means算法對(duì)數(shù)據(jù)進(jìn)行聚類分析,并以MapReduce模型實(shí)現(xiàn)算法的并行化;最后根據(jù)聚類結(jié)果對(duì)用戶的用電行為進(jìn)行分析,提取每一類用戶的特征。實(shí)驗(yàn)結(jié)果表明,提出的分析方法穩(wěn)定、高效、可靠。

      通過提出的一種基于云計(jì)算和改進(jìn)K-means算法的海量用電數(shù)據(jù)分析方法,挖掘出用電數(shù)據(jù)中有價(jià)值信息,分析用戶用電行為,對(duì)電力調(diào)度以及電價(jià)機(jī)制的制定具有重要的指導(dǎo)性意義。下一步,結(jié)合分析模型的用戶聚類結(jié)果,針對(duì)每一類用戶進(jìn)行電力短期負(fù)荷預(yù)測(cè)方面的研究。

      References)

      [1] 張東霞,苗新,劉麗平,等.智能電網(wǎng)大數(shù)據(jù)技術(shù)發(fā)展研究[J].中國(guó)電機(jī)工程學(xué)報(bào),2015,35(1):2-12.(ZHANG D X, MIAO X, LIU L P, et al. Research on development strategy for smart grid big data [J]. Proceedings of the CSEE, 2015, 35(1): 2-12.)

      [2] 彭小圣,鄧迪元,程時(shí)杰,等.面向智能電網(wǎng)應(yīng)用的電力大數(shù)據(jù)關(guān)鍵技術(shù)[J].中國(guó)電機(jī)工程學(xué)報(bào),2015,35(3):503-511.(PENG X S, DENG D Y, CHENG S J, et al. Key technologies of electric power big data and its application prospects in smart grid [J]. Proceedings of the CSEE, 2015, 35(3): 503-511.)

      [3] 沈玉玲,呂燕,陳瑞峰,等.基于大數(shù)據(jù)技術(shù)的電力用戶行為分析及應(yīng)用現(xiàn)狀[J].電氣自動(dòng)化,2016,38(3):50-52.(SHEN Y J, LYU Y, CHEN R F, et al. Power user behavior analysis and application status based on big data technology [J]. Power System & Automation, 2016, 38(3): 50-52.)

      [4] 王德文,孫志偉.電力用戶側(cè)大數(shù)據(jù)分析與并行負(fù)荷預(yù)測(cè)[J].中國(guó)電機(jī)工程學(xué)報(bào),2015,35(3):527-537.(WAND D W, SUN Z W. Big data analysis and parallel load forecasting of electric power user side [J]. Proceedings of the CSEE, 2015, 35(3): 527-537.)

      [5] 孫志偉.大數(shù)據(jù)環(huán)境下用電行為分析的研究[D].北京:華北電力大學(xué),2015.(SUN Z W. Study on behavior analysis of electricity in big data environment [D]. Beijing: North China Electric Power University, 2015.)

      [6] 孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué)報(bào),2008,19(1):48-61.(SUN J G, LIU J, ZHAO L Y. Clustering algorithms research [J]. Journal of Software, 2008, 19(1): 48-61.)

      [7] 王惠中,劉軻,周佳,等.電力系統(tǒng)短期負(fù)荷預(yù)測(cè)建模仿真研究[J].計(jì)算機(jī)仿真,2016,33(2):175-179.(WANG H Z, LIU K, ZHOU J, et al. Pretreatment of short-term load forecasting based onK-means clustering algorithm [J]. Computer Simulation, 2016, 33(2): 175-179.)

      [8] 趙文清,龔亞強(qiáng).基于KernelK-means的負(fù)荷曲線聚類[J].電力自動(dòng)化設(shè)備,2016,36(6):203-207.(ZHAO W Q, GONG Y Q. Load curve clustering based on KernelK-means [J]. Electric Power Automation Equipment, 2016, 36(6): 203-207.)

      [9] 李亞,劉麗平,李柏青,等.基于改進(jìn)K-means聚類和BP神經(jīng)網(wǎng)絡(luò)的臺(tái)區(qū)線損率計(jì)算方法[J].中國(guó)電機(jī)工程學(xué)報(bào),2016,36(17):4543-4551.(LI Y, LIU L P, LI B Q, et al. Calculation of line loss rate in transformer district based on improvedK-means clustering algorithm and BP neural network [J]. Proceedings of the CSEE, 2016, 36(17): 4543-4551.)

      [10] 許元斌,李國(guó)輝,郭昆,等.基于改進(jìn)的并行K-means算法的電力負(fù)荷聚類研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2017,53(17):260-265.(XU Y B, LI G H, GUO K, et al. Research on parallel clustering of power load based on improvedK-means algorithm [J]. Computer Engineering and Applications, 2017, 53(17): 260-265.)

      [11] 張素香,劉建明,趙丙鎮(zhèn),等.基于云計(jì)算的居民用電行為分析模型研究[J].電網(wǎng)技術(shù),2013,37(6):1542-1546.(ZHANG S X, LIU J M, ZHAO B Z, et al. Cloud computing-based analysis on residential electricity consumption behavior [J]. Power System Technology, 2013, 37(6): 1542-1546.)

      [12] 程艷柳.基于云計(jì)算的智能電網(wǎng)數(shù)據(jù)挖掘的研究[D].北京:華北電力大學(xué),2013.(CHENG Y L. Research on smart grid data mining based on cloud computing [D]. Beijing: North China Electric Power University, 2013.)

      [13] SHVACHKO K, KUANG H, RADIA S, et al. The Hadoop distributed file system [C]// Proceedings of the 2010 IEEE Symposium on MASS Storage Systems and Technologies. Washington, DC: IEEE Computer Society, 2010: 1-10.

      [14] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters [C]// Proceedings of the 2004 Conference on Symposium on Operating Systems Design & Implementation. Berkeley, CA: USENIX Association, 2004: 10-10.

      [15] 黃韜,劉勝輝,譚艷娜.基于K-means聚類算法的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(7):54-57.(HUANG T, LIU S H, TAN Y N. Research of clustering algorithm based onK-means [J]. Computer Technology and Development, 2011, 21(7): 54-57.)

      This work is partially supported by the Technology Foundation of China Electric Power Research Institute (XXB51201603155), the Technology Foundation of State Grid Economic and Technological Research Institute (15JS191).

      ZHANGChengchang, born in 1975, Ph. D., associate professor. His research interests include energy Internet, power big data, data mining, cyber-physical systems.

      ZHANGHuayu, born in 1990, M. S. candidate. His research interests include data mining.

      LUOJianchang, born in 1990, M. S. candidate. His research interests include cyber-physical systems, big data.

      HEFeng, born in 1962, professor. His research interests include big data, communication technology.

      猜你喜歡
      海量用電聚類
      用電安全
      一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
      用煤用電用氣保障工作的通知
      安全用電知識(shí)多
      海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
      用電安全要注意
      基于DBSACN聚類算法的XML文檔聚類
      一個(gè)圖形所蘊(yùn)含的“海量”巧題
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      广丰县| 兴国县| 永和县| 大连市| 女性| 南阳市| 溆浦县| 池州市| 英山县| 区。| 临沧市| 莆田市| 碌曲县| 五莲县| 司法| 陇南市| 吴忠市| 邹城市| 萨迦县| 阿鲁科尔沁旗| 伊宁县| 久治县| 清流县| 建宁县| 望谟县| 阳信县| 南安市| 吉林省| 远安县| 河源市| 元谋县| 乌兰察布市| 会理县| 宜兴市| 哈巴河县| 湖州市| 永平县| 女性| 都安| 类乌齐县| 漳平市|