• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘的建筑能耗異常檢測(cè)研究

      2020-08-03 05:46:58段中興梅思雨
      關(guān)鍵詞:類別能耗聚類

      段中興,梅思雨

      (1.西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055; 2.西部綠色建筑國(guó)家重點(diǎn)實(shí)驗(yàn)室,西安 710055)

      0 引言

      隨著建筑行業(yè)的不斷發(fā)展,建筑能耗監(jiān)管系統(tǒng)的運(yùn)行使海量的能耗數(shù)據(jù)在數(shù)據(jù)庫(kù)中不斷積累,由于能耗監(jiān)管系統(tǒng)異常、設(shè)備存在故障等問(wèn)題,建筑能耗數(shù)據(jù)中往往存在異常值,利用數(shù)據(jù)挖掘的方法尋找海量能耗數(shù)據(jù)中存在的異常能耗并對(duì)這些能耗異常值進(jìn)行分析,有助于建筑運(yùn)營(yíng)管理者及時(shí)發(fā)現(xiàn)和解決建筑運(yùn)行過(guò)程中可能存在的問(wèn)題,針對(duì)性地對(duì)建筑內(nèi)部產(chǎn)生的故障進(jìn)行診斷。目前,已有許多學(xué)者針對(duì)能耗異常檢測(cè)開(kāi)展了大量研究工作。例如,文獻(xiàn)[1]提出了一種基于數(shù)據(jù)挖掘技術(shù)的建筑能耗實(shí)時(shí)監(jiān)測(cè)方法,通過(guò)將DBSCAN算法與分類方法相結(jié)合,對(duì)建筑能耗值進(jìn)行類別提取并識(shí)別出新產(chǎn)生能耗值所屬類別,從而判斷其是否為異常值;文獻(xiàn)[2]在廣義離群值檢測(cè)(GESD)的基礎(chǔ)上改進(jìn)得到了Modified z-score算法,該算法在檢測(cè)離群點(diǎn)的同時(shí)能夠反映出離群數(shù)據(jù)的離散程度,適合于建筑能耗數(shù)據(jù)的檢測(cè)。這些方法雖然能夠?qū)崿F(xiàn)對(duì)建筑異常能耗數(shù)據(jù)的檢測(cè),但當(dāng)樣本空間密度分布不均或類間距差異很大時(shí),檢測(cè)結(jié)果會(huì)出現(xiàn)偏差,且不能對(duì)能耗數(shù)據(jù)進(jìn)行快速處理。從能耗數(shù)據(jù)本身看,其中異常值僅在整個(gè)能耗數(shù)據(jù)中占很小的比例,即正常和異常能耗數(shù)據(jù)在數(shù)量上存在很大差異,屬于不平衡數(shù)據(jù)類型,那么對(duì)于能耗異常檢測(cè)問(wèn)題,實(shí)質(zhì)上則可以看作不平衡數(shù)據(jù)聚類,通過(guò)對(duì)能耗數(shù)據(jù)聚類,得到正常能耗(多數(shù)類)和異常能耗(少數(shù)類)類別,從而有效檢測(cè)出能耗數(shù)據(jù)中的異常值,并給出針對(duì)性的診斷。不平衡數(shù)據(jù),即數(shù)據(jù)集中不同類別所含樣本在數(shù)量上存在很大差異,或不同類別所含樣本數(shù)量相同但分布不均勻,是數(shù)據(jù)集中普遍存在的一種數(shù)據(jù)類型,存在于實(shí)際生活中的各個(gè)領(lǐng)域(如欺詐檢測(cè)、網(wǎng)絡(luò)入侵、醫(yī)療檢查等)。目前已有的大多數(shù)經(jīng)典聚類方法對(duì)于平衡數(shù)據(jù)聚類能夠得到較好的聚類效果,但對(duì)于不平衡數(shù)據(jù)的聚類效果不理想,往往會(huì)產(chǎn)生樣本“均勻效應(yīng)”,比如模糊c均值(FCM)[3]聚類算法在聚類過(guò)程中會(huì)均衡化各類別樣本數(shù)量,使來(lái)自多數(shù)類中的部分樣本被誤劃分到與其相鄰的少數(shù)類中,造成很高的誤分率。為了避免這個(gè)問(wèn)題,一些學(xué)者對(duì)此提出了不同的解決思路,例如文獻(xiàn)[4]提出了一種多聚類中心算法,通過(guò)將樣本數(shù)量多的類別拆分為若干個(gè)類別來(lái)減弱不同類別之間的不平衡,避免“均勻效應(yīng)”。但該算法只適用于不同類別特征之間有明顯差異的場(chǎng)景,如果不同類別之間存在數(shù)據(jù)重疊現(xiàn)象則會(huì)產(chǎn)生不理想的聚類效果。Gustafson-Kessel (GK)算法[5]利用馬氏距離代替了FCM目標(biāo)函數(shù)中的歐式距離,考慮了除球形數(shù)據(jù)以外的其他簇形對(duì)聚類結(jié)果產(chǎn)生的影響。

      針對(duì)以上問(wèn)題,本文在D-S證據(jù)理論框架下提出一種不平衡數(shù)據(jù)多劃分(Multi-partition,MP)聚類算法,并將其應(yīng)用到建筑能耗異常檢測(cè)中,構(gòu)建MP算法能耗異常檢測(cè)模型對(duì)建筑能耗中的異常值進(jìn)行檢測(cè)。實(shí)驗(yàn)表明,該算法能夠有效避免樣本“均勻效應(yīng)”,極大降低誤分率;通過(guò)對(duì)某商場(chǎng)建筑用電能耗異常值的檢測(cè),驗(yàn)證了MP算法能耗異常檢測(cè)模型的有效性。

      1 D-S證據(jù)理論概述

      Dempster-Shafer(D-S)理論又稱證據(jù)推理(Evidence Reasoning),1967年由Dempster最先提出[6],后由Shafer于1976年對(duì)其進(jìn)行推廣形成證據(jù)推理理論[7]。在Shafer模型中,定義了一個(gè)包含了有限個(gè)互斥且完備的元素集合Ω={ω1,ω2,…,ωn},Ω所有子集構(gòu)成的集合稱為Ω的冪集,表示為2Ω(包含2|Ω|個(gè)元素,其中|Ω|表示集合Ω中的元素個(gè)數(shù))。例如,若辨識(shí)框架為Ω={ω1,ω2,ω3},則2Ω={φ,ω1,ω2,ω3,ω1∪ω2,ω1∪ω3,ω2∪ω3,Ω}(其中|Ω|=3,包含23=8個(gè)元素)。在Shafer模型中,從2Ω到[0,1]上的一個(gè)映射函數(shù)m()為一個(gè)證據(jù)的基本信任指派(basic belief assignment, bba),其滿足以下條件:

      (1)

      D-S理論將傳統(tǒng)的辨識(shí)框架Ω擴(kuò)展到冪集2Ω,使樣本類別信息更加豐富(可以屬于單類或由若干單類構(gòu)成的復(fù)合類),其優(yōu)勢(shì)在于能夠滿足比概率理論更弱的條件并具有直接表達(dá)不確定的能力,因此在模式識(shí)別、信息融合領(lǐng)域得到了廣泛應(yīng)用。本文提出的MP聚類算法則基于D-S證據(jù)理論,引入復(fù)合類對(duì)不確定樣本進(jìn)行了合理表征。

      2 不平衡數(shù)據(jù)多劃分(MP)聚類算法

      為了對(duì)不平衡數(shù)據(jù)進(jìn)行有效聚類,避免樣本“均勻效應(yīng)”,本文提出一種基于D-S證據(jù)理論的不平衡數(shù)據(jù)多劃分(Multi-partition,MP)聚類算法,能夠有效處理不平衡數(shù)據(jù)集,合理表征處在不同類別邊緣的不確定樣本,極大降低誤分率。該算法包含四個(gè)子步驟:數(shù)據(jù)集多劃分、真實(shí)類別尋找、子數(shù)據(jù)集合并和剩余數(shù)據(jù)劃分,下面將對(duì)MP算法的每個(gè)子步驟進(jìn)行詳細(xì)闡述。

      2.1 數(shù)據(jù)集多劃分

      MP聚類算法的第一個(gè)步驟即對(duì)不平衡數(shù)據(jù)集中的樣本進(jìn)行子簇劃分,受CCM算法[8]的啟發(fā),本節(jié)將提出一種改進(jìn)的信任c均值(Improved credal c-means, ICCM)聚類算法,利用多聚類中心思想(生成多個(gè)子簇和若干個(gè)復(fù)合類,其中子簇個(gè)數(shù)N應(yīng)大于數(shù)據(jù)集真實(shí)類別個(gè)數(shù)c,即N>c),對(duì)不平衡數(shù)據(jù)集中多數(shù)類和少數(shù)類中的樣本數(shù)量重新進(jìn)行平衡,從而有效降低錯(cuò)誤率,避免“均勻效應(yīng)”。由于復(fù)合類的引入,那些處在重疊區(qū)域的不確定樣本能夠被合理表征,且ICCM的計(jì)算復(fù)雜度遠(yuǎn)小于CCM。對(duì)于一個(gè)辨識(shí)框架為2Ω(Ω={ω1,…,ωN})的N類問(wèn)題,ICCM算法分為以下兩個(gè)部分。

      1)子簇的劃分:

      在這部分中,不平衡數(shù)據(jù)集中的樣本僅允許被劃分到子簇和噪聲類中,對(duì)于一個(gè)數(shù)據(jù)集X∈Rn×p,通過(guò)ICCM算法對(duì)目標(biāo)函數(shù)的最小化將X劃分為N個(gè)子簇,能夠得到基本信任值M=(m1,…,mn)∈Rn×(N+1)和矩陣規(guī)模為N×p的聚類中心矩陣V,其中ICCM算法的目標(biāo)函數(shù)JICCM被定義如下:

      (2)

      且需滿足以下的約束條件:

      (3)

      其中:miφ表示樣本屬于噪聲類的基本信任值mi(φ),1≤i≤n,1≤j≤N。參數(shù)β和δ的含義與CCM中參數(shù)的含義相同,其中δ用來(lái)控制噪聲樣本的數(shù)量,β為加權(quán)指數(shù)(默認(rèn)值β=2)。目標(biāo)函數(shù)JICCM最小化過(guò)程類似FCM和CCM,基本信任值m(.)通過(guò)以下公式更新:

      (4)

      其中:mij表示樣本xi屬于子簇ωj的基本信任值。

      2)復(fù)合類的產(chǎn)生:

      此過(guò)程通過(guò)設(shè)定復(fù)合類閾值計(jì)算得到復(fù)合類的基本信任值,對(duì)于樣本xi,其可能所屬的復(fù)合類Λi(Λi∈2Ω)被定義如下:

      Λi={ωk∪,…,∪ωt|mi(ωk)-mi(ωt)≤ε},k≠t

      (5)

      且需滿足:

      mi(ωk)=max{mi(ω1),…,mi(ωN)},?1≤k,t≤N

      (6)

      其中:ε為可調(diào)節(jié)的復(fù)合類閾值,其值大小決定了劃分到復(fù)合類中的樣本數(shù)量。對(duì)于樣本xi,其辨識(shí)框架拓展為Θi={φ,ω1,…,ωN,Λi},且不同樣本可能得到不同的辨識(shí)框架Θ,復(fù)合類Λi的基本信任值m(Λi)被定義如下:

      m(Λi)=mi(ωk)+,…,+mi(ωt)

      (7)

      樣本xi通過(guò)以下公式對(duì)基本信任值m(.)歸一化并進(jìn)行更新:

      (8)

      其中:m(A)通過(guò)公式(4)計(jì)算可得,通過(guò)尋找基本信任值中的最大值,將樣本xi劃分到子簇或者復(fù)合類中,這樣就可以得到經(jīng)過(guò)ICCM劃分后的子簇和復(fù)合類。

      ICCM算法能夠減小由于不同類別樣本數(shù)量不等或分布不均對(duì)結(jié)果造成的影響,且能有效避免CCM“指數(shù)爆炸”現(xiàn)象,降低計(jì)算復(fù)雜度,實(shí)現(xiàn)數(shù)據(jù)的快速處理。在后面的步驟中,將利用子簇和復(fù)合類之間的密度關(guān)系對(duì)劃分的子簇進(jìn)行合并,所提密度合并規(guī)則僅允許復(fù)合類中所包含單類個(gè)數(shù)為2,即樣本xi可能所屬的復(fù)合類Λi在滿足閾值ε的條件下僅能包含兩個(gè)子簇。

      復(fù)合類閾值ε的參數(shù)調(diào)整規(guī)則:在實(shí)際應(yīng)用中,閾值ε需要被控制在一個(gè)合理范圍之內(nèi),ε過(guò)大將使原本屬于子簇的樣本被劃分到復(fù)合類中,導(dǎo)致不精確率增大;而ε過(guò)小則會(huì)導(dǎo)致復(fù)合類中的樣本數(shù)量極少,極大增加誤劃分的風(fēng)險(xiǎn)。根據(jù)實(shí)驗(yàn),建議閾值ε的取值范圍為ε∈[0.1,0.3],默認(rèn)值ε=0.2。

      2.2 真實(shí)類別尋找

      利用ICCM對(duì)不平衡數(shù)據(jù)集進(jìn)行劃分得到了N個(gè)子簇和若干個(gè)復(fù)合類,本節(jié)需要對(duì)數(shù)據(jù)集的真實(shí)類別個(gè)數(shù)進(jìn)行確認(rèn),以確保子簇合并的正確性。受均值漂移(Mean-shift)算法[9]的啟發(fā),本節(jié)將提出一種基于K-NN的均值漂移(KNN-based mean shift, KMS)算法,利用K近鄰(K-NN)思想計(jì)算當(dāng)前樣本點(diǎn)的均值漂移向量,使向量沿著密度增大的方向移動(dòng)直到到達(dá)密度峰值處,自適應(yīng)地確定數(shù)據(jù)集的真實(shí)類別個(gè)數(shù)c,克服傳統(tǒng)均值漂移算法易受帶寬h影響的缺點(diǎn)。當(dāng)數(shù)據(jù)集分布不平衡時(shí),固定帶寬會(huì)影響聚類效果,KMS算法通過(guò)K近鄰思想能夠得到靈活的“帶寬h”。具體的,使用一定數(shù)量的K個(gè)最近鄰樣本點(diǎn)對(duì)均值漂移向量進(jìn)行直接迭代,這樣不僅能夠保證參與每次迭代的樣本數(shù)量,而且可以很好適應(yīng)迭代范圍。樣本的均值漂移向量Mh(x)被定義如下:

      (9)

      其中:Sh(x)和K分別表示樣本x的集合和K近鄰數(shù)量。在KMS中,僅改進(jìn)Mh(x)以適應(yīng)樣本迭代范圍,提高系統(tǒng)的魯棒性,其他步驟與均值漂移算法相似。為了減小計(jì)算負(fù)擔(dān),這里僅取從ICCM算法中獲得的N個(gè)子簇類中心作為均值漂移向量迭代的初始點(diǎn),由 KMS的聚類結(jié)果可得到數(shù)據(jù)集的真實(shí)類別個(gè)數(shù)c。

      參數(shù)K的選取原則:在實(shí)際應(yīng)用中,N個(gè)子簇的類中心被用作迭代均值漂移向量的初始點(diǎn),因此KMS算法對(duì)K值具有較強(qiáng)的魯棒性。為了減少迭代次數(shù),推薦K=(n/N)·(1±10%)作為默認(rèn)值,其中n為不平衡數(shù)據(jù)集中包含的樣本數(shù)量。

      2.3 子數(shù)據(jù)集合并

      本節(jié)將提出一種密度合并規(guī)則(Density- based merging rule, DMR),根據(jù)復(fù)合類和其所包含的兩個(gè)子簇之間的密度關(guān)系對(duì)劃分的子簇及部分復(fù)合類進(jìn)行合并,直至得到與原始數(shù)據(jù)集真實(shí)類別個(gè)數(shù)相同的c個(gè)單類。復(fù)合類被認(rèn)為是不同子簇之間的不確定類別,樣本被劃分到復(fù)合類意味著樣本可能屬于復(fù)合類所包含的子簇中的任何一個(gè)。如果ICCM將同屬于一個(gè)類別的樣本劃分給了不同的子簇和復(fù)合類,表明這些子簇的密度可能非常相似;復(fù)合類中的樣本通常分布在類別的相對(duì)中心,所以復(fù)合類的密度應(yīng)大于或者介于復(fù)合類中所包含子簇的密度之間;如果復(fù)合類的密度小于其所包含的兩個(gè)子簇的密度,則意味著這兩個(gè)子簇屬于不同的類別。綜上,復(fù)合類和其包含的兩個(gè)子簇之間存在以下三種密度關(guān)系:

      C1:ρωk(ρωt)≤ρΛi

      C2:ρωk(ρωt)<ρΛi<ρωt(ρωk)

      C3:ρΛi<ρωk(ρωt)

      滿足上述C1和C2關(guān)系的復(fù)合類和子簇能夠進(jìn)行合并,并且滿足C1關(guān)系的可優(yōu)先合并。不難發(fā)現(xiàn),子簇合并過(guò)程具有傳遞性,即如果有兩個(gè)已部分合并的子數(shù)據(jù)集都與一個(gè)未合并的子簇滿足密度合并關(guān)系,則這兩個(gè)子數(shù)據(jù)集也應(yīng)進(jìn)行合并。目前已有許多密度計(jì)算方法得到了廣泛應(yīng)用,本節(jié)提供一種簡(jiǎn)單的方法對(duì)不同類簇Ai(子簇或復(fù)合類)進(jìn)行密度估計(jì),Ai的密度被定義如下:

      氮肥品種均為尿素,磷肥品種為鈣鎂磷肥,鉀肥為氯化鉀,磷肥和鉀肥均在蘗肥時(shí)全部施入稻田,施磷(P2O5)、鉀(K2O)量均為62.5 kg/hm2。水稻采用人工收割,收割后種植蠶豆,無(wú)需施氮肥。

      (10)

      其中:ρAi為類簇Aj的密度,ni表示Ai中樣本的數(shù)量,dij表示Ai中樣本xi與數(shù)據(jù)集中樣本xi的第j個(gè)近鄰之間的歐式距離。這里利用K近鄰思想來(lái)消除噪聲帶來(lái)的影響,默認(rèn)值K=10。根據(jù)上述合并規(guī)則,能夠?qū)⒍鄤澐肢@得的N個(gè)子簇以及部分復(fù)合類進(jìn)行合并。

      為了表示方便,定義ωk,tωk∪ωt,下面通過(guò)一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明根據(jù)密度合并的過(guò)程??紤]一個(gè)真實(shí)類別c=2,多劃分后子簇個(gè)數(shù)N=4的問(wèn)題,各個(gè)子簇和復(fù)合類的密度分別為ρω1=0.56,ρω2=0.71,ρω3=0.47,ρω4=0.34,ρω1,2=0.24,ρω1,3=0.67,ρω1,4=0.21和ρω3,4=0.42。此例中各個(gè)子簇和部分復(fù)合類的具體合并過(guò)程如下:1)根據(jù)上述C1,可得Γ1=ω1∪ω3∪ω1,3;2)根據(jù)上述C2,可得Γ2=ω3∪ω4∪ω3,4;3)由傳遞性可得,ω1=Γ1∪Γ2∪ω1,4。因此,通過(guò)密度合并最終得到的新的類別結(jié)果如下:

      ω1=ω1∪ω3∪ω4∪ω1,3∪ω3,4∪ω1,4;ω2=ω2

      其中:Γi表示已合并的過(guò)渡簇(子數(shù)據(jù)集),ωi表示樣本最終所屬的真實(shí)類別。在獲得需要的c個(gè)單類之后,可能仍會(huì)存在一些復(fù)合類(比如ω1,2)尚未合并,這些未合并復(fù)合類中的樣本通常處于不同類別的重疊區(qū)域(例如ω1和ω2),因此需要采用更加謹(jǐn)慎的策略對(duì)這些樣本進(jìn)行劃分。

      2.4 剩余數(shù)據(jù)劃分

      本節(jié)提出一種剩余樣本再劃分規(guī)則(Re-partition rule, RPL)對(duì)未合并復(fù)合類中的樣本進(jìn)行再次劃分以得到最終的聚類結(jié)果。未合并復(fù)合類中存在的少數(shù)樣本經(jīng)過(guò)再劃分后仍很難被劃分給某個(gè)特定類別,則這些樣本將保留成為一個(gè)新的復(fù)合類,以降低誤劃分風(fēng)險(xiǎn)。RPL的關(guān)鍵在于,認(rèn)為樣本處在不同類別重疊區(qū)域的條件為該樣本到不同類別中與其最近的K個(gè)近鄰的平均距離無(wú)明顯差異。對(duì)于未合并復(fù)合類中的樣本xi,首先將獲得xi在與此復(fù)合類相關(guān)的兩個(gè)單類中的K近鄰,定義樣本xi到最終類別ωk的距離為xi到K個(gè)最近鄰的平均距離,用公式表示如下:

      (11)

      (12)

      (13)

      再劃分參數(shù)χ的選取原則:χ∈[0,1]是一個(gè)可調(diào)的閾值參數(shù),其值大小會(huì)影響最終復(fù)合類中的樣本數(shù)量。χ越小,最終復(fù)合類中的不確定樣本越少,這將會(huì)增加不確定樣本誤劃分的風(fēng)險(xiǎn);而隨著χ增大,更多不確定樣本被劃入最終的復(fù)合類中,這將導(dǎo)致不精確率增高。χ應(yīng)根據(jù)可接受的不精確程度進(jìn)行調(diào)節(jié)。

      為了更加清晰表達(dá)MP算法的基本流程和主要內(nèi)容,圖1展示了多劃分(MP)聚類算法的流程框圖。

      圖1 不平衡數(shù)據(jù)多劃分(MP)聚類算法流程框圖

      3 實(shí)驗(yàn)分析

      本文利用UCI數(shù)據(jù)庫(kù)[10]中五組真實(shí)數(shù)據(jù)集(即Wine、Bupa、Balancescale、Aggregation和WBC)對(duì)不平衡數(shù)據(jù)多劃分(MP)聚類算法的性能進(jìn)行測(cè)試和評(píng)價(jià),通過(guò)與FCM、GK和CCM三種聚類算法對(duì)比驗(yàn)證MP算法的性能。Balancescale數(shù)據(jù)集共有3個(gè)類別,其中名為L(zhǎng)eft和Balanced的兩個(gè)類別(分別包含288和49個(gè)樣本)滿足不平衡數(shù)據(jù)分布,選擇這兩類來(lái)評(píng)估算法性能。同樣在Aggregation數(shù)據(jù)集中共有7個(gè)類別,選擇其中分別包含102、34和34個(gè)樣本的3個(gè)類別(即第三、五、七類)來(lái)驗(yàn)證算法的有效性。除以上兩組數(shù)據(jù)集外,其余數(shù)據(jù)集均采用所有類別進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)所用數(shù)據(jù)集的詳細(xì)信息如表1所示。

      表1 實(shí)驗(yàn)所用五組UCI數(shù)據(jù)集詳細(xì)信息

      表2 五組UCI不平衡數(shù)據(jù)集聚類結(jié)果 %

      從表2可以看出,MP算法對(duì)UCI中五組不平衡數(shù)據(jù)集的聚類結(jié)果均優(yōu)于其他三種算法,錯(cuò)誤率最低。MP算法中引入的復(fù)合類能從一定程度降低樣本誤劃分的風(fēng)險(xiǎn),合理表征處于重疊區(qū)域的不確定樣本,降低錯(cuò)誤率。從程序運(yùn)行時(shí)間T上,F(xiàn)CM和GK算法由于沒(méi)有復(fù)合類,故運(yùn)行時(shí)間最快;CCM和MP算法由于引入了復(fù)合類,程序運(yùn)行時(shí)間T會(huì)比前兩種算法時(shí)間長(zhǎng),但通過(guò)實(shí)驗(yàn)數(shù)據(jù)可看出MP運(yùn)行時(shí)間遠(yuǎn)小于CCM,說(shuō)明MP計(jì)算復(fù)雜度遠(yuǎn)小于CCM,算法運(yùn)行效率比較高。

      4 MP算法在建筑能耗異常檢測(cè)中的應(yīng)用

      4.1 MP算法能耗異常檢測(cè)模型

      本節(jié)將利用提出的MP聚類算法原理及內(nèi)容構(gòu)建能耗異常檢測(cè)模型。MP聚類算法分為四個(gè)子步驟:數(shù)據(jù)集多劃分、真實(shí)類別尋找、子數(shù)據(jù)集合并以及剩余樣本劃分,現(xiàn)將這些步驟運(yùn)用在建筑能耗異常檢測(cè)中,構(gòu)建如圖2所示的MP算法能耗異常檢測(cè)模型。首先將預(yù)處理后的能耗數(shù)據(jù)集進(jìn)行多劃分,得到N個(gè)能耗子數(shù)據(jù)集(N>c)和若干個(gè)復(fù)合類;接著尋找數(shù)據(jù)集真實(shí)類別個(gè)數(shù)c,即正常能耗類別和異常能耗類別個(gè)數(shù)之和;然后對(duì)多劃分得到的能耗子數(shù)據(jù)集和部分復(fù)合類進(jìn)行合并;最后,對(duì)未合并復(fù)合類中的剩余能耗數(shù)據(jù)進(jìn)行再劃分,得到能耗數(shù)據(jù)集的類別劃分結(jié)果,即最終的異常檢測(cè)結(jié)果。從可行性的角度分析,由于能耗數(shù)據(jù)的分布符合聚類分布的特點(diǎn),即距離類中心越近的地方樣本點(diǎn)分布越密集,這就保證了MP算法在第三步密度合并時(shí)能夠有效利用子數(shù)據(jù)集和復(fù)合類的密度進(jìn)行子數(shù)據(jù)集合并,同時(shí)保證了MP算法能耗異常檢測(cè)模型的可行性。

      圖2 MP算法能耗異常檢測(cè)模型

      4.2 能耗異常檢測(cè)實(shí)驗(yàn)結(jié)果與分析

      本文使用的能耗數(shù)據(jù)來(lái)源于對(duì)西安市某大型商場(chǎng)建筑的逐日分項(xiàng)用電監(jiān)測(cè),通過(guò)對(duì)該商場(chǎng)能耗監(jiān)管系統(tǒng)進(jìn)行調(diào)研,采集并記錄了2018年3月5日至2019年2月28日的分項(xiàng)日用電能耗情況(共360組樣本),包括空調(diào)、照明、動(dòng)力、特殊設(shè)備用電量以及總用電量。選取該商場(chǎng)18年第二季度(6~8月,共計(jì)92天)日分項(xiàng)能耗(空調(diào)用電和照明用電)數(shù)據(jù)進(jìn)行能耗數(shù)據(jù)異常檢測(cè)實(shí)驗(yàn),空調(diào)和照明用電能耗數(shù)據(jù)如圖3所示。由于直接來(lái)源于現(xiàn)實(shí)生活中的數(shù)據(jù)經(jīng)常會(huì)存在不完整、不一致等現(xiàn)象,這些對(duì)數(shù)據(jù)挖掘效果都會(huì)產(chǎn)生很大影響,因此在進(jìn)行能耗異常檢測(cè)實(shí)驗(yàn)前,需要對(duì)實(shí)驗(yàn)所用能耗數(shù)據(jù)進(jìn)行預(yù)處理,確保數(shù)據(jù)的完整性和一致性。MP算法中的兩個(gè)閾值分別設(shè)置為ε=0.2,χ=0.2。為了與MP算法得到的結(jié)果進(jìn)行比較,實(shí)驗(yàn)還采用FCM和GK算法對(duì)相同用電能耗數(shù)據(jù)進(jìn)行處理,得到了相應(yīng)的聚類結(jié)果。

      圖3 西安某大型商場(chǎng)建筑18年第二季度(6~8月)空調(diào)與照明用電能耗數(shù)據(jù)

      利用MP算法對(duì)上述用電能耗數(shù)據(jù)進(jìn)行聚類,實(shí)驗(yàn)取N=8(即對(duì)該能耗數(shù)據(jù)集多劃分得到的子數(shù)據(jù)集個(gè)數(shù)為8),圖4 (a)和(b)分別展示了第二季度原始用電能耗數(shù)據(jù)以及MP算法對(duì)空調(diào)和照明用電能耗數(shù)據(jù)聚類得到的結(jié)果。

      圖4 MP算法建筑能耗異常檢測(cè)實(shí)驗(yàn)結(jié)果

      在實(shí)驗(yàn)過(guò)程中可得到能耗數(shù)據(jù)的真實(shí)類別個(gè)數(shù)c=3,從圖4 (b)可以看出,MP算法將該季度用電能耗數(shù)據(jù)最終被劃分為三類:ω1、ω2和ω3(等于能耗數(shù)據(jù)集真實(shí)類別個(gè)數(shù)),其中類別ω1從樣本數(shù)量上看屬于多數(shù)類,能夠判斷其屬于正常能耗類別,其中的能耗數(shù)據(jù)在范圍上相對(duì)比較穩(wěn)定(即空調(diào)用電和照明用電量都在一定范圍內(nèi));而類別ω2和類別ω3中所含能耗樣本的數(shù)量很少(屬于少數(shù)類),且分布上明顯偏離類別ω1,故將這兩個(gè)類別所包含的能耗數(shù)據(jù)認(rèn)定為異常能耗數(shù)據(jù),其中類別ω2中的能耗數(shù)據(jù)在空調(diào)用電量上表現(xiàn)出異常(遠(yuǎn)超出正常空調(diào)用電量水平),類別ω3中的能耗數(shù)據(jù)在空調(diào)用電和照明用電上均表現(xiàn)出異常(均遠(yuǎn)小于正常用電量水平)。從最終的聚類結(jié)果來(lái)看,能耗數(shù)據(jù)集除了被劃分為以上三個(gè)類別外,還得到了兩個(gè)復(fù)合類(ω1,2和ω1,3),它們所包含的能耗樣本雖然不能認(rèn)定為異常能耗數(shù)據(jù),但介于正常與異常能耗之間,需要對(duì)這種不確定能耗數(shù)據(jù)采取更加謹(jǐn)慎的態(tài)度,以免導(dǎo)致數(shù)據(jù)誤判的風(fēng)險(xiǎn)。圖5為根據(jù)MP算法異常檢測(cè)結(jié)果對(duì)異常能耗數(shù)據(jù)標(biāo)記之后得到的用電能耗數(shù)據(jù)折線圖(其中三角形和菱形標(biāo)記分別表示檢測(cè)出的空調(diào)用電異常能耗數(shù)據(jù)和不確定數(shù)據(jù),圓形和正方形標(biāo)記分別表示檢測(cè)出的照明用電異常能耗數(shù)據(jù)和不確定數(shù)據(jù)),通過(guò)MP算法能耗異常檢測(cè)模型,能夠有效檢測(cè)得到建筑能耗數(shù)據(jù)中的異常值,為建筑能耗監(jiān)管系統(tǒng)的管理和運(yùn)行提供必要的幫助,有利于管理人員及時(shí)發(fā)現(xiàn)并解決建筑中可能存在的問(wèn)題與故障。

      圖5 空調(diào)/照明用電能耗異常檢測(cè)數(shù)據(jù)圖

      為了與MP算法進(jìn)行對(duì)比,采用FCM和GK兩種算法對(duì)相同的能耗數(shù)據(jù)進(jìn)行處理,圖6 (a)和(b)分別為FCM和GK算法對(duì)用電能耗數(shù)據(jù)聚類的結(jié)果。由圖6 (a)可看出,F(xiàn)CM將用電能耗數(shù)據(jù)劃分為三類,但因其初始聚類時(shí)并沒(méi)有類別先驗(yàn)信息,故在對(duì)數(shù)據(jù)進(jìn)行聚類時(shí)首先需要獲得數(shù)據(jù)的真實(shí)類別;從結(jié)果來(lái)看,F(xiàn)CM將MP算法中劃分到復(fù)合類中的不確定數(shù)據(jù)強(qiáng)行劃分到異常數(shù)據(jù)類別中,這樣可能會(huì)增加數(shù)據(jù)誤判為異常值的風(fēng)險(xiǎn)。從圖6 (b)可以看到,GK將用電能耗數(shù)據(jù)劃分為三類,但同樣需要在聚類前對(duì)能耗數(shù)據(jù)的真實(shí)類別個(gè)數(shù)進(jìn)行判斷,最終的聚類結(jié)果顯示,GK將原本屬于正常能耗類別ω1中的部分?jǐn)?shù)據(jù)錯(cuò)誤劃分到能耗異常類別ω2中,導(dǎo)致了部分正常能耗數(shù)據(jù)被誤判為異常能耗,與MP聚類算法對(duì)比錯(cuò)誤率明顯增加。

      圖6 FCM和GK算法對(duì)第二季度用電能耗數(shù)據(jù)的聚類結(jié)果

      5 結(jié)束語(yǔ)

      由于異常能耗值在能耗數(shù)據(jù)中僅占很小的部分,能耗異常檢測(cè)可以看作對(duì)不平衡數(shù)據(jù)的聚類,為了對(duì)不平衡數(shù)據(jù)進(jìn)行有效聚類,避免樣本“均勻效應(yīng)”,本文提出了一種基于D-S證據(jù)理論的不平衡數(shù)據(jù)多劃分(MP)聚類算法,并將其應(yīng)用到建筑能耗異常檢測(cè)中,構(gòu)建了MP算法能耗異常檢測(cè)模型對(duì)建筑能耗中的異常值進(jìn)行檢測(cè)。首先對(duì)預(yù)處理后的能耗數(shù)據(jù)集進(jìn)行多劃分,得到N個(gè)能耗子數(shù)據(jù)集和若干復(fù)合類;確定該能耗數(shù)據(jù)集的真實(shí)類別個(gè)數(shù);然后對(duì)多劃分得到的能耗子數(shù)據(jù)集和部分復(fù)合類進(jìn)行合并;最后對(duì)未合并復(fù)合類中的剩余能耗數(shù)據(jù)進(jìn)行再劃分,得到能耗數(shù)據(jù)集的類別劃分結(jié)果,即最終的異常檢測(cè)結(jié)果。經(jīng)UCI數(shù)據(jù)集驗(yàn)證,MP算法具有良好的聚類效果,通過(guò)對(duì)某商場(chǎng)建筑用電能耗數(shù)據(jù)進(jìn)行能耗異常檢測(cè),驗(yàn)證了MP算法能耗異常檢測(cè)模型的有效性。由能耗異常檢測(cè)實(shí)驗(yàn)的結(jié)果可以看出,MP算法對(duì)于處在正常和異常能耗數(shù)據(jù)之間的不確定數(shù)據(jù)沒(méi)有強(qiáng)行劃分,但同時(shí)給算法帶來(lái)了一定的不精確率,如何謹(jǐn)慎地對(duì)這些數(shù)據(jù)進(jìn)行劃分,從而確定這些能耗數(shù)據(jù)是否為異常值,是下一步需要深入研究的問(wèn)題。

      猜你喜歡
      類別能耗聚類
      120t轉(zhuǎn)爐降低工序能耗生產(chǎn)實(shí)踐
      昆鋼科技(2022年2期)2022-07-08 06:36:14
      能耗雙控下,漲價(jià)潮再度來(lái)襲!
      探討如何設(shè)計(jì)零能耗住宅
      日本先進(jìn)的“零能耗住宅”
      基于DBSACN聚類算法的XML文檔聚類
      服務(wù)類別
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      丰台区| 凌海市| 麻江县| 莎车县| 乳山市| 大连市| 江孜县| 昆山市| 枣阳市| 祁东县| 墨竹工卡县| 莱芜市| 绥芬河市| 鹤峰县| 温宿县| 古田县| 贡山| 阿图什市| 信宜市| 宿州市| 达日县| 丽江市| 博乐市| 米泉市| 滕州市| 监利县| 凤凰县| 彭泽县| 景德镇市| 连云港市| 汽车| 体育| 永安市| 庆云县| 杭州市| 舞阳县| 顺平县| 大石桥市| 将乐县| 海口市| 开平市|