袁 丁,薛貴軍,張紅梅
(華北理工大學(xué)電氣工程學(xué)院,河北唐山 063210)
隨著互聯(lián)網(wǎng)技術(shù)和科學(xué)技術(shù)的迅猛發(fā)展,信息化已經(jīng)成為我國供熱行業(yè)發(fā)展和進(jìn)步的焦點(diǎn),其中數(shù)據(jù)采集和傳輸也成為供熱系統(tǒng)不可或缺的一部分[1,2]。但是對于海量數(shù)據(jù)而言,處理方式仍舊停留在簡單的統(tǒng)計(jì)階段,無法使數(shù)據(jù)發(fā)揮出最大價(jià)值。供熱數(shù)據(jù)深度挖掘的實(shí)現(xiàn),不僅對數(shù)據(jù)的數(shù)量具有要求,同時(shí)數(shù)據(jù)質(zhì)量也需要有所保證,因此,對供熱管網(wǎng)數(shù)據(jù)進(jìn)行異常辨識(shí)具有十分重要的意義[3]。
國內(nèi)外相關(guān)專家給出了一些較好的研究成果,例如許春杰等人[4]在節(jié)點(diǎn)層級通過K-means算法對數(shù)據(jù)進(jìn)行聚類,執(zhí)行簇合并算法,同時(shí)使用基于KNN的異常簇檢測方法進(jìn)行局部節(jié)點(diǎn)檢測,最終完成數(shù)據(jù)異常檢測。冀汶莉等人[5]主要通過RDU算法對大部分?jǐn)?shù)據(jù)進(jìn)行下采樣處理,將重復(fù)樣本刪除;剩余部分?jǐn)?shù)據(jù)則通過SMOTE算法對少數(shù)異常數(shù)據(jù)進(jìn)行過采樣,合成新數(shù)據(jù),降低數(shù)據(jù)集的不均衡性,同時(shí)采用優(yōu)化后的數(shù)據(jù)集對RF分類算法進(jìn)行優(yōu)化,獲取異常數(shù)據(jù)識(shí)別模型,通過模型實(shí)現(xiàn)數(shù)據(jù)識(shí)別。以上兩種算法由于未能在實(shí)際操作過程中對數(shù)據(jù)進(jìn)行降噪處理,導(dǎo)致最終獲取的識(shí)別結(jié)果存在查全率和查準(zhǔn)率下降以及運(yùn)行時(shí)間增加等問題。為此,提出一種分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)異常在線辨識(shí)算法。仿真結(jié)果表明,所提算法能夠有效減少運(yùn)行時(shí)間,提升查全率和查準(zhǔn)率。
一般情況下,分布式供熱管網(wǎng)在實(shí)際工作過程中,系統(tǒng)會(huì)受到周邊環(huán)境和相關(guān)設(shè)備的影響。為了更好地克服這些干擾,需要對數(shù)據(jù)進(jìn)行降噪處理。其中,數(shù)據(jù)是由過程數(shù)據(jù)和噪聲數(shù)據(jù)構(gòu)成,具體的計(jì)算公式如下所示
f(n)=x(n)+ε(n)
(1)
式中,ε(n)代表噪聲數(shù)據(jù);f(n)代表真實(shí)數(shù)據(jù);x(n)代表過程數(shù)據(jù)。
為了更好完成數(shù)據(jù)降噪,以下使用基于貝葉斯的小波降噪方法對數(shù)據(jù)進(jìn)行去噪,具體的去噪流程如圖1所示:
圖1 小波降噪流程圖
其中,一簇動(dòng)態(tài)離散小波基函數(shù)可以表示為
ψmk(t)=2-m/2ψ(2-mt-k)
(2)
式中,ψ(t)代表母小波;m代表伸縮系數(shù);k代表平移系數(shù)。全部數(shù)據(jù)都能夠劃分為多尺度形式,具體計(jì)算式如下
(3)
式中,dy代表在尺度y處的小波系數(shù);ay代表在粗略位置處的小波系數(shù);dy(m,k)代表濾波矩陣;ay(L,k)代表數(shù)據(jù)矩陣;ψmk(t)和φmk(t)代表兩個(gè)不同尺度的細(xì)節(jié)矩陣。
小波包在降噪的過程中,有兩個(gè)重要因素對降噪起十分關(guān)鍵的作用:①選取哪種小包作為小波包分解的母小波;②明確小波包的分解水平。優(yōu)先需要解決的問題為:通過訓(xùn)練集在小波簇中選取最符合條件的小波。針對各個(gè)候選小波基,隨機(jī)選擇一段過程測量數(shù)據(jù)作為訓(xùn)練集,主要通過小波分解的方式將其分解,分解為多個(gè)不同的等級。結(jié)合分解等級計(jì)算各個(gè)小波分解系數(shù)的平均值,然后進(jìn)行統(tǒng)計(jì)分析。η代表候選小波描述的運(yùn)行數(shù)據(jù)和測量數(shù)據(jù)兩者之間的相似程度。η的取值越小,則說明候選小波越能夠真實(shí)反映數(shù)據(jù)的變化情況。
當(dāng)確定數(shù)據(jù)的小波分解級別后,通過香農(nóng)熵準(zhǔn)則劃分為不同分解級別的性能指標(biāo)。在數(shù)據(jù)處理的過程中,香農(nóng)熵表示隨機(jī)變量中的一種不確定變量。當(dāng)熵值的取值越大,則說明其中含有的信息越多,同時(shí)成分也越復(fù)雜,數(shù)據(jù)降噪的難度也會(huì)相應(yīng)地增加。
香農(nóng)熵代表對任意一種信號進(jìn)行無損壓縮所包含的絕對限制,一個(gè)X值域?yàn)閧x1,x2,…,xn}的隨機(jī)變量的香農(nóng)熵值H表示為
H(X)=E(I(X))
(4)
式中,E代表期望函數(shù)的取值大??;I(X)代表任意一個(gè)隨機(jī)變量。假設(shè)p為X的概率密度函數(shù),則香農(nóng)熵對應(yīng)的計(jì)算式為
(5)
式中,p(xi)代表節(jié)點(diǎn)集合;I(xi)代表全部數(shù)據(jù)的平均取值。
為了在分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)異常在線辨識(shí)過程中,對數(shù)據(jù)進(jìn)行有效降噪,修建圖中的小波包分解樹占據(jù)十分重要的地位。為了保留信號中的有效節(jié)點(diǎn),需要對小波包樹進(jìn)行修剪,將冗余節(jié)點(diǎn)剔除。以下主要通過小波包樹結(jié)構(gòu)中的任意節(jié)點(diǎn)是否有效來進(jìn)行信號降噪。白噪聲的主要特點(diǎn)的平均值為0,標(biāo)準(zhǔn)差為1,所以通過各個(gè)節(jié)點(diǎn)的局部標(biāo)準(zhǔn)差來檢測該節(jié)點(diǎn)的白噪聲。
在第k個(gè)訓(xùn)練信號中的第n個(gè)節(jié)點(diǎn)局部方差能夠表示為
(6)
為了獲取更加理想的去噪效果,在小波降噪中加入貝葉斯。通過應(yīng)用雙向優(yōu)先注冊獲取最優(yōu)小波數(shù),針對原始小波包數(shù)中的各個(gè)節(jié)點(diǎn),分別計(jì)算其標(biāo)準(zhǔn)差,同時(shí)將標(biāo)準(zhǔn)差按照從大到小的順序進(jìn)行排列。在訓(xùn)練集合中,第n個(gè)節(jié)點(diǎn)的全局標(biāo)準(zhǔn)差可以通過式(6)進(jìn)行計(jì)算,即
(7)
上式中,μσn代表數(shù)據(jù)在訓(xùn)練過程中小波包分解中第n個(gè)節(jié)點(diǎn)局部標(biāo)準(zhǔn)差的平均取值;M代表訓(xùn)練集中的數(shù)據(jù)集總數(shù)。
在上述操作的基礎(chǔ)上,主要選取最優(yōu)樹中的有效節(jié)點(diǎn),同時(shí)在分解系數(shù)上增加閾值進(jìn)行全面降噪。其中,閾值能夠劃分為兩種類型,分別為軟閾值和硬閾值,以下給出具體的定義:
1)軟閾值
(8)
式中,t代表閾值大??;v代表小波系數(shù)的取值大小。
2)硬閾值:
(9)
但是軟硬閾值分別存在不同的弊端,為了有效避免兩者的不足,以下主要使用非負(fù)garrote閾值,具體表達(dá)形式如下
(10)
當(dāng)完成上述操作后,可針對分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)進(jìn)行降噪處理:
1)將獲取的數(shù)據(jù)分解到最優(yōu)樹中,通過相關(guān)決定參數(shù)對分解系數(shù)進(jìn)行閾值處理。
2)針對最優(yōu)樹中保留節(jié)點(diǎn)的分解系數(shù)進(jìn)行調(diào)整,最終達(dá)到信號重構(gòu)的目的,完成數(shù)據(jù)降噪。
利用圖2給出分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)異常在線辨識(shí)的詳細(xì)操作流程圖。
圖2 運(yùn)行數(shù)據(jù)異常在線辨識(shí)流程圖
對經(jīng)過降噪處理的數(shù)據(jù)進(jìn)行挖掘,為數(shù)據(jù)特征提取模型提供一定的數(shù)據(jù)基礎(chǔ),同時(shí)通過多數(shù)據(jù)流非線性特征重組方法,完成數(shù)據(jù)的布谷鳥搜索尋優(yōu),進(jìn)而實(shí)現(xiàn)分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)異常在線辨識(shí)。
為了更好地實(shí)現(xiàn)數(shù)據(jù)異常辨識(shí)[6],通過統(tǒng)計(jì)信息處理方法進(jìn)行信息統(tǒng)計(jì),同時(shí)使用期望頻繁項(xiàng)和概率頻繁項(xiàng)相結(jié)合的方式,獲取數(shù)據(jù)的挖掘信息,結(jié)合挖掘到的信息組建信息挖掘模型。利用寬平穩(wěn)隨機(jī)序列分析獲取分布式供熱管網(wǎng)運(yùn)行異常數(shù)據(jù)的特征分布式調(diào)度函數(shù),具體的表達(dá)形式如下
(11)
式中,xj(t)代表異常數(shù)據(jù)集中的平均信息熵取值;lj(t)代表異常數(shù)據(jù)集中的信息頻譜特征向量,主要通過學(xué)習(xí)樣本計(jì)算異常數(shù)據(jù)在第j個(gè)聚類中心的輸出標(biāo)簽屬性;N代表數(shù)據(jù)總量。
通過模糊關(guān)聯(lián)規(guī)則調(diào)度方法進(jìn)行統(tǒng)計(jì)特征分析,將全部分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)進(jìn)行初始化處理,獲取模糊聚類的中心點(diǎn)。其中,辨識(shí)數(shù)據(jù)對應(yīng)的模糊隸屬度函數(shù)能夠表示為F(xi,Aj(L)),通過空間欠采樣技術(shù)對數(shù)據(jù)的非線性特征進(jìn)行重組,獲取數(shù)據(jù)流融合的信息關(guān)聯(lián)度,具體的表達(dá)形式為
(12)
式中,γi代表信息關(guān)聯(lián)度;w代表聚類中心點(diǎn)總數(shù);Ni(t)代表信號振蕩頻率;xi代表數(shù)據(jù)聚類中心;δN代表譜信息。
通過提取網(wǎng)絡(luò)數(shù)據(jù)的信息熵,將獲取的全部信息進(jìn)行融合,即可獲取對應(yīng)采樣節(jié)點(diǎn)的數(shù)據(jù)時(shí)間序列。
在上述分析的基礎(chǔ)上,構(gòu)建分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)異常在線辨識(shí)模型[7,8],通過模型獲取多波束響應(yīng)函數(shù)δk,同時(shí)將其轉(zhuǎn)換為δik(t)
δik(t)=γiG(t)
(13)
上式中,G(t)代表數(shù)據(jù)安全等級。
選取少量的樣本類別數(shù)據(jù)作為測試對象,對其進(jìn)行特征提取,獲取空間信息融合模型,如式(13)所示
(14)
式中,xm(t)代表空間信息融合模型;nm代表測試對象數(shù)量。
在源域和目標(biāo)域空間中,針對采集到的全部數(shù)據(jù)特征進(jìn)行低緯度特征集組建,同時(shí)對分類任務(wù)進(jìn)行特征篩選,獲取多數(shù)據(jù)碼元元素的期望支持度esup(D),同時(shí)獲取模糊樣本集。在滿足約束條件的情況下,分類信息熵能夠滿足以下的約束條件
esup(D)=θ·xm(t)
(15)
通過模糊C均值聚類方法對數(shù)據(jù)中的異常信息進(jìn)行自適應(yīng)調(diào)節(jié),利用四元組結(jié)構(gòu)描述分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)的關(guān)聯(lián)特征。設(shè)定Xij代表信息素強(qiáng)度;Pij代表輸出優(yōu)化訓(xùn)練的最優(yōu)概率,通過譜聚類算法,獲取模糊聚類迭代,具體的計(jì)算式為
(16)
在數(shù)據(jù)特征提取模型的基礎(chǔ)上,進(jìn)行分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)異常在線辨識(shí)[9,10],同時(shí)引入布谷鳥搜索算法進(jìn)行尋優(yōu)。其中,數(shù)據(jù)進(jìn)行特征提取的迭代式可以表示為
(17)
結(jié)合數(shù)據(jù)異常分布狀態(tài)完成在線辨識(shí),其中經(jīng)過重組后的特征可以表示為
(18)
通過布谷鳥搜索算法,進(jìn)行數(shù)據(jù)異常在線辨識(shí)自適應(yīng)優(yōu)化,獲取最終的在線辨識(shí)結(jié)果
(19)
式中,S(k)代表系統(tǒng)參數(shù)。
為了驗(yàn)證所提分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)異常在線辨識(shí)算法的應(yīng)用性能,需要進(jìn)行仿真測試。將文獻(xiàn)[4]方法和文獻(xiàn)[5]方法作為對比方法,對比不同方法進(jìn)行對比驗(yàn)證。
1)查全率/%
為了驗(yàn)證算法在實(shí)際應(yīng)用的過程中,是否能夠?qū)θ繑?shù)據(jù)進(jìn)行辨識(shí),將查全率作為測試指標(biāo),其中查全率取值越大,說明算法的應(yīng)用效果越好,具體實(shí)驗(yàn)對比結(jié)果如圖3所示。
圖3 不同方法的查全率對比結(jié)果
分析圖3中的實(shí)驗(yàn)數(shù)據(jù)可知,當(dāng)測試樣本數(shù)量和運(yùn)行時(shí)間開始增加時(shí),各個(gè)方法的查全率均處于相對穩(wěn)定的狀態(tài)。但是相比另外兩種方法,所提算法的查全率明顯更高一些,充分說明所提算法的優(yōu)越性。
2)查準(zhǔn)率/%
為了驗(yàn)證辨識(shí)結(jié)果的準(zhǔn)確性,實(shí)驗(yàn)選取查準(zhǔn)率作為測試指標(biāo),其中查準(zhǔn)率越高,則說明數(shù)據(jù)異常被準(zhǔn)確辨識(shí)的概率就越大,具體實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同方法的查準(zhǔn)率對比
分析表1中實(shí)驗(yàn)數(shù)據(jù)可知,所提算法的查準(zhǔn)率明顯更高一些,主要是因?yàn)樗崴惴ㄍㄟ^基于貝葉斯的小包降噪方法對數(shù)據(jù)進(jìn)行去噪處理,全面剔除數(shù)據(jù)中的噪聲,避免噪聲對數(shù)據(jù)異常辨識(shí)產(chǎn)生的影響,全面提升了辨識(shí)結(jié)果的準(zhǔn)確性。
3)運(yùn)行時(shí)間/s
為了驗(yàn)證算法辨識(shí)速率的快慢,選取相同數(shù)量的樣本進(jìn)行數(shù)據(jù)異常在線辨識(shí),其中用時(shí)越短,則說明辨識(shí)速率越快,具體實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 不同方法的運(yùn)行時(shí)間對比結(jié)果
分析圖4中的實(shí)驗(yàn)數(shù)據(jù)可知,當(dāng)測試樣本數(shù)量開始持續(xù)增加,各個(gè)數(shù)據(jù)異常辨識(shí)方法的運(yùn)行時(shí)間也開始呈明顯的上升趨勢,同時(shí)上升幅度較大。而所提方法則處于平穩(wěn)上升的趨勢。但是和另外兩種方法相比,所提方法的運(yùn)行時(shí)間明顯低于另外兩種方法,充分說明所提方法能夠以較快的速度完成數(shù)據(jù)異常在線辨識(shí)。
由于傳統(tǒng)數(shù)據(jù)異常在線辨識(shí)方法存在的弊端,提出一種分布式供熱管網(wǎng)運(yùn)行數(shù)據(jù)異常在線辨識(shí)算法。仿真結(jié)果表明,所提算法能夠有效降低執(zhí)行時(shí)間,提升查全率和查準(zhǔn)率,獲取滿意的數(shù)據(jù)異常辨識(shí)結(jié)果。但是由于時(shí)間和精力有限,導(dǎo)致所提方法算法仍然存在不足,后續(xù)將對其進(jìn)行進(jìn)一步完善。