• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      圖記憶誘導(dǎo)的大氣排污時(shí)序數(shù)據(jù)異常檢測(cè)算法

      2023-07-07 10:21:00宋文燏周海波吳宗培李海員袁玉波
      關(guān)鍵詞:集上類別標(biāo)簽

      宋文燏,周海波,吳宗培,李海員,袁玉波

      (1.華東理工大學(xué)信息科學(xué)與工程學(xué)院, 上海 200237;2.河北新禾科技有限公司, 石家莊 050011)

      2021 年10 月24 日,國務(wù)院印發(fā)了《中共中央國務(wù)院關(guān)于完整準(zhǔn)確全面貫徹新發(fā)展理念做好碳達(dá)峰碳中和工作的意見》的文件,明確指出“大幅降低大氣污染排放水平”,以“碳中和”和“碳達(dá)峰”為概念的生態(tài)環(huán)境監(jiān)管治理上升至國家戰(zhàn)略。近些年,大氣污染監(jiān)管治理技術(shù)備受關(guān)注。以信息化或數(shù)據(jù)化技術(shù)為基礎(chǔ),針對(duì)企業(yè)申報(bào)的大氣排污數(shù)據(jù),如何有效地實(shí)時(shí)在線監(jiān)管大氣排污數(shù)據(jù)的變化是一個(gè)技術(shù)難題。通過模型提前預(yù)測(cè)或者分析當(dāng)下空氣質(zhì)量,可以防止造成不必要的污染排放等。

      按照國家環(huán)保部的標(biāo)準(zhǔn)要求,相關(guān)企業(yè)需要每小時(shí)申報(bào)一次大氣排污指標(biāo)數(shù)據(jù)。從數(shù)據(jù)角度看,大氣排污數(shù)據(jù)屬于多維度的時(shí)間序列。隨著機(jī)器學(xué)習(xí)算法的蓬勃發(fā)展,許多研究者將機(jī)器學(xué)習(xí)的方法應(yīng)用于時(shí)間序列領(lǐng)域,根據(jù)時(shí)間序列數(shù)據(jù)的特點(diǎn)提出了針對(duì)性的算法,如孤立森林算法(iForest)[1]和一類支持向量機(jī)算法(one-Class SVM)[2]。隨著算力的提升,深度學(xué)習(xí)算法被廣泛應(yīng)用,基于深度學(xué)習(xí)算法的時(shí)間序列分析方法,如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[3-4]和長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[5-7]開始出現(xiàn),基于生成對(duì)抗網(wǎng)絡(luò)(GAN)[8]的時(shí)間序列分析方法和基于自編碼器的時(shí)間序列分析方法也相繼被提出。

      孤立森林算法可用于無監(jiān)督的時(shí)間序列異常檢測(cè)[1,9-10]。一類支持向量機(jī)算法非常適合奇異值檢測(cè)[2,11-13]。然而,傳統(tǒng)時(shí)間序列檢測(cè)方法只能提取淺層時(shí)序特征,效率低,并且精度也滿足不了要求。隨著深度學(xué)習(xí)的不斷發(fā)展,許多學(xué)者將神經(jīng)網(wǎng)絡(luò)等技術(shù)用于時(shí)間序列檢測(cè)異常,該技術(shù)的研究主要分為兩類:一類基于預(yù)測(cè),另一類基于重構(gòu)?;陬A(yù)測(cè)的模型首先對(duì)時(shí)間序列進(jìn)行預(yù)測(cè),然后通過實(shí)際值與預(yù)測(cè)值的殘差來檢測(cè)異常[14-17]。隨著機(jī)器異常行為的不斷變化,基于預(yù)測(cè)的時(shí)間序列異常檢測(cè)方法的效果越來越難以提升。基于重構(gòu)的模型假設(shè)在對(duì)序列數(shù)據(jù)進(jìn)行重構(gòu)后僅較少部分的異常數(shù)據(jù)會(huì)被丟失,如果重構(gòu)后的數(shù)據(jù)與原始數(shù)據(jù)存在較大的差異,則為異常數(shù)據(jù)[8,18-21]。當(dāng)前企業(yè)的排污時(shí)間序列異常檢測(cè)存在以下難點(diǎn)和問題:(1)異常標(biāo)注困難;(2)長(zhǎng)時(shí)間序列異常檢測(cè)效果不佳;(3)采用深度網(wǎng)絡(luò)進(jìn)行異常檢測(cè)對(duì)性能要求高,且存在較高的時(shí)間復(fù)雜度。

      本文針對(duì)上述問題采用了有標(biāo)簽樣本與無標(biāo)簽樣本相結(jié)合的方式,降低了標(biāo)注樣本所耗費(fèi)的人力,同時(shí),將時(shí)間序列進(jìn)行分片,將粒度放大,然后采用圖記憶網(wǎng)絡(luò)進(jìn)行特征的編碼與分類,在提高檢測(cè)效果的同時(shí)降低了時(shí)間復(fù)雜度。

      1 圖記憶誘導(dǎo)的大氣排污異常檢測(cè)

      1.1 算法流程

      本文提出的圖記憶誘導(dǎo)的大氣排污時(shí)序數(shù)據(jù)異常檢測(cè)(IMI-TSA)算法的流程圖如圖1 所示。具體步驟如下:首先,將傳感器采集到的數(shù)據(jù)進(jìn)行預(yù)處理,并將預(yù)處理后的數(shù)據(jù)進(jìn)行分窗操作;然后,結(jié)合專家判斷等手段對(duì)分窗后的數(shù)據(jù)進(jìn)行部分標(biāo)注,有標(biāo)注的樣本為有標(biāo)簽樣本,沒有標(biāo)注的樣本為無標(biāo)簽樣本。將有標(biāo)簽樣本輸入圖記憶網(wǎng)絡(luò)得到特征向量和類別向量,分別為圖1 中藍(lán)色部分和橙色部分,并將數(shù)據(jù)的特征向量和類別向量的向量中心進(jìn)行記憶,利用該記憶預(yù)測(cè)無標(biāo)簽數(shù)據(jù)的類別,達(dá)到充分利用無標(biāo)簽和有標(biāo)簽樣本共同訓(xùn)練網(wǎng)絡(luò)的效果;最后,通過訓(xùn)練好的網(wǎng)絡(luò)識(shí)別出異常的時(shí)間段。

      本文算法的關(guān)鍵思想是通過將時(shí)間序列轉(zhuǎn)化成圖的方式來識(shí)別其特征,通過卷積提取有標(biāo)簽樣本的特征向量,并與圖記憶分類器得到的類別向量組合構(gòu)成有一定結(jié)構(gòu)的記憶,通過這種圖與記憶的方式進(jìn)行時(shí)間序列的異常檢測(cè)。

      1.2 數(shù)據(jù)采集與描述

      表1 給出了某企業(yè)2018 年1 月1 日0 點(diǎn)到9 點(diǎn)申報(bào)的排污數(shù)據(jù),具體指標(biāo)有二氧化硫(SO2)、一氧化碳(CO)、二氧化氮(NO2)的平均質(zhì)量濃度以及PM10與PM2.5。

      表1 大氣排污申報(bào)數(shù)據(jù)案例Table 1 Declaration data of atmospheric pollutant emission

      將申報(bào)的排污時(shí)間序列數(shù)據(jù)記為:

      其中c為企業(yè)編號(hào);xc(i) 表示企業(yè)c第i次上報(bào)的數(shù)據(jù),xc(i)∈Rnc;nc表示企業(yè)c所申報(bào)數(shù)據(jù)的維度,如企業(yè)c有3 個(gè)排口、5 種指標(biāo),則nc=3×5=15 ;Tc代表企業(yè)c申報(bào)時(shí)間序列的長(zhǎng)度。

      本文所用數(shù)據(jù)均為企業(yè)申報(bào)的真實(shí)排污數(shù)據(jù),時(shí)間跨度約為2.5 a,排污數(shù)據(jù)每小時(shí)上報(bào),總計(jì)約21 168個(gè)時(shí)間戳。在進(jìn)行異常檢測(cè)時(shí),如果針對(duì)點(diǎn)進(jìn)行異常檢測(cè),其效果并不理想,且點(diǎn)異常的標(biāo)注工作量巨大。同時(shí),工業(yè)生產(chǎn)也存在一定的周期性。所以本文將原始的時(shí)間序列數(shù)據(jù)按照工業(yè)生產(chǎn)的周期進(jìn)行切分,將切分后的時(shí)間片序列記為,其定義如下:

      其中Kc表示企業(yè)c按照工業(yè)生產(chǎn)周期申報(bào)的數(shù)據(jù)長(zhǎng)度,表示第k個(gè)片段上報(bào)的排污數(shù)據(jù),具體定義如下:

      其中Tk表示第k個(gè)工業(yè)生產(chǎn)周期內(nèi)申報(bào)時(shí)間序列的長(zhǎng)度,如果按照每小時(shí)申報(bào)一次數(shù)據(jù),生產(chǎn)周期為7 d,則Tk=7×24=168 。實(shí)際上企業(yè)有可能漏報(bào)數(shù)據(jù),會(huì)出現(xiàn)Tk<168 的情況。

      1.3 時(shí)序異常數(shù)據(jù)定義

      對(duì)于在環(huán)保監(jiān)管部門管理范圍內(nèi)的企業(yè),定義標(biāo)準(zhǔn)申報(bào)數(shù)據(jù)如下:

      其中Xcnormal(t) 表示企業(yè)c在生產(chǎn)周期內(nèi)的正常申報(bào)序列;xcnormal(i)為企業(yè)c在第i時(shí)刻正常申報(bào)數(shù)據(jù)的標(biāo)準(zhǔn)數(shù)據(jù),xcnormal(i)∈Rnc;Tnormal為標(biāo)準(zhǔn)時(shí)間序列的長(zhǎng)度。

      其中fcnormal(i) 表示企業(yè)c在第i時(shí)刻預(yù)期內(nèi)的正常申報(bào)數(shù)據(jù),εcnormal(i) 表示企業(yè)c在第i時(shí)刻正常申報(bào)數(shù)據(jù)的準(zhǔn)許誤差范圍。

      定義X(t) 為異常序列,則

      其中 α 是異常判定專家值,在應(yīng)用過程中可由專家給定或者通過實(shí)際排查的異常序列用統(tǒng)計(jì)分析方法得出;‖·‖*為模型的范數(shù)。

      由于實(shí)際生產(chǎn)線數(shù)據(jù)的情況復(fù)雜,輸入序列X(t)的長(zhǎng)度與Tnormal不相等,此時(shí)模型(6)的范數(shù)‖·‖*使用動(dòng)態(tài)時(shí)間序列規(guī)整距離[22]表示,

      圖2 和圖3 分別為點(diǎn)異常與上下文異常這兩種異常序列的示例圖。圖2 所示在0~25 h 內(nèi)有一個(gè)異常點(diǎn),其數(shù)值高于其余點(diǎn)的均值。圖3 所示在75~100 h 內(nèi)有一個(gè)點(diǎn)突變,而且其上下文也發(fā)生了變化,變化后的數(shù)據(jù)有自己的變化規(guī)律,該變化規(guī)律與原來數(shù)據(jù)變化規(guī)律不同。上下文異常是本文主要檢測(cè)的一種異常,企業(yè)生產(chǎn)規(guī)模突然發(fā)生變化或者企業(yè)排污系統(tǒng)出現(xiàn)了問題均會(huì)導(dǎo)致上下文異常,針對(duì)這種異常的檢測(cè)可以有效防止安全事故的發(fā)生,且可以規(guī)范企業(yè)的排污行為。

      圖2 點(diǎn)異常示例圖Fig.2 Example diagram of point exception

      圖3 上下文異常示例圖Fig.3 Example diagram of context exceptions

      1.4 圖記憶方法

      圖記憶方法使用直觀圖像代替復(fù)雜數(shù)據(jù)序列,使得記憶變得簡(jiǎn)單和容易喚醒,常用于復(fù)雜事物的記憶領(lǐng)域。本文引入圖記憶方法用于復(fù)雜時(shí)間序列的圖記憶表達(dá)。

      對(duì)于X(t) ,通過圖記憶編碼器對(duì)其進(jìn)行編碼得到與其對(duì)應(yīng)的隱含空間向量,該空間向量是一個(gè)64×3的向量,將其轉(zhuǎn)化成 8×8×3 的形式,并將結(jié)果映射到0~255 區(qū)間內(nèi),然后進(jìn)行可視化,可以得到如圖4 所示的一個(gè)色塊。

      圖4 映射結(jié)果例圖Fig.4 Example of mapping results

      式(8)中G(·) 表示圖記憶編碼器;E∈{El,Eu},El為有標(biāo)簽樣本編碼后對(duì)應(yīng)的隱含空間向量,El={e1,l,e2,l,···,enl,l}∈Rd×nl,Eu為無標(biāo)簽樣本編碼后對(duì)應(yīng)的隱含特征空間向量,Eu={e1,u,e2,u,···,enu,u}∈Rd×nu,其中d為隱含特征空間向量的維度,有標(biāo)簽的樣本編碼后得到的隱含特征空間會(huì)加入記憶模塊。

      通過圖記憶編碼器獲得時(shí)間序列的特征后,再經(jīng)過一個(gè)分類器,輸出每個(gè)樣本的類別概率分布。

      其中W(·) 表示分類器模型;P∈{Pl,Pu},Pl為有標(biāo)簽樣本的預(yù)測(cè)類別概率,Pl={p1,l,p2,l,···,pnl,l}∈R2×nl,Pu為無標(biāo)簽樣本的預(yù)測(cè)類別概率,Pu={p1,u,p2,u,···,pnu,u}∈R2×nu。有標(biāo)簽樣本的預(yù)測(cè)類別會(huì)加入記憶模塊與有標(biāo)簽樣本的隱含特征空間共同構(gòu)成記憶模塊。記憶模塊可以將從有標(biāo)簽樣本中學(xué)習(xí)到的信息結(jié)構(gòu)化進(jìn)行存儲(chǔ),然后用來提升后續(xù)任務(wù)的性能。在記憶模塊中,每次只通過有標(biāo)簽樣本來動(dòng)態(tài)地更新特征向量與類別概率向量,無標(biāo)簽樣本對(duì)記憶模塊的更新沒有任何影響。記憶模塊更新由兩個(gè)部分組成:特征空間向量K={k0,k1} 和類別概率分布向量V={v0,v1},ki∈Rd表示第i類的概率分布中心,vi∈R2表示第i類的類別概率分布中心,i∈{0,1} 。具體更新公式如下:

      其中,η 為更新系數(shù),1[y=i] 表示指示函數(shù),ni為類別i中樣本的數(shù)量,ej,l表示有標(biāo)簽樣本中第j個(gè)樣本編碼后的隱含空間向量,pj,l表示有標(biāo)簽樣本中第j個(gè)樣本的類別概率。在不引入任何先驗(yàn)知識(shí)的情況下,將K中的元素都初始化為0,將V中的元素都初始化為0.5。

      1.5 圖記憶誘導(dǎo)的大氣排污異常檢測(cè)模型

      通過有標(biāo)簽樣本學(xué)習(xí)到的知識(shí),可以進(jìn)一步獲得無標(biāo)簽樣本預(yù)測(cè)的類別概率向量,且通過該概率向量可決定最后的樣本類別。

      其中w(ki|x) 表示根據(jù)樣本的特征向量e到每個(gè)類別中心ki的距離得到的權(quán)重;dist(·) 表示距離函數(shù),本文采用的是余弦距離。

      1.6 模型目標(biāo)函數(shù)

      本文將訓(xùn)練模型階段分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),有監(jiān)督學(xué)習(xí)采用信息熵?fù)p失:

      無監(jiān)督學(xué)習(xí)采用信息熵與KL 散度結(jié)合的方式:

      因此,無監(jiān)督學(xué)習(xí)損失為:

      其中 μ1和 μ2表示信息熵與KL 散度之間的權(quán)衡系數(shù)。

      模型的損失函數(shù)為有監(jiān)督與無監(jiān)督損失之和:

      其中 α 和 β 分別表示訓(xùn)練樣本中對(duì)有標(biāo)簽與無標(biāo)簽數(shù)據(jù)的重視程度。在沒有任何先驗(yàn)知識(shí)的情況下,本文初始化 α ,β 均為0.5。在模型訓(xùn)練過程中需要加入記憶模塊;在測(cè)試階段只需要用訓(xùn)練好的模型來獲取最后的類別概率向量,不再需要加入記憶模塊,從而減少了存儲(chǔ)和額外的計(jì)算消耗。

      2 算法設(shè)計(jì)與分析

      2.1 算法流程

      圖記憶誘導(dǎo)的大氣排污時(shí)序數(shù)據(jù)異常檢測(cè)算法描述如下:

      輸入:有標(biāo)簽樣本Xl,有標(biāo)簽樣本標(biāo)簽Yl,無標(biāo)簽樣本Xu,批處理數(shù)(batchsize ),迭代次數(shù)(epoch )

      輸出:異常類別特征

      其中 MemoryNet(·) 表示圖記憶網(wǎng)絡(luò),通過圖記憶網(wǎng)絡(luò)可以得到特征向量el和類別向量pl,然后更新記憶模塊的特征中心向量ki和類別中心向量vi,i表示所屬類別。通過有標(biāo)簽的樣本得到記憶后,利用得到的記憶來預(yù)測(cè)無標(biāo)簽樣本的類別,通過圖記憶網(wǎng)絡(luò)可以得到無標(biāo)簽樣本的特征向量eu和類別向量pu,然后計(jì)算出eu到ki的距離di,通過di計(jì)算出各個(gè)類別的權(quán)重系數(shù)wi,wi與vi相乘并求和,最后得到通過記憶預(yù)測(cè)的類別向量pu,將pu作為無標(biāo)簽樣本的類別概率。

      2.2 復(fù)雜度分析

      IMI-TSA 算法主要由圖記憶編碼器、分類器和記憶模塊組成。圖記憶編碼器輸入的是一段序列,由卷積神經(jīng)網(wǎng)絡(luò)捕獲序列時(shí)間與空間上的特征,然后通過分類器將獲取到的特征映射到類別概率空間中,最后通過記憶模塊將從有標(biāo)簽樣本中學(xué)習(xí)到的知識(shí)存儲(chǔ)起來。為了提高分類速度,本文采用的模型是淺層網(wǎng)絡(luò),具體而言,圖記憶編碼器包括1 個(gè)全連接模塊,2 個(gè)卷積模塊,其中卷積子模塊中包含1 個(gè)二維卷積層、1 個(gè)池化層和1 個(gè)激活函數(shù),分類器則是由3 個(gè)全連接模塊構(gòu)成,其中每個(gè)全連接子模塊中分別包含1 個(gè)線性層、1 個(gè)dropout 層和1 個(gè)激活函數(shù)。

      IMI-TSA 的時(shí)間復(fù)雜度為O(n) ,其中n為輸入樣本的數(shù)量級(jí)。

      3 實(shí)驗(yàn)結(jié)果及分析

      3.1 數(shù)據(jù)集

      本文從水泥、煉焦、鋼鐵和玻璃制造4 個(gè)行業(yè)中各選取2 個(gè)企業(yè)為代表,針對(duì)這8 個(gè)企業(yè)的大氣排放濃度均值指標(biāo)進(jìn)行實(shí)驗(yàn),該指標(biāo)的數(shù)據(jù)總共有21 168個(gè)時(shí)間戳,每個(gè)時(shí)間戳以小時(shí)為單位。

      首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,包括負(fù)值修正和填充缺失;然后通過一個(gè)異常標(biāo)注器對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行異常點(diǎn)標(biāo)注;最后將標(biāo)注后的數(shù)據(jù)進(jìn)行分窗處理,窗口大小設(shè)置為7 d,即168 個(gè)時(shí)間戳,滑動(dòng)窗口的步長(zhǎng)設(shè)置為84,通過分窗后得到250 個(gè)樣本作為實(shí)驗(yàn)數(shù)據(jù)。由于滑動(dòng)窗口的設(shè)置會(huì)影響樣本數(shù)量以及最終模型的效果,滑動(dòng)窗口步長(zhǎng)越小,分窗后得到的樣本數(shù)量越多,結(jié)合本文所針對(duì)的實(shí)際問題以及最終效果綜合考慮,選擇了效果較優(yōu)的步長(zhǎng)。對(duì)分窗后的時(shí)間序列進(jìn)行標(biāo)注,如果該窗口的時(shí)間序列標(biāo)注中包含一個(gè)或多個(gè)異常點(diǎn)時(shí),則這段時(shí)間序列被標(biāo)注為異常。

      數(shù)據(jù)標(biāo)注完成后,將其中175 個(gè)樣本作為訓(xùn)練集數(shù)據(jù),75 個(gè)樣本作為測(cè)試集數(shù)據(jù)。為了還原工業(yè)背景,實(shí)際有標(biāo)注的數(shù)據(jù)極少,故在訓(xùn)練集中只有70 個(gè)樣本帶有標(biāo)簽,剩余105 個(gè)樣本無標(biāo)簽。表2給出了訓(xùn)練集和測(cè)試集的異常樣本數(shù)量以及測(cè)試集和訓(xùn)練集總的樣本數(shù)量。

      表2 異常樣本分布Table 2 Distribution of abnormal samples

      3.2 對(duì)比方法與實(shí)驗(yàn)設(shè)置

      為了檢驗(yàn)IMI-TSA 算法的可行性與優(yōu)越性,選取了以下4 個(gè)方法進(jìn)行對(duì)比。

      (1)K 近鄰(KNN):KNN 算法取每個(gè)樣本周圍大小為3 鄰域的樣本點(diǎn)。

      (2)支持向量機(jī)(SVM):SVM 算法采用的懲罰參數(shù)設(shè)置為1,核函數(shù)為徑向基函數(shù),設(shè)置值為20,其他參數(shù)為Sklearn 包的默認(rèn)值。

      (3)淺層的全卷積網(wǎng)絡(luò)(FCN):FCN 算法采用3 層卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),每層網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)跟本文方法卷積子層的內(nèi)部結(jié)構(gòu)相同。IMI-TSA 算法以及FCN 算法的訓(xùn)練模型設(shè)置為32,優(yōu)化器采用隨機(jī)梯度下降進(jìn)行參數(shù)優(yōu)化,學(xué)習(xí)率大小初始值0.1,學(xué)習(xí)率采用步長(zhǎng)衰減的方式進(jìn)行更新,衰減率為0.95,衰減步長(zhǎng)為10。

      (4)TADGAN(Time-series Anomaly Detection using Generative Adversarial Networks):TADGAN 算法停用了70%的數(shù)據(jù),即14 818 個(gè)時(shí)間戳,在剔除異常樣本點(diǎn)后用于模型的訓(xùn)練,其中訓(xùn)練模型的epoch設(shè)置為40,batch size 設(shè)置為168。TADGAN 算法訓(xùn)練完成后,用訓(xùn)練好的模型對(duì)訓(xùn)練集和測(cè)試集的樣本進(jìn)行異常檢測(cè),如檢測(cè)有異常則標(biāo)注為1,檢測(cè)沒有異常則標(biāo)注為0。

      3.3 評(píng)價(jià)指標(biāo)

      采用準(zhǔn)確率(A)、精確率(P)、召回率(R)和f1值作為算法檢測(cè)性能的評(píng)價(jià)指標(biāo)。

      其中T1表示預(yù)測(cè)為異常且實(shí)際結(jié)果也異常的樣本數(shù)量,T2表示預(yù)測(cè)為正常且實(shí)際結(jié)果也正常的樣本數(shù)量,F(xiàn)1表示預(yù)測(cè)結(jié)果為異常但實(shí)際為正常的樣本數(shù)量,F(xiàn)2表示預(yù)測(cè)為正常但實(shí)際結(jié)果為異常的樣本數(shù)量。

      3.4 實(shí)驗(yàn)結(jié)果

      不同算法對(duì)水泥行業(yè)中企業(yè)1、2 數(shù)據(jù)集的分類效果如表3 所示。對(duì)于企業(yè)1,IMI-TSA、KNN 和FCN算法在訓(xùn)練集上的分類效果較優(yōu),在保持較高的準(zhǔn)確率和精確率的條件下?lián)碛休^高的召回率和f1 值,其中IMI-TSA 算法極大地提高了召回率和f1 值。TADGAN 算法的召回率最高,但是其精確率較低,說明該算法找出異常比較全,但對(duì)異常過于敏感。雖然IMI-TSA 算法的召回率比TADGAN 算法低了0.13,但是IMI-TSA 算法的整體效果較優(yōu)。在測(cè)試集上,IMI-TSA 算法的f1 值超過0.60,能夠比其他模型更好地學(xué)習(xí)到時(shí)間序列的特征并有更佳的分類效果。

      表3 不同算法對(duì)水泥行業(yè)數(shù)據(jù)集的分類效果Table 3 Classification of different algorithms on data set in cement industry

      在時(shí)間復(fù)雜度上,不管是訓(xùn)練集還是測(cè)試集,TADGAN 算法最耗時(shí),KNN 算法和SVM 算法耗時(shí)較少,IMI-TSA 算法雖然比KNN 算法和SVM 算法耗時(shí)要多一些,但是比它們擁有更優(yōu)的分類效果。FCN 算法有較好的分類效果,但是IMI-TSA算法比其節(jié)省了更多時(shí)間,并且在分類效果上也比FCN 算法有所提升。

      對(duì)于水泥行業(yè)中企業(yè)2,在訓(xùn)練集和測(cè)試集上,IMI-TSA 算法和FCN 算法的分類效果較優(yōu),在保持較高的準(zhǔn)確率和精確率的條件下?lián)碛休^高的召回率和f1 值,IMI-TSA 算法相比FCN 算法,有更高召回率和f1 值,耗時(shí)也更少。

      從水泥行業(yè)這兩個(gè)企業(yè)的結(jié)果來看,IMI-TSA算法在f1 值上能夠保持較好的水平,雖然耗時(shí)上相比于機(jī)器學(xué)習(xí)算法略有差距,但是相較于同等級(jí)的深度學(xué)習(xí)算法FCN 算法和TADGAN 算法,在時(shí)間上的優(yōu)勢(shì)還是較為明顯的。

      不同算法對(duì)煉焦行業(yè)中企業(yè)3、4 數(shù)據(jù)集的分類效果如表4 所示。對(duì)于企業(yè)3,IMI-TSA 算法的召回率和f1 值明顯高于其他算法,TADGAN 算法雖然有較高的召回率,但是其準(zhǔn)確率、精確率和f1 值都較低,把較多的正常樣本分類為異常,而其他的算法在測(cè)試集上的召回率和f1 值由于數(shù)據(jù)的不平衡導(dǎo)致其效果非常不好。FCN、SVM和KNN 算法都能比較精準(zhǔn)地找出異常但是找得并不完全,所以數(shù)據(jù)不均衡較為嚴(yán)重時(shí),其效果會(huì)降低,f1 值最高只能達(dá)到0.50 左右,如SVM 算法在該行業(yè)中的精確率和召回率出現(xiàn)了0 的現(xiàn)象,說明該算法沒有找出異常樣本。IMI-TSA 算法在數(shù)據(jù)不均衡的情況下,能有比較好的效果,保持較高準(zhǔn)確率、精確率以及召回率,同時(shí)f1 值也最佳。雖然IMI-TSA 算法在時(shí)間消耗上相較于KNN 和SVM 算法略有差距,但其差距仍在可接受范圍內(nèi)。

      表4 不同算法對(duì)煉焦行業(yè)數(shù)據(jù)集的分類效果Table 4 Classification of different algorithms on data set in coking industry

      企業(yè)4 的異常樣本數(shù)量較企業(yè)3 稍多些,SVM算法的精確率和召回率并沒有出現(xiàn)0 的現(xiàn)象,由此可以說明SVM 算法在數(shù)據(jù)樣本不均衡較嚴(yán)重的情況下的穩(wěn)定性不好;由測(cè)試集上的召回率和f1 值可以看出,IMI-TSA 算法更優(yōu)。相較于SVM、KNN 算法,F(xiàn)CN 算法在處理不平衡數(shù)據(jù)時(shí)性能相對(duì)穩(wěn)定,但是時(shí)間消耗略高。TADGAN 算法在異常樣本數(shù)較少的情況下,召回率和精確率都有所下降,導(dǎo)致f1 值較低。

      煉焦行業(yè)中的數(shù)據(jù)樣本不均衡情況最為嚴(yán)重,F(xiàn)CN 算法在訓(xùn)練集上的效果較好;TADGAN 算法對(duì)異常過于敏感,在異常樣本數(shù)量下降后,其效果也隨之降低,f1 值在測(cè)定集上只能保持在0.20 左右;而IMI-TSA 算法召回率和f1 值均比訓(xùn)練集低,但是能保持比較穩(wěn)定的水平。

      不同算法對(duì)玻璃制造企業(yè)5、6 數(shù)據(jù)集的分類效果如表5 所示。企業(yè)5 的異常樣本數(shù)據(jù)最多,異常數(shù)據(jù)占了30%~40%。

      表5 不同算法對(duì)玻璃行業(yè)數(shù)據(jù)集的分類效果Table 5 Classification of different algorithms on data set in glass industry

      與企業(yè)1~4 相比,SVM 算法在企業(yè)5 的訓(xùn)練集上的召回率和f1 值均有提升,IMI-TSA算法的召回率和f1 值在測(cè)試集和訓(xùn)練集上都能保持在0.60~0.70,說明在異常數(shù)據(jù)量較多的情況下,IMI-TSA 算法在測(cè)試集上能比較好地學(xué)習(xí)到數(shù)據(jù)的特征。TADGAN 算法在異常樣本數(shù)較多的情況下,在訓(xùn)練集和測(cè)試集上的召回率均超過了0.90,且f1 值也較高。對(duì)于企業(yè)6,IMI-TSA 算法在召回率和f1 值上較優(yōu),其異常樣本數(shù)量較企業(yè)5 有所減少,但在測(cè)試集上的效果有所下降。

      在玻璃制造業(yè)中,企業(yè)5、6 的異常樣本數(shù)量較多,IMI-TSA 算法在訓(xùn)練集上的f1 值還能保持在0.60~0.70,TADGAN 算法在訓(xùn)練集和測(cè)試集上的效果較異常樣本數(shù)量較少時(shí)有所提升。由此可見,在樣本較為平衡的情況下,IMI-TSA 算法性能較佳,且在數(shù)據(jù)分布不平衡的情況下,也能夠保持較為穩(wěn)定的效果。

      不同算法對(duì)鋼鐵行業(yè)中企業(yè)7、8 數(shù)據(jù)集的分類效果如表6 所示。對(duì)于企業(yè)7,IMI-TSA 算法的召回率和f1 值在訓(xùn)練集上分別保持在0.60 和0.70 左右;在測(cè)試集上,召回率和f1 值分別為0.50 和0.70 左右。相較于KNN 和SVM 算法,IMI-TSA 算法在訓(xùn)練集和測(cè)試集上的效果都明顯更佳。TADGAN 算法雖有較高的召回率,但其總體效果不佳,且時(shí)間消耗較高。

      表6 不同算法對(duì)鋼鐵行業(yè)數(shù)據(jù)集的分類效果Table 6 Classification of different algorithms on data set in iron and steel industry

      對(duì)于企業(yè)8,IMI-TSA 算法在訓(xùn)練集上的召回率和f1 值分別為0.75 與0.77,其在測(cè)試集上的召回率和f1 值分別為0.69 與0.71,較企業(yè)7 的效果有所提升,且企業(yè)8 的數(shù)據(jù)平衡性比企業(yè)7 高,所以在測(cè)試集上的召回率和f1 值都有所提升。

      結(jié)合鋼鐵行業(yè)兩個(gè)企業(yè)的結(jié)果來看,TADGAN算法都能保持較高的召回率,但其對(duì)于異常過于敏感,在異常樣本量較少情況下,整體效果不佳。KNN和SVM 算法能夠有較高的準(zhǔn)確率和精確率,但是其召回率較低,整體效果略低,F(xiàn)CN 和IMI-TSA 算法的準(zhǔn)確率與SVM、KNN 算法相近,但精確率有所下降,召回率有所提升,整體效果高于SVM、KNN 算法,而IMI-TSA 算法的整體效果比FCN 算法略高,且時(shí)間消耗也更少。

      綜合以上不同算法對(duì)8 個(gè)企業(yè)數(shù)據(jù)集的整體效果,TADGAN 算法對(duì)于異常過于敏感,在異常樣本數(shù)量較多的情況下效果提升明顯,但是當(dāng)異常樣本數(shù)較少時(shí),總體效果不佳。SVM 和KNN 算法對(duì)于異常并不敏感,在異常樣本數(shù)量較少時(shí),其召回率較低,F(xiàn)CN 與IMI-TSA 算法的效果較為穩(wěn)定,但I(xiàn)MI-TSA算法的整體效果優(yōu)于FCN 算法。時(shí)間消耗上,TADGAN算法的時(shí)間消耗最高,SVM 和KNN 算法的時(shí)間消耗最低,IMI-TSA 與FCN 算法時(shí)間消耗處于兩者之間,IMI-TSA 算法比FCN 算法更節(jié)省時(shí)間。

      4 結(jié)束語

      IMI-TSA 算法用有標(biāo)簽樣本建立有結(jié)構(gòu)的記憶,然后利用樣本間的特征與類別的關(guān)聯(lián)性通過記憶來獲得無標(biāo)簽樣本的類別,并通過有標(biāo)簽樣本與無標(biāo)簽樣本結(jié)合共同完成時(shí)間序列異常檢測(cè)任務(wù)。

      采用IMI-TSA 算法在8 個(gè)企業(yè)的生態(tài)環(huán)保數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),準(zhǔn)確率都達(dá)到了80%以上,并且在測(cè)試集上f1 值達(dá)到了60%以上。相較于其他算法,IMI-TSA 算法在不均衡數(shù)據(jù)上也能較為穩(wěn)定地捕獲數(shù)據(jù)特征,并且具有較好的效果,但仍然存在局限性。IMI-TSA 算法在時(shí)間段上進(jìn)行異常檢測(cè)時(shí),粒度不夠精細(xì),所以在接下來的研究中,將結(jié)合粒度更加細(xì)的模型共同完成異常檢測(cè)的任務(wù)。

      猜你喜歡
      集上類別標(biāo)簽
      Cookie-Cutter集上的Gibbs測(cè)度
      鏈完備偏序集上廣義向量均衡問題解映射的保序性
      無懼標(biāo)簽 Alfa Romeo Giulia 200HP
      車迷(2018年11期)2018-08-30 03:20:32
      不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
      海峽姐妹(2018年3期)2018-05-09 08:21:02
      復(fù)扇形指標(biāo)集上的分布混沌
      標(biāo)簽化傷害了誰
      服務(wù)類別
      基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      饶河县| 乌鲁木齐市| 松原市| 巢湖市| 仙桃市| 荔波县| 奉新县| 玛纳斯县| 双柏县| 嵊泗县| 原阳县| 陆河县| 库车县| 永泰县| 忻城县| 枞阳县| 宁安市| 运城市| 萨嘎县| 黔南| 黔西| 韩城市| 汕头市| 久治县| 册亨县| 慈溪市| 苏尼特右旗| 治多县| 新巴尔虎左旗| 宁安市| 太和县| 启东市| 六安市| 台州市| 密云县| 宝山区| 宝坻区| 麻江县| 含山县| 康乐县| 吉首市|