張 逸,姚文旭,邵振國,張良羽
(福州大學電氣工程與自動化學院,福建省 福州市 350108)
在中國生態(tài)文明建設不斷推進過程中,大數據、云計算等技術手段已逐步應用于污染治理、氣候預測等生態(tài)環(huán)境領域,成為推進環(huán)境治理體系現代化的重要方式[1-2],數字環(huán)保與智慧環(huán)保體系在環(huán)境治理應用與環(huán)保產業(yè)轉型上將發(fā)揮重要作用[3-4]。
在企業(yè)的污染與環(huán)保工況監(jiān)測問題上,傳統(tǒng)方案常采用監(jiān)測末端水、氣的方式,判定企業(yè)污染排放是否超標,但許多企業(yè)僅在定期監(jiān)管檢查時應付治理,監(jiān)測缺乏實時性。在智慧環(huán)保的背景下,相關人工智能計算方法也應用到了重點企業(yè)污染排放物的監(jiān)測分析中[5],而這些方案成本較高、適用范圍較小。近年來,考慮到電力數據具有實時性好、可挖掘價值高等特點[6],相關部門運用電力數據來開展環(huán)保與污染治理工作,文獻[7-8]通過在污染源企業(yè)中的產污、治污、排污等設施處分別安裝電力監(jiān)測裝置,利用用電數據判斷各個設備是否啟用,進而判定環(huán)保情況。但此類方案需要對企業(yè)中與污染相關的設備一一監(jiān)測,是一種侵入式的監(jiān)測方式。當企業(yè)內部設備眾多時,用電監(jiān)測設備的數量也隨之增加,用電線路改造也相應復雜,對生產影響較大,需要企業(yè)配合較多。
隨著大數據分析與機器學習等技術發(fā)展,非侵入式負荷監(jiān)測(non-intrusive load monitoring,NILM)受到了廣泛的研究與應用[9-10]。NILM 是一種在用戶用電入口處監(jiān)測用電數據,通過事件檢測、特征提取等方法分解出各用電負荷情況的監(jiān)測方法[11-12]。本文研究擬借鑒NILM 思路,使用產污、治污設備所在生產單元電氣入口處的用電數據,識別企業(yè)環(huán)保情況,以克服侵入式監(jiān)測的不足。
針對工業(yè)企業(yè)的NILM 場景,由于生產環(huán)節(jié)復雜,涉及用電設備種類與數量眾多,難以實現完整的負荷分解過程,相關的研究與應用中常是根據實際需求合理簡化。文獻[13]中將完整的企業(yè)負荷分解,縮小至以廠房為單位,實現廠房內各個設備的能耗監(jiān)測;文獻[14]將工業(yè)負荷投切時的用電波形與模板進行匹配,識別不同的負荷投切事件??紤]到污染企業(yè)的環(huán)保監(jiān)測任務是針對“生產排污時環(huán)保環(huán)節(jié)正常投入”“生產排污時環(huán)保環(huán)節(jié)未投入”等直接反映環(huán)保正常與否的工況進行識別,因此,本文在實際污染企業(yè)場景,將完整的負荷功率識別任務轉換為對環(huán)保工況類別的識別。
關于數據需求方面,在傳統(tǒng)NILM 中,要想較精準地識別各負荷情況,常需要利用1 kHz 以上的高頻采樣波形數據,并從中提取諧波、電壓-電流軌跡等特征進行計算[15],但高頻的數據又面臨測量采集要求與長期存儲成本較高的問題。隨著對電能質量問題的重視,電網與用戶兩側均安裝了大量在線電能質量監(jiān)測裝置,其監(jiān)測數據具有特征類型多、頻率相對較高、在長期應用過程中監(jiān)測相對穩(wěn)定可靠等特點[16-18],故本文采用企業(yè)的電能質量監(jiān)測數據作為后續(xù)工況分析識別的數據源。
綜上,本文針對環(huán)境污染企業(yè)的環(huán)保監(jiān)測問題,采用非侵入監(jiān)測方案,將企業(yè)環(huán)保監(jiān)測問題轉化為對環(huán)保工況的分類與識別?;陔娔苜|量監(jiān)測數據,首先,對表征生產工況的特征數據進行時序變點檢測與聚類,實現企業(yè)總體生產工況的劃分,進而提取環(huán)保工況類別;然后,采用Stacking 分類模型,對環(huán)保相關的工況進行分類學習,識別出環(huán)保環(huán)節(jié)異常的工況;最后,利用所訓練的工況分類模型識別出環(huán)保異常工況,并在仿真算例與實際企業(yè)數據中驗證。
污染企業(yè)環(huán)保工況與生產工況及環(huán)保設備運行情況有關,二者可通過人工現場記錄或安裝設備狀態(tài)采集終端的方式獲取。但實際中生產設備類型和數量均較多,現場記錄和安裝終端成本較大。同時,不同生產工況下用電數據常表現出不同特征且差異明顯,使得通過數據分析以區(qū)分生產工況成為可能。因此,對于企業(yè)生產工況,本文通過數據挖掘方式獲取,減少實際應用過程中對多種生產設備單獨監(jiān)測的依賴;對于環(huán)保設備運行情況,因設備較少,為保證準確,仍以人為記錄或安裝采集終端的形式進行運行狀態(tài)獲取。生產工況判斷基于變點檢測理論,以下進行詳細說明。
突變點是時序中存在的引起數據前后均值、方差等統(tǒng)計量出現明顯變化的點,也可稱作變點,突變前后數據特征的變化常反映出實際物理狀態(tài)的改變[19]。在用電場景中,突變點反映出負荷用電過程的變化,因此,可通過計算時序突變點,尋找用電工況變化的時刻。具體地:對于用電時序:Y={y1,y2,…,yn},假設存在一個由ω個突變點構成的突變點集合T={τ1,τ2,…,τω},其中,每個突變點的位置均為1 至n之間的整數,并定義τ0=0,τω+1=n,則這些突變點將原時序分割為ω+ 1段 子 序 列,其 中,第i段 可 表 示 為:Yi={yτi-1+1,yτi-1+2,…,yi}。
以上多變點檢測問題常常轉化為求取最小目標函數來求解[20-21],目標函數F(n)的核心是一個能表征數據同質性的代價函數C(·),如式(1)所示。當代價函數值越小時,表明數據越呈現出同一種統(tǒng)計性質;反之,在一組性質相同的數據中引入一個突變點時,數據的代價函數值將增大。
式中:C(Yi)為第i段子序列所計算的代價函數,為提高實際應用時對不同企業(yè)、不同類型用電數據的適用性,不同分布類型的數據對應不同計算方式,詳見附錄A 式(A1);βf(ω)為目標函數優(yōu)化的附加懲罰項,用于平衡所計算的突變點數量,減少出現變點過多或過少的現象,其中β為懲罰因子,f(ω)為一個隨變點數量增多而增大的懲罰函數。
令懲罰項f(ω)=ω+1,則求取F(n)的迭代式可由式(2)推導得出,進而將式(1)中求解全局最優(yōu)解的問題轉化為不斷尋找前一個變點的過程。
設置初值F(0)=-β,在1 至n中循環(huán)計算,將滿足目標函數最小的時間點作為新的變點,不斷迭代求解出所有的突變點。此外,在每次搜尋過程中,去除不可能成為變點的數據索引,減少計算量。引入如下的判斷條件:假設對于數據時間點t、s、l(t<s<l),存在一個常數K滿足式(3),則當式(4)成立時,認為t不可能成為l之前的最后一個變點,將其排除[20-21]。
基于變點檢測方法劃分生產工況,并結合環(huán)保設備運行情況得到環(huán)保工況,步驟如下:
1)選擇m個能夠反映企業(yè)生產工況的特征數據{X1,X2,…,Xc,…,Xm},例如:在生產設備容量占比較大時,使用能直接體現總體用電量的功率型數據,如圖1 實例中,選擇各相有功功率(PA,PB,PC)與三相總有功功率P3ph數據;又如主要生產設備是諧波、三相不平衡等干擾源時,也可選擇電流總諧波含量、不平衡度等電能質量指標。
2)對m類特征時序分別計算變點,得到式(5)中的總變點集合O,時序波形示意圖見圖1(a)至(d),其中,平行于縱軸的直線即為變點所在位置。
圖1 污染企業(yè)環(huán)保工況提取示例圖Fig.1 Example of extraction of environmental protection operation condition in polluting enterprises
式 中:X1至Xm表 示m類 時 序 數 據;O1至Om表 示m類時序數據各自的變點集合;tXm,i為集合Om中的第i個變點;n1至nm為各集合中的變點數量。
3)由于實際中各相用電數據非完全平衡,各時序提取的突變點并非一一對應,且部分工況轉換過程需持續(xù)一定時間而非瞬時完成。因此,考慮對式(5)中不同特征時序的變點進行歸并,并將時間相近的變點整合為區(qū)間,如圖1(e)所示。具體過程為:首先,將O1至Om做并集處理,并將得到的結果按照從小到大排列,得到Oall,如式(6)所示;然后,設置過渡時間閾值ε(本文將該閾值設定為30 min,在實際應用時,可視環(huán)保監(jiān)管要求的嚴格程度調整所容許的過渡環(huán)節(jié)時長);最后,對Oall中的變點逐一判斷,當滿足ti+1-ti≤ε時,將前后兩變點構成的區(qū)間[ti,ti+1]作為變化時段,得到新的變點集合O′all,如式(7)所示。
式(6)中t1<t2<…<ti<…<tn,i為1 到n之間的整數;式(7)中[t2,t3]與[tk,tk+1]均表示整合后的變點區(qū)間。
4)采用k-means 聚類方法,對由變點分段后的各子段均值數據進行聚類,聚類數選為2,分別對應企業(yè)正常生產工況與停止生產工況,具體過程見附錄B。此外,對于第3)步中計算的變點及變點區(qū)間,將其作為工況間切換的中間過渡模糊狀態(tài)。最終,得到企業(yè)生產工況時序分布,如圖1(f)所示。
5)根據環(huán)保相關工況提取規(guī)則(詳見附錄A 圖A1),將第4)步中所得的生產工況與環(huán)保設備運行情況組合,可得到環(huán)保工況,對應于圖1(f)至(h)。其中,過渡環(huán)節(jié)由于數量少、數據特征存在變化,在后續(xù)環(huán)保異常識別與監(jiān)管過程中不作考慮。
由于在環(huán)保工況正常與異常2 類工況下,企業(yè)用電數據特征存在差異,如附錄A 圖A2 所示,圖中展示的是A 相電流總諧波含量、B 相5 次諧波電流方均根值以及三相總有功功率數據,數據為圖1(h)中各工況時段的均值?;谶@種差異性,可將多維電能質量監(jiān)測數據作為特征,環(huán)保工況作為標簽訓練分類模型,識別異常環(huán)保工況,具體分析見第2 章。
不同的機器學習模型由于原理與訓練方式不同,存在各自的適用性與特點,如支持向量機(support vector machine,SVM)對高維數據與非線性問題的處理上更加穩(wěn)健且對極值不敏感;邏輯回歸(logistic regression,LR)的概率原理清晰、實現方式簡單高效,在線性問題上處理更具優(yōu)勢;K 最鄰近分類算法(K-nearest neighbor,KNN)不對數據進行假設,易于實現;隨機森林(random forest,RF)不易出現過擬合現象,可以處理高維度的數據;梯度提升決策樹(gradient boosted decision tree,GBDT)對數據異常值的魯棒性較強。但實際中不同污染企業(yè)設備類型和用電情況多變、監(jiān)測數據特征存在一定差異,單一的模型常難以適用于后續(xù)不明確的污染企業(yè)場景。為提高對實際數據的適用性,本文選擇Stacking 集成模型作為污染企業(yè)環(huán)保工況識別的分類模型,通過對不同分類器的學習結果進行堆疊組合的方式,從多個模型不同的角度挖掘數據特征,取長補短,提高模型泛化能力與工況識別準確度[22-23]。
如附錄A 圖A3 所示,Stacking 模型結構通常由2 層構成。第1 層由若干個基分類器構成,其中,考慮到不同模型對數據的適用程度不同,基分類器的確定通常是分別利用SVM、LR、RF、KNN、GBDT等不同模型,在不同參數或限定條件下,對數據集進行初步測試并從中選取效果較優(yōu)的3~5 個分類模型,訓練的特征與標簽分別為多維電能質量監(jiān)測數據與環(huán)保工況。將原始數據在各個基分類器下得到的分類結果(概率得分形式)作為第2 層元分類器的輸入特征數據,元分類器模型與基分類器類似,可選擇為常用的單一機器學習分類模型,但由于其訓練的特征僅余第1 層計算輸出的結果,需適當降低模型復雜度以減少過擬合現象,如在LR 中增加正則化,在樹模型中減少數量與深度等。最后,在第2 層元分類器中對基分類器計算所得的特征進行訓練學習,計算出環(huán)保工況類別。
此外,Stacking 模型在各個分類模型訓練的過程中采用k折交叉驗證的方法,以減少樣本不平衡與過擬合等影響,提高模型穩(wěn)定性。如附錄A 圖A3中上半部分所示,k折交叉驗證的具體操作為:在劃分好訓練集數據與測試集數據后,再將訓練集數據平分為k份不交叉的數據,依次將其中1 份設置為驗證集,訓練余下k-1 份數據。將k次訓練數據預測的得分求取均值,作為最終訓練的結果。
本文基于電能質量監(jiān)測數據進行環(huán)保工況識別的主要流程如圖2 所示,其主要步驟如下:
圖2 環(huán)保工況分類識別流程圖Fig.2 Flow chart of classification and identification of environmental protection operation conditions
1)原始數據源獲取??紤]企業(yè)用電設備數量眾多,存在不同的用電行為與電能質量特性,為了在后續(xù)分類模型的訓練中更好地區(qū)分不同用電特征,選擇的數據類型涵蓋電流、功率這類基本電氣參數以及諧波畸變率、不平衡度等體現企業(yè)電能質量特性的多維電能質量指標數據。此外,在具體場景中,還需考慮背景電網電能質量擾動情況以及其他干擾源負荷的影響,在中低壓場景可篩選與用戶發(fā)射特性相關性更高的電流類電能質量等特征參數。
2)環(huán)保工況標簽獲取。按第1 章所述方法獲得環(huán)保工況標簽。
3)環(huán)保工況分類模型訓練。將第1)步中得到的電能質量監(jiān)測數據作為輸入特征,結合第2)步所得環(huán)保工況標簽,對一定時段的訓練數據進行Stacking 分類模型訓練。
4)異常環(huán)保工況識別。對企業(yè)后續(xù)數據進行環(huán)保工況分析,識別異常環(huán)保工況。
在MATLAB/Simulink 環(huán)境中搭建污染企業(yè)用電工況仿真模型,驗證本文方法對不同場景的適用性??紤]實際企業(yè)中一個含生產、治污等各類用電設備的完整生產單元通常由單段/條母線供電,仿真中以一段10 kV 母線進行模擬,并設置多個污染企業(yè)中常用的典型負荷,仿真電氣接線示意圖如圖3所示。其中,在環(huán)保設備的選擇上,通過調研可知:在水、氣等污染治理過程中,變頻、變流及自動控制技術得到廣泛使用,如鼓風機、除塵風機、水泵以及成套污水治理設備均已采用相關自動控制技術進行轉速、振動頻率的控制,靜電除塵設備還應用到升壓與變流技術生成高壓直流電場等[24-25],因此,將變頻負荷4 與5 視作2 臺環(huán)保治理設備;在生產設備與其他廠務設備的選擇上,設置了線性負荷、變頻負荷以及部分單相負荷等不同特性的設備,用于后續(xù)組合出不同的用電場景。
圖3 仿真算例電氣接線示意圖Fig.3 Schematic diagram of electrical connection for simulation case
參考實際電能質量監(jiān)測設備的測量與數據統(tǒng)計方法[26],在10 kV 進線處模擬一個電能質量監(jiān)測裝置,進行特征指標計算與統(tǒng)計,通過等比例時間縮放,得到與實際監(jiān)測數據相同的3 min 間隔的每個仿真天(24 h)共480 個點的95%概率值數據,數據類型包括各相電壓與電流有效值、各相功率與總功率(有功功率、無功功率、視在功率)、功率因數、各相電壓與電流的基波有效值、各相電壓與電流的2 至49 次諧波含有率與有效值、各相電壓與電流的直流分量、各相電壓與電流的0.5 至15.5 次間諧波含有率、電壓偏差以及電壓與電流負序不平衡度。
仿真算例中,對于負荷1 至5,在每個仿真天內設置不同隨機數控制其啟停時間,模擬環(huán)保設備與生產設備的不同運行情況;對于負荷6 至9,設置為持續(xù)運行負荷,模擬實際企業(yè)生產過程中部分不間斷運行的設備。共進行24 個仿真天的測試,得到不同的用電場景,詳細的負荷接入時間見附錄A表A1。
對于生產工況,分別將仿真中負荷特性不同、運行時間不定的生產負荷1、2 作為主要生產設備,設置3 類用電場景:
場景1:線性生產負荷1 運行時,視作正常生產工況;
場景2:變頻生產負荷2 運行時,視作正常生產工況;
場景3:線性生產負荷1 與變頻生產負荷2 同時運行時,視作正常生產工況。
以上場景中,主要生產設備未運行時均視為停止生產,且對主要生產負荷外的其余負荷是否運行不進行單獨考慮,僅作為工況分類的干擾與不確定因素。
在生產工況劃分的基礎上,按照實際中環(huán)保部門要求的環(huán)保工況異常判定與監(jiān)管策略,設置了2 類環(huán)保工況判定規(guī)則:
規(guī)則1:生產正常時,僅當2 臺環(huán)保設備同時啟動才視作環(huán)保工況正常,其中1 臺環(huán)保設備關閉則為異常。
規(guī)則2:生產正常時,至少1 臺環(huán)保設備啟動,即可視作環(huán)保正常工況,2 臺環(huán)保設備均關閉時為環(huán)保異常工況。
2 個規(guī)則下,生產工況為關停時均視為環(huán)保工況正常。
首先,進行變點檢測與工況聚類,獲取不同場景中的生產用電工況。考慮主要生產負荷中負荷1 的容量占比最大、負荷2 為主要諧波干擾源,在場景1選擇各相有功功率與三相有功功率數據,在場景2選擇各相電流總諧波含量數據進行計算,各特征數據變點識別結果如附錄A 圖A4、圖A5 所示。為說明本文變點檢測算法的適用性與準確性,將本文算法以及其他幾類常用變點檢測方法的計算結果與仿真設置的生產負荷切換事件(2 個場景中單一負荷切換事件均為48 次)進行對比,如表1 所示。
表1 不同場景下的變點計算結果Table 1 Calculation results of change points in different scenarios
由表1 可以看出,本文方法在2 個場景中均能夠較為準確地識別出預設變點,僅在場景2 中出現3 個漏識別的變點。同時,由于存在其他相似負荷的投切事件干擾,例如同為諧波干擾源的環(huán)保設備投切對諧波數據變點識別存在影響等,導致各方法都額外識別出了部分無效變點,但本文方法的敏感度較基于累積和(cumulative sum,CUSUM)與基于貝葉斯信息準則(Bayesian information criterion,BIC)的方法低,無效變點數量相對較少。此外,考慮后續(xù)工況分類時,將去除變點時刻數據,本文所得變點數量在合理范圍內(場景1、2 占比分別為0.57%、0.91%)。
然后,對變點劃分后各段數據的均值進行聚類,結果在附錄A 圖A6 中以三維示意圖體現,分別對應正常生產工況與停止生產工況,可以看出二者存在差異。同時,將計算的生產工況與預設生產工況進行對比,如附錄A 圖A7 所示,其中,場景3 的生產工況計算則由場景1、2 組合而成,計算工況與預設工況基本一致,3 個場景準確度分別達99.44%、99.07%與98.72%,表明了本文方法準確有效。
最后,對3 個生產用電場景分別采用2 類環(huán)保工況判定規(guī)則,得到環(huán)保工況類別,取前18 個仿真天的數據作為訓練集,模型參數設置見附錄A 表A2,后6 個仿真天的數據作為測試集,在附錄A 圖A8 中對各場景與規(guī)則下的模型預測值與真實值進行對比,其中,1 與0 分別表示環(huán)保工況正常與異常。在數據選擇上,考慮實際的低壓配電網中監(jiān)測點諧波電壓、電壓總諧波畸變率、電壓偏差、電壓不平衡度等電壓質量參數受背景中其他電能質量干擾源的影響較大,并非與用戶自身行為完全相關[29-30],本算例中選擇與用戶自身運行關聯更密切的電流類型電能質量監(jiān)測數據進行訓練。從附錄A 圖A8 中可以看出,各場景與規(guī)則的分類效果均較好,真實值與預測值基本一致,僅少部分時段存在錯誤(如場景3 中紅框所示)。
計算混淆矩陣進行量化分析,混淆矩陣表示模型識別的2 類環(huán)保工況結果相對真實值的情況,其4 個元素分別記為TP、FN、FP、TN,其中:TP、TN分別為分類器準確識別出的環(huán)保工況異常與正常的數量,FN、FP表示對2 類真實工況類別誤判的數量。進一步,如式(8)至式(11)所示,從混淆矩陣中計算分類結果評價指標準確度SACC、精確率SPRE、召回率SREC與F1 得分SF1,其中:SACC是對整體工況分類的準確度評價;精確率SPRE與召回率SREC表示對“環(huán)保異?!钡淖R別精度與完整度,F1 得分SF1是精確率與召回率的調和平均值,體現分類器的綜合特性。
限于篇幅,僅列出各個方案的混淆矩陣以及衡量綜合分類效果的SACC與F1 得分SF1,如表2 所示。
表2 不同場景和規(guī)則下的分類結果Table 2 Classification results in different scenarios with different rules
由表2 分析可知,不同場景與規(guī)則下,環(huán)保工況正常與異常的數量不同,但均能得到超過95%的SACC與SF1,表明本文方法能夠較好地適用于不同類型和數量的生產設備與環(huán)保設備所組合的用電場景。此外,為說明本文方法數據源選取的合理性,與下列數據特征選擇方式下的結果進行對比,包括:1)選擇全量電能質量監(jiān)測數據;2)僅選擇電壓、電流、功率及功率因數4 類基本數據;3)僅選擇電能質量指標數據;4)僅選擇電流質量指標數據;5)參考文獻[31]利用主成分分析法降維,選取貢獻率為前90%的特征。在圖4 中比較各方式下的分類SACC與SF1值。
圖4 不同數據特征選擇下的分類效果對比Fig.4 Comparison of classification effect with different data feature selections
由圖4 分析可知,按本文所使用的去除電壓質量等參數的方案以及選擇全量特征時,在不同場景和規(guī)則下的分類效果均較好;僅選擇基本數據、電流質量數據與電能質量數據時,在場景2、3 中的分類效果出現一定波動;而使用主成分分析降維輸入數據時,SF1值在各場景與規(guī)則下的波動最大,穩(wěn)定性較差。具體分析誤判情況為:在第23 天(4~6 h)時段,幾類方案易將異常環(huán)保工況誤判為正常,可能原因在于這一時段2 臺環(huán)保設備雖均未啟用,但與環(huán)保設備容量相近且存在電能質量干擾發(fā)射特性的整流負荷3 正在運行,引起干擾。以上情況表明,當企業(yè)用電設備多、工況復雜時,將電能質量數據與基本用電數據結合,引入更多特征進行訓練,能夠覆蓋更多用電特性,有利于分類效果提升。
以中國福建某制鞋企業(yè)為試點,進行環(huán)保工況識別,該企業(yè)電氣接線示意圖如附錄A 圖A9 所示,生產設備主要包括加熱與冷卻裝置、異步電機、紫外線殺菌光源等;環(huán)保設備主要為抽風機和UV 光解廢氣處理設備組成的排污和治污系統(tǒng)。企業(yè)在生產與環(huán)保過程中存在諧波與不平衡等電能質量發(fā)射特性,故在企業(yè)的電氣入口處采集電能質量監(jiān)測數據,用于后續(xù)環(huán)保工況識別。但考慮到該污染企業(yè)所處電壓等級較低,頻率以及電壓類的電能質量易受電網背景波動與其他電能質量干擾源影響,因此,最終選擇反映污染企業(yè)自身用電特性的電流類電能質量以及功率指標用于后續(xù)環(huán)保工況分類,指標詳見表3,數據類型為3 min 的均值數據。
表3 用于環(huán)保工況分類的實測特征數據Table 3 Measured characteristic data for classification of environmental protection operation condition
取2021 年1 月9 日 至25 日 共17 d 的8 160 條 數據進行分析。首先,利用變點檢測方法,由有功功率數據計算出生產工況,結果如附錄A 圖A10 所示,經核實,與實際企業(yè)生產工況基本相同。隨后,由環(huán)保設備處安裝的監(jiān)測終端獲取環(huán)保設備運行情況,共同確定各時段的環(huán)保工況類別,如表4 所示。
表4 環(huán)保相關工況類別情況Table 4 Category of operation conditions related to environmental protection
對數據集進行缺失數據插值補齊,去除數值全為0 的特征,在附錄A 表A3 中對這部分數據進行了示意。按8∶2 的比例將2021 年1 月22 日14:00 以前的數據進行模型訓練,后續(xù)數據進行測試,在分類過程中設置基分類器為LR、SVM、RF 與GBDT,詳細參數見附錄A 表A2。采用5 折交叉驗證進行訓練,計算上述4 個基分類器單獨作用以及在4 種集成方式下測試集的結果混淆矩陣,如附錄A 圖A11 所示??梢钥闯觯琒tacking 分類器的混淆矩陣非對角元數量相對于單一分類模型均有所減少。其中,以SVM 為元分類器的Stacking 模型下,FN、FP數量最少,分類效果最優(yōu)。進一步計算分類結果評價指標,如表5 所示。
表5 分類結果的評價指標Table 5 Evaluation index of classification results
從表5 中可以看出,集成模型下,分類結果的各項得分值有所提高,其中,第2 種集成方案下的指標得分最高,SACC與SF1值均超過96%,相對各種單一基分類器提高了3%以上,表明基于Stacking 集成的工況分類模型可以在誤判和漏判較少的情況下,識別污染企業(yè)存在的環(huán)保異常工況。最終,選擇效果最好的以SVM 為元分類器的Stacking 模型作為該企業(yè)的后續(xù)工況識別模型。
以下分析本文方法在實際污染企業(yè)環(huán)保監(jiān)測系統(tǒng)中長期應用的適應性。利用4.3 節(jié)中選擇的模型,從2021 年1 月22 日開始,以每日24:00 為時間節(jié)點,動態(tài)計算環(huán)保工況分類識別的累計SACC與SF1值,直 至2021 年3 月22 日,得 到 如 圖5 所 示 的曲線。
圖5 環(huán)保工況長期累計識別效果Fig.5 Long-term cumulative identification effect of environmental protection operation conditions
由圖5 可以看出,截至2021 年3 月22 日,2 個月的長期數據中,識別效果最終穩(wěn)定至75%左右。其中前24 d 的測試數據中,兩指標累計值均能達到90%以上,但在2 月中下旬,指標結果有一定幅度的下降,經過現場核實發(fā)現,2 月中旬為春節(jié)后企業(yè)復工初期,企業(yè)生產模式進行了一定調整,導致訓練模型未能較好識別該時段的工況。為提高識別效果,將2 月的數據歸入原始訓練集中進行訓練,最終在3 月測試的平均SACC與SF1分別達91.34%、89.74%,如圖5 中更新訓練模型后的結果曲線所示。可見,本文方法在實際應用中具備一定效果,但在實際用電場景模式變更后,模型識別精度有所下降,需要考慮使用現場核實過的數據更新識別模型等方法來提升結果準確度。
本文將污染企業(yè)環(huán)保監(jiān)測問題轉化為對環(huán)保環(huán)節(jié)相關用電工況的識別問題,利用電能質量監(jiān)測數據進行學習訓練,有效識別環(huán)保異?,F象,得到結論如下:
1)相比于對企業(yè)生產、環(huán)保設備進行一一監(jiān)測的傳統(tǒng)用電監(jiān)測方式,本文方法有效減少了所需監(jiān)測終端成本以及對正常生產的影響,更易于實際工程實施。
2)本文通過濾除過渡環(huán)節(jié)、引入多維電能質量監(jiān)測數據以及利用不同分類模型集成的優(yōu)勢,達到較好的準確度與適用性。
3)本文方法充分利用現有電力監(jiān)測數據資源,是電力數據的跨行業(yè)應用,其思想與方法可拓展到更多電力以外的行業(yè)應用場景中。
本文方法應用過程中也存在一定的限制:本文僅考慮正常生產與停止生產以及環(huán)保工況正常與異常2 類,在未來需進一步開展細化研究工作,且在長期應用過程中,也需綜合考慮模型更新成本、風險與識別結果準確性之間的關系,進一步優(yōu)化企業(yè)用電狀態(tài)不斷變化時的模型更新策略。
本文相關實測和仿真電能質量數據已共享,可在本刊網站支撐數據處下載(http://www.aeps-info.com/aeps/article/abstract/20211203007)。
附錄見本刊網絡版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網絡全文。