• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于DDPG深度強化學習的電站脫硝過程優(yōu)化控制

    2022-10-27 03:12:38林康威姜文超楊建仁熊廣思黃冠儒
    計算機測量與控制 2022年10期
    關(guān)鍵詞:聚類神經(jīng)網(wǎng)絡工況

    林康威,肖 紅,姜文超,楊建仁,熊廣思,黃冠儒

    (1.廣東工業(yè)大學 計算機學院,廣州 510006;2.廣州云碩科技發(fā)展有限公司,廣州 511458)

    0 引言

    近年來,隨著新能源產(chǎn)業(yè)迅速發(fā)展,我國能源結(jié)構(gòu)不斷發(fā)生調(diào)整,煤在能源消耗中所占的份額有所減少,但預計在未來很長的一段時間內(nèi),燃煤發(fā)電產(chǎn)業(yè)仍占據(jù)著主導地位[1]。燃煤發(fā)電會產(chǎn)生污染有害氣體,其中含有SO2、NO、NO2等。因此,目前在火力發(fā)電廠實現(xiàn)控制NOX排放含量,常采用的成熟技術(shù)手段有SCR(選擇性催化還原法)和采用傳統(tǒng)的PID控制來實現(xiàn)噴氨以達到脫硝優(yōu)化的目的[2-4]。而實現(xiàn)精準建立SCR脫硝過程參數(shù)與SCR脫硝出口NOX排放濃度之間的映射關(guān)系是優(yōu)化脫硝控制系統(tǒng)的關(guān)鍵基礎(chǔ)。隨著近年來人工智能算法技術(shù)的成熟,在現(xiàn)有的電站SCR脫硝系統(tǒng)出口NOX排放濃度的預測研究中,大多學者分別從機理建模與數(shù)據(jù)驅(qū)動的方法進行探究。其中,姚楚等[5]通過SCR脫硝系統(tǒng)的化學反應機理建立SCR動態(tài)預測模型,最終實驗結(jié)果表明機理建模實現(xiàn)對脫硝系統(tǒng)的噴氨量控制效果優(yōu)于傳統(tǒng)的PID控制器的方法。但是,通過機理建模的方式,需要以研究對象為核心,根據(jù)化學反應建立數(shù)學守恒關(guān)系式,而燃煤電廠脫硝過程是一個復雜、非線性和多變量耦合的系統(tǒng),導致機理建模很難精準描述。而相對于機理建模的方法,通過數(shù)據(jù)驅(qū)動建模的方式,不需要深入研究對象機理反應過程,只需以數(shù)據(jù)為驅(qū)動,通過建立人工智能算法構(gòu)建預測模型。鉉佳歡等[6]利用BP神經(jīng)網(wǎng)模型應用在SCR脫硝系統(tǒng)中,實現(xiàn)預測SCR脫硝出口NOX濃度,從而使噴氨量得到精準控制,與傳統(tǒng)PID控制器方式相比,BP神經(jīng)網(wǎng)絡能夠很好對脫硝系統(tǒng)進行有效地控制,但是其模型的泛化性有待提高。溫鑫等[7]通過構(gòu)建深度雙向LSTM神經(jīng)網(wǎng)絡模型,實現(xiàn)電站SCR脫硝系統(tǒng)的出口NOX排放預測,實驗結(jié)果顯示與傳統(tǒng)的BP神經(jīng)網(wǎng)絡模型相比較,誤差精度下降了約5%,但是雙向LSTM神經(jīng)網(wǎng)絡模型結(jié)構(gòu)復雜,且模型需要優(yōu)化的超參數(shù)較多。丁續(xù)達等[8]基于最小二乘支持向量機LSSVM模型,實現(xiàn)SCR脫硝系統(tǒng)在線NOX預測,但是模型的預測精度和泛型性上還未能達到實際工業(yè)生產(chǎn)的需求。雖然上述的方法不依賴于過程的結(jié)構(gòu)與機理,適合非線性強,過程復雜的預測對象,但針對火力發(fā)電站SCR系統(tǒng)中普遍存在著多參數(shù)耦合、調(diào)負荷、多工況等情形,單一模型的預測精度很難達到實際應用于工業(yè)領(lǐng)域生產(chǎn)的需求。因此,針對電站脫硝系統(tǒng)在多參數(shù)、多變工況條件下NOX排放預測精度較低的問題,提出基于MiniBatchKMeans聚類與Stacking模型融合的SCR脫硝過程NOX預測方法。首先對SCR脫硝系統(tǒng)的各運行工況進行聚類分析,然后在聚類劃分基礎(chǔ)上,在多工況樣本集以及在同工況樣本集上,利用Stacking-XRLL多模型融合預測模型對電站脫硝系統(tǒng)出口NOX濃度進行預測。實驗研究結(jié)果顯示,該模型在多工況下預測精度遠優(yōu)于BP、LSTM、GRU神經(jīng)網(wǎng)絡模型,平均精度達到99%。

    另外,實現(xiàn)脫硝系統(tǒng)出口氮氧化物超低排放是電站優(yōu)化控制的重要手段。由于燃煤電廠脫硝過程的NOX排放受機組負荷、噴氨質(zhì)量流量、SCR入口煙氣O2量、SCR入口煙氣溫度等運行參數(shù)影響。因此,要實現(xiàn)SCR脫硝系統(tǒng)的NOX超低排放控制,首先需構(gòu)建SCR脫硝系統(tǒng)可控運行參數(shù)與SCR出口NOX排放的映射關(guān)系模型[9-11],然后再建立含有約束條件的目標優(yōu)化函數(shù),最后基于遺傳或粒子群優(yōu)化算法對目標函數(shù)進行尋優(yōu)[12-15],在滿足國家要求NOX排放濃度低于50 mg·m-3約束條件下,以獲取SCR脫硝過程各可控運行參數(shù)的最優(yōu)值。但是,采用傳統(tǒng)遺傳和PSO優(yōu)化算法存在收斂性不足以及局部最優(yōu)解。符基高等[16]基于LSTM時間循環(huán)神經(jīng)模型結(jié)合深度強化學習A3C算法,實現(xiàn)燃煤電廠SCR脫硝效率的控制策略。但是LSTM神經(jīng)網(wǎng)絡模型與A3C深度強化學習算法相結(jié)合之后,存在模型訓練速度慢,且優(yōu)化得到的是局部最優(yōu)解,并且評價策略通常不是非常高效,并且有很高的偏差。因此,在同時兼顧考慮煙氣NOX超低排放與脫硝效率之間的關(guān)系,基于MiniBatchKMeans聚類與Stacking模型融合的SCR脫硝過程建模方法,并利用深度確定性策略梯度DDPG算法對參數(shù)尋優(yōu),為實現(xiàn)現(xiàn)場實時優(yōu)化控制奠定重要的理論基礎(chǔ)。

    1 基于MiniBatchKMeans聚類與Stacking的多模型融合算法設(shè)計

    1.1 算法理論介紹

    1.1.1 MiniBatchKMeans聚類算法

    MiniBatchKMeans算法是K-Means算法的變種,采用隨機產(chǎn)生的小批量數(shù)據(jù)子集進行聚類,大大減少了計算時間,因此當運用在大數(shù)據(jù)集樣本上時,MiniBatchKMeans能夠保持聚類準確性并可以大幅度降低計算時間。

    MiniBatchKMeans算法流程偽代碼如下:

    function MiniBatchKMeans(輸入數(shù)據(jù),中心點個數(shù)K){

    獲取輸入數(shù)據(jù)的維度D和個數(shù)N;

    隨機生成K個D維的初始質(zhì)心;

    while(算法未收斂){

    從原始集隨機抽取N個樣本構(gòu)建小批量樣本集;

    對N個點:計算每個點屬于哪一類;

    對于K個數(shù)據(jù)中心點:

    (1)找出所有屬于自己這一類的所有數(shù)據(jù)點;

    (2)將自己的坐標值修改為這些數(shù)據(jù)點的中心點坐標;

    }

    輸出結(jié)果;

    }

    兩個樣本點a=(a1,a2,a3,…,an)和b=(b1,b2,b3,…,bn)之間距離計算如式(1)所示:

    (1)

    第i個類中心計算公式如式(2):

    (2)

    其中:ciq表示第i個類的類中心,Ni表示第i個類中的元素個數(shù),Ci表示第i個類。

    加入批量大小為batch的小批量樣本集X={X1,X2,X3,…,Xbatch}后的類中心為ciq,計算方式如式(3):

    (3)

    另外,使用誤差的平方和作為度量聚類質(zhì)量的目標函數(shù)func,定義如式(4):

    (4)

    1.1.2 XGBoost算法

    極端梯度提升(XGBoost, extreme gradient boosting)是Tianqi Chen在2016年提出的基于Boosting Tree模型的分布式學習框架,該模型的基礎(chǔ)學習器為決策樹。與傳統(tǒng)的Boosting樹模型不同的是,傳統(tǒng)樹模型只使用一階導數(shù)信息,當訓練n棵樹時,由于使用前n-1棵樹的殘差,因此很難實現(xiàn)分布式訓練,而XGBoost對損失函數(shù)進行了二階泰勒展開,它可以自動使用CPU的多線程進行分布式計算。另外,在目標函數(shù)中引入正則項,以避免模型過擬合,提高泛化性。假設(shè)有一個數(shù)據(jù)集D,D={(xi,yi):i=1…n,xi∈Rm,yi∈R},則可以得到n個觀測值,每個觀測值有m個特征以及相應的變量y。因此,廣義模型定義如下:

    (5)

    在式(5)中,fk表示的是一個回歸樹,fk(xi)表示第k棵樹對數(shù)據(jù)中的第i個觀察值給出的分數(shù)。為實現(xiàn)目標函數(shù)fk,應最小化以下正則項目標函數(shù)。

    (6)

    其中:l是損失函數(shù),為防止模型過擬合,懲罰項中Ω應包括以下項:

    (7)

    其中:γ和λ分別表示葉子數(shù)量T和葉子權(quán)重w的懲罰參數(shù)。Ω(fk)目的是為了防止模型過擬合而簡化該算法生成的模型。

    為使目標函數(shù)最小化,采用迭代法。在第j次迭代中添加fk,以最小化以下目標函數(shù):

    (8)

    使用泰勒展開式來簡化上述函數(shù),并推導出從給定節(jié)點分割樹后的損失函數(shù):

    (9)

    其中:I是當前節(jié)點中可用觀測值的子集,IL,IR是分割后左右節(jié)點中可用觀測值的子集。函數(shù)gi和hi的定義如下:

    (10)

    (11)

    1.1.3 Light GBM算法

    Light GBM算法是基于GBDT(gradient boosting decision tree,梯度提升決策樹)模型提出的[17]。雖然GBDT在很多機器學習任務上都取得了較好的學習效果,但近年來隨著數(shù)據(jù)量的增長,傳統(tǒng)的GBDT算法在構(gòu)建決策樹時需要找到最優(yōu)的分割點,一般的方法是對特征值進行排序,然后枚舉所有可能的特征點。但是此種方法不僅在時間性能上表現(xiàn)較差,而且需要很大的內(nèi)存。因此,GBDT算法面臨著精度和效率性能的問題急需解決。

    Light GBM算法使用了改進的直方圖算法,它將連續(xù)的特征值劃分為k個區(qū)間,在k個值中選擇劃分點。因此,Light GBM算法在訓練速率和內(nèi)存占用率上都優(yōu)于傳統(tǒng)的GBDT樹模型。同時,決策樹是一個弱分類器,使用直方圖算法會有正則化效果,可以有效防止過擬合。在減少更多誤差方面,Light GBM算法采用leaf-wise生成策略。另外,在減少特征數(shù)量方面,傳統(tǒng)采用的方法是PCA,PCA一般用于特征冗余的情況下,因此有一定的局限性。Light GBM算法使用的EFB算法將高維數(shù)據(jù)的特征放在一個稀疏的特征空間中,以避免計算冗余特征,并根據(jù)算法構(gòu)造直方圖,可以加快計算的速度。綜合所述,Light GBM算法在不降低預測準確率的同時,加快預測速度,并降低內(nèi)存占用。

    1.1.4 線性回歸算法

    線性回歸分析是機器學習中的一種統(tǒng)計方法,可分為簡單線性回歸和多元線性回歸,用于估計一個或多個輸入變量和輸出變量之間的關(guān)系。線性回歸用直線模擬輸入變量x和輸出變量y之間的關(guān)系。

    一次方程定義如式(12):

    y=β0+β1x

    (12)

    其中:參數(shù)β0和β1是回歸系數(shù)。而模型的擬合度衡量標準,即它對輸出變量y的在n個數(shù)據(jù)點上εi的誤差大小。

    (13)

    為評估回歸模型的回歸預測精度與真實值之間的誤差,回歸模型常用最小二乘法(LSM, the least square method,)估計進行擬合,找到誤差平方和最小時的最佳擬合曲線或直線,即最小化。

    (14)

    (15)

    (16)

    對上述兩個方程進行化簡,可以得到:

    (17)

    (18)

    1.2 Stacking模型融合

    Stacking是一種分層模型集成框架,在基于Stacking的集成學習模式下,通過融合多個機器學習算法的方式來提高整體模型的預測精度[18]。因此,在綜合考慮Stacking模型融合算法的預測精度與訓練性能,將Stacking模型融合框架劃分為兩層:第一層選擇預測精度較高的XGBoost、RandomForest算法以及性能優(yōu)異且時間復雜度較低的LightGBM算法模型作為基學習器;第二層,采用泛化性能力較強和穩(wěn)健性較好的線性回歸算法作為元學習器,如圖1所示。

    圖1 Stacking模型融合架構(gòu)圖

    針對電站鍋爐脫硝系統(tǒng)在多變的工況環(huán)境條件下往往呈現(xiàn)出復雜的、大幅度滯后等特性,而單一模型在一定程度上很難準確地描述具有復雜的、非線性的火力發(fā)廠電站鍋爐脫硝系統(tǒng)NOX排放問題,導致模型預測精度不高。因此,為了提高電站鍋爐脫硝系統(tǒng)在多變的工況條件下NOX排放預測的精度,提出了一種基于MiniBatchKMeans聚類與Stacking多模型融合框架的電站脫硝過程建模方法,如圖2所示,其建模步驟如下:1)將從DCS采集的數(shù)據(jù)集進行預處理,其中包括剔除異常值樣本和篩選穩(wěn)態(tài)工況,并按照一定比例(4:1)來劃分訓練集與測試集;2)利用MiniBatchKMeans算法對訓練集參數(shù)進行工況聚類和劃分,保存最優(yōu)的輪廓系數(shù)和聚類中心,得到Ci個聚類樣本;3)對這些聚類樣本,利用如圖1所示的融合方法,采用XGBoost、RandomForest、LightGBM機器學習算法作為Stacking模型融合框架的第一層(基學習器),以線性回歸作為第二層(元學習器),構(gòu)建嵌入多個機器學習模型的Stacking模型融合框架預測算法,用于處理多工況下NOX的預測問題。

    圖2 基于MiniBatchKMeans與Stacking多模型融合框架的建模流程圖

    2 基于深度強化學習DDPG算法的脫硝效率控制策略模型

    2.1 DDPG算法理論

    2.1.1 基于Actor-Critic的深度策略梯度方法

    Actor-Critic是由Actor和Critic兩個神經(jīng)網(wǎng)絡構(gòu)成。Actor負責針對Critic網(wǎng)絡評價來糾正動作的偏向。Critic負責對Actor生成的動作進行評分。它們整個網(wǎng)絡的工作流程大致如下:1)首先Actor依據(jù)當前的環(huán)境生成action;2)環(huán)境依據(jù)Action給與相應的回報r;3)Critic會對action進行評價;4)Actor會依據(jù)Critic的評價來調(diào)整策略,輸出新的action;5)Critic會依據(jù)回報r來糾正評價規(guī)則。不斷循環(huán)(1)~(5),直至所有的網(wǎng)絡收斂或達到設(shè)定訓練周期的閾值。

    在Actor-Critic網(wǎng)絡中,通常情況下,Critic是一個狀態(tài)值函數(shù),在每次動作選擇之后,Critic會評估新的狀態(tài)以確定事件是否比預期的好還是壞,這個評價就是時間差分法(temporal difference,TD),數(shù)學表達式如式(19)所示:

    V(st)←V(st)+α[rt+1+γV(st+1)-V(st)]

    (19)

    其中:V是有評判者(Critic)實現(xiàn)的值函數(shù)。TD誤差用來評估所選擇動作,即在某狀態(tài)下所采取的行動。如果TD誤差是正的,表示未來應加強選擇的傾向,而如果TD是負的,表明未來應減弱這種傾向。這種假設(shè)動作是由Gibbs Softmax方法產(chǎn)生的,如式(20)所示:

    (20)

    式中,p(s,a)是行為者(Actor)在時間t的可修改策略參數(shù),表示在每個狀態(tài)s時選擇每個動作a的傾向。對上述的加強與減弱可通過調(diào)整p(s,a)來實現(xiàn),如式(21)所示:

    p(st,at)←p(st,at)+βδt

    (21)

    式中,β是一個正的步長參數(shù),這是一個獎賞懲罰方法。無論TD誤差δ是正還是負,都會對策略進行更改。當δ為正時,增加動作的概率,δ為負時,減少動作的概率。

    2.1.2 基于DDPG深度確定策略梯度方法

    DDPG算法一種強化學習框架,基于策略梯度與DQN算法,DDPG能夠解決Actor-Critic在連續(xù)動作空間的問題。例如在Gym和TORCS領(lǐng)域中,DDPG可以直接使用原始狀態(tài)來學習,并且在Atari領(lǐng)域比DQN使用更少的經(jīng)驗學習步驟[19]。

    DDPG的核心是使用一種隨機的方法來探索好的行為,但估計一個確定性的行為策略(如式(22)所示)。只需在狀態(tài)空間上進行整合,使得學習策略變得更加容易,但它也有可能無法探索完整狀態(tài)和動作空間的局限性,為克服這個局限性,在隨機探索的加入一個噪聲Nt。

    at=μ(st|θμ)

    (22)

    at=μ(st|θμ)+Nt

    (23)

    DDPG中的Actor和Critic是由神經(jīng)網(wǎng)絡設(shè)計的。Actor網(wǎng)絡根據(jù)確定性策略梯度規(guī)則進行更新,而Critic網(wǎng)絡則根據(jù)TD誤差中獲得梯度進行更新,如式(24)所示:

    θμμ≈Εμ[αQ(s,a|θQ)|s=st,a=μ(st)θμμ(s|θμ)|s=st]

    (24)

    式中,為得到期望值,需要Critic網(wǎng)絡在行動方面的梯度(w,r,t)以及Actor網(wǎng)絡(w,r,t)和其它參數(shù)。DDPG網(wǎng)絡參數(shù)的更新規(guī)則,采用小批量(mini-batch)數(shù)據(jù)樣本,通過最小化式(25)中的損失來更新Critic網(wǎng)絡,Actor網(wǎng)絡使用采樣策略梯度更新,如式(26)所示:

    (25)

    其中:yi=ri+γQ′(si+1,μ′(si+1|θμ′)|θQ′)。

    (26)

    而目標Actor網(wǎng)絡和Critic網(wǎng)絡的參數(shù)更新如式(27)和(28)所示:

    θQ′←τθQ+(1-τ)θQ′

    (27)

    θμ′←τθμ+(1-τ)θμ′

    (28)

    其中:τ是更新參數(shù),將其設(shè)置為τQ1。

    2.2 深度強化學習模型的建立

    構(gòu)建基于DDPG算法的SCR脫硝效率深度強化學習模型的整體框架如圖3所示。在網(wǎng)絡結(jié)構(gòu)的設(shè)計中,Actor網(wǎng)絡(主網(wǎng)絡和目標網(wǎng)絡)和Critic網(wǎng)絡(主網(wǎng)絡和目標網(wǎng)絡)都包含兩個隱藏層網(wǎng)絡,每層神經(jīng)元個數(shù)分別設(shè)置為256和128。Actor網(wǎng)絡最后一層的激活函數(shù)為tanh函數(shù),使得每一層的動作輸出控制在[-1,1]之間,最終依據(jù)脫硝效率狀態(tài)值限定范圍得到脫硝系統(tǒng)各運行參數(shù)可控值。Critic網(wǎng)絡對Actor網(wǎng)絡得到的脫硝系統(tǒng)可控參數(shù)進行評估,采用relu激活函數(shù)。經(jīng)過反復實驗調(diào)試,DDPG模型的學習訓練周期設(shè)置為500,Actor網(wǎng)絡學習率設(shè)置為0.001,Critic網(wǎng)絡學習率設(shè)置為0.002。

    圖3 基于深度強化學習DDPG模型的脫硝過程優(yōu)化控制架構(gòu)

    DDPG算法模型選取機組負荷、噴氨質(zhì)量流量、SCR入口煙氣O2量、SCR入口煙氣溫度、SCR入口NOX質(zhì)量濃度5個變量作為action動作值,脫硝效率(計算方式如式(29)所示)作為state狀態(tài)值,且各參數(shù)變量取值范圍設(shè)置如表1所示。

    表1 電站鍋爐各參數(shù)運行范圍

    (29)

    式(29)中,η為脫硝效率,Inox_in為SCR入口NOX質(zhì)量濃度,Inox_out為SCR出口NOX質(zhì)量濃度。在SCR脫硝系統(tǒng)中,加大噴氨量,可以提高脫硝效率,但是過多的噴氨,另外會造成脫硝成本的提高。而噴氨量是衡量脫硝成本的重要指標,脫硝成本計算結(jié)果等于單位機組負荷下的噴氨量乘以相應單價。通常情況下,一般每臺鍋爐配備兩臺脫硝設(shè)備,因此脫硝成本計算公式如式(30)所示:

    (30)

    式(30)中,T為總成本,PNH3為噴氨量的單價(按市場價約3 500元/t),MNH3為總噴氨量,L為機組負荷。

    因此,在設(shè)置模型的獎勵函數(shù)時,應兼顧噴氨量與脫硝效率之間的平衡關(guān)系。根據(jù)專家經(jīng)驗,當脫硝效率(η)處在85%~95%的合理范圍區(qū)間,并同時滿足總脫硝成本T是最小化時,應當給與獎勵(reward=10)。其余情況下,都認為是不合理的,應當給與懲罰(reward=-20)。

    DDPG模型的偽代碼流程如下:

    隨機初始化Critic Q(s,a|θμ)和Actorμ(s|θμ)主網(wǎng)絡參數(shù),初始權(quán)重為υQ和θμ;

    初始化目標網(wǎng)絡Q′和μ′,初始權(quán)重為θQ′←θQ,θμ′←θμ;

    初始化記憶庫緩沖區(qū)大小為b;

    for episode =1,...,M do

    接收一個狀態(tài)值st;

    for t =1,...,T do

    基于ε貪婪算法選擇一個動作值at:以概率ε選擇隨機選擇一個動作,否則以at=μ(st|θμ)的當前策略進行選擇;

    執(zhí)行動作at,輸入到Stacking-XRLL模型中,預測SCR出口NOx濃度,然后計算的脫硝效率η,最后再根據(jù)設(shè)定獎勵規(guī)則,生成回報rt和新的狀態(tài)值st+1;

    將t時刻樣本數(shù)據(jù)(st,at,rt,st+1)存儲到記憶庫b中;

    當記憶庫的數(shù)據(jù)存滿,隨機采樣N個轉(zhuǎn)換數(shù)據(jù)(si,ai,ri,si+1),作為Actor、Critic目標網(wǎng)絡的一個單位輸入組數(shù)據(jù)集進行訓練;

    設(shè)置yi=rj+γQ′(sj+1,μ′(sj+1|θμ′)|θQ′);

    使用策略梯度更新Actor網(wǎng)絡參數(shù):

    最后更新目標網(wǎng)絡參數(shù):

    QQ′←νθQ+(1-ν)θQ′

    θμ′←νθμ+(1-ν)θμ′);

    end for

    end for

    根據(jù)上述的DDPG算法偽代碼流程,迭代訓練500個周期,即過程通過不斷調(diào)整評判者網(wǎng)絡參數(shù)以修正行為網(wǎng)絡的參數(shù),直至Actor網(wǎng)絡和Critic網(wǎng)絡趨于穩(wěn)定,進而優(yōu)化燃煤電廠電站鍋爐脫硝過程可控運行參數(shù),使得基于Stacking-XRLL的多模型建模的SCR脫硝過程氮氧化物預測模型輸出滿足SCR脫硝出口NOX排放濃度(低于50 mg·m-3)、脫硝效率處于合理范圍區(qū)間內(nèi)(85%≤脫硝效率≤95%)以及總脫硝成本T最小化時,最終可以獲得滿足條件的最優(yōu)可控動作參數(shù)集。

    3 實驗結(jié)果與分析

    3.1 實驗環(huán)境與數(shù)據(jù)

    本文進行實驗所需的硬件設(shè)備(計算機)配置如下:中央處理器:Intel(R)Core(TM)i7-9750H CPU @2.60 GHz 2.59 GHz;計算機內(nèi)存:16 GB RAM;操作系統(tǒng):Windows10-64位;圖形處理器:NVIDIA GeForce GTX1660Ti 6 GB。

    本文進行實驗所需的軟件平臺包括:運用Python編程語言;編程環(huán)境:Python v3.7、Python IDEA:Pycharm v2020.1;Scikit-learn庫:v0.22.1;numpy:1.19.4;pandas:1.1.4;matplotlib:3.3.2。

    在進行實驗時所需數(shù)據(jù)集是以廣東某電廠1 000 MW電站SCR脫硝系統(tǒng)為研究對象,根據(jù)SCR系統(tǒng)運行狀況和專家經(jīng)驗分析,從DCS信息數(shù)據(jù)采集系統(tǒng)中選取機組負荷、噴氨質(zhì)量流量、SCR入口煙氣O2量、SCR入口煙氣溫度、SCR入口NOX質(zhì)量濃度、SCR出口NOX質(zhì)量濃度等一共6個特征,數(shù)據(jù)如表1所示。其中可控變量:噴氨質(zhì)量流量。狀態(tài)變量:機組負荷、SCR入口煙氣O2量、SCR入口煙氣溫度和SCR入口NOX質(zhì)量濃度。輸出變量:SCR出口NOX質(zhì)量濃度。選取2018年4月1日-2018年4月30日時段內(nèi)SCR脫硝系統(tǒng)機組穩(wěn)態(tài)運行狀態(tài)數(shù)據(jù),每間隔為60 s采集一次數(shù)據(jù),最終取10 000條樣本作為模型的數(shù)據(jù)集。對從DCS系統(tǒng)采集到的樣本數(shù)據(jù)集進行數(shù)據(jù)預處理,其中包括剔除異常值樣本和篩選穩(wěn)態(tài)工況。穩(wěn)態(tài)工況可以利用滑動窗口法進行判斷,如式(31)所示[20]:

    (31)

    在式(31)中,其中n=35為窗口寬度,xj為歸一化后的特征變量參數(shù),可以選擇機組負荷,σc=0.65為穩(wěn)態(tài)工況的閾值。

    3.2 MiniBatchKMeans工況聚類劃分

    從DCS系統(tǒng)采集10 000條穩(wěn)態(tài)工況數(shù)據(jù)樣本,按照4:1的比例劃分訓練集與測試集,同時保證訓練集和測試集涵蓋SCR系統(tǒng)各運行工況。經(jīng)過與電廠專家交流分析后,將從DCS系統(tǒng)采集的6個特征變量作為模型的輸入變量,SCR出口氮氧化物濃度作為模型的輸出變量。設(shè)定初始聚類簇數(shù)值在[2,11]范圍內(nèi),分別計算相應值下的輪廓系數(shù),當聚類簇個數(shù)Cf=7時,總的輪廓系數(shù)最大,此時聚類效果最好,最終將訓練集按機組負荷聚類為7個子簇。經(jīng)過MiniBatchKMeans聚類所得工況聚類劃分結(jié)果如表2所示。

    表2 工況聚類劃分結(jié)果

    3.3 多模型融合建模預測

    對7個子集分別利用基于Stacking-XRLL多模型融合算法進行建模,將獲得的10 000條樣本數(shù)據(jù),8 000條作為訓練集,2 000條作為測試集。最后利用所建立的模型在測試集上進行預測,得到SCR脫硝出口NOX排放濃度預測結(jié)果如圖4所示。采用模型評估指標:平均絕對誤差(MAE)、均方誤差(MSE)和決定系數(shù)R2對模型進行評價如表3所示。

    表3 不同工況模型預測結(jié)果性能對比

    由圖4與表3可知,對SCR系統(tǒng)的運行工況進行聚類劃分之后,在每一個子集工況下分別利用基于Stacking-XRLL模型進行預測,實驗結(jié)果表明,未進行工況劃分之前,模型預測精度MSE(均方誤差)=16.890 3、MAE(平均絕對誤差)=1.740 4和R2(決定系數(shù))=0.997 4。而鍋爐運行工況進行聚類劃分之后,在各個工況下進行預測,每一類工況下預測的精度都得到了提升,其中每個工況下總的均方誤差MSE=0.642 0、平均絕對誤差MAE=0.193 3和R2=0.999 4。

    圖4 不同工況下模型的預測結(jié)果

    為了充分驗證本文所提出的基于Stacking-XRLL多模型融合算法的有效性,從7個工況中隨機選取工況2下的數(shù)據(jù)集,將其分別與單模型最優(yōu)模型參數(shù)條件下的BP神經(jīng)網(wǎng)絡、LSTM神經(jīng)網(wǎng)絡模型、GRU神經(jīng)網(wǎng)絡模型進行對比實驗,如圖5所示。其中,BP神經(jīng)網(wǎng)絡為3層網(wǎng)絡架構(gòu),第一層有256個神經(jīng)元,relu為激活函數(shù),dropout率為0.2;第二層有128個神經(jīng)元,relu為激活函數(shù),dropout率為0.3;第三層為全連接層。LSTM循環(huán)神經(jīng)網(wǎng)絡總共建立四層LSTM層,神經(jīng)元個數(shù)分別為128、128、64和32,dropout率為0.3,tanh為激活函數(shù),最后一層為全連層。GRU神經(jīng)網(wǎng)絡總共建立5層GRU層,神經(jīng)元個數(shù)分別為128、64、256、256和128,dropout率為0.3,tanh為激活函數(shù),最后一層為全連接層。

    由圖5與表4可知:在同一工況條件下,單模型BP神經(jīng)網(wǎng)絡要優(yōu)于單模型GRU神經(jīng)網(wǎng)絡,而單模型GRU神經(jīng)網(wǎng)絡要優(yōu)于單模型LSTM神經(jīng)網(wǎng)絡,但是基于Stacking-XRLL多模型融合算法,無論是精度上還是泛化性能上都優(yōu)于BP神經(jīng)網(wǎng)絡、GRU神經(jīng)網(wǎng)絡、LSTM神經(jīng)網(wǎng)絡,其中MSE=0.110、MAE=0.030和R2=0.999。因此,實驗結(jié)果表明:Stacking-XRLL多模型融合算法,能夠有效且精準地預測電站SCR系統(tǒng)脫硝出口NOX濃度。

    表4 同工況下不同算法之間的預測結(jié)果性能對比

    圖5 同工況下不同算法之間預測結(jié)果對比

    3.4 DDPG優(yōu)化控制的結(jié)果

    由4.3小節(jié)的實驗結(jié)果,得出Stacking-XRLL模型預測的精度最優(yōu)。因此,將Stacking-XRLL預測模型作為深度強化學習DDPG模型中的環(huán)境(ENV,Environment),以工況1作為實驗的數(shù)據(jù)集,經(jīng)過反復實驗調(diào)試,最終確定強化學習周期設(shè)置在500,每個周期100回合時,實驗的收斂效果最明顯,每回合取一個預測結(jié)果。當模型迭代訓練穩(wěn)定時,得到實驗結(jié)果如圖6中(a)~(d)所示。

    圖6 硝過程參數(shù)優(yōu)化控制結(jié)果圖

    從圖6(a)~(d)實驗結(jié)果可以看出,DDPG深度學習優(yōu)化控制模型的總獎勵值在200回合后趨于穩(wěn)定。即當DDPG深度學習模型穩(wěn)定時,模型的總獎勵值由一開始懲罰到獎勵,不斷迭代訓練,最終趨于最優(yōu)值穩(wěn)定。此時,脫硝效率值穩(wěn)定在86%左右,處在合理范圍區(qū)間之內(nèi),且可控參數(shù)噴氨質(zhì)量流量穩(wěn)定在35.657 kg/h,且經(jīng)過優(yōu)化之后,脫硝成本總價格降低了27.56%。

    4 結(jié)束語

    脫硝效率作為衡量SCR脫硝系統(tǒng)主要指標,對脫硝系統(tǒng)乃至整個發(fā)電機組都有著重大影響。實現(xiàn)準確預測脫硝效率,能夠?qū)C組的穩(wěn)定運行和優(yōu)化控制起到推動作用。將機組負荷、SCR入口煙氣溫度、SCR入口煙氣O2量、SCR入口NOX質(zhì)量濃度和噴氨質(zhì)量流量等參數(shù)作為輸入,基于Stacking-XRLL模型融合算法,構(gòu)建深度確定性策略梯度網(wǎng)絡優(yōu)化控制模型,實現(xiàn)對可調(diào)運行參數(shù)的優(yōu)化,得到不同工況下的最優(yōu)操作參數(shù)值?;谀? 000 MW燃煤電廠機組實際運行數(shù)據(jù)進行仿真,結(jié)果表明通過優(yōu)化后機組的脫硝效率穩(wěn)定在86%左右,同時能滿足脫硝出口NOX排放濃度要求以及總脫硝成本相比未優(yōu)化之前降低了27.56%。

    猜你喜歡
    聚類神經(jīng)網(wǎng)絡工況
    熱網(wǎng)異常工況的辨識
    煤氣與熱力(2022年4期)2022-05-23 12:44:44
    不同工況下噴水推進泵內(nèi)流性能研究
    基于非負矩陣分解的高速列車走行部工況識別
    神經(jīng)網(wǎng)絡抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    基于DBSACN聚類算法的XML文檔聚類
    電子測試(2017年15期)2017-12-18 07:19:27
    基于神經(jīng)網(wǎng)絡的拉矯機控制模型建立
    重型機械(2016年1期)2016-03-01 03:42:04
    基于改進的遺傳算法的模糊聚類算法
    復數(shù)神經(jīng)網(wǎng)絡在基于WiFi的室內(nèi)LBS應用
    基于支持向量機回歸和RBF神經(jīng)網(wǎng)絡的PID整定
    一種層次初始的聚類個數(shù)自適應的聚類方法研究
    新泰市| 额济纳旗| 桂平市| 青河县| 舞阳县| 莱西市| 霍林郭勒市| 克什克腾旗| 石景山区| 拉萨市| 波密县| 宁陕县| 和静县| 胶州市| 兴海县| 安徽省| 盘锦市| 湾仔区| 南陵县| 吉隆县| 新晃| 化州市| 修武县| 来安县| 临西县| 广南县| 曲靖市| 衡南县| 通山县| 固镇县| 惠东县| 股票| 潜江市| 新竹市| 库尔勒市| 渑池县| 江安县| 阳信县| 察哈| 贵溪市| 宜宾市|