胡金良,李彤昀,王光輝
(1.國能準能集團科學(xué)技術(shù)研究院,內(nèi)蒙古 鄂爾多斯 010300;2.中國礦業(yè)大學(xué) 信控學(xué)院,江蘇 徐州 221116;3.中國礦業(yè)大學(xué) 化工學(xué)院,江蘇 徐州 221116)
在我國的能源消耗中,煤炭資源占據(jù)著很大的比例。雖然新興能源的發(fā)展在一定程度上緩解了煤炭供給壓力,但我國以煤炭資源為主的能源結(jié)構(gòu)仍未改變。煤炭洗選是煤炭生產(chǎn)利用過程中的重要一環(huán),提升煤炭洗選效率具有意義深遠[1,2]。
重介質(zhì)淺槽分選是我國常用的選煤工藝,具有分選精度高、效率好的特點。重介質(zhì)選煤過程受設(shè)備的各種工藝參數(shù)影響[3],但是在實際的選煤工藝中,對精煤質(zhì)量起決定性作用的是重介質(zhì)懸浮液密度。此外灰分是衡量重介質(zhì)選煤精煤質(zhì)量的關(guān)鍵指標。因此,通過調(diào)節(jié)重介質(zhì)懸浮液密度,實現(xiàn)對精煤灰分的控制是重介質(zhì)選煤過程優(yōu)化控制的主要方法。因此,諸多學(xué)者針對調(diào)節(jié)重介質(zhì)旋流器懸浮液密度,實現(xiàn)成品煤灰分控制問題開展了研究,取得豐碩的成果。
文獻[4]針對可建模的重介質(zhì)選煤過程,提出了一種基于模型預(yù)測控制的重介質(zhì)懸浮液密度在線優(yōu)化方法,并通過仿真實驗驗證了對灰分控制的有效性。文獻[5]在模型預(yù)測控制算法中引入前饋控制環(huán)節(jié),增強控制系統(tǒng)的魯棒性。但是重介質(zhì)選煤過程動態(tài)時變,呈強非線性[6,7],采用上述基于模型的控制方法較難實現(xiàn)實時控制。因而已有采用數(shù)據(jù)驅(qū)動的方法進行優(yōu)化控制[8]。文獻[9]通過離線采集的歷史數(shù)據(jù),利用時間序列的最小二乘支持向量機,建立了密度給定模型。文獻[10]利用歷史數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,提出一種寬域運行優(yōu)化控制方法。但是上述方法僅考慮對已出現(xiàn)工況進行控制設(shè)計,缺乏對未知工況自學(xué)習(xí)能力。因此,為了提升精煤灰分產(chǎn)量控制精度和系統(tǒng)響應(yīng)速率,提高控制系統(tǒng)自學(xué)習(xí)能力,本文采用基于強化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)方法對重介質(zhì)選煤過程優(yōu)化控制。
本文針對重介質(zhì)選煤工藝中的重介質(zhì)淺槽分選工藝進行研究,其主要包括混料桶、分選槽、排矸刮板和各種儀器儀表。其工藝流程如圖1所示。
圖1 重介質(zhì)選煤工藝流程圖
在實際生產(chǎn)過程中,原煤與重介質(zhì)懸浮液混合后,泵送入分選槽。在排矸刮板擾動的過程中,高密度物(尾礦)下降并通過排放口排出,輕密度物(精礦)上升并從溢流堰溢出,剩余的重介質(zhì)懸浮液將與高濃度的介質(zhì)水混合,形成密度相對穩(wěn)定的合格介質(zhì),并再次與新的原料混合,重復(fù)上述過程[11,12]。
不同儀器的型號和運行模式,運行狀態(tài)的各種工藝參數(shù)均或多或少影響最終的分選效果。如排矸刮板的渦流方向,當(dāng)其與矸石沉降方向相同時,對分選效果是有益的;當(dāng)其與矸石沉降方向相反時,會阻礙分選[3]。
1)強非線性。煤炭重介質(zhì)選效果主要取決于重介質(zhì)懸浮液密度的高低,但其與凈煤灰分并不是簡單的線性關(guān)系。又因為混合礦漿的流速與原煤的進料速度也呈現(xiàn)非線性特性,因此難以采用基于模型的優(yōu)化控制方法。
2)動態(tài)時變性。原煤的成分并不是一成不變的,所含有的雜質(zhì)、粒度均持續(xù)波動。當(dāng)重介質(zhì)懸浮液狀態(tài)時變時,其壓力密度也會受其影響,排矸刮板等設(shè)備運行參數(shù)需相應(yīng)調(diào)整,否則會使得系統(tǒng)處于非經(jīng)濟最優(yōu)狀態(tài)。
重介質(zhì)選煤過程的強非線性與動態(tài)時變性導(dǎo)致無法建立有效的機理模型,現(xiàn)有基于模型的優(yōu)化控制方法難以進行實時過程優(yōu)化?;趶娀瘜W(xué)習(xí)的過程優(yōu)化控制方法,能夠根據(jù)重介質(zhì)選煤運行的歷史數(shù)據(jù)求解最優(yōu)控制,從而有效解決上述問題[13,14]。
本文在重介質(zhì)懸浮液密度回路控制基礎(chǔ)上,通過建立運行優(yōu)化層實現(xiàn)對重介質(zhì)懸浮液密度設(shè)定值優(yōu)化,從而穩(wěn)定控制精煤灰分,保證選煤產(chǎn)品的質(zhì)量。實際工業(yè)運行優(yōu)化層動態(tài)特性復(fù)雜,以連續(xù)時間非線性系統(tǒng)模型進行描述:
其中,r為實際運行時的系統(tǒng)指標值;w為系統(tǒng)的輸入;f(t)和g(t)表示運行優(yōu)化層的動態(tài)特性。
對系統(tǒng)方程進行離散化處理,可得:
r(k+1)=f(r(k))+g(r(k))w(k)
(2)
為使運行優(yōu)化層實際系統(tǒng)指標能夠快速跟蹤期望設(shè)定值,通過建立性能評價指標函數(shù),調(diào)節(jié)輸入?yún)?shù)w,最終實現(xiàn)實際運行指標在理想值附近穩(wěn)定運行。考慮跟蹤誤差盡可能為0且限制控制輸入的變化浮動不大,從而避免設(shè)定值過大,導(dǎo)致系統(tǒng)不穩(wěn)定,其評價函數(shù)定義:
式中,γ為實際運行過程中的歷史數(shù)據(jù)對當(dāng)前運行指標評價影響的衰減程度,0<γ<1;Q和R分別為半正定和正定矩陣,從而保證系統(tǒng)在期望值附近穩(wěn)定時,評價指標將接近于定值。
其中,Q1=[I-I]TQ[I-I]。根據(jù)式(4),從而將求解評價函數(shù)最小值的問題,轉(zhuǎn)為解非線性過程的Bellman方程,其方程:
從而求解LQR問題的Hamilton函數(shù):
H(ζk,wk)=Uk+γV(ζk+1)-V(ζk)
(6)
根據(jù)Bellman原理,最優(yōu)值函數(shù)滿足離散時間HJB(Hamilton-Jacobi-Bellman,HJB)方程:
可得求解最優(yōu)控制率需滿足[15]:
令:
且:
將式(11)代入到Bellman方程,可得最優(yōu)控制率下的離散時間HJB方程:
2.2.1 在線策略提升算法
由于直接求解HJB方程,會出現(xiàn)維度災(zāi)問題,本文考慮策略迭代算法[16,17],利用Bellman方程評估當(dāng)前設(shè)定值和更新設(shè)定值,從而在線學(xué)習(xí)求得重介質(zhì)選煤運行過程設(shè)定值優(yōu)化的最優(yōu)解:
1)策略評價。根據(jù)Bellman方程(5)求解wki控制下的值函數(shù):
2)策略提升。更新系統(tǒng)輸入:
通過觀察算法1公式,該策略迭代算法可以配置γ和Q讓運行指標r穩(wěn)定在在期望值附近,一般,γ接近于1,且Q為半正定矩陣,矩陣元素取值要盡可能大,那么式(13)中的誤差權(quán)重會足夠大。此外,此算法的策略提升和值函數(shù)是同步更新的,并不是常規(guī)算法中按順序依次迭代值函數(shù)和控制策略。本文采用神經(jīng)網(wǎng)絡(luò)實現(xiàn)基于強化學(xué)習(xí)的數(shù)據(jù)驅(qū)動算法,即采用兩個獨立的神經(jīng)網(wǎng)絡(luò)分別實現(xiàn)值函數(shù)和系統(tǒng)輸入更新公式。策略提升神經(jīng)網(wǎng)絡(luò)用來更新算法系統(tǒng)輸入,從而通過系統(tǒng)運行,可以改變值函數(shù)的大小。策略評價神經(jīng)網(wǎng)絡(luò)用來近似估計值函數(shù),用來評價系統(tǒng)輸入的大小是否合適,并反饋到策略提升過程。對于算法 1 需要獲得穩(wěn)定初始控制策略,但在復(fù)雜非線性系統(tǒng)一般是很難的。在實際工業(yè)過程的最優(yōu)跟蹤問題中,存在大量的歷史數(shù)據(jù),雖然數(shù)據(jù)中的設(shè)定值并不都是最優(yōu)的,但滿足算法1的初始穩(wěn)定控制策略需求。
圖2 基于強化學(xué)習(xí)設(shè)定值優(yōu)化算法結(jié)構(gòu)圖
在此基礎(chǔ)上,本文使用基于數(shù)據(jù)驅(qū)動強化學(xué)習(xí)設(shè)定值優(yōu)化算法以解決重介質(zhì)選煤運行優(yōu)化過程的非線性跟蹤問題。其中,該控制結(jié)構(gòu)采用BP神經(jīng)網(wǎng)絡(luò)設(shè)計框架的各個部分,主要分為設(shè)定策略提升神經(jīng)網(wǎng)絡(luò)和策略評價神經(jīng)網(wǎng)絡(luò)兩個部分,其結(jié)構(gòu)如圖2所示,利用強化學(xué)習(xí)理論和歷史數(shù)據(jù),使得兩個網(wǎng)絡(luò)不斷更新神經(jīng)網(wǎng)絡(luò)權(quán)重,從而實現(xiàn)自學(xué)習(xí)得到最優(yōu)控制值函數(shù),最終通過設(shè)定值優(yōu)化執(zhí)行獲得優(yōu)化值。其中設(shè)定策略提升神經(jīng)網(wǎng)絡(luò)和策略評價神經(jīng)網(wǎng)絡(luò)均為三層結(jié)構(gòu),并且設(shè)置神經(jīng)網(wǎng)絡(luò)輸入層到隱層的權(quán)重矩陣為Ya和Yc,隱層到輸出層的權(quán)重矩陣設(shè)為Wa和Wc。隱含層神經(jīng)元的數(shù)目設(shè)置為na和nc。
由此,分別將策略評價和策略提升神經(jīng)網(wǎng)絡(luò)定義如下。
1)策略評價神經(jīng)網(wǎng)絡(luò):
其中,φc=[φc1,φc2,…,φcnc]T∈Rnc×l。
φc是隱層的激活函數(shù),其數(shù)學(xué)形式采用φcj(·)=sigmoid(·)。
2)策略提升神經(jīng)網(wǎng)絡(luò):
式中,φa=[φa1,φa2,…,φana]T∈Rna×l,l=1,2,…,ny表示神經(jīng)網(wǎng)絡(luò)輸出的數(shù)量;φa是隱含層的激活函數(shù)向量,其數(shù)學(xué)形式為φaj(·)=sigmoid(·)。
通過更新強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣,讓神經(jīng)網(wǎng)絡(luò)的輸出分別逼近最優(yōu)值函數(shù)和最優(yōu)系統(tǒng)輸入值。
2.2.2 基于神經(jīng)網(wǎng)絡(luò)的策略更新方法
根據(jù)文獻[18,19]對此分別給出策略提升和策略評價神經(jīng)網(wǎng)絡(luò)權(quán)重的更新方法,并且只更新隱含層到輸出層的權(quán)重。
1)策略評價神經(jīng)網(wǎng)絡(luò)更新。
先定義如下Bellman跟蹤誤差估計值:
由上文可知,本文目標是將上式誤差調(diào)節(jié)為零,因而將其二次形式作為將策略評價網(wǎng)絡(luò)最小化的目標形式:
利用常規(guī)的梯度下降方法,用來迭代策略評價網(wǎng)絡(luò)權(quán)重矩陣Wc:
其中,lc大于0,用來表示學(xué)習(xí)率。
2)策略提升神經(jīng)網(wǎng)絡(luò)更新。
通過策略提升神經(jīng)網(wǎng)絡(luò)逼近估計理想值,要求通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練使其誤差趨于零。根據(jù)文[20],可以定義策略提升神經(jīng)網(wǎng)絡(luò)估計誤差為:
同上,定義策略評價神經(jīng)網(wǎng)絡(luò)的最小化目標形式:
采用梯度下降算法,優(yōu)化更新策略提升神經(jīng)網(wǎng)絡(luò)權(quán)重矩陣Wa:
系統(tǒng)將持續(xù)運行直到運行次數(shù)超過預(yù)先設(shè)定次數(shù)或者是滿足式(18)的系統(tǒng)要求,系統(tǒng)不再更新控制策略,算法結(jié)束。
為了驗證本文方法的有效性,將所提方法與傳統(tǒng)PI控制方法進行了比較。本文所提強化學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)采用BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)。本文是單入單出的控制結(jié)構(gòu),策略提升和策略評價神經(jīng)網(wǎng)絡(luò)分別采用1-8-2和2-8-1結(jié)構(gòu),即策略提升網(wǎng)絡(luò)包括1個輸入節(jié)點,2個輸出節(jié)點,8個隱層節(jié)點;策略評價神經(jīng)網(wǎng)絡(luò)包括2個輸入節(jié)點,1個輸出節(jié)點,8個隱層節(jié)點 。學(xué)習(xí)率la,lc均設(shè)置為0.02。實驗設(shè)置期望的精煤灰分r*為10%,實驗效果如圖3所示。
圖3 強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法的輸出曲線
利用強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)方法與PI控制方法效果對比如圖4所示??梢钥闯?,實際精煤灰分在約10s時,跟蹤上期望值。實現(xiàn)了重介質(zhì)選煤過程運行優(yōu)化控制,使得每次策略提升神經(jīng)網(wǎng)絡(luò)決策出的重介質(zhì)選煤基礎(chǔ)控制回路輸入量以及過程輸出量均能夠在較短時間跟蹤上設(shè)定值,與傳統(tǒng)PI控制方法的實際精煤灰分含量在約30s時才跟蹤上期望值相比,本文方法實現(xiàn)了快速跟蹤。從超調(diào)精度上對比,采用本文方法的超調(diào)量在0.5%左右,而傳統(tǒng)PI控制的超調(diào)量在2.1%左右,超調(diào)量獲得大幅下降,因而基于強化學(xué)習(xí)的值函數(shù)更新策略使得控制方法實現(xiàn)自學(xué)習(xí),使得系統(tǒng)獲得更高精度,給實際重介質(zhì)選煤過程中帶來更好的經(jīng)濟效益。
圖4 采用傳統(tǒng)PI控制方法的輸出曲線
1)實際重介質(zhì)選煤過程復(fù)雜多變且涉及設(shè)備繁多,采用基于模型的優(yōu)化控制方法很難實時更新最優(yōu)設(shè)定值。利用數(shù)據(jù)驅(qū)動方法,避免對模型的依賴,通過以往的數(shù)據(jù)優(yōu)化更新系統(tǒng)設(shè)定值,充分優(yōu)化了選煤過程的產(chǎn)品質(zhì)量。
2)引入強化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)算法對重介質(zhì)選煤過程優(yōu)化控制,同步更新的兩個神經(jīng)網(wǎng)絡(luò)運行速率較快,精度較高,可以實現(xiàn)對重介質(zhì)選煤過程的優(yōu)化控制。