代 偉 陸文捷 付 俊 馬小平
先進控制與優(yōu)化技術(shù)一直被認為是復(fù)雜工業(yè)過程提質(zhì)增效、實現(xiàn)經(jīng)濟利潤提高的關(guān)鍵.如今,其前沿核心技術(shù)之一是工業(yè)過程運行優(yōu)化控制[1?2],內(nèi)涵是采用信息技術(shù),圍繞生產(chǎn)過程的知識與數(shù)據(jù)信息進行集成,通過過程運行優(yōu)化與控制的智能化和集成化,在保證過程安全運行的條件下,不僅使基礎(chǔ)回路輸出很好地跟蹤設(shè)定值,而且控制整個運行過程,使其在生產(chǎn)條件約束下實現(xiàn)質(zhì)量、效率和能耗等運行指標(biāo)的最優(yōu)化[3].
當(dāng)前工業(yè)過程運行優(yōu)化控制通常采用分層結(jié)構(gòu),其優(yōu)點在于它提供了優(yōu)化和控制層任務(wù)的清晰界限,在被控對象和時間尺度上均有不同.運行層面向工業(yè)運行過程,具有慢時間尺度特性,其目標(biāo)是優(yōu)化設(shè)定值;基礎(chǔ)回路層面向基礎(chǔ)設(shè)備/回路過程,具有快時間尺度特性,其目標(biāo)是實現(xiàn)設(shè)定值的跟蹤.
在工業(yè)過程運行優(yōu)化控制的分層結(jié)構(gòu)下,已取得了大量基于模型的研究成果,如SOC (Selfoptimizing control)以及SOC 與NCO tracking(Necessary conditions of optimality tracking)集成、RTO (Real-time optimization)以及RTO 與MPC (Model predictive control)集成的優(yōu)化控制方法.
SOC 以靜態(tài)經(jīng)濟效益模型為目標(biāo)函數(shù),離線求解一組滿足生產(chǎn)約束的被控變量及其設(shè)定值,使工業(yè)過程受擾后,不改變設(shè)定值仍可處于近似經(jīng)濟最優(yōu)狀態(tài)[4?5].SOC 與NCO tracking 的集成方法是在SOC 選擇基礎(chǔ)回路層的被控變量后,采用NCO tracking 更新設(shè)定值,以提高動態(tài)性能[6].但對于干擾源眾多或者干擾變化幅度較大的工業(yè)過程來說,難以利用SOC 確定被控變量,或者滿足SOC 基本條件的被控變量根本不存在.基于RTO 的運行優(yōu)化控制方法,是基于基礎(chǔ)回路層穩(wěn)態(tài)的過程模型求解運行層的最優(yōu)設(shè)定值[7],但其只能在系統(tǒng)達到穩(wěn)定時才進行優(yōu)化,優(yōu)化周期較長,難以處理動態(tài)擾動.基于擬穩(wěn)態(tài)概念的小周期采樣的RTO 方法[8]由于時間尺度難以把握,有時會導(dǎo)致生產(chǎn)不可控制的問題,難以工業(yè)應(yīng)用.RTO 與MPC 的集成方法[9?11]在基礎(chǔ)回路層采用MPC 方法,運行層采用RTO 求解期望的穩(wěn)態(tài)最優(yōu)值,并設(shè)計運行層MPC計算基礎(chǔ)回路層的被控變量和MPC 輸入量的設(shè)定值,上層MPC 優(yōu)化與底層MPC 控制采用相同的周期,實現(xiàn)擾動產(chǎn)生后設(shè)定值的快速調(diào)整.但RTO與MPC 的集成方法存在運行層穩(wěn)態(tài)模型和基礎(chǔ)回路層動態(tài)模型失配以及網(wǎng)絡(luò)問題,影響優(yōu)化效果,為此,運行層采用過程動態(tài)模型的DRTO (Dynamic RTO)與MPC 的集成方法[12]、雙層MPC 方法[13]以及RTO 與Network-based MPC 的集成方法[14]被相繼提出.但實際工業(yè)過程,如冶金、選礦,運行過程機理復(fù)雜,加之設(shè)備狀況及生產(chǎn)環(huán)境的變化影響,導(dǎo)致數(shù)學(xué)模型難以精確建立[1?2],從而制約了上述基于模型的分層運行優(yōu)化控制方法的實際工業(yè)應(yīng)用.
知識驅(qū)動的分層運行優(yōu)化控制方法在假設(shè)基礎(chǔ)回路控制器可保證設(shè)定值快速跟蹤的條件下,集中研究基于專家系統(tǒng)[15]、案例推理[16]、模糊規(guī)則推理技術(shù)[17]及各種技術(shù)相集成[18]的運行層智能設(shè)定值優(yōu)化方法.知識驅(qū)動的優(yōu)化控制方法主要是依靠模擬領(lǐng)域?qū)<业慕?jīng)驗與知識,與環(huán)境的交互能力差,當(dāng)工況變化時,常常依然需要領(lǐng)域?qū)<覍刂破鬟M行調(diào)整,而人的主觀性和隨意性導(dǎo)致系統(tǒng)難以優(yōu)化運行.實際工業(yè)生產(chǎn)過程中存在大量能夠反映過程運行機理和運行狀態(tài)的實時與歷史運行數(shù)據(jù),因此采用數(shù)據(jù)驅(qū)動技術(shù)來研究分層運行優(yōu)化控制方法已成為當(dāng)前的熱點.
自適應(yīng)評價設(shè)計(Adaptive critic design,ACD)是強化學(xué)習(xí)在控制理論領(lǐng)域中的一種近似方法,被廣泛用于解決模型未知的最優(yōu)控制問題[19].與ACD 相類似的名稱還包括自適應(yīng)動態(tài)規(guī)劃[20]、神經(jīng)動態(tài)規(guī)劃[21]等.文獻[22]借鑒ACD 思想,在假設(shè)基礎(chǔ)回路層穩(wěn)定跟蹤的基礎(chǔ)上,在運行層提出了由評價網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò)串聯(lián)組成的數(shù)據(jù)驅(qū)動控制回路設(shè)定值優(yōu)化方法.文獻[23]針對磨礦特性,提出強化學(xué)習(xí)與傳統(tǒng)PI 集成的分層運行優(yōu)化控制方法.文獻[24]在基礎(chǔ)回路層采用多回路PI 控制的基礎(chǔ)上,提出一種基于Q-學(xué)習(xí)的次優(yōu)設(shè)定值設(shè)計方法.文獻[25]提出一種零和博弈脫策強化學(xué)習(xí)與傳統(tǒng)PI 相集成的分層運行優(yōu)化控制.上述分層優(yōu)化控制方法考慮了兩層快慢時間尺度特性,實現(xiàn)了設(shè)定值的動態(tài)調(diào)整.然而,實際工業(yè)過程控制系統(tǒng)中,因各檢測裝置的采樣周期不同,使得基礎(chǔ)回路層的采樣和控制周期可能不同,即基礎(chǔ)回路層也存在多速率問題,因此,工業(yè)過程的運行優(yōu)化控制是具有三種及以上速率的多速率分層結(jié)構(gòu),導(dǎo)致上述算法難以直接使用.
本文結(jié)合工業(yè)過程分層控制結(jié)構(gòu)下的多速率特點,針對一類基礎(chǔ)回路層模型已知,運行層模型未知的工業(yè)過程,提出一種基于Q-學(xué)習(xí)、MPC 與提升技術(shù)的集成運行優(yōu)化控制方法.其首先在基礎(chǔ)回路層采用提升技術(shù)對采樣與控制周期不一致的動態(tài)模型提升至框架周期,對增維后的動態(tài)模型采用MPC進行控制器設(shè)計;其次,運行層采用一種數(shù)據(jù)驅(qū)動的Q-學(xué)習(xí)方法,借助工業(yè)過程中采集的數(shù)據(jù)優(yōu)化基礎(chǔ)回路層的設(shè)定值,從而實現(xiàn)運行優(yōu)化控制的目標(biāo);最后以閉路磨礦為背景進行實驗研究,驗證了方法的有效性.
本部分首先簡要介紹工業(yè)過程運行優(yōu)化控制的層級架構(gòu),然后對多速率分層運行優(yōu)化控制問題及難點進行分析,并給出本文的控制策略.
工業(yè)過程分層運行優(yōu)化控制結(jié)構(gòu)如圖1 所示.其中r表示工業(yè)過程運行指標(biāo),分層控制的目標(biāo)即是能夠通過選取一個合適的基礎(chǔ)回路設(shè)定值w,并通過調(diào)節(jié)基礎(chǔ)回路控制量u使回路輸出y跟蹤w,從而控制實際運行指標(biāo)r在期望運行指標(biāo)r?附近.
工業(yè)過程包括回路過程和運行過程兩層動態(tài),其運行過程往往機理復(fù)雜難以建模,且整個系統(tǒng)因?qū)蛹壒δ芤约八婕暗谋豢貙ο筇匦缘牟町悓?dǎo)致層級間時間尺度各異,以及由于信號變化速率相差較大,各檢測裝置的采樣周期不同,難以統(tǒng)一基礎(chǔ)回路的控制與采樣周期.由此可以看出,工業(yè)過程運行優(yōu)化控制是一個多層次、多時間尺度且部分模型未知的多速率控制問題,對現(xiàn)有控制理論提出了挑戰(zhàn).如何針對多時間尺度被控對象特性,在分層的多速率控制結(jié)構(gòu)下,將運行層優(yōu)化與基礎(chǔ)回路層控制相集成,模型與數(shù)據(jù)相結(jié)合,實現(xiàn)運行優(yōu)化控制目標(biāo)是本文研究的重點.
圖1 多速率工業(yè)過程的雙層層級架構(gòu)Fig.1 Two-layer structure of multi-rate industrial processes
由上述分析可知,回路過程直接與檢測裝置以及執(zhí)行機構(gòu)相接觸,而各種儀表因其自身的特殊性,獲取信息和處理信息的速度不同,加之控制節(jié)點分散,因此在很多復(fù)雜的實際工業(yè)過程控制中,系統(tǒng)的控制更新速率與采樣速率并不一致,且通常對控制輸入的在線更新速度要求較高.因此本文考慮的基礎(chǔ)回路層多速率采樣控制策略是針對基礎(chǔ)回路過程以T2為周期進行等周期采樣,而基礎(chǔ)回路控制器的輸出由周期為T1的保持器轉(zhuǎn)換得到的情況,T1與T2之間滿足關(guān)系式T1 本文解決上述多速率分層運行優(yōu)化控制系統(tǒng)設(shè)計問題的思路是:首先,通過提升技術(shù)將基礎(chǔ)回路層的控制與采樣周期均提升至框架周期T0,使該層速率一致,并采用MPC 設(shè)計基礎(chǔ)回路控制器;然后,針對框架周期T0普遍小于運行層控制周期T(T=ξT0,ξ為正整數(shù))的問題,進一步將基礎(chǔ)回路層的周期T0提升至運行層控制周期T,使基礎(chǔ)回路層的快時間尺度動態(tài)特性與運行層的慢時間尺度一致,從而構(gòu)建增廣狀態(tài)模型用于描述由基礎(chǔ)回路控制器、回路過程和運行過程組成的廣義被控對象;繼而針對這一部分模型未知的廣義被控對象,提出一種基于Q-學(xué)習(xí)的數(shù)據(jù)驅(qū)動運行層設(shè)定值優(yōu)化方法,以根據(jù)系統(tǒng)運行狀態(tài)在線更新設(shè)定值. 工業(yè)實際中的回路過程往往為非線性動態(tài)模型,然而它們通常在運行點附近穩(wěn)態(tài)運行,因此能在運行點附近線性化. 考慮如下連續(xù)時間基礎(chǔ)回路過程模型: 其中,xf ∈Rnx,u ∈Rnu,y ∈Rny分別為基礎(chǔ)回路層被控對象即回路過程的狀態(tài)、控制輸入和控制輸出變量,nx、nu和ny表示相應(yīng)變量的維數(shù);Ac,Bc,Cc和Dc為回路過程模型的系統(tǒng)矩陣. 控制周期T1與采樣周期T2有如下關(guān)系:T1=ph,T2=qh,p小于q且互為質(zhì)數(shù),h為基周期,由此可得框架周期T0=pqh,即T1和T2的最小公倍數(shù).采用提升技術(shù)使基礎(chǔ)回路層的控制與采樣周期均提升至框架周期T0,以解決基礎(chǔ)回路層中的輸入輸出多速率控制問題,具體方法如下. 首先以基周期h將基礎(chǔ)回路層模型離散化為 對離散化后的系統(tǒng)進行提升,將輸入向量維度提升q倍,輸出向量維度提升p倍,即將u和y的周期均提升至T0,m表示采樣周期T0下的運行步數(shù).提升過程定義如下: 提升后的基礎(chǔ)回路層狀態(tài)空間模型如下: 為了便于表示各系統(tǒng)矩陣先做如下定義: 注1.對多時間尺度系統(tǒng),當(dāng)p和q為互質(zhì)整數(shù)時,對每一個i,0≤i ≤p ?1,存在整數(shù)ci ≥0 和0≤di ≤p滿足iq=cip+di,i=1,2,···,p ?1. 注2.經(jīng)過提升后的系統(tǒng)(3),本質(zhì)上是系統(tǒng)將多速率系統(tǒng)以“塊”的思想對輸入輸出信號進行“堆疊”,以一個大于系統(tǒng)所有周期的時間為大周期即框架周期T0,對系統(tǒng)信息進行采集,使得輸入和輸出在框架周期T0內(nèi)以其各自的實際周期進行增維.從而所組成的新系統(tǒng)方程既不損失原系統(tǒng)信息,又將多速率系統(tǒng)化為單速率,便于系統(tǒng)設(shè)計與分析. 提升至框架周期T0之后的基礎(chǔ)回路層控制系統(tǒng)為一個多輸入多輸出的非方系統(tǒng),且相比于原系統(tǒng),不僅輸入輸出的維度大大增加,而且變量之間的耦合性也隨之加強,難以實施常規(guī)的PID 控制方法.因此,本文采用MPC 對其進行控制.為簡單起見,推導(dǎo)過程中的預(yù)測時域和控制時域均設(shè)置為1,具體如下. 根據(jù)式(3)可得到預(yù)測模型為 由于工業(yè)過程均為連續(xù)變化的系統(tǒng),且底層基礎(chǔ)回路控制采樣與控制周期較小,通常為秒級或毫秒級,前后連續(xù)兩個時刻系統(tǒng)變化不大,因此,為簡單起見,將ˉu(m+1)用ˉu(m)來代替,則上式改寫為 工業(yè)過程控制系統(tǒng)通常希望過程變量與設(shè)定值值盡可能接近外,還希望生產(chǎn)過程中的各類消耗盡可能低,故采用如下目標(biāo)函數(shù): 其中,α=[Iny×ny···Iny×ny]T∈RNy×ny表示將設(shè)定值w的維度提升至與相同的系數(shù)矩陣,分別為預(yù)測控制輸出和控制量的加權(quán)因子,其中, 則目標(biāo)函數(shù)(7)變?yōu)?/p> 將預(yù)測方程(6)代入式(8),可得: 求Jmpc的極值,即,不難得到最優(yōu)控制律為 由于運行層具有慢時間尺度特性,其優(yōu)化出的設(shè)定值w在運行控制周期T內(nèi)保持不變,故w(m+i)=w(m),i=1,2,···,ξ ?1(ξ=T/T0), 由此可得: 將式(12)代入式(3),可得系統(tǒng)閉環(huán)方程: 注3.將來代替只是工程上的一種近似處理方法,對于變化較快的工業(yè)過程,可計算求解兩個控制時間序列即但每一時刻只實施當(dāng)前的控制量. 如式(13)所示,基礎(chǔ)回路層閉環(huán)控制周期為T0,而運行層的控制周期為T,通常情況下T >T0,此時運行層控制器的設(shè)計仍然是一個多速率控制問題,因此首先需要將系統(tǒng)提升到慢時間尺度T,通過遞推容易得到: 則通過遞歸提升后的系統(tǒng)可以表示為 式(15)即是基礎(chǔ)回路層在慢時間尺度T下的閉環(huán)模型,可與運行過程模型相結(jié)合構(gòu)成運行層的廣義被控對象. 考慮如下連續(xù)時間運行過程模型: 對式(16)按周期T進行離散化可得: 結(jié)合式(15)、式(17)兩式聯(lián)立得到如下增廣矩陣: 由此可得,統(tǒng)一時間尺度后的運行層廣義被控對象為 為了公式的清晰表達,在下文中多處將r(k),r?(k),w(k),w?(k),x(k)和XXX(k)表示為兩種表示方法同義. 為實現(xiàn)運行指標(biāo)跟蹤理想運行指標(biāo)r?,定義如下性能指標(biāo): 其中,Q和R分別為半正定矩陣和正定矩陣;運行指標(biāo)的期望軌跡采用類似文獻[26]的處理方法,即 注4.對于跟蹤問題,性能指標(biāo)的前一項為了使跟蹤誤差足夠小,保證實際運行指標(biāo)能夠跟蹤期望值;后一項的引入是為了限定控制輸入的變化程度,避免設(shè)定值過大. 注5.為保證優(yōu)化控制的可實現(xiàn)性,還需修定性能指標(biāo),這是因為性能指標(biāo)函數(shù)中包含回路設(shè)定值部分,如果當(dāng)不收斂于0,而設(shè)定值w(k)由于依賴系統(tǒng)狀態(tài)x(k)和理想運行指標(biāo)r?(k),也不收斂于0,性能指標(biāo)(21)可能無界.實際工業(yè)過程中,運行指標(biāo)表征工業(yè)生產(chǎn)中間過程的產(chǎn)品質(zhì)量、能耗與物耗等,無法滿足k →∞時收斂到0 的條件,為此,需要在性能指標(biāo)函數(shù)中引入折扣因子γ(0<γ <1)避免對收斂到0 的限制,使得只要系統(tǒng)輸入輸出有界,則J有界. 結(jié)合式(20)和(21),運行層的設(shè)定值優(yōu)化轉(zhuǎn)化為求解如下帶有折扣因子的線性二次跟蹤(Linear quadratic tracking,LQT)問題. 當(dāng)廣義被控對象模型即式(20)已知時,可通過引入貝爾曼方程及哈密爾頓函數(shù)求解上述帶有折扣因子的LQT 問題.但對于工業(yè)過程,其運行過程機理復(fù)雜難以獲得模型(As,Bs,Cs,Ds),因此,式(20)含有部分未知模型,導(dǎo)致難以采用傳統(tǒng)LQT 求解方法.下文首先將求解LQT 問題轉(zhuǎn)化為線性二次調(diào)節(jié)(Linear quadratic regular,LQR)問題.進而引入貝爾曼方程及哈密爾頓函數(shù)進行求解,闡明該方法對系統(tǒng)全動態(tài)模型的依賴,繼而采用增強學(xué)習(xí),設(shè)計一種基于Q-學(xué)習(xí)的數(shù)據(jù)驅(qū)動方法. 則有折扣因子的LQT 問題(23)可重寫為如下LQR: 其中,ε=C+DKx,δ=DKr ?I,根據(jù)式(20)和(22)可得: 將以上兩式代入式(27)中可得: 其中 則值函數(shù)表示為 由式(25)和(31),可得如下貝爾曼方程: 將式(31)代入式(32),有 由此,得到如下LQR 問題的哈密爾頓函數(shù): 根據(jù)文獻[27?28],求解LQR 問題需滿足最優(yōu)性的必要條件: 將式(24)代入上式,得到: 也可采用在線策略迭代算法逐步求解矩陣P和最優(yōu)控制率K?,具體算法如下: 算法1.基于貝爾曼方程的在線策略迭代算法 步驟1.策略評估(用貝爾曼方程計算Pj+1,j=1,2,···); 步驟2.策略提升 在線策略迭代算法在初始值K1能鎮(zhèn)定系統(tǒng)的情況下,可通過迭代LQR 貝爾曼方程(38),采用最小二乘法(Least squares,LS)或其遞推算法(Recursive least squares,RLS)計算正定矩陣Pj+1,并改進設(shè)定值優(yōu)化策略直到收斂,從而獲得最優(yōu)的設(shè)定值. 從上述計算過程可以看出,無論是采用ARE 離線求解還是采用在線策略迭代算法,均依賴系統(tǒng)的全部動態(tài)信息(T,B1),對于無法建立運行過程的工業(yè)系統(tǒng),兩種算法均難以使用.因此,在下節(jié)中將利用Q-學(xué)習(xí)來求解帶有折扣因子的LQR 問題,實現(xiàn)設(shè)定值優(yōu)化. 基于Q-學(xué)習(xí)的設(shè)定值優(yōu)化方法是一種在線迭代算法,其不需要系統(tǒng)動態(tài)信息(T,B1),具體算法如下: 根據(jù)貝爾曼方程(33),定義Q-函數(shù)為 由增廣系統(tǒng)(24)可改寫式(40)為 因此,定義: 由此可以看出最優(yōu)設(shè)定值的求解只與矩陣H相關(guān),類似第3.3 節(jié)中算法1 的在線策略迭代算法,本文通過在線采集的數(shù)據(jù)Xk,Zk,Zk+1對矩陣H進行逐步估計,從而求得最優(yōu)設(shè)定值w?.具體算法如下. 由于Q-函數(shù)滿足如下貝爾曼方程: 將上式(44)代入式(45)可得: 根據(jù)式(43)和(46),可采用算法2 所示的在線策略迭代算法逐步求解矩陣H和最優(yōu)設(shè)定值w?. 算法2.基于Q-函數(shù)的策略迭代算法 步驟1.策略評估 步驟2.策略提升 在每一次策略評估時,矩陣Hj+1可利用數(shù)據(jù)采用LS 或RLS 獲得;此后將Hj+1用于策略提升,更新后的設(shè)定值在基礎(chǔ)回路層MPC 控制器的作用下,產(chǎn)生新的工業(yè)過程數(shù)據(jù),再次用于策略評估,如此循環(huán),當(dāng)算法收斂時,通過式(48)即可求得最優(yōu)設(shè)定值w?.從上述算法過程可以看出,基于Q-學(xué)習(xí)的設(shè)定值優(yōu)化方法無需任何系統(tǒng)動態(tài)先驗知識,是一種無模型的數(shù)據(jù)驅(qū)動方法. 注6.為保證式(47)中Hj+1能夠在LS 或RLS 算法下被準(zhǔn)確估計,要求數(shù)據(jù)充分,因此在執(zhí)行策略迭代時需要加入持續(xù)激勵條件.實際上,工業(yè)過程在運行時不可避免會受測量擾動的影響,因此,一定程度上保證算法所需的充分持續(xù)激勵條件,從而使得Hj+1能夠被準(zhǔn)確估計.從強化學(xué)習(xí)的角度看,干擾可以幫助算法更有效地探索周圍的環(huán)境,增加選擇最優(yōu)值的幾率. 注7.由式(47)可以看出,Hj+1是控制參數(shù),本文直接采用LS 或RLS 算法對Hj+1進行估計,從而計算控制輸出,不需要辨識系統(tǒng)模型.因此,從自適應(yīng)控制的角度看,是一種直接自適應(yīng)控制方法,對于具有不確定性和時變的被控對象具有一定的自學(xué)習(xí)和自適應(yīng)能力. 由于V(Xk)和Q(Xk,wk)在數(shù)學(xué)公式上等價,結(jié)合式(31)和(41)可以得到: 由此可以看出Q-函數(shù)和H矩陣的同趨性,因此,當(dāng)Q-函數(shù)隨著j →∞而趨于最優(yōu)值時,Hj和Kj都會趨于最優(yōu)值,本節(jié)即通過這個思想來證明算法的收斂性. 在LS 算法充分求解,保證式(47)中Hj+1能被準(zhǔn)確估計,且在初始控制策略保證運行指標(biāo)穩(wěn)定的前提下,可得引理1. 引理1. 證明.由和式(47)可得: 引理2. Kj+1和Pj+1的關(guān)系如式(39)所示,其中, 證明.式(52)可直接由式(41)得到,根據(jù)式(49)可得: 由此易得式(53). 引理3.Pj+1滿足如下迭代過程: pj+1和Hj+1是同步且等價的. 證明.將引理2 中的式(52)代入式(53)可得: 定理1.假設(shè)LQR 問題在狀態(tài)反饋信息下是可解的且具有一個值結(jié)構(gòu).那么,初始值H0、K0在穩(wěn)定范圍內(nèi)時,通過定理1 中式(50)的迭代,Hj會最終趨近于H?.其中H?為Q-函數(shù)迭代至最優(yōu)值Q?(XXXk,wk)時的取值,此時P?的值對應(yīng)式(37)所能求出的理想解. 證明.已有文獻已證明廣義ARE 通過迭代可以保證初始值P0=0 時,P收斂于P?[29],從而說明本文ARE 可通過式(55)的迭代使得Pj收斂于P?.又引理2 和3 說明了Pj和Hj是同步變化的,所以Hj最終也會趨近于期望值H?,即 上述算法的收斂性分析是在LS 可充分求解的前提下討論的,對于采用RLS 算法下的控制器收斂性分析,詳見文獻[30]. 為了驗證本文方法的有效性,本文以典型工業(yè)閉路磨礦過程為對象進行仿真實驗研究. 磨礦過程是對礦石經(jīng)過物理的研磨、分級處理,將顆粒由大變小,從而將有用礦物從脈石中分離出來.本文選取如圖2 所示的典型磨機過程,其由電振給礦機、球磨機和水力旋流器等設(shè)備組成.磨礦生產(chǎn)過程中,原礦首先和一定比例的水被輸送至球磨機,球磨機通過自身旋轉(zhuǎn)帶動機內(nèi)鋼球?qū)ΦV石進行研磨.研磨后的礦石隨礦漿流動從球磨機出口處排出流入泵池,礦漿經(jīng)稀釋后由底流泵打入水力旋流器進行粒度分級,形成含有細顆粒物的溢流礦漿和含有粗顆粒物的底流礦漿.底流礦漿返回至球磨機再進行研磨,形成循環(huán)負荷.由于粒度過粗或過細都不利于有用礦粒的選別,因此溢流礦漿的產(chǎn)品粒度r1是關(guān)鍵的運行指標(biāo)之一;此外,循環(huán)負荷r2反映了磨礦能耗水平,是體現(xiàn)磨礦運行效率的重要運行指標(biāo).磨礦過程控制的目標(biāo)即是實現(xiàn)產(chǎn)品粒度r1和循環(huán)負荷r2的優(yōu)化控制. 由于產(chǎn)品粒度r1和循環(huán)負荷r2與磨機給礦量和泵池補加水密切相關(guān),因此,磨礦系統(tǒng)通常設(shè)置磨機給礦和泵池補加水兩個基礎(chǔ)控制回路,運行過程以磨機給礦量和泵池補加水量為輸入,以運行指標(biāo)為輸出.由于給礦和給水的動態(tài)過程較快,而礦石研磨需要較長的時間,因此,磨礦過程的回路過程和運行過程具有不同時間尺度特性,是一個典型的多層次、多時間尺度的控制問題.為了驗證本文所提方法,將電振給礦機頻率u1和泵池補水閥門開度u2兩個基礎(chǔ)控制回路的控制周期T1設(shè)置為2 s,磨機給礦量y1、和泵池補水流量y2的采樣頻率T2設(shè)置為3 s,運行層周期T為60 s,即ξ=10.根據(jù)本文所提的多速率分層運行優(yōu)化控制方法,可以得到基周期h為1 s,框架周期即基礎(chǔ)回路層控制周期T0為6 s. 圖2 閉路磨礦過程工藝流程圖Fig.2 Flow chart of closed-circuit mineral grinding process 根據(jù)文獻[31],結(jié)合實際磨礦過程,兩層動態(tài)模型分別采用式(49)和式(50)來近似模擬. 將上述模型轉(zhuǎn)換為控制器設(shè)計所需的狀態(tài)空間模型,即 由于本文方法不需要運行過程動態(tài)信息,因此運行過程模型(52)只用于被控對象仿真,其在控制器設(shè)計時并未使用. 實驗設(shè)置期望的磨礦粒度為70%,期望的循環(huán)負荷為150 t/h,即r?=[70,150]T.本文方法首先依靠系統(tǒng)運行產(chǎn)生的新數(shù)據(jù),通過Q-學(xué)習(xí)給出新的決策量w作為給礦量和泵池補水量的設(shè)定值.然后,基礎(chǔ)回路層通過MPC 控制器調(diào)整給礦量控制量和泵池補水量控制量,使給礦量、補水量跟蹤運行層所給的設(shè)定值w. 采用本文所提方法的控制效果如圖3~5 所示,圖3 描繪的是運行層磨礦粒度和循環(huán)負荷跟蹤其期望值的變化曲線;圖4 給出了基礎(chǔ)回路層給礦量和泵池補水量跟蹤其設(shè)定值的變化曲線;圖5 是基礎(chǔ)回路層給礦機電振頻率和泵池補加水閥門開度的變化曲線. 從圖3 可以看出,在運行指標(biāo)初始狀態(tài)與期望值較大偏離的情況下,控制系統(tǒng)在6 個運行控制周期即360 s 內(nèi)快速實現(xiàn)了運行指標(biāo)r的優(yōu)化控制,并在每一次磨機給礦量和泵池補水流量回路的設(shè)定值w1和w2優(yōu)化設(shè)定后,其過程變量y1和y2均能夠在遠小于運行控制周期的時間內(nèi)跟蹤設(shè)定值.由此可以看出,本文所提出的工業(yè)過程多速率分層運行優(yōu)化控制方法在基礎(chǔ)回路層和運行層均能夠獲得良好的控制效果.此外,在第900 s 仿真時間處,使模型參數(shù)發(fā)生突變,以模擬實際生產(chǎn)過程中礦石性質(zhì)(如礦石硬度和礦石粒度)的變化對系統(tǒng)的擾動.從仿真結(jié)果可以看出,在出現(xiàn)擾動后,本文方法憑借其自身的自適應(yīng)能力,可以使運行指標(biāo)快速回到其期望值,具有良好的穩(wěn)定性. 將所提方法與PI+MPC 和PI+PI 兩種控制方法,在相同實驗條件下進行對比.其中PI+MPC控制方法在運行層采用PI 控制器,控制器參數(shù)取基礎(chǔ)回路層采用本文所提出的基于提升技術(shù)和MPC 的控制器,其控制結(jié)果如圖6 和圖7 所示.PI+PI控制方法在運行層和基礎(chǔ)回路層均采用PI 控制方法以單速率設(shè)計控制器,運行層的控制器參數(shù)取;基礎(chǔ)回路層的參數(shù)取其控制結(jié)果如圖8和圖9所示. 從圖7 和圖9 可以看出,PI+MPC 控制方法由于基礎(chǔ)回路層采用了提升技術(shù)和MPC,基礎(chǔ)回路層的跟蹤效果好于PI+PI 控制方法,這是因為采用提升技術(shù)和MPC 設(shè)計的控制器一方面可以很好地解決多速率導(dǎo)致的時變特性,另一方面能夠?qū)ο到y(tǒng)的耦合進行有效的處理.由于PI+MPC 與PI+PI 兩種控制方法在運行層均采用PI 控制器,因此對運行指標(biāo)的控制效果相似,這可從圖6 和圖8 看出.雖然兩種控制方法均能實現(xiàn)磨礦粒度和循環(huán)負荷兩個運行指標(biāo)的跟蹤,但調(diào)節(jié)時間約1 000 s,均遠遠大于本文所提方法下的360 s.由此可以看出,本文所提出的工業(yè)過程多速率分層運行優(yōu)化控制方法具有響應(yīng)速度快,且穩(wěn)定好的特點,對穩(wěn)定運行指標(biāo),實現(xiàn)工業(yè)過程的提質(zhì)增效效果顯著. 圖3 本文方法下的運行指標(biāo)控制曲線Fig.3 Control curve of operational indices using the proposed method 圖4 本文方法下的基礎(chǔ)回路層輸出曲線Fig.4 Output curve of basic loop layer using the proposed method 圖5 本文方法下的基礎(chǔ)回路層輸入曲線Fig.5 Input curve of basic loop layer using the proposed method 圖6 PI+MPC 方法下的運行指標(biāo)控制曲線Fig.6 Control curve of operational indices using the PI+MPC method 圖7 PI+MPC 方法下的基礎(chǔ)回路層輸出曲線Fig.7 Output curve of basic loop layer using the PI+MPC method 圖8 PI+PI 方法下的運行指標(biāo)控制曲線Fig.8 Control curve of operational indices using the PI+PI method 圖9 PI+PI 方法下的基礎(chǔ)回路層輸出曲線Fig.9 Output curve of basic loop layer using the PI+PI method 本文針對多層次、多時間尺度、且運行層模型未知的復(fù)雜工業(yè)過程,創(chuàng)新性的考慮了多速率分層問題,將提升技術(shù)、模型預(yù)測與增強學(xué)習(xí)方法相結(jié)合,提出一種工業(yè)過程多速率分層運行優(yōu)化控制方法.其通過兩種提升方法將多速率分層問題統(tǒng)一到一個時間尺度,采用一種數(shù)據(jù)驅(qū)動的Q-學(xué)習(xí)算法,求解基礎(chǔ)回路最優(yōu)設(shè)定值,同時設(shè)計基礎(chǔ)回路層的MPC 控制器實現(xiàn)設(shè)定值的快速跟蹤,從而最終實現(xiàn)運行指標(biāo)對其期望值的跟蹤.將本文方法針對一段閉環(huán)磨礦過程進行了仿真實驗研究,表明了其有效性.本文方法無需采用運行層模型來設(shè)計運行層控制器,僅利用數(shù)據(jù)通過自學(xué)習(xí)實現(xiàn)設(shè)定值的在線優(yōu)化,對運行層機理復(fù)雜難以建立模型的復(fù)雜工業(yè)過程控制器的設(shè)計具有參考價值.2 基于提升技術(shù)和MPC 的基礎(chǔ)回路層控制器設(shè)計
2.1 基于提升技術(shù)的基礎(chǔ)回路層多速率處理方法
2.2 基礎(chǔ)回路層控制器設(shè)計
3 基于遞歸提升和Q-學(xué)習(xí)方法的運行層控制器設(shè)計
3.1 基于遞歸提升的運行層多速率處理方法
3.2 運行層設(shè)定值優(yōu)化問題
3.3 基于模型的運行層設(shè)定值優(yōu)化
3.4 基于Q-學(xué)習(xí)的數(shù)據(jù)驅(qū)動運行層設(shè)定值優(yōu)化
3.5 數(shù)據(jù)驅(qū)動運行層設(shè)定值優(yōu)化算法的收斂性分析
4 仿真實驗
4.1 閉路磨礦工藝流程
4.2 仿真實驗研究
5 結(jié)論