薄迎春,李來(lái)鴻,馬善鵬,夏伯鍇
(1.中國(guó)石油大學(xué)信息與控制工程學(xué)院,山東 青島 266580,2.勝利油田河口供電公司,山東 東營(yíng) 257200;3.山東石大科技集團(tuán)有限公司,山東東營(yíng) 257062)
溶解氧質(zhì)量濃度控制對(duì)于采取活性污泥法的污水處理過(guò)程有著重要意義[1-3]。溶解氧質(zhì)量濃度過(guò)低,使污泥活性降低,會(huì)抑制生物對(duì)有機(jī)物的降解,產(chǎn)生污泥膨脹。溶解氧質(zhì)量濃度過(guò)高會(huì)加速消耗污水中的有機(jī)物,使微生物因缺乏營(yíng)養(yǎng)而引起活性污泥的老化,增加能耗[3]。目前,實(shí)際溶解氧質(zhì)量濃度控制主要采取PID控制策略[3]。由于污水處理過(guò)程非線性較強(qiáng),其入水流量、入水污染物質(zhì)量濃度等時(shí)刻發(fā)生變化,固定參數(shù)的PID控制器難以取得好的控制效果[2]。近年來(lái),模型預(yù)測(cè)控制在污水處理過(guò)程得到了廣泛的應(yīng)用[2-3]。但是,由于污水處理過(guò)程參數(shù)的時(shí)變特性及不確定性,目前的機(jī)制模型在應(yīng)用過(guò)程中很容易出現(xiàn)模型失配現(xiàn)象[2-3]。針對(duì)一類(lèi)模型難以確定的被控過(guò)程,數(shù)據(jù)驅(qū)動(dòng)控制方法在近幾年得到了一定的重視[4-6],其最大的優(yōu)點(diǎn)是控制器的設(shè)計(jì)過(guò)程可以直接通過(guò)對(duì)輸入、輸出數(shù)據(jù)的學(xué)習(xí)實(shí)現(xiàn)控制器參數(shù)的調(diào)整。神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)規(guī)劃控制(neural dynamical programming control,NDPC)是一種典型數(shù)據(jù)驅(qū)動(dòng)的控制方法[4]。該方法以Bellman優(yōu)化原理為基礎(chǔ)、采用神經(jīng)網(wǎng)絡(luò)逐步逼近系統(tǒng)最優(yōu)的控制策略[7-8]。針對(duì)污水處理過(guò)程的溶解氧質(zhì)量濃度控制問(wèn)題,筆者提出一種NDP控制方案,并對(duì)評(píng)價(jià)網(wǎng)絡(luò)的收斂性進(jìn)行分析。
一般的優(yōu)化問(wèn)題均設(shè)定一性能指標(biāo)函數(shù),優(yōu)化實(shí)質(zhì)是使該性能指標(biāo)達(dá)到最大或最小。其形式[8]為
式中,Vh(xk)為優(yōu)化問(wèn)題的回報(bào)函數(shù);r(xi,ui)為立即回報(bào)或當(dāng)前回報(bào);0<γ≤1為回報(bào)因子;xk為系統(tǒng)的狀態(tài);uk為控制策略。式(1)也可寫(xiě)為
該方程也稱(chēng)為Bellman方程,為方便起見(jiàn),Vh(xk)簡(jiǎn)記為 Vk,r(xk,uk)簡(jiǎn)記為 rk。令
Ek稱(chēng)為T(mén)D(time difference)誤差[8]。下一步的最優(yōu)行動(dòng)[8]為
如果被控對(duì)象模型已知,通過(guò)求解式(4)即可得到下一時(shí)刻的最優(yōu)控制策略。然而,在污水處理過(guò)程中系統(tǒng)的數(shù)學(xué)模型很難建立,所以用解析的方法難以獲得式(4)的解。NDPC采用迭代方法逐步逼近最優(yōu)的評(píng)價(jià)函數(shù)及最優(yōu)的策略,從而避免了需要建立系統(tǒng)數(shù)學(xué)模型的缺陷。其結(jié)構(gòu)如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)規(guī)劃控制器結(jié)構(gòu)框圖Fig.1 Frame of NDPC
NDPC一般由兩個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)。其中,評(píng)價(jià)網(wǎng)絡(luò)的作用是對(duì)當(dāng)前的控制策略進(jìn)行評(píng)價(jià),其輸出為當(dāng)前控制策略的評(píng)價(jià)值Vk;而行動(dòng)網(wǎng)絡(luò)以評(píng)價(jià)網(wǎng)絡(luò)得出的評(píng)價(jià)值為依據(jù)確定下一步的控制策略。策略評(píng)價(jià)及策略?xún)?yōu)化過(guò)程在與系統(tǒng)交互的過(guò)程中交替進(jìn)行。
NDPC的設(shè)計(jì)過(guò)程實(shí)質(zhì)上是評(píng)價(jià)網(wǎng)絡(luò)和行動(dòng)網(wǎng)絡(luò)的參數(shù)調(diào)整過(guò)程。本文中,評(píng)價(jià)網(wǎng)絡(luò)及行動(dòng)網(wǎng)絡(luò)均采用 ESN[9]。
ESN是一種遞歸神經(jīng)網(wǎng)絡(luò),目前已經(jīng)在時(shí)間序列預(yù)測(cè)、系統(tǒng)辨識(shí)等領(lǐng)域得到了廣泛的應(yīng)用[9-11]。在不考慮輸出到內(nèi)部狀態(tài)反饋的情況下[12],其數(shù)學(xué)形式為
式中,u(k)=[u1(k),…,uK(k)]T為網(wǎng)絡(luò)輸入;s(k)=[s1(k),…,sN(k)]T為內(nèi)部狀態(tài);y(k)=[y1(k),…,yL(k)]T為網(wǎng)絡(luò)輸出;Win、W分別為輸入及內(nèi)部狀態(tài)的連接權(quán)值矩陣,維數(shù)分別為N×K,N×N,K為輸入維數(shù),N為內(nèi)部神經(jīng)元個(gè)數(shù);Wo為內(nèi)部狀態(tài)到輸出的連接權(quán)值矩陣,維數(shù)為L(zhǎng)×N,L為輸入維數(shù);f為內(nèi)部神經(jīng)元激活函數(shù)。W及Win均在學(xué)習(xí)之前確定,并且在學(xué)習(xí)和測(cè)試過(guò)程中保持不變,即ESN的學(xué)習(xí)只需確定Wo的值[11],這降低了神經(jīng)網(wǎng)絡(luò)訓(xùn)練的復(fù)雜性,同時(shí)保持了神經(jīng)網(wǎng)絡(luò)的遞歸特性。
對(duì)于評(píng)價(jià)網(wǎng)絡(luò),其輸出為當(dāng)前策略下的評(píng)價(jià)值Vk。在每一時(shí)刻k,評(píng)價(jià)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)為
這里,j為迭代步數(shù),對(duì)于每一時(shí)刻的行動(dòng)uk,評(píng)價(jià)網(wǎng)絡(luò)需經(jīng)過(guò)多次學(xué)習(xí),直到Ek(j)<ε,ε為一很小的正數(shù)。所以,評(píng)價(jià)網(wǎng)絡(luò)的性能指標(biāo)可設(shè)為
按照梯度下降算法,評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值修正量為
式中,lc為評(píng)價(jià)網(wǎng)絡(luò)的學(xué)習(xí)率。將式(8)代入式(9)得
將式(3)代入式(10)可得
根據(jù)式(6),有
所以,
控制網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)是選擇合適的控制策略,使評(píng)價(jià)網(wǎng)絡(luò)的輸出Vk逐漸接近最終期望的回報(bào)Ve,控制網(wǎng)絡(luò)的學(xué)習(xí)目標(biāo)可以設(shè)置為
應(yīng)用梯度下降算法
式中,la為控制網(wǎng)絡(luò)的學(xué)習(xí)率,根據(jù)鏈?zhǔn)角髮?dǎo)法則
根據(jù)公式(6),有
應(yīng)用鏈?zhǔn)角髮?dǎo)法則,
式(18)的各項(xiàng)可以通過(guò)評(píng)價(jià)網(wǎng)絡(luò)求解。由此可以得出行動(dòng)網(wǎng)絡(luò)的權(quán)值修正量為
BSM1模型[13]定義了幾種回路級(jí)控制的性能評(píng)價(jià)指標(biāo),其中最重要的是方差積分ISE和控制量方差σ(u),其形式如下:
ISE及σ(u)主要反映了系統(tǒng)的控制精度及控制量的波動(dòng)。對(duì)于一個(gè)跟蹤控制過(guò)程,控制精度是首要追求的目標(biāo),此外,在系統(tǒng)平穩(wěn)運(yùn)行時(shí)也不希望控制量出現(xiàn)大幅的波動(dòng)。與控制精度指標(biāo)相關(guān)的立即回報(bào)可定義為
re,k反映了過(guò)去一段時(shí)間內(nèi)被控量的均方誤差。P是回退時(shí)間步數(shù),選取誤差平均值是為了避免當(dāng)前偏差存在嚴(yán)重干擾時(shí)引起的評(píng)價(jià)不準(zhǔn)。類(lèi)似地,與控制量相關(guān)的立即回報(bào)可定義為
系統(tǒng)總的立即回報(bào)可定義為
其中 β1、β2為權(quán)重系數(shù),β1+ β2=1。
BSM1模型中包含了干燥天氣、雨天以及暴雨天氣下的三個(gè)入水文件[13],為了測(cè)試神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)規(guī)劃控制器的性能,取干燥天氣的第1、2、3天的數(shù)據(jù),雨天第10、11天的數(shù)據(jù)以及暴雨天第8、9天的數(shù)據(jù),并將這7天的數(shù)據(jù)集合作為入水流量數(shù)據(jù)。這樣可以體現(xiàn)入水流量的多樣性變化。污水處理的最終目標(biāo)是使出水指標(biāo)滿足標(biāo)準(zhǔn),所以控制精度是首要考慮的指標(biāo),取β1=0.9,β2=0.1。根據(jù)立即回報(bào)的形式,可以得出期望的最大回報(bào)Ve=0,γ取為0.2。首先,溶解氧的設(shè)定值設(shè)為2 g/m3,并保持不變,NDPC及PID控制器的控制效果如圖2所示。由圖2可見(jiàn),NDPC控制器作用下,溶解氧質(zhì)量濃度保持在1.98~2.02 g/m3,波動(dòng)幅度約為 ±1%,而PID控制器作用下,溶解氧質(zhì)量濃度為1.92~2.05 g/m3,波動(dòng)幅度約為±8.5%。
圖2 入水變化時(shí)NDPC和PID控制器跟蹤曲線Fig.2 Tracking circles of NDPC and PID controller
圖3 設(shè)定值變化時(shí)NDPC和PID控制器跟蹤曲線Fig.3 Tracking circles of NDPC and PID with varying set points
圖3顯示了NDPC及PID在溶解氧質(zhì)量濃度設(shè)定值變化情況下的跟蹤情況,兩種控制器在跟蹤的快速性上相當(dāng),但是,NDPC的跟蹤精度明顯高于PID控制器。這兩個(gè)試驗(yàn)表明NDPC對(duì)不同的輸入變化具有較好的適應(yīng)性,能夠在較大程度上提高控制精度。
魯棒性是衡量控制器性能的重要指標(biāo)。由于NDPC本質(zhì)上是一種數(shù)據(jù)驅(qū)動(dòng)的控制器,在整個(gè)控制器的設(shè)計(jì)過(guò)程(或參數(shù)自適應(yīng)調(diào)整過(guò)程)中,只是以系統(tǒng)的輸入、輸出數(shù)據(jù)作為設(shè)計(jì)控制器的依據(jù),并未考慮系統(tǒng)的動(dòng)力學(xué)模型,同時(shí)污水處理過(guò)程的動(dòng)力學(xué)模型也是很難確定的。所以,基于模型的傳統(tǒng)魯棒性分析方法不再實(shí)用[4],而數(shù)據(jù)驅(qū)動(dòng)理論發(fā)展還遠(yuǎn)未完善[4-6]。在實(shí)踐中普遍認(rèn)為,數(shù)據(jù)驅(qū)動(dòng)控制器對(duì)噪聲數(shù)據(jù)的適應(yīng)能力可以作為控制器魯棒性的一個(gè)衡量標(biāo)準(zhǔn)。所以,試驗(yàn)中將BSM1模型中所有檢測(cè)的物理量按照BSM1的約定的傳感器類(lèi)型加入相應(yīng)的干擾[13]。取干燥天氣第1天的數(shù)據(jù)進(jìn)行測(cè)試,結(jié)果如圖4、5所示。
圖4為溶解氧質(zhì)量濃度的變化曲線,圖5為控制量變化曲線。由圖4可見(jiàn),NDPC控制下的溶解氧質(zhì)量濃度波動(dòng)(1.89~2.19 g/m3)遠(yuǎn)小于PID控制器作用下溶解氧的波動(dòng)(1.57~2.25 g/m3),說(shuō)明NDPC對(duì)噪聲也有較好的適應(yīng)能力,即NDPC具有較好的魯棒性。同時(shí),從圖5也可以看出,NDPC的控制量波動(dòng)也明顯減弱,控制過(guò)程更為平穩(wěn)。
表1為PID控制器與NDPC的部分底層控制性能指標(biāo)[13]對(duì)比。表2為兩種控制器作用下的出水質(zhì)量指標(biāo)的變化情況。從表1、2可以看出,由于控制器的魯棒性增強(qiáng),NDPC的各項(xiàng)底層控制性能均優(yōu)于PID控制器。此外,由于控制精度的提高,NDPC的總體出水指標(biāo)也比PID有所提高,尤其是脫氮能力得到增強(qiáng)。
表1 控制器性能對(duì)比Table 1 Performance of oxygen controllers
表2 出水質(zhì)量指標(biāo)比較Table 2 Indices comparison of effluent quality g/m-3
NDPC在采取下一步的行動(dòng)之前,首先要進(jìn)行回報(bào)值的逼近,即對(duì)當(dāng)前的控制策略進(jìn)行評(píng)價(jià)。所以準(zhǔn)確的評(píng)價(jià)是下一步行動(dòng)選擇的關(guān)鍵。在試驗(yàn)中發(fā)現(xiàn),評(píng)價(jià)網(wǎng)絡(luò)收斂速度對(duì)控制性能影響較大,而評(píng)價(jià)網(wǎng)絡(luò)的學(xué)習(xí)率與其收斂速度密切相關(guān)。當(dāng)學(xué)習(xí)率lc較小時(shí),評(píng)價(jià)網(wǎng)絡(luò)能夠收斂,但收斂速度較慢;當(dāng)學(xué)習(xí)率lc較大時(shí),評(píng)價(jià)網(wǎng)絡(luò)則可能會(huì)不收斂。所以確定學(xué)習(xí)率的選擇范圍對(duì)NDPC的控制性能非常關(guān)鍵。
引理1 設(shè)ESN沒(méi)有輸出反饋,內(nèi)部神經(jīng)元激活函數(shù)f為sigmoid類(lèi)型函數(shù),則當(dāng)時(shí),ESN是內(nèi)部狀態(tài)穩(wěn)定的。
證明 設(shè)sk、s1,k分別為ESN的兩個(gè)不同的內(nèi)部狀態(tài),對(duì)于相同的輸入uk+1,根據(jù)ESN的定義(式(5))有
定理1 在評(píng)價(jià)網(wǎng)絡(luò)內(nèi)部狀態(tài)穩(wěn)定的情況下,若其學(xué)習(xí)率lc滿足
則評(píng)價(jià)網(wǎng)絡(luò)是收斂的。
證明 設(shè)評(píng)價(jià)網(wǎng)絡(luò)在輸入uk下,sc,k的穩(wěn)定狀態(tài)為s*。即在ESN穩(wěn)定的情況下,評(píng)價(jià)網(wǎng)絡(luò)的訓(xùn)練步數(shù)足夠大時(shí),可以認(rèn)為sc,k=s*。根據(jù)公式(3),
Ek(j)是收斂的,即當(dāng) j→∞時(shí),Ek(j)→0,求解式(33)可得
當(dāng)j較大時(shí),可以用 sc,k近似地代替s*,這樣式(34)即變成式(26),問(wèn)題得證。
由于評(píng)價(jià)網(wǎng)絡(luò)內(nèi)部狀態(tài)會(huì)隨時(shí)間變化,所以可以采用滿足式(26)的變化的學(xué)習(xí)率,這樣既可以使神經(jīng)網(wǎng)絡(luò)保持穩(wěn)定,又可以加快學(xué)習(xí)的速度。評(píng)價(jià)網(wǎng)絡(luò)部分輸出權(quán)值隨學(xué)習(xí)率的變化情況如圖6所示。其中
由圖6可見(jiàn),當(dāng)lc>δ時(shí),評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值發(fā)散,而lc<δ時(shí),評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值收斂,而當(dāng)lc=δ時(shí),評(píng)價(jià)網(wǎng)絡(luò)的權(quán)值處于等幅震蕩狀態(tài)。
圖6 不同學(xué)習(xí)率時(shí)評(píng)價(jià)網(wǎng)絡(luò)可調(diào)權(quán)值變化Fig.6 Tunable weights changing with different learning rates
將神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)規(guī)劃方法應(yīng)用在污水處理過(guò)程溶解氧質(zhì)量濃度的控制中,與PID控制器的對(duì)比研究表明,NDPC在控制精度及魯棒性等方面優(yōu)于PID控制器。NDPC采用了數(shù)據(jù)驅(qū)動(dòng)的控制模式,采用離線和在線的輸入、輸出數(shù)據(jù)對(duì)控制器參數(shù)進(jìn)行自適應(yīng)調(diào)整,避免了需要建立系統(tǒng)動(dòng)力學(xué)模型的難題。對(duì)基于ESN的NDPC評(píng)價(jià)網(wǎng)絡(luò)的收斂性進(jìn)行了理論分析,給出了保證評(píng)價(jià)網(wǎng)絡(luò)收斂的學(xué)習(xí)率選擇范圍,對(duì)合理選擇學(xué)習(xí)率有一定的參考價(jià)值。
[1] 劉春英,袁存光,郭繼香.用吸附法處理石油污水中化學(xué)耗氧量的實(shí)驗(yàn)研究[J].石油大學(xué)學(xué)報(bào):自然科學(xué)版,2003,27(3):88-91.LIU Chun-ying,YUAN Cun-guang,GUO Ji-xiang.Experiment on disposal of chemical oxygen demand in petroleum wastewater by adsorption in seprpentine-Ni(NO3)2-H2O2system[J].Journal of the University of Petroleum,China(Edition of Natural Science),2003,27(3):88-91.
[2] BRDYS M A,GROCHOWSKI M,GMINSKI T.Hierarchical predictive control of integrated wastewater treatment systems[J].Control Engineering Practice,2008(16):751-767.
[3] HOLENDA B,DOMOKOS E,REDEY A.Dissolved oxygen control of the activated sludge wastewater treatment process using model predictive control[J].Computers and Chemical Engineering,2008(32):1270-1278.
[4] XU J X,HOU Z S.Notes on data-driven system approaches[J].Acta Automatica Sinica,2009,35(6):668-675.
[5] HOU Z S,XU J X.On data-driven control theory:the state of the art and perspective[J].Acta Automatica Sin-ica,2009,35(6):650-667.
[6] WANG H,CHAI T Y,DING J L.Data driven fault diagnosis and fault tolerant control:some advances and possible new directions[J].Acta Automatica Sinica,2009,35(6):739-747.
[7] ERNST D,GLAVIC M,CAPITANESCU F.Reinforcement learning versus model predictive control:a comparison on a power system problem [J].IEEE Transactions on Systems,Man,and Cybernetics-part B:Cybernetics,2009(39):517-529.
[8] LEWIS F L,VRABIE D.Reinforcement learning and adaptive dynamic programming for feedback control[J].IEEE Circuits and Systems Magzine, Third Quater,2009,32-50.
[9] JAEGER H.The"echo state"approach to analysing and training recurrent neural networks[R].GMD Report German National Research Center for Information Technology,2001,12(8):1-43.
[10] MUSTAFA C O,XU D M,PRINCIPE J C.Analysis and design of echo state networks[J].Neural Computation,2007(19):111-138.
[11] JAEGER H.Harnessing nonlinearity:predicting chaotic systems and saving energy in wireless communication[J].Science,2004(304):78-80.
[12] JAEGER H.Short term memory in echo state networks[R].Technical Report GMD Report 152,German National Research Center for Information Technology,2002.
[13] ALEX J,BENEDETTI L.Benchmark simulation model No.1(BSM1)[S].IWA Taskgroup on Benchmarking of Control Stategies for WWTPs,April 2008.