李金娜 袁 林 丁進(jìn)良
工業(yè)過程運行指標(biāo)決策的內(nèi)涵是以工業(yè)過程生產(chǎn)指標(biāo)優(yōu)化為目標(biāo)的運行指標(biāo)決策問題(如圖1 所示).生產(chǎn)指標(biāo)是指反映企業(yè)或者生產(chǎn)線最終產(chǎn)品的質(zhì)量、產(chǎn)量、成本和能量消耗等相關(guān)的指標(biāo),運行指標(biāo)是指反映控制單元的產(chǎn)品在運行周期內(nèi)的質(zhì)量、效率、能耗和物耗等相關(guān)的指標(biāo)[1-2].面對激烈的國內(nèi)外市場競爭,能量節(jié)約和安全生產(chǎn)的民生需求和政策導(dǎo)向,以及原材料和運行工況(生產(chǎn)條件)的動態(tài)波動,研究工業(yè)過程運行指標(biāo)決策問題,提高產(chǎn)品的質(zhì)量、產(chǎn)量和能量使用效率等生產(chǎn)指標(biāo),保證安全運行,這是增強企業(yè)競爭力和可持續(xù)發(fā)展的必然選擇.
圖1 工業(yè)過程運行指標(biāo)決策問題Fig.1 Decision-making problem of operational indices in industrial processes
關(guān)于工業(yè)過程運行指標(biāo)決策問題的研究一直是工業(yè)界、學(xué)術(shù)界研究的熱點.工業(yè)過程運行指標(biāo)決策是一個復(fù)雜的多目標(biāo)優(yōu)化問題,其復(fù)雜性包括:1)工業(yè)過程通常由多個控制單元構(gòu)成,每個控制單元有各自的運行指標(biāo)需求,目標(biāo)是協(xié)同優(yōu)化整個工業(yè)過程的多個生產(chǎn)指標(biāo);2)生產(chǎn)指標(biāo)和運行指標(biāo)之間的動態(tài)關(guān)系呈現(xiàn)非線性和不確定性特征.因此,傳統(tǒng)的利用操作人員現(xiàn)場經(jīng)驗協(xié)調(diào)各運行指標(biāo)的方式無法保證工業(yè)過程生產(chǎn)指標(biāo)的優(yōu)化[1-3].那么,如何簡化求解此多目標(biāo)優(yōu)化問題,設(shè)計一種減少計算耗時并優(yōu)化生產(chǎn)指標(biāo)的方法,是本文研究的根本動機.
相比于集中式運行指標(biāo)決策方法[4-5],分布式運行指標(biāo)決策方法[6-11]有利于簡化求解的復(fù)雜性.文獻(xiàn)[6,8-9]針對多個生產(chǎn)指標(biāo)優(yōu)化問題,融合性能預(yù)測與反饋控制,提出了運行指標(biāo)動態(tài)校正方法.在此基礎(chǔ)上,文獻(xiàn)[7]引入強化學(xué)習(xí)思想,基于案例推理策略,給出了數(shù)據(jù)驅(qū)動的運行指標(biāo)動態(tài)修正方法.但上述方法仍需要利用操作人員的經(jīng)驗調(diào)整運行指標(biāo),很難保證生產(chǎn)指標(biāo)的優(yōu)化.文獻(xiàn)[10]采用強化學(xué)習(xí)技術(shù),基于博弈理論,給出工業(yè)過程運行指標(biāo)自學(xué)習(xí)方法,保證生產(chǎn)指標(biāo)以近似最優(yōu)的方式跟蹤理想值.注意到,文獻(xiàn)[10]沒有考慮生產(chǎn)條件波動對生產(chǎn)指標(biāo)性能的影響.但實際工業(yè)過程原料成分、運行工況、設(shè)備狀態(tài)等多種不確定因素導(dǎo)致生產(chǎn)條件動態(tài)波動.文獻(xiàn)[11]以最大化產(chǎn)品產(chǎn)量為目標(biāo),利用歷史數(shù)據(jù),提出了一種多執(zhí)行網(wǎng)絡(luò)集成強化學(xué)習(xí)算法,自學(xué)習(xí)決策運行指標(biāo).但該研究成果忽略了實際工業(yè)過程運行指標(biāo)需要滿足的約束條件,并且性能指標(biāo)為單次采樣時刻獎賞值,無法保證累積生產(chǎn)指標(biāo)的優(yōu)化.
綜合分析上述分布式運行指標(biāo)決策方法,在生產(chǎn)條件動態(tài)波動、生產(chǎn)指標(biāo)和運行指標(biāo)存在靜態(tài)約束的情況下,如何以數(shù)據(jù)驅(qū)動的方式分布式自學(xué)習(xí)決策工業(yè)過程運行指標(biāo)仍是一個挑戰(zhàn)性難題.這是本文研究的第二個動機.
自適應(yīng)動態(tài)規(guī)劃技術(shù)是智能最優(yōu)控制領(lǐng)域研究的熱點.該方法的本質(zhì)是采用強化學(xué)習(xí)技術(shù)求解哈密頓-雅可比-貝爾曼(Hamilton-Jacobi-Bellman,HJB) 方程,以迭代方式求解最優(yōu)控制策略[12-16].文獻(xiàn)[10,15,17-19]等針對復(fù)雜大系統(tǒng),提出了一系列自適應(yīng)動態(tài)規(guī)劃方法用來分布式自學(xué)習(xí)最優(yōu)控制策略,優(yōu)化控制系統(tǒng)性能.但現(xiàn)有分布式最優(yōu)控制策略自學(xué)習(xí)方法,往往忽略了系統(tǒng)不確定性(如環(huán)境動態(tài)波動等) 導(dǎo)致的狀態(tài)不確定性(隨機性),無法在隨機變化的環(huán)境下保證系統(tǒng)性能的優(yōu)化,甚至無法保證系統(tǒng)的穩(wěn)定性.針對隨機最優(yōu)控制問題的自適應(yīng)動態(tài)規(guī)劃方法還鮮見報道.文獻(xiàn)[20]針對離散隨機過程,提出了一種自適應(yīng)動態(tài)規(guī)劃方法,自學(xué)習(xí)最優(yōu)控制策略,但解決的是單變量控制問題,并且要求系統(tǒng)狀態(tài)轉(zhuǎn)移概率矩陣已知.然而,實際工業(yè)過程生產(chǎn)指標(biāo)狀態(tài)轉(zhuǎn)移概率矩陣無法準(zhǔn)確計算.此外,現(xiàn)有的分布式強化學(xué)習(xí)技術(shù)中策略更新為多個控制變量同步更新,多個執(zhí)行網(wǎng)絡(luò)同步訓(xùn)練將產(chǎn)生較大的時間開銷和計算負(fù)載.因此,現(xiàn)有的自適應(yīng)動態(tài)規(guī)劃技術(shù)仍無法直接用于解決本文研究的兩個動機問題.
文獻(xiàn)[21-23]利用懲罰函數(shù)和Barrier 函數(shù)能解決系統(tǒng)狀態(tài)變量和控制輸入約束問題.受其啟發(fā),本文在效用函數(shù)中引入Barrier 函數(shù)和懲罰函數(shù),用以解決生產(chǎn)指標(biāo)和運行指標(biāo)靜態(tài)約束問題.利用樣本均值代替計算生產(chǎn)指標(biāo)狀態(tài)轉(zhuǎn)移概率矩陣,首次提出了一種策略異步更新強化學(xué)習(xí)算法,并給出了算法收斂性的理論證明.研究中面臨的挑戰(zhàn)性難題是在保證算法收斂性的前提下,如何實現(xiàn)策略異步更新和如何證明算法的收斂性.為此,本文引入時鐘并定義其閾值,執(zhí)行集中式性能評估,多策略異步更新,并且基于隨機最優(yōu)控制理論,采用數(shù)學(xué)歸納法證明了所提算法的收斂性.所提出的方法不要求生產(chǎn)指標(biāo)狀態(tài)轉(zhuǎn)移概率矩陣已知,多策略異步更新方式提高了學(xué)習(xí)效率,同時有效地解決了生產(chǎn)指標(biāo)和運行指標(biāo)的靜態(tài)約束問題,實現(xiàn)了不確定工業(yè)過程生產(chǎn)指標(biāo)優(yōu)化,并且保證系統(tǒng)安全運行.實驗驗證了所提方法的有效性和可行性.
本文主要的創(chuàng)新點如下:
1)首次提出了一種策略異步更新強化學(xué)習(xí)算法,采用集中式性能評估,多策略異步更新,可以減少計算成本和時間,提高學(xué)習(xí)效率.并且,本文給出了所提算法收斂性的理論證明.
2)本文不要求系統(tǒng)狀態(tài)轉(zhuǎn)移概率矩陣已知,在隨機自適應(yīng)動態(tài)規(guī)劃框架下,利用樣本均值代替計算生產(chǎn)指標(biāo)狀態(tài)轉(zhuǎn)移概率矩陣,提出的強化學(xué)習(xí)算法利用可測量數(shù)據(jù),在生產(chǎn)條件動態(tài)波動的情況下,自學(xué)習(xí)得到的運行指標(biāo)能夠優(yōu)化生產(chǎn)指標(biāo).
工業(yè)過程的運行指標(biāo)和生產(chǎn)指標(biāo)之間的動態(tài)具有強耦合性、非線性、受生產(chǎn)條件變化影響等特征[1-2,10-11].本文研究的目標(biāo)是在充分考慮上述特征的情況下,給出一種快速地自學(xué)習(xí)決策運行指標(biāo)的方法,優(yōu)化生產(chǎn)指標(biāo),并且保證生產(chǎn)指標(biāo)和運行指標(biāo)滿足靜態(tài)約束條件.本文不研究過程運行優(yōu)化層和回路控制層如何設(shè)計設(shè)定值和控制輸入,實現(xiàn)運行指標(biāo)跟蹤理想運行指標(biāo)(如圖1 所示).為此,本文首先假設(shè)生產(chǎn)指標(biāo)與運行指標(biāo)之間的動態(tài)關(guān)系如下:
式中,sk=s(k)∈Rn和aik=ai(k)∈Rqi(i=1, 2,···,m) 分別表示工業(yè)過程生產(chǎn)指標(biāo)和運行指標(biāo),dk=d(k)∈Rκ表示生產(chǎn)條件,f(·) 為未知非線性連續(xù)函數(shù).運行指標(biāo)決策問題可以建模為一個部分可觀察馬爾科夫決策過程,并用一個六元組G=<S,A,P,r,O,γ >表示,其中S、A、O分別表示狀態(tài)空間,動作空間和由可觀察數(shù)據(jù)構(gòu)成的觀察空間,r表示立即獎賞,γ(0<γ ≤1) 表示折扣因子.P(sk+1|sk,ak) 表示在當(dāng)前狀態(tài)sk下,采取動作行為ak產(chǎn)生下一刻狀態(tài)sk+1的狀態(tài)轉(zhuǎn)移概率.在實際的工業(yè)過程中,生產(chǎn)指標(biāo)采樣周期通常為天和小時等.本文中采樣時刻k=0, 1,···表示第k天或小時.具體的狀態(tài)空間、觀察空間和動作空間說明如下:
1)狀態(tài)空間S: 對于系統(tǒng)(1),生產(chǎn)指標(biāo)sk為狀態(tài)變量,sk ∈S,S是連續(xù)空間.
2)觀察空間O: 在實際生產(chǎn)中,生產(chǎn)條件dk可以表示單位時間吞吐量、原料質(zhì)量和運行工況等.本文假設(shè)狀態(tài)變量和生產(chǎn)條件是可測量的,那么{sk,dk}∈O.工業(yè)生產(chǎn)中生產(chǎn)條件不可能保持不變,通常具有統(tǒng)計特性.受生產(chǎn)條件波動的影響,未來的生產(chǎn)指標(biāo)sk+1是不確定的.
3)動作空間A:m個運行指標(biāo)aik(i=1, 2,···,m) 構(gòu)成決策變量,因此aik ∈A.本文假設(shè)決策是確定的,即P(ak|sk)=1,決策運行指標(biāo),優(yōu)化工業(yè)過程的生產(chǎn)指標(biāo).實際工業(yè)過程運行指標(biāo)是連續(xù)的且需要滿足一定的約束條件,因此A為連續(xù)動作空間.
現(xiàn)有的自適應(yīng)動態(tài)規(guī)劃方法為解決連續(xù)動作空間的最優(yōu)控制問題提供了可借鑒的理論和方法.因此,本文在自適應(yīng)動態(tài)規(guī)劃框架下,擬提出一種策略異步更新強化學(xué)習(xí)算法,自學(xué)習(xí)運行指標(biāo).為實現(xiàn)本文研究目標(biāo),本文定義如下性能指標(biāo):
式中,c(·) 是效用函數(shù),算子 E{·}表示數(shù)學(xué)期望.
注1.本文目標(biāo)是優(yōu)化不確定工業(yè)過程生產(chǎn)指標(biāo),因此效用函數(shù)要刻畫生產(chǎn)指標(biāo).為具體明確,本文取生產(chǎn)指標(biāo)為產(chǎn)品產(chǎn)量s1k和產(chǎn)品質(zhì)量s2k.目標(biāo)是最大化產(chǎn)品產(chǎn)量,控制產(chǎn)品質(zhì)量在規(guī)定范圍之內(nèi).因此,改寫式(2)得到如下優(yōu)化問題:
問題 1.
式中,s1min、s2min、s2max為正實數(shù).
為滿足生產(chǎn)指標(biāo)和運行指標(biāo)的靜態(tài)約束條件,類似文獻(xiàn)[22-23],本文引入一個Barrier 函數(shù):
注2.效用函數(shù)c(a1k,···,amk) 中 1/s1k表示產(chǎn)品產(chǎn)量的倒數(shù),如果想要產(chǎn)品產(chǎn)量最大化,那么需要 1/s1k最小化.不同于文獻(xiàn)[10-11],性能指標(biāo)(8)包含了通過折扣因子γ衰減作用后累積性能的期望值.折扣因子使得鄰近k時刻的產(chǎn)品產(chǎn)量比未來的值更重要.并且,性能指標(biāo)中還包含了運行指標(biāo)和生產(chǎn)指標(biāo)的靜態(tài)約束信息.
注3.通過引入Barrier 函數(shù)和懲罰函數(shù),本文將靜態(tài)約束轉(zhuǎn)化為性能指標(biāo)函數(shù).問題2 本質(zhì)上是一個最優(yōu)控制問題,運行指標(biāo)成為動態(tài)系統(tǒng)(4)的控制輸入,那么最大化產(chǎn)品產(chǎn)量和控制產(chǎn)品質(zhì)量在規(guī)定范圍的多目標(biāo)多約束優(yōu)化問題1 被轉(zhuǎn)化為單目標(biāo)無靜態(tài)約束的最優(yōu)控制問題2.
相比于集中式控制或者變量決策,分布式控制具有減輕計算負(fù)載的優(yōu)勢.下面將針對優(yōu)化問題2給出具體的求解算法.
本節(jié)針對優(yōu)化問題2,基于強化學(xué)習(xí)技術(shù)和隨機優(yōu)化控制理論,提出了一種策略異步更新強化學(xué)習(xí)算法,并且證明了算法的收斂性.
由于生產(chǎn)條件dk的隨機性特征,k時刻生產(chǎn)指標(biāo)取值具有多種可能性.因此,利用貝葉斯法則,性能指標(biāo)(8)可以改寫為:
上式表明最小化jk可以等價地設(shè)計最小化的決策規(guī)則.如果固定k+1 時刻的生產(chǎn)指標(biāo)sk+1,則有:
基于隨機最優(yōu)控制理論和動態(tài)規(guī)劃理論[10,20,24],當(dāng)所有運行指標(biāo)取最優(yōu)策略m)時,k時刻性能的數(shù)學(xué)期望為:
由于k+1 時刻工業(yè)過程生產(chǎn)指標(biāo)sk+1具有不確定性,則有:
利用最優(yōu)性的必要條件,最優(yōu)的運行指標(biāo)為:
將式(15) 代入式(14),得到離散時間HJB 方程:
注4.由式(15)可知,本文采用分布式狀態(tài)反饋優(yōu)化控制的方式,分布式設(shè)計運行指標(biāo).與構(gòu)成運行指標(biāo)增廣向量,采用集中式方法設(shè)計運行指標(biāo)相比,減少計算負(fù)載.
注5.根據(jù)隨機最優(yōu)控制理論和動態(tài)規(guī)劃理論,滿足式(16)的運行指標(biāo)式(15)能夠最小化性能指標(biāo)式(8).由式(15),有即運行指標(biāo)滿足靜態(tài)約束條件.
本節(jié)將拓展現(xiàn)有的自適應(yīng)動態(tài)規(guī)劃方法,提出一種新的運行指標(biāo)自學(xué)習(xí)決策算法,在優(yōu)化性能式(8)的意義下,實現(xiàn): 1)產(chǎn)品產(chǎn)量最大化;2)控制產(chǎn)品質(zhì)量在規(guī)定范圍之內(nèi);3)運行指標(biāo)限制在規(guī)定范圍之內(nèi),實現(xiàn)工業(yè)過程生產(chǎn)指標(biāo)優(yōu)化并且保證安全運行.
定義1[20,22,25].如果運行指標(biāo)aik(i=1, 2,···,m) 滿足: 1)鎮(zhèn)定系統(tǒng)式(4);2)當(dāng)生產(chǎn)指標(biāo)sk滿足約束條件式(5)時,jk是有界的,那么運行指標(biāo)aik稱為是可允許的.
為了用數(shù)值方法求解離散HJB 方程(16),本文提出了策略異步更新強化學(xué)習(xí)算法1,圖2 給出了算法1 的執(zhí)行機制.
圖2 運行指標(biāo)自學(xué)習(xí)機制Fig.2 Self-learning mechanism of operational indices
算法1.策略異步更新強化學(xué)習(xí)算法
定理 1.假設(shè)m)可以由式(17) 和式(18) 得到,則對于所有的sk ∈S和任意迭代指標(biāo)j如下結(jié)論成立
證明.1) 采用數(shù)學(xué)歸納法.當(dāng)?shù)笜?biāo)j=1時,由式(17)定義:
注7.通過引入時鐘和定義其閾值,執(zhí)行策略異步更新,運行指標(biāo)最終收斂到問題2 的最優(yōu)解.由于算法1 本質(zhì)上是強化學(xué)習(xí)方法,因此稱為策略異步更新強化學(xué)習(xí)算法.
注8.不同于現(xiàn)有的多控制策略同步更新強化學(xué)習(xí)算法[10-11,15,17-18],本文不僅給出多個控制策略(即運行指標(biāo))異步更新算法,并且基于隨機最優(yōu)控制理論,采用數(shù)學(xué)歸納法給出了算法收斂性的理論證明.各運行指標(biāo)分布地、異步地更新策略,而不是集中[12-14,25,28]、同步更新方式[10-11,15,17-18],其優(yōu)勢在于提高學(xué)習(xí)效率.
由式(17)和式(18)可知,要實現(xiàn)運行指標(biāo)自學(xué)習(xí)決策,求解是需要解決的關(guān)鍵問題.但是在工業(yè)過程生產(chǎn)指標(biāo)和運行指標(biāo)動態(tài)未知、生產(chǎn)條件存在頻繁波動的情況下,如何求解是一個難題.下面將基于提出的算法1,在多執(zhí)行-評判網(wǎng)絡(luò)結(jié)構(gòu)下提出數(shù)據(jù)驅(qū)動的運行指標(biāo)自學(xué)習(xí)決策算法.
式中,sl(k+1)(l=1, 2,···,M) 表示在k+1 時刻隨機變量s的可能取值,N為樣本數(shù),n(s=sl(k+1))表示sl(k+1)出現(xiàn)的次數(shù).對于所有sk ∈Sj,利用梯度下降方法,有:
算法2.多執(zhí)行-評判網(wǎng)絡(luò)架構(gòu)下的運行指標(biāo)自學(xué)習(xí)決策算法
算法2 給出了具體的決策運行指標(biāo)的程序.為更清楚理解算法2,圖3給出了算法2 執(zhí)行流程圖.
圖3 多執(zhí)行-評判結(jié)構(gòu)下運行指標(biāo)自學(xué)習(xí)決策流程圖Fig.3 Flowchart of self-learning decision making of operational indices with multiple actors-critic structure
注11.現(xiàn)有的自適應(yīng)動態(tài)規(guī)劃方法,通常忽視系統(tǒng)不確定性引發(fā)的狀態(tài)不確定性.文獻(xiàn)[20]針對離散隨機過程,提出了強化學(xué)習(xí)方法,用以學(xué)習(xí)最優(yōu)控制策略,但要求狀態(tài)轉(zhuǎn)移概率矩陣已知.本文提出的方法無需計算狀態(tài)轉(zhuǎn)移概率矩陣,通過計算樣本均值可以計算并且提出了策略異步更新強化學(xué)習(xí)方法,用以提高學(xué)習(xí)效率.此外,本文提出的方法應(yīng)用到工業(yè)過程生產(chǎn)指標(biāo)優(yōu)化問題,給出了優(yōu)化生產(chǎn)指標(biāo)并控制運行指標(biāo)在規(guī)定范圍之內(nèi)的運行指標(biāo)自學(xué)習(xí)決策方法.
注12.為計算式(43)中?sk+1/?ai(k),可以采用類似式(35)和式(36)的神經(jīng)網(wǎng)絡(luò)估計方法,先估計生產(chǎn)指標(biāo)動態(tài)sk,然后再計算導(dǎo)數(shù)值.
注13.與經(jīng)典的深度Q 網(wǎng)絡(luò)(Deep Q network,DQN)算法以及融合DQN、執(zhí)行-評判網(wǎng)絡(luò)結(jié)構(gòu)和策略梯度方法的多智能體深度確定性策略梯度(Multi-agent deep deterministic policy gradient,MADDPG)算法[32]相比,本文所提算法的不同之處在于: 1)算法2 中本文利用神經(jīng)網(wǎng)絡(luò)擬合的是值函數(shù),而不是代替Q表的Q函數(shù);2)算法2 中多個執(zhí)行網(wǎng)絡(luò)異步更新,而經(jīng)典的DQN 算法通常是根據(jù)估計的Q函數(shù)決定一個智能體的動作,MADDPG 算法往往是多執(zhí)行網(wǎng)絡(luò)同步更新.本文多個控制策略異步更新避免了部分智能體神經(jīng)網(wǎng)絡(luò)估計控制策略用時過長,提高學(xué)習(xí)效率,并且給出了算法收斂性證明.如何將所提方法擴展到MADDPG 算法是未來擬研究的方向.
本節(jié)利用從中國西部某大型鐵礦選礦廠獲得的實際數(shù)據(jù),包括生產(chǎn)指標(biāo)(精礦產(chǎn)量和精礦品位)、7個運行指標(biāo)變量和5 個生產(chǎn)條件變量,開展本文提出的運行指標(biāo)自學(xué)習(xí)決策算法的驗證,具體包括:1)實現(xiàn)生產(chǎn)指標(biāo)優(yōu)化,即最大化精礦產(chǎn)量,控制精礦品位在理想范圍內(nèi),并且運行指標(biāo)限制在規(guī)定范圍之內(nèi);2)學(xué)習(xí)效率和生產(chǎn)指標(biāo)對比分析.
如圖4 所示,鐵礦選礦由大量工序/設(shè)備組成,包括篩分、豎爐焙燒、磨礦、低強度(弱)和高強度(強)磁選以及兩個脫水單元[7,10].本文主要關(guān)注兩個生產(chǎn)指標(biāo),即精礦產(chǎn)量s1和精礦品位s2.表1 分別給出7 個運行指標(biāo)a1、a2、a3、a4、a5、a6、a7的含義和需要滿足的約束條件.生產(chǎn)條件由5 個變量組成,可以增廣為一個隨機向量.
表1 運行指標(biāo)Table 1 Operational indices
圖4 選礦過程流程圖Fig.4 Flow chart of mineral separation process
在本實驗中,采樣周期為天和小時,表示生產(chǎn)指標(biāo)和運行指標(biāo)按天或小時來測量.取精礦產(chǎn)量下限s1min=260 噸/小時和s1min=6 000 噸/天,精礦品位下限s2min= 53.5%,精 礦 品位上限s2max=54.5%.本文通過Matlab 軟件實現(xiàn)算法.假設(shè)收集到的鐵礦石加工歷史數(shù)據(jù)有足夠的代表性,可以用來反映真實生產(chǎn)過程.現(xiàn)場收集的532 個數(shù)據(jù)被分為兩組,分別用于生產(chǎn)指標(biāo)動態(tài)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和驗證.精礦品位和精礦產(chǎn)量的動態(tài)模型均采用16-16-1 的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來估計,損失函數(shù)定義為:
式中,sik為實際數(shù)據(jù),為神經(jīng)網(wǎng)絡(luò)估計值,m為正整數(shù).圖5 給出了精礦產(chǎn)量和精礦品位的訓(xùn)練集與驗證集的損失函數(shù)變化圖.由圖5 可以看出,模型在驗證集上的誤差是隨著訓(xùn)練集的誤差下降而下降的,表明本文訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型不存在過擬合或者欠擬合的現(xiàn)象.
圖5 精礦產(chǎn)量和精礦品位損失函數(shù)Fig.5 Loss functions of the concentrate yield and concentrate grade
對生產(chǎn)條件歷史數(shù)據(jù)做統(tǒng)計分析,生產(chǎn)條件向量近似服從高斯分布 N (μ,σ2),均值μ=[31.70 43.38 13.75 71.14 58.56],方差σ2=[0.92 0.44 0.57 3.62 2.75].
用蒙特卡洛方法產(chǎn)生與歷史數(shù)據(jù)同分布的生產(chǎn)條件,評判神經(jīng)網(wǎng)絡(luò)采用2-10-1 的結(jié)構(gòu),7 個執(zhí)行神經(jīng)網(wǎng)絡(luò)均采用2-14-1 的結(jié)構(gòu).神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率為0.05,訓(xùn)練誤差為0.001,取折扣因子γ=0.8.執(zhí)行算法2,圖6 和圖7 分別為執(zhí)行網(wǎng)絡(luò)和評判網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)權(quán)學(xué)習(xí)過程.圖8 為200 天7 個運行指標(biāo)實驗結(jié)果,相應(yīng)地圖9 和圖10 顯示了200 天精礦品位和精礦產(chǎn)量的實驗結(jié)果.圖8 表明采用所提算法2,運行指標(biāo)限制在規(guī)定范圍之內(nèi).圖9 和圖10表明精礦品位和精礦產(chǎn)量滿足靜態(tài)約束條件.圖6~圖10 表明了本文算法的有效性.
圖6 多執(zhí)行神經(jīng)網(wǎng)絡(luò)權(quán)值Fig.6 Evolution of weights of multi-actor neural networks
圖7 評判神經(jīng)網(wǎng)絡(luò)權(quán)值Fig.7 Evolution of weights of critic neural network
圖8 200 天的運行指標(biāo)Fig.8 200-day operational indices
圖9 200 天的精礦品位Fig.9 200-day concentrate grade
為驗證本文算法的優(yōu)勢,做了對比性實驗.表2為采用本文方法、文獻(xiàn)[11] 的多執(zhí)行網(wǎng)絡(luò)集成算法(Multi-actor networks ensemble,MAE)和文獻(xiàn)[33]的Reinforce 算法獲得的精礦產(chǎn)量和實際精礦產(chǎn)量的對比性結(jié)果.由表2 和圖10可以看出,本文方法得到的精礦產(chǎn)量高于實際生產(chǎn)精礦產(chǎn)量.通過計算平均值,本文算法2 相比于實際精礦產(chǎn)量提高了約1 000 噸/天、40 噸/小時.不同于文獻(xiàn)[11,33],本文優(yōu)化目標(biāo)為最大化累積產(chǎn)品產(chǎn)量,不是單次采樣時刻的產(chǎn)量,單次采樣時刻產(chǎn)量高不能保證累積時間內(nèi)產(chǎn)量的最大化.由表2 可以看出,相比于文獻(xiàn)[11]算法,本文算法提高30 天(按天采樣)和1 天(按小時采樣)精礦產(chǎn)量分別為34 167.6 噸和2 299.5 噸;相比于文獻(xiàn)[33]算法,本文算法提高30 天和1 天精礦產(chǎn)量分別為36 462.2 噸和2 381.9 噸.執(zhí)行類似文獻(xiàn)[10-11]的策略同步更新強化學(xué)習(xí)算法,圖11顯示了10 次運行本文算法2 和策略同步更新算法的時間消耗.10 次實驗中,策略異步更新強化學(xué)習(xí)算法和策略同步更新強化學(xué)習(xí)算法平均每次執(zhí)行時間分別為4.83 秒與7.80 秒,表明了本文提出的策略異步更新算法提高了學(xué)習(xí)效率.實際選礦過程生產(chǎn)條件動態(tài)變化,針對如下三種生產(chǎn)條件變化均值相同μ=[31.74 43.66 13.94 71.68 58.96],不同方差:
圖10 200 天的精礦產(chǎn)量Fig.10 200-day concentrate yield
圖11 策略異步更新和策略同步更新強化學(xué)習(xí)算法時間消耗對比Fig.11 Comparison of time consumption between asynchronous policy update and synchronous policy update
表2 算法的實驗結(jié)果對比Table 2 Comparison results between different algorithms
工況1:=[0.68 0.64 0.48 3.93 2.59]
工況2:=[2.68 1.67 2.44 5.79 5.42]
工況3:=[2.88 3.73 4.44 8.72 8.32]
執(zhí)行算法2,圖12 顯示了考慮工況變化和不考慮工況變化統(tǒng)計結(jié)果對比.結(jié)果表明: 未考慮工況變化,沒有根據(jù)工況的波動調(diào)節(jié)運行指標(biāo),精礦產(chǎn)量變化比較平穩(wěn).而本文算法能根據(jù)生產(chǎn)條件變化自適應(yīng)調(diào)節(jié)運行指標(biāo),優(yōu)化精礦產(chǎn)量,平均精礦產(chǎn)量高于同種工況下的未考慮工況變化的值.
圖12 考慮工況變化和不考慮工況變化統(tǒng)計結(jié)果對比Fig.12 Statistic results with and without consideration of dynamics of production condition
本文針對不確定工業(yè)過程運行指標(biāo)決策問題,基于自適應(yīng)動態(tài)規(guī)劃技術(shù),提出了一種數(shù)據(jù)驅(qū)動的策略異步更新強化學(xué)習(xí)算法,決策運行指標(biāo),并給出了算法收斂性的理論證明.該算法不要求狀態(tài)轉(zhuǎn)移概率矩陣已知,利用樣本均值代替計算生產(chǎn)指標(biāo)狀態(tài)轉(zhuǎn)移概率矩陣,采用集中式性能評估和多策略異步更新方式,利用可測量數(shù)據(jù),自學(xué)習(xí)決策運行指標(biāo).該算法提高了分布式強化學(xué)習(xí)的學(xué)習(xí)效率,實現(xiàn)了生產(chǎn)條件動態(tài)波動環(huán)境下,工業(yè)過程生產(chǎn)指標(biāo)優(yōu)化并且保證運行指標(biāo)和生產(chǎn)指標(biāo)在規(guī)定范圍之內(nèi).仿真實驗驗證了方法的有效性.