蘇 娜,唐 昊 ,戴 飛,王 彬,周 雷
(1.合肥工業(yè)大學(xué)電氣與自動(dòng)化工程學(xué)院,安徽合肥 230009;2.合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院,安徽合肥 230009)
在現(xiàn)代制造領(lǐng)域的一些柔性生產(chǎn)線上,傳送帶給料加工站(conveyor-serviced production station,CSPS)是一種典型生產(chǎn)單元,具有廣泛的代表性.例如,在當(dāng)前智能制造時(shí)代涌現(xiàn)出的越來越多的機(jī)器人生產(chǎn)線,在生產(chǎn)線上每個(gè)機(jī)器人工作站往往可看作是一個(gè)CSPS.通常情況下,CSPS系統(tǒng)是通過勻速傳送帶將待加工工件送至加工站點(diǎn),加工主體為其提供加工服務(wù).然而在一些實(shí)際生產(chǎn)中,可能存在各種不確定因素,例如工件到達(dá)可能是隨機(jī)的,加工站對工件的加工服務(wù)時(shí)間也可能是隨機(jī)的,這些不確定性因素會(huì)對加工站的生產(chǎn)調(diào)度帶來困難,從而影響生產(chǎn)率的提高和生產(chǎn)服務(wù)水平的提升.因此,對隨機(jī)不確定CSPS的生產(chǎn)調(diào)度優(yōu)化控制問題進(jìn)行研究,是當(dāng)前智能制造時(shí)代的一個(gè)有意義的研究課題.
CSPS系統(tǒng)的研究可追溯到20世紀(jì)八九十年代[1],其中,日本工業(yè)工程領(lǐng)域的松井正之教授以加工站的工件緩存庫空余量為狀態(tài),以加工主體的前視距離為決策變量,將單站點(diǎn)CSPS 的撿取和加工調(diào)度問題轉(zhuǎn)化為前視距離控制問題,并且建立了相應(yīng)的半馬爾可夫決策過程(semi-Markov decision process,SMDP)模型[2].在此基礎(chǔ)上,文獻(xiàn)[3]結(jié)合Q學(xué)習(xí)思想,提出一種在線策略迭代方法以解決CSPS系統(tǒng)的最優(yōu)控制問題,而且文獻(xiàn)[4]進(jìn)一步給出了需求驅(qū)動(dòng)CSPS系統(tǒng)的SMDP模型和Q學(xué)習(xí)優(yōu)化求解方法.然而,在現(xiàn)有的研究中,工件的到達(dá)過程一般都假設(shè)為標(biāo)準(zhǔn)泊松過程以保證CSPS系統(tǒng)的前視距離控制可以建模為SMDP,然后通過策略迭代等理論方法或Q學(xué)習(xí)等仿真方法來獲得最優(yōu)或次優(yōu)控制策略[4-5].然而在實(shí)際生產(chǎn)中,工件的到達(dá)可能不嚴(yán)格滿足泊松過程這種標(biāo)準(zhǔn)假設(shè)[6],即工件的到達(dá)過程不滿足Markov性,則CSPS系統(tǒng)無法建立為SMDP模型.但是,支撐Q學(xué)習(xí)算法的數(shù)學(xué)基礎(chǔ)是MDP模型或更為一般的SMDP模型[7],而當(dāng)系統(tǒng)決策優(yōu)化問題無法建立成此類模型時(shí),一般難以在理論上證明Q學(xué)習(xí)優(yōu)化算法的最優(yōu)性或收斂性.
當(dāng)前,Q學(xué)習(xí)或深度Q學(xué)習(xí)類的學(xué)習(xí)優(yōu)化算法已被大量用于非嚴(yán)格Markov過程或半Markov過程所能描述的一些系統(tǒng)的決策優(yōu)化問題,并且也取得了較好的學(xué)習(xí)優(yōu)化效果[8-10].因此針對非泊松工件流CSPS系統(tǒng),Q學(xué)習(xí)算法是否依然可以學(xué)到較好的控制策略是值得分析討論及仿真驗(yàn)證的問題.
在非標(biāo)準(zhǔn)泊松過程中,馬爾可夫調(diào)制泊松過程(Markov modulation Poisson process,MMPP)是一個(gè)極具代表性的隨機(jī)過程[11-13],常被國內(nèi)外學(xué)者用于描述計(jì)算機(jī)、通信、金融和股市等業(yè)務(wù)流的隨機(jī)統(tǒng)計(jì)分布模型.例如,文獻(xiàn)[12]采用高速M(fèi)MPP 過程到達(dá)的漸近分析方法,對無限服務(wù)器排隊(duì)系統(tǒng)中訪問信息的總?cè)萘窟M(jìn)行分析;文獻(xiàn)[13]基于MMPP構(gòu)建了一個(gè)交易量分離模型,將交易量中的異常交易量分離,解決了交易數(shù)據(jù)受異常事件污染的問題.半馬爾可夫調(diào)制泊松過程(semi-Markovian modulation Poisson process,SMMPP)是較MMPP更為廣泛的一類隨機(jī)過程,其到達(dá)率參數(shù)變化的時(shí)間間隔可擴(kuò)展為非指數(shù)分布的一般分布[14-15].例如文獻(xiàn)[16]對ACPGRP計(jì)數(shù)過程進(jìn)行擴(kuò)展,將其中的基礎(chǔ)更新過程用SMMPP代替,并建立了一個(gè)統(tǒng)一的多變量計(jì)數(shù)過程.
在上述文獻(xiàn)研究的基礎(chǔ)上,本文考慮以MMPP和SMMPP到達(dá)作為非泊松到達(dá)的典型代表,通過仿真方法研究當(dāng)工件非泊松到達(dá),CSPS 無法被建立為SMDP模型時(shí),Q學(xué)習(xí)算法的適用性問題.首先在相同的平均到達(dá)率下,仿真評估標(biāo)準(zhǔn)泊松與非標(biāo)準(zhǔn)泊松兩種情況下的系統(tǒng)性能值,以檢驗(yàn)非泊松到達(dá)情況下Q學(xué)習(xí)算法的性能.其次在工件非泊松到達(dá)時(shí),每隔一段時(shí)間統(tǒng)計(jì)工件的平均到達(dá)率作為標(biāo)準(zhǔn)泊松到達(dá)率,理論求解不同到達(dá)時(shí)刻的最優(yōu)策略和理論代價(jià),并將此最優(yōu)策略作用于原非泊松到達(dá)情況下的系統(tǒng),仿真統(tǒng)計(jì)對應(yīng)的系統(tǒng)代價(jià),作為最優(yōu)策略評估代價(jià),分析對比最優(yōu)策略評估代價(jià)曲線、理論代價(jià)曲線和原非泊松到達(dá)Q學(xué)習(xí)曲線,以檢驗(yàn)非泊松到達(dá)情況下Q學(xué)習(xí)的優(yōu)化效果.最后討論當(dāng)工件以MMPP和SMMPP混流到達(dá)時(shí)Q學(xué)習(xí)的適用性問題.
CSPS系統(tǒng)的物理模型如圖1所示[3],由傳送帶、機(jī)器人(agent)、緩存庫、成品庫組成.其中工件隨機(jī)到達(dá),通過勻速運(yùn)動(dòng)的傳送帶輸送至加工站點(diǎn).緩存庫的容量有限,用來存放從傳送帶上卸載的待加工工件,成品庫用來存放加工好的工件.前視距離為從固定撿取點(diǎn)往傳送帶上游觀測的一段距離,根據(jù)決策時(shí)刻的系統(tǒng)狀態(tài)和控制策略動(dòng)態(tài)變化.
圖1 CSPS系統(tǒng)的物理模型Fig.1 Physical model of CSPS system
假設(shè)緩存庫容量為Z,定義緩存庫的空余量為系統(tǒng)狀態(tài)S,其狀態(tài)空間Φ={0,1,···,Z},定義vs為系統(tǒng)在狀態(tài)S的行動(dòng),即前視距離.在決策時(shí)刻,agent根據(jù)系統(tǒng)當(dāng)前狀態(tài)S選取一個(gè)前視距離vs.由于待加工工件沿傳送帶隨機(jī)達(dá)到,則前視距離內(nèi)有可能有工件,也有可能無工件.若為前者,則agent采取撿取動(dòng)作,即等待第1個(gè)工件到達(dá)撿取點(diǎn)并卸載至緩存庫;若為后者,則agent采取加工動(dòng)作,即從緩存庫中取出一個(gè)工件進(jìn)行加工,同時(shí)在此定義系統(tǒng)的一個(gè)平穩(wěn)策略為v.
在MMPP 或SMMPP 型非泊松工件流CSPS 系統(tǒng)中,工件的到達(dá)率狀態(tài)會(huì)按一個(gè)Markov 過程和半Markov過程進(jìn)行遷移.記當(dāng)前及下一到達(dá)率狀態(tài)分別為m和m′.記Tn為第n個(gè)決策時(shí)刻,在每個(gè)決策時(shí)刻,先觀測緩存庫的狀態(tài),若緩存庫為空,agent只能采取撿取動(dòng)作;若緩存庫為滿,agent只能采取加工動(dòng)作;若緩存庫非空亦非滿時(shí),則根據(jù)前視距離內(nèi)是否有工件來決定采取相應(yīng)的動(dòng)作,若采取的是等待撿取動(dòng)作,則撿取完成后即進(jìn)入下一決策時(shí)刻,若采取加工動(dòng)作,則經(jīng)過max(vs,τ)時(shí)間后系統(tǒng)進(jìn)入下一決策時(shí)刻,其中τ是實(shí)際加工時(shí)間.加工服務(wù)過程可能是確定的,也可能是隨機(jī)的,為保證一般性,一般假設(shè)加工服務(wù)時(shí)間服從Erlang分布.此外,在加工過程中,若仍有工件到達(dá),則流失[3].非泊松工件流CSPS系統(tǒng)決策時(shí)序關(guān)系如圖2所示,其中,第n個(gè)和第n+2個(gè)決策周期分別對應(yīng)加工動(dòng)作(后者存在無后效性處理,即需要等待延遲時(shí)間ω后,進(jìn)入下一決策時(shí)刻),第n+1個(gè)決策周期對應(yīng)撿取動(dòng)作.
圖2 非泊松工件流與CSPS系統(tǒng)時(shí)序圖Fig.2 Non-Poisson parts flow and time sequence of CSPS system
MMPP本質(zhì)上是一個(gè)非平穩(wěn)泊松過程,其中瞬時(shí)泊松到達(dá)率服從一個(gè)平穩(wěn)的隨機(jī)過程.MMPP一般用于描述一類被Markov過程所調(diào)制的泊松到達(dá)過程,并同時(shí)用于描述時(shí)變到達(dá)率和到達(dá)間隔之間的相關(guān)性[17].與工件到達(dá)率固定不變的標(biāo)準(zhǔn)泊松流相比,MMPP工件到達(dá)是指工件達(dá)到率的變化序列按照Markov鏈進(jìn)行轉(zhuǎn)移,每個(gè)達(dá)到率參數(shù)狀態(tài)的持續(xù)時(shí)間服從指數(shù)分布[18].換言之,MMPP是到達(dá)率受某個(gè)連續(xù)時(shí)間Markov過程控制的隨機(jī)過程,即到達(dá)率參數(shù)隨此隨機(jī)過程狀態(tài)的轉(zhuǎn)移而變化.而SMMPP是較MMPP更為廣泛的一類隨機(jī)過程,描述的是到達(dá)率受半Markov過程控制的泊松過程,其到達(dá)率參數(shù)狀態(tài)的持續(xù)時(shí)間服從一般分布.
當(dāng)工件以MMPP到達(dá)時(shí),到達(dá)率參數(shù)受Markov鏈調(diào)制,即到達(dá)率參數(shù)狀態(tài)的轉(zhuǎn)移按Markov過程變化,記MMPP的狀態(tài)空間為ΦMP={1,2,···,N},到達(dá)率參數(shù)為λn,n ∈ΦMP,令到達(dá)率由狀態(tài)i轉(zhuǎn)移到狀態(tài)j的概率為Pij,則其狀態(tài)轉(zhuǎn)移矩陣為
另外,假設(shè)到達(dá)率參數(shù)的狀態(tài)逗留時(shí)間函數(shù)服從參數(shù)為θ(λn)的指數(shù)分布:
則到達(dá)率參數(shù)變量在狀態(tài)n的轉(zhuǎn)移率Λn=θ(λn).記該連續(xù)時(shí)間Markov鏈的無窮小矩陣為
該連續(xù)時(shí)間Markov過程的穩(wěn)態(tài)分布π=(π1,π2,···,πN)可由平衡方程πe=1,Ae=0,πA=0所唯一確定[19-21].其平均到達(dá)率由其穩(wěn)態(tài)分布確定[11]:
工件以SMMPP到達(dá)時(shí),其到達(dá)率參數(shù)狀態(tài)轉(zhuǎn)移過程服從半Markov過程,SMMPP是較MMPP更為廣泛的一種隨機(jī)過程,是MMPP的推廣,不同的是SMMPP的到達(dá)率參數(shù)狀態(tài)的逗留時(shí)間未必服從指數(shù)分布,可以是一般分布.記SMMPP的狀態(tài)空間ΦSM={1,2,···,M},到達(dá)率參數(shù)為λm,m ∈ΦSM,其狀態(tài)轉(zhuǎn)移矩陣為
在工件流按SMMPP變化時(shí),若到達(dá)率由狀態(tài)i轉(zhuǎn)移到狀態(tài)j,且到達(dá)率狀態(tài)在狀態(tài)i的逗留時(shí)間服從任一隨機(jī)分布Fij(t),則對應(yīng)此轉(zhuǎn)移的狀態(tài)i的平均逗留時(shí)間為
因而,狀態(tài)i的平均逗留時(shí)間滿足[19]
另外,到達(dá)率參數(shù)狀態(tài)變化過程的嵌入Markov鏈的穩(wěn)態(tài)分布δ=(δ1,δ2,···,δM)滿足[19]
于是對應(yīng)此SMMPP的穩(wěn)態(tài)分布Π可以由下式求出[22]:
工件的平均到達(dá)率唯一確定,可由下式求出[11]:
一個(gè)典型的生產(chǎn)周期包括等待時(shí)間和加工時(shí)間,而加工時(shí)間服從固定的隨機(jī)分布,因此通過合理的生產(chǎn)調(diào)度降低等待時(shí)間可以有效的降低系統(tǒng)生產(chǎn)周期,從而提高系統(tǒng)生產(chǎn)率.因此在非泊松工件流CSPS 系統(tǒng)中,主要考慮等待時(shí)間代價(jià),并設(shè)置單位時(shí)間等待代價(jià)系數(shù)為k.假設(shè)當(dāng)緩存庫狀態(tài)為Xt時(shí),agent采取行動(dòng)vXt,隨機(jī)逗留一段時(shí)間后系統(tǒng)狀態(tài)轉(zhuǎn)移到下一個(gè)狀態(tài)Yt.此轉(zhuǎn)移過程中,記單位時(shí)間代價(jià)函數(shù)記為f(Xt,vXt,Yt)[3],在策略v下系統(tǒng)無窮時(shí)段平均代價(jià)為
工件非標(biāo)準(zhǔn)泊松到達(dá)時(shí),分別給定MMPP和SMMPP的到達(dá)率參數(shù)狀態(tài)空間、狀態(tài)逗留時(shí)間分布函數(shù)和狀態(tài)轉(zhuǎn)移矩陣,即可產(chǎn)生MMPP和SMMPP到達(dá)的工件流序列.由于工件的到達(dá)率動(dòng)態(tài)變化,難以將CSPS系統(tǒng)建立成SMDP模型,因此借鑒文獻(xiàn)[5]中基于模擬退火的Q學(xué)習(xí)算法來學(xué)習(xí)系統(tǒng)的控制策略.在離線仿真中,在每一決策時(shí)刻,需實(shí)時(shí)調(diào)用當(dāng)前工件流序列以判斷前視距離內(nèi)是否有工件.在實(shí)時(shí)在線學(xué)習(xí)中,根據(jù)生產(chǎn)線上的工件序列位置信息即可判斷前視距離內(nèi)是否有工件.Q學(xué)習(xí)算法中,先初始化Q值表,設(shè)置初始溫度T、Boltzmann常數(shù)K和溫度衰減因子ξ.在學(xué)習(xí)過程中系統(tǒng)從探索行動(dòng)和貪婪行動(dòng)中隨機(jī)選擇,并不斷更新Q值表,溫度T每學(xué)習(xí)R步后根據(jù)衰減因子ξ降低,當(dāng)滿足算法終止條件時(shí)結(jié)束學(xué)習(xí),學(xué)到最終策略,并仿真統(tǒng)計(jì)系統(tǒng)代價(jià).
為了評估上述Q 學(xué)習(xí)算法的學(xué)習(xí)效果,在仿真實(shí)驗(yàn)中,定義一個(gè)標(biāo)準(zhǔn)泊松流CSPS系統(tǒng),其工件到達(dá)率與MMPP或SMMPP的平均到達(dá)率一致.此時(shí),工件到達(dá)的間隔時(shí)間分布為t >0.當(dāng)工件以該標(biāo)準(zhǔn)泊松過程到達(dá)時(shí),CSPS 系統(tǒng)可建立成SMDP模型,一方面可以利用前述基于模擬退火的Q學(xué)習(xí)算法來學(xué)習(xí)系統(tǒng)的最優(yōu)或次優(yōu)控制策略;另一方面,根據(jù)參考文獻(xiàn)[3-4],可通過定義等價(jià)無窮小矩陣和等價(jià)性能矩陣將該SMDP模型轉(zhuǎn)化成等價(jià)的連續(xù)時(shí)間Markov決策過程,然后通過策略迭代算法求解出系統(tǒng)的最優(yōu)策略,并得到系統(tǒng)的理論最優(yōu)代價(jià)[19-21].然后,將該最優(yōu)策略作用于原非泊松流CSPS系統(tǒng),通過仿真統(tǒng)計(jì)該策略作用下的系統(tǒng)運(yùn)行效果,從而與直接針對原非泊松流CSPS系統(tǒng)的Q學(xué)習(xí)算法效果進(jìn)行比較驗(yàn)證.并且也可分析比較兩種非泊松流CSPS下的Q學(xué)習(xí)算法與對應(yīng)的標(biāo)準(zhǔn)泊松流CSPS系統(tǒng)下的Q學(xué)習(xí)算法的學(xué)習(xí)性能.
在本文的仿真實(shí)驗(yàn)中,工件的加工時(shí)間服從L階的Erlang分布[5],每相的加工時(shí)間服從參數(shù)為μ的指數(shù)分布.這里設(shè)置μ=4,L=4,加工一個(gè)工件需要平均耗費(fèi)時(shí)間=1.由于不同工件流CSPS系統(tǒng)的工件到達(dá)隨機(jī)規(guī)律不一樣,但在仿真實(shí)驗(yàn)中,為了保證不同工件流在長時(shí)間尺度內(nèi)單位時(shí)間內(nèi)平均到達(dá)工件個(gè)數(shù)統(tǒng)計(jì)意義上相等,同時(shí)為了遵循“一進(jìn)一出”的產(chǎn)線基本平衡原則,均選取理論平均到達(dá)率=1.在到達(dá)率和服務(wù)率都固定為1時(shí),最優(yōu)平均代價(jià)理論上會(huì)隨著緩存庫容量的增大而降低,但在緩存庫容量設(shè)置為5時(shí),平均代價(jià)的下降就已接近飽和[2],所以仿真實(shí)驗(yàn)中,將緩存庫的容量Z設(shè)置為5.設(shè)置前視距離最大范圍lmax=1,前視距離的離散度Δ=0.1.系統(tǒng)相關(guān)參數(shù)設(shè)置如表1所示.
表1 系統(tǒng)相關(guān)參數(shù)設(shè)置Table 1 The parameter setting of system
為了便于對比,無論工件是按MMPP 到達(dá)還是以SMMPP到達(dá),都假設(shè)到達(dá)率狀態(tài)總數(shù)為M=N=4且狀態(tài)空間相等.其中:λ1=0.85,λ2=0.95,λ3=1.05,λ4=1.15.此外,到達(dá)率參數(shù)狀態(tài)的轉(zhuǎn)移矩陣皆為
當(dāng)工件以MMPP到達(dá)時(shí),狀態(tài)逗留函數(shù)F(t)的參數(shù)選取θ(λ1)=0.04,θ(λ2)=0.02,θ(λ3)=0.02,θ(λ4)=0.04.根據(jù)式(1)-(4)計(jì)算出MMPP的平均到達(dá)率=1,狀態(tài)平均逗留時(shí)間HM=(25,50,50,25).
當(dāng)工件以SMMPP到達(dá)時(shí),狀態(tài)逗留函數(shù)Fij(t)服從一般分布,本文主要考慮均勻分布.令Fij(a(λm),b(λm),t)為服從區(qū)間[a(λm),b(λm)]之間均勻分布,表達(dá)式如下:
參數(shù)選取如表2 所示,根據(jù)式(5)-(11)和式(13)可計(jì)算出平均到達(dá)率=1,狀態(tài)平均逗留時(shí)間HSM=(20,25,25,20).
本課題組經(jīng)過多方商榷與實(shí)踐,探討得出地方師范院校數(shù)學(xué)本科專業(yè)基于核心素養(yǎng)下的課堂教學(xué)設(shè)計(jì)模板,并以“反常積分的概念”作為教學(xué)課題展開課堂教學(xué)設(shè)計(jì),將數(shù)學(xué)核心素養(yǎng)的培育融入大學(xué)數(shù)學(xué)課堂,積極投身高等數(shù)學(xué)課堂教學(xué)改革。課堂教學(xué)案例如下:
表2 SMMPP相關(guān)參數(shù)Table 2 Related parameter of SMMPP
在工件按SMMPP到達(dá)的情況下,Q學(xué)習(xí)算法學(xué)到較好的控制策略為vSM=[0 0.4 0.5 0.7 1 inf].而在標(biāo)準(zhǔn)泊松到達(dá)情況下,Q學(xué)習(xí)學(xué)到最優(yōu)或次優(yōu)控制策略v=[0 0.3 0.6 0.8 0.9 inf],在以上策略中,inf表示無窮大.工件分別以MMPP和SMMPP到達(dá)的Q學(xué)習(xí)優(yōu)化曲線如圖3(a)和3(b)所示.工件以標(biāo)準(zhǔn)泊松到達(dá)的Q學(xué)習(xí)優(yōu)化曲線如圖3(c)所示.圖3(d)給出非泊松到達(dá)情況下Q學(xué)習(xí)學(xué)到的策略與標(biāo)準(zhǔn)泊松到達(dá)情況下Q學(xué)習(xí)學(xué)到的控制策略的對比圖.
當(dāng)工件非泊松到達(dá)時(shí),到達(dá)過程不滿足Markov性且更為復(fù)雜,因此Q學(xué)習(xí)在決策時(shí)選擇前視距離也更為復(fù)雜.已有研究結(jié)果表明標(biāo)準(zhǔn)泊松到達(dá)情況下,Q學(xué)習(xí)能學(xué)到較好的控制策略,從圖3(a)-3(c)可以看出,幾種情況下Q學(xué)習(xí)統(tǒng)計(jì)的系統(tǒng)代價(jià)結(jié)果很接近,在學(xué)習(xí)步數(shù)達(dá)到800步以后系統(tǒng)代價(jià)均保持在較小的范圍內(nèi),最終系統(tǒng)代價(jià)都保持在0.65附近.綜上說明非泊松到達(dá)Q學(xué)習(xí)依然可以學(xué)到較好的控制策略,并且以該策略評估的系統(tǒng)代價(jià)與在標(biāo)準(zhǔn)泊松到達(dá)情況下,以平均到達(dá)率作為工件到達(dá)率的Q學(xué)習(xí)結(jié)果非常接近.從圖3(d)可以看出當(dāng)緩存庫空余容量越大,前視距離越大,所以系統(tǒng)會(huì)更傾向于撿取工件而不是加工工件;當(dāng)緩存庫容量越小,前視距離越小,所以系統(tǒng)會(huì)更傾向于加工工件而不是撿取工件,這也符合實(shí)際生產(chǎn)情況.
圖3 Q學(xué)習(xí)結(jié)果,=1Fig.3 Q-learning results when average arrival rate equals to 1
系統(tǒng)優(yōu)化的目標(biāo)是找到最優(yōu)控制策略使得在平均折扣準(zhǔn)則下,長遠(yuǎn)期望代價(jià)最低.然而在實(shí)際的生產(chǎn)過程中,系統(tǒng)的生產(chǎn)率、生產(chǎn)效率、生產(chǎn)周期這些系統(tǒng)性能指標(biāo),可以更好地作為評價(jià)系統(tǒng)是否可靠的標(biāo)準(zhǔn).在相同的工件到達(dá)率和系統(tǒng)工件加工率情況下,系統(tǒng)的生產(chǎn)率、生產(chǎn)效率越高,生產(chǎn)周期越低說明在同等的時(shí)間下系統(tǒng)的產(chǎn)量越高、加工的工件越多.系統(tǒng)的生產(chǎn)率、生產(chǎn)效率、生產(chǎn)周期可通過理論計(jì)算和蒙特卡洛仿真統(tǒng)計(jì)求出[5].
理論計(jì)算方法中,一個(gè)生產(chǎn)周期Y 由等待時(shí)間和服務(wù)時(shí)間組成.系統(tǒng)期望生產(chǎn)率PR為期望平均時(shí)間的Y 倒數(shù),期望生產(chǎn)效率PE為期望平均時(shí)間Y 與工件到達(dá)率λ乘積的倒數(shù).采用蒙特卡洛仿真統(tǒng)計(jì)方法也可以統(tǒng)計(jì)系統(tǒng)生產(chǎn)率PR和系統(tǒng)生產(chǎn)效率PE,系統(tǒng)生產(chǎn)率PR即[0,T]時(shí)間段內(nèi)平均加工工件的個(gè)數(shù),[0,T]時(shí)間段內(nèi)加工工件個(gè)數(shù)占總到達(dá)工件個(gè)數(shù)的百分比即系統(tǒng)生產(chǎn)效率.
下面分別在非標(biāo)準(zhǔn)泊松到達(dá)和標(biāo)準(zhǔn)泊松到達(dá)兩種情況下,分析討論系統(tǒng)性能值的差異.分別選取vMP,vSM作用于原非泊松系統(tǒng),選取v作用標(biāo)準(zhǔn)泊松系統(tǒng),做10次獨(dú)立實(shí)驗(yàn),每次獨(dú)立實(shí)驗(yàn)系統(tǒng)仿真運(yùn)行5000步,然后取相關(guān)性能值的統(tǒng)計(jì)平均值.另外,給出標(biāo)準(zhǔn)泊松到達(dá)情況下策略迭代算法理論求解的系統(tǒng)性能值作為非標(biāo)準(zhǔn)泊松到達(dá)情況的對比.各種情況下系統(tǒng)性能值的結(jié)果如表3所示.
表3為不同評估方式下系統(tǒng)性能值的比較結(jié)果,由表可知在非標(biāo)準(zhǔn)泊松到達(dá)與標(biāo)準(zhǔn)泊松到達(dá)情況下,Q學(xué)習(xí)的結(jié)果和理論求解的結(jié)果都非常接近,說明在工件非泊松到達(dá)情況下,Q學(xué)習(xí)依然可以學(xué)到較好的策略,并且以該策略評估的系統(tǒng)性能值與在標(biāo)準(zhǔn)泊松到達(dá)情況下,以平均到達(dá)率作為工件到達(dá)率的Q學(xué)習(xí)結(jié)果非常接近.
表3 不同評估方式下系統(tǒng)性能值Table 3 The performances under different evaluation methods
另外,本文分別在MMPP工件到達(dá)和SMMPP工件到達(dá)情況下進(jìn)行10次獨(dú)立樣本軌道的學(xué)習(xí),每800步記錄一次各樣本軌道平均代價(jià),并分析其平均值和標(biāo)準(zhǔn)差,以此來研究在MMPP工件到達(dá)和SMMPP工件到達(dá)情況下Q學(xué)習(xí)算法應(yīng)用在CSPS系統(tǒng)時(shí)的穩(wěn)定性,如圖4所示.曲線為每一個(gè)所記錄的平均代價(jià)的平均值,填充區(qū)間為這10條樣本軌道所得數(shù)據(jù)在各點(diǎn)處的標(biāo)準(zhǔn)差區(qū)間.其意義在于,若假設(shè)這些樣本數(shù)據(jù)滿足高斯分布,那么相信這些所得樣本的均值有68%的概率落在此標(biāo)準(zhǔn)差區(qū)間內(nèi).而填充區(qū)域面積越小,則表明不同樣本軌道得出的結(jié)果越接近.由圖4可知,在算法后期,不同樣本軌道得出的數(shù)據(jù)波動(dòng)并不大.綜上所述,Q學(xué)習(xí)算法學(xué)到的控制策略可以使工件按MMPP到達(dá)和SMMPP到達(dá)時(shí)CSPS系統(tǒng)穩(wěn)定運(yùn)行.
圖4 工件非泊松到達(dá)情況下10條樣軌道的均值和標(biāo)準(zhǔn)差范圍Fig.4 Means and standard deviation ranges for 10 sample paths under non-Poisson arrival
圖5 Q學(xué)習(xí)結(jié)果,=1.2Fig.5 Q-learning results when average arrival rate equals to 1.2
工件按兩種非泊松到達(dá)情況下,Q學(xué)習(xí)算法學(xué)到的控制策略分別為
而在工件標(biāo)準(zhǔn)泊松到達(dá)情況下,Q學(xué)習(xí)算法學(xué)到的最優(yōu)或次優(yōu)控制策略v=[0 0.5 0.6 0.8 1 inf].圖6(a)-6(c)分別是平均到達(dá)率=0.8時(shí)工件以MMPP和SMMPP和標(biāo)準(zhǔn)泊松到達(dá)的Q學(xué)習(xí)優(yōu)化曲線.圖6(d)給出=0.8時(shí)非泊松到達(dá)情況下Q學(xué)習(xí)學(xué)到較好策略與標(biāo)準(zhǔn)泊松到達(dá)情況下Q學(xué)習(xí)學(xué)到最優(yōu)或次優(yōu)策略的對比圖.
圖6 Q學(xué)習(xí)結(jié)果,=0.8Fig.6 Q-learning results when average arrival rate equals to 0.8
本文考慮到即使工件以非泊松流到達(dá),仍然可以統(tǒng)計(jì)工件的平均到達(dá)率,下面在工件非泊松到達(dá)時(shí),觀測統(tǒng)計(jì)平均到達(dá)率的理論學(xué)習(xí)情況.首先采用蒙特卡洛仿真統(tǒng)計(jì)方法,分別對MMPP和SMMPP到達(dá)的工件統(tǒng)計(jì)平均到達(dá)率,定義[0,t]時(shí)間段內(nèi)工件到達(dá)個(gè)數(shù)H(t),統(tǒng)計(jì)平均到達(dá)率如下:
當(dāng)時(shí)間t →∞時(shí),理論上λ(t)會(huì)趨于平穩(wěn)并且近似等于平均到達(dá)率分別在工件以MMPP和SMMPP到達(dá),平均到達(dá)率=1時(shí),選取與原系統(tǒng)相同的工件到達(dá)的樣本,每隔一段時(shí)間統(tǒng)計(jì)λ(t),由于Q學(xué)習(xí)的步數(shù)達(dá)到100步左右時(shí),工件的λ(t)已經(jīng)趨于平穩(wěn),因此前100 步內(nèi)每隔10 步統(tǒng)計(jì)一次λ(t),100步后每隔100步統(tǒng)計(jì)一次λ(t),統(tǒng)計(jì)結(jié)果如表4所示.從表4也可以看出隨著到達(dá)的工件越來越多,統(tǒng)計(jì)的λ(t)越來越接近于平均到達(dá)率統(tǒng)計(jì)不同到達(dá)時(shí)刻的λ(t)作為工件標(biāo)準(zhǔn)泊松到達(dá)率,建立SMDP模型后通過策略迭代算法求解λ(t)的最優(yōu)策略v(λ(t))*和理論系統(tǒng)代價(jià)并繪制其理論代價(jià)的變化曲線.將此最優(yōu)策略v(λ(t))*作用于原非泊松到達(dá)情況下的系統(tǒng),做10次獨(dú)立實(shí)驗(yàn),每次獨(dú)立實(shí)驗(yàn)系統(tǒng)仿真運(yùn)行5000步,取系統(tǒng)代價(jià)的統(tǒng)計(jì)平均值,得到λ(t)的最優(yōu)策略評估代價(jià),并繪制其變化曲線.
表4 非泊松到達(dá)情況下工件λ(t)統(tǒng)計(jì)結(jié)果Table 4 Statistical results of average arrive rate under non-Poisson distribution arrival
圖7分別給出工件以MMPP和SMMPP到達(dá)的最優(yōu)λ(t)策略評估代價(jià)曲線、λ(t)理論代價(jià)曲線和原非標(biāo)準(zhǔn)泊松到達(dá)Q學(xué)習(xí)曲線的比較圖.
圖7 工件非泊松到達(dá)的幾種曲線趨勢圖Fig.7 The cost trends under non-Poisson arrival
從圖7可以看出在學(xué)習(xí)步數(shù)前100步部分,系統(tǒng)理論代價(jià)和最優(yōu)策略評估代價(jià)波動(dòng)較大,隨著工件到達(dá)個(gè)數(shù)的增加,λ(t)趨于穩(wěn)定,系統(tǒng)理論代價(jià)和最優(yōu)策略評估代價(jià)波動(dòng)趨于平緩,最終近似收斂并與Q學(xué)習(xí)結(jié)果非常接近.理論代價(jià)和最優(yōu)策略評估代價(jià)收斂的過程作為λ(t)的理論學(xué)習(xí)過程,其最終收斂結(jié)果與原工件非泊松到達(dá)的Q學(xué)習(xí)結(jié)果非常接近,說明非泊松到達(dá)情況下的Q學(xué)習(xí)能學(xué)到較好的控制策略,并且在工件非泊松到達(dá)時(shí),當(dāng)足夠的工件到達(dá)后,以統(tǒng)計(jì)平均到達(dá)率作為工件標(biāo)準(zhǔn)泊松到達(dá)率,理論求解快速找到的控制策略也可作為較好的控制策略.
現(xiàn)討論工件按SMMPP和MMPP疊加混合到達(dá)時(shí),CSPS系統(tǒng)的Q學(xué)習(xí)算法的適用性問題.在此疊加混合非泊松工件流CSPS系統(tǒng)中,工件以混合信號流形式隨機(jī)到達(dá),工件的到達(dá)過程依然不滿足Markov性.仿真中,取M=N=2,且SMMPP的到達(dá)率參數(shù)狀態(tài)為λ1=0.45,λ2=0.55,到達(dá)率狀態(tài)逗留時(shí)間轉(zhuǎn)移服從均勻分布;MMPP的到達(dá)率參數(shù)狀態(tài)為λ3=0.35,λ4=0.65,到達(dá)率狀態(tài)逗留時(shí)間服從指數(shù)分布.顯然,可以推導(dǎo)此混合工件流的理論平均到達(dá)率=1.圖8是按此混流信號產(chǎn)生的非泊松工件流序列的示意圖.
圖8 疊加混合非泊松工件流Fig.8 Mixed non-Poisson parts flow
疊加混合非泊松工件流CSPS系統(tǒng)Q學(xué)習(xí)優(yōu)化曲線如圖9所示.由圖可知,剛開始Q學(xué)習(xí)曲線波動(dòng)較大,隨著學(xué)習(xí)步數(shù)增多,曲線趨于平緩,最終系統(tǒng)代價(jià)保持在0.65附近,此結(jié)果與工件標(biāo)準(zhǔn)泊松到達(dá)情況下=1時(shí)的Q學(xué)習(xí)結(jié)果非常近似,此時(shí)學(xué)到的控制策略為v=[0 0.5 0.6 0.7 1 inf],滿足v0<v1<···<v5,符合現(xiàn)實(shí)情況.說明即使工件以疊加混合非泊松信號流隨機(jī)到達(dá)時(shí),Q學(xué)習(xí)也能學(xué)到較好的控制策略.
圖9 疊加混合非泊松工件流Q學(xué)習(xí)Fig 9 Q-learning of mixed non-Poisson parts flow
另外在疊加混合非泊松工件流CSPS系統(tǒng)中,Q學(xué)習(xí)評估的各類系統(tǒng)性能值如圖10所示,從圖中可以看出,當(dāng)工件以疊加混合非泊松流到達(dá)時(shí)Q學(xué)習(xí)評估的系統(tǒng)性能值與標(biāo)準(zhǔn)泊松到達(dá)情況下Q學(xué)習(xí)評估的系統(tǒng)性能值非常接近.
圖10 疊加混合非泊松工件流下系統(tǒng)性能值Fig.10 System performance value under and mixed non-Poisson parts flow
本文通過對比標(biāo)準(zhǔn)泊松與非標(biāo)準(zhǔn)泊松的Q學(xué)習(xí)結(jié)果,驗(yàn)證了在工件到達(dá)過程不滿足Markov性,CSPS無法建立為SMDP模型的情況下,Q學(xué)習(xí)算法依然可以學(xué)到較好的控制策略.以該策略評估的系統(tǒng)代價(jià)與在標(biāo)準(zhǔn)泊松到達(dá)情況下,以平均到達(dá)率作為工件到達(dá)率的Q學(xué)習(xí)結(jié)果非常近似.另外在工件非泊松到達(dá)時(shí),當(dāng)足夠的工件到達(dá)后,以統(tǒng)計(jì)工件的平均到達(dá)率作為標(biāo)準(zhǔn)泊松到達(dá)率,理論求解快速找到的控制策略也可作為較好的控制策略,并且以此控制策略作用于原非泊松到達(dá)情況下的系統(tǒng),評估的系統(tǒng)代價(jià)與Q學(xué)習(xí)統(tǒng)計(jì)的系統(tǒng)代價(jià)非常接近.另外,驗(yàn)證了工件以疊加混合非泊松流隨機(jī)到達(dá)時(shí),Q學(xué)習(xí)也能學(xué)到較好的控制策略.