王卓君,張 朋,張 潔
(1.東華大學(xué) 機(jī)械工程學(xué)院,上海 201620;2.東華大學(xué) 人工智能研究院,上海 201620)
半導(dǎo)體制造業(yè)是關(guān)系國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展的基礎(chǔ)性、先導(dǎo)性和戰(zhàn)略性產(chǎn)業(yè)[1],其中半導(dǎo)體晶圓制造系統(tǒng)是當(dāng)今世界最為復(fù)雜的制造系統(tǒng)[2]。批處理機(jī)是半導(dǎo)體主要的加工設(shè)備之一,是影響半導(dǎo)體制造的瓶頸環(huán)節(jié),對(duì)系統(tǒng)性能具有重要影響[3],因此對(duì)半導(dǎo)體批處理設(shè)備進(jìn)行合理調(diào)度可以有效改善系統(tǒng)性能,緩解系統(tǒng)瓶頸壓力[4]。
在晶圓制造系統(tǒng)中,晶圓批處理區(qū)域由若干能進(jìn)行批加工的并行設(shè)備組成,主要完成晶圓制造中的氧化沉積工藝。當(dāng)晶圓lot(批號(hào),晶圓以25Pcs為單位裝在一個(gè)晶盒里,這25片晶元組成的批就是Lot,會(huì)用一個(gè)唯一ID標(biāo)識(shí))到達(dá)批處理區(qū)域時(shí),須為其分配當(dāng)前層工藝類(lèi)型相同的加工批次,并將組好的批次分配到批處理設(shè)備進(jìn)行加工[5]。具體來(lái)說(shuō),批處理調(diào)度需要考慮:①設(shè)備加工約束,批處理設(shè)備具有容量限制和不兼容工藝類(lèi)型,且設(shè)備在切換工藝類(lèi)型批次時(shí)存在差異生產(chǎn)準(zhǔn)備時(shí)間;②晶圓lot動(dòng)態(tài)到達(dá),且逐層加工,因而當(dāng)前層加工結(jié)束還需重入進(jìn)行下一層加工;③任務(wù)和設(shè)備實(shí)時(shí)變化,需實(shí)時(shí)針對(duì)環(huán)境進(jìn)行響應(yīng),對(duì)算法的實(shí)時(shí)性要求較高[6]。以上這些特點(diǎn)極大增加了晶圓批處理調(diào)度的難度。
近年來(lái),已有眾多學(xué)者針對(duì)半導(dǎo)體批處理設(shè)備調(diào)度展開(kāi)研究。JUNG等[7]針對(duì)晶圓批處理調(diào)度問(wèn)題的動(dòng)態(tài)性和復(fù)雜性,結(jié)合調(diào)度器計(jì)算的有限性,提出了一種基于滾動(dòng)周期的混合整數(shù)線(xiàn)性規(guī)劃模型,該方法缺乏對(duì)晶圓重入性、設(shè)備加工約束的考慮,且滾動(dòng)周期的方法缺乏自適應(yīng)性,無(wú)法及時(shí)響應(yīng)晶圓批處理環(huán)境的動(dòng)態(tài)特性;WANG等[8]針對(duì)晶圓批處理調(diào)度問(wèn)題,在動(dòng)態(tài)規(guī)劃的基礎(chǔ)上減少求解空間,提高了調(diào)度效率;該方法對(duì)晶圓批處理設(shè)備約束問(wèn)題有較全面的考慮,但在環(huán)境的動(dòng)態(tài)性和晶圓的重入性方面考慮欠佳,雖然能夠針對(duì)小規(guī)模問(wèn)題獲得較優(yōu)解,但當(dāng)問(wèn)題規(guī)模增大時(shí),求解性能不佳。LU等[9]針對(duì)晶圓批處理調(diào)度問(wèn)題的訂單差異性問(wèn)題,提出基于到期時(shí)間約束使單位時(shí)間等待成本目標(biāo)值最小的加權(quán)成本率啟發(fā)式動(dòng)態(tài)算法,該算法重點(diǎn)對(duì)任務(wù)特性進(jìn)行了分析,但在設(shè)備特性和環(huán)境整體動(dòng)態(tài)性方面考慮不足,以犧牲一部分解的特性為代價(jià),與生產(chǎn)實(shí)際存在一定偏差。鄧可等[10]針對(duì)具有可重入特性的晶圓生產(chǎn)調(diào)度問(wèn)題,引入專(zhuān)家系統(tǒng)推理賦予蟻群算法按規(guī)則進(jìn)行推理的能力,雖然針對(duì)可重入等特點(diǎn)的復(fù)雜約束性進(jìn)行一定程度的改進(jìn),但調(diào)度規(guī)則適用范圍有限,不足以應(yīng)對(duì)復(fù)雜的批處理調(diào)度環(huán)境;孫承夏[11]針對(duì)于具有重入式特點(diǎn)的半導(dǎo)體制造業(yè)中晶圓生產(chǎn)調(diào)度問(wèn)題,提出了一個(gè)基于遺傳進(jìn)化思想的重入式混合進(jìn)化算法,對(duì)晶圓重入有效地進(jìn)行重排序,對(duì)突發(fā)情況有較好的適應(yīng)性,但實(shí)際晶圓批處理生產(chǎn)調(diào)度環(huán)境為實(shí)時(shí)動(dòng)態(tài)變化,所提出方法無(wú)法滿(mǎn)足自適應(yīng)的要求。
以上學(xué)者所提出的方法能適應(yīng)不同環(huán)境的不同問(wèn)題,但存在無(wú)法在線(xiàn)更新、解空間較大、搜索時(shí)間較長(zhǎng)、犧牲一部分解的性能等問(wèn)題,以Q-learning、Actor-Critic為代表的強(qiáng)化學(xué)習(xí)算法能與動(dòng)態(tài)環(huán)境實(shí)時(shí)交互、在線(xiàn)更新,并且通過(guò)設(shè)置獎(jiǎng)勵(lì)函數(shù)對(duì)智能體行為進(jìn)行反饋,在調(diào)度等領(lǐng)域的應(yīng)用十分廣泛,目前已有很多學(xué)者通過(guò)深度強(qiáng)化學(xué)習(xí)算法解決工業(yè)實(shí)際生產(chǎn)中的調(diào)度問(wèn)題。LEE 等[12]針對(duì)半導(dǎo)體制造系統(tǒng)的重入性導(dǎo)致的生產(chǎn)交貨時(shí)間較長(zhǎng)等調(diào)度問(wèn)題,通過(guò)深度強(qiáng)化學(xué)習(xí)處理生產(chǎn)計(jì)劃內(nèi)作業(yè)排產(chǎn)調(diào)度,通過(guò)訓(xùn)練對(duì)應(yīng)晶圓層數(shù)和設(shè)備數(shù)量的模型,使得調(diào)度決策在生產(chǎn)計(jì)劃的基礎(chǔ)上盡可能優(yōu)化,提高生產(chǎn)力,但實(shí)際生產(chǎn)過(guò)程中不同的晶圓類(lèi)型對(duì)應(yīng)不同的層數(shù),適應(yīng)性有待進(jìn)一步提升;WANG等[13]針對(duì)半導(dǎo)體晶圓制造系統(tǒng)的約束條件復(fù)雜、系統(tǒng)環(huán)境動(dòng)態(tài)的調(diào)度問(wèn)題,提出了一種模糊分層強(qiáng)化學(xué)習(xí)方法,該方法的理論十分完備,但在實(shí)際生產(chǎn)過(guò)程中執(zhí)行還需要對(duì)具體環(huán)節(jié)進(jìn)行設(shè)計(jì)應(yīng)用;TANG等[14]針對(duì)可重構(gòu)制造系統(tǒng)(Reconfigurable Manufacturing Sustem,RMS)策略調(diào)度問(wèn)題,提出一個(gè)內(nèi)置的離散事件仿真模型的通用RMS的深度強(qiáng)化學(xué)習(xí)進(jìn)行自主決策,該方法的適用范圍廣,但針對(duì)晶圓批處理特定環(huán)境的調(diào)度性能不佳;賀俊杰等[15]提出了基于多智能體循環(huán)近端策略?xún)?yōu)化強(qiáng)化學(xué)習(xí)的完全反應(yīng)式調(diào)度方法,通過(guò)引入長(zhǎng)短記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行決策智能體間策略協(xié)同優(yōu)化,但對(duì)實(shí)時(shí)調(diào)度環(huán)境內(nèi)部復(fù)雜機(jī)理的挖掘不足;CHIEN等[16]針對(duì)產(chǎn)品組合的增加和產(chǎn)品生命周期的縮短的半導(dǎo)體制造動(dòng)態(tài)調(diào)度問(wèn)題,提出一種融合深度強(qiáng)化學(xué)習(xí)與混合遺傳算法,基于智能體的方法解決設(shè)置時(shí)間與序列相關(guān)的不相關(guān)并行機(jī)器調(diào)度問(wèn)題,該方法雖然加快了算法收斂速度,但是不能確定強(qiáng)化學(xué)習(xí)收斂獲得的策略為最優(yōu)策略。以上學(xué)者采用的強(qiáng)化學(xué)習(xí)方法解決工業(yè)生產(chǎn)調(diào)度問(wèn)題,雖然能與動(dòng)態(tài)環(huán)境實(shí)時(shí)交互,在線(xiàn)更新,但存在算法的收斂速度較慢、容易陷入局部最優(yōu)、獎(jiǎng)勵(lì)函數(shù)設(shè)定存在人為局限性等特點(diǎn),因此有些學(xué)者嘗試通過(guò)逆向強(qiáng)化學(xué)習(xí)指導(dǎo)強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)的方法。
目前,已有學(xué)者研究在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上引入逆向強(qiáng)化學(xué)習(xí)的方法,通過(guò)挖掘調(diào)度環(huán)境內(nèi)部復(fù)雜關(guān)聯(lián)關(guān)系,進(jìn)一步優(yōu)化調(diào)度,指導(dǎo)生產(chǎn)調(diào)度實(shí)際問(wèn)題。李耀宇等[17]引入基于逆向?qū)W習(xí)的強(qiáng)化學(xué)習(xí)方法,通過(guò)學(xué)習(xí)專(zhuān)家演示行為,生成艦載機(jī)甲板調(diào)度方案。張艷偉等[18]針對(duì)集裝箱碼頭裝船時(shí)堆場(chǎng)翻箱問(wèn)題,通過(guò)逆向強(qiáng)化學(xué)習(xí)算法挖掘隱含專(zhuān)家經(jīng)驗(yàn),使收斂至最小翻箱次數(shù)的概率更高。柳凱[19]針對(duì)強(qiáng)化學(xué)習(xí)算法應(yīng)用于自主駕駛獎(jiǎng)勵(lì)函數(shù)難以確定的問(wèn)題,利用最大熵逆向強(qiáng)化學(xué)習(xí)算法和特征基函數(shù)線(xiàn)性組合方法獲得最優(yōu)獎(jiǎng)勵(lì)函數(shù)。譚傳芳[20]通過(guò)逆向強(qiáng)化學(xué)習(xí)的方法針對(duì)半馬爾可夫環(huán)境下的無(wú)人車(chē)仿真平臺(tái)進(jìn)行策略決策,擴(kuò)大了逆向強(qiáng)化學(xué)習(xí)相關(guān)理論及算法的適用范圍。以上學(xué)者針對(duì)具體工程問(wèn)題,通過(guò)引入逆向強(qiáng)化學(xué)習(xí)挖掘調(diào)度環(huán)境內(nèi)部機(jī)理,并指導(dǎo)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),在強(qiáng)化學(xué)習(xí)智能體實(shí)時(shí)響應(yīng)動(dòng)態(tài)環(huán)境的基礎(chǔ)上,加快算法收斂速度。
因此,本文針對(duì)晶圓制造批處理調(diào)度問(wèn)題,分析了該類(lèi)生產(chǎn)調(diào)度問(wèn)題的約束條件,同時(shí)考慮任務(wù)動(dòng)態(tài)到達(dá)、復(fù)雜重入性與設(shè)備不兼容工藝類(lèi)型、差異生產(chǎn)準(zhǔn)備時(shí)間等特點(diǎn),提出了結(jié)合逆向強(qiáng)化學(xué)習(xí)與強(qiáng)化學(xué)習(xí)(combine Inverse Reinforcement Learning and Reinforcement Learning,IRL-RL)的晶圓批處理設(shè)備調(diào)度優(yōu)化方法。根據(jù)晶圓批處理加工特性,將問(wèn)題分解為組批和批次指派兩個(gè)子問(wèn)題,針對(duì)智能體決策嚴(yán)重依賴(lài)獎(jiǎng)勵(lì)函數(shù)且獎(jiǎng)勵(lì)函數(shù)又存在人為設(shè)定的局限性和反饋智能體遲滯的問(wèn)題,引入逆向強(qiáng)化學(xué)習(xí)指導(dǎo)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì);針對(duì)晶圓lot的重入加工特性,設(shè)計(jì)期望流動(dòng)時(shí)間與剩余等待時(shí)間關(guān)鍵狀態(tài)變量;針對(duì)批處理設(shè)備工藝類(lèi)型的不兼容性,批次指派智能體兼容考慮任務(wù)的緊急程度與工藝類(lèi)型切換帶來(lái)的差異生產(chǎn)準(zhǔn)備時(shí)間進(jìn)行綜合決策;針對(duì)晶圓lot剩余加工層數(shù)與期望流動(dòng)時(shí)間之間的復(fù)雜流變關(guān)系,設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)關(guān)鍵參數(shù)的非線(xiàn)性特征,以文獻(xiàn)[21]的近優(yōu)策略為指導(dǎo),引入逆向強(qiáng)化學(xué)習(xí)指導(dǎo)批次指派獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)關(guān)鍵參數(shù)的非線(xiàn)性特征。
本文所提出的方法相較于動(dòng)態(tài)規(guī)劃等方法,能夠針對(duì)大規(guī)模、問(wèn)題復(fù)雜程度高的晶圓批處理調(diào)度問(wèn)題,盡可能還原真實(shí)生產(chǎn)調(diào)度環(huán)境,獲得性能更優(yōu)的調(diào)度策略;該方法相較于遺傳算法等進(jìn)化算法,能夠做到針對(duì)任務(wù)動(dòng)態(tài)到達(dá)、設(shè)備狀態(tài)不斷變化的實(shí)時(shí)調(diào)度環(huán)境進(jìn)行及時(shí)響應(yīng),實(shí)時(shí)性較高;此外,本方法通過(guò)與深度強(qiáng)化學(xué)習(xí)等方法進(jìn)行比較,雖然兩種方法均能針對(duì)環(huán)境變化做出實(shí)時(shí)響應(yīng),但是針對(duì)晶圓批處理調(diào)度問(wèn)題環(huán)境約束條件復(fù)雜、內(nèi)部機(jī)理不明等問(wèn)題,本方法在強(qiáng)化學(xué)習(xí)的基礎(chǔ)上引入了逆向強(qiáng)化學(xué)習(xí)作為指導(dǎo),通過(guò)優(yōu)化獎(jiǎng)勵(lì)函數(shù)進(jìn)一步指導(dǎo)組批、批次指派智能體進(jìn)行策略決策,在對(duì)晶圓批處理調(diào)度優(yōu)化機(jī)理挖掘的基礎(chǔ)上,結(jié)合數(shù)據(jù)模型進(jìn)一步進(jìn)行策略?xún)?yōu)化。
晶圓批處理調(diào)度問(wèn)題是典型的NP-hard問(wèn)題,可以描述為某一時(shí)間到達(dá)的N個(gè)晶圓lot通過(guò)組批,進(jìn)入到相應(yīng)類(lèi)型的批次槽中,批次槽的數(shù)量固定,根據(jù)實(shí)際調(diào)度過(guò)程進(jìn)行賦值。批次槽內(nèi)的晶圓lot的工藝類(lèi)型由第一個(gè)進(jìn)入槽的晶圓lot待加工工藝類(lèi)型決定,當(dāng)設(shè)備空閑時(shí)相應(yīng)的批次槽通過(guò)批次指派,進(jìn)入批處理設(shè)備進(jìn)行加工。晶圓lot逐層進(jìn)行加工,每次只能針對(duì)當(dāng)前到達(dá)層進(jìn)行加工,加工結(jié)束后,晶圓重入進(jìn)行晶圓下一層的加工,直到加工到晶圓lot的最后一層。批處理設(shè)備為不兼容工藝類(lèi)型且有最大容量限制,批次槽內(nèi)的晶圓lot達(dá)到設(shè)備的最大容量后,不能再容納多余的晶圓lot。批處理設(shè)備為兩臺(tái)或兩臺(tái)以上的等效并行機(jī),設(shè)備非搶占式加工,即當(dāng)設(shè)備開(kāi)始加工后,無(wú)法進(jìn)行中斷操作;設(shè)備每次只能對(duì)一種工藝類(lèi)型的晶圓批進(jìn)行加工,在機(jī)臺(tái)上進(jìn)行加工的工藝類(lèi)型切換時(shí),存在由工藝類(lèi)型所決定的物理?xiàng)l件差異帶來(lái)的差異生產(chǎn)準(zhǔn)備時(shí)間。根據(jù)以上描述,總結(jié)出的帶有重入性的晶圓批處理調(diào)度問(wèn)題如圖1所示。
基于以上問(wèn)題描述,可將本文的問(wèn)題模型按照調(diào)度三元組α|β|γ歸納如下:
Pm|Batch,rj,Pj,on-line,incompatible,reentrant,PM|MPC。
其中:Pm代表并行機(jī)機(jī)組,Batch代表設(shè)備為批處理設(shè)備,rj為任務(wù)到達(dá)時(shí)間限制,Pj為對(duì)任務(wù)加工時(shí)間限制;on-line表示該調(diào)度問(wèn)題為在線(xiàn)調(diào)度,即隨著任務(wù)的動(dòng)態(tài)到達(dá),環(huán)境要不斷變化;incompatible表示任務(wù)不兼容工藝類(lèi)型特點(diǎn),即到達(dá)的晶圓層類(lèi)型相同時(shí)才可以一起組批;reentrant表示晶圓具有可重入性,即晶圓逐層加工,當(dāng)前層加工完成后,晶圓重入進(jìn)行下一層加工,直到加工完最后一層;MPC表示研究目標(biāo)為最小化最大設(shè)備完工時(shí)間。
基于上述問(wèn)題描述,建立數(shù)學(xué)模型如下:
(1)模型假設(shè)
晶圓lot的待加工層的類(lèi)型、針對(duì)不同類(lèi)型的晶圓lot層加工時(shí)間已知,任務(wù)按照實(shí)際情況動(dòng)態(tài)到達(dá);不考慮設(shè)備發(fā)生故障和因維修導(dǎo)致的延遲問(wèn)題;各機(jī)臺(tái)組之間的緩沖區(qū)無(wú)限容量;批處理設(shè)備為等效并行機(jī);一個(gè)晶圓lot任意時(shí)刻至多只能在一臺(tái)設(shè)備上加工;設(shè)備具有加工容量限制,批處理設(shè)備前后加工不同工藝類(lèi)型存在差異生產(chǎn)準(zhǔn)備時(shí)間。
(2)狀態(tài)變量
M為機(jī)臺(tái)總數(shù),機(jī)臺(tái)索引m∈M;t為當(dāng)前生產(chǎn)調(diào)度時(shí)間;n為任務(wù)總數(shù),任務(wù)索引i=1,2,...,n;w為任務(wù)當(dāng)前加工層數(shù);k為工序索引;B為設(shè)備加工的最大容量;R為工藝類(lèi)型總數(shù),工藝類(lèi)型索引r=1,2,…,R;m為可加工設(shè)備編號(hào);f為批次索引,f∈F,F為批次集合。RTiw為工件i第w層的到達(dá)時(shí)間;WTiw為工件i第w層的等待時(shí)間;Piw為工件i第w層的加工時(shí)間,其中Pi0工件i初始到達(dá)時(shí)間由環(huán)境決定;TPR設(shè)備加工的差異生產(chǎn)準(zhǔn)備時(shí)間;Li為工件i所需加工的層數(shù);PFi為工件i的期望流動(dòng)時(shí)間;Ciw為工件i的第w層的完工時(shí)間;HTiw為工件i的第w層的后續(xù)加工時(shí)間,
(3)決策變量
加工機(jī)臺(tái)決策變量Yiwm為工件i的第w層的開(kāi)始時(shí)間,該操作在機(jī)器m上加工。設(shè)備前后加工工藝類(lèi)型決策Xr,r′:設(shè)備當(dāng)前加工工藝類(lèi)型r′,前一加工工藝類(lèi)型r′
(1)目標(biāo)函數(shù):
minE(PC)={E(PC1),
E(PC2),...,E(PCm)}。
(1)
(2)約束條件:
(2)
(3)
Pk=Piw;
(4)
Ciw=RTiw+WTiw+Piw+Xr,r'·TPR+HTiw;
(5)
Ri,w+1?Ciw;
(6)
E(PCm,1)=Tm1+TPR;
(7)
E(PCmk)=E(PCm,k-1)+Tmk+Xr,r′·TPR;
(8)
Tmk=Pk;
(9)
(10)
在上述晶圓批處理調(diào)度問(wèn)題數(shù)學(xué)模型中,式(1)表示目標(biāo)為最小化批處理設(shè)備最大完工時(shí)間;式(2)表示工件i第w層加工機(jī)臺(tái)的唯一性;式(3)表示設(shè)備加工的最大容量限制;式(4)表示k批次的加工時(shí)間為工件i的第w層的加工時(shí)間:式(5)表示第i個(gè)任務(wù)第w層的完工時(shí)間由到達(dá)時(shí)間、等待時(shí)間、加工時(shí)間和后續(xù)加工時(shí)間和組成;式(6)表示工件i的第w+1層的到達(dá)時(shí)間大于前一層的完工時(shí)間;式(7)表示設(shè)備m加工第一批次的完工時(shí)間,由設(shè)備加工時(shí)間、生產(chǎn)準(zhǔn)備時(shí)間組成;式(8)表示為設(shè)備m加工第k批次的完工時(shí)間;式(9)表示設(shè)備m加工第k批次的加工時(shí)間,由當(dāng)前批次的加工時(shí)間決定。同一工件只有在上一道工序加工完成后,后一道工序才能開(kāi)始加工。公式(10)為任務(wù)i第w層的期望流動(dòng)時(shí)間,為當(dāng)前生產(chǎn)調(diào)度時(shí)間減去任務(wù)i初始到達(dá)時(shí)間,加未加工層的加工時(shí)間和后續(xù)加工時(shí)間。
針對(duì)晶圓批處理設(shè)備調(diào)度問(wèn)題、最小化晶圓生產(chǎn)周期的調(diào)度目標(biāo)和調(diào)度對(duì)實(shí)時(shí)性的要求,本文提出IRL-RL的晶圓批處理設(shè)備調(diào)度方法。該方法針對(duì)晶圓組批和批次指派調(diào)度環(huán)節(jié),設(shè)計(jì)組批和批次指派強(qiáng)化學(xué)習(xí)智能體與環(huán)境進(jìn)行交互。在狀態(tài)空間設(shè)計(jì)方面,設(shè)計(jì)期望流動(dòng)時(shí)間與等待時(shí)間等關(guān)鍵狀態(tài)變量。在獎(jiǎng)勵(lì)網(wǎng)絡(luò)設(shè)計(jì)與逆向強(qiáng)化學(xué)習(xí)指導(dǎo)更新方面,在近優(yōu)策略指導(dǎo)下,設(shè)計(jì)晶圓lot剩余加工層數(shù)與剩余加工時(shí)間之間的復(fù)雜流變關(guān)系。調(diào)度環(huán)境與算法交互流程如圖2所示。
根據(jù)晶圓批處理設(shè)備調(diào)度環(huán)境與算法交互流程,本章主要從晶圓批處理設(shè)備調(diào)度狀態(tài)空間、晶圓批處理設(shè)備調(diào)度動(dòng)作空間、結(jié)合逆向強(qiáng)化學(xué)習(xí)與強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)網(wǎng)絡(luò)設(shè)計(jì),以及IRL-RL模型更新幾個(gè)方面來(lái)進(jìn)行重點(diǎn)介紹。
組批智能體根據(jù)任務(wù)和批次的屬性狀態(tài)確定任務(wù)進(jìn)入的批次號(hào),批次指派智能體根據(jù)批次和設(shè)備的屬性狀態(tài)確定空閑設(shè)備需要加工的批次號(hào)。兩個(gè)智能體執(zhí)行的任務(wù)不同,所需要觀測(cè)的信息不相同。因此組批智能體需要的狀態(tài)觀測(cè)為待組批任務(wù)的屬性狀態(tài)f1和批次的屬性狀態(tài)f2,批次指派智能體需要的狀態(tài)觀測(cè)為批次的屬性狀態(tài)f2和設(shè)備的屬性狀態(tài)f3。
組批智能體局部觀測(cè)的狀態(tài)矩陣為:
SB=[f1,f2]。
(11)
批次指派智能體局部觀測(cè)的狀態(tài)矩陣為:
SS=[f2,f3]。
(12)
組批智能體和批次指派智能體通過(guò)狀態(tài)信息的變化感知車(chē)間環(huán)境的動(dòng)態(tài)變化,根據(jù)輸入的車(chē)間狀態(tài)信息輸出調(diào)度決策。根據(jù)車(chē)間調(diào)度約束與優(yōu)化目標(biāo)相關(guān)的狀態(tài)特征設(shè)計(jì)狀態(tài)矩陣Flot。晶圓批處理調(diào)度主要包括任務(wù)、批和設(shè)備3個(gè)對(duì)象,因此用Flot=[f1,f2,f3]對(duì)環(huán)境狀態(tài)進(jìn)行描述,其中f1=[f1,1,...,f1,n]為待組批任務(wù)的狀態(tài),而f1,i=[f1,i,1,...,f1,i,4]表示任務(wù)i的特征向量;f2=[f2,1,...,f2,k]為批狀態(tài),其中f2,k=[f2,k,1,...,f2,k,3]表示批次b的特征向量,而f3=[f3,1,...,f3,m]為設(shè)備狀態(tài),其中f3,m=[f3,m,1,...,f3,m,4]表示設(shè)備k的特征向量。待組批任務(wù)、批和設(shè)備3種特征向量中的參數(shù)含義及表達(dá)式分別見(jiàn)表1。
表1 晶圓制造批處理狀態(tài)參數(shù)表
上述狀態(tài)參數(shù)中首次出現(xiàn)的任務(wù)參數(shù):wi為工件i的加工權(quán)重;批參數(shù):Nk批次b中工件的數(shù)量,tk批次k加工的工藝類(lèi)型。
針對(duì)晶圓批處理調(diào)度特有的重入加工特性,任務(wù)狀態(tài)參數(shù)中的待加工層數(shù)、期望流動(dòng)時(shí)間、剩余等待時(shí)間作為影響最小化生產(chǎn)周期的關(guān)鍵特征參數(shù)。通過(guò)對(duì)關(guān)鍵參數(shù)的觀測(cè)、分析,與批次指派智能體交互反饋,盡可能優(yōu)化最小化最大設(shè)備加工時(shí)間調(diào)度目標(biāo)。
組批智能體根據(jù)相應(yīng)的狀態(tài)屬性輸出分配給待組批任務(wù)的批次編號(hào),批次指派智能體根據(jù)對(duì)應(yīng)的狀態(tài)屬性輸出空閑設(shè)備下一加工的批次編號(hào),晶圓批處理調(diào)度動(dòng)作空間是組批智能體和批次指派智能體在對(duì)應(yīng)的狀態(tài)下可執(zhí)行的調(diào)度決策集合。
組批調(diào)度決策空間:根據(jù)晶圓制造批處理設(shè)備不兼容工藝類(lèi)型的特點(diǎn),每種工藝類(lèi)型設(shè)定數(shù)量為q的組批緩沖區(qū),組批調(diào)度決策將當(dāng)前待組批任務(wù)加入某個(gè)組批緩沖區(qū)或暫緩組批,組批調(diào)度決策空間定義為:
調(diào)度決策1:選擇第k個(gè)組批緩沖區(qū)
a=k,0≤k (13) 調(diào)度決策2:等待 a=q。 (14) 進(jìn)行組批調(diào)度決策時(shí)選擇一個(gè)組批緩沖區(qū)則將當(dāng)前待組批任務(wù)加入該組批緩沖區(qū),選擇等待則該任務(wù)暫緩組批。若組批智能體將任務(wù)加入的批超出批最大容量則組批失敗,結(jié)果等同于調(diào)度決策2。 批次指派決策空間:批次指派調(diào)度決策在組批緩沖區(qū)中選擇所有工藝類(lèi)型的組批緩沖區(qū),并匹配到空閑設(shè)備進(jìn)行加工,是組批決策調(diào)度空間的工藝類(lèi)型的倍數(shù)。選擇一個(gè)組批緩沖區(qū)則將該批進(jìn)行設(shè)備匹配并進(jìn)行加工,并將該組批緩沖區(qū)清空,選擇等待則表示不選擇任何批進(jìn)行加工。 逆向強(qiáng)化學(xué)習(xí)通過(guò)對(duì)近優(yōu)經(jīng)驗(yàn)的分析來(lái)指導(dǎo)組批和批次指派調(diào)度強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)網(wǎng)絡(luò)的設(shè)計(jì),根據(jù)文獻(xiàn)[21]的調(diào)度結(jié)果,即批次指派的動(dòng)作集合A={a0,a1,...,an},轉(zhuǎn)化為馬爾可夫決策過(guò)程τ=(S0,a0,S1,a1,...,Sn,an),如圖3所示。 基于IRL指導(dǎo)回報(bào)函數(shù)網(wǎng)絡(luò)的構(gòu)建,根據(jù)2.1節(jié)將需要觀測(cè)的狀態(tài)映射為狀態(tài)特征向量、2.2節(jié)批次指派動(dòng)作空間,并根據(jù)指導(dǎo)獎(jiǎng)勵(lì)網(wǎng)絡(luò)設(shè)計(jì)的近優(yōu)解進(jìn)行求解,相關(guān)理論如下: R(s)=ω·φ(s); (15) (16) (17) (18) 獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)影響RL的求解質(zhì)量,人為設(shè)定具有一定的局限性,問(wèn)題的復(fù)雜程度甚至?xí)绊懟貓?bào)函數(shù)設(shè)定的依據(jù)。為此,以蟻群算法獲得的專(zhuān)家經(jīng)驗(yàn)為訓(xùn)練數(shù)據(jù),基于IRL還原回報(bào)函數(shù),同時(shí)結(jié)合RL方法,設(shè)計(jì)IRL-RL的晶圓批處理設(shè)備調(diào)度算法,挖掘并應(yīng)用近優(yōu)調(diào)度策略方案中隱含決策經(jīng)驗(yàn),實(shí)現(xiàn)晶圓批處理設(shè)備的智能決策。 基于線(xiàn)性近似設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)的方法[17]能在一定程度上減少人為設(shè)定參數(shù)的局限性,但該方法無(wú)法完全摒棄掉狀態(tài)向量線(xiàn)性擬合的不足,因此本研究在線(xiàn)性擬合的基礎(chǔ)上,采用輸入為狀態(tài)向量、輸出為獎(jiǎng)勵(lì)值、具有一層隱藏層的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)代替獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),通過(guò)近優(yōu)策略與學(xué)習(xí)策略之間獎(jiǎng)勵(lì)的差距反饋指導(dǎo)獎(jiǎng)勵(lì)網(wǎng)絡(luò)參數(shù)更新。 通過(guò)設(shè)計(jì)獎(jiǎng)勵(lì)網(wǎng)絡(luò)從近優(yōu)策略方案中學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù),結(jié)合強(qiáng)化學(xué)習(xí)對(duì)組批和批次指派智能體更新實(shí)現(xiàn)問(wèn)題求解:先基于近優(yōu)示例更新回報(bào)網(wǎng)絡(luò),用于RL進(jìn)行策略迭代;對(duì)比當(dāng)前策略與近優(yōu)策略,基于損失函數(shù)與梯度下降求網(wǎng)絡(luò)參數(shù)。循環(huán)以上兩步,改進(jìn)回報(bào)函數(shù)至能反映專(zhuān)家意圖為止。晶圓批處理設(shè)備調(diào)度優(yōu)化算法流程如圖4所示。 基于RL-IRL晶圓批處理設(shè)備調(diào)度方法是在強(qiáng)化學(xué)習(xí)更新組批和批次指派智能體的基礎(chǔ)上,為了盡可能減少人為設(shè)定獎(jiǎng)勵(lì)函數(shù)的局限性,使模型收斂的速度和質(zhì)量進(jìn)一步提升,設(shè)計(jì)獎(jiǎng)勵(lì)網(wǎng)絡(luò),通過(guò)逆向優(yōu)化控制(Inverse Optimization Control,IOC)[22]指導(dǎo)獎(jiǎng)勵(lì)網(wǎng)絡(luò)的更新,具體表達(dá)如下: (19) (20) cθ(St,at)=θT·f(St,at); (21) (22) 式(20)表示損失基于逆向優(yōu)化控制指導(dǎo)獎(jiǎng)勵(lì)網(wǎng)絡(luò)更新的損失函數(shù)由策略獎(jiǎng)勵(lì)式(20)平均與配分函數(shù)式(22)的加和構(gòu)成,策略獎(jiǎng)勵(lì)式(20)由每一步的狀態(tài)動(dòng)作向量通過(guò)獎(jiǎng)勵(lì)函數(shù)網(wǎng)絡(luò)得出當(dāng)前狀態(tài)下執(zhí)行相應(yīng)動(dòng)作的獎(jiǎng)勵(lì)值,具體表示為式(21)。通過(guò)損失函數(shù)式(19)指導(dǎo)獎(jiǎng)勵(lì)網(wǎng)絡(luò)cθ進(jìn)行參數(shù)更新。具體更新算法如下。 算法1基于IRL-RL的組批和批次指派智能體的更新和獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)。 初始化晶圓批處理調(diào)度環(huán)境; 由算法[21]生成近優(yōu)解Dsamp; For iteration i=1 to I do 由組批智能體qbk(τ)、批次指派智能體qsk(τ)生成策略樣本Dtraj 將近優(yōu)解Dsamp與生成策略樣本Dtraj合并Dsamp∪Dtraj→Dsamp End for 為了驗(yàn)證本研究所提出的結(jié)合逆向強(qiáng)化學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的晶圓批處理設(shè)備調(diào)度算法的有效性,分別通過(guò)晶圓批處理設(shè)備調(diào)度問(wèn)題的標(biāo)準(zhǔn)算例進(jìn)行算法的對(duì)比驗(yàn)證和上海某晶圓制造廠(chǎng)的實(shí)際算例數(shù)據(jù)進(jìn)行驗(yàn)證。實(shí)驗(yàn)使用Python3.6 進(jìn)行編程,使用 Pytorch 機(jī)器學(xué)習(xí)框架搭建IRL-RL網(wǎng)絡(luò)模型,計(jì)算環(huán)境為 core i7,16g RAM,windows10 操作系統(tǒng)。實(shí)驗(yàn)包括基準(zhǔn)算例測(cè)試、企業(yè)實(shí)例驗(yàn)證兩部分。 根據(jù)Melouk等[23]所作實(shí)驗(yàn)測(cè)試,通過(guò)隨機(jī)生成算例對(duì)本文提出算法進(jìn)行性能測(cè)試并與其他算法進(jìn)行參照對(duì)比。隨機(jī)算例的生成依據(jù)的因素有:工件數(shù)、工件到達(dá)時(shí)間系數(shù)μ,σ2以及機(jī)器速度的比率θ。工件到達(dá)時(shí)間服從正態(tài)分布N(μ,σ2),公式如下: (23) 各因素具體值如表2所示。使用MmJiμjσk2θn來(lái)表示各類(lèi)算例,其中各參數(shù)m=1,2,3;i=1,2,3;j=1,2;k=1,2;n=1,2,如M2J2μ1σ12θ1表示4臺(tái)設(shè)備、50個(gè)工件,工件到達(dá)時(shí)間系數(shù)μ=10,σ2=3以及機(jī)器加工速度按照比率θ=1.3遞增的參數(shù)組合。 表2 算例生成的分類(lèi)因素及取值 經(jīng)同類(lèi)型的并行批處理機(jī)調(diào)度問(wèn)題[23]所生成的不同規(guī)模的標(biāo)準(zhǔn)算例,并與強(qiáng)化學(xué)習(xí)算法(RL)、文獻(xiàn)[21]提出的算法[21](Hybrid Ant Colony Algorithm,HACA)進(jìn)行對(duì)比,獲得的性能對(duì)比見(jiàn)表3。 為了進(jìn)一步驗(yàn)證所提算法的有效性,針對(duì)某半導(dǎo)體企業(yè)的晶圓制造車(chē)間為原型,基于仿真軟件Plant Simulation 9.0建立Fab仿真模型,如圖5所示。晶圓逐層加工制程時(shí)間表如表4所示。 表4 晶圓逐層加工制程時(shí)間表 晶圓lot的每一層加工制程順序,自上而下,晶圓批處理調(diào)度主要發(fā)生在擴(kuò)散制程,當(dāng)當(dāng)前層完成最后一道加工制程,晶圓重入進(jìn)行下一層的加工。 每條晶圓任務(wù)數(shù)據(jù)包括晶圓類(lèi)型、不同層的類(lèi)型、每層的到達(dá)時(shí)間、每層的加工時(shí)間、每層的后續(xù)加工時(shí)間、任務(wù)的剩余加工時(shí)間等參數(shù)。相同設(shè)備的準(zhǔn)備時(shí)間與前后工藝的類(lèi)型相關(guān),工藝類(lèi)型相同無(wú)工藝準(zhǔn)備時(shí)間,工藝不同時(shí)則存在工藝準(zhǔn)備時(shí)間。晶圓批處理設(shè)備依次加工不同類(lèi)型的批次所需要的生產(chǎn)準(zhǔn)備時(shí)間Sj1,j2取值如表5所示。 表5 相同設(shè)備類(lèi)型切換準(zhǔn)備時(shí)間表 h 根據(jù)表6,設(shè)置批處理設(shè)備規(guī)模為小規(guī)模m1=9和大規(guī)模m2=14兩種,設(shè)置模型運(yùn)行時(shí)間為一年,最初兩個(gè)月為系統(tǒng)從初始化到穩(wěn)定生產(chǎn)的過(guò)渡期,不采集數(shù)據(jù)。兩個(gè)月后開(kāi)始第一次數(shù)據(jù)采集,第一次采集數(shù)據(jù)的周期為2個(gè)月,后續(xù)每個(gè)月更新一次數(shù)據(jù)。 表6 某公司晶圓批處理的主要工藝類(lèi)型及設(shè)備分布統(tǒng)計(jì)表 RL-IRL模型事先在相同規(guī)模算例的訓(xùn)練集上進(jìn)行訓(xùn)練并對(duì)模型進(jìn)行保存。表7展示的是訓(xùn)練后的算法與RL算法、HACA算法和A1規(guī)則[24]在穩(wěn)定生產(chǎn)的時(shí)期,每月采集一次調(diào)度結(jié)果對(duì)比情況。結(jié)果表明,A1規(guī)則是解決晶圓制造批處理批次調(diào)度問(wèn)題的較優(yōu)規(guī)則,但由于其限定性強(qiáng)和無(wú)法隨環(huán)境進(jìn)化的特點(diǎn),導(dǎo)致只能在極少數(shù)情況下獲得較優(yōu)解,HACA算法是解決晶圓制造批處理機(jī)批次指派調(diào)度問(wèn)題的較優(yōu)靜態(tài)算法,雖然能在限定的較短時(shí)間范圍內(nèi)作為IRL-RL算法的指導(dǎo),但其本身搜索時(shí)間較長(zhǎng),尤其是在大規(guī)模問(wèn)題,求解性能不佳;在大部分情況下,IRL-RL算法在結(jié)合RL算法的實(shí)時(shí)性和限定較短時(shí)間范圍內(nèi)的HACA算法解的指導(dǎo)的基礎(chǔ)上,通過(guò)訓(xùn)練不斷更新智能體的尋優(yōu)能力,獲得了性能好于RL算法的解,綜合考慮了算法的實(shí)時(shí)性和有效性。 表7 算法性能對(duì)比 本文以晶圓制造批處理機(jī)生產(chǎn)調(diào)度為背景,以最小化生產(chǎn)周期為調(diào)度目標(biāo),針對(duì)組批和批次指派子問(wèn)題提出了基于IRL-RL的晶圓批處理設(shè)備調(diào)度方法,通過(guò)引入文獻(xiàn)[21]調(diào)度經(jīng)驗(yàn)指導(dǎo)RL進(jìn)行獎(jiǎng)勵(lì)網(wǎng)絡(luò)的學(xué)習(xí),改善了人為設(shè)定獎(jiǎng)勵(lì)函數(shù)的局限性,有效優(yōu)化了任務(wù)動(dòng)態(tài)到達(dá)的晶圓批處理調(diào)度問(wèn)題。在晶圓實(shí)際生產(chǎn)過(guò)程中晶圓制造系統(tǒng)還包括除批處理之外的其他設(shè)備組,存在晶圓前后道加工工序存在復(fù)雜約束等,且實(shí)際生產(chǎn)狀況更加復(fù)雜,考慮的環(huán)節(jié)和因素需更加全面。晶圓不同工序之間存在相互影響的關(guān)系,晶圓批處理環(huán)節(jié)作為晶圓制造系統(tǒng)的瓶頸環(huán)節(jié),其對(duì)整個(gè)車(chē)間性能的影響還需與其他工序關(guān)聯(lián)起來(lái)綜合考慮晶圓全局生產(chǎn)調(diào)度。2.3 結(jié)合逆向強(qiáng)化學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)網(wǎng)絡(luò)設(shè)計(jì)
2.4 IRL-RL模型更新
3 數(shù)據(jù)實(shí)驗(yàn)
3.1 基準(zhǔn)算例測(cè)試
3.2 企業(yè)實(shí)例驗(yàn)證
4 結(jié)束語(yǔ)
計(jì)算機(jī)集成制造系統(tǒng)2023年11期