郭具濤 呂佑龍 戴 錚 張 潔 郭 宇
1.上海航天精密機(jī)械研究所,上海,2016002.南京航空航天大學(xué)機(jī)電學(xué)院,南京,2100163.東華大學(xué)人工智能研究院,上海,201620
隨著航空航天、汽車等領(lǐng)域的客戶化定制需求不斷增加[1-2],越來越多的制造企業(yè)利用總裝階段的多品種混線生產(chǎn)保障產(chǎn)品的準(zhǔn)時(shí)交付,并且逐步采用單元式生產(chǎn)模式,利用裝配單元的資源配置柔性與物流供應(yīng)柔性,實(shí)現(xiàn)給定生產(chǎn)節(jié)拍下的均衡生產(chǎn)。這種方式面臨裝配單元之間的負(fù)載均衡,以及不同產(chǎn)品之間的投產(chǎn)規(guī)劃等調(diào)度難題,需要考慮工人裝配能力差異和產(chǎn)品裝配時(shí)間差異等約束,解決混流裝配線的平衡與排序問題,合理安排各裝配單元的工人和產(chǎn)品投產(chǎn)序列,提升裝配線的生產(chǎn)效率。
針對(duì)混流裝配線平衡與排序問題,目前的研究方法以啟發(fā)式規(guī)則和智能算法為主[3-4]。RAUF等[5]融合優(yōu)先級(jí)規(guī)則與多準(zhǔn)則NEH算法,通過對(duì)優(yōu)先級(jí)規(guī)則進(jìn)行組合優(yōu)化,實(shí)現(xiàn)了面向多目標(biāo)集成優(yōu)化的算法求解。AKYOL等[6]通過設(shè)計(jì)工人優(yōu)先級(jí)規(guī)則和任務(wù)優(yōu)先級(jí)規(guī)則,提出一種基于多規(guī)則的隨機(jī)搜索算法。DEFERSHA等[7]設(shè)計(jì)了一種嵌入多階段線性規(guī)劃的遺傳算法,求解了平衡與排序問題。ZHANG等[8]提出一種多目標(biāo)遺傳算法來集成優(yōu)化平衡問題與排序問題。智能算法利用全局搜索能力可獲得較優(yōu)解,但需要大量計(jì)算時(shí)間,難以滿足大規(guī)模生產(chǎn)的需求。啟發(fā)式規(guī)則能以較短時(shí)間獲得合理的調(diào)度方案,但對(duì)調(diào)度問題的適應(yīng)性較差。復(fù)合規(guī)則對(duì)不同啟發(fā)式規(guī)則進(jìn)行線性加權(quán),能通過參數(shù)變化適應(yīng)不同問題,但參數(shù)設(shè)置依賴人工經(jīng)驗(yàn)和試驗(yàn)結(jié)果,難以穩(wěn)定獲得較優(yōu)的調(diào)度方案。
隨著人工智能技術(shù)的發(fā)展,強(qiáng)化學(xué)習(xí)等機(jī)器學(xué)習(xí)方法將調(diào)度問題映射為狀態(tài)-動(dòng)作轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)來最大化獎(jiǎng)勵(lì)函數(shù)的動(dòng)作規(guī)劃過程,獲取較優(yōu)調(diào)度方案。賀俊杰等[9]提出一種基于長短期記憶網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)算法的調(diào)度方法來求解最小化加權(quán)完工時(shí)間的等效并行機(jī)在線調(diào)度問題。WANG等[10]根據(jù)3種啟發(fā)式規(guī)則(底層工序優(yōu)先、最長加工時(shí)間優(yōu)先和最短加工時(shí)間優(yōu)先),提出一種雙層Q-learning算法來求解最小化交付懲罰的裝配車間調(diào)度問題。TORTORELLI等[11]提出一種基于并行深度強(qiáng)化學(xué)習(xí)的混流裝配線平衡方法,以最小化生產(chǎn)周期。調(diào)度問題變化時(shí),強(qiáng)化學(xué)習(xí)算法需要根據(jù)新的狀態(tài)空間與動(dòng)作空間重新訓(xùn)練,產(chǎn)生新的大量計(jì)算工作。
本文提出基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的混流裝配線平衡與排序方法,結(jié)合復(fù)合規(guī)則對(duì)不同問題的適應(yīng)能力與強(qiáng)化學(xué)習(xí)對(duì)具體問題的學(xué)習(xí)能力,實(shí)現(xiàn)混流裝配線的生產(chǎn)調(diào)度。首先構(gòu)建混流裝配線平衡與排序問題的數(shù)學(xué)模型,然后分別設(shè)計(jì)面向混流裝配過程的平衡規(guī)則庫與排序規(guī)則庫,最后設(shè)計(jì)近端策略優(yōu)化(proximal policy optimization, PPO)算法調(diào)控復(fù)合規(guī)則中的參數(shù)權(quán)重,獲取調(diào)度方案。
航天產(chǎn)品的混流裝配線具有產(chǎn)品多品種、小批量,批產(chǎn)研制型號(hào)混線生產(chǎn)等特點(diǎn),并且為滿足班組操作需求,裝配過程具有單元式組織的特點(diǎn)。因此,需要在裝配線設(shè)計(jì)階段實(shí)現(xiàn)各個(gè)裝配單元之間的負(fù)載均衡,保障裝配物流的連續(xù)性。隨著批產(chǎn)訂單和研制任務(wù)的增加,產(chǎn)能需求出現(xiàn)波動(dòng),設(shè)計(jì)階段形成的裝配單元之間的負(fù)載均衡被打破,需要利用裝配單元的人員動(dòng)態(tài)配置與不同產(chǎn)品的投產(chǎn)順序規(guī)劃,實(shí)現(xiàn)混流裝配過程的再次平衡,即考慮裝配單元容量和工人裝配能力等約束條件,合理安排裝配單元的工人,并考慮航天產(chǎn)品的最小生產(chǎn)集合(minimum part set,MPS)循環(huán),規(guī)劃產(chǎn)品的投產(chǎn)順序,形成混流裝配線的平衡與排序解決方案,避免裝配單元出現(xiàn)過載和空閑等情況,實(shí)現(xiàn)最小化過載時(shí)間和最小化空閑時(shí)間的優(yōu)化目標(biāo)。根據(jù)以上生產(chǎn)特點(diǎn),本文對(duì)航天產(chǎn)品混流裝配線平衡與排序問題提出以下假設(shè):
(1)工件以固定節(jié)拍進(jìn)行投產(chǎn);
(2)根據(jù)設(shè)計(jì)階段的裝配任務(wù)量,各裝配單元具有相同的傳送距離;
(3)工人為多能工,能完成多種產(chǎn)品的各項(xiàng)裝配任務(wù);
(4)裝配單元是封閉的,工人不能在裝配單元之間移動(dòng);
(5)裝配單元內(nèi)的工人共同完成裝配任務(wù);
(6)各裝配單元可分配人數(shù)固定,工人裝配能力存在差異,工人的裝配能力影響產(chǎn)品在該單元的裝配時(shí)間;
(7)過載工作由裝配單元內(nèi)的工人完成;
(8)過載工作對(duì)當(dāng)前裝配單元及下一個(gè)裝配單元產(chǎn)生影響。
混流裝配線平衡與排序問題的數(shù)學(xué)模型如下所示,其中的數(shù)學(xué)符號(hào)如表1所示。
表1 混流裝配線平衡與排序問題的數(shù)學(xué)符號(hào)
(1)
s.t.
(2)
(3)
(4)
(5)
p′ik=pikQk?k
(6)
snk=en(k-1)-c
(7)
enk=snk+p′ik
(8)
uik=max[0,min(snk+p′ik-lk,lk-c)]
(9)
oik=min(0,T-enk)
(10)
式(1)給出了在航天產(chǎn)品混流裝配線平衡與排序問題的目標(biāo)函數(shù)——最小化的過載時(shí)間和空閑時(shí)間。裝配單元的工人班組在設(shè)計(jì)的節(jié)距長度內(nèi)不能完成裝配任務(wù)時(shí),需要臨時(shí)延長裝配時(shí)間以完成過載工作量,這可能會(huì)造成其他裝配單元的工作延誤,并增加潛在的裝配質(zhì)量風(fēng)險(xiǎn)。裝配單元的工人班組提前完成裝配任務(wù)時(shí),由于裝配單元的封閉性限制,工人只能等待,這造成了裝配能力的浪費(fèi),因此需要同時(shí)避免裝配單元的過載和空閑。式(2)表示由于航天產(chǎn)品的復(fù)雜性與尺寸限制,投產(chǎn)序列中的任意位置有且僅有一個(gè)待裝配產(chǎn)品,即在每個(gè)生產(chǎn)節(jié)拍中,每個(gè)裝配單元里僅有一個(gè)航天產(chǎn)品被執(zhí)行裝配操作。式(3)表示MPS中的所有產(chǎn)品都被安排到裝配線上進(jìn)行裝配,即各個(gè)裝配單元需要順次完成一個(gè)MPS的產(chǎn)品裝配任務(wù)。式(4)表示裝配線中的所有工人都被安排到裝配單元中,以實(shí)現(xiàn)工人裝配能力的充分利用。式(5)表示根據(jù)工人分配結(jié)果,計(jì)算各個(gè)裝配單元上的裝配時(shí)間系數(shù)。式(6)表示根據(jù)裝配時(shí)間系數(shù),計(jì)算各類型產(chǎn)品在裝配單元上的實(shí)際裝配時(shí)間。式(7)、式(8)分別表示投產(chǎn)序列中第n個(gè)產(chǎn)品在裝配單元k上的裝配起始時(shí)間和裝配結(jié)束時(shí)間。式(9)、式(10)分別表示投產(chǎn)序列中第n個(gè)產(chǎn)品在裝配單元k上產(chǎn)生的過載時(shí)間和空閑時(shí)間。
針對(duì)以上約束條件與優(yōu)化目標(biāo),航天產(chǎn)品混流裝配線平衡與排序方法首先構(gòu)建面向復(fù)合規(guī)則的平衡規(guī)則庫與排序規(guī)則庫,然后設(shè)計(jì)PPO算法對(duì)復(fù)合規(guī)則中的權(quán)值參數(shù)進(jìn)行動(dòng)態(tài)調(diào)整,根據(jù)復(fù)合規(guī)則生成平衡方案與排序方案,并計(jì)算目標(biāo)函數(shù)(式(1)),對(duì)平衡與排序結(jié)果進(jìn)行評(píng)價(jià),如圖1所示。
圖1 基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的混流裝配線調(diào)度方法
2.1.1平衡規(guī)則庫
在平衡過程中,綜合考慮整體裝配效率目標(biāo)和工人裝配能力分布[12],對(duì)裝配單元上的工人配置設(shè)計(jì)以下規(guī)則。
規(guī)則b2:選擇在裝配單元上能力水平最高的工人w*,即滿足w*=argmaxqwk。
規(guī)則b3:選擇與瓶頸裝配單元能力水平之差最大的工人w*,即滿足w*=argmax(|qwk-qwkb|)。
規(guī)則b4:將工人w*分配至裝配單元。
2.1.2排序規(guī)則庫
排序過程中,綜合考慮裝配單元的操作時(shí)間和生產(chǎn)循環(huán)的產(chǎn)品需求分布[13],對(duì)裝配線的投產(chǎn)排序設(shè)計(jì)以下規(guī)則。
規(guī)則s4:將產(chǎn)品類型i*投產(chǎn)到裝配線。
如圖2所示,在平衡規(guī)則庫與排序規(guī)則庫基礎(chǔ)上,PPO算法中的平衡智能體與排序智能體分別觀察混流裝配線的環(huán)境狀態(tài)Sb和Ss,輸出復(fù)合規(guī)則中的規(guī)則權(quán)重參數(shù),并根據(jù)復(fù)合規(guī)則生成包括平衡調(diào)度與排序調(diào)度的馬爾可夫決策過程,計(jì)算平衡與排序階段的獎(jiǎng)勵(lì)回報(bào)函數(shù)rb和rs。以歷史經(jīng)驗(yàn)為樣本數(shù)據(jù),PPO算法設(shè)計(jì)如下的損失函數(shù):
圖2 基于PPO算法的平衡與排序調(diào)度過程
(11)
c(Rt(θ),1-ωclip,1+ωclip)=
分別訓(xùn)練平衡智能體與排序智能體。改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)、設(shè)計(jì)優(yōu)先經(jīng)驗(yàn)回放機(jī)制,以提高PPO算法的數(shù)據(jù)利用率。
2.2.1平衡智能體與排序智能體
強(qiáng)化學(xué)習(xí)算法中的智能體以最大化累計(jì)獎(jiǎng)勵(lì)為目標(biāo),通過感知環(huán)境的狀態(tài)S、對(duì)環(huán)境做出的動(dòng)作A,根據(jù)環(huán)境的獎(jiǎng)勵(lì)反饋R進(jìn)行學(xué)習(xí)[14-15]。為實(shí)現(xiàn)以上過程,平衡智能體與排序智能體采用Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu),其中,平衡智能體構(gòu)建Actorb網(wǎng)絡(luò)和Criticb網(wǎng)絡(luò),排序智能體構(gòu)建Actors網(wǎng)絡(luò)和Critics網(wǎng)絡(luò),利用Actor網(wǎng)絡(luò)與Critic網(wǎng)絡(luò)的交互,實(shí)現(xiàn)合理的裝配單元工人配置與多種產(chǎn)品投產(chǎn)規(guī)劃。
考慮平衡智能體與排序智能體的動(dòng)作在裝配時(shí)間、生產(chǎn)節(jié)拍等方面的關(guān)聯(lián)性,在智能體之間設(shè)計(jì)GRU單元與注意力機(jī)制,即在GRU單元中綜合考慮Actor網(wǎng)絡(luò)的輸入?yún)?shù)與隱藏狀態(tài),通過不斷更新隱藏狀態(tài),學(xué)習(xí)平衡過程與排序過程的前后動(dòng)作關(guān)聯(lián)信息。同時(shí),運(yùn)用注意力機(jī)制加強(qiáng)對(duì)平衡過程與排序過程中關(guān)鍵狀態(tài)特征的學(xué)習(xí),提高網(wǎng)絡(luò)學(xué)習(xí)的能力。
2.2.2平衡與排序的馬爾可夫決策過程
根據(jù)混流裝配線平衡與排序問題面臨的約束條件與優(yōu)化目標(biāo),建立平衡與排序的馬爾可夫決策過程(Markovian decision process, MDP)模型,以MDP模型中的狀態(tài)S、動(dòng)作A和獎(jiǎng)勵(lì)R描述平衡與排序問題的調(diào)度要素。
(1)狀態(tài)空間。平衡過程中,裝配人員的能力水平和裝配單元的人員配置是關(guān)鍵狀態(tài)特征。因此,設(shè)計(jì)平衡智能體的觀測狀態(tài)空間
(12)
排序過程中,裝配單元的產(chǎn)品操作時(shí)間和裝配任務(wù)的開始操作時(shí)間是關(guān)鍵狀態(tài)特征。因此,設(shè)計(jì)排序智能體的觀測狀態(tài)空間
Ss=(p′ik,d′i,snk,lk,T)
(13)
(2)動(dòng)作空間。根據(jù)所設(shè)計(jì)的平衡規(guī)則庫,得到混流裝配線平衡階段復(fù)合規(guī)則的評(píng)價(jià)值:
Hbi=ωb1hb1+ωb2hb2+ωb3hb3+ωb4hb4
(14)
式中,ωb1~ωb4為平衡智能體根據(jù)當(dāng)前狀態(tài)輸出的規(guī)則權(quán)重;hb1~hb4為平衡規(guī)則b1到b4的評(píng)價(jià)值。
根據(jù)設(shè)計(jì)的排序規(guī)則庫,得到混流裝配線排序階段復(fù)合規(guī)則的評(píng)價(jià)值:
Hsi=ωs1hs1+ωs2hs2+ωs3hs3+ωs4hs4
(15)
式中,ωs1~ωs4為排序智能體根據(jù)當(dāng)前狀態(tài)輸出的規(guī)則權(quán)重;hs1~hs4為排序規(guī)則b1到b4的評(píng)價(jià)值。
(3)獎(jiǎng)勵(lì)函數(shù)。根據(jù)Actor-Critic算法框架,需要根據(jù)平衡與排序方案的評(píng)價(jià)函數(shù)f,對(duì)平衡智能體與排序智能體進(jìn)行訓(xùn)練??紤]到平衡與排序問題的復(fù)雜性與規(guī)模性,以上訓(xùn)練過程會(huì)使訓(xùn)練過程迭代變慢,降低算法收斂速度,因此需要重新設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。平衡過程中,將混流裝配線的過載時(shí)間和空閑時(shí)間平均分配到每個(gè)動(dòng)作回合,得到平衡階段的獎(jiǎng)勵(lì)回報(bào)函數(shù):
(16)
式中,tb為平衡過程的總步數(shù);C為生產(chǎn)節(jié)拍常數(shù)。
排序過程中,根據(jù)每個(gè)排序動(dòng)作產(chǎn)生的裝配單元過載時(shí)間和空閑時(shí)間,定義排序階段的獎(jiǎng)勵(lì)回報(bào)函數(shù):
(17)
2.2.3優(yōu)先經(jīng)驗(yàn)回放機(jī)制
傳統(tǒng)PPO算法在學(xué)習(xí)過程中進(jìn)行歷史樣本的隨機(jī)采樣,在面臨優(yōu)化問題時(shí)的學(xué)習(xí)能力有限[16],因此提出一種優(yōu)先經(jīng)驗(yàn)回放機(jī)制,根據(jù)平衡與排序問題的目標(biāo)函數(shù)值fi設(shè)置經(jīng)驗(yàn)樣本i被學(xué)習(xí)的概率即調(diào)度經(jīng)驗(yàn)樣本τ的采樣概率
(18)
式中,i為經(jīng)驗(yàn)庫中調(diào)度經(jīng)驗(yàn)樣本τ的編號(hào);T為經(jīng)驗(yàn)庫中所包含的調(diào)度經(jīng)驗(yàn)樣本總數(shù)。
通過權(quán)重保留較優(yōu)經(jīng)驗(yàn)進(jìn)行采樣,提高PPO算法的學(xué)習(xí)效率。
2.2.4算法訓(xùn)練流程
馬爾可夫決策過程中,平衡智能體、排序智能體分別觀察混流裝配線平衡與排序過程中的狀態(tài)空間Sb和Ss,Actorb網(wǎng)絡(luò)和Actors網(wǎng)絡(luò)輸出復(fù)合規(guī)則的權(quán)重向量,通過集成平衡規(guī)則庫與排序規(guī)則庫,生成平衡調(diào)度方案與排序調(diào)度方案,得到式(16)、式(17)所示的獎(jiǎng)勵(lì)函數(shù)。將平衡智能體、排序智能體與混流裝配線環(huán)境互動(dòng)過程中的調(diào)度經(jīng)驗(yàn)儲(chǔ)存在經(jīng)驗(yàn)庫中,當(dāng)經(jīng)驗(yàn)庫達(dá)到最大容量時(shí),基于優(yōu)先經(jīng)驗(yàn)回放機(jī)制對(duì)歷史經(jīng)驗(yàn)進(jìn)行采樣,更新Actor與Critic中的網(wǎng)絡(luò)參數(shù)分布,并通過經(jīng)驗(yàn)回放的不斷迭代,調(diào)控優(yōu)化智能體的動(dòng)作策略。以上過程中的算法步驟如下:
(1)初始化平衡智能體與排序智能體的Actor-Critic網(wǎng)絡(luò)參數(shù)θb、θs、ψb、ψs,設(shè)置智能體中的迭代最大回合數(shù)emax、經(jīng)驗(yàn)庫容量z、經(jīng)驗(yàn)庫最大容量zmax;
(2)初始化航天產(chǎn)品平衡與排序問題調(diào)度環(huán)境,設(shè)置平衡智能體的工人配置步數(shù)tb=0與排序智能體的產(chǎn)品投產(chǎn)步數(shù)ts=0;
(3)根據(jù)平衡規(guī)則庫,平衡智能體觀察環(huán)境狀態(tài)Sbt,根據(jù)策略πθb(abt|Sbt)輸出復(fù)合規(guī)則權(quán)重向量,分配工人w*至裝配單元,更新環(huán)境狀態(tài)Sbt;
(5)根據(jù)排序規(guī)則庫,排序智能體觀察環(huán)境狀態(tài)Sst,根據(jù)策略πθs(ast|Sst)輸出排序規(guī)則權(quán)重向量,選擇產(chǎn)品類型i*進(jìn)行投產(chǎn),更新環(huán)境狀態(tài)Sst,反饋獎(jiǎng)勵(lì)函數(shù)值rst;
(8)更新平衡動(dòng)作策略網(wǎng)絡(luò)πθb(abt|Sbt),排序動(dòng)作策略網(wǎng)絡(luò)πθs(ast|Sst);更新平衡評(píng)價(jià)網(wǎng)絡(luò)vψb(abt,Sbt),排序評(píng)價(jià)網(wǎng)絡(luò)vψs(ast,Sst);更新網(wǎng)絡(luò)參數(shù)θb、θs、ψb、ψs;
(9)若迭代循環(huán)次數(shù)達(dá)到最大回合數(shù)emax,訓(xùn)練結(jié)束,否則重復(fù)步驟(2)~步驟(8)。
考慮PPO算法參數(shù)對(duì)復(fù)合規(guī)則學(xué)習(xí)過程的影響,結(jié)合多品種小批量生產(chǎn)與裝配單元工人配置柔性等特點(diǎn),首先利用隨機(jī)算例進(jìn)行混流裝配線平衡與排序方法中的算法參數(shù)實(shí)驗(yàn),然后根據(jù)文獻(xiàn)[17-18]設(shè)計(jì)的標(biāo)準(zhǔn)化算例進(jìn)行不同平衡與排序方法的對(duì)比實(shí)驗(yàn)。以上實(shí)驗(yàn)采用Intel i7-10875H CPU,內(nèi)存16G,Windows11的計(jì)算機(jī)環(huán)境,對(duì)比方法包括PPO+單一規(guī)則、復(fù)合規(guī)則和遺傳算法等調(diào)度方法。對(duì)比算法的具體說明如下:
(1)PPO+單一規(guī)則。使用PPO算法訓(xùn)練強(qiáng)化學(xué)習(xí)智能體,根據(jù)調(diào)度狀態(tài)選取某條規(guī)則作為調(diào)度動(dòng)作來選擇備選工人或產(chǎn)品。
(2)復(fù)合規(guī)則。使用正交試驗(yàn)方法設(shè)計(jì)復(fù)合規(guī)則的權(quán)重,根據(jù)復(fù)合規(guī)則選擇備選的工人或產(chǎn)品。
(3)遺傳算法。采用十進(jìn)制編碼分別構(gòu)建平衡過程與排序過程的染色體,平衡過程中的染色體進(jìn)行循環(huán)交叉,排序過程中的染色體進(jìn)行優(yōu)先交叉。交叉變異過程采用兩點(diǎn)交換法,通過三元錦標(biāo)賽法和精英保留策略進(jìn)行染色體篩選,最后根據(jù)染色體編碼情況生成調(diào)度方案。
在算法參數(shù)實(shí)驗(yàn)中,以面向9種產(chǎn)品類型、包含10個(gè)裝配單元的混流裝配線為研究對(duì)象,在單元長度100 s、投產(chǎn)節(jié)拍為120 s的情況下,根據(jù)單元工人容量U[2,3]、產(chǎn)品數(shù)量U[4,7]、工人裝配能力U[0.8,1.2]、產(chǎn)品裝配時(shí)間U[80 s, 130 s]的分布情況,隨機(jī)生成3個(gè)算例。通過正交試驗(yàn)分析以上算例中的PPO算法參數(shù)水平,得到PPO算法參數(shù):Actorb的學(xué)習(xí)率RA,b=5×10-5,Criticb的學(xué)習(xí)率RC,b=5×10-5;Actorb網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)為(256,128,128);Criticb網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)為(256,128,128);Actors的學(xué)習(xí)率RA,s=5×10-5;Criticb的學(xué)習(xí)率RA,s=5×10-5;Actors網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)為(256,128,128);Critics網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)為(256, 128, 128)。
PPO+單一規(guī)則方法與表7所列算法參數(shù)設(shè)置相同,復(fù)合規(guī)則方法的權(quán)重設(shè)置基于三因素五水平的正交試驗(yàn),平衡規(guī)則的權(quán)重wb1=0.25,wb2=0.625,wb3=0.125,排序規(guī)則的權(quán)重ws1=0.3,ws2=0.5,ws3=0.2;遺傳算法初始種群規(guī)模100、交叉率0.8、變異率0.05、迭代次數(shù)200。在上述算法參數(shù)設(shè)置基礎(chǔ)上,根據(jù)文獻(xiàn)[17-18]中的生產(chǎn)循環(huán)、裝配單元和工人設(shè)置,生成標(biāo)準(zhǔn)化算例,采用本文方法和對(duì)比方法進(jìn)行求解,得到混流裝配線調(diào)度問題的目標(biāo)函數(shù)值f與方法運(yùn)算時(shí)間即CPU time,結(jié)果分別如表2、表3所示。
表2 不同方法的目標(biāo)函數(shù)值結(jié)果
表3 不同方法的運(yùn)算時(shí)間
如表2、表3所示,對(duì)于工人數(shù)量、裝配單元數(shù)量、產(chǎn)品種類和產(chǎn)品數(shù)量共同決定的混流裝配線平衡與排序問題的大規(guī)模解空間,PPO+復(fù)合規(guī)則方法利用平衡智能體與排序智能體,將多個(gè)啟發(fā)式規(guī)則組合成復(fù)合規(guī)則,具備較好全局優(yōu)化能力,并根據(jù)調(diào)度問題的目標(biāo)函數(shù)設(shè)計(jì)了獎(jiǎng)勵(lì)回報(bào)函數(shù),建立了基于PPO算法的學(xué)習(xí)過程,不斷對(duì)復(fù)合規(guī)則中的權(quán)值進(jìn)行動(dòng)態(tài)調(diào)控,具備較好的局部適應(yīng)能力,因此獲得了平衡與排序問題的更優(yōu)解,并縮短了計(jì)算時(shí)間。在大規(guī)模解空間中,PPO+單一規(guī)則方法容易在初始化階段就陷入部分區(qū)域,使學(xué)習(xí)過程傾向于持續(xù)選擇某個(gè)規(guī)則,導(dǎo)致算法過早陷入局部最優(yōu)。該方法雖然在較短時(shí)間內(nèi)獲得了可行方案,但難以進(jìn)一步生成更優(yōu)方案。復(fù)合規(guī)則采用正交試驗(yàn)對(duì)啟發(fā)式規(guī)則權(quán)重進(jìn)行有限調(diào)整,雖然縮短了參數(shù)尋優(yōu)的計(jì)算時(shí)間,但對(duì)大規(guī)模問題的優(yōu)化十分有限,很難生成符合調(diào)度方案優(yōu)化需求的復(fù)合規(guī)則,僅能獲得次優(yōu)解或可行解。遺傳算法需要擴(kuò)大種群規(guī)模、增加迭代次數(shù)來滿足大規(guī)模解空間的全局搜索需求,但計(jì)算時(shí)間的大幅度延長,且增大后的種群規(guī)模難以形成有效的局部搜索能力,因此對(duì)大部分MPS難以獲得近優(yōu)求解效果。
針對(duì)多品種小批量、單元制造的航天產(chǎn)品混流裝配線平衡與排序問題,結(jié)合復(fù)合規(guī)則對(duì)不同調(diào)度問題的適應(yīng)性與強(qiáng)化學(xué)習(xí)對(duì)調(diào)度問題的策略學(xué)習(xí)能力,提出一種基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的混流裝配線平衡與排序方法。在分析問題特點(diǎn)與數(shù)學(xué)模型的基礎(chǔ)上,分別設(shè)計(jì)了平衡規(guī)則庫與排序規(guī)則庫,提出的強(qiáng)化學(xué)習(xí)PPO算法對(duì)規(guī)則組合下的復(fù)合規(guī)則權(quán)重參數(shù)進(jìn)行調(diào)控優(yōu)化,根據(jù)復(fù)合規(guī)則生成混流裝配線平衡與排序方案,最小化裝配單元的過載時(shí)間和空閑時(shí)間。所提方法與PPO+單一規(guī)則、復(fù)合規(guī)則和遺傳算法的求解效果對(duì)比驗(yàn)證了所提方法的有效性。在此基礎(chǔ)上,后續(xù)研究將關(guān)注混流裝配線調(diào)度問題特點(diǎn)與PPO算法中復(fù)合規(guī)則權(quán)重分布的可解釋性映射關(guān)系,進(jìn)一步挖掘混流裝配線平衡與排序方法中存在的調(diào)度機(jī)理。