• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    考慮峰值功率受限約束的柔性作業(yè)車間調(diào)度研究

    2025-03-10 00:00:00李益兵曹巖郭鈞王磊李西興孫利波
    中國機(jī)械工程 2025年2期
    關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí)

    摘要:針對車間峰值功率受限約束下的柔性作業(yè)車間調(diào)度面臨的作業(yè)周期增加、機(jī)器負(fù)荷增大的問題,建立以最小化最大完工時(shí)間和最小化機(jī)器最大負(fù)載為優(yōu)化目標(biāo)、考慮車間峰值功率約束的柔性作業(yè)車間調(diào)度問題(PPCFJSP)模型。為更好地調(diào)度決策,首先將該問題轉(zhuǎn)化為馬爾可夫決策過程,基于此設(shè)計(jì)了一個(gè)結(jié)合離線訓(xùn)練與在線調(diào)度的用于求解PPCFJSP的調(diào)度框架。然后設(shè)計(jì)了一種基于優(yōu)先級經(jīng)驗(yàn)重放的雙重決斗深度Q網(wǎng)絡(luò)(D3QNPER)算法,并設(shè)計(jì)了一種引入噪聲的ε-貪婪遞減策略,提高了算法收斂速度,進(jìn)一步提高了求解能力和求解結(jié)果的穩(wěn)定性。最后開展實(shí)驗(yàn)與算法對比研究,驗(yàn)證了模型和算法的有效性。

    關(guān)鍵詞:柔性作業(yè)車間調(diào)度;馬爾可夫決策過程;深度強(qiáng)化學(xué)習(xí);峰值功率受限

    中圖分類號:TH165;TP18

    Research on Flexible Job-shop Scheduling Considering Constraints of Peak Power Constrained

    LI Yibing1,2 CAO Yan1 GUO Jun1,2* WANG Lei1,2 LI Xixing3 SUN Libo4

    1.School of Mechanical and Electronic Engineering,Wuhan University of Technology,Wuhan,430070

    2.Hubei Key Laboratory of Digital Manufacturing,Wuhan University of Technology,Wuhan,430070

    3.School of Mechanical Engineering,Hubei University of Technology,Wuhan,430068

    4.Tianjin Cement Industry Design amp; Research Institute Co.,Ltd.,Tianjin,300400

    Abstract: Peak power constrained flexible job shop scheduling problem(PPCFJSP) model was established to address the challenges of increased work cycles and increased machine load in flexible job shop scheduling under the constraints of peak power in the workshops. The optimization objectives were to minimize the maximum completion time and the maximum machine loads, taking into account the constraints of peak power in the workshops. For better scheduling decisions, firstly, the problem was transformed into a Markov decision process, then, a scheduling framework combining offline training and online scheduling was designed for solving PPCFJSP. Secondly, a double dueling deep q-network based on priority experience replay(D3QNPER) algorithm was designed based on priority experience replay, and a ε- greedy descent strategy introducing noise was designed to improve the convergence speed of the algorithm, further enhance the solving ability and stability of the solution results. Finally, experimental and algorithmic comparative studies were conducted to verify the effectiveness of the model and algorithm.

    Key words: flexible job shop scheduling; Markov decision process; deep reinforcement learning; peak power constrained

    0 引言

    在當(dāng)今全球氣候變化和環(huán)境保護(hù)的背景下,“雙碳”戰(zhàn)略已成為國家發(fā)展戰(zhàn)略的重要組成部分。隨著“雙碳”戰(zhàn)略的深入實(shí)施,各地區(qū)開始逐步推行“雙控”政策,即對能耗總量和能耗強(qiáng)度進(jìn)行雙重控制,以實(shí)現(xiàn)節(jié)能降耗和減排目標(biāo)。這些政策措施對高耗能行業(yè)產(chǎn)生了深遠(yuǎn)影響,近年我國多地發(fā)布迎峰度夏冬有序用電指導(dǎo)方案,限電措施也從化工、冶金行業(yè)轉(zhuǎn)向全體商業(yè)、工業(yè),限電限產(chǎn)已成為一些地區(qū)常見的現(xiàn)象。企業(yè)在面臨停電限荷的情況下,如何優(yōu)化生產(chǎn)調(diào)度以應(yīng)對突發(fā)的電力供應(yīng)問題,成為企業(yè)管理者必須面對的新問題。管理者需要快速作出調(diào)整生產(chǎn)計(jì)劃的決策,這不僅要求調(diào)度決策能夠迅速響應(yīng)變化,還需要對生產(chǎn)過程有深入的理解和預(yù)測。同時(shí),停電導(dǎo)致的作業(yè)周期增加問題也不容忽視。由于電力供應(yīng)不穩(wěn)定,企業(yè)可能不得不延長某些產(chǎn)品的生產(chǎn)周期,這直接影響到交貨期和客戶滿意度。此外,由于用電功率限制,車間中全部機(jī)器無法同時(shí)作業(yè),導(dǎo)致個(gè)別機(jī)器的負(fù)荷增大,會(huì)導(dǎo)致機(jī)器過度磨損甚至故障,增加了維護(hù)成本和生產(chǎn)風(fēng)險(xiǎn),故設(shè)計(jì)一種高效、穩(wěn)定、泛化能力強(qiáng)的車間調(diào)度方法具有緊迫性和現(xiàn)實(shí)意義。

    隨著機(jī)器學(xué)習(xí)技術(shù)的不斷進(jìn)步,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)將深度學(xué)習(xí)的表征學(xué)習(xí)能力與強(qiáng)化學(xué)習(xí)的決策求解能力相結(jié)合,使得強(qiáng)化學(xué)習(xí)技術(shù)逐漸變得實(shí)用化。為了更好地作出決策,DRL算法被應(yīng)用在多種組合優(yōu)化問題的求解中,并在車間調(diào)度領(lǐng)域展現(xiàn)出色的性能1-2,而且DRL彌補(bǔ)了整數(shù)規(guī)劃、基于規(guī)則和元啟發(fā)式方法無法利用歷史學(xué)習(xí)經(jīng)驗(yàn)預(yù)測調(diào)度決策的不足。在處理決策響應(yīng)及預(yù)測問題和完工時(shí)間與機(jī)器負(fù)荷平衡問題上,黎聲益等3提出了一種面向設(shè)備負(fù)荷穩(wěn)定的智能車間調(diào)度方法,利用Double DQN解決半導(dǎo)體車間動(dòng)態(tài)事件下設(shè)備負(fù)荷的穩(wěn)定調(diào)度。賀俊杰等4以加權(quán)完工時(shí)間和為目標(biāo),提出了一種基于長短期記憶近端策略優(yōu)化(proximal policy optimization with long short-term memory, LSTM-PPO)強(qiáng)化學(xué)習(xí)的在線調(diào)度方法,通過設(shè)計(jì)融合LSTM的智能體記錄車間的歷史狀態(tài)變化和調(diào)度策略,實(shí)現(xiàn)了智能體根據(jù)狀態(tài)信息進(jìn)行在線調(diào)度。LIU等5和LI等6分別提出了基于深度強(qiáng)化學(xué)習(xí)的動(dòng)態(tài)柔性車間調(diào)度方法,用于處理不確定性和限制資源的情況,取得了良好的性能。WU等7采用深度強(qiáng)化學(xué)習(xí)方法解決了過程規(guī)劃中的動(dòng)態(tài)加工資源調(diào)度問題,通過蒙特卡羅方法和深度學(xué)習(xí)算法評估和改進(jìn)了過程策略。LEE等8和HE等9提出了基于多智能體強(qiáng)化學(xué)習(xí)的紡織制造和半導(dǎo)體制造過程優(yōu)化方法,通過引入深度Q網(wǎng)絡(luò)和多智能體學(xué)習(xí)實(shí)現(xiàn)了多目標(biāo)優(yōu)化。郭具濤等10提出了一種基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的調(diào)度方法用于求解混流裝配線的平衡與排序問題,實(shí)現(xiàn)了復(fù)合規(guī)則權(quán)值參數(shù)的調(diào)控優(yōu)化。劉亞輝等11解決了航天結(jié)構(gòu)件生產(chǎn)過程中柔性作業(yè)車間面臨的動(dòng)態(tài)調(diào)度問題,提出了感知認(rèn)知雙系統(tǒng)驅(qū)動(dòng)的雙環(huán)深度Q網(wǎng)絡(luò)方法,通過感知和認(rèn)知系統(tǒng)提高了調(diào)度決策對知識圖譜的利用。ZHANG等12提出了一種基于多代理圖的深度強(qiáng)化學(xué)習(xí)的柔性作業(yè)車間調(diào)度模型(deep reinforcement learning with multi-agent graphs,DeepMAG),通過將不同的智能體關(guān)聯(lián)到每臺機(jī)器和作業(yè),將DRL與多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning, MARL)集成在一起共同作用完成決策。GUI等13針對動(dòng)態(tài)柔性車間調(diào)度問題,提出了一種具有復(fù)合調(diào)度動(dòng)作的馬爾可夫決策過程,設(shè)計(jì)了由單個(gè)調(diào)度規(guī)則和連續(xù)權(quán)重變量聚合的復(fù)合調(diào)度動(dòng)作,以提供連續(xù)的規(guī)則空間和單一調(diào)度規(guī)則權(quán)重選擇。ZHANG等14針對機(jī)器加工時(shí)間不確定的動(dòng)態(tài)柔性作業(yè)車間調(diào)度問題,采用近端策略優(yōu)化算法對模型進(jìn)行求解,使用處理信息矩陣作為網(wǎng)絡(luò)輸入,通過圖神經(jīng)網(wǎng)絡(luò)將一些高級狀態(tài)嵌入車間中,使得智能體能夠?qū)W習(xí)環(huán)境的完整狀態(tài)。由此可見,DRL算法在不同領(lǐng)域的調(diào)度問題中得到了廣泛應(yīng)用,展現(xiàn)了出色的性能,使得歷史學(xué)習(xí)經(jīng)驗(yàn)得到充分利用,應(yīng)用DRL的車間調(diào)度領(lǐng)域也在不斷擴(kuò)大。

    近年來,越來越多的研究人員也將DRL用于處理考慮能耗約束的柔性作業(yè)車間調(diào)度。例如,何彥等15針對車間調(diào)度中柔性工藝路線對調(diào)度能耗的影響特性,使用改進(jìn)的Q學(xué)習(xí)算法求解節(jié)能調(diào)度模型并得到Pareto解。DU等16設(shè)計(jì)了12個(gè)狀態(tài)特征和7個(gè)動(dòng)作來描述調(diào)度過程中的特征,使用DQN算法對具有起重機(jī)運(yùn)輸和安裝時(shí)間的柔性作業(yè)車間調(diào)度問題(multiobjective FJSP with crane transportation and setup times,F(xiàn)JSP-CS)進(jìn)行了有效求解,對完工時(shí)間和能耗進(jìn)行了同時(shí)優(yōu)化。NAIMI等17提出了一種結(jié)合能量和生產(chǎn)率目標(biāo)的機(jī)器故障環(huán)境下柔性作業(yè)車間問題的Q學(xué)習(xí)重調(diào)度方法,使得系統(tǒng)能夠?qū)σ馔馐录鞒隹焖俜磻?yīng),實(shí)現(xiàn)了對制造跨度和能耗變化的同步優(yōu)化。LI等18在求解具有2型模糊處理時(shí)間的FJSP(energy-efficient FJSP with type-2 processing time, ET2FJSP)時(shí),為了更好地模擬綠色柔性車間調(diào)度實(shí)際生產(chǎn),設(shè)計(jì)了一種基于學(xué)習(xí)的參考向量模因算法(learning-based reference vector memetic algorithm, LRVMA),實(shí)現(xiàn)了對時(shí)間約束的不確定性預(yù)測。

    當(dāng)前,針對具有能耗約束的柔性作業(yè)調(diào)度問題,相關(guān)研究多將總能耗或總成本作為目標(biāo)函數(shù),這樣可以得到總能耗或總成本與完工時(shí)間的“最優(yōu)前沿解”。然而,在當(dāng)前迎峰度夏冬有序用電各類管理措施中一般以用電負(fù)荷(即總功率)來對能耗進(jìn)行描述。一旦執(zhí)行限電要求,如果仍以此前研究中的總能耗作為約束,便無法應(yīng)對峰值功率受限的情形,會(huì)導(dǎo)致車間功率峰值居高不下、執(zhí)行限電要求不力,企業(yè)面臨更大損失,因此,對于考慮峰值功率約束的生產(chǎn)調(diào)度問題,還需要進(jìn)一步研究和關(guān)注。為了在峰值功率約束條件下優(yōu)化生產(chǎn)效率,提高決策響應(yīng)能力,本文提出了一種考慮峰值功率受限的柔性作業(yè)車間調(diào)度問題(peak power constrained flexible job shop scheduling problem,PPCFJSP)模型,主要研究內(nèi)容包括:①建立了一個(gè)基于馬爾可夫決策過程的符合當(dāng)前產(chǎn)業(yè)環(huán)境需求的峰值功率受限柔性車間調(diào)度問題模型,設(shè)計(jì)了一個(gè)用于求解PPCFJSP的DRL調(diào)度框架。②設(shè)計(jì)了一種結(jié)合離線訓(xùn)練與在線調(diào)度的基于優(yōu)先級經(jīng)驗(yàn)重放的雙重決斗深度Q網(wǎng)絡(luò)(double dueling deep q-network based on priority experience replay,D3QNPER)算法,用來求解PPCFJSP模型。同時(shí),設(shè)計(jì)了一種引入噪聲的ε-貪婪遞減策略,提高了算法收斂速度,進(jìn)一步提高了求解能力和求解結(jié)果的穩(wěn)定性。③進(jìn)行仿真實(shí)驗(yàn)分析,與不同調(diào)度規(guī)則和深度強(qiáng)化學(xué)習(xí)算法進(jìn)行對比,用實(shí)驗(yàn)結(jié)果來證明本文算法的有效性。

    1 問題描述及數(shù)學(xué)模型

    本文提出的PPCFJSP模型主要研究n個(gè)工件在設(shè)有用電負(fù)荷上限的車間m臺機(jī)器上加工,每個(gè)工件均有多道工序,同一工件的各道工序的先后關(guān)系不能發(fā)生改變。同時(shí),還需要滿足以下約束:①某一時(shí)刻一個(gè)工件只能有一道工序被加工;②工件的任一工序在同一時(shí)刻只能被一臺機(jī)器加工;③車間存在峰值功率限制,在任一時(shí)刻運(yùn)行設(shè)備疊加功率不能超過峰值功率限制;④任一工件的工序在加工過程中不能被中斷;⑤認(rèn)為車間中各機(jī)器的加工功率不隨外部條件變化。

    由于加工所需的最大完工時(shí)間和機(jī)器負(fù)載情況均會(huì)隨機(jī)器的選擇而變化,同時(shí)考慮到車間設(shè)有用電峰值功率上限,還會(huì)導(dǎo)致車間中個(gè)別功率小的機(jī)器負(fù)載情況加重,影響機(jī)器使用壽命,故本文以考慮車間功率峰值約束時(shí)最小化最大完工時(shí)間和最小化機(jī)器的最大負(fù)載為優(yōu)化目標(biāo)。本文所使用的符號定義見表1。

    本文的優(yōu)化目標(biāo)有兩個(gè):一是最小化最大完工時(shí)間CT,二是最小化最大機(jī)器負(fù)載WT,即

    CT=min max(Ci)(1)

    WT=min maxk∈{1,2,…,m}∑ni=1∑jij=1(CijkXijk)(2)

    在不考慮待機(jī)功耗且加工過程的功率不變的情況下,最小化最大機(jī)器負(fù)載可以用機(jī)器處于加工狀態(tài)的總耗時(shí)來表示。本文的輸出結(jié)果為兩個(gè)優(yōu)化目標(biāo)的Pareto前沿上取得最優(yōu)解的集合。約束條件表示如下:

    Sij≥F(i-1)j(igt;1)(3)

    Lijt1≠Lijt2→t1≠t2(4)

    Pt=∑mk=1PWk·l(i∈1,2,…,n,

    j∈1,2,…,ji:(Sijk≤tlt;Fijk))(5)

    Pt≤Pu(6)

    Fijk-Sijk=Tijk(7)

    Ci=maxjk(Fijk)(8)

    Sij,F(xiàn)ij≥0(9)

    其中,式(3)表示某一時(shí)刻一個(gè)工件只能有一道工序被加工;式(4)表示工件的任一工序在同一時(shí)刻只能被一臺機(jī)器加工,Lijt1為t1時(shí)刻執(zhí)行Oij的設(shè)備編號, Lijt2為t2時(shí)刻執(zhí)行Oij的設(shè)備編號;式(5)表示t時(shí)刻的車間峰值功率,l為指示函數(shù);式(6)表示車間峰值功率不能超過限制,且待機(jī)功率忽略不計(jì);式(7)表示最大完工時(shí)間大于或等于任一工件的末道工序的完工時(shí)間;式(8)表示Ci為同一工件的Fijk中最大值;式(9)為非負(fù)性約束。

    2 求解PPCFJSP問題的DRL調(diào)度框架

    為了更好地求解PPCFJSP問題,本文構(gòu)建了基于馬爾可夫決策過程的深度強(qiáng)化學(xué)習(xí)DRL的調(diào)度框架,如圖1所示,主要包含三部分:調(diào)度環(huán)境層、數(shù)據(jù)處理層與測試應(yīng)用層。

    在調(diào)度環(huán)境層,本文將PPCFJSP問題轉(zhuǎn)化為馬爾可夫決策過程,結(jié)合PPCFJSP問題中對峰值功率的解釋,對馬爾可夫決策過程的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)函數(shù)進(jìn)行了設(shè)計(jì),包括使用調(diào)度特征網(wǎng)絡(luò)矩陣表示狀態(tài),使用不同的機(jī)器分配策略和工件分配策略組成動(dòng)作空間,使用三個(gè)特征數(shù)值來指導(dǎo)獎(jiǎng)勵(lì)函數(shù)。

    在數(shù)據(jù)處理層,本文設(shè)計(jì)了一種改進(jìn)的D3QNPER算法用于訓(xùn)練調(diào)度環(huán)境中生成的調(diào)度數(shù)據(jù)。該算法融合了雙重深度Q網(wǎng)絡(luò)(double deep q-network ,Double DQN)、決斗深度Q網(wǎng)絡(luò)(dueling deep q-network ,Dueling DQN)、優(yōu)先級經(jīng)驗(yàn)回放深度Q網(wǎng)絡(luò)(prioritized experience replay DQN ,PER DQN)三種深度強(qiáng)化學(xué)習(xí)算法在數(shù)據(jù)處理上的優(yōu)勢,將卷積神經(jīng)網(wǎng)絡(luò)、前饋神經(jīng)網(wǎng)絡(luò)、決斗網(wǎng)絡(luò)進(jìn)行有效結(jié)合,在探索和利用策略上設(shè)計(jì)了一種結(jié)合ε-greed和noisy-greed的探索策略。通過調(diào)度環(huán)境與數(shù)據(jù)處理的不斷迭代交互,最終得到最優(yōu)的調(diào)度策略。

    在測試應(yīng)用層,對約束和優(yōu)化目標(biāo)進(jìn)行調(diào)控,使用調(diào)度環(huán)境與數(shù)據(jù)處理交互訓(xùn)練過程中得到的最優(yōu)策略代入案例,從而完成對PPCFJSP問題的求解,最終得到滿足約束、符合調(diào)度目標(biāo)的調(diào)度結(jié)果。

    2.1 調(diào)度問題的馬爾可夫決策過程轉(zhuǎn)化

    深度強(qiáng)化學(xué)習(xí)應(yīng)用于車間調(diào)度問題的關(guān)鍵和難點(diǎn)是將車間調(diào)度問題轉(zhuǎn)化為馬爾可夫決策過程(markov decision processes,MDP)。MDP 由一組狀態(tài)S和操作A組成,針對PPCFJSP的最小化最大完工時(shí)間與機(jī)器最大負(fù)載兩個(gè)優(yōu)化目標(biāo),本文設(shè)計(jì)了以下MDP的狀態(tài)空間表示、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)。

    2.1.1 狀態(tài)空間表示

    在狀態(tài)空間表示上,依據(jù)文獻(xiàn)[19]提出的表述原則,本文將調(diào)度過程需要的機(jī)器、工序、功率、加工時(shí)間等調(diào)度特征信息以網(wǎng)絡(luò)矩陣的形式作為輸入圖像的通道直接輸入深度神經(jīng)網(wǎng)絡(luò)中訓(xùn)練。每個(gè)通道包含不同的調(diào)度特征,使用卷積、池化等操作來捕捉調(diào)度問題中的空間局部性和特征關(guān)聯(lián)性,從而提高模型的表達(dá)能力和性能。

    本文將作業(yè)號編碼為圖像的高度和寬度,從而保留作業(yè)之間的空間關(guān)系。在作業(yè)時(shí)間層,第1行第1列數(shù)據(jù)表示第1個(gè)工件的第1道工序,依此類推;在考慮功率限制的調(diào)度完成層,第1行第1列數(shù)據(jù)表示第1個(gè)工件的第1道工序是否在峰值功率未超限時(shí)進(jìn)行操作,依此類推;在機(jī)器利用率層,第1行第1列數(shù)據(jù)表示在當(dāng)前調(diào)度時(shí)刻第1個(gè)工件的第1道工序在作業(yè)完成后其使用的加工機(jī)器的機(jī)器利用率,其值越接近1表示該機(jī)器負(fù)載越大。以3×3調(diào)度為例,其特征狀態(tài)與狀態(tài)空間的轉(zhuǎn)化如圖2所示。圖中,圈出部分為考慮功率限制而采取的延時(shí)和更換操作,該操作將在動(dòng)作空間設(shè)計(jì)中具體說明。

    以第4次調(diào)度為例,假設(shè)在執(zhí)行第4次調(diào)度前已經(jīng)完成了第1個(gè)工件的第1道工序、第2個(gè)工件的第1道工序、第3個(gè)工件的第1道工序,第4次調(diào)度選擇第3個(gè)工件的第2道工序進(jìn)行加工,根據(jù)對應(yīng)索引找到加工機(jī)器為1號的機(jī)器。因?yàn)檐囬g有峰值功率的限制,此時(shí)發(fā)現(xiàn)不能直接安排生產(chǎn)作業(yè),需要采取一定的措施避免峰值功率超限后再安排生產(chǎn)。為此延時(shí)實(shí)行1個(gè)時(shí)間單位,于是得到第4次調(diào)度的結(jié)束時(shí)刻為8。調(diào)整后,在考慮功率限制的調(diào)度完成層中將第3個(gè)工件的第2道工序?qū)?yīng)位置設(shè)置為1,表示已完成該工序。由于沒有采用更換操作,此時(shí)1號機(jī)器利用率為加工狀態(tài)總用時(shí)/機(jī)器開機(jī)時(shí)間,即(3+4)/(3+4+1)=0.875,其他機(jī)器的利用率均為0.5。

    2.1.2 動(dòng)作空間設(shè)計(jì)

    相較于常規(guī)柔性作業(yè)車間調(diào)度問題,由于考慮了峰值功率約束,故還需要對動(dòng)作的合法性進(jìn)行判斷。一般情況下,認(rèn)定選定操作執(zhí)行后會(huì)引起車間峰值功率超過上限的操作為非法操作。假設(shè)某車間有6臺加工機(jī)器,加工機(jī)器功率PWk∈{3, 2, 3, 2.4, 1.8, 3},單位為kW,當(dāng)車間沒有用電負(fù)荷約束時(shí),車間各類加工機(jī)器的車間峰值功率為15.2 kW且可以同時(shí)工作;而當(dāng)企業(yè)收到限電限產(chǎn)通知,如要求企業(yè)用電負(fù)荷降為原來車間峰值功率的一半(即7.6 kW)時(shí),生產(chǎn)運(yùn)作安排就要考慮設(shè)備的用電負(fù)荷,否則極易出現(xiàn)用電負(fù)荷超限而導(dǎo)致斷電停產(chǎn)或設(shè)備供電不足等問題,例如當(dāng)車間中已開啟第1、2號機(jī)器時(shí),如果再選擇第3號機(jī)器,那么就會(huì)導(dǎo)致車間峰值功率超限,此時(shí)選擇第3號機(jī)器進(jìn)行加工的操作定義為非法操作。為此,本文設(shè)計(jì)了兩種處理操作來避免非法動(dòng)作的產(chǎn)生,即延時(shí)操作和更換操作。

    延時(shí)操作,即在選定非法動(dòng)作后,將該操作延時(shí)到最早滿足峰值功率限制的時(shí)刻執(zhí)行,其操作如圖3所示。當(dāng)執(zhí)行選定動(dòng)作后,反饋的調(diào)度決策為工件1的第1道工序在機(jī)器2上加工,此時(shí)由于存在功率限制,導(dǎo)致該動(dòng)作執(zhí)行后會(huì)使車間峰值功率超限。若沒有可以替換的柔性執(zhí)行機(jī)器,此時(shí)便需要采用延時(shí)操作來執(zhí)行,延時(shí)至最早可執(zhí)行操作的時(shí)刻,即工件3第1道工序的結(jié)束時(shí)刻t1。

    更換操作,即在選定非法動(dòng)作后,由于該工序的加工機(jī)器具有柔性,可以選擇其他能夠滿足峰值功率限制的機(jī)器來執(zhí)行,其操作如圖4所示。當(dāng)執(zhí)行選定動(dòng)作后,反饋的調(diào)度決策為工件3的第2道工序在機(jī)器1上加工,此時(shí)由于存在功率限制,導(dǎo)致該動(dòng)作執(zhí)行后會(huì)使車間峰值功率超限。假設(shè)此時(shí)有可以替換的柔性執(zhí)行機(jī)器3且替換后不會(huì)導(dǎo)致車間峰值功率超限,便采用更換操作來執(zhí)行,更換機(jī)器3作為可執(zhí)行操作的機(jī)器。

    此外,為更好地求解PPCFJSP問題的調(diào)度過程,包括以下5種機(jī)器分配策略、18種工件分配規(guī)則,與兩種非法動(dòng)作處理操作共同構(gòu)成動(dòng)作空間。其中,18種工件分配策略由文獻(xiàn)[20]提到的16種分配策略和該文獻(xiàn)未提到的與SRM、SRPT相對的LRM、LRPT共同組成。在初始階段,機(jī)器分配策略與工件分配策略均為等概率隨機(jī)選擇。5種機(jī)器分配策略如下:①最小機(jī)器負(fù)荷優(yōu)先,優(yōu)先選擇待機(jī)序列中加工時(shí)間最少的機(jī)器;②最短加工時(shí)間優(yōu)先,優(yōu)先選擇該工序可選加工機(jī)器中加工時(shí)間最短的機(jī)器;③最少作業(yè)數(shù)量優(yōu)先,優(yōu)先選擇加工作業(yè)數(shù)量最少的機(jī)器;④最小功率優(yōu)先,優(yōu)先選擇空閑機(jī)器中功率最小的機(jī)器;⑤完全隨機(jī)分配,即隨機(jī)選擇機(jī)器。18種工件分配規(guī)則見表2。

    2.1.3 獎(jiǎng)勵(lì)設(shè)計(jì)

    因調(diào)度目標(biāo)結(jié)果均在全部工序安排完成后才能知曉,如果將調(diào)度目標(biāo)結(jié)果直接作為獎(jiǎng)勵(lì)函數(shù)的參數(shù),會(huì)導(dǎo)致獎(jiǎng)勵(lì)函數(shù)的反饋?zhàn)兊孟∈?,且輸出結(jié)果為一組動(dòng)作的綜合獎(jiǎng)勵(lì),無法判斷是否陷入局部最優(yōu),因此,需要將調(diào)度目標(biāo)進(jìn)行合理轉(zhuǎn)化,使得智能體執(zhí)行一個(gè)動(dòng)作后,根據(jù)當(dāng)前狀態(tài)和執(zhí)行的動(dòng)作立即得到獎(jiǎng)勵(lì)值作為反饋,使得調(diào)度過程的每一步都盡可能采取最優(yōu)策略,從而避免陷入局部最優(yōu)。為此,額外定義三個(gè)變量Ck(t)、Oi(t)和Uk(t):

    Uk(t)=(Ck(t))-1∑ni=1∑Oi(t)j=1∑mk=1(CijkXijk)(10)

    Ja=1n∑ni=1Oi(t)Ji(11)

    Ua=1m∑mk=1Uk(t)(12)

    Wa=1mUk(t)Ck(t)(13)

    Waa=1m∑mk=1[∑ni=1∑Oi(t)j=1(CijkXijk)-Wa)]2(14)

    其中,Ck(t)表示在t時(shí)刻機(jī)器k上已完成的最后一道工序的完工時(shí)間;Oi(t)表示在t時(shí)刻工件i已完成的工序數(shù)量;Uk(t)表示在t時(shí)刻機(jī)器k的利用率;式(11)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下工件的工序平均完成率;式(12)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下機(jī)器的平均利用率;式(13)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下機(jī)器的平均工作負(fù)載;式(14)表示在每一動(dòng)作執(zhí)行后,該調(diào)度時(shí)刻下機(jī)器工作負(fù)載的標(biāo)準(zhǔn)差。

    由式(10)~式(12)可以發(fā)現(xiàn),式中的指標(biāo)均與最大完工時(shí)間直接或間接相關(guān),所以最小化最大完工時(shí)間可以描述為使得機(jī)器利用率、工件完成率盡可能大。由于峰值功率約束直接影響到機(jī)器能否被選擇,而選擇延時(shí)或更換操作來處理非法操作均大概率會(huì)導(dǎo)致等待時(shí)間增加,故最小化最大機(jī)器負(fù)載可以描述為使得工作負(fù)載均勻分布在各個(gè)機(jī)器上的同時(shí)機(jī)器工作負(fù)載的標(biāo)準(zhǔn)差盡可能小。

    調(diào)度未完成時(shí),每執(zhí)行一個(gè)動(dòng)作后計(jì)算對應(yīng)的U′a、J′a、W′aa,通過比較前一狀態(tài)下的Ua、Ja、Waa進(jìn)行賦獎(jiǎng)勵(lì)值(reward)。本文獎(jiǎng)勵(lì)值的設(shè)置參考文獻(xiàn)[19]中的設(shè)置方法,在執(zhí)行一個(gè)動(dòng)作后如果機(jī)器平均利用率、工件平均完成率增加的同時(shí)機(jī)器平均工作負(fù)載標(biāo)準(zhǔn)差沒有增加,這種情況說明機(jī)器分布更加均勻,這一動(dòng)作是能夠使得兩個(gè)優(yōu)化目標(biāo)均減小的動(dòng)作,故給予一個(gè)較大獎(jiǎng)勵(lì)10;如果機(jī)器平均利用率、工件平均完成率增加的同時(shí)機(jī)器平均工作負(fù)載標(biāo)準(zhǔn)差增加,這種情況下對優(yōu)化最大完工時(shí)間是有益的,但不能完全認(rèn)為是最大機(jī)器工作負(fù)載的增加導(dǎo)致機(jī)器平均工作負(fù)載增加或考慮了均勻分布負(fù)載但由于該工序加工時(shí)間較長導(dǎo)致的機(jī)器平均工作負(fù)載增加,故給予一個(gè)較小的獎(jiǎng)勵(lì)1;如果機(jī)器平均利用率減小,這種情況下不能完全認(rèn)為是由最大機(jī)器工作負(fù)載增加導(dǎo)致的機(jī)器平均利用率減小或延時(shí)操作的存在而導(dǎo)致的機(jī)器平均利用率減小,故給予一個(gè)較小的懲罰-1。獎(jiǎng)勵(lì)設(shè)計(jì)偽代碼如下。

    偽代碼1:獎(jiǎng)勵(lì)設(shè)計(jì)偽代碼

    if 調(diào)度過程未完成

    if U′a-Uagt;0,J′a-Jagt;0

    if W′aa-Waa≤0

    reward=10

    else

    reward=1

    else

    reward=-1

    else

    終止調(diào)度,reward=-99

    end if

    2.2 改進(jìn)的D3QNPER算法設(shè)計(jì)

    D3QNPER算法是在DQN(Deep Q- Network)算法的基礎(chǔ)上發(fā)展起來的。由于DQN算法在求解過程中存在積極性偏差、高方差、非靜態(tài)目標(biāo)影響等問題,故在將PPCFJSP問題轉(zhuǎn)化為MDP問題后,需要進(jìn)一步對算法進(jìn)行改進(jìn),改進(jìn)D3QNPER算法的主要內(nèi)容包括:

    1)引入Double DQN算法改善積極性偏差。通過不同網(wǎng)絡(luò)解耦動(dòng)作選擇與評估,使用兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)來分別估計(jì)當(dāng)前狀態(tài)下的動(dòng)作值函數(shù)和目標(biāo)動(dòng)作值函數(shù)。其中一個(gè)網(wǎng)絡(luò)用于選擇動(dòng)作,另一個(gè)網(wǎng)絡(luò)用于評估選擇的動(dòng)作的價(jià)值。這種解耦的方式具體體現(xiàn)為使用θt決定的網(wǎng)絡(luò)選擇動(dòng)作a,再用θ-t決定的網(wǎng)絡(luò)計(jì)算Q值,這樣的改動(dòng)可以減少動(dòng)作價(jià)值的高估,從而減小積極性偏差,提高Q-learning算法的穩(wěn)定性和性能。此時(shí)目標(biāo)網(wǎng)絡(luò)的目標(biāo)函數(shù)變?yōu)?/p>

    Yt≡rt+1+γQ^(st+1,argmaxaQ(st+1,a;θt),θ-t)(15)

    式中:Yt為目標(biāo)網(wǎng)絡(luò)的目標(biāo)函數(shù);rt+1為下一動(dòng)作的獎(jiǎng)勵(lì);Q(s,a,θ)為計(jì)算Q值的函數(shù)。

    2)引入Dueling DQN優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)來緩解神經(jīng)網(wǎng)絡(luò)的高方差問題。將動(dòng)作值函數(shù)分解為狀態(tài)值函數(shù)和優(yōu)勢函數(shù)。狀態(tài)值函數(shù)表示在給定狀態(tài)下不同動(dòng)作的平均價(jià)值,而優(yōu)勢函數(shù)表示每個(gè)動(dòng)作相對于平均值的優(yōu)勢。通過Dueling DQN的優(yōu)化,神經(jīng)網(wǎng)絡(luò)可以更有效地學(xué)習(xí)狀態(tài)的價(jià)值和動(dòng)作的優(yōu)勢,從而提高了對動(dòng)作價(jià)值的估計(jì)效果,提高了算法的性能和效率。此時(shí)動(dòng)作值函數(shù)為

    Q(s,a;θ,α,β)=V(s;θ,β)+A(s,a;θ,α)-

    1|A|∑a′A(s,a′;θ,α)(16)

    式中:θ為共享參數(shù);α為優(yōu)勢函數(shù)A的參數(shù);β為狀態(tài)值函數(shù)V的參數(shù);|A|為動(dòng)作空間的大小。

    3)引入PER DQN設(shè)定樣本優(yōu)先級,減小非靜態(tài)目標(biāo)的影響。通過引入優(yōu)先級隊(duì)列,根據(jù)樣本的TD誤差(temporal difference error)來賦予樣本優(yōu)先級,TD誤差可以被視為樣本的重要性指標(biāo)。通過優(yōu)先級采樣,網(wǎng)絡(luò)更多地關(guān)注那些對于當(dāng)前參數(shù)下預(yù)測不準(zhǔn)確的樣本,從而提高了訓(xùn)練的效率和收斂速度。改進(jìn)后的損失函數(shù)為

    Li(θi)=E(ωi(Yt-Q(s,a;θi)))2(17)

    式中:E為期望值函數(shù);ωi為重要性參數(shù)。

    D3QNPER算法結(jié)合了Double DQN、Dueling DQN和PER DQN算法的優(yōu)點(diǎn),進(jìn)一步提高了學(xué)習(xí)的效率和穩(wěn)定性,其算法流程如圖5所示,其中,每個(gè)episode表示一次完整調(diào)度過程。

    4)此外,設(shè)計(jì)一種引入噪聲的ε-貪婪遞減策略來增加算法的探索性,從而幫助算法更充分地探索環(huán)境。為平衡探索和利用,本文綜合noisy-greed和ε-greed兩種探索策略,在訓(xùn)練前期通過隨機(jī)策略和noisy-greed策略提高智能體的探索能力,在訓(xùn)練后期則更多地考慮利用已知信息中最優(yōu)的行為。探索和利用策略可以表示為

    at=argmax (s,a)"""" P=1-ε2

    argmax((s,a)+σε2)P=ε2-ε1

    randomP=ε1(18)

    ε2=max(εmin,(1-μ2)ε2)(19)

    ε1=max(εmin,(1-μ1)ε1)(20)

    式中:P為選擇對應(yīng)策略的概率;random為隨機(jī)一個(gè)動(dòng)作a,σ~N(0,1);εmin為遞減策略中最小ε值;μ1、μ2為遞減速率。

    對比使用引入噪聲的ε-貪婪遞減策略前后D3QNPER算法的reward值變化(圖6)可以發(fā)現(xiàn),使用該策略改進(jìn)D3QNPER算法網(wǎng)絡(luò)收斂速度和穩(wěn)定程度明顯提高,改進(jìn)后的算法獎(jiǎng)勵(lì)函數(shù)曲線明顯優(yōu)于改進(jìn)前,結(jié)果擁有更高的均值及穩(wěn)定性。

    在訓(xùn)練階段,本文將描述作業(yè)時(shí)間、考慮功率限制的調(diào)度結(jié)果和機(jī)器利用率三通道圖像作為深度卷積神經(jīng)網(wǎng)絡(luò)的輸入和輸出。偽代碼2描述了改進(jìn)D3QNPER算法求解MDP流程。在求解過程中,首先需要對環(huán)境進(jìn)行初始化,包括初始化估計(jì)網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)、經(jīng)驗(yàn)池和優(yōu)先級隊(duì)列。然后進(jìn)行多輪訓(xùn)練。在每一輪訓(xùn)練中,根據(jù)調(diào)度方案的初始狀態(tài),在每個(gè)時(shí)間步中以一定的概率選擇動(dòng)作。概率通過ε的值來調(diào)整。當(dāng)ε較小時(shí),會(huì)盡可能選擇當(dāng)前Q值函數(shù)估計(jì)的最優(yōu)動(dòng)作;當(dāng)ε較大時(shí),會(huì)更多地進(jìn)行探索。執(zhí)行選擇的動(dòng)作后,觀察下一個(gè)狀態(tài)并計(jì)算獎(jiǎng)勵(lì)。然后將得到的經(jīng)驗(yàn)元組存入經(jīng)驗(yàn)池,并計(jì)算樣本的優(yōu)先級。當(dāng)滿足條件時(shí),從經(jīng)驗(yàn)池中采樣一批樣本,根據(jù)計(jì)算得到的目標(biāo)值和當(dāng)前Q值計(jì)算TD誤差。然后更新樣本的優(yōu)先級,并根據(jù)累積的權(quán)重更新量來執(zhí)行梯度下降,從而更新神經(jīng)網(wǎng)絡(luò)參數(shù)。在每一輪訓(xùn)練結(jié)束后,周期性地更新目標(biāo)網(wǎng)絡(luò)的參數(shù),將當(dāng)前的Q值函數(shù)的參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò)。整個(gè)過程循環(huán)執(zhí)行,直到達(dá)到預(yù)定的訓(xùn)練次數(shù)。最后將訓(xùn)練好的Q網(wǎng)絡(luò)作為輸出結(jié)果。

    偽代碼2:改進(jìn)D3QNPER算法求解MDP流程偽代碼

    初始化神經(jīng)網(wǎng)絡(luò)Q(s,a;θ)和目標(biāo)網(wǎng)絡(luò)Q^(s,a;θ-)

    初始化經(jīng)驗(yàn)池D和優(yōu)先級隊(duì)列P

    初始化參數(shù),誤差Δ=0,樣本優(yōu)先級p1=1

    對于episode=1∶M

    重置調(diào)度方案,生成初始化狀態(tài)s1

    對于t=1∶T

    以一定的概率ε選擇動(dòng)作at

    動(dòng)作at=argmax (s,a)"""" P=1-ε2

    argmax((s,a)+σε2)P=ε2-ε1

    randomP=ε1

    執(zhí)行動(dòng)作at,觀察下一個(gè)狀態(tài)st+1,計(jì)算獎(jiǎng)勵(lì)rt

    將(st,at,rt,st+1)存入經(jīng)驗(yàn)池D,優(yōu)先級pt=maxjlt;tpj

    如果k能夠被t整除(k為最小批量)

    對于i=1∶k

    從D中采樣

    令yi=ri

    當(dāng)前步數(shù)調(diào)度結(jié)束

    ri+γQ^(si+1,argmaxa(Q(si+1,

    a;θ)),θ-)其他

    計(jì)算當(dāng)前Q值:Qcur=Q(si,ai;θ)

    計(jì)算TD誤差:δ=(yi-Qcur)2

    更新優(yōu)先級:pi←δ

    累積權(quán)重更新量Δ←Δ+wiδθQ(si,ai)

    執(zhí)行梯度下降更新神經(jīng)網(wǎng)絡(luò)參數(shù):

    θ←θ+ηΔ (η為步長)

    Δ=0

    s=s′

    每隔C步更新Q^=Q

    返回Q網(wǎng)絡(luò)

    2.3 基于改進(jìn)D3QNPER算法的調(diào)度訓(xùn)練過程

    在應(yīng)用改進(jìn)D3QNPER算法進(jìn)行PPCFJSP問題的MDP求解訓(xùn)練時(shí),需要對動(dòng)作進(jìn)行合法性判斷,即在完成機(jī)器分配工件分配后,檢查調(diào)度環(huán)境中峰值功率是否超過設(shè)定上限,如果超過功率上限則需要執(zhí)行更換或延時(shí)操作,此后再循環(huán)此操作直至所有工序都已安排完畢;如果沒有超限則認(rèn)為此動(dòng)作合法,將狀態(tài)中對應(yīng)位置置為1。

    在調(diào)度任務(wù)分配流程的基礎(chǔ)上,基于改進(jìn)D3QNPER算法的調(diào)度過程可以分為訓(xùn)練、算法、測試三個(gè)層面。首先應(yīng)用本文設(shè)計(jì)的調(diào)度框架將車間的狀態(tài)、任務(wù)的特征、資源的可用性等信息傳遞到訓(xùn)練層構(gòu)成訓(xùn)練和驗(yàn)證過程使用的數(shù)據(jù)集。然后將訓(xùn)練集用于訓(xùn)練改進(jìn)D3QNPER網(wǎng)絡(luò),驗(yàn)證集用于調(diào)整網(wǎng)絡(luò)的超參數(shù)和監(jiān)控訓(xùn)練進(jìn)度,期間重復(fù)算法訓(xùn)練流程,進(jìn)一步優(yōu)化調(diào)度策略。最后在訓(xùn)練完成后,使用測試集對訓(xùn)練得到的調(diào)度策略進(jìn)行評估和驗(yàn)證。改進(jìn)D3QNPER求解PPCFJSP問題的過程如圖7所示。

    3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

    為驗(yàn)證D3QNPER算法在求解PPCFJSP問題時(shí)的優(yōu)越性,本文結(jié)合Benchmark標(biāo)準(zhǔn)算例,為其中Mk01~Mk15這15組擁有不同工件數(shù)、工序數(shù)、機(jī)器數(shù)的柔性作業(yè)車間調(diào)度問題標(biāo)準(zhǔn)測試集引入機(jī)器的加工功率集(表3),此時(shí)生成的測試集規(guī)模和參數(shù)見表4。

    對得到的新數(shù)據(jù)集DMk01-DMk15進(jìn)行等權(quán)重實(shí)驗(yàn)。實(shí)驗(yàn)程序在Windows 11 64位的個(gè)人計(jì)算機(jī)(CPU:AMD R7-6800H、內(nèi)存:16 GB)上運(yùn)行。語言環(huán)境基于Python 3.8.16,問題環(huán)境基于OpenAIGym,深度網(wǎng)絡(luò)基于Torch 2.1.0和Numpy 1.24.1編寫。

    3.1 改進(jìn)D3QNPER算法與單一調(diào)度規(guī)則對比

    在實(shí)驗(yàn)中,依據(jù)我國各地迎峰度夏冬負(fù)荷管理方案的相關(guān)要求,本文將企業(yè)生產(chǎn)車間最大功率限制為全部加工機(jī)器功率總和的一半。為了便于比較本文方法與單一調(diào)度規(guī)則的優(yōu)劣,以等權(quán)重對最大完工時(shí)間和機(jī)器最大負(fù)載兩個(gè)指標(biāo)的加權(quán)值作為評估值,選擇動(dòng)作空間中35種基于規(guī)則的調(diào)度方法與改進(jìn)的D3QNPER方法進(jìn)行對比,再將改進(jìn)的D3QNPER方法與和單一方式DQN優(yōu)化方法進(jìn)行對比,在全隨機(jī)機(jī)器分配策略下為獨(dú)立運(yùn)行20次的最優(yōu)結(jié)果,見表5??梢园l(fā)現(xiàn),改進(jìn)D3QNPER與任意調(diào)度規(guī)則相比較,均可得到較好結(jié)果。

    3.2 改進(jìn)D3QNPER算法與優(yōu)化DQN對比

    首先使用等權(quán)重評估值對算法效果進(jìn)行對比。表6表明,相同的MDP下,單一優(yōu)化DQN算法在各算例的訓(xùn)練測試結(jié)果一般優(yōu)于單一調(diào)度規(guī)則方法,但也存在樣本數(shù)據(jù)規(guī)模較大時(shí)訓(xùn)練結(jié)果劣于單一調(diào)度規(guī)則方法,而本文設(shè)計(jì)的改進(jìn)D3QNPER算法在每個(gè)算例下均優(yōu)于單一調(diào)度規(guī)則方法且表現(xiàn)最優(yōu)。

    為了更詳細(xì)地比較各DQN優(yōu)化方法差異性與本文設(shè)計(jì)算法的優(yōu)越性,以五個(gè)不同規(guī)模算例DMK03、DMK07、DMK10、DMK13、DMK15為例,以評估值作為指標(biāo)可以得到訓(xùn)練迭代測試結(jié)果變化,如圖8所示??梢杂^察到,改進(jìn)D3QNPER算法的收斂速度更快,輸出結(jié)果更穩(wěn)定,其求解性能優(yōu)于單一DQN及DQN改進(jìn)算法。

    同時(shí),依據(jù)Pareto最優(yōu)理論將所得數(shù)據(jù)轉(zhuǎn)化為二維散點(diǎn),可以得到三個(gè)算例的散點(diǎn)圖以及Pareto前沿,如圖9所示??梢园l(fā)現(xiàn)使用改進(jìn)D3QNPER算法得到的結(jié)果分布明顯更加靠近由各算法Pareto前沿組成的各測試算例真實(shí)的Pareto前沿,離散程度更低,與前文以評估值作為指標(biāo)得到的訓(xùn)練迭代測試結(jié)果變化一致,說明改進(jìn)的D3QNPER算法得到的Pareto解更優(yōu),更能滿足本文的優(yōu)化目標(biāo)。

    對比DMK07算例各算法reward變化(圖10)可以觀察到,Double DQN算法比DQN算法結(jié)果更具穩(wěn)定性,數(shù)據(jù)波動(dòng)明顯改善,收斂更加快速,但它對噪聲干擾的處理能力較差,因此導(dǎo)致訓(xùn)練后期出現(xiàn)較大偏差值;Dueling DQN與Double DQN算法效果無較大差別,但它對噪聲干擾的處理明顯優(yōu)于Double DQN算法;PER DQN算法能夠利用重要的經(jīng)驗(yàn)樣本,因而探索空間獲得的收益較DQN算法有明顯提升,但也存在探索能力減小,從而在算例中結(jié)果表現(xiàn)不盡如人意;而改進(jìn)的D3QNPER算法綜合了三者優(yōu)點(diǎn),在輸出效果整體上優(yōu)于其他算法。

    4 結(jié)語

    本文面向車間峰值功率受限這一特定約束,構(gòu)建了峰值功率受限單約束的柔性作業(yè)車間調(diào)度問題模型,提出了基于深度強(qiáng)化學(xué)習(xí)的調(diào)度框架,設(shè)計(jì)了改進(jìn)的D3QNPER算法求解該模型。其中包括設(shè)計(jì)了兩個(gè)用于應(yīng)對峰值功率超限的調(diào)度策略,設(shè)計(jì)了引入噪聲的ε貪婪遞減策略來提高算法的探索和利用能力。通過對比引入噪聲的ε貪婪遞減策略改進(jìn)前后的回報(bào)值可以發(fā)現(xiàn),改進(jìn)后的方法收斂更快、回報(bào)值更高。同時(shí),使用帶有峰值功率約束的Benchmark標(biāo)準(zhǔn)算例的實(shí)驗(yàn)結(jié)果表明,改進(jìn)D3QNPER算法在求解PPCFJSP問題時(shí),其求解能力優(yōu)于單一調(diào)度規(guī)則方法和單一DQN優(yōu)化方法。

    本文方法為求解峰值功率受限的柔性作業(yè)車間調(diào)度雙目標(biāo)優(yōu)化問題提供了有效解決方案。在實(shí)際生產(chǎn)中,生產(chǎn)調(diào)度往往需要面臨更為復(fù)雜的調(diào)度目標(biāo)和條件約束。后續(xù)研究可以進(jìn)一步考慮成本、排放等經(jīng)濟(jì)或綠色指標(biāo)或者其他條件約束等,或者探索動(dòng)態(tài)環(huán)境下柔性作業(yè)車間調(diào)度問題模型的算法設(shè)計(jì)與改進(jìn)策略等。

    參考文獻(xiàn):

    [1] 李凱文, 張濤, 王銳, 等. 基于深度強(qiáng)化學(xué)習(xí)的組合優(yōu)化研究進(jìn)展[J]. 自動(dòng)化學(xué)報(bào), 2021, 47(11):2521-2537.

    LI Kaiwen, ZHANG Tao, WANG Rui, et al. Research Reviews of Combinatorial Optimization Methods Based on Deep Reinforcement Learning[J]. Acta Automatica Sinica, 2021, 47(11):2521-2537.

    [2] 李穎俐, 李新宇, 高亮. 混合流水車間調(diào)度問題研究綜述[J]. 中國機(jī)械工程, 2020, 31(23):2798-2813.

    LI Yingli, LI Xinyu, GAO Liang. Review on Hybrid Flow Shop Scheduling Problems[J]. China Mechanical Engineering, 2020, 31(23):2798-2813.

    [3] 黎聲益, 馬玉敏, 劉鵑. 基于雙深度Q學(xué)習(xí)網(wǎng)絡(luò)的面向設(shè)備負(fù)荷穩(wěn)定的智能車間調(diào)度方法[J]. 計(jì)算機(jī)集成制造系統(tǒng), 2023, 29(1):91-99.

    LI Shengyi, MA Yumin, LIU Juan. Smart Shop Floor Scheduling Method for Equipment Load Stabilization Based on Double Deep Q-learning Network[J]. Computer Integrated Manufacturing Systems, 2023, 29(1):91-99.

    [4] 賀俊杰, 張潔, 張朋, 等. 基于長短期記憶近端策略優(yōu)化強(qiáng)化學(xué)習(xí)的等效并行機(jī)在線調(diào)度方法[J]. 中國機(jī)械工程, 2022, 33(3):329-338.

    HE Junjie, ZHANG Jie, ZHANG Peng, et al. Related Parallel Machine Online Scheduling Method Based on LSTM-PPO Reinforcement Learning[J]. China Mechanical Engineering, 2022, 33(3):329-338.

    [5] LIU Renke, PIPLANI R, TORO C. Deep Reinforcement Learning for Dynamic Scheduling of a Flexible Job Shop[J]. International Journal of Production Research, 2022, 60(13):4049-4069.

    [6] LI Yuxin, GU Wenbin, YUAN Minghai, et al. Real-time Data-driven Dynamic Scheduling for Flexible Job Shop with Insufficient Transportation Resources Using Hybrid Deep Q Network[J]. Robotics and Computer-Integrated Manufacturing, 2022, 74:102283.

    [7] WU Wenbo, HUANG Zhengdong, ZENG Jiani, et al. A Fast Decision-making Method for Process Planning with Dynamic Machining Resources via Deep Reinforcement Learning[J]. Journal of Manufacturing Systems, 2021, 58:392-411.

    [8] LEE Y H, LEE S. Deep Reinforcement Learning Based Scheduling within Production Plan in Semiconductor Fabrication[J]. Expert Systems with Applications, 2022, 191:116222.

    [9] HE Zhenglei, TRAN K P, THOMASSEY S, et al. Multi-objective Optimization of the Textile Manufacturing Process Using Deep-Q-network Based Multi-agent Reinforcement Learning[J]. Journal of Manufacturing Systems, 2022, 62:939-949.

    [10] 郭具濤, 呂佑龍, 戴錚, 等. 基于復(fù)合規(guī)則和強(qiáng)化學(xué)習(xí)的混流裝配線調(diào)度方法[J]. 中國機(jī)械工程, 2023, 34(21):2600-2606.

    GUO Jutao, LYU Youlong, DAI Zheng, et al. Compound Rules and Reinforcement Learning Based Scheduling Method for Mixed Model Assembly Lines[J]. China Mechanical Engineering, 2023, 34(21):2600-2606.

    [11] 劉亞輝, 申興旺, 顧星海, 等. 面向柔性作業(yè)車間動(dòng)態(tài)調(diào)度的雙系統(tǒng)強(qiáng)化學(xué)習(xí)方法[J]. 上海交通大學(xué)學(xué)報(bào), 2022, 56(9):1262-1275.

    LIU Yahui, SHEN Xingwang, GU Xinghai, et al. A Dual-system Reinforcement Learning Method for Flexible Job Shop Dynamic Scheduling[J]. Journal of Shanghai Jiao Tong University, 2022, 56(9):1262-1275.

    [12] ZHANG Jiadong, HE Zhixiang, CHAN W H, et al. DeepMAG:Deep Reinforcement Learning with Multi-agent Graphs for Flexible Job Shop Scheduling[J]. Knowledge-Based Systems, 2023, 259:110083.

    [13] GUI Yong, TANG Dunbing, ZHU Haihua, et al. Dynamic Scheduling for Flexible Job Shop Using a Deep Reinforcement Learning Approach[J]. Computers amp; Industrial Engineering, 2023, 180:109255.

    [14] ZHANG Lu, FENG Yi, XIAO Qinge, et al. Deep Reinforcement Learning for Dynamic Flexible Job Shop Scheduling Problem Considering Variable Processing Times[J]. Journal of Manufacturing Systems, 2023, 71:257-273.

    [15] 何彥, 王樂祥, 李育鋒, 等. 一種面向機(jī)械車間柔性工藝路線的加工任務(wù)節(jié)能調(diào)度方法[J]. 機(jī)械工程學(xué)報(bào), 2016, 52(19):168-179.

    HE Yan, WANG Lexiang, LI Yufeng, et al. A Scheduling Method for Reducing Energy Consumption of Machining Job Shops Considering the Flexible Process Plan[J]. Journal of Mechanical Engineering, 2016, 52(19):168-179.

    [16] DU Yu, LI Junqing, LI Chengdong, et al. A Reinforcement Learning Approach for Flexible Job Shop Scheduling Problem with Crane Transportation and Setup Times[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(4):5695-5709.

    [17] NAIMI R, NOUIRI M, CARDIN O. A Q-learning Rescheduling Approach to the Flexible Job Shop Problem Combining Energy and Productivity Objectives[J]. Sustainability, 2021, 13(23):13016.

    [18] LI Rui, GONG Wenyin, LU Chao, et al. A Learning-based Memetic Algorithm for Energy-efficient Flexible Job-shop Scheduling with Type-2 Fuzzy Processing Time[J]. IEEE Transactions on Evolutionary Computation, 2023, 27(3):610-620.

    [19] 張凱, 畢利, 焦小剛. 集成強(qiáng)化學(xué)習(xí)算法的柔性作業(yè)車間調(diào)度問題研究[J]. 中國機(jī)械工程, 2023, 34(2):201-207.

    ZHANG Kai, BI Li, JIAO Xiaogang. Research on Flexible Job-shop Scheduling Problems with Integrated Reinforcement Learning Algorithm[J]. China Mechanical Engineering, 2023, 34(2):201-207.

    [20] 陳睿奇, 黎雯馨, 王傳洋, 等. 基于深度強(qiáng)化學(xué)習(xí)的工序交互式智能體Job shop調(diào)度方法[J]. 機(jī)械工程學(xué)報(bào), 2023, 59(12):78-88.

    CHEN Ruiqi, LI Wenxin, WANG Chuanyang, et al. Interactive Operation Agent Scheduling Method for Job Shop Based on Deep Reinforcement Learning[J]. Journal of Mechanical Engineering, 2023, 59(12):78-88.

    (編輯 陳 勇)

    作者簡介:李益兵,男,1978年生,教授。研究方向?yàn)檐囬g調(diào)度與優(yōu)化等,發(fā)表論文50余篇。E-mail:ahlyb@whut.edu.cn。

    郭 鈞*(通信作者),男,1982年生,副教授。研究方向?yàn)橹圃煜到y(tǒng)決策與優(yōu)化,發(fā)表論文20余篇。E-mail:Junguo@whut.edu.cn。

    本文引用格式:李益兵,曹巖,郭鈞,等.考慮峰值功率受限約束的柔性作業(yè)車間調(diào)度研究[J]. 中國機(jī)械工程,2025,36(2):280-293.

    LI Yibing, CAO Yan, GUO Jun, et al. Research on Flexible Job-shop Scheduling Considering Constraints of Peak Power Constrained[J]. China Mechanical Engineering, 2025, 36(2):280-293.

    基金項(xiàng)目:國家自然科學(xué)基金(52305552,52375510)

    猜你喜歡
    深度強(qiáng)化學(xué)習(xí)
    基于DDPG算法的路徑規(guī)劃研究
    基于深度強(qiáng)化學(xué)習(xí)的木材缺陷圖像重構(gòu)及質(zhì)量評價(jià)模型研究
    基于深度強(qiáng)化學(xué)習(xí)與圖像智能識別的輸電線路在線監(jiān)測系統(tǒng)
    基于云控制的業(yè)務(wù)服務(wù)機(jī)器人系統(tǒng)設(shè)計(jì)
    人工智能深度強(qiáng)化學(xué)習(xí)的原理與核心技術(shù)探究
    基于人工智能的無人機(jī)區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
    基于策略梯度算法的工作量證明中挖礦困境研究
    基于深度強(qiáng)化學(xué)習(xí)的圖像修復(fù)算法設(shè)計(jì)
    關(guān)于人工智能阿法元綜述
    商情(2019年14期)2019-06-15 10:20:13
    深度強(qiáng)化學(xué)習(xí)研究進(jìn)展
    国产高清有码在线观看视频| 十八禁网站免费在线| 天堂av国产一区二区熟女人妻| 99久久成人亚洲精品观看| 久久久久久久久久久丰满 | 久久久久精品国产欧美久久久| 午夜福利视频1000在线观看| 国产精品人妻久久久影院| 久久久久久久久大av| 久久精品国产自在天天线| 日韩欧美 国产精品| 国产极品精品免费视频能看的| 国产精品乱码一区二三区的特点| 国产亚洲精品av在线| 午夜精品一区二区三区免费看| 日本一本二区三区精品| 99热这里只有精品一区| 99久国产av精品| 老女人水多毛片| 久久国产精品人妻蜜桃| 国产熟女欧美一区二区| 国产伦精品一区二区三区视频9| 极品教师在线免费播放| 久久久久性生活片| 日日摸夜夜添夜夜添小说| 国产精品亚洲一级av第二区| 久久久久久久久大av| 啪啪无遮挡十八禁网站| 亚洲不卡免费看| 久久久久久久久久成人| 精品久久久久久,| 丰满乱子伦码专区| 一级黄片播放器| 国产探花在线观看一区二区| 99久久久亚洲精品蜜臀av| 国产91精品成人一区二区三区| 久久6这里有精品| 日本撒尿小便嘘嘘汇集6| 啦啦啦韩国在线观看视频| 欧美区成人在线视频| 少妇被粗大猛烈的视频| 日韩欧美免费精品| 国内精品久久久久久久电影| 欧美日本视频| 日韩人妻高清精品专区| 九九热线精品视视频播放| 欧美色视频一区免费| 中文在线观看免费www的网站| 黄色配什么色好看| 国产不卡一卡二| 欧美日韩乱码在线| 蜜桃亚洲精品一区二区三区| 看免费成人av毛片| 美女大奶头视频| 中文字幕熟女人妻在线| 久久草成人影院| 日日摸夜夜添夜夜添av毛片 | 一级av片app| 91在线观看av| 欧美日本亚洲视频在线播放| 欧美日韩乱码在线| 亚洲不卡免费看| 亚洲色图av天堂| 男人舔女人下体高潮全视频| 国产精品久久视频播放| 级片在线观看| 色哟哟哟哟哟哟| 波多野结衣高清作品| 性色avwww在线观看| 亚洲精品乱码久久久v下载方式| 日韩,欧美,国产一区二区三区 | 黄色丝袜av网址大全| 欧美不卡视频在线免费观看| 男女下面进入的视频免费午夜| 91在线精品国自产拍蜜月| 免费看av在线观看网站| 一个人看的www免费观看视频| 黄色女人牲交| 禁无遮挡网站| 看片在线看免费视频| 日本免费一区二区三区高清不卡| 国产精品精品国产色婷婷| 韩国av在线不卡| 午夜日韩欧美国产| 91av网一区二区| 欧美在线一区亚洲| 国产色爽女视频免费观看| av.在线天堂| 亚洲自偷自拍三级| 男人和女人高潮做爰伦理| 国产色婷婷99| 久久欧美精品欧美久久欧美| 在线观看美女被高潮喷水网站| 欧美中文日本在线观看视频| 网址你懂的国产日韩在线| 草草在线视频免费看| 色精品久久人妻99蜜桃| 亚洲三级黄色毛片| 少妇人妻一区二区三区视频| 久久6这里有精品| 国产一区二区在线观看日韩| 男人的好看免费观看在线视频| 国产综合懂色| 中文字幕av成人在线电影| 俄罗斯特黄特色一大片| 久久久久精品国产欧美久久久| 欧美三级亚洲精品| 天堂√8在线中文| 乱系列少妇在线播放| 在线播放无遮挡| 久久精品人妻少妇| 亚洲性夜色夜夜综合| 久久精品国产亚洲网站| 人人妻人人看人人澡| 此物有八面人人有两片| 免费大片18禁| 在线播放国产精品三级| 夜夜看夜夜爽夜夜摸| 哪里可以看免费的av片| 男人狂女人下面高潮的视频| 亚洲成人免费电影在线观看| 亚洲精品国产成人久久av| 国产淫片久久久久久久久| 免费一级毛片在线播放高清视频| 久久久久久九九精品二区国产| 欧美性猛交黑人性爽| 日本黄色片子视频| 在线观看66精品国产| 99热只有精品国产| 人妻少妇偷人精品九色| 18+在线观看网站| 亚洲 国产 在线| 99久久精品热视频| 人人妻人人澡欧美一区二区| 久久热精品热| 午夜免费成人在线视频| 成年女人永久免费观看视频| 春色校园在线视频观看| 非洲黑人性xxxx精品又粗又长| 亚洲欧美精品综合久久99| 精品久久久久久久久久久久久| 国产av一区在线观看免费| 久久久久久久久久成人| 久久久久国产精品人妻aⅴ院| 麻豆久久精品国产亚洲av| 少妇被粗大猛烈的视频| 精品乱码久久久久久99久播| 俄罗斯特黄特色一大片| 99久久精品国产国产毛片| 成人二区视频| 狂野欧美白嫩少妇大欣赏| 淫妇啪啪啪对白视频| 熟妇人妻久久中文字幕3abv| 国产极品精品免费视频能看的| 九色成人免费人妻av| 很黄的视频免费| 国产毛片a区久久久久| 国产精品一及| 亚洲欧美激情综合另类| 欧美不卡视频在线免费观看| 欧美精品国产亚洲| 婷婷丁香在线五月| 成人av一区二区三区在线看| 毛片一级片免费看久久久久 | 久久欧美精品欧美久久欧美| 桃红色精品国产亚洲av| 国产成人一区二区在线| 美女高潮喷水抽搐中文字幕| 男人狂女人下面高潮的视频| 久久香蕉精品热| 女生性感内裤真人,穿戴方法视频| 性欧美人与动物交配| 亚洲精品一卡2卡三卡4卡5卡| 国产精品人妻久久久影院| 欧美色欧美亚洲另类二区| 人妻制服诱惑在线中文字幕| 精品午夜福利在线看| x7x7x7水蜜桃| 九九在线视频观看精品| 欧美性感艳星| 99热这里只有是精品50| 在线观看一区二区三区| x7x7x7水蜜桃| 欧美日韩黄片免| 国产精品自产拍在线观看55亚洲| 观看免费一级毛片| 美女大奶头视频| 美女cb高潮喷水在线观看| 亚洲午夜理论影院| 久久这里只有精品中国| 亚洲人成伊人成综合网2020| 国产极品精品免费视频能看的| 乱人视频在线观看| 久久久久精品国产欧美久久久| 亚洲 国产 在线| 久久亚洲真实| 亚洲国产日韩欧美精品在线观看| 日韩欧美三级三区| 免费看av在线观看网站| 久久热精品热| 免费观看的影片在线观看| 中国美白少妇内射xxxbb| 男人舔女人下体高潮全视频| 三级毛片av免费| 又黄又爽又免费观看的视频| 精品久久国产蜜桃| 久久久久精品国产欧美久久久| 日韩欧美国产一区二区入口| 桃红色精品国产亚洲av| 熟妇人妻久久中文字幕3abv| 丰满乱子伦码专区| 在线播放国产精品三级| 91av网一区二区| 精品欧美国产一区二区三| 91狼人影院| 3wmmmm亚洲av在线观看| 五月玫瑰六月丁香| 国产亚洲精品久久久com| 欧美极品一区二区三区四区| 欧美激情国产日韩精品一区| www日本黄色视频网| 哪里可以看免费的av片| 亚洲av熟女| 亚洲欧美精品综合久久99| 少妇的逼水好多| 成人特级黄色片久久久久久久| 2021天堂中文幕一二区在线观| 噜噜噜噜噜久久久久久91| 简卡轻食公司| 特大巨黑吊av在线直播| 最近最新中文字幕大全电影3| 中国美白少妇内射xxxbb| 欧美三级亚洲精品| 亚洲熟妇中文字幕五十中出| 女人十人毛片免费观看3o分钟| 干丝袜人妻中文字幕| 久久久久久久久中文| 一区二区三区高清视频在线| 免费高清视频大片| 日日摸夜夜添夜夜添小说| 国产午夜福利久久久久久| 国产主播在线观看一区二区| 少妇人妻精品综合一区二区 | 欧美日韩亚洲国产一区二区在线观看| 人人妻人人澡欧美一区二区| 亚洲av免费高清在线观看| 欧美日韩瑟瑟在线播放| or卡值多少钱| av在线老鸭窝| 国内揄拍国产精品人妻在线| 久久久久性生活片| 12—13女人毛片做爰片一| 亚洲欧美日韩卡通动漫| 99久久精品一区二区三区| 久久久久久久久大av| 成人二区视频| 2021天堂中文幕一二区在线观| 久久久色成人| 国产老妇女一区| 国产伦人伦偷精品视频| 在线国产一区二区在线| 免费高清视频大片| 久久精品国产鲁丝片午夜精品 | 亚洲图色成人| 亚洲精品日韩av片在线观看| 日韩 亚洲 欧美在线| 亚洲成人免费电影在线观看| 国产精品久久视频播放| 免费无遮挡裸体视频| 淫秽高清视频在线观看| a级一级毛片免费在线观看| 我的女老师完整版在线观看| 欧美高清性xxxxhd video| 男人舔奶头视频| 国产成人影院久久av| 少妇熟女aⅴ在线视频| 国产一区二区激情短视频| 久久精品国产鲁丝片午夜精品 | 精品久久久久久久久久久久久| 深夜a级毛片| 在现免费观看毛片| 成年女人看的毛片在线观看| 国模一区二区三区四区视频| 一个人看的www免费观看视频| 18禁在线播放成人免费| av专区在线播放| 久久精品国产清高在天天线| 蜜桃久久精品国产亚洲av| 欧美日本亚洲视频在线播放| 免费在线观看成人毛片| 久久久久久九九精品二区国产| 亚洲va在线va天堂va国产| 国产精品国产高清国产av| 露出奶头的视频| 午夜精品一区二区三区免费看| 久久精品国产亚洲av香蕉五月| 成年免费大片在线观看| 日韩欧美国产一区二区入口| 三级毛片av免费| 精品一区二区三区人妻视频| 99riav亚洲国产免费| 人妻制服诱惑在线中文字幕| а√天堂www在线а√下载| 波多野结衣巨乳人妻| 美女黄网站色视频| 亚洲人成网站在线播| 国产真实伦视频高清在线观看 | 日本 av在线| 国产视频内射| 波多野结衣高清无吗| 毛片女人毛片| 不卡一级毛片| 亚洲最大成人手机在线| 一区二区三区激情视频| 日韩高清综合在线| 九九在线视频观看精品| 俺也久久电影网| 亚洲,欧美,日韩| 淫秽高清视频在线观看| 免费av观看视频| 99在线人妻在线中文字幕| 国产高清三级在线| 亚洲自偷自拍三级| 日韩大尺度精品在线看网址| 色吧在线观看| 午夜久久久久精精品| www日本黄色视频网| 成人鲁丝片一二三区免费| 人人妻,人人澡人人爽秒播| 可以在线观看的亚洲视频| 国产午夜福利久久久久久| www.www免费av| 日韩精品中文字幕看吧| 亚洲最大成人av| 99热精品在线国产| 波多野结衣高清作品| 麻豆精品久久久久久蜜桃| 九九在线视频观看精品| 亚洲欧美清纯卡通| 中国美白少妇内射xxxbb| 久久久成人免费电影| 人妻久久中文字幕网| 午夜福利18| 亚洲成a人片在线一区二区| 精品人妻偷拍中文字幕| 99在线视频只有这里精品首页| 波野结衣二区三区在线| 亚洲精华国产精华精| 老熟妇乱子伦视频在线观看| 亚洲精品影视一区二区三区av| 国产白丝娇喘喷水9色精品| 嫩草影院新地址| 久久久久免费精品人妻一区二区| 欧美日韩乱码在线| 国内精品一区二区在线观看| 久久6这里有精品| 成人高潮视频无遮挡免费网站| 国产精品女同一区二区软件 | 天天躁日日操中文字幕| 婷婷精品国产亚洲av| 岛国在线免费视频观看| 少妇高潮的动态图| 免费搜索国产男女视频| 网址你懂的国产日韩在线| 一个人观看的视频www高清免费观看| netflix在线观看网站| 色综合站精品国产| 亚洲国产日韩欧美精品在线观看| 欧美日韩乱码在线| 国产精品国产高清国产av| 99国产精品一区二区蜜桃av| 亚洲专区国产一区二区| 国模一区二区三区四区视频| 精品一区二区三区视频在线观看免费| 亚洲av免费高清在线观看| 国产一区二区三区视频了| 午夜福利视频1000在线观看| 99久久久亚洲精品蜜臀av| 99精品久久久久人妻精品| 久久久久久九九精品二区国产| 可以在线观看的亚洲视频| 中文字幕av成人在线电影| 三级毛片av免费| 国产精品久久久久久亚洲av鲁大| aaaaa片日本免费| 国产三级中文精品| 两人在一起打扑克的视频| 午夜免费成人在线视频| 蜜桃亚洲精品一区二区三区| 国产精品av视频在线免费观看| 国产精品久久电影中文字幕| 我的女老师完整版在线观看| 国产探花在线观看一区二区| 露出奶头的视频| 搡老熟女国产l中国老女人| 一级毛片久久久久久久久女| 99久久九九国产精品国产免费| 99久久无色码亚洲精品果冻| 国语自产精品视频在线第100页| 精品久久久久久久末码| 精品一区二区三区视频在线观看免费| 精品久久久久久久末码| 欧美激情国产日韩精品一区| 99久久中文字幕三级久久日本| 成人二区视频| 久久精品人妻少妇| 中亚洲国语对白在线视频| 免费一级毛片在线播放高清视频| 免费av毛片视频| 亚洲av电影不卡..在线观看| 国产午夜福利久久久久久| 亚洲国产精品成人综合色| 日日摸夜夜添夜夜添av毛片 | 午夜激情欧美在线| 不卡一级毛片| 男人的好看免费观看在线视频| 国产一级毛片七仙女欲春2| 一边摸一边抽搐一进一小说| 我的老师免费观看完整版| 精品午夜福利在线看| 国产精品电影一区二区三区| 欧美性猛交╳xxx乱大交人| 国产精品不卡视频一区二区| 女人十人毛片免费观看3o分钟| .国产精品久久| 日韩高清综合在线| ponron亚洲| 热99re8久久精品国产| 久久欧美精品欧美久久欧美| 特大巨黑吊av在线直播| 国产私拍福利视频在线观看| 中文字幕久久专区| 黄色视频,在线免费观看| 亚洲va日本ⅴa欧美va伊人久久| 欧美成人性av电影在线观看| 变态另类成人亚洲欧美熟女| 亚洲国产色片| 日本五十路高清| 婷婷丁香在线五月| 国产精品免费一区二区三区在线| 欧美最黄视频在线播放免费| 中文字幕熟女人妻在线| 国产精品一区二区三区四区免费观看 | av中文乱码字幕在线| 亚洲一区高清亚洲精品| 久久精品国产亚洲av香蕉五月| 日本一本二区三区精品| 露出奶头的视频| 免费看光身美女| 少妇猛男粗大的猛烈进出视频 | 99国产极品粉嫩在线观看| 长腿黑丝高跟| 中文字幕av在线有码专区| 国产伦人伦偷精品视频| 小说图片视频综合网站| 欧美色视频一区免费| 午夜福利在线在线| 国产精品久久电影中文字幕| 亚洲av免费在线观看| 99热精品在线国产| 欧美日韩乱码在线| 欧美日韩综合久久久久久 | 韩国av一区二区三区四区| 日本免费a在线| 欧美不卡视频在线免费观看| 精品欧美国产一区二区三| 99国产极品粉嫩在线观看| 成熟少妇高潮喷水视频| 亚洲精品色激情综合| a级一级毛片免费在线观看| 国产黄色小视频在线观看| 国产高清不卡午夜福利| 国产麻豆成人av免费视频| 亚洲乱码一区二区免费版| 色av中文字幕| 亚洲av美国av| 亚洲精华国产精华液的使用体验 | 噜噜噜噜噜久久久久久91| 亚洲国产精品合色在线| 亚洲va在线va天堂va国产| 亚洲 国产 在线| 老司机福利观看| 99久久中文字幕三级久久日本| 亚洲av中文字字幕乱码综合| 欧美zozozo另类| 九九在线视频观看精品| x7x7x7水蜜桃| 久久99热这里只有精品18| 窝窝影院91人妻| 深爱激情五月婷婷| 九九在线视频观看精品| 国内精品久久久久久久电影| 一区福利在线观看| 黄色欧美视频在线观看| 欧美性猛交╳xxx乱大交人| 波野结衣二区三区在线| 亚洲人与动物交配视频| 日本 av在线| 成人一区二区视频在线观看| 狠狠狠狠99中文字幕| 亚洲电影在线观看av| 国产日本99.免费观看| 男女做爰动态图高潮gif福利片| 大又大粗又爽又黄少妇毛片口| 黄色视频,在线免费观看| .国产精品久久| 国产精品美女特级片免费视频播放器| 欧美bdsm另类| 日日夜夜操网爽| 一个人免费在线观看电影| 熟女电影av网| 两人在一起打扑克的视频| www.色视频.com| 成人精品一区二区免费| 嫩草影院入口| 老熟妇仑乱视频hdxx| 人妻久久中文字幕网| 免费高清视频大片| 日韩,欧美,国产一区二区三区 | 精品人妻视频免费看| 尤物成人国产欧美一区二区三区| 琪琪午夜伦伦电影理论片6080| 亚洲欧美日韩东京热| 日本欧美国产在线视频| 搡老岳熟女国产| 久久久精品大字幕| 在线观看美女被高潮喷水网站| 成人特级黄色片久久久久久久| 国产视频内射| 97超视频在线观看视频| 国产精品99久久久久久久久| 高清毛片免费观看视频网站| 亚洲乱码一区二区免费版| 最近最新中文字幕大全电影3| 国产精品精品国产色婷婷| 在线观看免费视频日本深夜| 亚洲成a人片在线一区二区| 99久久中文字幕三级久久日本| 在线观看舔阴道视频| 性色avwww在线观看| 免费看a级黄色片| 最近最新中文字幕大全电影3| 美女xxoo啪啪120秒动态图| 亚洲中文字幕日韩| 久久久国产成人精品二区| 亚洲18禁久久av| 国产精品99久久久久久久久| 久久久色成人| 男人舔女人下体高潮全视频| 精品久久久久久久人妻蜜臀av| 亚洲精品影视一区二区三区av| 亚洲精品亚洲一区二区| 久久精品国产亚洲av天美| 国产一区二区亚洲精品在线观看| 免费av不卡在线播放| 韩国av在线不卡| 我的女老师完整版在线观看| 熟妇人妻久久中文字幕3abv| 好男人在线观看高清免费视频| 3wmmmm亚洲av在线观看| 天堂av国产一区二区熟女人妻| 丝袜美腿在线中文| 97碰自拍视频| 国产大屁股一区二区在线视频| 乱人视频在线观看| 动漫黄色视频在线观看| 成人二区视频| 国产成人福利小说| 免费av不卡在线播放| xxxwww97欧美| 在线免费观看的www视频| 国产探花极品一区二区| 久久久色成人| 一区福利在线观看| 色综合婷婷激情| 亚洲欧美清纯卡通| 精华霜和精华液先用哪个| 大又大粗又爽又黄少妇毛片口| 少妇猛男粗大的猛烈进出视频 | 99久久久亚洲精品蜜臀av| 欧美高清性xxxxhd video| 国产一区二区三区在线臀色熟女| 久久精品91蜜桃| 成人鲁丝片一二三区免费| АⅤ资源中文在线天堂| 99久久九九国产精品国产免费| 非洲黑人性xxxx精品又粗又长| 国产私拍福利视频在线观看| 不卡视频在线观看欧美| 麻豆成人午夜福利视频| 久久99热这里只有精品18| 欧美日韩国产亚洲二区| 国产淫片久久久久久久久| 久久婷婷人人爽人人干人人爱| 91狼人影院| 久久精品国产亚洲网站| 88av欧美| 成年版毛片免费区| 在线免费观看不下载黄p国产 | 亚洲国产日韩欧美精品在线观看| 久久久久九九精品影院| 亚洲 国产 在线| 精品日产1卡2卡| 久久久久久伊人网av| 久久久久精品国产欧美久久久| 香蕉av资源在线| 淫妇啪啪啪对白视频| 国产精品免费一区二区三区在线| 大又大粗又爽又黄少妇毛片口| 有码 亚洲区| 在线播放无遮挡| 嫩草影院入口| 人妻夜夜爽99麻豆av| 夜夜夜夜夜久久久久| 婷婷六月久久综合丁香|