• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    支持重規(guī)劃的戰(zhàn)時(shí)保障動(dòng)態(tài)調(diào)度研究

    2023-08-04 13:57:30李厚樸
    自動(dòng)化學(xué)報(bào) 2023年7期
    關(guān)鍵詞:分隊(duì)調(diào)度決策

    曾 斌 樊 旭 李厚樸

    作為作戰(zhàn)力量的倍增器,后裝保障系統(tǒng)在現(xiàn)代戰(zhàn)場上扮演著非常重要的角色.它的主要功能是利用有限的保障資源,在最短時(shí)間內(nèi)及時(shí)高效地為前線部隊(duì)提供急需的作戰(zhàn)物質(zhì).在海上分布式殺傷和大規(guī)模登陸作戰(zhàn)等戰(zhàn)場背景下,由于遠(yuǎn)離本土作戰(zhàn),前進(jìn)基地或預(yù)置基地保障資源有限,在分布式協(xié)同作戰(zhàn)模式下,保障需求點(diǎn)增多,而且保障需求頻率也大幅提高.這種情況下,一個(gè)高效的戰(zhàn)時(shí)后裝保障系統(tǒng)需要解決的問題包括:

    1)當(dāng)作戰(zhàn)部隊(duì)發(fā)出保障需求時(shí),如何選擇合適的保障分隊(duì)處理該需求;

    2)每一個(gè)保障基地需要分配多少保障分隊(duì)(負(fù)責(zé)投送作戰(zhàn)物質(zhì)或維修作戰(zhàn)裝備);

    3)當(dāng)作戰(zhàn)部隊(duì)發(fā)出保障需求時(shí),如何選擇合適的保障分隊(duì)處理該需求;

    4)當(dāng)保障分隊(duì)不夠時(shí),如果出現(xiàn)優(yōu)先級高的保障需求,能否中斷當(dāng)前保障任務(wù)重新規(guī)劃;

    5)當(dāng)保障分隊(duì)完成任務(wù)后,如何根據(jù)當(dāng)前戰(zhàn)場態(tài)勢部署至更為優(yōu)化的地址.

    以上問題中,前3 個(gè)問題已經(jīng)有較多研究并得到較好解決,例如,昝翔等[1]和何巖等[2]分別利用遺傳算法解決了維修任務(wù)-維修單元的指派,曹繼平等[3]給出了資源沖突時(shí)的優(yōu)化調(diào)度方案;曾斌等[4]利用混合Petri 網(wǎng)建立了流程模型并提出了基于退火進(jìn)化的保障單元調(diào)度算法,任帆等[5]指出巡回維修中“預(yù)測性”策略要優(yōu)于“最近修理組”策略,但沒有給出具體的預(yù)測算法.

    而后2 個(gè)問題可以看作前3 個(gè)問題的延伸,即在給定一定數(shù)量預(yù)置保障基地及每個(gè)保障基地預(yù)分配了一定數(shù)量的保障分隊(duì)情況下,當(dāng)出現(xiàn)新的保障申請時(shí),如果當(dāng)前沒有空閑的保障分隊(duì),如何重分配保障任務(wù)及重部署保障分隊(duì).這一直以來也是后裝保障的一個(gè)老大難問題,陳春良等[6]在研究展望中專門指出目前關(guān)于裝備維修任務(wù)調(diào)度的研究大多將其視為非搶占調(diào)度,易導(dǎo)致維修任務(wù)調(diào)度不合理、維修資源利用不充分等問題,急需開展搶占調(diào)度方向研究.

    由于允許搶占拓展了解空間,所以需要尋優(yōu),而常規(guī)方法難以優(yōu)化裝備的搶占調(diào)度及重規(guī)劃,因此需要從智能化保障技術(shù)入手,只有能夠?qū)笱b保障與配屬情況進(jìn)行合理性預(yù)測,才能制定魯棒性強(qiáng)的保障計(jì)劃與投送方案[7],從而能夠根據(jù)戰(zhàn)場環(huán)境變化,預(yù)見性地做出重規(guī)劃決策.

    作為預(yù)測決策的關(guān)鍵技術(shù)之一,以馬爾科夫決策過程(Markov decision process,MDP)為基礎(chǔ)結(jié)構(gòu)的強(qiáng)化學(xué)習(xí)逐漸在智能化應(yīng)急服務(wù)中得到了應(yīng)用并取得顯著成果[8-9],包括: 救護(hù)車的調(diào)度[10]、醫(yī)療資源的分配[11-12]、災(zāi)后救援優(yōu)化策略[13-14]、戰(zhàn)場傷員的疏散方案[15]以及應(yīng)急電力系統(tǒng)的自適應(yīng)控制[16-17]等,這些研究給予本文以智能決策技術(shù)上的啟發(fā),但同樣也沒有解決重規(guī)劃問題.

    本文的思路如下: 首先建立戰(zhàn)時(shí)保障動(dòng)態(tài)調(diào)度問題的MDP 模型;其次提出了該MDP 模型的求解方法.基于強(qiáng)化學(xué)習(xí)的試探-獎(jiǎng)勵(lì)-修正(策略迭代)自學(xué)習(xí)方式,生成不同保障需求事件下的狀態(tài)-動(dòng)作序列,以此作為樣本數(shù)據(jù)來訓(xùn)練保障調(diào)度神經(jīng)網(wǎng)絡(luò)模型.這樣在實(shí)戰(zhàn)過程中,當(dāng)戰(zhàn)場環(huán)境發(fā)生變化引發(fā)新的保障需求時(shí),不同的保障決策動(dòng)作將導(dǎo)致系統(tǒng)狀態(tài)發(fā)生改變,通過訓(xùn)練好的保障調(diào)度神經(jīng)網(wǎng)絡(luò)可以快速計(jì)算改變后狀態(tài)的價(jià)值,其中導(dǎo)致狀態(tài)價(jià)值最大的決策即為最優(yōu)決策.

    本文主要貢獻(xiàn)包括:

    1)定義了支持重規(guī)劃的后裝保障動(dòng)態(tài)調(diào)度問題,建立了支持重規(guī)劃(搶占調(diào)度、重分配及重部署)決策的MDP 模型和求解算法;

    2)在重規(guī)劃MDP 模型中綜合考量了任務(wù)排隊(duì)、保障優(yōu)先級以及油料約束等問題的影響;

    3)為了解決重規(guī)劃MDP 模型狀態(tài)動(dòng)作空間過大引起的“維度災(zāi)”問題,借鑒了深度學(xué)習(xí)思想[18],提出利用神經(jīng)網(wǎng)絡(luò)對基函數(shù)進(jìn)行非線性組合,從而逼近MDP 值函數(shù),降低了計(jì)算復(fù)雜度;

    4)采用決策后狀態(tài)思想[19]降低了隨機(jī)事件引起的計(jì)算復(fù)雜度.

    1 馬爾科夫決策模型

    1.1 狀態(tài)空間

    MDP 的狀態(tài)設(shè)計(jì)非常重要,如果維度過大會影響求解算法的收斂,過小則可能不足以用來描述系統(tǒng)的決策函數(shù)、狀態(tài)轉(zhuǎn)移函數(shù)以及獎(jiǎng)勵(lì)函數(shù).本文設(shè)計(jì)保障系統(tǒng)的狀態(tài)S(t,e,M,R),其中,t為當(dāng)前時(shí)間,e表示當(dāng)前事件類型,M為列表類型,表示各個(gè)保障分隊(duì)的所處狀態(tài),R為列表類型,表示當(dāng)前待處理的各個(gè)保障需求的狀況.

    1.1.1 事件類型

    系統(tǒng)狀態(tài)隨著事件的產(chǎn)生而變化,為此本文定義7 種事件類型,即e(S)1,2,···,7}.e(S)1表示產(chǎn)生了保障需求需要處理;e(S)2 表示保障分隊(duì)到達(dá)保障倉庫 (如果保障倉庫與保障分隊(duì)處于同一保障基地,則不用產(chǎn)生此事件);e(S)3 表示保障分隊(duì)在保障倉庫領(lǐng)取到本次任務(wù)需要的物質(zhì)或備品備件;e(S)4表示保障分隊(duì)到達(dá)需求點(diǎn);e(S)5表示保障分隊(duì)完成當(dāng)前保障任務(wù);e(S)6 表示保障分隊(duì)返回保障基地;e(S)7 表示有保障分隊(duì)處于待命狀態(tài).

    1.1.2 保障分隊(duì)狀態(tài)

    保障分隊(duì)狀態(tài)列表表示為:M[Mm]m∈M′[M1,M2,···],其中,M′{1,2,···},表示系統(tǒng)中所有保障分隊(duì)集合,列表中每個(gè)組成元素都為一個(gè)數(shù)組,可表示為

    1.1.3 保障需求狀態(tài)

    保障需求狀態(tài)列表可表示為:R[Rr]r∈R′[R1,R2,···],其中,R′{1,2,···},表示保障需求隊(duì)列中待處理的所有保障需求集合,列表中每個(gè)組成元素都為一個(gè)數(shù)組,可表示為

    如果當(dāng)前沒有保障需求,Rr(0,0,0,0,0);如果某個(gè)保障需求已被完成,則該需求將會移出隊(duì)列.另外保障隊(duì)列中等待的需求有一個(gè)最大閾值rmax|R′|,它表示保障系統(tǒng)能夠支持的保障需求最大數(shù)量.

    以上狀態(tài)相對獨(dú)立,可以假設(shè)其滿足馬爾科夫過程無后效性性質(zhì).其中時(shí)間狀態(tài)即指當(dāng)前的時(shí)刻,因?yàn)檩^簡單,可以忽略.

    1.2 決策空間

    1.2.1 決策變量

    為了描述決策空間,首先定義如下集合.

    1)B{1,2,···,|B|}表示保障基地集合;

    2)Q(S){r:′,0}表示當(dāng)系統(tǒng)狀態(tài)為S時(shí),在隊(duì)列中等待分派保障分隊(duì)處理的保障需求集合;

    3)A1(S){m:′,1,6,7,8}}表示當(dāng)系統(tǒng)狀態(tài)為S時(shí),可以分派執(zhí)行保障任務(wù)的保障分隊(duì)集合;

    4)A2(S){m:′,2,3}}表示當(dāng)系統(tǒng)狀態(tài)為S時(shí),可以重規(guī)劃保障任務(wù)的保障分隊(duì)集合;

    5)A3(S){m:′,6}表示當(dāng)系統(tǒng)狀態(tài)為S時(shí),可以重部署的保障分隊(duì)集合.

    本文中決策變量設(shè)計(jì)為3 個(gè)布爾變量,定義如下:

    1)Xmr1表示第m支保障分隊(duì)被分派執(zhí)行保障需求r,否則為0;

    2)Ymr1表示第m支保障分隊(duì)被命令中斷當(dāng)前保障任務(wù),重規(guī)劃執(zhí)行新的保障任務(wù)r,否則為0;

    3)Zmb1表示第m支保障分隊(duì)被重部署至保障基地b,否則為0.

    1.2.2 決策約束

    決策約束分以下4 種情況討論.

    情況 1.當(dāng)Q(S)?(存在待處理保障需求) 且發(fā)生事件類型為e(S)1,2,3,4,6,7}時(shí),保障指揮人員需要執(zhí)行2 個(gè)決策: 分派任務(wù)和重規(guī)劃任務(wù).其中,分派任務(wù)負(fù)責(zé)分派哪一個(gè)保障分隊(duì)執(zhí)行隊(duì)列中等待處理的保障任務(wù);當(dāng)沒有可用保障分隊(duì)且出現(xiàn)高優(yōu)先級任務(wù)時(shí),由重規(guī)劃任務(wù)決定中斷哪一個(gè)保障分隊(duì)的當(dāng)前任務(wù),轉(zhuǎn)去執(zhí)行新的保障任務(wù).

    這種情況下存在如下5 種決策約束:

    1)約束一個(gè)任務(wù)只需要一支分隊(duì)處理,如果需要多支分隊(duì)處理一個(gè)任務(wù),可以組合成一個(gè)分隊(duì),或放松此約束,即

    2)約束一支保障分隊(duì)一次只能分派執(zhí)行一個(gè)保障任務(wù),如果需要一支分隊(duì)一次執(zhí)行多個(gè)保障任務(wù)時(shí),可以把一個(gè)保障分隊(duì)分解為多支分隊(duì),或放松此約束,即

    3)約束一支保障分隊(duì)一次只能重規(guī)劃執(zhí)行一個(gè)保障任務(wù),即

    4)約束保障分隊(duì)一次只能分派執(zhí)行或重規(guī)劃執(zhí)行剩余油料距離之內(nèi)的保障任務(wù),設(shè)dmr表示保障支隊(duì)m與需求點(diǎn)r之間的距離,即

    設(shè)分派調(diào)度決策列表為

    設(shè)重規(guī)劃決策列表為

    情況1 下的決策空間表述為

    情況 2.當(dāng)Q(S)?(不存在待處理保障需求)且發(fā)生事件類型為e(S)5 (有保障分隊(duì)完成當(dāng)前保障任務(wù)) 時(shí),保障指揮人員需要決策保障分隊(duì)m的重部署地點(diǎn).注意此時(shí)A3(S){m}.設(shè)dmb為保障分隊(duì)m到基地b的距離,Imb為指示函數(shù),如果保障分隊(duì)m剩余油料可以到達(dá)某基地b,則為1,否則為0,其表達(dá)式為

    因此,有決策約束式為

    該約束表示每一個(gè)保障分隊(duì)只能部署到一個(gè)保障基地.設(shè)該情況下重部署決策列表為

    情況2 下的決策空間表述為

    情況 3.當(dāng)Q(S)?(存在待處理保障需求) 且發(fā)生事件類型為e(S)5 (有保障分隊(duì)完成當(dāng)前保障任務(wù)) 時(shí),保障指揮人員可以選擇以下3 種決策:

    1)分派任務(wù): 分派哪一個(gè)保障分隊(duì)執(zhí)行隊(duì)列中等待處理的保障任務(wù);

    2)重規(guī)劃任務(wù): 中斷哪一個(gè)保障分隊(duì)的當(dāng)前任務(wù),重安排其執(zhí)行新的保障任務(wù);

    3)重部署保障分隊(duì): 如果保障分隊(duì)m沒有分派執(zhí)行隊(duì)列中等待處理的保障需求,重部署m到哪一個(gè)基地.

    注意此時(shí)有A3(S){m}.約束表示為

    約束(7)表示如果存在可重部署的保障分隊(duì),且其沒有分派執(zhí)行隊(duì)列中的保障需求,則只能將它重部署到最多一個(gè)保障基地.此時(shí)決策空間表示為

    情況 4.如果沒有出現(xiàn)以上事件,也沒有發(fā)生以上3 種情況,則約束空間D4?.

    1.3 狀態(tài)轉(zhuǎn)移

    設(shè)第k個(gè)事件發(fā)生時(shí)保障系統(tǒng)所處狀態(tài)為Sk,保障系統(tǒng)通過決策動(dòng)作dk使得系統(tǒng)狀態(tài)從Sk演進(jìn)到Sk+1,并設(shè)隨機(jī)元素W(Sk,dk)表示系統(tǒng)處于Sk+1時(shí)發(fā)生的隨機(jī)事件信息,整個(gè)保障系統(tǒng)的演進(jìn)動(dòng)力模型可以表示為

    式中,ST表示狀態(tài)遷移函數(shù).

    1.4 獎(jiǎng)勵(lì)函數(shù)

    按照MDP 模型,當(dāng)有保障分隊(duì)調(diào)度 (分派或重規(guī)劃) 執(zhí)行保障任務(wù)時(shí),該決策行為將會獲得獎(jiǎng)勵(lì).獎(jiǎng)勵(lì)值的設(shè)計(jì)也是影響強(qiáng)化學(xué)習(xí)能力的重要因素,本文保障系統(tǒng)中需求優(yōu)先級、期望保障時(shí)間以及需求產(chǎn)生時(shí)刻等因素都會影響決策動(dòng)作的獎(jiǎng)勵(lì)值.設(shè)C(Sk,dk)表示在系統(tǒng)處于狀態(tài)Sk時(shí),如果采取決策dk將會獲得的立即獎(jiǎng)勵(lì)值,它的計(jì)算式設(shè)計(jì)為

    1.5 目標(biāo)函數(shù)及優(yōu)化方程

    基于給定策略π(一系列決策的組合),Dπ(Sk)(Sk)為從狀態(tài)空間到?jīng)Q策空間的決策函數(shù),用以指導(dǎo)在狀態(tài)Sk下采取策略dk.MDP 模型的目的也就是從所有可行策略中計(jì)算得到優(yōu)化策略π*,從而最大化系統(tǒng)的長遠(yuǎn)回報(bào).因此,系統(tǒng)目標(biāo)函數(shù)為

    式中,γ為一個(gè)固定的折扣因子,為了便于計(jì)算,Bellman 優(yōu)化方程利用迭代方式計(jì)算目標(biāo)函數(shù),其表達(dá)式為

    式中,V(Sk)為狀態(tài)Sk的值函數(shù).

    2 求解算法

    由于維度災(zāi)(式(11)的狀態(tài)空間維度過大)的影響,利用常規(guī)動(dòng)態(tài)規(guī)劃方法無法取得式(11)的精確解.為此,本文采用近似動(dòng)態(tài)規(guī)劃[20]的方法逼近式(11)的值函數(shù).

    2.1 隨機(jī)事件的計(jì)算

    另外,式(11)中還需要對期望值E[V(Sk+1)|Sk,dk]求極值,不僅計(jì)算量巨大而且會帶來較大的統(tǒng)計(jì)誤差,為此本文采用決策后狀態(tài)思想[21-22],將先求期望值后求極值問題轉(zhuǎn)換為先求極值后求期望值問題,從而降低了計(jì)算量和誤差.該思想在前后兩個(gè)狀態(tài)之間 (Sk和Sk+1) 引入了一個(gè)中間狀態(tài),即決策后狀態(tài)該狀態(tài)在決策發(fā)生后事件發(fā)生前出現(xiàn),屬于確定性狀態(tài),因此,原來式(8)的一步狀態(tài)轉(zhuǎn)移轉(zhuǎn)換為兩步,即

    其中,ST,x為確定性函數(shù),ST,x和ST,w組合后與式(8)的ST等價(jià).設(shè)決策后狀態(tài)的價(jià)值為

    將式(12)代入式(11),優(yōu)化方程修改為

    下面進(jìn)一步討論式(13)決策后狀態(tài)價(jià)值的計(jì)算,由于式(12)為迭代過程,可以有

    式(13)代入式(14)右邊,引入決策后狀態(tài)價(jià)值的優(yōu)化方程可表示為

    2.2 基函數(shù)的設(shè)計(jì)

    盡管式(15)通過引入決策后狀態(tài)變量減小了隨機(jī)事件帶來的計(jì)算復(fù)雜性和統(tǒng)計(jì)誤差,但是對于式(15)而言,復(fù)雜的狀態(tài)空間導(dǎo)致的維度災(zāi)問題仍然存在.為此,本文通過構(gòu)造基函數(shù)捕捉?jīng)Q策后狀態(tài)的特征,再以基函數(shù)為基礎(chǔ)來設(shè)計(jì)近似函數(shù)以便逼近式(15)表示的價(jià)值函數(shù).這里基函數(shù)的設(shè)計(jì)尤為重要[23-24],關(guān)系到最后近似價(jià)值函數(shù)的求解質(zhì)量.為此本文設(shè)計(jì)了6 種基函數(shù),通過它們的非線性組合(參見第2.3 節(jié)的神經(jīng)網(wǎng)絡(luò))來表示價(jià)值函數(shù).設(shè)φf()表示基函數(shù),f為基函數(shù)特征,f.

    1)第1 種基函數(shù)直接表示保障分隊(duì)狀態(tài),數(shù)量為|M′|,計(jì)算式為

    2)第2 種基函數(shù)捕捉保障分隊(duì)執(zhí)行保障任務(wù)(服務(wù)-客戶對)的期望服務(wù)時(shí)間,數(shù)量為|M′|.設(shè)Imr為指示函數(shù),如果保障分隊(duì)m當(dāng)前執(zhí)行的保障任務(wù)為r,則為1,否則為0,計(jì)算式為

    3)第3 種基函數(shù)捕捉保障分隊(duì)執(zhí)行保障任務(wù)的優(yōu)先級,數(shù)量為|M′|,計(jì)算式為

    4)第4 種基函數(shù)捕捉當(dāng)前在隊(duì)列中等待處理的保障需求優(yōu)先級,數(shù)量為|R′|,計(jì)算式為

    5)第5 種基函數(shù)捕捉每一個(gè)需求在系統(tǒng)中的逗留時(shí)間,數(shù)量為|R′|,計(jì)算式為

    6)第6 種基函數(shù)捕捉每一個(gè)保障分隊(duì)與保障申請點(diǎn)的距離,數(shù)量為|M′|×|R′|,該基函數(shù)結(jié)合保障分隊(duì)的狀態(tài)可以知道哪一個(gè)保障分隊(duì)有足夠油料分派或重規(guī)劃到某需求點(diǎn),其計(jì)算式為

    2.3 神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)

    由于保障系統(tǒng)狀態(tài)空間和決策空間較為復(fù)雜,常規(guī)線性基函數(shù)組合的效果將會因此受到較大影響.所以本文以基函數(shù)的輸出結(jié)果作為神經(jīng)網(wǎng)絡(luò)輸入,即利用神經(jīng)網(wǎng)絡(luò)對基函數(shù)進(jìn)行非線性組合[25],從而達(dá)到逼近式(15)值函數(shù)的目的.

    為了使學(xué)習(xí)后的神經(jīng)網(wǎng)絡(luò)能夠近似表達(dá)值函數(shù),本文設(shè)計(jì)了3 層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu): 輸入層、隱藏層和輸出層.如圖1 所示,輸入層包含|F| 個(gè)輸入,它的值為基函數(shù)的輸出,如圖1 中?1,1表示第1 類基函數(shù)的第1 個(gè)函數(shù)輸出值,輸入節(jié)點(diǎn)個(gè)數(shù)為6 類基函數(shù)的總個(gè)數(shù),輸入層沒有激活單元.為了減小基函數(shù)評估值的波動(dòng),幫助神經(jīng)網(wǎng)絡(luò)反向傳播算法能夠快速找到權(quán)重矩陣,在輸入到輸入層之前,本文對基函數(shù)評估值進(jìn)行了均值歸一化.

    圖1 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示例Fig.1 Illustration of neural network structure

    隱藏層包括H{1,2,···,|H|}個(gè)神經(jīng)元,其個(gè)數(shù)|H| 為超參數(shù),所以隱藏層的輸入表達(dá)式為

    式中,Ih表示隱藏層中第h個(gè)神經(jīng)元的輸入,θf,h為|F|×|H| 的權(quán)重矩陣,控制輸入層到隱藏層的映射關(guān)系,隱藏層神經(jīng)元的激活函數(shù)為sigmoid 函數(shù),表示為

    因此,隱藏層的輸出表達(dá)式為

    其中,Oh為第h個(gè)神經(jīng)元的輸出,|H| 個(gè)隱藏層神經(jīng)元輸出與輸出層權(quán)重組合生成輸出層的輸入,其表達(dá)式為

    式中,θh為|H|×1 的權(quán)重矩陣,控制隱藏層到輸出層的映射關(guān)系,輸出層只有一個(gè)神經(jīng)元,激活函數(shù)與隱藏層的相同,也為sigmoid 函數(shù),其表達(dá)式為

    式中,θ(θf,h,θh) 為神經(jīng)網(wǎng)絡(luò)中需要學(xué)習(xí)的權(quán)重參數(shù).

    2.4 神經(jīng)網(wǎng)絡(luò)權(quán)重學(xué)習(xí)算法的設(shè)計(jì)

    本文設(shè)計(jì)了基于強(qiáng)化學(xué)習(xí)策略迭代[26]的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,如圖2 所示,算法分為2 層循環(huán),第1 層循環(huán)(內(nèi)層循環(huán))為策略評估,利用給定策略(上一次循環(huán)更新的神經(jīng)網(wǎng)絡(luò)),在模擬產(chǎn)生的事件驅(qū)動(dòng)下,生成動(dòng)態(tài)演進(jìn)的狀態(tài)價(jià)值并作為樣本點(diǎn)保存;第2 層循環(huán)(外層循環(huán))為策略改進(jìn),利用內(nèi)層循環(huán)保存的樣本點(diǎn)改進(jìn)神經(jīng)網(wǎng)絡(luò)的權(quán)重矩陣.

    圖2 策略迭代算法流程Fig.2 Workflow of policy iteration algorithm

    策略迭代算法外循環(huán)每次進(jìn)行策略改進(jìn)時(shí)都需要調(diào)用神經(jīng)網(wǎng)絡(luò)反向傳播算法對權(quán)重參數(shù)進(jìn)行訓(xùn)練,為了防止出現(xiàn)過擬合和泛化誤差,本文在神經(jīng)網(wǎng)絡(luò)代價(jià)函數(shù)中加入了懲罰項(xiàng),即

    其中,K個(gè)樣本點(diǎn)中,在步驟2.4 中存儲,為神經(jīng)網(wǎng)絡(luò)估算值;Vk在步驟2.7 中存儲,為標(biāo)簽值;正則化參數(shù)η用于平衡模型復(fù)雜度和邊際誤差.本文采用了自適應(yīng)預(yù)估方法來計(jì)算合適的η值,計(jì)算式為

    式中,v為樣本數(shù)據(jù)的均值,σv為樣本數(shù)據(jù)的標(biāo)準(zhǔn)差.

    需要計(jì)算得到θ*值,使得代價(jià)函數(shù)最小,即θ*argmin{L(θ)}.為了提高計(jì)算速度,本文采用擬牛頓法求解,擬牛頓法需要的梯度信息可以利用神經(jīng)網(wǎng)絡(luò)的反向傳播算法計(jì)算得到.

    為了平滑θ權(quán)重矩陣,本文采用式(20) 來更新θ:

    其中,an1/nβ,β(0.3,1],an的下標(biāo)值n與策略改進(jìn)外循環(huán)次數(shù)n一致,通過an控制θ值,在歷史值 (θ)與新估計(jì)值 (θ*) 之間取得平衡.隨著策略改進(jìn)迭代次數(shù)n的增加,本算法越來越偏重于過去n-1 次迭代得到的歷史值.

    在策略迭代算法的每一次外循環(huán) (策略改進(jìn))中,都會按式(18)對神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行更新,如果n<N,則算法開始下一輪循環(huán).算法中可調(diào)節(jié)參數(shù)包括N、K、|H|、η和β,其中,N為策略改進(jìn)的迭代次數(shù),K為策略評估的迭代次數(shù),|H| 為隱藏層節(jié)點(diǎn)的個(gè)數(shù),η是樣本估計(jì)的正則化項(xiàng),β是步長參數(shù).

    2.5 調(diào)度算法的使用時(shí)機(jī)及步驟

    建立的神經(jīng)網(wǎng)絡(luò)模型可以看作一個(gè)具有預(yù)測能力的調(diào)度機(jī).其使用時(shí)機(jī)為: 當(dāng)戰(zhàn)場態(tài)勢變化,例如出現(xiàn)新的保障申請,如第1.1 節(jié)描述的當(dāng)前系統(tǒng)狀態(tài)隨之改變.使用步驟如下:

    1)在第1.2.2 節(jié)描述的決策約束下,生成各種可能的決策動(dòng)作;

    2) 按第1.3 節(jié)狀態(tài)轉(zhuǎn)移矩陣,基于當(dāng)前狀態(tài),采取步驟1)生成的各種可能的決策動(dòng)作,形成下一步狀態(tài)集合S;

    3)將下一步狀態(tài)集合中的每一個(gè)狀態(tài)作為第2.2 節(jié)敘述的基函數(shù)輸入,基函數(shù)的輸出為第1 階段的線性預(yù)測值,用于降低計(jì)算復(fù)雜性;

    4)為了具有非線性預(yù)測能力,如圖1 所示,基函數(shù)的輸出作為神經(jīng)網(wǎng)絡(luò)模型的輸入,此時(shí)神經(jīng)網(wǎng)絡(luò)的輸出為下一步狀態(tài)的價(jià)值V(S),該價(jià)值為第2.4 節(jié)Bellman 方程迭代計(jì)算的 “期望” 價(jià)值;

    5)當(dāng)狀態(tài)集合S中的每一個(gè)狀態(tài)都經(jīng)過步驟3)和步驟4),計(jì)算出相應(yīng)期望價(jià)值后(該過程可以并行執(zhí)行),導(dǎo)致下一步狀態(tài)價(jià)值最大的決策可看作當(dāng)前最優(yōu)決策.

    3 實(shí)驗(yàn)驗(yàn)證

    本節(jié)通過一個(gè)分布式戰(zhàn)場保障場景來驗(yàn)證動(dòng)態(tài)調(diào)度算法的適用性.由于MDP 求解算法超參數(shù)較多,通過實(shí)驗(yàn)設(shè)計(jì)測試了不同參數(shù)設(shè)置對動(dòng)態(tài)算法的影響,并比較了動(dòng)態(tài)算法與兩個(gè)比對策略的性能差異.

    3.1 實(shí)驗(yàn)參數(shù)設(shè)置

    本文以圖3 所示的一個(gè)典型的分布式作戰(zhàn)行動(dòng)為背景,當(dāng)交戰(zhàn)區(qū)域中我方部隊(duì)發(fā)出保障申請后,使用上文提出的數(shù)學(xué)模型及逼近算法計(jì)算調(diào)度結(jié)果,即決定是否接受該申請,如果接受該申請,分派哪一支分隊(duì)處理.出于安全考慮,刪除了圖3 的背景地圖,圖3 中有2 個(gè)保障基地和2 個(gè)前進(jìn)基地,與保障基地相比,前進(jìn)基地較小,當(dāng)沒有申請所需物資裝備時(shí),需要從保障基地補(bǔ)充.圖3 中還包括54 個(gè)交戰(zhàn)地點(diǎn),即保障申請點(diǎn),分屬12 個(gè)區(qū)域,由其發(fā)出保障申請.

    圖3 實(shí)驗(yàn)案例Fig.3 Experiment case

    本文使用泊松分布生成保障需求的產(chǎn)生概率,為了能夠接近實(shí)戰(zhàn)背景,泊松分布的到達(dá)率參數(shù)由式(21)生成,即

    式中,λ為保障申請發(fā)生率;pz為條件概率,表示當(dāng)發(fā)生保障申請時(shí),該申請是從交戰(zhàn)區(qū)域z發(fā)出的概率;pkz為條件概率,表示當(dāng)出現(xiàn)保障申請且該申請從交戰(zhàn)區(qū)域z發(fā)出時(shí),該申請優(yōu)先級為k的概率.實(shí)驗(yàn)中保障申請發(fā)生率λ設(shè)為1/45,即平均每隔45 min發(fā)出一個(gè)保障申請,請求保障分隊(duì)執(zhí)行任務(wù).為了集中反映系統(tǒng)的調(diào)度能力,條件概率pkz中緊急保障和一般保障的比例為0.8和0.2.式(9)中緊急保障的優(yōu)先級權(quán)重為0.9,一般保障的權(quán)重為0.1,式(10)中折扣因子γ在實(shí)驗(yàn)中設(shè)為0.99,該設(shè)置使得系統(tǒng)重視未來事件的影響.

    為了檢驗(yàn)動(dòng)態(tài)算法的性能,實(shí)驗(yàn)設(shè)計(jì)了2 個(gè)比對策略.比對策略A 采用常規(guī)的最近分配原則,該策略認(rèn)為當(dāng)前沒有執(zhí)行任務(wù)的保障分隊(duì)為可用資源,當(dāng)出現(xiàn)保障申請時(shí),分配離該申請點(diǎn)(交戰(zhàn)區(qū)域)最近的可用分隊(duì)執(zhí)行此項(xiàng)保障任務(wù),比對策略A 不具備搶占調(diào)度能力.比對策略B 將比對策略A 進(jìn)行了擴(kuò)展,當(dāng)出現(xiàn)優(yōu)先級更高的保障申請時(shí),允許其搶占其他保障分隊(duì)當(dāng)前執(zhí)行的低優(yōu)先級任務(wù).兩個(gè)比對策略使用的都是最近分配原則,該原則實(shí)際上只考慮當(dāng)前的立即獎(jiǎng)勵(lì)進(jìn)行決策(與式(9)相似),沒有用到預(yù)測的未來信息(式(10)).另外,由于立即獎(jiǎng)勵(lì)沒有考慮重部署決策,所以這兩個(gè)比對策略都不具備重部署能力.

    3.2 超參數(shù)調(diào)整

    本文采用了全因子實(shí)驗(yàn)設(shè)計(jì)來檢驗(yàn)不同的超參數(shù)對算法性能的影響,主要超參數(shù)設(shè)置如下: 策略改進(jìn)迭代次數(shù)N{1,2,···,40},策略評估迭代次數(shù)K{500,1 000,2 000,4 000},步長參數(shù)β{0.3,0.5,0.7,0.9},隱藏層節(jié)點(diǎn)數(shù)|H|7,正則化項(xiàng)η采用自適應(yīng)預(yù)估方法計(jì)算.為了能夠得到合理的置信度,每一個(gè)組合運(yùn)行100 遍仿真,每次仿真時(shí)長為1 000 min 以上.仿真實(shí)驗(yàn)結(jié)果如表1 所示,其中,性能相對改進(jìn)量計(jì)算式為

    表1 仿真實(shí)驗(yàn)結(jié)果Table 1 Simulation results

    其中,Vi為采用i算法計(jì)算得到的價(jià)值,Vj為采用j算法計(jì)算得到的價(jià)值,表1 中Impr1,A和Impr1,B分別為本文基于神經(jīng)網(wǎng)絡(luò)的動(dòng)態(tài)算法相較于比對策略A和策略B 得到的性能相對改進(jìn)量.

    另外,為了考量神經(jīng)網(wǎng)絡(luò)模型的性能,設(shè)計(jì)了基函數(shù)的線性回歸模型作為比較算法,Impr2,A和Impr2,B分別為線性回歸模型相較于比對策略A和策略B 得到的性能相對改進(jìn)量.表1 中仿真結(jié)果數(shù)據(jù)的置信度都為95%.

    表1 中左邊3 列為仿真實(shí)驗(yàn)中設(shè)置的算法參數(shù)組合,為了節(jié)省篇幅,其中N值只取 (K,β) 因子組合中算法性能最大的取值,其他4 列表示動(dòng)態(tài)算法相較于兩個(gè)比對策略的總獎(jiǎng)勵(lì)回報(bào) (式(15)) 的提高率,取置信度為95%的置信區(qū)間.從表1 中可以看出,當(dāng)λ1/45 時(shí),無論哪一種參數(shù)組合,重規(guī)劃動(dòng)態(tài)調(diào)度算法生成的方案都要優(yōu)于比對策略,特別是當(dāng)N28,K2 000,β0.5 時(shí) (表1 中粗體字所示) 效果最好.另外,近似函數(shù)為神經(jīng)網(wǎng)絡(luò)模型時(shí),調(diào)度性能要明顯超過基于線性回歸模型的近似函數(shù),這主要是因?yàn)檎{(diào)度算法中用基函數(shù)表示的影響因素相互交織,呈非線性關(guān)系,所以用神經(jīng)網(wǎng)絡(luò)擬合效果較好.

    3.3 性能指標(biāo)比較測試

    圖4 顯示了策略評估迭代次數(shù)K2 000 時(shí),無論步長參數(shù)β取何值,相較于比對策略A,動(dòng)態(tài)調(diào)度算法的性能都為最佳值.當(dāng)K在增加到2 000前,動(dòng)態(tài)算法的性能逐漸提高;當(dāng)大于2 000 后,性能開始下降;在4 000 次迭代時(shí)性能明顯下降.主要原因是在K4 000 時(shí),本仿真實(shí)驗(yàn)的樣本數(shù)據(jù)集增加到一定閾值,導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型過擬合,從而產(chǎn)生低效率的調(diào)度結(jié)果.另外,從表1和圖4 都可以看出,β取較小值 (0.3 或0.5) 時(shí),算法收斂速度較慢,能夠增加算法的調(diào)度效果.

    圖4 相較于比對策略A 的性能改進(jìn)Fig.4 Improvement compared to policy A

    表2 的第1 列為調(diào)度策略;第2 列和第3 列分別為當(dāng)N28,K2 000,β0.5 時(shí),不同優(yōu)先級的保障申請響應(yīng)時(shí)間 (從發(fā)出申請至保障分隊(duì)到達(dá)的時(shí)間間隔) 的置信區(qū)間 (置信度為95%);第4 列為調(diào)度方案V值提高百分比的置信區(qū)間.從表2 可以看出,具備搶占調(diào)度能力的策略B和動(dòng)態(tài)調(diào)度算法都比不具備搶占能力的策略A 性能好,另外還有一個(gè)現(xiàn)象也需要引起注意,隨著第4 列顯示的性能提高,在緊急保障申請的響應(yīng)時(shí)間減少的同時(shí),一般保障申請的響應(yīng)時(shí)間卻在增加.估計(jì)這與搶占調(diào)度特性有關(guān),它搶占低優(yōu)先級保障任務(wù)轉(zhuǎn)而去執(zhí)行高優(yōu)先級任務(wù),導(dǎo)致低優(yōu)先級任務(wù)服務(wù)時(shí)間延長.

    表2 動(dòng)態(tài)算法和比對策略的性能比較Table 2 Comparison of the algorithms and policies

    為了進(jìn)一步檢驗(yàn)算法的魯棒性,在模擬一天24 小時(shí)的保障仿真中,對保障申請發(fā)生率λ和交戰(zhàn)區(qū)域位置進(jìn)行了數(shù)次改變.從圖5 中可以看出,響應(yīng)時(shí)間也相應(yīng)發(fā)生了較大波動(dòng),但是動(dòng)態(tài)調(diào)度算法性能還是明顯好于比對策略.

    圖5 響應(yīng)時(shí)間變化情況Fig.5 Response delay with time

    保障申請率的變化對調(diào)度系統(tǒng)也有較大影響,為此,設(shè)置保障申請發(fā)生率λ從1/25 減小到1/65,圖6 反映了動(dòng)態(tài)調(diào)度算法和比對策略B 相較于策略A 的性能相對改進(jìn)量變化情況.λ減小意味著保障申請發(fā)生率減小,動(dòng)態(tài)調(diào)度算法和策略B 的性能相對改進(jìn)量也逐漸減小,表示搶占調(diào)度和重部署帶來的性能優(yōu)勢也在減小,因此在低強(qiáng)度戰(zhàn)場上動(dòng)態(tài)調(diào)度算法性能優(yōu)勢不明顯,在保障申請率較高的高強(qiáng)度戰(zhàn)場上搶占調(diào)度和重部署能力才能取得較明顯的效果.

    圖6 保障申請發(fā)生率的敏感性分析Fig.6 Sensitivity analysis of maintenance request occurrence rate

    4 性能定性分析

    最后通過4 個(gè)場景來定性分析重規(guī)劃能力的優(yōu)勢.第1 個(gè)場景狀態(tài)中,假設(shè)某作戰(zhàn)部隊(duì)申請后裝保障,此時(shí)只有離它較遠(yuǎn)的保障分隊(duì)空閑,離它較近的保障分隊(duì)預(yù)測能在較短時(shí)間內(nèi)完成正在執(zhí)行的任務(wù).由于比對策略A和B 缺乏預(yù)測能力,會把較遠(yuǎn)的空閑保障分隊(duì)分派出去,而動(dòng)態(tài)調(diào)度算法需要最大化基于長期回報(bào)的獎(jiǎng)勵(lì)函數(shù),所以先把該次申請放入隊(duì)列,等候較近的保障分隊(duì)空閑后再分派.

    在第2 個(gè)場景的系統(tǒng)狀態(tài)中,某保障分隊(duì)剛被分派執(zhí)行某高烈度區(qū)域的一個(gè)低優(yōu)先級保障任務(wù),這時(shí)同樣區(qū)域發(fā)出了一個(gè)高優(yōu)先級保障申請,此狀態(tài)下,除非指揮員發(fā)出新的分派指令,否則策略A將保持該保障分隊(duì)的任務(wù)不變.很明顯此時(shí)好的調(diào)度算法應(yīng)該主動(dòng)中斷保障分隊(duì)的當(dāng)前任務(wù),重新分派它執(zhí)行高優(yōu)先級的緊急任務(wù),從而取得更高的回報(bào)價(jià)值.

    考慮第3 個(gè)場景的系統(tǒng)狀態(tài),某保障分隊(duì)剛被分派執(zhí)行某高烈度區(qū)域的一個(gè)低優(yōu)先級保障任務(wù),這時(shí)另一個(gè)較遠(yuǎn)距離的低烈度區(qū)域發(fā)出高優(yōu)先級保障申請,此狀態(tài)下動(dòng)態(tài)調(diào)度算法需要根據(jù)神經(jīng)網(wǎng)絡(luò)模型的預(yù)測結(jié)果權(quán)衡,如果 “重規(guī)劃” 動(dòng)作產(chǎn)生的狀態(tài)價(jià)值較小,則不應(yīng)該實(shí)施搶占.

    考慮第4 個(gè)場景的系統(tǒng)狀態(tài),某保障分隊(duì)快要完成當(dāng)前任務(wù)準(zhǔn)備返回基地,這時(shí)一個(gè)離它較遠(yuǎn)(超過剩余油料支持路程)的區(qū)域發(fā)出保障申請.該狀態(tài)下,比對策略的調(diào)度方案是要求該保障分隊(duì)返回原基地補(bǔ)充后再執(zhí)行新任務(wù).而具有重部署能力的動(dòng)態(tài)調(diào)度算法會指示保障分隊(duì)前往距離申請點(diǎn)近的地方補(bǔ)充油料,從而更快地執(zhí)行新任務(wù).

    綜上所述,與比對策略不同,動(dòng)態(tài)調(diào)度算法的決策基礎(chǔ)是通過基函數(shù)組合的神經(jīng)網(wǎng)絡(luò)模型,它能夠捕捉當(dāng)前事件和可預(yù)測的未來事件帶來的影響,因此能夠產(chǎn)生更優(yōu)的調(diào)度結(jié)果.

    5 結(jié)束語

    本文主要研究了戰(zhàn)時(shí)后裝保障中重規(guī)劃(搶占調(diào)度、重分配及重部署)問題,以便生成高質(zhì)量的保障資源調(diào)度策略,提高后裝保障智能化水平.針對重規(guī)劃問題設(shè)計(jì)了一個(gè)無限時(shí)域馬爾科夫決策過程模型,其目標(biāo)是最大化保障調(diào)度系統(tǒng)的長期折扣獎(jiǎng)勵(lì).為了解決重規(guī)劃模型的維度災(zāi)問題,利用神經(jīng)網(wǎng)絡(luò)對基函數(shù)進(jìn)行非線性組合,從而達(dá)到逼近值函數(shù)的目的,并提出了基于強(qiáng)化學(xué)習(xí)策略迭代的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法.最后設(shè)計(jì)了一個(gè)高強(qiáng)度分布作戰(zhàn)仿真場景,檢驗(yàn)了不同問題特征及算法參數(shù)對調(diào)度性能的影響,驗(yàn)證了動(dòng)態(tài)調(diào)度算法的適用性.

    本文中MDP 模型的描述是對保障調(diào)度適用的對象或場景的限制條件,對于超出該模型描述的保障調(diào)度,也具有一定的借鑒意義.另外,如果調(diào)度場景與對象變化較大,如作戰(zhàn)規(guī)模過大,保障基地?cái)?shù)量位置動(dòng)態(tài)變化時(shí),由于機(jī)器學(xué)習(xí)能力限制,逼近函數(shù)(本文采用基函數(shù)+神經(jīng)網(wǎng)絡(luò))也需要相應(yīng)調(diào)整.

    下一步工作需要改進(jìn)當(dāng)前研究的一些不足之處,例如在高強(qiáng)度作戰(zhàn)中,可能某次保障申請需要的資源較大,超過了一個(gè)保障分隊(duì)或基地的能力,需要調(diào)度多個(gè)分隊(duì)協(xié)同保障.協(xié)同保障方面已經(jīng)有一些相關(guān)研究成果,正在考慮如何與之結(jié)合.另一個(gè)重要研究方向是進(jìn)一步擴(kuò)展保障分隊(duì)的類型及相應(yīng)特性,這樣可以比較不同保障分隊(duì)的調(diào)度性能.另外,錯(cuò)誤定義的保障需求優(yōu)先級會影響保障分隊(duì)的調(diào)度,這也是下一步需要解決的難點(diǎn).

    猜你喜歡
    分隊(duì)調(diào)度決策
    為可持續(xù)決策提供依據(jù)
    傷情驅(qū)動(dòng)在衛(wèi)生分隊(duì)演訓(xùn)中的初步探索
    《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護(hù)手冊》正式出版
    一種基于負(fù)載均衡的Kubernetes調(diào)度改進(jìn)算法
    新編制下陸軍信息通信分隊(duì)保障能力評估模型
    虛擬機(jī)實(shí)時(shí)遷移調(diào)度算法
    決策為什么失誤了
    基于深度強(qiáng)化學(xué)習(xí)的陸軍分隊(duì)?wèi)?zhàn)術(shù)決策問題研究
    在上饒集中營女生分隊(duì)的日子
    大江南北(2016年8期)2016-02-27 08:22:45
    SVC的RTP封裝及其在NS2包調(diào)度中的應(yīng)用研究
    伊人久久大香线蕉亚洲五| 一本—道久久a久久精品蜜桃钙片| 十八禁人妻一区二区| 欧美激情 高清一区二区三区| 建设人人有责人人尽责人人享有的| 久久久久久免费高清国产稀缺| 狠狠精品人妻久久久久久综合| 18禁观看日本| 天天躁狠狠躁夜夜躁狠狠躁| 欧美老熟妇乱子伦牲交| 久久久精品免费免费高清| kizo精华| 国产在线免费精品| 国产有黄有色有爽视频| 欧美精品人与动牲交sv欧美| 香蕉国产在线看| 极品人妻少妇av视频| 国产精品人妻久久久影院| 日韩av免费高清视频| 精品一区二区三区av网在线观看 | 日本av手机在线免费观看| 丝袜美足系列| 欧美 亚洲 国产 日韩一| 国产精品熟女久久久久浪| 色婷婷久久久亚洲欧美| 高清欧美精品videossex| 高清av免费在线| 免费观看av网站的网址| 日韩大码丰满熟妇| 美女主播在线视频| 免费观看a级毛片全部| 999精品在线视频| 国产欧美日韩一区二区三区在线| 日韩视频在线欧美| 国产毛片在线视频| 啦啦啦 在线观看视频| 电影成人av| 日韩精品有码人妻一区| 国产激情久久老熟女| 啦啦啦中文免费视频观看日本| 日韩中文字幕欧美一区二区 | 久久久国产欧美日韩av| 国产午夜精品一二区理论片| 国产精品麻豆人妻色哟哟久久| 久久鲁丝午夜福利片| 国产精品免费视频内射| 久久久久精品久久久久真实原创| 亚洲第一av免费看| 欧美国产精品va在线观看不卡| 久久99热这里只频精品6学生| 国产一区二区三区av在线| 国产亚洲av片在线观看秒播厂| 国产黄色视频一区二区在线观看| 国产男人的电影天堂91| 国产极品天堂在线| 欧美老熟妇乱子伦牲交| 久久精品亚洲熟妇少妇任你| 亚洲欧洲精品一区二区精品久久久 | 两性夫妻黄色片| 纵有疾风起免费观看全集完整版| 亚洲男人天堂网一区| 国产黄色视频一区二区在线观看| 国产精品熟女久久久久浪| 王馨瑶露胸无遮挡在线观看| 亚洲精品国产av成人精品| 精品少妇久久久久久888优播| 亚洲国产中文字幕在线视频| 国产精品人妻久久久影院| 伊人亚洲综合成人网| 乱人伦中国视频| 多毛熟女@视频| 国产伦人伦偷精品视频| 亚洲国产成人一精品久久久| 操美女的视频在线观看| 欧美老熟妇乱子伦牲交| 人妻人人澡人人爽人人| 伊人亚洲综合成人网| 女的被弄到高潮叫床怎么办| 日韩一卡2卡3卡4卡2021年| 日韩 欧美 亚洲 中文字幕| 久久久久精品国产欧美久久久 | 亚洲欧美一区二区三区黑人| 欧美激情高清一区二区三区 | 亚洲欧美日韩另类电影网站| 少妇 在线观看| 天天躁夜夜躁狠狠躁躁| 精品亚洲成a人片在线观看| 久久精品aⅴ一区二区三区四区| 亚洲国产毛片av蜜桃av| 国产成人欧美| 日韩中文字幕欧美一区二区 | 中国国产av一级| 制服人妻中文乱码| 99精品久久久久人妻精品| 欧美在线一区亚洲| 亚洲男人天堂网一区| 国产一级毛片在线| 一级片'在线观看视频| 亚洲av欧美aⅴ国产| 国产免费现黄频在线看| 热99久久久久精品小说推荐| 乱人伦中国视频| 少妇 在线观看| av电影中文网址| 国语对白做爰xxxⅹ性视频网站| svipshipincom国产片| 国产片内射在线| 成人18禁高潮啪啪吃奶动态图| 亚洲情色 制服丝袜| 中文字幕av电影在线播放| 欧美久久黑人一区二区| 在线观看国产h片| 亚洲欧洲日产国产| 国产成人精品久久久久久| 欧美日本中文国产一区发布| 宅男免费午夜| 国产成人午夜福利电影在线观看| 国产xxxxx性猛交| 亚洲成人国产一区在线观看 | 久久久久网色| 午夜日韩欧美国产| 亚洲美女视频黄频| 国产伦人伦偷精品视频| 香蕉丝袜av| 巨乳人妻的诱惑在线观看| 精品久久久久久电影网| 国产熟女欧美一区二区| 精品国产一区二区三区四区第35| 亚洲精品第二区| 两个人看的免费小视频| 日韩伦理黄色片| 久久女婷五月综合色啪小说| 亚洲av成人不卡在线观看播放网 | 亚洲精品国产av蜜桃| 国产亚洲欧美精品永久| 黄色视频不卡| 久久精品熟女亚洲av麻豆精品| 午夜福利乱码中文字幕| 精品视频人人做人人爽| 午夜免费男女啪啪视频观看| 日韩 欧美 亚洲 中文字幕| 亚洲国产成人一精品久久久| 亚洲av综合色区一区| 欧美成人午夜精品| 午夜激情av网站| 久久久精品区二区三区| 韩国av在线不卡| 性色av一级| 国产精品一二三区在线看| 亚洲欧美日韩另类电影网站| www日本在线高清视频| 少妇猛男粗大的猛烈进出视频| av国产精品久久久久影院| 国产成人av激情在线播放| 中国国产av一级| 黑人猛操日本美女一级片| 精品午夜福利在线看| 各种免费的搞黄视频| 国产麻豆69| 久久久久精品久久久久真实原创| 国产一区亚洲一区在线观看| 成人18禁高潮啪啪吃奶动态图| 日韩免费高清中文字幕av| 青春草国产在线视频| 国产在线一区二区三区精| 成人午夜精彩视频在线观看| 美女中出高潮动态图| 精品人妻在线不人妻| 国产成人系列免费观看| 亚洲精品在线美女| 韩国av在线不卡| 在线亚洲精品国产二区图片欧美| 精品一区二区三卡| 丝袜美腿诱惑在线| 午夜老司机福利片| av天堂久久9| 中文乱码字字幕精品一区二区三区| 侵犯人妻中文字幕一二三四区| 亚洲精品国产区一区二| 国产日韩欧美在线精品| 91精品三级在线观看| 波野结衣二区三区在线| 精品国产一区二区三区久久久樱花| 亚洲熟女精品中文字幕| 久久这里只有精品19| 日韩大片免费观看网站| 欧美国产精品一级二级三级| 日韩成人av中文字幕在线观看| 午夜91福利影院| 人妻人人澡人人爽人人| 国产免费视频播放在线视频| 日日摸夜夜添夜夜爱| 卡戴珊不雅视频在线播放| 久久国产亚洲av麻豆专区| 国产精品99久久99久久久不卡 | 亚洲,欧美,日韩| 波野结衣二区三区在线| 91国产中文字幕| 两性夫妻黄色片| 亚洲成国产人片在线观看| 丁香六月欧美| 日韩一区二区三区影片| 国产亚洲精品第一综合不卡| 考比视频在线观看| 欧美日韩亚洲综合一区二区三区_| 欧美精品一区二区大全| 美女主播在线视频| 欧美日韩亚洲国产一区二区在线观看 | 十八禁网站网址无遮挡| 欧美黑人欧美精品刺激| 亚洲人成77777在线视频| 精品福利永久在线观看| 日本色播在线视频| 一级毛片 在线播放| 国产一区二区 视频在线| 又黄又粗又硬又大视频| 十八禁高潮呻吟视频| 国产免费又黄又爽又色| 一本一本久久a久久精品综合妖精| 亚洲七黄色美女视频| 99香蕉大伊视频| 日韩制服骚丝袜av| 午夜免费鲁丝| 午夜91福利影院| 国产精品久久久久久精品电影小说| 最近2019中文字幕mv第一页| 精品少妇一区二区三区视频日本电影 | 99久久99久久久精品蜜桃| 国产老妇伦熟女老妇高清| 波多野结衣av一区二区av| 亚洲视频免费观看视频| 欧美日本中文国产一区发布| 香蕉丝袜av| av天堂久久9| 丰满少妇做爰视频| 一边摸一边做爽爽视频免费| 91成人精品电影| 亚洲精华国产精华液的使用体验| 天天影视国产精品| 国产av一区二区精品久久| av在线老鸭窝| 一级爰片在线观看| 国产一区二区三区综合在线观看| 你懂的网址亚洲精品在线观看| 街头女战士在线观看网站| 国产精品三级大全| 欧美乱码精品一区二区三区| 国产黄色视频一区二区在线观看| 亚洲国产成人一精品久久久| 1024香蕉在线观看| 欧美日韩成人在线一区二区| 777米奇影视久久| 免费观看性生交大片5| 人妻人人澡人人爽人人| 欧美成人午夜精品| 十八禁高潮呻吟视频| 免费在线观看完整版高清| 99精国产麻豆久久婷婷| 只有这里有精品99| 国产97色在线日韩免费| 久久久久人妻精品一区果冻| 精品久久久精品久久久| 欧美成人精品欧美一级黄| 一本一本久久a久久精品综合妖精| 夫妻性生交免费视频一级片| 亚洲av中文av极速乱| 色综合欧美亚洲国产小说| 咕卡用的链子| 如何舔出高潮| 免费在线观看完整版高清| 男女免费视频国产| 91aial.com中文字幕在线观看| 亚洲欧洲日产国产| 亚洲国产欧美网| 亚洲精品在线美女| 人人妻人人爽人人添夜夜欢视频| 国产精品.久久久| 欧美日韩亚洲综合一区二区三区_| 国产精品成人在线| 可以免费在线观看a视频的电影网站 | 日日爽夜夜爽网站| 亚洲精品成人av观看孕妇| 午夜福利一区二区在线看| 国产欧美亚洲国产| 超色免费av| 久久久久精品国产欧美久久久 | 国产xxxxx性猛交| 大陆偷拍与自拍| 成人黄色视频免费在线看| 最新在线观看一区二区三区 | 狠狠婷婷综合久久久久久88av| 国产极品天堂在线| 色吧在线观看| 一二三四中文在线观看免费高清| 97人妻天天添夜夜摸| 伊人久久大香线蕉亚洲五| 久热这里只有精品99| 久久久国产精品麻豆| 国产黄色免费在线视频| 亚洲欧洲精品一区二区精品久久久 | 色婷婷av一区二区三区视频| 久久精品久久精品一区二区三区| 国产精品一区二区精品视频观看| 国产在线一区二区三区精| 亚洲成av片中文字幕在线观看| 色精品久久人妻99蜜桃| 成年女人毛片免费观看观看9 | 国产爽快片一区二区三区| 大香蕉久久网| 男女边摸边吃奶| 中国三级夫妇交换| 国产成人免费无遮挡视频| 18禁观看日本| 国产在线视频一区二区| 91国产中文字幕| 欧美另类一区| 日韩一区二区三区影片| 少妇被粗大的猛进出69影院| av在线观看视频网站免费| 久久97久久精品| 亚洲欧美色中文字幕在线| 成年美女黄网站色视频大全免费| 亚洲国产中文字幕在线视频| 日韩免费高清中文字幕av| 免费黄频网站在线观看国产| 欧美日韩综合久久久久久| 菩萨蛮人人尽说江南好唐韦庄| 女人爽到高潮嗷嗷叫在线视频| 少妇精品久久久久久久| 伊人亚洲综合成人网| 亚洲欧洲国产日韩| 青青草视频在线视频观看| 少妇 在线观看| 赤兔流量卡办理| 色精品久久人妻99蜜桃| 免费av中文字幕在线| 欧美成人午夜精品| 99国产精品免费福利视频| 国产麻豆69| 国产精品一区二区精品视频观看| 精品视频人人做人人爽| 久久久亚洲精品成人影院| 成人漫画全彩无遮挡| 99热全是精品| 国产高清国产精品国产三级| 亚洲五月色婷婷综合| 亚洲国产看品久久| 这个男人来自地球电影免费观看 | 黑人巨大精品欧美一区二区蜜桃| 欧美日韩综合久久久久久| 欧美日韩亚洲国产一区二区在线观看 | 亚洲,一卡二卡三卡| 成年av动漫网址| 免费观看av网站的网址| 我的亚洲天堂| 国产乱人偷精品视频| 永久免费av网站大全| 观看美女的网站| 天天躁夜夜躁狠狠躁躁| 精品国产一区二区三区久久久樱花| av又黄又爽大尺度在线免费看| 一级毛片我不卡| 日本91视频免费播放| 1024视频免费在线观看| 成人漫画全彩无遮挡| 老汉色∧v一级毛片| 欧美日本中文国产一区发布| 久久精品久久久久久噜噜老黄| 97人妻天天添夜夜摸| 成人免费观看视频高清| 日本猛色少妇xxxxx猛交久久| 婷婷色av中文字幕| 国产av精品麻豆| 国产高清国产精品国产三级| 精品亚洲乱码少妇综合久久| 精品国产乱码久久久久久男人| 啦啦啦在线观看免费高清www| 亚洲欧美一区二区三区国产| 老汉色av国产亚洲站长工具| 成人国产麻豆网| 国语对白做爰xxxⅹ性视频网站| 深夜精品福利| 欧美日韩一级在线毛片| 午夜日韩欧美国产| 精品人妻一区二区三区麻豆| 免费女性裸体啪啪无遮挡网站| 欧美另类一区| 三上悠亚av全集在线观看| av.在线天堂| 男女边吃奶边做爰视频| 久久久久久免费高清国产稀缺| 在线天堂中文资源库| 色婷婷av一区二区三区视频| 国产老妇伦熟女老妇高清| 人人妻人人爽人人添夜夜欢视频| 亚洲色图 男人天堂 中文字幕| 啦啦啦视频在线资源免费观看| 十八禁高潮呻吟视频| 国产精品久久久久久人妻精品电影 | 久久久欧美国产精品| 亚洲一码二码三码区别大吗| 少妇的丰满在线观看| 欧美日韩av久久| 国产毛片在线视频| 99香蕉大伊视频| 中文字幕高清在线视频| 久久婷婷青草| 国产精品无大码| 精品卡一卡二卡四卡免费| 一区福利在线观看| 欧美日韩视频精品一区| 日韩欧美精品免费久久| 亚洲欧美成人精品一区二区| 亚洲av男天堂| 欧美精品亚洲一区二区| 大香蕉久久网| 777米奇影视久久| 国产精品一区二区精品视频观看| 国产野战对白在线观看| 人成视频在线观看免费观看| 免费久久久久久久精品成人欧美视频| 最近的中文字幕免费完整| 久久女婷五月综合色啪小说| 高清av免费在线| 国产一级毛片在线| 中文字幕另类日韩欧美亚洲嫩草| 久久久精品94久久精品| 免费黄网站久久成人精品| 国产福利在线免费观看视频| 日韩成人av中文字幕在线观看| 亚洲国产精品国产精品| 久久99一区二区三区| 国产一区二区 视频在线| 女人高潮潮喷娇喘18禁视频| 只有这里有精品99| 成人18禁高潮啪啪吃奶动态图| www.自偷自拍.com| 制服丝袜香蕉在线| 热99久久久久精品小说推荐| 最近的中文字幕免费完整| 亚洲国产精品999| 黄片无遮挡物在线观看| 老司机深夜福利视频在线观看 | 久久天躁狠狠躁夜夜2o2o | 亚洲av男天堂| 少妇 在线观看| 国产欧美亚洲国产| 各种免费的搞黄视频| 欧美成人午夜精品| 午夜福利免费观看在线| 成人漫画全彩无遮挡| 在线观看一区二区三区激情| 视频在线观看一区二区三区| 99久久99久久久精品蜜桃| 国产成人精品久久久久久| 亚洲情色 制服丝袜| 青春草视频在线免费观看| 两性夫妻黄色片| 国产精品久久久久成人av| 国产伦理片在线播放av一区| 亚洲国产av影院在线观看| 亚洲欧美日韩另类电影网站| 久久国产精品大桥未久av| 欧美久久黑人一区二区| 日韩精品免费视频一区二区三区| 久久久久精品久久久久真实原创| 亚洲国产精品成人久久小说| 国产成人精品福利久久| 国产成人啪精品午夜网站| 999久久久国产精品视频| 男的添女的下面高潮视频| 啦啦啦在线免费观看视频4| 巨乳人妻的诱惑在线观看| 国产精品一国产av| 一本大道久久a久久精品| 美女高潮到喷水免费观看| 精品第一国产精品| 日韩电影二区| 精品久久久久久电影网| 国产亚洲一区二区精品| 欧美在线一区亚洲| 人妻人人澡人人爽人人| 不卡视频在线观看欧美| 夫妻午夜视频| 免费黄频网站在线观看国产| 别揉我奶头~嗯~啊~动态视频 | 欧美激情高清一区二区三区 | 秋霞伦理黄片| 可以免费在线观看a视频的电影网站 | 亚洲专区中文字幕在线 | 免费久久久久久久精品成人欧美视频| 国产免费一区二区三区四区乱码| 亚洲天堂av无毛| 色播在线永久视频| 午夜福利乱码中文字幕| 777米奇影视久久| 国产又爽黄色视频| 一本色道久久久久久精品综合| 嫩草影视91久久| 如日韩欧美国产精品一区二区三区| av女优亚洲男人天堂| 国产免费现黄频在线看| xxxhd国产人妻xxx| 国产精品二区激情视频| 免费久久久久久久精品成人欧美视频| 精品亚洲成国产av| 少妇人妻久久综合中文| 狠狠精品人妻久久久久久综合| 久久精品亚洲av国产电影网| 亚洲熟女毛片儿| 国产 一区精品| 亚洲欧美日韩另类电影网站| 日韩av在线免费看完整版不卡| 国产精品99久久99久久久不卡 | 亚洲成国产人片在线观看| 亚洲精品在线美女| 大陆偷拍与自拍| 久久精品久久精品一区二区三区| 一级爰片在线观看| 亚洲av成人精品一二三区| 纯流量卡能插随身wifi吗| 91aial.com中文字幕在线观看| 久久精品久久久久久久性| 国产成人精品无人区| 国产av国产精品国产| 高清视频免费观看一区二区| 少妇的丰满在线观看| 久久人人97超碰香蕉20202| 久久久亚洲精品成人影院| 久久精品亚洲熟妇少妇任你| 看免费成人av毛片| 黑人猛操日本美女一级片| 一级爰片在线观看| 久久久精品国产亚洲av高清涩受| 欧美日韩精品网址| 男女之事视频高清在线观看 | 亚洲国产欧美一区二区综合| 在线 av 中文字幕| 国产精品一区二区在线观看99| 久久ye,这里只有精品| 日本91视频免费播放| 成人国产麻豆网| 国产精品久久久久久久久免| 成人黄色视频免费在线看| 黄色 视频免费看| 国产 一区精品| 熟妇人妻不卡中文字幕| 别揉我奶头~嗯~啊~动态视频 | av在线观看视频网站免费| 亚洲五月色婷婷综合| 国产探花极品一区二区| 亚洲情色 制服丝袜| 久久亚洲国产成人精品v| 夫妻午夜视频| 一区二区日韩欧美中文字幕| 又粗又硬又长又爽又黄的视频| 日本91视频免费播放| 色吧在线观看| 国产精品久久久av美女十八| 日韩av免费高清视频| 午夜免费观看性视频| svipshipincom国产片| 日韩电影二区| 午夜久久久在线观看| 国产精品香港三级国产av潘金莲 | 亚洲欧美成人综合另类久久久| 女的被弄到高潮叫床怎么办| 91国产中文字幕| 少妇人妻精品综合一区二区| 男的添女的下面高潮视频| 久久久久网色| 国产成人精品久久二区二区91 | 97在线人人人人妻| 久久这里只有精品19| 国产精品麻豆人妻色哟哟久久| 国产成人啪精品午夜网站| 午夜免费男女啪啪视频观看| 黄片播放在线免费| 19禁男女啪啪无遮挡网站| 高清不卡的av网站| 伦理电影大哥的女人| 色播在线永久视频| av.在线天堂| 亚洲欧美一区二区三区国产| 这个男人来自地球电影免费观看 | 天堂中文最新版在线下载| 超碰成人久久| 欧美在线一区亚洲| 欧美精品亚洲一区二区| 十八禁人妻一区二区| 久久久久久免费高清国产稀缺| av福利片在线| 国产野战对白在线观看| 免费久久久久久久精品成人欧美视频| h视频一区二区三区| 久久热在线av| 久久精品人人爽人人爽视色| 婷婷色综合www| 国产成人精品久久二区二区91 | 久久久欧美国产精品| 黄色怎么调成土黄色| 女性生殖器流出的白浆| 亚洲四区av| 男女下面插进去视频免费观看| 国产精品一区二区精品视频观看| 亚洲人成电影观看| 欧美日韩亚洲高清精品| 又大又黄又爽视频免费| 亚洲av在线观看美女高潮| 一本—道久久a久久精品蜜桃钙片| 人人妻人人澡人人看| 伊人久久大香线蕉亚洲五| 亚洲av男天堂| 欧美在线黄色| 伦理电影免费视频|