• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強化學習的魚群自組織行為模擬*

    2020-02-07 12:58:42楊慧慧黃萬榮敖富江
    國防科技大學學報 2020年1期
    關鍵詞:魚群群體神經網絡

    楊慧慧,黃萬榮,敖富江

    (1. 大連海洋大學 水產與生命學院, 遼寧 大連 116023; 2. 軍事科學院, 北京 海淀 100071)

    自組織行為廣泛存在于自然界中,一個典型的案例就是魚群。魚群中的每個個體不僅會主動地相互靠近,還能協(xié)同一致地調整自己的行為,以達到群體效果。魚群的自組織特性有助于提升個體的游動效率、生存和繁衍概率。相對地,目前大部分人造群體系統(tǒng)還只能依靠機械的程控方式完成其功能。如果人造群體可以模仿魚群的組織方式,將獲得更為智能、可觀的效能。因此,研究魚群自組織行為有助于探索自組織行為的內在機理,對實現(xiàn)群體智能有重要的理論意義和應用價值。

    Reynolds[1]首次通過計算機程序模擬了魚群、鳥群等生物群體的自組織行為,并提出了博德模型(Boids model),即每個智能體基于局部的觀察信息,按照避碰、同向、聚集3條規(guī)則計算其運動速度,群體便能實現(xiàn)類似生物群體的自組織運動。在博德模型的基礎上,多個模型陸續(xù)被提出,或優(yōu)化了原有規(guī)則的計算方式,或增加了新的規(guī)則。上述模型均能模擬群體的自組織行為,其特點是都假設群體中的個體能夠基于感知信息進行復雜計算。然而,這類假設并未觸及自組織行為的本質,魚、鳥等生物個體不一定能進行如此復雜的規(guī)則計算。因此,不同于之前基于規(guī)則設計模型的研究方式,本文從學習的角度切入,對自組織行為展開研究,通過魚群行為的模擬,試圖探索自組織行為的生成機理。

    1 基本概念和相關工作

    1.1 自組織

    自組織[2]是指一個系統(tǒng)在時間上由無組織到有序的動態(tài)過程。自然界廣泛存在自組織過程。小鳥成群結隊地飛行,以減少風阻、節(jié)省能耗;在海洋中,許多魚經常聚在一起行動,可以比一條魚更快發(fā)現(xiàn)敵人并巧妙地避開;螞蟻無須復雜的信息交流,可以通過合作高效地完成覓食、搬運等任務;在微觀世界,免疫細胞協(xié)同合作,攻擊侵入生物體的病毒和異物。這些自組織過程是自發(fā)產生的,沒有外部控制和干預,甚至沒有內部集中控制,可使系統(tǒng)更好地適應環(huán)境。生物群體自組織行為的一個重要特征是涌現(xiàn)[3]。涌現(xiàn)是指群體中的個體遵循簡單的規(guī)則(如模仿),通過自組織就能展現(xiàn)出整體大于部分之和的特性。群體智能[4]的一個研究方向正是通過研究涌現(xiàn)機理而模擬自然界生物群體實現(xiàn)自組織行為。關于自組織行為模擬的研究可以追溯到20世紀80年代。Reynolds[1]提出了博德模型,基于避碰、同向和聚集3條規(guī)則成功模擬了鳥群的飛行和避障行為。博德模型也被成功應用于《蝙蝠俠歸來》《指環(huán)王》等科幻電影的后期制作中,用于模擬蝙蝠群、戰(zhàn)士群特效。根據(jù)博德模型,Spector等[5]提出了Swarm模型,進一步描述了相鄰個體之間的相互作用;Kwong等[6]對Swarm模型進行了仿真,獲得了聚集、繞“8”字形等行為特征。Vicsek等[7]根據(jù)對磁鐵特性的觀察,建立了Vicsek模型,假設所有個體速率相同,個體的運動方向取決于它周圍個體的運動方向的平均值。Vicsek模型與博德模型類似,都是基于規(guī)則的模擬方法。除了在仿真環(huán)境中研究之外,Seyfried等[8]用數(shù)以千計的微小機器人組成集群,能夠像蟻群一樣執(zhí)行一些特定任務,在生產線完成裝配任務。Ampatzis等[9]構建一組能夠自主組裝的機器人,能完成協(xié)同搬運、攀爬小山、穿過崎嶇地帶等復雜任務。Rubenstein等[10]設計了一組微小機器人——Kilobot,1024個功能簡單的機器人通過3條簡單規(guī)則(貼邊運動、梯度隊形、定位),通過完全的分布式控制,能夠自發(fā)形成比較復雜的宏觀圖形。Kilobot研究成果于2014年發(fā)表在《Science》雜志并被評為年度十大科學進展。上述研究工作在不同方面展現(xiàn)了群體自組織的特性,但是都需要通過人為設定若干規(guī)則,使得個體在規(guī)則的作用下展現(xiàn)出一定的自組織特性。

    1.2 赫布跡

    赫布跡來源于一個認知生理學理論——赫布定律[11](Hebb′s rule)。加拿大心理學家唐納德·赫布于1949年提出了赫布定律,描述了突觸可塑性的基本原理,即突觸前神經元向突觸后神經元的持續(xù)重復的刺激可以導致突觸傳遞效能的增加。突觸可塑性是生物大腦長期學習的重要原因之一。因此,在進化算法中出現(xiàn)了基于突觸可塑性設計的塑性神經網絡,但是由于技術發(fā)展的局限,塑性神經網絡不能與成熟的深度學習技術結合。最大的問題在于無法使用深度學習常用的梯度下降方法完成塑性神經網絡的大規(guī)模反向傳播訓練。實現(xiàn)塑性神經網絡的學習訓練,將為神經網絡獲得像人類一樣的持續(xù)學習能力提供一種可能性。Miconi等[12]提出了一種可以大規(guī)模訓練的塑性神經網絡。經典的神經網絡模型,通常用權值連接對兩個神經元之間的關聯(lián)程度進行量化。這種連接的權值會隨著神經網絡的訓練與反向傳播過程不斷更新。但是一旦神經網絡模型訓練完畢,它的權值就不會再發(fā)生變化,模型的結構與功能會相應地固化下來。Miconi等設計的塑性神經網絡在固定權值連接的基礎上,增加了一類權值可變的連接,這類連接的權值稱為赫布跡(Hebbian trace)。赫布跡會隨著兩個神經元的活動而發(fā)生變化,即使是在神經網絡模型的應用階段,這種特性也會保持。因此,赫布跡的作用是記憶輸入神經元和輸出神經元的活動軌跡,從而可以更快地強化鞏固新的輸入特征,學習到更好的模型?;谶@種記憶的作用,塑性神經網絡被證明可以應用在模式恢復[13]、小樣本學習[12]、自然語言處理[14]等問題中。

    1.3 強化學習

    強化學習是通過智能體與環(huán)境的不斷交互,逐漸修正智能體行為策略的一種學習方式。智能體獲取環(huán)境當前的狀態(tài),根據(jù)行為策略產生動作決策,作用于環(huán)境使其狀態(tài)發(fā)生變化。環(huán)境會根據(jù)狀態(tài)變化的“方向”,對該動作決策進行評估,返回一個獎勵值。獎勵值為正說明該決策產生了有利的結果,獎勵值為負則說明該決策產生了不利的影響。智能體根據(jù)獎勵值修正自己的行為策略,盡可能使動作決策產生有利影響,獲得更多累積獎勵值。強化學習在機器人、無人駕駛、游戲、自然語言處理、金融、電商等領域有著廣泛應用。

    強化學習的研究與理論發(fā)展有2個重要的方向:多智能體強化學習和深度強化學習。多智能體強化學習研究面臨信用分配、搜索空間維度爆炸等挑戰(zhàn)。早期研究將多個智能體作為一個整體系統(tǒng)進行學習,然而集中式的方式學習不利于群體規(guī)模的擴展。之后,隨著博弈論的發(fā)展,分布式的多智能體強化學習開始顯著發(fā)展。近年來,伴隨著深度學習引發(fā)的人工智能熱潮,強化學習與深度學習相結合,出現(xiàn)了深度強化學習技術。深度強化學習結合了深度學習強大的擬合能力和強化學習的交互特性,取得了很多成果。DeepMind基于深度強化學習研發(fā)的AlphaGo[15]成為第一個擊敗人類職業(yè)圍棋選手和圍棋世界冠軍的人工智能機器人。Tampuu等[16]將深度強化學習算法深度Q網絡(Deep Q-Network, DQN)應用到多智能體游戲環(huán)境中,在完全協(xié)作環(huán)境、完全競爭環(huán)境以及非完全協(xié)作/競爭環(huán)境中學習游戲策略。Lowe等[17]將深度確定性策略梯度(Deep Deterministic Policy Gradient, DDPG)算法擴展到多智能體環(huán)境中,提出了多智能體DDPG(Multi-Agent DDPG, MADDPG)算法,并通過共享全局信息訓練評價網絡,解決環(huán)境模型不平穩(wěn)問題。

    2 模型設計

    為了實現(xiàn)基于強化學習對魚群自組織行為進行模擬,首先需要構建環(huán)境模型和智能體(魚)模型。

    2.1 環(huán)境模型

    考慮n條魚組成的魚群,用F={f1,f2,…,fn}表示。魚群在一個二維、封閉、網格化的環(huán)境中運動,環(huán)境大小為M×M,如圖1所示。構建運動世界的坐標系,設最左上角的網格為原點O(0,0),向右為x軸正方向,向下為y軸正方向。因此,網格A坐標為(M-1,0),網格B坐標為(0,M-1)。魚fi的坐標表示為pi(xi,yi)。魚群運動的環(huán)境周圍被障礙物包圍,環(huán)境內部也隨機分布著障礙物。用二維矩陣Env表示魚群運動的環(huán)境。Env的元素有1和0兩種取值可能:1表示障礙物網格,魚無法運動到該網格;0表示自由網格,魚可以運動到該網格。在一些應用場景中,環(huán)境中可能存在一個獎勵位置(如圖1網格中有食物),坐標為prew(xrew,yrew)。

    圖1 環(huán)境模型Fig.1 Model of the environment

    2.2 智能體模型

    智能體模型涉及感知、運動和決策3個方面。

    2.2.1 感知模型

    感知能力描述了魚能從環(huán)境世界獲取哪些信息。在自然界,魚通過魚眼感知環(huán)境,魚眼的感知和成像功能具有2個特點。首先,魚眼視野十分廣闊,不用轉身就能看見前后和上面的物體,例如淡水鮭在垂直面上的視野為150°,水平面上的視野為160°~170°,而人眼分別為134°和154°。魚在游動過程中,魚頭可靈活變向,且魚兩邊都有眼睛,極大地增加觀察范圍,幾乎是全向觀察。因此,可以設置每條魚能感知到以其當前位置為中心、S×S大小的網格狀態(tài),如圖1中紅色網格所示。其次,環(huán)境中物體在魚眼中的成像大小感覺和視角(從物體兩端引出的光線在眼光心處所成的夾角)成正比。魚觀察環(huán)境中其他魚時,視角受多種因素的影響,包括其他魚的大小、位置和方向等。因此,在魚的大小相同的條件下,可以認為每條魚能感知到其他魚的位置和方向。圖2展示了魚感知其他個體的典型情況?;谝暯菂^(qū)間,一條魚可以判斷與其他魚的間隔距離。按照網格可以將距離判斷分為3類情況:①視角大于30°時,距離為1;②視角在15°~30°時,距離為2;③視角小于15°時,距離大于2。分析發(fā)現(xiàn),魚眼這種對距離的度量與切比雪夫距離(Chebyshev distance)度量一致,即:

    (1)

    圖2 魚感知其他個體的典型情況Fig.2 Typical situations on perceiving other individuals

    2.2.2 運動模型

    假設每條魚具有一階運動學特性,即通過控制魚的速度更新魚的位置。為簡單起見,假設魚游動的速率恒定,為1格/時間步(網格距離基于切比雪夫距離進行度量)。因此,只需要控制魚的游動方向即可確定魚的運動過程。需要說明的是,如果魚試圖游動到障礙物網格,則魚的位置和朝向保持不變,同時設置魚與障礙物發(fā)生碰撞的標志位為True。

    2.2.3 決策模型

    每一個時間步,智能體需要給出一個動作決策,輸入環(huán)境以驅動智能體運動。根據(jù)智能體的運動模型,魚需要決策其游動方向。假設魚可以選擇上、下、左、右4個方向中的一個作為該時間步的游動方向。每條魚的決策策略由一個神經網絡擬合,關于神經網絡的結構及訓練方法將在第3節(jié)詳細介紹。

    2.3 獎勵機制

    除了構建環(huán)境模型和智能體模型之外,還需要對獎勵機制進行建模。針對魚群行為模擬問題,根據(jù)智能體與環(huán)境的具體交互狀態(tài),獎勵有4個來源:

    1)智能體是否與障礙物發(fā)生碰撞。如果智能體與障礙物發(fā)生碰撞,獎勵為-1;否則,獎勵為0。用rcol表示這部分獎勵,其計算方式如式(2)所示,其中β1為可調參數(shù),collided是判斷智能體是否與障礙物發(fā)生碰撞的標志位。

    (2)

    2)魚群行為是否符合自組織特性。魚群行為的特性考慮距離和朝向2類性質。在距離方面,為了使群體展現(xiàn)聚集的特點的同時不會頻繁發(fā)生個體間碰撞,設置期望距離d。如果個體間的距離恰好等于d,則獎勵值最大;如果個體間的距離大于或小于d,則獎勵值相應減小。圖3(a)給出了基于距離因素衡量獎勵值的示意圖。在朝向方面,為了使群體展現(xiàn)同向的特點,應使個體的朝向盡量趨同。如圖3(b)所示,oi、oj1和oj2分別為智能體i、j1和j2的朝向,如果朝向一致,獎勵值越大;如果朝向差異變大,獎勵值減小。因此,可以用余弦函數(shù)計算基于朝向因素衡量的獎勵值。綜合距離、朝向2個因素,與魚群行為相關的獎勵rbeh可通過式(3)進行計算,其中β2和β3為可調參數(shù)。需要注意的是,式(3)是以智能體i為中心個體計算的獎勵值,根據(jù)具體任務可以類似地計算以其他智能體為中心的獎勵值。

    (3)

    (a) 距離因素(a) Distance facto (b) 朝向因素(b) Orientation facto圖3 考慮距離和朝向因素的獎勵值設計Fig.3 Reward value design considering distance and orientation factors

    3)在要求群體到達目標位置的場景中,通過智能體與目標位置的距離刻畫獎勵值。如果智能體距離目標位置越近,獎勵值越大;反之,獎勵值越小。與目標位置相關的獎勵值robj計算方式如式(4)所示,其中β4為可調參數(shù)。

    (4)

    4)為了緩解獎勵稀疏可能導致的學習過慢的問題,可以設置提前終止狀態(tài)并反饋相應的獎勵值。提前終止是由于魚群狀態(tài)與學習目標差異很大,因此需要返回較大的負獎勵值,并進入下一個學習過程。用rter表示與提前終止相關的獎勵值,計算方式如式(5)所示,其中β5為可調參數(shù),terminal是判斷某次學習過程是否提前終止的標志位。

    (5)

    因此,某一時間步,環(huán)境向智能體i反饋的獎勵值是上述4部分之和:

    r=rcol+robj+rbeh+rter

    (6)

    3 算法

    為了以學習的方式獲得魚的行為策略,基于赫布跡和A2C框架[18](一種行動者-評價者框架)實現(xiàn)了一種多智能體深度強化學習算法。算法框架如圖4所示,主要包括魚群模擬環(huán)境和魚群游動策略兩部分。魚群模擬環(huán)境建模已在第2節(jié)給出,魚群游動策略則由n個個體獨立的策略組合而成。每條魚私有一個帶赫布跡的神經網絡,因此,本文提出一種分布式強化學習算法。在學習階段,由于所有智能體是同構的,可借鑒網絡凍結[19]的思想,先訓練f1的策略網絡而固定其他魚的策略,然后將學好的f1的策略網絡參數(shù)復制給其他智能體(見圖4空心箭頭),再進行下一輪f1策略網絡訓練。

    圖4 策略學習框架Fig.4 Framework of the strategy learning

    3.1 魚群學習算法

    整個魚群行為的學習過程如算法1所示。由于網絡本身具有記憶特性,沒有使用記憶池與經驗回放等技術。假設學習過程一共持續(xù)Nmax個回合(第14行)。每個回合中,魚群會與環(huán)境進行若干時間步的交互。在時間步T,所有魚獲取當前時間步的感知狀態(tài)st,由策略擬合網絡產生動作決策at和狀態(tài)評價Vt。動作決策施加在環(huán)境之后,環(huán)境向智能體反饋一個獎勵值rt,同時環(huán)境狀態(tài)演變?yōu)閟t+1。如果滿足回合終止條件,即T大于Tmax或標志位terminal為True,環(huán)境狀態(tài)復位,進入下一回合的交互過程(第9行)。否則,terminal為False,繼續(xù)該回合下一個時間步的交互(第8行)。

    根據(jù)f1與環(huán)境在一個回合中的交互數(shù)據(jù)(s0,a0,r0,s1,a1,r1,…,sT)可以計算損失函數(shù)J的值(第10行),具體計算方式如式(7)~(10)所示:

    (7)

    (8)

    Ri=r0+γr1+γ2r2+…+γTrT

    (9)

    (10)

    其中:式(8)的π(ai|si;θa)表示策略網絡擬合的動作決策函數(shù),θa表示與動作決策相關的網絡參數(shù);式(9)中的γ表示獎勵折扣因子;式(8)和式(10)中的V(si;θv)表示策略網絡擬合的狀態(tài)評估函數(shù),θv表示與狀態(tài)評估相關的網絡參數(shù)。因此,θa與θv共享一部分參數(shù)。f1根據(jù)損失函數(shù)J值進行梯度下降,通過反向傳播更新策略學習網絡參數(shù)。其他所有魚則會在回合結束時復制f1學習到的策略(第12行)。顯然,根據(jù)算法1學習到的魚群行為,所有魚的行為特點是趨同的。

    算法1 魚群行為策略學習

    3.2 策略網絡結構

    算法中,每個智能體的策略用一個帶赫布跡的神經網絡進行擬合,所有智能體的策略網絡結構相同,其網絡結構如圖5所示。

    圖5 策略學習網絡結構Fig.5 Structure of the strategy learning network

    策略網絡有3(n-1)+S2+1個輸入神經元。第一部分的3(n-1)個神經元記錄了其他智能體的狀態(tài),包括位置坐標和朝向。中間一項S2個輸入神經元是智能體i對環(huán)境狀態(tài)的感知,記錄了以智能體i為中心、附近S×S個網格的狀態(tài)。最后一個神經元輸入的是時間。整個策略學習網絡的核心結構是一個長短時記憶(Long Short-Term Memory,LSTM)單元。LSTM是一類具有長期記憶和短期記憶的結構。如圖5所示,在LSTM單元的輸入門結構中增加了赫布跡項,用于強化LSTM單元的記憶特性。LSTM單元t時刻的內部狀態(tài)ct的計算過程變?yōu)椋?/p>

    ct=ft⊙ct-1+it⊙gt

    (11)

    ft=σ(Wfh·ht-1+bfh+Wfx·xt+bfx)

    (12)

    it=σ(Wih·ht-1+bih+Wix·xt+bix)

    (13)

    gt=tanh[(Wgh+α·Hebb)·ht-1+Wgx·xt+bgx]

    (14)

    (15)

    其中,η是控制記憶強度的系數(shù)?;贚STM單元的輸出,策略學習網絡的輸出分為2個部分。一部分是智能體在時間步T的動作決策at,它以獨熱編碼的方式表示智能體的每一種可選動作。另一部分輸出是狀態(tài)評價Vt,它以一個實數(shù)值對輸入狀態(tài)的“好壞”進行評價。Vt值越大表示認為當前狀態(tài)越“好”,越有利于智能體的策略學習。雖然動作決策和狀態(tài)評價共享了一部分網絡單元,但整個策略學習網絡的訓練方法與Minh等[19]提出的方法可以保持一致。

    4 實驗結果

    為了評估第3節(jié)提出的網絡結構與算法是否可用于學習到合理的魚群行為,進行了一些實驗并給出結果。首先在3類群體場景中測試了本文方法的學習效果,分別是領航跟隨場景、自主漫游場景和群體導航場景。然后對比了本文方法與基于博德規(guī)則計算模擬的方法。

    4.1 領航跟隨場景

    在領航跟隨場景中,群體有一個領航者個體帶領其他個體運動,其余個體則作為跟隨者跟隨領航者一起運動。通過領航與跟隨的形式,魚群便能展現(xiàn)整體運動特性。設有一個3條魚組成的魚群(n=3),不失一般性,假設f3是領航者,f1和f2是跟隨者。f3由外部控制器作用,在環(huán)境中作周期環(huán)繞運動,其路徑如圖6中紅線所示。f1與f2的行為策略由網絡擬合并通過算法1學習訓練獲得。針對領航跟隨場景實驗的具體參數(shù)設置為:環(huán)境大小M=15,感知范圍S=5;獎勵機制的可調參數(shù)β1=0.1,β2=0,β3=0,β4=0,β5=10;Tmax=250,提前終止條件為跟隨者與領航者的距離超過2。圖6給出了魚群在一次典型測試回合中T=7、T=15、T=91時運動狀態(tài),可以發(fā)現(xiàn),本文學習算法學到的策略能讓f1和f2跟隨f3環(huán)繞運動。

    圖6 領航跟隨場景的學習結果Fig.6 Results of learning in the leader-follower scenario

    4.2 自主漫游場景

    自主漫游場景的設置如圖7所示,與領航跟隨場景相比,魚群中沒有領航者個體,所有個體需要在環(huán)境中以整體的形式隨機漫游。如果環(huán)境中存在障礙物,魚群需要避開障礙物。設有一個3條魚組成的魚群(n=3),f1、f2與f3的行為策略均由網絡擬合并學習訓練獲得。針對自主漫游場景實驗的具體參數(shù)設置為:環(huán)境大小M=11,感知范圍S=5;獎勵機制的可調參數(shù)β1=1,β2=1,β3=0,β4=0,β5=0;Tmax=250,無提前終止條件。圖7展示了一次典型測試過程魚群運動狀態(tài)的變化情況。在T=76時,所有個體朝著上方運動,且個體之間距離為1。在T=130時,所有個體朝著下方運動,且個體之間距離為1。經數(shù)據(jù)統(tǒng)計,在250個時間步內,魚群始終聚集在一起,互相碰撞0次,碰到障礙物1次,說明魚群學會了博德規(guī)則中的“聚集”規(guī)則,同時還可避開環(huán)境中的障礙物。

    圖7 自主漫游場景的學習結果Fig.7 Results of learning in the autonomous wandering scenario

    4.3 群體導航場景

    圖8 群體導航場景的學習結果Fig.8 Results of learning in the group navigation scenario

    在群體導航場景中,魚群中所有個體需要朝著給定目標協(xié)同地運動。如果環(huán)境中存在障礙物,魚群需要避開障礙物。設有一個3條魚組成的魚群(n=3),f1、f2與f3的行為策略均由網絡擬合并學習訓練獲得。針對群體導航場景實驗的具體參數(shù)設置為:環(huán)境大小M=19,感知范圍S=5,獎勵位置為prew(5,13);獎勵機制的可調參數(shù)β1=1,β2=1,β3=2,β4=10,β5=0;Tmax=50,無提前終止條件。圖8展示了一次典型測試過程魚群運動狀態(tài)的變化情況。初始時刻,魚群的狀態(tài)如圖8中T=0時所示魚群。模擬開始后,魚群一直朝右側方向游動,直至T=5時,即將碰到環(huán)境中的障礙物。魚群改變游動方向,朝右上側游動繞過障礙物并接近獎勵位置,到達T=11的狀態(tài)。當T=16時,魚群到達獎勵位置。之后魚群將圍繞獎勵位置在水平方向往復運動。經數(shù)據(jù)統(tǒng)計,碰到障礙物0次。實驗結果表明魚群學會協(xié)調地繞過障礙物,到達獎勵位置。魚群游動過程展現(xiàn)出聚集、同向特性。

    4.4 對比實驗結果

    為了說明赫布跡的引入對于學習過程的影響,圖9給出了群體導航學習訓練過程中,有赫布跡項和無赫布跡項2種條件下的群體獎勵值的變化曲線??梢园l(fā)現(xiàn),有赫布跡項時,群體在約80 000 個學習回合之后的學習過程相比無赫布跡項時明顯加快,使得最終的獎勵值更優(yōu),即群體所學到的行為更加符合自組織行為的特點,也表明赫布跡項的記憶特性對于群體學習過程起到了正面促進作用。

    圖9 有赫布跡項和無赫布跡項條件下的學習結果Fig.9 Results of learning with and without the Hebbian trace

    基于群體導航場景的實驗結果,通過改變獎勵機制的可調參數(shù)、改變魚群個體數(shù)量、改變獎勵位置進一步測試學習算法的效果,獲得統(tǒng)計結果如表1~2所示。

    表1 魚群模擬對比實驗參數(shù)設置

    表2 魚群行為特點對比

    為了對比基于學習方法模擬的魚群行為與基于博德規(guī)則模擬的魚群[20]行為特點,設計了2個量化指標進行衡量:一個是位置偏差m1,對應博德模型中的“聚集”和“避碰”規(guī)則;另一個是朝向偏差m2,對應博德模型中的“同向”規(guī)則。m1和m2的具體計算方式如式(16)~(17)所示。

    (16)

    (17)

    通過表2的數(shù)據(jù)對比分析可知,在位置偏差度量上,基于學習方法模擬的魚群行為特點與基于博德規(guī)則模擬的魚群類似。而在朝向偏差度量方面,當可調參數(shù)β4顯著減小時,例如實驗設置A1對比A,由于與目標導航相關的獎勵值權重顯著減小,目標位置對于每個個體的方向導引作用減弱,使得魚群在個體相互作用下表現(xiàn)出更好的方向趨同性。進一步,實驗設置A2對比A1,當可調參數(shù)β3增大時,由于與朝向相關的獎勵值權重增加,模擬的魚群展現(xiàn)更好的方向趨同性。相反,當β3減小時,例如實驗設置A3對比A,與朝向相關的獎勵值權重減小,模擬的魚群方向趨同性相應變差。因此,對比實驗結果進一步證明了學習方法的有效性。

    5 結論

    為了從學習的角度切入實現(xiàn)魚群自組織行為模擬,首先構建了魚群模擬框架,包括魚群運動環(huán)境模型,智能體的感知、運動和決策模型和獎勵機制。接著,基于赫布跡和行動者-評價者框架提出了一種多智能體強化學習方法。在學習訓練階段,該方法利用網絡凍結的思想實現(xiàn)了分布式學習,有助于群體規(guī)模擴展,并利用赫布跡優(yōu)化了策略學習過程。仿真結果表明,該方法在領航跟隨、自主漫游、群體導航等場景均成功學到了魚群自組織行為。進一步數(shù)據(jù)分析發(fā)現(xiàn),基于學習方法模擬的魚群與基于博德規(guī)則計算模擬的魚群在行為特性上表現(xiàn)出一定相似性。在后續(xù)工作中,以學習結果為基礎,將進一步基于直覺物理、隨機選擇計算等類人智能因素對魚群自組織行為展開研究。

    猜你喜歡
    魚群群體神經網絡
    通過自然感染獲得群體免疫有多可怕
    科學大眾(2020年10期)2020-07-24 09:14:12
    神經網絡抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    “群體失語”需要警惕——“為官不言”也是腐敗
    當代陜西(2019年6期)2019-04-17 05:04:02
    魚群漩渦
    中外文摘(2017年19期)2017-10-10 08:28:41
    基于改進魚群優(yōu)化支持向量機的短期風電功率預測
    電測與儀表(2016年3期)2016-04-12 00:27:44
    基于人工魚群算法的光伏陣列多峰MPPT控制策略
    基于神經網絡的拉矯機控制模型建立
    重型機械(2016年1期)2016-03-01 03:42:04
    復數(shù)神經網絡在基于WiFi的室內LBS應用
    基于支持向量機回歸和RBF神經網絡的PID整定
    多子群并行人工魚群算法的改進研究
    国内精品宾馆在线| 日韩熟女老妇一区二区性免费视频| 精品福利永久在线观看| 五月伊人婷婷丁香| 国产高清国产精品国产三级| 99久久精品国产国产毛片| 亚洲图色成人| 免费大片黄手机在线观看| 1024视频免费在线观看| 日韩av免费高清视频| videossex国产| 久久久久久人人人人人| 午夜福利,免费看| 国产福利在线免费观看视频| 亚洲国产精品专区欧美| 卡戴珊不雅视频在线播放| 欧美3d第一页| 蜜桃在线观看..| 午夜福利网站1000一区二区三区| 爱豆传媒免费全集在线观看| 咕卡用的链子| 国产深夜福利视频在线观看| 国产成人精品福利久久| 制服诱惑二区| 精品第一国产精品| 秋霞在线观看毛片| 午夜视频国产福利| 伊人亚洲综合成人网| 18禁裸乳无遮挡动漫免费视频| 国产1区2区3区精品| 亚洲精品中文字幕在线视频| 18+在线观看网站| 久久久亚洲精品成人影院| 日韩av免费高清视频| 老司机影院成人| 欧美精品高潮呻吟av久久| 熟女电影av网| 国产成人免费观看mmmm| 99九九在线精品视频| 黑人巨大精品欧美一区二区蜜桃 | 精品久久久久久电影网| 高清不卡的av网站| 久久久久久人人人人人| 国产色爽女视频免费观看| 夫妻性生交免费视频一级片| 日本wwww免费看| 久久 成人 亚洲| 中文字幕亚洲精品专区| 在线天堂中文资源库| 男人操女人黄网站| 黄色怎么调成土黄色| 免费看av在线观看网站| 伦精品一区二区三区| 国产黄色免费在线视频| av一本久久久久| 侵犯人妻中文字幕一二三四区| h视频一区二区三区| 国产女主播在线喷水免费视频网站| 女人精品久久久久毛片| 成人无遮挡网站| av黄色大香蕉| 国产熟女欧美一区二区| 最近最新中文字幕免费大全7| 18禁在线无遮挡免费观看视频| 成年av动漫网址| 亚洲成色77777| 精品久久久久久电影网| 午夜老司机福利剧场| 高清在线视频一区二区三区| 人体艺术视频欧美日本| 成人国产av品久久久| 中国三级夫妇交换| 我要看黄色一级片免费的| 一个人免费看片子| 国产成人精品久久久久久| 五月玫瑰六月丁香| a级毛片黄视频| 成年动漫av网址| 精品人妻偷拍中文字幕| 免费久久久久久久精品成人欧美视频 | 一本大道久久a久久精品| 在线观看人妻少妇| av.在线天堂| 国产欧美另类精品又又久久亚洲欧美| 亚洲综合精品二区| 国产成人精品一,二区| 制服丝袜香蕉在线| 日本猛色少妇xxxxx猛交久久| 水蜜桃什么品种好| 国产又色又爽无遮挡免| 久久99蜜桃精品久久| 午夜免费鲁丝| 精品99又大又爽又粗少妇毛片| 亚洲经典国产精华液单| 少妇人妻久久综合中文| 最近手机中文字幕大全| 男人添女人高潮全过程视频| 日韩av不卡免费在线播放| 狂野欧美激情性xxxx在线观看| 韩国高清视频一区二区三区| 人人妻人人爽人人添夜夜欢视频| 久久99精品国语久久久| 丰满迷人的少妇在线观看| 免费看av在线观看网站| 精品酒店卫生间| 日韩制服骚丝袜av| 国产精品久久久久成人av| 夜夜爽夜夜爽视频| 久久免费观看电影| 国产综合精华液| 中文字幕免费在线视频6| 久久久久久久久久久免费av| 桃花免费在线播放| 欧美国产精品va在线观看不卡| 欧美97在线视频| 国产永久视频网站| 美女xxoo啪啪120秒动态图| 久久精品久久久久久久性| 高清视频免费观看一区二区| 最黄视频免费看| 日韩欧美精品免费久久| 巨乳人妻的诱惑在线观看| 22中文网久久字幕| 亚洲国产精品一区三区| 女人被躁到高潮嗷嗷叫费观| 成人亚洲欧美一区二区av| 亚洲精品乱久久久久久| 国产精品99久久99久久久不卡 | 国产xxxxx性猛交| 在线看a的网站| 伦理电影免费视频| 国产一级毛片在线| 欧美最新免费一区二区三区| 七月丁香在线播放| 国产精品久久久久久精品电影小说| 国产又色又爽无遮挡免| 中文字幕人妻熟女乱码| 亚洲国产最新在线播放| 男人添女人高潮全过程视频| 欧美日韩成人在线一区二区| 久久精品久久精品一区二区三区| 亚洲伊人色综图| 亚洲欧美精品自产自拍| 国产片内射在线| 国产一级毛片在线| 香蕉丝袜av| 精品久久国产蜜桃| 国产69精品久久久久777片| 五月开心婷婷网| 国产欧美另类精品又又久久亚洲欧美| 在线免费观看不下载黄p国产| 国产成人一区二区在线| 一区二区av电影网| 热99国产精品久久久久久7| 国产午夜精品一二区理论片| 美女主播在线视频| 国产精品久久久久成人av| 80岁老熟妇乱子伦牲交| 69精品国产乱码久久久| 婷婷色综合www| 赤兔流量卡办理| 日韩av不卡免费在线播放| 午夜免费鲁丝| 丝袜喷水一区| 只有这里有精品99| 嫩草影院入口| 在线观看免费视频网站a站| 两性夫妻黄色片 | 人妻一区二区av| 精品国产一区二区久久| 免费日韩欧美在线观看| 欧美+日韩+精品| 桃花免费在线播放| 麻豆乱淫一区二区| 久久精品人人爽人人爽视色| 国产成人精品婷婷| 婷婷成人精品国产| 一级毛片黄色毛片免费观看视频| av一本久久久久| 亚洲中文av在线| 亚洲综合色惰| 亚洲精品成人av观看孕妇| av有码第一页| 亚洲av福利一区| 韩国高清视频一区二区三区| 大陆偷拍与自拍| 夫妻午夜视频| 天天躁夜夜躁狠狠躁躁| 国产免费一级a男人的天堂| 美女xxoo啪啪120秒动态图| 高清在线视频一区二区三区| 视频在线观看一区二区三区| 国产精品久久久久久av不卡| 国产一区有黄有色的免费视频| 亚洲av中文av极速乱| 亚洲高清免费不卡视频| 成人午夜精彩视频在线观看| 免费在线观看黄色视频的| 国产精品久久久久成人av| 亚洲国产精品999| av片东京热男人的天堂| 秋霞在线观看毛片| 国产av精品麻豆| 制服人妻中文乱码| 亚洲精品一区蜜桃| freevideosex欧美| 午夜福利影视在线免费观看| 亚洲,欧美精品.| 桃花免费在线播放| 久久久精品区二区三区| 中文字幕人妻丝袜制服| 美女xxoo啪啪120秒动态图| 丁香六月天网| 国产精品成人在线| 在现免费观看毛片| 亚洲精品美女久久久久99蜜臀 | a级片在线免费高清观看视频| 国产麻豆69| 日韩 亚洲 欧美在线| 亚洲中文av在线| 97在线视频观看| 免费黄网站久久成人精品| 天天操日日干夜夜撸| 91在线精品国自产拍蜜月| 天天影视国产精品| 亚洲色图 男人天堂 中文字幕 | 看免费成人av毛片| 极品人妻少妇av视频| 久久 成人 亚洲| 成年动漫av网址| 狠狠婷婷综合久久久久久88av| 黑人高潮一二区| 丝袜在线中文字幕| 国产成人精品无人区| 亚洲 欧美一区二区三区| 男人添女人高潮全过程视频| 久久精品国产自在天天线| av女优亚洲男人天堂| 看十八女毛片水多多多| 精品久久国产蜜桃| 男女午夜视频在线观看 | 十八禁高潮呻吟视频| 大香蕉久久成人网| 老司机影院成人| 五月开心婷婷网| 成人影院久久| 国产又爽黄色视频| 亚洲av成人精品一二三区| 亚洲五月色婷婷综合| 亚洲成人av在线免费| 久久午夜综合久久蜜桃| 一级爰片在线观看| 中文字幕人妻熟女乱码| 97精品久久久久久久久久精品| 一区二区三区四区激情视频| 久热久热在线精品观看| 久久久亚洲精品成人影院| 咕卡用的链子| 亚洲精品美女久久av网站| 国国产精品蜜臀av免费| av在线老鸭窝| 婷婷色综合大香蕉| 亚洲欧美日韩另类电影网站| 全区人妻精品视频| 国产av国产精品国产| 日韩欧美一区视频在线观看| av免费在线看不卡| 女人被躁到高潮嗷嗷叫费观| 最新的欧美精品一区二区| 欧美人与性动交α欧美软件 | av卡一久久| 熟女av电影| 国产成人精品婷婷| 十八禁高潮呻吟视频| 波多野结衣一区麻豆| 欧美精品亚洲一区二区| 美女脱内裤让男人舔精品视频| 天美传媒精品一区二区| 国产成人午夜福利电影在线观看| 国产男人的电影天堂91| 极品少妇高潮喷水抽搐| 亚洲熟女精品中文字幕| 亚洲欧美日韩另类电影网站| 大话2 男鬼变身卡| 精品国产国语对白av| 在线精品无人区一区二区三| 亚洲欧洲日产国产| 老女人水多毛片| 观看av在线不卡| 99热全是精品| av网站免费在线观看视频| 性色avwww在线观看| 日韩,欧美,国产一区二区三区| 多毛熟女@视频| 亚洲欧美色中文字幕在线| 亚洲av成人精品一二三区| 亚洲成人一二三区av| 视频在线观看一区二区三区| 男人爽女人下面视频在线观看| 国产成人精品在线电影| xxxhd国产人妻xxx| 国产精品人妻久久久久久| 又粗又硬又长又爽又黄的视频| 亚洲av在线观看美女高潮| 制服诱惑二区| 国产精品国产三级国产专区5o| 高清黄色对白视频在线免费看| 久久午夜福利片| 亚洲精品美女久久av网站| 中国国产av一级| 久久精品aⅴ一区二区三区四区 | 欧美日韩视频高清一区二区三区二| 男女无遮挡免费网站观看| 成人国语在线视频| 精品亚洲乱码少妇综合久久| 精品国产乱码久久久久久小说| 久久久精品区二区三区| 亚洲精品乱码久久久久久按摩| av不卡在线播放| 欧美日韩综合久久久久久| 日韩成人av中文字幕在线观看| 久久久欧美国产精品| 免费久久久久久久精品成人欧美视频 | 久久久久久久久久人人人人人人| 久久 成人 亚洲| 免费看光身美女| 精品第一国产精品| 国产不卡av网站在线观看| 大码成人一级视频| 乱码一卡2卡4卡精品| 一区二区av电影网| 国产爽快片一区二区三区| 亚洲色图 男人天堂 中文字幕 | 满18在线观看网站| 欧美 亚洲 国产 日韩一| 国产成人精品在线电影| av卡一久久| 五月开心婷婷网| 一区二区三区四区激情视频| 久久久久精品人妻al黑| 校园人妻丝袜中文字幕| 99re6热这里在线精品视频| 搡老乐熟女国产| 午夜视频国产福利| 多毛熟女@视频| 免费人成在线观看视频色| 自拍欧美九色日韩亚洲蝌蚪91| av在线app专区| 少妇人妻久久综合中文| 日日啪夜夜爽| 亚洲av男天堂| 精品亚洲乱码少妇综合久久| 欧美人与性动交α欧美精品济南到 | 亚洲综合精品二区| 熟女电影av网| 我要看黄色一级片免费的| 精品国产露脸久久av麻豆| 欧美日韩国产mv在线观看视频| 亚洲av电影在线进入| 毛片一级片免费看久久久久| 亚洲中文av在线| 久久 成人 亚洲| 少妇高潮的动态图| 少妇猛男粗大的猛烈进出视频| 国产成人精品福利久久| 久久国产亚洲av麻豆专区| 亚洲国产日韩一区二区| 91在线精品国自产拍蜜月| 久久鲁丝午夜福利片| 啦啦啦中文免费视频观看日本| 日本黄色日本黄色录像| 亚洲精品av麻豆狂野| 国产成人精品福利久久| 精品少妇内射三级| 国产精品一区二区在线观看99| 午夜福利视频精品| 久久女婷五月综合色啪小说| 王馨瑶露胸无遮挡在线观看| 国产成人精品在线电影| 一级毛片我不卡| 99视频精品全部免费 在线| videossex国产| 99视频精品全部免费 在线| 人妻人人澡人人爽人人| 日本免费在线观看一区| 欧美人与性动交α欧美软件 | 欧美3d第一页| 五月伊人婷婷丁香| 久久人人97超碰香蕉20202| 最黄视频免费看| 天天躁夜夜躁狠狠躁躁| 日本wwww免费看| av在线app专区| 日本vs欧美在线观看视频| 伊人久久国产一区二区| 少妇的丰满在线观看| 国产免费又黄又爽又色| 国产亚洲午夜精品一区二区久久| 国产不卡av网站在线观看| 欧美性感艳星| 国产欧美亚洲国产| 久久午夜福利片| 熟女电影av网| 成年人午夜在线观看视频| 国产成人精品无人区| 九色亚洲精品在线播放| 亚洲精品,欧美精品| 免费看av在线观看网站| 久久精品久久久久久噜噜老黄| 亚洲图色成人| 各种免费的搞黄视频| 国产亚洲av片在线观看秒播厂| 国产欧美另类精品又又久久亚洲欧美| 久久狼人影院| 亚洲欧洲精品一区二区精品久久久 | 卡戴珊不雅视频在线播放| 免费av不卡在线播放| 一本大道久久a久久精品| 国产成人精品无人区| 国产黄色视频一区二区在线观看| av在线观看视频网站免费| 国产精品久久久久久久久免| 菩萨蛮人人尽说江南好唐韦庄| 久久久国产欧美日韩av| 免费久久久久久久精品成人欧美视频 | 最近最新中文字幕大全免费视频 | 视频区图区小说| 涩涩av久久男人的天堂| 一边亲一边摸免费视频| 国产精品国产av在线观看| 成人18禁高潮啪啪吃奶动态图| 精品人妻熟女毛片av久久网站| 91精品国产国语对白视频| 国产男女超爽视频在线观看| 亚洲av免费高清在线观看| 欧美精品一区二区大全| 少妇熟女欧美另类| 少妇被粗大猛烈的视频| av黄色大香蕉| 有码 亚洲区| 国产不卡av网站在线观看| 日本av手机在线免费观看| av有码第一页| av不卡在线播放| 91午夜精品亚洲一区二区三区| 啦啦啦啦在线视频资源| 亚洲国产av新网站| 亚洲国产看品久久| 成人漫画全彩无遮挡| 欧美日本中文国产一区发布| 人妻人人澡人人爽人人| a级毛片在线看网站| 另类精品久久| 少妇人妻 视频| 国产一区有黄有色的免费视频| 国产精品欧美亚洲77777| 高清视频免费观看一区二区| 久久午夜福利片| 亚洲一码二码三码区别大吗| 久久人人爽人人片av| 婷婷色综合大香蕉| 又黄又爽又刺激的免费视频.| 九色成人免费人妻av| 免费在线观看完整版高清| 国产免费视频播放在线视频| 寂寞人妻少妇视频99o| 99热6这里只有精品| 欧美日韩精品成人综合77777| 乱码一卡2卡4卡精品| 男女边吃奶边做爰视频| 亚洲国产日韩一区二区| 久久国内精品自在自线图片| 视频在线观看一区二区三区| 中文字幕免费在线视频6| 高清黄色对白视频在线免费看| 最后的刺客免费高清国语| 国产免费一级a男人的天堂| a级毛色黄片| 人人妻人人澡人人看| 少妇精品久久久久久久| 亚洲av电影在线观看一区二区三区| 黄色一级大片看看| 老司机影院成人| 久久99蜜桃精品久久| 久久精品国产a三级三级三级| 国产精品人妻久久久影院| 亚洲欧美成人精品一区二区| 18禁在线无遮挡免费观看视频| 纵有疾风起免费观看全集完整版| 婷婷色av中文字幕| 一本—道久久a久久精品蜜桃钙片| 少妇被粗大的猛进出69影院 | 国产伦理片在线播放av一区| 99九九在线精品视频| 国产永久视频网站| 国产欧美日韩一区二区三区在线| 精品午夜福利在线看| 久久亚洲国产成人精品v| 一二三四中文在线观看免费高清| 男女下面插进去视频免费观看 | 色吧在线观看| 国产不卡av网站在线观看| av卡一久久| 中文天堂在线官网| 纯流量卡能插随身wifi吗| 国产欧美另类精品又又久久亚洲欧美| 亚洲性久久影院| 国语对白做爰xxxⅹ性视频网站| 亚洲激情五月婷婷啪啪| 高清毛片免费看| 日本猛色少妇xxxxx猛交久久| 亚洲精品美女久久av网站| 大香蕉97超碰在线| 91国产中文字幕| 乱码一卡2卡4卡精品| av天堂久久9| 亚洲人成77777在线视频| 狂野欧美激情性bbbbbb| 国产精品秋霞免费鲁丝片| 日韩精品免费视频一区二区三区 | 日韩一区二区三区影片| 国产成人91sexporn| 18+在线观看网站| 王馨瑶露胸无遮挡在线观看| 1024视频免费在线观看| 久久精品国产a三级三级三级| 免费av中文字幕在线| 成人免费观看视频高清| 下体分泌物呈黄色| 少妇人妻 视频| 午夜视频国产福利| 王馨瑶露胸无遮挡在线观看| 18在线观看网站| 久久精品国产亚洲av天美| 久久久精品94久久精品| 亚洲成色77777| 侵犯人妻中文字幕一二三四区| 久久这里只有精品19| 国产午夜精品一二区理论片| 99九九在线精品视频| 最新的欧美精品一区二区| 高清在线视频一区二区三区| 国产日韩一区二区三区精品不卡| 一级毛片黄色毛片免费观看视频| 啦啦啦啦在线视频资源| 亚洲av福利一区| 成年人免费黄色播放视频| 在现免费观看毛片| 欧美bdsm另类| 久久久精品免费免费高清| 丝袜美足系列| 这个男人来自地球电影免费观看 | 丰满饥渴人妻一区二区三| 国产一区二区在线观看av| kizo精华| 春色校园在线视频观看| 日本av免费视频播放| 国产色婷婷99| 黄色毛片三级朝国网站| 亚洲精品视频女| 97在线人人人人妻| 欧美性感艳星| 亚洲国产精品一区二区三区在线| 午夜精品国产一区二区电影| 一级a做视频免费观看| 波野结衣二区三区在线| 国产日韩欧美视频二区| 我的女老师完整版在线观看| 高清视频免费观看一区二区| 久久久久网色| 国产极品粉嫩免费观看在线| 丰满的人妻完整版| 久久精品亚洲精品国产色婷小说| 国产av又大| 国产又爽黄色视频| 在线观看免费高清a一片| 麻豆av在线久日| 91成人精品电影| 久久青草综合色| 久久亚洲真实| 午夜免费成人在线视频| 9色porny在线观看| 亚洲aⅴ乱码一区二区在线播放 | 91av网站免费观看| 老司机靠b影院| 多毛熟女@视频| 亚洲九九香蕉| 12—13女人毛片做爰片一| √禁漫天堂资源中文www| 黄色视频,在线免费观看| 亚洲精品国产区一区二| 国产亚洲欧美精品永久| 国产精品九九99| 国产精品亚洲一级av第二区| 精品久久蜜臀av无| 久久久国产精品麻豆| 午夜两性在线视频| 91麻豆av在线| 91成年电影在线观看| 动漫黄色视频在线观看| 老司机午夜福利在线观看视频| 国产亚洲欧美在线一区二区| 又紧又爽又黄一区二区| 日韩有码中文字幕| 亚洲欧美色中文字幕在线| 久久热在线av| 免费人成视频x8x8入口观看| 亚洲精品在线观看二区| 国产成人啪精品午夜网站| 日本黄色日本黄色录像| 国产免费男女视频| 日本一区二区免费在线视频| 国产精品免费一区二区三区在线 | 叶爱在线成人免费视频播放| 飞空精品影院首页|