摘要:生物集群的協(xié)同智能可用于啟發(fā)人工復(fù)雜系統(tǒng)調(diào)控,但是現(xiàn)有的自動建模方法往往不符合生物集群信息的處理特點,導(dǎo)致單體的信息交互建模仍充滿挑戰(zhàn)。不失一般性,借助紅鼻剪刀魚的集群運動數(shù)據(jù)設(shè)計符合生物硬注意力機制的深度網(wǎng)絡(luò)模型,該結(jié)構(gòu)能強制單體考慮至多兩個以內(nèi)的鄰居信息,并能顯現(xiàn)出高影響力鄰居經(jīng)常出沒的隱藏位置,說明硬注意力模型符合生物集群的信息處理機制。實驗結(jié)果表明:所提硬注意力模型具有較為良好的稀疏信息解耦能力、較為魯棒的集群運動指標以及較為優(yōu)秀的集群規(guī)模泛化性能,為復(fù)雜系統(tǒng)的多層次行為分析提供了有力的工具支撐,該方法對集群機器人的分布式控制具有較強的啟發(fā)意義。
關(guān)鍵詞:生物集群智能;復(fù)雜系統(tǒng)控制;硬注意力模型;集群機器人
中圖分類號:TP 273 文獻標志碼:A
自然界中的生物集群會通過自組織產(chǎn)生有序的宏觀結(jié)構(gòu),如細胞群極性排列[1],魚群集體巡游、鳥群編隊飛行[2-3],獸群協(xié)同遷徙等[4-5],這些集群中的單體都能憑借與周邊信息的交互使群體生成具有特定功能的宏觀“圖樣”,從而確保種群具有更強的生存繁衍能力。一直以來,生物集群協(xié)同研究可以深度啟發(fā)人工復(fù)雜系統(tǒng)的分布式控制策略,相較于經(jīng)典控制理論[6],生物集群協(xié)同控制模型能使人工集群系統(tǒng)運動更具魯棒性與靈活性[7],所以能作為復(fù)雜系統(tǒng)調(diào)控的重要參考。
然而分析生物集群的內(nèi)部信息傳遞與交互策略極具挑戰(zhàn),究其原因在于還無法直接解釋生物體應(yīng)對復(fù)雜集群場景時的真實腦神經(jīng)信號處理機制,導(dǎo)致現(xiàn)有的集群運動研究多采用主觀性較強的人工模型設(shè)計方案,如著名的Vicsek 模型。該模型假定單體能與周邊所有鄰居進行交互,可以形成穩(wěn)定的集群運動[8],但是其應(yīng)用于實際人工集群控制卻極為困難[9],需要依賴專家經(jīng)驗花費大量時間來進行模型調(diào)整。Couzin 模型[10] 以及圖網(wǎng)絡(luò)模型[11] 等類似方法同樣要求單體具有多源信息處理能力,這明顯與生物單體有限的腦進化水平相矛盾,可見如何解釋單體有目地的選擇多鄰居信息進行交互仍充滿挑戰(zhàn)。領(lǐng)域?qū)<襎heraulaz Guy近期研究認為魚類集群中的單體應(yīng)僅與少量鄰居交互就能保持足夠的群體凝聚力[12]。文獻[13] 也表明:魚類單體最多選擇兩個鄰居交互就能形成穩(wěn)定的集群運動,但是重點交互鄰居的選擇方法卻比較復(fù)雜,可見采用傳統(tǒng)的建模方法還不足以應(yīng)對這類開放的科學(xué)難題。
由于交互數(shù)據(jù)會隨著集群規(guī)模的擴張而呈指數(shù)性增長,目前只有基于大數(shù)據(jù)的機器學(xué)習(xí)方法才有能力對抗這種規(guī)模的復(fù)雜性,現(xiàn)在正處于深度學(xué)習(xí)方法逐漸向各研究領(lǐng)域全面滲透的時期,于是出現(xiàn)了一些集群運動相關(guān)的深度網(wǎng)絡(luò)模型,如通過兩魚實驗數(shù)據(jù)提出的最強視覺DNN 模型[14-15]。該模型具有一定的生物集群控制效果,并能應(yīng)用于集群機器人實際,但這類交互模型受限于深度網(wǎng)絡(luò)臭名昭著的“黑箱”特性,使得模型內(nèi)部的交互機理還不具備可解釋性。如何從數(shù)據(jù)之中客觀解耦出單體關(guān)注的重點鄰居,并量化交互強度仍是未解的科學(xué)難題,所以亟需設(shè)計一種可解釋的自動建模方法來幫助挖掘生物體的信息交互機理,以明晰集群內(nèi)部的信息傳遞路徑。為此,嘗試設(shè)計一種硬注意力模型結(jié)構(gòu)來生成微觀層面單體的交互行為,其中硬注意力機制會考慮兩個以內(nèi)的鄰居信息,從而在物理層面約束了集群交互的計算負荷,并能找出單體影響力最大的鄰居,以期解耦魚類神經(jīng)響應(yīng)行為的內(nèi)在本質(zhì)。
1 實驗方法與數(shù)據(jù)處理
1.1 集群實驗設(shè)計與相關(guān)運動參數(shù)
紅鼻剪刀魚體型小巧、行動敏捷,成年體長約3 cm,有良好的集群特性,即使少量單體也能產(chǎn)生較強的集群運動效果。將該魚作為實驗對象,放置在半徑為25 cm 的淺水圓環(huán)內(nèi),使用高清攝像機記錄5 條魚累計11 h 的運動視頻,如圖1(a)所示,利用軟件識別提取出魚群的運動軌跡。實驗數(shù)據(jù)分析發(fā)現(xiàn),剪刀魚具有瞬間轉(zhuǎn)向加速、直線滑行的運動模式[16],為方便決策建模,可將單體運動簡化為連續(xù)交替的轉(zhuǎn)向?直游運動決策,最終將5 條魚的運動軌跡離散化為5 組決策線段,單體在線段的端點處進行決策轉(zhuǎn)向。由于實驗魚群多數(shù)時間處于休息狀態(tài),不利于集群運動的機器學(xué)習(xí)模式提取,所以保留魚群單體速度大于6.6 cm/s(約每秒2 倍體長)的軌跡數(shù)據(jù),最后總共提取出6 萬余條合格數(shù)據(jù)用于模型訓(xùn)練。
1.2 實驗數(shù)據(jù)預(yù)處理
將軌跡的坐標系原點設(shè)定在圓形實驗環(huán)境中心,環(huán)境半徑RW為25 cm,如圖1(a) 所示。規(guī)定魚群逆時針運動方向為正,如圖1(b) 所示。在時刻, 單體與單體的位置分別為(xi (t) ,"yi (t))和(xj (t) ,"yj (t)),單體i的航向角為?i (t)。rwi (t)為單體i相對邊界的距離,θwi (t)為單體相對邊界的角度,這兩個參數(shù)在微觀層面決定了單體的環(huán)境交互行為,可由單體i的位姿與環(huán)境半徑RW計算得到,即
單體的社會交互如圖1(c)所示,在t時刻,單 體i通過視覺觀察來探測鄰居j的信息,其中,dij(t)為單體i相對鄰居j的距離,ψij(t)為單體i觀察 鄰居j的視角,Δφij(t)為鄰居j相對單體i的航向角 差,該參數(shù)用于表征兩單體之間的對齊程度,特 別當(dāng)Δφij= O時表明兩魚平行,從而具有較一致的 運動方向,是魚群協(xié)同運動的主要方式。上述 3個參數(shù)對建模單體的社會交互行為至關(guān)重要,具 體計算方法如下
單體i在獲取環(huán)境與社交信息后,會在決策時刻生成新一次的轉(zhuǎn)向角度和直游距離,以滿足集 群運動的需要。假定t時刻為單體i的決策時刻,如 圖1(d)所示。δti表示單體i的轉(zhuǎn)角決策,體現(xiàn)了單 體決策前后的航向角變化,lti為單體i的直游距 離,即該單體到達下一次決策位置的直行距離,ηti為單體i的游動時長,體現(xiàn)為到達下一決策的運 動時間,所以(t+ηti)為決策時刻t相鄰的下次決策 時刻。在下次決策之前,單體i保持航向角不變的 直線游動,具體航向可用φi(t+ηti)表示,由前后兩 次決策單體i的位置計算得到,即
根據(jù)式(6)可得出單體i的轉(zhuǎn)角決策
直游決策可由決策位置的變化計算得到,即
2 硬注意力網(wǎng)絡(luò)模型結(jié)構(gòu)與訓(xùn)練方法
魚群交互行為的硬注意力網(wǎng)絡(luò)模型如圖2所 示,根據(jù)網(wǎng)絡(luò)功能可將整體結(jié)構(gòu)劃分為兩個獨立 單元:轉(zhuǎn)向網(wǎng)絡(luò)和直游網(wǎng)絡(luò)。此二者共享相同的 硬注意力結(jié)構(gòu),如圖2所示的核心網(wǎng)部分,核心 網(wǎng)的上下兩側(cè)分別為輸入數(shù)據(jù)與輸出解碼網(wǎng)絡(luò)。 其中,轉(zhuǎn)向網(wǎng)絡(luò)的輸入數(shù)據(jù)包括焦點單體i對環(huán)境 的感知Xti=[rwi(t),θwi(t),0](0為三元組占位符)以 及對其鄰居的位置觀察Xtij=[dij,ψij, Δφij],j∈Ni,Ni為單體i所有鄰居的標號;轉(zhuǎn)向網(wǎng)絡(luò)的輸出為單 體i的轉(zhuǎn)角決策δti,如圖1(d)所示,獲取轉(zhuǎn)角決策 ^后單體i進行轉(zhuǎn)動,則單體i對環(huán)境的感知角度信 息被更新為
Xti = [rwi (t) ,"θwi (t) + δti,"0] (9)
將式(9)?(10)作為數(shù)據(jù)輸入直游網(wǎng)絡(luò),上述操 作相當(dāng)于將直游網(wǎng)絡(luò)串聯(lián)在轉(zhuǎn)向網(wǎng)絡(luò)后方,先更 新焦點單體i的航向,然后再輸出直游距離lti和游 動時長ηti決策。由于兩決策單元均采用了相同的硬 注意力核心結(jié)構(gòu),該結(jié)構(gòu)用于對焦點單體i關(guān)注的 鄰居進行稀疏提取,所以具有集群信息交互的可 解釋性。
2.1 硬注意力模型的核心網(wǎng)結(jié)構(gòu)
圖2 中的核心網(wǎng)是進行集群硬注意力解耦的關(guān)鍵,是整個自動建模方法的核心,分別被嵌入在轉(zhuǎn)向網(wǎng)絡(luò)和直游網(wǎng)絡(luò)中,核心網(wǎng)包括編碼器網(wǎng)、圖注意力網(wǎng)、信息聚合組件以及預(yù)解碼網(wǎng)四部分, 其中編碼器網(wǎng)部分借鑒了Transformer 結(jié)構(gòu)[17], 該部分接收環(huán)境信息Xti和鄰居信息Xti j,j ∈ Ni,將這些信息排列組合成Ni + 1個3 元組列表,列表的第一項代表焦點單體自身,其余項表征鄰居信息,然后將輸入列表復(fù)制到3 個同構(gòu)的全連接網(wǎng)絡(luò):分別為查詢編碼器Q、鍵值編碼器K以及數(shù)值編碼器V。這三組編碼器采用了相同的結(jié)構(gòu)參數(shù)[3, 128, 40],其中,輸入層3 神經(jīng)元代表網(wǎng)絡(luò)輸入為三元組,輸出層40 神經(jīng)元用于將輸入信息提升到高維編碼空間,各隱藏層之間使用Mish激活函數(shù),即
y = x ·"tanh(ln(1+ex))(11)
該激活函數(shù)具有類Relu函數(shù)特點,可保證有 較深的梯度傳播能力。同時,該函數(shù)還具有拐點 光滑、正向單調(diào)的特性,既能較好地保持模型的 輸出穩(wěn)定性,又能避免反向傳播的梯度消失,有 利于節(jié)點導(dǎo)數(shù)計算,所以適于復(fù)雜系統(tǒng)的可解釋 自動建模。環(huán)境數(shù)據(jù)(可看作焦點單體信息)經(jīng)查 詢編碼器2升維并復(fù)制Ni+1次可構(gòu)成查詢表 [Qi,Qi1,…,QiNi],輸入列表經(jīng)鍵值編碼器K處理后 會生成具有Ni+1項的鍵值表[Ki,ki1,…,KiNi],輸 入列表會被數(shù)值網(wǎng)絡(luò)V轉(zhuǎn)換成Ni+1項的高維值向 量表[Vi,Vii,…,ViNi]。
由于魚類的腦神經(jīng)系統(tǒng)具有有限的信息處理 能力[18],這導(dǎo)致單體在集群之中無法同時處理所 有鄰居的信息,根據(jù)文獻[13]給出的研究結(jié)論: 單體僅與一到兩個鄰居交互即可生成集群運動, 所以在核心網(wǎng)中設(shè)計硬注意力單元來強制單體僅 與兩個以內(nèi)的重點鄰居交互,同時要保證單體基 于少量鄰居信息做出的決策還能符合宏觀有序集 群運動的生成。為此,將查詢表[Qi,Qi1,…,QiNi]與 鍵值表[Ki,Ki1,…KiNi]拼接,按行輸入到負責(zé)注意 力識別的全連接網(wǎng)絡(luò)fMLP(·)中,該網(wǎng)絡(luò)各層的神經(jīng) 元數(shù)目設(shè)置為[80,64,32, 1]。由于Tanh激活函數(shù) 的收斂速度較快,所以隱藏層之間使用Tanh激活 函數(shù)。為將注意力值映射到(0,1)之間,輸出層采 用Sigmoid激活函數(shù)σ(·),其中輸入維度80代表查 詢表與鍵值表拼接后的元組維度。該網(wǎng)絡(luò)經(jīng)數(shù)據(jù) 訓(xùn)練后能解析出焦點單體·對環(huán)境的注意力ki和Ni個對鄰居的注意力kij為
ki =σ( fMLP(Ki,Qi)) (12)
ki j =σ( fMLP(Ki j,Qi)),"j ∈ Ni (13)
式中,ki j反映了單體i對不同鄰居j的注意力程度。
找出鄰居注意力權(quán)重Wij最大的兩個鄰居(當(dāng)只有1個鄰居時選1個),最終得到焦點單體i對環(huán) 境和兩個鄰居的權(quán)重[Wi,Wijmax1,Wijmax3](只有1個 鄰居就使用1個Wij)用于后續(xù)信息融合,具體可 根據(jù)硬注意力權(quán)重[Wijmax1, Wijmax2]的鄰居標號選出 數(shù)值網(wǎng)絡(luò)V對應(yīng)的輸出值Vij, j ∈{ jmax1,jmax2}(只 有1個鄰居就使用1個Vij),然后融合得出焦點單 體i用于網(wǎng)絡(luò)決策解碼的信息強度hi和Hi為
hi =Wihi (16)
Hi =Wi jmax1Vi jmax1 +Wi jmax2Vi jmax2 (17)
最后將拼接hi⊕Hi強度輸入到預(yù)解碼網(wǎng)絡(luò)中來 獲取決策解碼的輸入信息,其中,預(yù)解碼網(wǎng)絡(luò)的 神經(jīng)元參數(shù)被設(shè)計成[80, 128, 128]。輸入神經(jīng)元維 度80代表聚合環(huán)境與鄰居的信息hi⊕Hi的拼合維 度,輸出神經(jīng)元維度128的設(shè)計目的是為了將單 體i的聚合信息推升至高維,以便后續(xù)具體的轉(zhuǎn)向 和直游決策解碼具有較高的訓(xùn)練靈活性。由于解 碼器會根據(jù)決策輸出采用不同的設(shè)計,所以相同 結(jié)構(gòu)的預(yù)解碼器可提高代碼的復(fù)用能力。
2.2 硬注意力模型的決策解碼器
由于深度神經(jīng)網(wǎng)絡(luò)在應(yīng)對多層次、多模態(tài)輸 出時具有較差的學(xué)習(xí)性能,對轉(zhuǎn)角決策而言,轉(zhuǎn) 角方向與轉(zhuǎn)角大小分別屬于定性與定量兩層次的 輸出,為此轉(zhuǎn)向網(wǎng)絡(luò)解碼器被設(shè)計成兩個獨立的 全連接神經(jīng)網(wǎng)絡(luò),即轉(zhuǎn)向分類網(wǎng)絡(luò)和轉(zhuǎn)角回歸網(wǎng) 絡(luò)。其中,轉(zhuǎn)向分類網(wǎng)絡(luò)用于解碼單體i在t時刻的 轉(zhuǎn)角方向Sti,而轉(zhuǎn)角回歸網(wǎng)絡(luò)用于量化轉(zhuǎn)角的大 小|δti|。轉(zhuǎn)向分類網(wǎng)的神經(jīng)元參數(shù)為[128, 64, 3], 輸出層3神經(jīng)元分別代表左轉(zhuǎn)、直游、右轉(zhuǎn),轉(zhuǎn) 角回歸網(wǎng)絡(luò)的參數(shù)結(jié)構(gòu)為[128, 64, 1],用于輸出轉(zhuǎn) 角的絕對值。兩轉(zhuǎn)角解碼網(wǎng)的輸入層都是128神 經(jīng)元,用于承接上節(jié)聚合單元的預(yù)解碼網(wǎng)絡(luò)輸 出,所以得出轉(zhuǎn)向網(wǎng)絡(luò)的兩個具體解碼器為
式中:fPRE(·)為預(yù)解碼網(wǎng)絡(luò);fDEC1(·)和fDEC2(·) 分別代表轉(zhuǎn)向分類網(wǎng)和轉(zhuǎn)角回歸網(wǎng);maxIDX(·)表 示選出fDEC1(·)3個數(shù)值最大輸出的索引標號,然 .再將右轉(zhuǎn),直行,左轉(zhuǎn)分別賦值-1,0,1給 Sti。通過上述轉(zhuǎn)換,焦點單體/的轉(zhuǎn)角可由下式 決定:
由于焦點單體的航向角會根據(jù)式(20) 的決策發(fā)生改變,所以需要根據(jù)式(9) 和(10) 更新直游網(wǎng)絡(luò)的輸入數(shù)據(jù)。其中,直游網(wǎng)絡(luò)解碼器使用兩個同構(gòu)的全連接神經(jīng)網(wǎng)絡(luò),分別輸出單體的直游距離和游動時長。解碼網(wǎng)絡(luò)的神經(jīng)元參數(shù)為[128,64, 1],則直游網(wǎng)絡(luò)輸出可以表示為
lti = fDEC3( fPRE(hi ⊕Hi)) (21)
ηti= fDEC4( fPRE(hi ⊕Hi)) (22)
式中:fDEC3(·)和 fDEC4(·)分別為直游距離lti和游動時長ηti的解碼網(wǎng)絡(luò)。對比網(wǎng)絡(luò)決策[δti,"lti,ηti]與數(shù)據(jù)提取的決策差異(損失),即可端對端地訓(xùn)練所提網(wǎng)絡(luò)模型。
2.3 網(wǎng)絡(luò)模型的損失函數(shù)與超參數(shù)
由于轉(zhuǎn)向網(wǎng)絡(luò)有轉(zhuǎn)角方向和大小兩輸出,則總損失Lδ被設(shè)計成轉(zhuǎn)向損失LS與轉(zhuǎn)角損失L|δ|的均值
式中:δit real,litreal和ηitreal由式(7)和(8)根據(jù)t時 刻的真實魚群實驗數(shù)據(jù)來計算;S為每批訓(xùn)練大 小,具體選取1024來約束顯卡的使用容量。使用 留出法隨機選取總樣本80%作訓(xùn)練集,20°%作測 試集,利用Pytorch框架編寫硬注意力網(wǎng)絡(luò)模型, 訓(xùn)練硬件采用Dell T630服務(wù)器,配置GPU為NVIDIA GeForce RTX 3 080,訓(xùn)練采用批量梯度下降策略,并且使用AdamW 優(yōu)化器最小化損失函數(shù),初始學(xué)習(xí)率設(shè)置為5e-5,權(quán)重衰減設(shè)為0.000 5。為避免過擬合,采用Dropout 來提高模型的泛化能力,利用pytorch 函數(shù)torch.nn.dropout() 具體實現(xiàn)。Dropout 的比率為20%,神經(jīng)元被保留的概率為80%,模型訓(xùn)練使用早停法選擇最優(yōu)參數(shù),當(dāng)模型在驗證集測試誤差上升時,立即停止模型訓(xùn)練,將此時的權(quán)重作為網(wǎng)絡(luò)的最終參數(shù)。
3 硬注意力模型仿真實驗
利用自主研發(fā)的仿真平臺來驗證硬注意力模 型的集群運動效果。其中,仿真程序由LabView 編寫,使用自主通信協(xié)議與Python編寫的網(wǎng)絡(luò)模 型通信。在單體決策時刻t, LabView仿真環(huán)境, 發(fā)送單體i的環(huán)境信息Xti和鄰居信息Xt ij給硬注意力 模型,通過網(wǎng)絡(luò)計算輸出單體i的決策轉(zhuǎn)角δti、直 游距離lti和游動時長ηti并回傳LabView,這時會在 仿真中設(shè)置單體i的運動計時器值Tti為ηti,航向角 φi(t)變?yōu)棣読(t)+lt;δti,然后每仿真周期Δi按式(29)更 新一次單體i的全局狀態(tài)進行仿真循環(huán),直到Ttilt;0開啟新一輪協(xié)議通信
式中,Vti = lti/ηti為運動網(wǎng)絡(luò)輸出的平均速度。
如果單體i的決策被驗證可能會發(fā)生撞墻,則將運動計時器強制清零。采用文獻[13] 的方法向轉(zhuǎn)角輸出加入高斯噪聲重新決策,篩選出安全決策以保證及時調(diào)整避墻動作,保存所有仿真軌跡及航向角信息用于結(jié)果分析。
3.1 兩智能體仿真的交互分析
集群運動的基礎(chǔ)為兩體交互,文獻[13] 實驗得出結(jié)論:將兩體交互疊加可以涌現(xiàn)集群運動,所以驗證模型的兩體交互性能至關(guān)重要。雖然硬注意力模型使用5 魚訓(xùn)練數(shù)據(jù)得出,但是得益于獨特的模型數(shù)據(jù)輸入方式,硬注意力模型可以適應(yīng)任意群體規(guī)模的集群仿真。為此使用模型進行兩智能體仿真實驗1 h,將仿真數(shù)據(jù)與真實兩魚運動數(shù)據(jù)的概率密度函數(shù)進行對比。如圖3 所示,各子圖分別對比了兩魚數(shù)據(jù)(紅色)與兩智能體模型控制輸出(藍色)的概率密度曲線。圖3(a) 顯示了轉(zhuǎn)角變化 的分布曲線,表明真實兩魚與模型決策的轉(zhuǎn)角變化峰值都處于±20°附近,但是模型輸出的轉(zhuǎn)角曲線更陡峭,說明硬注意力模型可以濾除魚群數(shù)據(jù)中的個性化噪聲,還原出有利于魚群組織的共性化決策。
圖3(b) 對比了直游距離分布,該圖表明真實魚的移動距離峰值大約在60 mm,而模型仿真輸出的距離峰值在100 mm,但是兩者曲線的均值較一致。峰值偏移的主要原因在于前述LabView 仿真的避墻機制,在某些極端情況下,模型會被重新觸發(fā)計算來遠離邊界,具體統(tǒng)計結(jié)果如圖3(e)所示,從而給出了較長的運動距離。
圖3(c) 顯示的游動時長對比表明,模型仿真與真魚數(shù)據(jù)相似,峰值更高表示模型輸出的確定性更強。圖3(d),(f),(g) 圖分別對比了兩魚(智能體)的航向角差Δφ、對墻角度的絕對值|θw|和相對距離d,真魚數(shù)據(jù)的3條曲線與模型仿真結(jié)果較一致,分別表明兩魚(智能體)具有明顯的對齊特性、沿墻運動特性以及安全距離保持特性。
多數(shù)文獻認為魚類交互主要通過視覺感知[19-20],但是目前并沒有真實客觀的工具來驗證上述假說。為揭示魚類交互的信息選用機理,可以使用真實魚群數(shù)據(jù)訓(xùn)練的硬注意力模型來對兩智能體的交互進行分析。具體做法是在仿真環(huán)境中心固定焦點智能體,然后在環(huán)境內(nèi)任意位置擺放另一鄰居,將模型輸出的硬注意力權(quán)重W可視化。由于式(15) 的歸一化處理使得交互強度的范圍被約束在(0,1) 之間,如圖4 所示,注意力權(quán)重較大的區(qū)域標記為紅色,小的區(qū)域標記為藍色。該圖表明焦點智能體前方形成了一個小范圍的高注意力橢圓扇形區(qū)域,這與魚類的視覺重點區(qū)域類似,也符合人類駕駛行為的視覺觀察習(xí)慣。
3.2 硬注意力模型的泛化性能分析
首先定義集群運動有序性的兩個指標:群體極性( 值)和群體大?。?值),以量化評價智能體的集群運動效果,定義多智能體的重心位置為pG = (xG (t) , yG (t)),多智能體重心的速度為vG=(vxG(t) ,"vyG(t)),具體計算方法如下
為表現(xiàn)硬注意力模型在大規(guī)模集群下的泛化能力,隨機生成100 個不同初始位置、朝向的智能體參與集群運動,隨時計算仿真集群的值和值,如圖5 所示。初始時刻集群無序散亂,硬注意力模型能在5 min 內(nèi)控制群體形成穩(wěn)定有序的運動模式。值曲線隨時間變化逐漸趨向于1,表明集群能收斂到一致的運動方向; 值曲線逐漸接近于25 mm,說明集群運動趨向于緊湊。所有單體僅需在99 個鄰居中挑選2 個鄰居交互,就能使群體自組織出宏觀秩序,這與自然界生物集群類似,有限腦神經(jīng)的處理能力僅能允許單體關(guān)注少量鄰居。而硬注意力模型訓(xùn)練僅使用5 魚運動數(shù)據(jù)就能實現(xiàn)100 個智能體的集群協(xié)同,體現(xiàn)了該模型設(shè)計具有較強的自組織能力。文獻[12] 表明,魚群中的單體僅與少量重點鄰居交互就足以保持群體凝聚力,單體的信息選擇耦合與集群行為具有高度相關(guān)性,某些單體的隨機行為會通過鄰居逐級放大,與耦合信息交互后生成的行為會繼續(xù)助推單體選擇類似的信息進行強化耦合,使得重點鄰居信息會波浪式的在群體中級聯(lián)傳遞[21],從而通過正反饋機制涌現(xiàn)出整體的有序運動。
接著驗證模型在不同規(guī)模下的集群仿真性能。取智能體個數(shù)N=[2, 5, 7, 10, 20, 30, 50, 60, 80,100, 150, 200, 300, 500, 800] 分別進行運動仿真,集群指標如圖6 所示,黃色實線和綠色實線分別代表P值和 C 值曲線。其中,P值一直保持在較高水平,并隨著規(guī)模擴大越來越接近于1,方差也在逐漸減小,表明硬注意力模型能隨著規(guī)模的擴大逐漸強化集群的對齊作用。雖然兩智能體仿真時的C值稍大,但隨著群體規(guī)模的擴大,C值逐步穩(wěn)定。
對比經(jīng)典集群運動的Viseck 模型[8]、最大影響力模型[13] 和最強視覺DNN 模型[14],硬注意力模型屬于自動建模方法,具有客觀、直接的微觀分析效果。將上述4 種模型寫入仿真系統(tǒng),進行相同規(guī)模的集群運動對比實驗1 h,記錄集群運動指標。表1 展示了值和值的仿真結(jié)果。在智能體個數(shù)N = 2時,最強視覺DNN 模型的值較高,能形成較緊湊的值。當(dāng)智能體規(guī)模N ? 5時,硬注意力模型的兩個宏觀指標最優(yōu)。小規(guī)模集群下,最強視覺DNN 模型占優(yōu)的原因在于該模型是由兩魚運動數(shù)據(jù)訓(xùn)練而成,所以在2 個智能體仿真時能有最優(yōu)的宏觀表現(xiàn)。但隨著智能體的增加,其性能皆弱于硬注意力模型,這是因為硬注意力模型是由5 魚運動數(shù)據(jù)訓(xùn)練而成,其中內(nèi)嵌的硬注意力核心網(wǎng)絡(luò)能保證焦點單體只與重點鄰居交互,獲得了較為穩(wěn)定的交互策略,有利于在大規(guī)模集群中形成魯棒的集群運動。而且,隨著智能體規(guī)模的增加,硬注意力模型的兩個指標都越來越強化穩(wěn)定,符合集群行為涌現(xiàn)的正反饋機制。由于經(jīng)典Vicsek 模型主要針對無約束自推進粒子設(shè)計,屬于連續(xù)控制模型,需要智能體每周期給出交互決策,不符合剪刀魚的轉(zhuǎn)向?直游決策方式,使得Vicsek 模型的性能表現(xiàn)較差,無法形成良好的集群運動。最大影響力模型的原理與最強視覺DNN 模型類似,都是利用兩魚運動數(shù)據(jù)來生成交互模型,但需要人工設(shè)計多鄰居交互的疊加策略,隨著鄰居規(guī)模的增加,集群匯聚能力方面具有較大缺陷。
4 結(jié) 論
所提硬注意力模型能在物理層面約束焦點單體的交互鄰居數(shù)量,并在端對端的數(shù)據(jù)訓(xùn)練后獲得泛化能力較強的宏觀集群運動涌現(xiàn),該模型能在微觀層面解析出單體魚的交互行為,并可顯著降低單體交互的計算負荷,符合自然界生物集群特征,有利于啟發(fā)人工集群系統(tǒng)的分布式控制器設(shè)計??梢?,所提硬注意力模型具有較為良好的信息稀疏解耦能力、較為魯棒的集群運動指標以及較為優(yōu)秀的集群規(guī)模泛化性能,對復(fù)雜系統(tǒng)的多層次行為機制探尋提供了有力支撐,為復(fù)雜系統(tǒng)的機器學(xué)習(xí)控制探索提供了有益嘗試。下階段,課題組擬利用自主知識產(chǎn)權(quán)的集群機器人來實現(xiàn)集群的硬注意力控制器設(shè)計。
參考文獻:
[1] WEN H S, ZHU Y, PENG C H, et al. Collective motion of cells modeled as ring polymers[J]. Soft Matter, 2022,18(6): 1228-1238.
[2] GIANNINI J A, PUCKETT J G. Testing a thermodynamic approach to collective animal behavior in laboratory fish schools[J]. Physical Review E, 2020, 101(6): 062605.
[3] HASSANALIAN M, MIRZAEINIA A, BAWANA N, et al. Energy management of echelon flying northern bald ibises with different wingspans and variable wingtip spacing[J]. Journal of Bionic Engineering, 2022, 19(1): 44-61.
[4] KUBELKA V, SANDERCOCK B K, SZEKELY T, et al. Animal migration to northern latitudes: environmental changes and increasing threats[J]. Trends in Ecology amp; Evolution, 2022, 37(1): 30-41.
[5] 汪秉宏,楊涵新.人類的遷徙行為與社群合作之演化[J]. 上海理工大學(xué)學(xué)報,2011, 33(1): 24-29,88.
[6] 吳垠,劉忠信,陳增強,等.迭代學(xué)習(xí)在多智能體編隊中 的控制研究[J].上海理工大學(xué)學(xué)報,2016, 38(1): 87-92.
[7] 王偉嘉,鄭雅婷,林國政,等.集群機器人研究綜述[J].機 器人,2020, 42(2): 232-256.
[8] VICSEK T, CZIROK A, BEN-JACOB E, et al. Novel type of phase transition in a system of self-driven particles[J]. Physical Review Letters, 1995, 75(6): 1226-1229.
[9] VASARHELYI G, VIRAGH C, SOMORJAI G, et al. Optimized flocking of autonomous drones in confined environments[J]. Science Robotics, 2018, 3(20): eaat3536.
[10] COUZIN I D, KRAUSE J, JAMES R, et al. Collective memory and spatial sorting in animal groups[J]. Journal of Theoretical Biology, 2002, 218(1): 1-11.
[11] 王瑞,崔佳梅,張越,等.基于圖網(wǎng)絡(luò)的集群運動預(yù)測研 究[J].電子科技大學(xué)學(xué)報,2021, 50(5): 768-773.
[12] WANG W J, ESCOBEDO R, SANCHEZ S, et al. The impact of individual perceptual and cognitive factors on collective states in a data-driven fish school model[J]. PLoS Computational Biology, 2022, 18(3): e1009437.[13] LEI L, ESCOBEDO R, SIRE C, et al. Computational and robotic modeling reveal parsimonious combinations of interactions between individuals in schooling fish[J]. PLoS Computational Biology, 2020, 16(3): e1007194.
[14] 劉磊,孫卓文,陳令儀,等.基于深度學(xué)習(xí)的仿生集群運 動智能控制[J].控制與決策,2021, 36(9): 2195-2202.
[15] 劉磊,張浩翔,陳若妍,等.魚群涌現(xiàn)機制下集群機器人 運動強化的遷移控制[J].控制與決策,2023, 38(3): 621-630.
[16] ESCOBEDO R, LECHEVAL V, PAPASPYROS V, et al. A data-driven method for reconstructing and modelling social interactions in moving animal groups[J]. Philosophical Transactions of the Royal Society B: Biological Sciences, 2020, 375(1807): 20190380.
[17] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31th International Conference on Neural Information Processing Systems. Long Beach: NIPS, 2017: 6000-6010.
[18] GILMOUR K M, BARD B. Social buffering of the stress response: insights from fishes[J]. Biology Letters, 2022, 18(10): 20220332.
[19] LUKAS J, ROMANCZUK P, KLENZ H, et al. Acoustic and visual stimuli combined promote stronger responses to aerial predation in fish[J]. Behavioral Ecology, 2021, 32(6): 1094-1102.
[20] SOVRANO V A, VICIDOMINI S, POTRICH D, et al. Visual discrimination and amodal completion in zebrafish[J]. PLoS One, 2022, 17(3): e0264127.
[21] ATTANASI A, CAVAGNA A, DEL CASTELLO L, et al. Emergence of collective changes in travel direction of starling flocks from individual birds’ fluctuations[J]. Journal of the Royal Society Interface, 2015, 12(108): 20150319.
(編輯:黃娟)
基金項目:國家自然科學(xué)基金資助項目(72071130);上海市自然科學(xué)基金資助項目(22ZR1443300)