摘要: 針對安全強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)過程中, 基于屏蔽的實(shí)現(xiàn)方式可能受制于沒有合適的備用策略可供使用, 導(dǎo)致判斷出危險也不能阻止系統(tǒng)離開安全狀態(tài), 結(jié)合知識的實(shí)現(xiàn)方式雖然能通過
提取概念特征, 用結(jié)構(gòu)化的知識對指定狀態(tài)給予安全指導(dǎo), 但有時知識蘊(yùn)含的指導(dǎo)可能并不是最優(yōu)的策略, 甚至可能不如智能體探索習(xí)得策略的問題, 提出一個本體指導(dǎo)下的安全強(qiáng)
化學(xué)習(xí)最優(yōu)化策略, 實(shí)現(xiàn)風(fēng)險識別規(guī)避、 動作生成最優(yōu)化. 基于該理論設(shè)計和實(shí)現(xiàn)了一個在無人機(jī)避障場景下的仿真系統(tǒng), 并使用5種不同的強(qiáng)化學(xué)習(xí)算法進(jìn)行效果驗(yàn)證. 實(shí)驗(yàn)
結(jié)果表明, 基于本體指導(dǎo)的安全強(qiáng)化學(xué)習(xí)最優(yōu)化策略能在屏蔽風(fēng)險動作的基礎(chǔ)上, 實(shí)現(xiàn)智能體備用策略選取, 比傳統(tǒng)強(qiáng)化學(xué)習(xí)方法性能更優(yōu).
關(guān)鍵詞: 安全強(qiáng)化學(xué)習(xí); 屏蔽機(jī)制; 本體; 深度神經(jīng)網(wǎng)絡(luò); 聯(lián)合查詢
中圖分類號: TP183" 文獻(xiàn)標(biāo)志碼: A" 文章編號: 1671-5489(2025)01-0083-08
Optimization Strategy" for Safety ReinforcementLearning Guided by Ontology
HAO Jianing1,2, YAO Yongwei3, YE Yuxin1,4
(1. College of Computer Science and Technology, Jilin University, Changchun 130012, China;2. Inspur General Software Co., Ltd., Jinan 250101, China;
3. 63611 Unit of the Chinese People’s Liberation Army, Korla 841000, Xinjiang Uygur Autonomous Region, China;
4. Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University, Changchun 130012, China)
收稿日期: 2024-01-05.
第一作者簡介: 郝嘉寧(1999—), 男, 漢族, 碩士, 從事本體推理與強(qiáng)化學(xué)習(xí)的研究, E-mail: hjn1999hjn@outlook.com.
通信作者簡介: 葉育鑫(1981—), 男, 漢族, 博士, 教授, 博士生導(dǎo)師, 從事符號與神經(jīng)計算、 智能決策、 知識圖譜和本體工程的研究, E-mail: yeyx@jlu.edu.cn.
基金項(xiàng)目: 吉林省科技廳基礎(chǔ)研究項(xiàng)目(批準(zhǔn)號: 20220101114JC).
Abstract: Aiming at the problem that in the implementation process of safety reinforcement learning, the implementation approach based on shielding might" be
constrained by the lack of suitable alternative policies available, which resulted in the inability to prevent" the system from leaving a safe state even if danger was detected. Although the implementation approach of
knowledge integration could" provide safety guidance for specific states by extracting conceptual features and applying structured knowledge, sometimes the guidance embedded in knowledge might not be
the optimal strategy, and might even be inferior to" the strategies learned by agent exploration. We proposed an optimization strategy for safety reinforcement learning guided by ontology to achieve" risk
identification avoidance and" action generation optimization. Based on this theory, we designed and implemented a simulation system in the scenario of unmanned aerial vehicle" obstacle avoidance,
and verified" the effectiveness by using" five different reinforcement learning algorithms. The experimental results show that the optimization strategy for safety reinforcement learning based on
ontology guidance can achieve" alternative policy selection for intelligent agents on the basis of shielding risky actions, and has better performance than" traditional reinforcement learning methods.
Keywords:" safety reinforcement learning; shielding mechanism; ontology; deep neural network; conjunctive query
深度強(qiáng)化學(xué)習(xí)[1]近年來廣泛應(yīng)用于執(zhí)行各種復(fù)雜的規(guī)劃任務(wù), 如策略游戲[2]、 安全無線通信[3]以及多
智能體規(guī)劃[4]等. 由于智能體是在試錯中的習(xí)得策略, 訓(xùn)練過程中它會隨機(jī)出現(xiàn)可能具有嚴(yán)重后果的行為, 因此嚴(yán)重威脅整個強(qiáng)化學(xué)習(xí)系統(tǒng)的安全性. 屏蔽機(jī)制
[5-7]是專門為解決系統(tǒng)安全性問題而誕生的一種系統(tǒng)結(jié)構(gòu), 它遵循手動建立的一系列安全規(guī)則, 時刻監(jiān)督系統(tǒng)的狀態(tài)是否符合安全規(guī)則, 并對不合法的動作進(jìn)行阻止[8]. 將屏蔽
機(jī)制應(yīng)用于強(qiáng)化學(xué)習(xí)系統(tǒng)的嘗試由文獻(xiàn)[7]提出, 明確屏蔽結(jié)構(gòu)的同時, 提出了k-stabilizing屏蔽機(jī)制和admissible屏蔽機(jī)制. 文獻(xiàn)[9]針對動作違規(guī)感知提出了錯誤杜絕的F
actored屏蔽機(jī)制和Central屏蔽機(jī)制, 使其能適用于智能體數(shù)量更多的多智能體強(qiáng)化學(xué)習(xí)環(huán)境中. 文獻(xiàn)[8]基于安全規(guī)則和Markov決策過程的結(jié)合, 提出了在線的屏蔽機(jī)制, 根據(jù)狀態(tài)安全的概率更新.
本體因其通過語義規(guī)則語言可方便地描述復(fù)雜的安全規(guī)則, 并可攜帶特定場景下的領(lǐng)域知識指導(dǎo)產(chǎn)生安全動作等優(yōu)勢, 是一種實(shí)現(xiàn)屏蔽機(jī)制的可行途徑. 使用本體攜帶
額外信息實(shí)現(xiàn)風(fēng)險感知[10-11], 通過本體建模使環(huán)境中的實(shí)體關(guān)系更具有層次, 對狀態(tài)感知更準(zhǔn)確. 利用邏輯推理指導(dǎo)智能體動作生成領(lǐng)域方面的研究
也很豐富[2]. 文獻(xiàn)[12]采用了基于Bayes推理的動作解碼器, 從理解對手邏輯的角度指導(dǎo)智能體決策. 將運(yùn)行時的環(huán)境轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù), 人工創(chuàng)
建規(guī)則指導(dǎo)智能體決策. 上述工作均展現(xiàn)了對強(qiáng)化學(xué)習(xí)智能體動作生成的有效指導(dǎo), 體現(xiàn)了使用邏輯推理實(shí)現(xiàn)安全動作生成模塊的可能性[2].
盡管這些邏輯推理方法在指導(dǎo)強(qiáng)化學(xué)習(xí)智能體決策時表現(xiàn)了一定的優(yōu)越性能, 但其指導(dǎo)是通過改變獎勵函數(shù)影響的, 在阻止風(fēng)險動作發(fā)生方面有不足. 文獻(xiàn)[10]使用本體
提出了類似屏蔽機(jī)制的AGGM(auto goal generate module)模型, 通過改變獎勵函數(shù)、 規(guī)劃目標(biāo)的方式使強(qiáng)化學(xué)習(xí)面對風(fēng)險狀態(tài), 但其AGGM系統(tǒng)無有效的屏蔽風(fēng)
險動作機(jī)制, 常通過預(yù)定義策略和狀態(tài)間距離應(yīng)對. 因此, 本文針對目前常見結(jié)合本體強(qiáng)化學(xué)習(xí)的上述問題, 通過引入基于本體的屏蔽機(jī)制, 使其能對識別并屏蔽有風(fēng)險的動
作, 結(jié)合知識生成一個新的安全動作代替其執(zhí)行, 并
參考文獻(xiàn)[13]設(shè)置了一個無人機(jī)通信的強(qiáng)化學(xué)習(xí)環(huán)境.
1 強(qiáng)化學(xué)習(xí)屏蔽機(jī)制的模型結(jié)構(gòu)
1.1 安全強(qiáng)化學(xué)習(xí)和屏蔽機(jī)制
相比于強(qiáng)化學(xué)習(xí), 安全強(qiáng)化學(xué)習(xí)[14]除追求高累積獎勵值外, 還需確保在執(zhí)行時不會違反特定的安全規(guī)則. 安全強(qiáng)化學(xué)習(xí)一般有兩種實(shí)現(xiàn)方式: 第一種是通
過在規(guī)劃目標(biāo)中加入系統(tǒng)的最大安全概率實(shí)現(xiàn)[5,8]; 第二種是通過在強(qiáng)化學(xué)習(xí)外部掛接安全知識實(shí)現(xiàn).
掛接屏蔽機(jī)制[5-6]在第二種方法中常用, 通常借助自動機(jī)的形式表示. 假設(shè)一個系統(tǒng)被表示為一個五元組A=(Q,q0,Σ
,δ,acc), 其中Q是狀態(tài)集合, q0是初始狀態(tài), Σ是字母表(相當(dāng)于動作集合), δ是狀態(tài)轉(zhuǎn)移函數(shù), acc是接受狀態(tài). 對動作序列
σ=σ0σ1σ2…, 通過qi+1=δ(qi,σi)得到狀態(tài)序列q=q0q1q2…. 如果其中出現(xiàn)任一狀態(tài)動作對(qi,
σi)違反了安全規(guī)則, 則會觸發(fā)屏蔽機(jī)制阻止該動作, 并輸出一個符合安全規(guī)則的代替動作, 故屏蔽機(jī)制的字母表Σ被劃分為ΣI,Σ
O, 分別為輸入、 輸出動作集合, 因此屏蔽機(jī)制常被表示為Mealy型有限狀態(tài)機(jī)六元組B=(Q,q0,ΣI,ΣO,δ,λ), 其中
λ: Q×ΣI=ΣO,(1)δ: Q×ΣI=Q.(2)
針對系統(tǒng)的一個風(fēng)險動作σI0, 由λ(q0,σI0)=σO0, δ(q0,σI
0)=q1將其轉(zhuǎn)化為安全動作σI0. 式(1)用于將輸入動作轉(zhuǎn)換為輸出動作, 式(2)用于更新屏蔽機(jī)制的狀態(tài).
1.2 基于本體及查詢規(guī)則的強(qiáng)化學(xué)習(xí)屏蔽機(jī)制
本體[15-16]作為屏蔽機(jī)制的一種實(shí)現(xiàn)方式, 它提供了一種形式化的方法定義領(lǐng)域知識, 使知識的含義更明確和一致. 本文使用本體結(jié)合查詢規(guī)則實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的屏蔽
機(jī)制, 可在屏蔽機(jī)制感知到風(fēng)險后為智能體提供備用策略執(zhí)行, 也可以避免智能體決策過度依賴規(guī)則, 導(dǎo)致喪失強(qiáng)化學(xué)習(xí)本身的優(yōu)勢.
本文結(jié)合文獻(xiàn)[17-18]的優(yōu)化方法, 使用SPARQL(SPARQL protocol and RDF query language)提供的聯(lián)合實(shí)例聯(lián)合檢索, 借助查詢實(shí)現(xiàn)λ函數(shù). 本文構(gòu)建的本體與強(qiáng)化學(xué)習(xí)環(huán)
境是數(shù)據(jù)共享的, 是一個在運(yùn)行時數(shù)據(jù)屬性不斷變化的本體, 在這種情況下使用SPARQL查詢方式在可判定性和時效性上都優(yōu)于規(guī)則匹配[19], 這種優(yōu)勢
符合強(qiáng)化學(xué)習(xí)的需求. 基于查詢實(shí)現(xiàn)的λ函數(shù)由多個查詢語句聯(lián)合查詢實(shí)現(xiàn). 為實(shí)現(xiàn)λ函數(shù), 將聯(lián)合查詢分為兩部分: 第一部分聯(lián)合查詢rs用于判
斷當(dāng)前輸入的動作ΣI是否安全; 第二部分聯(lián)合查詢rd用于生成安全動作. 其查詢模式可表示為
query: (condition,action)→goal.(3)
該模式滿足如下特點(diǎn):
1) condition=∧0≤i≤mci, 其中ci表示強(qiáng)化學(xué)習(xí)中某一具有m個屬性實(shí)體的第i個屬性, condition是某一狀態(tài)q∈Q的一個子集;
2) 每個ci和每個query中的goal都是SPO三元組形式, goal是待檢測的風(fēng)險, 作為組成風(fēng)險集合ΣrO的風(fēng)險之一, goal也是輸出的安全動作as.
3) 如果查詢的condition和action被滿足, 則會輸出其對應(yīng)的goal.
本文構(gòu)建的本體內(nèi)部定義了強(qiáng)化學(xué)習(xí)環(huán)境中的實(shí)體集合E, 全部實(shí)體的屬性集合有k1,k2,…,kn. 智能體每執(zhí)行一個動作, 在強(qiáng)化學(xué)習(xí)中均產(chǎn)生狀態(tài)的轉(zhuǎn)換s→s′, 環(huán)境
中各實(shí)體E的全部數(shù)據(jù)屬性變化為k1=k′1, k2=k′2, …, kn=k′n. 在該過程中, {
k′1,k′2,…,k′n}∈qt, 初步聯(lián)合查詢的結(jié)果為風(fēng)險集合ΣrO, 其可作為算法的輸入值
. 故λ函數(shù)可表示為∨0≤i≤E, conditioniqtqueryi(conditioni,action,goali).
下面給出屏蔽機(jī)制中的風(fēng)險識別算法, 其中n表示全體實(shí)體的數(shù)據(jù)屬性個數(shù), m表示某一查詢語句的條件涉及到的數(shù)據(jù)屬性個數(shù).
算法1
風(fēng)險識別.
輸入: 實(shí)體集E, 動作a, 查詢集rs;
輸出: ΣrO;
Begin:
E′=deepcopy(E) //生成一個副本, 避免風(fēng)險動作直接應(yīng)用到環(huán)境中
For ki in E′:
ki=step(ki,a) //根據(jù)環(huán)境的step函數(shù)和動作對屬性進(jìn)行更新
For queryi in rs:
If∧0lt;i≤mki=ci:
add goali to ΣrO//風(fēng)險動作識別, 風(fēng)險動作加
入風(fēng)險動作集合
return ΣO
End.
在輸入原始動作后, 一般的屏蔽機(jī)制會直接給出一個安全動作. 而本文實(shí)現(xiàn)的基于本體的屏蔽機(jī)制為給智能體提供更豐富的備選策略, 在輸入原始動作后會進(jìn)入安全動作生成模塊
. 該模塊生成的安全動作有3種來源: 原始動作是安全直接輸出、 預(yù)設(shè)場景的優(yōu)秀動作或是按當(dāng)前參數(shù)下神經(jīng)網(wǎng)絡(luò)選擇出的動作. 生成安全動作后, 將屏蔽機(jī)制與強(qiáng)化
學(xué)習(xí)參數(shù)更新進(jìn)行算法上的融合, 如果屏蔽機(jī)制輸出的不是原始動作, 則它要對智能體給予一個懲罰值r-t, 該懲罰值直接影響強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)更新. 參數(shù)更新過程如下:
θ→θ-δθLoss,(4)Loss=12E[(target-Q(s,a;θ)2],(5)
target=V(s;θ,β)+γ(1-μ)A(s,a;θ,α)-1A∑a′A(s,a′;θ,α)+μr-t,(6)
其中θ為兩個神經(jīng)網(wǎng)絡(luò)共有的參數(shù), δ為學(xué)習(xí)率, α為優(yōu)勢函數(shù)特有的參數(shù), β為狀態(tài)值特有的參數(shù), μ為線性插值參數(shù), A為當(dāng)前狀態(tài)下全體動作集合.
結(jié)合算法1輸出的ΣrO當(dāng)前狀態(tài)下不合法動作集合, 動作生成模塊部分算法如下.
算法2
安全動作生成.
輸入: 實(shí)體E, ΣrO, 聯(lián)合查詢rd,rs, 動作a;
輸出: 安全動作as, 懲罰值r-;
1) Begin:
2)"" If ΣrO is 1: //所有動作均為合法動作
3)""" as=a
4)"" else: set matchResult as False
6)"" For queryi in rd:
7)""" If k1=c1, k2=c2, …, km=cm: //有當(dāng)前狀態(tài)的預(yù)設(shè)動作, 直接輸出
8)"""" Set matchResult as True, as=ai, r-=ri
9)"" If matchResult is False:
10)""" r-=default_value
11)""" If as is not None and A-ΣrO≠: //可用動作集合不為空
12)""" as=argmaxa∈(A-ΣrO)V(s)+A(s,a)-1A-Σ
rO∑a′∈(A-ΣrO)A(s,a′)
13)""" return as,r-
14)""" else:
15)""" as=Randoma∈A(A) //風(fēng)險不可避免, 隨機(jī)選取動作
16)" return as,r-.
2 基于無人機(jī)避障系統(tǒng)的仿真實(shí)現(xiàn)
在無人機(jī)避障系統(tǒng)中使用強(qiáng)化學(xué)習(xí)獲取無人機(jī)控制策略對安全性的要求很高, 因此是使用屏蔽機(jī)制的理想場景. 本文將本體指導(dǎo)的安全強(qiáng)化學(xué)習(xí)最優(yōu)化策略應(yīng)用到無人機(jī)避障系統(tǒng)中
, 并設(shè)計了融合屏蔽機(jī)制的基于強(qiáng)化學(xué)習(xí)無人機(jī)避障系統(tǒng). 其系統(tǒng)架構(gòu)設(shè)計如圖1所示.
在圖1的強(qiáng)化學(xué)習(xí)環(huán)境中, 設(shè)置了無人機(jī)基站、 障礙物和干擾源等實(shí)體, 并參考文獻(xiàn)[19]設(shè)置了避障機(jī)制和實(shí)體交互消息隊(duì)列. 該環(huán)境一方面是強(qiáng)化學(xué)習(xí)智能體直接交互的對象, 對智能體執(zhí)行的動作返回獎勵值, 另一方面它將環(huán)境數(shù)據(jù)共享給本體.
在智能體內(nèi), 選用q-learning和Dueling-DQN[15]兩種強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn). 強(qiáng)化學(xué)習(xí)的智能體根據(jù)這兩種強(qiáng)化學(xué)習(xí)算法, 以數(shù)據(jù)傳輸量最大化為規(guī)劃目
標(biāo). 智能體一方面將輸出的動作共享給本體, 另一方面執(zhí)行經(jīng)過屏蔽機(jī)制輸出的安全動作, 接收環(huán)境給予的獎勵值, 實(shí)現(xiàn)算法的參數(shù)更新.
本文通過構(gòu)建ttl本體為最優(yōu)化策略提供了查詢的對象, 借助RDFlib處理來自強(qiáng)化學(xué)習(xí)環(huán)境的數(shù)據(jù)并提供給智能體, 實(shí)現(xiàn)了與強(qiáng)
化學(xué)習(xí)環(huán)境之間的數(shù)據(jù)通信. 該ttl本體定義了無人機(jī)、 基站、 干擾源和障礙物4個實(shí)體, 被干擾和損毀兩個狀態(tài), 并構(gòu)建了等同于強(qiáng)化學(xué)習(xí)環(huán)境中實(shí)體數(shù)量的實(shí)例. 本文構(gòu)建的本體如圖2所示.
在風(fēng)險識別和動作生成兩個模塊中, 本文實(shí)現(xiàn)了多種不同的屏蔽策略. 包括不屏蔽直接輸出的策略, 僅風(fēng)險識別提供懲罰值的策略, 風(fēng)險識別和單一安全動作的策略以及風(fēng)險識
別多安全動作排序的策略. 利用這幾種策略和強(qiáng)化學(xué)習(xí)算法的組合, 可通過不同方式滿足無人機(jī)避障系統(tǒng)針對安全性的需求.
3 實(shí)驗(yàn)結(jié)果與分析
根據(jù)上述仿真環(huán)境、 強(qiáng)化學(xué)習(xí)算法和屏蔽策略, 選擇最具代表性的幾組結(jié)合進(jìn)行實(shí)驗(yàn), 分別是使用q-learning和不屏蔽策略的IQ, 使用Dueling-DQN和不屏蔽、 僅風(fēng)險識
別、 單一安全動作和多安全動作排序4個策略結(jié)合, 依次為IDDQN,OntologyGuide,LimitedShield
和FullShield. 將這5個組合分別在低、 中、 高風(fēng)險的3種強(qiáng)化學(xué)習(xí)環(huán)境中進(jìn)行多次實(shí)驗(yàn). 實(shí)驗(yàn)結(jié)果如圖3~圖8所示.
由圖3可見, 基于本體的屏蔽機(jī)制可以在低風(fēng)險場景下杜絕沖突, 在中高風(fēng)險場景下仍然能顯著降低沖突的次數(shù). 由圖4可見, LimitedShield和FullShield的平均數(shù)據(jù)傳輸
量基本相同, 但FullShield明顯收斂速度更快, 而借助本體并改變獎勵函數(shù)的OntologyGuide平均性能甚至不如IDDQN.
由圖5可見, FullShield,LimitedShield和OntologyGuide的性能都好于IDDQN, 而q-learning的性能遠(yuǎn)低于其他4種算法.
圖6~圖8分別為在3個不同風(fēng)險場景下4種算法獎勵值的變化情況. 由于實(shí)現(xiàn)方式不同, 將OntologyGuide(右上)、 IDDQN(左上)、 FullShield(右下)和Limited
Shield(左下)的獎勵值數(shù)值直接對比沒有意義. 但它們展示了agent在決策水平提升的過程. 由獎勵值變化趨勢可見, OntologyGuide的波動較大, 而且總體決策水平下降,
說明通過額外知識如果僅改變獎勵函數(shù)而不直接影響到動作對強(qiáng)化學(xué)習(xí)算法有害. Shield相對于LimitedShield的波動更小, 并且較初始決策水平進(jìn)步更大.
綜上所述, 針對安全強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)過程中, 基于屏蔽的實(shí)現(xiàn)方式可能受制于沒有合適的備用策略可供使用, 導(dǎo)致判斷出危險也不能阻止系統(tǒng)離開安全狀態(tài), 結(jié)合知識的實(shí)現(xiàn)方式雖然能通過
提取概念特征, 用結(jié)構(gòu)化的知識對指定狀態(tài)給予安全指導(dǎo), 但有時知識蘊(yùn)含的指導(dǎo)可能并不是最優(yōu)的策略, 甚至可能不如智能體探索習(xí)得策略的問題,
本文提出了一個本體指導(dǎo)下的安全強(qiáng)化學(xué)習(xí)最優(yōu)化策略. 未采用傳統(tǒng)的指導(dǎo)動作生成或利用本體攜帶額外數(shù)值信息協(xié)助數(shù)值計算, 而采用了屏蔽動作與指導(dǎo)動作相結(jié)合的方式.
一方面盡可能地保留了強(qiáng)化學(xué)習(xí)本身面對環(huán)境時所具有的優(yōu)勢, 另一方面為智能體提供了更多的備選安全策略. 仿真實(shí)驗(yàn)結(jié)果表明, 使用本體指導(dǎo)的屏蔽機(jī)制能更有效地規(guī)避風(fēng)險,
且該最優(yōu)化策略能使屏蔽機(jī)制與強(qiáng)化學(xué)習(xí)融合得更好, 其算法的收斂速度更快, 獎勵值波動更小.
參考文獻(xiàn)
[1] LUDWIG D W, REMEDIOS L W, PHILLIPS J L. A Neurobiologically-Inspired
Deep Learning Framework for Autonomous Context Learning [C]//2021 IEEE 33rd International Conference on Tools with Artificial Intelligence (ICTAI). Piscataway, NJ: IEEE, 2021: 97-104.
[2] VOSS V, NECHEPURENKO L, SCHAEFER R, et al. Playing
a Strategy Game with Knowledge-Based Reinforcement Learning [EB/OL]. (2019-08-15)[2023-12-10]. https://arxiv.org/abs/1908.05472.
[3] LI H Y, YU S, LU X Z, et al. Drone-Aided Network Coding for Secure Wireless Communications: A Reinforce
ment Learning Approach [C]//2021 IEEE Global Communications Conference. Piscataway, NJ: IEEE, 2021: 1-6.
[4] NGUYEN T T, NGUYEN N D, NAHAVANDI S. Deep Reinforcement Learning fo
r Multiagent Systems: A Review of Challenges, Solutions, and Applications [J]. IEEE Transactions on Cybernetics, 2020, 50(9): 3826-3839.
[5] K?NIGHOFER B, ALSHIEKH M, BLOEM R, et al. Shield Synthesis [J]. Formal Methods in System Design, 2017, 51: 332-361.
[6] BLOEM R, CHATTERJEE K, GREIMEL K, et al. Synthesizing Robust Systems [J]. Acta Informatica, 2014, 51: 193-220.
[7] ALSHIEKH M, BLOEM R, EHLERS R, et al. Safe Reinforcement Learning via Shie
lding [C]//32nd AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2018: 2669-2678.
[8] K?NIGHOFER B, RUDOLF J, PALMISANO A, et al. Online Shielding for Reinforcement Learning [EB/OL].
(2022-12-04)[2023-12-10]. https://arxiv.org/abs/2212.01861.
[9] ELSAYED-ALY I, BHARADWAJ S, AMATO C, et al. Safe Multi-agent Reinfo
rcement Learning via Shielding [EB/OL]. (2021-01-27)[2023-11-30]. https://arxiv.org/abs/2101.11196.
[10] GHANADBASHI S, GOLPAYEGANI F. Using Ontology to Gui
de Reinforcement Learning Agents in Unseen Situations [J]. Applied Intelligence, 2022, 52: 1808-1824.
[11] LIU B, LI Y, DING Z Y, et al. Combining Ontology an
d Reinforcement Learning for Zero-Shot Classification [J]. Knowledge-Based Systems, 2018, 144: 42-50.
[12] DU W, DING S F, ZHANG C L, et al. Modified Action Decoder Using Bayesian
Reasoning for Multi-agent Deep Reinforcement Learning [J]. International Journal of Machine Learning and Cybernetics, 2021, 12: 2947-2961.
[13] XU Y H, WEI Y R, JIANG K Y, et al. Multiple UAVs Path Plannin
g Based on Deep Reinforcement Learning in Communication Denial Environment [J]. Mathematics, 2023, 11(2): 405-1-405-15.
[14] WANG X S, WANG R R, CHENG Y H. Safe Reinforcement L
earning: A Survey [J]. Acta Automatica Sinica, 2023, 49(9): 1813-1835.
[15] MAZAK A, SCHANDL B, LANZENBERGER M. Iweightings: Enhancing Structure-Based Ontology Alignment by Enriching Models with Importance We
ighting [C]//2010 International Conference on Complex, Intelligent and Software Intensive Systems. Piscataway, NJ: IEEE, 2010: 992-997.
[16] NOY N F, MCGUINNESS D L. Ontology Development 101:
A Guide to Creating Your First Ontology [R/OL]. (2021-01-01)[2023-12-10]. https://www.researchgate.net/publication/243772462.
[17] ZHANG Q Y, MIAO F M, YUAN Z T, et al. Construction of a Dynam
ic Trust Ontology Model [C]//2008 International Conference on Computational Intelligence and Security. Piscataway, NJ: IEEE, 2008: 394-398.
[18] OLIYA M, ZHU J, PUNG H K, et al. Incremental Query Answering
over Dynamic Contextual Information [C]//2011 IEEE 23rd International Conference on Tools with Artificial Intelligence. Piscataway, NJ: IEEE, 2011: 452-455.
[19] CALVANESE D, DE GIACOMO G, LENZERINI M. On the Decid
ability of Query Containment under Constraints [C]//Proceedings of the 17th ACM SIGACT
SIGMOD SIGART Symposium on Principles of Database Systems. New York: ACM, 1998: 149-158.
(責(zé)任編輯: 韓 嘯)