摘要:針對雙人博弈問題,在學(xué)習(xí)Q-learning算法的基礎(chǔ)上,利用神經(jīng)網(wǎng)絡(luò)參數(shù)逼近的方式更新狀態(tài)值函數(shù),選取自適應(yīng)梯度優(yōu)化算法進(jìn)行參數(shù)更新,并通過納什均衡思想調(diào)節(jié)兩個(gè)智能體的行為。同時(shí)為提高模型的保護(hù)效果,對結(jié)果添加差分隱私保護(hù),保證智能體博弈過程中數(shù)據(jù)的安全性。最后,實(shí)驗(yàn)結(jié)果驗(yàn)證了算法的可用性,其能夠訓(xùn)練兩個(gè)智能體在多回合之后穩(wěn)定抵達(dá)各自目標(biāo)點(diǎn)。
關(guān)鍵詞:強(qiáng)化學(xué)習(xí);差分隱私;雙人博弈
中圖分類號(hào): TP309;F224.32文獻(xiàn)標(biāo)識(shí)碼: A
收稿日期:2023-01-18;修回日期:2023-05-16
基金項(xiàng)目:國家自然科學(xué)基金(61673200),山東省自然科學(xué)基金(ZR2022MF231)
第一作者:馬明揚(yáng)(1998-),女,山東濰坊人,碩士,主要研究方向?yàn)椴罘蛛[私保護(hù)等。
通信作者:楊洪勇(1967-), 男,山東德州人,博士,教授,主要研究方向?yàn)閺?fù)雜網(wǎng)絡(luò)、多智能體系統(tǒng)、智能控制等。
Research on Differential Privacy Protection of Two-player Games Based on Reinforcement Learning
MA Mingyang,YANG Hongyong,LIU Fei
(School of Information and Electrical Engineering, Ludong University, Yantai 264025,China)
Abstract:For the two-player game problem, on the basis of Q-learning algorithm, the state-value function is updated by using neural network parameter approximation, the adaptive gradient optimization algorithm is selected for parameter updating, and the behaviors of the two agents are regulated by the Nash equilibrium idea. At the same time, in order to improve the protection effect of the model, differential privacy protection is added to the results to ensure the security of the data in the process of the two-player games. Finally, the experimental results verify the usability of the algorithm, which is able to train two agents to reach their respective target points stably after multiple rounds.
Keywords: reinforcement learning; differential privacy; two-player games
0 引言
自20世紀(jì)50年代中期步入互聯(lián)網(wǎng)時(shí)代以來,人工智能技術(shù)逐漸興起,機(jī)器學(xué)習(xí)作為其核心,旨在幫助人類完成重要的復(fù)雜工作[1]。強(qiáng)化學(xué)習(xí)應(yīng)用到多智能體系統(tǒng),為每個(gè)智能體的行為作出有利于自身的決策,使得多智能體系統(tǒng)的整體性能達(dá)到最優(yōu),當(dāng)前對多智能體強(qiáng)化學(xué)習(xí)方法的研究受到許多學(xué)者的關(guān)注。
強(qiáng)化學(xué)習(xí)的馬爾科夫決策過程拓展到多智能體系統(tǒng),被定義為馬爾科夫博弈,主要指智能體之間存在合作、競爭或者共存的局面。近年來,許多學(xué)者致力于研究多智能體博弈。董等[2]對博弈的存在和實(shí)踐進(jìn)行了討論,從系統(tǒng)論角度提出了多智能體演化博弈的理論框架。Chen等[3]開發(fā)了一個(gè)馬爾可夫路由游戲(MRG),每個(gè)智能體在與運(yùn)輸網(wǎng)絡(luò)中的其他智能體交互時(shí)學(xué)習(xí)并更新自己的路徑選擇策略。雙人博弈也是多智能體博弈的一種,消去法、劃圈法等是用于求解雙人博弈純策略均衡解的經(jīng)典方法。在博弈過程中,每個(gè)智能體都希望自己能夠獲得最大回報(bào),此時(shí)的策略集稱為納什均衡。Lemke-Howson[4]算法、幾何圖形法等是用于求解混合策略納什均衡值的主流計(jì)算方法。尹等[5]運(yùn)用圖論的知識(shí)求解雙人完全信息靜態(tài)博弈的納什均衡過程。陳等[6]在進(jìn)行狀態(tài)空間描述的基礎(chǔ)上,求解了混雜動(dòng)態(tài)博弈的納什均衡。
在雙人博弈的過程中,各智能體之間通過信息交互對當(dāng)前和下一步行為進(jìn)行決策,用收集到的數(shù)據(jù)對模型進(jìn)行訓(xùn)練,直至結(jié)果收斂,此時(shí),攻擊者可能會(huì)利用訓(xùn)練過程中的模型更新參數(shù)對訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集進(jìn)行攻擊[7],進(jìn)而擾亂正常的交互過程。所以在研究多智能體博弈時(shí),也要注重?cái)?shù)據(jù)的安全性。在各種隱私保護(hù)方法中,差分隱私[8]通過在數(shù)據(jù)集中加入滿足某種分布的噪聲來實(shí)現(xiàn)隱私保護(hù),不管攻擊者得到的輔助信息是什么,都可以從根本上抵御身份攻擊。差分隱私已被應(yīng)用到各種領(lǐng)域以保護(hù)數(shù)據(jù)安全。Yang等[9]提出了一個(gè)形式化的框架來驗(yàn)證概率系統(tǒng)中的差分隱私。吳等[10]提出了一種基于噪聲前綴樹結(jié)構(gòu)的軌跡數(shù)據(jù)發(fā)布方法,利用差分隱私在保證軌跡數(shù)據(jù)安全的同時(shí)提高了數(shù)據(jù)可用性。白等[11]針對健康醫(yī)療的非數(shù)值型數(shù)據(jù),利用差分隱私中的指數(shù)機(jī)制,設(shè)置誤差參數(shù)和滿足誤差的統(tǒng)計(jì)個(gè)數(shù)進(jìn)一步滿足不同安全性和可用性的需求。
在現(xiàn)有的多智能體強(qiáng)化學(xué)習(xí)算法中,多數(shù)研究的關(guān)注點(diǎn)都放在最終的任務(wù)效果上,往往忽略了理論性的證明與迭代過程中的隱私保護(hù)。基于此,本文擬研究基于強(qiáng)化學(xué)習(xí)的雙人博弈差分隱私保護(hù),在學(xué)習(xí)Q-learning算法的基礎(chǔ)上,利用神經(jīng)網(wǎng)絡(luò)參數(shù)逼近的方式替代值函數(shù)表值更新,制定了能夠有效平衡探索與利用的動(dòng)作選擇策略,并通過納什均衡思想調(diào)節(jié)兩個(gè)智能體的行為。同時(shí)為神經(jīng)網(wǎng)絡(luò)的輸出添加合適的滿足拉普拉斯分布的噪聲,提升了數(shù)據(jù)安全性,并從理論上分析了自適應(yīng)梯度迭代算法的收斂性,保證了多智能體最終訓(xùn)練至收斂狀態(tài),同時(shí)從仿真實(shí)驗(yàn)中說明了算法的有效性。
1 相關(guān)基本理論
1.1 差分隱私
定義1[12] 設(shè)有隨機(jī)算法M,對任何兩個(gè)鄰近數(shù)據(jù)集D和D′ ,S∈Range(M) ,若算法M滿足
Pr[M(D)∈S]≤eε×Pr[M(D′)∈S](1)
的概率約束,則其提供ε-差分隱私保護(hù),通過隨機(jī)化輸出結(jié)果提供隱私保護(hù)。其中鄰近數(shù)據(jù)集是指兩者的對稱差數(shù)量為1,參數(shù)ε表示隱私保護(hù)預(yù)算,越接近于0隱私保護(hù)程度越高。
定義2 差分隱私保護(hù)機(jī)制:給定數(shù)據(jù)集D,設(shè)有查詢函數(shù)f,其全局敏感度為△f,那么隨機(jī)算法M(D)滿足
M(D)=f(D)+LapΔf/ε(2)
提供差分隱私保護(hù)。其中全局敏感度
Δf= maxD,D′f(D)-f(D′)1(3)
Laplace分布的概率密度公式為
p(x|μ,b)=1/2bexp-|x-μ|/b(4)
其中,μ為位置參數(shù),b為尺度參數(shù),該分布可記為Lap(b, μ),當(dāng)μ=0時(shí),記Lap(b)。
1.2 強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí)的基本框架如圖1所示,即智能體在狀態(tài)s(state)下完成某項(xiàng)工作時(shí),執(zhí)行一項(xiàng)行為a(action)與周圍環(huán)境進(jìn)行交互,在共同作用下,智能體會(huì)產(chǎn)生新的狀態(tài)s′,同時(shí)會(huì)得到環(huán)境給出的一個(gè)即時(shí)回報(bào)r。整個(gè)過程中,智能體不斷與環(huán)境交互產(chǎn)生數(shù)據(jù),同時(shí)利用這些數(shù)據(jù)去學(xué)習(xí)能夠得到最大獎(jiǎng)勵(lì)的策略。
大多數(shù)的強(qiáng)化學(xué)習(xí)問題都可以概括為馬爾可夫決策過程,用(S,A,P,R,γ)來表示[13]。其中S代表有限狀態(tài)集合,s∈S表示某個(gè)特定狀態(tài);A代表有限動(dòng)作集合,a∈A表示某個(gè)特定的動(dòng)作;Pass′為狀態(tài)轉(zhuǎn)移概率,表示從s采取行動(dòng)a轉(zhuǎn)移到s′的概率;R為回報(bào)函數(shù);γ∈[0,1]為折扣因子,體現(xiàn)了未來的獎(jiǎng)勵(lì)在當(dāng)前時(shí)刻的價(jià)值比例。
馬爾科夫決策過程具有無記憶性:
Pr(Xt+1=x|Xt=xt,Xt-1=xt-1,…,X1=x1)=Pr(Xt+1=x|Xt=xt)(5)
馬爾科夫決策過程狀態(tài)轉(zhuǎn)移概率為
Pass′=P[St+1=s′|St=s,At=a](6)
當(dāng)單智能體延伸至多智能體時(shí),每個(gè)智能體仍然遵循最大化累積回報(bào)的目標(biāo),但此時(shí)環(huán)境的因素與所有智能體聯(lián)合動(dòng)作相關(guān)。馬爾科夫決策過程拓展到多智能體系統(tǒng),稱為馬爾科夫博弈,參與者會(huì)盡可能選取對自身最有利的行為,使其得到的回報(bào)最大。它可以通過元組 〈n,S,A1,…,An,T,R1,…,Rn,γ〉來表示,其中n為智能體個(gè)數(shù),S為狀態(tài)集合,Ai為智能體i的動(dòng)作集合,Ri為智能體i的獎(jiǎng)勵(lì)集合,T為環(huán)境狀態(tài)轉(zhuǎn)移概率,γ為折扣因子。
1.3 納什均衡
納什均衡又稱為完全信息靜態(tài)博弈納什均衡或者策略博弈納什均衡[14]。策略博弈可以用一個(gè)元組(n,A1,…,An,R1,…,Rn)表示,n為智能體個(gè)數(shù),Ai為智能體i的策略集合,即Ai={a(i)1,a(i)2,…,a(i)m},Ri為支付函數(shù),是智能體在聯(lián)合行為下所得到的回報(bào)。
定義3[14] 策略博弈納什均衡是指所有玩家策略滿足不等式的集合:
Vi(π*1,…,π*i,…,π*n)≥Vi(π*1,…,πi,…,π*n)
Viπi∈Πi, i=1,…,n(7)
其中,Vi(·)為智能體i的值函數(shù),πi為智能體i在策略空間Πi中選擇的行為, π*i 為智能體的最優(yōu)策略。式(7)表明當(dāng)其他智能體都執(zhí)行納什均衡策略,智能體i通過改變自身策略無法獲得更大的回報(bào)。
2 雙人博弈的差分隱私保護(hù)算法
多智能體強(qiáng)化學(xué)習(xí)需要考慮環(huán)境的不穩(wěn)定性、智能體獲取信息的局限性、個(gè)體目標(biāo)的一致性以及可拓展性等,并且在構(gòu)建算法的過程中,要著重考慮合理性和收斂性,即在共同使用學(xué)習(xí)算法時(shí),每個(gè)智能體能夠?qū)W習(xí)并收斂到相對于對手的最優(yōu)策略。在Nash Q-learning學(xué)習(xí)算法的基礎(chǔ)上進(jìn)行改進(jìn),使改進(jìn)方法能夠在有效收斂的前提下,加入隱私保護(hù),為其數(shù)據(jù)添加隱私。
2.1 Nash Q-learning學(xué)習(xí)算法
Q-learning算法是基于時(shí)間差分的強(qiáng)化學(xué)習(xí)算法,但實(shí)際上也可以理解為一個(gè)表值學(xué)習(xí)算法,即智能體在與環(huán)境互動(dòng)過程中形成了一個(gè)狀態(tài)-動(dòng)作的Q值表。當(dāng)智能體完成一件事,有立即獎(jiǎng)賞,即做了一個(gè)動(dòng)作能夠立即獲得的獎(jiǎng)勵(lì),還有記憶經(jīng)驗(yàn)獎(jiǎng)勵(lì),即按照訓(xùn)練時(shí)的經(jīng)驗(yàn),上一個(gè)動(dòng)作發(fā)生后,接下來怎么做才能獲得更大的獎(jiǎng)勵(lì)。Q-learning算法的思想同時(shí)考慮這兩方面,值函數(shù)Q的更新公式為
其中,αt為學(xué)習(xí)率,取值在0和1之間,代表未來新值置換原值的比例。γ為折扣因子。rt為選擇動(dòng)作后所得到的立即回報(bào)。
將單智能體Q-learning方法應(yīng)用到多智能體中,智能體i不僅要觀察自身回報(bào),還要獲悉他人的回報(bào)。當(dāng)智能體之間是混合關(guān)系時(shí),每個(gè)智能體各自采取學(xué)習(xí)方法最大化Q值,可以收斂到納什均衡策略。Nash Q學(xué)習(xí)算法可應(yīng)用于多智能體問題中,在智能體i更新當(dāng)前狀態(tài)的Q值時(shí)不再只是與自身下一狀態(tài)的Q值相關(guān),而是采取納什均衡策略進(jìn)行更新,使得各個(gè)智能體聯(lián)系起來,對于其中任意一個(gè)智能體來說,無法通過采取其他的策略來獲得更高的累積回報(bào)。對于智能體i而言,它的納什Q值定義為
NashQit(s′)=π1(s′)…πn(s′)Qit(s′)(9)
此時(shí),假設(shè)了所有智能體從下一時(shí)刻開始都采取納什均衡策略,納什策略可以通過二次規(guī)劃(僅考慮離散的動(dòng)作空間,π為各動(dòng)作的概率分布)來求解。
Qit+1(s,a1,a2,…,an)=(1-αt)Q(s,a1,a2,…,an)+αt[rit+βNashQit(s′)](10)
其中,NashQit(s′)為智能體i在下一狀態(tài)的納什均衡點(diǎn)。相比單智能體,多智能體強(qiáng)化學(xué)習(xí)的智能體需要知道全局狀態(tài)、其他智能體的動(dòng)作以及下一狀態(tài)所對應(yīng)的納什均衡策略,據(jù)此計(jì)算當(dāng)前Q值,以做出更好決策,NashQ學(xué)習(xí)方法通過式(10)進(jìn)行更新學(xué)習(xí)。
2.2 雙人博弈差分隱私保護(hù)算法設(shè)計(jì)
Nash Q-learning學(xué)習(xí)算法中,記錄雙方的Q值需要大量空間,計(jì)算過程的復(fù)雜也會(huì)導(dǎo)致收斂較慢,所以設(shè)計(jì)一種函數(shù)逼近的方式去擬合Q值,使得值函數(shù)的更新變?yōu)閰?shù)的更新,節(jié)省算法空間,從而提高算法優(yōu)化策略的程度,并且給Q值加噪聲,給予隱私保護(hù)。
2.2.1 動(dòng)作選擇策略
首先設(shè)置e值,當(dāng)隨機(jī)數(shù)小于e時(shí),智能體i選擇當(dāng)前狀態(tài)下Q值最大的動(dòng)作,當(dāng)隨機(jī)數(shù)大于e時(shí),采取玻爾茲曼策略,根據(jù)Q值計(jì)算各動(dòng)作的概率,智能體i根據(jù)概率選擇下一步動(dòng)作,動(dòng)作選擇概率為
P(a|s)=exp(Q(s,a))/∑aexp(Q(s,a))(11)
該策略方案能夠有效地平衡探索和利用,e值隨著策略的迭代逐漸增大,訓(xùn)練前期更偏向于探索,后期逐漸訓(xùn)練完成,更偏向于利用。設(shè)置玻爾茲曼策略的意義在于給隨機(jī)選擇動(dòng)作加一個(gè)概率,更大概率地去選擇當(dāng)前Q值最佳的動(dòng)作,同時(shí)也給予探索的機(jī)率,前期各動(dòng)作的概率值趨向一致,訓(xùn)練后期逐漸得到最優(yōu)策略時(shí)也能促進(jìn)算法更快收斂。
2.2.2 動(dòng)作值函數(shù)的優(yōu)化算法
由于多智能體在學(xué)習(xí)的過程中往往會(huì)產(chǎn)生大量特征信息,通常采用深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)逼近目標(biāo)函數(shù)[15],故本文中設(shè)置神經(jīng)網(wǎng)絡(luò)非線性逼近Q值,輸入層的神經(jīng)元個(gè)數(shù)為觀測值的特征數(shù),輸出層的神經(jīng)元個(gè)數(shù)為動(dòng)作空間的個(gè)數(shù),輸出值是每個(gè)動(dòng)作的價(jià)值。
損失函數(shù)設(shè)為
其中,初始值v0=0,αt為學(xué)習(xí)率,衰減系數(shù)0lt;βlt;1,用來控制歷史信息的獲取大小,εgt;0,以保證分母不會(huì)為0,gt為損失函數(shù)的梯度。從式(13)可以看出,vt是一個(gè)指數(shù)式遞減加權(quán)的移動(dòng)平均,越近期的數(shù)值加權(quán)越大。學(xué)習(xí)率逐參數(shù)地除以經(jīng)衰減系數(shù)控制的歷史梯度平方和的平方根,當(dāng)參數(shù)空間下降平緩時(shí),歷史梯度平方和較小,從而在平緩方向上取得更大的進(jìn)步,可以加快訓(xùn)練速度。
2.2.3 數(shù)據(jù)隱私保護(hù)設(shè)計(jì)
為有效應(yīng)對隱私泄露,使用添加噪聲的方式實(shí)現(xiàn)差分隱私機(jī)制以抵抗差分隱私攻擊,保護(hù)原始數(shù)據(jù)。
由于在雙人博弈的過程中,彼此要對狀態(tài)值函數(shù)產(chǎn)生的數(shù)據(jù)進(jìn)行通訊,故對該數(shù)據(jù)添加符合拉普拉斯分布的噪聲,即QQ+Lap(b),b為尺度參數(shù)。添加的噪聲是有一定規(guī)律的一組數(shù)據(jù),使整個(gè)數(shù)據(jù)結(jié)構(gòu)發(fā)生了比較大的變化,從而使得個(gè)體數(shù)據(jù)難以被破解,但對于整體數(shù)據(jù)而言,拉普拉斯分布具有均值為0的特性,所以在大量數(shù)據(jù)的訓(xùn)練背景下不會(huì)對最終結(jié)果產(chǎn)生明顯的影響。
2.2.4 算法設(shè)計(jì)與實(shí)現(xiàn)
雙人博弈差分隱私保護(hù)算法的步驟為:1)設(shè)置神經(jīng)網(wǎng)絡(luò)非線性逼近Q值,初始化參數(shù)θ。2)循環(huán)每一步,迭代次數(shù)用t表示,并初始化智能體的狀態(tài)。3)根據(jù)策略選擇下一步動(dòng)作。4)執(zhí)行動(dòng)作后,智能體i觀察自身和對方智能體所獲得的回報(bào)和行動(dòng)。5)根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出值更新值函數(shù),并對其添加噪聲進(jìn)行隱私保護(hù)。6)利用自適應(yīng)梯度優(yōu)化算法更新神經(jīng)網(wǎng)絡(luò)參數(shù)。7)轉(zhuǎn)入下一次迭代至步驟3),直到滿足每個(gè)回合的結(jié)束條件。本文實(shí)驗(yàn)設(shè)置中的結(jié)束條件為智能體相撞或至少有一個(gè)智能體抵達(dá)目標(biāo)點(diǎn)。8)重復(fù)執(zhí)行上述步驟2)至步驟7),滿足設(shè)置的回合數(shù)后算法結(jié)束。
在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,由于要求輸入的樣本之間相互獨(dú)立,所以不能簡單地依次輸入狀態(tài),需要在回合過程中,將樣本數(shù)據(jù)信息存入緩沖區(qū)。游戲開始后,累積一些數(shù)據(jù)再訓(xùn)練,訓(xùn)練時(shí)隨機(jī)抽取,以切斷樣本的相關(guān)性,并隔5步訓(xùn)練一次,提升訓(xùn)練時(shí)間。整體算法大致框圖如圖2所示。
2.3 算法收斂性分析
本節(jié)主要從理論上分析驗(yàn)證迭代算法是有效的,即能夠找到使損失函數(shù)最小的神經(jīng)網(wǎng)絡(luò)參數(shù)。在證明之前,給出分析算法收斂的常見假設(shè)。
隨著t的不斷增大f(θT)不斷減小,且f(θT)≥0有下界,證明收斂。
雖然在迭代過程中為Q值添加了拉普拉斯噪聲的隱私保護(hù),但由于該噪聲均值為0,在多次的添加過程中對其真實(shí)值幾乎沒有影響,因此不會(huì)影響其收斂性。
3 實(shí)驗(yàn)仿真與分析
3.1 實(shí)驗(yàn)設(shè)置
在如圖3a所示的傳統(tǒng)雙人網(wǎng)格博弈游戲中運(yùn)行算法,其中方框代表智能體,圓形代表終點(diǎn),四周擬為墻。智能體在該網(wǎng)格的動(dòng)作空間為上、下、左、右,左上角位置點(diǎn)為0,向右向下逐漸增加,單個(gè)網(wǎng)格單位為1,據(jù)此可知初始狀態(tài)為(0,2)。在訓(xùn)練過程中,要讓雙智能體沖突得到獎(jiǎng)賞的優(yōu)先級(jí)高于僅有單智能體抵達(dá)目標(biāo)點(diǎn),否則可能會(huì)收斂至雙智能體與某個(gè)目標(biāo)點(diǎn)碰撞。因此,獎(jiǎng)賞設(shè)置為如果兩個(gè)智能體同時(shí)抵達(dá)目標(biāo)點(diǎn),獎(jiǎng)賞20,回合結(jié)束;如果兩個(gè)智能體沖突,回報(bào)-10,回合結(jié)束;如果只有一個(gè)智能體抵達(dá)目標(biāo)點(diǎn),獎(jiǎng)賞10,回合結(jié)束;如果智能體撞墻,回報(bào)-10,回合繼續(xù);到達(dá)其他狀態(tài)獲得回報(bào)0,回合繼續(xù)。圖3b是預(yù)估的能夠在均衡狀態(tài)下抵達(dá)終點(diǎn)的可能情況,最終,該算法可以訓(xùn)練兩個(gè)智能體以其中一種方式收斂到終點(diǎn)。
3.2 實(shí)驗(yàn)分析
在Python3.9環(huán)境下,運(yùn)行前面提到的算法,加入拉普拉斯噪聲增添隱私保護(hù),訓(xùn)練次數(shù)設(shè)為1 600回合,觀察智能體是否能夠在訓(xùn)練后以一種穩(wěn)定的路徑方式抵達(dá)目標(biāo)點(diǎn)。
3.2.1 實(shí)驗(yàn)結(jié)果圖
圖4為某次訓(xùn)練到一定程度后,兩個(gè)智能體的路徑,能夠按照要求抵達(dá)終點(diǎn)。
3.2.2 損失函數(shù)
損失函數(shù)的變化過程如圖5所示,反應(yīng)出算法在不斷的探索開發(fā)中最終是否能夠到達(dá)收斂狀態(tài),即雙智能體以一種穩(wěn)定的策略達(dá)到目標(biāo)點(diǎn)。自適應(yīng)梯度算法有利于修正擺動(dòng)幅度,使得收斂更快。同時(shí)可以看出Cost曲線并不是平滑下降,這是因?yàn)樵趯W(xué)習(xí)的過程中,神經(jīng)網(wǎng)絡(luò)的參數(shù)值是一步步學(xué)習(xí)的,兼顧探索和利用的過程,且加入噪聲,對數(shù)據(jù)產(chǎn)生影響,在反復(fù)學(xué)習(xí)后,才能達(dá)到收斂效果。
3.2.3 結(jié)果分析
為了進(jìn)一步觀察學(xué)習(xí)過程中實(shí)驗(yàn)結(jié)果的情況,在某次實(shí)驗(yàn)每100回合分析結(jié)果中g(shù)oodresult、generalresult、badresult所占數(shù)量,分別指的是兩個(gè)智能體都到達(dá)終點(diǎn)、僅有單智能體抵達(dá)終點(diǎn)以及其他情況,并做折線圖展示。通過圖6可以看出隨著智能體不斷學(xué)習(xí)和參數(shù)不斷迭代更新,最終穩(wěn)定抵達(dá)終點(diǎn),證明了該算法的有效性。
同時(shí)做實(shí)驗(yàn)比較添加隱私保護(hù)對收斂情況造成的影響,某次實(shí)驗(yàn)結(jié)果如表1所示,在前期由于對Q值數(shù)據(jù)添加噪聲,各智能體的訓(xùn)練學(xué)習(xí)受到干擾,但隨著回合數(shù)的增加,依據(jù)拉普拉斯噪聲分布均值為0的特性,添加隱私保護(hù)并不影響最終的收斂情況。
在實(shí)驗(yàn)過程中給噪聲設(shè)置不同的尺度參數(shù)并進(jìn)行多次實(shí)驗(yàn),對比添加噪聲對成功率的影響情況,如表2所示,計(jì)算在實(shí)驗(yàn)回合1 000至1 400之間的成功率,可見雖然噪聲對成功率稍有影響,但整體而言并不干擾最后的任務(wù)效果。需要注意的是,必須選擇合適的噪聲才能不影響數(shù)據(jù)的可用性,否則也會(huì)出現(xiàn)數(shù)據(jù)偏離的情況。
4 總結(jié)
該文針對雙人博弈問題,在學(xué)習(xí)Nash Q-learning算法的基礎(chǔ)上,設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)對狀態(tài)值函數(shù)進(jìn)行逼近,將損失函數(shù)的最小值作為優(yōu)化目標(biāo),選取自適應(yīng)梯度算法對神經(jīng)網(wǎng)絡(luò)參數(shù)迭代更新,并對神經(jīng)網(wǎng)絡(luò)輸出結(jié)果添加隱私保護(hù)。最后,實(shí)驗(yàn)表明了算法的可用性,添加了合適的拉普拉斯噪聲,加強(qiáng)了數(shù)據(jù)的安全性,訓(xùn)練使得兩個(gè)智能體能夠均衡地抵達(dá)對應(yīng)目標(biāo)點(diǎn)。
參考文獻(xiàn):
[1]劉豪. 多智能體博弈強(qiáng)化學(xué)習(xí)算法及其均衡研究[D]. 西安:西安科技大學(xué), 2020.
LIU H. Research on reinforcement learning algorithm and equilibrium of multi-agent game[D]. Xi′an: Xi′an University of Science and Technology, 2020.
[2]DONG Q, WU Z Y, LU J, et al. Existence and practice of gaming: thoughts on the development of multi-agent system gaming[J]. Frontiers of Information Technology amp; Electronic Engineering,2022,23(7):995-1002.
[3]SHOU Z, CHEN X, FU Y, et al. Multi-agent reinforcement learning for Markov routing games: a new modeling paradigm for dynamic traffic assignment[J]. Transportation Research Part C: Emerging Technologies, 2022, 137:103560.
[4]LEMKE C E, HOWSON J T. Equilibrium points of bimatrix games[J]. Journal of the Society for Industrialamp;Applied Mathematics, 1964, 12(2): 413-423.
[5]尹佳偉, 程昆.納什均衡解的另一種解法[J].統(tǒng)計(jì)與決策,2017(15):70-72.
YIN J W, CHEN K. Another solving method of nash equilibrium[J]. Statistics amp; Decision, 2017(15):70-72.
[6]陳向勇,曹進(jìn)德,趙峰,等. 基于事件驅(qū)動(dòng)控制的混雜動(dòng)態(tài)博弈系統(tǒng)的納什均衡分析[J]. 控制理論與應(yīng)用, 2021,38(11):1801-1808.
CHEN X Y, CAO J D, ZHAO F, et al. Nash equilibrium analysis of hybrid dynamic games system based on event-triggered control[J]. Control Theory amp; Applications. 2021,38(11):1801-1808.
[7]張珊.深度學(xué)習(xí)中差分隱私保護(hù)算法研究[D].呼和浩特:內(nèi)蒙古大學(xué),2022.
ZHANG S. Research on differential privacy in deep learning[D]. Hohhot: Inner Mongolia University, 2022.
[8]FU J,CHEN Z,HAN X.Adap DP-FL:Differentially Private Federated Learning with Adaptive Noise[C]//2022 IEEE International Conference on Trust,Security and Privacy in Computing and Communications.Wuhan,China:IEEE,2022:656-663.
[9]YANG J, CAO Y, WANG H. Differential privacy in probabilistic systems[J]. Information and Computation, 2017, 254(1): 84-104.
[10] 吳萬青,趙永新,王巧,等.一種滿足差分隱私的軌跡數(shù)據(jù)安全存儲(chǔ)和發(fā)布方法[J].計(jì)算機(jī)研究與發(fā)展,2021,58(11):2430-2443.
WU W Q, ZHAO Y X, WANG Q, et al. A safe storage and release method of trajectory data satisfying differential privacy[J]. Journal of Computer Research and Development, 2021,58(11):2430-2443.
[11] 白伍彤,陳蘭香.基于差分隱私的健康醫(yī)療數(shù)據(jù)保護(hù)方案[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(8):304-311.
BAI W T, CHEN L X. Healthcare data protection scheme based on differential privacy[J]. Computer Applications and Software, 2022,39(8):304-311.
[12] Dwork C. Differential privacy[C]//Proceedings of the 33rd International Conference on Automata, Languages and Programming-Volume Part II.Berlin, Heidelberg, Springer: 2006.
[13] 王軍,曹雷,陳希亮,等.多智能體博弈強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)工程與應(yīng)用,2021,57(21):1-13.
WANG J, CAO L, CHEN X L, et al. Overview on reinforcement learning of multi-agent game[J]. Computer Engineering and Applications, 2021,57(21):1-13.
[14] 胡浩洋,郭雷.多人非合作隨機(jī)自適應(yīng)博弈[J].控制理論與應(yīng)用,2018,35(5):637-643.
HU H Y, GUO L. Non-cooperative stochastic adaptive multi-player games[J]. Control Theory amp; Applications, 2018,35(5):637-643.
[15] 鄒啟杰,蔣亞軍,高兵,等.協(xié)作多智能體深度強(qiáng)化學(xué)習(xí)研究綜述[J].航空兵器,2022,29(6):78-88.
ZOU Q J, JIANG Y J, GAO B, et al. An overview of cooperative multi-agent deep reinforcement learning[J]. Aero Weaponry, 2022,29(6):78-88.
(責(zé)任編輯 耿金花)