摘 要:高壓電房環(huán)境復雜,存在高電壓和狹窄空間等危險因素,傳統(tǒng)的人工應(yīng)急處理面臨安全風險和效率低下的問題。通過選擇深度Q網(wǎng)絡(luò),應(yīng)急搶險機器人通過與環(huán)境的交互,積累經(jīng)驗,并通過獎勵機制優(yōu)化其策略,逐步學習到最佳的行動路徑和應(yīng)急響應(yīng)措施,從而實現(xiàn)快速、精準的故障識別和處理。通過模擬試驗驗證了基于深度強化學習的路徑規(guī)劃策略在實際搶險場景中的有效性,結(jié)果表明方法顯著提高了機器人在應(yīng)急響應(yīng)中的安全性和效率,為未來高壓電房的智能化管理提供了新的思路和方法。
關(guān)鍵詞:深度強化學習;高壓電房;應(yīng)急搶險機器人;路徑規(guī)劃
中圖分類號:TP 242" " 文獻標志碼:A
高壓站房內(nèi)電氣設(shè)備眾多且長期運行,增加了發(fā)生著火事故的風險。當發(fā)生此類事故時,由于高壓電房的復雜環(huán)境,常常面臨高電壓、狹窄空間和各種障礙物多等情況,人工操作的風險極高。處理不當可能導致嚴重的財產(chǎn)損失、人員傷亡。國內(nèi)外眾多研究人員針對這些問題開展了一系列的工作,陳人楷等[1]設(shè)計了一種基于深度強化學習的電力巡檢機器人自動化監(jiān)測系統(tǒng)。金涌濤等[2]提出了一種基于改進YOLOv7-tiny的變電站機器人設(shè)備巡檢中目標動態(tài)捕捉識別方法。孔曉兵[3]研究了基于電力大數(shù)據(jù)的變電站設(shè)備智能控制系統(tǒng)。本文擬應(yīng)用深度強化學習技術(shù),通過與環(huán)境的交互,積累經(jīng)驗并優(yōu)化決策策略,使機器人逐步學習最佳的行動路徑和應(yīng)急響應(yīng)措施,實現(xiàn)快速、精準的故障識別與處理。
1 深度強化學習概要
深度強化學習(Deep Reinforcement Learning,DRL)是一個結(jié)合了深度學習和強化學習的強大方法,旨在使智能體能夠在復雜動態(tài)環(huán)境中自主學習并制定最優(yōu)策略。
深度學習基于多層神經(jīng)網(wǎng)絡(luò),通過多層網(wǎng)絡(luò)進行特征提取和模式識別。它能自動從原始數(shù)據(jù)中自動提取高級特征,已廣泛應(yīng)用于計算機視覺和自然語言處理等領(lǐng)域。強化學習則通過智能體與環(huán)境交互學習最佳策略,并通過獎勵信號評估行為優(yōu)劣,目標是最大化累積獎勵。深度強化學習結(jié)合了深度學習的特征提取與強化學習的決策能力,使智能體能在復雜、高維的狀態(tài)空間中有效學習。
深度強化學習將深度學習的特征提取能力與強化學習的決策能力結(jié)合,使智能體能夠在復雜、高維的狀態(tài)空間中有效學習。例如,深度Q網(wǎng)絡(luò)(DQN)結(jié)合了深度學習和Q學習算法,通過神經(jīng)網(wǎng)絡(luò)對狀態(tài)進行編碼,近似Q值函數(shù),使智能體能夠在視覺輸入中直接學習到最佳行動策略。
2 深度Q網(wǎng)絡(luò)介紹
深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)是一種結(jié)合了深度學習和強化學習的算法,旨在解決高維狀態(tài)空間下的強化學習問題。DQN的核心思想是使用深度神經(jīng)網(wǎng)絡(luò)來近似Q值函數(shù),從而允許智能體在復雜環(huán)境中學習最佳策略。
2.1 Q學習原理
Q學習是一種無模型的強化學習方法,通過智能體在沒有環(huán)境模型的情況下學習如何最大化累積獎勵。智能體通過維護一個Q表(Q-table)來記錄每個狀態(tài)-動作對的預期累積回報,即Q(s,a)。Q(s,a)表示在狀態(tài)s下采取動作a后的預期累積回報。Q值的更新遵循貝爾曼方程,如公式(1)所示。
(1)
式中:α為學習率,決定了新舊信息的混合程度;r為即時獎勵;γ為折扣因子,用于平衡即時獎勵和未來獎勵;s'為智能體在執(zhí)行動作a后到達的新狀態(tài);為在新狀態(tài)s'下,未來可能采取的動作所能獲得的最大Q值。
2.2 DQN的基本原理
為了克服Q學習在高維環(huán)境中的限制,DQN使用深度神經(jīng)網(wǎng)絡(luò)來近似Q值函數(shù)。深度Q網(wǎng)絡(luò)以當前狀態(tài)s作為輸入,輸出對應(yīng)各個動作a的Q值。通過深度神經(jīng)網(wǎng)絡(luò)中學習狀態(tài)-動作值的映射,從而避免維護智能體中龐大的Q值表。
DQN的模型如圖1所示。在DQN中,深度神經(jīng)網(wǎng)絡(luò)用于近似Q值函數(shù)Q(s,a;θ),其中,θ為神經(jīng)網(wǎng)絡(luò)的參數(shù)。該網(wǎng)絡(luò)接受當前狀態(tài)s作為輸入,輸出對應(yīng)的每個可能動作的Q值。
DQN采用了2個網(wǎng)絡(luò)結(jié)構(gòu):一個是主網(wǎng)絡(luò),另一個是目標網(wǎng)絡(luò)。主網(wǎng)絡(luò)負責實時更新Q值,目標網(wǎng)絡(luò)則用于計算目標Q值。為了保持學習過程的穩(wěn)定性,目標網(wǎng)絡(luò)的參數(shù)會定期進行更新。
為了消除數(shù)據(jù)樣本之間的相關(guān)性,DQN引入了經(jīng)驗回放機制。該機制的核心是一個名為回放緩沖區(qū)的數(shù)據(jù)結(jié)構(gòu)。智能體在與環(huán)境交互過程中會將每次的經(jīng)歷存儲到這個緩沖區(qū)中。每次訓練時,會從緩沖區(qū)中隨機選擇一批樣本用于訓練。這種方法有助于減少樣本間的時間相關(guān)性,并提高樣本的使用效率,顯著提高了DQN在復雜環(huán)境中的表現(xiàn)[4]。
DQN的Q值更新過程基于貝爾曼方程。目標Q值y如公式(2)所示。
(2)
式中:θ-為目標網(wǎng)絡(luò)的參數(shù)。
目標網(wǎng)絡(luò)的參數(shù)會在固定的步數(shù)后從主網(wǎng)絡(luò)進行同步更新,以此降低訓練過程中的不穩(wěn)定性。
主網(wǎng)絡(luò)的參數(shù)通過最小化均方誤差(Mean Squared Error,MSE)損失函數(shù)進行更新,如公式(3)所示。
L(θ)=E(s,a,r,s')~D[(y-Qmain(s,a;w))2] (3)
式中:D為經(jīng)驗回放緩沖區(qū)中的樣本集合;θ為主網(wǎng)絡(luò)的參數(shù)。
3 基于DQN的應(yīng)急搶險機器人路徑規(guī)劃
3.1 應(yīng)急搶險機器人路徑規(guī)劃DQN模型
應(yīng)急搶險機器人從未知環(huán)境中獲取當前狀態(tài)st后,根據(jù)貪婪策略ε-greedy選擇一個動作at來執(zhí)行運動。機器人以一定概率選擇當前狀態(tài)下Q值最高的動作at。同時,機器人以ε概率隨機選擇一個動作at,防止因受到噪聲和不確定性的影響陷入局部最優(yōu)解。對應(yīng)最大Q值的動作at如公式(4)所示。
at=argmaxaQ(st,a;w) (4)
式中:st為當前時刻的狀態(tài)值;at為當前狀態(tài)對應(yīng)最大Q值的動作;w為當前網(wǎng)絡(luò)參數(shù)。
DQN學習流程如圖2所示。機器人通過與環(huán)境交互,并根據(jù)所獲得的反饋信息不斷學習和改進[5]。當機器人執(zhí)行動作at后,環(huán)境會返回獎勵值rt以及下一時刻的狀態(tài)st+1。這些信息(st,at,γt,st+1)會被記錄并存儲在經(jīng)驗池中,供后續(xù)訓練使用。當前值網(wǎng)絡(luò)用于計算在當前狀態(tài)下執(zhí)行動作at的Q值Q(si,ai;w),而目標值網(wǎng)絡(luò)則計算下一狀態(tài)st+1中執(zhí)行所有可能動作的Q值Q(si+1,ai;w')。接著,使用獎勵的折扣因子γ來計算目標值yi,如公式(5)所示(第一種情況表示機器人在狀態(tài)st+1下達成目標,第二種情況表示機器人未能達成目標。)。
(5)
式中:γ為獎勵值的折扣因子。
3.2 ε-greedy貪婪策略
為了使獎勵值rt最大化,研究者利用行動價值函數(shù)Qπ(st,at)(如公式(6)所示)來估計在狀態(tài)st中采取行動后執(zhí)行策略π的獎勵。最優(yōu)動作值函數(shù)Q*(st,at)(如公式(7)所示)是通過最大化消除策略π得到的,消除策略π表示在狀態(tài)st中采取行動后執(zhí)行最優(yōu)策略的最大獎勵。函數(shù)Q*估計了當前狀態(tài)下每個動作的最大期望累積獎勵,指導機器人選擇具有最高期望獎勵的動作。因此,基于值的DQN算法采用了一個深度神經(jīng)網(wǎng)絡(luò)來逼近最優(yōu)的動作-值函數(shù)。
Qπ(st,at)=E[rt|St=st,At=at] (6)
(7)
通過采用貪婪策略,該模型很容易陷入局部最優(yōu)解,因此,建議鼓勵該模型在訓練開始時進行更多的探索。在訓練過程中,機器人執(zhí)行模型給出的動作的可能性為Epsilon,而采取隨機動作的概率為1-Epsilon,如公式(8)所示。在初始階段,由于值較小,因此機器人處于隨機探索狀態(tài)。該方法可以加速模型的收斂性,減少陷入局部最優(yōu)的風險。
(8)
3.3 DQN訓練流程
智能體與環(huán)境交互:智能體在環(huán)境中執(zhí)行動作,獲取狀態(tài)s、動作a、獎勵r以及下一狀態(tài)s',并將這些經(jīng)歷存儲到經(jīng)驗回放緩沖區(qū)中。
經(jīng)驗回放抽樣:從經(jīng)驗回放緩沖區(qū)中隨機抽取一批樣本(s,a,r,s')。
計算目標Q值:使用目標網(wǎng)絡(luò)計算目標Q值y。
更新主網(wǎng)絡(luò):通過最小化損失函數(shù)L(θ)來更新主網(wǎng)絡(luò)的參數(shù)。
目標網(wǎng)絡(luò)更新:每隔一段時間,將主網(wǎng)絡(luò)的參數(shù)θ復制到目標網(wǎng)絡(luò)θ-中,使目標網(wǎng)絡(luò)的參數(shù)得到同步更新。
3.4 雙DQN算法
本文引用雙DQN算法[6]來減輕過高估計問題。傳統(tǒng)的DQN算法使用單神經(jīng)網(wǎng)絡(luò)來同時估計當前狀態(tài)下各個動作的價值。雙DQN算法引入了2個獨立的神經(jīng)網(wǎng)絡(luò):評估網(wǎng)絡(luò)和目標網(wǎng)絡(luò)。評估網(wǎng)絡(luò)負責根據(jù)當前狀態(tài)估計所有可能動作的Q值;目標網(wǎng)絡(luò)用于計算訓練過程中指導評估網(wǎng)絡(luò)更新的Q值。目標網(wǎng)絡(luò)的結(jié)構(gòu)與評估網(wǎng)絡(luò)相同,但其參數(shù)是定期從評估網(wǎng)絡(luò)中復制過來的。目標網(wǎng)絡(luò)的參數(shù)是通過固定間隔從評估網(wǎng)絡(luò)中復制得來的,這樣可以減少價值函數(shù)的波動性,緩解過估計問題。雙DQN中使用的Q學習目標如公式(9)所示。
(9)
在雙DQN算法中,只使用當前網(wǎng)絡(luò)參數(shù),忽略了上一代網(wǎng)絡(luò)參數(shù)的重要性。本文改進的雙DQN算法可以充分利用上一代的網(wǎng)絡(luò)參數(shù),隨著迭代次數(shù)增加,機器人可以獲得足夠的環(huán)境先驗知識積累,消除高估對動作選擇的影響,增加了重要經(jīng)驗的回放概率,使樣本學習更有效。代理使用ε-greedy貪婪策略選擇行動。當開始時,代理不熟悉環(huán)境,并隨機采取行動。隨著經(jīng)驗增加,為了選擇預期回報值最大的行動,應(yīng)降低采取隨機行動的概率,并首選貪婪策略。貪婪策略的使用還可以防止代理陷入局部最優(yōu)。
3.5 優(yōu)先經(jīng)驗回放機制
在傳統(tǒng)的訓練方法中,訓練樣本存儲在存儲單元中,并隨機選擇進行訓練,這可能導致有價值樣本學習不足,而無意義樣本被重復學習,影響收斂速度和學習效率。因此,采用基于優(yōu)先經(jīng)驗回放機制的DQN方法,充分利用有價值的傳輸樣本,使機器人能從大量數(shù)據(jù)中高效學習,從而提高學習效率。在訓練過程中,機器人-環(huán)境交互數(shù)據(jù)存儲在體驗重放隊列中,后續(xù)從隊列中提取數(shù)據(jù)輸入模型,顯著提高數(shù)據(jù)利用率。優(yōu)先經(jīng)驗回放機制通過標記緩存單元優(yōu)先級,從而顯著提高了數(shù)據(jù)的利用率。
由于每個交互式數(shù)據(jù)對模型增強的影響都不同,為了提高數(shù)據(jù)利用的效率,有必要對數(shù)據(jù)進行訓練。這意味應(yīng)該通過選擇性地采樣具有高TD誤差(Temporal Difference Error,時序差分誤差)的數(shù)據(jù)來提高模型性能。為了實現(xiàn)這一點,使用公式(10)和公式(11)來計算每個數(shù)據(jù)的優(yōu)先級和采樣率,其中δi為數(shù)據(jù)的TD誤差值;為了防止采樣率過小,添加了ε。α是調(diào)節(jié)優(yōu)先級對采用概率的影響的指標,當α=0時,它是傳統(tǒng)的統(tǒng)一抽樣,如果α=1,那么恰好是基于優(yōu)先級的抽樣方法。
pi=|δi|+ε (10)
(11)
4 試驗結(jié)果與分析
使用Python 3.6和PyTorch工具搭建仿真平臺以進行試驗。本文提出的雙DQN算法的超參數(shù)配置見表1。為確保試驗的一致性,原始DQN算法的超參數(shù)設(shè)置與改進算法保持相同。
使用傳統(tǒng)DQN路徑規(guī)劃算法和改進算法得到的路徑結(jié)果見表2。當執(zhí)行路徑規(guī)劃任務(wù)時,雖然2種算法都能成功引導機器人到達目標位置,但在路徑效率和行進路線的復雜度上有所不同。具體來說,傳統(tǒng)DQN算法的路徑平均長度為35.5m,而改進算法將路徑長度縮短至28.6m,相比之下節(jié)省了19.4%。此外,傳統(tǒng)算法規(guī)劃的路徑中有多達17個拐點,而改進算法減少到僅8個。這表明改進算法不僅提高了路徑的直線性,還可能降低機器人在實際導航中的能量消耗和時間成本,具有更高的導航效率和路徑優(yōu)化能力。
5 結(jié)語
本文提出了一種基于雙DQN算法的應(yīng)急搶險機器人路徑規(guī)劃方法,用于解決高壓站房內(nèi)電氣設(shè)備眾多、環(huán)境復雜的搶險問題。通過深度強化學習,機器人能夠在與環(huán)境的交互中學習最優(yōu)策略,快速響應(yīng)故障并減少人工干預的風險。本文采用雙DQN算法通過引入目標網(wǎng)絡(luò)來減輕傳統(tǒng)DQN的過估計問題,并結(jié)合優(yōu)先經(jīng)驗回放機制,進一步提高了模型的學習效率。試驗結(jié)果顯示,改進后的算法在路徑規(guī)劃上優(yōu)于傳統(tǒng)DQN,能有效縮短路徑長度并減少拐點數(shù)量,從而提高導航效率。
參考文獻
[1]陳人楷,方曉明,李仕彥.基于深度強化學習的電力巡檢機器人網(wǎng)絡(luò)自動化監(jiān)測系統(tǒng)[J].自動化與儀表,2024,39(9):70-73,83.
[2]金涌濤,張?zhí)癫?,季宇豪,?變電站機器人巡檢中設(shè)備目標動態(tài)捕捉識別技術(shù)研究[J].機械設(shè)計,2024,41(增刊1):159-164.
[3]孔曉兵.基于電力大數(shù)據(jù)的變電站設(shè)備智能控制技術(shù)研究[J].電氣技術(shù)與經(jīng)濟,2024(8):33-36.
[4]姬光楠.基于深度學習算法的電氣控制系統(tǒng)故障診斷與預測研究[J].電氣技術(shù)與經(jīng)濟,2024(9):47-49.
[5]鄧國泉.基于深度學習的工業(yè)電氣自動化系統(tǒng)故障診斷與智能優(yōu)化控制[J].電氣技術(shù)與經(jīng)濟,2024(8):60-62.
[6]陳寶華.基于邊緣計算的配電網(wǎng)供電恢復智能決策方法研究[J].電氣技術(shù)與經(jīng)濟,2024(9):8-10.