摘 要:
為了實(shí)現(xiàn)航天器電源系統(tǒng)的靈活高效并網(wǎng),最大化有限能量的利用,提出一種基于深度強(qiáng)化學(xué)習(xí) (deep reinforcement learning, DRL) 的功率傳輸與信號傳輸復(fù)合網(wǎng)絡(luò)拓?fù)鋬?yōu)化模型,并使用知識蒸餾原理的多種可解釋組件模型對優(yōu)化過程進(jìn)行剖析。首先,分析在軌運(yùn)行階段航天器母線電壓調(diào)節(jié)控制域變換規(guī)律,并結(jié)合節(jié)點(diǎn)傳播性參數(shù),建立功率傳輸與信號通信的復(fù)合網(wǎng)絡(luò)拓?fù)淠P?。然后,利用A3C (asynchronous advantage actor-critic) 算法,對信號傳輸網(wǎng)絡(luò)路由分布、拓?fù)浣Y(jié)構(gòu)等方面潛在的運(yùn)行可靠性風(fēng)險(xiǎn)進(jìn)行自適應(yīng)性優(yōu)化。最后,結(jié)合多種可解釋組件對已訓(xùn)練的DRL模型進(jìn)行知識蒸餾,形成一種可解釋的量化分析方法。所提方法可以指導(dǎo)空間電源在隨機(jī)陰影影響下選擇最佳并網(wǎng)方案,并為更高任務(wù)要求和復(fù)雜環(huán)境下空間電源控制器設(shè)計(jì)提供理論支持。
關(guān)鍵詞:
空間電源系統(tǒng); 復(fù)雜網(wǎng)絡(luò); 深度強(qiáng)化學(xué)習(xí); 可靠性優(yōu)化; 可解釋性分析
中圖分類號:
V 423
文獻(xiàn)標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.09.18
Spacecraft power-signal composite network optimization algorithm based on DRL
ZHANG Tingyu1,2, ZENG Ying1,2,*, LI Nan3, HUANG Hongzhong1,2
(1. School of Mechanical and Electrical Engineering, University of Electronic Science and Technology of China,
Chengdu 611731, China; 2. Center for System Reliability and Safety, University of Electronic Science and
Technology of China, Chengdu 611731, China; 3. The 3rd Research Institute of China Electronics
Technology Group Corporation, Beijing 100016, China)
Abstract:
To maximize the utilization of limited energy and achieve flexible and efficient grid connection for spacecraft power supply systems, a composite grid topology optimization model for power transmission and signal communication is proposed based on deep reinforcement learning (DRL). Various interpretable component models are employed based on knowledge distillation principles to analyze the optimization mechanism. Firstly, the transformation law of the control domain of the spacecraft bus voltage regulation in the on-orbit operation stage is analyzed, and the composite network topology model of power transmission and signal communication is established by combining the node propagation parameters. Secondly, asynchronous advantage actor-critic (A3C) is utilized to adaptively optimize potential operational reliability risks in routing distribution and topology of the electrical signal transmission network. Finally, various interpretable components are used to perform knowledge distillation on the trained DRL model, forming an interpretable quantitative analysis method. The proposed method theoretically predicts optimal grid-connected processes of space power supply under random shadow effects, providing theoretical support and reference for designing space power supply controllers under higher task requirements and complex environments.
Keywords:
space power system; complex network theory; deep reinforcement learning (DRL); reliability optimization; interpretable analysis
0 引 言
隨著航天技術(shù)的快速發(fā)展,航天器空間作業(yè)動(dòng)作需求不斷增長,推動(dòng)了空間對接、空間碎片清理、目標(biāo)跟蹤捕獲等新型技術(shù)的發(fā)展[1]。航天器發(fā)射系統(tǒng)等復(fù)雜航天系統(tǒng)的多階段任務(wù)愈發(fā)常見[2],涉及到的空間電源系統(tǒng)也愈加龐大[3-7],航天器設(shè)計(jì)并網(wǎng)與功率控制的方案也隨之不斷地更新[8-11]。在不同拓?fù)渚W(wǎng)絡(luò)設(shè)計(jì)下,電源控制器 (power control unit, PCU) 的各個(gè)組成部件穩(wěn)定裕度、動(dòng)態(tài)特性、輸出阻抗等關(guān)鍵指標(biāo)存在差異??刂破鞒艘WC負(fù)載供電并以額定電流為蓄電池充電外,還需要支持蓄電池與太陽能電池聯(lián)合供電、蓄電池單獨(dú)供電等任務(wù)模式。
如今,較為成熟的電力系統(tǒng)路由路徑分配方法主要包括可用性路由[12](availability-aware routing, AAR)法、刪除-搜索(remove-find, RF)雙路由[13]算法以及共享風(fēng)險(xiǎn)鏈路組[14](shared risk link groups, SRLG) 法。其在功率-信號傳輸網(wǎng)層面實(shí)現(xiàn)了與智能電網(wǎng)調(diào)度操作的有機(jī)融合[15-16],這使得供電網(wǎng)絡(luò)實(shí)時(shí)調(diào)度控制的能力得到了極大的增強(qiáng)。Chen等[17]結(jié)合自動(dòng)控制策略和操作員恢復(fù)動(dòng)作,對有多種級聯(lián)故障行為的混合系統(tǒng)進(jìn)行可靠性分析。Liu等[18]提出一種基于復(fù)雜網(wǎng)絡(luò)的混合識別方法,用于識別復(fù)合能量網(wǎng)絡(luò)中的脆弱組件。
然而,以上方法多適用于地上電力通信系統(tǒng),此類系統(tǒng)具備眾多備用線路,故障時(shí)需要專業(yè)人員調(diào)參改線。相比之下,對于航天器電源控制系統(tǒng)這種產(chǎn)量少、更新周期快的產(chǎn)品,研發(fā)人員迫切需要一種能解釋當(dāng)前模型性能不佳的原因的算法,以此來指導(dǎo)下一代算法的設(shè)計(jì)工作。特別是在空間運(yùn)行條件下,發(fā)電、蓄電系統(tǒng)性能變化規(guī)律更復(fù)雜且人為參與條件更有限。因此,保證空間電源系統(tǒng)高效率、高可靠運(yùn)行的核心思路,是實(shí)現(xiàn)一種以可解釋理論為基礎(chǔ),能根據(jù)當(dāng)前工作狀態(tài)迅捷地對并網(wǎng)供電系統(tǒng)做出自適應(yīng)調(diào)整的算法。
強(qiáng)化學(xué)習(xí) (reinforcement learning, RL) 是機(jī)器學(xué)習(xí) (machine learning, ML) 方法的一個(gè)分支,其本質(zhì)是智能體觀測環(huán)境后與之交互,通過反饋信息優(yōu)化決策策略。而另一分支深度學(xué)習(xí) (deep learning, DL) 在語言處理、計(jì)算機(jī)視覺、醫(yī)學(xué)應(yīng)用等方面,廣泛使用多分類器(神經(jīng)網(wǎng)絡(luò))和激活函數(shù)[19-20]來解決傳統(tǒng)強(qiáng)化學(xué)習(xí)算法無法處理大型連續(xù)動(dòng)作狀態(tài)空間的問題。Riedmiller等[21]首先提出使用多層感知器來近似表示Q值函數(shù),并引入了神經(jīng)擬合Q迭代算法。Lange等[22]結(jié)合DL模型與RL方法,提出一種深度自動(dòng)編碼器模型。孟泠宇等[23]改進(jìn)深度確定性策略梯度算法,并設(shè)計(jì)基于網(wǎng)絡(luò)流量狀態(tài)的路由分配優(yōu)化方法。深度RL結(jié)合了DL和RL的優(yōu)勢,可以為復(fù)雜系統(tǒng)的感知和決策問題提供解決方案,而在利用A3C (asynchronous advantage actor-critic) 算法后更是可以通過異步交互學(xué)習(xí)更新全局的最優(yōu)策略函數(shù)[24]。其中,模型的可解釋性是指:在黑箱模型在應(yīng)用過程中,可以提供為人們所能理解的術(shù)語或解釋[25-26]的能力。眾多學(xué)者根據(jù)建模過程中解釋所實(shí)現(xiàn)的不同階段,將DL可解釋性的研究方法劃分為利于可解釋模型轉(zhuǎn)換的事后解釋方法、基于注意力權(quán)重的事中解釋方法以及建模規(guī)則主導(dǎo)的事前解釋方法[27-30]。
在現(xiàn)有研究方法的基礎(chǔ)上,本文以某型空間站電源系統(tǒng)為研究對象,提出一種自適應(yīng)的功率-信號復(fù)合網(wǎng)絡(luò)控制策略優(yōu)化算法,以提升空間電源控制器網(wǎng)絡(luò)在功率傳輸與控制信號交互下的可靠性。同時(shí),利用知識蒸餾算法將復(fù)雜DL模型的知識用于指導(dǎo)可解釋DL模型的訓(xùn)練,在保持預(yù)測性能的同時(shí),大幅減少參數(shù)數(shù)量并確定關(guān)鍵功能,從而提高模型的可解釋性。
1 功率-信號復(fù)合網(wǎng)絡(luò)拓?fù)浣?/p>
1.1 空間電源系統(tǒng)工作原理
新一代100V高壓電源空間站電源系統(tǒng)是國內(nèi)目前功率最大、壽命最長的復(fù)雜系統(tǒng),該系統(tǒng)突破了大面積柔性太陽翼及其控制、雙自由度對日定向、多飛行器并網(wǎng)、低軌空間環(huán)境防護(hù)、在軌維修與更換等技術(shù)瓶頸。該系統(tǒng)采用多母線、多機(jī)組和多艙段并網(wǎng)的總體方案,于在軌組合體狀態(tài)下,通過并網(wǎng)控制器進(jìn)行功率調(diào)配,以滿足在軌期間各種工況下的安全可靠供電[31],具體結(jié)構(gòu)如圖1所示。為實(shí)現(xiàn)較高的母線電壓,空間電源發(fā)電端的太陽電池陣通常采用多個(gè)電池片串聯(lián)。受遮擋的太陽電池片不僅無法正常發(fā)電,還會(huì)受到熱效應(yīng)的影響。串聯(lián)電池組中一片電池被完全遮擋后將失去光伏特性,但其他工作電池的電流仍流過它。此時(shí),受遮擋的電池本身不僅無法產(chǎn)生電壓與輸出功率,還會(huì)退化為一個(gè)產(chǎn)生I2R的熱耗的負(fù)載,在這種情況下,需要電池組產(chǎn)生更高的電壓來補(bǔ)償電池受遮擋所造成的電壓損失[32]。當(dāng)陰影在太陽電池表面移動(dòng)時(shí),PCU必須伺機(jī)服務(wù),及時(shí)切斷或連接對應(yīng)電源模塊組,以保證能量利用率最大化。通常情況下,航天器系統(tǒng)發(fā)電功率表達(dá)式如下:
P=A·S·η1(1-k)·z·Fm·Fd·Fs·
cos θ·q[1-(T-298)Kpt](1)
式中:A為太陽電池陣面積;S為太陽常數(shù);η1為太陽電池平均轉(zhuǎn)換效率;Fm為帆板布片系數(shù);Fd為壽命末期衰減因子;Fs為組合失配因子;T為光照區(qū)太陽電池片的平均工作溫度;Kpt為太陽電池的功率溫度系數(shù);k為太陽電池陣遮擋率;z為由于太陽電池陣遮擋對發(fā)電功率影響綜合效應(yīng)因子;θ為太陽入射角;q為凱利余弦值。
式(1)沒有考慮到陰影在太陽電池表面移動(dòng)的情形,其所指導(dǎo)的并網(wǎng)設(shè)計(jì)方案通常只適應(yīng)規(guī)律性陰影效應(yīng),而不能對隨機(jī)陰影產(chǎn)生自適應(yīng)策略。航天器進(jìn)入陰影軌道期后,當(dāng)太陽電池陣產(chǎn)生的功率不滿足總系統(tǒng)需求時(shí),電源控制器就會(huì)調(diào)節(jié)太陽能電池母線電壓。目前,太陽能電池電源控制設(shè)備通常由主誤差放大器 (main error amplifier, MEA) 及其相應(yīng)的遙測/遙控單元、分流調(diào)節(jié)器、充電控制器以及放電控制器組成。
MEA調(diào)節(jié)控制流程如圖2所示。當(dāng)處于AB段時(shí),主誤差放大器中的參考電壓信號Vmea較小時(shí),該區(qū)間太陽能產(chǎn)生的電量不足以為整個(gè)航天器提供能量,由蓄電池供電。隨著光照期的到來,Vmea逐步加大,開始進(jìn)入BC段,太陽能產(chǎn)生的電量恰好滿足負(fù)載需要求,需要電源控制器保持當(dāng)前狀態(tài)穩(wěn)定運(yùn)行。在CD段,光照增強(qiáng),使得太陽能產(chǎn)生的電量有余量,可供給至負(fù)載并為蓄電池充電。在DE段,太陽能產(chǎn)生的電量全部用于負(fù)載以及恒流充電。當(dāng)達(dá)到EF段時(shí),太陽能產(chǎn)生的電量過剩,多余的電量通過分流模塊進(jìn)行多級分流以提升蓄電池的執(zhí)行時(shí)間。無論對于供電端還是受電端飛行器,都會(huì)優(yōu)先使用自身電源系統(tǒng)的電能。在滿足供電端和受電端飛行器能量平衡的基礎(chǔ)上,其并網(wǎng)功率盡可能降低以減少能量的損失,實(shí)現(xiàn)根據(jù)系統(tǒng)需求和狀態(tài)變化的自適應(yīng)調(diào)節(jié),使整個(gè)系統(tǒng)可靠且高效地工作。
太陽電池組母線并網(wǎng)結(jié)構(gòu)如圖3所示,
MEA通過比較反饋電壓Vrefl與太陽電池輸出電壓Vs3r來決定充放電調(diào)節(jié)器開關(guān)管D與T的關(guān)斷狀態(tài),從而實(shí)現(xiàn)并網(wǎng)供電系統(tǒng)在復(fù)雜環(huán)境下穩(wěn)定運(yùn)行。
通過對基本拓?fù)涞哪K化組合可實(shí)現(xiàn)并網(wǎng)供電系統(tǒng)規(guī)模的靈活升級,滿足更復(fù)雜的應(yīng)用場景。不同調(diào)節(jié)策略需要對控制器復(fù)雜成本與母線電壓波動(dòng)之間做出取舍選擇,因此在電源控制系統(tǒng)設(shè)計(jì)之初,通過DL算法探尋多種并網(wǎng)操作的最優(yōu)路徑可以有效幫助地上實(shí)驗(yàn)環(huán)節(jié)建立模擬環(huán)境,指導(dǎo)整體并網(wǎng)系統(tǒng)設(shè)計(jì)。
通用航天器并網(wǎng)供電系統(tǒng)工作流程如圖4所示。通過對各飛行器在當(dāng)前的飛行模式下發(fā)電和用電情況進(jìn)行分析,可以生成當(dāng)前飛行模式的負(fù)載優(yōu)先級列表,并開展實(shí)時(shí)能量平衡分析。一旦出現(xiàn)功率缺口或裕量,中心控制器則會(huì)根據(jù)功率的變化量確定并網(wǎng)路徑,同時(shí)設(shè)置并網(wǎng)參數(shù)。
1.2 復(fù)合傳輸網(wǎng)絡(luò)建模
本文依據(jù)空間電源并網(wǎng)供電流程,對航天飛行器并網(wǎng)供電模式中雙向一對多、多對一、多對多、雙向供電等拓?fù)浣Y(jié)構(gòu),建立功率傳輸與信號傳輸復(fù)合網(wǎng)絡(luò)拓?fù)淠P汀?/p>
將并網(wǎng)控制器、PCU等關(guān)鍵部件定義為電力-信號網(wǎng)絡(luò)結(jié)構(gòu)中的節(jié)點(diǎn),其中功率傳輸拓?fù)錇镚E(VE,EE),信號網(wǎng)絡(luò)拓?fù)錇镚C(VC,EC)。根據(jù)節(jié)點(diǎn)所屬拓?fù)洳煌?,分別定義VE和VC為功率傳輸網(wǎng)絡(luò)節(jié)點(diǎn)與信號傳輸網(wǎng)絡(luò)節(jié)點(diǎn)集合、NE和NC為功率傳輸網(wǎng)絡(luò)與信號傳輸網(wǎng)絡(luò)的總結(jié)點(diǎn)數(shù)、EE與EC分別為功率傳輸網(wǎng)絡(luò)鏈路與信號傳輸網(wǎng)絡(luò)鏈路的復(fù)雜網(wǎng)絡(luò)邊集,具體定義如下:
定義狀態(tài)空間S是信號傳輸網(wǎng)中所有可能數(shù)據(jù)流負(fù)載分布狀態(tài)及其對應(yīng)時(shí)刻待服務(wù)信號傳輸任務(wù)數(shù)據(jù)流可采取的路由路徑集合。在某一時(shí)刻t,電源控制系統(tǒng)需要在網(wǎng)絡(luò)中建立一條新的通信數(shù)據(jù)流reqt(vE,s,vE,d,H),狀態(tài)st∈S(見式(6)),其中{Uwk,Ubk,j}為當(dāng)前網(wǎng)絡(luò)下的備選路由分配方案(見式(7)~式(8))。lk與lk,j表示工作及切換路由所經(jīng)鏈路的最大負(fù)載。hk與hk,j為工作路由和保護(hù)路由經(jīng)過的節(jié)點(diǎn)數(shù)。H分為HmaxE,k,HmaxC,k,分別表示工作及切換路由所經(jīng)通信節(jié)點(diǎn)所跨層復(fù)合的功率傳輸節(jié)點(diǎn)最大傳播性參數(shù)。文獻(xiàn)[33] 利用分層后的邊介數(shù)重要度,進(jìn)一步提出不同層級條件下的傳播性參數(shù)概念,以定量評價(jià)各個(gè)節(jié)點(diǎn)對任一傳播屬性的參與情況,如式(9)所示,L(e→X)與L(eX→)分別是節(jié)點(diǎn)出入度邊介數(shù),I、O分別是該節(jié)點(diǎn)出入度與網(wǎng)絡(luò)總度的比值,n為節(jié)點(diǎn)所在層數(shù),η=[η1,η2,…,ηi]中各個(gè)元素表示每層節(jié)點(diǎn)數(shù)量的收縮擴(kuò)張情況。
2 復(fù)合網(wǎng)絡(luò)可靠性優(yōu)化算法
2.1 MDP建模
本文中工作路由及切換路由決策的動(dòng)作空間A被定義為包含共NJ·NK個(gè)路由決策動(dòng)作的一維向量,at,k,j∈A(t)為當(dāng)前申請reqt分配第k條備選工作路由與第j條備選切換路由。Pass′=P(st+1=s′|st=s,at=a)表示電力信號網(wǎng)絡(luò)在所處環(huán)境狀態(tài)s∈S下,轉(zhuǎn)移到下一狀態(tài)的概率。在st∈S下進(jìn)行一次路由選取動(dòng)作at成功后對決策進(jìn)行的獎(jiǎng)勵(lì)。
獎(jiǎng)勵(lì)函數(shù)R(st,at)用于評估智能體在不同環(huán)境狀態(tài)下所采取的動(dòng)作的有效性,定義為
R(st,at)=1-HE,DL(at)ηHmax·exp-V HmaxE,DL(at)HmaxE,DL(GC)-h(huán)Diam(GC)(10)
式中:HmaxE,DL(at)表示通信節(jié)點(diǎn)在當(dāng)前數(shù)據(jù)流路由建立的最大關(guān)鍵度水平;HmaxE,DL(GC)表示信號傳輸網(wǎng)中節(jié)點(diǎn)在路由建立后的最大關(guān)鍵度;h表示當(dāng)前選擇路由的總數(shù);Diam(GC)為信號網(wǎng)絡(luò)的網(wǎng)絡(luò)直徑;V,η為網(wǎng)絡(luò)容量系數(shù)與路由決策調(diào)節(jié)參數(shù),均大于0。信號傳輸任務(wù)自適應(yīng)保護(hù)路由問題的全局優(yōu)化目標(biāo)定義為
max∑|R|-ti=0∑Nkk=1∑NJj=1ut+i,k,j·R(at+i,j,k)(11)
式中:ut+i,k,j為布爾值,表示對數(shù)據(jù)流建立請求,即是否采用第k條備選工作路由以及對應(yīng)的第j條切換路由;R(at+i,j,k)表示對于所建立的數(shù)據(jù)流請求,所采取路由決策合理性的評估函數(shù)。
在對各信號傳輸數(shù)據(jù)流建立服務(wù)請求的同時(shí),繼續(xù)尋求后續(xù)網(wǎng)絡(luò)狀態(tài)下信號傳輸網(wǎng)在負(fù)載以及風(fēng)險(xiǎn)均衡需求上長期最優(yōu)的路由方案。
進(jìn)一步地,通過混合整數(shù)線性規(guī)劃可描述信號傳輸任務(wù)自適應(yīng)切換路由問題,該混合整數(shù)線性規(guī)劃優(yōu)化問題的限制條件為
∑|R|-ti=0∑Nkk=1∑NJj=1xt+i,k,j·ylmt+i,k,j·bwt+i≤Cc,lm,
(vE,l,vE,m)∈EE(12)
∑|R|-ti=0∑Nkk=1∑NJj=1xt+i,k,j·ylmt+i,k,j≤1,(vE,l,vE,m)∈EE(13)
∑Nkk=1∑NJj=1xt+i,k,j=1(14)
通過式(12),可以保證在任意通信線路上所有建立路由信息之和不超過其線路容量,其中ylmt+i,k,j表示信號傳輸鏈路(vE,l,vE,m)∈EE被第k條備選工作路由以及與其相對應(yīng)的第j條切換路由所采用的次數(shù)。通過式(13),可以保證對于給定數(shù)據(jù)流建立請求reqt+i∈R,其工作路由與切換路由所用鏈路不重合;通過式(14),可以保證對于給定數(shù)據(jù)流建立請求reqt+i∈R,有且僅有一個(gè)備選雙路由方案被采用以服務(wù)該請求。
2.2 基于A3C框架的路由算法訓(xùn)練優(yōu)化實(shí)現(xiàn)
為了實(shí)現(xiàn)算法結(jié)果的可解釋性以及更好的收斂屬性,本文將通過A3C算法提升神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率。對于系統(tǒng)需要在網(wǎng)絡(luò)中建立的新功率傳輸線路reqt(vE,s,vE,d,bw,H),將每一步的信號交流過程逐一記錄并提取功率傳輸網(wǎng)絡(luò)特征,為后續(xù)算法生成狀態(tài)向量st。通過調(diào)用策略神經(jīng)網(wǎng)絡(luò)fθπ評估網(wǎng)絡(luò)狀態(tài),并在隨機(jī)路由策略π(a|st;θπ)中選擇一個(gè)路由動(dòng)作a∈A(t)執(zhí)行。依據(jù)反饋結(jié)果,對其進(jìn)行獎(jiǎng)勵(lì)并將結(jié)果回傳算法智能體。子線程根據(jù)當(dāng)前數(shù)據(jù)流建立請求以及當(dāng)前虛擬信號傳輸網(wǎng)絡(luò),得到當(dāng)前狀態(tài)向量st,并調(diào)用本地策略神經(jīng)網(wǎng)絡(luò)及價(jià)值神經(jīng)網(wǎng)絡(luò),生成對應(yīng)的隨機(jī)路由策略π(a|st;θπ)以及對于當(dāng)前狀態(tài)st的價(jià)值估計(jì)υ(·)。對于每一時(shí)刻下的路由功率傳輸數(shù)據(jù),式(15)為路由算法通過學(xué)習(xí)最優(yōu)路由策略實(shí)現(xiàn)的長期累積折扣獎(jiǎng)勵(lì):
Gt=∑∞i=0ξi·π(a|st+i)·R(st+1,a)(15)
式中:ξ∈[0,1]為折扣因子,用于調(diào)節(jié)智能體對當(dāng)前獎(jiǎng)勵(lì)與遠(yuǎn)期獎(jiǎng)勵(lì)的關(guān)注比例。
G′i=∑N-ij=0ξj·ri+j(16)
Ad(si,ai)=G′i-υ(·)(17)
通過式(16)可以對其所處狀態(tài)下長期累積折扣回報(bào)進(jìn)行估計(jì),G′i為每個(gè)章節(jié)的折扣回報(bào)。路由動(dòng)作相比價(jià)值神經(jīng)網(wǎng)絡(luò)的估計(jì)結(jié)果所顯示出的相對優(yōu)勢Ad(si,ai)可由式(17)計(jì)算得到。
基于A3C架構(gòu)的功率傳輸路由算法流程及其子線程分別如算法1和算法2所示。
2.3 算法收斂性分析
本文所提算法章節(jié)累計(jì)回報(bào)隨訓(xùn)練迭代的變化情況如圖5(a)所示。其中,章節(jié)累計(jì)回報(bào)主要反映路由策略是否與所設(shè)定的路由優(yōu)化目標(biāo)相一致??梢杂^察到,所提出算法僅需約200個(gè)訓(xùn)練章節(jié)即可完成收斂,并在所設(shè)置的獎(jiǎng)勵(lì)函數(shù)下,獲得更為合理的電力通信任務(wù)路由策略。此外,算法在第50~100個(gè)訓(xùn)練章節(jié)開始顯著收斂,這與圖5(b)中顯示的價(jià)值估計(jì)損失迭代趨勢相吻合,反映出在各個(gè)時(shí)刻,算法均對電力通信網(wǎng)絡(luò)負(fù)載狀態(tài)下后續(xù)任務(wù)路由風(fēng)險(xiǎn)均衡水平有較高的估計(jì)精度。算法的策略損失和策略熵的收斂過程如圖5(c)和圖5(d)所示,可以看出,在線訓(xùn)練迭代過程中,策略損失和策略熵大小均顯著收斂至0附近,這表明算法能識別并執(zhí)行最符合長期路由優(yōu)化目標(biāo)的路徑,并且能夠明確區(qū)分不同路徑動(dòng)作之間優(yōu)劣差異。
2.4 可靠性優(yōu)化效果分析
本文以圖1中3單元模型為基礎(chǔ),依次追加實(shí)驗(yàn)艙直到建立10個(gè)規(guī)模不同的網(wǎng)絡(luò)模型,并于每次增艙時(shí)隨機(jī)對全網(wǎng)絡(luò)注入一個(gè)節(jié)點(diǎn)故障,以模擬不同任務(wù)下功率-信號網(wǎng)絡(luò)實(shí)際拓?fù)浞植记闆r。經(jīng)50次計(jì)算取均值后,各規(guī)模功率通信網(wǎng)絡(luò)的保護(hù)效果如圖6所示,當(dāng)網(wǎng)絡(luò)規(guī)模隨任務(wù)復(fù)雜度增加而不斷擴(kuò)大時(shí),所提算法得到的最優(yōu)路徑考慮方案仍可以保證對傳輸路徑故障比例的有效控制。
通過執(zhí)行基于不同關(guān)鍵度評估方法的去保護(hù)策略,可以得到功率-信號網(wǎng)在級聯(lián)故障后的網(wǎng)絡(luò)直徑,如圖7所示,該圖反映了故障對網(wǎng)絡(luò)緊密程度的影響。由于AAR算法是根據(jù)可用概率對系統(tǒng)進(jìn)行保護(hù),當(dāng)節(jié)點(diǎn)和鏈路的功率或通信存在一定風(fēng)險(xiǎn)時(shí),都會(huì)被視為失效。因此,在系統(tǒng)規(guī)模與拓?fù)浣Y(jié)構(gòu)變化時(shí),結(jié)果波動(dòng)較大。RF算法在執(zhí)行過程中按順序?yàn)楣ぷ髀酚珊捅Wo(hù)路由分配做決策,并且無法獲得整體最優(yōu)的路由分配結(jié)果。SRLG算法通過引入Bhandari算法能夠有效克服上述不足,并且在整體上具有最短的傳輸路徑長度,會(huì)在整體鏈路資源使用率方面性能突出。所提算法雖在工作路由及保護(hù)路由分配上具有良好的公平性,但由于在獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)中額外考慮了路由所經(jīng)節(jié)點(diǎn)的傳播度,因此整體上會(huì)在平均路由長度方面相較于其他算法稍顯不足。
如圖8所示,在4種算法中,SRLG算法在優(yōu)化網(wǎng)絡(luò)可靠性方面的能力相對較弱。這主要是因?yàn)镾RLG算法傾向于選擇工作與保護(hù)路由長度之和最短的路由決策,導(dǎo)致通信任務(wù)數(shù)據(jù)流在網(wǎng)絡(luò)中的路由分布過度集中,容易引發(fā)更大規(guī)模的衍生故障。RF算法在低電力傳輸網(wǎng)容量水平下略優(yōu)于SRLG,然而其先后對工作和保護(hù)路由進(jìn)行決策導(dǎo)致通信數(shù)據(jù)流的平均路由長度較長且鏈路信息利用率較低,并因此在后期選擇上有限制,從而使負(fù)載集中度較高且無法有效回避高風(fēng)險(xiǎn)度跨層復(fù)合節(jié)點(diǎn)。而本文方法在容量系數(shù)逐漸增大時(shí),能穩(wěn)定保持較高的連通片占比。
以上結(jié)果表明,本文所提算法通過主動(dòng)避開高風(fēng)險(xiǎn)度節(jié)點(diǎn),實(shí)現(xiàn)了網(wǎng)絡(luò)可靠性的提升,盡管平均路由長度較長,但相比于其他方法,仍提高了10%的網(wǎng)絡(luò)直徑,且相比于負(fù)載均衡的最短可用路由算法,額外主動(dòng)避讓了12%的電力傳輸線路故障;在通信廣度方面,相比其他路由算法,能額外保留至多17%的最大連通片占比。
3 優(yōu)化效果可解釋性研究
為了明確在模型優(yōu)化的過程中,哪些環(huán)節(jié)對于整個(gè)并網(wǎng)優(yōu)化的影響較大,本文利用可解釋性模型來替代DL黑箱模型,將復(fù)雜深度模型的性能遷移到可解釋模型中,從而使建立的可解釋DL模型具有直觀的理解方式,更能夠保證預(yù)測結(jié)果的可信性。本文以門控遞歸單元(gate recurrent unit, GRU)作為遞歸層組件,并定義周期遞歸層(recurrent-skipcomponent, RS)組件,時(shí)間注意層(temporal attentionlayer, TA)組件,自回歸(auto-regressive, AR)組件。與文獻(xiàn)[34] 類似,利用GRU實(shí)現(xiàn)時(shí)間序列依賴關(guān)系的控制,遞歸分量隱藏狀態(tài)如下所示:
知識蒸餾 (knowledge distillation, KD) 作為一種教師-學(xué)生的訓(xùn)練模式[35-36],可以在保證性能的前提下減少模型的參數(shù)量,將已經(jīng)訓(xùn)練好的復(fù)雜DL模型所包含的知識,由結(jié)構(gòu)更為復(fù)雜的教師模型對多數(shù)量、結(jié)構(gòu)簡單的學(xué)生模型進(jìn)行訓(xùn)練,傳輸自己的泛化能力與預(yù)測能力,將知識內(nèi)容蒸餾提取到另一個(gè)簡單模型中實(shí)現(xiàn)。可解釋DL知識蒸餾訓(xùn)練的具體流程如算法3所示。測試的可解釋模型組合共計(jì)5個(gè),分別為由3個(gè)組件構(gòu)成的RS-TA-AR模型、GRU-TA-AT模型、GRU-RS-AR模型、GRU-RS-TA模型以及完整包含4個(gè)組件的GRU-RS-TA-AR模型。各模型組合分別與教師模型進(jìn)行知識蒸餾,遷移學(xué)習(xí)教師模型的預(yù)測性能,發(fā)掘不同實(shí)際信號傳輸網(wǎng)絡(luò)環(huán)境中路由決策之間的相似性,并應(yīng)用相似環(huán)境下的算法來進(jìn)一步優(yōu)化后續(xù)部署效率,獲得對模型關(guān)鍵狀態(tài)轉(zhuǎn)移的解釋。
進(jìn)一步地,對于輸入變量量化分析的誤差計(jì)算,可以采用均方根誤差 (root mean squared error, RMSE) 作為評價(jià)指標(biāo),來衡量預(yù)測結(jié)果準(zhǔn)確性,其計(jì)算公式為
Q=|Vt-V′t|Vt(26)
式中:Q表示改變某一變量對預(yù)測結(jié)果目標(biāo)值的影響程度,為無量綱值;Vt表示模型預(yù)測結(jié)果計(jì)算的RMSE值,即模型預(yù)測結(jié)果目標(biāo)值;V′t表示改變某一變量后模型預(yù)測的均方根誤差值。以GRU-RS-TA-AR模型為例,將獎(jiǎng)勵(lì)閾值γ設(shè)為0.6,對顯著獎(jiǎng)勵(lì)或懲罰涉及的節(jié)點(diǎn)與其對應(yīng)長期累計(jì)獎(jiǎng)勵(lì)進(jìn)行統(tǒng)計(jì)。如表1所示,節(jié)點(diǎn)組合{vE,33,vE,47,vE,48,vE,79}與{vE,29,vE,35}接連兩次出現(xiàn)高額獎(jiǎng)懲,且間隔較短,對此需要在剩余模型組合中檢索與該節(jié)點(diǎn)組合相關(guān)的長期折扣獎(jiǎng)勵(lì),并通過式(26)進(jìn)行長期折扣獎(jiǎng)勵(lì)影響程度預(yù)算計(jì)算。以{vE,29,vE,35}為例,在4個(gè)學(xué)生模型上去除此節(jié)點(diǎn)組,對應(yīng)長期折扣獎(jiǎng)勵(lì)影響程度結(jié)果如圖9所示。
4 結(jié) 論
本文針對航天器電源系統(tǒng)在并網(wǎng)過程中面臨的機(jī)動(dòng)性和靈活性不足的問題,提出一種基于深度強(qiáng)化學(xué)習(xí)的功率-信號復(fù)合網(wǎng)絡(luò)優(yōu)化算法。通過綜合考慮功率傳輸和信號通信的并行特點(diǎn),并基于節(jié)點(diǎn)的層次化傳播性能參數(shù),構(gòu)建了功率-信號復(fù)合拓?fù)渚W(wǎng)絡(luò)模型。通過在線訓(xùn)練,算法能夠?qū)r(shí)變信號傳輸網(wǎng)狀態(tài)進(jìn)行實(shí)時(shí)優(yōu)化和自適應(yīng)調(diào)整?;诳山忉屇P徒M件和知識蒸餾算法,對模型功能和輸入變量進(jìn)行了量化分析,提煉出關(guān)鍵決策依據(jù)從而保證了DL模型的可解釋性。仿真結(jié)果表明,相比于3種常用方法,所提算法在主動(dòng)避開高風(fēng)險(xiǎn)度節(jié)點(diǎn)過程中提高了10%的網(wǎng)絡(luò)直徑,主動(dòng)避讓了12%的電力傳輸線路故障;在通信廣度上額外保留了17%的最大連通片占比。通過分析轉(zhuǎn)移獎(jiǎng)勵(lì)變化,總結(jié)輸入變量在不同模型功能下對預(yù)測結(jié)果的影響,直觀地反應(yīng)了模型預(yù)測過程中決策依據(jù)的量化分析過程。
參考文獻(xiàn)
[1] 王文龍, 楊建中. 航天器對接與捕獲技術(shù)綜述[J]. 機(jī)械工程學(xué)報(bào), 2021, 57(20): 215-231.
WANG W L, YANG J Z. Spacecraft docking amp; capture technology: review[J]. Journal of Mechanical Engineering, 2021, 57(20): 215-231.
[2] 李孝鵬, 黃洪鐘, 李福秋. 基于PRA的復(fù)雜航天多階段任務(wù)系統(tǒng)可靠性分析[J]. 系統(tǒng)工程與電子技術(shù), 2019, 41(9): 2141-2147.
LI X P, HUANG H Z, LI F Q. PRA based reliability analysis of complex space phased-mission system[J]. Systems Engineering and Electronics, 2019, 41(9): 2141-2147.
[3] JASEM K, MOHSEN H, KEYHAN S. Modeling and control of quasi Z-source inverters for parallel operation of battery energy storage systems: application to micro grids[J]. Electric Power Systems Research, 2015, 125: 164-173.
[4] RYAN M, KENNETH A. The use of software agents for autonomous control of a DC space power system[C]∥Proc.of the 12th International Energy Conversion Engineering Conference, 2014.
[5] OKAYA S. Advanced concept of the space electric power system integrated with the propulsion[C]∥Proc.of the 13th International Energy Conversion Engineering Conference, 2015.
[6] RICHARD C, BRENT G. Modular power standard for space explorations missions[C]∥Proc.of the AIAA Space Conferences and Exposition, 2016.
[7] 何雄, 陳永剛, 王力. 適用于分布式宇航電源系統(tǒng)的電源控制器研究[J]. 電源學(xué)報(bào), 2022, 20(5): 5-13.
HE X, CHEN Y G, WANG L. Research on power conditioning unit for distributed aerospace power supply system[J]. Journal of Power Supply, 2022, 20(5): 5-13.
[8] 鐘丹華, 唐筱, 舒斌, 等. 載人飛船電源系統(tǒng)并網(wǎng)供電特性研究[J]. 航天器工程, 2020, 29(1): 29-33.
ZHONG D H, TANG X, SHU B, et al. Characteristic of parallel power supply technology for manned spacecraft power system[J]. Spacecraft Engineering, 2020, 29(1): 29-33.
[9] 周新順, 王蓓蓓, 郭曉峰. 航天器大功率并網(wǎng)控制技術(shù)研究[J]. 中國空間科學(xué)技術(shù), 2018, 38(6): 59-66.
ZHOU X S, WANG B B, GUO X F. Research on high power bus interconnection control technology for spacecraft[J]. Chinese Space Science and Technology, 2018, 38(6): 59-66.
[10] 蔣冀, 王宏佳, 徐志偉. 一種航天器直流供電并網(wǎng)系統(tǒng)控制方法[J]. 電源技術(shù), 2018, 42(9): 1383-1386.
JIANG J, WANG H J, XU Z W. A kind of control methods of spacecraft DC grid-connected power supply system[J]. Chinese Journal of Power Sources, 2018, 42(9): 1383-1386.
[11] 張大鵬, 孟憲會(huì). 一種航天器間并網(wǎng)供電方案的研究[J]. 航天器工程, 2009, 18(5): 101-107.
ZHANG D P, MENG X H. Research on parallel operation between power support systems of different spacecrafts[J]. Spacecraft Engineering, 2009, 18(5): 101-107.
[12] SALAMEH H, KHASAWNEH H. Spectrum-time availability-aware routing mechanism for software-defined networks with out-of-band full-duplex capabilities[C]∥Proc.of the 17th International Conference on Software Defined Systems, 2020: 24-28.
[13] SUURBALLE J. Disjoint paths in a network[J]. Networks, 1974, 4(2): 125-145.
[14] VASS B, TAPOLCAI J, BERCZI-KOVACS E. Enumerating maximal shared risk link groups of circular disk failures hitting k nodes[J]. IEEE/ACM Trans.on Networking, 2021, 29(4): 1648-1661.
[15] YE Z Y, CHEN Z Y, NI P C. Reliability analysis and optimization algorithm of power communication network based on resource association features[C]∥Proc.of the International Wireless Communications and Mobile Computing, 2020: 116-119.
[16] ROSATO V, ISSACHAROFF L, TIRITICCO F. Modelling interdependent infrastructures using interacting dynamical mo-dels[J]. International Journal of Critical Infrastructure, 2008, 4(1/2): 63-79.
[17] CHEN Y, MILANOVIC J V. Hybrid modelling of interconnected electric power and ICT system for reliability analysis[C]∥Proc.of the IEEE Belgrade PowerTech, 2023.
[18] LIU N, HU X J, MA L. Vulnerability assessment for coupled network consisting of power grid and EV traffic network[J]. IEEE Trans.on Smart Grid, 2021, 13(1): 589-598.
[19] KAELBLING L P, LITTMAN M L, MOORE A W. Reinforcement learning: a survey[J]. Journal of Artificia Intelligence Research, 1996, 4: 237-285.
[20] PAPADIMITRIOU C H, TSITSIKLIS J N. The complexity of Markov decision processes[J]. Mathematics of Operations Research, 1987, 12(3): 441-450.
[21] RIEDMILLER M. Neural fitted Q iteration-first experiences with a data efficient neural reinforcement learning method[C]∥Proc.of the 16th European Conference on Machine Learning, 2005: 317-328.
[22] LANGE S, RIEDMILLER M. Deep auto-encoder neural networks in reinforcement learning[C]∥Proc.of the International Joint Conference on Neural Networks, 2010.
[23] 孟泠宇, 郭秉禮, 楊雯, 等. 基于深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)路由優(yōu)化方法[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(7): 2311-2318.
MENG L Y, GUO B L, YANG W, et al. Network routing optimization approach based on deep reinforcement learning[J]. Systems Engineering and Electronics, 2022, 44(7): 2311-2318.
[24] MUHATI E, RAWAT D. Asynchronous advantage actor-critic (A3C) learning for cognitive network security[C]∥Proc.of the International Conference on Trust, Privacy and Security in Intelligent Systems and Applications, 2021: 106-113.
[25] FUSEINI M, ALHASSAN M. Improving deep learning with prior knowledge and cognitive models: a survey on enhancing interpretability, adversarial robustness and zero-shot learning[J]. Cognitive Systems Research, 2023, 30: 101188.
[26] WRFEL M, HAN Q, KAISER M. Online advertising revenue forecasting: an interpretable deep learning approach[C]∥Proc.of the IEEE International Conference on Big Data, 2021: 1980-1989.
[27] ALEJANDRO B. Explainable artificial intelligence (XAI): concepts, taxonomies, opportunities and challenges toward responsible AI[J]. Information Fusion, 2020, 58: 82-115.
[28] ZHANG Z L, LI Y, YANG S. Code-aware fault localization with pre-training and interpretable machine learning[J]. Expert Systems with Applications, 2024, 238: 121689.
[29] 周志杰, 曹友, 胡昌華. 基于規(guī)則的建模方法的可解釋性及其發(fā)展[J]. 自動(dòng)化學(xué)報(bào), 2020, 47(6): 1201-1216.
ZHOU Z J, CAO Y, HU C H. The interpretability of rule-based modeling approach and its development[J]. Acta Automatica Sinica, 2020, 47(6): 1201-1216.
[30] BEVEN K. Deep learning, hydrological processes and the uniqueness[J]. Hydrological Processes, 2020, 34(16): 3608-3613.
[31] 馬季軍, 何小斌, 涂浡. 我國載人航天電源系統(tǒng)的技術(shù)發(fā)展成就及趨勢[J]. 上海航天, 2021, 38(3): 207-218.
MA J J, HE X B, TU B. Technical development achievements and trends of manned spaceflight power system in China[J]. Aerospace Shanghai, 2021, 38(3): 207-218.
[32] PATEL M R. Spacecraft power systems[M]. Florida: CRC Press, 2004.
[33] ZHANG T Y, HUANG H Z, LI Y F. Hierarchical fault propa-gation of command and control system[J]. Smart Structures and Systems, 2022, 29(6): 791-797.
[34] GAO S, HUANG Y F, ZHANG S. Short-term runoff prediction with GRU and LSTM networks without requiring time step optimization during sample generation[J]. Journal of Hydrology, 2020, 589: 125188.
[35] GARBAY T, CHUQUIMIA O, PINNA A. Distilling the knowledge in CNN for WCE screening tool[C]∥Proc.of the Conference on Design and Architectures for Signal and Image Processing, 2019: 19-22.
[36] YIM J, JOO D, BAE J. A gift from knowledge distillation: fast optimization, network minimization and transfer learning[C]∥Proc.of the Conference on Computer Vision and Pattern Recognition, 2017: 7130-7138.
作者簡介
張庭瑜(1993—),男,博士研究生,主要研究方向?yàn)殡娮悠骷煽啃苑治觥㈦娫聪到y(tǒng)可靠性優(yōu)化設(shè)計(jì)、系統(tǒng)可靠性。
曾 穎(1994—),男,博士,講師,主要研究方向?yàn)殡娮赢a(chǎn)品可靠性建模、剩余壽命預(yù)測。
李 楠(1981—),男,高級工程師,博士,主要研究方向?yàn)閳D像處理、光電設(shè)計(jì)。
黃洪鐘(1963—),男,教授,博士研究生導(dǎo)師,博士,主要研究方向?yàn)榭煽啃栽O(shè)計(jì)及智能優(yōu)化、故障預(yù)測與健康管理、人工智能與機(jī)器人技術(shù)、數(shù)字化設(shè)計(jì)與智能制造。