邊天劍,張?zhí)炀?,安世忠,關(guān)鐳鐳,黃 鵬,王 哲,冀魯豫,付 偉,周洪吉
(中國原子能科學(xué)研究院 回旋加速器研究設(shè)計(jì)中心,北京 102413)
在粒子加速器設(shè)計(jì)階段,帶電粒子的非線性行為是重要的研究內(nèi)容之一[1-6]。由于粒子加速器中高階電場、磁場分量的存在,帶電粒子的運(yùn)動軌跡將偏離理想的簡諧運(yùn)動,呈現(xiàn)復(fù)雜的非線性特征。如粒子加速器的非線性效應(yīng)會引起相空間畸變、束流包絡(luò)增長、束暈等現(xiàn)象[7-9]。目前,對帶電粒子非線性行為的研究主要有束流數(shù)值跟蹤模擬[10-11]與解析分析[12-13]兩種方法。基于加速器高階傳輸映射的非線性效應(yīng)解析分析,具有物理圖像清晰、守辛、準(zhǔn)確的優(yōu)點(diǎn),其缺點(diǎn)是適用范圍較窄,對加速器設(shè)計(jì)者的數(shù)學(xué)、物理基礎(chǔ)要求較高。帶電粒子數(shù)值跟蹤模擬基于求解運(yùn)動方程的方法,雖然不能清晰表達(dá)物理圖像,但具有使用方便、適用范圍廣的優(yōu)點(diǎn),故被廣泛采用[14-15]。
粒子加速器非線性效應(yīng)解析分析適用范圍窄主要體現(xiàn)在:很多加速器中粒子的高階傳輸映射并不容易得到。在環(huán)形加速器中不同的磁鐵之間是有明確邊界的,可通過逐個(gè)迭代每個(gè)磁鐵的高階傳輸映射近似得到,如1個(gè)六極磁鐵(二階傳輸映射,Tijk)與1個(gè)八極磁鐵(三階傳輸映射,Umijk)組合形成的高階傳輸映射由Vm=ΣijkUmijkTijk得到[16]。然而很多加速器的磁場并不是有明確邊界的,如回旋加速器中磁場谷區(qū)到峰區(qū)其是隨著角度緩慢變化的。第3代同步輻射光源中的扭擺磁鐵、固定場交變梯度(FFAG)加速器也存在相同問題。目前基于高階傳輸映射的非線性效應(yīng)解析分析對此類加速器并不適用。Deprit分解是進(jìn)行非線性效應(yīng)解析分析的重要一步,得到Deprit分解后便可計(jì)算得到相空間固定點(diǎn)、相空間邊界、共振寬度等重要信息[17]。
神經(jīng)網(wǎng)絡(luò)在加速器中有多種多樣的應(yīng)用,如故障預(yù)測、性能優(yōu)化、控制等。在加速器束流動力學(xué)方面,文獻(xiàn)[18]利用神經(jīng)網(wǎng)絡(luò)層來表達(dá)不同磁鐵元件的傳輸映射,并按照環(huán)形加速器實(shí)際磁聚焦結(jié)構(gòu)設(shè)計(jì)構(gòu)建了一種具有明確物理含義的神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[19]所提出的神經(jīng)網(wǎng)絡(luò)經(jīng)過實(shí)驗(yàn)數(shù)據(jù)訓(xùn)練后可很好地對含有各種誤差的真實(shí)加速器進(jìn)行建模,并在軌道矯正、束流光學(xué)參數(shù)矯正等方面進(jìn)行了應(yīng)用。文獻(xiàn)[19]的網(wǎng)絡(luò)可看作一種對真實(shí)加速器進(jìn)行擬合的正向傳播網(wǎng)絡(luò),該網(wǎng)絡(luò)不具備通過數(shù)據(jù)學(xué)習(xí)預(yù)測帶電粒子非線性行為的能力。文獻(xiàn)[20]提出了一種全連接神經(jīng)網(wǎng)絡(luò),并實(shí)現(xiàn)了對二極磁鐵、四極磁鐵、漂移節(jié)等線性加速器元件分類,其中所提出的全連接神經(jīng)網(wǎng)絡(luò)還可對帶電粒子的二階非線性運(yùn)動進(jìn)行預(yù)測,預(yù)測偏差的方均根約為2×10-2[21]。該網(wǎng)絡(luò)的局限性在于使用了Relu作為激活函數(shù),不具備明確物理含義,故泛化能力較差。
為了解決非線性效應(yīng)解析分析適用性窄的問題,本文提出一種新型的神經(jīng)網(wǎng)絡(luò)層,使用該神經(jīng)網(wǎng)絡(luò)層構(gòu)建的誤差反向傳播神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練后,不僅可用作帶電粒子非線性行為的預(yù)測,還可通過神經(jīng)網(wǎng)絡(luò)的權(quán)重推測帶電粒子高階傳輸映射的各階Deprit分解。本文提出的新型神經(jīng)網(wǎng)絡(luò)層具有明確的物理含義,可通過數(shù)據(jù)學(xué)習(xí)預(yù)測帶電粒子的非線性行為,并得到高階傳輸映射的各階Deprit分解,從而擴(kuò)展非線性效應(yīng)解析分析適用范圍,降低非線性效應(yīng)解析分析難度。
圖1 神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)Fig.1 Basic structure of neural network
誤差反向傳播神經(jīng)網(wǎng)絡(luò)一般由3部分組成:輸入層、1個(gè)或多個(gè)中間層、輸出層。圖1為三層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入向量x=(x1,x2)T經(jīng)過線性映射到中間層。中間層含有兩列,第1列的各值是輸入向量x的加權(quán)和,第2列為非線性函數(shù),通常稱為激活函數(shù)。神經(jīng)網(wǎng)絡(luò)最終的輸出y為中間層的加權(quán)和(也可有多個(gè)輸出)。神經(jīng)網(wǎng)絡(luò)可看作復(fù)雜的復(fù)合函數(shù),簡記為y=f(x)。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要大量的輸入-輸出數(shù)據(jù)做支撐。初始神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)是隨機(jī)的,通過分析神經(jīng)網(wǎng)絡(luò)的預(yù)測值f(x)與真實(shí)值y之間的差異(即損失函數(shù)),不斷更新神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù),最終達(dá)到良好的預(yù)測效果。
(1)
其中,η為學(xué)習(xí)率,代表了每次對神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)更新的幅度。
激活函數(shù)是一種非線性函數(shù),是神經(jīng)網(wǎng)絡(luò)中必不可少的一部分,沒有激活函數(shù)的神經(jīng)網(wǎng)絡(luò)就退化成了一系列的線性代數(shù)運(yùn)算。常用的激活函數(shù)有sigmoid函數(shù),tanh函數(shù),relu函數(shù)等。本文所提出的一種用于預(yù)測帶電粒子非線性行為的新型神經(jīng)網(wǎng)絡(luò)層也可看作一種新型的激活函數(shù)層。
本文構(gòu)造一種不僅可用作帶電粒子非線性行為的預(yù)測,還可通過神經(jīng)網(wǎng)絡(luò)的權(quán)重推測帶電粒子高階傳輸映射的各階Deprit分解的神經(jīng)網(wǎng)絡(luò)層。Deprit分解是一種將帶電粒子線性運(yùn)動與非線性效應(yīng)完全分離的分解方法,具有形式[13-14]為:
M=Re:g:
(2)
其中:M為守辛的高階傳輸映射;R為帶電粒子線性運(yùn)動,即常用的傳輸矩陣;:g:為對g與粒子坐標(biāo)進(jìn)行泊松括號運(yùn)算,所有的非線性效應(yīng)均存在于指數(shù)g中,g由帶電粒子坐標(biāo)的各個(gè)高階項(xiàng)之和構(gòu)成。
計(jì)算得到g是進(jìn)行非線性效應(yīng)解析分析的重要一步,其后可計(jì)算得到相空間固定點(diǎn)、相空間邊界、共振寬度等重要信息[17]。本文新型神經(jīng)網(wǎng)絡(luò)層的構(gòu)造模擬了李指數(shù)運(yùn)算,即:
(3)
式(3)為無限項(xiàng)之和,可根據(jù)計(jì)算精度的需求將其截?cái)嗟剿枰碾A數(shù)。將指數(shù)g中的各高階項(xiàng)系數(shù)作為神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)參數(shù),通過大量束流跟蹤數(shù)據(jù)的學(xué)習(xí),使用誤差反向傳播算法逐步逼近真實(shí)的指數(shù)g。指數(shù)運(yùn)算e:g:是一種非線性運(yùn)算,故該神經(jīng)網(wǎng)絡(luò)層也可看作一種含有待學(xué)習(xí)參數(shù)的非線性激活函數(shù)。相比其他激活函數(shù),由于本文所構(gòu)造的新型神經(jīng)網(wǎng)絡(luò)層中的各待學(xué)習(xí)參數(shù)具有明確的物理含義,故對于帶電粒子非線性行為的預(yù)測具有更好的泛化能力。
使用2.1節(jié)中所描述的新型神經(jīng)網(wǎng)絡(luò)層搭建了一種預(yù)測帶電粒子非線性行為的神經(jīng)網(wǎng)絡(luò),如圖2所示。輸入層為帶電粒子的相空間四維坐標(biāo)(x,x′,y,y′),中間層1為全連接層。全連接層的權(quán)重即為束流傳輸矩陣中的各元素。中間層2為模擬李指數(shù)運(yùn)算e:g:的新型神經(jīng)網(wǎng)絡(luò)層,它有3點(diǎn)特殊之處:1) 乘節(jié)點(diǎn)是做乘法運(yùn)算,而不是普通節(jié)點(diǎn)的加權(quán)和運(yùn)算;2) 和節(jié)點(diǎn)將乘節(jié)點(diǎn)的結(jié)果做加權(quán)和運(yùn)算,即得到指數(shù)g,其權(quán)重W1,W2,W3,…,Wm為指數(shù)g中高階項(xiàng)的系數(shù);3) 虛連接線的含義是將和節(jié)點(diǎn)與中間層1的結(jié)果做泊松括號運(yùn)算。
圖2 神經(jīng)網(wǎng)絡(luò)模型的建立Fig.2 Establishment of neural network model
(4)
為了驗(yàn)證新型神經(jīng)網(wǎng)絡(luò)層對非線性粒子運(yùn)動預(yù)測的能力,本文采用如下驗(yàn)證方案。設(shè)計(jì)了一個(gè)FODO結(jié)構(gòu),由兩塊聚焦四極磁鐵、1塊散焦四極磁鐵、1塊六極磁鐵、2個(gè)漂移節(jié)組成。六極磁鐵緊鄰第1塊聚焦四極磁鐵,帶電粒子的非線性運(yùn)動均由六極磁鐵引起。為了可精確計(jì)算該FODO結(jié)構(gòu)的非線性效應(yīng),所有磁鐵均采用薄透鏡近似。該FODO結(jié)構(gòu)長度為40 m,水平方向與垂直方向的相位移動均為60°,六極磁鐵歸一化強(qiáng)度為1.25。由于該磁聚焦結(jié)構(gòu)只含有1塊六極磁鐵,故可將指數(shù)g中的階數(shù)大于3的高階項(xiàng)截?cái)?,即只保留三階Deprit分解g3。
誤差反向傳播神經(jīng)網(wǎng)絡(luò)的優(yōu)勢是可擬合幾乎任何復(fù)雜函數(shù),但作為一種數(shù)據(jù)驅(qū)動的算法,其缺點(diǎn)是訓(xùn)練過程需大量訓(xùn)練數(shù)據(jù)作為支撐。由于數(shù)值跟蹤模擬可得到大量軌跡數(shù)據(jù),可解決大量訓(xùn)練數(shù)據(jù)的需求。本文中的神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)有以下3方面要求。
1) 訓(xùn)練數(shù)據(jù)應(yīng)含有振幅適中的粒子軌跡,主要體現(xiàn)束流的線性運(yùn)動。由于從粒子大幅振蕩的非線性軌跡中學(xué)習(xí)到線性運(yùn)動規(guī)律是十分困難的,會導(dǎo)致收斂過慢或不收斂。故需要主要體現(xiàn)束流的線性運(yùn)動的軌跡數(shù)據(jù),幫助中間層1中的線性傳輸矩陣的收斂。
2) 訓(xùn)練數(shù)據(jù)應(yīng)含有大幅振蕩的粒子軌跡,體現(xiàn)高階傳輸映射的非線性特征。訓(xùn)練數(shù)據(jù)中明顯偏離線性運(yùn)動的軌跡數(shù)據(jù)是更好的訓(xùn)練得到指數(shù)g的高階項(xiàng)權(quán)重W1,W2,W3,…,Wm的基礎(chǔ)。
3) 訓(xùn)練數(shù)據(jù)應(yīng)含有磁聚焦結(jié)構(gòu)動力學(xué)孔徑之外的帶電粒子軌跡。雖然振幅過大的粒子不可在磁聚焦結(jié)構(gòu)中穩(wěn)定存在,但由于此類粒子軌跡幾乎由非線性效應(yīng)支配,適量的此類數(shù)據(jù)可幫助神經(jīng)網(wǎng)絡(luò)達(dá)到更好的收斂效果。
圖3為帶電粒子相空間運(yùn)動軌跡的部分?jǐn)?shù)據(jù)示例。本文所作計(jì)算共使用了60萬個(gè)粒子軌跡數(shù)據(jù),其中10%作為測試數(shù)據(jù)集,90%作為訓(xùn)練數(shù)據(jù)集。適中振幅、大振幅、動力學(xué)孔徑之外的帶電粒子軌跡比例約為1∶4∶1。
圖3 帶電粒子相空間非線性運(yùn)動軌跡數(shù)據(jù)(a)與近似線性運(yùn)動軌跡數(shù)據(jù)(b)Fig.3 Nonlinear orbit (a) and approximate linear motion (b) data of charged particle in phase space
圖4 損失函數(shù)收斂過程Fig.4 Convergence process of loss function
將128個(gè)軌跡數(shù)據(jù)作為一批次,計(jì)算該批次數(shù)據(jù)損失函數(shù)對權(quán)重參數(shù)的平均梯度,即批量梯度下降法。該方法可避免某些數(shù)據(jù)引起的錯(cuò)誤梯度下降方向,從而加快收斂,提高精度。學(xué)習(xí)率的選取也會極大地影響收斂速度,過大的學(xué)習(xí)率會導(dǎo)致?lián)p失函數(shù)前期下降快而后期振蕩。過小的學(xué)習(xí)率則會導(dǎo)致收斂速度過慢。綜合考慮,本文選取學(xué)習(xí)率η=0.01。圖4為隨著迭代次數(shù)的增加,損失函數(shù)逐漸收斂的過程,最終損失函數(shù)收斂到10-6m量級。
圖5 訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)權(quán)重與解析計(jì)算得到的高階項(xiàng)系數(shù)的對比Fig.5 Comparison between weight of trained neural network and analytically calculated coefficient
圖5為訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)權(quán)重與解析計(jì)算得到的高階項(xiàng)系數(shù)的對比,縱坐標(biāo)使用對數(shù)坐標(biāo)。從圖5可看出,神經(jīng)網(wǎng)絡(luò)得到的高階項(xiàng)系數(shù)與解析計(jì)算吻合良好,差異小于千分之一。通過神經(jīng)網(wǎng)絡(luò)計(jì)算的三階Deprit分解g3有足夠高的精度,完全可使用神經(jīng)網(wǎng)絡(luò)計(jì)算的g3進(jìn)行相空間固定點(diǎn)、相空間邊界、共振寬度等方面的計(jì)算,文獻(xiàn)[17]闡述了如何通過Deprit分解進(jìn)行上述計(jì)算。圖6為訓(xùn)練后神經(jīng)網(wǎng)絡(luò)對帶電粒子相空間軌跡預(yù)測值與數(shù)值跟蹤的對比。訓(xùn)練后神經(jīng)網(wǎng)絡(luò)對帶電粒子相空間連續(xù)40圈的軌跡進(jìn)行預(yù)測,并與數(shù)值跟蹤結(jié)果對比。結(jié)果發(fā)現(xiàn)兩者吻合程度良好,本文所提出的神經(jīng)網(wǎng)絡(luò)可很好地預(yù)測帶電粒子非線性運(yùn)動的趨勢。
圖6 訓(xùn)練后神經(jīng)網(wǎng)絡(luò)對帶電粒子相空間軌跡預(yù)測值與數(shù)值跟蹤對比Fig.6 Phase space comparison between trained neural network and numerical tracking
圖7為訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)在測試數(shù)據(jù)集中損失函數(shù)的概率分布??煽闯?,測試數(shù)據(jù)集中有接近60%的數(shù)據(jù)損失函數(shù)在10-5m量級,不足1%的數(shù)據(jù)損失函數(shù)大于5×10-4m,訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)在測試數(shù)據(jù)集中整體表現(xiàn)良好。
圖7 訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)在測試數(shù)據(jù)集中損失函數(shù)的概率分布Fig.7 Probability distribution of loss function of test data set for trained neural network
本文所述的神經(jīng)網(wǎng)絡(luò)方法可擴(kuò)展加速器非線性效應(yīng)解析分析手段的適用范圍,即為回旋、FFAG等類型的加速器提供非線性效應(yīng)解析分析的途徑。本文將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于14~70 MeV FFAG加速器。圖8為14~70 MeV FFAG加速器磁場分布。由于該FFAG加速器的徑向工作路徑會穿越3vr=4共振,故四次諧波磁場會形成三階共振,從而對相空間造成破壞,并形成3個(gè)固定點(diǎn)。文獻(xiàn)[24]從理論上對該現(xiàn)象進(jìn)行了闡述,并指出徑向工作路徑穿越三階共振會導(dǎo)致固定點(diǎn)旋轉(zhuǎn)180°。
圖8 14~70 MeV FFAG加速器磁場分布Fig.8 Layout of 14-70 MeV FFAG magnetic field
應(yīng)用本文的神經(jīng)網(wǎng)絡(luò)方法對圖8中14~70 MeV FFAG加速器的Deprit分解g3進(jìn)行計(jì)算,并使用計(jì)算所得g3進(jìn)行粒子跟蹤,如圖9所示??煽闯觯W榆壽E在相空間形成3個(gè)固定點(diǎn),且在穿越3vr=4共振前后旋轉(zhuǎn)180°。計(jì)算所得g可很好地復(fù)現(xiàn)文獻(xiàn)[24]所述現(xiàn)象。
圖9 vr=1.32粒子相空間軌跡(a)與vr=1.34粒子相空間軌跡(b)Fig.9 Phase space plots of vr=1.32 (a) and vr=1.34 (b)
為了擴(kuò)展加速器非線性效應(yīng)解析分析手段的適用范圍,降低非線性效應(yīng)解析分析難度,本文構(gòu)造了一種用于預(yù)測帶電粒子非線性行為的新型神經(jīng)網(wǎng)絡(luò)層,并用其搭建了誤差反向傳播神經(jīng)網(wǎng)絡(luò)。使用一個(gè)帶有六極磁鐵的FODO磁聚焦結(jié)構(gòu)的帶電粒子軌道數(shù)據(jù)進(jìn)行訓(xùn)練,驗(yàn)證結(jié)果表明了本文所提出的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的有效性。由于本文所構(gòu)造的新型神經(jīng)網(wǎng)絡(luò)層中的各個(gè)待學(xué)習(xí)參數(shù)是具有明確物理含義的,故對于帶電粒子非線性行為的預(yù)測具有良好的泛化能力。通過該神經(jīng)網(wǎng)絡(luò)計(jì)算所得的三階Deprit分解有足夠高的精度,完全可用于相空間固定點(diǎn)、相空間邊界、共振寬度等方面的計(jì)算。
本文所構(gòu)建的神經(jīng)網(wǎng)絡(luò)層的缺點(diǎn)在于對訓(xùn)練數(shù)據(jù)的敏感性高,其對數(shù)據(jù)的篩選有如下兩點(diǎn)經(jīng)驗(yàn):1) 需篩選出體現(xiàn)帶電粒子各種非線性運(yùn)動特征的數(shù)據(jù);2) 不僅需帶電粒子單次通過磁聚焦結(jié)構(gòu)的軌跡數(shù)據(jù),還需多次通過磁聚焦結(jié)構(gòu)的軌跡數(shù)據(jù)。另外,由于中間層1的權(quán)重代表帶電粒子的線性傳輸矩陣,且加速器的線性傳輸矩陣容易得到,故在訓(xùn)練過程中可將中間層1的權(quán)重固定,從而加快神經(jīng)網(wǎng)絡(luò)損失函數(shù)的收斂速度與精度,降低對訓(xùn)練數(shù)據(jù)集的敏感性。
基于本文的研究工作,可繼續(xù)開展兩方面的研究:1) 優(yōu)化本文所提出的神經(jīng)網(wǎng)絡(luò),提高神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)的敏感性;2) 本文工作還局限于對帶電粒子橫向非線性運(yùn)動的預(yù)測,后續(xù)研究可開展含有縱向運(yùn)動的三維非線性運(yùn)動預(yù)測的研究。