李 陽,楊亞莉,鐘衛(wèi)軍
(1. 空軍工程大學(xué)基礎(chǔ)部,西安,710051;2. 文昌航天發(fā)射場指揮控制中心,海南文昌,571300;3. 宇航動力學(xué)國家重點(diǎn)實(shí)驗(yàn)室,西安,710043)
基于系統(tǒng)內(nèi)部機(jī)理,常微分方程能夠?qū)?fù)雜系統(tǒng)進(jìn)行準(zhǔn)確描述,進(jìn)而實(shí)現(xiàn)對系統(tǒng)狀態(tài)變量的預(yù)測。但是對于內(nèi)部機(jī)理復(fù)雜或暫不清楚的系統(tǒng),直接建立可靠有效的常微分方程較為困難。
近年來,隨著軟件和硬件的發(fā)展進(jìn)步,對系統(tǒng)狀態(tài)變量進(jìn)行觀測的方法更加多樣高效,可獲取的觀測數(shù)據(jù)的精度越來越高、數(shù)量越來越多。人們基于觀測數(shù)據(jù)進(jìn)行了諸多研究。如通過符號回歸對系統(tǒng)進(jìn)行數(shù)值建模[1-2]、無方程建模[3]、非線性回歸[4]、數(shù)據(jù)驅(qū)動人工神經(jīng)網(wǎng)絡(luò)(artificial neutral network,ANN)方法[5]。其中,文獻(xiàn)[6~7]使用大量的觀測數(shù)據(jù)驅(qū)動深度殘差網(wǎng)絡(luò)對自治系統(tǒng)進(jìn)行了擬合逼近,實(shí)現(xiàn)了對系統(tǒng)狀態(tài)的預(yù)測,但是該方法還存在模型預(yù)測精度不夠高的問題。
Zhang等[8]在深度卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上引入殘差機(jī)制和密集連接機(jī)制,提出的殘差密集網(wǎng)絡(luò)實(shí)現(xiàn)了圖像的超分辨率重建。兩種機(jī)制的引入使得該網(wǎng)絡(luò)對數(shù)據(jù)特征的提取和利用更加充分,同時(shí)具有參數(shù)規(guī)模相對較小、便于收斂、避免“退化”等優(yōu)點(diǎn),在圖像恢復(fù)[9]、視頻超分辨率重建[10]等領(lǐng)域同樣取得了良好效果。受此啟發(fā),在不增加觀測數(shù)據(jù)規(guī)模的條件下,為進(jìn)一步提高前饋神經(jīng)網(wǎng)絡(luò)(feed-forward neural network,F(xiàn)NN)對自治系統(tǒng)相軌線的擬合逼近效果,本文引入密集連接機(jī)制和殘差機(jī)制,提出使用DRNet的方法對自治系統(tǒng)進(jìn)行擬合逼近,實(shí)現(xiàn)對狀態(tài)變量更高精度的預(yù)測。首先,利用系統(tǒng)的觀測數(shù)據(jù)與相軌線的關(guān)系,將對自治系統(tǒng)的擬合逼近和序列預(yù)測問題轉(zhuǎn)化為使用FNN對系統(tǒng)相軌線的擬合逼近問題。其次,為強(qiáng)化深層FNN對數(shù)據(jù)內(nèi)含“特征信息”的提取和利用,提高對系統(tǒng)的擬合逼近效果,同時(shí)避免深層網(wǎng)絡(luò)的“退化”(degradation)現(xiàn)象,提出并建立DRNet網(wǎng)絡(luò)。而后,選擇線性的單自由度系統(tǒng)振動模型[11]和非線性的SEIRS模型[12]、Logistic-Volterra模型[13]為示例,通過模型生成的觀測數(shù)據(jù)訓(xùn)練DRNet,實(shí)現(xiàn)對系統(tǒng)模型的逼近和變量的預(yù)測。最后,將DRNet對示例模型的預(yù)測精度與殘差網(wǎng)絡(luò)(ResNet)、BPNN和密集網(wǎng)絡(luò)(DenseNet)進(jìn)行比較,驗(yàn)證本文DRNet方法的有效性,同時(shí)將DRNet應(yīng)用于含噪聲數(shù)據(jù)集以驗(yàn)證其抗噪聲干擾性。
本節(jié)將對自治系統(tǒng)S的模型擬合逼近和序列預(yù)測問題轉(zhuǎn)化為使用FNN對系統(tǒng)S的相軌線進(jìn)行擬合逼近的問題。
假設(shè)自治系統(tǒng)S的狀態(tài)變量X(t)滿足方程:
(1)
式中:p=(p1,p2,…pr)T,r∈N+為常微分方程的參數(shù),X(t)=(x1(t),x2(t),…,xq(t))T,q∈N+。如圖1所示,系統(tǒng)S狀態(tài)變量X(t)的相空間為D,將方程(1)積分得到系統(tǒng)S在D內(nèi)的相軌線[14]
(2)
式中:Xl(0),l∈N+為系統(tǒng)S的初始狀態(tài)。圖1中曲線為系統(tǒng)S以X(0)為初始狀態(tài)的相軌線。
圖1 系統(tǒng)S的狀態(tài)變量在相空間D內(nèi)相圖的示意圖
假設(shè)系統(tǒng)S有便于觀測的區(qū)域,記為D′。對于機(jī)理復(fù)雜或暫不清楚的系統(tǒng)S,方程式(2)未知?;贒′內(nèi)觀測數(shù)據(jù)對系統(tǒng)S的相軌線進(jìn)行擬合逼近后即可實(shí)現(xiàn)對其狀態(tài)變量的預(yù)測。
在D′內(nèi),對狀態(tài)變量X(t)進(jìn)行n次獨(dú)立觀測得到:
X(I)={Xj(tj)|j=1,2,…,n}
(3)
由式(2)知,{Xj(tj)|j=1,2,…,n}位于D′內(nèi)的m(m≤n)條相軌線上。分別以X(I)中的n個(gè)觀測值為初始狀態(tài),間隔Δt后再次對狀態(tài)變量X(t)進(jìn)行觀測可以得到集合:
X(II)={Xj(tj+Δt)|j=1,2,…,n}
(4)
由集合X(I)和X(II)內(nèi)狀態(tài)值的對應(yīng)關(guān)系,可得數(shù)據(jù)對集合:
Data={(Xj(tj),Xj(tj+Δt))|j=1,2,…,n}
(5)
在自治系統(tǒng)S內(nèi),Xj(tj)與Xj(tj+Δt)位于相同的相軌線[14],即(Xj(tj),Xj(tj+Δt))=(Xj(0),Xj(Δt)),
所以,式(5)中數(shù)據(jù)對集合可改寫為:
Data={(Xj(0),Xj(Δt))|j=1,2,…,n}
(6)
并且由式(2)得:
Xj(Δt)=Fp(Xj(0),Δt),j=1,2,…n
(7)
因此,對自治系統(tǒng)S的研究及狀態(tài)變量的預(yù)測問題可以轉(zhuǎn)化為基于式(6)的觀測數(shù)據(jù)對式(7)中映射Fp(·,·)——即系統(tǒng)S相軌線的擬合逼近問題。
根據(jù)人工神經(jīng)網(wǎng)絡(luò)的萬能近似定理[15],F(xiàn)NN具有近似任意函數(shù)的能力。Wu等[16]的研究表明,當(dāng)數(shù)據(jù)對規(guī)模相同時(shí),分布于多條相軌線上的短間隔數(shù)據(jù)對比分布于少量相軌線上的數(shù)據(jù)對更能促進(jìn)FNN對系統(tǒng)模型的逼近。因此在構(gòu)造(6)式的數(shù)據(jù)集訓(xùn)練FNN對系統(tǒng)S的相軌線進(jìn)行擬合逼近時(shí),優(yōu)先選擇Xj(0)均勻分布于D′內(nèi)的觀測數(shù)據(jù),并且觀測的時(shí)間間隔Δt不宜太大。
式中:‖X‖2表示X的2范數(shù)的平方。選擇合適的FNN,使用式(6)的數(shù)據(jù)集訓(xùn)練FNN使得損失函數(shù)L最小化,即實(shí)現(xiàn)FNN對系統(tǒng)S的相軌線的擬合逼近。此時(shí),對系統(tǒng)S的相軌線的擬合逼近的問題轉(zhuǎn)化為最優(yōu)化問題:
式中:(Xj(0),Xj(Δt))∈Data。
本節(jié)提出并詳述DRNet方法,同時(shí)建立對照網(wǎng)絡(luò)模型,確定模型的定量評價(jià)指標(biāo)。
深度神經(jīng)網(wǎng)絡(luò)含有更多的隱藏層,對函數(shù)的逼近效果更好[17]。Huang等[18]在深層卷積神經(jīng)網(wǎng)絡(luò)中提出的密集連接機(jī)制強(qiáng)化了隱藏層之間特征信息的傳輸和利用,同時(shí)減少網(wǎng)絡(luò)參數(shù)并提高效率,在圖像分類識別具有廣泛應(yīng)用。但是過多的隱藏層會使神經(jīng)網(wǎng)絡(luò)出現(xiàn)“退化”現(xiàn)象,即隨著網(wǎng)絡(luò)深度的增加,模型的準(zhǔn)確率增加到一定程度后開始下降[19]。He等[20]提出的ResNet極大地消除了深層神經(jīng)網(wǎng)絡(luò)的退化現(xiàn)象,被廣泛應(yīng)用于圖像處理的深度學(xué)習(xí)模型。為進(jìn)一步提高對自治系統(tǒng)的擬合逼近效果并實(shí)現(xiàn)對狀態(tài)變量更高精度預(yù)測,受殘差機(jī)制和密集連接機(jī)制啟發(fā),本文在具有誤差反向傳播的FNN的基礎(chǔ)上提出密集殘差網(wǎng)絡(luò)DRNet的方法。
一個(gè)N層的密集殘差網(wǎng)絡(luò)DRNet:Rn→Rm,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2(a)所示,其中“C”表示數(shù)據(jù)的拼接(具體如圖2(b)所示),“+”表示數(shù)據(jù)的相加。在DRNet中,第i-1層的任意一個(gè)神經(jīng)元均和第i層的所有神經(jīng)元相連(i表示隱藏層內(nèi)任意一層的序號)。
(a)DRNet
在DRNet的隱藏層內(nèi),將前i-1層的輸出拼接后作為第i層的輸入,形成密集連接模塊。此時(shí),每層均能直接接收前面各層提取的特征信息,使得淺層特征和深層特征都得到更加充分的利用,加強(qiáng)了各隱藏層之間特征信息的流通,能夠提升各層特征信息的利用率,在一定程度上減少了網(wǎng)絡(luò)模型的參數(shù)數(shù)量[21],同時(shí),有效地緩解了梯度消失的問題。因此DRNet的第i層輸入為:
Xinput,i=[Xoutput,1,Xoutput,2,…,Xoutput,i-1]T
(8)
式中:[X1,X2,…,Xn]表示數(shù)據(jù)X1,X2,…,Xn的拼接。第i層輸出為
Xoutput,i=Hi(Xinput,i)=
(9)
式中:σi為該層激活函數(shù),文中均選擇為tanh;Wi和bi為該層需要通過訓(xùn)練確定的參數(shù)。
為進(jìn)一步消除深層DRNet可能出現(xiàn)的“退化”問題,引入殘差機(jī)制,將DRNet的輸入層與輸出層直接相連,即第N-1層的輸出與DRNet的輸入相加作為DRNet的輸出:
Xoutput=Xoutput,N-1+Xinput
(10)
綜合考慮系統(tǒng)觀測數(shù)據(jù)的規(guī)模、計(jì)算消耗、網(wǎng)絡(luò)收斂性能和誤差精度的平衡,本文示例中的DRNet網(wǎng)絡(luò)除輸入層和輸出層由狀態(tài)變量X的維度決定外,隱藏層數(shù)h和每層神經(jīng)元數(shù)目m分別在{3,4,5,6}和{20,30,40,50}中選擇。根據(jù)DRNet在數(shù)據(jù)集上最小損失函數(shù)來確定最優(yōu)模型的隱藏層數(shù)和各層神經(jīng)元數(shù)目。此外,DRNet的優(yōu)化器選擇為Adam算法、損失函數(shù)選擇為均方誤差函數(shù)(Mean Squared Error Loss,MSELoss)、學(xué)習(xí)率設(shè)為0.01、batch_size設(shè)置為10。
如圖1中曲線所示,DRNet經(jīng)過觀測數(shù)據(jù)的訓(xùn)練,實(shí)現(xiàn)對方程式(2)的擬合逼近后,即可對系統(tǒng)S的狀態(tài)變量進(jìn)行預(yù)測:
(11)
為評價(jià)DRNet方法的有效性,本文選擇BPNN、ResNet[7]和DenseNet[8]作為對照網(wǎng)絡(luò)模型。由網(wǎng)絡(luò)結(jié)構(gòu)可知,DRNet比BPNN多了密集連接機(jī)制和殘差機(jī)制,比ResNet多了密集連接機(jī)制,比DenseNet多了殘差機(jī)制。對照模型的隱藏層數(shù)h、每層神經(jīng)元數(shù)目m的確定方式、優(yōu)化器選擇和損失函數(shù)選擇同DRNet一致。
為定量評價(jià)DRNet方法的性能,對于預(yù)測值,本文選取的評價(jià)指標(biāo)為均方誤差(mean square error,MSE)、平均絕對誤差(mean absolute error,MAE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)、擬合優(yōu)度(R-squared,R2)。其中,MSE、MAE和MAPE反映出預(yù)測值與真實(shí)值之間的偏差,其越接近0,表明預(yù)測值越接近真實(shí)值。R2反映出預(yù)測值與真實(shí)值的相似程度,其越接近1,表示擬合程度越高,預(yù)測效果越好,DRNet對系統(tǒng)模型的擬合逼近越完美。
為驗(yàn)證DRNet方法在常微分方程模型中應(yīng)用的有效性,將其分別應(yīng)用于線性的單自由度系統(tǒng)振動模型和非線性的SEIRS傳染病模型、Logistic-Volterra模型。首先,通過式(3)、式(4)獲得X(I)和X(II)。不失一般性,假設(shè)X(I)在示例模型的便于觀測相空間D′內(nèi)服從均勻分布。X(II)通過LSODE算子[22]基于示例模型方程和X(I)得到。而后,由式(5)、式(6)構(gòu)造訓(xùn)練DRNet和對照網(wǎng)絡(luò)模型所需的數(shù)據(jù)集
Data={(Xinput,j,Xoutput,j)|j=1,2,…,n}=
{(Xj,Xj(Δt))|j=1,2,…,n}
為更加科學(xué)地驗(yàn)證DRNet的性能,在每個(gè)示例模型中,分別構(gòu)造規(guī)模為5 000和10 000的數(shù)據(jù)集,記為Data-5k、Data-10k。此外,為評估DRNet的抗噪聲性能,在數(shù)據(jù)集Data-5k上加入5%的噪聲,得到噪聲數(shù)據(jù)集,記為Data-5kN。
根據(jù)受力分析和牛頓第二定律,無驅(qū)動有阻尼單自由度彈簧的振動系統(tǒng)的微分方程為:
(13)
對于某一單自由度振動系統(tǒng),根據(jù)模型參數(shù)含義,實(shí)驗(yàn)中選擇D′=[-3,0]2,并隨機(jī)取定參數(shù)(a,b)=(0.2,2)。當(dāng)Δt=0.1時(shí),生成數(shù)據(jù)集,驅(qū)動DRNet和對照網(wǎng)絡(luò)模型完成對系統(tǒng)(13)的擬合逼近。根據(jù)多次試驗(yàn)的損失函數(shù),在Data-10k上表現(xiàn)最優(yōu)的DRNet含有4個(gè)隱藏層、每層30個(gè)神經(jīng)元,在Data-5k上表現(xiàn)最優(yōu)的DRNet含有3個(gè)隱藏層、每層40個(gè)神經(jīng)元。對于D′內(nèi)任意初始狀態(tài)X0=(-1,-3),訓(xùn)練完畢的最優(yōu)DRNet在t∈[0,20]內(nèi)的預(yù)測結(jié)果見圖3。從圖中可見,DRNet在Data-5k,Data-10k和Data-5kN上均實(shí)現(xiàn)了對單自由度系統(tǒng)振動模型的擬合逼近。
(a)Date-10k
DRNet和對照網(wǎng)絡(luò)模型的評價(jià)指標(biāo)見圖4,從上往下依次為Data-10k、Data-5k和Data-5kN(以下各圖類同)。由圖可見,在Data-5k和Data-10k上,DRNet的表現(xiàn)均優(yōu)于對照網(wǎng)絡(luò)模型。DRNet在噪聲數(shù)據(jù)集Data-5kN上性能稍有下降,除平均絕對百分比誤差(MAPE)劣于ResNet外(1.6%>0.85%),其他3項(xiàng)指標(biāo)均表現(xiàn)優(yōu)異。
(a)MSE
利用數(shù)學(xué)方程(組)模型來描述和分析傳染病的傳播規(guī)律是常微分方程的重要應(yīng)用方向之一。根據(jù)不同傳染病的免疫特性,人們陸續(xù)建立了不同的倉室模型。如腦膜炎、淋病等,患者康復(fù)后不具有免疫力,可以再次被感染。據(jù)此可以建立SEIRS模型,其微分方程為:
(14)
式中:S、E、I、R分別表示易感者、潛伏者、患病者、康復(fù)者在人群中的占比,因此可知(S,E,I,R)∈[0,1]4。
針對某一地區(qū)的某一疾病,根據(jù)參數(shù)的生物學(xué)含義和經(jīng)驗(yàn),實(shí)驗(yàn)中選取D′=[0,0.5]4,并隨機(jī)選擇參數(shù)(β,σ,γ,μ)=(0.8,0.3,0.4,0.3)。當(dāng)Δt=0.2時(shí),生成并構(gòu)造數(shù)據(jù)集,驅(qū)動DRNet和對照網(wǎng)絡(luò)模型對系統(tǒng)(14)擬合逼近。根據(jù)多次試驗(yàn)的損失函數(shù),在Data-10k上表現(xiàn)最優(yōu)的DRNet含有6個(gè)隱藏層、每層50個(gè)神經(jīng)元,在Data-5k上表現(xiàn)最優(yōu)的DRNet含有5個(gè)隱藏層、每層20個(gè)神經(jīng)元。對于D′內(nèi)任意的初始狀態(tài)(S,E,I,R)t=0=(0.5,0.5,0,0),訓(xùn)練完畢的最優(yōu)DRNet在t≤20的預(yù)測結(jié)果如圖5中圓點(diǎn)所示。由圖5中結(jié)果可見,DRNet在3個(gè)數(shù)據(jù)集上均較好地實(shí)現(xiàn)了對SEIRS模型的擬合逼近。
(a)Date-10k
DRNet和對照網(wǎng)絡(luò)模型的評價(jià)指標(biāo)見圖6。從圖中的4個(gè)定量評價(jià)指標(biāo)可知,在3個(gè)數(shù)據(jù)集上,DRNet的表現(xiàn)均優(yōu)于對照網(wǎng)絡(luò)模型。
(a)MSE
20世紀(jì)20年代,致力于微分方程應(yīng)用研究的意大利數(shù)學(xué)家Volterra在研究捕食與被捕食關(guān)系時(shí)提出了著名的Volterra模型。在該模型中考慮系統(tǒng)內(nèi)捕食者與被捕食者自身的阻滯作用時(shí),為Volterra模型加上Logistic項(xiàng),得到Logistic-Volterra模型,其微分方程組為:
(15)
選取某Logistic-Volterra系統(tǒng),根據(jù)生物學(xué)經(jīng)驗(yàn)隨機(jī)取定(r,s,a,b,m,n)=(1.1,0.4,0.2,0.03,90,30),D′=[0,30]×[0,6]。當(dāng)Δt=0.5時(shí),生成并構(gòu)造數(shù)據(jù)集,驅(qū)動DRNet和對照網(wǎng)絡(luò)模型對系統(tǒng)(15)擬合逼近。根據(jù)多次試驗(yàn)的損失函數(shù),在Data-10k上表現(xiàn)最優(yōu)的DRNet含有3個(gè)隱藏層、每層20個(gè)神經(jīng)元,在Data-5k上表現(xiàn)最優(yōu)的DRNet含有3個(gè)隱藏層、每層50個(gè)神經(jīng)元。對于D′內(nèi)任意初始狀態(tài)X0=(25,2),訓(xùn)練完畢的最優(yōu)DRNet在t≤50的預(yù)測結(jié)果如圖8所示。圖可見,DRNet在3個(gè)數(shù)據(jù)集上均較好地實(shí)現(xiàn)了對Logistic-Volterra模型的擬合逼近。
(a)Date-10k
DRNet和對照網(wǎng)絡(luò)模型的評價(jià)指標(biāo)見圖8。從圖中4個(gè)定量評價(jià)指標(biāo)可知,在3個(gè)數(shù)據(jù)集上,DRNet的預(yù)測精度優(yōu)于對照網(wǎng)絡(luò)模型。
(a)MSE
從圖3、圖5、圖7可見,經(jīng)過數(shù)據(jù)集Data-5k和Data-10k訓(xùn)練后,DRNet對系統(tǒng)狀態(tài)變量的預(yù)測值與LSODE算子得到的參考值較為契合,表明DRNet方法較好地實(shí)現(xiàn)了對模型的擬合逼近,具有對狀態(tài)變量進(jìn)行準(zhǔn)確預(yù)測的能力。由圖4、圖6、圖8中的定量評價(jià)指標(biāo)可見,DRNet在2個(gè)數(shù)據(jù)集上的預(yù)測精度均超越了ResNet,DenseNet和BPNN,并且相比于線性的常微分方程系統(tǒng),DRNet在非線性常微分方程系統(tǒng)上的評價(jià)指標(biāo)均比對照網(wǎng)絡(luò)模型更好,不僅表明DRNet在不提高數(shù)據(jù)規(guī)模的條件下,實(shí)現(xiàn)了對系統(tǒng)模型的更高精度預(yù)測,更表現(xiàn)出DRNet方法對自治系統(tǒng)模型逼近和序列預(yù)測的高有效性。在抗噪聲方面,經(jīng)過Data-5kN訓(xùn)練的DRNet雖然性能有所下降,但是依然具有良好的預(yù)測精度,均方誤差小于對照網(wǎng)絡(luò)模型,這表明DRNet具有較好的抗噪聲干擾性能。
在3個(gè)示例模型中,從數(shù)據(jù)集Data-5k到Data-10k,最優(yōu)DRNet含有的隱藏層數(shù)h和每層神經(jīng)元數(shù)量m變化不大;且在數(shù)據(jù)集Data-10k的預(yù)測精度要優(yōu)于其在Data-5k的預(yù)測精度,這表明可以通過增加數(shù)據(jù)集規(guī)模的方法提升DRNet的預(yù)測精度。但是對于很多系統(tǒng)而言,獲得大量觀測數(shù)據(jù)的成本是巨大的,并且由圖5、圖7、圖9中的定量評價(jià)指標(biāo)可見,當(dāng)模型精度已經(jīng)很高時(shí),大幅增加觀測數(shù)據(jù)集規(guī)模對提高預(yù)測精度的效果較為有限。
本文研究了密集殘差網(wǎng)絡(luò)DRNet對自治系統(tǒng)進(jìn)行模型擬合逼近并實(shí)現(xiàn)狀態(tài)變量預(yù)測的問題。在示例模型應(yīng)用中,DRNet可實(shí)現(xiàn)媲美LSODE算子數(shù)值解的優(yōu)異結(jié)果,預(yù)測精度優(yōu)于ResNet、DenseNet和BPNN,并且在非線性系統(tǒng)上,DRNet的定量評價(jià)指標(biāo)明顯優(yōu)于對照網(wǎng)絡(luò)模型;在面對較小噪聲的干擾時(shí),DRNet的性能沒有出現(xiàn)大幅下降,展現(xiàn)出了較好的抗噪聲干擾能力。這為利用觀測數(shù)據(jù)研究機(jī)理復(fù)雜或暫不清楚的系統(tǒng)提供了新的有效方法。