張繼超
(揚州大學數學科學學院,江蘇 揚州 225009)
常微分方程在工程中占據著重要的作用,許多物理過程都需要通過常微分方程進行描述,但是實際應用中往往得不到微分方程的解析解,這時利用計算機模擬出數值解也是一個不錯的方案。自計算機發(fā)明以來,強大的算力帶給了科學計算無限的可能,出現了各種不同的微分方程數值解方法,最常見的如歐拉法、龍格庫塔法、阿當姆斯法等等,這些方法的本質都是一種離散,對時間分量取步長做分割,然后利用不同的迭代公式從給定的初始條件一步步計算每一個分點上的值,大部分情況下這類方法得到的結果能夠滿足實際應用,但若想進一步提高精度,則需要縮小步長,提高迭代次數,大大地增加了計算量。
近年來,機器學習迅速崛起,其中應用最廣泛的當屬神經網絡算法,其在函數逼近、數據擬合、圖像識別等場合具有廣泛的用途,并且由于激活函數的作用,神經網絡算法得出的結果是無窮連續(xù)可微的函數,在微分方程構建的工程背景下,無窮可微的函數往往會比一個個離散的數據點更加實用,因此也吸引了很多學者利用神經網絡算法進行微分方程數值解的探索:徐理英[1]等人運用余弦基神經網絡近似代替常微分方程初值問題中的解析解,較各類差分方法提高了靈活性,但精度稍顯不足。楊震[2]等人采用基礎的單層神經網絡,將常微分方程的殘差及初邊值條件殘差之和作為損失函數,但由于缺少對初值的處理,導致該方法對參數初始化的要求較高。Yazdi[3]等人運用無監(jiān)督學習的方式訓練深層神經網絡求解微分方程,具有更廣的適用范圍。Susmita[4]等人結合了正交多項式構建了Chebyshev神經網絡,大大減少了網絡所需的參數的同時,保持了較高的精度,但是仍然使用反向傳播進行多次迭代實現參數的最優(yōu)化,導致訓練的過程需要大量的計算。Panghal[5]、Dwivedi[6]、Schiassi[7]等人提出了應用ELM算法代替反向傳播確定網絡參數,僅需要單層的網絡即可實現得到較高精度的微分方程數值解,該方法消除了耗時的神經網絡訓練優(yōu)化過程,但又沒有脫離常規(guī)的線性加偏置的神經元的范疇,考慮到單層神經網絡對函數逼近的效果較差,故需要增加大量的神經元。Mingjie[8]、Martin Frank[9]等人開始嘗試利用各類神經網絡算法求解更復雜的微分方程,提出了幾類保證守恒性質的方法以及正確的流體動力學極限,這也是微分方程數值解最前沿也是最亟待攻克的領域。
ELM算法是一種求解單隱層神經網絡的算法,最大的特點是比傳統(tǒng)的梯度下降算法有更高的計算效率,因為其僅需要經過一次最小二乘法,解出神經元矩陣的廣義逆便可更新參數,且保證了較好的學習精度。Chebyshev神經網絡以及引申出的一系列正交函數列構建而成的神經網絡雖然也只需要單層的神經網絡,但由于這些正交多項式對函數的高逼近作用,極大減少了對神經元和參數的需求量。基于這兩者的特點,本文嘗試將ELM算法與Chebyshev神經網絡結合,得到一種新穎的常微分方程數值解方法。
當前,對常微分方程進行數值求解通常采用TFC理論,根據該理論,微分方程未知或潛在的解通過約束表達式進行近似,約束表達式包括一個解析的、滿足給定初始條件的函數,以及一個可自由選擇的函數組成,利用神經網絡求解常微分方程的過程就是尋找后者這樣的自由函數,即先構建一個具有未知參數的試解,再通過一系列方法確定最優(yōu)的參數。對于一個給定的n階常微分方程:
其有n個可能存在于各階導數和各個定義域處的初始值:
針對此,結合TFC理論的思想,構建的網絡應滿足如下格式:
其中J滿足了(3)中的初始條件,為尋找滿足該條件的函數,最樸素的做法便是構造一個n-1次多項式,不論初始條件是在何點,是在何階,最終都可以將問題轉為一個簡單的n階線性方程組,如此便可確定出J。而G則需要消除初始值的影響,避免影響需要進行參數調整的N,同樣樸素的方式便是用如下方法構造:
其最終也會轉化為一個n階齊次線性方程組。當然,在實際應用中,為了使得計算更加簡潔方便,可以根據待解決的常微分方程形式來構造這兩個函數。
而N則是構造試解最核心的部分,利用神經網絡算法求解常微分方程的過程其實就是確定N的過程,本文將采用以下的ChNN結構:
其中g是作為激活函數的存在,因為后續(xù)的ELM算法需要這樣一個無限可微的函數,并且為了得到微分方程的一種無窮可微的近似解,所以選取sigmod和tanh等自身無窮可微的函數作為激活函數是較好的選擇。
正交多項式是函數逼近的重要工具,把一個復雜的函數用一系列簡單函數的線性組合來表示,更便于提高計算效率,而在利用神經網絡算法求解微分方程的過程中有一步構造試解的步驟,若希望將最基礎的線性加偏置的神經元應用于逼近函數中,則需要增加網絡的深度和神經元的個數,但使用正交多項式進行函數逼近則大大減少了所需的參數。Chebyshev多項式是最常用的正交多項式,它有以下的遞推式:
ChNN的結構如圖1所示,它是一個單層的神經網絡結構,每個神經元都由一個Chebyshev多項式拓展而成,連接層上是每個神經元的權重。
圖1 ChNN的結構
相較于傳統(tǒng)的神經網絡,該結構的優(yōu)勢在于只需要單層的網絡,在實際的應用中只需要調整每個神經元對應的權重便可實現網絡的訓練。選取該ChNN作為試解的N,以下只需要確定出各數據元的權重便可得到微分方程的一個無窮可微的近似解。
對于(6)式的單層神經網絡,假設在常微分方程的定義域內平均選取了N個樣本點(xi,ti),若選取了L個神經元,則神經網絡的效果表現為:
傳統(tǒng)的一些梯度下降法的算法,可以用來求解(9)中的問題,但是這些方法往往都需要進行多次迭代來調整參數,訓練時間較長,當問題復雜化時,這樣的迭代的過程計算量會非常巨大,反而不利于實際的應用。而ELM算法則可以很好地解決反向傳播算法需要大量迭代過程的缺點,其本質上是將問題轉化為了一個簡單的最小二乘問題,于是β可以直接解出:
其中H(n)+是矩陣H(n)的Moore-Penrose廣義逆,并且β的解可證明是唯一的,這樣便可以在極短的時間內求解出合適的參數,由此便完成了整個神經網絡結構的構建,從而得到了常微分方程的一個解析的近似解。
下面給出該方法在實際求解中的樣例測試,現給定常微分方程:
將通過ELM算法求得出的數值解結果與其他方法進行比較,見表1。
本樣例中使用了20個神經元,精度已然高于文獻[3]中通過反向傳播迭代產生的結果,若采用更多神經元,并對參數初始值進行優(yōu)化,則能夠進一步提高精。由此為數值計算開辟了一條新途徑,并且可以得到一個無窮可微的結果形式,滿足工程中需要對方程進行求導的特殊需求,也可以得到方程定義域內任意一處的近似值,因此本算法具有較高的應用價值。
表1 結果對比
本文討論的一種基于ELM算法的Chebyshev神經網絡是一種新穎的、快速的求解常微分方程數值解的方法,結合了ELM算法的較高的計算效率和Chebyshev神經網絡的參數少、高逼近的優(yōu)點,最終用實例證明方法切實可行且較其他的一類神經網絡算法有一定的優(yōu)勢,但是精度仍待進一步提高。未來,作者考慮從擴充未知量的個數以及方程的個數出發(fā)將算法細節(jié)優(yōu)化,此外研究該算法在偏微分方程數值解以及方程組數值解上的效果也是一個具有較高價值的研究方向。