黃澤英,李海艷,林景亮
廣東工業(yè)大學(xué) 機電工程學(xué)院,廣州510006
基于代理模型的優(yōu)化方法是現(xiàn)代復(fù)雜工程設(shè)計的重要技術(shù)手段,已被廣泛應(yīng)用于工程設(shè)計優(yōu)化中[1-3]。此類方法中,仿真模型被視為“黑箱函數(shù)”,多次調(diào)用數(shù)值仿真分析工具獲取“黑箱函數(shù)”的足量樣本,并通過代理建模技術(shù)構(gòu)建逼近模型替代“黑箱函數(shù)”。但是對于復(fù)雜工程,數(shù)值求解通常是一個昂貴的過程,例如文獻[4]對沃爾沃D5柴油發(fā)動機的一次仿真過程就高達42小時。為了縮短設(shè)計周期,應(yīng)當(dāng)盡可能減少仿真次數(shù),使用少量樣本構(gòu)建代理模型。然而,以往方法主要側(cè)重于在當(dāng)前產(chǎn)品的仿真模型上規(guī)劃數(shù)據(jù)來建模,例如多項式響應(yīng)面模型、Kriging 模型、稀疏響應(yīng)面等,對以往同類型產(chǎn)品已有的大量仿真數(shù)據(jù)關(guān)注不夠,這些數(shù)據(jù)中蘊含的大量特征沒有得到重用。因此,對于復(fù)雜模型的逼近,此類建模方法對數(shù)據(jù)量要求較大,并且往往泛化性能不佳。
在統(tǒng)計學(xué)習(xí)領(lǐng)域,遷移學(xué)習(xí)已被證明能夠通過引入其他建模任務(wù)的知識,改善當(dāng)前預(yù)測模型的泛化性能。如張晨曦等依據(jù)YF77 新型發(fā)動機和YF75 發(fā)動機在構(gòu)造原理上的一致性,以k近鄰(k-Nearest Neighbor,kNN)和支持向量機(Support Vector Machine,SVM)作為分類器,提出了基于實例和基于模型的遷移策略,大幅度減低了發(fā)動機參數(shù)的漏報率和誤報率[5];廖一鵬等對卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進行預(yù)訓(xùn)練,并使用極限學(xué)習(xí)機(Extreme Machine Learning,ELM)對CNN提取的特征進行分類,使用較少樣本訓(xùn)練得到高精度浮選工況識別模型[6];Zhu等通過XFOIL程序快速生成徑向基神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network,RBFNN)代理模型,并將其相關(guān)參數(shù)遷移至計算流體力學(xué)仿真生成的代理模型上,有效地減少了代理建模的時間成本[7]。然而,現(xiàn)有的方法主要集中于構(gòu)造分類模型,基于遷移學(xué)習(xí)構(gòu)造回歸模型的研究相對較少。
綜上,針對在工程產(chǎn)品的迭代更新或者相似工程在特定需求下的重新設(shè)計優(yōu)化中,使用少量樣本構(gòu)建代理模型以加快設(shè)計效率的問題,研究并推導(dǎo)了基于遷移學(xué)習(xí)的ELM代理建模方法。該方法首先利用相似工程產(chǎn)品研發(fā)過程的歷史數(shù)據(jù)構(gòu)建極限學(xué)習(xí)機代理模型;基于此模型,采集新工程產(chǎn)品的樣本數(shù)據(jù),通過變可信度近似建模技術(shù)構(gòu)建新工程產(chǎn)品的近似模型;最后,結(jié)合近似模型生成的樣本數(shù)據(jù)和新工程產(chǎn)品的真實樣本,訓(xùn)練得到關(guān)于新工程設(shè)計的強泛化代理模型。數(shù)值算例實驗和叉車臂架液壓系統(tǒng)的應(yīng)用案例結(jié)果表明,該方法能夠在使用少量訓(xùn)練樣本的情況下顯著提升代理模型的精度。
多數(shù)基于數(shù)據(jù)驅(qū)動的建模方法使用單一源的數(shù)據(jù)構(gòu)建代理模型,該類方法下,構(gòu)造高精度的代理模型需要滿足兩個條件:(1)足夠數(shù)量的樣本數(shù)據(jù);(2)采集的樣本數(shù)據(jù)能夠高精度地接近真實模型。從條件(2)的角度看,獲取高精度樣本數(shù)據(jù),在工程上通常是一個高度耗時或者高度依賴算力的過程。例如,使用Ansys 或Abaqus 等有限元分析軟件進行工程分析時,為了獲得有限元模型的精確解,需要劃分更精細的有限元網(wǎng)格,伴隨而來的是求解過程的高度耗時和對計算機算力的更高要求,但是劃分粗糙網(wǎng)格的有限元分析模型其求解過程往往十分迅速。因此,很多工程建模問題上存在的一個明顯現(xiàn)象是,低精度樣本數(shù)據(jù)容易獲取,高精度樣本數(shù)據(jù)采集成本較高。為了減少高精度樣本數(shù)量,可考慮融合低精度樣本。
盡管低精度樣本數(shù)據(jù)偏離真實模型,但是從數(shù)據(jù)的全局上看,大量的低精度樣本數(shù)據(jù)依然能夠反映真實模型的變化趨勢。基于此,考慮到高、低精度樣本數(shù)據(jù)融合的變可信度近似建模策略得到眾多學(xué)者的重視[8-10]。變可信度近似建模策略的核心是如何融合高、低精度樣本數(shù)據(jù),具體方法可分為三類:基于標(biāo)度函數(shù)的建模方法、基于空間映射的建模方法和基于Co-Kriging的建模方法[11]。此處僅簡述基于加法標(biāo)度函數(shù)的變可信度近似建模策略。假設(shè)高精度分析模型為f h(x),低精度分析模型為f l(x),取少量輸入點高、低精度分析模型的輸出值分別為其差值為:
區(qū)別于傳統(tǒng)的機器學(xué)習(xí)算法使用同一任務(wù)的大量數(shù)據(jù)訓(xùn)練學(xué)習(xí)模型,遷移學(xué)習(xí)通過引入其他任務(wù)中學(xué)習(xí)的知識,提升在特定任務(wù)上模型的預(yù)測性能[12]。較于變可信度建模策略,遷移學(xué)習(xí)的一個明顯差別在于其強調(diào)的是兩個不同任務(wù)知識的融合,而變可信度建模強調(diào)的是同一任務(wù)的兩種不同精度的樣本數(shù)據(jù)的融合。但是,可以考慮這樣的思路:變可信度建模策略通過低精度樣本數(shù)據(jù)的變化趨勢實現(xiàn)數(shù)據(jù)融合,如果兩個不同的建模任務(wù)之間存在較高相關(guān)性,那么不同任務(wù)之間可視對方為自身的低精度分析模型。從實際的工程問題上看,功能類似的產(chǎn)品的代理模型往往存在較大的相關(guān)性,因此可以將相似產(chǎn)品視為自身的低精度分析模型;從遷移學(xué)習(xí)的角度看,可以將目標(biāo)域看作一個高精度分析模型,將源域看作目標(biāo)域的一個低精度分析模型,依據(jù)目標(biāo)域和源域的相關(guān)性,變可信度建模策略就可以在其中做進一步拓展。
應(yīng)用變可信度策略的前提是源域和目標(biāo)域之間存在一定的相關(guān)性,一種簡單的評價指標(biāo)是使用相關(guān)系數(shù):
在很多實際的工程設(shè)計問題上,經(jīng)常需要依據(jù)不同的設(shè)計需求對產(chǎn)品的參數(shù)重新進行優(yōu)化,考慮到實驗成本、設(shè)計周期的問題,僅使用少量的單一源樣本數(shù)據(jù)構(gòu)建新的代理模型其預(yù)測精度往往很低。由于功能類似的工程產(chǎn)品,其設(shè)計原理、硬件構(gòu)成等都十分相似,其代理模型也往往具有較大的相關(guān)性,此情況下,可以引入基于變可信度建模策略的遷移學(xué)習(xí)方法,如圖1所示。
圖1 基于變可信度的遷移學(xué)習(xí)建模流程Fig.1 Transfer learning modeling process based on multi-fidelity
本文所提出的基于變可信度的遷移學(xué)習(xí)策略可以描述如下:首先根據(jù)相似工程的歷史累積數(shù)據(jù)構(gòu)建代理模型,將該代理模型作為新工程產(chǎn)品設(shè)計的低精度分析模型;然后在新工程產(chǎn)品上采集少量樣本,對應(yīng)變可信度中的高精度分析模型,融合高、低精度樣本數(shù)據(jù)構(gòu)建關(guān)于新工程產(chǎn)品設(shè)計的變可信度近似模型;最后在變可信度近似模型上采集大量樣本,與采集的少量真實樣本混合,構(gòu)建遷移學(xué)習(xí)代理模型。
ELM 是一種可以快速學(xué)習(xí)的單層前饋神經(jīng)網(wǎng)絡(luò),可用于構(gòu)建數(shù)據(jù)的回歸模型[13-14]。ELM 模型可簡寫成線性模型形式:
式中,H和β分別是隱藏層神經(jīng)元和輸出權(quán)重。
本文使用ELM 作為代理模型,推導(dǎo)了兩種基于遷移學(xué)習(xí)的代理模型構(gòu)建方法:加法變可信度極限學(xué)習(xí)機(Additive Multi-Fidelity Extreme Learning Machine,AMF-ELM)和迭代的變可加法變可信度極限學(xué)習(xí)機(Iterative Additive Multi-Fidelity Extreme Learning Machine,IAMF-ELM)。
步驟1使用源數(shù)據(jù)集構(gòu)建ELM代理模型Fs(x),其輸出權(quán)重為βs,那么
式中,hs是單個樣本的隱藏層神經(jīng)元。
步驟2構(gòu)建基于加法標(biāo)度的變可信度近似模型。將代理模型Fs作為當(dāng)前產(chǎn)品設(shè)計的低精度分析模型,目標(biāo)數(shù)據(jù)集(Xt,Yt)作為高精度分析模型采集的樣本數(shù)據(jù),高、低精度分析模型的差值為:
式中,ha是單個樣本的隱藏層神經(jīng)元。
基于加法標(biāo)度的變可信度近似模型可以描述為:
步驟3使用第二步得到的近似模型Fmf(x)生成Nr個近似樣本為了準(zhǔn)確捕獲該近似模型的變化趨勢,通常Nr?Nt。
步驟4利用步驟3 得到的近似樣本和目標(biāo)數(shù)據(jù)集構(gòu)建關(guān)于新工程產(chǎn)品設(shè)計的ELM 代理模型Ft(x)=,得到構(gòu)建模型的優(yōu)化問題:
式中,第一項和第二項分別是關(guān)于近似樣本和目標(biāo)數(shù)據(jù)集的懲罰項。寫成矩陣形式可得到:
為了進一步提升模型性能,一種更好的方式是將變可信度近似模型和ELM遷移學(xué)習(xí)模型在同一個優(yōu)化問題上進行迭代優(yōu)化。
模型Ft(x)和Fs(x)的差值函數(shù)也可以在差值樣本集上做進一步的近似,以確保Ft(x)可以更加接近真實模型:
由式(8)、(10)、(12)、(13)可得到一個關(guān)于βa和βt優(yōu)化問題:
為了驗證算法的有效性,實驗使用文獻[15]提出的修改版本Frideman回歸問題生成人工數(shù)據(jù)集:
式中,N是正態(tài)分布;ai、bi、ci都是常數(shù);輸入xi相互獨立,且xi~U(0,1),U是均勻分布。
將ai和bi設(shè)置為1,ci設(shè)置為0,分別隨機采集Nt=10,30,50,70,90,100,200,300,400 個樣本作為目標(biāo)數(shù)據(jù)集的訓(xùn)練集,另外隨機采集10 000 個樣本作為測試集。每次生成源數(shù)據(jù)集時,令ai和bi從正態(tài)分布N(1,0.22)中隨機產(chǎn)生,ci從正態(tài)分布N(0,0.12)中隨機產(chǎn)生。每組實驗重復(fù)100 次,實驗使用均方根誤差RMSE和相關(guān)系數(shù)R作為評價指標(biāo):
實驗設(shè)置了四種模型作為對照:(1)ELM,只使用目標(biāo)數(shù)據(jù)集訓(xùn)練的ELM 代理模型;(2)S-ELM,只使用源數(shù)據(jù)集訓(xùn)練的ELM代理模型;(3)AMF-ELM,取由近似模型生成的近似樣本數(shù)量Nt=500,輸入權(quán)重與S-ELM一致;(4)IAMF-ELM,取由近似生成的近似樣本數(shù)量Nt=500,迭代次數(shù)設(shè)為10,輸入權(quán)重與S-ELM 一致。在本次實驗中,正則化系數(shù)并沒有提高模型的泛化性能,因此上述模型的正則化系數(shù)均取0。
實驗的結(jié)果統(tǒng)計如表1所示??梢钥吹?,AMF-ELM和IAMF-ELM的均方根誤差和相關(guān)系數(shù)均優(yōu)于未使用遷移學(xué)習(xí)的ELM,并且訓(xùn)練樣本數(shù)量越少,AMF-ELM和IAMF-ELM 的性能提升越明顯。例如,僅使用10 個訓(xùn)練樣本時,AMF-ELM和IAMF-ELM相對未使用遷移學(xué)習(xí)的ELM,其均方根誤差分別下降了41.9%和44.0%,表明在使用少量樣本時,AMF-ELM和IAMF-ELM能顯著提升ELM 代理模型的泛化性能。另一方面,IAMFELM始終優(yōu)于AMF-ELM和ELM,AMF-ELM始終優(yōu)于ELM。當(dāng)增加訓(xùn)練樣本的數(shù)量時,近似模型會更加接近真實模型,意味著從源域遷移得到的模型變化趨勢在構(gòu)建目標(biāo)域代理模型時的作用會減弱。因此,從表1可以看到的一個明顯變化趨勢是,隨著訓(xùn)練樣本數(shù)量的增加,三者的泛化性能逐漸接近。
表1 數(shù)值測試算例實驗結(jié)果統(tǒng)計Table 1 Statistics of experimental results of numerical test cases
為驗證所提算法在實際工程中的作用,將其應(yīng)用到構(gòu)建伸縮臂叉車臂架液壓系統(tǒng)代理模型中。伸縮臂叉車是一種被廣泛應(yīng)用的工業(yè)車輛,其臂架的伸縮主要由臂架液壓系統(tǒng)控制。由于臂架伸縮距離較長,工作環(huán)境復(fù)雜,液壓系統(tǒng)的變幅缸壓力容易出現(xiàn)較大波動,導(dǎo)致臂架劇烈震動,影響其壽命。為了減少變幅缸的壓力波動,需要對變幅缸的最大壓力進行建模和優(yōu)化,影響變幅缸壓力的相關(guān)參數(shù)如表2所示。
依據(jù)不同的工況需求,需要設(shè)計額定負(fù)載不同的伸縮臂叉車。前期已經(jīng)設(shè)計了額定負(fù)載為10 klb 的伸縮臂叉車,通過動力學(xué)分析軟件ADAMS和復(fù)雜系統(tǒng)建模和分析軟件AMESim對液壓系統(tǒng)進行聯(lián)合仿真,累計采集了500組仿真數(shù)據(jù)。根據(jù)新的設(shè)計需求,需要設(shè)計額定負(fù)載為6 klb的伸縮臂叉車,表2所述參數(shù)需重新建模優(yōu)化。由于同類型的伸縮臂叉車,其臂架液壓系統(tǒng)的組成和構(gòu)造原理都是一致的,不同額定負(fù)載的伸縮臂叉車臂架液壓系統(tǒng)代理模型具有較大的相關(guān)性。因此,為了減少仿真次數(shù),縮短設(shè)計周期,可考慮使用基于遷移學(xué)習(xí)的少樣本建模策略,其流程如圖2所示。
表2 輸入?yún)?shù)及其取值空間Table 2 Input parameters and their value spaces
圖2 基于遷移學(xué)習(xí)的新產(chǎn)品代理建模流程Fig.2 New product surrogate modeling process based on transfer learning
通過ADAMS 和AMESim 聯(lián)合仿真,隨機采集200組額定負(fù)載為6 klb 的叉車臂架液壓系統(tǒng)樣本,從中分別隨機選取Nt=10,20,30,40,50,70,90,110,130,150 個樣本作為目標(biāo)數(shù)據(jù)集的訓(xùn)練樣本,剩余樣本作為驗證集,每組實驗重復(fù)100 次。在模型的相關(guān)參數(shù)設(shè)置上,取近似模型生成的隨機樣本數(shù)量為1 000,其余參數(shù)均與3.1節(jié)的實驗設(shè)置相同。
表3 統(tǒng)計了所有重復(fù)實驗中RMSE 的均值和標(biāo)準(zhǔn)差,以及S-ELM、AMF-ELM 和IAMF-ELM 相對于ELM的RMSE均值下降的比率。圖3、圖4分別統(tǒng)計了RMSE和R隨著訓(xùn)練樣本數(shù)量增加的變化曲線。
表3 變幅缸最大壓力預(yù)測RMSE結(jié)果統(tǒng)計Table 3 RMSE result statistics of maximum pressure prediction of luffing cylinder
圖3 均方根誤差變化曲線圖Fig.3 Root mean square error change curve
從實驗結(jié)果可以得到以下結(jié)論:
(1)由于額定負(fù)載為6 klb 和10 klb 的伸縮臂叉車,其臂架液壓系統(tǒng)具有相同的組成和構(gòu)造原理,從圖4可以看到,盡管S-ELM 沒有使用任何目標(biāo)數(shù)據(jù)集的樣本進行訓(xùn)練,但是依然具有較高的相關(guān)系數(shù),此結(jié)果也與1.2節(jié)假設(shè)一致。
圖4 相關(guān)系數(shù)變化曲線圖Fig.4 Correlation coefficient change curve
(2)AMF-ELM或IAMF-ELM都能顯著提升使用少量樣本訓(xùn)練時對液壓系統(tǒng)最大壓力的預(yù)測精度,例如使用10 個訓(xùn)練樣本時,AMF-ELM 或IAMF-ELM 相對于ELM,均方根誤差分別下降56.63%和57.68%。此結(jié)果表明,相對于ELM 代理建模,構(gòu)建同等精度的代理模型,基于遷移學(xué)習(xí)的AMF-ELM和IAMF-ELM代理建模要求使用的原始“黑箱函數(shù)”的樣本數(shù)量更少,在工程應(yīng)用上可以有效減少仿真模型或者真實模型的調(diào)用次數(shù)。
(3)從統(tǒng)計結(jié)果可以看到,使用相同數(shù)量的訓(xùn)練樣本時,IAMF-ELM 在兩種指標(biāo)上都優(yōu)于AMF-ELM,并且其均方根誤差的標(biāo)準(zhǔn)差更低。因此相對于AMF-ELM,IAMF-ELM泛化性能更好,穩(wěn)定性更高,但是IAMF-ELM的優(yōu)化是一個迭代過程,其構(gòu)造代理模型的時間更長。
針對在工程產(chǎn)品的迭代更新或者重新設(shè)計中,要求使用少量樣本構(gòu)建代理模型的問題,本文對變可信度近似建模策略進行拓展,提出了新的遷移學(xué)習(xí)建模策略。基于所提的遷移學(xué)習(xí)策略推導(dǎo)了兩種ELM代理建模方法AMF-ELM和IAMF-ELM,實驗結(jié)果表明以下結(jié)論:
(1)數(shù)值算例實驗和叉車臂架液壓系統(tǒng)變幅缸最大壓力預(yù)測的應(yīng)用案例都表明,本文提出的兩種方法能顯著提升使用少量樣本時的代理建模精度,驗證了基于變可信度的遷移學(xué)習(xí)建模策略的有效性;
(2)IAMF-ELM 構(gòu)建的代理模型,在預(yù)測精度或者模型穩(wěn)定性上都優(yōu)于AMF-ELM,但是AMF-ELM 無需任何迭代,相對于IAMF-ELM能夠更快地構(gòu)造代理模型。
兩個回歸任務(wù)具有較高的相關(guān)系數(shù)是應(yīng)用所提算法的前提,如何在相關(guān)系數(shù)較低的回歸任務(wù)之間進行遷移,可作為后續(xù)的研究方向。