黃澤英,李海艷,林景亮
廣東工業(yè)大學(xué) 機(jī)電工程學(xué)院,廣州510006
基于代理模型的優(yōu)化方法是現(xiàn)代復(fù)雜工程設(shè)計(jì)的重要技術(shù)手段,已被廣泛應(yīng)用于工程設(shè)計(jì)優(yōu)化中[1-3]。此類方法中,仿真模型被視為“黑箱函數(shù)”,多次調(diào)用數(shù)值仿真分析工具獲取“黑箱函數(shù)”的足量樣本,并通過代理建模技術(shù)構(gòu)建逼近模型替代“黑箱函數(shù)”。但是對(duì)于復(fù)雜工程,數(shù)值求解通常是一個(gè)昂貴的過程,例如文獻(xiàn)[4]對(duì)沃爾沃D5柴油發(fā)動(dòng)機(jī)的一次仿真過程就高達(dá)42小時(shí)。為了縮短設(shè)計(jì)周期,應(yīng)當(dāng)盡可能減少仿真次數(shù),使用少量樣本構(gòu)建代理模型。然而,以往方法主要側(cè)重于在當(dāng)前產(chǎn)品的仿真模型上規(guī)劃數(shù)據(jù)來建模,例如多項(xiàng)式響應(yīng)面模型、Kriging 模型、稀疏響應(yīng)面等,對(duì)以往同類型產(chǎn)品已有的大量仿真數(shù)據(jù)關(guān)注不夠,這些數(shù)據(jù)中蘊(yùn)含的大量特征沒有得到重用。因此,對(duì)于復(fù)雜模型的逼近,此類建模方法對(duì)數(shù)據(jù)量要求較大,并且往往泛化性能不佳。
在統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域,遷移學(xué)習(xí)已被證明能夠通過引入其他建模任務(wù)的知識(shí),改善當(dāng)前預(yù)測(cè)模型的泛化性能。如張晨曦等依據(jù)YF77 新型發(fā)動(dòng)機(jī)和YF75 發(fā)動(dòng)機(jī)在構(gòu)造原理上的一致性,以k近鄰(k-Nearest Neighbor,kNN)和支持向量機(jī)(Support Vector Machine,SVM)作為分類器,提出了基于實(shí)例和基于模型的遷移策略,大幅度減低了發(fā)動(dòng)機(jī)參數(shù)的漏報(bào)率和誤報(bào)率[5];廖一鵬等對(duì)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)進(jìn)行預(yù)訓(xùn)練,并使用極限學(xué)習(xí)機(jī)(Extreme Machine Learning,ELM)對(duì)CNN提取的特征進(jìn)行分類,使用較少樣本訓(xùn)練得到高精度浮選工況識(shí)別模型[6];Zhu等通過XFOIL程序快速生成徑向基神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network,RBFNN)代理模型,并將其相關(guān)參數(shù)遷移至計(jì)算流體力學(xué)仿真生成的代理模型上,有效地減少了代理建模的時(shí)間成本[7]。然而,現(xiàn)有的方法主要集中于構(gòu)造分類模型,基于遷移學(xué)習(xí)構(gòu)造回歸模型的研究相對(duì)較少。
綜上,針對(duì)在工程產(chǎn)品的迭代更新或者相似工程在特定需求下的重新設(shè)計(jì)優(yōu)化中,使用少量樣本構(gòu)建代理模型以加快設(shè)計(jì)效率的問題,研究并推導(dǎo)了基于遷移學(xué)習(xí)的ELM代理建模方法。該方法首先利用相似工程產(chǎn)品研發(fā)過程的歷史數(shù)據(jù)構(gòu)建極限學(xué)習(xí)機(jī)代理模型;基于此模型,采集新工程產(chǎn)品的樣本數(shù)據(jù),通過變可信度近似建模技術(shù)構(gòu)建新工程產(chǎn)品的近似模型;最后,結(jié)合近似模型生成的樣本數(shù)據(jù)和新工程產(chǎn)品的真實(shí)樣本,訓(xùn)練得到關(guān)于新工程設(shè)計(jì)的強(qiáng)泛化代理模型。數(shù)值算例實(shí)驗(yàn)和叉車臂架液壓系統(tǒng)的應(yīng)用案例結(jié)果表明,該方法能夠在使用少量訓(xùn)練樣本的情況下顯著提升代理模型的精度。
多數(shù)基于數(shù)據(jù)驅(qū)動(dòng)的建模方法使用單一源的數(shù)據(jù)構(gòu)建代理模型,該類方法下,構(gòu)造高精度的代理模型需要滿足兩個(gè)條件:(1)足夠數(shù)量的樣本數(shù)據(jù);(2)采集的樣本數(shù)據(jù)能夠高精度地接近真實(shí)模型。從條件(2)的角度看,獲取高精度樣本數(shù)據(jù),在工程上通常是一個(gè)高度耗時(shí)或者高度依賴算力的過程。例如,使用Ansys 或Abaqus 等有限元分析軟件進(jìn)行工程分析時(shí),為了獲得有限元模型的精確解,需要?jiǎng)澐指?xì)的有限元網(wǎng)格,伴隨而來的是求解過程的高度耗時(shí)和對(duì)計(jì)算機(jī)算力的更高要求,但是劃分粗糙網(wǎng)格的有限元分析模型其求解過程往往十分迅速。因此,很多工程建模問題上存在的一個(gè)明顯現(xiàn)象是,低精度樣本數(shù)據(jù)容易獲取,高精度樣本數(shù)據(jù)采集成本較高。為了減少高精度樣本數(shù)量,可考慮融合低精度樣本。
盡管低精度樣本數(shù)據(jù)偏離真實(shí)模型,但是從數(shù)據(jù)的全局上看,大量的低精度樣本數(shù)據(jù)依然能夠反映真實(shí)模型的變化趨勢(shì)?;诖?,考慮到高、低精度樣本數(shù)據(jù)融合的變可信度近似建模策略得到眾多學(xué)者的重視[8-10]。變可信度近似建模策略的核心是如何融合高、低精度樣本數(shù)據(jù),具體方法可分為三類:基于標(biāo)度函數(shù)的建模方法、基于空間映射的建模方法和基于Co-Kriging的建模方法[11]。此處僅簡(jiǎn)述基于加法標(biāo)度函數(shù)的變可信度近似建模策略。假設(shè)高精度分析模型為f h(x),低精度分析模型為f l(x),取少量輸入點(diǎn)高、低精度分析模型的輸出值分別為其差值為:
區(qū)別于傳統(tǒng)的機(jī)器學(xué)習(xí)算法使用同一任務(wù)的大量數(shù)據(jù)訓(xùn)練學(xué)習(xí)模型,遷移學(xué)習(xí)通過引入其他任務(wù)中學(xué)習(xí)的知識(shí),提升在特定任務(wù)上模型的預(yù)測(cè)性能[12]。較于變可信度建模策略,遷移學(xué)習(xí)的一個(gè)明顯差別在于其強(qiáng)調(diào)的是兩個(gè)不同任務(wù)知識(shí)的融合,而變可信度建模強(qiáng)調(diào)的是同一任務(wù)的兩種不同精度的樣本數(shù)據(jù)的融合。但是,可以考慮這樣的思路:變可信度建模策略通過低精度樣本數(shù)據(jù)的變化趨勢(shì)實(shí)現(xiàn)數(shù)據(jù)融合,如果兩個(gè)不同的建模任務(wù)之間存在較高相關(guān)性,那么不同任務(wù)之間可視對(duì)方為自身的低精度分析模型。從實(shí)際的工程問題上看,功能類似的產(chǎn)品的代理模型往往存在較大的相關(guān)性,因此可以將相似產(chǎn)品視為自身的低精度分析模型;從遷移學(xué)習(xí)的角度看,可以將目標(biāo)域看作一個(gè)高精度分析模型,將源域看作目標(biāo)域的一個(gè)低精度分析模型,依據(jù)目標(biāo)域和源域的相關(guān)性,變可信度建模策略就可以在其中做進(jìn)一步拓展。
應(yīng)用變可信度策略的前提是源域和目標(biāo)域之間存在一定的相關(guān)性,一種簡(jiǎn)單的評(píng)價(jià)指標(biāo)是使用相關(guān)系數(shù):
在很多實(shí)際的工程設(shè)計(jì)問題上,經(jīng)常需要依據(jù)不同的設(shè)計(jì)需求對(duì)產(chǎn)品的參數(shù)重新進(jìn)行優(yōu)化,考慮到實(shí)驗(yàn)成本、設(shè)計(jì)周期的問題,僅使用少量的單一源樣本數(shù)據(jù)構(gòu)建新的代理模型其預(yù)測(cè)精度往往很低。由于功能類似的工程產(chǎn)品,其設(shè)計(jì)原理、硬件構(gòu)成等都十分相似,其代理模型也往往具有較大的相關(guān)性,此情況下,可以引入基于變可信度建模策略的遷移學(xué)習(xí)方法,如圖1所示。
圖1 基于變可信度的遷移學(xué)習(xí)建模流程Fig.1 Transfer learning modeling process based on multi-fidelity
本文所提出的基于變可信度的遷移學(xué)習(xí)策略可以描述如下:首先根據(jù)相似工程的歷史累積數(shù)據(jù)構(gòu)建代理模型,將該代理模型作為新工程產(chǎn)品設(shè)計(jì)的低精度分析模型;然后在新工程產(chǎn)品上采集少量樣本,對(duì)應(yīng)變可信度中的高精度分析模型,融合高、低精度樣本數(shù)據(jù)構(gòu)建關(guān)于新工程產(chǎn)品設(shè)計(jì)的變可信度近似模型;最后在變可信度近似模型上采集大量樣本,與采集的少量真實(shí)樣本混合,構(gòu)建遷移學(xué)習(xí)代理模型。
ELM 是一種可以快速學(xué)習(xí)的單層前饋神經(jīng)網(wǎng)絡(luò),可用于構(gòu)建數(shù)據(jù)的回歸模型[13-14]。ELM 模型可簡(jiǎn)寫成線性模型形式:
式中,H和β分別是隱藏層神經(jīng)元和輸出權(quán)重。
本文使用ELM 作為代理模型,推導(dǎo)了兩種基于遷移學(xué)習(xí)的代理模型構(gòu)建方法:加法變可信度極限學(xué)習(xí)機(jī)(Additive Multi-Fidelity Extreme Learning Machine,AMF-ELM)和迭代的變可加法變可信度極限學(xué)習(xí)機(jī)(Iterative Additive Multi-Fidelity Extreme Learning Machine,IAMF-ELM)。
步驟1使用源數(shù)據(jù)集構(gòu)建ELM代理模型Fs(x),其輸出權(quán)重為βs,那么
式中,hs是單個(gè)樣本的隱藏層神經(jīng)元。
步驟2構(gòu)建基于加法標(biāo)度的變可信度近似模型。將代理模型Fs作為當(dāng)前產(chǎn)品設(shè)計(jì)的低精度分析模型,目標(biāo)數(shù)據(jù)集(Xt,Yt)作為高精度分析模型采集的樣本數(shù)據(jù),高、低精度分析模型的差值為:
式中,ha是單個(gè)樣本的隱藏層神經(jīng)元。
基于加法標(biāo)度的變可信度近似模型可以描述為:
步驟3使用第二步得到的近似模型Fmf(x)生成Nr個(gè)近似樣本為了準(zhǔn)確捕獲該近似模型的變化趨勢(shì),通常Nr?Nt。
步驟4利用步驟3 得到的近似樣本和目標(biāo)數(shù)據(jù)集構(gòu)建關(guān)于新工程產(chǎn)品設(shè)計(jì)的ELM 代理模型Ft(x)=,得到構(gòu)建模型的優(yōu)化問題:
式中,第一項(xiàng)和第二項(xiàng)分別是關(guān)于近似樣本和目標(biāo)數(shù)據(jù)集的懲罰項(xiàng)。寫成矩陣形式可得到:
為了進(jìn)一步提升模型性能,一種更好的方式是將變可信度近似模型和ELM遷移學(xué)習(xí)模型在同一個(gè)優(yōu)化問題上進(jìn)行迭代優(yōu)化。
模型Ft(x)和Fs(x)的差值函數(shù)也可以在差值樣本集上做進(jìn)一步的近似,以確保Ft(x)可以更加接近真實(shí)模型:
由式(8)、(10)、(12)、(13)可得到一個(gè)關(guān)于βa和βt優(yōu)化問題:
為了驗(yàn)證算法的有效性,實(shí)驗(yàn)使用文獻(xiàn)[15]提出的修改版本Frideman回歸問題生成人工數(shù)據(jù)集:
式中,N是正態(tài)分布;ai、bi、ci都是常數(shù);輸入xi相互獨(dú)立,且xi~U(0,1),U是均勻分布。
將ai和bi設(shè)置為1,ci設(shè)置為0,分別隨機(jī)采集Nt=10,30,50,70,90,100,200,300,400 個(gè)樣本作為目標(biāo)數(shù)據(jù)集的訓(xùn)練集,另外隨機(jī)采集10 000 個(gè)樣本作為測(cè)試集。每次生成源數(shù)據(jù)集時(shí),令ai和bi從正態(tài)分布N(1,0.22)中隨機(jī)產(chǎn)生,ci從正態(tài)分布N(0,0.12)中隨機(jī)產(chǎn)生。每組實(shí)驗(yàn)重復(fù)100 次,實(shí)驗(yàn)使用均方根誤差RMSE和相關(guān)系數(shù)R作為評(píng)價(jià)指標(biāo):
實(shí)驗(yàn)設(shè)置了四種模型作為對(duì)照:(1)ELM,只使用目標(biāo)數(shù)據(jù)集訓(xùn)練的ELM 代理模型;(2)S-ELM,只使用源數(shù)據(jù)集訓(xùn)練的ELM代理模型;(3)AMF-ELM,取由近似模型生成的近似樣本數(shù)量Nt=500,輸入權(quán)重與S-ELM一致;(4)IAMF-ELM,取由近似生成的近似樣本數(shù)量Nt=500,迭代次數(shù)設(shè)為10,輸入權(quán)重與S-ELM 一致。在本次實(shí)驗(yàn)中,正則化系數(shù)并沒有提高模型的泛化性能,因此上述模型的正則化系數(shù)均取0。
實(shí)驗(yàn)的結(jié)果統(tǒng)計(jì)如表1所示??梢钥吹?,AMF-ELM和IAMF-ELM的均方根誤差和相關(guān)系數(shù)均優(yōu)于未使用遷移學(xué)習(xí)的ELM,并且訓(xùn)練樣本數(shù)量越少,AMF-ELM和IAMF-ELM 的性能提升越明顯。例如,僅使用10 個(gè)訓(xùn)練樣本時(shí),AMF-ELM和IAMF-ELM相對(duì)未使用遷移學(xué)習(xí)的ELM,其均方根誤差分別下降了41.9%和44.0%,表明在使用少量樣本時(shí),AMF-ELM和IAMF-ELM能顯著提升ELM 代理模型的泛化性能。另一方面,IAMFELM始終優(yōu)于AMF-ELM和ELM,AMF-ELM始終優(yōu)于ELM。當(dāng)增加訓(xùn)練樣本的數(shù)量時(shí),近似模型會(huì)更加接近真實(shí)模型,意味著從源域遷移得到的模型變化趨勢(shì)在構(gòu)建目標(biāo)域代理模型時(shí)的作用會(huì)減弱。因此,從表1可以看到的一個(gè)明顯變化趨勢(shì)是,隨著訓(xùn)練樣本數(shù)量的增加,三者的泛化性能逐漸接近。
表1 數(shù)值測(cè)試算例實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)Table 1 Statistics of experimental results of numerical test cases
為驗(yàn)證所提算法在實(shí)際工程中的作用,將其應(yīng)用到構(gòu)建伸縮臂叉車臂架液壓系統(tǒng)代理模型中。伸縮臂叉車是一種被廣泛應(yīng)用的工業(yè)車輛,其臂架的伸縮主要由臂架液壓系統(tǒng)控制。由于臂架伸縮距離較長(zhǎng),工作環(huán)境復(fù)雜,液壓系統(tǒng)的變幅缸壓力容易出現(xiàn)較大波動(dòng),導(dǎo)致臂架劇烈震動(dòng),影響其壽命。為了減少變幅缸的壓力波動(dòng),需要對(duì)變幅缸的最大壓力進(jìn)行建模和優(yōu)化,影響變幅缸壓力的相關(guān)參數(shù)如表2所示。
依據(jù)不同的工況需求,需要設(shè)計(jì)額定負(fù)載不同的伸縮臂叉車。前期已經(jīng)設(shè)計(jì)了額定負(fù)載為10 klb 的伸縮臂叉車,通過動(dòng)力學(xué)分析軟件ADAMS和復(fù)雜系統(tǒng)建模和分析軟件AMESim對(duì)液壓系統(tǒng)進(jìn)行聯(lián)合仿真,累計(jì)采集了500組仿真數(shù)據(jù)。根據(jù)新的設(shè)計(jì)需求,需要設(shè)計(jì)額定負(fù)載為6 klb的伸縮臂叉車,表2所述參數(shù)需重新建模優(yōu)化。由于同類型的伸縮臂叉車,其臂架液壓系統(tǒng)的組成和構(gòu)造原理都是一致的,不同額定負(fù)載的伸縮臂叉車臂架液壓系統(tǒng)代理模型具有較大的相關(guān)性。因此,為了減少仿真次數(shù),縮短設(shè)計(jì)周期,可考慮使用基于遷移學(xué)習(xí)的少樣本建模策略,其流程如圖2所示。
表2 輸入?yún)?shù)及其取值空間Table 2 Input parameters and their value spaces
圖2 基于遷移學(xué)習(xí)的新產(chǎn)品代理建模流程Fig.2 New product surrogate modeling process based on transfer learning
通過ADAMS 和AMESim 聯(lián)合仿真,隨機(jī)采集200組額定負(fù)載為6 klb 的叉車臂架液壓系統(tǒng)樣本,從中分別隨機(jī)選取Nt=10,20,30,40,50,70,90,110,130,150 個(gè)樣本作為目標(biāo)數(shù)據(jù)集的訓(xùn)練樣本,剩余樣本作為驗(yàn)證集,每組實(shí)驗(yàn)重復(fù)100 次。在模型的相關(guān)參數(shù)設(shè)置上,取近似模型生成的隨機(jī)樣本數(shù)量為1 000,其余參數(shù)均與3.1節(jié)的實(shí)驗(yàn)設(shè)置相同。
表3 統(tǒng)計(jì)了所有重復(fù)實(shí)驗(yàn)中RMSE 的均值和標(biāo)準(zhǔn)差,以及S-ELM、AMF-ELM 和IAMF-ELM 相對(duì)于ELM的RMSE均值下降的比率。圖3、圖4分別統(tǒng)計(jì)了RMSE和R隨著訓(xùn)練樣本數(shù)量增加的變化曲線。
表3 變幅缸最大壓力預(yù)測(cè)RMSE結(jié)果統(tǒng)計(jì)Table 3 RMSE result statistics of maximum pressure prediction of luffing cylinder
圖3 均方根誤差變化曲線圖Fig.3 Root mean square error change curve
從實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論:
(1)由于額定負(fù)載為6 klb 和10 klb 的伸縮臂叉車,其臂架液壓系統(tǒng)具有相同的組成和構(gòu)造原理,從圖4可以看到,盡管S-ELM 沒有使用任何目標(biāo)數(shù)據(jù)集的樣本進(jìn)行訓(xùn)練,但是依然具有較高的相關(guān)系數(shù),此結(jié)果也與1.2節(jié)假設(shè)一致。
圖4 相關(guān)系數(shù)變化曲線圖Fig.4 Correlation coefficient change curve
(2)AMF-ELM或IAMF-ELM都能顯著提升使用少量樣本訓(xùn)練時(shí)對(duì)液壓系統(tǒng)最大壓力的預(yù)測(cè)精度,例如使用10 個(gè)訓(xùn)練樣本時(shí),AMF-ELM 或IAMF-ELM 相對(duì)于ELM,均方根誤差分別下降56.63%和57.68%。此結(jié)果表明,相對(duì)于ELM 代理建模,構(gòu)建同等精度的代理模型,基于遷移學(xué)習(xí)的AMF-ELM和IAMF-ELM代理建模要求使用的原始“黑箱函數(shù)”的樣本數(shù)量更少,在工程應(yīng)用上可以有效減少仿真模型或者真實(shí)模型的調(diào)用次數(shù)。
(3)從統(tǒng)計(jì)結(jié)果可以看到,使用相同數(shù)量的訓(xùn)練樣本時(shí),IAMF-ELM 在兩種指標(biāo)上都優(yōu)于AMF-ELM,并且其均方根誤差的標(biāo)準(zhǔn)差更低。因此相對(duì)于AMF-ELM,IAMF-ELM泛化性能更好,穩(wěn)定性更高,但是IAMF-ELM的優(yōu)化是一個(gè)迭代過程,其構(gòu)造代理模型的時(shí)間更長(zhǎng)。
針對(duì)在工程產(chǎn)品的迭代更新或者重新設(shè)計(jì)中,要求使用少量樣本構(gòu)建代理模型的問題,本文對(duì)變可信度近似建模策略進(jìn)行拓展,提出了新的遷移學(xué)習(xí)建模策略?;谒岬倪w移學(xué)習(xí)策略推導(dǎo)了兩種ELM代理建模方法AMF-ELM和IAMF-ELM,實(shí)驗(yàn)結(jié)果表明以下結(jié)論:
(1)數(shù)值算例實(shí)驗(yàn)和叉車臂架液壓系統(tǒng)變幅缸最大壓力預(yù)測(cè)的應(yīng)用案例都表明,本文提出的兩種方法能顯著提升使用少量樣本時(shí)的代理建模精度,驗(yàn)證了基于變可信度的遷移學(xué)習(xí)建模策略的有效性;
(2)IAMF-ELM 構(gòu)建的代理模型,在預(yù)測(cè)精度或者模型穩(wěn)定性上都優(yōu)于AMF-ELM,但是AMF-ELM 無需任何迭代,相對(duì)于IAMF-ELM能夠更快地構(gòu)造代理模型。
兩個(gè)回歸任務(wù)具有較高的相關(guān)系數(shù)是應(yīng)用所提算法的前提,如何在相關(guān)系數(shù)較低的回歸任務(wù)之間進(jìn)行遷移,可作為后續(xù)的研究方向。