蔣梓浩,任 濤,周 祺,駱加冕
(東北大學(xué)軟件學(xué)院,遼寧 沈陽 110169)
C4 烯烴被廣泛應(yīng)用于化工產(chǎn)品及醫(yī)藥的生產(chǎn)上,乙醇是生產(chǎn)制備C4烯烴的原料.探索乙醇催化偶合制備C4烯烴的工藝條件對實(shí)際生產(chǎn)具有非常重要的意義.在制備過程中,有兩類問題值得探究:一是不同催化劑組合及溫度對乙醇轉(zhuǎn)化率以及C4烯烴選擇性的影響;二是如何選擇合適的催化劑組合及溫度使C4 烯烴收率達(dá)到最優(yōu)值.眾多學(xué)者對此進(jìn)行了深入研究:鐘思青等[1]使用傳統(tǒng)方法,通過熱力學(xué)計(jì)算和建立化學(xué)平衡反應(yīng)體系對乙醇脫水制烯烴過程進(jìn)行分析;李韶偉等[2]在阿倫尼烏斯方程和灰色關(guān)聯(lián)分析的基礎(chǔ)上使用高斯過程回歸建立C4烯烴收率的優(yōu)化模型.為了提高乙醇催化偶合制備C4 烯烴的收率,筆者建立了一個基于隨機(jī)森林與L-M(Levenberg-Marquardt)算法的C4烯烴制備優(yōu)化模型,并使用2021年全國大學(xué)生數(shù)學(xué)建模競賽(CUMCM)賽題提供的實(shí)驗(yàn)數(shù)據(jù)對上述問題進(jìn)行探究.
隨機(jī)森林算法通過自助法(bootstrap)重采樣技術(shù),從原始訓(xùn)練樣本集N中有放回地重復(fù)隨機(jī)抽取K個樣本形成新的訓(xùn)練樣本集合,然后根據(jù)自助樣本集生成K個分類樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定.
隨機(jī)森林由多個二叉分類樹構(gòu)成,其生成遵循自頂向下的遞歸分裂原則,從根節(jié)點(diǎn)開始依次對訓(xùn)練集進(jìn)行劃分[3].其遵循兩種隨機(jī)性:一是自助法選取訓(xùn)練樣本及構(gòu)建決策樹;二是每棵決策樹分裂節(jié)點(diǎn)處從訓(xùn)練樣本集中隨機(jī)選取特征.
在二叉樹中,根節(jié)點(diǎn)包含全部訓(xùn)練數(shù)據(jù),按照節(jié)點(diǎn)純度最小原則,分裂為左節(jié)點(diǎn)和右節(jié)點(diǎn),它們分別包含訓(xùn)練數(shù)據(jù)的一個子集,按照同樣的規(guī)則節(jié)點(diǎn)繼續(xù)分裂,直到滿足分支停止規(guī)則而停止生長.若節(jié)點(diǎn)n上的分類數(shù)據(jù)全部來自于同一類別,則此節(jié)點(diǎn)的純度I(n)=0.
L-M算法是使用最廣泛的非線性最小二乘算法,其結(jié)合了梯度下降法和高斯-牛頓法.當(dāng)梯度下降過快時采用較小的參數(shù),使整個公式接近高斯-牛頓法;當(dāng)梯度下降過慢時采用較大的參數(shù),使整個公式接近梯度法.L-M算法既具有高斯-牛頓法的局部特性又具有梯度法的全局特性[4],同時具備優(yōu)良的數(shù)值精度以及穩(wěn)定性[5].
粒子群算法(Particle Swarm Optimization,PSO)的基本概念源于對鳥群覓食行為的研究.通過定義粒子來模擬鳥群中的鳥,粒子具有2個屬性:速度和位置.速度代表移動的快慢,位置代表移動的方向.每個粒子單獨(dú)搜尋其個體最優(yōu)解,并將結(jié)果共享給其他粒子,所有粒子中的最優(yōu)個體極值作為整個粒子群的當(dāng)前全局最優(yōu)解.通過不斷迭代,更新速度和位置,最終得到滿足終止條件的最優(yōu)解[6].
首先,對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗和數(shù)據(jù)標(biāo)準(zhǔn)化處理等.其次,例舉出影響乙醇轉(zhuǎn)化率和C4烯烴選擇性的影響因子(此處不考慮時間影響因子).通過對實(shí)驗(yàn)數(shù)據(jù)的分析,可以例舉出與本研究相關(guān)的6種可能的影響因子:溫度、Co負(fù)載量、Co/SiO2和HAP裝料比、乙醇進(jìn)樣量、催化劑質(zhì)量和裝料方式.運(yùn)用方差分析判斷影響因子對乙醇轉(zhuǎn)化率和C4烯烴選擇性是否有顯著影響.P值是方差分析中衡量控制組與實(shí)驗(yàn)組差異大小的指標(biāo).若P值低于0.05,認(rèn)為其對結(jié)果具有顯著影響,若P值低于0.01,認(rèn)為其對結(jié)果具有非常顯著影響[7],結(jié)果遠(yuǎn)離具有統(tǒng)計(jì)學(xué)意義.
通過控制變量法,運(yùn)用Matlab的anova1()函數(shù)計(jì)算P值,最終結(jié)果如表1所示.
表1 各個影響因子P值
由表1可知,裝料方式對乙醇轉(zhuǎn)化率、C4烯烴選擇性的P值均遠(yuǎn)大于0.05,說明裝料方式對乙醇轉(zhuǎn)化率、C4烯烴選擇性均無顯著性影響,因此剔除該因子.其余5種影響因子的P值均小于0.05,說明這些因子均顯著影響乙醇轉(zhuǎn)化率、C4烯烴選擇性.其中,溫度對乙醇轉(zhuǎn)化率、C4烯烴選擇性的P值小于0.01,說明溫度對這兩項(xiàng)影響程度高于其余影響因子.
使用隨機(jī)森林模型求解乙醇轉(zhuǎn)化率和C4烯烴選擇性的影響因子重要程度,具體流程如圖1所示.
圖1 隨機(jī)森林流程Fig. 1 Random Forest Flow Chart
Step1用Bootstrap方法生成K個訓(xùn)練集,對每一個數(shù)據(jù)集構(gòu)造一棵決策樹.
全部特征fw的重要性結(jié)果如圖2所示.
圖2 特征重要性結(jié)果Fig. 2 Histogram of Feature Importance
由圖2可以看出,各影響因子對乙醇轉(zhuǎn)化率和C4烯烴選擇性的重要程度從高到低依次為:溫度,催化劑質(zhì)量,乙醇進(jìn)樣量,Co負(fù)載量,裝料比.根據(jù)目前數(shù)據(jù)可知,溫度變化對催化性能的影響遠(yuǎn)大于其他指標(biāo)對于催化性能的影響,而裝料比對催化性能影響最小.
使用L-M算法[9]以及粒子群算法[10]求解C4烯烴收率最優(yōu)值,具體流程如圖3所示.
圖3 L-M算法與粒子群算法流程Fig. 3 Flow Chart of L-M Algorithm and Particle Swarm Optimization Algorithm
Step1將溫度、催化劑質(zhì)量、乙醇進(jìn)樣量、Co負(fù)載量、裝料比作為自變量,C4烯烴收率作為因變量,構(gòu)建關(guān)于自變量與因變量的回歸模型.回歸模型選擇五元三次非線性回歸模型:
圖4 驗(yàn)證集誤差分析Fig. 4 Verification Set Error Analysis
Step2剔除催化劑組合編號為A11的石英砂異常實(shí)驗(yàn)數(shù)據(jù),剩余109組實(shí)驗(yàn)數(shù)據(jù),其中80%(87組)數(shù)據(jù)作為訓(xùn)練集用于回歸分析,其余20%數(shù)據(jù)(22組)作為測試集用于回歸效果的評估.
Step3設(shè)定L-M算法的迭代初始條件為Ai=0,Bi=0,Ci=0,D=0(i=0,1,2,3,4)[11],迭代終止條件為迭代次數(shù)k>100或|zk+1-zk|<0.001.
迭代完成,可得模型的決定系數(shù)r2=0.756 9,由圖4可知,該模型的擬合效果較好,測試集中的預(yù)測值與真實(shí)值的誤差普遍較小.
Step4根據(jù)實(shí)驗(yàn)數(shù)據(jù)的基本約束條件,建立單目標(biāo)優(yōu)化模型:
Step5運(yùn)用粒子群算法求解上述優(yōu)化模型,C4烯烴收率最優(yōu)值為42.548 5%,最優(yōu)值所對應(yīng)的影響因子值如表2所示.
表2 各個影響因子最優(yōu)值
為提高乙醇偶合制備C4 烯烴過程中的C4烯烴收率,筆者設(shè)計(jì)了一個基于隨機(jī)森林與L-M算法的C4烯烴制備優(yōu)化模型.由模型分析出影響因子重要程度排序?yàn)闇囟取⒋呋瘎┵|(zhì)量、乙醇進(jìn)樣量、Co負(fù)載量、裝料比.利用粒子群算法求解出,在理想條件下,C4烯烴最大收率為42.548 5%.結(jié)果表明,隨機(jī)森林算法能準(zhǔn)確地分析影響因子的重要程度,L-M算法、粒子群算法對于復(fù)雜數(shù)據(jù)回歸求解具有良好的效果,可有效解決優(yōu)化問題.