陳熙理,孫國銘,賈勝坤,羅祎青,袁希鋼,2
(1 天津大學(xué)化工學(xué)院,天津300354; 2 化學(xué)工程國家重點實驗室(天津大學(xué)),天津300354)
精餾是化工生產(chǎn)中應(yīng)用最為廣泛的分離技術(shù),但其能耗高、投資大,同時對于多組元混合物的分離,不同精餾序列結(jié)構(gòu)(簡稱精餾結(jié)構(gòu))的能耗與投資差別顯著[1],因此如何從眾多可行精餾結(jié)構(gòu)中找到最優(yōu)精餾結(jié)構(gòu)具有重要意義[2-3]。三組元精餾是多組元精餾的基本分離單元,在工業(yè)中應(yīng)用廣泛,同時由于對隔板精餾塔(dividing wall column,DWC)以及多種熱耦精餾結(jié)構(gòu)研究的深入,三組元精餾結(jié)構(gòu)的最優(yōu)化合成成為了重要的研究課題[4-9]。Tedder等[10]比較了包含側(cè)線汽提、側(cè)線精餾在內(nèi)的7 種精餾結(jié)構(gòu)對不同物系的適用情況,指出進(jìn)料的組成和分離因子(ease of separation index,ESI,即輕組分、中間組分之間的相對揮發(fā)度與中間組分、重組分之間的相對揮發(fā)度之比)以及進(jìn)料組成是影響精餾流程結(jié)構(gòu)的主要因素,并首次在三元混合物組成三角圖上給出各種最優(yōu)精餾結(jié)構(gòu)所對應(yīng)的區(qū)域。Agrawal等[11]采用熱力學(xué)效率為評價指標(biāo),給出了具有最高熱力學(xué)效率的三組元精餾流程結(jié)構(gòu)在三元組成三角圖上對應(yīng)的區(qū)域。田芳等[8]針對理想三元混合物,通過嚴(yán)格模擬和優(yōu)化,針對不同ESI值給出了具有最小年度總費用(total annual cost,TAC)精餾結(jié)構(gòu)在三元組成三角圖上所對應(yīng)的區(qū)域。Wang 等[12]發(fā)現(xiàn),除了進(jìn)料組成和ESI,影響三組元最優(yōu)精餾結(jié)構(gòu)的還有產(chǎn)品純度要求,即分離難度,進(jìn)而定義了廣義ESI(generalized ease of separation index,GESI),用以考慮分離難度的影響。Lin 等[13]采用三元組成三角圖的方式,擴充了序列選擇范圍,探究3種不同隔板位置的隔板塔隨物系、進(jìn)料組成改變的選擇。
然而,上述研究中沿用的進(jìn)料組成三角圖區(qū)域劃分的方法具有明顯的局限性。這主要在于采用ESI或GESI(即相對揮發(fā)度的比值)代表物系對最優(yōu)精餾序列結(jié)構(gòu)的影響存在不確定性,組分的潛熱[12]、泡點溫度等因素均會對最優(yōu)精餾結(jié)構(gòu)對應(yīng)的分區(qū)有影響,導(dǎo)致即便ESI相同,不同的物系所對應(yīng)的最優(yōu)精餾結(jié)構(gòu)分區(qū)會有不同。如果考慮更多的因素,三元組成三角圖分區(qū)會十分復(fù)雜,導(dǎo)致基于這種三角圖分區(qū)劃分的三組元精餾結(jié)構(gòu)的決策十分困難。為解決這一問題,袁野[14]以及王磊[15]均嘗試通過三角圖上的區(qū)域劃分歸納出用于最優(yōu)精餾結(jié)構(gòu)決策的規(guī)則。然而,這種歸納是基于人為圖形觀察,由于上述不確定性的存在,歸納出的規(guī)則很難具有良好的適用性。
決策樹是一種經(jīng)典的機器學(xué)習(xí)方法[16-17],它以信息熵、基尼系數(shù)等指標(biāo)作為判據(jù)依次對系統(tǒng)影響的主要因素加以判別,最終按影響因素的重要性對數(shù)據(jù)進(jìn)行有效的分類。上述基于組成三角圖劃分的三組元精餾分析方法雖然不便于精餾序列結(jié)構(gòu)的優(yōu)化決策,但可提供主要影響因素與最優(yōu)精餾結(jié)構(gòu)的一一對應(yīng)關(guān)系數(shù)據(jù),為通過訓(xùn)練決策樹進(jìn)而獲得系統(tǒng)化的決策方法提供了可能。本文針對三組元最優(yōu)精餾結(jié)構(gòu)的決策,引入分類回歸樹(classification and regression tree,CART)方法,采用嚴(yán)格模擬建立數(shù)據(jù)集,提出采用數(shù)據(jù)信息熵的方法實現(xiàn)影響最優(yōu)精餾序列結(jié)構(gòu)選擇的特征識別方法,進(jìn)而建立了一種可根據(jù)進(jìn)料物系、組成以及分離要求等已知條件快速確定三組元精餾最優(yōu)流程序列結(jié)構(gòu)的決策序列,即決策樹的方法。
針對三組元精餾,通??煽紤]9種序列結(jié)構(gòu),即直接序列(D)、間接序列(I)、間接序列熱耦合(IS)、直接序列熱耦合(DS)、直接序列反饋能量集成(DI)、直接序列前饋能量集成、間接序列前饋能量集成(II)、間接序列反饋能量集成和隔板塔(DWC)。由于直接序列前饋能量集成和間接序列反饋能量集成已被證明可操作性差,同時不具有優(yōu)勢[18],故本文僅考慮除這兩種結(jié)構(gòu)外的其他7 種作為候選的結(jié)構(gòu),即D、I、IS、DS、DI、II 和DWC。相應(yīng)的精餾序列結(jié)構(gòu)如圖1所示。
本文數(shù)據(jù)引自文獻(xiàn)[14-15],選擇四種理想物系:異丁烷/正丁烷/異戊烷、正戊烷/正乙烷/正庚烷、正乙烷/正庚烷/正辛烷、苯/甲苯/乙苯作為對象。隨機選擇的分離要求如表1所示。其中混合物三個組分按揮發(fā)度從大到小依次命名為A、B 和C。針對表1 中每一種分離要求均選取34種不同的進(jìn)料組成,該34個進(jìn)料組成均勻分布于進(jìn)料組成的三角圖上,以近似涵蓋所有可能的進(jìn)料組成。進(jìn)料流率為300 kmol/h,并規(guī)定泡點進(jìn)料。GESI 是表示一個三組元混合物精餾分離特性的指標(biāo)[14],由式(1)給出,定義為在全回流的條件下分別將B/C 和A/B 二元混合物分離到給定產(chǎn)品純度所需最小理論板數(shù)之比,度量的是兩種分離難度之比。
使用Aspen Plus 嚴(yán)格模擬軟件,以表1 中6 種分離要求以及34 種進(jìn)料組成(共204 個組合)作為已知條件分別對7 種精餾序列進(jìn)行模擬和優(yōu)化,并計算相應(yīng)的TAC,計算公式參考文獻(xiàn)[19]。通過比對7 個序列的TAC,給出對應(yīng)每一組已知條件的最優(yōu)流程結(jié)構(gòu),以此建立已知條件和最優(yōu)精餾結(jié)構(gòu)的一一對應(yīng)關(guān)系。
圖1 本研究考察的三組元精餾結(jié)構(gòu)Fig.1 Ternary distillation sequences considered in this study
表1 三組元物系和分離要求Table 1 Ternary mixtures and separation requirement
上述已知條件包括所有物性數(shù)據(jù)、進(jìn)料摩爾分率和產(chǎn)品純度規(guī)定,按照已知條件與最優(yōu)精餾結(jié)構(gòu)的對應(yīng)關(guān)系,與一個最優(yōu)精餾結(jié)構(gòu)對應(yīng)的那一組已知條件值可被視為該最優(yōu)精餾結(jié)構(gòu)的特征,用實數(shù)表示,則有特征矩陣X,每一最優(yōu)精餾結(jié)構(gòu)所對應(yīng)的那一組特征構(gòu)成矩陣X 中的一行,即xi,亦稱為特征行。X 中的行數(shù)N 亦稱為數(shù)據(jù)X 的規(guī)模。X 中的第j列為第j 個特征。設(shè)特征總數(shù)為M,即X 的列數(shù),則j≤M。特征行xi所對應(yīng)的最優(yōu)精餾結(jié)構(gòu)記為yi,yi亦稱為類。與所有特征行相對應(yīng)的最優(yōu)精餾結(jié)構(gòu)組成列向量y,亦稱類向量。X和y構(gòu)成了數(shù)據(jù)集D,即
若將X 視為集合,xi為其中的第i 個元素,類似地,y 為集合,yi為其中第i 個元素,則X 中某些元素的組合Xs為X的一個子集,即Xs?X,對應(yīng)地,ys?y,其中s為子集的說明符。于是可定義D的子集
且有Ds?D。由子集Xs的定義可知,如果Xs和ys分別包含X 和y 的所有元素,則D 可以被視為它本身的一個子集,即Ds=D。
分類回歸樹,簡稱CART 決策樹[17],是一種經(jīng)典決策樹模型[20-24]。通過CART 算法得到的決策樹稱為CART決策樹。CART決策樹呈二叉樹形結(jié)構(gòu),其結(jié)構(gòu)如圖2 所示,包括位于頂部的一個根節(jié)點(開始節(jié)點)、若干個中間節(jié)點以及終端節(jié)點,亦稱葉子節(jié)點。
CART 決策樹在每一個非葉子節(jié)點上選擇影響最大的特征及其對應(yīng)的分割點,從而將當(dāng)前節(jié)點的數(shù)據(jù)集Ds劃分為更“純”的左、右兩個子集。一個數(shù)據(jù)集Ds的純度,即ys中類的一致性,可用數(shù)據(jù)集的信息熵(Shannon entropy)E(Ds)[25]衡量,其定義式為
圖2 CART決策樹結(jié)構(gòu)示意圖Fig.2 A CART decision tree classifier
其中,K 為ys中出現(xiàn)的精餾結(jié)構(gòu)種類的總數(shù),k為種類的序號,p(k,ys)表示在向量ys中第k 個種類的數(shù)量與ys中所有種類的總數(shù)之比。由上述定義可知,與熱力學(xué)熵相類似,信息熵值越大,ys中的種類越多樣,越不純,反之則ys中的元素類趨于同種類。對于數(shù)據(jù)集Ds,CART 的分類是指在Xs中挑選一個特征j,即Xs中的第j 列,以實數(shù)tj為分割點將數(shù)據(jù)集Ds劃分為由式(5)給出的左、右兩個子集DsL和DsR
其中,xij為Xs中第i 行第j 列元素。CART 中對j和tj的選擇遵循分類最有效原則,即挑選能夠?qū)崿F(xiàn)最有效分類的j*和tj*。對分類的有效性則采用信息熵增益IG(information gain)作為判別準(zhǔn)則。一次分類的信息熵增益被定義為
其中,|Ds|表示集合Ds中元素的數(shù)量。熵增益代表了分類的有效程度,即分類后各個子集中的類越純,則熵增益越大,因此j*和tj*由式(7)給出
當(dāng)數(shù)據(jù)集被劃分為左、右子集后,各自可以按照相同原理遞歸繼續(xù)劃分各自的左、右子集,直到?jīng)Q策樹生長到足夠的深度或得到子集無法繼續(xù)分割。
本文選擇三組元混合物中各組元的進(jìn)料組成F1、F2、F3以及廣義分離因子GESI[12]作為特征(即已知條件),即在矩陣X 中共有4列;X 中的每一行xi對應(yīng)一個特征組合,以此為已知條件分別對7 種精餾結(jié)構(gòu)進(jìn)行最優(yōu)化并通過比較選出最優(yōu)精餾結(jié)構(gòu),該最優(yōu)精餾結(jié)構(gòu)名稱為yi,即類向量y 中的第i 個元素。1.1 節(jié)采用的204 組已知條件構(gòu)成X 中的204 行,每組行對應(yīng)的最優(yōu)精餾結(jié)構(gòu)的名稱構(gòu)成y。
本文使用1.1 節(jié)模擬優(yōu)化得到204 個數(shù)據(jù)點作為訓(xùn)練集D,在Python/Scikit-learn[26]平臺上構(gòu)建CART 決策樹模型,并使用Graphviz[27]繪制出樹狀格式進(jìn)行表示。
基于數(shù)據(jù)集D 形成的CART 決策樹如圖3(a)所示。以圖3(a)決策樹根節(jié)點為例,其中的信息說明如圖4所示。第一行代表在該節(jié)點由式(7)計算得到的xij為特征GESI,tj值為0.802,并以此為判據(jù)將數(shù)據(jù)集D 劃分為左右兩個子集,即滿足判據(jù)的特征行及其對應(yīng)的類被劃分到左子樹,形成左子集,不滿足的數(shù)據(jù)被劃分到右子樹,形成右子集;entropy 表示當(dāng)前節(jié)點的信息熵;samples 代表當(dāng)前節(jié)點的數(shù)據(jù)量,即D 中的元素數(shù);value 代表sample 中屬于不同類別的數(shù)據(jù)數(shù)量;在本例數(shù)據(jù)集D 的構(gòu)建中,嚴(yán)格模擬、優(yōu)化計算表明,表1 給出的物系和分離要求,以及34 種進(jìn)料組成所對應(yīng)的最優(yōu)精餾結(jié)構(gòu)僅有SS、DWC 和DI,即數(shù)據(jù)集D 中的類向量y 中有3 種精餾結(jié)構(gòu),value 中的三個數(shù)據(jù)分別給出了這3 種精餾結(jié)構(gòu)在本節(jié)點的數(shù)量;class返回的是在value中值最大數(shù)據(jù)對應(yīng)的類別,即DWC。圖3(a)表明,在根節(jié)點如果選擇xij為GESI且tGESI=0.802對根節(jié)點204個數(shù)據(jù)進(jìn)行分類,即滿足GESI ≤0.802 的數(shù)據(jù)進(jìn)入左子樹,否則進(jìn)入右子樹,則可以獲得最大的信息增益,由式(6)可知這一最大信息增益為0.4159。在分類過程中信息增益為正,表明分類后的信息熵下降,表明子集數(shù)據(jù)純度增加。
節(jié)點信息中的class 可視為當(dāng)前節(jié)點可優(yōu)選的精餾結(jié)構(gòu)分類,其依據(jù)是該分類在value中對應(yīng)的數(shù)量最多。例如根節(jié)點的優(yōu)選分類為DWC,因為在數(shù)據(jù)集D 的204 個數(shù)據(jù)中有92 個以DWC 為最優(yōu)精餾結(jié)構(gòu),占45%(92/204)。亦即,對于表1 中的物系在任何情況下如果選擇DWC 精餾結(jié)構(gòu),則有45%的概率是正確的。而這一正確率隨著決策樹分類的進(jìn)行逐步提高,例如,圖3(a)中第3 層各節(jié)點優(yōu)選精餾結(jié)構(gòu)(即class 的值)的正確率從左至右分別為93%、96%、91%和64%,這是信息熵逐層下降的結(jié)果。將該層最左邊的節(jié)點繼續(xù)分類,其左子節(jié)點的class 值為IS,其正確率提高到了95%(38/40);右子節(jié)點選擇DI的正確率為50%,但這一不確定性僅涉及在2 個數(shù)據(jù)點中選取1 個,其對總誤差的貢獻(xiàn)率為0.5%。如考察圖3(a)所有末端節(jié)點,其總誤差為11.8%,即該決策樹用于預(yù)測表1所示的三元物系最優(yōu)精餾結(jié)構(gòu)的準(zhǔn)確率為88.2%。
圖3 算例的CART可視化圖(a),CART左子樹(b)和右子樹(c)可視化三角圖Fig.3 The visualization of CART for case(a),the left subtree branch(b)and the right subtree branch(c)of CART
圖4 CART決策樹節(jié)點信息指示Fig.4 Introduction for node in CART decision tree
圖3(b)為根節(jié)點的左子樹精餾結(jié)構(gòu)在進(jìn)料組成三角圖上的分布,從圖中可看出,對于劃分到左子樹的數(shù)據(jù)點,僅有2種序列是占優(yōu)的,根據(jù)其進(jìn)料組成不同,在IS 和DWC 兩種結(jié)構(gòu)中選擇,即對于異構(gòu)烷烴物系,其余的5 個候選序列始終不占優(yōu)[28]。根節(jié)點的右子樹可以按照相同方法總結(jié)另外三條規(guī)則:當(dāng)F1≤0.15 且F2≤0.15 時,IS 結(jié)構(gòu)占優(yōu);當(dāng)F1≤0.15且F2>0.15時,DWC占優(yōu);當(dāng)F1>0.15且F3≤0.45時,DI 結(jié)構(gòu)相比其他序列更具有經(jīng)濟(jì)性。圖3(c)為決策樹右子樹的可視化,可以清晰地看出對于苯物系和正構(gòu)烷烴物系,在不同的條件下,7 個候選序列僅有3 個序列分布在三角圖中,這表明其余的4 個序列是始終不占優(yōu)的,僅需從IS、DWC、DI三個序列中做選擇即可進(jìn)行最優(yōu)精餾序列選擇。此外,IS 的區(qū)域要遠(yuǎn)小于DWC 和DI各自的區(qū)域,僅在輕組分、中間組分含量均很小的時候才會占優(yōu);與之相反,DWC 和DI 近似均分了三角圖剩下區(qū)域,這說明對于大多數(shù)分離任務(wù),DWC 和DI 序列都具有更好的經(jīng)濟(jì)性[29-30]。
基于圖3(a)所示的CARD 決策樹,可以提取出用于最優(yōu)精餾結(jié)構(gòu)設(shè)計的決策序列。決策樹中的每一個結(jié)點均對應(yīng)一條規(guī)則,例如根節(jié)點的規(guī)則即為GESI≤0.802 時,應(yīng)考察F2≤0.35 是否滿足,若滿足應(yīng)進(jìn)而考察F1≤0.75是否滿足,如滿足則應(yīng)該采用IS精餾結(jié)構(gòu),否則采用DI;當(dāng)F2≤0.35 不滿足時則應(yīng)考察F3≤0.45 是否滿足,如滿足則采用DWC 為精餾結(jié)構(gòu),否則采用IS;當(dāng)GESI≤0.802 不能滿足時則應(yīng)考察F1≤0.15 是否滿足,若滿足應(yīng)進(jìn)而考察F2≤0.15 是否滿足,如滿足則應(yīng)該采用IS 精餾結(jié)構(gòu),否則采用DWC;當(dāng)F1≤0.15 不滿足時則應(yīng)考察F3≤0.45 是否滿足,如滿足則采用DI為精餾結(jié)構(gòu),否則采用DWC。
由于CART 決策樹會在每一個非葉子節(jié)點選擇一個特征將數(shù)據(jù)集劃分為更純的兩個子集,該特征使得在該節(jié)點進(jìn)行分類信息熵下降最多,即在該節(jié)點影響最大的特征。類比三組元精餾結(jié)構(gòu)選擇問題,一個特征造成信息熵在分類過程中下降的程度可視為該特征對最優(yōu)精餾序列選擇影響的重要性。在分類中特征的重要性可以由FI 因子(features importance)定義,特征的FI 因子定義為該特征在決策樹學(xué)習(xí)過程中使數(shù)據(jù)集的信息熵下降累加的歸一化值,F(xiàn)I 因子可以定量給出不同特征對序列選擇的影響。本模型中CART 決策樹訓(xùn)練過程中得到的FI 因子如圖5 所示。從圖中可以看出,選擇的四個特征中,對三組元序列選擇影響最大的是GESI 指標(biāo),即不同的分離難度會顯著影響序列選擇。此外,三個組分進(jìn)料組成對序列選擇的影響并不相等,中間組分進(jìn)料流率占比(F2)對選擇的影響要高于其他兩個組分。
圖5 基于信息熵的變量重要性(FI)Fig.5 Feature importance(FI)measurements on entropy
應(yīng)該指出,圖3(a)所示的決策樹是基于表1 中的三元物系的訓(xùn)練結(jié)果,所得準(zhǔn)確率也是針對這些物系而言的。因此若將本文結(jié)果用于其他物系則準(zhǔn)確率會有所下降,特別對于非理想物系誤差可能較大。但提出的訓(xùn)練過程的意義在于它為建立三組元精餾設(shè)計最優(yōu)決策提供了一種有效的方法,通過在數(shù)據(jù)集中增加新的數(shù)據(jù)增加決策的正確率。通過應(yīng)用規(guī)則進(jìn)行決策是三組元精餾結(jié)構(gòu)最優(yōu)化設(shè)計的快速、高效的方法,然而傳統(tǒng)的經(jīng)驗規(guī)則雖然也具有這些優(yōu)勢,但存在多條規(guī)則之間矛盾、規(guī)則運用順序不確定性等顯著弱點。由決策樹產(chǎn)生的規(guī)則可有效避免上述弱點,同時隨著決策樹的提出,通過數(shù)據(jù)集的不斷補充、積累,準(zhǔn)確、有效、確定的三元精餾結(jié)構(gòu)最優(yōu)決策規(guī)則型設(shè)計將成為可能。
(1)本文針對三組元精餾結(jié)構(gòu)最優(yōu)合成,采用決策樹的方法提出了一種基于數(shù)據(jù)驅(qū)動的決策模型,該模型具有可視化性、可解釋性,且可以實現(xiàn)復(fù)雜的三組元最優(yōu)序列選擇。
(2)提出的決策模型可以在決策的同時輸出決策規(guī)則。在算例演示中,使用該方法找出了一套三組元精餾結(jié)構(gòu)最優(yōu)合成規(guī)則,且發(fā)現(xiàn)的規(guī)則與傳統(tǒng)經(jīng)驗規(guī)則相比具有確定性。
(3)提出了一種基于信息熵降的衡量不同特征對三組元精餾序列選擇的定量化指標(biāo)FI 因子。FI因子越大特征對于序列選擇影響越大,反之,對序列選擇的影響越小。
(4)提出的方法是一種數(shù)據(jù)驅(qū)動的方法,相比于前人依賴工程師經(jīng)驗的主觀分析,不僅不會因為待分析的數(shù)據(jù)量增加而處理困難,反而會隨著數(shù)據(jù)規(guī)模的日益擴大,得到更多、更準(zhǔn)確的決策規(guī)則。
值得指出的是,目前提出的方法僅在理想物系的算例上驗證了方法的有效性,針對更普適的最優(yōu)精餾序列選擇,仍需通過添加數(shù)據(jù),涵蓋更多的考察物系以及分離要求進(jìn)一步分析。由于決策樹方法是數(shù)據(jù)驅(qū)動的,依賴于精準(zhǔn)高效的數(shù)據(jù),因此快速高效地產(chǎn)生充足且質(zhì)量高的訓(xùn)練數(shù)據(jù),這也將是今后應(yīng)解決的問題。
符 號 說 明
D——數(shù)據(jù)集
Ds——數(shù)據(jù)集D子集
DsL——Ds的左子集
DsR——Ds的右子集
E(D)——數(shù)據(jù)集D的信息熵
ESI——分離因子
GESI——通用分離因子
j——X矩陣第j列(第j個特征)
j*——決策樹節(jié)點最優(yōu)劃分特征
K——類別總數(shù)
k——類別序號
N——數(shù)據(jù)集D樣本數(shù)
NAB——分離A/B二元混合物所需的最小理論塔板數(shù)
NBC——分離B/C二元混合物所需的最小理論塔板數(shù)
p(k,y)——第k 個種類的數(shù)量與y 中所有種類的總數(shù)之比
TAC——年度總費用
tj——第j個特征對應(yīng)的分割點
tj*——最優(yōu)劃分特征對應(yīng)的最優(yōu)分割點
X——分離任務(wù)矩陣
Xs——X矩陣子集
xi——X矩陣中第i個元素
xij——Xs中第i行第j列元素
y——最優(yōu)精餾序列向量
yi——y矩陣中第i個元素
ys——y向量子集
αAB——輕組分、中間組分間相對揮發(fā)度
αBC——中間組分、重組分間相對揮發(fā)度