鄔云飛,欒小麗,劉飛
(江南大學(xué)自動(dòng)化研究所,輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122)
2,6-二甲酚(2,6-dimethylphenol,2,6-DMP)是重要的有機(jī)化工中間體,主要由苯酚和甲醇的氣相或者液相烷基化合成,其氧化聚合可形成五大工程塑料之一的聚苯醚(PPO)[1]。此外,2,6-DMP 還被用于生產(chǎn)抗氧化劑[2]和檢測(cè)洗滌劑[3]。在對(duì)2,6-DMP的分離提純過程中,過去大多采用物理或者化學(xué)的測(cè)定法,即通過測(cè)定沸程、凝固點(diǎn)或者進(jìn)行某些氧化還原反應(yīng)滴定來確定2,6-DMP 純度。針對(duì)這些方法測(cè)定組分單一、操作復(fù)雜的問題,陳藕君等[4]提出了用填充柱氣相色譜法來測(cè)定2,6-DMP 純度。但是上述測(cè)定方法均是由人工操作,測(cè)定時(shí)間長,不能用于在線檢測(cè),從而無法實(shí)時(shí)調(diào)控2,6-DMP 產(chǎn)品質(zhì)量。
近紅外光譜是一種快速、高效、多組分測(cè)定的分析技術(shù),而且不需要對(duì)樣本進(jìn)行復(fù)雜的預(yù)處理,可以進(jìn)行在線檢測(cè),已在酯交換過程[5-6]和聚合過程[7-8]中得到了成功應(yīng)用。近紅外光(near infrared)是介于可見光(Vis)和中紅外(MIR)之間的電磁輻射波。近紅外光譜區(qū)(760~2526 nm)與有機(jī)分子中含氫基團(tuán)(O—H、N—H、C—H)振動(dòng)的合頻和各級(jí)倍頻的吸收區(qū)一致,通過掃描樣品的近紅外光譜,可以得到樣品中有機(jī)分子含氫基團(tuán)的特征信息[9]。2,6-DMP 中的C—H 鍵具有吸收近紅外范圍內(nèi)電磁輻射的能力,因此可以利用近紅外光譜進(jìn)行在線檢測(cè)[10]。近紅外光譜的在線檢測(cè)需要建立一個(gè)穩(wěn)健的模型,以保證模型在線運(yùn)行的準(zhǔn)確性。任玉林等[11]利用人工神經(jīng)網(wǎng)絡(luò)非線性多變量校正的特點(diǎn),用于粉末藥品甲氧芐胺嘧啶的近紅外光譜快速分析,得到了令人滿意的結(jié)果;瞿海斌等[12]提出近紅外光譜的支持向量機(jī)回歸校正建模方法,建立的三七藥材滲漉提取液近紅外光譜校正模型預(yù)測(cè)效果優(yōu)于偏最小二乘回歸模型和徑向基神經(jīng)網(wǎng)絡(luò)模型;馮愛明等[13]將高斯過程回歸方法作為新的化學(xué)計(jì)量學(xué)手段,對(duì)近紅外光譜數(shù)據(jù)進(jìn)行建模,得到了精確度高、解釋能力強(qiáng)的分析模型,與人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)相比,高斯過程模型參數(shù)明顯減少;Chakraborty[14]將貝葉斯多元回歸非線性模型應(yīng)用于近紅外光譜分析中,解決了光譜多重共線性以及波數(shù)遠(yuǎn)多于樣本數(shù)的問題;Bian 等[15]引入極限學(xué)習(xí)機(jī)用于近紅外光譜復(fù)雜樣品的定量分析中,利用其可以結(jié)合線性和非線性方法的優(yōu)點(diǎn),建立了準(zhǔn)確的校正模型;Wang 等[16]基于Monte Carlo 重采樣、最小絕對(duì)收縮和選擇算子及偏最小二乘方法提出了一種新的集成策略用于近紅外光譜多元校正,充分利用已知訓(xùn)練集的信息,提高了單個(gè)模型的預(yù)測(cè)準(zhǔn)確性。上述方法雖然提高了近紅外模型的準(zhǔn)確性與穩(wěn)健性,但是不能解決樣本數(shù)據(jù)區(qū)分度低、質(zhì)量差的問題。
利用近紅外光譜對(duì)2,6-DMP 純度進(jìn)行在線檢測(cè)時(shí),由于2,6-DMP 產(chǎn)品塔的產(chǎn)品純度一般在99.10%~99.95%,光譜之間的區(qū)分度低,使得所采集的光譜和物性濃度之間缺乏相關(guān)性,導(dǎo)致2,6-DMP精餾提純過程產(chǎn)品純度的檢測(cè)精度較低。由于遷移學(xué)習(xí)可以充分利用具有一定相似性的數(shù)據(jù)[17],實(shí)現(xiàn)不同數(shù)據(jù)域的知識(shí)傳遞,已被成功應(yīng)用于工業(yè)過程的建模[18-21]以及故障診斷[22-25]等。因此本文將遷移學(xué)習(xí)引入2,6-DMP 精餾提純過程產(chǎn)品純度的近紅外在線檢測(cè),充分利用粗品塔光譜數(shù)據(jù)中包含的知識(shí),實(shí)現(xiàn)產(chǎn)品塔2,6-DMP 純度的近紅外在線建模,從而在目標(biāo)檢測(cè)點(diǎn)光譜區(qū)分度較低的情況下,建立具有可靠性和高預(yù)測(cè)精度的模型,為2,6-DMP產(chǎn)品質(zhì)量的實(shí)時(shí)調(diào)控提供可能。
本文所研究的2,6-DMP 單體分離工段精餾提純過程工藝如圖1所示。首先,苯酚、甲醇和水進(jìn)行烷基化反應(yīng),得到的反應(yīng)氣中包含2,6-DMP、鄰甲酚、一氧化碳、二甲醚、氫氣等物質(zhì)以及未反應(yīng)的苯酚和甲醇。然后采用精餾分離的方法獲得純度比較高的2,6-DMP 產(chǎn)品。反應(yīng)氣經(jīng)汽化器降溫后直接進(jìn)入脫醇水塔,脫出醇水后進(jìn)入脫苯酚塔脫出苯酚,剩下的反應(yīng)氣進(jìn)入鄰甲酚粗品塔;在鄰甲酚粗品塔的塔頂脫出高含量的鄰甲酚進(jìn)入鄰甲酚成品塔;鄰甲酚粗品塔的塔底物料進(jìn)入2,6-DMP 產(chǎn)品塔,塔頂獲得純度≥99%的產(chǎn)品2,6-DMP 供工程塑料單元使用。
圖1 工藝流程圖Fig.1 Process flow diagram
為了對(duì)2,6-DMP 精餾提純過程的中間產(chǎn)品以及產(chǎn)品純度進(jìn)行在線檢測(cè),分別在脫苯酚塔的底部、鄰甲酚粗品塔的底部和2,6-DMP 產(chǎn)品塔的頂部安裝了近紅外光譜檢測(cè)探頭,可以在線收集不同檢測(cè)點(diǎn)的近紅外光譜數(shù)據(jù),同時(shí)將采集的樣品送到化驗(yàn)室,通過氣相色譜法分析獲得光譜數(shù)據(jù)對(duì)應(yīng)的物性濃度值。
由于各檢測(cè)點(diǎn)的復(fù)合有機(jī)物含量不同,含氫基團(tuán)相互影響,光譜存在明顯的差異。但是有機(jī)成分存在交叉,吸收光譜的特征峰會(huì)有重疊,即不同檢測(cè)點(diǎn)處采集的光譜數(shù)據(jù)具有相似性,如圖2 所示。因此,針對(duì)2,6-DMP 產(chǎn)品塔的產(chǎn)品純度無法精確建模問題,可以借助基于實(shí)例的遷移學(xué)習(xí)方法[26],提取出產(chǎn)品塔和脫苯酚塔以及鄰甲酚粗品塔光譜之間的相似信息,利用不同塔之間的數(shù)據(jù)相似性,借助于其他塔中較低2,6-DMP 純度的近紅外光譜數(shù)據(jù),提升產(chǎn)品塔中較高2,6-DMP 純度的近紅外模型性能。
圖2 不同檢測(cè)點(diǎn)處的光譜比較Fig.2 Spectral comparison at different detecting points
近紅外光譜能夠反映出物料成分的信息,但是采集到的樣本光譜往往不僅包含需要的物質(zhì)信息,還包含大量的噪聲和無關(guān)信息,因此近紅外光譜數(shù)據(jù)的采集與預(yù)處理至關(guān)重要[27]。本文以2,6-DMP產(chǎn)品塔頂部檢測(cè)點(diǎn)采集的光譜數(shù)據(jù)為目標(biāo)域,脫苯酚塔底部檢測(cè)點(diǎn)和鄰甲酚粗品塔底部檢測(cè)點(diǎn)采集的光譜數(shù)據(jù)為源域。
(1)光譜采集:本文建模所用的原始光譜來自某合成材料公司的2,6-DMP 單體分離工段。采集樣品時(shí)以空氣作為背景掃描光譜,檢測(cè)狀態(tài)均為液相,溫度100℃,選用透射式探頭,安裝方式是在出料管道設(shè)計(jì)旁路,在旁路安裝法蘭口,將透射式探頭插入法蘭口中,保證與物料流動(dòng)方向呈45°夾角,以保證物料流動(dòng)過程中不會(huì)在光程處產(chǎn)生堵塞。光程為1 mm,樣本掃描次數(shù)為64 次,掃描光譜范圍為12500~4000 cm-1,結(jié)果光譜為吸光度。
(2)光譜預(yù)處理:首先剔除掉近紅外光譜首尾噪聲較大且無關(guān)的波段,光譜圖如圖3(a)所示,橫坐標(biāo)為波數(shù),縱坐標(biāo)為吸光度,左側(cè)為脫苯酚塔檢測(cè)點(diǎn)采集的光譜,中間的為鄰甲酚粗品塔檢測(cè)點(diǎn)采集的光譜,右側(cè)的為2,6-DMP 產(chǎn)品塔檢測(cè)點(diǎn)采集的光譜。由圖3(a)可知,各個(gè)檢測(cè)點(diǎn)光譜數(shù)據(jù)存在不同程度基線偏移現(xiàn)象。使用The Unscrambler X軟件進(jìn)行基線校正處理,對(duì)于每條光譜,從所有變量中減去光譜中的最小值,消除儀器背景和漂移對(duì)測(cè)量光譜的影響,計(jì)算公式如式(1)所示。最后采用均值歸一化方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,即將每條光譜除以其平均值,消除變量間的量綱影響,計(jì)算公式如式(2)所示。預(yù)處理后的近紅外光譜如圖3(b)所示。
圖3 數(shù)據(jù)預(yù)處理前后的光譜Fig.3 Near-infrared spectra before and after data preprocessing
其中,xnor表示均值歸一化后的光譜;xcor表示基線校正后的光譜;xˉcor表示光譜的均值。
(3)純度值標(biāo)注:樣本的純度值由化驗(yàn)室通過氣相色譜法分析獲得,不同檢測(cè)點(diǎn)處的2,6-DMP 純度分布對(duì)比結(jié)果如表1 所示。脫苯酚塔檢測(cè)點(diǎn)的2,6-DMP 純度為73.90%~88.94%,苯酚脫去之后鄰甲酚粗品塔檢測(cè)點(diǎn)的2,6-DMP 純度為96.47%~98.49%,產(chǎn)品塔檢測(cè)點(diǎn)的2,6-DMP 純度為99.81%~99.95%。隨著純度的提高,分布越來越集中,分散性低,且純度值有很高的重復(fù)性,多樣性差。
表1 不同檢測(cè)點(diǎn)的2,6-DMP純度值分布Table 1 2,6-DMP purity distribution at different detecting points
為了解決2,6-DMP 產(chǎn)品塔的產(chǎn)品純度由于樣本區(qū)分度低導(dǎo)致的無法建模難題,本文采用基于實(shí)例的遷移學(xué)習(xí)TrAdaBoost.R2 算法[28],通過加權(quán)的方式對(duì)三個(gè)檢測(cè)點(diǎn)的光譜加以利用?;赽oosting 思想,以迭代的形式,調(diào)整目標(biāo)域和源域光譜的權(quán)重。
TrAdaBoost.R2算法具體描述如下。
(1)輸入:設(shè)脫苯酚塔和鄰甲酚粗品塔的樣本集為Ta=(xi,yi) ,i= 1,…,n,產(chǎn)品塔樣本集為Tb=(xj,yj) ,j= 1,…,m,其中xi、xj表示脫苯酚塔和鄰甲酚粗品塔與產(chǎn)品塔的光譜,yi、yj表示脫苯酚塔和鄰甲酚粗品塔與產(chǎn)品塔光譜對(duì)應(yīng)的2,6-DMP 純度值,n為脫苯酚塔和鄰甲酚粗品塔的樣本個(gè)數(shù),m為產(chǎn)品塔的樣本個(gè)數(shù);令X={xi,xj;i= 1,…,n,j= 1,…,m},Y={yi,yj;i= 1,…,n,j= 1,…,m},合并的樣本集T=Ta∪Tb。
(2)設(shè)置迭代次數(shù)N和基學(xué)習(xí)器Learner,并進(jìn)行參數(shù)初始化。
(4)輸出最終的產(chǎn)品塔模型fN(?)
TrAdaBoost.R2 算法通過建立光譜權(quán)重自動(dòng)更新機(jī)制,減小不同檢測(cè)點(diǎn)采集光譜之間的分布差異,保留脫苯酚塔和鄰甲酚粗品塔中和產(chǎn)品塔相似性大的光譜,淘汰掉與產(chǎn)品塔差異較大的光譜,從而使粗品塔的光譜能夠幫助提升產(chǎn)品塔模型的檢測(cè)精度。應(yīng)用該算法建模的流程如圖4所示。
圖4 遷移學(xué)習(xí)算法建模流程圖Fig.4 Modeling flow diagram of transfer learning algorithm
本文的基學(xué)習(xí)器Learner 是偏最小二乘回歸(partial least squares regression,PLS 回歸)算法[30],PLS 算法不僅能解決變量的多重共線性問題,還能降低光譜數(shù)據(jù)的維度,建立起光譜數(shù)據(jù)X={xi,xj;i= 1,…,n,j= 1,…,m}與2,6-DMP 純度Y={yi,yj;i= 1,…,n,j= 1,…,m}之間的回歸關(guān)系。
(1)PLS 算法首先對(duì)X和Y歸一化處理,然后提取主元
選取合適的主元個(gè)數(shù)能夠有效減少預(yù)測(cè)誤差,避免過擬合,主元個(gè)數(shù)一般通過交叉驗(yàn)證確定。
(1)將2,6-DMP 產(chǎn)品塔采集的數(shù)據(jù)按照3∶2 比例分為訓(xùn)練集和測(cè)試集,建立模型。模型性能的評(píng)價(jià)指標(biāo)為預(yù)測(cè)均方根誤差(root mean square error of prediction,RMSEP),計(jì)算公式如下
其中,r為測(cè)試集的樣本個(gè)數(shù);y?k為第k個(gè)測(cè)試樣本的預(yù)測(cè)純度值;yk為第k個(gè)測(cè)試樣本的實(shí)際純度值。
如圖5 所示,當(dāng)只用2,6-DMP 產(chǎn)品塔的光譜數(shù)據(jù)進(jìn)行建模時(shí),模型得到的預(yù)測(cè)值不能跟隨實(shí)際值的變化趨勢(shì),具有較大的誤差。
圖5 2,6-DMP產(chǎn)品塔光譜數(shù)據(jù)建模預(yù)測(cè)效果Fig.5 Prediction effect based on spectral data of 2,6-DMP product tower
(2)為了分析不同純度區(qū)間的輔助光譜對(duì)2,6-DMP 產(chǎn)品塔純度檢測(cè)精度的影響,將脫苯酚塔檢測(cè)點(diǎn)和鄰甲酚粗品塔檢測(cè)點(diǎn)采集的光譜數(shù)據(jù),按照純度分別劃分為11 個(gè)和10 個(gè)區(qū)間,如表2 所示。每個(gè)區(qū)間內(nèi)包含30 個(gè)光譜,與產(chǎn)品塔訓(xùn)練集的30 個(gè)光譜組成合并訓(xùn)練集,產(chǎn)品塔的測(cè)試集保持不變。
表2 不同檢測(cè)點(diǎn)的2,6-DMP純度區(qū)間劃分Table 2 Domain partition of 2,6-DMP purity at different detecting points
為了更直觀地觀察TrAdaBoost.R2算法效果,引入指標(biāo)性能提升百分比IP,計(jì)算公式如(15)所示。
其中,RMSEPPLS表示僅使用產(chǎn)品塔訓(xùn)練集訓(xùn)練PLS 模型的預(yù)測(cè)均方根誤差;RMSEPTrAdaBoost.R2-PLS表示使用合并訓(xùn)練集并運(yùn)用TrAdaBoost.R2 算法訓(xùn)練PLS模型的預(yù)測(cè)均方根誤差。
為了比較TrAdaBoost.R2算法的性能,分別用支持向量機(jī)回歸和BP神經(jīng)網(wǎng)絡(luò)算法進(jìn)行建模,支持向量機(jī)回歸選擇線性核函數(shù),BP神經(jīng)網(wǎng)絡(luò)的隱含層數(shù)為5,訓(xùn)練網(wǎng)絡(luò)迭代次數(shù)為100。圖6(a)是遷移脫苯酚塔的光譜數(shù)據(jù)輔助建模所得的建模誤差,圖6(b)是遷移脫苯酚塔的光譜數(shù)據(jù)后的模型性能提升百分比。圖7(a)是遷移鄰甲酚粗品塔的光譜數(shù)據(jù)輔助建模所得的建模誤差,圖7(b)是遷移鄰甲酚粗品塔的光譜數(shù)據(jù)后的模型性能提升百分比。合并光譜曲線表示脫苯酚塔光譜或鄰甲酚粗品塔光譜與產(chǎn)品塔光譜合并后運(yùn)用偏最小二乘回歸算法的建模誤差,遷移光譜曲線表示脫苯酚塔光譜或鄰甲酚粗品塔光譜與產(chǎn)品塔光譜合并后運(yùn)用遷移學(xué)習(xí)算法的建模誤差,支持向量機(jī)曲線表示脫苯酚塔光譜或鄰甲酚粗品塔光譜與產(chǎn)品塔光譜合并后運(yùn)用支持向量機(jī)回歸的建模誤差,BP神經(jīng)網(wǎng)絡(luò)曲線表示脫苯酚塔光譜或鄰甲酚粗品塔光譜與產(chǎn)品塔光譜合并后運(yùn)用BP神經(jīng)網(wǎng)絡(luò)的建模誤差。
圖6 脫苯酚塔不同純度區(qū)間對(duì)遷移結(jié)果的影響Fig.6 Different purity domain of dephenolization tower impact on transfer results
圖7 鄰甲酚粗品塔不同純度區(qū)間對(duì)遷移結(jié)果的影響Fig.7 Different purity domain of crude o-cresol tower impact on transfer results
從圖6 和圖7 中可以看出,借助脫苯酚塔和鄰甲酚粗品塔檢測(cè)點(diǎn)不同純度范圍的光譜數(shù)據(jù),用TrAdaBoost.R2 算法建立的模型性能都有明顯的提升。與支持向量機(jī)回歸和BP 神經(jīng)網(wǎng)絡(luò)方法相比,TrAdaBoost.R2 算法建立的模型性能也具有明顯的優(yōu)勢(shì)。借助脫苯酚塔檢測(cè)點(diǎn)的光譜數(shù)據(jù)時(shí),在純度81.00%~81.50%的區(qū)間內(nèi),性能提升最高,達(dá)到了27.4%。借助鄰甲酚粗品塔檢測(cè)點(diǎn)的光譜數(shù)據(jù)時(shí),在純度97.30%~97.40%的區(qū)間內(nèi),性能提升最高,達(dá)到了20.5%。
(3)為了分析不同的輔助光譜數(shù)據(jù)樣本量對(duì)2,6-DMP 產(chǎn)品塔純度檢測(cè)精度的影響,將脫苯酚塔檢測(cè)點(diǎn)純度為81.00%~81.50%的光譜數(shù)據(jù)和鄰甲酚粗品塔檢測(cè)點(diǎn)純度為97.30%~97.40%的光譜數(shù)據(jù)以5 個(gè)光譜數(shù)遞增,與產(chǎn)品塔訓(xùn)練集的30 個(gè)光譜組成合并訓(xùn)練集,產(chǎn)品塔的測(cè)試集保持不變。
圖8(a)是遷移脫苯酚塔不同數(shù)量的光譜的建模誤差,圖8(b)是遷移后的性能提升百分比。圖9(a)是遷移鄰甲酚粗品塔不同數(shù)量的光譜的建模誤差,圖9(b)是遷移后的性能提升百分比。觀察圖8(a)和圖9(a)可知,用TrAdaBoost.R2 算法建立的模型性能一直優(yōu)于合并光譜直接建立的模型性能。由圖8(b)和圖9(b)可知,不同的輔助光譜數(shù)量對(duì)產(chǎn)品塔模型性能的提升程度不同,隨著輔助光譜數(shù)的增加,遷移后產(chǎn)品塔的模型性能提升百分比呈上升趨勢(shì)。
圖8 脫苯酚塔不同光譜數(shù)對(duì)遷移結(jié)果的影響Fig.8 Different number of spectra of dephenolization tower impact on transfer results
圖9 鄰甲酚粗品塔不同光譜數(shù)對(duì)遷移結(jié)果的影響Fig.9 Different number of spectra of crude o-cresol tower impact on transfer results
從圖8 和圖9 可知,遷移脫苯酚塔光譜純度為81.00%~81.50%,數(shù)量為40 時(shí),模型性能提升最大,RMSEP 值為0.0472。圖10(a)是此時(shí)遷移光譜模型曲線與合并光譜模型曲線,圖10(b)是遷移光譜模型預(yù)測(cè)值、合并光譜模型預(yù)測(cè)值與實(shí)際值的散點(diǎn)圖。由圖10 可知,遷移學(xué)習(xí)TrAdaBoost.R2 算法建立的模型預(yù)測(cè)效果更好。
圖10 模型曲線和預(yù)測(cè)值散點(diǎn)圖Fig.10 Model curves and scatter plots of prediction
本文利用2,6-DMP 分離工段精餾提純過程不同檢測(cè)點(diǎn)近紅外光譜數(shù)據(jù)的相似性,提出了一種基于遷移學(xué)習(xí)思想的2,6-DMP 純度近紅外在線檢測(cè)方法,以解決隨著產(chǎn)品純度提升樣本區(qū)分度低、多樣性差的問題。利用某合成材料公司的近紅外光譜數(shù)據(jù)進(jìn)行了實(shí)例驗(yàn)證,比較了不同純度范圍和不同光譜數(shù)對(duì)遷移后模型性能的影響。結(jié)果表明,引入遷移學(xué)習(xí)后,在樣本分散性不足的情況下能夠有效提升高純度2,6-DMP 的檢測(cè)精度,具有良好的應(yīng)用前景。同時(shí),實(shí)例驗(yàn)證表明,輔助光譜的數(shù)量和質(zhì)量對(duì)模型性能的提升會(huì)產(chǎn)生不同的影響,未來工作將進(jìn)一步深入研究光譜數(shù)量和質(zhì)量與建模精度的定量關(guān)系。