金懷平, 張 燕, 董守龍, 楊 彪, 錢 斌, 陳祥光
基于半監(jiān)督集成即時(shí)學(xué)習(xí)的橡膠混煉過程門尼黏度軟測(cè)量研究
金懷平1, 張 燕1, 董守龍2, 楊 彪1, 錢 斌1, 陳祥光2
(1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院, 云南 昆明 650500;2. 北京理工大學(xué) 化學(xué)與化工學(xué)院, 北京 100081)
針對(duì)工業(yè)橡膠混煉過程中門尼黏度標(biāo)記數(shù)據(jù)有限,導(dǎo)致模型預(yù)測(cè)性能受限的問題,提出了一種半監(jiān)督(SS)集成即時(shí)學(xué)習(xí)(EJIT)高斯過程回歸(GPR)軟測(cè)量方法,稱為SSEJITGPR。當(dāng)查詢樣本到來時(shí),該方法通過在線迭代學(xué)習(xí)的方式獲取高置信度偽標(biāo)記樣本,其中使用集成后的即時(shí)學(xué)習(xí)高斯過程回歸(JITGPR)模型對(duì)非標(biāo)記樣本進(jìn)行預(yù)測(cè),并以集成預(yù)測(cè)方差作為置信度評(píng)價(jià)準(zhǔn)則。隨后,基于偽標(biāo)記樣本擴(kuò)充后的建模數(shù)據(jù)庫構(gòu)建多樣性的半監(jiān)督JITGPR基模型。最后,采用有限混合機(jī)制實(shí)現(xiàn)基模型的自適應(yīng)集成。與傳統(tǒng)門尼黏度軟測(cè)量方法相比,SSEJITGPR在處理局部過程特征、克服標(biāo)記樣本不足、預(yù)測(cè)可靠度不高等問題上表現(xiàn)出顯著優(yōu)勢(shì),其有效性和優(yōu)越性通過工業(yè)案例進(jìn)行了驗(yàn)證。
軟測(cè)量;即時(shí)學(xué)習(xí);半監(jiān)督學(xué)習(xí);集成學(xué)習(xí);高斯過程回歸;門尼黏度;橡膠混煉
橡膠混煉是輪胎制造過程中的首要關(guān)鍵環(huán)節(jié),其中門尼黏度是一個(gè)反映橡膠制品加工性能的關(guān)鍵性能指標(biāo)[1-2]。但在實(shí)際生產(chǎn)中,由于缺乏可靠的在線檢測(cè)設(shè)備,門尼黏度只能通過實(shí)驗(yàn)室離線分析獲得,采樣周期一般為4~6 h,測(cè)量延遲較大,不僅嚴(yán)重影響混煉的質(zhì)量控制,而且容易造成原料浪費(fèi)和經(jīng)濟(jì)損失。因此,準(zhǔn)確可靠的門尼黏度在線測(cè)量對(duì)于橡膠混煉工業(yè)生產(chǎn)過程的監(jiān)測(cè)、控制和優(yōu)化至關(guān)重要。近年來,數(shù)據(jù)驅(qū)動(dòng)軟測(cè)量技術(shù)被廣泛應(yīng)用于門尼黏度信息的在線實(shí)時(shí)估計(jì)[3-6]。
常用的門尼黏度數(shù)據(jù)驅(qū)動(dòng)軟測(cè)量方法包括偏最小二乘(partial least squares,PLS)[3]、高斯過程回歸(Gaussian process regression,GPR)[4]、極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)[5]、深度學(xué)習(xí)(deep learning,DL)[6]等。然而,此類全局建模方法力求在所有過程區(qū)域上獲得良好的泛化性能,無法準(zhǔn)確描述局部過程特征,由此導(dǎo)致模型預(yù)測(cè)性能受限[7]。因此,基于局部建模技術(shù)的門尼黏度預(yù)測(cè)方法日益受到青睞[3-5]。
集成學(xué)習(xí)[8]和即時(shí)學(xué)習(xí)(just-in-time learning,JIT)[4-5]是2種典型的局部建??蚣堋K鼈兙駨摹胺侄沃钡乃枷?,通過構(gòu)建局部化的預(yù)測(cè)模型,以獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。鑒于2類建模方法各有優(yōu)勢(shì),將二者結(jié)合將有助于提升軟測(cè)量模型預(yù)測(cè)性能,因此集成即時(shí)學(xué)習(xí)(ensemble just-in-time learning,EJIT)軟測(cè)量建模研究近幾年獲得了較多關(guān)注[3-4]。EJIT軟測(cè)量方法的基本思想是:首先構(gòu)建多樣性的JIT基模型并對(duì)主導(dǎo)變量進(jìn)行估計(jì),然后將局部預(yù)測(cè)結(jié)果融合為最終輸出。盡管EJIT軟測(cè)量建??蚣鼙憩F(xiàn)出了優(yōu)異的預(yù)測(cè)性能,但實(shí)際工業(yè)過程中,標(biāo)記樣本不足的問題仍然是制約EJIT軟測(cè)量模型性能的重要因素。
在實(shí)際的橡膠混煉工業(yè)生產(chǎn)過程中,門尼黏度的測(cè)量成本高、周期長,可用于門尼黏度預(yù)測(cè)的標(biāo)記樣本嚴(yán)重不足。因此,門尼黏度軟測(cè)量建模廣泛存在標(biāo)記樣本不足、非標(biāo)記樣本豐富的現(xiàn)象,而傳統(tǒng)監(jiān)督式軟測(cè)量方法往往忽略了對(duì)非標(biāo)記樣本信息的挖掘。半監(jiān)督學(xué)習(xí)正是為實(shí)現(xiàn)同步挖掘標(biāo)記和非標(biāo)記樣本信息以提升模型預(yù)測(cè)性能而提出的,近年來逐漸被引入軟測(cè)量應(yīng)用領(lǐng)域[9-11]。因此,研究高性能門尼黏度半監(jiān)督軟測(cè)量建模方法成為一個(gè)較為迫切的問題[6]。
綜上,本研究提出了一種新的半監(jiān)督集成即時(shí)學(xué)習(xí)高斯過程回歸(semi-supervised ensemble just-in-time Gaussian process regression,SSEJITGPR)軟測(cè)量建模方法。該方法框架有效融合了即時(shí)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和集成學(xué)習(xí)的優(yōu)勢(shì),為門尼黏度的準(zhǔn)確預(yù)測(cè)提供了一種新的途徑。主要貢獻(xiàn)總結(jié)如下:(1)使用多種相似度指標(biāo),構(gòu)建多樣性的即時(shí)學(xué)習(xí)高斯過程回歸(just-in-time Gaussian process regression,JITGPR)基模型,有效克服了傳統(tǒng)即時(shí)學(xué)習(xí)使用單一相似度導(dǎo)致預(yù)測(cè)性能不佳的問題;(2)提出一種新的偽標(biāo)記估計(jì)框架,以協(xié)同訓(xùn)練思想為基礎(chǔ),以集成即時(shí)高斯過程回歸(ensemble just-in-time Gaussian process regression,EJITGPR)為預(yù)測(cè)模型,以集成預(yù)測(cè)方差為置信度評(píng)價(jià)準(zhǔn)則,通過在線迭代學(xué)習(xí)獲取高置信度偽標(biāo)記樣本,從而實(shí)現(xiàn)標(biāo)記訓(xùn)練樣本的擴(kuò)充,進(jìn)而構(gòu)建高性能的半監(jiān)督JITGPR基模型;(3)引入有限混合機(jī)制,實(shí)現(xiàn)多樣性半監(jiān)督JITGPR基模型的自適應(yīng)集成。通過對(duì)工業(yè)橡膠混煉過程中門尼黏度的預(yù)測(cè),并與傳統(tǒng)全局/局部、監(jiān)督/半監(jiān)督軟測(cè)量方法進(jìn)行比較,充分驗(yàn)證了所提方法的有效性和優(yōu)越性。
即時(shí)學(xué)習(xí),又稱為懶惰學(xué)習(xí)(lazy learning)[12]或局部加權(quán)學(xué)習(xí)(locally weighted learning)[13]等,是一種能夠有效處理過程非線性和時(shí)變性特征的局部學(xué)習(xí)建??蚣?,近年來已被廣泛地應(yīng)用于軟測(cè)量領(lǐng)域。與傳統(tǒng)的全局建模方法相比,其具有以下主要特征:(1)所有的輸入數(shù)據(jù)和輸出數(shù)據(jù)都存放于數(shù)據(jù)庫中;(2)查詢?nèi)蝿?wù)到來時(shí),只根據(jù)某種相似度選擇與查詢樣本點(diǎn)最相關(guān)的樣本進(jìn)行建模;(3)完成預(yù)測(cè)任務(wù)后,丟棄局部模型。
傳統(tǒng)的監(jiān)督學(xué)習(xí)方法往往需要大量的標(biāo)記樣本,然而在實(shí)際的工業(yè)過程中,由于技術(shù)和經(jīng)濟(jì)條件的限制,往往存在“標(biāo)記樣本缺乏、非標(biāo)記樣本充足”的現(xiàn)象,而非標(biāo)記樣本同樣也包含大量有價(jià)值的信息,對(duì)提升預(yù)測(cè)模型性能具有重要意義。半監(jiān)督學(xué)習(xí)(semi-supervised learning)[14-15]正是為解決此類問題而發(fā)展起來的。作為機(jī)器學(xué)習(xí)的一個(gè)重要分支,半監(jiān)督學(xué)習(xí)允許模型在學(xué)習(xí)過程中同時(shí)使用標(biāo)記樣本和非標(biāo)記樣本來構(gòu)建模型,以此提升模型的預(yù)測(cè)性能。一般而言,半監(jiān)督學(xué)習(xí)可以分為5類:生成式模型(generative models)[16]、自訓(xùn)練(self-training)[17]、協(xié)同訓(xùn)練(co-training)[18]、基于圖的方法(graph-based methods)[19]、半監(jiān)督支持向量機(jī)(semi-supervised support vector machines, S3VM)[20]。除此之外,半監(jiān)督學(xué)習(xí)和其他方法的結(jié)合近年來也受到越來越多的關(guān)注,如半監(jiān)督學(xué)習(xí)和集成學(xué)習(xí)的結(jié)合[9]、半監(jiān)督學(xué)習(xí)和深度學(xué)習(xí)的結(jié)合[21-22]等。此外,半監(jiān)督軟測(cè)量建模研究也獲得了極大關(guān)注[6,9-11]。
因此,高斯過程可描述為
通常,對(duì)建模數(shù)據(jù)進(jìn)行歸一化數(shù)據(jù)預(yù)處理,假設(shè)訓(xùn)練樣本集產(chǎn)生于一個(gè)零均值高斯過程:
協(xié)方差函數(shù)是高斯過程回歸模型的關(guān)鍵組成部分,在本研究中,選擇帶有噪聲項(xiàng)的Matérn協(xié)方差函數(shù),其定義如下:
合適的相似度函數(shù)定義是構(gòu)建高性能即時(shí)學(xué)習(xí)預(yù)測(cè)模型的關(guān)鍵所在。相似度準(zhǔn)則通常采用某種距離來度量查詢點(diǎn)和歷史樣本之間的相似性,距離越大,相似性越低,反之亦然[24]。目前已經(jīng)從不同視角定義了很多相似度指標(biāo),如基于歐氏距離(Euclidean distance,ED)[25]的相似度、基于余弦(cosine)的角度相似度等,但各種相似度性能表現(xiàn)不一、各有優(yōu)勢(shì),難以從中選擇一種適用于所有應(yīng)用場(chǎng)景的最優(yōu)相似度指標(biāo)。因此,本研究定義了歐氏距離相似度、余弦相似度、協(xié)方差加權(quán)距離(covariance weighted distance,CWD)[26]相似度、皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,PCC)相似度,用于構(gòu)建多樣性的JITGPR基模型,綜合不同相似度的優(yōu)勢(shì),為構(gòu)建集成即時(shí)學(xué)習(xí)軟測(cè)量模型奠定基礎(chǔ)。
歐氏距離是評(píng)價(jià)2個(gè)樣本點(diǎn)在空間上的歐幾里得距離,即樣本點(diǎn)之間的點(diǎn)對(duì)點(diǎn)的直線距離的一種計(jì)算方法,由于其簡單高效而常常作為相似度度量準(zhǔn)則被應(yīng)用于即時(shí)學(xué)習(xí)建模。其定義如下:
余弦相似度通過利用空間中兩個(gè)向量之間的角度來衡量樣本相似性,其定義如下:
歐氏距離相似性忽略了輸入變量之間的差異,為此提出了各種加權(quán)距離相似度準(zhǔn)則,如加權(quán)歐氏距離相似度(weighted euclidean distance,WED)[27]和協(xié)方差加權(quán)距離相似度等。其中,CWD相似度同時(shí)考慮了輸入變量之間以及輸入和輸出變量之間的關(guān)系,其定義如下:
除了基于距離和基于角度的相似度評(píng)價(jià)指標(biāo),2個(gè)向量之間的相關(guān)性也能用于評(píng)價(jià)樣本之間的相似性,如相關(guān)系數(shù)準(zhǔn)則(correlation coefficient, CC)。本研究使用皮爾遜相關(guān)系數(shù)相似度作為相似度度量指標(biāo),其定義如下:
標(biāo)記樣本缺乏是制約即時(shí)學(xué)習(xí)性能的關(guān)鍵因素,獲取高置信度偽標(biāo)記樣本以擴(kuò)充訓(xùn)練樣本集是解決此問題的重要途徑。典型的偽標(biāo)記估計(jì)方法有自訓(xùn)練和協(xié)同訓(xùn)練2種框架,通常采用性能提升率為評(píng)價(jià)標(biāo)準(zhǔn)挑選高置信度偽標(biāo)記樣本。然而,此類方法需要反復(fù)重構(gòu)模型以評(píng)價(jià)偽標(biāo)記樣本的置信度,容易造成計(jì)算時(shí)間過長、計(jì)算負(fù)擔(dān)過大。而且,未考慮模型多樣性的問題,導(dǎo)致偽標(biāo)記估計(jì)精度不佳。
圖1 高置信度偽標(biāo)記估計(jì)獲取原理圖
(2) 重復(fù)以下步驟直至滿足終止條件:
b) 采用2a)中所得JITGPR基模型對(duì)U¢對(duì)應(yīng)的輸出進(jìn)行估計(jì),獲得集成預(yù)測(cè)輸出和集成方差;
d) 更新U¢,從U¢中移除已標(biāo)記的非標(biāo)記樣本。
在上述步驟中,多樣性JITGPR基模型的融合方式至關(guān)重要,本研究采用了一種基于有限混合機(jī)制(finite mixture mechanism,F(xiàn)MM)[28]的自適應(yīng)加權(quán)融合方法,詳細(xì)原理描述如下。
所提SSEJITGPR軟測(cè)量方法的實(shí)施原理如圖2所示。
圖2 SSEJITGPR軟測(cè)量建模方法原理框圖
實(shí)施步驟如下:
(1) 收集橡膠混煉工業(yè)過程數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理,并將數(shù)據(jù)分為標(biāo)記集和非標(biāo)記集;
(2) 當(dāng)查詢樣本到來時(shí),采用3.2節(jié)所述原理獲取高置信度的偽標(biāo)記估計(jì)并將其添加到標(biāo)記訓(xùn)練樣本集;
(3) 使用擴(kuò)充后的訓(xùn)練樣本集,構(gòu)建基于ED相似度、Cosine相似度、CWD相似度和PCC相似度的四種JITGPR基模型,并對(duì)查詢樣本進(jìn)行預(yù)測(cè);
(4) 使用式(16)所示的有限混合機(jī)制對(duì)局部預(yù)測(cè)結(jié)果進(jìn)行自適應(yīng)集成,獲得集成預(yù)測(cè)均值和方差;
(5) 完成預(yù)測(cè)后丟棄已建立的模型。當(dāng)下一個(gè)查詢樣本到來時(shí),轉(zhuǎn)到步驟(2)。
通過對(duì)工業(yè)橡膠混煉過程中門尼黏度的預(yù)測(cè),驗(yàn)證了所提出的SSEJITGPR軟測(cè)量建模方法的有效性和優(yōu)越性。實(shí)驗(yàn)過程用于比較研究的方法如下:
(1) PLS:全局偏最小二乘模型;
(2) GPR:全局高斯過程回歸模型;
(3) ELM:全局極限學(xué)習(xí)機(jī)模型;
(4) SSELM(semi-supervised extreme learning machine):全局半監(jiān)督極限學(xué)習(xí)機(jī)模型;
(5) CoGPR(co-training based GPR):協(xié)同訓(xùn)練高斯過程回歸模型;
(6) JITGPR_ED:基于歐氏距離相似度的JITGPR模型;
(7) JITGPR_Cosine:基于余弦角度相似度的JITGPR模型;
(8) JITGPR_CWD:基于協(xié)方差加權(quán)距離相似度的JITGPR模型;
(9) JITGPR_PCC:基于皮爾遜相關(guān)系數(shù)相似度的JITGPR模型;
(10) EJITGPR:使用FMM融合策略的集成JITGPR模型;
(11) SSJITGPR_ED_I/II/III/IV:使用歐氏距離相似度進(jìn)行相關(guān)樣本選擇的半監(jiān)督JITGPR軟測(cè)量建模方法,其中I/II/III/IV分別代表使用ED、Cosine、CWD、PCC相似度選擇非標(biāo)記樣本;
(12) SSJITGPR_Cosine_I/II/III/IV:使用余弦角度相似度進(jìn)行相關(guān)樣本選擇的半監(jiān)督JITGPR軟測(cè)量建模方法,其中I/II/III/IV分別代表使用ED、Cosine、CWD、PCC相似度選擇非標(biāo)記樣本;
(13) SSJITGPR_CWD_I/II/III/IV:使用協(xié)方差加權(quán)距離相似度進(jìn)行相關(guān)樣本選擇的半監(jiān)督JITGPR軟測(cè)量建模方法,其中I/II/III/IV分別代表使用ED、Cosine、CWD、PCC相似度選擇非標(biāo)記樣本;
(14) SSJITGPR_PCC_I/II/III/IV:使用皮爾遜相關(guān)系數(shù)相似度進(jìn)行相關(guān)樣本選擇的半監(jiān)督JITGPR軟測(cè)量建模方法,其中I/II/III/IV分別代表使用ED、Cosine、CWD、PCC相似度選擇非標(biāo)記樣本;
(15) SSEJITGPR _I/II/III/IV:半監(jiān)督集成JITGPR模型,其中,I/II/III/IV分別代表使用ED、Cosine、CWD、PCC相似度選擇非標(biāo)記樣本。
上述方法中,PLS、GPR、ELM屬于全局監(jiān)督學(xué)習(xí)模型,JITGPR_ED/Cosine/CWD/PCC屬于局部監(jiān)督學(xué)習(xí)模型,EJITGPR則屬于集成學(xué)習(xí)模型;SSELM為全局半監(jiān)督學(xué)習(xí)模型;SSJITGPR_ED/Cosine/CWD/PCC_I/II/III/IV屬于半監(jiān)督局部學(xué)習(xí)模型,CoGPR、SSEJITGPR_I/II/III/IV屬于半監(jiān)督集成學(xué)習(xí)模型。
橡膠工業(yè)在國民經(jīng)濟(jì)發(fā)展中扮演著重要的角色,橡膠混煉是橡膠加工生產(chǎn)中的一個(gè)重要環(huán)節(jié),本研究應(yīng)用的工業(yè)橡膠混煉過程門尼黏度數(shù)據(jù)來源于華東一家輪胎生產(chǎn)企業(yè)。橡膠混煉是將天然橡膠或者合成橡膠、添加劑、促進(jìn)劑等原材料按照某種工藝配方混合到一起,通過機(jī)械拌合作用,使它們充分且均勻地混合在一起的一種化學(xué)過程。橡膠混煉是橡膠制品生產(chǎn)過程中的一道重要工序,一般來說,門尼黏度是監(jiān)測(cè)橡膠攪拌過程中產(chǎn)品質(zhì)量的一個(gè)重要指標(biāo)。但是在實(shí)際的工業(yè)生產(chǎn)過程中,每個(gè)批次的混煉過程完成后,需要4~6 h方可獲得門尼黏度的離線分析值,但批混煉周期僅為2~5 min,巨大的測(cè)量延遲嚴(yán)重制約了混煉過程的監(jiān)測(cè)、控制及優(yōu)化。軟測(cè)量技術(shù)是獲取門尼黏度估計(jì)值的一種重要途徑??紤]到橡膠混煉過程中標(biāo)記樣本缺乏、非標(biāo)記樣本豐富的現(xiàn)狀,本研究試圖建立一個(gè)高性能的半監(jiān)督集成即時(shí)學(xué)習(xí)軟測(cè)量模型。由于一個(gè)完整批次的橡膠混煉過程僅對(duì)應(yīng)一個(gè)終點(diǎn)門尼黏度測(cè)量值,因此將時(shí)刻0、14、18、22、…、118 s對(duì)應(yīng)的過程變量作為軟測(cè)量模型的輸入變量,包括混合器腔內(nèi)的溫度、電機(jī)功率、沖壓件壓力、攪拌時(shí)間、電機(jī)轉(zhuǎn)速和能量等。
從集散控制系統(tǒng)和實(shí)驗(yàn)室分析中收集相應(yīng)的標(biāo)記和非標(biāo)記樣本數(shù)據(jù),輸入和輸出數(shù)據(jù)中一些明顯的異常值通過一個(gè)簡單的3準(zhǔn)則剔除。最后共收集到了1 172批次過程數(shù)據(jù),其中包含800個(gè)非標(biāo)記數(shù)據(jù)和372個(gè)有標(biāo)記數(shù)據(jù)。將有標(biāo)記數(shù)據(jù)進(jìn)一步劃分為訓(xùn)練集(150個(gè)樣本)、測(cè)試集(172個(gè)樣本)和驗(yàn)證集(50個(gè)樣本)。
通過交叉驗(yàn)證方法確定各模型的參數(shù)如下:PLS的主成分個(gè)數(shù)為9,ELM的隱藏層數(shù)為455,SSELM的隱藏層數(shù)為170,圖拉普拉斯正則項(xiàng)的權(quán)重系數(shù)為0.6。同時(shí),采用經(jīng)驗(yàn)法確定如下參數(shù):CoGPR的迭代次數(shù)為70,每次迭代選取的高置信度偽標(biāo)記數(shù)為5個(gè),其他半監(jiān)督方法的迭代次數(shù)為30,每次選擇的高置信度偽標(biāo)記樣本數(shù)為2個(gè),有限混合機(jī)制公式(18)中的為2。此外,對(duì)比了局部建模樣本數(shù)local=5、10、15時(shí)的不同模型的預(yù)測(cè)性能。
表1比較了30種不同軟測(cè)量建模方法對(duì)門尼黏度的預(yù)測(cè)結(jié)果。表中,標(biāo)志“I”“II”“III”“IV”分別代表使用ED、Cosine、CWD、PCC相似度選擇非標(biāo)記樣本。首先,不考慮半監(jiān)督學(xué)習(xí),僅對(duì)不同的監(jiān)督軟測(cè)量模型性能進(jìn)行分析比較??梢钥闯觯鳛榫€性建模方法,PLS的預(yù)測(cè)性能最差,這是因?yàn)槠錈o法有效處理過程非線性特征所致,相比而言,其他非線性建模方法的預(yù)測(cè)性能均有顯著改善。但作為傳統(tǒng)的全局建模方式,GPR和ELM的性能依然很差。相較于全局建模,基于局部學(xué)習(xí)建模原理的JITGPR_ED/Cosine/CWD/PCC軟測(cè)量方法在預(yù)測(cè)性能上獲得了大幅提升。例如,全局GPR的預(yù)測(cè)RMSE為5.127 0,而JITGPR_PCC的預(yù)測(cè)RMSE僅為4.149 0,預(yù)測(cè)精度提升了19.08%。此外,可以看出,在即時(shí)學(xué)習(xí)中,當(dāng)選取相同的局部樣本數(shù)進(jìn)行建模時(shí),使用4種不同相似度指標(biāo)的JITGPR預(yù)測(cè)結(jié)果具有顯著差異,而且由表1數(shù)據(jù)可以看出,在不同的局部建模樣本下,沒有哪一種相似度始終能保持最佳的預(yù)測(cè)性能。因此,為克服使用單一相似度導(dǎo)致的預(yù)測(cè)局限性,引入集成學(xué)習(xí)方法,將使用4種相似度的JITGPR基模型融合為EJITGPR模型。不難看出,local=5和10時(shí),EJITGPR的預(yù)測(cè)性能均優(yōu)于使用單相似度的JITGPR預(yù)測(cè)性能,local=15時(shí),EJITGPR預(yù)測(cè)性能接近最佳的單相似度JITGPR模型。這些結(jié)果充分表明,通過融合集成學(xué)習(xí)和即時(shí)學(xué)習(xí),EJIT軟測(cè)量建模框架的性能顯著優(yōu)于傳統(tǒng)全局和局部建模方法。
表1 不同軟測(cè)量建模方法的門尼黏度預(yù)測(cè)結(jié)果
對(duì)比分析引入半監(jiān)督學(xué)習(xí)以后的門尼黏度預(yù)測(cè)性能??梢钥闯觯啾扔贓LM,SSELM由于使用了非標(biāo)記信息,其性能獲得了改善。但相比于GPR,CoGPR的性能變得更差,這可能是因?yàn)楦咧眯哦葌螛?biāo)記樣本選擇不當(dāng)所致。對(duì)于局部建模方法而言,當(dāng)使用本研究所提偽標(biāo)記估計(jì)方法擴(kuò)充標(biāo)記樣本庫之后,所有JITGPR模型均獲得了不同程度的性能提升。例如,local=5、10、15時(shí),監(jiān)督模型JITGPR_ED的預(yù)測(cè)RMSE分別為4.437 7、5.767 8、6.949 6,但引入高置信度偽標(biāo)記樣本后,半監(jiān)督模型SSJITGPR_ED_I的預(yù)測(cè)RMSE變?yōu)?.082 5、3.827 0、4.376 5,可見預(yù)測(cè)誤差獲得了大幅削減,這充分證明了半監(jiān)督學(xué)習(xí)在提升模型預(yù)測(cè)性能方面的有效性。此外,圖3比較了JITGPR與SSJITGPR的預(yù)測(cè)結(jié)果誤差曲線圖。如圖可見,與JITGPR相比,在大多數(shù)情況下SSJITGPR的誤差幅值要小得多,說明引入半監(jiān)督學(xué)習(xí)以后,模型的預(yù)測(cè)性能得到了顯著改善。
圖3 JITGPR與SSJITGPR軟測(cè)量建模方法預(yù)測(cè)結(jié)果誤差曲線圖(nlocal =10)
從上面的分析可以看出,SSJITGPR表現(xiàn)良好。為了獲得魯棒性更好、可靠性更高的預(yù)測(cè)結(jié)果,再次引入集成學(xué)習(xí),將使用不同相似度的SSJITGPR基模型進(jìn)行融合,以期獲得表現(xiàn)更佳的SSEJITGPR軟測(cè)量模型。從表1中可以看出,使用不同的相似度選擇非標(biāo)記樣本時(shí),SSEJITGPR的預(yù)測(cè)性能比較接近。同時(shí)也可以看出,在某些應(yīng)用場(chǎng)景下,SSEJITGPR的預(yù)測(cè)性能并未超過性能最佳的單一相似度SSJITGPR模型。這觸發(fā)一種直觀想象:是否可以選用一種表現(xiàn)最佳的單相似度SSJITGPR模型替代SSEJITGPR模型?雖然事實(shí)上確實(shí)存在比SSEJITGPR性能更佳的SSJITGPR模型,但是實(shí)際應(yīng)用中卻很難從中挑出一種單相似度SSJITGPR模型在所有應(yīng)用場(chǎng)景下均表現(xiàn)最優(yōu)。反觀SSEJITGPR,根據(jù)表1結(jié)果,在不同的應(yīng)用場(chǎng)景下,SSEJITGPR均獲得了比所有SSJITGPR更佳或者非常接近最佳SSJITGPR的預(yù)測(cè)性能。因此,集成學(xué)習(xí)的引入能有效降低SSJITGPR因?yàn)橄嗨贫冗x擇不當(dāng)而造成性能較差的風(fēng)險(xiǎn)。為了直觀評(píng)價(jià)SSEJITGPR的預(yù)測(cè)性能,圖4給出了使用該方法獲得的門尼黏度預(yù)測(cè)結(jié)果趨勢(shì)曲線??梢钥闯觯T尼黏度預(yù)測(cè)值和實(shí)際值高度吻合,這進(jìn)一步表明了所提方法的有效性。
圖4 SSEJITGPR建模方法對(duì)門尼黏度的預(yù)測(cè)結(jié)果趨勢(shì)曲線(nlocal =10)
此外,圖5比較了不同的JITGPR和SSEJITGPR在不同局部建模規(guī)模下的預(yù)測(cè)性能。從圖中看出,相比于各種單相似度的JITGPR基模型,融合集成學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的SSEJITGPR模型表現(xiàn)更佳,特別是隨著局部建模樣本的增加,這種優(yōu)勢(shì)更為明顯。同時(shí)可以看出在不同局部建模規(guī)模下,使用不同相似度的JITGPR模型性能排序并不一致,因此也說明,選擇集成學(xué)習(xí)策略是十分必要的。此外,從性能退化趨勢(shì)走向上來看,與JITGPR軟測(cè)量建模方法相比,本研究所提方法對(duì)局部建模樣本規(guī)模的敏感程度要低很多。這些結(jié)果再次表明,與傳統(tǒng)的即時(shí)學(xué)習(xí)軟測(cè)量建模方法相比,本研究所提方法對(duì)橡膠混煉過程中門尼黏度的預(yù)測(cè)結(jié)果更為準(zhǔn)確和可靠。
圖5 使用不同模型和不同局部建模樣本數(shù)的門尼黏度預(yù)測(cè)性能比較
本研究提出了一種新的用于工業(yè)橡膠混煉過程中門尼黏度預(yù)測(cè)的半監(jiān)督集成即時(shí)學(xué)習(xí)軟測(cè)量建模方法SSEJITGPR。該方法以GPR為基學(xué)習(xí)器,通過使用多種相似度指標(biāo)構(gòu)建多樣性的JITGPR基模型,然后使用有限混合機(jī)制對(duì)基模型進(jìn)行融合。同時(shí),引入半監(jiān)督學(xué)習(xí),基于集成預(yù)測(cè)方差選擇高置信度的偽標(biāo)記樣本以擴(kuò)充標(biāo)記樣本集,從而提升JITGPR基模型的預(yù)測(cè)性能。該方法有效融合了即時(shí)學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、集成學(xué)習(xí)的優(yōu)勢(shì),因此在橡膠混煉過程門尼黏度預(yù)測(cè)中的表現(xiàn)顯著優(yōu)于傳統(tǒng)全局/局部、監(jiān)督/半監(jiān)督模型。在后續(xù)的工作中,以下問題值得進(jìn)一步深入研究:如何自適應(yīng)確定即時(shí)學(xué)習(xí)的局部建模樣本數(shù);如何通過其他方法獲取高置信度的偽標(biāo)記樣本;如何以其他多樣性擾動(dòng)方式構(gòu)建同時(shí)具有多樣性和準(zhǔn)確性的基模型;如何通過其他高效的集成策略來實(shí)現(xiàn)模型的有效融合。
[1] ZHANG Z, SONG K, TONG T P,. A novel nonlinear adaptive Mooney-viscosity model based on DRPLS-GP algorithm for rubber mixing process [J]. Chemometrics & Intelligent Laboratory Systems, 2012, 112: 17-23.
[2] LIU Y, GAO Z L. Real-time property prediction for an industrial rubber-mixing process with probabilistic ensemble Gaussian process regression models [J]. Journal of Applied Polymer Science, 2015, 132(6): 41432.
[3] 金懷平, 李建剛, 錢斌, 等. 基于多模態(tài)擾動(dòng)的集成即時(shí)學(xué)習(xí)軟測(cè)量建模 [J]. 信息與控制, 2020, 49(3): 257-266.
JIN H P, LI J G, QIAN B,. Soft sensor development based on ensemble just-in-time learning with multimodal perturbation [J]. Information and Control, 2020, 49(3): 257-266.
[4] JIN H P, LI J G, WANG M,Ensemble just-in-time learning-based soft sensor for Mooney viscosity prediction in an industrial rubber mixing process [J]. Advances in Polymer Technology, 2020, 2020(1): 1-14.
[5] JIN W Y, LIU Y, GAO Z L. Fast property prediction in an industrial rubber mixing process with local ELM model [J]. Journal of Applied Polymer Science, 2017, 134(41): 45391.
[6] ZHENG S, LIU K, XU Y,. Robust soft sensor with deep kernel learning for quality prediction in rubber mixing processes [J]. Sensors, 2020, 20(3): 695.
[7] 劉毅. 間歇過程的核學(xué)習(xí)自適應(yīng)建模與控制研究及工業(yè)應(yīng)用 [D]. 杭州: 浙江大學(xué), 2009.
LIU Y. Research on kernel learning adaptive modeling and control for industrial batch processes [D]. Hangzhou: Zhejiang University, 2009.
[8] 金懷平, 黃思, 王莉, 等. 基于進(jìn)化多目標(biāo)優(yōu)化的選擇性集成學(xué)習(xí)軟測(cè)量建模 [J]. 高?;瘜W(xué)工程學(xué)報(bào), 2019, 33(3): 680-691.
JIN H P, HUANG S, WANG L,. Selective ensemble learning based on evolutionary multi-objective optimization for soft sensor development [J]. Journal of Chemical Engineering of Chinese Universities, 2019, 33(3): 680-691.
[9] JIN H P, LI Z, CHEN X G,. Evolutionary optimization based pseudo labeling for semi-supervised soft sensor development of industrial processes [J]. Chemical Engineering Science, 2021, 237: 116560.
[10] 李東, 劉乙奇, 黃道平. 基于Tri-training MPLS的半監(jiān)督軟測(cè)量模型 [J]. 華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 47(2): 217-224.
LI D, LIU Y Q, HUANG D P. Semi-supervised soft sensor model based on Tri-training MPLS [J]. Journal of East China University of Science and Technology, 2021, 47(2): 217-224.
[11] GUO R, LIU H. Semisupervised dynamic soft sensor based on complementary ensemble empirical mode decomposition and deep learning [J]. Measurement, 2021, 183: 109788.
[12] AHA D W. Lazy learning [M]. Berlin: Springer Science & Business Media, 1997.
[13] YIN S, XIE X, SUN W. A nonlinear process monitoring approach with locally weighted learning of available data [J]. IEEE Transactions on Industrial Electronics, 2016, 64(2): 1507-1516.
[14] SHAHSHAHANI B M, LANDGREBE A. The effect of unlabeled samples in reducing the small sample size problem and mitigating the Hughes phenomenon [J]. IEEE Transactions on Geoscience & Remoto Sensing, 1994, 32(5): 1087-1095.
[15] ZHU X J, GOLDBERG A B. Introduction to semi-supervised learning [J]. Synthesis Lectures on Artificial Intelligence and Machine Learning, 2009, 3(1): 1-130.
[16] FUJINO A, UEDA N, SAITO K,Semisupervised learning for a hybrid generative/discriminative classifier based on the maximum entropy principle [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2008, 30(3): 424-437.
[17] YAROWSKY D. Unsupervised word sense disambiguation rivaling supervised methods: 33rd Annual Meeting of the Association for Computational Linguistics [C]. Massachusetts: Association for Computational Linguistics, 1995: 189-196.
[18] BLUM A, MITCHELL T. Combining labeled and unlabeled data with co-training: Proceedings of the Eleventh Annual Conference on Computational Learning Theory [C]. New York: Association for Computing Machinery, 1998: 92-100.
[19] SINDHWANI V, NIYOGI P, BELKIN M. Beyond the point cloud: from transductive to semi-supervised learning: Proceedings of the 22nd International Conference on Machine Learning [C]. New York: Association for Computing Machinery, 2005: 824-831.
[20] VAPNIK V N. An overview of statistical learning theory [J]. IEEE Transactions on Neural Networks, 1999, 10: 988-999.
[21] SUN Q, GE Z. A survey on deep learning for data-driven soft sensors [J]. IEEE Transactions on Industrial Informatics, 2021, 17(9): 5853-5866.
[22] LUO Y C, ZHU J, LI M X,. Smooth neighbors on teacher graphs for semi-supervised learning: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition [C]. Salt Lake City: IEEE Computer Society, 2018: 8896-8905.
[23] JIN H P, SHI L X, CHEN X G,. Probabilistic wind power forecasting using selective ensemble of finite mixture Gaussian process regression models [J]. Renewable Energy, 2021, 174: 1-18.
[24] YUAN X F, ZHOU J, WANG Y L,. Multi-similarity measurement driven ensemble just-in-time learning for soft sensing of industrial processes [J]. Journal of Chemometrics, 2018, 32(10): e3040.
[25] KIM S, KANO M, HASEBE S,. Long-term industrial applications of inferential control based on just-in-time soft-sensors: Economical impact and challenges [J]. Industrial & Engineering Chemistry Research, 2013, 52(35): 12346-12356.
[26] HAZAMA K, KANO M. Covariance-based locally weighted partial least squares for high-performance adaptive modeling [J]. Chemometrics and Intelligent Laboratory Systems, 2015, 146: 55-62.
[27] KIM S, OKAJIMA R, KANO M,. Development of soft-sensor using locally weighted PLS with adaptive similarity measure [J]. Chemometrics and Intelligent Laboratory Systems, 2013, 124: 43-49.
[28] FRUHWIRTHSCHNATTER S. Finite mixture and Markov switching models [M]. New York: Springer, 2006.
Study on semi-supervised ensemble just-in-time learning based soft sensing of Mooney viscosity in rubber mixing process
JIN Huai-ping1, ZHANG Yan1, DONG Shou-long2, YANG Biao1, QIAN Bin1, CHEN Xiang-guang2
(1. Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, China;2. School of Chemistry and Chemical Engineering, Beijing Institute of Technology, Beijing 100081, China)
Traditional soft sensors for Mooney viscosity estimation in industrial rubber mixing process often encounter the scarcity of labeled data, thus leading to great difficulties in obtaining accurate estimations. Therefore, a semi-supervised (SS) ensemble just-in-time (EJIT) learning based Gaussian process regression (GPR) method referred to as SSEJITGPR was proposed. When a query sample comes, a set of diverse just-in-time Gaussian process regression (JITGPR) base models is constructed and combined to predict unlabeled samples for providing high-confidence pseudo-labeled samples through iterative learning, where the ensemble prediction variance is used for confidence evaluation. Then, a group of diverse semi-supervised JITGPR base models is built from the modeling database extended by the selected pseudo-labeled data. Finally, a finite mixture mechanism is used to realize the adaptive combination of the base models. Compared with the traditional methods for Mooney viscosity estimation, SSEJITGPR showed significant advantages in dealing with local process characteristics, overcoming scarcity of labeled data and low prediction reliability. The effectiveness and superiority of SSEJITGPR has been verified by an industrial application case.
soft sensor; just-in-time learning (JIT); semi-supervised learning; ensemble learning; Gaussian process regression; Mooney viscosity; rubber mixing process
TP277
A
10.3969/j.issn.1003-9015.2022.00.008
1003-9015(2022)04-0586-11
https://kns.cnki.net/kcms/detail/33.1141.TQ.20220523.1546.002.html
2021-07-17;
2021-11-19。網(wǎng)絡(luò)首發(fā)時(shí)間:2022-05-23 17:25:20
國家自然科學(xué)基金(62163019,61763020,61863020);云南省應(yīng)用基礎(chǔ)研究計(jì)劃(202101AT070096)。
金懷平(1987-),男,云南宣威人,昆明理工大學(xué)副教授,博士。
金懷平,E-mail:jinhuaiping@126.com
金懷平, 張燕, 董守龍, 楊彪, 錢斌, 陳祥光. 基于半監(jiān)督集成即時(shí)學(xué)習(xí)的橡膠混煉過程門尼黏度軟測(cè)量研究[J]. 高?;瘜W(xué)工程學(xué)報(bào), 2022, 36(4): 586-596.
:JIN Huai-ping, ZHANG Yan, DONG Shou-long, YANG Biao, QIAN Bin, CHEN Xiang-guang. Study on semi-supervised ensemble just-in-time learning based soft sensing of mooney viscosity in rubber mixing process [J]. Journal of Chemical Engineering of Chinese Universities, 2022, 36(4): 586-596.