杜宇浩,閻高偉,李榮,王芳
(太原理工大學電氣與動力工程學院,山西太原030024)
軟測量技術的基本思想是根據(jù)某種最優(yōu)準則,利用已知歷史數(shù)據(jù),選擇一組與主導變量有密切關系的輔助變量,構造某種數(shù)學關系來估計主導變量。然而在實際生產過程中,由于工況容易發(fā)生變化,導致傳統(tǒng)的軟測量模型性能惡化、模型失準等問題出現(xiàn)[1-2]。
針對多工況條件下軟測量模型失準問題,文獻[3-4]基于即時學習的思想,依據(jù)相似度量準則從帶標簽的歷史數(shù)據(jù)中選擇與當前樣本最相關的樣本集,利用機器學習方法建立回歸模型解決多工況軟測量問題。然而當歷史數(shù)據(jù)集中缺乏當前工況的數(shù)據(jù)時,所建立的模型無法與當前工況數(shù)據(jù)適配,造成模型失準。文獻[5]在此基礎上,將無標簽數(shù)據(jù)與帶標簽數(shù)據(jù)合并為歷史數(shù)據(jù)集,訓練基于即時學習的半監(jiān)督極限學習機,增加了軟測量模型的魯棒性。文獻[6-7]對歷史數(shù)據(jù)建立多個子模型,評估每個子模型的軟測量結果,依據(jù)模型輸出置信度的高低對多個子模型進行加權融合,最終得到集成回歸模型。但各子模型的輸出置信度難以估計,存在較大的結構風險。文獻[8]從提取多工況數(shù)據(jù)的潛在信息角度出發(fā),采用深度置信網(wǎng)絡對帶標簽數(shù)據(jù)和無標簽數(shù)據(jù)進行深層提取,利用最小二乘支持向量機建立軟測量模型,并結合bagging 算法提高了模型的可靠性,實現(xiàn)對工業(yè)聚合過程中熔融指數(shù)的軟測量。從本質上講,不同工況的數(shù)據(jù)具有不同的分布[9],數(shù)據(jù)分布不同是導致多工況工業(yè)生產過程中原有軟測量模型失準的原因。上述方法在一定程度解決了多工況的軟測量問題,但出現(xiàn)新的未知工況數(shù)據(jù)時易發(fā)生數(shù)據(jù)分布失配而模型失準問題。
遷移學習[10-13]的提出為解決上述多工況軟測量問題提供了思路。遷移學習放寬了訓練數(shù)據(jù)和測試數(shù)據(jù)須滿足獨立同分布的假設。遷移學習利用已知源領域的信息,解決與源領域相關但未知的目標領域中僅有少量甚至無標簽樣本的機器學習問題,在沒有足夠的帶標簽訓練數(shù)據(jù)時也能夠建立較好的機器學習模型。文獻[14]將半監(jiān)督的域適應ELM 算法引入化工過程軟測量領域,利用源域和少量的目標域帶標簽樣本構建數(shù)學模型,實現(xiàn)了多工況條件下工業(yè)聚乙烯過程中熔融指數(shù)的軟測量。文獻[15]在域適應ELM 的基礎上引入流形正則項,保證了域適應前后數(shù)據(jù)結構的不變性,在多工況下濕式球磨機關鍵負荷參數(shù)軟測量上取得了較高的精度。上述半監(jiān)督學習方法要求在目標域具有少量帶標簽數(shù)據(jù)。但實際生產過程中,普遍存在目標域無帶標簽樣本問題,半監(jiān)督算法不再適用。
針對目標域缺乏帶標簽樣本問題,基于流形的無監(jiān)督遷移學習[16-18]成為遷移學習的研究熱點。流形學習將數(shù)據(jù)映射為可靠的嵌入投影,即尋找數(shù)據(jù)投射到低維的子空間表示[19]。流形學習可以將不同工況數(shù)據(jù)映射為潛在連續(xù)流形空間上的不同點,相較于歐式空間能更好地體現(xiàn)不同工況樣本數(shù)據(jù)間的內在特性和規(guī)律。文獻[20]針對跨域圖像分類問題,提出一種基于測地線流的無監(jiān)督遷移學習方法,將目標域與源域數(shù)據(jù)映射為格拉斯曼流形空間上的兩個點,并在這兩個點的測地線方向上選取若干個中間點依次連接,實現(xiàn)了從源域到目標域經(jīng)測地線的逐步域遷移。文獻[21]在此基礎上引入核方法,模擬了測地線上經(jīng)所有點的連續(xù)遷移過程,避免了中間點個數(shù)選擇的問題,在跨域圖像分類問題上取得更高精度,結果進一步表明相較于歐式空間,在流形空間下進行域遷移更能尋找出不同域間數(shù)據(jù)的內在規(guī)律。
在上述基于流形的無監(jiān)督遷移學習算法中,均采用對原始數(shù)據(jù)進行PCA 作為投影到流形空間的方法,PCA 處理得到的是數(shù)據(jù)對方差貢獻最顯著的特征,保持了兩個域各自的特征,其體現(xiàn)的是兩個域的分明性而忽略了域間存在的公共模式信息。從遷移學習的出發(fā)點來考慮,需要在不同域中尋找共有的模式進行遷移建模,將有助于提高所建立的模型在不同工況下對數(shù)據(jù)的適應性。因此本文先抽取各工況數(shù)據(jù)的公共模式信息,然后將公共模式信息映射到格拉斯曼流形空間,利用GFK 框架進行數(shù)據(jù)遷移變換,最后利用偏最小二乘回歸(partial least squares regression, PLSR)方法對遷移后的數(shù)據(jù)建立回歸模型,實現(xiàn)多工況參數(shù)軟測量。
局部線性嵌入(locally linear embedding,LLE)算法對數(shù)據(jù)的局部結構特征具有保留能力[22],LLE 算法的原理如圖1 所示。文獻[23]利用局部線性嵌入研究了公共模式信息的提取方法,本文借鑒該方法實現(xiàn)多工況公共模式信息的提取。
圖1 LLE算法示意圖Fig.1 Locally linear embedding
選取經(jīng)過預處理之后的M 個工況的數(shù)據(jù)合并為一個整體的樣本集X,用局部線性嵌入來提取不同工況中的公共模式信息,各個工況的樣本數(shù)量可以不同,最終要提取到公共模式信息Z。
其 中X =[X1,X2,…,XM],X ∈RL×N,N = N1+N2+ …+ NM。
對于整體樣本集X,每個樣本xi在全局X 中尋找的K 個最近鄰組成δi={xi1,…,xiK},用xi的K-1 個鄰域對多工況數(shù)據(jù)進行線性重構:
根據(jù)式(1),可得最小化誤差:
將其矩陣化并利用拉格朗日乘子法求解W。
根據(jù)式(3),可得最小化誤差:
寫成矩陣形式,并根據(jù)拉格朗日乘子法,則優(yōu)化函數(shù)式(4)等價為:
其中tr(·)表示矩陣的跡,S =(In- W)T(In-W)。因此,式(5)可以通過對SZT= λZT進行特征值分解求解。最后選取S 的最小的d 個非零特征值所對應的特征向量Z =(z1,z2,…,zd)T∈Rd×N作為重構后的數(shù)據(jù)。將Z按照原工況樣本對應關系劃分可得最 終 的 公 共 模 式 信 息 集 合Z =[Z1,Z2,…,ZM]∈Rd×N。
假設已知工況數(shù)據(jù)即源域數(shù)據(jù)為Zs,未知工況數(shù)據(jù)即目標域數(shù)據(jù)為Zt。
測地線流式核方法概括為三個步驟,構建測地線;計算測地線流式核;建立預測模型[24]。
令PS∈RD×d與PT∈RD×d為源域數(shù)據(jù)Zs和目標域數(shù)據(jù)Zt分別PCA 處理后的兩個正交矩陣,測地線函數(shù)定義為:
從源域移到目標域,即代表式(6)從H(0)遷移到H(1)的過程,新的特征可以用v = g(x)= H(t)Tz表示[25]。定義測地線流核表達式為:
G ∈RD×D是 一 個 半 正 定 矩 陣,可 通 過 式(9)求解:
其中Λ為對角陣,其對角元素為:
進而可得將原始樣本特征z 沿測地線方向遷移后的樣本v:
即求出Zs映射后的樣本vs與Zt映射后的樣本vt,對源域已有標簽樣本vs進行學習建模,以實現(xiàn)對樣本vt標簽的預測。
在多工況軟測量建模問題上,本文考慮到工況改變后的數(shù)據(jù)分布差異和不同工況之間潛在的關聯(lián)關系,有針對性地引入基于流形的遷移學習框架。利用LLE 算法對局部結構特征保留的優(yōu)點,有效提取不同工況間的公共模式信息,利用GFK 框架在流形空間沿測地線連續(xù)遷移的特性,提出基于局部線性嵌入的測地線流式核(locally linear embedding-geodesic flow kernel, LLEGFK)多工況軟測量建模方法。
圖2為LLEGFK算法的示意圖。
鉬礦石標準樣品GBW07239(武漢綜合巖礦測試中心研制):w(Re)=120ng/g;水系沉積物標準樣品GBW07449(地球物理地球化學勘查研究所研制):w(Re)=2.10ng/g;水系沉積物標準樣品GBW07453(地球物理地球化學勘查研究所研制):w(Re)=0.45ng/g;鎢礦石標準樣品GBW07241(地質礦產部湖北地質實驗研究所研制):w(Re)=80.0ng/g。
圖2 LLEGFK算法示意圖Fig.2 Locally linear embedding-geodesic flow kernel
其中LLE(· )代表基于局部線性嵌入的公共模式信息提取算法。特別地,為了保證后續(xù)遷移軟測量模型的精度,需要保留盡可能多的公共模式信息,所以經(jīng)重構之后各工況數(shù)據(jù)的特征維度仍保留為L。將Zs∈RL×Ns和Zt∈RL×Nt拆分至各自工況,即Zs為相對于源域Xs的公共模式信息,Zt為相對于目標域Xt的公共模式信息。
隨后,利用PCA 將提取后的Zs和Zt映射到格拉斯曼流形空間,使得每個工況數(shù)據(jù)分別投影到流形空間的同時兼顧到不同工況間的公共模式信息,將其作為GFK 框架中的子空間PS、PT,結合式(6)構建測地線方程,進而求得分布適配后的數(shù)據(jù)。
最后,利用適配后的源域樣本與源域標簽建立軟測量模型,實現(xiàn)目標域標簽的預測。
算法1 LLEGFK算法流程
輸入:已知工況(源域)數(shù)據(jù)Xs和對應標簽Ys,未知工況(目標域)數(shù)據(jù)Xt,最近鄰個數(shù)K。
輸出:目標域標簽Yt。
(1)數(shù)據(jù)預處理;
(2)合并Xs、Xt,根據(jù)式(11)求得公共模式信息Z,拆分到各自工況得Zs、Zt,并投影到流形空間得PS、PT;
(3)結合式(6)、式(7)構建測地線,根據(jù)式(9)得G并結合式(10)求得遷移后的數(shù)據(jù)vs與vt;
(4)利用vs與源域標簽Ys訓練PLSR 軟測量回歸模型f;
(5)根據(jù)f與vt,求得目標域標簽Yt。
為了驗證軟測量算法的有效性,實驗數(shù)據(jù)采集于TE 過程仿真平臺[26-27]。TE 過程是由Tennessee Eastman 化工公司提出的化工仿真平臺,現(xiàn)已被學者廣泛用于進行測試過程變量監(jiān)控,變工況故障診斷以及質量預測等方面。整個化工過程主要有4個反應過程,其中反應物包括進料氣體A、C、D、E,以及進料液體B,生成的主產物為G 和H,以及反應副產物F。TE過程根據(jù)主產物G/H比率的不同可以分為6種操作模式[28]。整體過程包含41個測量變量和12個操作變量。
本實驗通過改變TE過程的生產操作模式,在每個操作模式下的化工過程模擬運行5 h,保持相同采樣間隔,采集到3 種不同工況下的數(shù)據(jù)樣本各1000個,作為算法驗證數(shù)據(jù)集。當工況選做源域時選用1000個樣本數(shù),當樣本用作目標域時,選取其中400個樣本作為目標域數(shù)據(jù)。其三種工況數(shù)據(jù)相對應的產物G/H比例如表1所示。
表1 三種工況數(shù)據(jù)Table 1 Data of three working conditions
采集TE 仿真過程中的41 個測量變量用于測試,其中包含22 個連續(xù)的測量變量和19 個成分測量變量。實驗將易測的22 個測量變量歸一化預處理后作為模型輸入,分別對每一個工況下的19個成分變量中的成分A 變量、成分B 變量和成分C 變量遷移到其余工況進行軟測量。對某一工況作為源域進行遷移時,其余兩個工況作為目標域,不含任何帶標簽數(shù)據(jù)。
本文采用均方根誤差(root mean square error,RMSE)作為衡量模型準確性能的評價指標。
用PLSR算法、LLE加PLSR算法、GFK算法和本文的LLEGFK 算法分別對A、B、C 三種成分含量進行軟測量。實驗對比結果如表2所示。其中“1—2”表示從工況1遷移到工況2。
圖3、圖4、圖5、圖6分別給出了4種方法對不同工況下成分A含量的軟測量對比結果圖。其中各圖中的圖(a)表示對歷史數(shù)據(jù)用PLSR 建模,并直接對新工況數(shù)據(jù)進行測量的結果。圖(b)代表由LLE 提取不同工況間的公共模式信息之后,再用PLSR 進行建模后軟測量的結果圖,圖(c)代表GFK 算法軟測量結果圖,圖(d)為LLEGFK 算法的結果圖。可以看出在測試樣本中,LLEGFK 的精度相較于LLE 和GFK算法均有不同程度提高,驗證了該算法的有效性。
以圖3 為例,圖3(a)將原始數(shù)據(jù)經(jīng)預處理之后直接建模進行預測,可以看出當工況發(fā)生改變時,由于工況變化前后數(shù)據(jù)分布產生差異,所以用歷史模型預測新工況數(shù)據(jù)時存在較大誤差,圖3(b)利用LLE 提取不同工況間的公共模式信息之后建立PLSR 回歸模型,在一定程度上降低了誤差,圖3(c)的GFK 方法,采用PCA 方法將不同工況的數(shù)據(jù)映射到子空間,在流形學習框架下映射到格拉斯曼空間解決域遷移問題,較明顯地改善了測量精度。圖3(d)在解決跨域軟測量問題時,先經(jīng)過LLE 提取源域和目標域的公共模式信息,對這些具有公有信息的數(shù)據(jù)再進一步地采用GFK 遷移方法,可以明顯地看出LLEGFK算法提高了模型的精度。
為了直觀闡述LLEGFK 算法的有效性原因,圖7(a)為工況1、工況2 的原始數(shù)據(jù)經(jīng)PCA 投影后保留前三維特征的分布情況,圖7(b)為經(jīng)LLE 提取公共模式信息后再進行PCA 降維并保留前三維特征的分布情況,經(jīng)LLE 對不同工況數(shù)據(jù)進行處理之后有效地得到了不同工況之間的公共模式信息,一定程度上降低了不同工況的分布差異。圖7(c)為對原始數(shù)據(jù)經(jīng)過GFK 遷移之后,經(jīng)PCA 降維并選取前三維特征的分布情況,圖7(d)為經(jīng)過LLEGFK 算法之后再進行相同處理的分布圖,可以直觀地看出,遷移之后不同工況的數(shù)據(jù)分布更加趨于一致。本文算法區(qū)別于PCA 對不同工況數(shù)據(jù)的分別映射,由于考慮到不同域之間的公共模式信息,更進一步縮小了不同工況間數(shù)據(jù)的分布差異。因此,LLEGFK 較其他三種算法可以取得更高的精度。
表2 各工況下不同算法參數(shù)軟測量均方根誤差對比Table 2 Comparison of RMSE of soft sensor of different algorithm parameters under different working conditions
圖3 工況1遷移到工況2對成分A含量軟測量結果Fig.3 Predicted results of 1—2 component A
圖4 工況1遷移到工況3對成分A含量軟測量結果Fig.4 Predicted results of 1—3 component A
圖5 工況2遷移到工況1對成分A含量軟測量結果Fig.5 Predicted results of 2—1 component A
圖6 工況2遷移到工況3對成分A含量軟測量結果Fig.6 Predicted results of 2—3 component A
為了驗證LLEGFK 算法的有效性,另一數(shù)據(jù)來自實驗采集的濕式球磨機數(shù)據(jù)。濕式球磨機是選礦、化工領域的高耗能設備,準確檢測磨機負荷是實現(xiàn)選礦過程安全運行和節(jié)能降耗的關鍵[29]。實際工業(yè)過程中,球磨機介質充填率通常在0.3~0.5之間變化,選用規(guī)格為φ602 mm × 715 mm 的小型實驗室球磨機作為實驗設備,并通過改變介質填充率來模擬實際中存在的球磨機工況變化。
工業(yè)中常用的表征磨機負荷的關鍵磨機內部負荷參數(shù)包括:充填率(charge volume ratio,CVR)、礦漿濃度(pulp density, PD)、料球比(material to ball volume ratio,MBVR)[30]。實驗通過設定5種不同的介質充填率來模擬5 種實際的工況,各工況設置方法和實驗次數(shù)如表3所示。實驗中不同工況間球磨機滾筒內的鋼球和水的質量均相同,通過連續(xù)添加物料,相應的球磨機負荷參數(shù)隨之改變,將CVR、PD、MBVR作為軟測量的標簽。
圖7 不同工況提取公共模式信息前后分布Fig.7 Distribution of common feature before and after extraction under different working conditions
表3 各工況參數(shù)與實驗次數(shù)Table 3 MFR and number of experiments under different working conditions
數(shù)據(jù)預處理時,將每組振動信號平均分為28個樣本,每個樣本覆蓋長度大于濕式球磨機旋轉一周所用時間,然后將每個時域信號樣本通過快速傅里葉變換(fast Fourier transformation,FFT)轉化至頻域。
將數(shù)據(jù)集中的工況1 作為源域數(shù)據(jù),分別遷移到其他4個工況來驗證算法。對于球磨機的三種負荷參數(shù)軟測量結果的均方根誤差對比如表4所示。
圖8、圖9、圖10分別展示了四種算法均以工況1為源域,遷移到工況2、3、4后對料球比的軟測量結果對比圖。
由上述結果可見,當數(shù)據(jù)不滿足獨立同分布假設的前提條件時,PLSR 算法進行軟測量誤差顯著,LLE考慮到公共模式信息后可以在一定程度上降低誤差,最終LLEGFK 算法在考慮不同工況的公共模式信息的同時又在流形空間進行數(shù)據(jù)域適應遷移,與其他三個算法相比顯著降低了測量誤差,較好地解決了多工況下球磨機關鍵參數(shù)的軟測量問題。上述實驗結果說明本文方法在多工況無監(jiān)督情況下的有效性。
表4 各算法軟測量均方根誤差對比Table 4 Comparison of RMSE of soft sensor of different algorithm parameters under different working conditions
圖8 工況1遷移到工況2料球比軟測量結果Fig.8 Predicted results of 1—2 MBVR
圖9 工況1遷移到工況3料球比軟測量結果Fig.9 Predicted results of 1—3 MBVR
圖10 工況1遷移到工況4料球比軟測量結果Fig.10 Predicted results of 1—4 MBVR
本文針對流程工業(yè)中由于工況改變導致原有模型失配而新工況中又缺乏帶標簽樣本難以建立模型的問題,引入一種局部線性嵌入和測地線流式核相結合的無監(jiān)督軟測量建模方法。首先,用LLE 提取不同工況的公共模式信息;然后將其映射為格拉斯曼流形上的兩個點,嵌入GFK 框架計算新的測地線流式核,最終用PLSR 得到回歸模型。本算法在考慮到提取源域和目標域公共模式信息的同時,將其投影到流形空間從而挖掘出隱藏在高維空間上的低維流形,有效地解決了由于多工況產生數(shù)據(jù)分布不一致而導致的軟測量模型失準問題。在TE 過程和濕式球磨機下的實驗結果表明,LLEGFK 算法提高了多工況軟測量結果精度。
下一步工作將進一步研究遷移學習在軟測量領域的應用,探究工業(yè)過程中多工況條件下不同工況間更深層的公共知識和基于遷移學習并利用多個歷史源域集成的在線軟測量方法,以提高軟測量模型的準確率和魯棒性。
符 號 說 明
f——回歸模型
PS,PT——分別為提取公有信息之后的源域、目標域數(shù)據(jù)在流形空間的投影
W——線性重構權值矩陣
X——各工況數(shù)據(jù)合并后的樣本集
Xs——源域數(shù)據(jù)
Xt——目標域數(shù)據(jù)
xi——X中的第i個樣本
Ys——源域數(shù)據(jù)標簽
Z——公共模式信息
Zm——第m種工況中所提取的公共模式信息
δi——xi在X中搜索得到的鄰域集合