王業(yè)豐,姚立忠,龍 偉,丁 偉,孫先武
(1.四川大學機械工程學院,四川 成都 610065; 2.重慶科技學院電氣工程學院,重慶 401331)
探究精確的電解鋁制造系統(tǒng)工藝模型屬于現(xiàn)代電解鋁工業(yè)高效節(jié)能實現(xiàn)優(yōu)化決策的關鍵環(huán)節(jié)。然而,電解鋁制造系統(tǒng)包含參數(shù)眾多、各數(shù)據(jù)之間干擾冗余嚴重,限制了模型性能的開發(fā),故在電解鋁制造系統(tǒng)中如何提取有效特征便成為當前該領域重要的研究分支。
特征提取指在不直接去除數(shù)據(jù)原始維度的前提下,通過對原始數(shù)據(jù)提取特征達到降維的目的。特征提取又可以分為兩種類型:線性特征提取和非線性特征提取[1]。當下流行的線性降維方法有主成分分析(principal component analysis,PCA)、偏最小二乘法(partial least squares,PLS)、判別分析方法(latent dirichlet allocation,LDA)和隱含語義分析(latent semantic snalysis,LSA)等。將原始數(shù)據(jù)經(jīng)特征提取處理后參與模型構建,利于系統(tǒng)模型避免過擬合,且具有更好的判別分析能力。
然而,現(xiàn)實生活中的數(shù)據(jù)通常不能被簡單看成線性關系,例如電解鋁制造系統(tǒng)中涉及到十幾種工藝決策參數(shù),各參數(shù)間耦合關聯(lián)復雜、對于電解鋁性能指標(噸鋁直流電耗)的信息貢獻程度差異大。為此,學者們便開發(fā)了基于核函數(shù)的PCA、PLS,即核主成分分析(kernel principal component analysis,KPCA)和核偏最小二乘法(kernel partial least squares,KPLS),來進行非線性復雜工藝過程的特征提取。較KPCA而言,KPLS在提取變量特征時充分考慮了預測變量和決策變量之間的關系,使其成為處理該類問題中很有前景的一種特征提取方法。
目前,國內(nèi)外在特征提取方面使用核函數(shù)處理非線性數(shù)據(jù)非常常見,如董澤等[2]研究了基于互信息和多尺度小波核偏最小二乘的SCR脫硝系統(tǒng)預測模型;文獻[3]基于主成分分析或核主成分分析對合光譜子空間法進行校正傳遞,類似文獻較多不再一一舉例。但通過文獻分析可知,大多數(shù)研究僅僅是使用單核與某個特征提取方法結合,沒有充分開發(fā)出核函數(shù)的優(yōu)勢。為此混合核函數(shù)的研究逐步受到大家的青睞,如張躍等[4]采用混合核函數(shù)支持向量機對大型發(fā)電機定子線棒絕緣狀態(tài)進行評估;文獻[5]研究了多項式核混核的貝葉斯非參數(shù)回歸。通常混合核函數(shù)是由兩個核函數(shù)簡單組合而成,推進了核函數(shù)方法在特征提取領域的研究,但對多核的研究相對較少。另外,在深度挖掘提取性能方面,Rivas等[6]研究了用核分析核主要基因的選擇算法;Smit等[7]提出了混合核函數(shù)方法以提高支持向量機的性能;文獻[8]采用交叉驗證框架用于KPCA和KPLS模型的最佳參數(shù)估計。然而,通過上述分析發(fā)現(xiàn)因核權重不明確、核參數(shù)難以確定以及原始數(shù)據(jù)過于復雜,混合核函數(shù)關鍵參數(shù)的優(yōu)化研究依然不足。為克服上述問題,本文提出一種結合精英免疫遺傳與聚合核偏最小二乘法(EIGA-PKPLS)進行特征提取的新型算法。該算法把多種不同性質(zhì)的單個核函數(shù)聚合成聚合核函數(shù),使用本文提出的精英判別免疫遺傳算法來優(yōu)化多個核參數(shù)與核權重;進而采用EIGA-PKPLS開展電解鋁制造系統(tǒng)中系列參數(shù)特征提取研究,并以建立的工藝能耗預測模型精度為基準測試驗證了多種特征提取算法的效果。實驗結果表明,采用精英免疫遺傳優(yōu)化后的聚合核偏最小二乘特征提取算法較其它方法具有明顯競爭優(yōu)勢。
核偏最小二乘法(KPLS)的基本思想[9-11]是通過非線性映射將原始數(shù)據(jù)嵌入到特征空間,繼而運用線性PLS算法在特征空間中處理數(shù)據(jù)。因非線性映射是在原空間中利用核函數(shù)內(nèi)積運算實現(xiàn)的,故無需關注具體的映射形式。
這樣就可以得到KPLS的回歸模型:
在實際應用中,選取適合實際數(shù)據(jù)的核函數(shù)是極為重要的。當前核函數(shù)類型至少有20多種,其中常用的單核函數(shù)主要有:
對于使用“核函數(shù)”的算法來說,不同核函數(shù)的性質(zhì)不同[12]會直接影響到特征提取的能力。如果我們將線性核函數(shù)應用在KPCA中,推導之后會發(fā)現(xiàn)和原始PCA算法一模一樣,這是因為線性核函數(shù)偶爾會出現(xiàn)等價的形式。多項式核函數(shù)實際是一種非標準核函數(shù),它非常適合于正交歸一化后的數(shù)據(jù),雖然本身核參數(shù)比較多,但是穩(wěn)定性不錯。高斯核函數(shù)則是一種經(jīng)典的魯棒徑向基核,對于數(shù)據(jù)中的噪音有著較好的抗干擾能力,但對參數(shù)十分敏感,其核參數(shù)決定了函數(shù)作用范圍。二次有理核函數(shù)作為高斯核的替代品作用域很廣,并且改善了高斯核函數(shù)耗時太久的弊端,但是對參數(shù)十分敏感。
因此,在面對電解鋁制造系統(tǒng)這樣的復雜問題時,一般有很多核函數(shù)可供選擇。不過因單核函數(shù)自身的片面性和局限性在面對強耦合、高冗余數(shù)據(jù)時,特征提取能力稍有不足[13]。為了提高算法對數(shù)據(jù)提取的能力,綜合運用各個核函數(shù)處理不同特性數(shù)據(jù)的優(yōu)勢,本文提出聚合核的概念,定義如下:
根據(jù)電解鋁制造系統(tǒng)中數(shù)據(jù)所體現(xiàn)出來的特性以及單核、雙核建立回歸模型性能的相關經(jīng)驗。本文用于電解鋁制造系統(tǒng)特征選擇的聚合核函數(shù)為:
式(5)中,核函數(shù)分別為高斯徑向基核函數(shù)、多項式核函數(shù)和多元二次核函數(shù)。為此,可給出結合聚合核與偏最小二乘開展特征提取與回歸建模的主要過程:
第一步:選擇合適的單核函數(shù)形成聚合核函數(shù)KE。
因聚合核函數(shù)中每個單核函數(shù)的核參數(shù)以及核權重都會在一定程度上影響聚合核函數(shù)的性能,故使用全局尋優(yōu)算法在定義域范圍內(nèi)確定最優(yōu)核參數(shù)和最優(yōu)權重就顯得尤為重要了。本文提出精英算子的概念,并給出了精英免疫遺傳算法的設計流程,用于優(yōu)化PKPLS。
2.2.1 精英算子
免疫遺傳算法是近年來基于生物免疫機制提出的一種改進遺傳算法[14]。它利用免疫算法多種機制求解目標函數(shù)最優(yōu)解,在很大程度上避免未成熟收斂,改善了算法的收斂性。然而,在面對電解鋁制造系統(tǒng)中復雜的工藝數(shù)據(jù)時,免疫遺傳算法仍有搜索效率低和收斂速度慢的現(xiàn)象。為此,本文提出精英免疫遺傳算法(elite immune genetic algorithm,EIGA),在免疫遺傳的基礎上增加了精英算子(精英判別策略),在每一代無差別隨機生成一個次種群。因次種群的定義域不受迭代次數(shù)和主種群當代濃度的影響,故精英算子從源頭上大大降低了優(yōu)化算法困在極值的可能性。當次種群中存在適應度高于主種群的粒子時,精英判別算法就判定新粒子替換主種群中適應度低的粒子,實現(xiàn)精英粒子的保留。
精英判別流程如圖1所示,在某次迭代中,已有上代數(shù)量為30(編碼:1~30)并按照適應度大小排列的主種群,和本代新生數(shù)量為10(編碼:A~J)的次種群。首先,計算次種群的適應度大?。唤又?,混合主種群、次種群所有個體,根據(jù)適應度的大小取其前30個粒子作為精英種群并進入下一次迭代;最后,結束引入精英粒子后,再計算種群濃度,判定是否執(zhí)行免疫操作。在上圖的精英判別過程中,代碼為G、B、C的3個新生粒子因為適應度排列在前成為精英粒子,與主種群原有的前27個粒子一同作為精英種群進入下一次迭代。經(jīng)過上面的流程就完成了一次精英粒子的篩選。有了精英算子的加入,可以相對減少初始種群的數(shù)量(N),提高了計算效率,縮短了算法時間,并在一定程度上提高了算法尋優(yōu)結果的精度。
圖1 精英判別流程示意圖
2.2.2 優(yōu)化算法參數(shù)及其步驟
為了充分探索PKPLS在電解鋁制造系統(tǒng)中的特征提取性能,本文采用提出的精英免疫遺傳算法解決PKPLS中核參數(shù)和核權重的取值問題。由式(5)~(6)可知,整個電解鋁制造系統(tǒng)特征選擇算法中有8個未知參數(shù)需要優(yōu)化。本文分別以v1~v8表示,其中v1~v5為核參數(shù),v6~v8為核權重。參數(shù)詳情見表1。
表1 待優(yōu)化參數(shù)分布
精英免疫遺傳算法步驟如下:
步驟1:對遺傳個體進行編碼。構成精英免疫遺傳算法個體的就是待優(yōu)化的8個參數(shù)(v1、v2、v3、v4、v5、v6、v7和v8)。
步驟2:輸入優(yōu)化的目標函數(shù)作為抗原。本文使用了RMSE作為目標函數(shù),設定包括迭代次數(shù)G、主種群規(guī)模NZ、次種群數(shù)量nZ、新注入種群規(guī)模np、濃度閾值Pa、交叉概率Pc、變異概率Pm、濃度閾值Pa在內(nèi)的各種參數(shù)。
步驟3:初始抗體群。隨機生成第一代抗體群并設置優(yōu)化參數(shù)編碼長度。
步驟4:生成次抗體群。隨機生成次抗體群。
步驟5:適應度函數(shù)。根據(jù)每個抗體與抗原的親和度以及各抗體的濃度,估算每一個染色體的適應度,與實際電解鋁工耗越接近,濃度越小的抗體適應度最高;按照種群規(guī)模取適應度最高的前NZ個保留為本代種群。
步驟6:濃度判斷。判斷抗體濃度是不是超過濃度閾值,超過就根據(jù)設置注入一定量(np)的新抗體ZNP,并舍棄同等數(shù)量的低適應度抗體。
步驟7:選擇、交叉、變異。
步驟8:輸出判斷。如果達到輸出要求,則將與抗原適應度最高的抗體加入免疫記憶數(shù)據(jù)庫并結束運行輸出結果,否則轉(zhuǎn)到步驟4。
EIGA-PKPLS流程如圖2所示。
圖2 EIGA-PKPLS算法流程圖
為了檢驗EIGA-PKPLS算法特征提取的效果,本文以電解鋁制造系統(tǒng)的性能指標單位工耗預測模型為基準,采用兩個常用的外部驗證指標來評價PKPLS預測模型的可接受性[15],這兩個指標分別是預測誤差均方根(RMSE)和平均絕對誤差(MAE),公式如下:
式中:Yi和 YRi——外部驗證數(shù)據(jù)第i個樣本的實際值和預測值;
NW——外部驗證數(shù)據(jù)的樣本含量。
本文應用的實驗對象為異形穿孔技術的新型鋁電解槽,通過對鋁電解槽單位直流能耗的影響因素分析,結合專家經(jīng)驗和綜合考慮現(xiàn)場采集數(shù)據(jù)的實際難度,選取了17種有效決策參數(shù)。分別為:系列電流、工作電壓、槽齡、AE次數(shù)、NB次數(shù)、RC次數(shù)、異常電壓(分)、NB間隔、AE間隔、分子比、出鋁量、鋁水平、電解質(zhì)水平、槽溫、加氟次數(shù)、氟化鹽日用量(kg)、氟化鹽單耗。
數(shù)據(jù)來源為某鋁廠170 kA系列鋁電解槽中的158號槽,對其進行采樣獲取數(shù)據(jù),得到了一段工期內(nèi),16種決策參數(shù)日報數(shù)據(jù)334組。
精英免疫遺傳算法的主要目的是使種群個體適應度快速增加的同時,不被困在局部極值點。以便在種群初試定義域,即全局范圍內(nèi),用較短時間獲得全局最優(yōu)解。所以,在使用整個算法進行尋優(yōu)前,需要設定EIGA內(nèi)部的相關參數(shù),這樣才能夠合理利用EIGA。在EIGA算法中初始種群的大小、濃度的閾值、需要注入新種群的數(shù)量、變異概率、交叉概率以及適應度函數(shù)等都需要針對特定的優(yōu)化問題進行合理的設定。本次研究的所有EIGA內(nèi)部的相關參數(shù)的設置見表2。
表2 EIGA-PKPCA電解鋁制造系統(tǒng)模型的參數(shù)設置
通過設計以下建模進行電解鋁制造系統(tǒng)工藝能耗對比實驗結果。所有實驗均采用相同的樣本數(shù)據(jù)在Windows10系統(tǒng)內(nèi)以Matlab R2018a為仿真平臺進行實驗,其中CPU:i7-7700;顯卡:GTX1070;內(nèi)存:16 GB。特征提取方法中英文名稱對照表見表3,其中MKPLS使用的單核函數(shù)分別為高斯核函數(shù)和多項式核函數(shù)。
表3 特征提取方法中英文名稱對照表
圖3(a)、圖 3(b)為使用 EIGA-PKPLS 算法迭代500次時的兩個評價函數(shù)收斂曲線。
圖3 收斂曲線
從圖3(a)、圖3(b)中可以看出使用本文方法,RMSE值在前80代就已經(jīng)趨近于最優(yōu),MAE值也在前110代趨近于最優(yōu)。收斂曲線在后續(xù)迭代中趨于直線,兩個收斂曲線圖直接表明精英免疫遺傳算法在前期就可以迅速收斂。
圖4是EIGA-PKPLS模型預測圖,圖5是本文算法和另外兩種相關算法的對比圖。因精英算子主要作用為減少算法時間,故只選擇3個在精度上有較大區(qū)分度的算法進行對比。從圖4可以看出,除第7個數(shù)據(jù)點外,其余所有波峰波谷全部吻合,并且53個測試數(shù)據(jù)的預測值和實際值非常接近。這說明本文提出的特征提取方法,在面對電解鋁制造系統(tǒng)數(shù)據(jù)時,有著良好的特征提取能力。從圖5可以看出,本文方法的誤差百分比曲線始終在以0為軸的直線上小幅波動,IGA-MKPLS的波動幅度明顯大于本文算法,并且前30個數(shù)據(jù)點可以看為以-0.05%為對稱軸的波動曲線。作為經(jīng)典算法的KPLS的誤差曲線和本文算法相比,無論是精度還是曲線對稱中心,差距明顯,不再單獨分析。
圖4 EIGA-PKPLS模型預報結果
圖5 3種特征提取方法效果對比圖
圖6(a)~圖6(f)是不同特征提取方法面對電解鋁制造系統(tǒng)數(shù)據(jù)時,不同特征提取方法的誤差柱狀圖。圖6(a)、圖6(b)、圖6(c)分別是使用高斯核函數(shù)、多項式核函數(shù)以及雙核混合核函數(shù)做核偏最小二乘特征提取的誤差柱狀圖,其誤差都是以103為標準。從這3張圖的對比可以看出,使用高斯核的核偏最小二乘法性能優(yōu)于使用多項式核的核偏最小二乘法。混合核偏最小二乘法因為核參數(shù)和核權重是人為確定的原因,使特征提取能力并沒有優(yōu)于單核偏最小二乘法,也側(cè)面驗證了核參數(shù)和核權重的重要性。圖6(d)、圖6(e)分別是使用了免疫遺傳算法的混合核偏最小二乘法和聚合核片最小二乘法。面對電解鋁制造系統(tǒng)工藝數(shù)據(jù)進行特征提取時,使用尋優(yōu)算法后的誤差較常規(guī)特征提取方法下降了一個量級,都是以102為標準。結合圖6(d)、圖6(e)可以看出,兩種方法測試樣本結果誤差在200以內(nèi)的樣本數(shù)量分別為16和20,在使用PKPLS方法后,誤差分布明顯優(yōu)于MKPLS方法。圖6(f)是本文算法,即精英免疫遺傳優(yōu)化的聚合核偏最小二乘法,對比6張柱狀圖,相比較IGA-PKPLS,本文算法誤差更小,更集中在0~200的范圍內(nèi),并且53個測試樣本中,只有一個測試樣本的預測值和實際值的誤差大于600。
圖6 不同特征提取方法的誤差柱狀圖
表4中,通過具體數(shù)值再次證明了本文算法的優(yōu)越性。依據(jù)不同特征提取方法在RMSE和MAE評價指標下的具體數(shù)值可以看出,本文提出的方法各種性能均高于其他方法。聚合核函數(shù)在聚合多個核函數(shù)后,其特征提取能力明顯優(yōu)于雙核混合核函數(shù)。同時可以看出,使用精英免疫遺傳算法優(yōu)化核參數(shù)得到的結果優(yōu)于作者通過經(jīng)驗選取核參數(shù)得到的結果。并且,在缺少精英免疫遺傳算法幫助確定核參數(shù)和核權重的情況下,混合核偏最小二乘回歸的結果并沒有比普通的單核偏最小二乘回歸好,無法體現(xiàn)出多核核函數(shù)的優(yōu)勢,這一點也表明使用本文提出的精英免疫遺傳算法優(yōu)化聚合核關鍵參數(shù)對增強特征提取能力具有顯著作用。
表4 不同特征提取方法的性能對比
針對電解鋁制造過程中的強非線性、多變量相關及影響因素較多等特點,本文提出一種結合精英免疫遺傳算法與聚合核偏最小二乘法的電解鋁制造系統(tǒng)特征提取方法。通過引入精英算子的方法,提高全局搜索效率、加快收斂速度。在此基礎上,進一步考慮到電解鋁制造系統(tǒng)數(shù)據(jù)的復雜性和單個核函數(shù)的局限性,提出聚合核函數(shù),并結合偏最小二乘法建立回歸模型。通過對比試驗表明,利用精英免疫遺傳算法優(yōu)化后的聚合核偏最小二乘法,提高了對包含非線性、多參數(shù)、強耦合等性質(zhì)數(shù)據(jù)的特征提取能力,對電解鋁制造系統(tǒng)數(shù)據(jù)的特征提取能力優(yōu)于現(xiàn)有方法。EIGA-PKPLS為進一步優(yōu)化鋁電解操作參數(shù),實現(xiàn)低耗高效,節(jié)能減排,綠色智能制造提供了技術支持。