安佳敏,張雷,,李善蓮,張二強,鄒嚴(yán)頡,劉朝賢*
1 中國煙草總公司鄭州煙草研究院,鄭州高新區(qū)楓楊街2 號 450001;
2 鄭州輕工業(yè)大學(xué),鄭州金水區(qū)東風(fēng)路5 號 450002;
3 陜西中煙工業(yè)有限責(zé)任公司技術(shù)中心,陜西省寶雞市高新大道100 號 721013
葉絲干燥是卷煙制絲加工過程的關(guān)鍵工序,直接影響著煙絲的物理品質(zhì)和感官質(zhì)量[1]。本文以順流式滾筒烘絲機為研究對象,在干燥過程中,采用傳導(dǎo)-對流的綜合干燥方式,使煙絲在蒸汽加熱的筒壁和熱空氣的共同作用下,干燥至適合卷制成煙支所需的含水率。然而,實際烘絲過程的工況復(fù)雜多變,來料葉絲的含水率、流量等參數(shù)經(jīng)常波動,生產(chǎn)過程出現(xiàn)異常會造成含水率不達標(biāo),工況不穩(wěn)定,影響產(chǎn)品質(zhì)量,因此有必要對其進行過程監(jiān)測,以提前發(fā)現(xiàn)異常工況,做出調(diào)控措施,這有利于保證葉絲加工質(zhì)量,降低原材料損耗。
異常工況檢測對提高產(chǎn)品質(zhì)量和生產(chǎn)效率具有重要作用,在制絲過程質(zhì)量監(jiān)控方面,傳統(tǒng)的統(tǒng)計過程控制(Statistical process control,SPC)方法有較成熟的應(yīng)用[2-3],但是單變量上下限閾值檢測容易產(chǎn)生誤報警或漏報警,其監(jiān)測準(zhǔn)確性有待提高。同時,葉絲干燥過程是一個多變量、強耦合的復(fù)雜非線性系統(tǒng),生產(chǎn)數(shù)據(jù)呈現(xiàn)多元化的特點,單變量統(tǒng)計方法已無法滿足工業(yè)異常工況檢測的需求[4]。
近年來,基于數(shù)據(jù)驅(qū)動的異常工況檢測方法受到了諸多學(xué)者的廣泛關(guān)注[5-6],其具有以下顯著優(yōu)勢:一方面,數(shù)據(jù)驅(qū)動的方法不受限于機理建模和專家知識積累的困難,另一方面,多元統(tǒng)計異常檢測方法通過對高維數(shù)據(jù)進行降維,學(xué)習(xí)大量數(shù)據(jù)的隱含特征,消除變量間多重相關(guān)性造成的信息冗余,彌補了單變量異常檢測方法的不足。
多元統(tǒng)計分析(Multivariate statistical analysis,MVSA)方法是一類典型的數(shù)據(jù)驅(qū)動異常檢測方法,其將高維數(shù)據(jù)投影到低維空間,獲取數(shù)據(jù)結(jié)構(gòu)特征,通過監(jiān)測過程數(shù)據(jù)的異常變化來判斷系統(tǒng)是否處于異常狀態(tài)。主要包括主成分分析(Principal component analysis,PCA)[7-8]和偏最小二乘(Partial least squares,PLS)[9-10],這兩種基本方法一般假設(shè)數(shù)據(jù)呈高斯線性分布,但這與真實工業(yè)數(shù)據(jù)分布不符。實際上,工業(yè)過程異常檢測問題可以轉(zhuǎn)化為一個二分類問題,即如何識別正常數(shù)據(jù)樣本和異常數(shù)據(jù)樣本[11]。不同于多元統(tǒng)計分析的數(shù)據(jù)分布假設(shè),支持向量數(shù)據(jù)描述(SVDD)可以同時處理非高斯非線性數(shù)據(jù),且適用于小樣本分類問題,因此在異常數(shù)據(jù)檢測領(lǐng)域有廣泛的應(yīng)用。由于SVDD 無法表征數(shù)據(jù)的深層特征,對工業(yè)過程早期故障檢測效果并不良好[12]。近年來,隨著計算機科學(xué)的發(fā)展,深度學(xué)習(xí)方法成功地應(yīng)用在了圖像識別、自然語言處理、文本分析等大數(shù)據(jù)處理領(lǐng)域,在挖掘數(shù)據(jù)深層特征方面表現(xiàn)出優(yōu)勢[13]。
基于以上分析,為提高模型監(jiān)測早期異常工況的性能,本文提出了一種基于深度學(xué)習(xí)自動編碼器(AE)重構(gòu)誤差和支持向量數(shù)據(jù)描述(AE-SVDD)的滾筒葉絲干燥過程異常工況檢測方法。最后,用卷煙滾筒葉絲干燥過程實際生產(chǎn)數(shù)據(jù)來驗證所提方法的有效性。
(1)自動編碼器AE
自動編碼器是一種無監(jiān)督學(xué)習(xí)算法,如圖1 所示,一個完整的自動編碼器包含編碼器、解碼器以及損失函數(shù)。編碼器將輸入信息x,通過神經(jīng)網(wǎng)絡(luò)壓縮,提取出數(shù)據(jù)的重要特征h,再由解碼器將其解壓得到重構(gòu)數(shù)據(jù)x′。
圖1 AE 網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 The network structure of Auto encoder
其中編碼過程表示為:
式中f為激活函數(shù),W、b為隱藏層的權(quán)重矩陣和偏差,W'、b'為輸出層的權(quán)重矩陣和偏差。AE 通過均方誤差損失函數(shù),以最小化輸入和輸出數(shù)據(jù)的誤差為目的,對參數(shù)集T={W,b,W′,b′}多次迭代優(yōu)化,更新網(wǎng)絡(luò)參數(shù),逐步提升模型的準(zhǔn)確性。
(2)支持向量數(shù)據(jù)描述SVDD
如圖2 所示,支持向量數(shù)據(jù)描述旨在找到一個體積最小的超球體,盡量包含所有非異常的數(shù)據(jù)對象,而盡可能不包含異常數(shù)據(jù)。
圖2 SVDD 超球體結(jié)構(gòu)Fig.2 Structure of the hypersphere in SVDD
對于一個給定的數(shù)據(jù)集D,SVDD 算法目的是解決以下優(yōu)化問題:
使用所提AE-SVDD 方法對滾筒葉絲干燥過程進行異常檢測的流程圖如圖3 所示。首先對預(yù)處理后的生產(chǎn)數(shù)據(jù)提取自編碼器重構(gòu)誤差,將重構(gòu)誤差作為新的觀測信息建立SVDD 模型。
圖3 基于重構(gòu)誤差和SVDD 的異常數(shù)據(jù)檢測流程圖Fig.3 Flow chart of abnormal data detection based on reconstruction error and SVDD
具體步驟描述如下:
離線建模:
1)獲取葉絲干燥原始數(shù)據(jù),標(biāo)準(zhǔn)化處理后得到正常數(shù)據(jù)集X={x1,x2,...,xn} ∈ Rn×m,其中n為樣本數(shù),m為特征數(shù);
2)訓(xùn)練自編碼器模型,訓(xùn)練過程中調(diào)整自編碼器超參數(shù),使輸出盡可能接近輸入,同時利用公式(4)計算輸入與輸出的重構(gòu)矩陣Re,該矩陣為樣本數(shù)為n,維度為1 的數(shù)值矩陣;
3)引入拉格朗日乘子求解公式(3),將核函數(shù)K( ·) 替換為內(nèi)積運算,滿足Mercer 定理的條件下,公式(3)的優(yōu)化問題變成:
將重構(gòu)誤差Re作為新的觀測信息,訓(xùn)練SVDD 模型,公式(5)、(6)求解超小球體半徑R,得到訓(xùn)練好的SVDD 模型和模型的閾值;
在線監(jiān)測:
1)對于新的帶有異常數(shù)據(jù)的待檢測樣本t,經(jīng)過標(biāo)準(zhǔn)化數(shù)據(jù)處理后得到測試集Xnew,輸入訓(xùn)練好的自編碼器模型中,提取一維重構(gòu)誤差向量eR′;
2)將eR′作為SVDD 模型的測試集,利用公式(7)計算誤差向量與超球體球心的距離D,超出半徑R 時,認(rèn)為是異常數(shù)據(jù);
3)定義異常工況檢測率(FDR)指標(biāo)來衡量模型的性能,如以下公式所示:
從工業(yè)現(xiàn)場采集的數(shù)據(jù)特征數(shù)目多,考慮到選擇較多的建模變量會增加模型的復(fù)雜度,影響模型性能,因此根據(jù)水分影響因素分析,以及專家知識,以葉絲出口水分為質(zhì)量監(jiān)測指標(biāo),選取如表1 所示的12 個過程變量做過程監(jiān)測研究。
表1 葉絲干燥特征描述Tab.1 Feature description of cut tobacco drying
本文利用某企業(yè)滾筒葉絲干燥實際生產(chǎn)歷史數(shù)據(jù)進行實驗,實際生產(chǎn)中滾筒烘絲機工作條件復(fù)雜,所采集的數(shù)據(jù)會受環(huán)境干擾造成數(shù)據(jù)離群點,降低數(shù)據(jù)質(zhì)量。此外,非穩(wěn)況數(shù)據(jù)也不利于模型發(fā)揮最大性能,因此建模之前要對現(xiàn)場獲取的數(shù)據(jù)進行預(yù)處理。
具體的,訓(xùn)練集選取了從2021 年6 月19 日生產(chǎn)至2021 年6 月25 日的YA 牌號8 個正常批次歷史數(shù)據(jù)做離線建模,數(shù)據(jù)采樣間隔為10 s。首先去除料頭料尾段,保留中間穩(wěn)定工況數(shù)據(jù)。針對因數(shù)據(jù)采集系統(tǒng)的不精確造成的數(shù)據(jù)離群點,用MAD 方法對數(shù)據(jù)進行濾波,得到清洗后的數(shù)據(jù)信號。離群點的判定規(guī)則如公式(10)所示:
式中median為求取中位數(shù),x i代表數(shù)據(jù)集中的第i個值,xm代表數(shù)據(jù)集中的中值。
針對因數(shù)據(jù)采集系統(tǒng)的不精確造成的數(shù)據(jù)噪聲,用小波去噪方法對數(shù)據(jù)進行濾波,得到降噪后的數(shù)據(jù)信號。實際工業(yè)數(shù)據(jù)變量間的量綱差異大,導(dǎo)致模型收斂速度變慢,建模之前對數(shù)據(jù)做歸一化處理,如下式所示:
通過查詢該企業(yè)葉絲干燥生產(chǎn)歷史數(shù)據(jù),有如表2 所示的葉絲出口水分異常波動實例,形成兩組測試集Xtest1(420×12)和Xtest2(886×12),用于對本文異常檢測算法進行驗證。
表2 異常工況描述Tab.2 Description of abnormal working conditions
實驗測試環(huán)境如下:CPU:i5-6500;RAM:8.00 GB;自編碼器算法用Python 平臺實現(xiàn),Python 版本3.9,Pytorch-CPU 版本為1.11.0;SVDD 算法用Matlab軟件平臺實現(xiàn)。
為了保證模型的泛化性能,需要對一些關(guān)鍵參數(shù)尋優(yōu),參數(shù)優(yōu)劣的評估規(guī)則為選擇能同時提高檢測率和降低誤報率的最佳參數(shù)。最終深度學(xué)習(xí)自編碼器的超參數(shù)尋優(yōu)結(jié)果:網(wǎng)絡(luò)結(jié)構(gòu)為12-16-12,學(xué)習(xí)率Lr 為0.01,樣本批次Batch size 為30,最大迭代Epoch 數(shù)為1200,選擇Sigmoid 非線性激活函數(shù)來提高網(wǎng)絡(luò)對模型的表達能力。SVDD 模型核參數(shù)選擇為5,懲罰因子的值確定為0.01。
2.2.1 異常檢測案例一
該企業(yè)實際生產(chǎn)數(shù)據(jù)記錄中,21 年6 月份一批數(shù)據(jù)自第90 個采樣點時刻,滾筒干燥-葉絲出口水分在批次內(nèi)出現(xiàn)較大波動,如圖4(a)所示,水分波動持續(xù)到第160 個采樣時刻,此后水分恢復(fù)平穩(wěn),該水分波動階段偏離批次內(nèi)水分整體分布狀態(tài),被認(rèn)為是異常工況所產(chǎn)生的葉絲質(zhì)量不穩(wěn)定現(xiàn)象。從過程變量中分析質(zhì)量波動原因:生產(chǎn)過程中排潮風(fēng)門開度在第47個樣本點時突然減小導(dǎo)致烘筒內(nèi)濕度變大,從而葉絲出口水分升高。
圖4 兩個實際案例質(zhì)量指標(biāo)波動Fig.4 Fluctuation of quality indicators in two actual cases
用本文異常檢測方法進行驗證,如圖5 所示。
圖5 案例一基于不同方法的異常數(shù)據(jù)檢測結(jié)果Fig.5 Abnormal data detection results based on different methods for case1
定義連續(xù)5 個采樣點超出控制限時發(fā)生報警。紅色實線表示基于SVDD 模型的超球面半徑R,黑色實線表示測試樣本與超球面球心的距離D,超出半徑R的為模型檢測到的異常樣本,3 種方法對比顯示,基于PCA 和SVDD 的方法并不能較好的監(jiān)測到質(zhì)量的變化,2 種方法在生產(chǎn)一開始就發(fā)生報警,這會給生產(chǎn)操作人員造成一定的誤導(dǎo)。
AE-SVDD 方法首次報警時間在第24 個采樣點,持續(xù)到第139 個采樣點結(jié)束報警,提前約4 分鐘預(yù)警了過程變量的異常變化,說明該方法可以提前預(yù)警并有效監(jiān)測到該異常工況。
2.2.2 異常檢測案例二
該異常工況產(chǎn)生原因為,在實際生產(chǎn)過程中,滾筒干燥蒸汽閥門開度在第122 個采樣點附近突然下降,導(dǎo)致熱風(fēng)蒸汽流量下降,烘絲系統(tǒng)的干燥能力減弱,導(dǎo)致葉絲出口水分升高,如圖4(b)所示,控制過程持續(xù)到第254 個采樣點過程恢復(fù)穩(wěn)態(tài),水分也因此穩(wěn)定。異常工況檢測結(jié)果如圖6 所示。
根據(jù)異常報警定義,PCA 方法基本上檢測不出來該過程中發(fā)生的波動,原因可能是該波動較小。SVDD方法首次報警在第122 個點,結(jié)束報警在第210 個點,可以及時監(jiān)測到該異常波動,但檢測并不完全。
AE-SVDD 首次報警在第70 個點,結(jié)束報警在第250 個點,提前約8 min 預(yù)警了系統(tǒng)將要發(fā)生的過程波動,有助于操作人員及時檢查并發(fā)現(xiàn)異常產(chǎn)生的原因,提前介入調(diào)控,縮短異常波動時間,以減少質(zhì)量不合格品的產(chǎn)生。
上述實例表明,本文提出的基于AE 重構(gòu)誤差和SVDD 的異常工況檢測方法可以有效監(jiān)測葉絲干燥過程的異常狀態(tài),一定程度上也可以進行預(yù)警。為進一步直觀地證明所提AE-SVDD 方法的有效性,用檢測率(FDR)量化監(jiān)測圖中異常數(shù)據(jù)檢測效果,表3 顯示了使用3 種不同模型的異常數(shù)據(jù)檢測結(jié)果,檢測率最高的加粗表示。
表3 不同方法異常數(shù)據(jù)檢測率FDR(%)對比結(jié)果Tab.3 Comparison of abnormal data detection rate FDR(%)of different methods
結(jié)果顯示,由于該波動較小,傳統(tǒng)PCA 算法無法靈敏檢測到該異常現(xiàn)象。基于SVDD 模型的方法不能準(zhǔn)確檢測到數(shù)據(jù)中的異常樣本點,原因可能是原始數(shù)據(jù)的大量特征覆蓋了有用的信息。相比傳統(tǒng)的SVDD和PCA 算法,基于AE 誤差重構(gòu)的SVDD 異常數(shù)據(jù)檢測方法在兩種異常工況有最高的檢測率,兩個案例均提高了約63%,說明自編碼器學(xué)習(xí)到了原始數(shù)據(jù)的重要特征,而且從監(jiān)測圖中可以看出其提前預(yù)警的優(yōu)勢,驗證了該算法的有效性。
及時的異常工況檢測對保證卷煙滾筒葉絲干燥過程質(zhì)量穩(wěn)定非常重要,針對工業(yè)數(shù)據(jù)非高斯非線性的數(shù)據(jù)分布特性,以及傳統(tǒng)支持向量數(shù)據(jù)描述異常檢測算法無法挖掘數(shù)據(jù)深層特征的缺陷,本文結(jié)合深度學(xué)習(xí)自編碼器重構(gòu)誤差,提出了AE-SVDD 異常工況檢測算法。該方法的優(yōu)勢在于,一方面充分挖掘了數(shù)據(jù)深層特征,另一方面可同時處理非線性非高斯數(shù)據(jù)。實際工業(yè)過程生產(chǎn)案例結(jié)果顯示,相比傳統(tǒng)方法,所提方法檢測率約能提高63%,并能提前4~8 min 預(yù)警滾筒葉絲干燥生產(chǎn)過程中的異常狀態(tài),驗證了該方法的可行性和有效性,為卷煙制絲異常檢測的后續(xù)研究提供了理論支撐,具有指導(dǎo)意義。