付曉幸 于佐軍
?
基于改進(jìn)的離群點(diǎn)檢測(cè)軟測(cè)量方法研究
付曉幸 于佐軍
(中國(guó)石油大學(xué)(華東)信息與控制工程學(xué)院)
提出一種改進(jìn)的離群點(diǎn)檢測(cè)方法,采用參數(shù)更新的支持向量數(shù)據(jù)描述的離群點(diǎn)檢測(cè)方法,并引入貝葉斯分類原理對(duì)離群點(diǎn)分類,對(duì)校正離群點(diǎn)后的數(shù)據(jù)用最小二乘支持向量機(jī)建模并預(yù)測(cè)。工業(yè)聚丙烯熔融指數(shù)軟測(cè)量模型的應(yīng)用結(jié)果表明:該方法預(yù)測(cè)精度更高,泛化能力更強(qiáng)。
軟測(cè)量;離群點(diǎn)檢測(cè);貝葉斯分類
石油、化工等工業(yè)生產(chǎn)過(guò)程中,為確保產(chǎn)品的質(zhì)量和生產(chǎn)過(guò)程持續(xù)穩(wěn)定,關(guān)系到產(chǎn)品質(zhì)量的過(guò)程變量需要被實(shí)時(shí)控制和監(jiān)測(cè)[1]。但是實(shí)際生產(chǎn)過(guò)程中大量過(guò)程變量難以用傳感器直接檢測(cè)甚至無(wú)法檢測(cè),例如航空煤油干點(diǎn)、紙漿的Kappa值以及聚合反應(yīng)中聚合物的熔融指數(shù)等。軟測(cè)量技術(shù)應(yīng)運(yùn)而生。
軟測(cè)量技術(shù)的核心是軟測(cè)量模型的建立[2-3]。在目前軟測(cè)量建模中,基于數(shù)據(jù)的統(tǒng)計(jì)建模占主導(dǎo)地位。由于測(cè)量?jī)x表自身故障和傳感器容易受化工環(huán)境影響,使測(cè)量數(shù)據(jù)偏離原來(lái)范圍,導(dǎo)致離群點(diǎn)產(chǎn)生,而離群點(diǎn)對(duì)軟測(cè)量模型的預(yù)測(cè)精度影響很大,因此需要排除離群點(diǎn)。生產(chǎn)過(guò)程中生產(chǎn)過(guò)程切換或物料改變會(huì)產(chǎn)生不同于歷史采集的數(shù)據(jù),易被誤判成離群點(diǎn)排除。如何確定離群點(diǎn)是由干擾產(chǎn)生,還是由過(guò)程變化引起,已成為軟測(cè)量技術(shù)研究的重點(diǎn)。
為解決上述問(wèn)題,Wang Jin等[4]提出一種在線離群點(diǎn)檢測(cè)和分類的自適應(yīng)軟測(cè)量,該方法先以故障檢測(cè)PCA算法中的SPE指標(biāo)作為離群點(diǎn)判斷的準(zhǔn)則,再把檢測(cè)出的離群點(diǎn)進(jìn)一步進(jìn)行判斷。Galicia H等[5]在控制過(guò)程應(yīng)用中,提出一種貝葉斯方法檢測(cè)離群點(diǎn)并對(duì)其分類。如何鑒別工業(yè)生產(chǎn)過(guò)程采集樣本數(shù)據(jù)的離群點(diǎn),并判斷其是否為真正意義上的離群點(diǎn),仍沒(méi)有通用的方法。
針對(duì)上述問(wèn)題,本文引入基于支持向量數(shù)據(jù)描述(support vector data description,SVDD)的離群點(diǎn)檢測(cè)方法,對(duì)化工運(yùn)行過(guò)程中存在的離群點(diǎn)進(jìn)行檢測(cè)。為判斷離群點(diǎn)是否為真正意義上的離群點(diǎn),提出離群點(diǎn)分類的概念。基于貝葉斯分類原理把離群點(diǎn)分為脈沖型離群點(diǎn)、短階躍型離群點(diǎn)和長(zhǎng)階躍型離群點(diǎn)。其中脈沖型和短階躍型是真正意義上的離群點(diǎn)需要排除校正,而長(zhǎng)階躍型代表化工過(guò)程的變化。對(duì)需要校正的離群點(diǎn)采用時(shí)間序列校正的方法進(jìn)行校正后用最小二乘支持向量機(jī)(least square support vector machine,LSSVM)建模。
1.1SVDD算法
Tax等人提出SVDD是解決單值分類問(wèn)題的有效方法,是一種基于支持向量機(jī)學(xué)習(xí)的算法[6]。單個(gè)值分類要解決的問(wèn)題是區(qū)分目標(biāo)類的數(shù)據(jù)和其他所有不屬于目標(biāo)類的數(shù)據(jù)(稱為異常類)。支持向量數(shù)據(jù)描述可以將目標(biāo)數(shù)據(jù)建立支持向量數(shù)據(jù)描述模型,包括目標(biāo)數(shù)據(jù)超領(lǐng)域、與所有異常類的目標(biāo)類。輸入的空間不可分離,通過(guò)一個(gè)非線性映射函數(shù),把數(shù)據(jù)從輸入空間映射到一個(gè)高維空間,尋找支持向量在特征空間中構(gòu)造包圍與最小半徑和超球體的最佳點(diǎn)。
(1)
(3)
把式(2)表示為對(duì)偶問(wèn)題,并引入核函數(shù)取代特征空間上的內(nèi)積運(yùn)算得
(4)
SVDD算法在不使用類標(biāo)的情況下,解決了單值分類問(wèn)題,通過(guò)引入懲罰參數(shù),使在訓(xùn)練數(shù)據(jù)中包含噪聲的條件下SVDD算法仍能工作。
1.2改進(jìn)的支持向量數(shù)據(jù)描述參數(shù)更新
模型在實(shí)際運(yùn)行中,如果發(fā)生過(guò)程變化,如汽油干點(diǎn)軟測(cè)量中精餾塔的原油發(fā)生變化,則測(cè)量數(shù)據(jù)會(huì)超出檢測(cè)判斷的正常范圍。SVDD的參數(shù)半徑和球心應(yīng)隨著數(shù)據(jù)的變化而變化,這樣才能適應(yīng)過(guò)程的變化而不會(huì)導(dǎo)致誤判正常數(shù)據(jù)為離群點(diǎn)[7]。針對(duì)這個(gè)過(guò)程引入了指數(shù)加權(quán)移動(dòng)平均(EWMA)魯棒的方式更新SVDD參數(shù),指數(shù)加權(quán)移動(dòng)平均的公式如下:
(6)
2.1樸素貝葉斯理論
貝葉斯分類器是一種基于統(tǒng)計(jì)方法的典型分類模型,它基于貝葉斯理論,先驗(yàn)概率和后驗(yàn)概率被巧妙地聯(lián)系在一起,利用先驗(yàn)信息和樣本數(shù)據(jù)來(lái)確定所述事件的后驗(yàn)概率[8-9]。
(7)
(8)
2.2改進(jìn)的基于樸素貝葉斯的離群點(diǎn)分類算法
為判斷離群點(diǎn)是否為真正意義上的離群點(diǎn),采用貝葉斯分類原理對(duì)已檢測(cè)到的離群點(diǎn)進(jìn)一步分類。
2.2.1長(zhǎng)階躍數(shù)據(jù)的判斷準(zhǔn)則
對(duì)于一個(gè)階躍干擾,通過(guò)計(jì)算每個(gè)Post-Change Window中的聯(lián)合后驗(yàn)概率來(lái)確定后驗(yàn)概率的模式。因?yàn)?,所以?duì)每個(gè)子集,階躍幅值可用的均值表示
假設(shè)所有的數(shù)據(jù)都服從高斯分布,則正常狀態(tài)下和發(fā)生階躍后的概率密度函數(shù)分別用和表示。所以,發(fā)生階躍時(shí)任意離群點(diǎn)的似然函數(shù)表示為
(10)
把式(10)代入式(11),得
(12)
因此,用式(8)計(jì)算的聯(lián)合后驗(yàn)概率變?yōu)?/p>
(14)
假設(shè)干擾的類型是階躍,則在Post-Change Window中第一個(gè)數(shù)據(jù)點(diǎn)的后驗(yàn)概率是
(16)
僅依靠式(17)無(wú)法判斷此時(shí)發(fā)生的階躍是否為長(zhǎng)階躍。因此,還需要Post-Change Window中更多的數(shù)據(jù)來(lái)證明。由于假設(shè)階躍發(fā)生在Post-Change Window的開(kāi)始,所以隨著樣本數(shù)目的增加,后驗(yàn)概率也單調(diào)遞增
為提高對(duì)長(zhǎng)階躍信號(hào)檢測(cè)和分類的精確性,需讓整個(gè)Post-Change Window的后驗(yàn)概率比置信限大
(18)
2.2.2脈沖數(shù)據(jù)的判斷準(zhǔn)則
對(duì)于脈沖信號(hào)的干擾,在Post-Change Window中的第一個(gè)值提供了脈沖信號(hào)的幅值,而階躍信號(hào)需要很多數(shù)據(jù)才能確定。因此,對(duì)于脈沖干擾,要確定脈沖干擾,首先需滿足式(16),其中,為置信限,滿足分布。
2.2.3短階躍數(shù)據(jù)的判斷準(zhǔn)則
假設(shè)干擾是短階躍,在Post-Change Window中短階躍持續(xù)階段的后驗(yàn)概率必須滿足和長(zhǎng)階躍一樣的關(guān)系:
與式(19)一樣,在Post-Change Window中短階躍持續(xù)階段的后驗(yàn)概率必須大于1個(gè)置信限
(21)
為了識(shí)別短階躍干擾結(jié)束,在Post-Change Window后的短階躍的后驗(yàn)概率必須小于一個(gè)閾值:
式(20)~式(22)就是判斷短階躍的準(zhǔn)則。
具體分類過(guò)程如圖1所示。
圖1 貝葉斯對(duì)離群點(diǎn)的分類過(guò)程
聚丙烯以其良好的應(yīng)用性能越來(lái)越受到人們的關(guān)注,成為全球發(fā)展最迅速的熱塑性材料。本文以某石化企業(yè)聚丙烯生產(chǎn)裝置采用的Spheripol工藝技術(shù)為例進(jìn)行仿真。數(shù)據(jù)來(lái)源為某石化公司在2007年8月~12月間,聚丙烯的生產(chǎn)過(guò)程數(shù)據(jù)[10]。結(jié)合現(xiàn)場(chǎng)操作中的實(shí)際經(jīng)驗(yàn)和機(jī)理分析的結(jié)果,選定用于建立聚丙烯熔融指數(shù)軟測(cè)量的輔助變量有:第一環(huán)管反應(yīng)器R201中丙烯的濃度、氫氣的濃度、催化劑的濃度;第二環(huán)管反應(yīng)器R202中丙烯的濃度、氫氣的濃度、催化劑的濃度以及總的宏觀反應(yīng)熱。現(xiàn)場(chǎng)采用DCS系統(tǒng),每20 s采集一次數(shù)據(jù),而化驗(yàn)數(shù)據(jù)每4 h一次,經(jīng)過(guò)時(shí)序匹配等處理后得到379組數(shù)據(jù),其中229組用來(lái)建模,150組用來(lái)測(cè)試。
圖2 熔融指數(shù)的離群點(diǎn)檢測(cè)
表1 兩種離群點(diǎn)檢測(cè)方法性能對(duì)比
當(dāng)過(guò)程發(fā)生變化,數(shù)據(jù)偏離原來(lái)的中心范圍時(shí)被判為離群點(diǎn),因此離群點(diǎn)的參數(shù)更新才不會(huì)被誤判,而不能實(shí)現(xiàn)參數(shù)更新。在短階躍型離群點(diǎn)判別前,根據(jù)聚丙烯熔融指數(shù)的先驗(yàn)知識(shí)規(guī)定1個(gè)離群點(diǎn)為脈沖型離群點(diǎn);連續(xù)2~15個(gè)離群點(diǎn)為短階躍型離群點(diǎn);連續(xù)15個(gè)以上的離群點(diǎn)表示過(guò)程切換。所以,用來(lái)測(cè)試的180組數(shù)據(jù)的第37~40組數(shù)據(jù)規(guī)定為短階躍型數(shù)據(jù)。沒(méi)有參數(shù)更新和分類的SVDD離群點(diǎn)檢測(cè)的仿真結(jié)果如圖3所示,有參數(shù)更新和分類的SVDD離群點(diǎn)的仿真結(jié)果如圖4所示。
圖4 有參數(shù)更新和分類的SVDD離群點(diǎn)檢測(cè)
由圖3和圖4可知,本文所提出的離群點(diǎn)分類方法可行,能夠很好地判斷出離群點(diǎn)的類型。針對(duì)不同類型的離群點(diǎn)采取不同的方法來(lái)處理,用時(shí)間校正方法的自回歸移動(dòng)平均模型對(duì)離群點(diǎn)進(jìn)行校正,校正后的仿真結(jié)果如圖5所示。
圖5 聚丙烯熔融指數(shù)離群點(diǎn)校正的曲線
校正數(shù)據(jù)時(shí)沒(méi)有對(duì)過(guò)程變化引起的數(shù)據(jù)進(jìn)行校正說(shuō)明本文提出的離群點(diǎn)分類算法起了很好的效果。對(duì)離群點(diǎn)校正前和校正后的數(shù)據(jù)用LSSVM建模。圖6和圖7分別為兩種情況的預(yù)測(cè)曲線,表2列出了2種方法的泛化誤差。
圖6 離群點(diǎn)校正前的熔融指數(shù)預(yù)測(cè)曲線
圖7 離群點(diǎn)校正后的熔融指數(shù)預(yù)測(cè)曲線
表2 模型預(yù)測(cè)誤差比較
由表2中的定量數(shù)據(jù)可知采用改進(jìn)后的離群點(diǎn)檢測(cè)方法處理的數(shù)據(jù)建模,模型的預(yù)測(cè)效果更好,泛化能力更強(qiáng)。
以聚丙烯熔融指數(shù)為研究對(duì)象,對(duì)本文的離群點(diǎn)檢測(cè)、分類、校正等方法進(jìn)行驗(yàn)證,結(jié)果表明:所給出的SVDD檢測(cè)方法能很好地應(yīng)用在離群點(diǎn)檢測(cè)中,其中基于Bayesian算法的離群點(diǎn)分類方法較好地對(duì)脈沖型離群點(diǎn)、短階躍型離群點(diǎn)和長(zhǎng)階躍型數(shù)據(jù)進(jìn)行區(qū)分,用離群點(diǎn)校正后的數(shù)據(jù)建模提高了模型的預(yù)測(cè)精度。
[1] 吳長(zhǎng)江.常壓蒸餾產(chǎn)品質(zhì)量與收率預(yù)測(cè)模型建立與應(yīng)用[D].大慶:大慶石油學(xué)院,2008.
[2] 俞金壽,劉愛(ài)倫,張克進(jìn).軟測(cè)量技術(shù)及其在石油化工中的應(yīng)用[M].1版.北京:化學(xué)工業(yè)出版社,2000:2-7.
[3] 李海青,黃志堯.軟測(cè)量技術(shù)原理及應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2000.
[4] Wang Jin, He Q Peter. A Bayesian approach for disturbance detection and classification and its application to state estimation in run-to-run control[J]. IEEE Transactions on Semiconductor Manufacturing, 2007, 20(2): 126-136.
[5] Galicia H, He Q, Wang Jin. Adaptive outlier detection and classification for online soft sensor update[J]. Advanced Control of Chemical Processes, 2012, 8(1):402-407.
[6]Hawkins D M. Identification of outliers[M]. 1980.
[7] 王震.基于距離的離群點(diǎn)檢測(cè)算法分析與研究[D].重慶:重慶大學(xué),2011.
[8] Pell R J. Multiple outlier detection for multivariate calibration using robust statistical techniques[J]. Chemometrics and Intelligent Laboratory Systems, 2000, 52(1): 87-104.
[9] 趙玉霞,王克如,白中英,等.貝葉斯方法在玉米葉部病害圖像識(shí)別中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(5):193-195.
[10] 巨穩(wěn),田學(xué)民.基于混合核函數(shù)的OLS軟測(cè)量建模方法研究[J].石油化工自動(dòng)化,2011,47(1):31-35.
Soft Sensor Research Based on Improved Outlier Detection
Fu Xiaoxing Yu Zuojun
(College of Information and Control Engineering in the University of Petroleum)
A soft sensor research based on improved outlier detection is proposed and the method of outlier detection based on support vector data description (SVDD) is introduced in this paper. To determine whether the outliers get is authentic, the concept of outlier classification is put forward. The application of industrial polypropylene melt index soft measurement modeling has indicated that method has better prediction accuracy and generalization performance.
Soft Measurement; Outlier Detection; Bayesian Classification
付曉幸,女,1990年生,碩士研究生,主要研究方向:工業(yè)過(guò)程建模、控制與優(yōu)化等。E-mail:ymnlfuxiaoxing@126.com
于佐軍,男,1960年生,碩士生導(dǎo)師,主要研究方向:工業(yè)過(guò)程建模、控制與優(yōu)化等。E-mail:yuzuojun@gmail.com