謝 瑩, 胡范超, 劉雪偉
(1.沈陽化工大學(xué) 信息工程學(xué)院, 遼寧 沈陽 110142;2.沈陽化工大學(xué) 遼寧省工業(yè)環(huán)境-資源協(xié)同控制與優(yōu)化技術(shù)重點(diǎn)實(shí)驗(yàn)室, 遼寧 沈陽 110142)
在工業(yè)過程監(jiān)控中,故障分類對于追溯故障根源以及使操作人員采取及時(shí)、準(zhǔn)確的補(bǔ)救措施具有至關(guān)重要的作用.然而,在工業(yè)生產(chǎn)過程中,由于數(shù)據(jù)的高維特征和復(fù)雜關(guān)系,從工業(yè)過程中采集的數(shù)據(jù)通常很難進(jìn)行分類.因此,學(xué)者們提出了一些分類方法,常見的有FDA方法[1]、k近鄰方法[2-3]和支持向量機(jī)方法[4-5]等.這些方法都屬于有監(jiān)督的學(xué)習(xí)方法,即要求所有訓(xùn)練數(shù)據(jù)都帶有標(biāo)簽.然而,在實(shí)際的工業(yè)生產(chǎn)過程中,由于帶有標(biāo)簽的數(shù)據(jù)往往數(shù)量很少,并且對工業(yè)過程數(shù)據(jù)進(jìn)行人工標(biāo)注需要耗費(fèi)大量的人力和物力,因此獲取大量的標(biāo)記數(shù)據(jù)進(jìn)而對故障過程進(jìn)行分類非常困難.
為了解決標(biāo)記數(shù)據(jù)不足的問題,近年來,半監(jiān)督學(xué)習(xí)方法在過程監(jiān)控領(lǐng)域得到了廣泛的研究[6-7],例如:Feng等[8]提出了一種半監(jiān)督主元分析方法,并將該方法應(yīng)用于過程監(jiān)控中;Yan等[9]提出了一種半監(jiān)督混合判別式框架,并應(yīng)用于注塑過程構(gòu)造;Zhong等[10]提出了一種半監(jiān)督FDA模型,并用于工業(yè)過程故障分類中.半監(jiān)督學(xué)習(xí)方法可以有效挖掘未標(biāo)記數(shù)據(jù)的結(jié)構(gòu)和特征,從而在標(biāo)記數(shù)據(jù)不足的情況下提高數(shù)據(jù)標(biāo)簽的預(yù)測性能.
標(biāo)簽傳播方法作為一種典型的半監(jiān)督學(xué)習(xí)方法,近年來引起了學(xué)者們的廣泛關(guān)注[11-12].標(biāo)簽傳播方法是利用標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)的相似性和初始狀態(tài),將標(biāo)記數(shù)據(jù)的標(biāo)簽傳播給未標(biāo)記數(shù)據(jù)的一種常用方法.已有的標(biāo)簽傳播方法按照能否直接處理樣本集以外的數(shù)據(jù)分為直推式標(biāo)簽傳播方法和歸納式標(biāo)簽傳播方法兩類.其中,直推式標(biāo)簽傳播方法能夠處理樣本集內(nèi)給定的數(shù)據(jù),例如線性鄰域傳播方法[13]、特殊標(biāo)簽傳播方法[14]、投影標(biāo)簽傳播方法[15]、自適應(yīng)鄰域傳播方法[16]和正負(fù)標(biāo)簽傳播方法[17]等.
由于直推式標(biāo)簽傳播方法快速、簡單、高效的優(yōu)點(diǎn),該方法已應(yīng)用于許多領(lǐng)域,例如:Zhou等[11]提出了標(biāo)簽傳播方法,該方法關(guān)注已標(biāo)記和未標(biāo)記數(shù)據(jù)的內(nèi)在結(jié)構(gòu)并定義一個(gè)平滑的分類函數(shù),并且應(yīng)用在Toy數(shù)據(jù)、數(shù)字識別和文本分類等實(shí)驗(yàn)中;Wang等[13]提出了一種線性鄰域傳播方法,該方法假設(shè)每個(gè)數(shù)據(jù)點(diǎn)都可以被其近鄰線性重構(gòu),通過線性鄰域?qū)?biāo)簽從標(biāo)記點(diǎn)傳播到整個(gè)數(shù)據(jù)集,并且具有足夠的平滑度,然后應(yīng)用于數(shù)據(jù)、數(shù)字和文本的分類過程;Zhang等[18]提出了一種自適應(yīng)非負(fù)投影傳播方法,該方法將自適應(yīng)標(biāo)簽傳播、重構(gòu)權(quán)重學(xué)習(xí)和鄰域保持投影非負(fù)矩陣分解集成在一起,并應(yīng)用于圖像數(shù)據(jù)的分類過程中;Lin等[19]提出了一種動態(tài)圖融合標(biāo)簽傳播方法,聯(lián)合考慮多圖的關(guān)系和每個(gè)圖的唯一分布,在傳播過程中建模多圖的各種相關(guān)性,并將其應(yīng)用于多模態(tài)過程分類.
然而,現(xiàn)有的標(biāo)簽傳播方法存在一些潛在的缺點(diǎn).首先,數(shù)據(jù)圖的構(gòu)建獨(dú)立于標(biāo)簽傳播過程,根據(jù)之前的數(shù)據(jù)圖而計(jì)算得到的相似性權(quán)重對于后續(xù)的標(biāo)簽傳播過程并不是最優(yōu)的;其次,未標(biāo)記數(shù)據(jù)的初始標(biāo)簽向量通常簡單地定義為零向量,沒有充分考慮未標(biāo)記數(shù)據(jù)和已標(biāo)記數(shù)據(jù)之間的內(nèi)部關(guān)系,而這些未標(biāo)記數(shù)據(jù)和標(biāo)記數(shù)據(jù)之間的關(guān)系和隱含的特征非常有價(jià)值.以上這些問題都可能導(dǎo)致故障分類的準(zhǔn)確率降低.
針對工業(yè)過程中標(biāo)記數(shù)據(jù)的有限性問題和故障分類問題,筆者研究了基于點(diǎn)密度標(biāo)簽傳播(dot density label propagation,DDLP)的數(shù)據(jù)標(biāo)簽預(yù)測方法和故障分類方法.首先,該方法構(gòu)建了一個(gè)基于數(shù)據(jù)圖和數(shù)據(jù)標(biāo)簽的框架,該框架假設(shè)流形上的數(shù)據(jù)具有相似的結(jié)構(gòu),近鄰數(shù)據(jù)具有相似的標(biāo)簽;其次,在標(biāo)簽傳播的初始化階段,考慮未標(biāo)記數(shù)據(jù)和歷史標(biāo)記數(shù)據(jù)之間的內(nèi)在關(guān)系,定義了一個(gè)新的初始標(biāo)簽矩陣;最后,通過Toy數(shù)據(jù)集和青霉素發(fā)酵過程驗(yàn)證了所提出方法的有效性.
將給定的數(shù)據(jù)集映射到圖X=[XL,XU]∈Rs×n,圖中的每個(gè)數(shù)據(jù)對應(yīng)于圖中的一個(gè)節(jié)點(diǎn),數(shù)據(jù)之間的相似性對應(yīng)于圖中的邊[14,20-21].XL=[x1,x2,…,xl]∈Rs×l表示已標(biāo)記的數(shù)據(jù)集,XU=[xl+1,xl+2,…,xl+u]∈Rs×u表示未標(biāo)記的數(shù)據(jù)集.其中:s表示每個(gè)數(shù)據(jù)的原始維度;l+u=n表示樣本數(shù).假設(shè)C={1,2,…,c}是一個(gè)分類標(biāo)簽集,XL中的每個(gè)數(shù)據(jù)xi都有一個(gè)唯一的標(biāo)簽ηi(i=1,2,…,l),當(dāng)xi標(biāo)記為j∈{1,2,...,c}時(shí),ηi,j=1;否則,ηi,j=0.點(diǎn)密度標(biāo)簽傳播模型的目標(biāo)函數(shù)表示為:
minJ(P,W,F)=
s.t.PPT=I.
(1)
在對目標(biāo)函數(shù)中的參數(shù)P、W和F進(jìn)行優(yōu)化時(shí),筆者采用迭代優(yōu)化方法,即在固定其中兩個(gè)參數(shù)的同時(shí)更新第三個(gè)參數(shù),反之亦然[22].目標(biāo)函數(shù)的具體優(yōu)化過程如下:
首先,設(shè)置相似性權(quán)重矩陣W的初始值.如果i≠j,Wij=e-‖xi-xj‖2/2δ2;否則,Wij=0.其中δ是核函數(shù)的核寬度參數(shù),控制著函數(shù)的徑向作用范圍.采用核函數(shù)可以將兩點(diǎn)之間的距離轉(zhuǎn)化為相似度.其次,設(shè)置軟標(biāo)簽矩陣F的初始值.當(dāng)xi標(biāo)記為j∈{1,2,…,c}時(shí),fi,j=1;否則,fi,j=0[11-12].
然后,便可以計(jì)算低維流形的投影矩陣P[23-24].公式(1)中關(guān)于P的目標(biāo)函數(shù)為[16]:
s.t.PPT=I.
(2)
在計(jì)算參數(shù)時(shí)對XLXT進(jìn)行特征分解[25],選擇對應(yīng)于d個(gè)最小特征值的特征向量作為P,其中L=(I-W)T(I-W),I為單位矩陣,d表示低維流形空間的維數(shù).
接下來,更新相似性權(quán)重矩陣,關(guān)于W的目標(biāo)函數(shù)表示為
(3)
W可通過對J(W)求導(dǎo)并設(shè)置為零得到.
最后,通過公式(4)更新軟標(biāo)簽矩陣F.
(4)
對于給定數(shù)據(jù)集,無法準(zhǔn)確得到每個(gè)樣本的特性,但是當(dāng)樣本分布在一個(gè)簇中時(shí),根據(jù)數(shù)據(jù)分布原理可知如果樣本點(diǎn)周圍有其他樣本點(diǎn),那么該樣本點(diǎn)的分布密度會更高,這樣該樣本點(diǎn)對分類的影響也會更大.因此,本節(jié)將根據(jù)點(diǎn)密度思想來定義新的初始標(biāo)簽矩陣,以充分挖掘未標(biāo)記數(shù)據(jù)和歷史標(biāo)記數(shù)據(jù)之間的內(nèi)在關(guān)系.首先,設(shè)置初始標(biāo)簽矩陣G=[g1,g2,…,gl+u]T∈R(l+u)×c,該矩陣代表每個(gè)樣本點(diǎn)密度的影響力.具體來說,對于已標(biāo)記的數(shù)據(jù),當(dāng)xi標(biāo)記為j∈{1,2,…,c}時(shí),gi,j=1;否則gi,j=0.根據(jù)式(5)計(jì)算每個(gè)標(biāo)記樣本的點(diǎn)密度.
1≤p≤l,1≤q≤n.
(5)
其次,對zp進(jìn)行歸一化處理,便可以得到每個(gè)未標(biāo)記數(shù)據(jù)的初始標(biāo)簽為
(6)
然后,在得到初始標(biāo)簽矩陣G之后,將公式(4)中J(F)關(guān)于F的導(dǎo)數(shù)設(shè)為零,即可得到迭代結(jié)果
F=[α(I-W)T(I-W)+βI]-1βG.
(7)
接下來,根據(jù)上述迭代方法更新參數(shù),直到滿足收斂條件‖F(xiàn)t+1-Ft‖2≤ε,當(dāng)表示第(t+1)次與第t次迭代后的預(yù)測軟標(biāo)簽沒有顯著差異時(shí)迭代結(jié)束,其中ε表示閾值.最后,根據(jù)fi中最大元素的列索引確定樣本的軟標(biāo)簽.
在低維空間中,第j類數(shù)據(jù)的均值和協(xié)方差計(jì)算為:
(8)
采集新樣本并計(jì)算其低維投影z,首先將其代到每個(gè)類別數(shù)據(jù)的條件概率密度函數(shù)公式(9)[27-28]中.
(9)
引入Toy數(shù)據(jù)集和青霉素發(fā)酵過程兩個(gè)例子來驗(yàn)證基于點(diǎn)密度標(biāo)簽傳播的數(shù)據(jù)標(biāo)簽預(yù)測方法和故障分類方法的有效性.
首先以Toy數(shù)據(jù)集[22,30]為研究對象來驗(yàn)證所提出方法的標(biāo)簽預(yù)測性能.Toy數(shù)據(jù)集中包括兩種數(shù)據(jù)類型,分別用類型1和類型2表示,每種類型的數(shù)據(jù)集分布在半月形中.在本次仿真中,引入了標(biāo)簽傳播(LP)方法[11]和線性鄰域傳播(LNP)方法[13]與所提出的方法進(jìn)行比較.
選取每種類型的60個(gè)樣本作為測試數(shù)據(jù)集,其分布情況如圖1所示.圖1上面的半月形表示類型1的數(shù)據(jù)分布,其中含5個(gè)已標(biāo)記數(shù)據(jù),用紅色實(shí)心正方形表示;下面的半月形表示類型2的數(shù)據(jù)分布,其中含5個(gè)已標(biāo)記數(shù)據(jù),用藍(lán)色實(shí)心三角形表示;110個(gè)未標(biāo)記數(shù)據(jù)用黑色圓點(diǎn)表示.在本次仿真中,參數(shù)d設(shè)為1,α和β均為0.5,收斂閾值ε為e-6,δ2為500.
圖1 測試數(shù)據(jù)集
基于LP、LNP和本文提出的DDLP方法的仿真結(jié)果如圖2至圖4所示.通過仿真結(jié)果可以看出LP和LNP方法的標(biāo)簽傳播正確率分別為65.5%和53.6%.相比而言,DDLP方法得到比較理想的標(biāo)簽傳播結(jié)果,其標(biāo)簽傳播準(zhǔn)確率為90.9%.仿真結(jié)果表明:DDLP方法的點(diǎn)密度框架為標(biāo)簽傳播提供了最優(yōu)的初始標(biāo)簽矩陣,使得本方法能夠有效地挖掘和利用已標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)中的信息,達(dá)到準(zhǔn)確預(yù)測標(biāo)簽的目的,標(biāo)簽傳播性能得到了明顯提高.
圖2 LP方法的標(biāo)簽傳播結(jié)果
圖3 LNP方法的標(biāo)簽傳播結(jié)果
圖4 DDLP方法的標(biāo)簽傳播結(jié)果
青霉素發(fā)酵過程是一個(gè)復(fù)雜的生化過程[31-34],其工藝流程如圖5所示.它包括兩個(gè)主要操作階段:細(xì)菌生長階段和青霉素發(fā)酵階段.由于該過程在不同的初始條件和運(yùn)行模式下的過程數(shù)據(jù)歸屬于不同的類別,故本節(jié)通過青霉素發(fā)酵過程對提出的基于點(diǎn)密度標(biāo)簽傳播的分類方法進(jìn)行驗(yàn)證.
本次仿真使用的數(shù)據(jù)由Pensim V2.0生成,選取青霉素發(fā)酵過程中的14個(gè)變量進(jìn)行仿真,過程變量詳見表1.在本次仿真中,青霉素發(fā)酵過程運(yùn)行在正常、故障1、故障2和故障3四種類別情況下.其中正常模式中的初始條件、設(shè)置點(diǎn)和溫度控制器均為默認(rèn)設(shè)置值,并采用PID控制器對pH值進(jìn)行調(diào)節(jié).故障1是由通風(fēng)率出現(xiàn)斜坡故障引起的,故障2是由攪拌器功率出現(xiàn)階躍故障引起的,故障3是由底物喂料流速出現(xiàn)斜坡故障引起的.
圖5 青霉素發(fā)酵工藝流程
表1 青霉素發(fā)酵過程變量
建模過程中訓(xùn)練數(shù)據(jù)集由300個(gè)樣本組成,其中包括120個(gè)正常樣本(含10個(gè)已標(biāo)記樣本)、60個(gè)故障1樣本(含5個(gè)已標(biāo)記樣本)、60個(gè)故障2樣本(含5個(gè)已標(biāo)記樣本)和60個(gè)故障3樣本(含5個(gè)已標(biāo)記樣本).通過Pensim V2.0生成測試數(shù)據(jù)集,包括100個(gè)正常樣本、50個(gè)故障1樣本、50個(gè)故障2樣本和50個(gè)故障3樣本,且它們依次出現(xiàn),并且故障1、故障2和故障3的故障幅度分別為0.9、2%和0.9.
通過LP、LNP和DDLP方法可以得到未標(biāo)記數(shù)據(jù)的軟標(biāo)簽,然后將這三種方法分別結(jié)合SFDA方法實(shí)現(xiàn)過程數(shù)據(jù)的分類.LP-SFDA、LNP-SFDA和DDLP-SFDA模型中的參數(shù)r均設(shè)為4.在DDLP-SFDA模型中,參數(shù)d設(shè)置為4,α和β均為0.5,ε為e-6,ω為0.7,δ2為500.
圖6至圖8為利用LP-SFDA、LNP-SFDA和DDLP-SFDA方法測試數(shù)據(jù)在低維空間的投影結(jié)果.圖6和圖7表明LP-SFDA和LNP-SFDA方法在低維空間獲得的投影比較接近,四種類別的數(shù)據(jù)不能較好地區(qū)分開,模型對這四種類別不能進(jìn)行良好地判別.相比而言,圖8表明了用DDLP-SFDA方法獲得的4種類別在低維子空間的投影彼此之間明顯分離.這說明DDLP-SFDA方法對4種類別具有更好的判別效果,表明DDLP-SFDA方法可以獲得更好的判別子空間,從而得到更準(zhǔn)確的判別結(jié)果.
圖6 LP-SFDA方法降維結(jié)果
圖7 LNP-SFDA方法降維結(jié)果
圖8 DDLP-SFDA方法降維結(jié)果
圖9至圖11給出了基于LP-SFDA、LNP-SFDA和DDLP-SFDA方法的分類結(jié)果,三種方法的分類準(zhǔn)確率分別為87.6%、81.2%和98.0%.由圖9和圖10可以看出利用LP-SFDA和LNP-SFDA方法對四種類型的數(shù)據(jù)進(jìn)行分類時(shí)存在一些錯(cuò)誤的分類,準(zhǔn)確率較低.相比而言,圖11表明DDLP-SFDA方法的分類正確率遠(yuǎn)高于LP-SFDA和LNP-SFDA方法,故障分類性能得到了明顯提高.
圖9 LP-SFDA方法故障分類結(jié)果
圖10 LNP-SFDA方法故障分類結(jié)果
圖11 DDLP-SFDA方法故障分類結(jié)果
因此,根據(jù)對比結(jié)果可以看出DDLP-SFDA方法的故障分類準(zhǔn)確率明顯高于其他兩種方法.以上結(jié)果表明:通過DDLP方法的標(biāo)簽預(yù)測和SFDA模型的半監(jiān)督特性,所提出方法的分類性能得到了顯著提高.通過本次實(shí)驗(yàn)也驗(yàn)證了所提出方法在故障分類方面的有效性.
針對工業(yè)過程中的標(biāo)記數(shù)據(jù)有限性問題和故障分類問題,研究了基于點(diǎn)密度標(biāo)簽傳播的數(shù)據(jù)標(biāo)簽預(yù)測方法和故障分類方法.首先,該方法基于數(shù)據(jù)圖和數(shù)據(jù)標(biāo)簽理論,構(gòu)建了一個(gè)全局和局部一致性框架;然后,根據(jù)數(shù)據(jù)的分布特征和點(diǎn)密度定義了一個(gè)新的初始標(biāo)簽矩陣,通過迭代方法得到最優(yōu)參數(shù)集;最后,通過Toy數(shù)據(jù)集和青霉素發(fā)酵過程驗(yàn)證了所提出方法的有效性.結(jié)果表明本文所提出的方法在未標(biāo)記數(shù)據(jù)的標(biāo)簽預(yù)測中具有良好的性能,并且在故障分類方面使分類效果得到顯著提高,具有一定的理論意義和實(shí)際應(yīng)用價(jià)值.