鐘超文,花 君,嚴(yán) 珂,陸慧娟,葉敏超
(中國計(jì)量大學(xué) 信息工程學(xué)院,浙江 杭州 310018)
空調(diào)帶故障運(yùn)行將會(huì)引起空調(diào)消耗大量的電能,并且會(huì)導(dǎo)致室內(nèi)的空氣質(zhì)量降低影響設(shè)備的壽命,使設(shè)備的維修成本增加.在夏季,全球暖通空調(diào)(HVAC)系統(tǒng)消耗的能源大約占建筑總能耗40%[1-2].對空調(diào)各種故障數(shù)據(jù)進(jìn)行及時(shí)、準(zhǔn)確的預(yù)測和診斷,可達(dá)到使空調(diào)高效工作并減少系統(tǒng)消耗的效果.
空氣處理機(jī)組(Air handling units,AHU)是空調(diào)系統(tǒng)的重要組成部分,空氣處理機(jī)組的性能直接影響到空調(diào)系統(tǒng)的性能.其主要功能是通過連續(xù)供應(yīng)室外空氣來控制室內(nèi)空氣質(zhì)量,抽取室內(nèi)空氣和部分室外空氣以控制出風(fēng)溫度和風(fēng)量來維持室內(nèi)溫度[3].其中混合空氣、室內(nèi)空氣和從室內(nèi)返回空氣的混合物在空氣處理機(jī)組中調(diào)節(jié),根據(jù)環(huán)境需要,通過將混合氣流加熱或者冷卻盤管實(shí)現(xiàn)調(diào)節(jié).空氣處理機(jī)組故障類型包括機(jī)械故障、控制問題、設(shè)計(jì)錯(cuò)誤和操作員干預(yù)等.一些學(xué)者已經(jīng)在故障診斷方面進(jìn)行了大量的研究工作主要是運(yùn)用一些機(jī)器學(xué)習(xí)的方法對故障進(jìn)行診斷[4-6].
隨著現(xiàn)代工業(yè)化高速發(fā)展,空調(diào)制造技術(shù)不斷精良,目前使用的空調(diào)系統(tǒng)高效低耗,很少出現(xiàn)設(shè)備故障的情況,很難獲得故障樣本信息.因此利用少量的標(biāo)記樣本和大量的未標(biāo)記樣本來提升學(xué)習(xí)性能是機(jī)器學(xué)習(xí)領(lǐng)域上一個(gè)重要研究方向.
本文利用半監(jiān)督支持向量機(jī)(Semi-supervised support vector machine, SS-SVM),針對空氣處理機(jī)組夏天的主要故障類型進(jìn)行診斷.所提出的方法不需要大量標(biāo)記樣本就能獲得較高的分類準(zhǔn)確率,將半監(jiān)督學(xué)習(xí)與支持向量機(jī)(support vector machine, SVM)相結(jié)合從未標(biāo)記樣本中選擇當(dāng)前模型中標(biāo)記置信度高的樣本,然后加入到訓(xùn)練樣本集中,以此來提高SVM的學(xué)習(xí)性能.
半監(jiān)督學(xué)習(xí)的基本思想是利用少量的已標(biāo)注樣本和大量的未標(biāo)注樣本進(jìn)行訓(xùn)練和分類的問題.利用數(shù)據(jù)分布上的模型假設(shè),引入大量的無類標(biāo)簽的樣本數(shù)據(jù)和少量有類標(biāo)簽的樣本數(shù)據(jù),建立分類模型,訓(xùn)練得到分類性能更好的模型,從而實(shí)現(xiàn)對無類標(biāo)簽的樣本分配標(biāo)簽[7-10],如圖1.
圖1 半監(jiān)督學(xué)習(xí)示意圖Figure 1 Semi-supervised learning diagram
SVM是一種建立在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上的機(jī)器學(xué)習(xí)方法,跟傳統(tǒng)統(tǒng)計(jì)學(xué)相比具有更好的學(xué)習(xí)性能和泛化性能,因而在各領(lǐng)域廣泛利用[11-12].傳統(tǒng)的SVM是有監(jiān)督學(xué)習(xí)方式,它可以自動(dòng)尋找那些對分類有較好區(qū)分能力的支持向量,因而有較高的泛化性和較高的分類準(zhǔn)確率.對于數(shù)據(jù)集(xi,yi),i=1,2,…,n,x∈Rd,對應(yīng)的優(yōu)化問題可以表示為
(1)
式(1)中,ai為第i個(gè)樣本相對應(yīng)的拉格朗日乘子,K(x,xj)為核函數(shù),C為懲罰因子.由于在實(shí)際應(yīng)用中會(huì)遇見許多非線性問題,所以需要引入核函數(shù)將非線性可分的輸入樣本映射到高維的特征空間,在高維特征空間中將樣本變?yōu)榫€性可分[13-15].徑向基函數(shù)(RBF)可把初始的特征空間映射到無限維的特征空間,因此比較適合處理高維數(shù)據(jù).RBF核函數(shù)可表示為
(2)
式(2)中,σ是核參數(shù).
本文利用序列前向選擇算法(Sequential forward selection, SFS)提取數(shù)據(jù)中的重要特征,并使用歐式距離作為評價(jià)函數(shù),算法流程如圖2.特征預(yù)選擇是機(jī)器學(xué)習(xí)處理的重要步驟,在工程分析上,比如空氣處理機(jī)組的故障診斷的過程中,特征選擇可消除不必要的特征屬性,有利于后續(xù)的實(shí)驗(yàn)數(shù)據(jù)分析.在ASHRAE項(xiàng)目1312提供的原始數(shù)據(jù)集中,有超過140個(gè)特征屬性.本文利用序列前向選擇特征選擇算法選取8個(gè)最重要的特征屬性,具體特征描述如表1.
圖2 特征選取流程圖Figure 2 Feature selection flow chart
序號特征特征描述1SA-TEMP送出氣流溫度2MA-TEMP混合氣流溫度3RA-TEMP回風(fēng)溫度4SA-HUMD送出氣流濕度5RA-HUMD回風(fēng)濕度6OA-TEMP室外空氣溫度7CHWC-DAT水冷管排氣溫度8E_ccoil冷卻/加熱線圈的能耗
在訓(xùn)練的過程中,半監(jiān)督學(xué)習(xí)是從未標(biāo)記樣本中選擇當(dāng)前標(biāo)記置信度高的樣本,然后加入到訓(xùn)練樣本集中從而提高學(xué)習(xí)性能[16].因此,置信度是對預(yù)測或分類結(jié)果的評價(jià),主要的計(jì)算方法主要包括基于數(shù)據(jù)分布的EM方法、基于K近鄰的置信度、基于后驗(yàn)概率的方法等[17].本文采用的是基于后驗(yàn)概率的方法,計(jì)算出SVM分類結(jié)果的后驗(yàn)概率.
最早考慮SVM后驗(yàn)概率的學(xué)者是Vapnik、Wahba和Platt,Vapnik提出一種將SVM的離散輸出映射為概率的方法[18].對于二分類問題,可將SVM看作為
f(x)=h(x)+b.
(3)
(4)
式(4)中,A、B是使用最大似然法對訓(xùn)練集(f(xi),yi)進(jìn)行估計(jì)得出.
對于k類數(shù)據(jù),用“一對多”方法訓(xùn)練得到k個(gè)SVM分類模型再由Pllat提出的算法計(jì)算出每個(gè)SVM的概率公式[19]:
(5)
式(5)中:pi為樣本x屬于第i類的概率.決策規(guī)則為
(6)
因此,在k類數(shù)據(jù)中pi值最大的類別為該樣本所屬的類.
實(shí)驗(yàn)中包括兩個(gè)樣本集合:已標(biāo)記的樣本記為Cl,包含少量的有標(biāo)簽的空氣處理機(jī)組正常運(yùn)行數(shù)據(jù)和空氣處理機(jī)組故障狀態(tài)數(shù)據(jù);未標(biāo)記的樣本記為Cu,包含大量無標(biāo)簽的空氣處理機(jī)組故障狀態(tài)數(shù)據(jù).
半監(jiān)督支持向量機(jī)算法偽代碼描述如下:
輸入:已標(biāo)記數(shù)據(jù)集Cl,未標(biāo)記數(shù)據(jù)集Cu,第i個(gè)樣本數(shù)據(jù)Xi;
輸出:當(dāng)前分類器類標(biāo)記相對確定的樣本Cl1;
Begin
創(chuàng)建一個(gè)空的數(shù)組Cl1;
While(1)
使用已標(biāo)記數(shù)據(jù)集訓(xùn)練分類器C;
計(jì)算出未標(biāo)記數(shù)據(jù)集Cu的行數(shù)N;
計(jì)算出每行最大的置信度con;
ForiFrom 1 toNstep 1
設(shè)定最佳置信度閾值ε
If con 大于εThen
將第i個(gè)樣本數(shù)據(jù)Xi加入Cl1中;
End if
將Cl1加入已標(biāo)記數(shù)據(jù)集Cl中;
將Cl1從未標(biāo)記數(shù)據(jù)集Cu中刪除;
End for
If 未標(biāo)記數(shù)據(jù)集Cu不為空 Then
Break;
End if
End while
End
在算法運(yùn)行過程中,通過訓(xùn)練分類器,保證初始分類器具有較高分類準(zhǔn)確率和泛化性能,通過預(yù)選選出類標(biāo)簽置信度較大的未標(biāo)記樣本,而不是將所有的樣本同時(shí)進(jìn)行半監(jiān)督學(xué)習(xí),這樣可減少半監(jiān)督訓(xùn)練的樣本規(guī)模,減少在迭代學(xué)習(xí)中誤差積累的影響.上述步驟的流程如圖3.
圖3 標(biāo)簽識別流程圖Figure 3 Label identification flow chart
本文選用的空氣處理機(jī)組實(shí)驗(yàn)數(shù)據(jù)是由ASHRAE project 1312-RP題為“用于評估空氣處理單元的故障檢測和診斷方法的工具”提供.測量的數(shù)據(jù)是由兩臺(tái)同時(shí)運(yùn)行的空氣處理機(jī)組系統(tǒng)產(chǎn)生.該系統(tǒng)分別命名為AHU-A和AHU-B,其中AHU-A為正常運(yùn)行模式,AHU-B為模擬不同的故障條件.最終記錄下了在春、夏、冬三個(gè)季節(jié)中每分鐘設(shè)備的運(yùn)行數(shù)據(jù).
本文選擇了2007年夏天的數(shù)據(jù)集,在實(shí)驗(yàn)中選取了正常樣本數(shù)據(jù)和其中比較常見的6種故障樣本數(shù)據(jù),如表2.
表2 故障原因描述
首先對樣本數(shù)據(jù)進(jìn)行歸一化處理,可將數(shù)據(jù)限制在實(shí)驗(yàn)需要的一定范圍內(nèi),抑制其他干擾并且方便實(shí)驗(yàn)數(shù)據(jù)的后續(xù)處理,保證程序運(yùn)行的過程中收斂加快.本實(shí)驗(yàn)中對有類標(biāo)記數(shù)據(jù)和未標(biāo)記數(shù)據(jù)同時(shí)進(jìn)行歸一化.
在實(shí)驗(yàn)中,數(shù)據(jù)集中正常樣本數(shù)為21 600個(gè),每種故障的樣本數(shù)為1 440個(gè)共17類數(shù)據(jù),從中選擇正常類標(biāo)簽和6種典型故障,共7個(gè)類作為實(shí)驗(yàn)對象.在實(shí)驗(yàn)中,將大量有標(biāo)簽的正常樣本和少量有標(biāo)簽的故障樣本作為SVM的初始訓(xùn)練樣本,除已選擇的初始樣本外,所有的數(shù)據(jù)集去除類別標(biāo)記作為未標(biāo)記樣本集.在每組實(shí)驗(yàn)中本文選擇8 000個(gè)正常樣本數(shù)據(jù),每類故障樣本選擇5~55個(gè)作為訓(xùn)練集,剩余的故障樣本作為無標(biāo)簽數(shù)據(jù)集,共十一組實(shí)驗(yàn).
實(shí)驗(yàn)中由于不同訓(xùn)練集中故障樣本的個(gè)數(shù)對置信度閾值選擇有一定的影響,半監(jiān)督學(xué)習(xí)的類標(biāo)記置信度閾值ε采用逐個(gè)尋優(yōu)的方式獲得.訓(xùn)練SVM使用MATLAB的Libsvm SVM Toolbox,核函數(shù)為RBF函數(shù).大量研究表明,SVM參數(shù)選擇對分類效果有很大的影響,對懲罰參數(shù)C和核參數(shù)g的優(yōu)化常用的方法有網(wǎng)格搜索法、梯度下降法、遺傳算法等智能優(yōu)化算法[20].這里我們分別使用網(wǎng)格搜索和遺傳算法對其進(jìn)行優(yōu)化,結(jié)果如圖4.
圖4 不同參數(shù)尋優(yōu)方式效果對比Figure 4 Comparison of different parameter optimization methods
實(shí)驗(yàn)結(jié)果表明,基于遺傳算法的半監(jiān)督支持向量機(jī)(SS-GA-SVM)比基于網(wǎng)格搜索法和沒有進(jìn)行參數(shù)尋優(yōu)的半監(jiān)督支持向量機(jī)分類準(zhǔn)確率更高.
本文再將半監(jiān)督學(xué)習(xí)與另外五種常用的機(jī)器學(xué)習(xí)算法結(jié)合進(jìn)行對比.其中,決策樹和隨機(jī)森林分別采用MATLAB的fitctree()函數(shù)和TreeBagger()函數(shù)訓(xùn)練;KNN算法是取K個(gè)最近鄰的樣本中屬于某一個(gè)類個(gè)數(shù)最多的類作為分類結(jié)果;ELM是使用改進(jìn)的能輸出置信度值的ELM函數(shù)實(shí)現(xiàn).由于每組實(shí)驗(yàn)選取的故障樣本是隨機(jī)的,這可能會(huì)對實(shí)驗(yàn)結(jié)果產(chǎn)生影響,所以對每組實(shí)驗(yàn)取30次實(shí)驗(yàn)結(jié)果的平均值,實(shí)驗(yàn)結(jié)果如表3、4.
不同半監(jiān)督學(xué)習(xí)算法初始樣本中包含故障樣本的數(shù)量對模型的影響如圖5所示.從圖中我們可以看出SS-GA-SVM算法在每類故障樣本選取個(gè)數(shù)低于10個(gè)的情況下模型的分類準(zhǔn)確率較低,當(dāng)故障樣本達(dá)到30個(gè)時(shí)模型的分類能力逐漸趨于穩(wěn)定,并且比其他五種算法效果更好.從圖6中可以看出SS-GA-SVM所需要的訓(xùn)練迭代次數(shù)較少,這對在線實(shí)時(shí)故障診斷有重要意義.
表3 不同算法的分類準(zhǔn)確率對比Table 3 Comparison of classification accuracy of different algorithms %
表4 不同半監(jiān)督學(xué)習(xí)算法的訓(xùn)練迭代次數(shù)對比
圖5 不同算法的分類性能對比Figure 5 Comparison of classification performance of different algorithms
圖6 不同半監(jiān)督學(xué)習(xí)算法的訓(xùn)練迭代次數(shù)對比Figure 6 Comparison of training iterations for different semi-supervised learning algorithms
本文在多種機(jī)器學(xué)習(xí)訓(xùn)練算法和半監(jiān)督學(xué)習(xí)的基礎(chǔ)上結(jié)合序列前向選擇,對空氣處理機(jī)組故障數(shù)據(jù)進(jìn)行分配標(biāo)簽,通過實(shí)驗(yàn)驗(yàn)證算法的有效性和可行性,實(shí)驗(yàn)結(jié)果表明SS-GA-SVM算法能夠較為有效的對樣本進(jìn)行類標(biāo)簽,能夠在標(biāo)記樣本比較少的情況下,通過半監(jiān)督學(xué)習(xí),最高達(dá)到88.96%的分類準(zhǔn)確率.
關(guān)于半監(jiān)督的空氣處理機(jī)組故障檢測,有些問題還需進(jìn)一步研究,如結(jié)合實(shí)際情況的SVM訓(xùn)練的終止策略,避免標(biāo)記更多的樣本和代價(jià)過大而導(dǎo)致類標(biāo)記分配不準(zhǔn)確,以及找出HVAC系統(tǒng)中各個(gè)特征之間的關(guān)聯(lián),從而更好的分析空調(diào)診斷系統(tǒng).