徐暢,李紹青,李正飛,陳煥新
(華中科技大學(xué)能源與動力工程學(xué)院,湖北武漢 430074)
現(xiàn)代社會,空調(diào)已經(jīng)是建筑不可或缺的一部分,但是在空調(diào)長期運行的過程中,故障的出現(xiàn)往往是無法避免的,KATIPAMULA 等[1]認為因空調(diào)設(shè)備故障和不合適的控制設(shè)備會導(dǎo)致15%~30%的能源浪費。制冷劑充注量是影響制冷系統(tǒng)總體性能的重要參數(shù),當(dāng)制冷系統(tǒng)長期運行時,制冷劑容易泄漏,從而使制冷劑充注量偏離正常值的范圍。這種故障會導(dǎo)致制冷量、制熱量和制冷效率、制熱效率的下降,進而造成巨額的經(jīng)濟損失[2-3],同時會導(dǎo)致壓縮機內(nèi)部溫度升高,并且?guī)頋櫥偷母邷亓踊蜋C械部件的磨損和燒毀[4],關(guān)鍵的是,在復(fù)雜的實際工況下,可能導(dǎo)致比實驗更復(fù)雜的情況[5]。所以對制冷劑充注量故障的及時且高準確的診斷十分必要。對于制冷機系統(tǒng)的故障診斷的傳統(tǒng)方法是通過專家知識,讓制冷機系統(tǒng)停機并對相關(guān)部位進行拆機檢修,這種方法耗時耗力且準確率也不高。然而,在部分工業(yè)的特殊場合,制冷機可能根本無法停機檢修?;跀?shù)據(jù)驅(qū)動的制冷機故障檢測克服了傳統(tǒng)故障檢測上的不足,不僅提高了診斷的效果,也大大節(jié)省了故障檢測所消耗的人力物力[6]。目前已有一部分學(xué)者對基于數(shù)據(jù)驅(qū)動的制冷機的故障診斷進行了相關(guān)方面的研究,但是對于基于數(shù)據(jù)驅(qū)動的制冷機充注量故障研究較少。徐廷喜等[7]使用支持向量數(shù)據(jù)描述算法對變頻空調(diào)的制冷劑泄漏進行故障檢測。袁玥等[8]采用主成分分析(Principal Component Analysis,PCA)算法進行主元提取后,將主元導(dǎo)入反向傳播(Back Propagation,BP)網(wǎng)絡(luò)中進行制冷機充注量故障診斷,發(fā)現(xiàn)PCA-BP 模型相較于傳統(tǒng)的BP 神經(jīng)網(wǎng)絡(luò)節(jié)約了計算時長及計算空間,同時該算法也具有泛化能力。XU 等[9]研究了一種基于主元分析法和改進小波分析的冷水機組傳感器故障檢測與診斷及性能評估方法,表明了該方法在診斷性能上比PCA 更為優(yōu)異。ZHAO 等[10]提出了一種基于貝葉斯置信網(wǎng)絡(luò)的三層診斷貝葉斯網(wǎng)絡(luò)模型,對冷水機組進行故障檢測與診斷,發(fā)現(xiàn)基于貝葉斯置信網(wǎng)絡(luò)所提出的策略可以利用有關(guān)冷水機組的更多有用信息和專家知識,針對不確定、不完整和沖突的信息依然有高效的診斷性能。
本文提出一種ReliefF-SVM(支持向量機,Support Vector Machine)算法,并對其算法進行網(wǎng)格搜索與十折交叉驗證進行超參調(diào)優(yōu),旨在提出一個新的診斷模型,為制冷機充注量的故障診斷提供一個新的診斷思路。
實驗裝置采用的是R410A,31.5 kW 的多聯(lián)機(Variable Refrigerant Flow,VRF)系統(tǒng),正常工況下其制冷劑充注量為9.9 kg。其室內(nèi)機和室外機的額定功率分別為29.7 kW 和28 kW,圖1所示為VRF 實驗系統(tǒng)原理,圖中標明了主要的測量傳感器,其中更為細節(jié)的部分可參考文獻[11-12]。
圖1 VRF 實驗系統(tǒng)原理
此次研究所用的數(shù)據(jù)是由VRF 空調(diào)系統(tǒng)在不同水平的制冷劑充注量下測得,設(shè)置的制冷劑充注量區(qū)間在設(shè)計值的60%~130%,含有制冷劑充注量不足、正常與過量的情況,按制冷劑充注量分為3類,如表1所示,分類標簽中-1 代表不足,0 代表正常,1 代表過量。
表1 制冷劑充注量水平類別
制冷劑充注量對系統(tǒng)的正常運行非常重要,且制冷劑充注量故障的情況時有發(fā)生。如沒有按規(guī)定充注、管道堵塞、操作不當(dāng)和設(shè)備腐蝕老化等都可能導(dǎo)致制冷劑充注量故障,影響系統(tǒng)的正常運行。
本文對實驗數(shù)據(jù)中各類特征變量的選擇參考于相關(guān)文獻[13],選擇了18 個可能對系統(tǒng)運行產(chǎn)生影響的參數(shù),如表2所示。
表2 系統(tǒng)充注量故障實驗變量
原始數(shù)據(jù)可以表示為:
式中,Y為分類標簽。原始數(shù)據(jù)中樣本數(shù)為69,112。隨機抽取3/4 為訓(xùn)練集,剩下1/4 為測試集,故訓(xùn)練集和測試集數(shù)據(jù)樣本分別為51,834 和17,278。
ReliefF-SVM 算法應(yīng)用于制冷劑充注量故障的基本思路是:先將制冷劑充注量故障分為不足、正常和過高3 個不同的標簽,當(dāng)所有數(shù)據(jù)都按照標簽分類后,把數(shù)據(jù)所有列舉出的特征變量導(dǎo)入ReliefF中,根據(jù)特征變量與標簽的關(guān)系,ReliefF 將標簽重要程度最高的7 個特征變量提出,作為SVM 的輸出,最后在通過超參調(diào)優(yōu)得到最終預(yù)測模型。
RelieF 評估最早由KIRA 提出[14],當(dāng)時只能用于解決兩類的分類問題,1994年KONONENKO[15]將RelieF 算法擴展到了ReliefF,可以解決多類問題和回歸問題,而且補充了對缺失數(shù)據(jù)情況的處理。該系列算法的主要特點是利用特征對近距離樣本的區(qū)分能力來評價特征變量。核心思想為:好的特征會使同類的樣本接近,使不同類的樣本遠離[16]。
ReliefF 算法在進行多類的特征選擇工作時,對于特征A,每次從訓(xùn)練集中抽一個樣本點Ri,然后在他的同類數(shù)據(jù)中找出來k個最鄰近的樣本H,再從不同類的數(shù)據(jù)中也分別找k個最鄰近樣本M,之后依照式(2)不斷更新該特征的權(quán)值,循環(huán)計算m次直至所有樣本依次計算完畢,得到單個特征的最終權(quán)值。
ReliefF 算法的權(quán)值更新計算公式:
式中,p(C)為在訓(xùn)練樣本中屬于類別C的樣本所占比值;p(class(Ri))為與Ri同類的樣本占總樣本的比值;d(A,Ri,Hj)為Ri和Hj在特征A上的歸一化距離。
ReliefF 有較高的評估效率,且對數(shù)據(jù)的類型沒有限制要求,是公認的效果較好的過濾式的特征評估算法,能夠很好去除無關(guān)特征,但ReliefF 算法不能去除冗余特征[16]。該算法有過濾式算法的典型特征,即省去了對特征子集的分類器進行訓(xùn)練的步驟,故減少了計算量,簡單高效[17]。本文中使用的原始數(shù)據(jù)集樣本較多,使用ReliefF 算法可以高效找到合適的特征變量。
支持向量機(SVM)是一種較新的數(shù)據(jù)挖掘算法,已經(jīng)在模式識別、回歸分析等許多領(lǐng)域里都有了很快的發(fā)展,它的分類功能也被廣泛應(yīng)用于許多方面[18]。SVM 本來是一種二分類的方法,但也可以實現(xiàn)多分類問題的處理。在二分類問題中,數(shù)據(jù)本身用n維向量x表示,數(shù)據(jù)類別用y 來表示,用支持向量機找一個最優(yōu)的超平面wTx+b=0,讓本分類中離其最近的點和其他分類中的點距離最遠。算法結(jié)構(gòu)如圖2所示。
對于兩種類別的非線性數(shù)據(jù)集Y=(xi,yi),xi∈R,yi∈(-1,1),i=1,2,…,n,支持向量機經(jīng)由之前選擇的非線性映射(核函數(shù)K(xi,x)),把數(shù)據(jù)從開始的低維度空間映射到高維空間,然后構(gòu)造一個最好的分類超平面。
分類函數(shù)如下:
式中,b為截距;α為拉格朗日乘數(shù)。
α的求解方法:
由于還存在數(shù)據(jù)異常的問題,需要對如下公式進行優(yōu)化:
式中,ξi≥0 是松弛變量,對應(yīng)xi可以允許偏離的量;C為懲罰因子。
為了優(yōu)化上面的不等式,將其進行拉格朗日變換得到對偶形式后適當(dāng)變形得到:
因此,支持向量機的核心是核函數(shù)K(xi,x)。
圖2 支持向量機算法結(jié)構(gòu)
本文把網(wǎng)格搜索和十折交叉驗證這兩種方法結(jié)合起來對基于支持向量機的模型進行優(yōu)化。網(wǎng)格搜索的方法應(yīng)用于確定模型的參數(shù),將區(qū)域劃分出區(qū)間,并對區(qū)間內(nèi)的參數(shù)進行逐一尋優(yōu),最后找到誤差比較小的最優(yōu)解。這種方法可以避免只能盲目隨機或只靠經(jīng)驗來尋找參數(shù)的狀況,進一步減少了尋優(yōu)所需的時間,還可以有效提高最終所選參數(shù)的準確性。在網(wǎng)格搜索尋找參數(shù)之后,還要用交叉驗證來防止模型出現(xiàn)過擬合的情況,對泛化誤差進行無偏估計。本次交叉驗證采用十折交叉的方法。所謂十折交叉驗證,就是在訓(xùn)練模型之前,把訓(xùn)練數(shù)據(jù)隨機地分成10 等份,然后輪流用其中的9 份數(shù)據(jù)來構(gòu)建模型,用剩下的一份對訓(xùn)練出的模型進行評估,所以需要重復(fù)進行10 次,所以稱為十折交叉驗證。
基于該算法的制冷劑充注量故障診斷分為特征提取、訓(xùn)練模型、超參優(yōu)化和故障檢測4 個部分,其中特征提取的取出原始特征變量中與標簽重要程度最大的前幾個變量,可以有效剔除數(shù)據(jù)中的冗余變量增加故障檢測精度與效率,再將處理后的數(shù)據(jù)導(dǎo)入模型進行訓(xùn)練,通過超參優(yōu)化得到較好的訓(xùn)練模型。具體流程如圖3所示。
圖3 基于特征工程的制冷劑充注量故障檢測與診斷流程
將原始18 個特征變量與對應(yīng)標簽由ReliefF 處理后,得到各個特征變量對應(yīng)標簽的重要程度,本文取前7 個重要程度最大的特征變量,其結(jié)果如表3所示。
表3 Relief 特征選擇后的前7 個變量
將得到的7 個變量輸入默認參數(shù)下的支持向量機模型中得到其混淆矩陣結(jié)果如表4所示。結(jié)果顯示,測試集的分類正確率分別為85.6%和85.3%。
表4 ReliefF-SVM 混淆矩陣結(jié)果
根據(jù)以上結(jié)果可知,默認超參下的支持向量機的訓(xùn)練結(jié)果不太理想。且由混淆矩陣分析得知,3種模型中將制冷劑充注過量(1)錯誤分類為制冷劑充注量正常(0)和將制冷劑充注量正常(0)錯誤分類為制冷劑充注過量(1)的情況比較多。所以需要對模型的參數(shù)進行優(yōu)化,提高制冷劑充注量故障檢測與診斷模型的準確性,其中重點是制冷劑充注過量和正常的檢測分類。
支持向量機中有兩個比較重要的超參,即懲罰因子C和核參數(shù)γ。其中,懲罰因子C可以平衡訓(xùn)練誤差還有模擬復(fù)雜度。C的值越大,模型就越復(fù)雜,數(shù)據(jù)與模型的擬合程度也會相應(yīng)升高,但是可能會造成模型過擬合的現(xiàn)象[19]。當(dāng)C的值過小時,會致使模型欠擬合。參數(shù)γ可以決定輸入空間映射到特征空間的方式,同樣影響SVM 分類算法的復(fù)雜程度[20]。所以,要提升制冷劑充注量故障檢測與診斷模型的性能,提高可靠性,準確性還有分類精度,就要找到更好的參數(shù)γ和C。其優(yōu)化策略如圖4所示。
圖4 對C 和γ 值的優(yōu)化策略
通過流程,對該基于支持向量機的制冷劑充注量故障檢測與診斷模型進行參數(shù)優(yōu)化,找到最優(yōu)的參數(shù)構(gòu)建模型,并分析參數(shù)優(yōu)化后3 種特征選擇算法下模型的結(jié)果。在前期幾次初步嘗試后,考慮將參數(shù)懲罰因子C范圍設(shè)定在(3,4,5,6,7),γ設(shè)定在(3,4,5,6,7)范圍內(nèi)。根據(jù)網(wǎng)格搜索的原理,兩個參數(shù)互相結(jié)合,共有25 種組合,每個組合訓(xùn)練后得到25 種故障檢測與診斷模型,最后找到分類錯誤率最小的參數(shù)組合來構(gòu)建模型。最終ReliefF-SVM 中最好的SVM 參數(shù)組合為核參數(shù)γ=3,懲罰因子C=7;此時模型分類錯誤率為0.035。
表5 優(yōu)化后ReliefF-SVM 混淆矩陣結(jié)果
結(jié)果顯示,訓(xùn)練集和測試集的分類正確率分別為99.4%和98.8%。
從混淆矩陣和故障檢測正確率的結(jié)果可以看到,網(wǎng)格搜索算法可以找到更好的支持向量機參數(shù)的組合,并且十折交叉的方法也能夠有效防止模型出現(xiàn)過擬合的現(xiàn)象。這3 種方法在進行參數(shù)尋優(yōu)找到更好的參數(shù)后,模型性能均有了較大的提升,針對之前遇到的,模型對制冷劑充注量正常與過量容易出現(xiàn)錯誤判斷的情況,優(yōu)化后的模型有更好的表現(xiàn),故障診斷的準確率均提高了10%左右,在測試集的準確率為98.8%。
本文基于特征工程進行制冷劑充注量故障檢測與診斷的研究,采用ReliefF-SVM 算法,并使用網(wǎng)格搜索和十折交叉的方法進行參數(shù)尋優(yōu),優(yōu)化模型以及更適合的特征選擇算法,得出如下結(jié)論:
1)利用ReliefF 將原始的18 個特征變量中與決策屬性高度相關(guān)的7 個變量篩選出來,相比于原始的特征屬性集,不僅可以極大提高運算的效率,也可以提前剔除冗余信息,提高制冷機充注量故障診斷的診斷性能;
2)通過網(wǎng)格搜索和十折交叉驗證的方法進行超參調(diào)優(yōu),發(fā)現(xiàn)在此診斷模型下的支持向量機中,當(dāng)核參數(shù)γ=3,懲罰因子C=7 時,模型診斷性能最好,此時模型分類錯誤率為0.035;
3)同優(yōu)化前相比,故障診斷的準確率提高了10%,在訓(xùn)練集和測試集上的預(yù)測正確率分別達到99.4%和98.8%。