曹子涵,周鎮(zhèn)新,陳煥新*
(1-華中科技大學(xué)中歐清潔與可再生能源學(xué)院,湖北武漢 430074;2-華中科技大學(xué)能源與動力工程學(xué)院,湖北武漢 430074)
隨著多聯(lián)機(jī)空調(diào)在我國市場占有率的份額越來越高,故障診斷的需求也日益增加。目前采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法對空調(diào)制冷系統(tǒng)故障進(jìn)行診斷,以提高制冷系統(tǒng)的表現(xiàn),從而節(jié)約能耗并延長系統(tǒng)壽命[1-6]。目前數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的方法已經(jīng)被廣泛應(yīng)用于制冷系統(tǒng)故障檢測領(lǐng)域,ZHAO等[7]對近20年來基于數(shù)據(jù)驅(qū)動的建筑能源系統(tǒng)故障檢測與診斷方法進(jìn)行綜述,揭示了該種方法在訓(xùn)練數(shù)據(jù)中學(xué)習(xí)模式方面表現(xiàn)的強(qiáng)大能力。包括例如主成分分析法[8]、人工神經(jīng)網(wǎng)絡(luò)[9]、支持向量機(jī)[10-11]等機(jī)器學(xué)習(xí)的方法也被廣泛應(yīng)用于空調(diào)系統(tǒng)故障診斷和能耗預(yù)測領(lǐng)域。HU等[12]采用自適應(yīng)法優(yōu)化主成分分析,對來自冷水機(jī)組的傳感器異常進(jìn)行了檢測。FAN等[13]和ZHU等[14]采用小波去噪網(wǎng)絡(luò),對來自空氣調(diào)節(jié)機(jī)組的傳感器信號進(jìn)行故障判別與診斷。LIU等[15]采用指數(shù)加權(quán)移動平均優(yōu)化主成分分析法后,提高了空調(diào)系統(tǒng)中制冷劑充泄漏故障的診斷準(zhǔn)確率。張善興等[16]在反向傳播神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)上,利用遺傳算法優(yōu)化了變風(fēng)量空調(diào)系統(tǒng)空調(diào)箱軟硬故障的故障診斷模型。蔡博偉等[17]基于空調(diào)焓差實(shí)驗(yàn)臺的長周期運(yùn)行狀態(tài)數(shù)據(jù),建立前饋神經(jīng)網(wǎng)絡(luò)預(yù)測模型,對焓差試驗(yàn)臺故障進(jìn)行了預(yù)測。
采用數(shù)據(jù)挖掘或者機(jī)器學(xué)習(xí)的方法進(jìn)行故障診斷時,引入多樣的豐富的數(shù)據(jù),能有效提高模型對于故障的識別能力。進(jìn)行故障診斷的本質(zhì)是對數(shù)據(jù)進(jìn)行分類,當(dāng)引入的數(shù)據(jù)分布不均衡時,少數(shù)類本身含有的信息有限,分類器難以學(xué)習(xí)到少數(shù)類的特征,使得少數(shù)類數(shù)據(jù)難以識別;同時兩類數(shù)據(jù)交會的邊界處,由于多數(shù)類樣本會侵?jǐn)_少數(shù)類樣本,難以對二者進(jìn)行有效區(qū)分。為了保證總體分類準(zhǔn)確度,分類模型會偏向于多數(shù)類而忽略少數(shù)類[18]。在實(shí)際應(yīng)用中,多聯(lián)機(jī)處于故障狀態(tài)下運(yùn)行的數(shù)據(jù)往往難以獲得;實(shí)驗(yàn)室條件下人為引入的故障能采集到的故障數(shù)據(jù)過于單一,且數(shù)量有限。于是考慮尋找一種能夠擴(kuò)充豐富種類、數(shù)量充足的數(shù)據(jù)擴(kuò)增方式,對制冷系統(tǒng)故障狀態(tài)下的運(yùn)行數(shù)據(jù)進(jìn)行擴(kuò)增,解決數(shù)據(jù)不均衡對故障診斷模型帶來的影響。
生成對抗網(wǎng)絡(luò)(Generative Adversarial Nets,GAN)作為一種新的生成算法,能夠通過學(xué)習(xí)目標(biāo)樣本數(shù)據(jù)的概率分布,從而生成類似真實(shí)樣本的偽造樣本。生成對抗網(wǎng)絡(luò)不需要計(jì)算準(zhǔn)確的真實(shí)樣本分布情況,而是通過比較生成的樣本分布和真實(shí)的樣本分布情況,不斷優(yōu)化生成樣本,獲得無限逼近真實(shí)樣本的偽造樣本。這種生成方式與傳統(tǒng)的生成模型不同,GAN并不僅僅對真實(shí)數(shù)據(jù)分布進(jìn)行復(fù)現(xiàn),而是通過合理內(nèi)插和外插數(shù)據(jù),盡量模擬出真實(shí)數(shù)據(jù)的分布特征,避免了機(jī)器學(xué)習(xí)過程中,由于訓(xùn)練樣本不足而導(dǎo)致的準(zhǔn)確率下降,所以適合于解決訓(xùn)練樣本缺乏的問題。GAN已被應(yīng)用于多個領(lǐng)域的生成數(shù)據(jù)研究中,均取得較好的效果[19-22]。
綜上所述,為了解決故障數(shù)據(jù)不平衡而導(dǎo)致少數(shù)類檢測率低的問題,本文通過整體類擴(kuò)充的方式,利用GAN對故障狀態(tài)下運(yùn)行的故障樣本進(jìn)行擴(kuò)充,降低數(shù)據(jù)的不平衡程度;然后在新的數(shù)據(jù)集上訓(xùn)練神經(jīng)網(wǎng)絡(luò),建立故障診斷模型。實(shí)驗(yàn)結(jié)果表明,采用GAN解決數(shù)據(jù)不平衡問題后,再對診斷模型進(jìn)行訓(xùn)練,可以明顯提升模型診斷準(zhǔn)確率。
四通閥是冷暖型空調(diào)系統(tǒng)的關(guān)鍵零件,主要用于調(diào)節(jié)制冷劑在空調(diào)系統(tǒng)內(nèi)的流動方向,在制冷和制熱模式下調(diào)整蒸發(fā)器和冷凝器所承擔(dān)的任務(wù)。四通閥換向的原理是利用主滑閥兩側(cè)由于制冷劑的狀態(tài)不同引起的壓力差,推動四通閥進(jìn)行換向。但是在空調(diào)系統(tǒng)實(shí)際運(yùn)行過程中,由于四通閥的各部分長時間分別處于不同溫度和壓力的工作環(huán)境中,主滑閥很容易發(fā)生形變;空調(diào)系統(tǒng)進(jìn)行制冷和制熱模式的切換時,制冷劑中的雜質(zhì)很可能影響四通閥的換向動作;如果主滑閥變形、滑道存在雜質(zhì)、壓力不足,四通閥就無法順利完成換向動作[23],嚴(yán)重影響空調(diào)系統(tǒng)的正常工作。在進(jìn)行該四通閥故障模擬試驗(yàn)時,人為地使四通閥的電機(jī)失效,以模擬四通閥運(yùn)行過程中出現(xiàn)不換向的故障。
本文采用一臺額定制冷量為45 kW的多聯(lián)機(jī)系統(tǒng)作為研究對象,實(shí)驗(yàn)系統(tǒng)如圖1所示,包括1個室外機(jī)和5個室內(nèi)機(jī)。多聯(lián)機(jī)上布有多個傳感器,分別用來測量各閥門及室內(nèi)風(fēng)機(jī)進(jìn)管處壓力、閥門溫度、閥門開度、壓縮機(jī)頻率和風(fēng)機(jī)頻率等參數(shù),共計(jì)41項(xiàng)。先在制熱工況讓多聯(lián)機(jī)系統(tǒng)維持正常運(yùn)行,并同時采集多聯(lián)機(jī)系統(tǒng)的運(yùn)行數(shù)據(jù),將數(shù)據(jù)分類為正常。隨后,在如圖所示位置引入四通閥故障,使換向閥電機(jī)失效,模擬四通閥故障,此時采集到的多聯(lián)機(jī)運(yùn)行數(shù)據(jù)被分類為故障。
圖1 多聯(lián)機(jī)四通閥故障實(shí)驗(yàn)系統(tǒng)原理
生成對抗網(wǎng)絡(luò)GAN是一種生成神經(jīng)網(wǎng)絡(luò)模型,其在結(jié)構(gòu)本質(zhì)上是零和博弈思想的應(yīng)用,即在一個事件中,一方的收益是另一方的損失,博弈雙方的收益和損失總和永遠(yuǎn)為零[24]。GAN由生成器(G)和鑒別器(D)組成,并通過G和D交替對抗,生成出最具有真實(shí)樣本分布特征的樣本。生成器G是一個不斷模擬給定樣本的潛在分布,同時模仿并偽造樣本的生成器,它通過輸入一個隨機(jī)向量z,生成與真實(shí)樣本的分布情況盡可能類似的新樣本。鑒別器D可以看作一個二分類器,通過對來自生成器的樣本分布和真實(shí)的樣本分進(jìn)行比較,判別輸入數(shù)據(jù)的真實(shí)性。GAN的訓(xùn)練和優(yōu)化過程如圖2所示。
圖2 GAN的訓(xùn)練和優(yōu)化過程
該過程為一個動態(tài)的“二元極小極大”博弈過程,G和D在對抗訓(xùn)練過程中不斷迭代優(yōu)化,二者的能力越來越強(qiáng),當(dāng)生成器生成的樣本足夠逼真,鑒別器D不能夠區(qū)分真實(shí)樣本和生成樣本,即認(rèn)為來自生成器G的數(shù)據(jù)真假概率相等時,達(dá)到穩(wěn)態(tài)。此時G能夠生成接近真實(shí)樣本分布的偽造樣本。其核心思想用數(shù)學(xué)公式表示為:
GAN生成數(shù)據(jù)的過程就是D(x)和G(z)交替地最小化和最大化V(D,G),也就是使D(x)無限接近于1,D(G(z))無限接近于0,最終求得近似最優(yōu)解的生成式模型minG。
2.2.1 數(shù)據(jù)處理
在四通閥故障實(shí)驗(yàn)中,需要對采集到的多聯(lián)機(jī)運(yùn)行數(shù)據(jù)進(jìn)行篩選,剔除存在明顯離群值的數(shù)據(jù)以及存在參數(shù)缺失的數(shù)據(jù)。如果不對數(shù)據(jù)進(jìn)行篩選就用于模型訓(xùn)練,可能會造成模型的診斷能力顯著下降,甚至造成模型不收斂的情況。同時,在采集到的特征變量中,有許多特征變量是高度線性相關(guān)的。如果將所有變量都應(yīng)用于模型的構(gòu)建,模型將變得十分復(fù)雜,但診斷效果卻不一定有明顯提升。
所以對數(shù)據(jù)進(jìn)行了如下預(yù)處理:1)通過對變量進(jìn)行相關(guān)性分析并結(jié)合相關(guān)專家知識[25],從多聯(lián)機(jī)運(yùn)行數(shù)據(jù)采集的特征中篩選出10個特征變量,如表1所示;2)剔除存在明顯異常值的數(shù)據(jù);3)將數(shù)據(jù)劃分為正常和故障兩類。
表1 用于神經(jīng)網(wǎng)訓(xùn)練的特征變量
2.2.2 神經(jīng)網(wǎng)絡(luò)模型
神經(jīng)網(wǎng)絡(luò)在故障診斷領(lǐng)域的可行性已經(jīng)得到了廣泛驗(yàn)證。本文構(gòu)建用于多聯(lián)機(jī)系統(tǒng)四通閥故障診斷的多層前饋式神經(jīng)網(wǎng)絡(luò),由輸入層、輸出層和中間層構(gòu)成,上層神經(jīng)元直接與下一層神經(jīng)元連接,同層神經(jīng)元互不連接,也不存在越層連接。神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。
圖3 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
訓(xùn)練神經(jīng)網(wǎng)絡(luò)本質(zhì)上是根據(jù)訓(xùn)練數(shù)據(jù),來調(diào)整連接神經(jīng)元之間權(quán)重w以及每個功能神經(jīng)元閾值b。本模型采用經(jīng)典的誤差逆?zhèn)鞑ビ?xùn)練方法,訓(xùn)練思路是:假設(shè)對于訓(xùn)練數(shù)據(jù)(x,y),通過首輪訓(xùn)練神經(jīng)網(wǎng)絡(luò)輸出Y,連接神經(jīng)元的權(quán)重可表達(dá)為:w'=w+wa,wa=n(y-Y)X,假如錯誤,則會在下一輪訓(xùn)練中對wa進(jìn)行調(diào)整;若訓(xùn)練結(jié)果正確,則維持該權(quán)重w不變。其中n為學(xué)習(xí)率,決定了神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度。
采用上文選出的10個特征變量作為神經(jīng)網(wǎng)絡(luò)建模的特征變量,建立四通閥故障診斷模型。模型的輸入層神經(jīng)元數(shù)量為10,對應(yīng)于建模的10個特征變量;依據(jù)經(jīng)驗(yàn)公式,中間層神經(jīng)元數(shù)量為6;線性輸出層神經(jīng)元數(shù)量為2,分別對應(yīng)多聯(lián)機(jī)運(yùn)行數(shù)據(jù)的正常和故障兩類數(shù)據(jù)標(biāo)簽。
2.2.3 數(shù)據(jù)不平衡狀態(tài)下的神經(jīng)網(wǎng)絡(luò)診斷
為比較引入GAN擴(kuò)增的故障數(shù)據(jù)對神經(jīng)網(wǎng)絡(luò)模型的診斷能力的影響,建立如圖4所示神經(jīng)網(wǎng)絡(luò)故障診斷流程。
圖4 神經(jīng)網(wǎng)絡(luò)故障診斷流程
將多聯(lián)機(jī)故障實(shí)驗(yàn)的數(shù)據(jù)進(jìn)行預(yù)處理,得到正常數(shù)據(jù)1 000條,故障數(shù)據(jù)50條,將數(shù)據(jù)隨機(jī)打亂后,按照2:1的比例劃分為訓(xùn)練集和測試集。使用訓(xùn)練集數(shù)據(jù)訓(xùn)練構(gòu)建的神經(jīng)網(wǎng)絡(luò)模型,使用未參加訓(xùn)練的測試集數(shù)據(jù)測試模型的診斷準(zhǔn)確率。測試集上得到診斷結(jié)果的混淆矩陣表2所示。
表2 未引入擴(kuò)增數(shù)據(jù)的診斷結(jié)果
測試集上的幾何平均診斷準(zhǔn)確率為21.12%。從混淆矩陣的結(jié)果可知,神經(jīng)網(wǎng)絡(luò)對于故障數(shù)據(jù)的識別效果并不是很理想,診斷錯誤主要是將故障數(shù)據(jù)誤診為了正常數(shù)據(jù)。
為了解決故障數(shù)據(jù)不足,導(dǎo)致參與神經(jīng)網(wǎng)絡(luò)診斷模型訓(xùn)練的故障數(shù)據(jù)過少的問題,采用GAN網(wǎng)絡(luò)對故障數(shù)據(jù)進(jìn)行擴(kuò)充,增加故障數(shù)據(jù)的數(shù)量。
對待擴(kuò)增的故障數(shù)據(jù)進(jìn)行歸一化,以消除變量間不同量綱的影響,提高GAN生成的穩(wěn)定性。迭代生成時,將每個特征變量重復(fù)20次,取平均值以減小GAN的誤差,代次數(shù)20 000次。以預(yù)處理后得到的50條故障數(shù)據(jù)為生成模板,再生成950條故障數(shù)據(jù)。每條故障數(shù)據(jù)迭代20 000次后loss值如圖5所示。生成器和鑒別器的絕大部分loss值極差均在1以內(nèi),說明鑒別器和生成器均達(dá)到穩(wěn)態(tài),生成的數(shù)據(jù)在足夠強(qiáng)大的鑒別器看來足夠“真實(shí)”。
圖5 生成器和鑒別器的損失值
為了具體探究數(shù)據(jù)不平衡對診斷準(zhǔn)確率的影響,引入生成數(shù)據(jù)后,將數(shù)據(jù)按照正常條數(shù):故障條數(shù)分為1 000:50、1 000:250、1 000:500、1 000:750、1 000:1 000這5種情況,劃分訓(xùn)練集和測試集后,用同一神經(jīng)網(wǎng)絡(luò)進(jìn)行診斷,診斷結(jié)果如表3所示。隨著故障數(shù)據(jù)占比的提升,正確診斷故障數(shù)據(jù)條數(shù)隨之增加,總體診斷準(zhǔn)確率由92.29%提升至97.00%。
表3 不同數(shù)據(jù)比例的診斷結(jié)果
引入GAN擴(kuò)增的故障數(shù)據(jù)前后,神經(jīng)網(wǎng)絡(luò)模型的診斷結(jié)果如圖6所示。
圖6 神經(jīng)網(wǎng)絡(luò)模型的診斷結(jié)果
A、B、C、D和E分別代表正常數(shù)據(jù)與故障數(shù)據(jù)比例分別為1 000:50、1 000:250、1 000:500、1 000:750和1 000:1 000。未引入GAN擴(kuò)增的故障數(shù)據(jù),即數(shù)據(jù)最不平衡的一組,正常數(shù)據(jù)量為1 000條,故障數(shù)據(jù)量僅為50條,此時神經(jīng)網(wǎng)絡(luò)對于故障數(shù)據(jù)的診斷能力很差,僅為4.55%。神經(jīng)網(wǎng)絡(luò)對于故障數(shù)據(jù)的診斷準(zhǔn)確率不高,易將故障數(shù)據(jù)診斷為正常數(shù)據(jù)。這印證了神經(jīng)網(wǎng)絡(luò)用于故障診斷時,結(jié)果容易偏向數(shù)據(jù)量大的一側(cè)這一結(jié)論。僅從整體準(zhǔn)確率來看,準(zhǔn)確率僅僅略有提升,這是因?yàn)楣收蠑?shù)據(jù)占比太小,較低的故障數(shù)據(jù)診斷準(zhǔn)確率對整體診斷準(zhǔn)確率的影響微乎其微。幾何平均準(zhǔn)確率可以同時反映出模型在故障數(shù)據(jù)診斷和正常數(shù)據(jù)診斷兩方面的診斷水平,所以考慮用幾何平均準(zhǔn)確率衡量模型對于故障數(shù)據(jù)的診斷性能。隨著數(shù)據(jù)不平衡程度逐漸降低,幾何平均準(zhǔn)確率由21.12%提升至97.13%。
引入GAN擴(kuò)增的故障數(shù)據(jù),逐步提升故障數(shù)據(jù)占比直至平衡,模型對故障數(shù)據(jù)的診斷能力明顯提升。故障數(shù)據(jù)診斷準(zhǔn)確率從4.55%提升至95.26%。同時,正常數(shù)據(jù)的診斷準(zhǔn)確率也保持了較高水平。說明采用GAN網(wǎng)絡(luò)擴(kuò)增的數(shù)據(jù)很好模擬出了故障數(shù)據(jù)的特征,豐富了故障數(shù)據(jù)的數(shù)量和種類,在解決數(shù)據(jù)不均衡問題方面有很大的潛力。
本文結(jié)合生成對抗網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)提出了一種針對多聯(lián)機(jī)四通閥故障數(shù)據(jù)的擴(kuò)充診斷策略。該策略利用生成對抗網(wǎng)絡(luò),對多聯(lián)機(jī)四通閥故障狀態(tài)下的運(yùn)行數(shù)據(jù)進(jìn)行擴(kuò)增,解決了機(jī)器學(xué)習(xí)過程中,神經(jīng)網(wǎng)絡(luò)模型由于數(shù)據(jù)不均衡和故障數(shù)據(jù)缺乏引起的診斷準(zhǔn)確率下降問題,得到如下結(jié)論:
1)在使用神經(jīng)網(wǎng)絡(luò)模型對多聯(lián)機(jī)四通閥故障診斷的過程中,數(shù)據(jù)分布不均衡容易使診斷結(jié)果偏向數(shù)據(jù)量大的一側(cè),導(dǎo)致神經(jīng)網(wǎng)絡(luò)模型對故障數(shù)據(jù)的診斷準(zhǔn)確率下降;
2)采用GAN方法可以有效解決數(shù)據(jù)不均衡引起的神經(jīng)網(wǎng)絡(luò)診斷模型診斷準(zhǔn)確率下降的問題。GAN數(shù)據(jù)擴(kuò)增方法可以對數(shù)據(jù)的變量特征進(jìn)行擬合,生成具有故障數(shù)據(jù)特征的數(shù)據(jù)用以訓(xùn)練診斷模型,從而提升模型的診斷準(zhǔn)確率;
3)使用GAN生成對抗網(wǎng)絡(luò),將故障數(shù)據(jù)的數(shù)量逐步擴(kuò)增至與正常數(shù)據(jù)平衡的過程中,神經(jīng)網(wǎng)絡(luò)模型的診斷準(zhǔn)確率由92.29%提升至97.00%;總體故障診斷正確率提升明顯,從4.55%提升至95.26%。說明GAN生成對抗網(wǎng)絡(luò)在解決數(shù)據(jù)不均衡的問題方面效果顯著。