羅方芳,郭文忠,劉耿耿,陳國(guó)龍
1(福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350116) 2(福州大學(xué) 空間數(shù)據(jù)挖掘與信息共享教育部重點(diǎn)實(shí)驗(yàn)室,福州 350116) 3(集美大學(xué) 計(jì)算機(jī)工程學(xué)院,廈門(mén) 361021)E-mail:fzugwz@163.com
移動(dòng)通信系統(tǒng)中的基站通過(guò)無(wú)線連接技術(shù)為移動(dòng)臺(tái)提供接入系統(tǒng)的接口.據(jù)工信部發(fā)布的《2017年通信運(yùn)營(yíng)業(yè)統(tǒng)計(jì)公報(bào)》顯示,2017年,移動(dòng)通信基站的總數(shù)達(dá)到593萬(wàn),其中4G基站新增86.1萬(wàn)個(gè),總數(shù)達(dá)到328萬(wàn)個(gè),移動(dòng)網(wǎng)絡(luò)覆蓋范圍和服務(wù)能力繼續(xù)提升[1].由于基站設(shè)備需要在相對(duì)恒溫的條件下才能正常工作,所以移動(dòng)通信基站中都要加裝專用的通信空調(diào),為基站內(nèi)各種設(shè)備的穩(wěn)定運(yùn)行提供必要條件.對(duì)基站空調(diào)各傳感器數(shù)據(jù)進(jìn)行健康狀態(tài)評(píng)估不僅可以了解設(shè)備的運(yùn)行狀況,還可以對(duì)異常狀態(tài)及時(shí)報(bào)警,以便盡早進(jìn)行故障排查,盡可能將軟故障解決于萌芽狀態(tài),避免硬故障的發(fā)生而影響通信設(shè)備的正常運(yùn)行.因此,高效的、多維度故障源分析的基站空調(diào)故障檢測(cè)和診斷系統(tǒng)的研究有其實(shí)際意義.
空調(diào)故障診斷實(shí)際上是一個(gè)分類(lèi)問(wèn)題,目前已有一些人工智能技術(shù)應(yīng)用于空調(diào)故障診斷.如將主成成分分析(PCA)法應(yīng)用于變風(fēng)量空調(diào)傳感器故障診斷[2],利用神經(jīng)網(wǎng)絡(luò)檢測(cè)空氣處理機(jī)組故障[3],綜合角度分析法和Fisher判別法應(yīng)用于空調(diào)傳感器多故障診斷[4],構(gòu)建專家規(guī)則集進(jìn)行空調(diào)系統(tǒng)故障診斷[5],將SVM應(yīng)用于螺桿制冷系統(tǒng)故障診斷[6],等等.從這些研究中可以發(fā)現(xiàn),相較于PCA法和專家系統(tǒng),基于神經(jīng)網(wǎng)絡(luò)和SVM的故障診斷模型魯棒性強(qiáng),診斷精度較高,但普遍存在兩個(gè)問(wèn)題:
1)忽略了訓(xùn)練集中的類(lèi)別不平衡問(wèn)題.上述算法均是在訓(xùn)練集類(lèi)別平衡的假設(shè)基礎(chǔ)上構(gòu)建的.然而,數(shù)據(jù)集類(lèi)別不均衡現(xiàn)象很普遍,這種不平衡性會(huì)使得一些少量樣本的故障類(lèi)型在分類(lèi)器的訓(xùn)練過(guò)程中被視為噪聲而遭“吞噬”.與決策樹(shù)處理方法相比,小類(lèi)樣本識(shí)別率低的問(wèn)題在神經(jīng)網(wǎng)絡(luò)類(lèi)型的故障診斷中更為嚴(yán)重.
2)上述方法大多給出單類(lèi)的已發(fā)生的硬故障診斷結(jié)果.空調(diào)系統(tǒng)處于亞健康狀態(tài)時(shí),軟故障源通常不是一種,并且一種軟故障可能引發(fā)另外一種軟故障發(fā)生.若能檢測(cè)出仍在繼續(xù)工作的多維度的軟故障并及時(shí)預(yù)警,可為通信基站空調(diào)系統(tǒng)的高效運(yùn)行提供更堅(jiān)實(shí)的保障.
針對(duì)不平衡數(shù)據(jù)分類(lèi)已有一些研究,主要可以劃分為數(shù)據(jù)層面方法和算法層面方法兩大類(lèi).數(shù)據(jù)層面方法是通過(guò)重采樣的數(shù)據(jù)預(yù)處理方式來(lái)平衡數(shù)據(jù)集中的樣本分布.重采樣的代表算法有SMOTE[7]及其衍生方法.SMOTE算法在相鄰樣本之間通過(guò)插值來(lái)合成一定數(shù)量的正類(lèi)樣本,使得正類(lèi)樣本數(shù)量與負(fù)類(lèi)樣本的數(shù)量相近達(dá)到平衡,但易出現(xiàn)數(shù)據(jù)重疊的現(xiàn)象,并且在樣本特征維度高的情況下會(huì)合成不準(zhǔn)確數(shù)據(jù)[8].算法層面方式是通過(guò)設(shè)計(jì)特定的分類(lèi)模型使其對(duì)不平衡的樣本分布不敏感.一種途徑是訓(xùn)練單類(lèi)分類(lèi)器,再集成獲得最終的分類(lèi)結(jié)果[9].這種方法在標(biāo)簽空間龐大時(shí)效率低,并且沒(méi)有利用負(fù)類(lèi)樣本的信息.另一種途徑是代價(jià)敏感學(xué)習(xí)[10,11],在訓(xùn)練分類(lèi)器的時(shí)候考慮不同類(lèi)別樣本的錯(cuò)分代價(jià),通過(guò)最小化錯(cuò)分總代價(jià)來(lái)改變樣本的空間分布,這種方式綜合考慮了正負(fù)樣本的信息.
基于上述分析,本文設(shè)計(jì)一個(gè)基于單隱層前饋神經(jīng)網(wǎng)絡(luò)的基站空調(diào)故障診斷系統(tǒng),針對(duì)各個(gè)故障模式給出多標(biāo)簽診斷結(jié)果.在最小化風(fēng)險(xiǎn)損失的訓(xùn)練階段,引入非對(duì)稱階式損失函數(shù),通過(guò)為小樣本類(lèi)別設(shè)置較高的截?cái)鄥?shù)和邊界參數(shù)來(lái)提高小類(lèi)樣本的識(shí)別率.另一方面,多標(biāo)簽的分類(lèi)結(jié)果可以為空調(diào)維護(hù)人員提供軟故障排查的故障源的偏序序列.
如圖1所示,實(shí)驗(yàn)對(duì)象是目前應(yīng)用最為廣泛的移動(dòng)通信基站空調(diào)系統(tǒng)(非迷你型通信基站),基站空調(diào)有內(nèi)機(jī)和外機(jī)兩部分,中間采用制冷劑管道連接.基站空調(diào)主要部件有:全封閉渦旋式壓縮機(jī)、室外風(fēng)冷冷凝器、冷凝風(fēng)機(jī)、室內(nèi)蒸發(fā)器、送風(fēng)風(fēng)機(jī)、電子膨脹閥及控制系統(tǒng)等.
圖1 移動(dòng)基站空調(diào)系統(tǒng)示意圖Fig.1 Schematic diagram of base station′s air conditioner
本文所設(shè)計(jì)的故障監(jiān)測(cè)和診斷系統(tǒng)分為離線訓(xùn)練階段與在線監(jiān)測(cè)分析兩部分.離線訓(xùn)練階段,對(duì)數(shù)據(jù)歸一化預(yù)處理后,導(dǎo)入基于單隱層前饋多標(biāo)簽分類(lèi)器進(jìn)行訓(xùn)練,獲得穩(wěn)定的故障診斷模型.在線監(jiān)測(cè)階段,系統(tǒng)接收基站空調(diào)傳感器的數(shù)據(jù)(溫度、濕度、壓力等),歸一化預(yù)處理后輸入離線訓(xùn)練階段所獲得的診斷模型,分析當(dāng)前空調(diào)的運(yùn)行狀態(tài).對(duì)軟故障及時(shí)預(yù)警排查以提高空調(diào)系統(tǒng)的制冷效率.
表1 實(shí)例參數(shù)及其含義Table 1 Parameters and their meaning of sample
表2 故障模式與樣本數(shù)Table 2 Fault mode and number of samples
圖2 SLF結(jié)構(gòu)圖Fig.2 Structure diagram of SLF
(1)
一般情況下,損失函數(shù)的計(jì)算是用平方誤差損失函數(shù)L2,即,l(T.,i,Y.,i)=‖T.,i-Y.,i‖2.L2損失函數(shù)實(shí)現(xiàn)簡(jiǎn)單,但存在著一些不適用于類(lèi)別不平衡數(shù)據(jù)集的因素.首先,L2損失函數(shù)對(duì)異常樣本不魯棒,當(dāng)異常樣本的邊界(margin)為較小的負(fù)值時(shí),損失函數(shù)值仍很大.其次,L2損失函數(shù)不是單調(diào)遞減的,依舊懲罰Yji>1的樣本xi,從統(tǒng)計(jì)學(xué)角度分析Yji>1時(shí),故障模式j(luò)的分類(lèi)置信度很高.再者,L2損失函數(shù)無(wú)差別對(duì)待所有的訓(xùn)練樣本,在不平衡分類(lèi)問(wèn)題中應(yīng)用效果不佳.
本文采用非對(duì)稱階式最小二乘損失函數(shù)(asymmetric stage wise least square loss function ASLS)[12]替代L2損失函數(shù),ASLS的定義和迭代規(guī)則如公式(2)所示.其中,r是截?cái)嘞禂?shù),δ是邊界系數(shù).
(2)
ASLS通過(guò)截?cái)鄥?shù)和邊界參數(shù)不僅可以給不同類(lèi)別的樣本設(shè)定不同的錯(cuò)分代價(jià),還可以使正類(lèi)樣本被錯(cuò)分為負(fù)類(lèi)樣本的代價(jià)更大.通過(guò)邊界參數(shù)δ的調(diào)整,使得正類(lèi)樣本比負(fù)類(lèi)樣本更加遠(yuǎn)離分類(lèi)邊界.當(dāng)ASLS收斂時(shí)的表達(dá)式如公式(3)所示.
(3)
對(duì)類(lèi)別不平衡的故障診斷問(wèn)題,各故障模式的負(fù)類(lèi)樣本的ASLS的截?cái)鄥?shù)和邊界參數(shù)設(shè)置為(γ-,δ-)=(1,1),這樣只需調(diào)節(jié)正類(lèi)樣本的ASLS參數(shù)(γ+,δ+).為了提高小類(lèi)樣本的故障識(shí)別率,需要特別設(shè)置較大的(γ+,δ+)值,并且為了加速收斂,在迭代的過(guò)程中可以動(dòng)態(tài)調(diào)整ASLS.
目標(biāo)函數(shù) 本文將面向類(lèi)別不平衡的單隱層神經(jīng)網(wǎng)絡(luò)(single hidden layer feed-ward neural network with class imbalance)稱為SLF-CIB.采用ASLS損失函數(shù),第t次迭代時(shí)SLF-CIB模型可用公式(4)表示.
(4)
其中,Λ是一個(gè)對(duì)角矩陣,如果Tji=-1,那么Λjj=1;如果Tji=+1,那么Λjj=(r+)/(δ2).
凸分析 SLF-CIB模型通過(guò)引入代價(jià)敏感的ASLS參數(shù)改變了樣本的分布,改善了類(lèi)別不平衡數(shù)據(jù)產(chǎn)生的不利影響.同時(shí)由于施加了截?cái)鄥?shù)r,對(duì)異常樣本更加魯棒,具有更好的稀疏性.對(duì)于模型(1),當(dāng)W或H有一個(gè)是固定時(shí),即可轉(zhuǎn)為凸規(guī)劃問(wèn)題.SLF-CIB模型在模型(1)的基礎(chǔ)上加入了ASLS損失函數(shù).由于在每輪迭代ASLS損失函數(shù)均為最小二乘形式,因而在每輪迭代模型(4)仍是凸的.綜上,SLF-CIB仍是一個(gè)凸規(guī)劃問(wèn)題,因而交替方向乘子算法(alternating direction method of multipliers ADMM)[13]可以應(yīng)用于SLF-CIB的求解.
模型(4)的拉格朗日形式如公式(5)所示.
(5)
在第t輪迭代中,采用ADMM方法獲得如公式(6)所示的W(t+1)、H(t+1)、ξ(t+1)、λ(t+1)后,進(jìn)入t+1輪迭代.
(6)
故障診斷結(jié)果輸出 當(dāng)訓(xùn)練完成后,獲得穩(wěn)定的SLF-CIB結(jié)構(gòu).將未知實(shí)例x輸入SLF-CIB可得到預(yù)測(cè)輸出Y=[y1,…,yq],對(duì)于yi≥0的各分量進(jìn)行降序排序,得到可能故障源的一個(gè)偏序關(guān)系.ya>yb?ta?tb,表示故障ta的發(fā)生概率高于故障tb的發(fā)生概率.最終獲得一個(gè)故障源的偏序序列[y(1),y(2),…,y(q)],y(1)?y(2)?…?y(q),為基站空調(diào)維護(hù)人員進(jìn)行故障排查提供參考.
為了更好地測(cè)試SLF-CIB算法的性能,本文對(duì)3組不同領(lǐng)域的類(lèi)別分布不均衡的UCI數(shù)據(jù)集(Wine、Glass、Abalone)進(jìn)行測(cè)試.數(shù)據(jù)集的具體信息如表3所示,數(shù)據(jù)集名稱后的(n)中的數(shù)字代表少數(shù)類(lèi)的類(lèi)別.規(guī)模為M的不平衡類(lèi)別數(shù)據(jù)集的混淆矩陣如表4定義.采用TPR(True positive ratio),TNR(True negative ratio),ACC(Accuracy),AUC(Area under the curve of ROC)指標(biāo)進(jìn)行評(píng)價(jià).TPR=TP/(TP+FN),TNR=TN/(TN+FP),ACC=(TP+TN)/M.
表3 UCI數(shù)據(jù)集信息Table 3 Properties of the UCI data sets
表4 混淆矩陣Table 4 Confusion matrix
對(duì)比算法有BP神經(jīng)網(wǎng)絡(luò)、多類(lèi)SVM、決策樹(shù)C4.5算法.各程序均在Matlab2017上部署運(yùn)行,SVM采用徑向基函數(shù)作為核函數(shù),參數(shù)采用網(wǎng)格計(jì)算方法,λ和γ的搜索范圍為λ∈{2-9,…,210}和γ∈{2-9,…,25}. 采用增量生長(zhǎng)法來(lái)確定SLF-CIB算法和BP神經(jīng)網(wǎng)絡(luò)的隱層節(jié)點(diǎn)數(shù)目,從5開(kāi)始遞增,測(cè)試學(xué)習(xí)誤差,若誤差的變化低于閾值(0.01),則停止增長(zhǎng).SLF-CIB算法輸出的偏序序列的第一個(gè)分量參與評(píng)價(jià)指標(biāo)計(jì)算,實(shí)驗(yàn)采用五折交叉驗(yàn)證法,實(shí)驗(yàn)結(jié)果的平均值如表5所示.從表5可以看到,SLF-CIB在大多數(shù)的數(shù)據(jù)集下取得了較高的AUC和TPR.對(duì)于存在著極小類(lèi)樣本的數(shù)據(jù)集Glass、Abalone,SLF-CIB算法與決策樹(shù)算法的TNR值相近,但TPR值提高了,說(shuō)明對(duì)于小類(lèi)樣本的識(shí)別率有顯著的提高,進(jìn)而提高了AUC指標(biāo)值.
表5 各算法在UCI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 5 Experiment results on the UCI data sets
針對(duì)通信基站空調(diào)故障數(shù)據(jù)集,SLF-CIB算法各故障模式的ASLS參數(shù)設(shè)置如表6所示.故障模式2、4、7為少數(shù)類(lèi)(ASLS參數(shù)(γ+,δ+)設(shè)置較高),其余故障模式均可視為多數(shù)類(lèi).將SLF-CIB算法與SMOTE決策樹(shù)算法進(jìn)行比較,輸出的偏序序列的第一個(gè)分量參與評(píng)價(jià)指標(biāo)計(jì)算,實(shí)驗(yàn)采用五折交叉驗(yàn)證法,針對(duì)少數(shù)類(lèi)正確率和多數(shù)類(lèi)錯(cuò)誤率進(jìn)行分析,對(duì)比結(jié)果見(jiàn)表7.表7中的“過(guò)采樣參數(shù)”為SMOTE方法在近鄰中隨機(jī)選擇的樣本數(shù),即過(guò)采樣倍頻.基于SMOTE的采樣方法隨著過(guò)采樣參數(shù)的增高,在高維的數(shù)據(jù)集上不僅會(huì)產(chǎn)生交叉型的樣本還會(huì)生成不準(zhǔn)確的樣本,從而影響故障診斷性能.而SLF-CIB通過(guò)非對(duì)稱的階式損失函數(shù)調(diào)整了樣本的分布來(lái)提高故障診斷性能,在不平衡數(shù)據(jù)集的處理取得了更好的分類(lèi)效果.
表6 故障模式與ASLS參數(shù)Table 6 Fault mode and ASLS parameter
表7 通信基站空調(diào)故障數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 7 Experiment results on communication base station air conditioning data set
本文提出了一種基于單隱層前饋神經(jīng)網(wǎng)絡(luò)的多標(biāo)簽分類(lèi)算法來(lái)解決通信基站空調(diào)故障診斷中的類(lèi)別不平衡問(wèn)題.可以通過(guò)為各故障模式靈活地設(shè)置損失函數(shù)的截?cái)鄥?shù)和邊界參數(shù)來(lái)改變小類(lèi)樣本的分布,在UCI標(biāo)準(zhǔn)數(shù)據(jù)集和通信基站空調(diào)故障數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明所提SLF-CIB算法提高了不平衡數(shù)據(jù)集的故障診斷精度,特別是提高了小類(lèi)樣本的識(shí)別率.并且多標(biāo)簽分類(lèi)輸出的故障模式的偏序序列,為維護(hù)人員在軟故障排查上提供了多維度的技術(shù)支持.但隱層神經(jīng)元數(shù)目的設(shè)定目前采用的是生長(zhǎng)法實(shí)驗(yàn)產(chǎn)生,過(guò)程較為耗時(shí),在今后的工作中將進(jìn)一步優(yōu)化隱層神經(jīng)元數(shù)目的設(shè)定.