慶光蔚,劉肖凡
(1.南京市特種設(shè)備安全監(jiān)督檢驗研究院,江蘇 南京 210019;2.東南大學(xué) 計算機科學(xué)與工程學(xué)院,江蘇 南京 211189)
電梯與人們的日常出行緊密關(guān)聯(lián),已成為特種設(shè)備安全工作的著力重點和關(guān)鍵一環(huán)。如何在降低設(shè)備故障停梯率的同時高效應(yīng)對故障,是電梯安全監(jiān)管和應(yīng)急處置中亟須解決的核心問題。大數(shù)據(jù)浪潮下,金融、工業(yè)、公共服務(wù)等領(lǐng)域已有大量成功應(yīng)用案例。大數(shù)據(jù)在特種設(shè)備安全監(jiān)管與應(yīng)急救援中的應(yīng)用場景十分豐富,如救援路徑規(guī)劃、救援站點布局優(yōu)化、易發(fā)故障電梯屬性歸納等。對特種設(shè)備故障大數(shù)據(jù)進行挖掘分析,可以盡早發(fā)現(xiàn)設(shè)備故障隱患,排查治理甚至預(yù)測故障發(fā)生概率,進而為故障處置和監(jiān)管決策提供參考。
目前,關(guān)于電梯故障原因預(yù)測的研究多集中于部件特定故障的診斷,主要基于少樣本(數(shù)百臺)設(shè)備的物聯(lián)網(wǎng)監(jiān)測數(shù)據(jù)。王麗園建立了多種電梯運行數(shù)據(jù)分析模型,用異常分類模型實時監(jiān)控電梯狀態(tài)。沈志鵬將循環(huán)神經(jīng)網(wǎng)絡(luò)和擴張因果卷積網(wǎng)絡(luò)相結(jié)合,提出一種新的時間序列預(yù)測模型,預(yù)測電梯部件未來是否發(fā)生異常。朱明等建立了電梯故障率受環(huán)境溫度、濕度影響的GM(1,)預(yù)測模型。支猛等提出了一種基于BP神經(jīng)網(wǎng)絡(luò)和遺傳算法的預(yù)測模型,對電梯門系統(tǒng)故障進行預(yù)測。姜宇迪等提出了基于長短期記憶網(wǎng)絡(luò)自編碼器和時間序列回歸模型的電梯制動器監(jiān)測和故障預(yù)警方法。胡海博基于社區(qū)電梯系統(tǒng)歷史維保數(shù)據(jù),利用粒子群聚類預(yù)測模型,實現(xiàn)了電梯小樣本數(shù)據(jù)故障預(yù)測。
自2015年起,在南京、杭州、廣州等地的示范帶動下,電梯應(yīng)急處置服務(wù)平臺在全國范圍內(nèi)推廣建設(shè)。在履行科學(xué)調(diào)度、快速解救的首要職能之外,平臺積累了大量設(shè)備的困人故障數(shù)據(jù),蘊藏了豐富故障特征,具有數(shù)據(jù)分析的基礎(chǔ)和挖掘價值。本文基于南京市2015—2020年41 414起電梯困人故障數(shù)據(jù),構(gòu)建故障特征數(shù)據(jù)集,利用梯度提升樹算法(GBDT)建立電梯故障原因預(yù)測模型,以CART決策樹為基學(xué)習(xí)器,預(yù)測下一次故障時最可能的故障原因,并與其他集成學(xué)習(xí)方法進行對比,驗證方法的效果與優(yōu)勢。
電梯故障原因數(shù)據(jù)屬性為標(biāo)稱數(shù)據(jù),其預(yù)測可認為是一個分類問題。電梯故障原因預(yù)測模型流程如圖1所示。模型包括:電梯故障初數(shù)據(jù)集數(shù)據(jù)預(yù)處理;基于預(yù)處理后數(shù)據(jù),提取電梯故障相關(guān)特征;選取分類算法,進行訓(xùn)練建立模型;評估模型性能;保存最優(yōu)模型;當(dāng)電梯再次出現(xiàn)故障時,提取相關(guān)數(shù)據(jù)特征輸入最優(yōu)模型,預(yù)測故障原因。
圖1 電梯故障原因預(yù)測模型構(gòu)建流程
數(shù)據(jù)預(yù)處理包括處理缺失數(shù)據(jù)、歸一化數(shù)值類特征、集中篩選初數(shù)據(jù)集中可能指向故障原因的數(shù)據(jù)項。對缺失數(shù)據(jù),標(biāo)稱屬性和數(shù)值屬性兩種不同數(shù)據(jù)屬性采取的預(yù)處理方式不同:標(biāo)稱屬性,缺失數(shù)據(jù)用值“無”補全;數(shù)值屬性,如電梯速度,缺失數(shù)據(jù)用該數(shù)據(jù)屬性值的均值表示,并進行歸一化處理。
41 414起電梯困人故障初數(shù)據(jù)集包含25個應(yīng)急調(diào)度數(shù)據(jù)項和10個電梯基本數(shù)據(jù)項。初步剔除接警響應(yīng)時間、救援完成時間、電梯檔案號、設(shè)備注冊登記號等明顯非關(guān)聯(lián)項后,保留19個與電梯故障原因相關(guān)的數(shù)據(jù)項,形成的故障特征數(shù)據(jù)集見表1所列。
表1 故障特征數(shù)據(jù)集
梯度提升(Gradient Boosting)分類算法,是一種集成學(xué)習(xí)思想,由Friedman于1999年提出,梯度提升假設(shè)模型形式為:
式中:為模型參數(shù);(;α)為基學(xué)習(xí)器;α為弱學(xué)習(xí)器參數(shù);為迭代次數(shù);β為每個基學(xué)習(xí)器權(quán)重。
模型損失函數(shù)的數(shù)學(xué)期望為:
在已有包含個樣本點的訓(xùn)練數(shù)據(jù)集 {(,),..., (x,y)}上計算模型的損失函數(shù)值,并使損失函數(shù)值最小,可得最優(yōu)參數(shù)為:
采用前向分步算法,每一步學(xué)習(xí)一個基學(xué)習(xí)器及其權(quán)重值,逐漸逼近式(3)的最優(yōu)解。假設(shè)當(dāng)前模型為F,則在第次迭代學(xué)習(xí)的基學(xué)習(xí)器f,由擬合損失函數(shù)的負梯度在當(dāng)前模型F的值所得。即第次迭代學(xué)習(xí)的參數(shù){β,α}能夠使f的方向是F損失函數(shù)下降最快的方向。對每一個數(shù)據(jù)點x都可以得到一個梯度下降方向g(x),見式(4),和一個完整的梯度下降方向,見式(5):
為使f能夠在梯度下降的方向上使用最小二乘法,分別由式(6)、式(7)得到最優(yōu)α和β:
最終合并至模型中,可得:
梯度提升算法框架如下所示:
算法1:數(shù)據(jù)項框架
輸入 :訓(xùn)練數(shù)據(jù)集 {(,),..., (x,y)},損失函數(shù)(,()),迭代次數(shù)。
輸出:模型()。
2.對= 1,...,:
(4)更新模型 :F() =F() +β(;)。
3:輸出模型()。
梯度提升本質(zhì)為一個算法框架,放入已有分類或回歸算法后,可進行更復(fù)雜的決策分類計算。本文在梯度提升框架下,提出以梯度提升樹(Gradient Boosting Decision Tree,GBDT)構(gòu)造電梯故障預(yù)測模型。GBDT引入決策樹作為梯度提升框架中的基模型(即基學(xué)習(xí)器),算法中所有決策樹的運算結(jié)論累加即為最終結(jié)果。這種不斷迭代的決策樹算法,比單一決策樹具有可區(qū)分多種不同特征和特征組合的天然優(yōu)勢,魯棒性好,易并行化,是可擬合復(fù)雜非線性函數(shù)的有力工具。
CART決策樹(Classification and Regression Trees,CART)同時支持連續(xù)值和缺失值的處理,適用于不同屬性的電梯故障數(shù)據(jù)。本文利用回歸CART決策樹作為梯度提升算法的弱分類器,基于平方誤差最小化準(zhǔn)則實現(xiàn)特征選擇,生成二叉樹,表現(xiàn)形式為:
若輸入數(shù)據(jù)屬于葉節(jié)點R,則返回1,否則返回0。在梯度提升算法框架中,用式(9)替換使式(4)更新模型步驟中的(;α),可得 :
令r=βb,式(10)可改寫為:
經(jīng)式(12)優(yōu)化,可得r最優(yōu)值:
決策樹每個葉節(jié)點包含的樣本數(shù)據(jù)不重疊,則r可用式(13)優(yōu)化:
由此將CART決策樹作為梯度提升框架中的基學(xué)習(xí)器,可迭代完成分類預(yù)測算法模型構(gòu)建。
41 414條電梯故障工單初始數(shù)據(jù)包含6類歷史困人故障原因,分別是安全保護裝置、門系統(tǒng)、曳引系統(tǒng)、控制系統(tǒng)、電氣系統(tǒng)和外部原因(停電、機房溫度過高等)。故障預(yù)測模型以初始數(shù)據(jù)訓(xùn)練預(yù)測模型,針對故障電梯求解6類原因的分類問題。
實驗使用XGBoost工具10折交叉驗證的方式訓(xùn)練模型,迭代中設(shè)置early stopping的方式防止過擬合。在 Ubuntu 14.04LTS 操作系統(tǒng)的Intel(R) i7-370 3.40 GHz CPU,4 GB內(nèi)存的PC機上運行算法,測得模型訓(xùn)練迭代至最優(yōu)預(yù)測模型耗時6.17 s,通過最優(yōu)模型預(yù)測一個新樣本耗時0.011 s,可知模型能夠滿足在應(yīng)急狀況下的實時快速預(yù)測要求。GBDT算法迭代100次,每次迭代后交叉驗證結(jié)果如圖2所示,迭代至70次時訓(xùn)練結(jié)果達到最優(yōu),模型準(zhǔn)確率為42.04%。
圖2 迭代后交叉驗證結(jié)果
采用精確率(precision)、準(zhǔn)確率(accuracy)、召回率(recall)和F1值等常用評價指標(biāo)評估算法模型的可靠性與準(zhǔn)確性。以機器學(xué)習(xí)中3種經(jīng)典分類算法CART決策樹算法、支持向量機(SVM)算法和隨機森林(Random forests)算法為對比算法,分別構(gòu)建分類器,各算法的評價指標(biāo)見表2所列。以CART決策樹為弱分類器的GBDT算法所構(gòu)建的電梯故障原因預(yù)測模型,精確率、準(zhǔn)確率、召回率、F1值指標(biāo)均好于其他分類算法。
表2 各算法評估結(jié)果對比
模型訓(xùn)練中交叉驗證后,GBDT算法模型首位原因預(yù)測準(zhǔn)確率約為42%。而現(xiàn)實場景中,模型預(yù)測的結(jié)果可在應(yīng)急調(diào)度時提前告知救援人員最有可能的幾個原因(從首位原因開始按可能性大小排列),引導(dǎo)現(xiàn)場排障。因此,預(yù)測模型可設(shè)置為,如果預(yù)測出最有可能的個原因(Top-)包含實際的故障原因時,則表示預(yù)測準(zhǔn)確。根據(jù)2013—2018年南京市故障數(shù)據(jù),預(yù)測2019年7月電梯故障原因,以同時間626條實際故障原因為預(yù)測準(zhǔn)確率基準(zhǔn),驗證模型準(zhǔn)確性。
圖3所示為=1~6時的預(yù)測準(zhǔn)確率。其中,=1時準(zhǔn)確率為42.04%,說明僅給出1項最有可能原因時準(zhǔn)確率不足50%;隨著增大,準(zhǔn)確率會不斷增高,在=3時準(zhǔn)確率最高達81%,即預(yù)測可給出最有可能的3類故障原因,此時基本可鎖定真實故障原因。在當(dāng)前初始數(shù)據(jù)量并不十分充分的訓(xùn)練條件下,使用GBDT算法可明確排除一半以上的故障原因,證實了方法的有效性。
圖3 GBDT算法預(yù)測準(zhǔn)確率
(1)清洗電梯應(yīng)急處置場景下的原始故障缺失數(shù)據(jù),預(yù)處理可分為數(shù)值屬性和標(biāo)稱屬性,所有數(shù)值類屬性數(shù)據(jù)需進行歸一化處理。
(2)CART算法生成的決策樹模型是二叉樹,運算效率較多叉樹高,作為需要不斷迭代多棵樹的GBDT算法的基學(xué)習(xí)器,二者結(jié)合可保證精度并兼顧效率,適合處理目標(biāo)變量(電梯故障原因)為標(biāo)稱屬性的離散型分類問題。
(3)GBDT集成學(xué)習(xí)算法對電梯故障原因預(yù)測有效可行,模型評估效果好于其他常見機器學(xué)習(xí)分類算法。其通過迭代獲得殘差來不斷逼近真實預(yù)測值的特點,能夠獲得滿意預(yù)測結(jié)果(尤其在推薦Top-個預(yù)測結(jié)果時),可為應(yīng)急處置時快速鎖定故障部位提供參考。
(4)4萬左右的故障初始數(shù)據(jù)數(shù)量尚不能認為是真正意義的大數(shù)據(jù)量級。有效提升首位故障原因的預(yù)測準(zhǔn)確率,仍需在更廣地域范圍和更大時間跨度內(nèi)進一步匯集數(shù)據(jù),富集數(shù)據(jù)池,并添加構(gòu)建更合理的故障特征。
物聯(lián)網(wǎng)技術(shù)2022年10期