甘瑞平,任新民,姜軍,李鵬,周小兵
1. 云南大學(xué)信息學(xué)院,云南 昆明 650504;2. 友聯(lián)船廠(蛇口)有限公司,廣東 深圳 518067;3. 深圳市中科銀狐機(jī)器人有限公司,廣東 深圳 518216
進(jìn)入21世紀(jì)以來,國際經(jīng)濟(jì)聯(lián)系日益緊密,國際貿(mào)易的發(fā)展超過了物質(zhì)生產(chǎn)的發(fā)展,達(dá)到了前所未有的高度,已經(jīng)成為銜接世界經(jīng)濟(jì)的重要紐帶。隨著物流行業(yè)的不斷發(fā)展,越來越多的企業(yè)開始將物流作為其策略重點(diǎn),物流產(chǎn)業(yè)鏈越來越復(fù)雜,需求越來越多元化,運(yùn)輸行業(yè)也隨之不斷升級。同時(shí),跨境貿(mào)易的不斷增加也推動(dòng)了運(yùn)輸行業(yè)的發(fā)展。而船舶運(yùn)輸是運(yùn)輸行業(yè)最重要的一環(huán),世界上通過船舶運(yùn)輸?shù)呢浳锛s占總運(yùn)輸貨物的80%,已然成為運(yùn)輸業(yè)的標(biāo)桿。運(yùn)載化學(xué)品和石油的船舶由于裝載貨物的特殊性,需要定期使用特別的涂層進(jìn)行維修和保養(yǎng)(即船舶特涂業(yè)務(wù))。因此,在修船廠對船舶進(jìn)行維修不僅需要大量的材料與人員支撐,同時(shí)還需要龐大的能源消耗,包括維修設(shè)備的電力消耗等。為了提高修船廠的盈利空間,需要對船舶進(jìn)行科學(xué)的維護(hù)和管理,控制和優(yōu)化船舶維修和保養(yǎng)過程中的設(shè)備能源消耗。因此,開發(fā)船舶能效優(yōu)化技術(shù)具有重要意義[1-2],隨著大數(shù)據(jù)和機(jī)器學(xué)習(xí)等技術(shù)的不斷發(fā)展,以及“E航?!睉?zhàn)略的施行,面向船舶的智能能效管理技術(shù)的研究與應(yīng)用[3]將是大勢所趨,通過記錄并解讀船舶修造過程中的數(shù)據(jù),將其用于對船舶能耗影響要素的歸納分析,進(jìn)而建立能耗預(yù)測模型,可以對船舶能耗進(jìn)行詳細(xì)的描繪和預(yù)測[4]。
近年來,船舶特涂維修的發(fā)展研究主要集中于優(yōu)化特涂維修流程。如綠色涂料技術(shù),研發(fā)出許多無鉛、低揮發(fā)性有機(jī)化合物(VOC)的環(huán)保涂料[5],以減少對環(huán)境的影響;涂裝工藝的改進(jìn),合理安排作業(yè)計(jì)劃,減少涂裝設(shè)備的啟停次數(shù),降低能源消耗;引入更高效的涂裝設(shè)備和工具,如噴涂機(jī)和輥涂機(jī),可以減少涂料的浪費(fèi)和能源消耗。目前關(guān)于船舶特涂維修過程中能耗分析的研究較少,即如何統(tǒng)籌兼顧能耗影響的各個(gè)環(huán)節(jié)與因素,如楊永剛[6]提出了一種基于精益工具的能耗管理框架,根據(jù)車間生產(chǎn)流程和管理重點(diǎn)實(shí)施了精益能耗管理,通過應(yīng)用精益能耗管理方法,分段涂裝車間能夠顯著減少能源消耗。盡管上述方法在船舶特涂維修領(lǐng)域有一定的優(yōu)化效果,但因?yàn)槿狈C合性的能耗分析,不能做到上述設(shè)備、材料以及管理的最優(yōu)匹配,從而導(dǎo)致成本升高,限制了改進(jìn)能源效率的潛力。因此,為了進(jìn)一步提高改進(jìn)能源效率的潛力,基于特涂維修能耗分析的結(jié)果,需要提出優(yōu)化策略和建議,以減少船舶特種涂裝維修過程中的能源消耗?,F(xiàn)在的工藝已經(jīng)使用許多方法來改善能源的消耗,研究人員綜合了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等人工智能算法來預(yù)測涂裝和船舶能源的消耗,這其中涉及涂裝生產(chǎn)能耗預(yù)測、船舶油耗預(yù)測、船舶設(shè)備能耗預(yù)測以及船舶航行能耗預(yù)測。陸應(yīng)康[7]提出了一種基于貝葉斯優(yōu)化的LSTM-CNN預(yù)測方法,利用LSTM預(yù)測能耗數(shù)據(jù)特征,并結(jié)合CNN進(jìn)行能耗特征重構(gòu),將兩種神經(jīng)網(wǎng)絡(luò)組合的模型作為汽車涂裝車間的能耗預(yù)測模型。Bocchetti等[8]利用實(shí)際船舶監(jiān)測數(shù)據(jù)建立了一種多元線性回歸模型,通過該模型能夠有效地預(yù)測船舶的能耗。Yan等[9]基于從實(shí)際船舶收集的能源效率數(shù)據(jù)創(chuàng)建了神經(jīng)網(wǎng)絡(luò)模型,從而能夠評估和預(yù)測船舶能效水平。Pagoropoulos等[10]提出一種采用支持向量機(jī)的方法用于實(shí)現(xiàn)船舶能效評估,并經(jīng)過結(jié)果剖析驗(yàn)證了該方法的有效性。BAL BE?IK?I等[11]以油船為對象,利用正午報(bào)告數(shù)據(jù)建立了基于人工神經(jīng)網(wǎng)絡(luò)的能效預(yù)測模型與決策系統(tǒng)。Wickramanayake等[12]基于機(jī)器學(xué)習(xí)的船舶能耗預(yù)測方法進(jìn)行了系統(tǒng)的剖析,并比較了隨機(jī)森林、梯度增強(qiáng)和神經(jīng)網(wǎng)絡(luò)方法在多變量時(shí)間序列的艦隊(duì)能耗預(yù)測問題上的有效性。研究結(jié)果表明,采用隨機(jī)森林技術(shù)可以得到更準(zhǔn)確的預(yù)測結(jié)果。YANG等[13]提出可以采用基于遺傳算法的灰箱模型來進(jìn)行船舶能耗預(yù)測,這種方法是有效的。此外,孫雙休等[14]提出了一種最小二乘支持向量機(jī)模型,用于分析和預(yù)測船舶集中空調(diào)系統(tǒng)的能耗。還有一種方法是采用k-means聚類算法對大量船舶航行數(shù)據(jù)進(jìn)行聚類分析,孫峰等[15]使用這種方法得到了船舶主機(jī)在不同轉(zhuǎn)速下負(fù)荷和油耗率的變化規(guī)律。Wang等[16]針對主機(jī)油耗受多種因素影響的問題,提出了一種基于絕對收縮選擇算子(least absolute shrinkage and selection operator)的能耗回歸模型,用于對船舶主機(jī)油耗進(jìn)行預(yù)測和分析。同時(shí),Yuan等[17]將人工神經(jīng)網(wǎng)絡(luò)和高斯過程應(yīng)用于船舶能耗評價(jià),并進(jìn)行了實(shí)驗(yàn)研究,實(shí)驗(yàn)結(jié)果表明,通過速度優(yōu)化可以有效地降低船舶的能耗。Leifson等[18]使用人工神經(jīng)網(wǎng)絡(luò)完成模型內(nèi)部的參數(shù)確定工作,并在考慮風(fēng)浪對船舶油耗影響的同時(shí),加入附著物這一被人們廣泛忽略的影響因素,使建立的白箱模型具有更高的適用性。葉睿等[19]使用一艘丹麥籍客滾輪的運(yùn)營數(shù)據(jù),基于人工神經(jīng)網(wǎng)絡(luò)建立了船舶油耗預(yù)測模型。船舶特種涂裝維修能耗往往涉及多個(gè)輸入特征及多個(gè)影響因素之間的高度復(fù)雜和非線性關(guān)系,而RFR模型可以有效處理多維特征、提供特征重要性排序和非線性關(guān)系,并能夠捕捉輸入特征之間的相互作用,這對于理解船舶特種涂裝維修能耗的關(guān)鍵因素非常有幫助,通過分析特征重要性來識別對能耗影響最大的因素,從而指導(dǎo)優(yōu)化策略和決策。同時(shí),RFR模型對異常值和噪聲具有較好的魯棒性。本文在總結(jié)前人對船舶能耗的研究基礎(chǔ)上,提出了一種基于隨機(jī)森林回歸模型的方法來預(yù)測船舶特涂維修日能耗的方法。
在特涂維修的能耗分析中,使用RFR算法會面臨一些困難和挑戰(zhàn)。能耗分析涉及的數(shù)據(jù)可能受到噪聲、缺失值或異常值的影響,這些因素會對RFR模型的性能產(chǎn)生負(fù)面影響,因此在數(shù)據(jù)預(yù)處理階段需要采用最優(yōu)的方法處理這些問題。在特征選擇上,特涂維修涉及的特征可能很多,需要仔細(xì)篩選具有預(yù)測能耗能力的特征,以提高模型的準(zhǔn)確性。RFR模型在處理高維數(shù)據(jù)和復(fù)雜關(guān)系方面表現(xiàn)出色,能夠處理大量特征變量和非線性關(guān)系。它能夠捕捉特涂維修中各種因素對能耗的復(fù)雜影響,從而提供準(zhǔn)確的能耗預(yù)測。同時(shí),RFR模型的魯棒性較高,這使其在特涂維修的應(yīng)用中更加可靠。
本文以友聯(lián)船廠(蛇口)有限公司(以下簡稱友聯(lián)船廠)的10艘進(jìn)行特涂作業(yè)的貨輪作為數(shù)據(jù)源,包括薩法、托瑪琳、坦桑石、丹娜、古姆達(dá)、西姆斯、黎明之光、海洋石油116、新道恩、雷姆,采集了從2021年9月19日到2022年11月28日的船舶特涂作業(yè)的相關(guān)數(shù)據(jù),見表1,收集并整理成可用于船舶特涂維修能耗預(yù)測的數(shù)據(jù)。
表1 RFR 模型分析中使用的船舶特涂信息
采用船舶特涂業(yè)務(wù)相關(guān)變量作為能耗預(yù)測的影響因素,包括當(dāng)日維修的艙室數(shù)據(jù)量(n_carbin)、當(dāng)日維修的面積(area)、各類工序權(quán)重之和(press)、船舶類型(type)、各類特涂設(shè)備數(shù)(鼓風(fēng)機(jī)數(shù)(Ebm)、吸砂機(jī)數(shù)(Essm)、除濕機(jī)數(shù)(Ed)、其他設(shè)備(Eo,包括高壓沖水機(jī)、抽風(fēng)機(jī)、熱風(fēng)機(jī)等使用頻率較低、能耗較少的設(shè)備)和設(shè)備總數(shù)(Ea)。
2.1.1 局部異常因子算法(LOF算法)
首先對數(shù)據(jù)進(jìn)行預(yù)處理,目前的特涂能耗主要是基于傳感器采集的數(shù)據(jù)。由于船廠特涂部門實(shí)行的策略是船塢每進(jìn)入一艘船就對其進(jìn)行維修,所以多數(shù)時(shí)期的數(shù)據(jù)是對同步維修進(jìn)度的采集與統(tǒng)計(jì),數(shù)據(jù)會出現(xiàn)局部異常值和一定的順序性的情況,而局部異常值會降低模型預(yù)測的準(zhǔn)確率,因此需要對異常值進(jìn)行檢測與處理。本文采用局部異常因子算法(LOF算法)來檢測并刪除數(shù)據(jù)的異常值。數(shù)據(jù)的箱線圖如圖1所示。
圖1 數(shù)據(jù)的箱線圖
局部異常因子算法是一種基于密度的經(jīng)典異常值檢測算法,被廣泛應(yīng)用于工業(yè)異常檢測等領(lǐng)域。該算法通過計(jì)算每個(gè)數(shù)據(jù)點(diǎn)周圍的密度來確定異常點(diǎn)。具體來說,算法會計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的局部密度,并將其與鄰居的密度進(jìn)行比較。如果該點(diǎn)的密度遠(yuǎn)低于其鄰居,則該點(diǎn)被認(rèn)為是異常點(diǎn)。由于該算法對樣本分布非常敏感,因此能夠有效地檢測出異常點(diǎn)。
局部異常因子的構(gòu)造主要涉及5個(gè)關(guān)鍵定義:樣本的第k距離、樣本的k距離鄰域、樣本的可達(dá)距離、樣本的局部可達(dá)密度以及樣本的局部異常因子的計(jì)算。這5個(gè)定義在構(gòu)建局部異常因子時(shí)扮演著重要角色,并相互交織在一起,為異常檢測提供了基本框架。其主要構(gòu)造步驟如下。
樣本的第k距離用于衡量樣本與其鄰域中第k個(gè)最近樣本之間的距離,其定義為distk(O) =dist(O,U),distk(O)為樣本O的第k距離,表示該樣本鄰域內(nèi)距離最近的第k個(gè)點(diǎn)U與O之間的距離為dist(O,U)。
樣本的k距離鄰域Neighbork(O)定義為與樣本的距離小于等于distk(O)的都是樣本O的k距離鄰域。每一個(gè)樣本至少會存在k個(gè)k距離鄰域,因?yàn)榕c樣本O的距離等于distk(O)的樣本O可能存在數(shù)個(gè)。
樣本的可達(dá)距離是指從樣本到另一個(gè)樣本的最短路徑上的最大距離:
樣本點(diǎn)U到樣本點(diǎn)O的可達(dá)距離為O的第k距離與兩樣本間距離的最大值。當(dāng)樣本點(diǎn)U靠近樣本點(diǎn)O時(shí),可達(dá)距離為較小值distk(O);當(dāng)兩者之間距離較大時(shí),可達(dá)距離為較大值dist(U,O) 。因此,可達(dá)距離可以用來描述樣本點(diǎn)周圍的密度情況,即樣本點(diǎn)周圍距離較近的區(qū)域密度較大,相反則密度較小。
根據(jù)前文的3個(gè)定義,樣本的局部可達(dá)密度則表示樣本周圍鄰域內(nèi)樣本的平均可達(dá)距離的倒數(shù):
可以觀察發(fā)現(xiàn)當(dāng)樣本U與其鄰域內(nèi)的元素都很接近時(shí),式(2)的分母值接近較小值distk(O),此時(shí)ρ(U)值較大,表示該樣本處在一個(gè)密度較大的區(qū)域中。
樣本的局部異常因子通過結(jié)合樣本的局部可達(dá)密度和其鄰域內(nèi)其他樣本的局部可達(dá)密度,用于度量樣本相對于其鄰域的異常程度:
式(3)體現(xiàn)了樣本U鄰域內(nèi)的樣本和其密度比值的平均值。當(dāng)LOFk(U)的值在1附近時(shí),說明該樣本與周圍樣本處在密度相似的區(qū)域當(dāng)中;當(dāng)LOFk(U)的值遠(yuǎn)小于1時(shí),說明該樣本處于一個(gè)高密度區(qū)域之中;當(dāng)LOFk(U)的值遠(yuǎn)大于1時(shí),說明該樣本處于一個(gè)密度低的區(qū)域,有可能是一個(gè)異常樣本。
這些定義共同構(gòu)成了局部異常因子的基本構(gòu)建要素,并在異常檢測領(lǐng)域發(fā)揮著重要的作用。
2.1.2 數(shù)據(jù)標(biāo)準(zhǔn)化
因?yàn)閿?shù)據(jù)在采集時(shí)有時(shí)間上的先后順序,在模型學(xué)習(xí)時(shí)會被當(dāng)作一種特征學(xué)習(xí),從而導(dǎo)致過擬合,為了避免這種情況的發(fā)生,本文對數(shù)據(jù)進(jìn)行隨機(jī)化處理以消除這種效應(yīng),使模型能夠?qū)W習(xí)到更多的信息,從而提高模型的準(zhǔn)確性和穩(wěn)定性。同時(shí),在對數(shù)據(jù)進(jìn)行處理的過程中發(fā)現(xiàn),數(shù)據(jù)的取值范圍較大且數(shù)據(jù)分布不均勻,這些對模型的擬和和評估效果都有影響,尤其是對模型的評估指標(biāo)影響更明顯。因此,為了使評估指標(biāo)具有直觀的意義,通常需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。數(shù)據(jù)密度曲線如圖2所示。
本文采用Z-score標(biāo)準(zhǔn)化對數(shù)據(jù)做標(biāo)準(zhǔn)化處理,它基于數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,將原始數(shù)據(jù)轉(zhuǎn)換為具有均值為0、標(biāo)準(zhǔn)差為1的正態(tài)分布。具體而言,對于給定的數(shù)據(jù)集,Z-score的標(biāo)準(zhǔn)化過程如下。
計(jì)算數(shù)據(jù)的均值(mean)和標(biāo)準(zhǔn)差(standard deviation即std):
其中,n是數(shù)據(jù)集的樣本數(shù)量,X是數(shù)據(jù)集中的每個(gè)樣本。
對每個(gè)數(shù)據(jù)樣本進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換:
其中,X_scaled是標(biāo)準(zhǔn)化后的值,X是原始值,mean是數(shù)據(jù)的均值,std是數(shù)據(jù)的標(biāo)準(zhǔn)差。通過Z-score進(jìn)行標(biāo)準(zhǔn)化處理后,數(shù)據(jù)更具有可比性和可解釋性。
船舶特涂維修能耗影響因素是通過在友聯(lián)船廠了解船舶特涂業(yè)務(wù)流程及能耗預(yù)測相關(guān)領(lǐng)域的研究經(jīng)驗(yàn)選擇的。船舶的尺寸是一個(gè)重要的因素,較大的船舶擁有更多的艙室和更大的維修面積,需要更多的涂料和施工時(shí)間,因此會有更高的能耗。船舶特涂維修過程包含10個(gè)工序,分別是搭架、預(yù)打砂吸砂、結(jié)構(gòu)處理、沖洗化清、干燥、主打砂吸砂、第一度油漆、第二度油漆、底部完工修補(bǔ)和拆架。每個(gè)工序都對應(yīng)著固定的權(quán)重值。在設(shè)備方面,鼓風(fēng)機(jī)在搭架、預(yù)打砂吸砂、結(jié)構(gòu)處理、沖洗化清、干燥和主打砂吸砂工序中經(jīng)常被使用。吸砂機(jī)僅用于預(yù)打砂吸砂和主打砂吸砂這兩個(gè)工序。除濕機(jī)主要用于沖洗化清、干燥、第一度油漆和第二度油漆。高壓沖水機(jī)雖然用于預(yù)打砂吸砂和主打砂吸砂,但使用頻率較低。抽風(fēng)機(jī)和熱風(fēng)機(jī)的使用工序不固定且頻率較低。因此,船舶每日維修的能耗影響因素主要有當(dāng)日維修的艙室數(shù)量(n_carbin)、當(dāng)日維修的面積(area)、各類工序權(quán)重之和(press)、船舶類型(type)、鼓風(fēng)機(jī)數(shù)(Ebm)、吸砂機(jī)數(shù)(Essm)、除濕機(jī)數(shù)(Ed)、其他設(shè)備數(shù)(Eo)和設(shè)備總數(shù)(Ea)。為了提高所選模型的擬和度,本文采用經(jīng)典的皮爾遜算法來進(jìn)行特征篩選,保證模型不會因?yàn)樘卣鞯暮Y選而欠擬合,通過實(shí)驗(yàn)對比,去掉與日能耗(y)呈負(fù)相關(guān)的特征。根據(jù)圖3所示的特征相關(guān)性的值,選擇艙室數(shù)據(jù)量(n_carbin)、當(dāng)日維修的面積(area)、各類工序權(quán)重之和(press)、船舶類型(type)、各類特涂設(shè)備數(shù)(吸砂機(jī)數(shù)(Essm)、除濕機(jī)數(shù)(Ed)、其他設(shè)備數(shù)(Eo,包括高壓沖水機(jī)、抽風(fēng)機(jī)、熱風(fēng)機(jī)等使用頻率較低,能耗較少的設(shè)備)和設(shè)備總數(shù)(Ea)作為特征。
圖3 各變量之間的熱力相關(guān)圖
隨機(jī)森林回歸模型是一種基于自助法(bootstrap)重復(fù)抽樣技術(shù)的模型,它由多棵決策樹組成。設(shè)隨機(jī)森林模型的輸入向量為X,輸出向量為Y,通過隨機(jī)的行列向量形成組合模型{h(X,?k),k=1,L,p},即決策樹能夠?qū)?shù)值型變量轉(zhuǎn)化為預(yù)測因子,從而實(shí)現(xiàn)隨機(jī)森林模型的構(gòu)建。該模型是非線性的,并且可以處理多元變量。每棵決策樹{h(X,?k)}的值除將它們組合在一起并取均值以獲得最終的預(yù)測值外,組合模型還應(yīng)滿足每個(gè)模型基于獨(dú)立的訓(xùn)練集形成隨機(jī)森林的條件。隨機(jī)抽取的向量Y與數(shù)值型預(yù)測向量h(X)的推廣誤差均方為EX,Y(Y-h(X))。
隨機(jī)森林回歸有以下特征。
(1)在進(jìn)行回歸時(shí),當(dāng)隨機(jī)森林中樹的數(shù)量無窮大時(shí),式(5)將在所有位置上成立。
因此,隨機(jī)森林回歸模型的計(jì)算式為:E? h(X,?),使用模型評估時(shí),k可以設(shè)定為無限大:
在此情況下,對樹的誤差進(jìn)行具體分析。假設(shè)整個(gè)隨機(jī)森林的泛化誤差表示為PE*,則單個(gè)回歸樹的平均泛化誤差可以用來表示為:
通過計(jì)算每棵樹的平均泛化誤差,可以了解單個(gè)回歸樹的預(yù)測性能。這個(gè)平均泛化誤差反映了單個(gè)樹的預(yù)測能力,而隨機(jī)森林的優(yōu)勢在于通過組合多個(gè)樹的預(yù)測結(jié)果來降低整體的泛化誤差。因此,通過分析樹的誤差,可以評估和優(yōu)化隨機(jī)森林模型的性能。
(2)如果對于所有的?,都有E(Y)=E xh(X,?),則:
隨機(jī)森林模型采用隨機(jī)樣本選擇和基于多個(gè)決策樹的投票機(jī)制,因此其具有強(qiáng)大的抗干擾能力。這種抗干擾能力使隨機(jī)森林模型在船舶特涂作業(yè)日能耗預(yù)測模型中具有很高的適用性。此外,隨機(jī)森林模型還具有無過度擬合現(xiàn)象等優(yōu)點(diǎn),這些優(yōu)點(diǎn)進(jìn)一步加強(qiáng)了其在船舶特涂作業(yè)日能耗預(yù)測模型中的應(yīng)用前景。
為了使RFR模型的預(yù)測效果達(dá)到最優(yōu),需要對模型中的一些超參數(shù)進(jìn)行設(shè)置。然而,這些超參數(shù)的選擇往往依賴于研究者的經(jīng)驗(yàn),而不是基于科學(xué)嚴(yán)謹(jǐn)性。這意味著模型的性能可能受到超參數(shù)選擇的影響,而這些選擇缺乏科學(xué)依據(jù)。因此,為了提高模型的科學(xué)嚴(yán)謹(jǐn)性和預(yù)測效果,本文采用帶交叉驗(yàn)證的網(wǎng)格搜索方法(GridSearchCV)。該方法通過窮舉所有可能的參數(shù)組合來尋找最優(yōu)的超參數(shù)組合,同時(shí)還包含了交叉驗(yàn)證,可以更加準(zhǔn)確地評估模型的性能。在使用該方法時(shí),只需要指定參數(shù)的取值范圍,就可以保證找到精度最高的參數(shù)。由于本文所用的數(shù)據(jù)集較小,因此選擇了GridSearchCV來尋找最優(yōu)超參數(shù)組合。
特涂維修設(shè)備的用電量具有復(fù)雜的不確定性。為了能夠準(zhǔn)確地預(yù)測船舶特涂維修單船的用電量,本文對數(shù)據(jù)集用LOF算法去除數(shù)據(jù)中的異常值并標(biāo)準(zhǔn)化,然后對數(shù)據(jù)進(jìn)行隨機(jī)化。使用皮爾遜系數(shù)篩選特征,在保證模型預(yù)測精度的同時(shí)減少模型搭建的復(fù)雜度。同時(shí),GridSearchCV優(yōu)化算法可以有效地解決RFR模型由于不合理的參數(shù)設(shè)置而導(dǎo)致的效果不佳的問題,它可以科學(xué)地處理全局優(yōu)化問題?;贚OF算法和GridSearchCV算法與RFR模型結(jié)合,提出了一種船舶特涂維修日能耗預(yù)測組合模型,其模型結(jié)構(gòu)如圖4所示。
圖4 船舶特涂維修日能耗預(yù)測組合模型結(jié)構(gòu)圖
均方誤差(mean squared error,MSE)是一種常用的衡量模型預(yù)測結(jié)果與真實(shí)值之間差異的方法。MSE是一個(gè)非負(fù)的值,它的值越小,表示模型的預(yù)測結(jié)果與真實(shí)值之間的差異越小。
平均絕對誤差(mean absolute error,MAE)是預(yù)測值與實(shí)際值之間的絕對差異的平均值。與MSE不同,MAE不考慮誤差的平方,而是使用絕對值。MAE的值越小越好。
R平方(R-squared,R2)是一種用于評估模型擬合優(yōu)度的標(biāo)準(zhǔn)化指標(biāo),便于不同模型之間的比較,它表示模型解釋了因變量變異性的比例。R2的取值范圍為0到1,越接近1表示模型的預(yù)測效果越好。
解釋方差(explained variance,EV)是一種用于評估模型預(yù)測能力的指標(biāo),它表示模型對因變量的變異性解釋了多少,取值范圍在0和1之間,越接近1表示模型的預(yù)測效果越好。
其中,yi、ypredi分別表示目標(biāo)變量的實(shí)際值與預(yù)測值,n表示預(yù)測樣本總數(shù),為測試數(shù)據(jù)集中目標(biāo)變量的平均值。
在進(jìn)行船舶特涂維修的日能耗分析實(shí)驗(yàn)時(shí),采用隨機(jī)森林回歸(RFR)作為一種模型,并將其與其他常用的回歸模型進(jìn)行比較,以擴(kuò)大實(shí)驗(yàn)的對比范圍。其他回歸模型包括傳統(tǒng)的多元線性回歸(LR)、多項(xiàng)式回歸(PR)、支持向量機(jī)回歸(SVR)和極限梯度提升(XGBR)模型。首先對數(shù)據(jù)集用LOF算法去除數(shù)據(jù)中的異常值,然后對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和隨機(jī)化,使用皮爾遜系數(shù)篩選特征,在保證模型預(yù)測精度的同時(shí)降低模型搭建的復(fù)雜度。通過Grid-SearchCV優(yōu)化算法將這5個(gè)模型的參數(shù)都調(diào)整至最優(yōu)值,最后采用五折交叉驗(yàn)證的方法輸出均方誤差、平均絕對誤差、解釋方差和R2,對所有模型進(jìn)行比較分析。
經(jīng)過優(yōu)化后,各個(gè)模型的最優(yōu)超參數(shù)設(shè)置見表2,未涉及的模型參數(shù)一律采用默認(rèn)值。
表2 各模型最優(yōu)超參數(shù)
本實(shí)驗(yàn)的目標(biāo)是通過對比不同能耗預(yù)測模型的預(yù)測效果,驗(yàn)證RFR模型在預(yù)測能耗方面是否具有優(yōu)越性。為此,本實(shí)驗(yàn)采用了五折交叉驗(yàn)證的方法對所有模型進(jìn)行評估。使用五折交叉驗(yàn)證能夠更準(zhǔn)確地評估模型的性能,并對其在不同數(shù)據(jù)集上的泛化能力進(jìn)行全面的評估,以確保結(jié)果具有統(tǒng)計(jì)意義。與傳統(tǒng)的多元線性回歸(LR)、多項(xiàng)式回歸(PR)和支持向量機(jī)回歸(SVR)等模型相比,RFR模型具有更強(qiáng)的非線性建模能力和更好的抗噪聲能力。而與近年來廣受關(guān)注的極限梯度提升(XGBR)模型相比,RFR模型在模型訓(xùn)練的速度和模型解釋性方面更具有優(yōu)勢。各個(gè)模型預(yù)測效果見表3,本實(shí)驗(yàn)所用的模型RFR的最優(yōu)結(jié)果為:MSE僅有0.067,R2為93.25%,EV為93.29%,MAE為0.181。
表3 模型評估指標(biāo)對比
從表3可以看出LR、SVR和PR的MSE均為0.13~0.155,遠(yuǎn)高于RFR的0.067,而XGBR的MSE為0.080,高出RFR的MSE值16%左右;并且RFR的R2與EV的值為93%左右,而LR、SVR和PR的R2與EV值均為84%~87%,比RFR的R2與EV的值低了6%~9%,可見RFR表現(xiàn)優(yōu)秀;另外LR、SVR和PR的MAE值分別為0.283、0.267和0.238,而RFR的MAE值為0.181,LR、SVR和PR的MAE值高出RFR的MAE31%以上,XGBR的MAE為0.192,略高于RFR的值。以上結(jié)果表明隨機(jī)森林回歸在船舶特涂維修的日能耗分析上具有更好的性能。這意味著RFR模型能夠更準(zhǔn)確地預(yù)測船舶特涂維修的能耗情況,并提供更可靠的結(jié)果。
在實(shí)驗(yàn)過程中,雖然使用了五折交叉驗(yàn)證后的結(jié)果,但因?yàn)閿?shù)據(jù)劃分過程的隨機(jī)性,每一次的迭代都會產(chǎn)生不同的結(jié)果,為體現(xiàn)本實(shí)驗(yàn)?zāi)P蛢?yōu)異的泛化性能,本文先對比了5次迭代后不同模型的MSE結(jié)果,如圖5所示。
圖5 各模型均方誤差的精度對比
從圖5可以看出,RFR模型的均方誤差每次迭代結(jié)果均小于其他模型,并且其值大部分在0.08以下,這說明RFR模型具有很強(qiáng)的預(yù)測能力,能夠在預(yù)測能耗時(shí)保持較小的誤差。然后對比了5次迭代后不同模型的R2、EV和MAE結(jié)果,如圖6所示,從圖中可以看出,RFR模型每次迭代的結(jié)果均高于其他模型,且其R2和EV的值均在0.9以上,而MAE值均在0.2以下,這說明RFR模型具有很好的預(yù)測能力,能夠在預(yù)測能耗時(shí)保持較小的誤差;并且在圖6的3個(gè)子圖中,RFR模型的評估指標(biāo)值在每一次迭代后,波動(dòng)都非常小,足見RFR模型的穩(wěn)定性。綜上所述,隨機(jī)森林回歸模型所有評價(jià)指標(biāo)均為最優(yōu),充分證明了其在能耗預(yù)測方面的優(yōu)越性和在能耗預(yù)測研究方向具有廣泛的適用性。
圖6 各模型的精度對比
此外,為了增加R FR模型預(yù)測結(jié)果的可解釋性,本文采用基于博弈論的SHAP[20]方法與RFR模型相結(jié)合,計(jì)算特征變量的貢獻(xiàn)度,在綜合考慮算法速度和準(zhǔn)確率的情況下,本文設(shè)定決策樹個(gè)數(shù)K=200,特征總數(shù)M=8。通過運(yùn)行程序得到8個(gè)特征的貢獻(xiàn)度,并根據(jù)這些貢獻(xiàn)度繪制了特征分析圖,如圖7所示。圖7中的橫軸表示對船舶特涂工序能耗的正負(fù)影響,其中正值表示對能耗有正向影響,負(fù)值表示對能耗有負(fù)向影響。每個(gè)點(diǎn)代表了每個(gè)特征在每個(gè)樣本上的SHAP值。通過觀察特征分析圖和特征的SHAP值,可以得出以下結(jié)論:排名第一的變量SHAP值大于0的點(diǎn)少于小于0的點(diǎn),說明除濕機(jī)數(shù)(Ed)對船舶特涂工序能耗的影響是負(fù)向的,即在滿足施工完成量的要求上,設(shè)備使用數(shù)越多,其能耗反而會變少;排名第二的變量是設(shè)備總數(shù)(Ea),其對能耗的影響既有正向影響,也有負(fù)向影響,因此在整個(gè)數(shù)據(jù)集中設(shè)備總數(shù)(Ea)的SHAP值正負(fù)分布均勻;排名第三的變量是各類工序權(quán)重之和(press),其SHAP值大于0的點(diǎn)少于小于0的點(diǎn),說明船舶在相比于前一日的特涂工序上,其每日的特涂工序都有變化;排名最后的變量船舶類型(type)的SHAP值接近0,這是由于特涂作業(yè)中不同類型的船舶在同時(shí)期的涂裝工序的差異性不大。
圖7 SHAP 特征分析
本文提出了一種基于隨機(jī)森林回歸的船舶特涂維修的日能耗預(yù)測方法。該方法通過多源傳感器采集船舶特涂維修能耗及其影響因素?cái)?shù)據(jù),然后對其進(jìn)行預(yù)處理、特征選擇和模型匹配化尋優(yōu)等步驟。在預(yù)處理階段,采用局部異常因子算法檢測并刪除異常值,并對數(shù)據(jù)進(jìn)行隨機(jī)化以及標(biāo)準(zhǔn)化處理。接著進(jìn)行特征選擇,去除冗余特征。然后使用GridSearchCV對隨機(jī)森林回歸模型進(jìn)行匹配化尋優(yōu),使模型與當(dāng)前輸入數(shù)據(jù)適配性最好。最后將處理好的數(shù)據(jù)輸入優(yōu)化好的隨機(jī)森林回歸模型中,對能耗數(shù)據(jù)進(jìn)行預(yù)測。
為了驗(yàn)證該方法的性能,本文進(jìn)行了實(shí)驗(yàn)并與其他方法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,相比其他模型,隨機(jī)森林回歸模型具有更高的預(yù)測精度和魯棒性,以及更穩(wěn)定的預(yù)測性能。其中,使用的3種評估指標(biāo)都取得了最優(yōu)結(jié)果(MSE僅有0.067,R2為93.25%,EV為93.29%)。這表明該方法能夠更準(zhǔn)確地預(yù)測船舶特涂維修的日能耗,具有很高的應(yīng)用價(jià)值。本文提出的模型可以為利用機(jī)器學(xué)習(xí)探索能耗預(yù)測提供一個(gè)有益的研究思路,在工業(yè)生產(chǎn)消耗的能源研究中有優(yōu)異的效果。同時(shí),采用基于博弈論的SHAP方法計(jì)算變量的特征貢獻(xiàn)度,分析了其與能耗的關(guān)系。結(jié)果表明,除濕機(jī)數(shù)(Ed)對模型預(yù)測的貢獻(xiàn)度最大,船舶類型(type)對模型預(yù)測的貢獻(xiàn)度最小。
盡管本文的模型在船舶特涂維修能耗預(yù)測中取得了優(yōu)秀的表現(xiàn),但是還有很大的提升空間。例如,可以進(jìn)一步挖掘船舶特涂維修能耗的影響因素,并探索更有效的數(shù)據(jù)預(yù)處理和特征選擇方法,以提高預(yù)測精度和穩(wěn)定性。此外,隨著后續(xù)工作的進(jìn)行,采集的實(shí)驗(yàn)數(shù)據(jù)量將會增加,可以通過引入更多的特征和優(yōu)化算法來提高預(yù)測性能。除船舶特涂維修能耗預(yù)測之外,該技術(shù)還可以在其他領(lǐng)域得到應(yīng)用。例如,在建筑物、工廠等設(shè)施的維修能耗預(yù)測中,該技術(shù)可以提高設(shè)施的維護(hù)效率和降低維護(hù)成本。另外,該技術(shù)還可以應(yīng)用于其他能耗預(yù)測場景,例如交通運(yùn)輸、船舶運(yùn)營行業(yè)等。