尹 航 呂佳威,2 陳耀聰,3 岑紅蕾 李景彬 劉雙印,5
(1.仲愷農(nóng)業(yè)工程學(xué)院信息科學(xué)與技術(shù)學(xué)院, 廣州 510225; 2.北京市農(nóng)林科學(xué)院信息技術(shù)研究中心, 北京 100097;3.廣東省農(nóng)產(chǎn)品安全大數(shù)據(jù)工程技術(shù)研究中心, 廣州 510225; 4.石河子大學(xué)機(jī)械電氣工程學(xué)院, 石河子 832003;5.仲愷農(nóng)業(yè)工程學(xué)院廣州市農(nóng)產(chǎn)品質(zhì)量安全溯源信息技術(shù)重點(diǎn)實(shí)驗(yàn)室, 廣州 510225)
新疆是我國(guó)重要的肉羊養(yǎng)殖基地,其中規(guī)模化養(yǎng)殖占比約47.1%,規(guī)?;s化養(yǎng)殖得到快速發(fā)展[1]。趙彥超等[2]對(duì)新疆地區(qū)集約化肉羊養(yǎng)殖環(huán)境空氣質(zhì)量調(diào)研時(shí)發(fā)現(xiàn),新疆集約化羊舍在夏季和冬季的空氣質(zhì)量差異巨大,每天不同時(shí)段有害氣體濃度也呈顯著變化,隨著集約化程度提高,養(yǎng)殖密度大、有害氣體富聚嚴(yán)重影響到羊畜生長(zhǎng)與繁衍[3-4],其中舍內(nèi)空氣齡、CO2濃度是關(guān)鍵指標(biāo),集約化羊舍內(nèi)CO2濃度預(yù)測(cè)極有必要[5-7]。
目前,不同網(wǎng)絡(luò)模型已應(yīng)用于禽畜舍內(nèi)環(huán)境預(yù)測(cè)[8-12],于此同時(shí),郭昱辰等[13]采用隨機(jī)森林進(jìn)行環(huán)境變量重要性排序并以此選擇輸入變量,構(gòu)建RF-LSTM模型來(lái)實(shí)現(xiàn)更準(zhǔn)確的氨氣濃度預(yù)測(cè)。目前主要研究基于理化統(tǒng)計(jì)和智能算法兩大類(lèi)模型,理論統(tǒng)計(jì)模型需要大量試驗(yàn)數(shù)據(jù)支撐,工作量大、預(yù)測(cè)模型泛化性能不足;智能算法模型多影響因子分析能力強(qiáng),但是在多種環(huán)境因素影響下,往往計(jì)算復(fù)雜度高、預(yù)測(cè)實(shí)時(shí)性較弱[14]。
極限學(xué)習(xí)機(jī)(Extreme learning machine, ELM)屬于單隱含層前饋神經(jīng)網(wǎng)絡(luò),與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相比ELM 可以避免陷入局部極值的現(xiàn)象,學(xué)習(xí)精度及速度均表現(xiàn)優(yōu)秀[15],已在工業(yè)、農(nóng)業(yè)各領(lǐng)域獲得廣泛應(yīng)用[16-19],并在狀態(tài)評(píng)估、診斷預(yù)測(cè)等方面收到良好效果[20-21]。徐龍琴等[22]將極限學(xué)習(xí)機(jī)用于水產(chǎn)養(yǎng)殖領(lǐng)域環(huán)境預(yù)測(cè),通過(guò)ELM對(duì)多尺度分解后模態(tài)分量分別訓(xùn)練建模,然后將分量預(yù)測(cè)結(jié)果疊加重構(gòu)后完成水溫預(yù)測(cè),EMD-ELM組合模型具有較高的預(yù)測(cè)精度和泛化性能;施珮等[23]在此基礎(chǔ)上,采用改進(jìn)遺傳算法(IGA)優(yōu)化ELM構(gòu)建了EMD-IGA-SELM模型,提升了水產(chǎn)養(yǎng)殖溫度預(yù)測(cè)精度;偏最小二乘算法(Partial least square, PLS)被用于優(yōu)化ELM網(wǎng)絡(luò)中隱含層共線(xiàn)性問(wèn)題,以保障輸出權(quán)值的穩(wěn)定性,構(gòu)建SPLS-ELM模型運(yùn)用到水體溶解氧濃度預(yù)測(cè)[17]。由于ELM初始輸入權(quán)值和閾值具有隨機(jī)性,訓(xùn)練精度和時(shí)間受隨機(jī)性影響,所以多種智能優(yōu)化算法被用于ELM優(yōu)化[24-26]。律方成等[27]使用遺傳算法(Genetic algorithm,GA)優(yōu)化極限學(xué)習(xí)機(jī)并用于短期電力負(fù)荷預(yù)測(cè);唐延強(qiáng)等[28]通過(guò)改進(jìn)粒子群算法優(yōu)化ELM的初始權(quán)值及閾值;廖康等[29]使用灰狼優(yōu)化(Grey wolf optimization, GWO)算法優(yōu)化極限學(xué)習(xí)機(jī)模型并用于位移預(yù)測(cè)。XUE等[30]受到麻雀群體覓食和反捕食行為的啟發(fā),提出麻雀搜索算法(Sparrow search algorithm, SSA),并與改進(jìn)遺傳算法(GA)、粒子群優(yōu)化算法(Particle swarm optimization, PSO)、灰狼優(yōu)化算法進(jìn)行比較,試驗(yàn)證明其在精度、收斂速度、穩(wěn)定性和魯棒性上優(yōu)于其它算法[25];李雅麗等[31]對(duì)目前主流的群智能優(yōu)化算法開(kāi)展了對(duì)比研究,發(fā)現(xiàn)SSA算法具有很好的探索全局最優(yōu)潛在區(qū)域的能力,可有效避免局部最優(yōu)問(wèn)題;馬晨佩等[32]將SSA算法用于支持向量機(jī)(Support vector machine, SVM)的懲罰參數(shù)與核參數(shù)的優(yōu)化上,并在軸承故障診斷上獲得優(yōu)異性能。此外,針對(duì)多環(huán)境因素影響問(wèn)題,許國(guó)艷等[33]采用分布式梯度提升框架(Light gradient boosting machine, LightGBM)對(duì)多環(huán)境因素進(jìn)行特征選擇以簡(jiǎn)化多環(huán)境因素的影響。
綜上分析,本文選取新疆集約化肉羊養(yǎng)殖環(huán)境監(jiān)測(cè)數(shù)據(jù)作為輸入量,使用極限學(xué)習(xí)機(jī)對(duì)CO2質(zhì)量濃度進(jìn)行預(yù)測(cè)??紤]到多環(huán)境因素,先用LightGBM特征選擇簡(jiǎn)化多環(huán)境因素影響,再使用極限學(xué)習(xí)機(jī)對(duì)強(qiáng)相關(guān)性特征數(shù)據(jù)進(jìn)行非線(xiàn)性建模,最后用SSA算法對(duì)模型參數(shù)進(jìn)行優(yōu)化調(diào)整,構(gòu)建LightGBM-SSA-ELM預(yù)測(cè)模型。同時(shí)選擇不同預(yù)測(cè)模型在真實(shí)數(shù)據(jù)集下進(jìn)行對(duì)比試驗(yàn),以驗(yàn)證提出模型的合理性和預(yù)測(cè)能效。
本研究以新疆維吾爾自治區(qū)昌吉回族自治州瑪納斯新澳畜牧養(yǎng)殖基地(44.27°N,86.10°E)為試驗(yàn)現(xiàn)場(chǎng),基地總面積1 367 m2,是一個(gè)典型的以薩福克肉羊養(yǎng)殖、育種為主的集約化肉羊養(yǎng)殖基地。試驗(yàn)數(shù)據(jù)采集環(huán)境選取面積422 m2的半封閉式標(biāo)準(zhǔn)羊舍(長(zhǎng)33.75 m,寬12.5 m,均高3.9 m),羊舍按《畜禽養(yǎng)殖小區(qū)建設(shè)管理規(guī)范》設(shè)計(jì),四面墻體采用磚混結(jié)構(gòu),頂面采用鋼板結(jié)構(gòu),地面采用泥土結(jié)構(gòu),主要包括主體區(qū)域(休息區(qū))、遮陽(yáng)區(qū)域和活動(dòng)區(qū)域(飲食區(qū)),各區(qū)域間都有可開(kāi)閉通道,兩側(cè)形成空氣對(duì)流。在夏季,采用自然通風(fēng)以及遮陽(yáng)棚進(jìn)行避暑;在冬季,則在主體區(qū)域進(jìn)行封閉式養(yǎng)殖,并采用換氣扇通風(fēng)。試驗(yàn)對(duì)象為薩??巳庋?,試驗(yàn)羊舍羊只年存欄數(shù)約為300只,飼養(yǎng)密度0.19只/m2;飼喂方式為人工定時(shí)飼喂,每日上午、下午各投料一次,自由飲水,人工清糞。
考慮現(xiàn)場(chǎng)環(huán)境,傳感器選擇在主體區(qū)域中心檐下安裝,其中CO2質(zhì)量濃度傳感器和總懸浮顆粒物質(zhì)量濃度傳感器距地面2.4 m,其它傳感器距地面3.0~3.1 m,安裝位置如圖1所示。
圖1 試驗(yàn)區(qū)域示意圖Fig.1 Experimental area schematic
為保證不同季節(jié)和時(shí)段樣本的一致性,選用廣州海睿信息科技有限公司的環(huán)境監(jiān)測(cè)設(shè)備,包括物聯(lián)網(wǎng)傳輸網(wǎng)絡(luò)、集線(xiàn)器、溫度傳感器、相對(duì)濕度傳感器、CO2質(zhì)量濃度傳感器、PM2.5質(zhì)量濃度傳感器、PM10質(zhì)量濃度傳感器、光照強(qiáng)度傳感器、噪聲傳感器、總懸浮顆粒物質(zhì)量濃度傳感器和H2S質(zhì)量濃度傳感器。監(jiān)測(cè)設(shè)備的響應(yīng)時(shí)間小于等于30 s、重復(fù)性在±2%范圍內(nèi)、線(xiàn)性誤差在±2%范圍內(nèi)、零點(diǎn)漂移在±1%范圍內(nèi),具體參數(shù)如表1所示。
表1 傳感器技術(shù)參數(shù)Tab.1 Technical data of sensors
本試驗(yàn)通過(guò)安裝在主體區(qū)域內(nèi)的環(huán)境監(jiān)測(cè)設(shè)備,實(shí)時(shí)獲取羊舍主體區(qū)域環(huán)境數(shù)據(jù),并傳輸至物聯(lián)網(wǎng)監(jiān)測(cè)平臺(tái)數(shù)據(jù)中心,物聯(lián)網(wǎng)監(jiān)測(cè)平臺(tái)拓?fù)浼軜?gòu)如圖2所示。
試驗(yàn)采集周期為2021年2月8日至2021年3月26日,采集間隔為10 min,環(huán)境數(shù)據(jù)包括:溫度、相對(duì)濕度、噪聲、光照強(qiáng)度、PM2.5質(zhì)量濃度、PM10質(zhì)量濃度、總懸浮顆粒物質(zhì)量濃度、CO2質(zhì)量濃度和H2S質(zhì)量濃度,有效樣本數(shù)據(jù)共計(jì)6 640組。有效樣本按照8∶2劃分為訓(xùn)練集和測(cè)試集。采集的羊舍主體區(qū)域原始數(shù)據(jù)(部分)如表2所示。
表2 2021年2月8日—3月26日采集的部分原始數(shù)據(jù)Tab.2 Partial data collected from February 8 to March 26, 2021
考慮數(shù)據(jù)采集過(guò)程中傳感器故障、傳輸故障等因素,采用插值法、均值平滑法對(duì)異常數(shù)據(jù)進(jìn)行預(yù)處理[8],并對(duì)各個(gè)變量采用標(biāo)準(zhǔn)化處理器進(jìn)行歸一化處理。
羊舍中的CO2質(zhì)量濃度變化具有一定規(guī)律性,并受到溫度、相對(duì)濕度及多種環(huán)境因素的影響,如把所有環(huán)境因素都作為特征參數(shù)放入模型,會(huì)使得網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、性能降低。本研究用基于決策樹(shù)的分布式梯度提升框架(LightGBM)來(lái)評(píng)估特征重要性,以精簡(jiǎn)參數(shù)[33]。LightGBM是梯度提升決策樹(shù)(Gradient boosting decision tree, GBDT)算法的輕量級(jí)框架,它利用決策樹(shù)迭代訓(xùn)練得到最優(yōu)模型,具有訓(xùn)練效果好、不易過(guò)擬合等優(yōu)點(diǎn)。與極限梯度提升(eXtreme gradient boosting,XGBoost)算法相比,LightGBM使用基于梯度的單邊采樣(Gradient-based one-side sampling,GOSS)算法配合EFB預(yù)處理稀疏數(shù)據(jù),能夠在不損害準(zhǔn)確率的條件下加快GBDT模型的訓(xùn)練速度[34]。
極限學(xué)習(xí)機(jī)是一種前饋神經(jīng)網(wǎng)絡(luò),具有良好的泛化性能及快速學(xué)習(xí)能力[24]。其網(wǎng)絡(luò)架構(gòu)由輸入層、單隱含層和輸出層組成,如圖3所示。
圖3 單隱含層網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Single layer hidden layer network
由于網(wǎng)絡(luò)架構(gòu)簡(jiǎn)單,在求取網(wǎng)絡(luò)輸出權(quán)重時(shí)只需要計(jì)算一個(gè)逆,且不需要通過(guò)反向傳播來(lái)更新網(wǎng)絡(luò)模型的權(quán)重和偏置參數(shù),因此ELM可以克服傳統(tǒng)神經(jīng)網(wǎng)絡(luò)需要多次迭代學(xué)習(xí)的缺陷,學(xué)習(xí)速度快。
對(duì)于一個(gè)單隱含層網(wǎng)絡(luò),假設(shè)給定訓(xùn)練集為{xi,ti|xi∈RD,ti∈Rm,i=1,2,…,N},其中xi為第i個(gè)數(shù)據(jù)示例,ti為第i個(gè)數(shù)據(jù)示例對(duì)應(yīng)的標(biāo)記,RD和Rm為所有訓(xùn)練的數(shù)據(jù)集合。
則有L個(gè)隱含層節(jié)點(diǎn)的網(wǎng)絡(luò)可以表示為
(1)
式中cj——第j個(gè)隱含層節(jié)點(diǎn)的輸出
g(·)——激活函數(shù)Wi——輸出權(quán)重
Xj——輸入的特征矩陣
βi——加權(quán)權(quán)重
bi——第i個(gè)隱含層節(jié)點(diǎn)的偏置
通過(guò)擬合可減少誤差,其過(guò)程可表示為
(2)
式中tj——第j個(gè)數(shù)據(jù)示例對(duì)應(yīng)的標(biāo)記
即存在βi、Wi和bi使得
(3)
式(3)可寫(xiě)為矩陣形式,表示為
Hβ=T
(4)
式中H——ELM的隱含層輸出
T——期望
‖H(i,i)i-T‖=min‖H(Wi,bi)βi-T‖
(5)
接著,訓(xùn)練過(guò)程轉(zhuǎn)為搜索最小二乘解,其中隱含層和輸出之間連接權(quán)重β的計(jì)算公式為
βmin=‖Hβ-T‖
(6)
其解為
=H+T
(7)
式中βmin—— 最小輸出權(quán)重
H+——輸出矩陣H的Moore-Penrose的廣義逆,且求得解的范數(shù)最小且唯一
麻雀搜索算法(SSA)[30]是2020年提出的一種智能優(yōu)化算法,相比遺傳算法、粒子群算法、灰狼算法和引力搜索算法,SSA具有較強(qiáng)的全局搜索能力,在高維函數(shù)計(jì)算搜索中具有很好的效果,可以有效避免陷入局部最優(yōu)的問(wèn)題[31-32]。SSA模擬麻雀覓食過(guò)程,將不同個(gè)體分為發(fā)現(xiàn)者(Discoverer)和追隨者(Follower),發(fā)現(xiàn)者積極發(fā)現(xiàn)目標(biāo),追隨者跟隨發(fā)現(xiàn)者,期間有捕食者和警戒者加入。算法流程圖如圖4所示。
圖4 麻雀搜索算法流程圖Fig.4 Flow chart of sparrow search algorithm
首先,將數(shù)量為n的麻雀種群表示為
(8)
式中n——群體中麻雀的總數(shù)
d——需要優(yōu)化的維度
則群體中所有麻雀的適應(yīng)度可表示為
(9)
式中f——不同發(fā)現(xiàn)者的適應(yīng)度
發(fā)現(xiàn)者需要為追隨者提供覓食坐標(biāo),且所有發(fā)現(xiàn)者比追隨者具有更大搜索范圍及能力。根據(jù)式(8)、(9),發(fā)現(xiàn)者位置更新為
(10)
式中t——當(dāng)前迭代數(shù)
αitermax——最大迭代次數(shù)
Xi,j——第i個(gè)麻雀在第j維中的位置
ST——安全值,ST∈[0.5,1]
R2——預(yù)警值,R2∈[0,1]
L——1×d維矩陣,其所有元素初值都為1
Q——隨機(jī)數(shù),滿(mǎn)足正態(tài)分布
當(dāng)R2≥ST時(shí),觸發(fā)預(yù)警,有麻雀已經(jīng)發(fā)現(xiàn)了捕食者,此時(shí)所有麻雀都要離開(kāi)預(yù)警區(qū)域;當(dāng)R2 此時(shí)追隨者位置更新為 (11) 其中 A+=AT(AAT)-1 式中Xworst——全局最差位置 A+——逆矩陣 當(dāng)i>n/2時(shí),表示第i個(gè)追隨者需要飛往其他地方搜尋覓食。 為提高模型預(yù)測(cè)性能,將LightGBM、SSA和ELM模型相互結(jié)合,構(gòu)建基于LightGBM-SSA-ELM的羊舍CO2質(zhì)量濃度非線(xiàn)性組合預(yù)測(cè)模型,預(yù)測(cè)流程圖如圖5所示。首先對(duì)采集的環(huán)境數(shù)據(jù)進(jìn)行預(yù)處理和歸一化處理,然后進(jìn)行重要特征提取,劃分訓(xùn)練集和測(cè)試集,使用麻雀搜索算法優(yōu)化。 圖5 基于LightGBM-SSA-ELM的CO2質(zhì)量濃度預(yù)測(cè)流程圖Fig.5 CO2 concentration prediction flow chart 具體步驟及整體模型流程如下: (1)通過(guò)羊舍內(nèi)置傳感器設(shè)備在線(xiàn)采集羊舍環(huán)境數(shù)據(jù),并實(shí)時(shí)傳輸至云平臺(tái),導(dǎo)出數(shù)據(jù)并進(jìn)行修復(fù)。 (2)采用LightGBM對(duì)修復(fù)后的數(shù)據(jù)進(jìn)行重要特征提取,篩選出與CO2質(zhì)量濃度相關(guān)性高的環(huán)境因素,并對(duì)篩選后的數(shù)據(jù)進(jìn)行歸一化處理,按照8∶2劃分為訓(xùn)練集和測(cè)試集。 (3)初始化極限學(xué)習(xí)機(jī)的模型參數(shù)后,將訓(xùn)練集輸入模型中訓(xùn)練學(xué)習(xí),并采用測(cè)試集對(duì)模型進(jìn)行測(cè)試評(píng)分,查看預(yù)測(cè)精度是否達(dá)標(biāo),如果達(dá)標(biāo)則模型訓(xùn)練完成,反之利用麻雀搜索算法對(duì)模型參數(shù)進(jìn)行尋優(yōu)。 為評(píng)價(jià)羊舍CO2質(zhì)量濃度預(yù)測(cè)模型性能,本文選用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和決定系數(shù)(R2)作為主要評(píng)價(jià)指標(biāo)。 本試驗(yàn)以新疆維吾爾自治區(qū)昌吉回族自治州瑪納斯縣肉羊集約化養(yǎng)殖基地中的半封閉式標(biāo)準(zhǔn)羊舍中主體區(qū)域的CO2質(zhì)量濃度為研究對(duì)象,采用物聯(lián)網(wǎng)在線(xiàn)監(jiān)測(cè)平臺(tái),每間隔10 min采集一次數(shù)據(jù),將2021年2月8日至2021年3月26日的環(huán)境參數(shù)(溫度、相對(duì)濕度、CO2質(zhì)量濃度、PM2.5質(zhì)量濃度、PM10質(zhì)量濃度、總懸浮顆粒物質(zhì)量濃度和H2S質(zhì)量濃度)總計(jì)6 640條作為試驗(yàn)樣本(訓(xùn)練集和測(cè)試集按8∶2劃分),預(yù)測(cè)主體區(qū)域CO2質(zhì)量濃度。其中基于物聯(lián)網(wǎng)采集CO2質(zhì)量濃度原始數(shù)據(jù)呈現(xiàn)較明顯的周期性特點(diǎn),變化曲線(xiàn)如圖6所示。 圖6 CO2質(zhì)量濃度原始數(shù)據(jù)變化曲線(xiàn)Fig.6 Variation curve of original CO2 concentration data 試驗(yàn)環(huán)境為I5-6200U、2.3 GHz CPU、8 GB內(nèi)存、Windows 10系統(tǒng)、Python3.8及Anaconda3集成開(kāi)發(fā)環(huán)境,并使用了多種對(duì)比模型。其中SVR、BPNN、LSTM、GRU和LightGBM采用了基于Anaconda的Sklearn程序包,ELM模型基于Matlab開(kāi)發(fā)工具箱實(shí)現(xiàn),麻雀優(yōu)化算法使用Python編寫(xiě),初始參數(shù)設(shè)置種群數(shù)量為50、最大迭代次數(shù)為10。并對(duì)上述模型參數(shù)進(jìn)行尋優(yōu),得到基于ELM的羊舍CO2質(zhì)量濃度預(yù)測(cè)模型。 采集到的環(huán)境參數(shù)共計(jì)9類(lèi),其中部分參數(shù)與CO2質(zhì)量濃度存在較強(qiáng)相關(guān)性,為選擇強(qiáng)關(guān)聯(lián)性特征,試驗(yàn)將溫度、相對(duì)濕度、光照強(qiáng)度、PM2.5質(zhì)量濃度、PM10質(zhì)量濃度、總懸浮顆粒物質(zhì)量濃度和H2S質(zhì)量濃度等8種參數(shù)輸入LightGBM模型,得到各參數(shù)對(duì)CO2質(zhì)量濃度影響并進(jìn)行特征重要性排序,得分如表3所示。 表3 基于LightGBM模型的8種參數(shù)特征重要性排序Tab.3 Importance scores of eight parameters based on LightGBM model 從表3可以看出,對(duì)CO2質(zhì)量濃度影響最大的特征參數(shù)是光照強(qiáng)度,其次是相對(duì)濕度。為選取重要的樣本特征,按排名依次選擇不同數(shù)量的參數(shù)加入模型,進(jìn)行對(duì)比試驗(yàn)。對(duì)比試驗(yàn)得到均方根誤差變化曲線(xiàn)如圖7所示。 圖7 不同特征數(shù)量時(shí)LightGBM均方根誤差變化曲線(xiàn)Fig.7 RMSE variation curve of different characteristic numbers 由圖7可見(jiàn),選擇特征參數(shù)的數(shù)量為4時(shí),均方根誤差下降趨勢(shì)呈現(xiàn)顯著拐角,即排名前4的特征變量對(duì)模型擬合效果影響較大。所以試驗(yàn)選取排名前4的參數(shù)(光照強(qiáng)度、相對(duì)濕度、PM2.5質(zhì)量濃度和溫度)作為模型輸入以降低計(jì)算復(fù)雜度,并在此基礎(chǔ)上使用麻雀搜索算法進(jìn)行參數(shù)優(yōu)化,構(gòu)建基于LightGBM-SSA-ELM的CO2質(zhì)量濃度預(yù)測(cè)模型。同時(shí)選擇相同參數(shù)及優(yōu)化算法用于SVR、BPNN、LSTM、GRU等對(duì)比模型,以驗(yàn)證算法有效性。 試驗(yàn)選取極限學(xué)習(xí)機(jī)建立預(yù)測(cè)模型,對(duì)隱含層神經(jīng)元數(shù)在5~65之間按10步長(zhǎng)進(jìn)行遍歷,不同神經(jīng)元數(shù)量下的預(yù)測(cè)誤差如圖8所示,預(yù)測(cè)效果如圖9所示。 圖8 不同隱含層神經(jīng)元數(shù)時(shí)的預(yù)測(cè)誤差變化曲線(xiàn)Fig.8 Prediction error of different hidden layer neuron numbers 圖9 不同隱含層神經(jīng)元數(shù)時(shí)的預(yù)測(cè)結(jié)果曲線(xiàn)Fig.9 Prediction results of different hidden layer neuron numbers 從圖8b、8c可見(jiàn),在神經(jīng)元數(shù)量為15和25時(shí),誤差波動(dòng)更快趨于穩(wěn)定;從圖9中ELM預(yù)測(cè)值和實(shí)際值變化趨勢(shì)可見(jiàn),當(dāng)神經(jīng)元數(shù)量為25時(shí)(圖9c)預(yù)測(cè)效果及擬合性能表現(xiàn)最好。 為了對(duì)不同神經(jīng)元結(jié)構(gòu)下模型的預(yù)測(cè)結(jié)果進(jìn)行定量分析評(píng)價(jià),本文采用 RMSE、MAE、R23個(gè)指標(biāo)進(jìn)行評(píng)價(jià),表4為不同數(shù)量時(shí)ELM預(yù)測(cè)模型的預(yù)測(cè)效果。從表4可知,當(dāng)隱含層神經(jīng)元數(shù)量為25時(shí),RMSE、MAE、R2分別達(dá)到0.022 mg/L、0.014 mg/L和0.988,均為最優(yōu)值;取后6次試驗(yàn)RMSE均值為0.027 mg/L,MAE均值為0.018 mg/L,R2均值為0.981,接近最優(yōu)值。從定量分析可見(jiàn),模型可很好地?cái)M合羊舍內(nèi)環(huán)境因素與CO2質(zhì)量濃度之間復(fù)雜的非線(xiàn)性關(guān)系,展現(xiàn)了較好的泛化能力。 表4 不同神經(jīng)元數(shù)量時(shí)預(yù)測(cè)精度分析Tab.4 Accuracy analysis of prediction model with different number of neurons 為驗(yàn)證特征選擇后的預(yù)測(cè)效果,試驗(yàn)選擇不同基礎(chǔ)模型進(jìn)行對(duì)比試驗(yàn)。ELM、GRU兩種基礎(chǔ)模型以及LightGBM特征選擇后的LightGBM-BPNN、LightGBM-SVR、LightGBM-LSTM、LightGBM-GRU、LightGBM-LightGBM和本文LightGBM-ELM模型在相同數(shù)據(jù)集下開(kāi)展試驗(yàn),結(jié)果如表5所示。 表5 不同模型預(yù)測(cè)性能對(duì)比Tab.5 Accuracy analysis of prediction results of each model 由表5可見(jiàn),經(jīng)過(guò)LightGBM特征選擇后的LightGBM-ELM和LightGBM-GRU模型表現(xiàn)優(yōu)于ELM和GRU模型,說(shuō)明提取重要特征簡(jiǎn)化輸入?yún)?shù),可以提高預(yù)測(cè)精度;其中本文模型與次優(yōu)的LightGBM-GRU模型相比,RMSE指標(biāo)持平,而MAE和R2分別提升了0.04%、3.40%。 為進(jìn)一步提高預(yù)測(cè)精度,在上述基礎(chǔ)上使用麻雀搜索算法對(duì)LightGBM-ELM和LightGBM-GRU模型進(jìn)行優(yōu)化,對(duì)ELM的隱含層神經(jīng)元數(shù)、GRU的隱含層神經(jīng)元數(shù)、學(xué)習(xí)率、批次等分別進(jìn)行調(diào)參優(yōu)化。 經(jīng)過(guò)SSA優(yōu)化后LightGBM-ELM模型RMSE、MAE、R2分別為0.021 3 mg/L、0.013 6 mg/L和0.988 6,與SSA優(yōu)化后的LightGBM-GRU模型相比,RMSE、MAE和R2分別降低了0.93%、4.23%和0.000 5??梢?jiàn)基于LightGBM-ELM的CO2質(zhì)量濃度預(yù)測(cè)模型明顯優(yōu)于ELM和GRU等基礎(chǔ)模型,LightGBM特征選擇可以提高預(yù)測(cè)精度,SSA優(yōu)化后的LightGBM-SSA-ELM模型預(yù)測(cè)精度也高于LightGBM-ELM、LightGBM-GRU和LightGBM-SSA-GRU模型,對(duì)采集到的時(shí)間序列數(shù)據(jù)具有較好的預(yù)測(cè)精度,可用于集約化養(yǎng)殖羊舍中CO2質(zhì)量濃度預(yù)測(cè)。 利用LightGBM提取環(huán)境數(shù)據(jù)的重要特征,去除與CO2質(zhì)量濃度相關(guān)性小的環(huán)境變量以簡(jiǎn)化模型復(fù)雜度;使用極限學(xué)習(xí)機(jī)擬合CO2質(zhì)量濃度與其他環(huán)境因子的非線(xiàn)性關(guān)系,能夠較準(zhǔn)確預(yù)測(cè)CO2質(zhì)量濃度;使用麻雀算法探索全局最優(yōu)潛在區(qū)域,能更快地搜尋模型最優(yōu)參數(shù),可提高模型穩(wěn)定性和魯棒性。LightGBM-SSA-ELM模型與BPNN、LSTM等模型相比,可有效擬合多環(huán)境參數(shù)、提高CO2質(zhì)量濃度預(yù)測(cè)精度,對(duì)集約化肉羊養(yǎng)殖環(huán)境預(yù)測(cè)及精準(zhǔn)調(diào)控具有積極意義。2.4 性能評(píng)價(jià)指標(biāo)
3 試驗(yàn)與結(jié)果分析
3.1 數(shù)據(jù)準(zhǔn)備
3.2 試驗(yàn)環(huán)境與參數(shù)選擇
3.3 特征選擇
3.4 極限學(xué)習(xí)機(jī)仿真
3.5 對(duì)比試驗(yàn)
4 結(jié)束語(yǔ)
農(nóng)業(yè)機(jī)械學(xué)報(bào)2022年1期