曹守啟,周禮馨,張 錚
(1.上海海洋大學(xué)工程學(xué)院,上海 201306;2.上海海洋可再生能源工程技術(shù)研究中心,上海 201306)
在水產(chǎn)養(yǎng)殖中,溶解氧(Dissolved Oxygen,DO)已成為預(yù)測水質(zhì)的重要參數(shù)[1]。水中溶解氧過高或不足,都會(huì)影響生物的繁殖和新陳代謝等生理功能,甚至嚴(yán)重影響生物的正常生長[2-3]。然而,溶解氧易受天氣、水質(zhì)、人類活動(dòng)等多種因素的影響[4],具有非線性、大慣性、強(qiáng)耦合、時(shí)變性等特點(diǎn)[5-7]。因此,加強(qiáng)溶解氧預(yù)測模型研究[8],提高水產(chǎn)養(yǎng)殖減災(zāi)防災(zāi)能力,保障水產(chǎn)養(yǎng)殖的安全,已成為農(nóng)業(yè)生產(chǎn)的關(guān)鍵內(nèi)容[9]。
預(yù)測水質(zhì)變化是一項(xiàng)艱巨的任務(wù),涉及多參數(shù)動(dòng)態(tài)時(shí)延過程,很難用簡單的數(shù)學(xué)公式或傳遞函數(shù)來體現(xiàn)其模型。此外,傳感器的準(zhǔn)確度會(huì)受到環(huán)境因素的影響而降低,導(dǎo)致數(shù)據(jù)丟失或產(chǎn)生不確定的異常值,這對預(yù)測精度提出了挑戰(zhàn)。
在現(xiàn)有的解決上述 2個(gè)問題的方法中,支持向量機(jī)(Support Vector Machine,SVM)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)是2種廣泛應(yīng)用于水質(zhì)預(yù)測的方法[10]。為了提高預(yù)測精度,Yu等[11]提出了一種基于徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network,RBFNN)數(shù)據(jù)融合方法和最小二乘支持向量機(jī)的混合溶解氧預(yù)測模型。但是支持向量機(jī)容易出現(xiàn)對數(shù)據(jù)丟失敏感、訓(xùn)練耗時(shí)、預(yù)測性能差等問題,很難為各種應(yīng)用選擇合適的核函數(shù)[12]。相較于支持向量機(jī)模型,ANN可以容忍一定程度的數(shù)據(jù)缺失[13]。Faruk等[10]提出了季節(jié)性的平均自回歸模型(Autoregressive Integrated Moving Average Model,ARIMA)和神經(jīng)網(wǎng)絡(luò)反向傳播模型相結(jié)合的水質(zhì)參數(shù)月度預(yù)測方法。然而,由于網(wǎng)絡(luò)拓?fù)浜蛿?shù)據(jù)的復(fù)雜性,人工神經(jīng)網(wǎng)絡(luò)模型往往存在過擬合、穩(wěn)定性差和耗時(shí)等問題。上述提及的預(yù)測方法均屬于淺層結(jié)構(gòu)的機(jī)器學(xué)習(xí)方法,在處理大規(guī)模數(shù)據(jù)時(shí)魯棒性較差,導(dǎo)致模型缺乏長效性和擴(kuò)展能力,不能完全反應(yīng)數(shù)據(jù)的本質(zhì)特征[14]。
近年來,很多基于深度學(xué)習(xí)的方法在不同的領(lǐng)域得到廣泛應(yīng)用。深度學(xué)習(xí)方法能夠?qū)崿F(xiàn)高維函數(shù)的逼近,挖掘數(shù)據(jù)的隱含信息,與淺層結(jié)構(gòu)的機(jī)器學(xué)習(xí)方法相比具有更強(qiáng)的數(shù)據(jù)學(xué)習(xí)能力和泛化能力,能高度抽象化數(shù)據(jù)特征[15]。在現(xiàn)有的方法中,神經(jīng)網(wǎng)絡(luò)模型是解決復(fù)雜預(yù)測問題的強(qiáng)有力工具。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是一種以序列數(shù)據(jù)為輸入的遞歸神經(jīng)網(wǎng)絡(luò)算法[16],被廣泛應(yīng)用于序列的非線性特征學(xué)習(xí),如語音識別和時(shí)間序列預(yù)測等[17]。長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)作為RNN神經(jīng)網(wǎng)絡(luò)最受歡迎的變體,可以有效地解決 RNN訓(xùn)練時(shí)存在的梯度彌散和梯度爆炸問題[18]。Huan等[19]采用梯度提升決策樹對數(shù)據(jù)進(jìn)行特征選取,建立長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)溶解氧預(yù)測模型,并與 PSO-LSSVM 模型(Particle Swarm Optimization Least Squares Support VectorMachine)對比,證明了其模型的優(yōu)越性。Fu等[20]應(yīng)用LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測交通流。Garn等[21]使用長短時(shí)記憶(Long Short-term Memory ,LSTM)神經(jīng)網(wǎng)絡(luò)預(yù)測英國租戶的財(cái)務(wù)狀況,并及時(shí)干預(yù)可能拖欠租金的租戶,以避免收入損失。目前,LSTM神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于不同場景的預(yù)測,并從很大程度上提高了預(yù)測的準(zhǔn)確性。LSTM神經(jīng)網(wǎng)絡(luò)能夠有效預(yù)測集約化養(yǎng)殖中DO含量,可以平衡預(yù)測的穩(wěn)定性和準(zhǔn)確性。
因此,本文提出了IPSO-KLSTM(Improved Particle Swarm Optimization Long Short-term Memory Neural Network Model Based on K-means Algorithm)模型預(yù)測水產(chǎn)養(yǎng)殖溶解氧,應(yīng)用 K-means算法對數(shù)據(jù)進(jìn)行聚類,并利用改進(jìn)的PSO算法對LSTM網(wǎng)絡(luò)進(jìn)行參數(shù)選取,以期提高預(yù)測精度,并驗(yàn)證模型的準(zhǔn)確性和可靠性。
試驗(yàn)選取上海市崇明光明田原清水蟹養(yǎng)殖示范基地為試驗(yàn)區(qū)域。該養(yǎng)殖區(qū)域水資源極其豐富,水中石油類、重金屬等水化因子符合漁業(yè)水質(zhì)標(biāo)準(zhǔn)要求,區(qū)域面積約78.5 hm2,養(yǎng)殖水深為1.8 m,溶解氧、pH傳感器均置于水下1.0 m處,所有數(shù)據(jù)都已傳輸?shù)綗o線傳感器監(jiān)控系統(tǒng)。
水產(chǎn)養(yǎng)殖環(huán)境數(shù)據(jù)采集來自上海海洋大學(xué)開發(fā)的遠(yuǎn)程低功耗無線監(jiān)控系統(tǒng),如圖1所示。該系統(tǒng)集成水質(zhì)和氣象傳感器,并通過NB-IoT技術(shù)傳輸數(shù)據(jù)到遠(yuǎn)程終端,終端應(yīng)用軟件對數(shù)據(jù)進(jìn)行預(yù)測預(yù)警處理。試驗(yàn)采用的傳感器記錄了從2021年5月1日—7月6日共67d的溶解氧、pH值、溫度、濕度、氣壓、光照、風(fēng)速、風(fēng)向等養(yǎng)殖環(huán)境數(shù)據(jù),采集間隔為15 min,每天可獲取96條數(shù)據(jù),共收集了6 432條數(shù)據(jù)記錄,用于2021年7月7、8日的溶解氧預(yù)測。在 67d的樣本中,訓(xùn)練集與測試集占比為7∶3。將歷史數(shù)據(jù)的 7個(gè)影響因子和溶解氧值作為預(yù)測模型的輸入向量,模型的輸出結(jié)果為預(yù)測日的溶解氧值。
由于采集到的原始數(shù)據(jù)具有不同維度和量綱,容易影響模型的最終預(yù)測效果[22]。在模型研究前,首先對數(shù)據(jù)進(jìn)行公式(1)的歸一化處理。
式中xk和分別為原始數(shù)據(jù)和歸一化后的數(shù)據(jù),xmin和xmax分別為原始數(shù)據(jù)的最小值和最大值。
水產(chǎn)養(yǎng)殖在線監(jiān)測系統(tǒng)采集了大量不同類型的數(shù)據(jù),若將所有數(shù)據(jù)直接作為模型的輸入,模型會(huì)變得非常復(fù)雜。本文采用皮爾森相關(guān)系數(shù)公式(2)選取DO的關(guān)鍵影響因子,以減少輸入維度并解決信息冗余問題。溶解氧與不同環(huán)境因素之間的皮爾森相關(guān)系數(shù)結(jié)果如表1所示。
式中x和y為維度為1×m的向量,xi和yi分別為向量x和y的第i個(gè)元素,和分別為向量x和y元素的平均值。
從表1中可以看出,每個(gè)因素的特征重要性排序?yàn)楣庹諒?qiáng)度、溫度、氣壓、濕度、pH值、風(fēng)速和風(fēng)向。本文選取前6個(gè)環(huán)境因素作為溶解氧預(yù)測模型的輸入樣本,以降低數(shù)據(jù)維度和復(fù)雜度。
表1 溶解氧與各影響因子的皮爾森相關(guān)系數(shù)Table 1 Pearson correlation coefficient among dissolved oxygen and influencing factors
為避免無規(guī)則樣本直接作為輸入導(dǎo)致預(yù)測精度低、收斂慢等問題,本文在預(yù)測前先采用 K-means算法將環(huán)境因子進(jìn)行聚類,找出變量的相似性變化規(guī)律,然后在同簇別中建立LSTM神經(jīng)網(wǎng)絡(luò)模型進(jìn)行溶解氧預(yù)測。
2.2.1 相似度統(tǒng)計(jì)量權(quán)重確定
環(huán)境因子的權(quán)重隨天氣變化會(huì)有一定的差異,在計(jì)算相似度統(tǒng)計(jì)量時(shí),統(tǒng)一各影響因子間的權(quán)重會(huì)導(dǎo)致相似度大的因子直接決定總體相似度,造成誤差[23]。因此,采用灰色關(guān)聯(lián)系數(shù)法計(jì)算環(huán)境因子對平均溶解氧的權(quán)重。根據(jù)歷史天氣記錄,將收集到的數(shù)據(jù)按照不同的溫度和光照強(qiáng)度分為晴天、多云、陰天、雨天和混合天氣(一天中出現(xiàn)2種不同天氣類型)5類,氣象數(shù)據(jù)劃分見表2,分別計(jì)算5種天氣類型的因子權(quán)重。
表2 天氣類型氣象數(shù)據(jù)劃分Table 2 Division of meteorological data for weather types
假設(shè)有e天某天氣類型的歷史數(shù)據(jù),將每天的平均酸堿度pHavg,日平均溫度Tavg,日平均濕度Havg,日平均氣壓Pavg,日平均風(fēng)速Savg和日平均光照Lavg作為反映該天的影響因子。構(gòu)造 6個(gè)大小為d×1的屬性因子向量z1~z6。以日平均溶解氧作為參考向量,構(gòu)造出e×1的溶解氧向量z7,利用灰色關(guān)聯(lián)系數(shù)法求出 6個(gè)因子向量與溶解氧向量在第e個(gè)分量的關(guān)聯(lián)系數(shù)。
式中λj(a)為因子向量與降解氧向量的關(guān)聯(lián)系數(shù);ρ是[0,1]之間的分辨系數(shù),ρ通常取0.5,a為天氣類型的天數(shù);得到的不同類別中環(huán)境相關(guān)因素對溶解氧的影響權(quán)重見表3。
表3 不同天氣類型下的影響因子權(quán)重Table 3 Weight of influence factors under different weather types
式中rj是zj和z7之間的關(guān)聯(lián)度,jσ為各因子的權(quán)重。
2.2.2 組合聚類相似度統(tǒng)計(jì)量
在聚類分析中,常用歐氏距離和角余弦來度量 2個(gè)樣本之間的相似度。假設(shè)要比較的 2個(gè)個(gè)體分別是溶解氧X和其他任意一個(gè)影響因子Y。它們都包含t維特征,即X= (x1,x2,… ,xt),Y= (y1,y2,… ,yt)。
歐式距離用來度量多維空間中點(diǎn)之間的絕對距離,反映樣本的數(shù)值差異。公式如下
角余弦使用向量空間中 2個(gè)向量之間的角的余弦值作為2個(gè)個(gè)體之間差異的度量。公式如下
由于溶解氧在不同環(huán)境條件下的變化趨勢復(fù)雜,僅用1個(gè)距離指標(biāo)來計(jì)算樣本間的相似性有一定的局限性。為綜合考慮歷史數(shù)據(jù)中的數(shù)值信息和形狀信息,結(jié)合歐氏距離和角余弦計(jì)算方法,采用宦娟等[9]提出的改進(jìn)的相似統(tǒng)計(jì)量。又由于統(tǒng)一各影響因子間的權(quán)重會(huì)導(dǎo)致相似度大的因子直接決定總體相似度,造成誤差,故將上述計(jì)算的不同環(huán)境因子對溶解氧的影響權(quán)重jσ嵌入到該方法中,以計(jì)算樣本間的趨勢相似性。計(jì)算公式如下
其中,
式中xij和yij為樣本x和y在第i時(shí)刻的第j個(gè)特征,其值介于0到1之間。α和β分別是夾角余弦Dcosxy和歐氏距離dxy之間的權(quán)重系數(shù),m為特征因素,t為監(jiān)測時(shí)刻。這 2個(gè)值將隨天氣條件而變化,天氣變化劇烈時(shí)α接近于1,否則,β接近于1,且α+β=1,σj是公式(5)中第j個(gè)環(huán)境因子對溶解氧的影響權(quán)重。
2.2.3 基于組合相似度的K-means聚類
歷史天氣記錄簡單將天氣分為晴天、多云、陰天和雨天,劃分不夠明確。易出現(xiàn)不同天氣情況溶解氧趨勢相似及一天中出現(xiàn)不同天氣類型難以歸類的情況。又K-means算法的初始聚類中心是隨機(jī)選擇的,這會(huì)增加整個(gè)計(jì)算的迭代時(shí)長。因此,本文基于天氣類型不同對數(shù)據(jù)進(jìn)行有效聚類。在對晴天、多云、陰天、雨天、以及混合天氣類型的分類中初始化聚類中心,以節(jié)省運(yùn)算時(shí)間和避免出現(xiàn)局部極值。
基于給定的聚類目標(biāo)函數(shù)采用K-means迭代更新算法。每個(gè)迭代過程都往目標(biāo)函數(shù)縮減的方向上進(jìn)行[24]。最終的聚類結(jié)果使目標(biāo)函數(shù)得到最小值,從而達(dá)到較好的分類效果。聚類結(jié)果如圖2所示,類1~5分別為改進(jìn)K-means聚類算法對原始數(shù)據(jù)的不同分類。從圖中可以看出,每個(gè)簇中的數(shù)據(jù)對象都是集中的,簇與簇之間的分散程度相對較高。
長短時(shí)記憶(Long Short-term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[25],解決了RNN存在的梯度彌散和梯度爆炸問題,被廣泛應(yīng)用于時(shí)間序列中具有長時(shí)間間隔和時(shí)滯的預(yù)測場景。
LSTM在標(biāo)準(zhǔn)RNN的基礎(chǔ)上增加了更多的神經(jīng)網(wǎng)絡(luò)層,增加了記憶單元和輸入門、輸出門、遺忘門 3個(gè)具有記憶功能的模塊,有選擇地讓信息通過,每個(gè)門的功能各不相同。
遺忘門負(fù)責(zé)決定從記憶單元中丟棄哪些信息。更新公式如下
式中wfx、wfh、wfc和bf分別表示遺忘門的權(quán)重系數(shù)和偏置。
輸入門負(fù)責(zé)決定哪些信息可以保存在記憶單元中。更新公式如下
式中wix、wih、wic和bi分別表示輸入門的權(quán)重系數(shù)和偏置。wcx、wch、bo分別表示候選向量的權(quán)重系數(shù)和偏置。
輸出門決定將輸出哪些信息。除所需的信息外,沒有其他信息可以通過輸出門。其表達(dá)方式如下
式中it、ft和ot分別為輸入門、遺忘門和輸出門,xt為t時(shí)刻的輸入,σ(·)為 sigmoid激活函數(shù),tanh(·)為雙曲正切激活函數(shù),wox、woh、woc分別表示輸出門的權(quán)重系數(shù),Ct和為t時(shí)刻的候選向量和候選向量更新值,ht和ht-1分別為t、t-1時(shí)刻的輸出。
2.4.1 粒子群優(yōu)化算法
粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法最早由 Eberhart等[26]提出,通過群體中個(gè)體之間的協(xié)作和信息的共享,使整個(gè)群體的運(yùn)動(dòng)在問題求解空間中由無序演化為有序,從而獲得最優(yōu)解[27]。
d維搜索空間中,存在n個(gè)粒子Y= (Y1, … ,Yn),其中Yi= (yi1,yi2,… ,yid)T表示優(yōu)化問題的潛在最優(yōu)解和粒子在解空間中的位置。粒子的速度V= (V1, … ,VN)包含了它的距離和方向,其中Vi= (vi1,… ,vid)T。粒子特性由 3個(gè)指標(biāo)表示:“位置”()、“速度”()和適應(yīng)度值。在每次迭代中,粒子通過個(gè)體極值和群體極值更新其速度和位置。更新公式如下
式中k為當(dāng)前迭代次數(shù),ω表示慣性權(quán)重,c1和c2表示學(xué)習(xí)因子,r1和r2為隨機(jī)設(shè)置的常數(shù),取值范圍[0,1]。Pi=(pi1,… ,pin)T和Pg= (pg1,… ,pgn)T分別代表個(gè)體最佳位置和群體最佳位置。速度的范圍是 [vmin,vmax]。
2.4.2 改進(jìn)粒子群優(yōu)化算法
PSO作為一種元啟發(fā)式優(yōu)化算法,可以用來優(yōu)化LSTM的參數(shù)選擇,以減少計(jì)算時(shí)間,提高預(yù)測精度。粒子群算法在解決復(fù)雜優(yōu)化問題上有著顯著的效果,但在處理優(yōu)化問題時(shí)缺乏有效的參數(shù)控制。易出現(xiàn)收斂速度慢、易陷入局部最優(yōu)、后期迭代精度低等問題。
1)改進(jìn)的慣性權(quán)重
根據(jù)之前的相關(guān)研究[28],慣性權(quán)重是PSO模型中最重要的可調(diào)參數(shù)之一,適當(dāng)?shù)膽T性權(quán)重值能平衡算法的局部和全局搜索能力,從而減少了定位最優(yōu)解所需的迭代次數(shù),并提高了PSO的性能。經(jīng)典的時(shí)變慣性權(quán)重方法雖然易于實(shí)現(xiàn),但由于不同的問題有其自身的特點(diǎn),因而不能體現(xiàn)顯著的優(yōu)勢。由于慣性權(quán)重與迭代時(shí)間呈負(fù)相關(guān),粒子在進(jìn)化初期具有較大的慣性權(quán)重以促進(jìn)群體的多樣性。隨著迭代次數(shù)的增加,慣性權(quán)重呈非線性減小。慣性權(quán)重的減小可以顯著地增強(qiáng)粒子的收斂性。因此本文采用非線性雙曲正切函數(shù)來平衡局部和全局搜索。表達(dá)如下
式中Tω為改進(jìn)的慣性權(quán)重,ωmin是最小慣性權(quán)重,ωmax是最大慣性權(quán)重。T是當(dāng)前迭代,Tmax是最大迭代次數(shù)?,F(xiàn)用Tω代替式(17)中的ω。每個(gè)粒子慣性權(quán)重Tω根據(jù)上式獨(dú)立更新。
2)改進(jìn)的學(xué)習(xí)因子
學(xué)習(xí)因子c1和c2主要用于調(diào)整粒子移動(dòng)到個(gè)體最優(yōu)位置和全局最優(yōu)位置的步長。在實(shí)際應(yīng)用中,隨著迭代過程的推進(jìn),通常要求c1值由大變小,以加快迭代初期的搜索速度,提高全局搜索能力。同時(shí)要求c2值由小變大,以便于在迭代后期進(jìn)行局部細(xì)化搜索,同時(shí)提高精度[29]。然而,標(biāo)準(zhǔn)PSO通常將其設(shè)置為122c=c= 不能滿足實(shí)際應(yīng)用的要求。因此,引入余弦函數(shù)來改進(jìn)學(xué)習(xí)因子,如下式所示
2.4.3 IPSO-KLSTM網(wǎng)絡(luò)預(yù)測模型
溶解氧時(shí)間序列數(shù)據(jù)受到多方面因素的影響,具有復(fù)雜的不穩(wěn)定性、非線性和時(shí)變性。為了準(zhǔn)確地預(yù)測溶氧變化趨勢,本文以在時(shí)間序列分析中實(shí)現(xiàn)性能優(yōu)越的LSTM模型為基礎(chǔ),在預(yù)測前進(jìn)行K-means聚類,同時(shí)提出改進(jìn)的 PSO算法來優(yōu)化模型參數(shù),建立IPSO-KLSTM溶解氧預(yù)測模型。其預(yù)測流程如圖3,具體實(shí)施步驟如下:
1)通過遠(yuǎn)程無線監(jiān)測系統(tǒng)獲取試驗(yàn)區(qū)域的水質(zhì)、氣象數(shù)據(jù),并對其進(jìn)行預(yù)處理,利用皮爾森相關(guān)系數(shù)篩選出溶解氧的關(guān)鍵影響因子,以降低模型輸入的維度和復(fù)雜度;
2)為避免天氣狀況相近而溶解氧變化差異較大的情況,采用灰色關(guān)聯(lián)度計(jì)算不同天氣下影響因子相似度,根據(jù)溶解氧的濃度和曲線形狀,利用 K-means算法對數(shù)據(jù)進(jìn)行聚類,圖3中在建立LSTM網(wǎng)絡(luò)前數(shù)據(jù)被分為1~5類,找出數(shù)據(jù)之間的相似性,以提高預(yù)測的準(zhǔn)確度;
3)設(shè)定 IPSO參數(shù)并初始化粒子:確定種群大小、粒子維數(shù)、迭代次數(shù)、學(xué)習(xí)因子、慣性權(quán)重以及待優(yōu)化參數(shù)的定義區(qū)間。初始化粒子的位置和速度,隨機(jī)產(chǎn)生粒子Yi,1(node,look_back),其中node表示隱含層神經(jīng)元的個(gè)數(shù),look_back表示時(shí)間步長;
4)設(shè)置粒子的適應(yīng)度函數(shù):適應(yīng)度函數(shù)用來衡量每個(gè)粒子的性能。以當(dāng)前粒子作為每個(gè)粒子的個(gè)體極值點(diǎn),以適應(yīng)度最小的粒子作為全局極值點(diǎn)。在 LSTM的訓(xùn)練和測試過程中,目標(biāo)是使測試樣本的實(shí)際值和預(yù)測值之間的誤差最小化。因此,IPSO的適應(yīng)度函數(shù)定義為
式中M為驗(yàn)證樣本數(shù),yij和分別為驗(yàn)證樣本的真實(shí)值和預(yù)測值;
5)更新粒子的速度和位置:計(jì)算每個(gè)粒子的適應(yīng)度值,確定個(gè)體最優(yōu)適應(yīng)度值和群體最優(yōu)適應(yīng)度值;
6)完成預(yù)測并對結(jié)果進(jìn)行分析:將IPSO算法在滿足最終條件時(shí)得到的參數(shù)值代入LSTM神經(jīng)網(wǎng)絡(luò)模型,建立IPSO-KLSTM水產(chǎn)養(yǎng)殖溶解氧預(yù)測模型,然后將測試樣本輸入模型進(jìn)行預(yù)測,最后對預(yù)測結(jié)果進(jìn)行分析。
所有試驗(yàn)均在MATLAB環(huán)境下進(jìn)行,并在2.4GHz內(nèi)核處理器、8.0G內(nèi)存和Microsoft Windows 10的PC機(jī)上運(yùn)行。在本試驗(yàn)中,使用2.2節(jié)提出的聚類模型將所有數(shù)據(jù)(6432個(gè)數(shù)據(jù)集)劃分為5個(gè)簇。分別在各個(gè)類中應(yīng)用IPSO-KLSTM模型。利用IPSO算法得到了溶解氧預(yù)測模型的最優(yōu)參數(shù)node和look_back。IPSO的初始化參數(shù)如下:群體大小P=50,慣性權(quán)重ωmax= 0.95,ωmin= 0.3,迭代次數(shù)T=200,歸一化樣本的適應(yīng)度精度為0.005。IPSO參數(shù)的選擇是基于大量的試驗(yàn)和參考[30],這些值在訓(xùn)練數(shù)據(jù)集上提供了最小的MSE和最好的計(jì)算效率。這表明IPSO算法收斂速度快,更適合于尋找LSTM模型的未知參數(shù)。通過IPSO算法得到最優(yōu)組合參數(shù),即node=10,look_back=20。
為了進(jìn)一步檢驗(yàn)?zāi)P偷念A(yù)測性能,采用平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)、均方根誤差(Root Mean Square Error,RMSE)[31]、平均絕對誤差(Mean Absolute Error,MAE)和納什系數(shù)(Nash-sutcliffe Coefficient,NSC)[32]對預(yù)測結(jié)果進(jìn)行了評價(jià)。這些度量可以從不同的數(shù)學(xué)角度反映原始數(shù)據(jù)與預(yù)測數(shù)據(jù)之間的誤差和擬合程度。這些指標(biāo)分別由公式(23)~(26)計(jì)算。
式中N為每個(gè)數(shù)據(jù)集中預(yù)測時(shí)間點(diǎn)的數(shù)量,Yi是原始數(shù)據(jù),fi為預(yù)測值,表示原始數(shù)據(jù)的均值,當(dāng)NSC的值越高,且MAPE、RMSE和MAE值越低時(shí),模型越精確。
為了驗(yàn)證提出模型的預(yù)測性能,本文采用不同的預(yù)測模型進(jìn)行比較。比較模型有粒子群優(yōu)化的 K-means長短時(shí)神經(jīng)網(wǎng)絡(luò)模型(PSO-KLSTM)、PSO優(yōu)化最小二乘支持向量機(jī)模型(PSO-LSSVM)、PSO和LSTM組合模型(PSO-LSTM)和傳統(tǒng)的極限學(xué)習(xí)機(jī)模型(ELM)、反向傳播(BP)神經(jīng)網(wǎng)絡(luò)模型、長短時(shí)記憶(LSTM)網(wǎng)絡(luò)模型。為了驗(yàn)證模型在不同天氣狀況下的預(yù)測性能,分別選取2021年7月7、8日作為預(yù)測日,預(yù)測其24h內(nèi)的溶解氧含量,如圖4所示。其中7月7日是晴天,最低、最高溫度分別為 26、35℃;平均光照強(qiáng)度為38 643 Lux。圖4 a顯示了其6種不同模型對溶解氧含量預(yù)測曲線,隨著光照強(qiáng)度的增大,引起水中植物的光合作用轉(zhuǎn)換增強(qiáng),氧氣逐步積累在下午四點(diǎn)后達(dá)到峰值。同時(shí)圖5展示了這一天中不同模型對應(yīng)的預(yù)測誤差,從圖中可以看出,本文提出的IPSO-KLSTM較其他5種模型的誤差曲線波動(dòng)較小。這是由于溶解氧受到光照強(qiáng)度、溫度、氣壓等多種環(huán)境因素的影響,在預(yù)測前對數(shù)據(jù)集進(jìn)行環(huán)境因子分析聚類,可以優(yōu)化輸入樣本,避免差異樣本的干擾,有效提取溶解氧的變化特性。另外,利用IPSO方法優(yōu)化LSTM模型所需的參數(shù)選取,可以提高模型搜索速度,克服了傳統(tǒng)LSTM模型在參數(shù)選擇上的盲目性和局限性,從而提高模型預(yù)測精度。
7月 8日為混合天氣類型,最低、最高溫度分別為25、31 ℃;平均光照強(qiáng)度為31 047 Lux,其白天大部分時(shí)間較為晴朗,至下午16:30突降暴雨。圖4 b顯示了該天氣狀況下 6種模型的預(yù)測曲線,天氣突變使得光照強(qiáng)度降低,水生物光和作用受到影響,同時(shí)氣壓降低導(dǎo)致水體對氧的溶解度降低,溶解氧含量快速下降,圖5中顯示其誤差曲線變化波動(dòng)較大。
表4為不同模型對應(yīng)的性能評估,可以看出當(dāng)天氣發(fā)生突變時(shí),本文提出模型的MAPE、RMSE、MAE和NSC分別為0.129 5、0.645 3、0.461 3和0.902 2。與未經(jīng)過相似度聚類的模型相比,IPSO-KLSTM預(yù)測效果較好,該模型能構(gòu)造最優(yōu)化的樣本訓(xùn)練集,能夠根據(jù)天氣變化做出相應(yīng)的學(xué)習(xí)訓(xùn)練,快速獲取最新樣本,對突變的天氣狀況樣本具有較強(qiáng)的學(xué)習(xí)能力,同時(shí)也獲得了更好的泛化性能,從而降低天氣突變時(shí)的預(yù)測誤差。與傳統(tǒng)的LSTM、ELM和BP模型相比,該算法的RMSE分別提高了17.10%、24.89%和24.21%,說明只依靠網(wǎng)絡(luò)自身訓(xùn)練的模型,其預(yù)測效果不能滿足實(shí)際的環(huán)境需求,改進(jìn)的LSTM較好的平衡了預(yù)測的穩(wěn)定性和準(zhǔn)確性,能夠容忍因不確定的混合天氣類型而導(dǎo)致的傳感器數(shù)據(jù)異?;蛉笔В且环N適合用于預(yù)測集約化養(yǎng)殖DO含量的有效方法。
表4 2021年7月7-8日模型預(yù)測結(jié)果分析Table 4 Analysis of model forecast results on July 7 and 8, 2021
通過對 2種天氣情況的預(yù)測分析,可以看出,在天氣突變的情況下,IPSO-KLSTM 預(yù)測誤差略有增加,但優(yōu)于其他5種模型。能有效預(yù)測水產(chǎn)養(yǎng)殖中溶解氧含量,為水產(chǎn)養(yǎng)殖的預(yù)測和預(yù)警提供幫助。
為了解決溶解氧含量預(yù)測中傳統(tǒng)預(yù)測方法預(yù)測精度低、魯棒性差的問題,將 K-means聚類和長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)相結(jié)合,同時(shí)引入改進(jìn)粒子群優(yōu)化算法(IPSO),建立了池塘養(yǎng)殖河蟹養(yǎng)殖中溶解氧含量的非線性預(yù)測模型,得出以下結(jié)論:
1)本文利用灰色關(guān)聯(lián)系數(shù)確定在不同天氣類型下影響因子對溶解氧的權(quán)重,并結(jié)合改進(jìn)相似度統(tǒng)計(jì)量,用K-means算法將原始數(shù)據(jù)集劃分為5個(gè)不同的簇,通過選擇與預(yù)測日溶解氧高度相關(guān)的類別作為輸入數(shù)據(jù),有利于選取優(yōu)質(zhì)訓(xùn)練樣本,避免了因天氣差異造成的不同趨勢樣本間的干擾。
2)通過改進(jìn) PSO的慣性權(quán)重和學(xué)習(xí)因子,優(yōu)化LSTM的參數(shù)選取,其最優(yōu)參數(shù)組合為隱含層神經(jīng)元個(gè)數(shù)node=10,時(shí)間步長look_back=20。能避免參數(shù)設(shè)定的盲目性,減少人工選擇參數(shù)的主觀影響。
3)針對不同天氣狀況,將提出的模型與PSO-LSSVM、PSO-LSTM和傳統(tǒng)單一的BP、ELM、LSTM預(yù)測模型相比,本文建立的模型其預(yù)測結(jié)果更接近真實(shí)值。在良好天氣情況下,其預(yù)測誤差曲線波動(dòng)較小。當(dāng)天氣發(fā)生突變時(shí)模型具有較低的RMSE、MAE、MAPE和更高的NSC,分別為0.129 5、0.645 3、0.461 3和0.902 2。擬合效果比較理想,一定程度改善了突變狀況下的數(shù)據(jù)缺失、魯棒性差等問題,在大規(guī)模集約化養(yǎng)殖中具有一定優(yōu)勢。
在未來的工作中,我們將在其他類型的水產(chǎn)養(yǎng)殖參數(shù)的應(yīng)用領(lǐng)域進(jìn)行試驗(yàn)和探討,并加以推廣。同時(shí),我們會(huì)更加注重不同模型的對比,以便對模型的性能進(jìn)行更深入的分析和探討。