施 珮,匡 亮,王 泉,袁永明
基于PC-RELM的養(yǎng)殖水體溶解氧數(shù)據(jù)流預(yù)測模型
施 珮1,2,匡 亮3,王 泉1,2,袁永明4
(1. 無錫學(xué)院,無錫 214105;2. 江蘇省物聯(lián)網(wǎng)設(shè)備超融合與安全工程研究中心,無錫 214105;3. 江蘇信息職業(yè)技術(shù)學(xué)院物聯(lián)網(wǎng)工程學(xué)院,無錫 214153;4.中國水產(chǎn)科學(xué)研究院淡水漁業(yè)研究中心,無錫 214081)
養(yǎng)殖水體中溶解氧濃度一直是最重要的水質(zhì)參數(shù)之一。為了精準(zhǔn)地對水體溶解氧進(jìn)行調(diào)控,提高養(yǎng)殖生產(chǎn)效率,降低養(yǎng)殖風(fēng)險(xiǎn),該研究考慮外部天氣條件對溶解氧的影響以及溶解氧自身的晝夜變化特征,提出一種基于正則化極限學(xué)習(xí)機(jī)(principal component analysis and clustering method optimized regularized extreme learning machine,PC-RELM)的養(yǎng)殖水體溶解氧數(shù)據(jù)流預(yù)測模型。首先,采用主成分分析法判斷影響溶解氧濃度的強(qiáng)重要性因子,降低預(yù)測模型的數(shù)據(jù)維度;其次,利用熵權(quán)法計(jì)算各時(shí)刻點(diǎn)的天氣環(huán)境指數(shù),并利用快速動態(tài)時(shí)間規(guī)整算法(fast dynamic time warping,F(xiàn)astDTW)完成時(shí)間序列數(shù)據(jù)流在不同天氣環(huán)境下的相似度度量;然后使用-means算法對時(shí)間序列的相似度進(jìn)行聚類分簇,并基于分簇結(jié)果完成正則化極限學(xué)習(xí)機(jī)預(yù)測模型的構(gòu)建,實(shí)現(xiàn)溶解氧濃度的估算。最后將PC-RELM模型應(yīng)用到無錫南泉試驗(yàn)基地養(yǎng)殖池塘的溶解氧預(yù)測調(diào)控過程中。試驗(yàn)結(jié)果表明:PC-RELM的預(yù)測均方根誤差值(root mean square error, RMSE)為0.961 9,與PLS-ELM(partial least squares optimized ELM)、最小二乘支持向量機(jī)(least square support vector machine,LSSVM)以及BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對比,其RMSE值分別降低了41.54%、54.58%和67.16%。該預(yù)測模型可以有效地捕捉不同天氣條件下溶解氧的變化特點(diǎn),具有較高的預(yù)測精度和效率。
溶解氧;養(yǎng)殖;水質(zhì);聚類;快速動態(tài)時(shí)間規(guī)整算法;正則化極限學(xué)習(xí)機(jī)
溶解氧濃度作為大規(guī)模高密度淡水養(yǎng)殖中的重要水體指標(biāo),當(dāng)其濃度過高時(shí)易引起魚類發(fā)生氣泡病,濃度過低則會使得魚類生長緩慢,長時(shí)間的浮頭更會引發(fā)魚類死亡等問題[1]。溶解氧(dissolved oxygen,DO)濃度的變化研究具有明顯的非線性和復(fù)雜性[2],水體環(huán)境和天氣條件均對水體DO濃度的變化有直接和間接的影響。養(yǎng)殖水體的精準(zhǔn)監(jiān)測和預(yù)測,能夠幫助養(yǎng)殖從業(yè)者及時(shí)了解養(yǎng)殖環(huán)境,實(shí)現(xiàn)溶解氧濃度的精準(zhǔn)調(diào)控,有效降低養(yǎng)殖風(fēng)險(xiǎn)。
當(dāng)前水質(zhì)數(shù)據(jù)流的預(yù)測研究主要分為單因子預(yù)測和多因子預(yù)測[3]。在單因素預(yù)測方面,Ahmad等[4]利用隨機(jī)模型對印度恒河10 a間采集的溶解氧數(shù)據(jù)流進(jìn)行預(yù)測,并構(gòu)建預(yù)測模型分別實(shí)現(xiàn)溫度、氯化物、pH值等水質(zhì)參數(shù)數(shù)據(jù)流的預(yù)測。在多因素預(yù)測方面,Palani等[5]從復(fù)雜環(huán)境因子角度構(gòu)建人工神經(jīng)網(wǎng)絡(luò)對水體鹽度、溫度、DO、葉綠素等指標(biāo)進(jìn)行定量特征預(yù)測。Najah等[6]利用多層感知器神經(jīng)網(wǎng)絡(luò)、集成神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)來預(yù)測DO、生化需氧量和化學(xué)需氧量等水質(zhì)參數(shù)。Ahmed等[7]利用回歸森林和機(jī)器學(xué)習(xí)技術(shù)開發(fā)了基于多因素?cái)?shù)據(jù)驅(qū)動的DO預(yù)測模型。但是該類預(yù)測模型構(gòu)建的預(yù)測指標(biāo)體系僅限于水體參數(shù)間的關(guān)聯(lián)關(guān)系,忽略了天氣條件對水體參數(shù)的影響。因此,一些研究從多個(gè)方面選擇不同的關(guān)聯(lián)因素進(jìn)行預(yù)測,并利用各種優(yōu)化算法不斷提高預(yù)測性能。張陽等[8]利用水質(zhì)數(shù)據(jù)的空間相關(guān)性構(gòu)建神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)對河流水質(zhì)參數(shù)溶解氧和氨氮進(jìn)行實(shí)時(shí)預(yù)測和分析。LIU等[9]利用水質(zhì)指標(biāo)和太陽輻射、氣溫、風(fēng)速等氣象因子,采用最優(yōu)改進(jìn)柯西粒子群優(yōu)化算法,建立了基于小波分析和最小二乘支持向量回歸(least square support regression,LSSVR)的混合溶解氧預(yù)測模型。然而溶解氧參數(shù)存在一定的復(fù)雜性,這些預(yù)測模型都存在運(yùn)行時(shí)間長、泛化性能低、通用性差的缺點(diǎn)。
近年來,極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)作為一種高效的前饋神經(jīng)網(wǎng)絡(luò)在各領(lǐng)域內(nèi)被廣泛應(yīng)用[10]。同時(shí),各種智能算法也被用來優(yōu)化ELM模型,以提高其性能[11-17]。CAO等[18]利用灰色關(guān)聯(lián)分析、集合經(jīng)驗(yàn)?zāi)B(tài)分解、樣本熵和RELM提出了一種基于多因素、多尺度的溶解氧預(yù)測模型?;戮甑萚19]針對溶解氧原始序列分解后高頻、中頻、低頻分量呈現(xiàn)的特點(diǎn),提出一種基于集合經(jīng)驗(yàn)?zāi)B(tài)分解、游程檢測法重構(gòu)、單項(xiàng)預(yù)測算法和BP神經(jīng)網(wǎng)絡(luò)非線性疊加的組合預(yù)測模型,對池塘溶解氧進(jìn)行預(yù)測。但是,在實(shí)際應(yīng)用過程中,該模型還存在參數(shù)復(fù)雜、計(jì)算效率不夠高等問題。
因此,本文提出了一種基于相似時(shí)間段聚類機(jī)制的正則化極限學(xué)習(xí)機(jī)模型(PC-RELM)對養(yǎng)殖池塘水體溶解氧濃度進(jìn)行預(yù)測。該模型通過定義天氣環(huán)境指數(shù)將晝夜時(shí)間序列的相似度進(jìn)行有效度量,使得基于相似時(shí)間段的-means聚類過程可以捕捉水體溶解氧變化的潛在規(guī)律,改進(jìn)的極限學(xué)習(xí)機(jī)模型在訓(xùn)練過程中可以快速學(xué)習(xí)樣本數(shù)據(jù)的相似變化趨勢,得到溶解氧和各天氣指標(biāo)、水質(zhì)指標(biāo)之間的映射關(guān)系,從而對養(yǎng)殖水體的溶解氧濃度進(jìn)行高效準(zhǔn)確地預(yù)測。
本文中所有數(shù)據(jù)采集自江蘇省無錫市南泉水產(chǎn)養(yǎng)殖試驗(yàn)基地(北緯31°43,東經(jīng)120°29),該基地緊鄰太湖,養(yǎng)殖池塘較多。本次養(yǎng)殖試驗(yàn)是在4個(gè)具有循環(huán)水養(yǎng)殖系統(tǒng)的測試池塘進(jìn)行,池塘配備物聯(lián)網(wǎng)監(jiān)測系統(tǒng)、多種水下傳感器、增氧設(shè)備、尾水處理設(shè)備和自動氣象站。4個(gè)試驗(yàn)池塘面積相近,約1 800 m2(30 m×60 m),池塘的深度為1.5 m。池塘養(yǎng)殖品種為加州鱸魚,養(yǎng)殖投放密度為2.8尾/m2。所有數(shù)據(jù)均通過物聯(lián)網(wǎng)監(jiān)測系統(tǒng)和自動氣象站進(jìn)行采集,其結(jié)構(gòu)如圖1所示。
圖1 養(yǎng)殖監(jiān)測系統(tǒng)結(jié)構(gòu)
由如圖1可知,系統(tǒng)部署的多種水下傳感器包括溶解氧傳感器、pH傳感器和溫度傳感器。岸邊安裝的自動氣象站可同時(shí)采集多種天氣環(huán)境數(shù)據(jù),包括氣溫、濕度、氣壓、二氧化碳、光照強(qiáng)度、光合有效輻射、輻射照度、風(fēng)速和風(fēng)向等。傳感器數(shù)據(jù)通過GPRS從感知設(shè)備傳輸至服務(wù)器,用戶可通過手機(jī)移動端或計(jì)算機(jī)PC端接入服務(wù)器,實(shí)時(shí)觀察水質(zhì)數(shù)據(jù)和氣象數(shù)據(jù)。試驗(yàn)設(shè)計(jì)參考文獻(xiàn)[1-2],采用擴(kuò)大試驗(yàn)周期和數(shù)據(jù)集,選擇加州鱸魚養(yǎng)殖周期內(nèi)2019年7月9日至9月9日期間共62 d的水體參數(shù)數(shù)據(jù)流信息和天氣環(huán)境數(shù)據(jù)約8 967個(gè)數(shù)據(jù)集,樣本采樣頻率為10 min/次。試驗(yàn)選取前7 077個(gè)(約80%)的數(shù)據(jù)樣本作為訓(xùn)練集,其余1 890個(gè)數(shù)據(jù)樣本作為測試集。
在養(yǎng)殖水體中,DO濃度一直受水體環(huán)境和天氣條件的影響,具有明顯的晝夜變化特征。同時(shí),在相似的天氣條件下,DO也會呈現(xiàn)一定的變化規(guī)律。因此,依據(jù)監(jiān)測數(shù)據(jù)流的晝夜變化特征,需要對數(shù)據(jù)流進(jìn)行時(shí)間段劃分,并度量時(shí)間序列數(shù)據(jù)流之間的相似度。由于時(shí)間序列長度不一定相等,需要采用適宜的算法實(shí)現(xiàn)相似度度量。動態(tài)時(shí)間規(guī)整算法(dynamic time warping,DTW)是一種適用于長度不等的時(shí)間序列距離度量方法,較廣泛應(yīng)用于語音序列的識別[20]。
在DTW算法中,假設(shè)2個(gè)時(shí)間序列{1,2, …,R}和{1,2,…,V},它們的序列長度分別為和,由序列和構(gòu)建一個(gè)×的距離矩陣×e,矩陣中每個(gè)元素(,)對應(yīng)于一個(gè)基距離= (?)2。
DTW距離是將序列和上每個(gè)點(diǎn)之間建立對齊匹配關(guān)系,每種匹配關(guān)系可以用一條彎曲距離進(jìn)行表示,DTW距離即為點(diǎn)對基距離之和的最小值。{w}={1,2,…,w}(=1~)為DTW算法獲得的彎曲路徑距離,w為彎曲距離的第個(gè)元素,時(shí)間序列與之間的DTW距離值則表示為
在使用DTW算法計(jì)算彎曲路徑時(shí),若時(shí)間序列長度較長,則會出現(xiàn)運(yùn)行效率不高的問題。FastDTW算法不同于傳統(tǒng)DTW算法,它通過限制和數(shù)據(jù)抽象2種方法完成DTW距離值的快速計(jì)算[21]。該算法能在和序列之間找到近似最優(yōu)的彎曲路徑,降低運(yùn)算時(shí)間復(fù)雜度。實(shí)現(xiàn)過程包括粗粒度化、投影、細(xì)粒度化等步驟。
1)粗粒度化。即通過數(shù)據(jù)抽象的形式對原序列進(jìn)行抽象,用一半的時(shí)間序列采樣點(diǎn)表征原時(shí)間序列,使得縮減后的時(shí)間序列上每個(gè)采樣點(diǎn)的值為原序列相鄰兩點(diǎn)的均值,從而通過迭代的方式執(zhí)行粒度矩陣的抽象過程。
2)投影。在較粗粒度距離矩陣上計(jì)算DTW值,從而找到彎曲路徑。
3)細(xì)粒度化。通過彎曲路徑經(jīng)過的方格完成從粗粒度矩陣到較細(xì)力度矩陣的對應(yīng)細(xì)化過程。
通過對投影的彎曲路徑方格進(jìn)行搜索可以有效地減少算法的運(yùn)行時(shí)間和時(shí)間復(fù)雜度,這是FastDTW算法的核心理念[22]。在最優(yōu)彎曲路徑搜索過程中,為了避免最優(yōu)路徑可能不在投影彎曲路徑中的問題,F(xiàn)astDTW額外增加參數(shù),使得投影彎曲路徑方格的搜索可以擴(kuò)大個(gè)方格。故當(dāng)越大時(shí),彎曲路徑越精準(zhǔn);越小時(shí),彎曲路徑越粗略。
聚類作為一種典型的無監(jiān)督學(xué)習(xí)方法,可以有效地將樣本分成若干類[23]。當(dāng)樣本屬于未標(biāo)記數(shù)據(jù)集時(shí),聚類算法無需樣本集訓(xùn)練即可發(fā)現(xiàn)樣本的內(nèi)在規(guī)律。天氣環(huán)境時(shí)間序列之間的相似度可以有效的體現(xiàn)采樣時(shí)刻點(diǎn)之間的關(guān)聯(lián)性。當(dāng)相似度值越低時(shí),表明這些時(shí)間序列間的差異越大,且對應(yīng)的天氣環(huán)境實(shí)際狀態(tài)差異性較大。反之,則差異性越小。
-means作為目前使用最廣泛的聚類算法之一,該算法原理是從大小為的樣本集中選定個(gè)樣本點(diǎn)作為初始聚類中心,依據(jù)當(dāng)前樣本到這個(gè)簇類中心的距離長度,將樣本分配到距離值最近的簇中,不斷迭代,當(dāng)簇類中心點(diǎn)變化很小,或達(dá)到指定迭代次數(shù)后終止迭代。在-means聚類算法中。其基本步驟如下:
1)在給定的個(gè)樣本中隨機(jī)選擇個(gè)對象作為簇類的初始中心;
2)對每個(gè)樣本點(diǎn)到最近的簇類中心的距離進(jìn)行測算;
3)依據(jù)步驟2)計(jì)算的距離確定各樣本在簇類中的歸屬情況,若距離值大于設(shè)定的閾值則生成新簇。依據(jù)式(3)計(jì)算號新簇的簇類中心向量。
式中x為第個(gè)樣本點(diǎn),Z為第號簇的樣本點(diǎn)子集,N則代表第號簇中樣本點(diǎn)的數(shù)量。
4)重復(fù)步驟2)和3),若簇類中心不再發(fā)生變化或達(dá)到迭代次數(shù)即終止。
對于待分類的個(gè)樣本,1為第1個(gè)樣本,樣本集為={1,2, …,x…,x}。本文以監(jiān)測數(shù)據(jù)流為原始數(shù)據(jù),經(jīng)過時(shí)間序列時(shí)間段劃分共個(gè)時(shí)間段,度量各時(shí)間段間相似度值s。從而獲得相似度聚類分簇樣本集{1,2, …,s}。通過計(jì)算分簇樣本與中心間的距離,按距離值進(jìn)行分簇,獲得不同的分簇結(jié)果。
ELM是一種簡單有效的單隱層前饋神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法[24]。該算法的隱含層權(quán)值和偏置是隨機(jī)選擇的,輸出權(quán)值需要使用MoorePenrose廣義偽逆來確定。給定一個(gè)樣本數(shù)據(jù)集(x,t),=1,2,…,,t為目標(biāo)輸出,則激活函數(shù)為()且包含個(gè)隱含層節(jié)點(diǎn)的標(biāo)準(zhǔn)ELM網(wǎng)絡(luò)模型可以表示為
式中x=[x1,x2, …,x]T為第個(gè)輸入樣本,t=[t1,t2,…,t]T為目標(biāo)輸出,O表示輸入x對應(yīng)的網(wǎng)絡(luò)輸出,w=[w1,w2,…,w]T和b=[b1,b2, …,b]T分別為第個(gè)隱含層神經(jīng)元與輸入向量的權(quán)值,以及第個(gè)隱含層神經(jīng)元的偏置。β=[β1,β2,…,β]T是第個(gè)隱含層節(jié)點(diǎn)和輸出層節(jié)點(diǎn)的輸出權(quán)值向量。因此,w·x表示w與x的內(nèi)積,為了使t與O之間的誤差最小,則式(4)可表示為
式中為隱含層神經(jīng)元的輸出矩陣,為輸出權(quán)值矩陣,且傳統(tǒng)ELM中的求解是一個(gè)簡單的最小二乘問題,可以通過=T確定其值。H是的Moore-Penrose逆,當(dāng)使用正交投影法時(shí),則H=(T)-1T。
依據(jù)嶺回歸算法[25]原理,當(dāng)ELM算法在計(jì)算時(shí),若在T或T上加上參數(shù)1/,可以獲得更好、更穩(wěn)定的泛化性能,解決偽逆求解過程中數(shù)值不穩(wěn)定的問題。因此,常使用正則化最小二乘法對ELM中的求解進(jìn)行優(yōu)化[26],則式(5)可表示為
式中代表正則化參數(shù),能夠平衡正則化項(xiàng)和訓(xùn)練誤差項(xiàng)。對式(7)進(jìn)行求解中計(jì)算得到式(8)。
式中為單位矩陣。
本文提出的基于相似時(shí)間段聚類機(jī)制的正則化極限學(xué)習(xí)機(jī)溶解氧預(yù)測模型,在分析天氣條件相似性的基礎(chǔ)上,探索溶解氧的晝夜變化特征,利用聚類機(jī)制,在分簇后的數(shù)據(jù)集中構(gòu)建多個(gè)優(yōu)化的ELM子預(yù)測模型,其預(yù)測總體流程如圖2所示。
注:k為數(shù)據(jù)流聚類后獲得的簇?cái)?shù),在各簇中對應(yīng)得到k個(gè)預(yù)測子模型。
1)數(shù)據(jù)處理。本文的試驗(yàn)數(shù)據(jù)由水下傳感器和自動氣象站進(jìn)行采集,在數(shù)據(jù)預(yù)處理模塊中進(jìn)行數(shù)據(jù)清洗和篩選。利用線性插值法對網(wǎng)絡(luò)傳輸過程中丟失的數(shù)據(jù)進(jìn)行插補(bǔ),獲得清洗后的數(shù)據(jù)流;再采用主成分分析法(principal component analysis, PCA)對影響DO濃度的指標(biāo)因子進(jìn)行關(guān)聯(lián)分析,提取強(qiáng)影響因素。通過數(shù)據(jù)處理能夠有效減少噪聲數(shù)據(jù)帶來的干擾,剔除冗余信息。
2)數(shù)據(jù)聚類。根據(jù)采集的天氣數(shù)據(jù)流呈現(xiàn)的規(guī)律,對相似天氣進(jìn)行評估,量化時(shí)間序列的相似度,從而實(shí)現(xiàn)水體溶解氧數(shù)據(jù)流在相似天氣條件下的聚類分簇。通過對溶解氧變化規(guī)律的探索,獲取數(shù)據(jù)流特征,提高模型的預(yù)測精度。
3)構(gòu)建預(yù)測模型。將聚類機(jī)制和正則化ELM神經(jīng)網(wǎng)絡(luò)應(yīng)用到預(yù)測模型中,在不同的簇類中構(gòu)建多個(gè)預(yù)測子模型。并通過不斷訓(xùn)練預(yù)測模型,確定模型的最優(yōu)參數(shù)信息和網(wǎng)絡(luò)結(jié)構(gòu)。
4)測試和分析。通過在測試數(shù)據(jù)集中進(jìn)行試驗(yàn),評估預(yù)測模型的性能。同時(shí),選擇不同的預(yù)測模型進(jìn)行對比試驗(yàn),驗(yàn)證本文提出的溶解氧預(yù)測模型的有效性和適用性。
養(yǎng)殖生產(chǎn)中水體的感知監(jiān)測節(jié)點(diǎn)經(jīng)常會發(fā)生設(shè)備斷電、故障等現(xiàn)象,使得采集的數(shù)據(jù)流不僅會丟失信息,還會產(chǎn)生很多噪聲數(shù)據(jù)。為了解決這些問題,提高采集數(shù)據(jù)的質(zhì)量,本文使用線性插值法對非連續(xù)丟失數(shù)據(jù)或連續(xù)丟失少于5個(gè)數(shù)據(jù)的數(shù)據(jù)流進(jìn)行插補(bǔ)。若丟失數(shù)據(jù)為連續(xù)數(shù)據(jù)(5個(gè)及以上),則將天氣環(huán)境指數(shù)作為參照信息,實(shí)現(xiàn)近似天氣環(huán)境指數(shù)下的連續(xù)丟失數(shù)據(jù)替換。同時(shí),采用熵權(quán)法對天氣環(huán)境指數(shù)進(jìn)行度量,基于空氣溫度、濕度、風(fēng)速、風(fēng)向、日照強(qiáng)度、光合有效輻射、輻射率等指標(biāo)實(shí)現(xiàn)天氣環(huán)境的綜合評估。同時(shí),監(jiān)測系統(tǒng)采集的水質(zhì)指標(biāo)和天氣環(huán)境指標(biāo)對溶解氧濃度的影響程度均不相同,若使用所有因子作為預(yù)測模型的輸入量,會影響預(yù)測模型的運(yùn)行效率。為了降低預(yù)測模型的輸入維度,減少預(yù)測運(yùn)行時(shí)間,避免冗余信息的干擾,本文采用主成分分析法對各影響因子的重要性進(jìn)行分析。
1,2, …,X分別對應(yīng)各監(jiān)測指標(biāo),則大小為的樣本集則構(gòu)成×的變量矩陣如下:
為了確定關(guān)鍵影響因子,首先需要對原始數(shù)據(jù)按照如式(10)進(jìn)行標(biāo)準(zhǔn)化處理。
式中*為x*構(gòu)成的數(shù)據(jù)矩陣;為r組成的相關(guān)系數(shù)矩陣;λ,η分別為相關(guān)矩陣的特征值和主成分貢獻(xiàn)率;為個(gè)主成分的得分系數(shù)值;U×h為各主成分對應(yīng)的特征向量,且=[1,2, …,u]。
為了實(shí)現(xiàn)對DO濃度的準(zhǔn)確預(yù)測,本文對DO變化的潛在規(guī)律進(jìn)行探索。由于溶解氧在監(jiān)測時(shí)間內(nèi)呈現(xiàn)較為規(guī)律的晝夜波動變化曲線,故圖3僅列出溶解氧監(jiān)測周期內(nèi)的某一段連續(xù)5 d的變化曲線。從圖3可以發(fā)現(xiàn),溶解氧在養(yǎng)殖監(jiān)測周期內(nèi),呈現(xiàn)明顯的晝夜交替性變化,在每個(gè)19:00—06:00時(shí)間段(夜間)和06:00—19:00時(shí)間段(晝?nèi)眨┲芯尸F(xiàn)相似的變化,但在每個(gè)時(shí)間段上的波動幅度仍有所區(qū)別。因此,結(jié)合數(shù)據(jù)采樣的季節(jié)特征,本文在試驗(yàn)過程中將數(shù)據(jù)集按當(dāng)季的晝夜時(shí)間點(diǎn)進(jìn)行分割,并在分割后的數(shù)據(jù)集中構(gòu)建多個(gè)預(yù)測子模型。本文將8 967個(gè)數(shù)據(jù)集分為126個(gè)時(shí)間序列數(shù)據(jù)流,這些數(shù)據(jù)流包括日間數(shù)據(jù)流和夜間數(shù)據(jù)流。事實(shí)上,這個(gè)時(shí)間序列的分割方式與整個(gè)養(yǎng)殖周期中的日出日落時(shí)間點(diǎn)相吻合,即所有日間數(shù)據(jù)流從06:00開始,到19:00結(jié)束,夜間數(shù)據(jù)流從19:00開始,到次日的06:00結(jié)束。
注:監(jiān)測時(shí)間為2019年7月18日19:00至2019年7月23日18:50。
基于采樣數(shù)據(jù)流的晝夜分割原則,獲得DO數(shù)據(jù)流和對應(yīng)天氣指數(shù)的時(shí)間序列。利用FastDTW算法對時(shí)間序列相似度的量化結(jié)果,采用-means實(shí)現(xiàn)水體溶解氧數(shù)據(jù)流的相似度聚類。在-means聚類過程中,初始參數(shù)的選擇直接影響整體聚類性能。為了評價(jià)選擇的聚類數(shù)的聚類效果,利用常見的聚類有效性指標(biāo)戴維森堡丁指數(shù)(davies bouldin score, DB)以及誤差平方和(error sum of square, SSE)進(jìn)行評估。DB為DB指數(shù)值,表示任意2個(gè)簇的平均距離之和除以2個(gè)簇中心之間距離的最大值。當(dāng)DB值越小時(shí),則簇內(nèi)距離越小,簇間距離越大。SSE為聚類SSE值,代表簇內(nèi)各點(diǎn)到簇中心距離的平方和,可以對聚類結(jié)果的松散度進(jìn)行評估。SSE值越小則聚類效果越好越緊密。同時(shí),肘部法則是一種目前被廣泛應(yīng)用于選擇聚類數(shù)量的方法[27]。它主要利用SSE值來反映分簇的畸變程度,在變化曲線中能捕捉SSE值下降最大的位置對應(yīng)的聚類數(shù)。一般來說,畸變程度最大的位置對應(yīng)的簇?cái)?shù)即為最優(yōu)聚類數(shù)的值,DB與SSE指數(shù)的計(jì)算如下:
式中C和C分別表示第和第個(gè)簇,S和S分別表示C和C的緊湊度,d則表示C中心點(diǎn)z與C中心點(diǎn)z之間的歐式距離,φ表示第個(gè)簇C的重心。
本文利用均方根誤差(root mean square error, RMSE)[1]、平均絕對誤差(mean square error, MAE)[2]、納什效率系數(shù)(Nash-Sutcliffe efficiency coefficient, NSE)[3]和運(yùn)行時(shí)間(run time, RT)對預(yù)測模型的預(yù)測性能進(jìn)行評價(jià)。RMSE和MAE可以從不同的數(shù)學(xué)角度反映預(yù)測性能的誤差精度。RMSE和MAE值越低,表明模型越精確。NSE代表構(gòu)建的預(yù)測模型的優(yōu)劣。NSE值越接近1,表明模型的質(zhì)量越好,預(yù)測能力越強(qiáng)。
本文采用PCA方法對8 967組試驗(yàn)數(shù)據(jù)的11個(gè)影響因子進(jìn)行分析,按照式(12)~(16)計(jì)算其各因子特征值和方差貢獻(xiàn)率,結(jié)果如表1所示。表1中5個(gè)主成分因子的累計(jì)貢獻(xiàn)率已達(dá)86.136%,可由該5個(gè)主成分因子表征所有指標(biāo)。旋轉(zhuǎn)后的各主成分因子載荷矩陣結(jié)果見表2,該載荷結(jié)果值可體現(xiàn)各項(xiàng)指標(biāo)與全部信息值之間的關(guān)系,載荷值的絕對值越大,表征的信息量則越大。
表1和表2結(jié)果顯示主成分1的累計(jì)貢獻(xiàn)率為34.188%,可表征光合有效輻射、日照和輻射率等因子。主成分2的貢獻(xiàn)率為19.644%,可表征水溫、氣溫等因子。主成分3的累計(jì)貢獻(xiàn)率為14.29%,可表征濕度因子。主成分4的貢獻(xiàn)率為10.83%,可表征CO2因子。主成分5的累計(jì)貢獻(xiàn)率為7.184%,可表征pH值因子?;谏鲜鼋Y(jié)果,從而確定溶解氧預(yù)測模型的預(yù)測輸入指標(biāo),包括光合有效輻射、日照、輻射率、水溫、氣溫、濕度、CO2和pH值等8項(xiàng)指標(biāo)。
表1 特征值及方差貢獻(xiàn)率
表2 主成分因子載荷矩陣
本文使用-means對分段后的時(shí)間序列進(jìn)行相似度聚類,利用式(15)計(jì)算不同簇?cái)?shù)的聚類評估指標(biāo)DB值。同時(shí),結(jié)合肘部法對聚類數(shù)進(jìn)行二次篩選,利用式 (17)獲得其SSE值的變化曲線,結(jié)果如圖4所示。圖4中,當(dāng)=2時(shí),其戴維森堡丁指數(shù)DB值為0.045 5,遠(yuǎn)低于取其他值時(shí)的DB值;當(dāng)=4時(shí),其對應(yīng)的DB為次低值。同時(shí),當(dāng)值不斷增大時(shí),其對應(yīng)的SSE指數(shù)呈現(xiàn)逐漸變小趨于穩(wěn)定的狀態(tài)。依據(jù)肘部位置法,可確定肘部位置的SSE值對應(yīng)的理想聚類數(shù)。圖4中不同聚類數(shù)的有效性指標(biāo)SSE值變化明顯,當(dāng)3至=5時(shí),SSE值下降速度變慢,在=4時(shí)形成sse值的肘部孤點(diǎn)。結(jié)合=4的聚類有效性指標(biāo)DB=0.560 8,為次低值,因此,本文選擇=4作為最優(yōu)聚類數(shù)。
圖4 簇?cái)?shù)(k)與聚類指標(biāo)關(guān)系
3.3.1 不同優(yōu)化操作改進(jìn)的ELM預(yù)測性能
基于時(shí)間序列相似度聚類后最佳簇類數(shù)為4,故本文構(gòu)建的溶解氧預(yù)測模型包含4個(gè)預(yù)測子模型,并在不同的簇類樣本中進(jìn)行試驗(yàn)。每個(gè)預(yù)測子模型中溶解氧預(yù)測模型的輸入量為8,輸出量為1。隱含層節(jié)點(diǎn)數(shù)由經(jīng)驗(yàn)法確定,在此基礎(chǔ)上,最終得到各子預(yù)測模型的隱含層節(jié)點(diǎn)數(shù)分別為25,40,37和76,各簇類樣本中的預(yù)測模型網(wǎng)絡(luò)結(jié)構(gòu)如表3。本文中所有預(yù)測模型的測試試驗(yàn)均基于Matlab R2014平臺。
為了測試PCA關(guān)鍵因子篩選、-means相似時(shí)間序列聚類和正則化等操作對ELM模型的優(yōu)化作用,本文構(gòu)建-means-RELM (-means聚類優(yōu)化后的RELM)、RELM、ELM模型作為對比預(yù)測模型。分別對PCRELM和這3個(gè)對比模型進(jìn)行性能評估,各預(yù)測模型的試驗(yàn)數(shù)據(jù)樣本相同,輸入輸出節(jié)點(diǎn)數(shù)相同,其溶解氧濃度預(yù)測效果如圖5所示。
表3 不同簇中預(yù)測子模型的網(wǎng)絡(luò)結(jié)構(gòu)表
注:表中網(wǎng)絡(luò)結(jié)構(gòu)以“輸入-隱含層節(jié)點(diǎn)-輸出”的形式給出。
Note: Structure is given in the form of input-hidden layer node-output.
注:預(yù)測模型的測試時(shí)間為2019年8月27日19:00至2019年9月9日21:50。PC-RELM為基于主成分和聚類機(jī)制的改進(jìn)正則化極限學(xué)習(xí)機(jī)模型。k-means-RELM為k-means聚類優(yōu)化的改進(jìn)正則化極限學(xué)習(xí)機(jī)模型。RELM為正則化極限學(xué)習(xí)機(jī)模型;ELM為極限學(xué)習(xí)機(jī)模型。下同。
圖5中,4個(gè)預(yù)測模型都能獲得較好的溶解氧預(yù)測效果,預(yù)測曲線逼近真實(shí)數(shù)據(jù)值。本文提出的PC-RELM和-means-RELM模型的溶解氧預(yù)測曲線在很多時(shí)刻上較為相似,預(yù)測結(jié)果更接近真實(shí)值。同時(shí),RELM的預(yù)測曲線較ELM的預(yù)測曲線更接近真實(shí)值。由此可見,本文中,-means相似時(shí)間序列聚類操作和正則化優(yōu)化操作能有效地提高溶解氧預(yù)測精度。
圖6為不同ELM優(yōu)化模型的預(yù)測誤差,誤差值為0作為零參照線。若一條曲線越接近零參照線,表明該曲線的預(yù)測誤差越小,效果越優(yōu)。圖6顯示,PC-RELM的預(yù)測誤差曲線最接近零參照線,誤差波動范圍最小,-means-RELM的預(yù)測誤差次之,波動幅度與PC-RELM較為接近,RELM的預(yù)測誤差更次之,ELM的預(yù)測誤差波動范圍最大,與零參照線的偏離程度最大。由此可以判定,在測試樣本集中,PC-RELM的預(yù)測誤差最小,PCA關(guān)鍵因子篩選操作、-means聚類操作和正則化操作優(yōu)化效果明顯。同時(shí),可以清晰地發(fā)現(xiàn),除ELM模型的預(yù)測效果不穩(wěn)定之外,其他各模型的預(yù)測誤差均在每天的12:00-17:00波動幅度最大。事實(shí)上,這一時(shí)間段正是一天之中溫度最高的時(shí)間。由于水溫的時(shí)滯性,水體中水草等植物的光合作用在這一時(shí)間段最為活躍,持續(xù)時(shí)間更長,使得溶解氧自身變化更為復(fù)雜。另外,由于微生物、水草、殘餌、殘藥等的附著,會使得傳感器存在一定的數(shù)據(jù)漂移。因此在養(yǎng)殖生產(chǎn)中會選擇5~6 d進(jìn)行一次傳感器的清洗和校準(zhǔn),進(jìn)而影響數(shù)據(jù)采集的質(zhì)量,而這一預(yù)測結(jié)果也正與實(shí)際的工作日志吻合。
圖6 不同ELM改進(jìn)模型的溶解氧預(yù)測誤差
表4 不同ELM改進(jìn)模型的溶解氧預(yù)測精度
表4為不同ELM改進(jìn)模型的溶解氧預(yù)測精度,可以發(fā)現(xiàn)PC-RELM的預(yù)測結(jié)果評價(jià)指標(biāo)RMSE和MAE值分別為0.9619和0.6941,明顯低于其他2種模型。PC-RELM的RMSE值相比-means-RELM、RELM和ELM模型分別降低了5.75%、27.33%和43.10%。MAE值則相比較-means-RELM、RELM和ELM分別降低了5.42%、30.20%和47.21%。同時(shí),PC-RELM方法的NSE值為0.712 8,比-means-RELM、RELM和ELM更接近1,且運(yùn)行時(shí)間更短。-means-RELM方法與RELM方法比較,在各項(xiàng)預(yù)測精度指標(biāo)和運(yùn)行時(shí)間上均有較大程度的提高。上述結(jié)果表明,PC-RELM的預(yù)測精度和運(yùn)行時(shí)間均具有一定的優(yōu)勢,PCA分析過程能有效提高運(yùn)行效率,-means晝夜相似時(shí)間序列的聚類機(jī)制和正則化操作均能有效地提高模型的預(yù)測準(zhǔn)確度。
3.3.2 多預(yù)測模型性能分析
為了驗(yàn)證本文提出的預(yù)測模型的優(yōu)越性,本文將PC-RELM模型與現(xiàn)有的PLS-ELM(PLS優(yōu)化ELM)[28]、LSSVM[9]和傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型對測試時(shí)間內(nèi)溶解氧的預(yù)測結(jié)果、預(yù)測誤差和預(yù)測精度等進(jìn)行比較。各模型的溶解氧濃度預(yù)測效果如圖7所示。
注:PLS-ELM為偏最小二乘改進(jìn)極限學(xué)習(xí)機(jī)模型。LSSVM為最小二乘改進(jìn)支持向量機(jī)模型。BP為反向傳播神經(jīng)網(wǎng)絡(luò)模型。
從圖7可以看出,現(xiàn)有各模型的溶解氧預(yù)測結(jié)果較為一致。同時(shí),圖中PC-RELM的溶解氧預(yù)測曲線與真實(shí)值的趨勢曲線的擬合效果較其他3種模型的預(yù)測曲線具有更高的一致性。PLS-ELM的溶解氧預(yù)測效果僅次于PC-RELM的預(yù)測效果,它的擬合程度與PC-RELM較為接近。預(yù)測效果更次之的是LSSVM預(yù)測模型,而BP神經(jīng)網(wǎng)絡(luò)的預(yù)測值與真實(shí)值差異較大。
圖8 4個(gè)預(yù)測模型的溶解氧預(yù)測誤差
圖8為4個(gè)預(yù)測模型的溶解氧預(yù)測誤差圖??梢钥闯?,PC-RELM的預(yù)測誤差曲線最接近零參照線,其次是PLS-ELM,LSSVM和BP。LSSVM和BP模型的預(yù)測誤差波動較大,PC-RELM在局部樣本點(diǎn)上有一定幅度的波動,整體預(yù)測誤差波動幅度較為穩(wěn)定。事實(shí)上,圖8中PC-RELM和PLS-ELM兩模型的預(yù)測誤差曲線波動趨勢較為一致,說明這2個(gè)模型能有效地捕捉了溶解氧的潛在變化規(guī)律,呈現(xiàn)溶解氧變化特點(diǎn)。波動幅度較大的時(shí)間段主要集中在每天12:00-17:00,這一時(shí)間段溫度較高,水生植物的光合作用也使得該時(shí)間段溶解氧波動更為明顯。LSSVM和BP模型的預(yù)測誤差較大,在各時(shí)間段內(nèi)均有較大幅度波動,預(yù)測效果不佳。
表5 4個(gè)模型的溶解氧預(yù)測精度
表5為4種模型的溶解氧預(yù)測精度。可以看出PC-RELM的RMSE和MAE值分別為0.961 9和0.694 1,低于其他3種對比模型。PC-RELM的RMSE值分別比PLS-ELM、LSSVM和BP降低了41.54%、54.58%和67.16%,MAE值也分別降低了46.26%、59.98%和69.90%。在NSE指標(biāo)上,PC-RELM的系數(shù)值更接近1,說明該模型具有較強(qiáng)的預(yù)測能力。同時(shí),PC-RELM模型的運(yùn)行時(shí)間比其他3種方法更短,表明該模型具有更高的預(yù)測效率。
結(jié)果表明,基于不同的優(yōu)化操作構(gòu)造的PC-RELM溶解氧預(yù)測模型是可行有效的。該模型通過時(shí)間序列的聚類機(jī)制獲得了較高的預(yù)測精度,實(shí)現(xiàn)了溶解氧濃度穩(wěn)定的預(yù)測。同時(shí)模型的整體運(yùn)行效率較高,在同類預(yù)測模型中具有一定的優(yōu)勢。
本文考慮外部天氣條件對溶解氧的影響以及溶解氧自身的晝夜變化特征,對養(yǎng)殖水體數(shù)據(jù)流進(jìn)行分析,提出一種基于相似時(shí)間段聚類機(jī)制的正則化ELM溶解氧預(yù)測模型PC-RELM。主要結(jié)論如下:
1)使用PCA方法篩選影響溶解氧濃度變化的關(guān)鍵因子,降低預(yù)測模型的輸入維度。從外部天氣條件和溶解氧晝夜變化的角度,定義和量化天氣環(huán)境指數(shù),結(jié)合FastDTW完成基于天氣環(huán)境指數(shù)的晝夜時(shí)間序列相似度的度量,克服常用歐式距離和傳統(tǒng)DTW算法相似度計(jì)算的局限性。
2)采用-means方法完成相似度時(shí)間序列的聚類,將具有相似變化趨勢的樣本聚集在一起,捕捉晝夜時(shí)間下溶解氧變化的潛在規(guī)律,提高溶解氧預(yù)測準(zhǔn)確度。
3)將PC-RELM模型的溶解氧預(yù)測結(jié)果與PLS-ELM、RELM和ELM模型的預(yù)測結(jié)果進(jìn)行對比,其評估指標(biāo)顯示,PC-RELM模型的NSE系數(shù)為0.712 8,遠(yuǎn)遠(yuǎn)高于PLS-ELM、RELM、ELM、LSSVM和BP模型。PC-RELM模型的預(yù)測精度MAE值為0.694 1,亦明顯優(yōu)于其他模型,且運(yùn)行效率較高,可見PC-RELM預(yù)測模型具有一定優(yōu)勢。
本文提出的溶解氧預(yù)測模型獲得了較好的預(yù)測精度,能夠?yàn)榫珳?zhǔn)水質(zhì)調(diào)控提供理論依據(jù),具有一定的研究和推廣價(jià)值。今后,我們將對水產(chǎn)養(yǎng)殖水體參數(shù)的預(yù)測預(yù)警進(jìn)行更深入的研究,并將理論應(yīng)用到生產(chǎn)實(shí)踐中。
[1] 陳英義,成艷君,楊玲,等. 基于改進(jìn)深度信念網(wǎng)絡(luò)的池塘養(yǎng)殖水體氨氮預(yù)測模型研究[J]. 農(nóng)業(yè)工程學(xué)報(bào),2019,35(7):195-202.
Chen Yingyi, Cheng Yanjun, Yang Ling, et al. Prediction model of ammonia-nitrogen in pond aquaculture water based on improved multi-variable deep belief network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(7): 195-202. (in Chinese with English abstract)
[2] 曹守啟,周禮馨,張錚. 采用改進(jìn)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的水產(chǎn)養(yǎng)殖溶解氧預(yù)測模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2021,37(14):235-242.
Cao Shuoqi, Zhou Lixin, Zhang Zheng. Prediction model of dissolved oxygen in aquaculture based on improved long short-term memory neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(14): 235-242. (in Chinese with English abstract)
[3] Cao X K, Liu Y R, Wang J P, et al. Prediction of dissolved oxygen in pond culture water based on K-means clustering and gated recurrent unit neural network[J]. Aquacultural Engineering, 2020, 91: 1-10.
[4] Ahmad S, Khan I H, Parida B P. Performance of stochastic approaches for forecasting river water quality[J]. Water Research, 2001, 35(18): 4261-4266.
[5] Palani S, Liong S Y, Tkalich P. An ANN application for water quality forecasting[J]. Marine Pollution Bulletin, 2008, 56(9): 1586-1597.
[6] Najah A, El-Shafie A, Karim O, et al. An application of different artificial intelligences techniques for water quality prediction[J]. International Journal of Physical Sciences, 2011, 6(22): 5298-5308.
[7] Ahmed M H, Lin L S. Dissolved oxygen concentration predictions for running waters with different land use land cover using a quantile regression forest machine learning technique[J]. Journal of Hydrology, 2021, 597: 1-12.
[8] 張陽,冼慧婷,趙志杰. 基于空間相關(guān)性和神經(jīng)網(wǎng)絡(luò)模型的實(shí)時(shí)河流水質(zhì)預(yù)測模型[J]. 北京大學(xué)學(xué)報(bào):自然科學(xué)版,2022,58(2):337-344.
Zhang Yang, Xian Huiting, Zhao Zhijie. Real-time river water quality prediction model based on spatial correlation and neural network model[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2022, 58(2): 337-344. (in Chinese with English abstract)
[9] Liu S, Xu L, Jiang Y, et al. A hybrid WA-CPSO-LSSVR model for dissolved oxygen content prediction in crab culture[J]. Engineering Applications of Artificial Intelligence, 2014, 29: 114-124.
[10] Hua L, Zhang C, Peng T, et al. Integrated framework of extreme learning machine (ELM) based on improved atom search optimization for short-term wind speed prediction[J]. Energy Conversion and Management, 2022, 252: 1-18.
[11] 匡亮,華馳,鄧小龍,等. 一種優(yōu)化極限學(xué)習(xí)機(jī)的果園濕度預(yù)測方法[J]. 傳感技術(shù)學(xué)報(bào),2019,32(3):418-423.
Kuang Liang, Hua Chi, Deng Xiaolong, et al. The oorchard humidity prediction method based on optimized extreme learning machine[J]. Chinese Journal of Sensors and Actuators, 2019, 32(3): 418-423. (in Chinese with English abstract)
[12] Zhang J, Xu F, Zhang Y, et al. ELM-based driver torque demand prediction and real-time optimal energy management strategy for HEVs[J]. Neural Computing and Applications, 2019, 32(3): 1-19.
[13] Huang Y, Li S, Li J, et al. Spectral diagnosis and defects prediction based on ELM during the GTAW of AI alloys[J]. Measurement, 2019, 136: 405-414.
[14] Udmale S S, Singh S K. Application of spectral kurtosis and improved extreme learning machine for bearing fault classification[J]. IEEE Transactions on Instrumentation and Measurement, 2019, 68(11): 4222-4233.
[15] 陸慧娟,安春霖,馬小平,等. 基于輸出不一致測度的極限學(xué)習(xí)機(jī)集成的基因表達(dá)數(shù)據(jù)分類[J]. 計(jì)算機(jī)學(xué)報(bào),2013,36(2):341-348.
Lu Huijuan, An Chunlin, Ma Xiaoping, et al. Disagreement measure based ensemble of extreme learning machine for gene expression data classification[J]. Chinese Journal of Computers, 2013, 36(2): 341-348. (in Chinese with English abstract)
[16] 席磊,何苗,周博奇,等. 基于改進(jìn)多隱層極限學(xué)習(xí)機(jī)的電網(wǎng)虛假數(shù)據(jù)注入攻擊檢測[J]. 自動化學(xué)報(bào),2022,48:1-10.
Xi Lei, He Miao, Zhou Boqi, et al. Research on false data injection attack detection in power system based on improved multi layer extreme learning machine[J]. Acta Automatica Sinica, 2022, 48: 1-10. ( in Chinese with English abstract)
[17] 孫娜,周建中. 基于正則極限學(xué)習(xí)機(jī)的非平穩(wěn)徑流組合預(yù)測[J]. 水力發(fā)電學(xué)報(bào),2018,37(8):20-28.
Sun Na, Zhou Jianzhong. Hybrid forecasting model for non-stationary runoff based on regularized extreme learning machine[J]. Journal of Hydroelectric Engineering, 2018, 37(8): 20-28. (in Chinese with English abstract)
[18] Cao W, Huan J, Liu C, et al. A combined model of dissolved oxygen prediction in the pond based on multiple-factor analysis and multi-scale feature extraction[J]. Aquacultural Engineering, 2019, 84: 50-59.
[19] 宦娟,曹偉建,秦益霖,等. 基于游程檢測法重構(gòu)集合經(jīng)驗(yàn)?zāi)B(tài)的養(yǎng)殖水質(zhì)溶解氧預(yù)測[J].農(nóng)業(yè)工程學(xué)報(bào),2018,34(8):220-226.
HUAN Juan, CAO Weijian, QIN Yilin, et al. Dissolved oxygen prediction in aquaculture based on ensemble empirical mode decomposition and reconstruction using run test method[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(8):220-226. ( in Chinese with English abstract)
[20] 劉成菊,林立民,劉明,等.一種基于DTW-GMM的機(jī)器人多機(jī)械臂多任務(wù)協(xié)同策略[J].自動化學(xué)報(bào),2022, 48(9):2187-2197.
LIU Chengju, LIN Limin, LIU Ming, et al. A multi-task collaborative strategy for multi-arm robot based on DTW-GMM[J]. Acta Automatica Sinica, 2022, 48(9): 2187-2197. ( in Chinese with English abstract)
[21] 姬文江,左元,黑新宏,等. 基于FastDTW的道岔故障智能診斷方法[J]. 模式識別與人工智能,2020,33(11):1013-1022.
Ji Wenjiang, Zuo Yuan, Hei Xinhong, et al. An intelligent fault diagnosis method based on FastDTW for railway turnout[J]. Pattern Recognition and Artificial Intelligence, 2020, 33(11): 1013-1022. (in Chinese with English abstract)
[22] 陳莉婷,鄭晶,高建清,等. 基于FastDTW案例檢索的臺風(fēng)災(zāi)害應(yīng)急方案生成[J]. 中國安全科學(xué)學(xué)報(bào),2022,32(4):171-176.
Chen Liting, Zheng Jing, Gao Jianqing, et al. Generation of typhoon emergency response plan based on FastDTW case retrieval[J]. China Safety Science Journal, 2022, 32(4): 171-176. (in Chinese with English abstract)
[23] 孫勇,譚文安,金婷,等. 基于在線聚類的協(xié)同作弊團(tuán)體識別方法[J]. 計(jì)算機(jī)研究與發(fā)展,2018,55(6):1320-1332.
Sun Yong, Tan Wenan, Jin Ting, et al. A collaborative collusion detection method based on online clustering[J]. Journal of Computer Research and Development, 2018, 55(6): 1320-1332. (in Chinese with English abstract)
[24] Huang G, Huang G B, Song S, et al. Trends in extreme learning machines: A review[J]. Neural Networks, 2015, 61: 32-48.
[25] 郭恒亮,李曉,付羽,等. 基于核嶺回歸算法的PROSAIL模型反演高空間分辨率葉面積指數(shù)[J].草業(yè)學(xué)報(bào),2022,31(12):41-51.
GUO Hengliang, LI Xiao, FU Yu, et al. High-resolution leaf area index inversion based on the kernel ridge regression algorithm and prosail model[J]. Acta Prataculturae Sinica, 2022, 31(12):41-51. ( in Chinese with English abstract)
[26] Heeswijk M, Miche Y. Binary/ternary extreme learning machines[J]. Neurocomputing, 2015, 149: 187-197.
[27] Bholowalia P, umar A. EBK-Means: A clustering technique based on elbow method and K-Means in WSN[J]. International Journal of Computer Applications, 2014, 105(9): 17-24.
[28] Shi P, Li G H, Yuan Y M, et al. Prediction of dissolved oxygen content in aquaculture using clustering-based softplus extreme learning machine[J]. Computers and Electronics in Agriculture, 2019, 157: 329-338.
Data stream prediction model for dissolved oxygen in aquaculture water using PC-RELM
SHI Pei1,2, KUANG Liang3, WANG Quan1,2, YUAN Yongming4
(1.,214105,; 2.,214105,; 3.,,214153,; 4.,,214081,)
Dissolved oxygen (DO) is one of the most important parameters for the water quality in aquaculture water. Long-term low oxygen environment can dominate the growth and reproduction of fish. Hypoxia can also cause large areas of fish death. Accurate and efficient DO prediction and control strategies can improve aquaculture production efficiency for the fewer aquaculture risks. However, an effective DO prediction has always been a tough challenge in aquaculture, due to the interference of external weather and the DO complexity. Multi-source or single sensors are generally used to build the prediction models, without considering the DO characteristics under similar weather conditions. Particularly, there is an outstanding diurnal variation in the DO content. Moreover, some redundant data can be collected from the water quality sensors in automatic weather stations. In this study, the principal component analysis and clustering method optimized regularized extreme learning machine (PC-RELM) was proposed to realize the DO prediction, considering the influence of external weather conditions on the DO and the diurnal variation. Firstly, the principal component analysis (PCA) was applied to determine the most influencing factors on the DO concentration, and reduce the data dimension of the prediction model for the high efficiency of prediction; Secondly, the entropy weight method was utilized to calculate the weather environment index at different time points. Fast dynamic time warping (FastDTW) was used to measure the similarity of weather environment in the time series data streams; Then, the-means algorithm was used to cluster the similarity of the time series using the weather environment index. And the sub-prediction models of regularized extreme learning machine (RELM) were constructed using the clustered datasets to forecast the DO concentration. Finally, the PC-RELM model was applied to the intelligent control process of DO in the aquaculture pond of the Wuxi Nanquan experimental base. The test results showed that the root-mean square error (RMSE) of PC-RELM prediction was 0.961 9, which outperformed the partial least squares optimized ELM (PLS-ELM), Least Square Support Vector Machine (LSSVM), and BP algorithms by 41.54%, 54.58%, and 67.16%, respectively. The mean square error (MSE) value of PC-RELM was 0.694 1, which outperformed the PLS-ELM, LSSVM and BP algorithms by 46.26%, 59.98%, and 69.90%, respectively. Meanwhile, the Nash-Sutcliffe efficiency coefficient of PC-RELM was 0.712 8, which was much higher than the rest prediction. In addition, the PC-RELM presented a high running speed of 0.316 2 s. The efficiency of PC-RELM was improved by about 7, 10, and 40 times, respectively, compared with the PLS-ELM, LSSVM, and BP. The improved model can be expected to extract the change patterns of DO under different weather conditions, indicating high prediction accuracy and efficiency. The finding can provide high-quality data and theoretical support for the precise control of DO in the pond water.
dissolved oxygen; aquaculture; water quality; clustering; fast dynamic time warping; regularized extreme learning machine
2023-01-05
2023-03-25
江蘇省高校自然科學(xué)研究面上項(xiàng)目(21KJB520020);無錫市“太湖之光”科技攻關(guān)項(xiàng)目(K20221044);國家自然科學(xué)基金項(xiàng)目(62072216);南京信息工程大學(xué)濱江學(xué)院人才啟動經(jīng)費(fèi)資助項(xiàng)目(2021r038);江蘇省教育科學(xué)“十四五”規(guī)劃2021年度課題(B/2021/01/15)
施珮,博士,講師,研究方向?yàn)檗r(nóng)業(yè)物聯(lián)網(wǎng)和大數(shù)據(jù)分析。Email:njxk_sp@163.com
10.11975/j.issn.1002-6819.202301014
TP39; TP212; TP274.2
A
1002-6819(2023)-07-0227-09
施珮,匡亮,王泉,等. 基于PC-RELM的養(yǎng)殖水體溶解氧數(shù)據(jù)流預(yù)測模型[J]. 農(nóng)業(yè)工程學(xué)報(bào),2023,39(7):227-235. doi:10.11975/j.issn.1002-6819.202301014 http://www.tcsae.org
SHI Pei, KUANG Liang, WANG Quan, et al. Data stream prediction model for dissolved oxygen in aquaculture water using PC-RELM[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(7): 227-235. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.202301014 http://www.tcsae.org