林少涵,王 魏,2,王奕鵬
(1 大連海洋大學(xué)信息工程學(xué)院,遼寧 大連116023;2 教育部設(shè)施漁業(yè)重點(diǎn)實(shí)驗(yàn)室,遼寧 大連116023)
目前,中國(guó)集約化水產(chǎn)養(yǎng)殖對(duì)養(yǎng)殖水質(zhì)和水體環(huán)境的實(shí)時(shí)監(jiān)測(cè)水平較低,缺乏系統(tǒng)的水產(chǎn)疾病預(yù)警技術(shù)。根據(jù)漁業(yè)水質(zhì)標(biāo)準(zhǔn)的規(guī)定,安全的氨氮質(zhì)量濃度應(yīng)保持在0.2 mg/L以下[1],過(guò)高的氨氮會(huì)嚴(yán)重影響到水生生物的生存,甚至引起死亡,對(duì)養(yǎng)殖造成巨大經(jīng)濟(jì)損失。因此,對(duì)氨氮的檢測(cè)是有效預(yù)防氨氮毒害事件發(fā)生的必要措施。目前,大部分氨氮檢測(cè)儀價(jià)格昂貴且不適用于測(cè)量海水。國(guó)內(nèi)對(duì)氨氮檢測(cè)的主要方法有納氏試劑比色法、電極法、次溴酸鹽氧化法等[2]。這些檢測(cè)方法雖然能夠有效地對(duì)氨氮質(zhì)量濃度進(jìn)行檢測(cè),但都屬于離線方法,難以實(shí)現(xiàn)實(shí)時(shí)檢測(cè)。近年來(lái),隨著軟測(cè)量技術(shù)的發(fā)展,國(guó)內(nèi)很多知名專家學(xué)者開(kāi)始將軟測(cè)量技術(shù)應(yīng)用到氨氮檢測(cè)領(lǐng)域。軟測(cè)量是指通過(guò)計(jì)算機(jī)技術(shù)構(gòu)造某種數(shù)學(xué)關(guān)系,利用一些較易獲得的變量來(lái)估計(jì)生產(chǎn)過(guò)程中難以測(cè)量的重要變量。Deng等[3]提出基于RBF的在線軟測(cè)量方法。在污水處理方面,喬俊飛等[4]提出基于遞歸RBF神經(jīng)網(wǎng)絡(luò)的氨氮預(yù)測(cè)模型,使用梯度下降法訓(xùn)練模型參數(shù),并對(duì)氨氮質(zhì)量濃度進(jìn)行預(yù)測(cè),雖然有較高的精度,但是仍然存在模型結(jié)構(gòu)復(fù)雜、泛化能力差的問(wèn)題。盧超等[5]提出一種基于尖峰自組織徑向基神經(jīng)網(wǎng)絡(luò)的氨氮檢測(cè)方法,該方法的創(chuàng)新之處在于能夠根據(jù)輸入信息實(shí)時(shí)更新網(wǎng)絡(luò)參數(shù),并通過(guò)尖峰自組織機(jī)制調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),提高氨氮的預(yù)測(cè)精度和自適應(yīng)力,但也存在模型結(jié)構(gòu)參數(shù)在動(dòng)態(tài)優(yōu)化上的不足。在養(yǎng)殖水體的氨氮檢測(cè)方面,陳英義等[6]提出了基于改進(jìn)深度信念網(wǎng)絡(luò)的氨氮預(yù)測(cè)模型,利用自學(xué)習(xí)方法確定網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)PSO算法找出最優(yōu)的結(jié)構(gòu)參數(shù),達(dá)到提高模型精度的目的,但同時(shí)仍存在網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)不易確定等問(wèn)題。這些都是神經(jīng)網(wǎng)絡(luò)在氨氮測(cè)定上的應(yīng)用。然而,訓(xùn)練高精度的神經(jīng)網(wǎng)絡(luò)模型需要大量的數(shù)據(jù)樣本,在實(shí)際應(yīng)用中要獲得大量有標(biāo)簽的樣本較為不易,而且由于神經(jīng)網(wǎng)絡(luò)的“黑箱”特性,建立的模型不具備解釋能力。
采用廣義可加模型進(jìn)行氨氮預(yù)測(cè),該方法對(duì)于小樣本數(shù)據(jù)能夠快速建立有較好精度的模型,且建立的模型有一定的解釋能力。為了提高預(yù)測(cè)精度,采用同樣適用于小樣本數(shù)據(jù)的支持向量回歸對(duì)廣義可加模型的輸出進(jìn)行誤差補(bǔ)償。
循環(huán)水養(yǎng)殖系統(tǒng)利用生物反應(yīng)、物理過(guò)濾等方法,去除養(yǎng)殖水體中所含的廢物殘?jiān)?、亞硝酸鹽氮、氨氮化合物等有害物。其組成部分主要包括:生化反應(yīng)系統(tǒng)、消毒殺菌系統(tǒng)、過(guò)濾系統(tǒng)和智能監(jiān)控系統(tǒng)。智能監(jiān)控系統(tǒng)是科學(xué)養(yǎng)殖的一個(gè)關(guān)鍵環(huán)節(jié),主要作用是監(jiān)控水體的溫度、pH、溶氧(DO)、鹽度、濁度、氨氮、生物需氧量等對(duì)養(yǎng)殖產(chǎn)品的生長(zhǎng)環(huán)境有巨大影響的水質(zhì)參數(shù)。其中涉及的氨氮質(zhì)量濃度是反應(yīng)水體污染程度的一個(gè)重要指標(biāo),游離態(tài)的氨氮到了一定質(zhì)量濃度會(huì)對(duì)水生生物有毒害作用。
養(yǎng)殖水體里的氨氮以離子態(tài)和非離子態(tài)的形式存在,考慮到其非離子含量和離子含量存在一定的換算關(guān)系,借助解離平衡關(guān)系,可以通過(guò)對(duì)一些其他變量諸如海水溫度、鹽度、pH來(lái)確定非離子態(tài)的百分含量fp,根據(jù)測(cè)定的總氨氮的摩爾質(zhì)量,推算出氨氮的含量值,其相關(guān)關(guān)系見(jiàn)公式(1) ~ (3)[7]:
cNH3=1.4×10-4cNH3-Nfp
(1)
fp=100/(10pKa-cpH+1)
(2)
pKa=9.245+0.002 949S+0.032 4(298-T)
(3)
(4)
除此之外,當(dāng)溫度范圍為0~40 ℃時(shí),鹽度與電導(dǎo)率、水溫,存在換算公式(5)[8]:
S=1.388×d-0.024×d×t-6 171.9
(5)
式中:S表示鹽度;d表示電導(dǎo)率,μs/cm;t表示當(dāng)前水溫, ℃。可見(jiàn),鹽度與溫度和電導(dǎo)率有關(guān)。
另外,水中有機(jī)物進(jìn)行生物氧化分解時(shí)需消耗溶氧,溶氧質(zhì)量濃度關(guān)系到水中氨氮、亞硝酸鹽氮和硝酸鹽氮之間的轉(zhuǎn)化效果[9]。
氨氮混合建模方法包括數(shù)據(jù)采集及預(yù)處理,基于機(jī)理近似的氨氮質(zhì)量濃度主模型(即廣義可加模型)和基于支持向量回歸的氨氮質(zhì)量濃度誤差補(bǔ)償模型等部分,結(jié)構(gòu)如圖1所示。因此,氨氮質(zhì)量濃度的最終計(jì)算值按照公式(6)。
(6)
圖1 氨氮軟測(cè)量模型結(jié)構(gòu)圖
Fig.1 Soft measurement model structure of ammonia nitrogen concentration
廣義可加模型屬于非參數(shù)回歸模型,是在廣義線性模型和加性模型的基礎(chǔ)上發(fā)展而來(lái)的,其本質(zhì)是通過(guò)連接函數(shù)把因變量和每個(gè)自變量對(duì)應(yīng)的光滑函數(shù)的線性和聯(lián)系起來(lái)[10]。比起傳統(tǒng)回歸分析模型,其不需要滿足線性假設(shè)的前提條件,能夠更好地體現(xiàn)各變量之間復(fù)雜的非線性關(guān)系,同時(shí)還能避免維度災(zāi)難的問(wèn)題。廣義可加模型的基本公式[11]:
(8)
式中:μ是Y的期望值,μ=E(Y|X1,X2,…,XP);g(μ)是連接函數(shù);sj(Xj),j=1,2,…,p是第j個(gè)自變量對(duì)應(yīng)的單變量非線性光滑函數(shù)??梢圆捎煤撕瘮?shù)、光滑樣條函數(shù),或者局部回歸光滑函數(shù)[12]。本研究采用的樣條函數(shù)具有較好的整體光滑性,能及時(shí)地適應(yīng)樣本數(shù)據(jù)和函數(shù)的變化。
與一般的線性模型相似,廣義可加模型要求滿足最小二乘法[13],可用帶懲罰項(xiàng)的最小二乘法來(lái)估計(jì),既能保證模型的準(zhǔn)度,又使得樣條函數(shù)在預(yù)測(cè)變量的結(jié)點(diǎn)處能夠?qū)崿F(xiàn)光滑,見(jiàn)公式(9)[14]:
(9)
式中:wi是氨氮質(zhì)量濃度模型的構(gòu)造權(quán)重;sj(xij)是廣義可加氨氮預(yù)測(cè)模型的單變量函數(shù);yi表示樣本的估計(jì)值;n表示樣本個(gè)數(shù);p表示變量個(gè)數(shù)。本研究包括水溫、溶氧、pH和電導(dǎo)率4個(gè)單變量函數(shù)。λ1,λ2,…,λp是各個(gè)單變量函數(shù)的光滑參數(shù),使用廣義交叉驗(yàn)證GCV(λ)進(jìn)行求解[15-16]:
(10)
廣義可加模型的求解采用的是局部積分法[17],此算法在Fisher積分算法中整合了局部光滑方法,其中外部的Fisher積分過(guò)程用于聯(lián)結(jié)函數(shù)的估計(jì),而內(nèi)部的backfitting[18]過(guò)程用于估計(jì)光滑可加項(xiàng),具體計(jì)算過(guò)程參考文獻(xiàn)[19],收斂準(zhǔn)則為:
(11)
式中:m為迭代次數(shù)。
支持向量回歸在小樣本學(xué)習(xí)中表現(xiàn)出卓越的性能,具有理論完備、適應(yīng)性強(qiáng)、模型訓(xùn)練時(shí)間短、泛化能力強(qiáng)等優(yōu)勢(shì),被廣泛地應(yīng)用于模式識(shí)別、回歸估計(jì)等領(lǐng)域。支持向量回歸機(jī)與一般的線性回歸最大的不同是,一般的線性回歸只有當(dāng)模型的輸出與樣本真值完全一致時(shí),損失函數(shù)才為0,而支持向量回歸機(jī)容忍模型與真值之間存在差值ε,當(dāng)模型與真值的差值的絕對(duì)值大于ε時(shí)才計(jì)算損失。支持向量機(jī)的基本公式[20-21]:
(12)
由于廣義可加模型是機(jī)理近似模型,得到的模型計(jì)算值和樣本的實(shí)際值存在著一定的誤差,故使用支持向量回歸機(jī)進(jìn)行有效補(bǔ)償,以同樣的輔助變量為輸入,廣義可加模型的輸出值和樣本真實(shí)值的偏差作為模型的輸出,建立氨氮質(zhì)量濃度誤差補(bǔ)償模型。
選取大菱鲆(Scophthalmusmaximus)為養(yǎng)殖對(duì)象,利用實(shí)驗(yàn)室集約化海水養(yǎng)殖循環(huán)水系統(tǒng)進(jìn)行數(shù)據(jù)采集。由于儀器儀表的測(cè)量精度、測(cè)量方法、人工操作不可避免的誤差等原因會(huì)使得所采集的數(shù)據(jù)不準(zhǔn)確,可能存在異常值,所以需要數(shù)據(jù)預(yù)處理來(lái)剔除異常數(shù)據(jù),還需避免數(shù)據(jù)的不同量綱對(duì)試驗(yàn)結(jié)果產(chǎn)生影響。采用3σ準(zhǔn)則和數(shù)據(jù)歸一化方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,部分?jǐn)?shù)據(jù)如圖2所示。
4.2.1 試驗(yàn)內(nèi)容
使用R語(yǔ)言,將廣義可加模型寫為:
(13)
式中:k為模型超參數(shù),根據(jù)網(wǎng)格搜索法尋優(yōu)確定其值為6,其中g(shù)am為R語(yǔ)言中的廣義可加模型函數(shù)包。s(x0)、s(x1)、s(x2)、s(x3) 分別是水溫、溶氧、電導(dǎo)率、pH與氨氮含量的單變量函數(shù),a為截距。單變量對(duì)氨氮的擬合結(jié)果如圖3所示。
圖2 部分試驗(yàn)數(shù)據(jù)圖
單變量擬合函數(shù)圖中,縱軸表示平滑函數(shù)值,函數(shù)值兩邊的虛線表示可信區(qū)間的上下限[22-23]。同時(shí),偽判定系數(shù)R-sq顯示了模型的解釋能力為0.63,Deviance explained表明模型可解釋的偏差為68%,廣義交叉驗(yàn)證GCV的值為0.028 684,說(shuō)明模型有較好的擬合效果。廣義可加模型參數(shù)中,截距a的估計(jì)值為0.232,模型的標(biāo)準(zhǔn)誤差為0.003,檢驗(yàn)統(tǒng)計(jì)量T值為77.76,觀察到的顯著性水平Pr的值為2e-16。
圖3 單變量擬合函數(shù)圖
4.2.2 試驗(yàn)結(jié)果
根據(jù)氨氮的反應(yīng)機(jī)理,利用網(wǎng)格搜索法對(duì)k進(jìn)行尋優(yōu),最終確定k為6,利用R語(yǔ)言的廣義可加模型的程序包gam()函數(shù)建立廣義可加模型對(duì)氨氮進(jìn)行預(yù)測(cè),得到廣義可加模型的預(yù)測(cè)結(jié)果如圖4所示。
由圖4所示,廣義可加模型的輸出值,基本上可以跟蹤真實(shí)值的趨勢(shì),但是存在著不小的機(jī)理誤差。針對(duì)機(jī)理模型誤差,采用SVR進(jìn)行補(bǔ)償,結(jié)果如圖5(a)所示。通過(guò)將補(bǔ)償前后的兩個(gè)預(yù)測(cè)效果圖進(jìn)行分析比較,可以看出補(bǔ)償前的均方根誤差(RMSE)為0.079,通過(guò)SVR進(jìn)行補(bǔ)償后模型的均方誤差降到了0.066,模型的擬合效果有較大幅度的提升。
圖4 廣義可加模型的擬合效果
為驗(yàn)證比較不同補(bǔ)償模型的效果,分別采用BP神經(jīng)網(wǎng)絡(luò)和隨機(jī)配置神經(jīng)網(wǎng)絡(luò)SCN[26]對(duì)機(jī)理模型進(jìn)行補(bǔ)償。對(duì)BP神經(jīng)網(wǎng)絡(luò),考慮其模型精度,采用雙層神經(jīng)網(wǎng)絡(luò),每層神經(jīng)元個(gè)數(shù)為25,對(duì)隨機(jī)配置的神經(jīng)網(wǎng)絡(luò)SCN令隱藏層最大的層數(shù)是250,隨機(jī)配置的最大次數(shù)是100,隨機(jī)權(quán)重范圍在0.5~250,得到的預(yù)測(cè)結(jié)果如圖5(b)、(c)所示。
通過(guò)對(duì)比補(bǔ)償?shù)慕Y(jié)果圖,可以看出,在相同條件下廣義可加模型加上BP網(wǎng)絡(luò)的補(bǔ)償后模型的均方根誤差為0.069,與SCN網(wǎng)絡(luò)補(bǔ)償?shù)?.068均方根誤差差距不大,但是使用SVR作為補(bǔ)償模型的均方根誤差為0.066,具有較好的優(yōu)越性。與此同時(shí),在相同的數(shù)據(jù)集條件下,將其與單獨(dú)使用BP神經(jīng)網(wǎng)絡(luò)、SCN網(wǎng)絡(luò)[27]以及支持向量回歸SVR模型[28]建立的氨氮質(zhì)量濃度模型進(jìn)行對(duì)比,模型的預(yù)測(cè)結(jié)果如圖6(a)、(b)、(c)所示。不同方法的預(yù)測(cè)結(jié)果比較見(jiàn)表1。
表1 不同模型的訓(xùn)練和測(cè)試效果比較
從表1結(jié)果可以看出,單獨(dú)使用支持向量回歸SVR比單獨(dú)使用BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)配置網(wǎng)絡(luò)SCN有較低的均方根誤差,擬合效果最好;其次是隨機(jī)配置網(wǎng)絡(luò)SCN。分析原因,由于支持向量回歸是建立在結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理上的,適用于小樣本情況下研究統(tǒng)計(jì)學(xué)習(xí)規(guī)律。針對(duì)水環(huán)境系統(tǒng)的復(fù)雜性、非線性和有限樣本等特性,支持向量回歸正好適用于這樣條件下的水質(zhì)預(yù)測(cè)問(wèn)題[29]。而傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò),其模型參數(shù)在訓(xùn)練過(guò)程中容易陷入局部極小值[30],SCN神經(jīng)網(wǎng)絡(luò)雖然運(yùn)算速度較快,但在模型的建立時(shí)需要大量的樣本,故對(duì)于小樣本數(shù)據(jù),利用這兩種方法建立的模型在預(yù)測(cè)精度上不及SVR的效果,與通過(guò)仿真得出來(lái)的結(jié)論一致。
圖5 不同補(bǔ)償模型的預(yù)測(cè)結(jié)果
通過(guò)混合建模的方式將廣義可加模型與支持向量回歸相結(jié)合,通過(guò)訓(xùn)練集和測(cè)試集的對(duì)比,可見(jiàn)混合模型比單獨(dú)使用支持向量回歸SVR、BP神經(jīng)網(wǎng)絡(luò)、隨機(jī)配置網(wǎng)絡(luò)SCN的軟測(cè)量結(jié)果要好。雖然廣義可加機(jī)理近似模型在單獨(dú)模型預(yù)測(cè)上有較高的均方誤差,預(yù)測(cè)效果較其他數(shù)據(jù)驅(qū)動(dòng)模型差,但由于其利用了機(jī)理信息,其預(yù)測(cè)結(jié)果基本能較好反映數(shù)據(jù)變化趨勢(shì)(圖4)。將數(shù)據(jù)驅(qū)動(dòng)模型和利用機(jī)理信息的廣義可加模型相結(jié)合,能夠充分利用二者的優(yōu)勢(shì)。通過(guò)結(jié)果比較可以看出,加入補(bǔ)償模型之后,支持向量回歸補(bǔ)償模型的均方根誤差無(wú)論是在訓(xùn)練集還是在測(cè)試集的表現(xiàn)上都優(yōu)于其他的數(shù)據(jù)驅(qū)動(dòng)模型,模型精度更高,泛化能力更好,并且模型的變化趨勢(shì)能夠更貼近數(shù)據(jù)的分布特點(diǎn),使得模型的預(yù)測(cè)能力較原來(lái)的軟測(cè)量模型有很大的提升。
圖6 不同方法單獨(dú)建模的預(yù)測(cè)結(jié)果
根據(jù)養(yǎng)殖水體中氨氮的機(jī)理分析,采用廣義可加模型進(jìn)行氨氮含量軟測(cè)量,并結(jié)合網(wǎng)格搜索法求解廣義可加模型的超參數(shù),利用SVR算法進(jìn)行了補(bǔ)償。通過(guò)對(duì)比使用單一的BP神經(jīng)網(wǎng)絡(luò),SCN神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果,可以看出基于氨氮在養(yǎng)殖水體的反應(yīng)機(jī)理建立的廣義可加模型,在統(tǒng)計(jì)學(xué)的角度上有較高的解釋性。除此之外,廣義可加模型是一種非參數(shù)模型,建立起來(lái)較為簡(jiǎn)單,適用于小樣本數(shù)據(jù),故選擇SVR配合廣義可加模型進(jìn)行混合建模。試驗(yàn)結(jié)果表明,混合模型具有較低的均方根誤差,更適合養(yǎng)殖過(guò)程氨氮的實(shí)時(shí)檢測(cè)。
□