楊春蕙, 栗小東, 劉 琦, 王迎賓
機(jī)器學(xué)習(xí)方法在舟山漁場主要經(jīng)濟(jì)蟹類生物量估算中的應(yīng)用
楊春蕙, 栗小東, 劉 琦, 王迎賓
(浙江海洋大學(xué) 水產(chǎn)學(xué)院, 浙江 舟山 316022)
掃海面積法因其操作簡單、計(jì)算方便, 被廣泛應(yīng)用于漁業(yè)生物量評(píng)估工作中。但該方法需假設(shè)資源均勻分布, 若要提高生物量評(píng)估的準(zhǔn)確性, 則須增加站位數(shù)量, 進(jìn)而增加經(jīng)費(fèi)預(yù)算。本研究基于2006年8月和2007年1月、5月、11月在舟山漁場海域開展?jié)O業(yè)資源底拖網(wǎng)調(diào)查所獲得的多種經(jīng)濟(jì)蟹類數(shù)據(jù)資料, 模擬分析掃海面積法與機(jī)器學(xué)習(xí)模型(隨機(jī)森林(RF)、梯度提升回歸樹模型(GBRT)、極限梯度提升(XGBoost))對舟山漁場海域三疣梭子蟹()、雙斑鱘()、日本鱘()、細(xì)點(diǎn)圓趾蟹()4種主要經(jīng)濟(jì)蟹類生物量的對比評(píng)估效果。結(jié)果顯示, 隨著投入站點(diǎn)數(shù)目的減少, 在數(shù)據(jù)不集中、波動(dòng)較大的秋、冬季節(jié)XGBoost方法對生物量的評(píng)估效果明顯優(yōu)于掃海面積法, 誤差降低7.49%~21.34%; 而在較為均勻的春、夏兩季, 掃海面積法與機(jī)器學(xué)習(xí)方法兩者結(jié)果的差異不顯著(<0.05)。本研究以幾種經(jīng)濟(jì)蟹類為例, 探索使用機(jī)器學(xué)習(xí)方法評(píng)估其生物量, 達(dá)到了提高評(píng)估準(zhǔn)確性并節(jié)省資源調(diào)查成本的效果, 可在其他漁業(yè)資源種類生物量評(píng)估中推廣應(yīng)用。
資源評(píng)估; 掃海面積法; 隨機(jī)森林; 梯度提升回歸樹; 極限梯度提升回歸
一直以來, 漁業(yè)生物量評(píng)估基本上以掃海面積法為主, 該方法操作簡單、計(jì)算方便, 被廣泛應(yīng)用于漁業(yè)生物量評(píng)估的研究中[1]。但使用該方法須假設(shè)評(píng)估對象在所研究海域是均勻分布的, 因此, 需要以增加調(diào)查站位數(shù)量來提高評(píng)估的準(zhǔn)確性。可見, 目標(biāo)種類生物量的評(píng)估結(jié)果與調(diào)查的站位數(shù)密切相關(guān), 在預(yù)算不高的情況下, 評(píng)估結(jié)果的準(zhǔn)確性將會(huì)降低。
隨著智能化和自動(dòng)化的發(fā)展, 機(jī)器學(xué)習(xí)算法被用于識(shí)別漁船行為[2-6]、確定船舶類型[7-10]。除此之外, 機(jī)器學(xué)習(xí)方法被廣泛地用于魚類豐度和分布預(yù)測[11-14]、種群鑒定[15]、CPUE 標(biāo)準(zhǔn)化[16]以及蟹類、魚類資源分布與環(huán)境因子之間關(guān)系的探究[17-19]等方面。例如, 栗小東等[17]運(yùn)用梯度提升回歸樹(GBRT)和支持向量機(jī)(SVM)這兩種機(jī)器學(xué)習(xí)方法, 分析了三疣梭子蟹時(shí)空分布與環(huán)境因子之間的關(guān)系, 結(jié)果顯示GBRT 模型的預(yù)測性能較高且模型較為穩(wěn)定; 陳雪忠等[20]利用歷史漁海況數(shù)據(jù)訓(xùn)練得到的隨機(jī)森林模型對2010年印度洋長鰭金槍魚分月漁場的預(yù)測, 結(jié)果表明預(yù)測的漁場位置與實(shí)際漁場位置較一致; 張?jiān)评椎萚21]使用提升回歸樹模型研究皮氏叫姑魚() 棲息地中環(huán)境與生物之間關(guān)系的過程中, 發(fā)現(xiàn)提升回歸樹模型不僅能解釋兩者之間的復(fù)雜關(guān)系, 還能夠處理生態(tài)研究中的各種變量關(guān)系。目前基于機(jī)器學(xué)習(xí)方法開展?jié)O業(yè)生物量評(píng)估的研究鮮見報(bào)道[16]。本研究使用隨機(jī)森林(RF)、梯度提升回歸樹(GBRT)、極限梯度提升樹(XGBoost)3種機(jī)器學(xué)習(xí)方法[22], 根據(jù)環(huán)境因子與資源調(diào)查漁獲密度資料的相關(guān)關(guān)系建立模型, 估算舟山漁場4種主要經(jīng)濟(jì)蟹類生物量大小, 并與掃海面積法的估算結(jié)果進(jìn)行了比較分析, 對于探索更為經(jīng)濟(jì)、準(zhǔn)確的生物量和生物量評(píng)估方法, 進(jìn)而為漁業(yè)資源評(píng)估和管理提供更有效的技術(shù)支持是有意義的嘗試。
資源數(shù)據(jù)來自2006年8月, 2007年1月、5月、11月在東海北部海域開展?jié)O業(yè)資源底拖網(wǎng)調(diào)查所獲得的多種經(jīng)濟(jì)蟹類數(shù)據(jù)資料。調(diào)查海域范圍為121°75′~ 124°25′E、29°75′~31°35′N, 調(diào)查區(qū)域共設(shè)置 20個(gè)站位(圖1)。調(diào)查所用船只為主機(jī)功率為184 kW(275HP), 噸位為100 t, 調(diào)查船在每一個(gè)調(diào)查站位拖曳約1 h, 拖速為2 kn。調(diào)查同時(shí)記錄和測定每個(gè)站位的底層海水溫度(SBT)、底層海水鹽度(SBS)以及水深等環(huán)境因子。與東海北部海域歷史數(shù)據(jù)[23-29]相比, 此次調(diào)查優(yōu)勢經(jīng)濟(jì)蟹類組成基本無變化。因此, 選取舟山漁場海域4種優(yōu)勢經(jīng)濟(jì)蟹類種作為主要研究對象, 包括: 三疣梭子蟹()、雙斑鱘()、日本鱘()和細(xì)點(diǎn)圓趾蟹()[23, 30]。海上調(diào)查采樣及實(shí)驗(yàn)室分析方法按照《海洋漁業(yè)資源調(diào)查規(guī)范》(SC/9403—2012)[31]等有關(guān)規(guī)范、標(biāo)準(zhǔn)進(jìn)行。
圖1 調(diào)查站位圖
1.2.1 掃海面積法
掃海面積法是根據(jù)拖網(wǎng)單位時(shí)間的掃海面積和單位時(shí)間拖網(wǎng)漁獲量估算單位面積內(nèi)某種漁業(yè)資源的絕對數(shù)量。采用資源密度計(jì)算[32], 其計(jì)算公式和步驟如下:
式中,為計(jì)算所得舟山漁場海域4種經(jīng)濟(jì)蟹類現(xiàn)存生物量(),D為區(qū)的資源密度(t/km2),A為區(qū)的面積(km2), 其中:
式中,d為區(qū)的資源密度指數(shù)(t/ h),a為調(diào)查船在區(qū)每小時(shí)掃海面積(km2),為逃逸率, 本文取= 0.75[25]。
1.2.2 隨機(jī)森林
無機(jī)鹽是微生物生長不可缺少的營養(yǎng)物質(zhì),對微生物合成RNA有重要意義[25]。研究了幾種無機(jī)鹽對Y17aM3生長及生產(chǎn)RNA的影響,結(jié)果如圖15。只有磷酸對Y17aM3生產(chǎn)RNA促進(jìn)作用最明顯,RNA含量提高至 119 mg-RNA/g-DCW,提高了 7 mg-RNA/g-DCW,而對Y17aM3生長沒有促進(jìn)作用亦沒有抑制作用。
隨機(jī)森林(RF)是基于分類回歸樹(CART)的一種集成方法[33], 采用了bagging的過程, 通過隨機(jī)選擇生成回歸樹, 最后利用投票的方式組合得到最終結(jié)果或利用預(yù)測結(jié)果得到最終值[34]。其特點(diǎn)是這些回歸樹的每一節(jié)點(diǎn)的分割變量不再由所有變量競爭產(chǎn)生, 而是由隨機(jī)選取的變量產(chǎn)生, 且產(chǎn)生每棵樹的樣本選取是隨機(jī)的, 生成的每棵樹上的節(jié)點(diǎn)也是隨機(jī)產(chǎn)生的。因此, 隨機(jī)森林所建造的樹與樹之間是沒有關(guān)聯(lián)的, 在計(jì)算結(jié)果時(shí)要對每棵樹單獨(dú)擬合回歸, 取平均預(yù)測結(jié)果作為其預(yù)測值[16]。隨機(jī)森林在建造樹時(shí), 對泛化誤差使用的是無偏估計(jì), 模型泛化能力強(qiáng), 且可在有缺失值的情況下維持一定精度。隨機(jī)森林由于集成調(diào)整了學(xué)習(xí)樣本中的細(xì)小變化所帶來的分類樹的不穩(wěn)定性, 因此與單個(gè)分類樹相比大大提升了預(yù)測精度[35]。
1.2.3 梯度提升回歸樹
梯度提升回歸樹(GBRT)是一種基于學(xué)習(xí)器為回歸樹的組合算法, 主要由殘差樹、梯度提升和縮減算法3部分組成[36]。它將梯度提升與回歸樹相結(jié)合, 其中每一棵新的回歸樹擬合學(xué)習(xí)的都是基于前一棵回歸樹學(xué)習(xí)后的殘差, 用梯度提升的方法不斷降低殘差, 對殘差的學(xué)習(xí)也使得回歸樹變成了殘差樹[37], 即以損失函數(shù)的梯度下降方向?yàn)榛A(chǔ)建立新的回歸樹, 最終的輸出結(jié)果就是每棵回歸樹輸出結(jié)果的累加, 從而使結(jié)果得到改進(jìn)[38]。通過多棵決策樹結(jié)合共同決策, 經(jīng)過若干次提升法迭代過程后, 輸出最終模型[39], 進(jìn)而縮減算法提升學(xué)習(xí)效果和速度。
1.2.4 極限梯度提升回歸
XGBoost (Extreme Gradient Boosting)模型屬于GBDT模型的一個(gè)改進(jìn)版本, 其與傳統(tǒng)的GBDT最大區(qū)別在于: GBDT在優(yōu)化時(shí)只使用泰勒一階展開, 而XGBoost則使用泰勒二階展開, 并且XGBoost還引入正則項(xiàng)[40], 是一種基于決策樹的集成學(xué)習(xí)提升方法, 將弱的基分類器組合為更強(qiáng)的分類器[41], 更不容易過擬合。由于它在梯度提升回歸樹的基礎(chǔ)上進(jìn)行了改進(jìn)提出的算法, 其優(yōu)勢表現(xiàn)在數(shù)據(jù)處理效率高效果好泛化能力強(qiáng)主要從以下3個(gè)方面進(jìn)行了優(yōu)化: 算法本身優(yōu)化、運(yùn)行效率優(yōu)化、健壯性優(yōu)化[42]。
環(huán)境因子的選擇過程包括兩個(gè)部分: 優(yōu)勢種特性與環(huán)境因子之間的關(guān)系以及模型擬合和評(píng)估的結(jié)果比較[23-24]。4種經(jīng)濟(jì)蟹類作為底層游泳動(dòng)物, 主要受底層海洋環(huán)境影響, 影響它們分布的主要環(huán)境因素包括底層海水溫度、底層海水鹽度、水深、pH、葉綠素濃度[43], 將此5種影響因子作為解釋變量, 單位網(wǎng)次漁獲量作為響應(yīng)變量, 選擇季節(jié)作為時(shí)間變量。
通過逐步回歸的方法將環(huán)境因子逐個(gè)帶入模型, 利用方差解釋率來評(píng)價(jià)模型的擬合效果, 方差解釋率越高, 表明模型擬合效果越理想。在逐個(gè)添加模型因子的過程中, 當(dāng)方差解釋率不再增加時(shí), 則停止添加因子并選擇此時(shí)的模型為最佳模型[17, 44]。方差解釋率的計(jì)算方法如下:
式中, Var(residual)為殘差方差, Var()為原始數(shù)據(jù)方差。
以上3種模型的構(gòu)建和檢驗(yàn)過程均在R 3.6.3軟件實(shí)現(xiàn), 其中RF模型由“randomForest”包構(gòu)建, GBRT模型由“gbm”包構(gòu)建, XGBoost模型由“xgboost”包構(gòu)建。
本研究將基于掃海面積法估算所得調(diào)查海域20個(gè)站位4種經(jīng)濟(jì)蟹類的全部生物量為真實(shí)值。根據(jù)站位點(diǎn)將調(diào)查海域劃分為20個(gè)等面積棋盤格式分布區(qū)域。利用Arcgis軟件根據(jù)漁業(yè)調(diào)查海域范圍經(jīng)緯度數(shù)據(jù)估算調(diào)查海域總面積(),約為24 142.44 km2。因此, 調(diào)查海域所劃分的20個(gè)等面積棋盤格式分布區(qū)域中每部分面積約為1 207.122 km2。
在對舟山漁場四種經(jīng)濟(jì)蟹類生物量評(píng)估模型的創(chuàng)建過程中, 通過方差解釋率來評(píng)價(jià)RF、GBRT、XGBoost3種機(jī)器學(xué)習(xí)模型的擬合效果(表1), 結(jié)果如表1所示, 除秋季各環(huán)境因子之間不存在共線性問題以外, 其余3個(gè)季節(jié)環(huán)境因子之間均存在不同程度的共線性問題, 通過逐步刪除共線性較為嚴(yán)重的因子最終篩選得到各季節(jié)建模所使用的環(huán)境因子數(shù)據(jù)。利用方差解釋率對篩選所得到的環(huán)境因子數(shù)據(jù)進(jìn)行組合, 評(píng)價(jià)不同組合下模型的擬合效果, 得到不同季節(jié)情況下RF、GBRT、XGBoost3種機(jī)器學(xué)習(xí)方法的環(huán)境因子最優(yōu)組合結(jié)果(表2)。比較不同模型各季節(jié)最優(yōu)組合可知, 不同季節(jié)最優(yōu)模型所包含的環(huán)境因子有所差異, 春季RF和XGBoost模型包含SBT和pH兩個(gè)環(huán)境因子, GBRT模型比二者多包含了環(huán)境因子Chlorophyll A; 夏季RF模型包含SBT、Chlorophyll A、WD 3 個(gè)環(huán)境因子, GBRT和XGBoost模型多包含了pH; 秋季3種模型共同擁有Chlorophyll A、SBS兩個(gè)環(huán)境因子; 冬季3種模型共同擁有Chlorophyll A、pH兩個(gè)環(huán)境因子, 且RF和GBRT模型多包含了WD。
表1 各季節(jié)環(huán)境因子共線性檢驗(yàn)
注: 表格空缺處為 VIF 檢驗(yàn)中刪去的因子, 每個(gè)季節(jié)最后一行為篩選后剩余的因子
表2 3種機(jī)器學(xué)習(xí)方法環(huán)境因子最優(yōu)組合
剔除站位空值后, 春、夏、秋、冬4季可用站位數(shù)分別為14、14、16和16。在逐個(gè)減少站位數(shù)量時(shí), 掃海面積法、RF、GBRT、XGBoost4種方法在評(píng)估研究海域幾種經(jīng)濟(jì)蟹類生物量情況的結(jié)果中都出現(xiàn)了離散度不斷增大的情況, 表示評(píng)估方法的準(zhǔn)確性在逐步降低(圖2), 特別是秋冬兩季評(píng)估結(jié)果離散度隨投入站位個(gè)數(shù)的減少而明顯增大, 而當(dāng)投入站位數(shù)量大于12時(shí), 4種方法的預(yù)測結(jié)果都接近真實(shí)值。
注: 圖中紅線代表該季節(jié)4種經(jīng)濟(jì)蟹類全部生物量的真實(shí)值; 箱子表示由大到小排列而成的全部評(píng)估數(shù)據(jù); 箱子上下緣分別表示該組數(shù)據(jù)的上四分位數(shù)和下四分位數(shù); 橫線為該組數(shù)據(jù)的中位數(shù); 圓圈為異常值
當(dāng)投入的調(diào)查站位數(shù)量逐漸減少時(shí), 4種方法的評(píng)估結(jié)果誤差均逐漸增大。春季站位間調(diào)查數(shù)據(jù)較為均勻, 3種機(jī)器學(xué)習(xí)方法的評(píng)估效果與掃海面積法相比并沒有明顯優(yōu)勢, 特別是XGBoost的評(píng)估結(jié)果誤差較大且受投入站位數(shù)量影響明顯; 夏季, GBRT評(píng)估效果較好, RF評(píng)估結(jié)果與掃海面積法結(jié)果相似, XGBoost評(píng)估結(jié)果波動(dòng)大; 秋季和冬季, GBRT與XGBoost模型評(píng)估效果較好, RF評(píng)估結(jié)果與掃海面積法結(jié)果相似 (圖2、圖3)。
圖3 4種模型評(píng)估結(jié)果絕對差的比較圖
掃海面積法是漁業(yè)資源生物量評(píng)估最常用的方法之一, 本研究中該方法在春季和夏季評(píng)估結(jié)果優(yōu)于其他3種機(jī)器學(xué)習(xí)方法, 而在秋季和冬季XGBoost方法評(píng)估效果更好。掃海面積法、RF對秋、冬兩季經(jīng)濟(jì)蟹類生物量出現(xiàn)高估現(xiàn)象(圖2)。春季和夏季4種經(jīng)濟(jì)蟹類站位間調(diào)查漁獲量最大值與最小值之間的差異顯著小于秋、冬兩季(<0.05), 數(shù)據(jù)分布更為集中且波動(dòng)平緩。掃海面積法與3種機(jī)器學(xué)習(xí)方法對不同站位數(shù)量下生物量進(jìn)行評(píng)估時(shí), 秋冬兩季評(píng)估結(jié)果離散度隨投入站位個(gè)數(shù)的減少而明顯增大(圖2、圖3)。這表明極端值和數(shù)據(jù)分布對于經(jīng)濟(jì)蟹類生物量評(píng)估方法均有一定程度的影響, 特別是對機(jī)器學(xué)習(xí)方法的性能影響較大。
掃海面積法為基于平均資源密度這一思路進(jìn)行漁業(yè)資源量估測的方法, 即假設(shè)資源個(gè)體是均勻分布的[45], 因此在數(shù)據(jù)分布集中的春、夏兩季評(píng)估效果優(yōu)勢明顯。在機(jī)器學(xué)習(xí)方法層面, PENNINGTON[46]認(rèn)為極端值會(huì)極大地影響評(píng)估效果, 但盲目地刪除極端值也會(huì)使評(píng)估結(jié)果偏離, 未來在進(jìn)行經(jīng)濟(jì)蟹類生物量評(píng)估時(shí)也可參考國外學(xué)者采用的負(fù)二項(xiàng)分布、Gamma分布、泊松分布和Δ-分布等多種模型對數(shù)據(jù)進(jìn)行估算。除此之外, 漁業(yè)資源本身具有一定的流動(dòng)性和波動(dòng)性[47], 在評(píng)估的過程中無法忽視環(huán)境因子與漁業(yè)資源分布的關(guān)系。不季節(jié)不同, 環(huán)境因子也會(huì)發(fā)生變化, 機(jī)器學(xué)習(xí)方法因?yàn)榭紤]到環(huán)境因子對評(píng)估結(jié)果的影響, 考慮范圍更加全面、合理。
在大多數(shù)情況下RF模型擬合和交叉驗(yàn)證效果很好, 能夠應(yīng)對數(shù)據(jù)較少、數(shù)據(jù)集不平衡、特征值遺失等情況[48-50], 但本文中隨機(jī)森林的優(yōu)勢并未展現(xiàn)。DOMOKOS[51]認(rèn)為由于隨機(jī)森林模型是由大量只含部分特征變量的決策樹組成, 其預(yù)報(bào)結(jié)果由決策樹輸出類別的眾數(shù)決定, 所以由隨機(jī)森林模型得出的評(píng)估結(jié)果難以進(jìn)行人為解釋。除此之外, 本文還考慮為RF模型對于含有較多噪聲的樣本也會(huì)發(fā)生過度擬合現(xiàn)象[50]。因此在利用RF模型對研究海域資源量生物量進(jìn)行評(píng)估時(shí), 應(yīng)配合其他方法進(jìn)行進(jìn)一步的分析和解釋。
GBRT模型作為一種基于殘差學(xué)習(xí)的集成方法, 因其能夠在數(shù)據(jù)異常的情況下分析處理數(shù)據(jù), 而被廣泛應(yīng)用于各類型的數(shù)據(jù)訓(xùn)練中, 但近期有學(xué)者, 在對梯度提升回歸樹的研究中發(fā)現(xiàn)[36], 梯度提升回歸樹算法在處理訓(xùn)練樣本時(shí)過于粗糙。因?yàn)镚BRT簡單均值函數(shù)作為葉節(jié)點(diǎn)的預(yù)測函數(shù), 在某個(gè)葉節(jié)點(diǎn)上做輸出變量預(yù)測時(shí)同等考慮所有到達(dá)該葉節(jié)點(diǎn)的訓(xùn)練樣本, 這使得建模時(shí)會(huì)過度依賴數(shù)據(jù)的質(zhì)量, 從而無法達(dá)到預(yù)測準(zhǔn)確。雖然數(shù)據(jù)量對GBRT模型的最優(yōu)擬合作用的發(fā)揮產(chǎn)生影響, 但可以通過改進(jìn)模型從而提高擬合效果。呂佳[36]提出可以通過結(jié)合 K近鄰算法的思想對梯度提升回歸樹模型的預(yù)測函數(shù)做了改進(jìn)并修改原梯度提升回歸樹算法的縮減步長, 讓其能自我學(xué)習(xí)來達(dá)到提高模型評(píng)估的準(zhǔn)確度和效率。綜上所述, 隨著機(jī)器學(xué)習(xí)方法不斷完善和改進(jìn), 在未來機(jī)器學(xué)習(xí)方法應(yīng)用于漁業(yè)資源量生物量評(píng)估的優(yōu)勢會(huì)更加明顯。
本研究在3種機(jī)器學(xué)習(xí)方法在應(yīng)用過程中, 所用到的參數(shù)多為默認(rèn)值, 均未調(diào)整為最優(yōu)擬合作用的情況, 因此會(huì)影響機(jī)器學(xué)習(xí)方法對結(jié)果評(píng)估的準(zhǔn)確性, 導(dǎo)致評(píng)估結(jié)果存在誤差、趨勢不明顯等問題。從模型本身的性質(zhì)分析可以發(fā)現(xiàn)3種機(jī)器學(xué)習(xí)方法還有可以繼續(xù)優(yōu)化的空間, 因此在今后的運(yùn)用中相較于掃海面積法的優(yōu)勢會(huì)愈加明顯。
本研究使用3種機(jī)器學(xué)習(xí)模型對舟山漁場4種經(jīng)濟(jì)蟹類的生物量進(jìn)行了評(píng)估, 并與掃海面積法的估算結(jié)果進(jìn)行了比較。掃海面積法作為傳統(tǒng)的漁業(yè)資源量生物量評(píng)估方法其假設(shè)資源個(gè)體是均勻分布的, 因此需要較多站位來提高資源量生物量評(píng)估的準(zhǔn)確性, 在預(yù)算不高的情況下難以做到精準(zhǔn)實(shí)用。而機(jī)器學(xué)習(xí)方法是根據(jù)資源和環(huán)境因子的相關(guān)關(guān)系, 評(píng)估資源量生物量的分布特征, 從而估算研究海域漁業(yè)資源量生物量大小。隨著投入站點(diǎn)數(shù)目的減少, 在數(shù)據(jù)波動(dòng)較大的情況下機(jī)器學(xué)習(xí)方法對生物量的評(píng)估效果明顯優(yōu)于掃海面積法。機(jī)器學(xué)習(xí)所用到的環(huán)境因子可以從資源調(diào)查或者環(huán)境監(jiān)測數(shù)據(jù)中獲得, 不會(huì)增加數(shù)據(jù)獲取成本, 且經(jīng)濟(jì)效益顯著。但在漁業(yè)資源分布較為均勻的情況下, 傳統(tǒng)的掃海面積法同樣得到了較為理想的估算結(jié)果。因此, 在研究經(jīng)費(fèi)有限的情況下, 采取機(jī)器學(xué)習(xí)方法對經(jīng)濟(jì)蟹類生物量評(píng)估具有重要意義。
本研究仍存在諸多不足之處, 對于研究海域20個(gè)站點(diǎn)的劃分, 刻意劃分其為等面積的棋盤格式區(qū)域, 這是數(shù)據(jù)誤差來源之一。由于剔除了空值方便模型的評(píng)估和數(shù)據(jù)的處理, 一定程度上給4種經(jīng)濟(jì)蟹類資源量資源估算帶來誤差。在今后的研究中, 作者將進(jìn)一步考慮從真實(shí)值的取值方式以及研究海域劃分入手, 進(jìn)一步對數(shù)據(jù)進(jìn)行挖掘, 并用熱圖等方式更為直接地表現(xiàn)出來, 為實(shí)際應(yīng)用過程中, 低成本、高效率的漁業(yè)資源評(píng)估方法提供理論依據(jù)。
[1] 詹秉義. 漁業(yè)資源評(píng)估[M]. 北京: 中國農(nóng)業(yè)出版社, 1995. ZHAN Bingyi. Fishery resources assessment [M]. Beijing: China Agriculture Press, 1995.
[2] JOO R, BERTRAND S, CHAIGNEAU A, et al. Optimization of an artificial neural network for identifying fishing set positions from VMS data: An example from thepurse seine fishery[J]. Ecological Modelling, 2011, 222(4): 1048-1059.
[3] 寧耀. 基于深度學(xué)習(xí)的漁船行為識(shí)別方法研究[D]. 蘭州: 蘭州大學(xué), 2020. NING Yao. Fishing behavior recognition method based on the deep learning research[D]. Lanzhou: Lanzhou University, 2020.
[4] 儲(chǔ)倩. 基于機(jī)器學(xué)習(xí)的漁船軌跡數(shù)據(jù)挖掘與行為識(shí)別模型[D]. 蘭州: 蘭州大學(xué), 2021. CHU Qian. Fishing boat trajectory data mining and behavior recognition model based on machine learning[D]. Lanzhou: Lanzhou University, 2021.
[5] MAZZARELLA F, VESPE M, DAMALAS D, et al. Discovering vessel activities at sea using AIS data: Mapping of fishing footprints[C]//International Conference on Information Fusion, Salamanca, Spain: IEEE, 2014: 1-7.
[6] 于永照. 基于LightGBM、LGB-NN模型的漁場預(yù)報(bào)應(yīng)用研究[D]. 蘭州: 蘭州大學(xué), 2020. YU Yongzhao. Application research of fishing ground forecast based on LightGBM and LGB-NN model[D]. Lanzhou: Lanzhou University, 2020.
[7] SOUZA E N D, BOERDER K, MATWIN S, et al. Improving fishing pattern detection from satellite AIS using data mining and machine learning[J]. Plos One, 2016, 11(7): eo158248.
[8] 鄭巧玲, 樊偉, 張勝茂, 等. 基于神經(jīng)網(wǎng)絡(luò)和VMS的漁船捕撈類型辨別[J]. 南方水產(chǎn)科學(xué), 2016, 12(2): 81-87. ZHENG Qiaoling, FAN Wei, ZHANG Shengmao, et al. Fishing type identification of fishing vessels based on neural network and VMS[J]. Southern Fisheries Science, 2016, 12(2): 81-87.
[9] KROODSMA D A, MAYORGA J, HOCHBERG T, et al. Tracking the global footprint of fisheries[J]. Science, 2018, 359(6378): 904.
[10] HUANG H G, HONG F, LIU J, et al. FVID: Fishing vessel type identification based on VMS trajectories[J]. Journal of Ocean University of China, 2019, 18(2): 403- 412.
[11] BARAN P, LEK S, DELACOSTE M, et al. Stochastic models that predict trout population density or biomass on a mesohabitat scale[J]. Hydrobiologia, 1996, 337 (1/3): 1-9.
[12] LEK S, BELAUD A, BARAN P, et al. Role of some environmental variables in trout abundance models using neural networks[J]. Aquatic Living Resources, 1996, 9(1): 23-29.
[13] MARAVELIAS C D, HARALABOUS J, PAPACONSTANTINOU C. Predicting demersal fish species distributions in the Mediterranean Sea using artificial neural networks[J]. Marine Ecology Progress Series, 2003, 255: 249-258.
[14] LI Z G, WAN R, YE Z J, et al. Use of random forests and support vector machines to improve annual egg production estimation[J]. Fisheries Science, 2017, 83: 1-11.
[15] HARALABOUS J, GEORGAKARAKOS S. Artificial neural networks as a tool for species identification of fish schools[J]. ICES Journal of Marine Science, 1996, 53(2): 173-180.
[16] 楊勝龍, 張禹, 張衡, 等.不同模型在漁業(yè)CPUE標(biāo)準(zhǔn)化中的比較分析[J].農(nóng)業(yè)工程學(xué)報(bào), 2015, 31(21): 259-264. YANG Shenglong, ZHANG Yu, ZHANG Heng, et al. Comparative analysis of different models in fishery CPUE standardization[J]. Transactions of the Chinese Society of Agricultural Engineering, 2015, 31(21): 259-264.
[17] 栗小東, 王晶, 楊春蕙, 等. 基于兩種機(jī)器學(xué)習(xí)方法分析東海北部海域三疣梭子蟹()時(shí)空分布[J]. 海洋與湖沼, 2021, 52(5): 1284- 1292. LI Xiaodong, WANG Jing, YANG Chunhui, et al. Spatial and temporal distribution ofin the northern part of the East China Sea based on two machine learning methods[J]. Oceanologia et Limnologia Sincia, 2019, 52(5): 1284-1292.
[18] LUAN J, ZHANG C L, XU B D, et al. Modelling the spatial distribution of three Portunidae crabs in Haizhou Bay, China[J]. PLoS One, 2018, 13(11): e0207457.
[19] 欒靜, 張崇良, 徐賓鐸, 等. 海州灣雙斑蟳棲息分布特征與環(huán)境因子的關(guān)系[J]. 水產(chǎn)學(xué)報(bào), 2018, 42(6): 889-901. LUAN Jing, ZHANG Chongliang, XU Binduo, et al. Relationship between double-spotted habitat distribution characteristics and environmental factors in Haizhou Bay[J]. Journal of Fisheries, 2018, 42 (6): 889-901.
[20] 陳雪忠, 樊偉, 崔雪森, 等. 基于隨機(jī)森林的印度洋長鰭金槍魚漁場預(yù)報(bào)[J]. 海洋學(xué)報(bào)(中文版), 2013, 35(1): 158-164. CHEN Xuezhong, FAN Wei, CUI Xusen, et al. Random forest-based longfin tuna fishery forecast in the Indian Ocean[J]. Acta Oceanologica Sinica, 2013, 35 (1): 158-164.
[21] 張?jiān)评? 薛瑩, 于華明, 等. 海州灣春季皮氏叫姑魚棲息地適宜性研究[J]. 海洋學(xué)報(bào), 2018, 40(6): 83-91. ZHANG Yunlei, XUE Ying, YU Huaming, et al. Habitat suitability study of Pefish in Haizhou Bay[J]. Journal of Oceanography, 2018, 40 (6): 83-91.
[22] GUNDERSON D R. Surveys of fisheries resources[M]. New York: John Wiley and Sons, 1993: 1-31.
[23] 盧衎爾, 張洪亮, 朱文斌, 等. 浙江近海春、夏季蟹類群落結(jié)構(gòu)及其與環(huán)境因子的關(guān)系[J]. 水生生物學(xué)報(bào), 2019, 43(3): 612-622. LU Caoer, ZHANG Hongliang, ZHU Wenbin, et al. Crab community structure and its relationship with environmental factors in spring and summer offshore Zhejiang[J]. Hydrobiology Journal, 2019, 43 (3): 612-622.
[24] 俞存根, 宋海棠, 姚光展. 東海蟹類群落結(jié)構(gòu)特征的研究[J]. 海洋與湖沼, 2005, 36(3): 213-220. YU Cungen, SONG Haitang, YAO Guangzhan. Structure characteristics of crab community in the East China Sea[J]. Oceanologia et Limnologia Sincia, 2005, 36(3): 213-220.
[25] 俞存根, 宋海棠, 姚光展. 東海大陸架海域蟹類資源量的評(píng)估[J]. 水產(chǎn)學(xué)報(bào), 2004, 1: 41-46. YU Cungen, SONG Haitang, YAO Guangzhan. Assessment of crab resources in the continental shelf area of the East China Sea[J]. Journal of Fisheries, 2004, 1: 41-46.
[26] 徐兆禮. 甌江口海域夏秋季蟹類數(shù)量分布與環(huán)境的關(guān)系[J]. 水產(chǎn)學(xué)報(bào), 2009, 33(2): 237-244. XU Zhaoli. The relationship between the distribution of crab population and the environment in summer and autumn[J]. Journal of Fisheries, 2009, 33(2): 237-244.
[27] 張洪亮, 張龍, 陳峰, 等. 浙江南部近岸海域春季蟹類群落結(jié)構(gòu)特征[J]. 中國水產(chǎn)科學(xué), 2013, 20(5): 1050-1056. ZHANG Hongliang, ZHANG Long, CHEN Feng, et al. Structural characteristics of spring crab community in the coastal waters of southern Zhejiang province[J]. China Fisheries Science, 2013, 20 (5): 1050-1056.
[28] 梁金玲, 章守宇, 汪振華, 等. 馬鞍列島海域蟹類群落結(jié)構(gòu)及其多樣性[J]. 生態(tài)學(xué)雜志, 2016, 35(2): 431-440. LIANG Jinling, ZHANG Shouyu, WANG Zhenhua, et al. Crab community structure and diversity in the waters of Maan Islands[J]. Journal of Ecology, 2016, 35 (2): 431-440.
[29] 楊剛. 山東近海蟹類群落結(jié)構(gòu)及三疣梭子蟹生長參數(shù)、資源量研究[D]. 上海: 上海海洋大學(xué), 2017. YANG Gang. Study on community structure and growth parameters and resources of Shandong[D]. Shanghai: Shanghai Ocean University, 2017.
[30] 徐雪, 唐偉堯, 王迎賓. 舟山漁場及長江口漁場臨近海域三疣梭子蟹增殖容量估算[J]. 南方水產(chǎn)科學(xué), 2019, 15(3): 126-132. XU Xue, TANG Weiyao, WANG Yingbin. Estimation of proliferation capacity of swimming crabs in Zhoushan fishery and Yangtze Estuary fishery[J]. Southern Aquatic Sciences, 2019, 15 (3): 126-132.
[31] 中華人民共和國國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局. GB/T 12763.6—2007海洋調(diào)查規(guī)范第6部分海洋生物調(diào)查[S]. 北京: 中國標(biāo)準(zhǔn)出版社 2007. General Administration of Quality Supervision, Inspection and Quarantine of the People's Republic of China. GB/T 12763.6—2007 Code for Marine survey Part 6 Marine biological survey[S]. Beijing: Standards Press of China 2007.
[32] 耿寶龍, 邱盛堯. 靖海灣三疣梭子蟹增殖放流資源量貢獻(xiàn)率的調(diào)查研究[J]. 煙臺(tái)大學(xué)學(xué)報(bào)(自然科學(xué)與工程版), 2014, 27(1): 71-74. GENG Baolong, QIU Shengyao. Investigation on the contribution rate of the proliferation and release of swimming crab in Jing Bay[J]. Journal of Yantai University (Natural Science and Engineering edition), 2014, 27 (1): 71-74.
[33] BREIMAN L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[34] LANTZ B. Machine learning with R(2nd ed)[M]. Birmingham: Packt Publishing, 2015.
[35] STROBL C, BOULESTEIX A L, ZEILEIS A, et al. Bias in random forest variable importance measures: illustrations, sources and a solution[J].BMC bioinformatics, 2007, 8: 25.
[36] 呂佳. 梯度提升回歸樹算法研究及改進(jìn)[D]. 上海: 上海交通大學(xué), 2017. LV Jia. Research and improvement of the gradient lifting regression tree algorithm[D]. Shanghai: Shanghai Jiao Tong University, 2017.
[37] FRIEDMAN J H. Greedy function approximation: a gradient boosting machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232.
[38] SAKHNOVICH A. On the GBDT version of the B?cklund-Darboux transformation and its applications to linear and nonlinear equations and Weyl theory[J]. Mathematical Modelling of Natural Phenomena, 2012, 5(4): 340-389.
[39] 趙衛(wèi)東, 董亮. 機(jī)器學(xué)習(xí)[M]. 北京: 人民郵電出版社, 2018: 53. ZHAO Weidong, DONG Liang. Machine learning[M]. Beijing: People's Posts and Telecommunications Press, 2018: 53.
[40] 王青松, 謝興生, 佘顥. 基于CNN-XGBoost混合模型的短時(shí)交通流預(yù)測[J]. 測控技術(shù), 2019, 38(4): 37-40, 67. WANG Qingsong, XIE Xingsheng, SHE Hao. Short- time traffic flow prediction based on a CNN-XGBoost mixed model[J]. Measurement and Control Technology, 2019, 38 (4): 37-40, 67.
[41] QIAN K, REN Z, DONG F, et al.Deep wavelets for heart sound classification[C]//Proceedings of the 28th International Symposium on Intelligent Signal Processing and Communication Systems (ISPACS). Piscataway: IEEE, 2019
[42] 呂盼成. 基于集成學(xué)習(xí)的雅礱江流域中長期徑流預(yù)報(bào)研究[D]. 北京: 華北電力大學(xué), 2021. LV Pancheng. Research on medium and long-term runoff prediction in Yalong River Basin based on integrated learning[D]. Beijing: North China Electric Power University, 2021.
[43] 丁朋朋, 高春霞, 田思泉, 等. 浙江南部近海蟹類群落結(jié)構(gòu)及其與環(huán)境因子的關(guān)系[J]. 海洋漁業(yè), 2019, 41(6): 652-662. DING Pengpeng, GAO Chunxia, TIAN Siquan, et al. Community structure and its relationship with environmental factors in southern Zhejiang[J]. Marine Fisheries, 2019, 41(6): 652-662.
[44] KABACOFF R I. R in action: data analysis and graphics with R[M]. Shelter Island: Manning Publications, 2011: 1-474.
[45] 黃良敏, 李軍, 張雅芝, 等. 閩江口及附近海域漁業(yè)資源現(xiàn)存量評(píng)析[J]. 熱帶海洋學(xué)報(bào), 2010, 29(5): 142-148. HUANG Liangmin, LI Jun, ZHANG Yazhi, et al. Evaluation of the existing quantity of fishery resources in Minjiang Estuary and nearby waters[J]. Journal of Tropical Oceanography, 2010, 29(5): 142-148.
[46] PENNINGTON M. Estimating the mean and variance from highly skewed marine data[J]. Fishery Bulletin, 1996, 94(3): 498-505.
[47] 陳新軍. 海洋漁業(yè)資源可持續(xù)利用評(píng)價(jià)[D]. 南京: 南京農(nóng)業(yè)大學(xué), 2001. CHEN Xinjun. Evaluation of the sustainable utilization of marine fishery resources[D]. Nanjing: Nanjing Agricultural University, 2001.
[48] 方匡南, 吳見彬, 朱建平, 等. 隨機(jī)森林方法研究綜述[J]. 統(tǒng)計(jì)與信息論壇, 2011, 26(3): 32-38. FANG Kuangnan, WU Jianbin, ZHU Jianping, et al. Review of random forest methods studies[J]. Statistics and Information Forum, 2011, 26(3): 32-38.
[49] 董師師, 黃哲學(xué). 隨機(jī)森林理論淺析[J]. 集成技術(shù), 2013, 2(1): 1-7. DONG Shishi, HUANG Zhexue. Analysis of random forest theory[J]. Integration Technology, 2013, 2 (1): 1-7.
[50] SEGAL M R. Machine learning benchmarks and random forest regression[J].Center for Bioinformatics & Molecular Biostatistics, 2004, 1-14.
[51] DOMOKOS R K, SEKI M P, POLOVINA J J, et al. Oceanographic investigation of the American Samoa albacore () habitat and longline fishing grounds[J]. Fisheries Oceanography, 2007, 16(6): 555-572.
Application of machine learning methods for estimating the biomass of economically important crabs in the Zhoushan fishery
YANG Chun-hui, LI Xiao-dong, LIU Qi, WANG Ying-bin
(College of Fisheries, Zhejiang Ocean University, Zhoushan 316022, China)
The swept area method is currently widely used in biomass assessment of fisheries because of its simplicity. However, this method assumes a uniform distribution of resources, and to improve the accuracy of biomass assessment, many stations must be sampled, which increases financial costs. In this study, we simulated and analyzed the biomass assessment process; further, we explored the use of machine learning methods to assess the biomass of economically important crab species,,, andin the Zhoushan fishing ground based on data obtained from bottom trawl surveys of fishery resources conducted in August 2006 and January, May, and November 2007. The results showed that with the reduction of the number of survey stations, the performance of the Extreme Gradient Boost method was better than that of the swept area method in autumn and winter when crabs were dispersed, and the estimated error decreased by 7.49%–21.34%. In spring and summer, when crabs were more evenly dispersed, there was no significant difference between the estimated biomass obtained using the swept area method and machine learning methods (< 0.05). We conclude that the machine learning methods improve the accuracy of assessment and save the cost of resource surveys, suggesting that they can be used in the biomass assessment of other fishery resource species.
stock assessment; swept area method; random forest; gradient lifting regression tree; extreme gradient boosting
Nov. 27, 2022
[Zhejiang Basic Public Welfare Project, No. LGN21C190009; Zhoushan Science and Technology Bureau Project, No. 2022C41003]
S932.5+2
A
1000-3096(2023)9-0061-10
10.11759/hykx20221127002
2022-11-27;
2023-03-16
浙江省基礎(chǔ)公益計(jì)劃項(xiàng)目(LGN21C190009); 舟山市科技局項(xiàng)目(2022C41003)
楊春蕙(1997—), 女, 山東臨沂人, 碩士研究生, 主要從事漁業(yè)資源評(píng)估研究, E-mail: 17806283525@163.com; 王迎賓(1979—), 男, 河北唐山人, 通信作者, 教授, 博士生導(dǎo)師, 主要從事漁業(yè)資源評(píng)估與管理、漁業(yè)資源種群動(dòng)力學(xué)和漁業(yè)生態(tài)學(xué)研究, E-mail: ybwang@zjou.edu.cn
(本文編輯: 譚雪靜)