呂 超,孫佳新,劉 爽
利用機(jī)器學(xué)習(xí)算法的海洋漁船捕撈能力影響因素權(quán)重分析
呂 超,孫佳新,劉 爽※
(上海海洋大學(xué)工程學(xué)院,上海 201306)
針對傳統(tǒng)方法在宏觀層面上進(jìn)行海洋漁船捕撈能力計量分析中,對指標(biāo)數(shù)量要求有限,考慮因素不足、漁船作業(yè)數(shù)據(jù)利用不充分等問題,該研究在分析南海三省2018至2019年間,約20萬條海洋漁船捕撈監(jiān)測數(shù)據(jù)特征的基礎(chǔ)上,提出了基于機(jī)器學(xué)習(xí)算法的單船捕撈能力影響因素權(quán)重分析評價模型。首先,利用四分位法、主成分分析法以及數(shù)據(jù)標(biāo)準(zhǔn)化與獨熱編碼法對原始數(shù)據(jù)集進(jìn)行了清洗處理,獲得了4萬余條可靠數(shù)據(jù)。進(jìn)一步,采用機(jī)器學(xué)習(xí)算法,構(gòu)建了BP神經(jīng)網(wǎng)絡(luò)、決策樹和隨機(jī)森林算法分析模型,同時,利用網(wǎng)格搜索和交叉驗證結(jié)合遍歷循環(huán)創(chuàng)建6000次生成學(xué)習(xí)曲線,結(jié)果表明隨機(jī)森林模型的均方誤差、平均絕對誤差和可決系數(shù)均最優(yōu),表現(xiàn)最好的一組參數(shù)的決定系數(shù)達(dá)0.951,明顯優(yōu)于另外兩種算法模型。最后,基于隨機(jī)森林算法對各指標(biāo)進(jìn)行權(quán)重提取,得出本次研究數(shù)據(jù)集中漁撈監(jiān)測數(shù)據(jù)所包含的影響因素權(quán)重排序,結(jié)果顯示,影響漁船捕撈能力的各因素權(quán)重依次為:網(wǎng)次產(chǎn)量(50.070%)、pa(功率、總噸和船長降維后的指標(biāo))(23.779%)、拖網(wǎng)(包括單拖、雙拖以及拖蝦網(wǎng))(9.409%)、網(wǎng)次數(shù)量(6.782%)、作業(yè)時長(4.578%)、刺網(wǎng)(2.019%)、張網(wǎng)(1.347%)、圍網(wǎng)(1.228%)、罩網(wǎng)(0.628%)、雜漁具(0.122%)、釣具(0.022%)、船齡(0.009%)、鋼質(zhì)漁船(0.002%)、玻璃鋼漁船(0.002%)和木質(zhì)漁船(0.002%)。研究結(jié)果明晰表征了各因素的影響占比,可為海洋捕撈漁船捕撈能力量化評價與監(jiān)管、減船轉(zhuǎn)產(chǎn)與更新改造等海洋捕撈業(yè)管理提供重要的技術(shù)支撐與參考。
漁業(yè);漁船; 機(jī)器學(xué)習(xí)算法;捕撈能力;智慧漁業(yè)工程
按照國際糧農(nóng)組織的定義,捕撈能力是“漁船或漁船船隊如果充分利用,可在一定時間內(nèi)生產(chǎn)的魚數(shù)量”,一般以一定時期、相同資源環(huán)境下單船或船隊捕撈漁獲量來衡量漁船或船隊的捕撈能力。影響捕撈能力的因素較多,主要有:規(guī)格參數(shù),比如尺寸、功率、總噸等;作業(yè)類型,比如拖網(wǎng)、圍網(wǎng)、刺網(wǎng)等;網(wǎng)具參數(shù),比如網(wǎng)次產(chǎn)量、網(wǎng)目尺寸、網(wǎng)具結(jié)構(gòu)材料等;漁業(yè)資源,比如漁期、海域地理等;生產(chǎn)作業(yè)參數(shù),比如作業(yè)時長、作業(yè)環(huán)境、網(wǎng)次數(shù)量等;捕撈技術(shù)及設(shè)備,比如船長經(jīng)驗、船載機(jī)械設(shè)備、探魚儀器等,還包括船長船員情緒等管理及人為等因素[1]。針對漁船捕撈能力的研究,現(xiàn)有方法是圍繞投入與產(chǎn)出之間的技術(shù)效率、投入因素利用率等進(jìn)行量化分析研究,主要研究方法包括:峰值法(Peak To Peak Method,PTP)[2]、隨機(jī)生產(chǎn)邊界法(Stochastic Production Frontiers,SPF)[3]和數(shù)據(jù)包絡(luò)分析方法(Data Envelopment Analysis,DEA)[4]。以FAO(Food and Agriculture Organization of the United Nations)推薦的數(shù)據(jù)包絡(luò)分析法(C2R模型)為例,方法通常以某區(qū)域一定時間內(nèi)的漁船總數(shù)、總功率、總噸和專業(yè)捕撈總?cè)藬?shù)(年捕撈作業(yè)超過6個月的職業(yè)漁民)等因素作為實際投入指標(biāo),以實際捕撈量作為產(chǎn)出指標(biāo),計算捕撈能力技術(shù)效率以及投入因素利用率等。在此基礎(chǔ)上,對各投入因素總量利用度進(jìn)行逐項分析,并根據(jù)利用度高低給出各投入指標(biāo)削減建議。
Vestergaard等采用DEA-Malmquist模型對丹麥刺網(wǎng)船隊捕撈能力利用度展開分析,研究發(fā)現(xiàn),針對鱈魚捕撈的能力利用度遠(yuǎn)低于其他魚種,而導(dǎo)致這一現(xiàn)象的原因是受漁業(yè)政策影響,針對其他魚種的捕撈,船隊的可變投入“時間”比鱈魚船隊捕撈高出約27%[5]。張祝利等采用DEA法,通過分析1979年到2016年的《中國漁業(yè)統(tǒng)計年鑒》關(guān)于近海捕撈投入方向的數(shù)據(jù),認(rèn)為中國政府出臺的漁船“雙控政策”實施以來受多方面因素影響并未達(dá)到預(yù)期效果[6]。Tingley等采用DEA-C2R模型和SPF法對船隊的技術(shù)效率展開對比研究,研究以英吉利海峽船隊的固定投入船只數(shù)量、總噸和功率等和可變投入作業(yè)時間、船員人數(shù)作為投入量,以船隊捕撈量作為產(chǎn)出量,結(jié)果表明,在一些情形下DEA法有著比SPF法更強(qiáng)的適應(yīng)性[7]。鄭奕等采用數(shù)據(jù)包絡(luò)分析方法對中國1994年至2005年之間近海海洋捕撈和遠(yuǎn)洋捕撈能力利用度情況進(jìn)行了研究,研究發(fā)現(xiàn),中國近海捕撈能力存在嚴(yán)重的過剩情況,最大過剩率已超過50%[8]。饒欣等利用2009年至2014年《中國漁業(yè)統(tǒng)計年鑒》的統(tǒng)計數(shù)據(jù),通過DEA法,比較研究了中國東海、黃海和南海的捕撈能力情況[9]。Vassdal等采用DEA-BC2模型研究了挪威大西洋鮭魚捕撈船隊2001年至2008年間的能力利用度,研究提出一種以馬爾奎莫斯特生產(chǎn)效率指數(shù)MPI(Malmquist Productivity Index)作為衡量指標(biāo)的方法,結(jié)果表明2001年至2005年間船隊的利用度持續(xù)增加,隨后出現(xiàn)大幅度下降趨勢[10]。Lim等采用DEA-Malmquist模型和SPF法對馬來西亞拖網(wǎng)和圍網(wǎng)船隊中安裝回聲探測儀對捕撈技術(shù)效率的影響,研究表明DEA和SPF法一致認(rèn)為安裝回聲探測器的船隊的技術(shù)效率明顯高于未安裝的船隊,在安裝回聲探測器的船隊中,DEA的計算效率為56.6%,SPF法的計算效率約為71.7%[11]。梁鑠等基于中國沿海11省2008年至2011年的近海捕撈數(shù)據(jù),采用隨機(jī)前沿分析法研究多項漁業(yè)管控政策對中國近海漁業(yè)捕撈技術(shù)效率的影響[12]。Asche等采用DEA-Malmquist模型對挪威鮭魚養(yǎng)殖水產(chǎn)養(yǎng)殖企業(yè)的全要素生產(chǎn)效率變化展開研究,研究發(fā)現(xiàn)全要素生產(chǎn)效率每年變化約1%~2%,其中技術(shù)效率貢獻(xiàn)約0.2%~1.2%[13]。Su等以拖網(wǎng)漁業(yè)為研究對象,采用DEA法研究了1960年至2010年間,拖網(wǎng)漁船的技術(shù)發(fā)展對捕撈能力的影響,研究發(fā)現(xiàn),漁具技術(shù)的發(fā)展推動了捕撈能力的迅速提升,僅1980年至2010年間,拖網(wǎng)漁船捕撈能力就提升了2~3倍[14]。多年來,眾多學(xué)者利用DEA法作為捕撈能力分析的主要方法,取得了有益成果,然而DEA方法無法求得影響因素權(quán)重,同時也存在諸如模型指標(biāo)數(shù)量有限、求解權(quán)重?zé)o法比較、無法對各指標(biāo)權(quán)重進(jìn)行全排序、對大量實際監(jiān)測數(shù)據(jù)處理能力不足等局限[15]。
綜上所述,當(dāng)前漁船捕撈能力的研究主要考慮漁船功率、總噸、船長以及數(shù)量4個指標(biāo)因素,忽視了其他大部分因素,如衡量網(wǎng)具性能的重要指標(biāo)網(wǎng)次產(chǎn)量(按照每艘或不同等級漁船某一時期的產(chǎn)量除以各自投網(wǎng)次數(shù)計算)、網(wǎng)具類型、生產(chǎn)作業(yè)參數(shù)等因素。此外,現(xiàn)有研究中,尚不見基于捕撈監(jiān)測數(shù)據(jù),開展海洋機(jī)動漁船單船捕撈能力影響的研究。針對上述問題,該研究基于南海三省2018至2019年漁撈監(jiān)測數(shù)據(jù),以監(jiān)測數(shù)據(jù)所含字段信息因素為重點,在分析數(shù)據(jù)特征的基礎(chǔ)上,利用機(jī)器學(xué)習(xí)算法,探索研究包含漁船功率、總噸、船長、作業(yè)類型、網(wǎng)具參數(shù)、船齡、材質(zhì)等多參數(shù)對單船捕撈能力的影響,并計算得出影響因素權(quán)重排序,力求全面綜合地考察多因素對單船捕撈能力的影響。
該研究數(shù)據(jù)來源于南海三省2018年至2019年間近700艘漁船主要規(guī)格參數(shù)信息及近20萬條捕撈監(jiān)測數(shù)據(jù),數(shù)據(jù)信息來源于廣東省漁業(yè)漁船管理監(jiān)測系統(tǒng)和農(nóng)業(yè)農(nóng)村部全國漁船動態(tài)管理系統(tǒng)。監(jiān)測數(shù)據(jù)字段信息所含的因素主要包括:漁獲量(kg)、功率(kW)、總噸(t)、船長(m)、船齡(a)、漁船材質(zhì)、作業(yè)方式、網(wǎng)次產(chǎn)量(kg)、作業(yè)時長(h)和網(wǎng)次數(shù)量等。統(tǒng)計部分不同作業(yè)類型漁船漁撈數(shù)據(jù)信息,展示如表1。表中序號是漁撈監(jiān)測數(shù)據(jù)表中對應(yīng)的數(shù)據(jù)行數(shù)序號,其中部分網(wǎng)次產(chǎn)量值是依據(jù)該船近3年在同一區(qū)域和時期而得出的經(jīng)驗平均值,為此,漁撈監(jiān)測數(shù)據(jù)得到的漁獲量并不等于網(wǎng)次產(chǎn)量與網(wǎng)次數(shù)量的理論乘積值,漁獲量還因資源環(huán)境、船長經(jīng)驗等其他因素影響而不同,但本研究基于漁撈監(jiān)測數(shù)據(jù)的字段信息而展開,不涵蓋的信息因素比如探魚儀器、漁場資源以及船長經(jīng)驗等不在本研究考慮范圍內(nèi)。從表中觀察能夠看出較少關(guān)系規(guī)律,還需基于大量數(shù)據(jù)樣本,充分利用漁撈數(shù)據(jù),采用人工智能算法開展自學(xué)習(xí)推演,以獲得更優(yōu)的結(jié)果規(guī)律。
表1 部分類型漁船漁撈數(shù)據(jù)
進(jìn)一步分析捕撈監(jiān)測數(shù)據(jù),梳理其主要特征:1)數(shù)據(jù)類型多樣。樣本數(shù)據(jù)中既有數(shù)字型,也有字符型,數(shù)據(jù)特征多樣,需要將不同數(shù)據(jù)類型處理成計算機(jī)能夠識別的類型;2)數(shù)據(jù)噪聲較大。原始數(shù)據(jù)樣本中存在異常值和缺失值,比如大中型漁船一定時間內(nèi)的漁獲量僅為個位數(shù)或者部分漁獲量字段信息漏填等;3)漁船功率、總噸、船長參數(shù)間具有相關(guān)性。船長、總噸和功率是漁船主要規(guī)格參數(shù),根據(jù)經(jīng)典漁船設(shè)計理論算式,3個參數(shù)之間存在函數(shù)關(guān)系[16],利用統(tǒng)計學(xué)中的相關(guān)與回歸分析理論中的相關(guān)系數(shù)法,衡量3個參數(shù)之間的相關(guān)性,結(jié)果顯示:功率與總噸相關(guān)系數(shù)為0.836;功率與船長相關(guān)系數(shù)為0.762;總噸和船長相關(guān)系數(shù)為0.972。綜上對漁撈數(shù)據(jù)特征分析,在利用算法計算分析之前,需要先進(jìn)行數(shù)據(jù)清洗工作。針對數(shù)據(jù)存在的問題,該研究采用病態(tài)數(shù)據(jù)分析、四分位法、主成分分析法以及標(biāo)準(zhǔn)化和獨熱編碼處理結(jié)合的方式對捕撈數(shù)據(jù)進(jìn)行清洗處理。
1.1.1 四分位法
針對上述原始數(shù)據(jù)樣本中存在異常值和缺失值問題,通過四分位法對原始數(shù)據(jù)進(jìn)行病態(tài)數(shù)據(jù)合并以及異常值的剔除處理。捕撈監(jiān)測數(shù)據(jù)受限于漁民對填報數(shù)據(jù)的重視程度不同,導(dǎo)致所填數(shù)據(jù)存在較多的異常值,在該研究中統(tǒng)稱為“異常點”。異常點在單船捕撈能力影響因素研究中會影響各因素權(quán)重的分析判斷,為提升研究結(jié)果準(zhǔn)確性,需要剔除這些異常點。
四分位法是統(tǒng)計學(xué)中分析數(shù)據(jù)特征簡單、高效的手段之一[17]。四分位法利用觸須(Whisker)上限W和下限W來剔除原始樣本集中的異常值,該研究中定義縱向時序矢量X中處于W與W之間的數(shù)據(jù)點為X正常值,之外的點為X異常值。將漁撈數(shù)據(jù)集中的全部數(shù)據(jù)按照漁獲量大小順序依次排列為4等份,處于分割點位置的3個數(shù)值就是四分位數(shù),第一、第三分位數(shù)分別表示X前25%和后25%數(shù)據(jù)點的位置所表示的數(shù)值。X的四分位間距表示大小處于X中間50%的X(其中,=1,2,3,…,)的集合,四分位間距框的大小整體反應(yīng)漁撈數(shù)據(jù)的集中程度。
1.1.2 主成分分析法
自變量在對因變量作解釋時,會因為自變量之間高度的相關(guān)關(guān)系而導(dǎo)致自變量對因變量的解釋能力變?nèi)?。針對漁撈數(shù)據(jù)信息中的船長、總噸和功率之間的相關(guān)性問題,為降低因素之間相關(guān)性,采用主成分分析法(Principal Component Analysis,PCA)對船長、總噸和功率進(jìn)行降維處理。
計算如下:
設(shè)維向量為目標(biāo)子空間的一個坐標(biāo)軸方向,稱為映射向量,最大化數(shù)據(jù)映射后的方差,有:
式中tr表示矩陣的跡,是數(shù)據(jù)協(xié)方差矩陣。
1.1.3 獨熱編碼處理
漁船捕撈能力研究是一個復(fù)雜系統(tǒng)工程問題,字符型數(shù)據(jù)的存在是其鮮明的特征,而獨熱編碼在處理這種類型數(shù)據(jù)問題時具備高效、快捷等特點。獨熱編碼,又稱為有效編碼,這種方式是使用位寄存器來對個狀態(tài)進(jìn)行編碼,且每個狀態(tài)都有獨立的寄存器位,在任意時候其中只有一位數(shù)據(jù)有效,即將同屬性但不同類型的字符型數(shù)據(jù)進(jìn)行特征數(shù)字化處理。利用獨熱編碼技術(shù)對離散無序的數(shù)據(jù)類型進(jìn)行特征數(shù)字化處理,制作成真實標(biāo)簽[19],如漁船材質(zhì)(木質(zhì))標(biāo)記為“100”,漁船材質(zhì)(鋼制)標(biāo)記為“010”,漁船材質(zhì)(玻璃鋼)則標(biāo)記為“001”,同理將不同作業(yè)方式進(jìn)行標(biāo)簽化處理,如表2中所示4艘漁船的木質(zhì)與玻璃鋼質(zhì)為0,鋼質(zhì)為1,則表示表中所示漁船的材質(zhì)是鋼質(zhì)。利用上述方法對漁撈數(shù)據(jù)進(jìn)行清洗與標(biāo)準(zhǔn)化處理,基于Python語言環(huán)境,形成后續(xù)機(jī)器學(xué)習(xí)算法能夠識別的標(biāo)準(zhǔn)化數(shù)據(jù),清洗后的數(shù)據(jù)達(dá)4萬余條,部分?jǐn)?shù)據(jù)結(jié)果如表2所示。其中由于采用sklear分解時的方法是通過奇異值分解(Singular Value Decomposition,SVD)來實現(xiàn)的,分解后沒有進(jìn)行翻轉(zhuǎn)特征向量符號以強(qiáng)制執(zhí)行確定性輸出操作,為此表2中數(shù)據(jù)有負(fù)號出現(xiàn),但不影響最終的算法計算結(jié)果。
機(jī)器學(xué)習(xí)算法在計算漁船捕撈努力量方面得到了應(yīng)用[20],但相對于支持向量機(jī)核函數(shù)選擇上有著較高的要求,該研究數(shù)據(jù)集樣本量大,結(jié)構(gòu)復(fù)雜且計算過程耗時漫長,因此支持向量機(jī)不是最佳算法選擇。隨機(jī)森林、決策樹和BP神經(jīng)網(wǎng)絡(luò)算法則不需要選擇核函數(shù),卻仍具備準(zhǔn)確的計算效果,尤其是隨機(jī)森林與決策樹算法比支持向量機(jī)更適合處理同時具有字符型和數(shù)字型的數(shù)據(jù)。
表2 部分?jǐn)?shù)據(jù)獨熱編碼處理結(jié)果
注:表中數(shù)據(jù)沒有進(jìn)行翻轉(zhuǎn)特征向量符號的數(shù)字化處理;“pa”表示船長、總噸、功率主成分分析后的指標(biāo)。
Note: The data in the table has not been digitized for symbols of flipped eigenvectors;“pa” means index of length and gross tonnage and power of fishing vessels by principal component analysis.
1.2.1 BP神經(jīng)網(wǎng)絡(luò)算法
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)結(jié)構(gòu)十分復(fù)雜,類似于一種網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),由無數(shù)個人工神經(jīng)元相互連接而成,是基于生物神經(jīng)網(wǎng)絡(luò)處理信息的原理模擬發(fā)展而來,形成一種特殊數(shù)學(xué)抽象表現(xiàn)。BP神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于人工智能、數(shù)據(jù)分析等領(lǐng)域,它的結(jié)構(gòu)主要由三個層面組成,即:輸入層、隱含層和輸出層[21]。其兩層模型結(jié)構(gòu)示意如圖1所示。
1.2.2 決策樹與隨機(jī)森林算法
決策樹(Decision Tree)是在數(shù)據(jù)挖掘、統(tǒng)計等領(lǐng)域應(yīng)用最廣泛的技術(shù)方法之一,能夠表現(xiàn)復(fù)雜關(guān)系的非線性模型及其特征關(guān)系。算法在訓(xùn)練數(shù)據(jù)樣本時,是類似于樹枝分叉一般自上而下的經(jīng)過每一個環(huán)節(jié)評估特征分割的信息增益,挑出分割數(shù)據(jù)集最佳特征,接著對分割的全部子問題采用遞歸處理,而數(shù)據(jù)樣本將被劃分到樹的各個枝干。依據(jù)上述原則,重復(fù)操作直到最優(yōu)結(jié)果后停止運算[22]。決策樹在訓(xùn)練過程中,特征劃分選擇的關(guān)鍵在于怎樣挑出最佳劃分方式,常用的方法有包括:信息增益、增益率和基尼指數(shù)。
隨機(jī)森林是一種基于Bagging和決策樹的有監(jiān)督學(xué)習(xí)算法,從原始樣本集中有放回地隨機(jī)抽取訓(xùn)練樣本,并訓(xùn)練得到單個弱學(xué)習(xí)器,該弱學(xué)習(xí)就被稱為回歸樹,并基于此重復(fù)上述訓(xùn)練過程,隨著訓(xùn)練次數(shù)的增加,生產(chǎn)的回歸樹就構(gòu)成了隨機(jī)森林,最終算法會根據(jù)所有樹的預(yù)測結(jié)果進(jìn)行平均化處理,進(jìn)而得到最終預(yù)測值。
算法在訓(xùn)練數(shù)據(jù)過程中主要采用裝袋法(Bagging method)和自助法(Bootstrap method)來實現(xiàn)的,具體的構(gòu)建步驟如下:
1)使用Bootstrap方法隨機(jī)有放回地從個原始訓(xùn)練樣本中選擇(<)個樣本,生產(chǎn)個訓(xùn)練子集。
2)使用訓(xùn)練子集訓(xùn)練回歸樹,在節(jié)點上所有的樣本特征中隨機(jī)選擇一部分樣本特征,依據(jù)最小均方差進(jìn)行回歸樹的左右子樹劃分,遞歸建樹直到滿足終止條件。
3)重復(fù)上述步驟,將多棵回歸樹組成隨機(jī)森林。
4)將測試樣本輸入隨機(jī)森林回歸模型,取所有樹預(yù)測值的平均值作為最終預(yù)測結(jié)果,并與實際值對比,評價模型的擬合效果。
1.2.3 隨機(jī)森林調(diào)參
利用捕撈監(jiān)測數(shù)據(jù),基于隨機(jī)森林建立投入值對產(chǎn)出值的影響關(guān)系回歸模型。漁船主規(guī)格參數(shù)(船長、總噸和功率)、網(wǎng)次產(chǎn)量、網(wǎng)次數(shù)量、作業(yè)方式、作業(yè)時間、船齡和漁船材質(zhì)設(shè)為模型的輸入(特征參數(shù)),漁獲量為模型的輸出(目標(biāo)參數(shù))。并將數(shù)據(jù)樣本無序拆分成訓(xùn)練集(70%),測試集(30%)。同時,考慮到參數(shù)之間的量化綱差異,采用標(biāo)準(zhǔn)化處理方式進(jìn)行無量化綱處理。
在隨機(jī)森林眾多的可調(diào)參數(shù)中,主要有:回歸樹數(shù)目n、最大特征值m、回歸最大深度m、內(nèi)部節(jié)點再劃分的最小樣本數(shù)量m和葉子節(jié)點最小樣本數(shù)m等。需要指出的是,若n數(shù)量過小則會易造成模型欠擬合,太大則又易造成過擬合;m的作用是限制子樹繼續(xù)劃分的條件,當(dāng)節(jié)點的樣本量小于m時,劃分將停止;m與回歸樹的剪枝有關(guān),而剪枝有助于模型增強(qiáng)其泛化能力,當(dāng)m大于葉子節(jié)點數(shù)時,同枝干上的節(jié)點將都被剪枝。為防止過擬合的發(fā)生,通常研究不會追求過高的可決系數(shù)值,在多次嘗試后發(fā)現(xiàn)模型的泛化能力較好,且隨著m的提升,模型的優(yōu)度不斷提升,因此決定對n、m和m3個參數(shù)進(jìn)行調(diào)參,而m不作限制[23]。對n、m和m3個參數(shù)進(jìn)行尋優(yōu),給定參數(shù)足夠的范圍n∈[500,1 000]并且n為10的倍數(shù),m∈[1,12],m∈[1,12],采用網(wǎng)格搜索與交叉驗證結(jié)合的方式,讓計算遍歷循環(huán)持續(xù)學(xué)習(xí),訓(xùn)練出最好的模型,建立了6 000次隨機(jī)森林模型生成學(xué)習(xí)曲線,并對表現(xiàn)最好的一組參數(shù)進(jìn)行提取[24]。同步驗證不調(diào)參與默認(rèn)值條件下的回歸效果。分別評價模型調(diào)參前后的訓(xùn)練效果,評價指標(biāo)為均方誤差(Mean Squared Error,MSE)。隨機(jī)搜索返回的最優(yōu)參數(shù)組合為:n=921,m=10,m=3。
使用隨機(jī)森林搜索返回的最優(yōu)參數(shù)組合建立隨機(jī)森林回歸模型,并使用訓(xùn)練集對模型進(jìn)行訓(xùn)練,最后利用測試集測試模型的回歸效果。為了驗證模型回歸的精確性,同時采用BP神經(jīng)網(wǎng)絡(luò)、決策樹和隨機(jī)森林算法建立對比回歸模型,并引入均方誤差MSE、平均絕對誤差(Mean Absolute Error,MAE)以及決定系數(shù)2作為模型回歸效果的評價指標(biāo)。
3種模型測試結(jié)果如表3所示。
表3 3種模型調(diào)參后的擬合效果對比
通常情況下,有效模型的可決系數(shù)2的取值范圍默認(rèn)為[0,1],2越接近1,表示模型回歸效果越好,反之越接近0則越差。由表3可知,經(jīng)過調(diào)參后的隨機(jī)森林回歸模型可決系數(shù)2值最大(0.951),調(diào)參后模型回歸效果有顯著提升,且所有回歸模型的MAE和MSE均小于默認(rèn)參數(shù)的隨機(jī)森林回歸模型。
進(jìn)一步,對測試集進(jìn)行反標(biāo)準(zhǔn)化,繪制3種算法模型的單船投入因素條件下漁獲量的預(yù)測值與實際漁獲量對比圖,如圖2所示。由于測試集的樣本量大,故只截取50組數(shù)據(jù)進(jìn)行對比。
由圖2可以看出,3種算法建立的回歸模型都能反應(yīng)投入因素與產(chǎn)出漁獲量之間的變化關(guān)系,基于調(diào)參后隨機(jī)森林算法的回歸模型可決系數(shù)、均方誤差和平均絕對誤差均優(yōu)于其他算法模型。利用隨機(jī)森林算法計算得出的各影響因素權(quán)重值見表4所示。
表4 各因素權(quán)重值
通過上述影響因素排序及各自權(quán)重的計算結(jié)果,一方面可得:1)在現(xiàn)有捕撈監(jiān)測數(shù)據(jù)范圍內(nèi)的因素中,網(wǎng)次產(chǎn)量、漁船(總噸、功率和船長)對單船捕撈能力的影響最大,二者權(quán)重值之和可達(dá)73.849%;2)從不同的網(wǎng)具類型來看,拖網(wǎng)(包括單拖雙拖)對單船捕撈能力的影響明顯要高于其他網(wǎng)具,而影響最小的網(wǎng)具類型是釣具;3)船齡與漁船材質(zhì)權(quán)重之和僅為0.015%,整體來看可忽略不計;4)漁船在同等網(wǎng)次數(shù)量和作業(yè)時長的條件下,忽視船齡、漁船材質(zhì)的影響,漁船總噸、功率和船長的船舶規(guī)格參數(shù)越大,網(wǎng)次產(chǎn)量越大,則漁船的捕撈能力越強(qiáng);5)同等條件下拖網(wǎng)漁船捕撈能力依次強(qiáng)于刺網(wǎng)、張網(wǎng)、圍網(wǎng)、罩網(wǎng)、雜漁具和釣具漁船。
另一方面,參照所得因素排序與權(quán)重值的研究結(jié)果,能夠為海洋漁船監(jiān)管提供建議參考:1)為減船轉(zhuǎn)產(chǎn)補(bǔ)貼計算和單船捕撈能力評價提供多因素權(quán)重值;2)網(wǎng)具參數(shù)與功率總噸船長漁船規(guī)格參數(shù),影響占比最大,是后續(xù)捕撈強(qiáng)度管控的重點;3)網(wǎng)次產(chǎn)量、網(wǎng)次數(shù)量與作業(yè)時長,影響捕撈能力加起來超過60%,因此,限額捕撈、漁獲定點上岸等產(chǎn)出式管理政策需要進(jìn)一步加強(qiáng);4)漁船功率總噸船長影響捕撈能力約占24%,減船轉(zhuǎn)產(chǎn)項目可持續(xù)進(jìn)行;5)為現(xiàn)有“雙控”管理制度的更新與完善,提供更加靈活多樣的因素選擇。
研究結(jié)果能夠為現(xiàn)行以控漁船數(shù)量與功率的“雙控”制度提供多因素控制的支持參考,為現(xiàn)行以單一功率因素核算減船轉(zhuǎn)產(chǎn)補(bǔ)貼政策的優(yōu)化提供多因素參考,為實現(xiàn)漁船裝備現(xiàn)代化升級與其捕撈能力之間協(xié)調(diào)平衡的更新改造政策優(yōu)化提供參考,進(jìn)而為“十四五”漁船監(jiān)管制度的完善與優(yōu)化提供幫助。
針對影響因素考慮不足、漁撈數(shù)據(jù)重視不夠等問題,基于機(jī)器學(xué)習(xí)算法開展了單船捕撈能力影響因素權(quán)重分析與研究,涵蓋了船長、總噸、功率、網(wǎng)次產(chǎn)量、作業(yè)時長、網(wǎng)次數(shù)量、拖網(wǎng)、張網(wǎng)、刺網(wǎng)、圍網(wǎng)、罩網(wǎng)、釣具、船齡以及材質(zhì)等15種以上因素?;跐O撈監(jiān)測數(shù)據(jù),建立了包括神經(jīng)網(wǎng)絡(luò)、決策樹以及隨機(jī)森林回歸模型,計算得出了各影響因素權(quán)重值,結(jié)果表明:
1)神經(jīng)網(wǎng)絡(luò)、決策樹以及隨機(jī)森林算法,均能夠較好地體現(xiàn)投入與產(chǎn)出因素的變化,決定系數(shù)2均大于0.84,機(jī)器學(xué)習(xí)算法等智能算法非常適合包含多因素的漁船捕撈能力分析與研究。
2)各影響因素的權(quán)重值及其排序,表明網(wǎng)次產(chǎn)量、漁船功率、總噸、船長4個因素的占比達(dá)到73.849%,是計算或控制單船捕撈能力重點考慮的指標(biāo)。
3)該研究將機(jī)器學(xué)習(xí)算法用于包含多影響因素的海洋漁船捕撈能力研究中,推進(jìn)了大數(shù)據(jù)、人工智能等智慧技術(shù)在農(nóng)業(yè)水產(chǎn)、海洋漁業(yè)領(lǐng)域的應(yīng)用。相對于傳統(tǒng)解決方法,所采用的方法能夠涵蓋漁船捕撈能力分析的多個因素指標(biāo),能夠提升多指標(biāo)因素預(yù)測回歸的準(zhǔn)確性,計算得出權(quán)重排序。
海洋漁船捕撈能力分析,是一項復(fù)雜的系統(tǒng)工程,涉及眾多變量因素,穩(wěn)定、廣泛且高質(zhì)量的包含捕撈數(shù)據(jù)在內(nèi)的多源監(jiān)測數(shù)據(jù)是推進(jìn)捕撈能力精準(zhǔn)管控的重要源泉,也是未來推進(jìn)海洋漁業(yè)、海洋工程裝備數(shù)字化、智慧化升級、優(yōu)化的重要支持,為此,有必要全面加強(qiáng)開展海洋漁業(yè)及其裝備等高質(zhì)量數(shù)據(jù)采集與維護(hù)工作。對于包含漁撈數(shù)據(jù)、統(tǒng)計數(shù)據(jù)等多數(shù)據(jù)融合推演的海洋漁船捕撈能力的分析,進(jìn)而對單船捕撈能力進(jìn)行量化研究,將是下一步的工作。
[1] FAO Technical Guidelines for Responsible Fisheries No.4 Suppl.3 Fisheries Management 3. Managing Fishing Capacity[M]. Rome:Food and Agriculture Organization of the United Nations, 2008.
[2] 蘇新紅,方水美,鄭奕,等. 福建省燈光圍網(wǎng)作業(yè)的捕撈能力[J]. 水產(chǎn)學(xué)報,2004,28(3):303-310.
Su Xinhong, Fang Shuimei, Zheng Yi, et al. Fishing capacity of light-purse seine in Fujian province[J]. Journal of Fisheries of China, 2004, 28(3): 303-310. (in Chinese with English abstract)
[3] 顏云榕,馮波,盧伙勝. 中、西沙海域2種燈光作業(yè)漁船的捕撈特性及其技術(shù)效率分析[J]. 南方水產(chǎn),2009,5(6):59-64.
Yan Yunrong, Feng Bo, Lu Huosheng. Comparative analysis on fishing capability of two light attracting commercial fishing methods around Zhongsha and Xisha Islands sea areas,south China Sea[J]. South China Fisheries Science, 2009, 5(6): 59-64. (in Chinese with English abstract)
[4] Laso J. Revisiting the LCA+DEA method in fishing fleets. How should we be measuring efficiency?[J] Marine Policy, 2018, 91(5): 34-40.
[5] Vestergaard N, Squires D, Kirkley J. Measuring capacity and capacity utilization in fisheries: the case of the danish gill-net fleet[J]. Fish. Res. 2003, 60(2): 357-368.
[6] 張祝利,吳姍姍,李勝勇,等. 我國漁船“雙控制度”實施有效性評估與政策建議[J]. 中國水產(chǎn),2018(4):34-40.
Zhang Zhuli, Wu Shanshan, Li Shengyong, et al. Effectiveness evaluation and policy suggestions of “dual control” implementation for Chinese fishing vessels[J]. China Fisheries, 2018(4): 34-40. (in Chinese with English abstract)
[7] Tingley D, Pascoe S, Coglan L. Factors affecting technical efficiency in fisheries: Stochastic production frontier versus data envelopment analysis approaches[J]. Fish. Res. 2005, 73(3): 363-376.
[8] 鄭奕,方水美,周應(yīng)祺,等. 中國海洋捕撈能力的計量與分析[J]. 水產(chǎn)學(xué)報,2009,33(5):885-892.
Zheng Yi, Fang Shuimei, Zhou Yingqi, et al. The measuring and analyzing on the fishing capacity for Chinese marine fleets[J]. Journal of Fisheries of China, 2009, 33(5): 885-892. (in Chinese with English abstract)
[9] 饒欣,黃洪亮,陳雪忠,等. 中國東海、黃海及南海捕撈能力的比較分析[J]. 海洋漁業(yè),2016,38(6):680-688.
Rao Xin, Huang Hongliang, Chen Xuezhong, et al. Measurement and comparison of capacity utilization in Chinese waters[J]. Marine Fisheries, 2016, 38(6): 680-688. (in Chinese with English abstract)
[10] Vassdal T, Holst H M S. Technical progress and regress in Norwegian Salmon farming: A malmquist index approach[J]. Mar. Resour. Econ. 2011, 26(4): 329-341.
[11] Lim G, Ismail A L, Hussein M A. Does technology and other determinants effect fishing efficiency? An application of stochastic frontier and data envelopment analyses on trawl fishery[J] J. Appl. Sci. 2012, 12(1):48-55.
[12] 梁鑠,秦曼. 中國近海捕撈業(yè)技術(shù)效率影響因素分析:基于省級面板數(shù)據(jù)[J]. 中國漁業(yè)經(jīng)濟(jì),2016,34(1):55-62.
Liang Shuo, Qin Man. The study on affecting factors of technical efficiency of inshore-offshore fishery in China: Based on provincial panel data[J]. Chinese Fisheries Economics, 2016, 34(1): 55-62. (in Chinese with English abstract)
[13] Asche F, Guttormsen A G, Nielsen R. Future challenges for the maturing Norwegian salmon aquaculture industry: an analysis of total factor productivity change from 1996 to 2008[J]. Aquaculture, 2013, 396(6): 43-50.
[14] Su J H, Liu S Y, Yun O T, et al. Change of relative fishing power index from technological development in the otter trawl fishery[J]. Journal of the Korean Society of Fisheries and Ocean Technology, 2020, 56(1): 26-36.
[15] 胡賀年,竇學(xué)誠. 基于DEA方法的種業(yè)經(jīng)濟(jì)效益評價研究:以張掖市玉米種業(yè)為例[J]. 中國農(nóng)業(yè)科技導(dǎo)報,2015,17(6):150-157.
Hu Henian, Dou Xuecheng. Studies on economic benefits evaluation of seed industry based on DEA model: A case study of Zhangye corn seed industry[J]. Journal of Agricultural Science and Technology, 2015, 17(6): 150-157. (in Chinese with English abstract)
[16] 賈復(fù). 漁船設(shè)計[M]. 北京:農(nóng)業(yè)出版社,1990.
[17] 楊錫運,劉玉奇,李建林. 基于四分位法的含儲能光伏電站可靠性置信區(qū)間計算方法[J]. 電工技術(shù)學(xué)報,2017,32(15):136-144.
Yang Xiyun, Liu Yuqi, Li Jianlin. Reliability confidence interval calculation method for photovoltaic power station with energy storage based on quartile method[J]. Transactions of China Electro Technical Society, 2017, 32(15): 136-144. (in Chinese with English abstract)
[18] 李元,張昊展,唐曉初. 基于多模態(tài)數(shù)據(jù)全信息的概率主成分分析故障檢測研究[J]. 儀器儀表學(xué)報,2021,42(2):75-85.
Li Yuan, Zhang Haozhan, Tang Xiaochu. Study on probabilistic principal component analysis fault detection based on full information of multimodal data[J]. Chinese Journal of Scientific Instrument, 2021, 42(2): 75-85. (in Chinese with English abstract)
[19] Abril V U A, Itzamá L Y, Cornelio Y M. One-hot vector hybrid associative classifier for medical data classification[J]. Plos One, 2014, 9(4): 1-10.
[20] 楊勝龍,張勝茂,周為峰,等. 采用AIS計算中西太平洋延繩釣漁船捕撈努力量[J]. 農(nóng)業(yè)工程學(xué)報,2020,36(3):198-203.
Yang Shenglong, Zhang Shengmao, Zhou Weifeng, et al. Calculating the fishing effort of longline fishing vessel in the western and central pacific ocean using AIS[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(3): 198-203. (in Chinese with English abstract)
[21] 唐建軍,王映龍,彭瑩瓊,等. BP神經(jīng)網(wǎng)絡(luò)在水稻病蟲害診斷中的應(yīng)用研究[J]. 安徽農(nóng)業(yè)科學(xué),2010,38(1):199-200,204.
Tang Jianjun, Wang Yinglong, Peng Yingqiong, et al. Application study on BP neural network in the diagnosis of rice diseases and Pests[J]. Journal of Anhui Agricultural Sciences, 2010, 38(1): 199-200, 204. (in Chinese with English abstract)
[22] 陳靜波,劉順喜,汪承義,等. 基于知識決策樹的城市水體提取方法研究[J]. 遙感信息,2013,28(1):29-33,37.
Chen Jingbo, Liu Shunxi, Wang Chengyi, et al. Research on urban water body extraction using knowledge-based decision tree[J]. Remote Sensing Information, 2013, 28(1): 29-33, 37. (in Chinese with English abstract)
[23] 李玉強(qiáng),陳鋆昊,李琦,等. 基于差分隱私下包外估計的隨機(jī)森林算法[J]. 哈爾濱工業(yè)大學(xué)學(xué)報,2021,53(2):146-154.
Li Yuqiang, Chen Junhao, Li Qi, et al. Random forest algorithm under differential privacy based on out-of-bag estimate[J]. Journal of Harbin Institute of Technology, 2021, 53(2): 146-154. (in Chinese with English abstract)
[24] 李蔚,吳愷逾,陳堅紅,等. 基于非線性自回歸神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林算法的核電汽輪機(jī)組出力優(yōu)化[J]. 中國電機(jī)工程學(xué)報,2021,41(2):409-416.
Li Wei, Wu Kaiyu, Chen Jianhong, et al. Output optimization of nuclear power steam turbine based on nonlinear autoregressive neural network and random forest algorithm[J]. Proceedings of the CSEE, 2021, 41(2): 409-416. (in Chinese with English abstract)
Weight analysis of influencing factors of fishing capacity of marine fishing vessels using machine learning algorithm
Lyu Chao, Sun Jiaxin, Liu Shuang※
(,,201306,)
Previous quantitative analysis is often made at the macro level, such as the fishing capacity of marine fishing vessels. There are some limited requirements on the number of indicators in the fishing vessel operation. In this study, a weight evaluation model was presented on the influencing factors in the fishing capacity of a single vessel using machine learning. Fishing monitoring data were about 200,000 rows from 2018 to 2019 in three provinces of the South China Sea. First, the cleaning of original data was implemented using quartile, principal component analysis, data standardization, and unique thermal coding, where reliable data of more than 40,000 rows was obtained.Secondly, machine learning was used to construct the BP neural network, decision tree, and random forest models. At the same time, the grid search and cross validation combined with the traversal cycle were used to create 6,000 generations of learning curves.The results showed that the random forest model performed the best in terms of mean square error, mean absolute error, and determination coefficient, where the determination coefficient of the best parameters group was 0.951, indicating that the random forest model was obviously superior to others.Finally, the weights of each index were extracted using the random forest, thereby obtaining the weights of fishing monitoring data.The result showed that the weights of various influencing factors were as follows: Output of nets(50.070%), PCA (after reducing the dimension of power, gross ton and length)(23.779%), trawls (including single tow, double tow and shrimp tow nets)( 9.409%), number of nets(6.782%), operating time(4.578%), gill nets(2.019%), net drawing(1.347%), seine nets(1.228%), cover nets(0.628%), fishing gear(0.122%), fishing tackle(0.022%), age of vessel(0.009%), material of fishing vessel (steel)(0.002%), material of fishing vessel (FRP) (0.002%) and material of fishing vessel (wood) (0.002%).The research results clearly represent the impact proportion of various factors, which can provide important technical support and reference for the quantitative evaluation and supervision of the fishing capacity of marine fishing vessels, ship reduction and conversion, renewal and transformation and other marine fishing industry management.
fishing; fishing vessels; machine learning algorithm; fishing capacity; smart fisheries engineering
呂超,孫佳新,劉爽. 利用機(jī)器學(xué)習(xí)算法的海洋漁船捕撈能力影響因素權(quán)重分析[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(13):135-141.
10.11975/j.issn.1002-6819.2021.13.016 http://www.tcsae.org
Lyu Chao, Sun Jiaxin, Liu Shuang. Weight analysis of influencing factors of fishing capacity of marine fishing vessels using machine learning algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(13): 135-141. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.13.016 http://www.tcsae.org
2021-04-12
2021-06-19
農(nóng)業(yè)農(nóng)村部財政項目(D8021210076),國家自然科學(xué)基金面上項目(51876114),上海海洋可再生能源工程技術(shù)研究中心(19DZ2254800),上海海洋大學(xué)海洋科學(xué)研究院開放課題基金資助(A1020300300102)
呂超,副教授,研究方向為海洋漁業(yè)工程與船舶、海洋能源利用、系統(tǒng)建模仿真等。Email:clv@shou.edu.cn
劉爽,講師,研究方向為海洋漁業(yè)工程與船舶、海工裝備力學(xué)分析與優(yōu)化等。Email:s-liu@shou.edu.cn
10.11975/j.issn.1002-6819.2021.13.016
S126
A
1002-6819(2021)-13-0135-07