李 丹,魯 峰,2,徐 碩,2,劉慧媛,薛沐涵,方 輝,崔國輝
(1.中國水產(chǎn)科學研究院漁業(yè)工程研究所,北京 100141;2.嶗山實驗室,山東青島 266237;3.中國水產(chǎn)科學研究院東海水產(chǎn)研究所,上海 200090)
捕撈努力量是在一定時間段內(nèi)以某種漁業(yè)作業(yè)方式在漁場中投入的工作量,可作為漁業(yè)生產(chǎn)管理、漁業(yè)資源評估以及生態(tài)脆弱性評估的重要參考依據(jù)[1-4],精確識別與評估我國海域內(nèi)捕撈努力量的時空特征可為捕撈限額策略規(guī)劃和漁業(yè)資源評估提供關(guān)鍵信息[5-6]。傳統(tǒng)的捕撈努力量統(tǒng)計主要依靠捕撈日志及漁獲數(shù)據(jù),存在記錄不規(guī)范、漏報、誤報等人為因素和時間滯后等問題。采用圖像識別捕撈作業(yè)行為來評估捕撈努力量的方法能有效減少漏報、誤報等人為因素[7],但也存在檢測覆蓋范圍小、數(shù)據(jù)獲取成本高等缺陷。船位監(jiān)控系統(tǒng)(vessel monitoring system,VMS)作為一種漁船監(jiān)控手段,可獲取漁船船位、航速、發(fā)報時間等動態(tài)信息,為漁業(yè)科學研究擴充新的數(shù)據(jù)來源[8],同時為捕撈努力量估算方法提供新思路。
船位監(jiān)控系統(tǒng)數(shù)據(jù)包含漁船運行狀態(tài)信息,通過船位數(shù)據(jù)挖掘可以判別漁船捕撈作業(yè)狀態(tài)[9-16],從而實現(xiàn)捕撈努力量估算[17]。漁船作業(yè)狀態(tài)的識別準確率決定了捕撈努力量估算的精度。最初捕撈作業(yè)行為識別算法多直接提取船速、航向、作業(yè)時間等信息,用閾值劃分漁船作業(yè)狀態(tài),如張勝茂等[18]提取拖網(wǎng)漁船的捕撈航速及航相差閾值判定漁船捕撈狀態(tài),ZHANG等[19]利用作業(yè)時間和速度閾值判定金槍魚圍網(wǎng)捕撈作業(yè)行為。然而閾值劃分方法存在判定特征局限的缺點,很難適用于所有漁船[8],易使捕撈努力量估算值偏高[20]。機器學習算法能進一步挖掘船位信息與捕撈作業(yè)行為之間的非線性關(guān)系,是當前漁船狀態(tài)判別的研究重點[8]。SOUZA等[21]提出基于速度的隱馬爾可夫鏈模型,用于拖網(wǎng)漁船的捕撈作業(yè)行為識別,準確率達85%。該方法建立了速度與捕撈作業(yè)行為的非線性關(guān)系模型,提高了識別準確率,但特征輸入單一,準確率偏低。BEHIVOKE等[22]利用連續(xù)軌跡提取幾何特征,采用隨機森林模型實現(xiàn)捕撈作業(yè)行為判別,識別拖網(wǎng)漁船捕撈作業(yè)行為準確率達88%。該研究優(yōu)化了特征構(gòu)成,但未考慮空間位置信息,準確率提升不高。KROODSMA等[23]提取大量空間信息及行船動態(tài)信息構(gòu)成特征矩陣,利用深度卷積神經(jīng)網(wǎng)絡識別捕撈作業(yè)行為,該算法特征構(gòu)成全面,準確率達96%,但深度網(wǎng)絡存在網(wǎng)絡參數(shù)多、調(diào)參難、算力消耗大及訓練時間久等問題。綜上,現(xiàn)有基于船位數(shù)據(jù)的捕撈作業(yè)行為識別算法在特征和算法選取上存在一定的局限性,致使算法在準確率和實現(xiàn)難度上難以平衡。
本文基于北斗船位數(shù)據(jù),在特征構(gòu)造方面,提取行船動態(tài)信息的同時,補充了空間信息。采用靈活、高效的極限梯度提升算法(eXtreme Gradient Boosting,XGBoost)構(gòu)建遼寧省拖網(wǎng)漁船捕撈作業(yè)行為識別模型,挖掘2021年全年在渤海及黃海北部海域的捕撈努力量時空分布特征,為我國近海海域拖網(wǎng)漁船捕撈努力量估算提供新方法,以期為漁業(yè)資源評估與限額捕撈政策制定提供新依據(jù)。
實驗數(shù)據(jù)為遼寧省漁船的北斗漁船船位數(shù)據(jù),共計漁船853艘,數(shù)據(jù)48 256 060條,采集時間為2019年9月—2022年1月,調(diào)查區(qū)域為37°~40°N、119°~124°E內(nèi)海域。北斗船位數(shù)據(jù)的時間精度為秒,時間分辨率為3 min,空間分辨率約為10 m。每條船的船位數(shù)據(jù)中包含漁船經(jīng)緯度、速度、收發(fā)時間及漁區(qū)等信息。
圖1 調(diào)查區(qū)域示意圖Fig.1 Map of investigation area
拖網(wǎng)漁船作業(yè)通常將一張或多張網(wǎng)拖到漁船尾部,作業(yè)時漁船通常會放慢速度,并力求保持速度穩(wěn)定,盡可能使拖網(wǎng)的張力均勻。拖網(wǎng)作業(yè)時間取決于魚群密度,通常持續(xù)3~5 h,本文中拖網(wǎng)作業(yè)包括布網(wǎng)到收網(wǎng)全過程[21],將拖網(wǎng)漁船狀態(tài)劃分為捕撈狀態(tài)和非捕撈狀態(tài),其中捕撈狀態(tài)包含漁網(wǎng)部署、拖網(wǎng)作業(yè)和收網(wǎng)過程,非捕撈狀態(tài)包括拋錨停泊和航行[7]。標注前,首先根據(jù)數(shù)據(jù)的整體范圍,剔除報位中經(jīng)度、緯度、速度和時間中存在缺項、漏項及超限的數(shù)據(jù)。計算每條船位到海岸線的距離,以進出港時間劃分數(shù)據(jù)段。由于衛(wèi)星接收回傳數(shù)據(jù)的過程中會受到信號波動的影響,偶爾有人為遮擋發(fā)射源等情況,若前后兩條報位時間間隔超過3 h,則將切分軌跡段,最后刪除點數(shù)小于5的軌跡段。
本研究具體標注方法參照SOUZA等[21]和KROODSMA等[23]針對拖網(wǎng)漁船作業(yè)特征的描述,結(jié)合漁業(yè)專家經(jīng)驗,對2019年9月至2022年1月的12條遼寧省拖網(wǎng)漁船船位數(shù)據(jù)進行標定。將每段數(shù)據(jù)的經(jīng)緯度和速度按時序輸入Arcgis,綜合分析路線、行船位置及船速,對起止時間進行標注,標定數(shù)據(jù)共計175 096條。標定過程中,將捕撈狀態(tài)標記為1,非捕撈狀態(tài)標記為0。對標定好的數(shù)據(jù),參考文獻[22-23]提取每條記錄向前時間間隔、距離、到中國海岸線最短距離、理論速度、當前速度、時刻(h)、月份等漁船作業(yè)特征重要參數(shù)。由于數(shù)據(jù)量大,本研究隨機選取5條船60 362條數(shù)據(jù)用作模型訓練,剩余7條船114 734條數(shù)據(jù)用于外部驗證。
本研究獲取北斗船位數(shù)據(jù),提取特征向量,判斷其是否為捕撈作業(yè)狀態(tài),然后計算捕撈努力量,體系架構(gòu)如圖2所示。
圖2 拖網(wǎng)漁船捕撈努力量計算體系結(jié)構(gòu)Fig.1 Framework for calculating traw ling fishing effort
本文提出的基于北斗船位數(shù)據(jù)的拖網(wǎng)漁船捕撈努力量計算方法主要由兩部分組成,第一部分利用船位數(shù)據(jù)生成捕撈作業(yè)行為判別向量,再使用XGBoost判別其是否發(fā)生捕撈作業(yè)行為;第二部分則依據(jù)分類器的判別結(jié)果,結(jié)合船位信息計算捕撈努力量。
在得到船位數(shù)據(jù)特征向量后,使用XGBoost進行拖網(wǎng)漁船捕撈作業(yè)行為識別。XGBoost是一種梯度提升集成學習框架[24-26],即通過增加第n個弱學習器,使其輸入為第n-1個預測結(jié)果的殘差,將多個弱學習器做疊加使得殘差越來越小,直至接近真實值,用這樣的方式來訓練模型。XGBoost中的弱學習器選用決策樹?;赬GBoost的漁船捕撈狀態(tài)識別模型的目標函數(shù)為:
式(1)中,Obj為目標函數(shù);L為損失函數(shù);n表示弱學習器個數(shù)(fj)為復雜度正則化項。另損失函數(shù)L為:
式(2)~式(3)中,i表示樣本編號;xi表示訓練船位數(shù)據(jù);yl為對應真實捕撈狀態(tài);f為預測結(jié)果;k表示弱學習器編號;K表示弱學習器數(shù)量;^yl表示訓練后輸出值。
第t次迭代中,第i個樣本的模型預測值為:
式(4)中,t為迭代次數(shù);i表示樣本編號;xi表示訓練船位數(shù)據(jù)是第t次迭代之后樣本i的預測結(jié)果;ft(xi)是第t個弱學習器的預測結(jié)果;k表示弱學習器編號。將式(2)和式(4)代入式(1)得:
對式(5)損失函數(shù)進行二級泰勒展開得到:
式(7)中,Ω(ft)為第t個弱學習器的復雜度正則化項;j表示第j個葉子節(jié)點;N為弱學習器中葉子節(jié)點數(shù)量;ωj為葉子節(jié)點權(quán)重,γ和λ為正則化的超參數(shù)。目標函數(shù)中對全部船位數(shù)據(jù)的求和可以轉(zhuǎn)化為對葉子節(jié)點求和,由此去掉式(6)中常數(shù)項代入式(7):
式(8)中,N為弱學習器中葉子節(jié)點數(shù)量;ωq(xi)表示當前弱學習器中,樣本q(xi)被預測后落入對應節(jié)點上,ωq(xi)=ft(xi)=ωj;GJ=∑i∈IJgi;HJ=∑i∈IJhi,其中,IJ表示全部葉子節(jié)點;gi為泰勒展開一階導數(shù);hi為泰勒展開二階導數(shù);γ和λ為正則化的超參數(shù)。為了獲取最優(yōu)解q(xi),可以計算葉子j的最優(yōu)權(quán)重ωj為:
式(9)~式(10)中,ωj為葉子j的最優(yōu)權(quán)重;t為迭代次數(shù);j表示第j個葉子節(jié)點;i表示樣本編號;N為弱學習器中葉子節(jié)點數(shù)量;ωj表示葉子j的最優(yōu)權(quán)重;IJ表示全部葉子節(jié)點;gi為泰勒展開一階導數(shù);hi為泰勒展開二階導數(shù);γ和λ為正則化的超參數(shù)。式(10)可作為弱學習器的子葉分數(shù),分數(shù)越高算法對漁船捕撈作業(yè)行為識別的效果越好。
基于XGBoost的拖網(wǎng)漁船捕撈作業(yè)行為識別模型采用Python語言實現(xiàn)。模型訓練首先隨機選取5條標定船,共60 362條船位數(shù)據(jù),構(gòu)成實驗數(shù)據(jù)集。確保捕撈作業(yè)行為與非捕撈作業(yè)行為船位數(shù)據(jù)各占50%,使訓練樣本平衡。取實驗數(shù)據(jù)集中約1/5作為測試集,由此獲得模型訓練數(shù)據(jù)49 912條,及內(nèi)部測試數(shù)據(jù)10 450條。通過五折交叉選取最優(yōu)超參數(shù),確定學習率為0.01,弱分類器數(shù)量200個,每個分類器隨機采樣比例0.8,采樣列數(shù)比0.8,γ和λ采用默認值1和0。完成模型訓練后,采用114 734條船位數(shù)據(jù)進行外部驗證,同時選取極限學習機[27]和隨機森林[28]與XGBoost進行比較,測試算法的泛化能力。
為了評價基于XGBoost的拖網(wǎng)漁船捕撈作業(yè)行為識別模型的性能,本研究選取4個評價指標[29-30],分別是特異性(Specificity,SP)、敏感性(Sensitivity,SN)、準確率(Accuracy,ACC)和馬修斯相關(guān)系數(shù)(Matthews correlation coefficient,MCC),指標定義如下:
式(11)~式(14)中,TP表示真正例數(shù),即捕撈狀態(tài)被正確識別的樣本數(shù);TN表示真負例數(shù),即非捕撈狀態(tài)被正確識別的樣本數(shù);FP表示假正例數(shù),即非捕撈狀態(tài)被識別為捕撈狀態(tài)的樣本數(shù);FN表示假負例數(shù),即捕撈狀態(tài)被識別為非捕撈狀態(tài)的樣本數(shù)。
依據(jù)聯(lián)合國糧農(nóng)組織的計算方法,捕撈努力量可由發(fā)動機功率和捕撈作業(yè)天數(shù)(kW·d)表達[5,31]。本研究中捕撈努力量的計算方法參考了文獻[5]及[32],時間精確到小時,捕撈努力量單位為(kW·h)。漁船i處于出?;顒訝顟B(tài)時,假定研究區(qū)域可分為S個網(wǎng)格,則研究區(qū)域內(nèi)捕撈努力量計算公式為:
式(15)中,m表示一個網(wǎng)格內(nèi)某個漁船軌跡位置;Ti,m和Ti,m-1是漁船i行船過程中的前后2點連續(xù)軌跡的時間;Wi為漁船功率;Pi,m表示Ti,m時刻漁船i在位置m處的作業(yè)狀態(tài);N表示漁船i在網(wǎng)格內(nèi)作業(yè)位置總數(shù);I表示第s個網(wǎng)格內(nèi)漁船總數(shù);S表示網(wǎng)格總數(shù);E表示研究區(qū)域內(nèi)總漁船捕撈努力量。
將遼寧省拖網(wǎng)漁船船位數(shù)據(jù)輸入訓練好的捕撈作業(yè)識別模型中,獲取捕撈作業(yè)行為判定結(jié)果。將渤海及黃海北部37°N以北區(qū)域按×劃分網(wǎng)格,依照公式(15)計算捕撈努力量,統(tǒng)計網(wǎng)格中所有遼寧省拖網(wǎng)漁船在2021年1月1日0時至2021年12月31日24時的捕撈努力量,在ArcGIS中繪制捕撈努力量熱力圖。
訓練數(shù)據(jù)用5條船的船位數(shù)據(jù)共計60 362條,隨機分配訓練和內(nèi)部測試集,用于評估模型的擬合程度。由49 912條數(shù)據(jù)訓練XGBoost分類器,五折交叉訓練平均準確率為96.60%。在10 450的內(nèi)部測試集中,包含捕撈作業(yè)行為數(shù)據(jù)6140條,正確識別5 962個,測試集敏感性為97.10%;包含非捕撈作業(yè)行為4 310個,正確識別4 135個,測試集特異性為95.94%,整個內(nèi)部測試集準確率為96.62%。由內(nèi)部測試結(jié)果可知,模型能夠較好地擬合捕撈作業(yè)行為數(shù)據(jù)特征。
為了進一步評估模型對新樣本的適應能力,即泛化能力,本研究將標注的剩余7條船包含114 734條數(shù)據(jù)用作外部驗證集,該測試集包含36 580條捕撈作業(yè)行為數(shù)據(jù)和78 154條非捕撈作業(yè)行為數(shù)據(jù)。在相同的訓練集上,利用網(wǎng)格搜索訓練了極限學習機和隨機森林模型,計算其準確率、馬修斯相關(guān)系數(shù)、靈敏性及特異性。測試對比結(jié)果如表1所示。
表1 拖網(wǎng)漁船捕撈作業(yè)行為識別模型的外部測試結(jié)果Tab.1 External validation results of traw ler fishing behavior recognition algorithm s
通過外部驗證結(jié)果可以發(fā)現(xiàn),相較于極限學習機和隨機森林算法,XGBoost的準確率高出1.12和0.09個百分點,敏感性高出12.23和9.38個百分點。與隨機森林和XGBoost相比,極限學習機在特異性方面表現(xiàn)更好,分別高出0.22和4.92個百分點。然而從捕撈作業(yè)行為和非捕撈作業(yè)行為整體識別結(jié)果來看,為了綜合考慮實際樣本與預測樣本之間的相關(guān)性,馬修斯相關(guān)系數(shù)是二分類問題的最佳度量指標。XGBoost的馬修斯相關(guān)系數(shù)比極限學習機和隨機森林高2.18和0.22個百分點,這表明在拖網(wǎng)漁船捕撈作業(yè)行為分類問題上,XGBoost的性能相對更好,泛化能力也更強。
為了分析XGBoost對外部測試集的捕撈和非捕撈作業(yè)行為的具體識別性能,統(tǒng)計了兩種行為的預測結(jié)果如表2所示。
表2 基于XGBoost的拖網(wǎng)漁船捕撈作業(yè)行為分類條數(shù)混淆矩陣Tab.2 Confusion table of traw ler fishing behavior recognition based on XGBoost
通過表2的統(tǒng)計數(shù)據(jù)和表1的特異性和敏感性都可以看出,模型對捕撈作業(yè)行為的識別效果明顯好于非捕撈作業(yè)行為。主要考慮與數(shù)據(jù)體量和多樣性相關(guān),由于數(shù)據(jù)規(guī)模龐大,本文隨機選擇5條標注好的漁船。
總體分析內(nèi)部測試和外部驗證的結(jié)果可看出,基于XGBoost的拖網(wǎng)漁船捕撈作業(yè)行為識別模型的準確率、敏感性、特異性和馬修斯相關(guān)系數(shù)都優(yōu)于其他算法,且通過外部測試驗證了模型具有較好的泛化能力,因此模型得出的分類結(jié)果可以用于后續(xù)捕撈努力量評估。
根據(jù)XGBoost模型識別結(jié)果,統(tǒng)計遼寧省拖網(wǎng)漁船2021年1月1日0時至2021年12月31日24時在渤海及黃海北部的捕撈努力量(單位:kW·h)分布,如圖3所示。
由計算結(jié)果可知,2021年遼寧省拖網(wǎng)漁船全年在渤海及黃海北部海域內(nèi)捕撈努力量數(shù)值總計約5 327.27×104kW·h,大部分位于遼東灣漁場、石島漁場及萊州灣漁場,尤其集中在海洋島漁場、煙威漁場海域。捕撈努力量密集區(qū)分別位于2處:①38°00′~39°22′N、120°07′~124°00′E,即海洋島漁場、遼東灣漁場南部和煙威漁場北部海域,區(qū)域內(nèi)累計捕撈努力量約為4 341.74×104kW·h,最高網(wǎng)格內(nèi)捕撈努力量累計約103.09×104kW·h,位于海洋島漁場內(nèi);②37°00′~38°00′N、121°53′~124°00′E,即煙威漁場東部和石島漁場東北部海域,區(qū)域內(nèi)累計捕撈努力量約為903.28×104kW·h,最高網(wǎng)格內(nèi)捕撈努力量累計約60.55×104kW·h。
為了分析捕撈努力量的時空分布特征,本研究按月統(tǒng)計了遼寧拖網(wǎng)漁船在渤海及黃海北部區(qū)域內(nèi)的累計捕撈努力量,圖4為非禁漁期的8個月中每個月的捕撈努力量熱力分布圖。
圖4 遼寧省拖網(wǎng)漁船捕撈努力量熱度按月分布圖(黃渤海區(qū))Fig.4 M onthly distribution of fishing fever of traw ler in Liaoning Province(the Bohai Sea and the Yellow Sea)
由圖4可知,遼寧省拖網(wǎng)漁船在2021年1月渤海及黃海北部區(qū)域內(nèi)的捕撈努力量主要集中在38°13′~39°13′N、120°30′~123°47′E,主要為海洋島漁場南部、遼東灣漁場東南部、萊州灣漁場東北部及煙威漁場北部海域。2月由于春節(jié)因素總體捕撈努力量減少,主要集中在38°14′~39°00′N、120°30′~123°30′E海域。
3月后捕撈努力量增加,主要集中在2個區(qū)域:①38°07′~39°06′N、120°30′~123°07′E,主要為海洋島漁場南部、煙威漁場北部和遼東灣漁場東南部近海岸和萊州灣漁場東北部海域;②37°00′~38°00′N、123°22′~124°00′E,主要為煙威漁場和石島漁場。4月相比3月在區(qū)域①附近海域捕撈努力量增加幅度大,主要集中在38°07′~39°22′N、121°00′~123°52′E近海岸區(qū)域,分布在遼東灣漁場、海洋島漁場和煙威漁場。
9月禁漁期結(jié)束后捕撈努力量集中分布在37°45′~39°30′N、120°07′~124°00′E,主要包含遼東灣漁場、煙威漁場和海洋島漁場。10、11月捕撈努力量大幅增加,主要分布在2個區(qū)域:①38°00′~39°30′N、120°07′~124°00′E近海岸區(qū)域捕撈努力量累計最高;②37°00′~38°00′N、123°37′~124°00′E,主要為煙威漁場和石島漁場。12月捕撈努力量累積量比10、11月分布相對集中,主要集中在海洋島漁場和煙威漁場。
捕撈努力量估計精度取決于漁船捕撈作業(yè)狀態(tài)識別準確率。捕撈作業(yè)行為受海上船只運動模式和漁民捕撈習慣等多方面因素影響[32],僅以單一特征對其描述會造成誤判,致使捕撈努力量誤差高,影響漁業(yè)管理政策制定。
XGBoost在分類問題上具有良好的性能和計算效率[24]。本文采用XGBoost構(gòu)建拖網(wǎng)漁船捕撈作業(yè)行為分類模型,內(nèi)部和外部驗證的準確率均超過96%,馬修斯相關(guān)系數(shù)達0.923 4。根據(jù)SOUZA等[21]描述的拖網(wǎng)作業(yè)速度閾值,本文以2.5~5.5 kn航速對測試數(shù)據(jù)進行閾值分類,實驗準確率為92.84%,遠低于XGBoost算法結(jié)果。結(jié)果證實,在捕撈作業(yè)行為識別任務中,非線性模型相對簡單的閾值分類能更準確地描述特征與捕撈作業(yè)行為的關(guān)系。為比較XGBoost與其他經(jīng)典機器學習算法的結(jié)果,本文復現(xiàn)了BEHIVOKE等[22]采用的RF算法,實驗結(jié)果表明,XGBoost的準確率和馬修斯相關(guān)系數(shù)略高于RF算法。事實上,XGBoost適用于結(jié)構(gòu)化數(shù)據(jù),減少了模型偏差,且XGBoost在GBDT基礎上加入RF的列采樣思想,進一步避免了過擬合。實驗結(jié)果也證實,在處理捕撈作業(yè)行為識別任務方面,XGBoost的boosting串行算法比RF的bagging并行機制更加適用。除此之外,本文實現(xiàn)了一種基于前饋神經(jīng)網(wǎng)絡ELM的捕撈作業(yè)行為識別模型,實驗準確率為95.35%,低于XGBoost。實驗過程中觀察到ELM的實驗結(jié)果不穩(wěn)定,隱含層參數(shù)的隨機初始化結(jié)果對準確率存在很大影響,本文給出的ELM結(jié)果為網(wǎng)格搜索過程中最優(yōu)模型的測試結(jié)果,與ELM相比,XGBoost的捕撈特征學習性能更具穩(wěn)定性。本文構(gòu)建的拖網(wǎng)漁船作業(yè)行為識別模型具有良好的泛化能力,能夠為捕撈努力量計算提供有效的數(shù)據(jù)支撐。
我國海域內(nèi)拖網(wǎng)漁船作業(yè)具有較強的空間特性,本文構(gòu)建的漁船作業(yè)特征向量在現(xiàn)有研究的基礎上增加了船到海岸線實時距離,在輸入的特征參量上補充了漁船行駛的空間信息。為證實本文新增的特征對提高模型準確率有效,實驗分別用包含和非包含到岸距離的特征訓練XGBoost算法并測試。結(jié)果表明,新增到岸距離后模型準確率提高約0.3%。證實了本文增加的空間關(guān)系信息可以提高捕撈作業(yè)行為識別模型的準確率。
為了評估實驗誤差,本文選取4條標注漁船進行捕撈努力量計算。標定捕撈努力量共計3.74×104kW·h,經(jīng)本文算法計算,捕撈努力量共計4.36×104kW·h,平均絕對誤差(MAE)為0.100 9 kW·h,均方根誤差(RMSE)為0.985 1 kW·h。造成誤差的原因可能有兩個:1)不同拖網(wǎng)漁船作業(yè)航速不同,通過對拖網(wǎng)捕撈船行駛過程中速度的觀察分析,發(fā)現(xiàn)部分拖網(wǎng)船作業(yè)時速度偏高,部分拖網(wǎng)船速度較低。2)不同漁船作業(yè)漁場不同,多數(shù)漁船選擇較遠漁場捕撈作業(yè),也有部分漁船選擇近岸漁場。
為進一步提高捕撈作業(yè)行為識別模型的準確率,減小捕撈努力量誤差,可以從特征優(yōu)化、超參設置和擴大數(shù)據(jù)規(guī)模3個角度考慮。在特征優(yōu)化方面,本文雖補充了到岸距離作為空間信息,但漁船作業(yè)具有更多空間特性,未來可以通過提取有效的船與船間的空間信息作為特征參數(shù),提高模型準確率。在超參數(shù)設置優(yōu)化方面,本文采用交叉驗證和網(wǎng)格搜索的方法確定模型的超參數(shù),相關(guān)文獻有采用灰狼優(yōu)化算法(GWO)[33]和果蠅優(yōu)化算法(FOA)[34]等啟發(fā)式算法優(yōu)化超參數(shù)選擇,未來可以選取合適的啟發(fā)式算法優(yōu)化XGBoost的超參數(shù)選擇,提高模型準確率。另外由于船位數(shù)據(jù)標注的工作量非常大,本文選取的拖網(wǎng)漁船數(shù)據(jù)量有限,為后續(xù)優(yōu)化模型,可以擴充數(shù)據(jù)量進一步提高模型性能。