徐立萍 ,門(mén)雅彬
(1.上海出版印刷高等專(zhuān)科學(xué)校,上海 200093;2.上海理工大學(xué),上海 200093;3.國(guó)家海洋技術(shù)中心,天津 300112)
基于數(shù)據(jù)挖掘算法的WCPO金槍魚(yú)圍網(wǎng)漁情預(yù)測(cè)研究
徐立萍1,2,門(mén)雅彬3
(1.上海出版印刷高等專(zhuān)科學(xué)校,上海 200093;2.上海理工大學(xué),上海 200093;3.國(guó)家海洋技術(shù)中心,天津 300112)
利用數(shù)據(jù)挖掘方法對(duì)1990年1月—2001年7月10余年的WCPO金槍魚(yú)圍網(wǎng)作業(yè)生產(chǎn)數(shù)據(jù)以及該時(shí)段的18個(gè)與WCPO金槍魚(yú)圍網(wǎng)產(chǎn)量相關(guān)的海洋環(huán)境因子進(jìn)行分析,將信息增益分析技術(shù)和基于粗糙集的屬性化簡(jiǎn)方法相結(jié)合用以確定影響WCPO金槍魚(yú)圍網(wǎng)產(chǎn)量的關(guān)鍵因子集。利用多元回歸分析方法建立基于關(guān)鍵因子集的預(yù)測(cè)模型,經(jīng)過(guò)大量試驗(yàn)對(duì)比選擇較佳的預(yù)測(cè)模型,達(dá)到了理想的效果。同時(shí),驗(yàn)證了所確定關(guān)鍵因子集的可靠性,有效性。首次利用多種數(shù)據(jù)挖掘方法相結(jié)合的方式對(duì)多種影響因子進(jìn)行分析,開(kāi)展?jié)O情預(yù)報(bào)研究,達(dá)到了較好的效果,為漁情預(yù)報(bào)研究提供了一種新思路,同時(shí)為漁業(yè)生產(chǎn)提供了可靠的依據(jù)。
中西太平洋;金槍魚(yú)圍網(wǎng);信息增益;粗糙集;漁情預(yù)報(bào)
中西太平洋海域WCPO(Western and Central Pacific Ocean)是世界金槍魚(yú)圍網(wǎng)漁業(yè)最主要的漁區(qū),其年產(chǎn)量在100萬(wàn)t左右[1]。在金槍魚(yú)圍網(wǎng)作業(yè)中,尋找魚(yú)群是最為重要的步驟,除了靠目視偵察等傳統(tǒng)方式外,還有依靠溫度、鹽度和葉綠素濃度分布及其變化情況來(lái)進(jìn)行漁情預(yù)報(bào),漁情預(yù)報(bào)所需的海洋環(huán)境信息主要來(lái)自于國(guó)外,一艘圍網(wǎng)船只每年約需支付4萬(wàn)美元[1]。因此對(duì)該海域進(jìn)行漁情預(yù)報(bào),對(duì)我國(guó)金槍魚(yú)圍網(wǎng)漁業(yè)的發(fā)展有著極為重要的意義。
漁情預(yù)報(bào)研究中,確定關(guān)鍵的影響因子是極為重要的一步,傳統(tǒng)的預(yù)測(cè)方法所涉及因子較少,其結(jié)論具有一定的局限性。而數(shù)據(jù)挖掘算法的優(yōu)點(diǎn)就是從海量數(shù)據(jù)中找到潛在有用的信息,目前也得到了一些應(yīng)用,如沈新強(qiáng)[2],陳新軍[3]等在該領(lǐng)域做了大量研究。歷年來(lái)對(duì)金槍魚(yú)分布情況的研究,以及對(duì)金槍魚(yú)漁業(yè)的漁情研究,主要涉及的環(huán)境因子就是水溫,而其它環(huán)境因素如鹽度、溫躍層、營(yíng)養(yǎng)物等與金槍魚(yú)分布的關(guān)系則研究較少。本研究旨在將數(shù)據(jù)挖掘方法應(yīng)用于中西太平洋海域金槍魚(yú)圍網(wǎng)漁業(yè)漁情預(yù)報(bào)研究,通過(guò)對(duì)1990—2001年金槍魚(yú)圍網(wǎng)生產(chǎn)數(shù)據(jù)以及海洋環(huán)境因子數(shù)據(jù)進(jìn)行分析,確定影響產(chǎn)量的關(guān)鍵因子集,進(jìn)而利用多元線性回歸方法建立基于關(guān)鍵因子集的預(yù)測(cè)模型。
在影響中西太平洋海域金槍魚(yú)圍網(wǎng)產(chǎn)量的眾多環(huán)境因子中,水溫是個(gè)非常關(guān)鍵的影響因素,而且構(gòu)成也非常復(fù)雜,包括了海洋表面溫度、各水層的水溫以及不同水層的溫躍層等。本研究選取了18個(gè)水溫因子作為研究對(duì)象(表1)。由于金槍魚(yú)圍網(wǎng)主捕對(duì)象為鰹魚(yú),約占總產(chǎn)量的70%~80%,因此以鰹魚(yú)產(chǎn)量作為代表進(jìn)行分析。研究海域?yàn)橹形魈窖蠛S颍?0°N~25°S,175°W以西),時(shí)間段為 1990 年 1 月—2001年7月。在數(shù)據(jù)分析中,以1990年1月—1998年12月期間數(shù)據(jù)作為試驗(yàn)樣本,1999年1月—2001年7月間數(shù)據(jù)作為檢驗(yàn)樣本。
由于生產(chǎn)統(tǒng)計(jì)數(shù)據(jù)和水溫?cái)?shù)據(jù)的空間分辨率不同,分析之前統(tǒng)一轉(zhuǎn)化為5°×5°。采用了算術(shù)平均值方法計(jì)算5°×5°區(qū)域的海水垂直溫度、表溫及歷史平均值,公式如下:
式中:T(m,n)表示以經(jīng)度為m,緯度為n的點(diǎn)為中心的5°區(qū)域的平均屬性值(表示海水垂直溫度、表面溫度或歷史平均值),T(i,j)表示包含在這 5°區(qū)域里的相應(yīng)屬性值,N 為求和屬性值的個(gè)數(shù)。
在分析過(guò)程中,采用數(shù)據(jù)挖掘方法。為避免一種算法對(duì)某種數(shù)據(jù)的傾向性,同時(shí)為了確保試驗(yàn)結(jié)果的可靠性,試驗(yàn)過(guò)程中,將信息增益分析技術(shù)和基于粗糙集的屬性化簡(jiǎn)方法相結(jié)合,確定影響WCPO金槍魚(yú)圍網(wǎng)產(chǎn)量的關(guān)鍵因子集。利用多元回歸分析方法構(gòu)建預(yù)測(cè)模型,同時(shí)反向檢驗(yàn)關(guān)鍵因子集的可靠性。分析過(guò)程如下:
表1 18個(gè)水溫因子及其來(lái)源
(1)利用面向?qū)傩詺w納的思想對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
(2)通過(guò)信息增益分析技術(shù)對(duì)1990年1月—1998年12月的數(shù)據(jù)進(jìn)行分析,計(jì)算各個(gè)屬性的信息增益值確定各屬性對(duì)產(chǎn)量的影響強(qiáng)度,確定與產(chǎn)量強(qiáng)相關(guān)的屬性集。
(3)為避免只依賴某一種工具,選取多種工具是非常必要的。同時(shí)采用了面向粗糙集的屬性化簡(jiǎn)方法(利用Skowron提出的可辨識(shí)矩陣得到屬性的最佳化簡(jiǎn))[4],同樣對(duì)上述18個(gè)因子及產(chǎn)量數(shù)據(jù)進(jìn)行分析,找出影響WCPO金槍魚(yú)圍網(wǎng)作業(yè)產(chǎn)量的關(guān)鍵屬性集。
表2 信息增益分析技術(shù)的結(jié)果
(4)結(jié)合上述兩種方法的結(jié)果,確定影響WCPO金槍魚(yú)圍網(wǎng)產(chǎn)量的關(guān)鍵因子集。
(5)利用多元回歸方法構(gòu)建預(yù)測(cè)中西太平洋海域金槍魚(yú)圍網(wǎng)產(chǎn)量的數(shù)據(jù)模型。
通過(guò)信息增益分析技術(shù)對(duì)1991年7月—1998年12月數(shù)據(jù)進(jìn)行分析,得到表征對(duì)WCPO金槍魚(yú)圍網(wǎng)產(chǎn)量影響強(qiáng)度的信息增益值(表2)。
利用面向粗糙集的屬性化簡(jiǎn)方法得到的核屬性集為:
從試驗(yàn)結(jié)果看,信息增益大于0.02的影響因子均包含在用面向粗糙集的屬性歸約算法找出的核屬性集中,同時(shí)信息增益分析技術(shù)分析的結(jié)果表明,12.5DeepTemp和37.5DeepTemp的信息增益值總是非常相近,即對(duì)總產(chǎn)量的影響程度差不多。面向粗糙集的屬性化簡(jiǎn)結(jié)果:12.5DeepTemp和37.5DeepTemp只需包含一個(gè)就可以構(gòu)成核屬性集。因此我們確定了信息增益分析技術(shù)中確定的關(guān)鍵因子的可靠性。
兩種方法實(shí)驗(yàn)結(jié)果表明各有優(yōu)點(diǎn),面向粗糙集的屬性歸約算法可以找出核屬性集,并且可區(qū)分出有些影響強(qiáng)度差不多的屬性只擇其一就可以了,但無(wú)法區(qū)分各因子的影響強(qiáng)度。當(dāng)核屬性集較大時(shí),我們就無(wú)法進(jìn)一步?jīng)Q定應(yīng)去除哪些屬性了。信息增益分析技術(shù)恰恰能解決這個(gè)問(wèn)題,信息增益值表征出各屬性對(duì)對(duì)比類(lèi)的影響能力。試驗(yàn)結(jié)果表明兩種方法相結(jié)合可以達(dá)到非常好的效果。
(1)確定屬性集I
選取信息增益值大于閾值0.03的關(guān)鍵因子287.5DeepTemp,237.5DeepTemp,12.5DeepTemp,37.5Deep Temp,SeaSurfaceTemp,結(jié)合面向粗糙集的屬性歸約算法的試驗(yàn)結(jié)果,僅需選12.5DeepTemp,37.5DeepTemp兩者之一,此處選擇12.5DeepTemp,同時(shí)考慮到溫躍層對(duì)產(chǎn)量具有一定的影響力,因此加進(jìn)信息增益值最大的溫躍層屬性187.5TempDiff(137.5~187.5 m水層每米平均溫度變化),構(gòu)成屬性集I:
{287.5DeepTemp,237.5DeepTemp,12.5DeepTemp,SST,187.5TempDiff}
(2)確定屬性集II
為了避免人為因素的影響,取187.5TempDiff信息增益值0.022 2為閾值,將大于此閾值的屬性全部確定為關(guān)鍵因子。這樣,構(gòu)成屬性集II:
(3)利用多元回歸分析方法建立模型對(duì)比兩個(gè)屬性集
通過(guò)多元回歸分析方法建立模型,檢驗(yàn)屬性集I與屬性集II的預(yù)測(cè)效果。試驗(yàn)中發(fā)現(xiàn)利用屬性集II建立的模型與用屬性集I建立的模型預(yù)測(cè)效果相仿。因此,在此確定屬性集I為影響WCPO金槍魚(yú)圍網(wǎng)產(chǎn)量的關(guān)鍵因子集,建立預(yù)測(cè)模型。
用SPSS軟件中的多元分析方法,用強(qiáng)相關(guān)因子建立中西太平洋金槍魚(yú)圍網(wǎng)產(chǎn)量預(yù)測(cè)模型,經(jīng)過(guò)多種建立模型方式,確定了一種預(yù)測(cè)效果較好的考慮因子交互效應(yīng)的預(yù)測(cè)方程(NetNum為投網(wǎng)次數(shù)):
預(yù)測(cè)產(chǎn)量=-17252.6+2394.849*[287.5DeepTemp]
試驗(yàn)結(jié)果證明預(yù)測(cè)效果較好,基本可以反映出相應(yīng)產(chǎn)量信息。用1999年1月—2001年7月數(shù)據(jù)進(jìn)行檢驗(yàn),預(yù)測(cè)效果如圖1;對(duì)1990年1月—2001年7月數(shù)據(jù)進(jìn)行預(yù)測(cè)。當(dāng)僅對(duì)總產(chǎn)量大于500 t進(jìn)行預(yù)測(cè)時(shí)平均誤差為2.89%;對(duì)總產(chǎn)量大于300 t進(jìn)行預(yù)測(cè)時(shí)平均誤差為19.3%;對(duì)總產(chǎn)量大于100 t進(jìn)行預(yù)測(cè)時(shí)平均誤差為61.9%,當(dāng)對(duì)總產(chǎn)量大于50 t的進(jìn)行預(yù)測(cè)平均誤差就非常大了,由此看到此模型對(duì)于產(chǎn)量大于300 t的漁區(qū)預(yù)測(cè)效果還是非常好的。
圖1 預(yù)測(cè)模型預(yù)測(cè)結(jié)果圖
在研究過(guò)程中利用數(shù)據(jù)庫(kù)技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行了清理、集成、選擇。利用面向?qū)傩缘臍w納方法將數(shù)據(jù)進(jìn)行預(yù)處理,變換成所選數(shù)據(jù)挖掘算法可用的數(shù)據(jù)。采用了信息增益技術(shù)和一種面向粗糙集的屬性化簡(jiǎn)方法相結(jié)合從選定的18個(gè)海洋環(huán)境因子中確定出與中西太平洋海域金槍魚(yú)圍網(wǎng)產(chǎn)量強(qiáng)相關(guān)的因子,利用多元回歸方法建立預(yù)測(cè)模型。從一系列的試驗(yàn)中得到以下結(jié)論:
(1)各因子的影響強(qiáng)度
從關(guān)鍵屬性集{287.5DeepTemp,237.5DeepTemp,12.5DeepTemp,SeaSurfaceTemp,187.5TempDiff}來(lái)看,對(duì)WCPO金槍魚(yú)圍網(wǎng)產(chǎn)量影響強(qiáng)度較大的是較深水層的海水溫度,海水表溫,影響強(qiáng)度較大的溫躍層是137.5~187.5 m水層的溫度變化值。
(2)預(yù)測(cè)模型
在確定了關(guān)鍵屬性集之后,采用了多種方式構(gòu)建預(yù)測(cè)模型,從試驗(yàn)結(jié)果得出,考慮交互效應(yīng)的預(yù)測(cè)模型要優(yōu)于不考慮交互效應(yīng)的取自然對(duì)數(shù)的預(yù)測(cè)模型。
采用數(shù)據(jù)挖掘方法對(duì)海量數(shù)據(jù)進(jìn)行分析,獲取信息量遠(yuǎn)大于用傳統(tǒng)方法進(jìn)行預(yù)報(bào),擺脫了數(shù)據(jù)量小,效率低的約束,避免了信息的局部性,增強(qiáng)了結(jié)論的可靠性;采用信息增益技術(shù)與基于粗糙集屬性化簡(jiǎn)兩種方法相結(jié)合的手段,避免數(shù)據(jù)對(duì)單一方法的依靠。對(duì)數(shù)據(jù)進(jìn)行多種方式預(yù)處理,以適應(yīng)分析方法所需數(shù)據(jù)的形式,確保研究技術(shù)路線的科學(xué)性與合理性;根據(jù)關(guān)鍵影響因子集,經(jīng)過(guò)由簡(jiǎn)到繁的一個(gè)過(guò)程,綜合對(duì)比不同建模方法構(gòu)建模型的預(yù)測(cè)效果,確定最終的預(yù)測(cè)模型。從獲取方法上保證了結(jié)果的科學(xué)性,而實(shí)際生產(chǎn)的檢驗(yàn)表明結(jié)果的可靠性,為漁業(yè)生產(chǎn)提供了可靠的依據(jù)。
[1]林龍山,丁峰元,程家驊.中西太平洋金槍魚(yú)圍網(wǎng)漁獲物組成分析[J].海洋漁業(yè),2005,27(1):10-14.
[2]沈新強(qiáng),葉施仁.中國(guó)漁場(chǎng)智能預(yù)報(bào)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].中國(guó)水產(chǎn)科學(xué),2000,7(2):69-72.
[3]陳新軍,俞存根,盧伙勝,等.漁業(yè)資源與漁場(chǎng)學(xué)[M].北京:海洋出版社,2004.
[4]陳文偉,黃金才,趙新昱.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002:1-48.
[5]楊松.中西太平洋金槍魚(yú)圍網(wǎng)漁業(yè)資源豐度、漁場(chǎng)變動(dòng)及其與表溫關(guān)系研究[D].上海:上海水產(chǎn)大學(xué),2005.
[6]David Hand,Heikki Mannila,Padhraic Smyth.Principles ofData Mining[M].機(jī)械工業(yè)出版社、中信出版社,2003:233-255.
[7]Han jiawei,Micheline Kamker.Data MiningConcepts and Techniques[M].北京:機(jī)械工業(yè)出版社,2001.
[8]苗振清,嚴(yán)世強(qiáng).模糊類(lèi)比分析法在漁業(yè)數(shù)值預(yù)報(bào)中的應(yīng)用研究[J].青島海洋大學(xué)學(xué)報(bào).2003,33(4):540-546.
[9]Pawlak Z.Rough sets[J].Intemational Journal ofComputer and Information Sciences,1982,1(11):341-356.
[10]Pawlak Z,et a1.Rough sets:probabilistic versus deterministic approach[J].International Journal ofMan-Machine Studies,1988,29(1):81-95.
[11]Joseph J,Miller F R.El Ninoand the surface fisheryfor tunas in the eastern Pacific.Bull.Jap.Soc.Fish[J].Oceanography,1989,53:77-80.
[12]苗振清,嚴(yán)世強(qiáng).模糊類(lèi)比分析法在漁業(yè)數(shù)值預(yù)報(bào)中的應(yīng)用研究[J].青島海洋大學(xué)學(xué)報(bào),2003,33(4):540-546.
[13]Lee MA,Lee KT,Shiah GY.Environmental factors associated with the formation oflarval anchovyfishingground in coastal waters ofsouthwest Taiwan[J].Mar Biol,1995,121:621-625.
[14]袁紅春,湯鴻益,陳新軍.一種獲取漁場(chǎng)知識(shí)的數(shù)據(jù)挖掘模型及知識(shí)表示方法研究[J].計(jì)算機(jī)應(yīng)用研究,2010,12:4443-4446.
[15]徐立萍,張健,陳新軍.基于信息增益及粗糙集的屬性化簡(jiǎn)算法[J].微型電腦應(yīng)用,2007(10):62-64.
Study of WCPO Tuna Purse Seine Fishery Prediction Based on Data Mining
XU Li-ping1,2,MEN Ya-bin3
(1.Shanghai Publishing and Printing College,Shanghai 20093;China 2.University of Shanghai for Science and Technology,Shanghai 200090,China;3.National Ocean Technology Center,Tianjin 300112,China)
In order to find the key influence attributes set to tuna purse seiner output in WCPO,the attained data of tuna purse seiner output from Jan 1990 to Jul 2001,and eighteen environmental factors associated with tuna purse seiner output in the same period were analyzed with the information gain analysis method and rough set theory.Several fishery prediction models were established by multiple regression analysis based on the key attributes set and then were compared to confirm the best one.The good prediction effect of that model proved that the key attribute set contains the main information of those influence attribute data.Two data mining methods were combined to analyze multiple factors,which could be a new analyzing method of fishery prediction study.The prediction model based on the key influence attributes set improves the fishery prediction precision and provide the important information to fishery industry.
western and central Pacific Ocean;tuna purse seine fishery;information gain;rough set;fishery forecast
S973.1
A
1003-2029(2012)01-0103-04
2011-09-20
國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863)資助項(xiàng)目(2003AA637030)
徐立萍(1977-),女,講師,博士在讀,主要研究方向?yàn)閿?shù)據(jù)挖掘與預(yù)測(cè)。Email:xlp20010609@gmail.com