朱玉梅
(新疆生產(chǎn)建設(shè)兵團(tuán)農(nóng)業(yè)廣播電視學(xué)校,烏魯木齊830002)
Apriori算法在棉花病蟲(chóng)害分析中的應(yīng)用
朱玉梅
(新疆生產(chǎn)建設(shè)兵團(tuán)農(nóng)業(yè)廣播電視學(xué)校,烏魯木齊830002)
為了快速準(zhǔn)確地掌握棉花蟲(chóng)害發(fā)生趨勢(shì),提高蟲(chóng)情測(cè)報(bào)的時(shí)效性和準(zhǔn)確性,采用Apriori算法數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則,對(duì)棉花上的3種害蟲(chóng)棉鈴蟲(chóng)、棉葉螨、棉蚜的發(fā)生趨勢(shì)進(jìn)行綜合分析。通過(guò)Apriori算法尋找出了氣候因素與棉花三大害蟲(chóng)的發(fā)生發(fā)展有密切的關(guān)系,尤其氣溫變化直接影響到棉花害蟲(chóng)的發(fā)生種類、發(fā)生期及發(fā)生量。關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),在處理大量農(nóng)業(yè)信息數(shù)據(jù)中起著非常重要的作用,Apriori算法在棉花病蟲(chóng)測(cè)報(bào)工作中將是一項(xiàng)新的技術(shù),具有非常廣泛的應(yīng)用前景。
關(guān)聯(lián)規(guī)則;Apriori算法;數(shù)據(jù)挖掘;Weka平臺(tái);棉花病蟲(chóng)預(yù)測(cè)預(yù)報(bào);應(yīng)用前景
現(xiàn)代信息技術(shù)的迅速發(fā)展使中國(guó)農(nóng)業(yè)邁向了大數(shù)據(jù)時(shí)代,現(xiàn)代化的農(nóng)業(yè)必然與大數(shù)據(jù)發(fā)生各種聯(lián)系,農(nóng)業(yè)大數(shù)據(jù)的挖掘和應(yīng)用對(duì)于現(xiàn)代農(nóng)業(yè)的發(fā)展具有非常重要的作用。
農(nóng)業(yè)發(fā)展過(guò)程中積累了大量的農(nóng)業(yè)數(shù)據(jù)信息,涉及到與農(nóng)業(yè)生產(chǎn)過(guò)程密切相關(guān)的耕地、播種、田管、水肥、植保、收獲及儲(chǔ)運(yùn)等各個(gè)農(nóng)事作業(yè)環(huán)節(jié),包括各類作物的苗情、土情、肥情、水情、蟲(chóng)情、氣象和災(zāi)害等農(nóng)業(yè)數(shù)據(jù),這些數(shù)據(jù)信息是指導(dǎo)現(xiàn)代農(nóng)業(yè)精準(zhǔn)作業(yè)的寶貴財(cái)富[1-2]。但這些復(fù)雜而豐富、多維又動(dòng)態(tài)的數(shù)據(jù)信息具有不完整和不確定性,導(dǎo)致人們?cè)诶眠@些農(nóng)業(yè)數(shù)據(jù)時(shí)總陷入“數(shù)據(jù)豐富而知識(shí)貧乏”的境地[3-5]。如何利用好這些大數(shù)據(jù),從中挖掘其背后隱藏的信息,已成為當(dāng)前加快推進(jìn)農(nóng)業(yè)現(xiàn)代化發(fā)展急需解決的問(wèn)題,也是一個(gè)值得思考和實(shí)踐的課題。
信息技術(shù)在農(nóng)業(yè)生產(chǎn)中已廣泛應(yīng)用,通過(guò)利用數(shù)據(jù)挖掘技術(shù)對(duì)大量的信息進(jìn)行分析[6-9],尋找各相關(guān)因素間內(nèi)在聯(lián)系與規(guī)律,從中發(fā)掘出潛在的信息價(jià)值,為農(nóng)業(yè)生產(chǎn)提供科學(xué)依據(jù),對(duì)于實(shí)現(xiàn)農(nóng)業(yè)高產(chǎn)、優(yōu)質(zhì)、高效和可持續(xù)發(fā)展具有十分重要的意義[10-13]。因此,筆者采用Apriori關(guān)聯(lián)規(guī)則挖掘算法,以新疆棉區(qū)3種害蟲(chóng)棉鈴蟲(chóng)、棉葉螨和棉蚜的發(fā)生情況為實(shí)例,對(duì)氣溫、有效積溫和降雨量3個(gè)氣象因子與3種害蟲(chóng)發(fā)生量進(jìn)行數(shù)據(jù)挖掘,借此找出氣象因子與蟲(chóng)情發(fā)生發(fā)展的內(nèi)在聯(lián)系和規(guī)律,以期幫助基層測(cè)報(bào)站工作者快速準(zhǔn)確掌握各類蟲(chóng)情發(fā)生發(fā)展的趨勢(shì),通過(guò)對(duì)蟲(chóng)情動(dòng)態(tài)信息的正確分析,提高測(cè)報(bào)的時(shí)效性和準(zhǔn)確性,進(jìn)一步為蟲(chóng)害的防控決策提供強(qiáng)有力的參考價(jià)值和科學(xué)依據(jù)。
關(guān)聯(lián)規(guī)則是近年數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn),關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)已在多個(gè)領(lǐng)域取得令人滿意的應(yīng)用效果[14-17]。從海量數(shù)據(jù)中,通過(guò)關(guān)聯(lián)規(guī)則可以發(fā)現(xiàn)數(shù)據(jù)中項(xiàng)集之間隱含的聯(lián)系,并揭示數(shù)據(jù)間未知的依賴關(guān)系,可以依據(jù)這種依賴關(guān)系,從某一數(shù)據(jù)對(duì)象的信息推斷出另一數(shù)據(jù)對(duì)象的信息[18-19]。
1.1 Apriori算法概述
Apriori算法1994年由Edu等人[20]提出,是發(fā)現(xiàn)事務(wù)數(shù)據(jù)庫(kù)中頻繁項(xiàng)集的最有影響的數(shù)據(jù)挖掘算法之一,Apriori算法是關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘中的典型算法,目前已應(yīng)用于商業(yè)、林業(yè)、電信和教育等方面[14-19]。Apriori算法是利用一個(gè)層次順序搜索的循環(huán)方法來(lái)完成產(chǎn)生關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集的挖掘工作,包含k個(gè)項(xiàng)的集合為k項(xiàng)集,k項(xiàng)集用于探索(k+1)項(xiàng)集。關(guān)聯(lián)規(guī)則的挖掘在Apriori算法中分為兩步,一是利用候選項(xiàng)集生成頻繁項(xiàng)集,頻繁項(xiàng)集滿足“支持度大于最小支持度閾值”,二是利用最終的頻繁大項(xiàng)集生成關(guān)聯(lián)規(guī)則,規(guī)則滿足“置信度大于最小置信度”,其中的最小支持度閾值和最小置信度閾值都由用戶事先設(shè)定[14,16],也就是依據(jù)支持度找出所有頻繁項(xiàng)集(頻度)、依據(jù)置信度產(chǎn)生關(guān)聯(lián)規(guī)則(強(qiáng)度)。
1.2 Apriori算法步驟
采用連接步和剪枝步2種方式,Apriori算法從中找出所有的頻繁項(xiàng)集,形成規(guī)則,其過(guò)程由連接(類矩陣運(yùn)算)與剪枝(去掉那些沒(méi)必要的中間結(jié)果)組成。1.2.1連接步為找Fk,通過(guò)將Fk-1與自己連接產(chǎn)生候選k項(xiàng)集的集合,該候選集的集合記做Lk;設(shè)F1和F2是Fk-1中的項(xiàng)集;執(zhí)行連接Fk-1∞Fk-1,其中Fk-1的元素F1和F2是可以連接的。
1.2.2 剪枝步Lk是Fk的超集,Lk的成員可能是也可能不是頻繁的,所有的頻繁k項(xiàng)集都包含在Lk中。掃描數(shù)據(jù)庫(kù)確定Lk中每個(gè)候選集計(jì)數(shù),判斷是否小于最小支持度計(jì)數(shù),如果不是,則認(rèn)為該候選是頻繁的,并利用Fk-1剪掉Lk中的非頻繁項(xiàng),從而確定Fk。
近年來(lái)農(nóng)業(yè)病蟲(chóng)害頻繁發(fā)生,危害各種農(nóng)作物,病蟲(chóng)害直接影響農(nóng)作物的產(chǎn)量和質(zhì)量。中國(guó)每年因病蟲(chóng)害造成的經(jīng)濟(jì)損失達(dá)15%~25%[21-22],在病蟲(chóng)害預(yù)測(cè)預(yù)報(bào)工作中,植保部門(mén)每年都積累了大量的病蟲(chóng)情報(bào)數(shù)據(jù),隨著大量數(shù)據(jù)不停的收集和存儲(chǔ),從數(shù)據(jù)庫(kù)中挖掘關(guān)聯(lián)規(guī)則顯得越來(lái)越有必要性。筆者以新疆兵團(tuán)農(nóng)業(yè)團(tuán)場(chǎng)種植棉區(qū)常年發(fā)生的3種害蟲(chóng)棉鈴蟲(chóng)、棉葉螨和棉蚜的發(fā)生情況為實(shí)例,采用關(guān)聯(lián)規(guī)則Apriori算法對(duì)3個(gè)氣象因子氣溫、有效積溫和降雨量與3種蟲(chóng)情發(fā)生規(guī)則進(jìn)行數(shù)據(jù)挖掘。
2.1 實(shí)例數(shù)據(jù)
棉鈴蟲(chóng)、棉葉螨和棉蚜的發(fā)生期、發(fā)生量與自然因素有著密切的關(guān)系,受氣象因子的影響,害蟲(chóng)發(fā)生種類及發(fā)生特點(diǎn)也不同。通過(guò)收集該地區(qū)2014年4—8月,連續(xù)5個(gè)月3種害蟲(chóng)發(fā)生量的相關(guān)數(shù)據(jù),包括:有螨(蟲(chóng)、蚜)株率(%)、百株螨(蟲(chóng)、蚜)量(頭)、百株卵量(粒),采用主因子分析、回歸分析等方法,選取相關(guān)程度密切的3個(gè)氣象因子:月平均氣溫(℃)、>10℃的月有效積溫(℃)、月降水量總量(mm)。數(shù)據(jù)見(jiàn)表1。
2.2 數(shù)據(jù)預(yù)處理
表1 2014年不同月份棉鈴蟲(chóng)、棉葉螨和棉蚜蟲(chóng)口發(fā)生量及氣象因子
為了更好地進(jìn)行關(guān)聯(lián)規(guī)則挖掘,由于所有的分析數(shù)據(jù)均為非離散的數(shù)值屬性,因此對(duì)數(shù)據(jù)信息進(jìn)行離散化處理;各數(shù)據(jù):月平均氣溫、>10℃有效積溫、降水總量及棉葉螨、棉鈴蟲(chóng)、棉蚜屬性值分別表示成A、B、C、D、E、F,有螨(蟲(chóng)、蚜)株率、百株螨(蟲(chóng)、蚜)量及百株卵量的屬性值分別表示為a、b、c,各因子離散化等級(jí)見(jiàn)表2,并對(duì)各個(gè)數(shù)據(jù)因子從Ar_001~Ar_011進(jìn)行編號(hào),采用Weka平臺(tái)離散化后的數(shù)據(jù)[23]如圖1。
通過(guò)Apriori算法進(jìn)行關(guān)聯(lián)規(guī)則挖掘,設(shè)置最小支持度min_sup為50%,最小置信度min_conf為90%,關(guān)聯(lián)規(guī)則挖掘結(jié)果見(jiàn)圖2。
表2 數(shù)據(jù)離散化參數(shù)
圖1 離散化后的數(shù)據(jù)
圖2 關(guān)聯(lián)規(guī)則挖掘結(jié)果
通過(guò)Weka平臺(tái)用Apriori算法挖掘的關(guān)聯(lián)規(guī)則,并非每條規(guī)則都有現(xiàn)實(shí)意義,因此對(duì)挖掘出的規(guī)則進(jìn)行篩選,得到有參考價(jià)值的關(guān)聯(lián)規(guī)則,數(shù)據(jù)見(jiàn)表3。
表3 Apriori算法產(chǎn)生的關(guān)聯(lián)規(guī)則
3.1 蟲(chóng)害發(fā)生與氣象因子的關(guān)系
結(jié)果表明,棉葉螨、棉鈴蟲(chóng)和棉蚜的發(fā)生量與氣候因子密切相關(guān)。3種蟲(chóng)害的發(fā)生程度受平均氣溫影響顯著,置信度在100%,在平均氣溫相同情況下,蟲(chóng)害發(fā)生量和為害級(jí)別為棉鈴蟲(chóng)>棉葉螨>棉蚜,當(dāng)平均氣溫達(dá)到25~30℃時(shí),棉鈴蟲(chóng)有蟲(chóng)株率達(dá)到15%~20%;當(dāng)平均氣溫達(dá)到15~25℃時(shí),棉鈴蟲(chóng)百株蟲(chóng)口在35頭以上,棉葉螨百株螨量10~20頭,有螨株率10%~15%,棉蚜有株蚜率10%~15%,百株蚜量達(dá)到10~20頭。
3.2 蟲(chóng)害發(fā)生與季節(jié)的關(guān)系
隨著季節(jié)變化氣溫逐步回升,特別進(jìn)入高溫季節(jié),各類蟲(chóng)害也會(huì)迅速進(jìn)入發(fā)生高峰期,關(guān)聯(lián)規(guī)則結(jié)果顯示,棉花三大害蟲(chóng)的發(fā)生高峰期主要在5、6月份,置信度均為100%,5月份平均氣溫在20℃以上,棉鈴蟲(chóng)百株蟲(chóng)口數(shù)36頭,棉葉螨的百株螨量和百株卵量分別是13頭和5粒,棉蚜有蚜株率和百株蚜量達(dá)到23%和43頭。6月份氣溫升高對(duì)棉鈴蟲(chóng)發(fā)生影響最明顯,當(dāng)氣溫在24.5℃時(shí),棉鈴蟲(chóng)有蟲(chóng)株率在達(dá)到32%。這與在實(shí)踐經(jīng)驗(yàn)中總結(jié)得到的規(guī)律是基本相符的。
Apriori算法對(duì)農(nóng)業(yè)病蟲(chóng)害數(shù)據(jù)分析,可以預(yù)測(cè)某時(shí)段內(nèi)害蟲(chóng)發(fā)生種類及發(fā)生趨勢(shì),從而為農(nóng)業(yè)植保部門(mén)病蟲(chóng)害預(yù)測(cè)和防治提供決策支持。筆者通過(guò)有效的關(guān)聯(lián)分析,對(duì)不同季節(jié)的氣象因子與棉花三大蟲(chóng)害發(fā)生的規(guī)則挖掘,得到三大蟲(chóng)害的發(fā)生與氣象因子關(guān)系密切,尤其氣溫變化直接影響到棉花害蟲(chóng)的發(fā)生種類、發(fā)生期及發(fā)生量,以上有價(jià)值的信息分析結(jié)果已在實(shí)踐經(jīng)驗(yàn)中得到了驗(yàn)證和證實(shí)。但是種植結(jié)構(gòu)、栽培制度、防治手段及棉花品種抗蟲(chóng)能力的不同,對(duì)害蟲(chóng)的發(fā)生及調(diào)查也會(huì)產(chǎn)生一定的影響。
關(guān)聯(lián)規(guī)則還可以集中在病蟲(chóng)害動(dòng)態(tài)監(jiān)測(cè)及其風(fēng)險(xiǎn)評(píng)估等方面應(yīng)用,關(guān)聯(lián)規(guī)則在農(nóng)業(yè)病蟲(chóng)害中的應(yīng)用有待進(jìn)一步調(diào)查研究和總結(jié)。利用數(shù)據(jù)關(guān)聯(lián)關(guān)系挖掘農(nóng)作物病蟲(chóng)害產(chǎn)生的原因與環(huán)境等因素之間隱藏的內(nèi)在聯(lián)系,可以驗(yàn)證已知的經(jīng)驗(yàn)規(guī)律,揭示出未知的隱藏信息,對(duì)于有效識(shí)別、預(yù)防及防治農(nóng)作物病蟲(chóng)害具有重要的作用和意義。
[1]劉春玲,崔凌云,賈冬青,等.數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)領(lǐng)域的應(yīng)用[J].農(nóng)機(jī)化研究,2010,32(7):201-204.
[2]羅鳳娥,彭佳紅,胡建強(qiáng).數(shù)據(jù)挖掘在農(nóng)業(yè)領(lǐng)域中的應(yīng)用研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2009(1):55-58.
[3]劉麗.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)綜述[J].現(xiàn)代計(jì)算機(jī):專業(yè)版, 2011(7):25-27.
[4]Fonseca B M,Golgher P B,De Moura E S,et al.Discovering Search Engine Related Query Using Association Rules[J].Journal of Web Engineering 2003,2(4):215-227.
[5]Zhang C,Qin Z,Yan X.Assocaition-Based Segmentation for Chinese-Crossed Query Expansion[J].IEEE Computer Society,2005, 5(5):18-25.
[6]李增祥.數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)生產(chǎn)中的應(yīng)用[J].微計(jì)算機(jī)信息, 2010,26(18):150-151.
[7]李文圃,廖桂平.數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)信息網(wǎng)站中的應(yīng)用研究[J].中國(guó)農(nóng)學(xué)通報(bào),2012,28(6):269-275.
[8]梁川,王文生,謝能付.農(nóng)業(yè)信息資源上數(shù)據(jù)挖掘的應(yīng)用[J].中國(guó)農(nóng)學(xué)通報(bào),2009,25(11):243-247.
[9]勞飛,朱玉業(yè).數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)中的應(yīng)用[J].安徽農(nóng)業(yè)科學(xué), 2007,35(13):4053-4053,4082.
[10]白利果,喬鋼柱,曾建潮.關(guān)聯(lián)規(guī)則挖掘在農(nóng)業(yè)產(chǎn)值分析中的應(yīng)用[J].太原科技大學(xué)學(xué)報(bào),2008,29(5):335-338.
[11]陳桂芬,曹麗英,馬麗.數(shù)據(jù)挖掘在精準(zhǔn)農(nóng)業(yè)中的應(yīng)用現(xiàn)狀及發(fā)展趨勢(shì)[J].吉林農(nóng)業(yè)大學(xué)學(xué)報(bào),2008,30(4):621-626.
[12]張愛(ài)國(guó),高鶴,王麗維.數(shù)據(jù)挖掘技術(shù)在現(xiàn)代農(nóng)業(yè)上的應(yīng)用[J].湖北農(nóng)業(yè)科學(xué),2011(21):4531-4534.
[13]張家愛(ài).數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)決策支持系統(tǒng)中的應(yīng)用[J].吉林農(nóng)業(yè)科技學(xué)院學(xué)報(bào),2010(1):56-57.
[14]馬冬來(lái),張文靜,屈赟.基于改進(jìn)Apriori算法的農(nóng)業(yè)病蟲(chóng)害診斷[J].湖北農(nóng)業(yè)科學(xué),2014(1):203-205.
[15]鄭繼剛,張靜梅,唐智英.數(shù)據(jù)挖掘技術(shù)在茶葉病蟲(chóng)害預(yù)警中的研究與應(yīng)用[J].湖北農(nóng)業(yè)科學(xué),2013(24):6172-6174.
[16]黃世國(guó),林思祖,林大輝.Apriori算法在杉木伴生樹(shù)種選擇中的應(yīng)用[J].福建農(nóng)林大學(xué)學(xué)報(bào):自然科學(xué)版,2008,37(1):70-72.
[17]王曉峰,王天然,程遠(yuǎn)杰,等.Apriori算法在紅外光譜數(shù)據(jù)挖掘中的應(yīng)用[J].計(jì)算機(jī)與應(yīng)用化學(xué),2001,18(5):477-483.
[18]謝艷新.數(shù)據(jù)挖掘技術(shù)在水稻病蟲(chóng)害系統(tǒng)中的設(shè)計(jì)與實(shí)現(xiàn)[J].湖北農(nóng)業(yè)科學(xué),2011,50(11):2340-2342.
[19]邢平平,施鵬飛,熊范綸.數(shù)據(jù)挖掘技術(shù)在農(nóng)業(yè)數(shù)據(jù)中的有效應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2001,37(2):4-6.
[20]Edu H C S,Rakesh Agrawal,Ramakrishnan Srikant.Fast algorithm for mining association rules[C].International Conference on Very Large Bata Bases,1994:487-499.
[21]唐智英,王祖鳳.關(guān)聯(lián)規(guī)則挖掘技術(shù)在茶葉病蟲(chóng)害中的研究與應(yīng)用[J].計(jì)算機(jī)光盤(pán)軟件與應(yīng)用,2012(15):114-115.
[22]黃光明.Apriori算法在農(nóng)業(yè)病蟲(chóng)害分析中的應(yīng)用[J].安徽農(nóng)業(yè)科學(xué),2009,37(13):6028-6029.
[23]周紅紅.基于Apriori算法的Weka數(shù)據(jù)挖掘應(yīng)用[J].科技信息,2011 (36):I0104-I0104.
Application of Apriori Algorithm to Analysis of Cotton Diseases and Insect Pests
Zhu Yumei
(Agricultural Broadcasting and Television School,Xinjiang Production and Construction Corps,Urumqi 830002,Xinjiang,China)
To quickly and accurately know the trend of cotton insect pest and improve the timeliness and accuracy of forecast,we applied data mining technology using association rules in Apriori algorithm to comprehensively analyze the occurrence trend of three kinds of cotton pests including cotton bollworm,cotton spider mites and cotton aphid.The results showed that the occurrence of the three major cotton pests had a close relationship with climatic factors.In particular,the changes of temperature directly affected the species, period and amount of pest occurrence.Data mining technology using association rules plays a very important role in dealing with a large number of agricultural information data.Apriori algorithm is a new technology in forecasting cotton pest and has broad application prospect.
Association Rule;Apriori Algorithm;Data Mining;Weka Platform;Forecast of Cotton Diseases and Pests;Application Prospect
S431.9
A論文編號(hào):cjas16030023
師域發(fā)展支持計(jì)劃“機(jī)采雜交棉等行距優(yōu)質(zhì)高產(chǎn)栽培綜合調(diào)控技術(shù)研究”(2015AF016)。
朱玉梅,女,1978年出生,甘肅皋蘭人,農(nóng)藝師,講師,碩士,從事新型職業(yè)農(nóng)民教育及農(nóng)業(yè)科技培訓(xùn)。通信地址:830002新疆烏魯木齊市天山區(qū)堿泉街2號(hào)新疆生產(chǎn)建設(shè)兵團(tuán)農(nóng)業(yè)廣播電視學(xué)校,Tel:0991-2652138,E-mail:125505367@qq.com。
2016-03-28,
2016-09-08。