李昕悅
摘要:為降低胡蜂的不利影響,公眾提交目擊報(bào)告,而政府分配資源來解決。然而有些目擊報(bào)告的錯(cuò)誤率較高,并且政府可以分配的資源也是有限的。為了解決這一問題,我們對這個(gè)過程進(jìn)行建模和優(yōu)化,我們通過分析和擬合大量數(shù)據(jù)來檢驗(yàn)我們模型的可靠性,具體來說
第一點(diǎn):我們選取了14個(gè)被判別為Pasitive ID的地理數(shù)據(jù)點(diǎn),采用MaxEnt模型對亞洲大黃蜂在未來可能傳播的潛在地區(qū)范圍進(jìn)行了預(yù)測,并通過ROC評估體系對模型進(jìn)行了評價(jià)。事實(shí)證明該模型精確度很高。
第二點(diǎn):我們主要建立了三個(gè)有效模型并且采用了層次分析法,建立了一套完整的評價(jià)體系:導(dǎo)入報(bào)告人提交的圖片、評論以及所在位置這些信息就可以得出該報(bào)告成為Positive ID的可能性指標(biāo)。并通過分析這些數(shù)值來預(yù)測公眾錯(cuò)誤分類的可能性大小以及幫助政府優(yōu)先分配資源。
第三點(diǎn):隨著時(shí)間的推移,我們需要不斷更新數(shù)據(jù)庫,基于原模型提取部分?jǐn)?shù)據(jù)對整體數(shù)據(jù)進(jìn)行評分,通過誤差積分,該模型在對未來3個(gè)月內(nèi)的預(yù)測較為準(zhǔn)確,從而確定3個(gè)月的更新周期,并且3個(gè)月內(nèi)不再出現(xiàn)Positive ID為華盛頓徹底消除害蟲的依據(jù)。
關(guān)鍵詞:亞洲大黃蜂;層次分析法;數(shù)據(jù)建模
引言:
胡蜂作為世界最大的大黃蜂,不僅是歐洲蜜蜂的捕食者,還能在短時(shí)間內(nèi)摧毀整個(gè)歐洲蜜蜂群落,對當(dāng)?shù)孛鄯涞确N群造成嚴(yán)重影響,因此對胡蜂的防治有很重要的意義。
然而在華盛頓洲收到的公眾對此害蟲的目擊事件中,只有少部分是確認(rèn)的報(bào)告,絕大多數(shù)都是錯(cuò)誤的目擊事件報(bào)告。鑒于政府機(jī)構(gòu)資源有限,解決如何優(yōu)先分配這些資源這一問題是十分必要的。
1工作概況
1.1數(shù)學(xué)模型
為了研究胡蜂對于當(dāng)?shù)孛鄯涞确N群的影響力,利用數(shù)據(jù)建立數(shù)學(xué)模型,找出一些影響因子來判斷胡蜂的傳播是否可以預(yù)測,得出相關(guān)數(shù)據(jù)后解釋這種有害生物在一段時(shí)間內(nèi)的傳播,利用建立數(shù)學(xué)模型,找出并量化反映公眾報(bào)告正確率的指標(biāo),形成評價(jià)體系,對公眾報(bào)告提供的數(shù)據(jù)以及政府優(yōu)先分配資源方案做出解釋。
隨著時(shí)間的變化,該模型會隨著數(shù)據(jù)更新而優(yōu)化和更新。
2模型假設(shè)和解釋說明
不考慮授粉蜂群的移動(dòng)對胡蜂位置,在已確認(rèn)的公眾報(bào)告中胡蜂的位置不隨時(shí)間變化;不考慮在化學(xué)有道因素下蜜蜂或其他種群對胡蜂的反擊行為對胡蜂位置的影響;然后不考慮地理環(huán)境因素,如山川,河流的分布,對胡蜂位置的影響,公眾報(bào)告中的總體樣本數(shù)據(jù)服從平均分布,每個(gè)公民都清楚地知道胡蜂的特征,所提交的評論都是嚴(yán)謹(jǐn)可靠的,不考慮胡蜂繁衍密度對其位置分布的影響。
3模型建立與求解
3.1最大熵模型
3.1.1數(shù)據(jù)材料
地理分布數(shù)據(jù):亞洲大黃蜂的分布數(shù)據(jù)由本次競賽題目給出。環(huán)境數(shù)據(jù)采用WorldClim version 2.1下載的歷史氣候數(shù)據(jù)(1970~2000年),共19個(gè)氣候變量,其空間分辨率為 30 秒(大約1平方千米)。地圖數(shù)據(jù)分別來自CSDN論壇以及ArcGIS Online。
軟件:Maxent 3.4.1、ArcGIS 10.2、SPSS22。
3.1.2數(shù)據(jù)處理
為了使預(yù)測結(jié)果不受假信息或其他干擾因素影響,我們采用專家已經(jīng)判別為 Positive ID 的14個(gè)地理坐標(biāo)點(diǎn)作為我們預(yù)測亞洲大黃蜂傳播的原始數(shù)據(jù),并按照MaxEnt V3.4.1軟件的要求,將這些數(shù)據(jù)的經(jīng)緯度轉(zhuǎn)換為.csv存儲。
3.1.3模型操作
我們采用最大熵模型分析上述數(shù)據(jù),將14個(gè)被判定為 Positive ID的大黃蜂的發(fā)現(xiàn)坐標(biāo)點(diǎn)以及19個(gè)氣候變量的文件分別導(dǎo)入到MaxEnt V3.4.1 軟件中預(yù)先運(yùn)行,得到每個(gè)氣候變量對對亞洲大黃蜂初步預(yù)測結(jié)果的貢獻(xiàn)率。然后對這十九個(gè)變量作主成分分析以及相關(guān)性分析(SPSS22),篩選出貢獻(xiàn)率較高而空間自相關(guān)性較低的十個(gè)變量。
3.1.4結(jié)果與分析
MaxEnt 生態(tài)位模型預(yù)測的亞洲大黃蜂的潛在分布區(qū)。根據(jù)預(yù)測結(jié)果,隨時(shí)間變化,大黃蜂傳播的高適宜性地區(qū)集中在華盛頓州、俄勒岡州以及加利福尼亞州北部沿海地區(qū),也有一部分較高適宜傳播地區(qū)在夏威夷群島。另外,少部分適宜區(qū)分別分布在阿拉斯加州的西南群島以及美國南部阿肯色河和密西西比河交匯處北部的附近。
3.1.5模型評估
我們采用ROC曲線下面積AUC對我們的模型預(yù)測結(jié)果進(jìn)行精度檢驗(yàn)。AUC值越大,表示與隨機(jī)分布相距越遠(yuǎn),環(huán)境變量與預(yù)測的物種地理分布模型之間相關(guān)性越大,即模型預(yù)測效果越好,MaxEnt 軟件在運(yùn)行過程中會自動(dòng)繪制ROC曲線,并計(jì)算出AUC值,我們可以通過它們直接評估我們的模型的預(yù)測水平。
3.2.子模型:坐標(biāo)可視化模型
對所有數(shù)據(jù)集上的經(jīng)緯度進(jìn)行可視化處理,并使用紅色散點(diǎn)突出Positive ID對應(yīng)經(jīng)緯度的所在區(qū)域,在對這 14 份 Positive ID 的經(jīng)緯度進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn)這些被驗(yàn)證為真的亞洲大黃蜂的樣本。由此,被驗(yàn)證為真的亞洲大黃蜂地理位置僅處于一個(gè)較小范圍內(nèi)。
4. 模型更新
4.1題目分析
根據(jù)建立的概率估計(jì)模型,我們可以對民眾所提交的報(bào)告進(jìn)行打分評估,分?jǐn)?shù)高的報(bào)告將會被政府優(yōu)先研究。但隨著時(shí)間的推移,新數(shù)據(jù)庫的擴(kuò)充,我們所建模型必然將會不再適用,所以我們需要對模型進(jìn)行數(shù)據(jù)庫的擴(kuò)充,同時(shí)我們需要確定數(shù)據(jù)庫的更新周期。
4.2 數(shù)據(jù)庫更新方式
我們評價(jià)模型的參考因素分為圖片相似度、位置相關(guān)度、評論重復(fù)率。圖像識別部分主要基于已知確定為大黃蜂圖像來對其他圖像進(jìn)行相似度檢驗(yàn),報(bào)告在圖像部分的得分主要基于上述相似度值。因此,模型更新時(shí),我們只需要增加新確定為大黃蜂的圖片數(shù)據(jù)對基準(zhǔn)數(shù)據(jù)進(jìn)行補(bǔ)充即可。
經(jīng)緯度評分部分,我們觀察POSITIVE ID所對應(yīng)的經(jīng)緯度坐標(biāo),由于數(shù)據(jù)過少,現(xiàn)已知的坐標(biāo)基本上都存在一個(gè)很小的范圍。所以在處理時(shí),我們將這個(gè)范圍視為一個(gè)整體。滿足0.7評分的區(qū)域需要同時(shí)是所有Positive ID所輻射區(qū)域的交集。更新模型時(shí),由于新的數(shù)據(jù)補(bǔ)充,我們無法再將包含所有Positive ID的范圍視為整體。需要對經(jīng)緯度數(shù)據(jù)進(jìn)行預(yù)處理,分割成為Positive ID密集的幾個(gè)區(qū)域,再求交集區(qū)域擬定打分標(biāo)準(zhǔn)。
5. 模型的評估
5.1優(yōu)點(diǎn)
①預(yù)測模型除原有數(shù)據(jù)集外還包含影響亞洲大黃蜂分布的一系列因素,精準(zhǔn)度高。
②從R,G,B三個(gè)通道的直方圖來分析兩張圖片的相似性,既直觀又可靠
③筆記篩選機(jī)制簡單且與亞洲大黃蜂的判斷正確度相關(guān)性高。
④采用少量樣本即可對報(bào)告的正確率進(jìn)行預(yù)判,具有較強(qiáng)實(shí)用性且適應(yīng)性強(qiáng)。
5.2缺點(diǎn)
①對于經(jīng)緯度因素的處理沒有考慮到時(shí)間因素,且判斷標(biāo)準(zhǔn)較為單一,會丟失部分訊息,需要改進(jìn)。
②通過計(jì)算直方圖的方法對比圖象,總是不能消除圖像背景顏色的相似度的影響。
參考文獻(xiàn)
[1]Alaniz A J, Carvajal M A, Vergara P M。關(guān)鍵詞:大黃蜂,生物多樣性,生物多樣性,生物多樣性,生物多樣性害蟲防治科學(xué),202.
[2]測量診斷系統(tǒng)的準(zhǔn)確性??茖W(xué)通報(bào),2000,37 (6):689 - 693.
[3]https://blog.csdn.net/sunzhenlin2008/article/details/106876973
[4]https://www.cnblogs.com/jimmy-muyuan/p/5324291.html
[5]http://www.lishimeiye.cn/fun/563.html
[6]https://download.csdn.net/download/qq_38473916/10468077