藍(lán)海濤
(柳州市林業(yè)技術(shù)推廣站,廣西 柳樹(shù) 545001)
我國(guó)地域遼闊,森林資源調(diào)查數(shù)據(jù)存在著復(fù)雜、龐大的特點(diǎn),因此,如何將此類(lèi)數(shù)據(jù)轉(zhuǎn)化成具有價(jià)值的信息是林業(yè)信息化工作的重點(diǎn)。就單以柳州市為例,根據(jù)2019年森林資源管理“一張圖”統(tǒng)計(jì),全市總計(jì)面積186.04萬(wàn)公頃,林地面積127.15萬(wàn)公頃,森林覆蓋率66.69%,主要種植松、杉、桉樹(shù),分別占地6.6萬(wàn)公頃、41.92萬(wàn)公頃、23.45萬(wàn)公頃,若通過(guò)傳統(tǒng)方式來(lái)對(duì)這些森林資源進(jìn)行管理,顯然是不現(xiàn)實(shí)的。近年來(lái),數(shù)據(jù)挖掘技術(shù)從無(wú)到有,發(fā)展十分迅速,隨著理論研究的逐漸推進(jìn),此技術(shù)開(kāi)始在各個(gè)領(lǐng)域中進(jìn)行運(yùn)用。在森林資源管理工作中對(duì)數(shù)據(jù)挖掘技術(shù)進(jìn)行運(yùn)用,可以在海量且關(guān)系復(fù)雜的數(shù)據(jù)之中將蘊(yùn)藏深層次含義的信息挖掘出來(lái),以促進(jìn)森林經(jīng)營(yíng)以及資源管理工作效率的提升,同時(shí)還能夠通過(guò)知識(shí)管理與發(fā)現(xiàn)來(lái)優(yōu)化森林資源管理工作,推動(dòng)森林資源決策管理向著現(xiàn)代化以及科技化的方向發(fā)展。
就數(shù)據(jù)挖掘技術(shù)而言,其屬于一個(gè)處理過(guò)程,主要通過(guò)多種計(jì)算機(jī)技術(shù)對(duì)數(shù)據(jù)庫(kù)之中存在的數(shù)據(jù)進(jìn)行自動(dòng)分析,并對(duì)相應(yīng)知識(shí)進(jìn)行提取[1]。在此種定義中,數(shù)據(jù)挖掘需要將數(shù)據(jù)庫(kù)作為對(duì)象,立足于宏觀角度進(jìn)行分析,數(shù)據(jù)挖掘?qū)儆趯⒛承┦聦?shí)與觀察數(shù)據(jù)作為基礎(chǔ)的集合。就數(shù)據(jù)挖掘?qū)ο蠖?,還包含文件系統(tǒng),以及與其它組織進(jìn)行結(jié)合的集合。簡(jiǎn)而言之,數(shù)據(jù)挖掘技術(shù)指的是在海量的數(shù)據(jù)之中挖掘、提取知識(shí)。
現(xiàn)存林業(yè)地理信息系統(tǒng)主要涉及空間分析、資源數(shù)據(jù)管理、林業(yè)專(zhuān)題制圖以及信息查詢等相關(guān)功能,對(duì)林業(yè)領(lǐng)域知識(shí)進(jìn)行表達(dá)以及獲取的方式較為匱乏[2]。把DMDK與SDMDK技術(shù)和林業(yè)GIS進(jìn)行融合,能夠在海量的數(shù)據(jù)之中發(fā)掘出概括性強(qiáng)以及蘊(yùn)藏各類(lèi)林業(yè)領(lǐng)域的知識(shí)規(guī)則,諸河流、公路的關(guān)聯(lián)規(guī)律,以及森林在二維、三維地表的分布規(guī)律等,進(jìn)而確保森林資源管理、林業(yè)發(fā)展輔助決策、林業(yè)規(guī)劃的科學(xué)性、合理性以及準(zhǔn)確性,推動(dòng)森林資源管理、決策工作能夠向著智能化的方向發(fā)展,從而形成林業(yè)決策支持系統(tǒng)。
針對(duì)森林資源遙感影像自動(dòng)解譯,亦或是目標(biāo)識(shí)別而言,同物異譜以及同譜異物的情況較為普遍[3]。在遙感影像分類(lèi)的過(guò)程中對(duì)GIS數(shù)據(jù)進(jìn)行良好的運(yùn)用,并在其中挖掘知識(shí)來(lái)優(yōu)化影像分類(lèi),推動(dòng)解譯精度以及自動(dòng)化程度的提升,屬于遙感領(lǐng)域需要深入探究的一個(gè)問(wèn)題。同時(shí),如果分類(lèi)器需要數(shù)據(jù)擁有相應(yīng)的統(tǒng)計(jì)特性,那么就不宜將GIS技術(shù)作為輔助數(shù)據(jù)。所以,立足于現(xiàn)存林業(yè)GIS數(shù)據(jù),挖掘適宜的森林分類(lèi)規(guī)則促進(jìn)分類(lèi)精度的提升,可有效解決上述問(wèn)題。
對(duì)數(shù)據(jù)中存在的潛在模式進(jìn)行挖掘,屬于數(shù)據(jù)挖掘的重要任務(wù)[4]。模式屬于通過(guò)語(yǔ)言L來(lái)進(jìn)行表達(dá)的表達(dá)式E,其能夠?qū)?shù)據(jù)集F之中數(shù)據(jù)的特性進(jìn)行描述,同時(shí)E描述的數(shù)據(jù)屬于集合F的子集FE。作為一個(gè)模式,E在描述方式上需要比列舉子集FE中包含的全部元素更加簡(jiǎn)單。例如,“如果部分林分在郁閉度方面為0.5~0.6,那么可開(kāi)展預(yù)備伐”,我們可以將其作為一個(gè)模式,但“如果部分林分在郁閉度方面為0.51、0.52、0.53……0.59,那么可開(kāi)展預(yù)備伐”,不能夠被作為一個(gè)模式?,F(xiàn)階段,在森林資源管理中運(yùn)用數(shù)據(jù)挖掘技術(shù),主要涉及以下幾個(gè)方面。
3.1.1 分類(lèi)模式
分類(lèi)模式通常表現(xiàn)為一棵分類(lèi)樹(shù),結(jié)合數(shù)據(jù)值由樹(shù)根進(jìn)行搜索,然后立足于數(shù)據(jù)滿足的分支向上走,到樹(shù)葉后方可對(duì)類(lèi)別進(jìn)行明確[5]。將分類(lèi)模式在森林資源數(shù)據(jù)中予以應(yīng)用,可對(duì)比不同地區(qū)以及林種的相關(guān)數(shù)據(jù),以便于明確該地區(qū)的自然區(qū)域類(lèi)別,同時(shí)判斷樹(shù)種在此區(qū)域的適應(yīng)性。
3.1.2 回歸模式
就回歸模式而言,函數(shù)能以與分類(lèi)模式較為相似,不同點(diǎn)在于前者預(yù)測(cè)值屬于連續(xù)的,后者為離散的[6]。對(duì)回歸方式進(jìn)行運(yùn)用的過(guò)程中,變量組合的復(fù)雜程度和數(shù)量,與方程穩(wěn)定性呈反比關(guān)系。若無(wú)法掌握變量關(guān)系,那么可多選擇幾項(xiàng),次要變量可運(yùn)用逐步回歸的計(jì)算被剔除。若通過(guò)回歸模式對(duì)樹(shù)木種類(lèi)、高度的年增長(zhǎng)量進(jìn)行判斷,并分析其屬于0.5m之下、0.5~1.0m、1m之上中的哪個(gè)類(lèi)別,可通過(guò)此方式得出結(jié)論。
3.1.3 時(shí)間序列模式
結(jié)合數(shù)據(jù)隨著時(shí)間出現(xiàn)的變化趨勢(shì),時(shí)間序列模式能夠?qū)ξ磥?lái)的值進(jìn)行預(yù)測(cè)[7]。需要對(duì)時(shí)間存在的特殊性質(zhì)進(jìn)行充分考慮,諸如周期性時(shí)間定義年、月、周等,不同時(shí)間長(zhǎng)度會(huì)引起特定的影響。對(duì)此,需要對(duì)時(shí)間因素進(jìn)行全面的考慮,運(yùn)用現(xiàn)存數(shù)據(jù)跟隨時(shí)間出現(xiàn)變化的值,進(jìn)而對(duì)未來(lái)值予以預(yù)測(cè)。時(shí)間能夠?qū)?shù)據(jù)產(chǎn)生顯著的影響,許多指標(biāo)會(huì)在時(shí)間變化的影響下,表現(xiàn)出顯著或潛在的變化特點(diǎn)。
3.1.4 序列模式
序列模式和關(guān)聯(lián)模式非常接近,其充分聯(lián)系起了數(shù)據(jù)間的關(guān)聯(lián)性和時(shí)間。若要將序列模式找到,除了需要掌握事件發(fā)生與否之外,還應(yīng)對(duì)事件發(fā)生的時(shí)間予以確定[8]。在對(duì)實(shí)際問(wèn)題進(jìn)行解決時(shí),鑒于每個(gè)數(shù)據(jù)具有不同的特點(diǎn),因而需對(duì)最佳數(shù)據(jù)挖掘模式做出選擇,又或是在同一時(shí)間段對(duì)多種模式進(jìn)行使用。受監(jiān)督知識(shí)包括分類(lèi)模式、回歸模式、時(shí)間序列模式,由于在模式建立之前就已經(jīng)知曉了數(shù)據(jù)結(jié)果,進(jìn)而在模式準(zhǔn)確性檢測(cè)的過(guò)程中進(jìn)行直接運(yùn)用,所以模式屬于在監(jiān)督狀況下形成的。非監(jiān)督知識(shí)則有聚類(lèi)模式、關(guān)聯(lián)模式、序列模式,由于模式構(gòu)建前未對(duì)結(jié)果進(jìn)行掌握,所以模式在形成過(guò)程中不會(huì)受到監(jiān)督。通常,在對(duì)這部分模式進(jìn)行建立時(shí),會(huì)將其中一些數(shù)據(jù)當(dāng)作樣本,而還有一些則用于對(duì)模式進(jìn)行檢驗(yàn)和校正。
3.2.1 問(wèn)題定義
掌握挖掘任務(wù)與數(shù)據(jù)的特點(diǎn),并了解和數(shù)據(jù)處理相關(guān)的背景知識(shí),特別是面對(duì)的記錄數(shù)據(jù),關(guān)系復(fù)雜、具有較大的時(shí)間跨度時(shí),需把整個(gè)處理過(guò)程的細(xì)節(jié)要求一個(gè)一個(gè)弄清楚,選擇的挖掘算法一定要符合實(shí)際情況,同時(shí)將合理的處理流程與控制方案設(shè)計(jì)出來(lái)[9]。
3.2.2 數(shù)據(jù)預(yù)處理
在長(zhǎng)時(shí)間的森林資源數(shù)據(jù)搜集過(guò)程中,受各種原因的影響,比如地域差異、工作水平差異以及技術(shù)標(biāo)準(zhǔn)改進(jìn)等,因而被存儲(chǔ)于數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)經(jīng)常存在不一致性,或者有一些不正確、超乎尋常的值。針對(duì)這一情況,就應(yīng)檢查原始數(shù)據(jù)庫(kù)中數(shù)據(jù)的完整性和一致性,處理其中的噪聲數(shù)據(jù),并相應(yīng)的填補(bǔ)那些失去的數(shù)據(jù)?,F(xiàn)階段,經(jīng)常使用的數(shù)據(jù)預(yù)處理技術(shù)包括數(shù)據(jù)集成、數(shù)據(jù)清理、數(shù)據(jù)歸納、數(shù)據(jù)變換等。在接受預(yù)處理后,挖掘模式的質(zhì)量會(huì)有很大提升,且實(shí)際挖掘所需時(shí)間也會(huì)非常明顯的減少[10]。
3.2.3 數(shù)據(jù)挖掘
立足于知識(shí)發(fā)現(xiàn)算法,在數(shù)據(jù)之中提取出用戶所需的知識(shí)。對(duì)此部分知識(shí)予以表示的過(guò)程中,可運(yùn)用特定方式,亦或是運(yùn)用使用頻率較高的表達(dá)方法。
3.2.4 知識(shí)評(píng)估
通過(guò)用戶可以了解的方式來(lái)呈現(xiàn)所發(fā)現(xiàn)的知識(shí)。數(shù)據(jù)可視化為使用頻率較高的一種方法,其簡(jiǎn)單來(lái)說(shuō)就是以直觀的方式表現(xiàn)從大量數(shù)據(jù)中所獲得的數(shù)據(jù)集,進(jìn)而便于分析者在最短時(shí)間內(nèi)將數(shù)據(jù)特征找出,并掌握到隱藏于其中的依賴關(guān)系。
綜上所述,在森林資源管理工作中運(yùn)用數(shù)據(jù)挖掘技術(shù)能夠在海量的數(shù)據(jù)之中發(fā)掘出概括性強(qiáng)以及蘊(yùn)藏各類(lèi)林業(yè)領(lǐng)域的知識(shí)規(guī)則,進(jìn)而推動(dòng)林業(yè)資源實(shí)現(xiàn)可持續(xù)發(fā)展的目標(biāo),并增強(qiáng)管理工作的智能化水平。