李飛強 張信超
(浙江有色勘測規(guī)劃設(shè)計有限公司, 浙江 紹興 312000)
地理信息系統(tǒng)(Geographic Information Systems,GIS),是一門空間信息分析技術(shù)[1]。通過計算機硬件、軟件系統(tǒng)的支持,能夠完成地球整個或部分表層(包括大氣層)空間中,有關(guān)地理分布數(shù)據(jù)的采集、儲存、管理、處理、分析、顯示和描述,為地理研究和地理決策提供服務[2]。GIS技術(shù)在有效地管理具有空間屬性的各種資源環(huán)境信息的同時,能夠快速和重復的完成多源地理資源管理和實際應用的分析測試,使其更利于對決策的制定和科學地完成政策的標準評價,還能夠監(jiān)測多階段的資源環(huán)境狀況及分析及比較動態(tài)變化,有效、快速完成數(shù)據(jù)收集、空間分析和決策的所有信息,并將所有信息匯集成一個共同的信息流,極大幅度的提高工作效率。決策樹作為GIS技術(shù)中一種新型的數(shù)據(jù)分類預測算法,可以發(fā)現(xiàn)數(shù)據(jù)庫數(shù)據(jù)的潛在的價值信息知識,是能夠從一組無規(guī)律、無順序的事例中推理出表達決策樹的分類規(guī)則,簡潔又高效。
多源地理空間信息是地理信息系統(tǒng)的基礎(chǔ),可以通過圖形、圖像、文字、表格或者數(shù)字等多種方式表達。多源地理空間信息作為GIS作用的對象,是GIS技術(shù)所表達的現(xiàn)實世界通過模型抽象的實質(zhì)性內(nèi)容[3-4]。但是越來越多的人研究和介入GIS技術(shù),建立了具備行業(yè)特點的符合規(guī)范的獨立體系,導致各個行業(yè)均積累了海量的、不同形式的、不同獲取手段的地理空間數(shù)據(jù),由不同的部門收集和維護,并且每個部門又根據(jù)不同的需求選取不同的表達方式,使地理空間信息數(shù)據(jù)出現(xiàn)各種差異和沖突的現(xiàn)象[5]。
因此,為了使地理空間信息數(shù)據(jù)重復采集的狀況減少,及現(xiàn)有的多源地理空間信息數(shù)據(jù)資源能夠被充分利用,本文提出基于GIS技術(shù)的多源地理空間信息提取方法,有效處理以上問題。
為了更好地完成多源地理空間信息數(shù)據(jù)的查找,需要設(shè)計多源地理空間信息數(shù)據(jù)的目錄結(jié)構(gòu)樹節(jié)點。分別為數(shù)據(jù)表節(jié)點、非數(shù)據(jù)節(jié)點、矢量數(shù)據(jù)集節(jié)點和柵格數(shù)據(jù)集節(jié)點、文件數(shù)據(jù)節(jié)點、矢量數(shù)據(jù)層節(jié)點和柵格數(shù)據(jù)層節(jié)點,其作用依次分別是:與存儲在元數(shù)據(jù)表中的記錄其他節(jié)點數(shù)據(jù)相關(guān)信息的特定數(shù)據(jù)表相對應;沒有和具體的數(shù)據(jù)關(guān)聯(lián),創(chuàng)建的目的僅為搭建數(shù)據(jù)目錄結(jié)構(gòu);與數(shù)據(jù)庫中的相關(guān)數(shù)據(jù)集相對應;與包括了空間信息數(shù)據(jù)與非空間信息數(shù)據(jù)的非存放在數(shù)據(jù)庫中的數(shù)據(jù)相對應[6-7];分別與數(shù)據(jù)庫中相應數(shù)據(jù)集下面的數(shù)據(jù)層相對應。設(shè)計的多源地理空間信息數(shù)據(jù)目錄節(jié)點用圖1描述。
圖1 設(shè)計的多源地理空間信息數(shù)據(jù)目錄節(jié)點
多源地理空間信息數(shù)據(jù)目錄節(jié)點設(shè)計完成后,為實現(xiàn)各個節(jié)點信息能夠存儲在數(shù)據(jù)表中,需要通過數(shù)據(jù)庫技術(shù)的數(shù)據(jù)結(jié)構(gòu)來建立索引實現(xiàn);為了獲取向節(jié)點對象賦值的對應節(jié)點信息,采用面向?qū)ο蟮木幊碳夹g(shù)和基于GIS技術(shù)與文件讀取技術(shù),完成相應的數(shù)據(jù)的獲取[8-9]。多源地理空間信息數(shù)據(jù)表與數(shù)據(jù)節(jié)點對象的結(jié)構(gòu)設(shè)計用表1描述。
表1 多源地理空間信息數(shù)據(jù)表與數(shù)據(jù)節(jié)點對象結(jié)構(gòu)設(shè)計
設(shè)計的多源地理空間信息數(shù)據(jù)目錄節(jié)點,是一個數(shù)據(jù)組織工具,并具備靈活好、適應性強等優(yōu)點。如果用戶想要實現(xiàn)各類型數(shù)據(jù)的整合,可以通過自行建立的相應數(shù)據(jù)節(jié)點與對應的數(shù)據(jù)完成組織和關(guān)聯(lián),根據(jù)業(yè)務或者其他的數(shù)據(jù)組織方式有效管理各類型的數(shù)據(jù)來實現(xiàn)目標[10]。并且對數(shù)據(jù)節(jié)點對象增加了便于各類數(shù)據(jù)節(jié)點操作的功能,例如添加、刪除、復制、剪切、刷新等,使后臺數(shù)據(jù)庫能夠根據(jù)前臺的操作同時完成修改和調(diào)整,并實時呈現(xiàn)。
需要利用相應的組件完成不同類型數(shù)據(jù)的解譯與可視化,使多源地理空間信息數(shù)據(jù)被充分利用,完成其價值體現(xiàn)[11]。創(chuàng)建的多源地理空間信息數(shù)據(jù)目錄結(jié)構(gòu)只是一個框架,如果無法讀取與分析數(shù)據(jù),數(shù)據(jù)目錄結(jié)構(gòu)只是一個框架,沒有使用價值。為實現(xiàn)能夠在同一個平臺上讀取多源地理空間信息數(shù)據(jù),向一個開發(fā)環(huán)境中融合所有相關(guān)的組件,保證各種組件之間的連貫調(diào)配和使用[12]。通過模塊的建立,使不同的數(shù)據(jù)類型都與各自的模塊相對應。并且在展示某類數(shù)據(jù)時,通過對此類數(shù)據(jù)的模塊調(diào)用后,利用其相對應的可視化窗口呈現(xiàn)。在各組件的基礎(chǔ)上完成歸納分類并形成模塊后,完成模塊調(diào)用是多源地理空間信息數(shù)據(jù)的讀取思路。多源地理空間信息數(shù)據(jù)讀取思路框架用圖2描述。
圖2 多源地理空間信息數(shù)據(jù)讀取的思路框架
利用ArcGIS對讀取到的信息數(shù)據(jù)展開預處理,提取包括各個波段的灰度值、物理小區(qū)標識(Physical Cell Identifier,PCI)、歸一化差分植被指數(shù)(Normalized Difference Vegetation Index,NDVI)、數(shù)字高程模型(Digital Elevation Model,DEM)、地質(zhì)、地貌、土壤信息樣本數(shù)據(jù)后,用SPSS19.0對其分析,并建立決策樹獲取分類規(guī)則,向遙感圖像處理平臺(The Environment for Visualizing Images,ENVI)導入分類規(guī)則,完成遙感影像分類[13],多源地理空間信息數(shù)據(jù)預處理流程用圖3描述。
圖3 多源地理空間信息數(shù)據(jù)預處理流程
采用QUEST(quick unbiased efficient statistical tree)決策樹算法完成多源地理空間信息提取。QUEST決策樹是一種較新的二叉樹生長算法,全稱為快速的、無偏的、高效的統(tǒng)計樹。QUEST在具體分割節(jié)點的過程中,具備2個明顯特點,分別是能夠單獨考慮分割變量的選擇和分割點選擇。這種單變量的分割在變量的選擇上幾乎是不存在偏差[14]。通過建立光譜數(shù)據(jù)決策樹,集光譜數(shù)據(jù)、遙感圖像處理軟件(PCI)、地質(zhì)等輔助數(shù)據(jù)于一體的多源數(shù)據(jù)地理空間信息決策樹,獲取決策樹對多源數(shù)據(jù)地理空間信息提取的結(jié)果[15],用圖4描述。
圖4 決策樹信息提取結(jié)果
選取面積為148 600 km2、地勢自北向南,東西兩側(cè)向中部傾斜,屬溫帶季風氣候,轄14個地級市的某地區(qū)作為研究測試對象。該測試對象地表植物種類繁多,分布相對不均。選取2015年6月10日的美國陸地衛(wèi)星4~5號專題制圖儀所獲取的多波段掃描遙感影像實測樣本點數(shù)據(jù)為測試的多源地理空間信息數(shù)據(jù)。測試對象的遙感圖像及土地利用分類體系分別用圖5和表2描述。
圖5 測試對象的遙感圖像
表2 土地利用分類體系
測試從兩個方面展開,分別是決策樹分類的精度和信息提取的全面性。信息提取的全面性受決策樹分類的精度的影響。進行精度評價后,獲取精度評價表,表3為光譜數(shù)據(jù)決策樹的土地利用分類矩陣,耕地、林地、草地、水域、居住使用以及未利用的用戶精度以及制圖精度分別為88.43%、90.36%、63.87%、100%、68.77%以及88.11%,制圖精度分別為96.1%、90.1%、87.2%、80.4%、100%以及95.24%。表4為多源數(shù)據(jù)決策樹的土地利用分類矩陣,耕地、林地、草地、水域、居住使用以及未利用的用戶精度以及制圖精度分別為68.54%、97.82%、92.21%、100%、96.65%以及86.11%,制圖精度分別為95.25%、90%、70.4%、96.43%、100%以及95.24%。用圖6描述本文方法對于表2中劃分的土地種類和面積信息提取的結(jié)果。
表3 光譜數(shù)據(jù)決策樹土地利用分類矩陣
表4 多源數(shù)據(jù)決策樹的土地利用分類矩陣
分析表3、表4可以看出:基于多源數(shù)據(jù)的決策樹分類方法,使水域的錯分和漏分情況明顯降低和減少,使得水域被漏分為居住使用的概率減少。居住使用地的劃分在兩種決策樹方法下劃分結(jié)果均較為理想,但基于多源數(shù)據(jù)決策樹方法的精度更高,使建設(shè)用地被錯分為水體的概率明顯減少。兩種決策樹方法對林地的劃分都相對較好,制圖精度和用戶精度均能達到 90.0%以上,由于遙感影像上,林地的色調(diào)與其他覆蓋類型存在較大差別,便于區(qū)分。遙感影像分類的一大難點的是草地和耕地的劃分,影響兩者劃分的原因為該測試地區(qū)地表覆蓋類型分布破碎的實地情況:成片的草地減少,分布散亂,耕地面積較大,草地、耕地鑲嵌分布。出現(xiàn)將部分的草地被漏分到耕地之中的現(xiàn)象,但總體分類精度較高,并不影響實際運用。通過整體數(shù)據(jù)的體現(xiàn),說明本文方法能夠有效完成土地劃分,具備較好的劃分精度。
圖6為使用本文方法提取到的6種土地類型中的3種進行詳細劃分信息,提取結(jié)果清晰呈現(xiàn)了準確完成劃分的3種土地類型的同時,實現(xiàn)類型信息的提取并形成信息分布呈現(xiàn),說明本文方法能夠有效實現(xiàn)多源地理空間信息提取。
圖6 三種土地種類詳細劃分信息提取結(jié)果
為了使地理空間信息數(shù)據(jù)在采集時出現(xiàn)不必要的重復情況大幅度降低,及實現(xiàn)現(xiàn)有的多源地理空間信息數(shù)據(jù)資源的有效和充分利用,本文提出基于GIS技術(shù)的多源地理空間信息提取方法。該方法利用ArcGIS對讀取到的信息數(shù)據(jù)實行預處理,提取包括各個波段的灰度值、PCI、NDVI、DEM、地質(zhì)、地貌、土壤信息樣本數(shù)據(jù)后,再通過決策樹獲取多源地理空間信息的提取結(jié)果。測試結(jié)果表明:該方法能夠?qū)崿F(xiàn)多源地理空間信息的提取,并且分類方法快速簡單,使工作效率有效提高。下一步的研究工作是如何利用本文方法實現(xiàn)其他方面具體量化信息的提取。