呂曹芳
(解放軍炮兵學院,安徽合肥 230031)
基于GIS的空間數(shù)據(jù)挖掘研究進展
呂曹芳
(解放軍炮兵學院,安徽合肥 230031)
基于GIS的空間數(shù)據(jù)挖掘技術(shù),歸納了空間數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識類型和主要方法,分析了其主要研究方向和成果,著重討論了基于GIS的空間數(shù)據(jù)挖掘的框架結(jié)構(gòu)與基本流程,并給出了它的基本框架和流程圖,提出了基于GIS的空間數(shù)據(jù)挖掘未來的發(fā)展趨勢。
GIS;空間數(shù)據(jù)挖掘;空間關(guān)聯(lián)規(guī)則;空間聚類
空間數(shù)據(jù)挖掘(Spatial Data Mining,SDM)指的是從空間數(shù)據(jù)庫中抽取隱含的知識、空間關(guān)系或非顯式地存儲在空間數(shù)據(jù)庫中的其它模式等[1]??臻g數(shù)據(jù)是地理信息系統(tǒng)的重要數(shù)據(jù),可以是地表在地理信息系統(tǒng)中的二維投影,也可以是多維的立體數(shù)據(jù)。由于雷達、衛(wèi)星、傳感器等技術(shù)的飛速發(fā)展,空間數(shù)據(jù)的數(shù)量、大小和復(fù)雜性都在快速的增加。空間數(shù)據(jù)挖掘就是處理空間數(shù)據(jù)的技術(shù)方法,是挖掘出隱藏在空間數(shù)據(jù)庫中的非顯性知識、空間關(guān)系等。
空間數(shù)據(jù)挖掘是在空間數(shù)據(jù)庫的基礎(chǔ)上,綜合利用統(tǒng)計學方法、模式識別技術(shù)、人工智能方法、神經(jīng)網(wǎng)絡(luò)技術(shù)等,從大量的空間數(shù)據(jù)、管理數(shù)據(jù)、經(jīng)營數(shù)據(jù)或遙感數(shù)據(jù)中獲取人們可信的、新穎的、感興趣的、隱藏的、事先未知的、潛在有用的和最終可理解的知識,從而揭示出隱含在數(shù)據(jù)背后的規(guī)律、內(nèi)在聯(lián)系以及發(fā)展趨勢[1]。概括的說,空間數(shù)據(jù)挖掘是指從空間數(shù)據(jù)庫中提取隱含的、用戶感興趣的空間和非空間的模式、普遍特征、規(guī)則和知識的過程。
GIS從本質(zhì)說是一個空間數(shù)據(jù)管理系統(tǒng),將空間數(shù)據(jù)挖掘技術(shù)應(yīng)用于GIS,是將GIS中的數(shù)據(jù)轉(zhuǎn)化成知識的有效方法。
空間數(shù)據(jù)挖掘技術(shù)在 GIS中的應(yīng)用,國內(nèi)外已有不少學者做過研究。頗有代表性的有:加拿大的西蒙弗雷澤大學、德國的幕尼黑大學、芬蘭赫爾辛大學以及美國等許多研究機構(gòu)和大學都有很多相關(guān)研究成果報道。這些成果主要是提高原有數(shù)據(jù)挖掘算法在空間數(shù)據(jù)庫上的執(zhí)行效率,Ester等[2](P47-66)人在鄰接圖理論的基礎(chǔ)上提出了一個基于ID3算法的空間分類算法。Koperski[3](P45-55)提出了兩步分類算法:首先,用較少代價的空間計算獲得一個近似的空間謂詞并同時進行相關(guān)分析,其次,對模型進行更深的精化計算,從而獲得一個更精確、更小的決策樹。1994年在加拿大渥太華舉行的 GIS國際會議上,李德仁院士首次提出了從 GIS數(shù)據(jù)庫中發(fā)現(xiàn)知識的概念,他系統(tǒng)分析了空間知識發(fā)現(xiàn)的特點和方法,認為從GIS數(shù)據(jù)庫中可以發(fā)現(xiàn)包括幾何特征、空間關(guān)系和面向?qū)ο蟮亩喾N知識,能夠把 GIS有限的數(shù)據(jù)變成無限的知識,可以精練和更新GIS數(shù)據(jù),使GIS成為智能化的信息系統(tǒng),并第一次從 GIS空間數(shù)據(jù)中發(fā)現(xiàn)了用于指導(dǎo) GIS空間分析的知識[1]。Han和Kamber[4]在其數(shù)據(jù)挖掘?qū)V?系統(tǒng)講述了空間數(shù)據(jù)挖掘的概念和技術(shù)。Lu,Han和 Ooi[5](P275-289)提出了面向?qū)傩詺w納的基于概化的空間數(shù)據(jù)挖掘方法, Koperski和 Han[6](P47-66)提出了一種逐步求精的空間關(guān)聯(lián)規(guī)則挖掘方法。肖平等[7]人利用神經(jīng)網(wǎng)絡(luò)技術(shù)建立了遙感影像分類方法,呂安民等[8-10]對調(diào)查統(tǒng)計數(shù)據(jù)的空間分布化進行了深入的研究并提出了若干計算模型。
另外,在空間數(shù)據(jù)挖掘系統(tǒng)的開發(fā)方面,國際上有代表性的通用SDM系統(tǒng)有:GeoMiner,Descartes和Arcview GIS的S-PLCS接口[11]。加拿大Simon Fraser大學計算機科學系的數(shù)據(jù)挖掘研究小組,建立了空間數(shù)據(jù)挖掘的原型系統(tǒng) GeoMiner,實現(xiàn)了空間數(shù)據(jù)特征描述、空間區(qū)分、空間關(guān)聯(lián)、空間聚類和空間分類等空間數(shù)據(jù)挖掘方法。ESRI公司開發(fā)的Arcview GIS的S-PLCS接口,提供了工具分析空間數(shù)據(jù)中指定的類。Descartes支持可視化的分析空間數(shù)據(jù),它和數(shù)據(jù)挖掘工具Kepler動態(tài)連接,把傳統(tǒng)數(shù)據(jù)挖掘與地圖可視化結(jié)合了起來。在國內(nèi),武漢大學、中科院地理所資源與環(huán)境信息系統(tǒng)國家重點實驗室、中科院遙感所、中科院軟件所、中國測繪科學研究院等都已經(jīng)開展了空間數(shù)據(jù)挖掘的研究[12](P2-5)。
空間數(shù)據(jù)挖掘是數(shù)據(jù)挖掘的分支,主要挖掘的對象是空間數(shù)據(jù)庫,常用的方法有:空間分析方法、統(tǒng)計分析方法、歸納學習方法、聚類與分類方法、探測性的數(shù)據(jù)分析方法、粗糙集方法、云理論、空間特征和趨勢探測方法、空間關(guān)聯(lián)規(guī)則挖掘方法等[13]。
(1)空間分析方法:是利用 GIS的各種空間分析模型和空間操作對空間數(shù)據(jù)庫中的數(shù)據(jù)進行深加工,從而產(chǎn)生新的信息和知識。
(2)統(tǒng)計分析方法:是分析空間數(shù)據(jù)的常用方法,著重于空間物體和現(xiàn)象的非空間特性的分析。統(tǒng)計方法有較強的理論基礎(chǔ),擁有大量成熟的算法。
(3)歸納學習方法:是對大量的經(jīng)驗數(shù)據(jù)進行概括和綜合,歸納出高層次的規(guī)則和模式,其大部分算法來源于機器學習領(lǐng)域。
(4)聚類與分類方法:是按一定的距離或相似性系數(shù)將數(shù)據(jù)分成一系列相互區(qū)分的類。常用的經(jīng)典聚類方法有 K-mean,K-meriod,等。
(5)探測性的數(shù)據(jù)分析方法:是李德仁、邸凱昌[1,3]等提出的探測性的數(shù)據(jù)分析,是采用動態(tài)統(tǒng)計圖形和動態(tài)鏈接窗口技術(shù)將數(shù)據(jù)及統(tǒng)計特征顯示出來,可發(fā)現(xiàn)數(shù)據(jù)中非直觀的數(shù)據(jù)特征及異常數(shù)據(jù)。
(6)粗糙集方法:是由波蘭華沙大學Z.Paw lak教授在1982年提出的一種智能數(shù)據(jù)決策分析工具,被廣泛研究并應(yīng)用于不精確、不確定、不完全的信息的分類分析和知識獲取。
(7)云理論[1,14]:是李德仁、邸凱昌等為解決模糊集在隸屬度概念上的不確定性而提出的一種新理論,包括云模型、虛云、云運算、云變換和不確定性推理等主要內(nèi)容。
(8)空間特征和趨勢探測方法:是 Ester等人在第4屆 KDD國際研討會上提出的基于鄰域圖(Neighborhood Graphs)和鄰域路徑(Neighborhood Path)概念的挖掘算法。
(9)空間關(guān)聯(lián)規(guī)則挖掘方法:關(guān)聯(lián)規(guī)則挖掘首先由Agrawal等提出,主要是從超級市場銷售事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)顧客購買多種商品時的搭配規(guī)律[5](P275-289)。
空間數(shù)據(jù)挖掘所能發(fā)現(xiàn)的空間知識主要包括空間的關(guān)聯(lián)、分類、聚類等規(guī)則。GIS數(shù)據(jù)庫是空間數(shù)據(jù)庫的主要類型,可以從中發(fā)現(xiàn)的知識主要有以下幾種:空間分布規(guī)律、空間關(guān)聯(lián)規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則、空間分類規(guī)則、空間聚類規(guī)則等[1]。
(1)空間分布規(guī)律(Spatial Distribution Rules),是指地理目標(現(xiàn)象)在地理空間的分布規(guī)律。如高山植被的垂直分布規(guī)律,不同區(qū)域地物的差異等。
(2)空間關(guān)聯(lián)規(guī)則(Spatial Association Rules),是將空間數(shù)據(jù)庫的訪問技術(shù)與事物數(shù)據(jù)庫中常用的關(guān)聯(lián)規(guī)則挖掘算法相結(jié)合,可以有效地挖掘出隱藏在數(shù)據(jù)背后的知識、規(guī)則等。
(3)空間特征規(guī)則 (Spatial Characteristic Rules),空間特征規(guī)則是指對某類或幾類空間目標的幾何和屬性的共性特性。共性的幾何特征是指某類實體的位置、形態(tài)特征、坡度等普遍的特征??臻g屬性特征指對象的數(shù)量、大小、面積、周長等非幾何特性。
(4)空間區(qū)分規(guī)則(Spatial Discriminate Rules),指兩類或幾類空間目標之間幾何的或?qū)傩缘牟煌匦?即可以區(qū)分異類目標的特征。
(5)空間分類規(guī)則 (Spatial Classification Rules),是指根據(jù)目標的空間或非空間特征,利用分類分析將目標劃分為不同類別的規(guī)則。
(6)空間聚類規(guī)則(Spatial Clustering Rules),是指根據(jù)空間目標特征的相近程度將它們劃分為不同的類中。
空間數(shù)據(jù)挖掘不同于一般的數(shù)據(jù)挖掘,主要區(qū)別是空間數(shù)據(jù)挖掘比一般數(shù)據(jù)挖掘的發(fā)現(xiàn)狀態(tài)空間理論增加了空間尺度[2](P47-66)。文獻[15]提出了基于空間事務(wù)的空間關(guān)聯(lián)規(guī)則挖掘框架,本文在它的基礎(chǔ)上結(jié)合 GIS特點,設(shè)計了一個面向 GIS的空間數(shù)據(jù)挖掘的基本框架,如圖1所示。
面向GIS的空間數(shù)據(jù)挖掘的過程大致可分為:確定挖掘內(nèi)容、數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、挖掘方法選擇、過程處理、挖掘知識應(yīng)用。
圖1 空間數(shù)據(jù)挖掘的基本框架圖
確定挖掘內(nèi)容,是了解挖掘領(lǐng)域的知識和背景,選擇所要研究的內(nèi)容,對預(yù)期結(jié)果有初步的了解;數(shù)據(jù)獲取,是從 GIS數(shù)據(jù)庫中搜索出與挖掘任務(wù)相關(guān)的空間數(shù)據(jù)或者屬性數(shù)據(jù);數(shù)據(jù)預(yù)處理,一般是濾除噪聲、處理缺值或丟失數(shù)據(jù)等;挖掘方法選擇,是根據(jù)數(shù)據(jù)特點和應(yīng)用要求等選擇適合的方法;過程處理是整個挖掘的關(guān)鍵步驟,它是從變換過后的數(shù)據(jù)中發(fā)現(xiàn)隱藏的知識、特征或者模型;最后將挖掘的知識應(yīng)用當前的研究領(lǐng)域,也可以擴展應(yīng)用于其它的領(lǐng)域[4]。
K.Koperski等[6](P47-66)人基于事務(wù)型數(shù)據(jù)庫的挖掘研究提出了挖掘空間數(shù)據(jù)的過程,對挖掘的過程進行系統(tǒng)結(jié)構(gòu)化,大致分成3層結(jié)構(gòu):用戶界面、挖掘機、數(shù)據(jù)庫。用戶先通過空間查詢功能獲取與問題領(lǐng)域相關(guān)的數(shù)據(jù),再利用空間數(shù)據(jù)挖掘技術(shù)中的方法分析數(shù)據(jù),最后使用可視化工具將獲取的知識再反饋給用戶。借鑒了K.Koperski等人提出的體系結(jié)構(gòu),圖2給出了一種面向 GIS的空間數(shù)據(jù)挖掘的基本流程。
圖2 空間數(shù)據(jù)挖掘基本流程圖
首先用戶提出問題,系統(tǒng)接受用戶的要求,將其轉(zhuǎn)化為GIS數(shù)據(jù)庫模塊的輸入?yún)?shù)。挖掘向?qū)Ы邮苡脩舻拿?觸發(fā)空間數(shù)據(jù)挖掘核心模塊。用戶則根據(jù)需要選擇挖掘技術(shù),對預(yù)處理后的數(shù)據(jù)進行挖掘。挖掘后的知識再通過提取反饋給用戶。
基于GIS的數(shù)據(jù)挖掘主要是空間數(shù)據(jù)和屬性數(shù)據(jù)一體化的挖掘模式,與按傳統(tǒng)的通過查詢方式獲得的知識相比,它是一種更深層次的數(shù)據(jù)處理分析。目前在這一領(lǐng)域的研究取得了一些成功,但未來的發(fā)展中,還有很多理論和方法有待進一步研究。
(1)改進挖掘的算法和效率:基于 GIS數(shù)據(jù)挖掘這一塊,因為有它自身領(lǐng)域的知識,如果用空間數(shù)據(jù)挖掘的通用技術(shù),這必然導(dǎo)致地理數(shù)據(jù)庫中問題的維數(shù)較大,既增大了挖掘算法的搜索空間,也增加了盲目搜索的可能性。因此要結(jié)合GIS數(shù)據(jù)和領(lǐng)域本身的特點改進算法,提高算法的效率以及設(shè)計出更好的相關(guān)挖掘算法。
(2)綜合式挖掘模式:在面向 GIS挖掘其隱含知識規(guī)則方面,采用某種單一的方法往往挖掘出的知識甚微,比如經(jīng)過空間分類、聚類后的數(shù)據(jù)再進行空間關(guān)聯(lián)規(guī)則的挖掘,比采用單一的方法獲得的知識更多更有效。因此需要通過幾種挖掘技術(shù)并行的綜合挖掘模式挖掘,才能從大量的 GIS數(shù)據(jù)中挖掘出更多更有用的知識。所以未來的研究還應(yīng)該在幾種方法的融合方面繼續(xù)發(fā)展。
(3)挖掘結(jié)果的可視化顯示:基于 GIS數(shù)據(jù)的一些特點,人們習慣于接受它可視化的數(shù)據(jù)。因此對于挖掘者來說,僅僅挖掘知識規(guī)則是不夠的,還要能夠?qū)⒅R規(guī)則轉(zhuǎn)化成易于被用戶理解的可視化的圖形(圖像)。
(4)GIS軟件、空間數(shù)據(jù)庫與數(shù)據(jù)挖掘技術(shù)的集成:當前的GIS軟件和空間數(shù)據(jù)庫還不能有效地支持數(shù)據(jù)挖掘,而是通過先提取相關(guān)數(shù)據(jù),再利用挖掘技術(shù)對數(shù)據(jù)進行挖掘,這種方式可以說增大了挖掘的工作量,降低了挖掘的效率。所以未來的研究還會向?qū)崿F(xiàn)三者的集成應(yīng)用方面發(fā)展。
(5)與RS的集成挖掘:遙感獲得的地物電磁波特性數(shù)據(jù)綜合地反映了地球上許多自然、人文信息??臻g數(shù)據(jù)庫如果真正實現(xiàn)了面向?qū)ο蟮臄?shù)據(jù)模型,那么直接從面向空間實體的數(shù)據(jù)或多源空間數(shù)據(jù)中挖掘知識將可能實現(xiàn)。
空間數(shù)據(jù)挖掘技術(shù)對GIS數(shù)據(jù)進行更高層次的分析,能從空間數(shù)據(jù)庫中抽取隱藏的、為人們感興趣的空間模式和特征、空間和非空間數(shù)據(jù)之間的概要關(guān)系以及其它概要數(shù)據(jù)特征。本文主要研究了面向GIS的空間數(shù)據(jù)挖掘技術(shù),描述了空間數(shù)據(jù)挖掘所能發(fā)現(xiàn)的知識類型和主要方法,研究了面向 GIS的空間數(shù)據(jù)挖掘的框架結(jié)構(gòu)與基本流程,并給出了它的框架圖以及流程圖。在研究近年來本領(lǐng)域的文獻資料提出了基于GIS的空間數(shù)據(jù)挖掘未來的發(fā)展方向。
[1]李德仁,王樹良,史文中,等.論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)[J].武漢大學學報(信息科學版),2001,26(6):491-499.
[2]M.Easter,H.P.Kriegel and J.Sanuer.Spatial Data Mining:A Database App roach[A].In:Proc 5th int Symposium on Large Spatial Database(SSD97,Lecture Notes in Computer Science[C].Berlin,Heideberg:Springer,1997.
[3]K.Koperski,J.W.Han and N.Stefanovic.An Efficient Two-Step Method for Classification of Spatial Data[A]. In:Proceedings of the International Symposium on Spatial Data Handling(SDH’98)[C].Vancouver,1998.
[4]J.W.Han and M.Kamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2001.
[5]W.Lu,J.W.Han and B.C.Ooi.Discovery of General Know ledge in Large Spatial Databases[A].In:Proc.Far East Workshop on Geographic Information Systems[C]. Singapore,1993.
[6]K.Koperski and J.W.Han.Discovery of Spatial Association Rules in Geographic Information Databases[A].In: Advance sin Spatial Databases,Proceedings of 4th Symposium(SSD’95)[C].Berlin,Heideberg:Springer,1995.
[7]肖平,李德仁.基于人工神經(jīng)元網(wǎng)絡(luò)技術(shù)的土地利用覆蓋變化探測[J].武漢大學學報(信息科學版),2002,27(6): 586-591.
[8]呂安民,李成民,史文中,等.中國省級人口增長率及其空間關(guān)聯(lián)分析[J].地理學報,2002,57(2):143-150.
[9]呂安民,李成名,林宗堅.基于空間統(tǒng)計分析的關(guān)聯(lián)規(guī)則應(yīng)用研究[J].計算機科學,2001,29(4):53-54.
[10]呂安民,李成名,林宗堅.基于相關(guān)數(shù)學模型的關(guān)聯(lián)規(guī)則應(yīng)用研究[J].計算機科學,2002,29(5):104-106.
[11]蔣昊.基于空間數(shù)據(jù)庫的數(shù)據(jù)挖掘技術(shù)[J].武漢科技大學學報(自然科學版),2002,25(2):183-186.
[12]周海燕.空間數(shù)據(jù)挖掘的研究[D].鄭州:解放軍信息工程大學(博士學位論文),2003.
[13]李德仁,王樹良,李德毅,等.論空間數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的理論與方法[J].武漢大學學報(信息科學版),2002,27 (3):221-233.
[14]張雪伍,蘇奮振,石憶邵,等.空間關(guān)聯(lián)規(guī)則挖掘研究進展[J].地理科學進展,2007,26(6):119-128.
A Study Summary of Spatial Data Mining Based on GIS
LV Cao-fang
(Artillery Academy of PLA,Hefei230031,China)
This thesis studies the technique of spatial data mining to GIS,enriches the theory and methods of spatial data processing.This thesis discusses spatial data mining that can discover the type and the primary means of know ledge,systematically studies the methods of GIS spatial data mining,and provides the flow chat of spatial data mining for GIS and the basic process suitable for GIS.The frontier research and the trends in future were brought out.
GIS;spatial data mining;spatial association rules;spatial clustering
TP274
A
1009-9735(2010)02-0043-04
2010-01-06
呂曹芳(1979-),女,安徽六安人,碩士,助教,研究方向:數(shù)據(jù)挖掘。