李圍成,張雪萍,祝玉華(河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,河南 鄭州 450001)
空間數(shù)據(jù)挖掘認(rèn)識及其思考
李圍成,張雪萍,祝玉華
(河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,河南 鄭州 450001)
在這個(gè)大數(shù)據(jù)時(shí)代,空間數(shù)據(jù)正在從各個(gè)領(lǐng)域飛速累計(jì)。空間數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的一部分,現(xiàn)已成為人們研究空間數(shù)據(jù)的重點(diǎn)學(xué)科。主要介紹了空間數(shù)據(jù)挖掘的基本概念、一般步驟及其最新的挖掘方法,表達(dá)了對當(dāng)前空間數(shù)據(jù)挖掘的看法。最后對未來空間數(shù)據(jù)挖掘的研究方向進(jìn)行了更加深入的探討。
大數(shù)據(jù);空間數(shù)據(jù)挖掘;挖掘方法
空間數(shù)據(jù)挖掘(Spatial Data Mining,SDM)即找出開始并不知道但是卻隱藏在空間數(shù)據(jù)中潛在的、有價(jià)值的規(guī)則的過程。具體來說,空間數(shù)據(jù)挖掘就是在海量空間數(shù)據(jù)集中,結(jié)合確定集、模糊集、仿生學(xué)等理論,利用人工智能、模式識別等科學(xué)技術(shù),提取出令人相信的、潛在有用的知識,發(fā)現(xiàn)空間數(shù)據(jù)集背后隱藏的規(guī)律、聯(lián)系,為空間決策提供理論技術(shù)上的依據(jù)[1]。
空間數(shù)據(jù)挖掘系統(tǒng)大致可以分為以下步驟:
(1)空間數(shù)據(jù)準(zhǔn)備:選擇合適的多種數(shù)據(jù)來源,包括地圖數(shù)據(jù)、影像數(shù)據(jù)、地形數(shù)據(jù)、屬性數(shù)據(jù)等。
(2)空間數(shù)據(jù)預(yù)處理和特征提?。簲?shù)據(jù)預(yù)處理目的是去除數(shù)據(jù)中的噪聲,包括對數(shù)據(jù)的清洗、數(shù)據(jù)的轉(zhuǎn)換、數(shù)據(jù)的集成等。特征提取是剔除掉冗余或不相關(guān)的特征并將特征轉(zhuǎn)化為適合數(shù)據(jù)挖掘的新特征。
(3)空間數(shù)據(jù)挖掘和知識評估:采用空間數(shù)據(jù)挖掘技術(shù)對空間數(shù)據(jù)進(jìn)行分析處理和預(yù)測,從而發(fā)現(xiàn)數(shù)據(jù)背后的某種聯(lián)系。然后結(jié)合具體的領(lǐng)域知識進(jìn)行評估,看是否達(dá)到預(yù)期效果。
空間數(shù)據(jù)挖掘是一門綜合型的交叉學(xué)科,結(jié)合了計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、地理學(xué)等領(lǐng)域的很多特性,產(chǎn)生了大量處理空間數(shù)據(jù)的挖掘方法。
2.1 空間關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘是尋找數(shù)據(jù)項(xiàng)之間的聯(lián)系,表達(dá)式形式是X→Y,其中X與Y是兩種不相交的數(shù)據(jù)項(xiàng)集,即X∩Y=?。KOPERSKI K等人將關(guān)聯(lián)規(guī)則與空間數(shù)據(jù)庫相結(jié)合,提出了空間關(guān)聯(lián)規(guī)則挖掘[2]??臻g關(guān)聯(lián)規(guī)則將數(shù)據(jù)項(xiàng)替換為了空間謂詞,一般表達(dá)形式如下:
令 A=(A1,A2,…,An),B=(B1,B2,…,Bm),A和 B分別表示Ai和Bj的謂詞集合,A和B可以是空間謂詞或非空間謂詞,但是必須至少包含一個(gè)空間謂詞且A∩B=?。SHEKHAR S和HUANG Y針對空間關(guān)聯(lián)規(guī)則的特點(diǎn)提出了把關(guān)聯(lián)規(guī)則的思想泛化成空間索引點(diǎn)集的空間同位規(guī)則的概念,在不違背空間相關(guān)性的同時(shí)用鄰域替換掉了事務(wù)[3]。時(shí)空關(guān)聯(lián)不僅涉及事件在空間中的關(guān)聯(lián),還考慮了空間位置和時(shí)間序列因素。國內(nèi)的柴思躍、蘇奮振和周成虎提出了基于周期表的時(shí)空關(guān)聯(lián)規(guī)則挖掘方法[4]。
2.2 空間聚類
空間聚類分析是普通聚類分析的擴(kuò)展,不能完全按照處理普通數(shù)據(jù)的聚類分析方法來處理空間數(shù)據(jù)。由于存在地理學(xué)第一定律,即空間對象之間都存在一定的相關(guān)性,因此在空間聚類分析中,對于簇內(nèi)的定義,要考慮空間自相關(guān)這一因素。通過對空間數(shù)據(jù)進(jìn)行自相關(guān)分析,可判斷對象之間是否存在空間相關(guān)性,從而可合理判斷出對象是否可以分為一簇。
基本的聚類挖掘算法有:
(1)劃分聚類算法:存在 n個(gè)數(shù)據(jù)對象,對于給定 k個(gè)分組(k≤n),將n個(gè)對象通過基于一定目標(biāo)劃分規(guī)則,不停迭代、優(yōu)化,直到將這n個(gè)對象分配到k個(gè)分組中,使得每組內(nèi)部對象相似度大于組之間相似度。
(2)層次聚類算法:通過將數(shù)據(jù)不停地拆分與重組,最終把數(shù)據(jù)轉(zhuǎn)為一棵符合一定標(biāo)準(zhǔn)的具有層次結(jié)構(gòu)的聚類樹。
(3)密度聚類算法:用低密度的區(qū)域?qū)?shù)據(jù)對象進(jìn)行分割,最終將數(shù)據(jù)對象聚類成為若干高密度的區(qū)域。
(4)圖聚類算法:用空間結(jié)點(diǎn)表示每個(gè)數(shù)據(jù)對象,然后基于一定標(biāo)準(zhǔn)形成若干子圖,最后把所有子圖聚類成一個(gè)包含所有空間對象的整圖,子圖則代表一個(gè)個(gè)空間簇。
(5)網(wǎng)格聚類算法:把空間區(qū)域分割成具有多重分辨率的和有網(wǎng)格結(jié)構(gòu)特性的若干網(wǎng)格單元,在網(wǎng)格單元上對數(shù)據(jù)進(jìn)行聚類。
(6)模型聚類算法:借助一定的數(shù)學(xué)模型,使用最佳擬合數(shù)據(jù)的數(shù)學(xué)模型來對數(shù)據(jù)進(jìn)行聚類,每一個(gè)簇用一個(gè)概率分布表示。
僅采用一種算法通常無法達(dá)到令人滿意的預(yù)期結(jié)果,王家耀、張雪萍、周海燕將遺傳算法與K-均值算法結(jié)合提出了用于空間聚類分析的遺傳 K-均值算法[5]?,F(xiàn)實(shí)空間環(huán)境中,存在很多像道路、橋梁、河流的障礙物,張雪萍、楊騰飛等人把 K-Medoids算法與量子粒子群算法結(jié)合進(jìn)行帶有空間障礙約束的聚類分析[6]。
2.3 空間分類
分類,簡單地說是通過學(xué)習(xí)得到一定的分類模型,然后把數(shù)據(jù)對象按照分類模型劃分至預(yù)先給定類的過程??臻g分類時(shí),不僅考慮數(shù)據(jù)對象的非空間屬性,還要顧及鄰近對象的非空間屬性對其類別的影響,是一種監(jiān)督式的分析方法。
空間分類挖掘方法有統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)的方法和神經(jīng)網(wǎng)絡(luò)方法等。貝葉斯分類器是基于統(tǒng)計(jì)學(xué)的方法,利用數(shù)據(jù)對象的先驗(yàn)概率和貝葉斯公式計(jì)算出其后驗(yàn)概率,選擇較大后驗(yàn)概率的類作為該對象映射的類別。決策樹分類器是機(jī)器學(xué)習(xí)的方法,采取從上到下的貪心策略,比較決策樹內(nèi)部節(jié)點(diǎn)的屬性值來往下建立決策樹的各分支,每個(gè)葉節(jié)點(diǎn)代表滿足某個(gè)條件的屬性值,從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑表示一條合適的規(guī)則。支持向量機(jī)也是機(jī)器學(xué)習(xí)的方法,思路是使用非線性映射把訓(xùn)練數(shù)據(jù)集映射到較高維,然后尋找出最大邊緣超平面,將數(shù)據(jù)對象分類。神經(jīng)網(wǎng)絡(luò)是一種模擬人神經(jīng)的網(wǎng)絡(luò),由一組連接的輸入和輸出單元組成,賦予各個(gè)連接相應(yīng)的權(quán)值,通過調(diào)節(jié)各連接的權(quán)值使得數(shù)據(jù)對象得到正確分類。
針對融入空間自相關(guān)性的空間分類挖掘,SHEKHAR S等人使用空間自回歸模型和基于貝葉斯的馬可夫隨機(jī)場進(jìn)行空間分類挖掘[7],汪閩、駱劍承、周成虎等人將高斯馬爾可夫隨機(jī)場與支持向量機(jī)結(jié)合并將其用于遙感圖像的信息提?。?]。
2.4 其他空間挖掘方法
空間數(shù)據(jù)挖掘的方法多種多樣,其他還包括:空間分析的方法,即利用GIS的方法、技術(shù)和理論對空間數(shù)據(jù)進(jìn)行加工處理,從而找出未知有用的信息模式;基于模糊集、粗糙集和云理論的方法可用來分析具有不確定性的空間數(shù)據(jù);可視化方法是對空間數(shù)據(jù)對象的視覺表示,通過一定技術(shù)用圖像的形式表達(dá)要分析的空間數(shù)據(jù),從而得到其隱含的信息;國內(nèi)張自嘉、岳邦珊、潘琦等人將蟻群算法與自適應(yīng)濾波的模糊聚類算法相結(jié)合用以對圖像進(jìn)行分割[9]。
空間數(shù)據(jù)挖掘作為數(shù)據(jù)挖掘的延伸,有很好的傳統(tǒng)數(shù)據(jù)挖掘方法理論的基礎(chǔ),雖然取得了很大進(jìn)步,然而其理論和方法仍需進(jìn)一步的深入研究。伴隨著大數(shù)據(jù)時(shí)代,面對越來越多的空間數(shù)據(jù),提升數(shù)據(jù)挖掘的準(zhǔn)確度和精度是一個(gè)有待研究的問題。同時(shí)現(xiàn)在流行的空間數(shù)據(jù)挖掘算法的時(shí)間復(fù)雜度仍停留在O(n log(n))~O(n3)之間,處理大量的異構(gòu)數(shù)據(jù),數(shù)據(jù)挖掘算法的效率也需要進(jìn)一步提高。數(shù)據(jù)挖掘在云環(huán)境下已經(jīng)得到很好的應(yīng)用[10],對于處理空間數(shù)據(jù)的空間云計(jì)算是有待學(xué)者們研究的方向。大多數(shù)空間數(shù)據(jù)挖掘算法沒有考慮含有障礙約束的情況,如何解決現(xiàn)實(shí)中障礙約束問題值得探討。帶有時(shí)間屬性的空間數(shù)據(jù)呈現(xiàn)出了一種動態(tài)、可變的空間現(xiàn)象,時(shí)空數(shù)據(jù)挖掘?qū)⑹俏磥硌芯康闹攸c(diǎn)。
由于數(shù)據(jù)挖掘涉及多種學(xué)科,其基本理論與方法也已經(jīng)比較成熟,針對空間數(shù)據(jù)挖掘,如何合理地利用和拓展這些理論方法以實(shí)現(xiàn)對空間數(shù)據(jù)的挖掘仍將是研究人員們需要長期努力的方向。
[1]李德仁,王樹良,李德毅.空間數(shù)據(jù)挖掘理論與應(yīng)用(第2版)[M].北京:科學(xué)出版社,2013.
[2]KOPERSKI K,HAN J W.Discovery of spatial association rules in geographic information databases[C].Procedings of the 4th International Symposium on Advances in Spatial Databases,1995:47-66.
[3]SHEKHAR S,HUANG Y.Discovering spatial co-location patterns:a summary of results[C].Procedings of the 7th International Symposium on Advances in Spatial and Temporal Databases,2001:236-256.
[4]柴思躍,蘇奮振,周成虎.基于周期表的時(shí)空關(guān)聯(lián)規(guī)則挖掘方法與實(shí)驗(yàn)[J].地球信息科學(xué)學(xué)報(bào),2011,13(4):455-464.
[5]王家耀,張雪萍,周海燕.一個(gè)用于空間聚類分析的遺傳 K-均值算法[J].計(jì)算機(jī)工程,2006,32(3):188-190.
[6]Zhang Xueping,Du Haohua,Yang Tengfei,et al.A novel spatial clustering with obstacles constraints based on PNPSO and K-medoids[C].Advances in Swarm Intelligence,Lecture Notes in Computer Science(LNCS),2010:476-483.
[7]SHEKHAR S,SCHRATER P R,VATSAVAI R R,et al.Spatial contextual classification and prediction models for mining geospatial data[J].IEEE Transactions on Multimedia,2002,4(2):174-187.
[8]汪閩,駱劍承,周成虎,等.結(jié)合高斯馬爾可夫隨機(jī)場紋理模型與支撐向量機(jī)在高分辨率遙感圖像上提取道路網(wǎng)[J].遙感學(xué)報(bào),2005,9(3):271-275.
[9]張自嘉,岳邦珊,潘琦,等.基于蟻群和自適應(yīng)濾波的模糊聚類圖像分割[J].電子技術(shù)應(yīng)用,2015,41(4):144-147.
[10]石杰.云計(jì)算環(huán)境下的數(shù)據(jù)挖掘應(yīng)用[J].微型機(jī)與應(yīng)用,2015,34(5):13-15.
Understanding and consideration of spatial data m ining
Li Weicheng,Zhang Xueping,Zhu Yuhua
(School of Information Science and Engineering,Henan University of Technology,Zhengzhou 450001,China)
In this era of big data,spatial data are accumulated from various fields rapidly.Now,the Spatial Data Mining(SDM),as a part of Data Mining(DM),has become the key subject of research on spatial data.In this paper,we mainly introduce the basic concept of SDM,the general steps and the latest mining methods,expressing the opinions of the current SDM.At last,we discuss the future research objectives in SDM deeply.
big data;spatial data mining;mining methods
P208;TP18
A
1674-7720(2015)22-0012-02
李圍成,張雪萍,祝玉華.空間數(shù)據(jù)挖掘認(rèn)識及其思考[J].微型機(jī)與應(yīng)用,2015,34(22):12-13,21.
2015-06-21)
李圍成(1991-),通信作者,男,碩士研究生,主要研究方向:空間數(shù)據(jù)挖掘等。E-mail:13598591208@163.com。
張雪萍(1968-),女,博士,教授,主要研究方向:空間數(shù)據(jù)挖掘等。
祝玉華(1965-),女,博士,教授,主要研究方向:地理信息系統(tǒng)、空間數(shù)據(jù)挖掘等。