肖渝梅
摘 要:本文在對數(shù)據(jù)挖掘基本概念進行了介紹的基礎(chǔ)上,詳細介紹了目前在數(shù)據(jù)挖掘中最常用的計算模型,包括空間關(guān)系、空間實體關(guān)聯(lián)矩陣、空間實體信息模型,讓讀者對數(shù)據(jù)挖掘技術(shù)有一個基本的了解。
關(guān)鍵詞:數(shù)據(jù)挖掘;空間關(guān)系;空間實體關(guān)聯(lián)矩陣;空間實體信息模型
1 空間數(shù)據(jù)挖掘概念
空間數(shù)據(jù)挖掘指利用統(tǒng)計學(xué)、人工智能、機器學(xué)習(xí)、模糊數(shù)學(xué)、模式識別和專家系統(tǒng)等理論、方法和技術(shù),從空間數(shù)據(jù)庫中抽取人們想要獲取但沒有清楚表現(xiàn)出來的能反映出客觀世界的本質(zhì)的隱含知識[1][2]。
空間數(shù)據(jù)由三個層次構(gòu)成。最底層是數(shù)據(jù)源為空間數(shù)據(jù)挖掘提供數(shù)據(jù)。包含數(shù)據(jù)域的空間數(shù)據(jù)倉庫管理系統(tǒng)和知識域的知識庫管理系統(tǒng)。中間層為挖掘器,它采用各種空間數(shù)據(jù)挖掘方法分析被提取的數(shù)據(jù)。頂層是人機交互界面,即將發(fā)現(xiàn)的知識以用戶能理解和接受的形式展現(xiàn)給用戶[1,2]。
空間數(shù)據(jù)處理過程可分為:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理、數(shù)據(jù)變換、確定目標(biāo)、確定算法、數(shù)據(jù)挖掘、模式解釋和知識評價[1]。常用的計算模型有:空間關(guān)系、空間實體關(guān)聯(lián)矩陣、空間實體信息模型,本文將對這三種模型一一介紹。
2 空間關(guān)系計算方法
數(shù)據(jù)挖掘中主要有空間距離、空間拓?fù)?、空間方位三類空間概念。
空間距離:距離常指幾何學(xué)的歐式距離,用它來描述空間兩個物體之間的遠近關(guān)系。歐氏距離是兩點間的直線最短距離,在空間數(shù)據(jù)挖掘中可以用它來計算:點點距離、點線距離、點面距離、線線距離、線面距離和面面距離,此外根據(jù)具體問題也會使用棋盤距離或曼哈頓距離[1]。
空間方位:定義目標(biāo)對象之間的方位,在分析的時候,我們一般預(yù)定義一個坐標(biāo)軸,再做垂直于坐標(biāo)軸的直線,用此直線來表示兩個對象間的方位關(guān)系。當(dāng)分析的對象是某個平面時就用平面的重心來代替面,再求出兩重心之間的方位關(guān)系,用此來代表兩平面間方位關(guān)系[1]。
空間拓?fù)洌核豢紤]距離和方位,而是把點、線、面都看成拓?fù)湓兀藐P(guān)聯(lián)和鄰接來描述點線面之間的關(guān)系。關(guān)聯(lián)是不同拓?fù)湓刂g的關(guān)系,存在于點與線,線與面、點與面之間,相同拓?fù)湓兀ū热琰c點、線線、面面之間)的關(guān)系常用鄰接表示;也用包含、幾何、層次關(guān)系描述兩個拓?fù)湓刂g的關(guān)系,包含關(guān)系指面與其他拓?fù)湓刂g的關(guān)系;兩元素間距離在某個約束范圍內(nèi)稱他們之間有幾何關(guān)系;同類元素之間的等級高低用層次表示[1]。
3 空間關(guān)聯(lián)矩陣
它是李新運博士在空間權(quán)重矩陣基礎(chǔ)上拓展而得到的,矩陣中每個元素表示實體之間所具有的某種指定空間關(guān)系。若實體j和實體i滿足某種指定關(guān)系時則矩陣中的值為1,如果不滿足則的值為0[1]。
根據(jù)李博士的定義:當(dāng)=1,則矩陣所指代的對象i和對象j在空間上是相關(guān)的;若=0,則其所指代的對象i和對象j在空間上是無關(guān)的。結(jié)合前面的空間關(guān)系計算方法和該觀點,研究者們又定義出:根據(jù)拓?fù)湓亻g的鄰接關(guān)系的鄰接矩陣,根據(jù)拓?fù)湓刂g的鄰近關(guān)系的鄰近矩陣,根據(jù)線狀實體之間的相交關(guān)系定義空間相交矩陣,根據(jù)點線之間空間距離定義空間側(cè)近矩陣,根據(jù)點狀要素是否位于區(qū)域內(nèi)部定義空間擊中矩陣,根據(jù)線狀實體是否穿過區(qū)域定義空間切割矩陣,根據(jù)點狀要素之間的空間關(guān)系定義方位矩陣[1]。
4 空間實體信息
空間實體信息模型對空間實體的組織和表示起著非常重要的作用,常見的空間實體信息有:空間場模型、空間要素模型、空間網(wǎng)絡(luò)模型[1]。
空間場模型:由空間框架、場函數(shù)和一組相關(guān)場操作組成,多用來表示連續(xù)的或無固定形狀的概念,在計算機中用柵格數(shù)據(jù)結(jié)構(gòu)、不規(guī)則三角網(wǎng)、等高線和點網(wǎng)絡(luò)來實現(xiàn)??臻g框架是一個用于度量空間對象的有限框架,利用場函數(shù)將空間框架映射到分析對象的屬性域,選擇分析對象的那些屬性域,使用什么場函數(shù)來映射,需要結(jié)合分析的具體問題來確定,在三個要素中場被看成同屬性的點的軌跡構(gòu)成的表面或者等值線[1]。場操作把場的一個子集映射到其他場,它實現(xiàn)了不同場之間的交互和聯(lián)系,常用的場操作有局部場操作、聚焦場操作、區(qū)域場操作。
空間要素模型:空間對象被認(rèn)為是一個在概念上可以與它的鄰域分離的現(xiàn)象,空間要素模型用來表達空間對象之間的關(guān)系,所以空間要素由彼此存在某種特殊關(guān)系的空間對象(元素)構(gòu)成。模型中的信息是具有各自特征屬性的集合,即其中的每個對象必須具有可被識別、重要性和特征明顯三個條件。對象的各種特征之間反映了現(xiàn)實世界與信息世界之間的表達和對應(yīng)關(guān)系,對象的特征在于它的屬性分為空間屬性和非空間屬性,距離說明空間屬性,比如對象是一個多邊形,則此處的多邊形就是對象的空間屬性;此外對象的其他屬性被稱為非空間屬性,比如對象的名稱,特別指出的是一個對象可以有多個空間屬性[1]。
空間網(wǎng)絡(luò)模型:用節(jié)點、鏈表示對象,所以我們常把位于該模型中的地物抽象為節(jié)點、鏈等對象,并且關(guān)注他們之間的連通關(guān)系,常常使用有向圖來表示,有向圖中的節(jié)點代表數(shù)據(jù)記錄,連線代表不同節(jié)點之間的連通關(guān)系。該模型最基本的特征是多個要素之間的影響和交互需要沿著有向圖中的箭線;節(jié)點間沒有明確的從屬關(guān)系,它可以與有向圖中其他多個節(jié)點建立聯(lián)系[1]。
參考文獻:
[1]賈俊杰.空間數(shù)據(jù)挖掘中若干關(guān)鍵技術(shù)研究[D].2009.
[2]潘玲.空間數(shù)據(jù)挖掘與GIS集成技術(shù)研究[D].2007.