廖美紅
(廣西工商職業(yè)技術(shù)學(xué)院,南寧 530003 )
煤炭行業(yè)控制生產(chǎn)流程時(shí)需要布置數(shù)以百計(jì)的監(jiān)控點(diǎn),收集和積累大量的數(shù)據(jù),并將這些數(shù)據(jù)集合起來成作為監(jiān)控?cái)?shù)據(jù)。如果計(jì)算機(jī)能從這些歷史數(shù)據(jù)中自動(dòng)提取知識(shí)或規(guī)則,應(yīng)用所提取的知識(shí)來評(píng)估或預(yù)測(cè)即將發(fā)生的事件,并實(shí)時(shí)糾正偏差,煤炭行業(yè)就能在數(shù)據(jù)集成后,引入數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)系統(tǒng)智能化和自動(dòng)化??茖W(xué)有效的管理手段可以提供更有效的方法來保證煤礦生產(chǎn)安全,產(chǎn)生良好的經(jīng)濟(jì)效益和社會(huì)效益[1]。
煤炭系統(tǒng)數(shù)據(jù)主要是關(guān)于空間定位和空間關(guān)系的地理數(shù)據(jù)。這些數(shù)據(jù)擁有一般數(shù)據(jù)所沒有的特征[2]:
1)空間性:空間數(shù)據(jù)描述了空間位置、結(jié)構(gòu)和空間拓?fù)潢P(guān)系;2)抽象性:人工選擇數(shù)據(jù),使數(shù)據(jù)生成多語(yǔ)義;3)多尺度和多態(tài)性:不同的觀測(cè)尺度有不同的準(zhǔn)確性;4)多時(shí)空性:空間數(shù)據(jù)不僅具有空間信息,而且包含非信息附屬信息;5)多語(yǔ)義:當(dāng)解決問題時(shí),不同的系統(tǒng)有不同的重點(diǎn),因此他們可能存在語(yǔ)義差異。
總之,煤炭系統(tǒng)的測(cè)量數(shù)據(jù)和生產(chǎn)數(shù)據(jù)具有多源性和異構(gòu)性。系統(tǒng)應(yīng)該為用戶挖掘多源和異構(gòu)數(shù)據(jù)提供一個(gè)統(tǒng)一的訪問接口,使用戶可以更加方便有效地訪問異構(gòu)信息源。多源異構(gòu)數(shù)據(jù)挖掘的最重要特征是用戶將專注于調(diào)查的內(nèi)容,而不是調(diào)查的方法,因此,為了從煤礦系統(tǒng)的測(cè)量數(shù)據(jù)和生產(chǎn)數(shù)據(jù)中得到有用的信息,我們需要建立煤礦系統(tǒng)的多源空間數(shù)據(jù)挖掘模型。
數(shù)據(jù)挖掘方案和數(shù)據(jù)挖掘算法的選擇是煤礦安全監(jiān)控空間數(shù)據(jù)挖掘所應(yīng)解決的關(guān)鍵問題[3]。雖然很多數(shù)據(jù)挖掘算法和實(shí)現(xiàn)方案,但是對(duì)于空間數(shù)據(jù)挖掘,尤其是煤礦安全數(shù)據(jù)的空間數(shù)據(jù)挖掘,可選的方案并不是很多。煤礦安全空間數(shù)據(jù)挖掘可以從以下四個(gè)方面實(shí)現(xiàn)。
1)基于數(shù)據(jù)庫(kù)的空間數(shù)據(jù)挖掘
這個(gè)方案簡(jiǎn)單可靠。轉(zhuǎn)化空間數(shù)據(jù)需要考慮空間的自相關(guān)性和拓?fù)浣Y(jié)構(gòu)特征,根據(jù)空間數(shù)據(jù)的特點(diǎn),系統(tǒng)設(shè)計(jì)新算法,并將算法插件集成到數(shù)據(jù)庫(kù)中,但是這個(gè)方法的可視化效果不好。
2)基于地理信息系統(tǒng)(GIS)的空間數(shù)據(jù)挖掘
這個(gè)方案實(shí)現(xiàn)了地理信息系統(tǒng)(GIS)強(qiáng)大的空間數(shù)據(jù)管理能力和結(jié)果可視化功能。然而,地理信息系統(tǒng)(GIS)軟件通常僅限于空間數(shù)據(jù)分析,對(duì)空間數(shù)據(jù)挖掘算法的考慮較少,這需要在現(xiàn)有的地理信息系統(tǒng)(GIS)軟件中集成數(shù)據(jù)挖掘插件或挖掘功能模塊,因此它對(duì)編程能力具有較高的要求。
3)使用現(xiàn)有的空間數(shù)據(jù)挖掘軟件
GeoMiner軟件是關(guān)系數(shù)據(jù)庫(kù)的挖掘系統(tǒng)DB Miner的擴(kuò)展版本。它能夠挖掘空間數(shù)據(jù)特征規(guī)則,對(duì)規(guī)則進(jìn)行關(guān)聯(lián)和比較。該軟件旨在二維空間數(shù)據(jù)的挖掘,如果將其用于煤礦三維空間數(shù)據(jù)的挖掘,會(huì)受到很大的限制。
4)開發(fā)自己的設(shè)計(jì)SDM
這個(gè)方案可以針對(duì)實(shí)際的煤礦數(shù)據(jù)來設(shè)計(jì),所以具有很強(qiáng)的針對(duì)性。但這種方法對(duì)編程能力的要求最高,它對(duì)數(shù)學(xué)、計(jì)算機(jī)科學(xué)、煤礦和其他學(xué)科進(jìn)行整合,所以是最困難的。
空間數(shù)據(jù)挖掘的四種方案比較如表1所示。
表1 不同空間數(shù)據(jù)挖掘方法的比較
這四個(gè)方案有各自的優(yōu)缺點(diǎn)?;跀?shù)據(jù)庫(kù)的空間數(shù)據(jù)挖掘和基于地理信息系統(tǒng)(GIS)的空間數(shù)據(jù)挖掘方案更可行。正如本文上面所提到的,這兩個(gè)方法都很難獨(dú)立地完全實(shí)現(xiàn)煤礦安全監(jiān)控系統(tǒng)中的空間數(shù)據(jù)挖掘和結(jié)果可視化。本文提取兩種方案的優(yōu)點(diǎn),提出了結(jié)合SDM和地理信息系統(tǒng)(GIS的)空間數(shù)據(jù)挖掘方案。
這個(gè)方案基于數(shù)據(jù)庫(kù)系統(tǒng),保持研究對(duì)象作為一個(gè)或多個(gè)特定屬性的空間數(shù)據(jù)的空間自相關(guān)性。它使用數(shù)據(jù)庫(kù)系統(tǒng)的數(shù)據(jù)挖掘模塊來進(jìn)行煤礦安全監(jiān)控空間數(shù)據(jù)的空間數(shù)據(jù)挖掘操作。數(shù)據(jù)挖掘生成若干模式。該系統(tǒng)利用地理信息系統(tǒng)(GIS)來找出有用的模式,然后GIS對(duì)這些有用的模式進(jìn)行可視化處理。
這個(gè)方案操作相對(duì)簡(jiǎn)單,不僅考慮到空間數(shù)據(jù)的空間自相關(guān)性,而且充分發(fā)揮了數(shù)據(jù)庫(kù)軟件的數(shù)據(jù)管理功能和數(shù)據(jù)挖掘功能,以及地理信息系統(tǒng)(GIS)軟件的可視化功能。
空間數(shù)據(jù)挖掘系統(tǒng)可分為三層體系結(jié)構(gòu)(如圖1所示)。第一層是一個(gè)數(shù)據(jù)源,利用空間數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)管理系統(tǒng)提供的索引,查詢優(yōu)化功能,訪問并完善詞問題域的相關(guān)數(shù)據(jù)或者直接使用空間數(shù)據(jù)庫(kù)中的數(shù)據(jù)。
第二層是數(shù)據(jù)挖掘,首先進(jìn)行數(shù)據(jù)處理,原始數(shù)據(jù)可以轉(zhuǎn)化為數(shù)據(jù)挖掘算法的目標(biāo)格式。之后,系統(tǒng)刪除冗余數(shù)據(jù)和不相關(guān)數(shù)據(jù),轉(zhuǎn)換原始數(shù)據(jù)并進(jìn)行特征提取。接下來,使用空間數(shù)據(jù)挖掘系統(tǒng)中的數(shù)據(jù)挖掘方法來分析所提取的空間數(shù)據(jù)。最后,系統(tǒng)使用挖掘算法從大量數(shù)據(jù)集合中確定模式,并在挖掘過程中通過可視化技術(shù),調(diào)整閾值和參數(shù)。
第三層是用戶界面。在這一層中,系統(tǒng)通過可視化工具將獲得的信息和發(fā)現(xiàn)的知識(shí)展現(xiàn)給用戶。
用戶對(duì)發(fā)現(xiàn)的知識(shí)進(jìn)行分析和評(píng)估,然后將知識(shí)提供給支持空間決策,或者將有用的知識(shí)存儲(chǔ)到知識(shí)倉(cāng)庫(kù)中。
安全監(jiān)控系統(tǒng)中的空間數(shù)據(jù)挖掘主要包含三方面的內(nèi)容。分別是數(shù)據(jù)處理、空間數(shù)據(jù)挖掘過程和知識(shí)表達(dá)。
1)數(shù)據(jù)處理
本系統(tǒng)中數(shù)據(jù)處理可分為四類:
(1)數(shù)據(jù)提純:填補(bǔ)數(shù)據(jù)空缺值、識(shí)別異常值、排除干擾數(shù)據(jù)、修正不一致數(shù)據(jù)。
(2)數(shù)據(jù)集成:集合多個(gè)數(shù)據(jù)源的數(shù)據(jù),并將數(shù)據(jù)存儲(chǔ)在一個(gè)數(shù)據(jù)存儲(chǔ)器中,例如數(shù)據(jù)倉(cāng)庫(kù)。
(3)數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成適于挖掘的格式。它涉及到數(shù)據(jù)平滑度、數(shù)據(jù)集合、數(shù)據(jù)泛化和標(biāo)準(zhǔn)化、屬性構(gòu)建等。
圖1 煤礦安全監(jiān)測(cè)系統(tǒng)模型
(4)數(shù)據(jù)簡(jiǎn)化:由小型數(shù)據(jù)集合形成大型數(shù)據(jù)集合,但仍然保證原始數(shù)據(jù)的完整性。
2)空間數(shù)據(jù)挖掘過程
空間數(shù)據(jù)挖掘與大多數(shù)的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)具有相同的過程。這個(gè)過程可以分為數(shù)據(jù)選擇、數(shù)據(jù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式判讀或知識(shí)評(píng)價(jià)等。數(shù)據(jù)選擇是定義感興趣的目標(biāo)及其屬性,數(shù)據(jù)處理是排除干擾數(shù)據(jù)及處理丟失數(shù)據(jù),數(shù)據(jù)變換是通過數(shù)學(xué)變換和降維技術(shù)來提取數(shù)據(jù)特征,模式判讀或知識(shí)評(píng)價(jià)是采用人機(jī)交互模式執(zhí)行目標(biāo)數(shù)據(jù)的模式或知識(shí)分析(如圖2所示)。
圖2 空間數(shù)據(jù)挖掘過程模型
3)知識(shí)表達(dá)
知識(shí)表達(dá)使挖掘的知識(shí)滿足知識(shí)庫(kù)的要求,并通過人機(jī)交互的方式顯示、驗(yàn)證和評(píng)價(jià)挖掘的知識(shí)。知識(shí)表達(dá)的方法主要有基于規(guī)則的知識(shí)表達(dá)、基于模式的知識(shí)表達(dá)、面向過程的知識(shí)表達(dá)、面向?qū)ο蟮闹R(shí)表達(dá)等。
為了反映空間對(duì)象的結(jié)構(gòu),以及空間和空間(或空間和非空間)之間的關(guān)聯(lián)規(guī)則、空間挖掘需要設(shè)計(jì)一組空間。圖2所示空間數(shù)據(jù)挖掘過程模型來判斷表達(dá)空間關(guān)系??臻g關(guān)聯(lián)規(guī)則是空間數(shù)據(jù)挖掘的重要內(nèi)容。關(guān)聯(lián)規(guī)則可以表示為X_Y(c%, s%, I%),X和Y表示空間屬性(空間元素或其屬性),以及屬性集合。C %, S %, I%分別顯示了可信度,支持度和興趣度三方面的程度[4]。
空間關(guān)聯(lián)規(guī)則包括不同空間屬性,不僅表達(dá)空間對(duì)象的拓?fù)潢P(guān)系,例如相鄰、共生、包含、覆蓋、重疊等,也表達(dá)距離信息,比如接近,交叉,遠(yuǎn)離等。所有的這些空間屬性可以總結(jié)為廣義接近(g_close_to)和粗略接近(coarse_g close_to)。
為了驗(yàn)證空間關(guān)聯(lián)規(guī)則算法,從空間數(shù)據(jù)庫(kù)中挖掘空間關(guān)聯(lián)規(guī)則,脫離空間屬性,獲得拓?fù)潢P(guān)系的概念層次結(jié)構(gòu)。概念層次樹如圖3所示。
在許多應(yīng)用程序中,我們很難從原始數(shù)據(jù)或更低層次的數(shù)據(jù)項(xiàng)中找到的強(qiáng)關(guān)聯(lián)規(guī)則,但可以從更高層次的概念結(jié)構(gòu)中找到強(qiáng)關(guān)聯(lián)規(guī)則,可以提供普遍重要的知識(shí)。因此,我們?cè)O(shè)計(jì)的任何數(shù)據(jù)挖掘工具,都應(yīng)該提供從一系列的概念層次中挖掘空間關(guān)聯(lián)規(guī)則以及在不同概念空間中方便地轉(zhuǎn)換的功能。
圖3 拓?fù)潢P(guān)系概念層次樹
空間數(shù)據(jù)挖掘算法的選擇與煤礦安全所需要的空間知識(shí)和模式有關(guān)。一般來說,空間數(shù)據(jù)挖掘包括三種主要模式:1)分類和預(yù)測(cè)模型;2)集群和單點(diǎn)檢測(cè)模型;3)空間關(guān)聯(lián)規(guī)則。
空間關(guān)聯(lián)規(guī)則是一種重要的知識(shí)??臻g關(guān)聯(lián)規(guī)則是指空間數(shù)據(jù)價(jià)值和數(shù)據(jù)項(xiàng)之間關(guān)系描述的相關(guān)知識(shí)。這些知識(shí)可以顯示特定的參數(shù)和空間位置之間的共生關(guān)系,表示在某些地區(qū)現(xiàn)象出現(xiàn)的可能性。顯然,對(duì)于煤礦安全分析來說,這些知識(shí)具有十分重要的意義。
關(guān)聯(lián)知識(shí)挖掘的核心算法是Agrawal在1993年設(shè)計(jì)的Apriori算法,目前此算法已經(jīng)發(fā)展了多種修正版本。
煤礦安全數(shù)據(jù)的空間關(guān)聯(lián)規(guī)則將適用于方法的雙向挖掘。雙向挖掘是在在對(duì)象和對(duì)象屬性中同時(shí)挖掘關(guān)聯(lián)規(guī)則。
空間關(guān)聯(lián)規(guī)則的雙向挖掘可以分為兩個(gè)步驟。第一步是根據(jù)統(tǒng)計(jì)結(jié)果得到非空間項(xiàng)目。第二步是使用算法來生成規(guī)則,或者返回到多維關(guān)聯(lián)規(guī)則挖掘的空間關(guān)聯(lián)。煤礦安全監(jiān)測(cè)系統(tǒng)中空間關(guān)聯(lián)規(guī)則的雙向挖掘如圖4所示。
空間數(shù)據(jù)庫(kù)中的空間對(duì)象關(guān)系在拓?fù)浔碇斜浑[藏。使用專業(yè)的空間分析工具,基于空間數(shù)據(jù)挖掘的地理空間對(duì)象數(shù)據(jù)抽象模型和抽象數(shù)據(jù)類型操作可以完成大部分的空間分析計(jì)算和部分復(fù)雜空間分析。
圖4 煤礦安全監(jiān)測(cè)系統(tǒng)空間關(guān)聯(lián)規(guī)則的雙向挖掘
基于空間數(shù)據(jù)挖掘的煤礦安全監(jiān)測(cè)系統(tǒng)可以提供相關(guān)的地下動(dòng)態(tài)操作的信息,采用信息處理的不同挖掘工具,為決策提供有用信息,并通過網(wǎng)絡(luò)將信息發(fā)送到監(jiān)控中心。空間數(shù)據(jù)挖掘?yàn)槊旱V安全監(jiān)測(cè)中空間數(shù)據(jù)處理和解釋提供了智能管理,目的是為了從海量的數(shù)據(jù)中挖掘目前未知的、可能有用的知識(shí),為煤礦提供安全保障。
[1] 劉艷霞, 劉曉華, 等. 網(wǎng)絡(luò)系統(tǒng)指導(dǎo)煤礦生產(chǎn)的優(yōu)越性[J].煤炭技術(shù), 2012, 31(2): 67-69.
[2] 崔滬. 國(guó)外煤礦安全管理對(duì)國(guó)內(nèi)礦難的啟示[J]. 煤礦現(xiàn)代化, 2005(2): 32-33.
[3] 范明, 孟小峰, 等. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京: 機(jī)械工業(yè)出版社, 2000.
[4] 盧啟程, 鄒平. 數(shù)據(jù)挖掘的研究與應(yīng)用進(jìn)展[J]. 昆明理工大學(xué)學(xué)報(bào), 2002, 27 (5): 62-66.