符 鈺
(泰州職業(yè)技術(shù)學(xué)院電子信息與工程系,江蘇 泰州 225300)
基于粗糙集的數(shù)據(jù)挖掘方法分析
符 鈺
(泰州職業(yè)技術(shù)學(xué)院電子信息與工程系,江蘇 泰州 225300)
文章從數(shù)據(jù)挖掘和粗糙集的基本概念出發(fā),研究粗糙集理論在數(shù)據(jù)挖掘中的典型運(yùn)用,為大型數(shù)據(jù)挖掘提供了一種新的方法?;诖植诩臄?shù)據(jù)挖掘,首先通過粗糙集理論對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,然后對(duì)屬性約簡,最后進(jìn)行決策規(guī)則提取,尋找最優(yōu)解。
粗糙集;數(shù)據(jù)挖掘;數(shù)據(jù)處理
隨著數(shù)據(jù)庫技術(shù)的不斷發(fā)展及數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,數(shù)據(jù)庫中存儲(chǔ)的數(shù)據(jù)量急劇增大,在大量數(shù)據(jù)背后隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫中抽取出來,將為公司創(chuàng)造很多潛在的利潤。這種從海量數(shù)據(jù)庫中挖掘信息的技術(shù),就稱之為數(shù)據(jù)挖掘技術(shù)。美國S A S軟件研究所將數(shù)據(jù)挖掘定義為:“按照既定的業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索、揭示隱藏其中的規(guī)律性并進(jìn)一步模型化的先進(jìn)、有效的方法[1]?!睌?shù)據(jù)挖掘能夠?qū)淼内厔?shì)和行為進(jìn)行預(yù)測,從而很好地支持人們的決策。比如,通過對(duì)公司整個(gè)數(shù)據(jù)庫系統(tǒng)的分析,數(shù)據(jù)挖掘可以回答諸如“哪些客戶最有可能購買我們公司的什么產(chǎn)品,為什么?”等類似問題。數(shù)據(jù)挖掘還能夠解決一些很消耗人工時(shí)間的傳統(tǒng)問題,因?yàn)樗鼈兡軌蚩焖俚貫g覽整個(gè)數(shù)據(jù)庫,找出一些專家們不易察覺的極有用的信息。數(shù)據(jù)挖掘的一般步驟如下:問題理解和提出→數(shù)據(jù)準(zhǔn)備→數(shù)據(jù)整理→建立模型→評(píng)價(jià)和解釋。
(1)問題理解和提出:在開始數(shù)據(jù)挖掘之前最基礎(chǔ)的就是理解數(shù)據(jù)和實(shí)際的業(yè)務(wù)問題,在這個(gè)基礎(chǔ)之上提出問題,對(duì)目標(biāo)有明確的定義。(2)數(shù)據(jù)準(zhǔn)備:獲取原始的數(shù)據(jù),并從中抽取一定數(shù)量的子集,建立數(shù)據(jù)挖掘庫,其中一個(gè)問題是,如果企業(yè)原來的數(shù)據(jù)倉庫滿足數(shù)據(jù)挖掘的要求,就可以將數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘庫。(3)數(shù)據(jù)整理:由于數(shù)據(jù)可能是不完全的、有噪聲的、隨機(jī)的,有復(fù)雜的數(shù)據(jù)結(jié)構(gòu),就要對(duì)數(shù)據(jù)進(jìn)行初步的整理,清洗不完全的數(shù)據(jù),做初步的描述分析,選擇與數(shù)據(jù)挖掘有關(guān)的變量,或者轉(zhuǎn)變變量。(4) 建立模型:根據(jù)數(shù)據(jù)挖掘的目標(biāo)和數(shù)據(jù)的特征,選擇合適的模型。(5) 評(píng)價(jià)和解釋:對(duì)數(shù)據(jù)挖掘的結(jié)果進(jìn)行評(píng)價(jià),選擇最優(yōu)的模型,作出評(píng)價(jià),運(yùn)用于實(shí)際問題,并且要和專業(yè)知識(shí)結(jié)合對(duì)結(jié)果進(jìn)行解釋。
以上的步驟不是一次完成的,可能其中某些或者全部要反復(fù)進(jìn)行。
1982 年,波蘭學(xué)者Z.Pawlak提出了粗糙集理論,它是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效地分析不精確、不一致(inconsistent)、不完整(in CO Mplete)等各種不完備的信息,還可以對(duì)數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識(shí),揭示潛在的規(guī)律[2]。粗糙集理論是建立在分類機(jī)制基礎(chǔ)上的,它將分類理解為在特定空間上的等價(jià)關(guān)系,而等價(jià)關(guān)系構(gòu)成了對(duì)該空間的劃分。粗糙集理論將知識(shí)理解為對(duì)數(shù)據(jù)的劃分,每一被劃分的集合稱為概念。粗糙集理論的主要思想是利用已知的知識(shí)庫,將不精確或不確定的知識(shí)用已知知識(shí)庫中的知識(shí)來(近似)刻畫。該理論與其他處理不確定和不精確問題理論的最顯著的區(qū)別是它無需提供問題所需處理的數(shù)據(jù)集合之外的任何先驗(yàn)信息,所以對(duì)問題的不確定性的描述或處理可以說是比較客觀的。
定義1信息系統(tǒng)S可表示為S=(U,A,V,f),其中U是對(duì)象的非空有限集合,稱為論域;A是屬性的非空有限集合;V=∪a∈A V a,V a是屬性A的值域,f:U×A→V是一個(gè)信息函數(shù),它為每個(gè)對(duì)象的每個(gè)屬性賦予一個(gè)信息值。如果屬性集A可以分為條件屬性集C和決策屬性集D,即C∪D=A,C∩D=Ф,則該信息系統(tǒng)稱為決策系統(tǒng)或決策表,其中D一般只含有一個(gè)屬性。
定義2在知識(shí)表達(dá)系統(tǒng)S中,對(duì)于一屬性集P∈A,對(duì)象x,y∈U,二元等價(jià)關(guān)系I N D(P)={(x,y)∈U×U|所有的a∈P,f(x,a)=f(y,a)}稱為S的不可分辨關(guān)系。不可分辨關(guān)系是一個(gè)等價(jià)關(guān)系,通過一個(gè)不可分辨關(guān)系,可以得到一個(gè)決策系統(tǒng)的劃分。
定義3給定信息系統(tǒng)S=(U,A),B∈A,對(duì)B中的屬性a,如果I N D(B)≠I N D(B-{a}),則稱屬性a是必要的(Indispensable),否則稱a是不必要的(Dispensable)。
近年來,粗糙集理論在數(shù)據(jù)挖掘中的應(yīng)用取得了較大的進(jìn)展,基于粗糙集理論的方法逐漸成為數(shù)據(jù)挖掘主流方法之一?;诖植诩碚摰臄?shù)據(jù)挖掘系統(tǒng)一般都由數(shù)據(jù)預(yù)處理、基于粗糙集理論或其擴(kuò)展理論的數(shù)據(jù)約簡、決策算法等組成。其大概思想是:首先通過粗糙集對(duì)信息表中的數(shù)據(jù)缺損進(jìn)行處理;然后根據(jù)已定義的可辯識(shí)距陣,通過屬性簡約算法對(duì)信息表中的數(shù)據(jù)進(jìn)行屬性簡約和知識(shí)發(fā)現(xiàn);最后根據(jù)值約簡等減少屬性和個(gè)體數(shù)目,最終提取規(guī)則并將之應(yīng)用于新對(duì)象的分類。
(1) 數(shù)據(jù)預(yù)處理 在現(xiàn)實(shí)世界的很多情況下,我們拿到的第一手?jǐn)?shù)據(jù)都會(huì)存在噪音數(shù)據(jù)、空缺數(shù)據(jù)和不一致性數(shù)據(jù)等我們不希望出現(xiàn)的數(shù)據(jù),甚至因?yàn)閿?shù)據(jù)庫過于強(qiáng)大,這樣的數(shù)據(jù)多達(dá)數(shù)千兆字節(jié)。因此,不得不去想一個(gè)問題:“怎樣處理數(shù)據(jù)才能提高數(shù)據(jù)的質(zhì)量,從而提高數(shù)據(jù)挖掘結(jié)果的質(zhì)量呢?”現(xiàn)今已經(jīng)存在的數(shù)據(jù)預(yù)處理技術(shù)有很多,常用的有數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約等。其中數(shù)據(jù)清理可以去掉數(shù)據(jù)中的噪音,糾正不一致。數(shù)據(jù)集成可以將數(shù)據(jù)由多個(gè)源合并成一致的數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)歸約可以通過聚集、刪除冗余特性或者聚類等方法來壓縮數(shù)據(jù)[3]。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,可以大大提高數(shù)據(jù)挖掘的模型,降低實(shí)際挖掘所需要的時(shí)間。
(2)屬性約簡和屬性值約簡 在一個(gè)決策系統(tǒng)中,各個(gè)條件屬性之間往往存在著某些程度上的依賴或關(guān)聯(lián),約簡可以理解為在不丟失信息的前提下,最簡單地表示決策系統(tǒng)的結(jié)論屬性對(duì)條件屬性集合的依賴和關(guān)聯(lián)。屬性簡約算法如下:
步驟1:計(jì)算屬性表的可辯識(shí)矩陣。
步驟2:對(duì)可辨識(shí)矩陣中的所有取值為非空集合的元素Cij建立相應(yīng)的析取邏輯表達(dá)式。
步驟3:將所有析取邏輯表達(dá)式進(jìn)行合取運(yùn)算,得到一個(gè)合取范式。
步驟4:將合取范式轉(zhuǎn)換為析取范式形式。
步驟5:輸出屬性約簡結(jié)果,其中析取范式中的每個(gè)合取項(xiàng)對(duì)應(yīng)一個(gè)屬性約簡的結(jié)果,每個(gè)合取項(xiàng)中所包含的屬性組成約簡后的條件屬性集合。
值約簡的目的是為了提取決策規(guī)則,將缺失的屬性值約簡掉。和屬性約簡不同,值約簡是針對(duì)每一個(gè)對(duì)象而言的。雖然對(duì)整個(gè)決策表來說沒有冗余的屬性,但對(duì)于每一個(gè)對(duì)象來說,仍然存在著屬性冗余,去掉這些屬性對(duì)決策規(guī)則的提取、規(guī)則的簡化有重要的作用。根據(jù)定義一般值約簡算法基本描述如下:對(duì)于規(guī)則集合中的每條規(guī)則,對(duì)于該規(guī)則中的任意條件屬性,如果去掉該屬性,該規(guī)則不和集合中的其他規(guī)則沖突,則可以從該規(guī)則中去掉該條件屬性。
(3)決策規(guī)則提取 對(duì)進(jìn)行屬性約簡和值約簡后的信息表,就可以進(jìn)行規(guī)則的獲取,使用一個(gè)約簡集R E D從決策系統(tǒng)S=(U,A)中產(chǎn)生規(guī)則的過程相當(dāng)直接。直觀地,將每個(gè)約簡用在決策表的每個(gè)對(duì)象上,只要簡單地從表中讀出適當(dāng)?shù)膶傩灾祦硇纬蓻Q策規(guī)則。用類似邏輯語言中α→β的形式表示決策規(guī)則,α和β分別稱為決策規(guī)則的前件和后件,α代表?xiàng)l件屬性值的組合。
現(xiàn)在商場對(duì)銷售數(shù)據(jù)和客戶信息的處理一般還停留在簡單的數(shù)據(jù)備份和查詢階段,而把基于粗糙集的數(shù)據(jù)挖掘方法引入到對(duì)銷售數(shù)據(jù)的分析中,可以找到影響銷售額的真實(shí)原因,有利于有針對(duì)性地提高商場的銷售業(yè)績。經(jīng)過數(shù)據(jù)收集和數(shù)據(jù)確認(rèn),從商場銷售數(shù)據(jù)庫以及消費(fèi)積分卡客戶信息數(shù)據(jù)庫中,選擇(性別、年齡、職務(wù)、收入、積分、總消費(fèi)額、羽絨服檔次)作為預(yù)處理前的信息集合(見表1)。
表1 預(yù)處理前信息系統(tǒng)
從表1可以看出,條件屬性中,年齡、積分、總消費(fèi)均為連續(xù)屬性,需要進(jìn)行離散化;同時(shí)多條記錄里存在若干屬性值的缺失,需要進(jìn)行數(shù)據(jù)完備化處理。
(1) 數(shù)據(jù)預(yù)處理 對(duì)a 2,a 5,a 6進(jìn)行離散化。設(shè)用戶控制閾值t=2,最多不超過4個(gè)斷點(diǎn),計(jì)算得 P 2={27.5,38},P 5={919.5},P 6={1299.5},P為已選的斷點(diǎn)集合。計(jì)算缺失屬性最相似值:x 2=1;x 4=1;x 6=0;x 8=2;x 10=1(見表 2)。
表2 經(jīng)過數(shù)據(jù)預(yù)處理后的完備信息系統(tǒng)表
表 2中 () 代表缺失值。其中,a 1:0(男)、1(女);a 2:0(27.5歲以下)、1(27.5歲至38歲之間)、2(38歲以上);a 3:0(一般員工)、1(高級(jí)職員)、2(高級(jí)管理人員);a 4:0(1-2千元)、1(2-4千元)、2(4千元以上);a 5:0(919.5以下)、1(919.5以上);a 6:0(1299.5元以下)、1(1299.5元以上)。
粗糙集理論是一種處理不確定和不精確問題的新型數(shù)學(xué)工具,為數(shù)據(jù)挖掘提供了一條嶄新的途徑。粗糙集理論在數(shù)據(jù)挖掘中的應(yīng)用研究目前正成為信息科學(xué)中的一個(gè)研究熱點(diǎn),其發(fā)展空間廣闊。
[1]朱明.數(shù)據(jù)挖掘[M].合肥:中國科學(xué)技術(shù)出版社,2003.
[2]李紅梅,周桂紅,王克儉.基于粗糙集和遺傳算法的知識(shí)發(fā)現(xiàn)方法[J].計(jì)算機(jī)應(yīng)用,2007,8(1):76-78.
[3]Jia Weihan.D Atamining Concepts and Techniques[M].北京:機(jī)械工業(yè)出版社,2001,8(1):70-93.
Data Extraction Based on Rough Set
FU Yu
(Taizhou Polytechnic College,Taizhou Jiangsu 225300,China)
Based on the theory of data extraction and rough set,this article tries to study typical application of rough set in data extraction and introduce a new approach for data mining.First of all,we retreats our data with rough set,and then reduce attributes,finally we extract the best rule of decision.
rough set;data extraction;data processing
TP391
A
1671-0142(2011)02-0067-03
符鈺(1981-),女,江蘇泰州人,講師.
(責(zé)任編輯李冠楠)