數(shù)據(jù)挖掘是一門科學(xué),它可以一種從海量的數(shù)據(jù)中提取有價(jià)值的信息,本文主要以數(shù)據(jù)挖掘中關(guān)聯(lián)分析模型為例,基于R軟件利用Apriori算法,對取自UCI中的mushroom數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)毒蘑菇的共同特征,利用這些特征可以避免吃到有毒的蘑菇。
毒蘑菇 關(guān)聯(lián)分析 Apriori算法
引言
隨著大數(shù)據(jù)時代的發(fā)展,數(shù)據(jù)挖掘在生活中的應(yīng)用越來越廣泛,其中數(shù)據(jù)挖掘中的關(guān)聯(lián)分析是在大量的數(shù)據(jù)集中尋找一些內(nèi)在的聯(lián)系,比如通過查看哪些商品經(jīng)常在一起購買,可以幫助商店了解用戶的購買行為。這種從數(shù)據(jù)海洋中提取的信息可以用于商品定價(jià)、市場促銷、存活管理等環(huán)節(jié),比如“啤酒和紙尿布”的故事,零售商場里的組合套裝的捆綁銷售,比如洗發(fā)水加沐浴露,泡面加火腿腸,牛奶加面包等等。從新聞網(wǎng)站點(diǎn)擊流中挖掘新聞流行趨勢,挖掘哪些新聞廣泛被用戶瀏覽到,搜索引擎推薦,在用戶輸入查詢詞時推薦同相關(guān)的查詢詞項(xiàng)。不管關(guān)聯(lián)分析應(yīng)用于什么領(lǐng)域,最終都是為了發(fā)現(xiàn)一些經(jīng)常共同出現(xiàn)的特征集合,本文是介紹了關(guān)聯(lián)分析的一些基本概念,Apriori算法的核心思想,然后利用取自UCI網(wǎng)站的mushroom數(shù)據(jù)集進(jìn)行數(shù)據(jù)關(guān)聯(lián)分析,最后發(fā)現(xiàn)毒蘑菇的共同特征,然后利用這些特征避免吃到有毒的蘑菇。
文獻(xiàn)綜述
2011年,Jiawei Han和Micheline Kamber寫的著作《數(shù)據(jù)挖掘:概念與技術(shù)》里第六章詳細(xì)介紹了挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性的基本概念和方法,該書給出了一個最經(jīng)典的關(guān)聯(lián)分析的案例即購物籃分析。劉玲,丁浩兩人發(fā)表的論文《上市公司財(cái)務(wù)報(bào)表粉飾識別》(2010)一文將關(guān)聯(lián)分析里Apriori算法理論應(yīng)用到了上市公司的財(cái)務(wù)分析領(lǐng)域。
毒蘑菇的實(shí)證分析
(1)數(shù)據(jù)來源與結(jié)構(gòu)
首先從網(wǎng)站https://archive.ics.uci.edu
/ml/datasets/Mushroom搜集到了關(guān)于肋型蘑菇的23種特征的數(shù)據(jù)集,每個特征包含一個標(biāo)稱數(shù)據(jù)集,如果想做關(guān)聯(lián)分析,我們需要把這些標(biāo)稱值轉(zhuǎn)化為一個集合,Roberto Bayardo對UCI網(wǎng)站上蘑菇數(shù)據(jù)集進(jìn)行了解析,轉(zhuǎn)化后的數(shù)據(jù)來自http://fimi.ua.ac.be/data/mushroom.dat/.
在數(shù)據(jù)集中中第一個特征代表蘑菇是否可食用,2代表有毒不可食用,1代表沒毒可食用。第二個特征代表蘑菇傘的形狀,有六種可能的值,分別用3-8的整數(shù)值來表示。
(2)程序代碼與結(jié)果
在搜集到數(shù)據(jù)和了解數(shù)據(jù)的結(jié)構(gòu)之后,開始基于R軟件中Apriori算法對數(shù)據(jù)集進(jìn)行實(shí)證分析,以便發(fā)現(xiàn)毒蘑菇的公共特征。
1.程序代碼:
install.packages("arules") #安裝arules程序包
library(arules) #加載arules程序包
載入需要的程序包:Matrix
載入程序包:‘a(chǎn)rules
transactions=read.transactions(file=file.choose(),format='basket',sep=',')#使用arules包中的read.transactions()
函數(shù)讀取事務(wù)型數(shù)據(jù)集。
summary(transactions)#使用summary()函數(shù)查看交易數(shù)據(jù)的概覽信息
itemFrequencyPlot(transactions,type='absolute',topN=10)
rules=apriori(data = transactions,parameter = list(support = 0.4,confidence = 0.8,minlen = 2))
rules
inspect(rules[1:4])
summary(rules)
inspect(sort(rules,by=list('support'))[1:8])
inspect(sor4t(rules,by=list('lift'))[1:8])
res= eclat(data =transactions,parameter = list(minlen = 2,maxlen = 3,support = 0.4,target = 'frequent itemsets'),
control = list(sort = -1))#然后使用eclat()函數(shù)獲取經(jīng)常伴隨毒蘑菇一起出現(xiàn)的特征。
res
inspect(res)
2.結(jié)果:
使用Apriori算法參數(shù)設(shè)置支持度為40%,可信度為50%,將產(chǎn)生1810條規(guī)則。
> inspect(sort(rules,by=list('lift'))[1:4])#按提升度排序的前4條規(guī)則
lhs rhs support confidence lift
[1]{2} => {28} 0.4194462 0.8098859 1.865171
[2]{2,85} => {28} 0.4194462 0.8098859 1.865171
[3]{28} => {2} 0.4194462 0.9659864 1.865171
[4]{28,85} => {2} 0.4194462 0.9659864 1.865171
然后使用eclat()函數(shù)獲取經(jīng)常伴隨毒蘑菇一起出現(xiàn)的特征。
> res= eclat(data =transactions,parameter = list(minlen = 2,maxlen = 3,support = 0.4,target = 'frequent itemsets'),control = list(sort = -1))
Eclat
> res
set of 282 itemsets
> inspect(res)
items support tems support
[17] {2,28,85} 0.4194462 [26] {2,28} 0.4194462
[121]{2,63,85} 0.4184615 [122]{2,59,85} 0.4480000
[123]{2,59,86} 0.4243692 [124]{2,34,59} 0.4243692
[125]{2,59,90} 0.4027077 [126]{2,39,59} 0.4155077
[127]{2,39,85} 0.4824615 [128]{2,39,86} 0.4588308
[129]{2,34,39} 0.4588308 [130]{2,39,90} 0.4174769
[131]{2,85,90} 0.4529231 [132]{2,86,90} 0.4292923
[133]{2,34,90} 0.4292923 [134]{2,34,85} 0.4942769
[135]{2,34,86} 0.4942769 [136]{2,85,86} 0.4942769
[137]{2,85} 0.5179077 [138]{2,86} 0.4942769
[139]{2,34} 0.4942769 [140]{2,90} 0.4529231
[141]{2,39} 0.4824615 [142]{2,59} 0.4480000
[143]{2,63} 0.4184615
可以看出表示有毒的蘑菇2經(jīng)常和特征34,39,59,63,85,86,90一起出現(xiàn),所以我們尤其是生物學(xué)家們需要觀察蘑菇的特征以了解該蘑菇是否可食用,這里還需要說明的是有上述一種特征說明該蘑菇有毒不可以食用,但是如果沒有該特征也不定沒有毒,只是很大可能性上是沒有毒的。
總結(jié)
隨著大數(shù)據(jù)時代的發(fā)展,數(shù)據(jù)挖掘(data mining) 的應(yīng)用越來越廣泛,其中通過一些算法,一些模型,關(guān)聯(lián)規(guī)則的研究可以在大量的數(shù)據(jù)中發(fā)現(xiàn)某些事情之間存在的聯(lián)系,有助于我們做出更好的決策。本文主要是利用R語言軟件基于Apriori算法對蘑菇的特征進(jìn)行分析,來區(qū)分具有哪些特征的蘑菇是毒蘑菇,哪些蘑菇是可食用的。
作者簡介:葛麗翠 天津財(cái)經(jīng)大學(xué) 研究方向:市場調(diào)查