劉洋
摘? 要:為解決在挖掘關(guān)聯(lián)規(guī)則過程中,因忽略項(xiàng)目間的重要程度不同以及項(xiàng)目在數(shù)據(jù)庫中分布不均勻而導(dǎo)致的挖掘有效性低的問題,研究者提出了加權(quán)關(guān)聯(lián)規(guī)則挖掘。文章對(duì)基于Apriori算法的加權(quán)關(guān)聯(lián)規(guī)則挖掘的研究現(xiàn)狀進(jìn)行了分析,比較了相關(guān)方法的優(yōu)缺點(diǎn)。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;頻繁項(xiàng)集;加權(quán)規(guī)則
中圖分類號(hào):TP311.1? ? ? ?文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號(hào):2095-2945(2020)08-0017-02
Abstract: In order to solve the problem of low mining effectiveness caused by ignoring the different degrees of importance between items and the uneven distribution of items in the database in the process of mining association rules, the researchers proposed weighted association rules mining. In this paper, the research status of weighted association rules mining based on Apriori algorithm is analyzed, and the advantages and disadvantages of related methods are compared.
Keywords: association rules; frequent itemsets; weighted rules
引言
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的研究中有一個(gè)重要的方向,主要用于挖掘數(shù)據(jù)集中各項(xiàng)目之間所蘊(yùn)含的關(guān)系。
其中最經(jīng)典的算法是Apriori算法。Apriori算法的核心內(nèi)容是利用逐層迭代產(chǎn)生候選集,通過最小支持度篩選出頻繁項(xiàng)集的方法,最終挖掘出項(xiàng)目之間的關(guān)聯(lián)規(guī)則。該算法使用了根據(jù)支持度判斷的剪枝技術(shù),通過剪枝有效地控制候選項(xiàng)集的增長。
Aprior算法有兩個(gè)前提假設(shè):數(shù)據(jù)庫中各項(xiàng)目重要性相同并且各項(xiàng)目的分布是均勻的。[1]然而,在現(xiàn)實(shí)中數(shù)據(jù)庫中的項(xiàng)目具有差異性。當(dāng)數(shù)據(jù)庫中項(xiàng)目分布不均勻時(shí),會(huì)使在運(yùn)算過程中最小支持度的設(shè)置偏低偏高都會(huì)出現(xiàn)問題[2]。
針對(duì)這些問題,有學(xué)者提出了加權(quán)關(guān)聯(lián)規(guī)則。加權(quán)關(guān)聯(lián)規(guī)則的思想是根據(jù)需要為數(shù)據(jù)集中的項(xiàng)目賦予合適的權(quán)重,體現(xiàn)出不同項(xiàng)目的重要程度。本文介紹了典型的基于Apriori算法的加權(quán)關(guān)聯(lián)規(guī)則,并對(duì)其進(jìn)行分析、對(duì)比。
1 加權(quán)關(guān)聯(lián)規(guī)則
1.1 水平加權(quán)
2 結(jié)束語
加權(quán)關(guān)聯(lián)規(guī)則挖掘的核心思想是通過賦予權(quán)重挖掘出用戶感興趣的關(guān)聯(lián)規(guī)則,或者挖掘出關(guān)于不常出現(xiàn)卻十分重要的項(xiàng)目的關(guān)聯(lián)規(guī)則。相對(duì)于一般的關(guān)聯(lián)規(guī)則挖掘,加權(quán)關(guān)聯(lián)規(guī)則在實(shí)際應(yīng)用中更有意義。加權(quán)關(guān)聯(lián)規(guī)則挖掘過程中,加權(quán)的方式和權(quán)重的取值標(biāo)準(zhǔn)是研究的重要方向。文章對(duì)加權(quán)關(guān)聯(lián)規(guī)則挖掘目前的研究現(xiàn)狀進(jìn)行了分析,為加權(quán)關(guān)聯(lián)規(guī)則挖掘相關(guān)領(lǐng)域的研究提供了參考。
參考文獻(xiàn):
[1]亓文娟.基于水平加權(quán)關(guān)聯(lián)規(guī)則挖掘算法的研究[J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào),2015,31(01):45-48.
[2]歐陽為民,鄭誠,蔡慶生.數(shù)據(jù)庫中加權(quán)關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)[J].軟件學(xué)報(bào),2001(04):612-619.
[3]歐陽繼紅,王仲佳,劉大有.具有動(dòng)態(tài)加權(quán)特性的關(guān)聯(lián)規(guī)則算法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2005(03):314-319.
[4]尹群,王麗珍,田啟明.一種基于概率的加權(quán)關(guān)聯(lián)規(guī)則挖掘算法[J].計(jì)算機(jī)應(yīng)用,2005(04):805-807.
[5] Cai, C.H., Fu, A.W.C., Cheng, C.H., Kwong, W.W.. Mining association rules with weighted items[P]. Database Engineering and Applications Symposium, 1998. Proceedings. IDEAS'98. International,1998.