劉洋
摘? 要:為解決在挖掘關(guān)聯(lián)規(guī)則過(guò)程中,因忽略項(xiàng)目間的重要程度不同以及項(xiàng)目在數(shù)據(jù)庫(kù)中分布不均勻而導(dǎo)致的挖掘有效性低的問(wèn)題,研究者提出了加權(quán)關(guān)聯(lián)規(guī)則挖掘。文章對(duì)基于Apriori算法的加權(quán)關(guān)聯(lián)規(guī)則挖掘的研究現(xiàn)狀進(jìn)行了分析,比較了相關(guān)方法的優(yōu)缺點(diǎn)。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;頻繁項(xiàng)集;加權(quán)規(guī)則
中圖分類號(hào):TP311.1? ? ? ?文獻(xiàn)標(biāo)志碼:A? ? ? ? ?文章編號(hào):2095-2945(2020)08-0017-02
Abstract: In order to solve the problem of low mining effectiveness caused by ignoring the different degrees of importance between items and the uneven distribution of items in the database in the process of mining association rules, the researchers proposed weighted association rules mining. In this paper, the research status of weighted association rules mining based on Apriori algorithm is analyzed, and the advantages and disadvantages of related methods are compared.
Keywords: association rules; frequent itemsets; weighted rules
引言
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的研究中有一個(gè)重要的方向,主要用于挖掘數(shù)據(jù)集中各項(xiàng)目之間所蘊(yùn)含的關(guān)系。
其中最經(jīng)典的算法是Apriori算法。Apriori算法的核心內(nèi)容是利用逐層迭代產(chǎn)生候選集,通過(guò)最小支持度篩選出頻繁項(xiàng)集的方法,最終挖掘出項(xiàng)目之間的關(guān)聯(lián)規(guī)則。該算法使用了根據(jù)支持度判斷的剪枝技術(shù),通過(guò)剪枝有效地控制候選項(xiàng)集的增長(zhǎng)。
Aprior算法有兩個(gè)前提假設(shè):數(shù)據(jù)庫(kù)中各項(xiàng)目重要性相同并且各項(xiàng)目的分布是均勻的。[1]然而,在現(xiàn)實(shí)中數(shù)據(jù)庫(kù)中的項(xiàng)目具有差異性。當(dāng)數(shù)據(jù)庫(kù)中項(xiàng)目分布不均勻時(shí),會(huì)使在運(yùn)算過(guò)程中最小支持度的設(shè)置偏低偏高都會(huì)出現(xiàn)問(wèn)題[2]。
針對(duì)這些問(wèn)題,有學(xué)者提出了加權(quán)關(guān)聯(lián)規(guī)則。加權(quán)關(guān)聯(lián)規(guī)則的思想是根據(jù)需要為數(shù)據(jù)集中的項(xiàng)目賦予合適的權(quán)重,體現(xiàn)出不同項(xiàng)目的重要程度。本文介紹了典型的基于Apriori算法的加權(quán)關(guān)聯(lián)規(guī)則,并對(duì)其進(jìn)行分析、對(duì)比。
1 加權(quán)關(guān)聯(lián)規(guī)則
1.1 水平加權(quán)
2 結(jié)束語(yǔ)
加權(quán)關(guān)聯(lián)規(guī)則挖掘的核心思想是通過(guò)賦予權(quán)重挖掘出用戶感興趣的關(guān)聯(lián)規(guī)則,或者挖掘出關(guān)于不常出現(xiàn)卻十分重要的項(xiàng)目的關(guān)聯(lián)規(guī)則。相對(duì)于一般的關(guān)聯(lián)規(guī)則挖掘,加權(quán)關(guān)聯(lián)規(guī)則在實(shí)際應(yīng)用中更有意義。加權(quán)關(guān)聯(lián)規(guī)則挖掘過(guò)程中,加權(quán)的方式和權(quán)重的取值標(biāo)準(zhǔn)是研究的重要方向。文章對(duì)加權(quán)關(guān)聯(lián)規(guī)則挖掘目前的研究現(xiàn)狀進(jìn)行了分析,為加權(quán)關(guān)聯(lián)規(guī)則挖掘相關(guān)領(lǐng)域的研究提供了參考。
參考文獻(xiàn):
[1]亓文娟.基于水平加權(quán)關(guān)聯(lián)規(guī)則挖掘算法的研究[J].哈爾濱師范大學(xué)自然科學(xué)學(xué)報(bào),2015,31(01):45-48.
[2]歐陽(yáng)為民,鄭誠(chéng),蔡慶生.數(shù)據(jù)庫(kù)中加權(quán)關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)[J].軟件學(xué)報(bào),2001(04):612-619.
[3]歐陽(yáng)繼紅,王仲佳,劉大有.具有動(dòng)態(tài)加權(quán)特性的關(guān)聯(lián)規(guī)則算法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2005(03):314-319.
[4]尹群,王麗珍,田啟明.一種基于概率的加權(quán)關(guān)聯(lián)規(guī)則挖掘算法[J].計(jì)算機(jī)應(yīng)用,2005(04):805-807.
[5] Cai, C.H., Fu, A.W.C., Cheng, C.H., Kwong, W.W.. Mining association rules with weighted items[P]. Database Engineering and Applications Symposium, 1998. Proceedings. IDEAS'98. International,1998.