李德辰,呂一帆,趙學(xué)健
(1.南京郵電大學(xué) 物聯(lián)網(wǎng)學(xué)院,江蘇 南京 210023; 2.南京郵電大學(xué) 現(xiàn)代郵政學(xué)院,江蘇 南京 210003)
近年來(lái),數(shù)據(jù)挖掘技術(shù)在各行各業(yè)的決策支持活動(dòng)中扮演著越來(lái)越重要的角色[1-2]。關(guān)聯(lián)規(guī)則分析作為數(shù)據(jù)挖掘最活躍的研究領(lǐng)域之一,在精準(zhǔn)營(yíng)銷[3]、個(gè)性化醫(yī)療診斷[4]、網(wǎng)絡(luò)優(yōu)化與管理[5]等領(lǐng)域均有著廣泛的應(yīng)用。所謂關(guān)聯(lián)規(guī)則就是隱藏在海量數(shù)據(jù)中的事物之間的聯(lián)系和規(guī)律。在數(shù)據(jù)量急劇膨脹的今天,如何從海量數(shù)據(jù)中快速、高效地找出這些隱藏信息,提高關(guān)聯(lián)規(guī)則分析算法的效率,具有十分重要的意義和應(yīng)用價(jià)值。關(guān)聯(lián)規(guī)則挖掘通常分兩步進(jìn)行:頻繁項(xiàng)集挖掘,即找出所有滿足最小支持度的項(xiàng)集,找出的這些項(xiàng)集稱為頻繁項(xiàng)集;生成關(guān)聯(lián)規(guī)則,在第一步產(chǎn)生的頻繁項(xiàng)集的基礎(chǔ)上生成滿足最小置信度的規(guī)則,產(chǎn)生的規(guī)則稱為強(qiáng)規(guī)則。頻繁項(xiàng)集挖掘作為關(guān)聯(lián)規(guī)則挖掘技術(shù)的關(guān)鍵步驟,其性能對(duì)關(guān)聯(lián)規(guī)則挖掘具有重要的意義。
Agrawal和Skrikant在1994年提出了第一個(gè)關(guān)聯(lián)規(guī)則分析算法——Apriori算法[6]。Apriori算法是最經(jīng)典的關(guān)聯(lián)規(guī)則分析算法之一。Apriori算法使用重復(fù)迭代的方法生成頻繁項(xiàng)集。首先掃描數(shù)據(jù)庫(kù),得到所有項(xiàng)目的出現(xiàn)頻率,并與給定的最小支持度閾值進(jìn)行比較,得到頻繁1-項(xiàng)集L1。接下來(lái),對(duì)頻繁1-項(xiàng)集進(jìn)行自連接,并根據(jù)頻繁項(xiàng)集的向下閉包特性進(jìn)行剪枝,產(chǎn)生候選頻繁項(xiàng)集2-項(xiàng)集C2,接下來(lái)進(jìn)行掃描數(shù)據(jù)庫(kù)判決,得到頻繁2-項(xiàng)集L2。以此類推,直至得到所有頻繁項(xiàng)集為止。
Apriori算法在對(duì)候選頻繁項(xiàng)集進(jìn)行剪枝操作的過(guò)程中,用到了頻繁項(xiàng)集的向下閉包特性。該特性是指如果一個(gè)集合是頻繁項(xiàng)集,則它的所有子集都是頻繁項(xiàng)集;反之,如果一個(gè)集合不是頻繁項(xiàng)集,則它的所有超集都不是頻繁項(xiàng)集。Apriori算法利用頻繁項(xiàng)集的向下閉包特性對(duì)候選頻繁項(xiàng)集進(jìn)行剪枝,從而有效地控制候選項(xiàng)集的指數(shù)增長(zhǎng)。
從上述可以看出,Apriori算法生成關(guān)聯(lián)規(guī)則的過(guò)程包含兩個(gè)步驟:挖掘隱藏在海量數(shù)據(jù)集中的所有頻繁項(xiàng)集;根據(jù)挖掘出的頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則。其中第二步相對(duì)比較簡(jiǎn)單,第一步才是Apriori算法實(shí)現(xiàn)關(guān)聯(lián)規(guī)則分析的關(guān)鍵,當(dāng)然也是決定算法性能優(yōu)劣的關(guān)鍵。目前對(duì)于Apriori算法的改進(jìn)方法也大多數(shù)是針對(duì)第一步進(jìn)行的。
Apriori算法產(chǎn)生頻繁項(xiàng)集的過(guò)程有兩個(gè)重要特點(diǎn)。首先,Apriori算法通過(guò)重復(fù)迭代生成頻繁項(xiàng)集,在由候選頻繁項(xiàng)集生成頻繁項(xiàng)集的過(guò)程中,都要通過(guò)掃描數(shù)據(jù)庫(kù)對(duì)候選頻繁項(xiàng)集進(jìn)行判別;其次,Apriori算法在每次迭代過(guò)程中,都要通過(guò)自連接生成候選頻繁項(xiàng)集。這兩個(gè)特點(diǎn)使得算法雖然思想簡(jiǎn)單,較容易實(shí)現(xiàn),但是卻存在兩個(gè)缺點(diǎn):在規(guī)則產(chǎn)生過(guò)程中,算法必須反復(fù)掃描事務(wù)庫(kù),I/O負(fù)載較大,且算法的運(yùn)行效率較低;在自連接的過(guò)程中,會(huì)產(chǎn)生過(guò)多候選項(xiàng)集,使得挖掘的候選項(xiàng)集所含的項(xiàng)數(shù)過(guò)多,導(dǎo)致計(jì)算量驚人。這兩個(gè)缺點(diǎn)使得Apriori算法在處理一些項(xiàng)集較多且長(zhǎng)度較長(zhǎng)的事務(wù)數(shù)據(jù)庫(kù)時(shí),顯得力不從心。
為了克服Apriori算法存在的上述缺點(diǎn),提出一種A_RSPS算法(Apriori with random sampling based prejudgment and screening)。通過(guò)對(duì)原始數(shù)據(jù)集的隨機(jī)取樣,進(jìn)行Apriori算法計(jì)算,得出樣本頻繁項(xiàng)集的支持度集合,再計(jì)算原始數(shù)據(jù)集的頻繁項(xiàng)集,遍歷數(shù)據(jù)之前通過(guò)之前得到的樣本支持度集合進(jìn)行預(yù)判篩選對(duì)候選項(xiàng)集進(jìn)行二次剪枝,并且引入阻尼因子和補(bǔ)償因子對(duì)預(yù)判篩選產(chǎn)生的誤差進(jìn)行修正,以減少掃描數(shù)據(jù)庫(kù)的次數(shù),降低算法的運(yùn)算時(shí)間,提高算法的運(yùn)算效率。
研究人員對(duì)頻繁項(xiàng)集挖掘算法進(jìn)行了研究,取得了大量研究成果。文獻(xiàn)[7]采用矩陣的方法表示數(shù)據(jù)庫(kù),每個(gè)項(xiàng)目對(duì)應(yīng)矩陣的一行,每個(gè)事務(wù)對(duì)應(yīng)矩陣的一列,則矩陣的行向量之和為所對(duì)應(yīng)項(xiàng)目在各事務(wù)中出現(xiàn)的次數(shù),即該項(xiàng)目的支持度。可以看出,通過(guò)對(duì)矩陣的操作實(shí)現(xiàn)頻繁項(xiàng)集的挖掘,無(wú)需多次掃描數(shù)據(jù)庫(kù),可以提高關(guān)聯(lián)規(guī)則分析算法的時(shí)間效率,但是算法的空間復(fù)雜度較大。文獻(xiàn)[8]使用Hash表存儲(chǔ)事務(wù)數(shù)據(jù)以減少存儲(chǔ)空間,同時(shí)使計(jì)算頻繁項(xiàng)集更高效方便。此外,通過(guò)刪除無(wú)用項(xiàng)表可以減少掃描Hash表的數(shù)量。用該方法在不損失頻繁項(xiàng)集的前提下提高了發(fā)現(xiàn)頻繁項(xiàng)集的效率。文獻(xiàn)[9]對(duì)產(chǎn)生的每一個(gè)項(xiàng)集,采用包含兩個(gè)線性表的類進(jìn)行存儲(chǔ)。事務(wù)標(biāo)識(shí)符列表由支持該項(xiàng)集的所有事務(wù)標(biāo)識(shí)符組成。因此一個(gè)項(xiàng)集的支持度就等于該項(xiàng)集的事務(wù)標(biāo)識(shí)符列表長(zhǎng)度。候選項(xiàng)集的支持度只要取其相應(yīng)子集的事務(wù)標(biāo)識(shí)符列表的交集得到,從而避免了為得到候選項(xiàng)集的支持度而去掃描數(shù)據(jù)庫(kù)。文獻(xiàn)[10]提出了一種新的產(chǎn)生候選集的方法,在k-1項(xiàng)頻繁集中的一個(gè)項(xiàng)集與其余所有項(xiàng)集進(jìn)行連接,把連接得到的不同k項(xiàng)集存儲(chǔ),然后立即確定所有符合剪枝后的候選k項(xiàng)集。這樣就省略了尋找k項(xiàng)集的所有k-1項(xiàng)子集的費(fèi)時(shí)剪枝操作,從而使剪枝步的平均掃描量大為減少。文獻(xiàn)[11]把算法和負(fù)關(guān)聯(lián)規(guī)則理論相結(jié)合,提出了一種基于負(fù)關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘算法。文獻(xiàn)[12]提出的算法只需要一次數(shù)據(jù)庫(kù)掃描。該算法在掃描數(shù)據(jù)庫(kù)并計(jì)算每個(gè)項(xiàng)目的支持度時(shí)不會(huì)產(chǎn)生支持度為0的候選項(xiàng),減少了候選項(xiàng)的數(shù)量。該文獻(xiàn)還提到利用基于聚類的算法通過(guò)壓縮事務(wù)數(shù)據(jù)庫(kù),通過(guò)節(jié)省無(wú)效的數(shù)據(jù)庫(kù)掃描以提高算法的效率。文獻(xiàn)[13]提出了基于用戶的興趣度的預(yù)處理的算法。該算法使用興趣項(xiàng)排除不相關(guān)的項(xiàng)目以減少候選集D,其采用的紡織數(shù)據(jù)庫(kù)包含眾多參數(shù),改進(jìn)的算法只需要其中兩個(gè)參數(shù),同樣減少了數(shù)據(jù)庫(kù)掃描。文獻(xiàn)[14]提出了一種有效的貪婪算法,以在給定的事務(wù)數(shù)據(jù)庫(kù)中生成不相交的頻繁項(xiàng)集的集合。該算法從給定的不相交頻繁項(xiàng)集開(kāi)始,發(fā)現(xiàn)更頻繁的項(xiàng)目集。文獻(xiàn)[15]提出預(yù)判篩選算法,該算法在Apriori算法連接、剪枝的基礎(chǔ)上,添加了預(yù)判篩選的步驟,通過(guò)使用先驗(yàn)概率對(duì)候選頻繁k項(xiàng)集集合進(jìn)行縮減優(yōu)化,并且引入阻尼因子和補(bǔ)償因子對(duì)預(yù)判篩選產(chǎn)生的誤差進(jìn)行修正,以減少掃描數(shù)據(jù)庫(kù)的次數(shù),降低算法的運(yùn)算時(shí)間,提高算法的運(yùn)算效率。文中正是基于該文獻(xiàn)提出的預(yù)判篩選的思想,結(jié)合采樣思想進(jìn)行的改進(jìn)。
假設(shè)D是挖掘的事務(wù)數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)中包含n個(gè)事務(wù),即D={T1,T2,…,Tn}。I為數(shù)據(jù)庫(kù)中全部項(xiàng)目的集合I={I1,I2,…,Im}。對(duì)?Tq∈D,有Tq?I(1≤a≤n)。如果項(xiàng)目集X包含k個(gè)不同的項(xiàng)目,稱X為k項(xiàng)集。如果X?Tq,稱項(xiàng)集出現(xiàn)在事務(wù)Tq中,所有可能的k項(xiàng)集X組成集合Ck。統(tǒng)計(jì)該事件在D中發(fā)生的頻率Px,稱為X在D中的支持度(support),給出一個(gè)D的最小支持度min_support,若Px>min_support,則稱X為頻繁k項(xiàng)集,所有可能的頻繁k項(xiàng)集X組成集合Lk。
對(duì)于給定的事務(wù)數(shù)據(jù)庫(kù)D,給定的最小支持度為min_support。D中客觀存在的頻繁項(xiàng)集集合為L(zhǎng),包含N個(gè)成員;運(yùn)行ARSPS算法所得頻繁項(xiàng)目集集合為L(zhǎng)a。屬于集合La但不屬于集合L的項(xiàng)集數(shù)量記為Nf,屬于集合L但不屬于集合La的項(xiàng)集數(shù)量記為No。文中稱屬于集合La但不屬于集合L的項(xiàng)集為誤判項(xiàng)集,其中誤判率MR=Nf/N,稱屬于集合L但不屬于集合La的項(xiàng)集為遺漏項(xiàng)集,其中遺漏率OR=No/N。
ARSPS算法尋找頻繁項(xiàng)集的過(guò)程如下:
步驟1:對(duì)D進(jìn)行隨機(jī)取樣取其子集Ds,取適當(dāng)?shù)摩?,以(1-Δ2)*min_support對(duì)Ds進(jìn)行Apriori算法運(yùn)算構(gòu)建頻繁項(xiàng)集Ls,與對(duì)應(yīng)的支持度集合sample_support組成一個(gè)篩選用的預(yù)判概率集合PS_set(Ls,sample_support)。
步驟2:掃描事務(wù)數(shù)據(jù)庫(kù)D,對(duì)D中包含項(xiàng)目It的事務(wù)數(shù)Nt進(jìn)行統(tǒng)計(jì),其中It∈I,得到候選1項(xiàng)集C1=I,及其支持度集合support={Nt/|D|,∈[1,m]}。
步驟3:對(duì)于C1中的每一個(gè)候選項(xiàng)Ci,判斷它是否存在于之前的先驗(yàn)概率集合PS_set中,如果不在則把它從C1中刪去,如果有,取適當(dāng)?shù)摩?,如果Ci大于min_support*(1+Δ1)那就把它添加到L1,并且從C1中刪除。最后掃描C1,刪除那些Nt 步驟4:假設(shè)Lk-1已生成,現(xiàn)在可用它來(lái)生成Lk,Lk-1與自身進(jìn)行連接得到候選k項(xiàng)集Ck,k∈{2,3,4…},第1次執(zhí)行時(shí)k=2,每循環(huán)執(zhí)行一次k加1。 連接過(guò)程如下:對(duì)于?x1,x2∈Lk-1,若x1[1]=x2[1],x1[2]=x2[2],x1[k-2]=x2[k-2],…,x1[k-1]=x2[k-1],則將x1,x2連接生成候選項(xiàng)c={x1[1],x1[2],…,x1[k-1],x2[k-1]}。 步驟5:根據(jù)Apriori原理(如果某個(gè)項(xiàng)集是頻繁的,那么它的所有子集也是頻繁的),從候選k項(xiàng)集Ck中刪除所有k-1項(xiàng)子集不完全包含在頻繁k-1項(xiàng)集Lk-1中的項(xiàng)。 步驟6:對(duì)于剪枝后的Ck中的每一個(gè)候選項(xiàng)Ci,判斷它是否存在于之前的先驗(yàn)概率集合PS_set中,如果不存在則把它從Ck中刪去,如果存在且大于min_support*(1+Δ1),那就把它添加到Lk,并且從Ck中刪除。 步驟7:掃描數(shù)據(jù)庫(kù),判斷預(yù)判篩選后的每個(gè)成員是否滿足最小支持度要求,滿足則加入頻繁項(xiàng)集循環(huán)執(zhí)行直至為空,不能發(fā)現(xiàn)更大的頻繁項(xiàng)目集為止。 步驟 8:最終獲得的頻繁項(xiàng)目集集合為L(zhǎng)。 采用Python語(yǔ)言實(shí)現(xiàn)了Apriori和改進(jìn)的A_RSPS算法,并通過(guò)實(shí)驗(yàn)對(duì)兩個(gè)算法進(jìn)行了對(duì)比。數(shù)據(jù)集使用Frequent Item-set Mining Dataset Repository(http://fimi.ua.ac.be/data/)網(wǎng)站提供的IBM Almaden Quest研究組生成的數(shù)據(jù),算法增加的取樣步驟中設(shè)置取事務(wù)數(shù)的一定百分比作為采樣數(shù)據(jù),引入阻尼因子和補(bǔ)償因子兩個(gè)參數(shù),通過(guò)合理設(shè)置阻尼因子1和補(bǔ)償因子2可有效降低誤判率和遺漏率。 首先,設(shè)計(jì)實(shí)驗(yàn)1對(duì)阻尼因子和補(bǔ)償因子的取值進(jìn)行分析,每一組實(shí)驗(yàn)采用控制變量法,相同參數(shù)重復(fù)實(shí)驗(yàn)5次取平均值。表1表示min_support=0.02,阻尼因子Δ1取值從0.05到0.25的過(guò)程中事務(wù)數(shù)分別為5k,10k,25k,50k對(duì)應(yīng)的頻繁項(xiàng)集誤判率。由表可知,當(dāng)同一大小數(shù)據(jù)集Δ1取值變大時(shí)誤判率逐漸減小,當(dāng)Δ1取值確定時(shí)誤判率隨事務(wù)數(shù)增大而減小,尤其當(dāng)事務(wù)數(shù)大于10k后,Δ1大于0.1后發(fā)生誤判的概率已經(jīng)低于1%。 表1 阻尼因子-誤判率 實(shí)驗(yàn)2的數(shù)據(jù)如表2所示,表示min_support=0.02,補(bǔ)償因子Δ2取值從0.05到0.2變化過(guò)程中5k,10k,25k,50k四組事務(wù)數(shù)據(jù)庫(kù)的遺漏率。同實(shí)驗(yàn)1一樣,事務(wù)數(shù)越大,遺漏率越小,Δ2越大,遺漏率越小。尤其在事務(wù)數(shù)較小的情況下,Δ2取較小值則會(huì)造成較大的遺漏率,而數(shù)據(jù)集很大時(shí)則遺漏率小于1%,可以接受。 表2 補(bǔ)償因子-遺漏率 實(shí)驗(yàn)3對(duì)算法運(yùn)行時(shí)間與事務(wù)數(shù)規(guī)模的關(guān)系進(jìn)行了分析,設(shè)置min_support=0.02,在保證誤判率和遺漏率的情況下Apriori和改進(jìn)的A_RSPS算法運(yùn)行時(shí)間如圖1所示。由圖1可見(jiàn),Apriori算法的運(yùn)行時(shí)間隨著事務(wù)數(shù)增大迅速增加,100k事務(wù)數(shù)的數(shù)據(jù)集需要約193 s,而改進(jìn)算法對(duì)于100k事務(wù)數(shù)的數(shù)據(jù)集需要約34 s。可以看出,A_RSPS相對(duì)于Apriori算法來(lái)說(shuō),時(shí)間效率得到了較大提升。 圖1 算法運(yùn)行時(shí)間隨事務(wù)數(shù)的變化 實(shí)驗(yàn)4對(duì)算法運(yùn)行時(shí)間隨最小支持度min_support的變化情況進(jìn)行了分析。對(duì)于10k的數(shù)據(jù)集,在保證誤判率和遺漏率的情況下,分別設(shè)置min_support為0.01,0.02,0.04,0.08,為保證min_support取較小情況下的誤判率不會(huì)過(guò)高,選擇10%取樣,設(shè)置Δ1=0.4,Δ2=0.35,見(jiàn)表3。 表3 最小支持度對(duì)運(yùn)行時(shí)間的影響 實(shí)驗(yàn)5對(duì)算法取樣率對(duì)運(yùn)行時(shí)間、遺漏率和誤判率的影響進(jìn)行分析。設(shè)定min_support=0.02,10k數(shù)據(jù)集,Δ1=0.25,Δ2=0.25,分別取樣5%,10%,15%,20%,25%,在同一參數(shù)下進(jìn)行5次測(cè)試取均值,相應(yīng)的運(yùn)行時(shí)間、遺漏率和誤判率如表4所示。由該表可知,改進(jìn)算法占原始算法時(shí)間比隨著取樣率的增加而增加,15%取樣率時(shí)約需要消耗44%原始Apriori算法所需的時(shí)間,同時(shí),遺漏率和誤判率相應(yīng)減少,在30%取樣率時(shí)已經(jīng)幾乎不出現(xiàn)遺漏和誤判了,而取10%以下取樣率時(shí)遺漏率和誤判率會(huì)明顯增大,不宜采用。 表4 算法取樣率對(duì)運(yùn)行時(shí)間、遺漏率和誤判率的影響 文中提出一種基于預(yù)判篩選和采樣思想的關(guān)聯(lián)規(guī)則挖掘算法A_RSPS。該算法在對(duì)數(shù)據(jù)集處理之前取樣部分?jǐn)?shù)據(jù)進(jìn)行經(jīng)典Apriori算法計(jì)算得出樣本數(shù)據(jù)的支持度,在原始算法連接、剪枝的基礎(chǔ)上,增加了預(yù)判篩選的步驟,通過(guò)使用樣本計(jì)算得到的支持度對(duì)候選頻繁k項(xiàng)集集合進(jìn)行縮減優(yōu)化,從而減少關(guān)聯(lián)規(guī)則挖掘過(guò)程中掃描數(shù)據(jù)庫(kù)的次數(shù)。此外,算法引入阻尼因子和補(bǔ)償因子對(duì)預(yù)判篩選引起的誤判率和遺漏率進(jìn)行控制。經(jīng)實(shí)驗(yàn)驗(yàn)證,A_RSPS算法在保證誤判率和遺漏率的前提下降低了算法的運(yùn)算時(shí)間,提高了算法的運(yùn)算效率。 參考文獻(xiàn): [1] 王光宏,蔣 平.數(shù)據(jù)挖掘綜述[J].同濟(jì)大學(xué)學(xué)報(bào):自然科學(xué)版,2004,32(2):246-252. [2] 畢建欣,張岐山.關(guān)聯(lián)規(guī)則挖掘算法綜述[J].中國(guó)工程科學(xué),2005,7(4):88-94. [3] 阮利男.大數(shù)據(jù)時(shí)代精準(zhǔn)營(yíng)銷在京東的應(yīng)用研究[D].成都:電子科技大學(xué),2016. [4] 黃新霆,包小源,俞國(guó)培,等.醫(yī)療大數(shù)據(jù)驅(qū)動(dòng)的個(gè)性化醫(yī)療服務(wù)引擎研究[J].中國(guó)數(shù)字醫(yī)學(xué),2014,9(8):5-7. [5] 岳彥杰.基于規(guī)則的網(wǎng)絡(luò)數(shù)據(jù)關(guān)聯(lián)分析器的優(yōu)化設(shè)計(jì)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2008. [6] AGRAWAL R,SRIKANT R.Fast algorithms for mining association rules[C]//Proceedings of the 20th international conference on very large data bases.[s.l.]:[s.n.],1994:487-499. [7] 馬盈倉(cāng).挖掘關(guān)聯(lián)規(guī)則中Apriori算法的改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2004,21(11):82-84. [8] 陳文慶,許 棠.關(guān)聯(lián)規(guī)則挖掘Apriori算法的改進(jìn)與實(shí)現(xiàn)[J].微機(jī)發(fā)展(現(xiàn)名:計(jì)算機(jī)技術(shù)與發(fā)展),2005,15(8):155-157. [9] 劉華婷,郭仁祥,姜 浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究與改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2009,26(1):146-149. [10] 胡吉明,鮮學(xué)豐.挖掘關(guān)聯(lián)規(guī)則中Apriori算法的研究與改進(jìn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006,16(4):99-101. [11] 張 璽.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究與改進(jìn)[D].北京:北京郵電大學(xué),2014. [12] RAJESWARI K.Improved Apriori algorithm-a comparative study using different objective measures[J].International Journal of Computer Science and Information Technologies,2015,6(3):3185-3191. [13] INGLE M G,SURYAVANSHI N Y.Association rule mining using improved Apriori algorithm[J].International Journal of Computer Applications,2015,112(4):37-41. [14] PALSHIKAR G K,KALE M S,APTE M M.Association rules mining using heavy itemset[C]//Proceedings of data & knowledge engineering.[s.l.]:[s.n.],2007. [15] 趙學(xué)健,孫知信,袁 源.基于預(yù)判篩選的高效關(guān)聯(lián)規(guī)則挖掘算法[J].電子與信息學(xué)報(bào),2016,38(7):1654-1659.3 實(shí)驗(yàn)分析
4 結(jié)束語(yǔ)