林甲祥,巫建偉,陳崇成,張澤均,舒兆港
(1.福建農(nóng)林大學(xué) 計(jì)算機(jī)與信息學(xué)院,福建 福州 350002;2.國家海洋局第三海洋研究所海洋環(huán)境管理與發(fā)展戰(zhàn)略研究中心,福建 廈門 361001;3.福州大學(xué) 空間數(shù)據(jù)挖掘與信息共享教育部重點(diǎn)實(shí)驗(yàn)室,福建 福州 350116)
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘一個(gè)重要研究主題,在購物籃分析、醫(yī)療診斷、股票存貨分析、Web日志挖掘、客戶市場(chǎng)分析、生物信息資訊等領(lǐng)域有著廣泛的應(yīng)用[1]。文獻(xiàn)中提出的大多數(shù)關(guān)聯(lián)規(guī)則挖掘方法采用兩步驟的策略,首先從數(shù)據(jù)集中尋找所有頻繁項(xiàng)集,然后由這些頻繁項(xiàng)集生成強(qiáng)關(guān)聯(lián)規(guī)則,算法的原理簡單且易于實(shí)現(xiàn),其中第一步頻繁項(xiàng)集的生成是算法的關(guān)鍵,典型算法如Apriori、FP-tree等[2]。
以頻繁項(xiàng)集搜索為核心的關(guān)聯(lián)規(guī)則挖掘算法,在支持度的約束下進(jìn)行頻繁項(xiàng)集搜索,在置信度的約束下進(jìn)行強(qiáng)關(guān)聯(lián)規(guī)則確認(rèn)。目前,許多關(guān)聯(lián)規(guī)則挖掘?qū)嵺`中,最小支持度(minsup)和最小置信度(minconf)參數(shù)的取值方法仍是由用戶根據(jù)先驗(yàn)知識(shí)進(jìn)行人為的指定,一方面,非專業(yè)關(guān)聯(lián)規(guī)則算法用戶,對(duì)算法參數(shù)的取值一般具有較大的主觀隨意性、往往很少考慮參數(shù)取值的科學(xué)性;另一方面,挖掘模型中支持度和置信度閾值的不同取值,對(duì)挖掘過程中頻繁項(xiàng)集的大小、自連接產(chǎn)生候選項(xiàng)集的規(guī)模、挖掘結(jié)果中關(guān)聯(lián)規(guī)則的數(shù)目有著顯著的影響。從算法設(shè)計(jì)的角度實(shí)現(xiàn)關(guān)聯(lián)規(guī)則支持度和置信度參數(shù)的科學(xué)化和自適應(yīng)化取值,文獻(xiàn)中還鮮有相關(guān)的研究成果報(bào)道。因此,擬在分析事務(wù)數(shù)據(jù)集中所有項(xiàng)的支持?jǐn)?shù)和所有規(guī)則的置信度的基礎(chǔ)上,使用統(tǒng)計(jì)擬合技術(shù),對(duì)支持度和置信度閾值的自動(dòng)化確定技術(shù)進(jìn)行研究,提出基于支持度和置信度自適應(yīng)技術(shù)的無參化關(guān)聯(lián)規(guī)則挖掘解決方案,以期降低關(guān)聯(lián)規(guī)則挖掘行業(yè)化應(yīng)用的門檻。
近年來,研究人員在提高關(guān)聯(lián)規(guī)則計(jì)算效率、尋找更緊致數(shù)據(jù)結(jié)構(gòu)、處理的數(shù)據(jù)類型擴(kuò)展等方面做了大量的研究。典型工作如:增量式關(guān)聯(lián)規(guī)則挖掘方面,Nath等[3]對(duì)增量式關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行了綜述?;谔囟〝?shù)據(jù)結(jié)構(gòu)的關(guān)聯(lián)規(guī)則挖掘方面,Vo等[4]對(duì)基于N-list和包含概念的頻繁項(xiàng)集挖掘PrePost算法進(jìn)行研究,在N-lists創(chuàng)建和交互中融合了Hash技術(shù),對(duì)算法進(jìn)行了改進(jìn)。此后,Huong等[5]對(duì)基于N-list和考慮權(quán)重的頻繁項(xiàng)集挖掘算法進(jìn)行了研究。Maria Luna等[6]提出了一種稱為倒排索引壓縮(inverted index compression)的數(shù)據(jù)結(jié)構(gòu),能夠用于很多現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘算法,用于提高算法的效率。Anand等[7]為提高關(guān)聯(lián)規(guī)則挖掘的效率,提出了基于橫二叉樹(Treap)數(shù)據(jù)結(jié)構(gòu)的關(guān)聯(lián)規(guī)則挖掘算法。牛新征等[8]提出了一種基于FP-tree的快速關(guān)聯(lián)規(guī)則隱藏算法,避免了遍歷原始數(shù)據(jù)集產(chǎn)生的大量I/O時(shí)間,減少了關(guān)聯(lián)規(guī)則隱藏處理對(duì)原始數(shù)據(jù)集的影響。分布式&并行關(guān)聯(lián)規(guī)則挖掘方面,Wang等[9]使用微處理器技術(shù)對(duì)關(guān)聯(lián)規(guī)則的并行化和效率提升進(jìn)行了研究。Vu等[10]針對(duì)頻繁模式搜索,開展了多核共享存儲(chǔ)器的并行關(guān)聯(lián)規(guī)則挖掘研究。Liu等[11]面向大數(shù)據(jù),提出了一套基于MapReduce和最大頻繁項(xiàng)集的啟發(fā)式多流程關(guān)聯(lián)挖掘解決方案?;谥悄芗夹g(shù)的關(guān)聯(lián)規(guī)則挖掘方面,Sohrabi等[12]對(duì)基于元胞自動(dòng)機(jī)的頻繁模式挖掘進(jìn)行了研究,并與Apriori、FP-Growth、BitTable等知名算法的效率進(jìn)行了對(duì)比分析。Zou等[13]提出了一種基于模糊概念格的關(guān)聯(lián)規(guī)則挖掘及其動(dòng)態(tài)更新算法。Heraguemi等[14]將使用多重合作策略的蜂窩算法用于關(guān)聯(lián)規(guī)則挖掘?;陉P(guān)聯(lián)規(guī)則的應(yīng)用研究方面,Tseng等[15]對(duì)事務(wù)數(shù)據(jù)庫中高效用項(xiàng)集的關(guān)聯(lián)規(guī)則挖掘進(jìn)行研究,提出了效用模式增長算法UP-Growth及其改進(jìn)算法UP-Growth(+)。Leu-ng等[16]針對(duì)大數(shù)據(jù)環(huán)境下的Web頁面推薦,提出了一套按位(bitwise)并行關(guān)聯(lián)規(guī)則挖掘方法。何明等[17]為了提高個(gè)性化推薦效率和推薦質(zhì)量,平衡冷門與熱門數(shù)據(jù)推薦權(quán)重,提出了優(yōu)化Apriori算法且適合不同測(cè)評(píng)標(biāo)準(zhǔn)值的k前項(xiàng)頻繁項(xiàng)集挖掘算法。
在關(guān)聯(lián)規(guī)則算法參數(shù)取值研究方面,Sarath等[18]使用二進(jìn)制粒子群優(yōu)化策略,對(duì)關(guān)聯(lián)規(guī)則挖掘進(jìn)行研究,無須指定最小支持度和最小置信度參數(shù),只需指定要獲得的規(guī)則的數(shù)目。雖然,一些基于智能技術(shù)的關(guān)聯(lián)規(guī)則挖掘,通過問題解空間的全域搜索,無須設(shè)置最小支持度和最小置信度參數(shù)的值,即可獲得支持度最高、置信度最高的若干強(qiáng)關(guān)聯(lián)規(guī)則,但需要很大的計(jì)算量。對(duì)于關(guān)聯(lián)規(guī)則挖掘算法參數(shù)的自適應(yīng)取值研究,文獻(xiàn)中未見相關(guān)成果報(bào)道。
令交易事務(wù)數(shù)據(jù)庫中所有商品種類的集合為I=i1,i2,…,im,其中m為自然數(shù),表示數(shù)據(jù)集中不同商品的數(shù)目。D為規(guī)模為N的事務(wù)集,即數(shù)據(jù)庫中交易記錄的集合,N為交易的數(shù)量(記錄數(shù)),其中每一個(gè)事務(wù)t是一個(gè)項(xiàng)集,表示為t=t1,t2,…,tn,ti∈I,n為自然數(shù),n≤m,表示事務(wù)t中商品的數(shù)目(項(xiàng)數(shù)),即t?I。對(duì)于項(xiàng)集X,若X中含有的項(xiàng)數(shù)為k,則稱X為k-項(xiàng)集;若X?t,則稱事務(wù)t包含I的一個(gè)子集X。
事務(wù)集D中的關(guān)聯(lián)規(guī)則是一種由支持度(support)和置信度(confidence)約束的蘊(yùn)含式X?Y,其中X?I,Y?I且X∩Y=?,支持度表示規(guī)則的頻度,置信度表示規(guī)則的強(qiáng)度。
(1)
在事務(wù)集D中,項(xiàng)集X的支持?jǐn)?shù)是D中包含X的交易數(shù),記為support_count(X),如式(2)所示,support_count(X)∈{0,1,…,N},即X的支持?jǐn)?shù)是不大于交易記錄數(shù)N的一個(gè)自然數(shù)
(2)
在事務(wù)集D中,規(guī)則X?Y的置信度是D中同時(shí)包含X和Y的交易數(shù)與包含X的交易數(shù)之比,記為confidence(X?Y),如式(3)所示,confidence(X?Y)∈[0,1]
(3)
現(xiàn)有大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法采用兩階段頻集思想,首先獲得事務(wù)集D的所有頻繁項(xiàng)集,然而基于頻繁項(xiàng)集進(jìn)行關(guān)聯(lián)規(guī)則生成,挖掘的一般流程包括圖1所示的4個(gè)核心步驟。
圖1 基于頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則挖掘的一般流程
圖1中,步驟1指定參數(shù)minsup和minconf的值是關(guān)聯(lián)規(guī)則挖掘的前提;步驟2在事務(wù)集中尋找所有k階頻繁項(xiàng)集是關(guān)聯(lián)規(guī)則挖掘的核心計(jì)算花銷所在,往往需要對(duì)事務(wù)數(shù)據(jù)集進(jìn)行多趟掃描;在步驟2得到所有k階頻繁項(xiàng)集后,步驟3和步驟4則較為容易。
支持度和置信度自適應(yīng)關(guān)聯(lián)規(guī)則挖掘算法AdapARM(adaptive association rule mining)的基本思想是:以事務(wù)集D中所有項(xiàng)的支持?jǐn)?shù)和頻繁項(xiàng)集能產(chǎn)生的所有規(guī)則的置信度數(shù)據(jù)為依據(jù),用數(shù)據(jù)說話、由數(shù)據(jù)決定支持度和置信度參數(shù)的取值,在支持?jǐn)?shù)和置信度數(shù)據(jù)從大到小有序排列的基礎(chǔ)上,通過遞減序列不低于3次的多項(xiàng)式曲線擬合,尋找擬合曲線切線斜率變化速度(二階導(dǎo)數(shù))首次為0、即擬合曲線凹凸轉(zhuǎn)換的拐點(diǎn)位置,作為最小支持?jǐn)?shù)mincount和最小置信度minconf的取值。
由于支持?jǐn)?shù)和置信度序列的單調(diào)遞減性和多項(xiàng)式擬合曲線的連續(xù)性,二階導(dǎo)數(shù)為0的地方是曲線變化由緩到急或由急到緩的轉(zhuǎn)折點(diǎn),將二階導(dǎo)數(shù)首次為0的地方選取為支持?jǐn)?shù)和置信度參數(shù)的閾值,具有較為科學(xué)的統(tǒng)計(jì)和數(shù)理分析依據(jù)。至于多項(xiàng)式擬合曲線的次數(shù),由于2次多項(xiàng)式無法較好擬合支持?jǐn)?shù)和置信度序列的單調(diào)遞減性,而1次多項(xiàng)式退化為直線,也無法用于確定參數(shù)的科學(xué)取值,因此使用不低于3階的多項(xiàng)式進(jìn)行曲線擬合,從技術(shù)上確保了二階導(dǎo)函數(shù)及其支持?jǐn)?shù)和置信度參數(shù)取值的存在性。
總之,算法通過數(shù)學(xué)的方法,使用擬合支持?jǐn)?shù)和置信度序列的曲線及其二階導(dǎo)函數(shù),確定數(shù)理意義上最適合的數(shù)值作為關(guān)聯(lián)規(guī)則挖掘的mincount和minconf閾值,能夠有效解決關(guān)聯(lián)規(guī)則挖掘算法對(duì)先驗(yàn)知識(shí)的依賴問題。
傳統(tǒng)關(guān)聯(lián)規(guī)則挖掘通常要求算法用戶根據(jù)先驗(yàn)知識(shí)事先指定最小支持度和最小置信度參數(shù)的值,而提出的算法AdapARM讓數(shù)據(jù)說話、根據(jù)數(shù)據(jù)集自身的特性,自適應(yīng)地確定最小支持?jǐn)?shù)和最小置信度的值。AdapARM的核心步驟如圖2所示,其中步驟2和步驟5:最小支持?jǐn)?shù)和最小置信度的自動(dòng)確定,是核心研究內(nèi)容。
圖2 支持度和置信度自適應(yīng)的關(guān)聯(lián)規(guī)則挖掘的核心步驟
首先,將事務(wù)集D中各商品(項(xiàng))的支持?jǐn)?shù)或某個(gè)規(guī)則的置信度,按從大到小的順序進(jìn)行排序,建立“序-值”對(duì)序列(xp,yp)p=1,2,…,t(如圖3所示),其中序號(hào)值xp=p,序列值yp隨著序號(hào)值xp的遞增而遞減,即當(dāng)xp 圖3 面向項(xiàng)支持?jǐn)?shù)和規(guī)則置信度的“序-值”對(duì) 對(duì)于支持度,yx為某個(gè)項(xiàng)ix在事務(wù)D中支持?jǐn)?shù)(即yx=support_count(ix)),“序-值”對(duì)的數(shù)目t為事務(wù)數(shù)據(jù)集D中商品(項(xiàng))的數(shù)目,即t=m。 對(duì)于置信度,yx為頻繁項(xiàng)集生成的某個(gè)規(guī)則的置信度(即yx=confidence(X?Y)),“序-值”對(duì)的數(shù)目t為所有k階頻繁項(xiàng)集能夠產(chǎn)生的關(guān)聯(lián)規(guī)則的數(shù)目。 然后,基于“序-值”對(duì)數(shù)據(jù),以序號(hào)值為x、序列值為y,建立有序的平面坐標(biāo)(xv,yv)點(diǎn)序列(v=1,2,…,t),并采用多項(xiàng)式進(jìn)行曲線擬合。擬合的多項(xiàng)式曲線如式(4)所示 (4) 緊接著,求取以獲得擬合曲線的二階導(dǎo)函數(shù)f″(x),如式(5)所示 (5) 從mincount和minconf的取值方法可見,其數(shù)值取決于所擬合的曲線f(x),而f(x)主要由有序支持?jǐn)?shù)或置信度構(gòu)造而來的平面點(diǎn)序列(xv,yv)所刻畫。因此,可以說按提出方法自動(dòng)獲得的mincount和minconf的取值,與事務(wù)集D中項(xiàng)的支持?jǐn)?shù)與產(chǎn)生的規(guī)則的置信度的分布情況密切相關(guān),能夠自適應(yīng)地貼合數(shù)據(jù)集自身的特性。 支持度和置信度自適應(yīng)的關(guān)聯(lián)規(guī)則挖掘算法AdapARM的偽代碼如下: (1)C1= find_candidate_1-itemsets(D); //get all items’s support count (4)findminix0,wheref″(x0)=0; //compute second derivative and get the minimal resolution (6){L1,L2, …,Lk}=find_all_frequent_k-itemsets(D,mincount); //accordingmincount (7){R1,R2, …,Rt}=generateRule_from_frequent_k-itemsets({L1,L2, …,Lk}); //generate rules (8)R′=sort_InDescOrder({R1,R2, …,Rt}); //sort rules in descending order according the rule confidence (9)y=h(x)=polynomial_curve_fitting(R′); //(x=order id,y=rule confidence) (10)findminix0,whereh″(x0)=0; //compute second derivative and get the minimal resolution (11)minconf=h(x0); //minconfis defined as the valueh(x0) (12){SR1,SR2, …,SRr}=find_strong_rules({R1,R2, …,Rt},minconf); //find strong rules withminconf 首先,掃描一次數(shù)據(jù)庫,產(chǎn)生候選1項(xiàng)集C1; 緊接著,根據(jù)最小支持?jǐn)?shù)閾值mincount,尋找所有k階頻繁項(xiàng)集。 再接著,通過所有k階頻繁項(xiàng)集,生成關(guān)聯(lián)規(guī)則,并根據(jù)規(guī)則置信度值從大到小的方式對(duì)規(guī)則進(jìn)行降序排列,對(duì)序號(hào)與規(guī)則置信度值進(jìn)行多項(xiàng)式曲線擬合,尋找二階導(dǎo)數(shù)為0的點(diǎn)x0,并將x0對(duì)應(yīng)的擬合曲線函數(shù)值h(x0)作為最小置信度閾值minconf。 最后,依據(jù)最小置信度閾值minconf,篩選并獲得所有強(qiáng)關(guān)聯(lián)規(guī)則。 本節(jié)使用關(guān)聯(lián)規(guī)則挖掘購物車Trolley數(shù)據(jù)集和開源軟件R GUI里的Groceries數(shù)據(jù)集,對(duì)無須用戶指定支持度和置信度參數(shù)的AdapARM算法的挖掘流程進(jìn)行介紹,并對(duì)挖掘結(jié)果進(jìn)行分析與討論,從而驗(yàn)證提出算法在自動(dòng)確定參數(shù)上的有效性和實(shí)用性。 Trolley數(shù)據(jù)集是很多數(shù)據(jù)挖掘教材中用于講解Apriori和FP_Growth算法的某面包店仿真交易記錄,總共有7個(gè)不同商品,有9條消費(fèi)記錄(即9行),如表1第2列所示。 Groceries數(shù)據(jù)集記錄了某個(gè)雜貨店一個(gè)月的真實(shí)交易記錄,總共有169個(gè)不同商品,有9835條消費(fèi)記錄(即9835行),如表1第3列所示(僅列舉前9條事務(wù)記錄)。 步驟1 計(jì)算各數(shù)據(jù)項(xiàng)的支持?jǐn)?shù) 遍歷數(shù)據(jù)集,獲得每個(gè)事務(wù)項(xiàng)的支持?jǐn)?shù),即獲得候選1項(xiàng)集C1中各項(xiàng)的支持?jǐn)?shù),并按支持?jǐn)?shù)從大到小對(duì)項(xiàng)進(jìn)行排序,見表2(僅列舉支持?jǐn)?shù)最大的前7個(gè)項(xiàng))。 表1 Trolley數(shù)據(jù)集和Groceries數(shù)據(jù)集 表2 數(shù)據(jù)集Trolley和Groceries中C1各項(xiàng)的支持?jǐn)?shù)和排序號(hào)信息 步驟2 根據(jù)支持?jǐn)?shù)從大到小排序數(shù)據(jù)項(xiàng)并進(jìn)行曲線擬合 將Trolley數(shù)據(jù)集和Groceries數(shù)據(jù)集中各數(shù)據(jù)項(xiàng)的支持?jǐn)?shù),按從大到小的方式進(jìn)行排序并使用3次多項(xiàng)式對(duì)數(shù)據(jù)進(jìn)行曲線擬合,支持?jǐn)?shù)與序值對(duì)應(yīng)關(guān)系及其擬合曲線如圖4所示。 Trolley數(shù)據(jù)項(xiàng)的支持?jǐn)?shù)擬合曲線如式(6)所示 fT(x)=4.2857142857+3.5595238095·x- (6) Groceries數(shù)據(jù)項(xiàng)的支持?jǐn)?shù)擬合曲線如式(7)所示 fG(x)=1486.065650975-42.7627470864·x+ (7) 步驟3 根據(jù)擬合曲線的二階導(dǎo)函數(shù)求取最小支持?jǐn)?shù) (8) (9) 步驟4 根據(jù)最小支持?jǐn)?shù)獲得所有k階頻繁項(xiàng)集 根據(jù)獲得的最小支持?jǐn)?shù)(Trolley數(shù)據(jù)集為4、Groce-ries數(shù)據(jù)集為107),按照經(jīng)典Apriori算法的思想,從一階頻繁項(xiàng)開始逐階向上,獲得數(shù)據(jù)集對(duì)應(yīng)的所有k階頻繁項(xiàng)集。 Trolley數(shù)據(jù)集和Groceries數(shù)據(jù)集的所有k階頻繁項(xiàng)集 如表3所示,其中NULL表示“空”。 步驟5 根據(jù)頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則 根據(jù)獲得的所有k階頻繁項(xiàng)集(見表3),為Trolley數(shù)據(jù)集和Groceries數(shù)據(jù)集產(chǎn)生關(guān)聯(lián)規(guī)則,見表4。 步驟6 根據(jù)置信度從大到小排序頻繁項(xiàng)集產(chǎn)生的規(guī)則 表3 Trolley數(shù)據(jù)集和Groceries數(shù)據(jù)集的所有頻繁項(xiàng)集 表4 Trolley數(shù)據(jù)集和Groceries數(shù)據(jù)集頻繁項(xiàng)集產(chǎn)生的關(guān)聯(lián)規(guī)則 并進(jìn)行曲線擬合 根據(jù)Trolley數(shù)據(jù)集和Groceries數(shù)據(jù)集頻繁項(xiàng)集產(chǎn)生的關(guān)聯(lián)規(guī)則的置信度,按從大到小的方式進(jìn)行排序并使用3次多項(xiàng)式對(duì)數(shù)據(jù)進(jìn)行曲線擬合,置信度與序值對(duì)應(yīng)關(guān)系及其擬合曲線如圖5所示。 Trolley數(shù)據(jù)集產(chǎn)生的規(guī)則的置信度擬合曲線如式(10)所示 hT(x)=0.9357665007-0.0199431001·x+ (10) 圖5 從大到小有序的規(guī)則置信度及其擬合曲線 Groceries數(shù)據(jù)集產(chǎn)生的規(guī)則的置信度擬合曲線如式(11)所示 hG(x)=0.5230242099-0.0027245952246·x+ (11) 步驟7 根據(jù)擬合曲線的二階導(dǎo)函數(shù)求取最小置信度 (12) (13) 步驟8 根據(jù)置信度閾值判斷并獲得強(qiáng)關(guān)聯(lián)規(guī)則 根據(jù)設(shè)定的置信度閾值(Trolley數(shù)據(jù)集為0.6126373314、Groceries數(shù)據(jù)集為0.1158444298),獲得Trolley數(shù)據(jù)集和Groceries數(shù)據(jù)集對(duì)應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則,見表5。 表5 Trolley數(shù)據(jù)集和Groceries數(shù)據(jù)集中的強(qiáng)關(guān)聯(lián)規(guī)則 從上述數(shù)據(jù)挖掘流程可見,與傳統(tǒng)算法需要用戶預(yù)先指定最小支持度minsup和最小置信度minconf的具體數(shù)值不同,譬如最小支持度取值為50%、最小置信度取值為80%,提出的AdapARM算法不需要用戶指定任何算法參數(shù)值,算法將根據(jù)不同的數(shù)據(jù)集,自動(dòng)確定mincount和minconf的值。對(duì)Trolley數(shù)據(jù)集,自動(dòng)確定的mincount值為4,minconf值為61.26373314%;對(duì)Groceries數(shù)據(jù)集,自動(dòng)確定的mincount值為107,minconf值為11.58444298%。可見,AdapARM算法能夠在用戶不具備先驗(yàn)知識(shí)的前提下,自動(dòng)確定參數(shù)minsup和minconf的值,且參數(shù)值與具體的數(shù)據(jù)集相適應(yīng),而不需要由用戶進(jìn)行算法參數(shù)值的人為指定,從而為關(guān)聯(lián)規(guī)則挖掘任務(wù)的無參化運(yùn)行提供了一種統(tǒng)計(jì)學(xué)意義上具有較高可信性的解決方案。 盡管如此,提出的方案經(jīng)過進(jìn)一步處理,仍能為實(shí)際關(guān)聯(lián)規(guī)則挖掘任務(wù)的參數(shù)確定提供一定的借鑒。有效的閾值二次確定技術(shù)如:在最高支持?jǐn)?shù)(或置信度)和自適應(yīng)支持?jǐn)?shù)(或置信度)之間,采用第一四分位數(shù)(Q1)、第二四分位數(shù)(Q2)、第三四分位數(shù)(Q3)作為最終選定的支持?jǐn)?shù)(或置信度)的值。 總之,算法在確定支持度和置信度閾值時(shí),通過計(jì)算所有數(shù)據(jù)項(xiàng)的支持?jǐn)?shù)和所有規(guī)則的置信度,經(jīng)從大到小排序后進(jìn)行多項(xiàng)式曲線擬合,用數(shù)據(jù)說話、憑數(shù)據(jù)進(jìn)行算法參數(shù)決策,使得算法在實(shí)際行業(yè)應(yīng)用中走向科學(xué),對(duì)于算法的推廣應(yīng)用乃至普及具有重要的實(shí)踐意義。 本文提出了一個(gè)支持度和置信度自適應(yīng)的關(guān)聯(lián)規(guī)則挖掘算法AdapARM,能夠在用戶不具備先驗(yàn)知識(shí)、不指定支持度和置信度閾值的情況下,通過數(shù)據(jù)集自身的數(shù)據(jù)特征自適應(yīng)地確定關(guān)聯(lián)規(guī)則挖掘的支持?jǐn)?shù)和置信度。支持度和置信度參數(shù)的自適應(yīng)確定策略:是在數(shù)據(jù)集所有項(xiàng)的支持?jǐn)?shù)、所有規(guī)則的置信度的有序序列的多項(xiàng)式曲線擬合的基礎(chǔ)上,通過求取擬合曲線二階導(dǎo)函數(shù)為零的點(diǎn)x0及其函數(shù)值f(x0),作為支持?jǐn)?shù)和置信度閾值,進(jìn)而挖掘統(tǒng)計(jì)意義上支持度和置信度較高的強(qiáng)關(guān)聯(lián)規(guī)則。在關(guān)聯(lián)規(guī)則挖掘標(biāo)準(zhǔn)數(shù)據(jù)集Trolley和標(biāo)準(zhǔn)數(shù)據(jù)集Groceries上的實(shí)驗(yàn)結(jié)果及分析表明,提出的方法對(duì)于關(guān)聯(lián)規(guī)則挖掘算法的實(shí)施和推廣具有一定的實(shí)際應(yīng)用價(jià)值。3.4 AdapARM算法實(shí)現(xiàn)
4 實(shí)驗(yàn)及分析
4.1 數(shù)據(jù)集說明
4.2 挖掘流程
1.1428571429·x2+0.0833333333·x3
0.4135366641·x2-0.001283055089·x3
4.0050650021E-4·x2-5.6182859607E-6·x3
6.7022637026E-6·x2-6.426271112E-9·x34.3 結(jié)果分析與討論
5 結(jié)束語