李毅
摘要:綜合來(lái)說(shuō),基于對(duì)關(guān)聯(lián)規(guī)則的約束一般可以由成績(jī)數(shù)值信息數(shù)據(jù)生成。同時(shí)成績(jī)數(shù)據(jù)還可以和與之相關(guān)聯(lián)的數(shù)據(jù)共同構(gòu)成一條完善的成績(jī)記錄。鑒于此,本文主要分析如何借助模糊數(shù)值約束對(duì)相關(guān)的關(guān)聯(lián)規(guī)則進(jìn)行約束 ,并結(jié)合一些實(shí)際案例對(duì)其約束方法的實(shí)效性進(jìn)行分析。
關(guān)鍵詞:關(guān)聯(lián)規(guī)則;模糊數(shù)值約束;成績(jī)數(shù)據(jù)庫(kù)
中圖分類號(hào):TP315 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)28-0051-03
1引言
為了對(duì)我校內(nèi)部的成人教育管理系統(tǒng)記錄的理念成績(jī)數(shù)據(jù)進(jìn)行分析,并結(jié)合成績(jī)分析如何從諸多的歷史成績(jī)數(shù)據(jù)中挑選出一些比較具有針對(duì)性的數(shù)據(jù)來(lái)指導(dǎo)教學(xué)活動(dòng)。下表是從校園歷年成績(jī)中選取出的一部分樣本實(shí)例:
為了更好地對(duì)數(shù)據(jù)信息進(jìn)行挖掘和分析,可以借助信息數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則找到數(shù)據(jù)庫(kù)中各類數(shù)據(jù)之間的相關(guān)性。
為了更好地對(duì)數(shù)據(jù)之間的相關(guān)性進(jìn)行分析,技術(shù)人員可以按照課程類別對(duì)事物數(shù)據(jù)庫(kù)進(jìn)行分類,然后根據(jù)分類過(guò)程中各個(gè)項(xiàng)目之間存在的關(guān)聯(lián)規(guī)則進(jìn)來(lái)有效挖掘問(wèn)題。但是需要注意的是,如果使用傳統(tǒng)的數(shù)據(jù)管理挖掘方法進(jìn)行數(shù)據(jù)挖掘和分析時(shí),所選用事物數(shù)據(jù)庫(kù)內(nèi)部不得擁有過(guò)多的數(shù)值型項(xiàng)目。舉例來(lái)說(shuō),針對(duì)我校成人成績(jī)進(jìn)行關(guān)聯(lián)規(guī)則挖掘時(shí),其相關(guān)的規(guī)則為:高等數(shù)學(xué)成績(jī)較好、計(jì)算機(jī)基礎(chǔ)成績(jī)較好。其中,可以將成績(jī)好作為關(guān)聯(lián)規(guī)則進(jìn)行約束。在針對(duì)傳統(tǒng)的關(guān)聯(lián)規(guī)則進(jìn)行約束評(píng)價(jià)的過(guò)程中,往往采用“支持度-置信度”這類評(píng)價(jià)方法,但是這類評(píng)價(jià)方法不能從根本上反映出模糊約束數(shù)值的條件。鑒于此,在此基礎(chǔ)上,很多學(xué)者圍繞受約束的關(guān)聯(lián)規(guī)則進(jìn)行了研究和分析。學(xué)者R.T.N提出了受約束的關(guān)聯(lián)查詢概念。而學(xué)者R.Srikant則對(duì)受約束的項(xiàng)集約束進(jìn)行了分析,經(jīng)過(guò)分析后得出約束的項(xiàng)集中包含布爾表達(dá)式的頻繁項(xiàng)集。學(xué)者Robert J.BayardoJr還就稠密數(shù)據(jù)庫(kù)的特征進(jìn)行了分析和研究,并在此基礎(chǔ)上提出了改進(jìn)度的相關(guān)概念。
鑒于此,本文通過(guò)模糊關(guān)聯(lián)規(guī)則、模糊查詢以及語(yǔ)言量詞等技術(shù),對(duì)模糊數(shù)值約束的關(guān)聯(lián)規(guī)則挖掘問(wèn)題進(jìn)行了分析,并結(jié)合成人考試數(shù)據(jù)庫(kù)的現(xiàn)實(shí)案例對(duì)挖掘結(jié)果進(jìn)行了分析。
2 模糊關(guān)聯(lián)規(guī)則
定義1 ?何為模糊關(guān)聯(lián)規(guī)則, 即在一個(gè)項(xiàng)目被限定的模糊數(shù)中,擁有很多包含關(guān)聯(lián)規(guī)則的前后項(xiàng)。一般情況下,評(píng)判模糊關(guān)聯(lián)規(guī)則的三個(gè)重要參數(shù)分別為:①支持度S;②置信度C;③真度。其數(shù)學(xué)表達(dá)式如下:
在公式中,[X、Y]分別代表去除調(diào)規(guī)則中模糊約束的前、后項(xiàng)項(xiàng)集,其中[T]表示事務(wù)記錄,[D]用來(lái)表示數(shù)據(jù)庫(kù);[Q]則表示[Zadeh] 語(yǔ)言量詞,[P]代表模糊概率。結(jié)合定義1可以推導(dǎo)出相應(yīng)的模糊關(guān)聯(lián)規(guī)則——高等數(shù)學(xué)的成績(jī)優(yōu)異;多數(shù)學(xué)生的計(jì)算機(jī)成績(jī)優(yōu)異。
同時(shí),為了更好地確定相應(yīng)的模糊關(guān)聯(lián)規(guī)則,可進(jìn)行如下假設(shè):可以將該模糊關(guān)聯(lián)規(guī)則的支持度S設(shè)置為1,置信度設(shè)置1,此時(shí)的真度數(shù)值為0.8。由此可以得出以下結(jié)論:在一般情況下,高等數(shù)學(xué)成績(jī)較為優(yōu)異的學(xué)生其計(jì)算機(jī)基礎(chǔ)成績(jī)也較為優(yōu)異。其中的“成績(jī)優(yōu)異”分別是指高等數(shù)學(xué)成績(jī)和計(jì)算機(jī)數(shù)學(xué)成績(jī)這兩個(gè)模糊數(shù),而支持度和置信度可以用以表示集合項(xiàng)中的學(xué)生都學(xué)習(xí)過(guò)高等數(shù)學(xué)和計(jì)算機(jī)課程。而真度則主要用來(lái)展示高等數(shù)學(xué)成績(jī)和計(jì)算機(jī)基礎(chǔ)課程成績(jī)優(yōu)異學(xué)生的整體比例。
3 成績(jī)數(shù)據(jù)模糊化
在數(shù)學(xué)領(lǐng)域,成績(jī)優(yōu)異是一個(gè)較為模糊的概念,一般情況下,可以借助確定范圍的方法來(lái)對(duì)其進(jìn)行加以明確。舉例來(lái)說(shuō),可以將閾值范圍處于[80,100]的分?jǐn)?shù)劃分為成績(jī)好。但是就實(shí)際案例而言,由于成人教育學(xué)生生源類型較為復(fù)雜,不同科目對(duì)成績(jī)優(yōu)異的劃分區(qū)間,可能存在一定差異,并不以[80,100]為統(tǒng)一的劃分標(biāo)準(zhǔn)。但是如果將[80,100]作為唯一的劃分標(biāo)準(zhǔn),又會(huì)對(duì)后期的真度數(shù)值計(jì)算產(chǎn)生影響。鑒于此,一般采用模糊集來(lái)對(duì)不同閾值內(nèi)的屬性值進(jìn)行轉(zhuǎn)換。使用模糊集進(jìn)行屬性值轉(zhuǎn)換的過(guò)程中,需要經(jīng)過(guò)以下兩步驟:首先,要建立和“成績(jī)優(yōu)異”相匹配的隸屬度函數(shù);其次,可以通過(guò)模糊查詢的方式找到和其屬性相對(duì)應(yīng)的模糊數(shù)據(jù)庫(kù)。
3.1 隸屬度函數(shù)的定義
一般情況下,不同屬性成績(jī)數(shù)據(jù)的分布方式為正相關(guān),其隸屬度函數(shù)的定義為:
其中的值域?yàn)閇μ(x)],[0,1]參數(shù):[P_max],各科目成績(jī)好數(shù)值的確定上限:[μ],各科成績(jī)的平均值:[σ],各科成績(jī)的標(biāo)準(zhǔn)差。
3.2模糊查詢
定義2 何為模糊查詢?模糊查詢主要是指在同一個(gè)關(guān)系數(shù)據(jù)庫(kù)內(nèi),其查詢語(yǔ)句where中的子句內(nèi)含有單個(gè)或者多個(gè)的模糊數(shù)。和普通查詢相比,模糊查詢不僅可以對(duì)滿足查詢條件的數(shù)集進(jìn)行記錄,同時(shí)還可以對(duì)返回記錄的隸屬度進(jìn)行記錄。舉例來(lái)說(shuō),可以用where子句中的邏輯預(yù)算符號(hào)“∧”和“∨”來(lái)指代子句中的,and或者or。
但是傳統(tǒng)查詢方式和模糊查詢方式仍然存在一定的差異,舉例來(lái)說(shuō):當(dāng)輸入查詢指令select all workers whose weight is greater than 60 kg”時(shí),此時(shí)該指令的具體含義為找出所有工人體重在60千克以上的,其布爾達(dá)描述特征也為體重>60kg。但是在模糊查詢之中,由于其使用模糊數(shù)如大小、高低等進(jìn)行查詢,所以,可以用模糊數(shù)“有多重?”來(lái)進(jìn)行模糊查詢。
3.3模糊數(shù)據(jù)記錄集的生成
結(jié)合我校的成人考試成績(jī)數(shù)據(jù)片段,為了從數(shù)據(jù)庫(kù)中找出高等數(shù)學(xué)成績(jī)數(shù)值處于優(yōu)異范圍內(nèi)的學(xué)生,可以進(jìn)行如下模糊查詢:
其中,可以用大寫字母[Q]來(lái)替代[Query],用大寫字母[DB]來(lái)表示對(duì)應(yīng)的關(guān)系數(shù)據(jù)庫(kù),用Ti來(lái)表示第i條記錄。綜合起來(lái)用查詢語(yǔ)句可以表示為:“select * from DB where 高等數(shù)學(xué)成績(jī)= much”。這就是一條簡(jiǎn)單的模糊數(shù)據(jù)查詢語(yǔ)句。但是值得注意的是,和標(biāo)準(zhǔn)的查詢語(yǔ)句不同,模糊查詢語(yǔ)句中的關(guān)系謂詞“高等數(shù)學(xué)成績(jī)”可用much進(jìn)行表示。在這條魔術(shù)查詢語(yǔ)句的where子句之中,僅展示了一個(gè)關(guān)系謂詞,其隸屬度計(jì)算公式表示如下:
4 模糊關(guān)聯(lián)規(guī)則真度的計(jì)算
利用表2生成的模糊數(shù)據(jù)記錄集,對(duì)生成的模糊關(guān)聯(lián)規(guī)則計(jì)算真度可以判斷關(guān)聯(lián)規(guī)則與模糊數(shù)“大多數(shù)”是否相容。如果真度逼近1那么規(guī)則置信度越高;相反真度逼近0那么規(guī)則置信度就越低。通常對(duì)記錄數(shù)多的大型數(shù)據(jù)庫(kù)來(lái)說(shuō),相容程度較高的模糊關(guān)聯(lián)規(guī)則可以通過(guò)設(shè)定真度實(shí)現(xiàn)。計(jì)算真度步驟如下:
① 對(duì)模糊關(guān)聯(lián)規(guī)則計(jì)算滿足其屬性約束模糊數(shù)的模糊概率,計(jì)算公式為:
在公式中,用[i]表示第幾條記錄,用T來(lái)表示“∧”運(yùn)算,用Ti來(lái)表示記錄,n用來(lái)表示所記錄的數(shù)量。根據(jù)學(xué)者Zadeh給出的語(yǔ)言量詞記錄概念可知,在語(yǔ)言量詞記錄中,Q (·)主要用來(lái)表示(most)的隸屬函數(shù),其真度的計(jì)算公式如下: τ= Q (P ).
以“高等數(shù)學(xué)成績(jī)優(yōu)異的學(xué)生多數(shù)計(jì)算機(jī)基礎(chǔ)成績(jī)也較為優(yōu)異”這條關(guān)聯(lián)規(guī)則為例,其真度計(jì)算公式如下:
那么如何判斷模糊關(guān)聯(lián)規(guī)則的可信度呢?一般情況下,可以通過(guò)分析預(yù)設(shè)的真度數(shù)值和實(shí)際的真度閾值數(shù)值來(lái)判斷模糊關(guān)聯(lián)規(guī)則的可信度。舉例來(lái)說(shuō),一條以“高等數(shù)學(xué)成績(jī)優(yōu)異、多數(shù)學(xué)生計(jì)算機(jī)基礎(chǔ)成績(jī)優(yōu)異”為主的模糊關(guān)聯(lián)規(guī)則,其真度閾值等于0.65,但是其實(shí)際的預(yù)設(shè)真度數(shù)值等于0.6,此時(shí)模糊真度關(guān)聯(lián)規(guī)則的真度數(shù)值超過(guò)預(yù)設(shè)真度數(shù)值,則可以判斷該模糊關(guān)聯(lián)規(guī)則的可信度較高。
5 挖掘結(jié)果分析
該模糊關(guān)聯(lián)規(guī)則查詢系統(tǒng)開(kāi)發(fā)公司為微軟公司,開(kāi)發(fā)工具為net,支持在win10系統(tǒng)中運(yùn)行,使用后臺(tái)數(shù)據(jù)庫(kù)為[SQL Server2007]。成績(jī)數(shù)據(jù)來(lái)源年份為2002~2005年,容量約為15萬(wàn)條左右。通過(guò)專家分析可知,該模糊查詢關(guān)聯(lián)規(guī)則的最小支持度數(shù)值=0.57,最小置信度數(shù)值=0.69,真度閾值=0.63。運(yùn)用Apriori算法進(jìn)行計(jì)算得出最終的關(guān)聯(lián)規(guī)則符號(hào)最小支持度和最小置信度。其最終的真度計(jì)算結(jié)果如表3所示:
根據(jù)專家學(xué)者的意見(jiàn)可以將其預(yù)設(shè)真度的下限指調(diào)整為0.7,根據(jù)表3數(shù)值得出如下結(jié)論:
一般情況下,高等數(shù)學(xué)和應(yīng)用高等數(shù)學(xué)均較為成績(jī)優(yōu)異的學(xué)生其高等數(shù)學(xué)和應(yīng)用高等數(shù)學(xué)兩門學(xué)科的成績(jī)普遍較為優(yōu)異,而表3中的模糊規(guī)則也對(duì)其進(jìn)行了說(shuō)明。由此可見(jiàn),理科成績(jī)之間存在良性互動(dòng)關(guān)系的可能性較高。同時(shí),在理科成績(jī)和文科成績(jī)之間,也可以發(fā)現(xiàn)相似的關(guān)系。鑒于此,基層教師在實(shí)際的教學(xué)過(guò)程中,應(yīng)該做好學(xué)科互動(dòng)工作,借此來(lái)大幅提高學(xué)生的各科成績(jī)和課堂學(xué)習(xí)效果。
參考文獻(xiàn):
[1] Srikant,vuq.Mining association rules withItemconstraints[C]. Proc. of the Third Int'l Conf. on Knowledge Discovery in DataBases and Data Mining.CA,USA:AAAI Press,1997:67-73.
[2] Ng R T,Lakshmanan L VS,Han J W,etal.Exploratory mining and pruning optimizations of constrained associations rules[C]//Proceedings of the 1998 ACM SIGMOD internationalconference on Management of data - SIGMOD '98.June1-4,1998.Seattle,Washington,USA.New York:ACM Press,1998:13-24.
[3] Bayardo R J,Agrawal J R . Constraint-based rule mining in large, dense database[J]. Data Mining and Knowledge Discovery,2000,4(2/3):217-240.
[4] 劉松.一種新的多層次關(guān)聯(lián)規(guī)則挖掘算法[J].微計(jì)算機(jī)信息,2006,22(12):223-225.
[5] Yager R R.Fuzzy summaries in database mining[C]//Proceedings the 11th Conference on Artificial Intelligence for Applications.20-23Feb.1995,LosAngeles,CA,USA.IEEE,1995:265-269.
[6] Zadeh L A.A computational approach to fuzzy quantifiers in natural languages[J].Computers& Mathematics with Applications,1983,9(1):149-184.
[7] AgrawalR,ImielińskiT,SwamiA.Mining association rules between sets of items in large databases[C]//Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93.May25-28,1993.Washington,D.C.,USA.New York:ACM Press,1993:207-216.
【通聯(lián)編輯:梁書(shū)】