劉 靜
(阜陽(yáng)師范學(xué)院,安徽 阜陽(yáng) 236037)
全國(guó)大學(xué)生英語(yǔ)四級(jí)考試(CET-4)是由國(guó)家教育部高等教育司組織安排的標(biāo)準(zhǔn)化、教學(xué)水平考試.該考試緊扣教學(xué)大綱,考試成績(jī)具有很高的信度和效度.在高校,CET-4考試受到了包括學(xué)生、任課教師和學(xué)校管理者在內(nèi)所有人的高度重視.[5]
我校教務(wù)管理系統(tǒng)中存放著各種成績(jī)信息,學(xué)校目前所利用的僅僅是成績(jī)數(shù)據(jù)的提取,成績(jī)背后較為隱蔽的有用信息沒(méi)有被充分挖掘出來(lái).針對(duì)這個(gè)問(wèn)題,采用關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法,挖掘CET-4成績(jī)與《大學(xué)英語(yǔ)》期末考試成績(jī)的相關(guān)性,分析哪個(gè)學(xué)期的英語(yǔ)學(xué)習(xí)對(duì)CET-4成績(jī)影響最大,并總結(jié)出規(guī)律應(yīng)用到教師的常規(guī)教學(xué)和同學(xué)們的日常學(xué)習(xí)中去.
關(guān)聯(lián)規(guī)則挖掘,就是在數(shù)據(jù)列表中找出滿足最小置信度和最小支持度的規(guī)則,挖掘不同數(shù)據(jù)項(xiàng)集之間潛在的關(guān)聯(lián)規(guī)則.[1]在現(xiàn)有關(guān)聯(lián)規(guī)則挖掘中,最典型的算法是Apriori算法.該算法依據(jù)頻繁項(xiàng)集性質(zhì)的先驗(yàn)(Prior)知識(shí)命名,是一種通過(guò)多次掃描數(shù)據(jù)庫(kù),來(lái)獲取支持度大于最小支持度的頻繁項(xiàng)集的廣度優(yōu)先算法.[1]
該算法描述如下:
輸入:DB[1],min_sup;
輸出:頻繁x項(xiàng)集Frequent_Result[x]和頻繁x項(xiàng)集的支持度;
Function:
Step1://掃描得到所有頻繁1項(xiàng)集 Frequent_Result[1];
Frequent_Result[1]=Frequent_ResultSet_Gen(DB[1],min_sup);//函數(shù)SourceSet_Gen(M[x])負(fù)責(zé)掃描中間數(shù)組二階運(yùn)算得到的D[x+1]中的數(shù)據(jù),算出候選項(xiàng)的支持度;
x=1;While(Frequent_Result[x]!=Ф){
Step2://找出D[x]中大于最小支持度的;
M[x]=Comp_Gen(D[x],min_sup);//函數(shù) Comp_Gen(D[x],min_sup)同min_sup比較,生成二階運(yùn)算需要的候選數(shù)組;
Step3:++x;//侯選數(shù)據(jù)項(xiàng)集的支持度自加;
Step4://Apriori算法,用 L1*L2產(chǎn)生數(shù)據(jù)集 M[x];
M[x]=M[x-1]*M[x-1];
Step5://計(jì)算中間數(shù)據(jù)集M[x]各項(xiàng)支持度;
D[x]=SourceSet_Gen(M[x]);
Step6://生成頻繁x項(xiàng)集集合Frequent_Result[x];
Frequent_Result[x]=Frequent_Result[x]Set_Gen(D[x],min_sup); }//函數(shù) Frequent_ResultSet_Gen(DB[x],min_sup)比較DB[x]中的數(shù)據(jù)與min_sup大小,篩選數(shù)據(jù).
WEKA是一款開(kāi)源數(shù)據(jù)挖掘軟件,可以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、分類、回歸、關(guān)聯(lián)規(guī)則等分析操作.基于WEKA平臺(tái)的關(guān)聯(lián)規(guī)則算法有 Apriori、PredictiveApriori,Apriori算法由找到的頻繁項(xiàng)集產(chǎn)生出同時(shí)滿足最小支持度設(shè)定和最小置信度數(shù)值的強(qiáng)關(guān)聯(lián)規(guī)則;PredictiveApriori算法則是將最小支持度和最小置信度變?yōu)轭A(yù)測(cè)精度.
本論文將根據(jù)Apriori和PredictiveApriori算法的挖掘結(jié)果來(lái)分析數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則.
此次實(shí)驗(yàn)數(shù)據(jù)是從我校教務(wù)系統(tǒng)下載,其中大學(xué)英語(yǔ)成績(jī)涉及的字段名稱有:姓名、學(xué)號(hào)、期末成績(jī)、總成績(jī)等;CET-4成績(jī)涉及的字段名稱有:姓名、學(xué)號(hào)、總分、聽(tīng)力分?jǐn)?shù)等.本研究通過(guò)數(shù)據(jù)庫(kù)技術(shù)將來(lái)自于多個(gè)數(shù)據(jù)源的學(xué)生成績(jī)合并成一個(gè)用于關(guān)聯(lián)分析的成績(jī)數(shù)據(jù)庫(kù).運(yùn)用Weka軟件挖掘“大學(xué)英語(yǔ)”四個(gè)學(xué)期的成績(jī)與CET-4考試成績(jī)之間的潛在聯(lián)系.
本次參與數(shù)據(jù)挖掘分析的原始樣本總數(shù)為3722個(gè),經(jīng)過(guò)數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約等操作后,剩余樣本總數(shù)為3425,樣本的有效率達(dá)到92.02%.得到一個(gè)包含NUMBER、STU-NO、English1、English2、English3、English4、CET-4七 個(gè)字段名的成績(jī)大表,如表1所示.
將數(shù)據(jù)文件類型轉(zhuǎn)換為WEKA軟件支持的CSV格式,然后在該軟件中將數(shù)據(jù)文件保存為ARFF格式.其次,采用離散化的方法將“NUMERIC”數(shù)據(jù)類型轉(zhuǎn)換成“NOMINAL”類型.將大學(xué)英語(yǔ)四個(gè)學(xué)期學(xué)生分?jǐn)?shù)離散化為“a”(分?jǐn)?shù)>=85分)、“b”(65分 <=分?jǐn)?shù) <85分)、“c”(分?jǐn)?shù) <65分)三個(gè)等級(jí),將CET-4成績(jī)離散化為“pass”(分?jǐn)?shù)>=425)、“nopass”(分?jǐn)?shù)<425)兩個(gè)等級(jí).離散化后的表格如表2:
表1 學(xué)生成績(jī)
表2 學(xué)生離散成績(jī)
3.5.1 使用Apriori算法對(duì)以上數(shù)據(jù)進(jìn)行分析,將最小支持度和最小置信度分別設(shè)定為10%和90%,Apriori算法生成了 9個(gè) L(1)、14個(gè) L(2)、16個(gè) L(3)、8個(gè) L(4)以及 1個(gè) L(5),產(chǎn)生了以下規(guī)則:
1)English1=a English2=b English3=b 784==>CET-4=pass 758 conf:(0.97)
2)English1=a English3=b English4=b 790==>CET-4=pass 760 conf:(0.96)
3)English1=a English3=b 974==>CET-4=pass 937 conf:(0.96)
4)English1=a English2=b 906==>CET-4=pass 871 conf:(0.96)
5)English1=a English2=b English4=b 739==>CET-4=pass 710 conf:(0.96)
6)English1=b English2=b English3=b CET-4=pass 839==>English4=b 759 conf:(0.9)
分析以上的實(shí)驗(yàn)結(jié)果,選取有用的關(guān)聯(lián)規(guī)則1-5,可以得出以下的結(jié)論.
English1成績(jī)?yōu)椤癮”并且English2和English3成績(jī)?yōu)椤癰”的學(xué)生784人中有758人通過(guò)了CET-4考試,置信度為97%.English1成績(jī)?yōu)椤癮”并且English3和English4成績(jī)?yōu)椤癰”的790人中有760人通過(guò)了CET-4考試,置信度為96%.English1成績(jī)?yōu)椤癮”并且 English3成績(jī)?yōu)椤癰”的學(xué)生974人中有937人通過(guò)了CET-4考試,置信度為96%.English1成績(jī)?yōu)椤癮”,并且English2成績(jī)?yōu)椤癰”的906人中,有871人通過(guò)了CET-4考試,置信度為96%.English1成績(jī)?yōu)椤癮”,并且 English2和 English4成績(jī)?yōu)椤癰”的 739人中,有710人通過(guò)了CET-4考試,置信度為96%.
3.5.2 運(yùn)用PredictiveApriori算法進(jìn)行分析,得到的規(guī)則如下:
1)English1=a English4=a 241==>CET-4=pass 240 acc:(0.99499)
2)English1=a English3=a 110==>CET-4=pass 109 acc:(0.99443)
3)English1=c English3=b English4=c 37==>CET-4=nopass 37 acc:(0.99278)
4)English1=c English4=c 105==>CET-4=nopass 99 acc:(0.93034)
根據(jù)上面的實(shí)驗(yàn)結(jié)果,我們可以分析其中的意義:English1成績(jī)好,其他學(xué)期分?jǐn)?shù)高或中等的學(xué)生中CET-4通過(guò)率也較高;English1成績(jī)差,其它學(xué)期成績(jī)中等或者較好的同學(xué)也很難通過(guò)CET-4考試.因此,可以得出English1的好差對(duì)CET-4的通過(guò)與否起到了決定性的作用.我們不難得到本樣本數(shù)據(jù)潛在的關(guān)聯(lián)規(guī)則:CET-4成績(jī)的好差與學(xué)生的英語(yǔ)基礎(chǔ)相關(guān)性最大,因?yàn)橛⒄Z(yǔ)基礎(chǔ)成績(jī)較好的學(xué)生,第一學(xué)期的成績(jī)也較好,基礎(chǔ)好的學(xué)生CET-4通過(guò)率較高,基礎(chǔ)較差的學(xué)生CET-4通過(guò)率較低.
因此,同學(xué)們?cè)谟⒄Z(yǔ)學(xué)習(xí)過(guò)程中,要提高對(duì)《大學(xué)英語(yǔ)》學(xué)習(xí)的重視度,在第一個(gè)學(xué)期打好基礎(chǔ);教師在教學(xué)過(guò)程中,要重視第一學(xué)期的學(xué)習(xí),要結(jié)合各種教學(xué)手段,提高同學(xué)們英語(yǔ)學(xué)習(xí)興趣,幫助同學(xué)們提高CET-4成績(jī);教學(xué)管理部門(mén)則可根據(jù)關(guān)聯(lián)挖掘結(jié)果,調(diào)整教學(xué)計(jì)劃,加大大學(xué)英語(yǔ)第一學(xué)期的教學(xué)力度,提高同學(xué)們的學(xué)習(xí)效果,從而進(jìn)一步提高全校學(xué)生的CET-4成績(jī).
〔1〕邵峰晶,于中清.數(shù)據(jù)挖掘原理與算法[M].中國(guó)水利水電出版社,2003.58-89.
〔2〕Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)(第二版)[M].北京:機(jī)械工業(yè)出版社.2007.151-153.
〔3〕王義,賈宇波,東興.基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘研究[J].工業(yè)控制計(jì)算機(jī),2011(03):21-23.
〔4〕陳昌川.數(shù)據(jù)挖掘在大學(xué)英語(yǔ)考試中的應(yīng)用研究[D].重慶:重慶大學(xué),2009.
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2014年22期