黃嘉城 沈良忠
摘要:隨著教育信息化建設的不斷推進,教務系統(tǒng)中積累了越來越多的數(shù)據(jù),如何對這些數(shù)據(jù)進行有效的利用,是當前教育數(shù)據(jù)挖掘領域一個重要的研究內(nèi)容。該文針對教務系統(tǒng)中計算機等級考試成績數(shù)據(jù),利用Apriori算法探究學生的計算機類課程考試成績與計算機等級考試成績的關系。
關鍵詞:數(shù)據(jù)挖掘;Apriori算法;關聯(lián)規(guī)則;計算機等級考試
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2017)22-0021-02
隨著科技和信息的高速發(fā)展,我們正在進入一個新的大數(shù)據(jù)時代。全球知名咨詢公司麥肯錫曾說過,數(shù)據(jù)已經(jīng)滲透到了每一個行業(yè)和業(yè)務職能領域,已經(jīng)成為當今時代重要的生產(chǎn)因素。隨著教育信息化進程的不斷推進,各高?;径紝崿F(xiàn)了相關教學管理系統(tǒng)的建設,最常使用的教務管理系統(tǒng)中已經(jīng)積累了大量的數(shù)據(jù)。隨著大數(shù)據(jù)時代的到來,教學管理人員也充分意識到這些海量數(shù)據(jù)的背后可能隱藏著未知的知識,通過對以上數(shù)據(jù)的挖掘就可能發(fā)現(xiàn)潛在的規(guī)律,相關的挖掘結果或許可用于支持教學相關決策。2013年,李春秋等通過針對學生所上的課程,通過關聯(lián)規(guī)則挖掘出其中課程之間的關聯(lián),提出了學生預警系統(tǒng)的模型,并且通過將教師輸入的成績與關聯(lián)規(guī)則進行比較以實現(xiàn)基本的預警作用。2014年,王華等同樣針對教務系統(tǒng)的學生成績數(shù)據(jù),運用改進后的Apriori算法發(fā)現(xiàn)課程之間的關聯(lián),結果顯示某門課程成績的好壞有可能影響后續(xù)好幾門課程的學習。2016年,郭敏通過關聯(lián)規(guī)則分析民族高校學生成績,發(fā)現(xiàn)漢族學生的成績普遍要好,少數(shù)民族學生則需要學校更多的關注。2016年,劉鐘情在體育院校計算機等級考試成績分析中,發(fā)現(xiàn)了計算基礎二級筆試通過率低,可以直接根據(jù)平時的成績來預測學生的機考能否通過。2017年,陳甲華以某大學信管專業(yè)學生成績數(shù)據(jù)為例,運用改進后的Apriori建立了大學成績關聯(lián)規(guī)則分析模型。由此可見,通過對教學相關信息的挖掘是可以發(fā)現(xiàn)這些教學數(shù)據(jù)背后一些隱藏的信息。因此,本文主要針對學生計算機類課程考試成績數(shù)據(jù),探索其與計算機等級考試的關系,為參加計算機等級考試的學生提供參考。
1學生成績數(shù)據(jù)
1.1數(shù)據(jù)獲取
針對計算機等級考試的要求,選擇了信息工程學院的2014級信息管理與信息系統(tǒng)專業(yè)的學生的成績?yōu)槔?,該專業(yè)在招生時是文理科兼招,文理生均衡而且男女比例接近,避免由于數(shù)據(jù)的不平衡導致影響結果的可靠性。
首先,從教務管理系統(tǒng)中導出該專業(yè)的所有學生的課程成績,并刪除了與計算機無關的一些課程;然后把計算機等級考試的成績也融入到該表中,通過Excel的篩選功能去除部分學生補考的成績保留首考成績。根據(jù)學校的培養(yǎng)計劃,計算機等級考試通常安排在大二的時候進行。為了探究在計算機等級考試之前的課程對計算機等級考試的影響和在計算機等級考試之后,后續(xù)幾門課程的與計算機等級考試的關聯(lián),通過查閱該專業(yè)的人才培養(yǎng)方案,將二級等級考試的成績放在了表格的第3列,而第1和第2列分別為大學計算機,C語言程序設計表示這兩門課通常在等級考試之前學習,第4列開始為后續(xù)的一些其他計算機類課程,相應的數(shù)據(jù)如表1所示。
1.2數(shù)據(jù)處理
由于Apriori算法只能針對離散數(shù)據(jù)進行處理,本文對連續(xù)型的學生成績數(shù)據(jù)進行離散化操作。按照陳苗等在學生成績預警分析中的數(shù)據(jù)離散化處理方法,將成績分為五個類別,主要規(guī)則如下:①成績大于或等于90的為A;②成績大于等于80且小于90的為B;③成績大于等于70且小于80的為c;④成績大于等于60的且小于70的為D;⑤最后成績小于60的為E。此外,計算機等級考試成績大于60視為通過記為1,小于60的為不通過記為0。在課程的選擇上面,僅選擇與計算機有關的8門課程,如表2所示。
2Apdod算法
2.1Apriori算法簡介
Apriori算法尋找強關聯(lián)規(guī)則的步驟主要通過以下兩個步驟完成:①根據(jù)設定的最小支持度,找到頻繁項集;②根據(jù)設定的最小置信度,找到強關聯(lián)規(guī)則。
Apriori算法在步驟1中使用逐層搜索迭代的方法來尋找頻繁項集,首先將所有可能成為頻繁1項集的集合記為候選1項集C1,然后通過掃描數(shù)據(jù)庫找到頻繁1項集,記為L1;由L1再生成候選2項集,然后通過掃描數(shù)據(jù)庫找到頻繁2項集L2;依次重復直到不再有新的頻繁項集生成。例如針對表2中的“COM”、“CYY”和“Grade”三列6行數(shù)據(jù),可以將其數(shù)據(jù)轉換為如表3所示:
設最小支持度為0.5,則候選1項集CI={{COM=A},{COM=B},{COM=C},{CYY=C},{CYY=B},{Grade=0},{Grade=1}},通過掃描數(shù)據(jù)庫發(fā)現(xiàn)項集{COM=A},{COM=C},{Grade=0}少于最小支持數(shù)0.5*6=3,因此頻繁1項集為u={{COM=B},{CYY=B},{CYY=C},{Grade=1}};由頻繁1項集生成候選2項集C2={{{COM=B},{CYY=B}},{{COM=B},{CYY=C}},{{COM=B},{Grade=1}},{{CYY=B},{Grade=1}},{{CYY=C},{Grade=1}}},通過掃描數(shù)據(jù)庫發(fā)現(xiàn)項集{{CYY=C},{Grade=1}}僅出現(xiàn)1次,因此頻繁2項集為L2={{{COM=B},{CYY=B}},{{COM=B},{Grade=1}},{{CYY=B},{Grade=1}}},然后生成候選3項集為{{{COM=B},{CYY=B},{Grade=1}},通過數(shù)據(jù)庫掃描發(fā)現(xiàn)該項集出現(xiàn)3次,屬于頻繁3項集,由此算法找到了最大頻繁項集。
Apriori算法在步驟2中通過最小置信度來生成強關聯(lián)規(guī)則,假設此處設置最小置信度為0.5,則頻繁3項集川COM=B},{CYY=B},{Grade=1}}生成的部分關聯(lián)規(guī)則如“{{COM=B},{CYY=B}}→{Grade=1}”的置信度為1.0,因此該規(guī)則為強關聯(lián)規(guī)則,其余規(guī)則的生成類似。
2.2關聯(lián)規(guī)則分析
在此,選擇Weka數(shù)據(jù)挖掘工具進行關聯(lián)規(guī)則的運行,設置最小支持度為0.2,最小置信度為0.5,生成規(guī)則數(shù)為100,運行軟件,得到相應的規(guī)則,通過篩選挑選出部分與等級考試及其課程相關的規(guī)則,具體如表4和表5所示。表4顯示了計算機等級考試之前的課程對等級考試成績的影響;表5顯示了計算機等級考試成績對后續(xù)計算機類課程的影響。
從表4中我們可以很明顯地看出C語言程序設計課程達到C的同學可以通過二級考試,而C語言程序設計這門課只拿到D的同學無法通過二級考試;大學計算機拿到B的同學能夠通過二級考試,但是大學計算機成績?yōu)镃的同學無法通過二級考試。從置信度和提升度的值來看,C語言程序設計這門課的成績好壞在影響通過二級等級考試時所占的比重還是比較高的,當然大學計算機這門課程也同樣不容忽視。
從表4中的關聯(lián)規(guī)則可以發(fā)現(xiàn),通過二級考試的同學在JavaS-cript程序設計這門課上可以拿到B;通過二級考試且JavaScript程序設計拿到B的同學在計算機網(wǎng)絡基礎這門課可以拿到B;通過二級考試的同學在.NET網(wǎng)站開發(fā)技術,數(shù)據(jù)庫原理與應用,靜態(tài)網(wǎng)頁開發(fā)技術也都能拿到B的成績。通過置信度和提升度的值我們可以知道,在通過二級考試后,對JavaScript程序設計這門課的成績影響程度最深,而對計算機網(wǎng)絡基礎、.NET網(wǎng)站開發(fā)技術、數(shù)據(jù)庫原理這幾門課程的影響都相差不多,靜態(tài)網(wǎng)頁開發(fā)技術這門課影響就相對較小。
3結束語
本文通過從學校教務系統(tǒng)所提供的計算機等級考試數(shù)據(jù)中,基于Weka軟件應用Apriofi算法對以上數(shù)據(jù)進行關聯(lián)規(guī)則。從得到的規(guī)則中可以得出,在還沒有進行二級考試之前,C語言程序設計課程應該引起同學們和老師們的重視,特別是對那些想要通過計算機考試的同學來說,要加強C語言程序設計這門課的學習強度,同時老師應該更注重教學的細節(jié),在大學計算機中可以適當加入一些關于等級考試如Office等的教學內(nèi)容,來提高學生的通過率。在二級考試通過之后,該考試成績對后續(xù)的幾門計算機類課程成績的提高可以說起到了很重要的作用,校方應該更加重視計算機等級考試,針對性地增加一些通過該考試的課程內(nèi)容。endprint