劉建莉
(天津交通職業(yè)學(xué)院,天津市 300110)
基于數(shù)據(jù)挖掘的計(jì)算機(jī)能力考核成績分析與處理
劉建莉
(天津交通職業(yè)學(xué)院,天津市 300110)
利用數(shù)據(jù)挖掘技術(shù)中的決策樹算法,通過決策樹ID 3算法中的信息增益方法確定屬性從而生成決策樹,分析出學(xué)生成績優(yōu)良與學(xué)生自身的五個(gè)因素有關(guān),通過分析,找出影響學(xué)生成績優(yōu)秀的潛在因素。以加強(qiáng)學(xué)生成績科學(xué)化、規(guī)范化管理,提高考試的優(yōu)秀率。
計(jì)算機(jī)考核成績;數(shù)據(jù)挖掘;決策樹
本文利用數(shù)據(jù)挖掘技術(shù)對天津交通職業(yè)學(xué)院學(xué)生在高職高專計(jì)算機(jī)能力考試中的成績進(jìn)行分析,重點(diǎn)介紹了著名的決策樹算法,利用決策樹算法生成決策樹分析學(xué)生成績優(yōu)良與哪些因素有關(guān),并利用事后修剪法對決策樹進(jìn)行修剪,最后由決策樹產(chǎn)生分類規(guī)則,完成了成績分析決策樹模型的建立。
目前,對學(xué)生成績評定是采用卷面成績和平時(shí)成績的加權(quán)平均的方法,即將學(xué)生卷面成績和平時(shí)成績分別乘以百分比再進(jìn)行求出平均值進(jìn)行核算。具體是在學(xué)期末每門課程教師出一個(gè)“教學(xué)質(zhì)量分析報(bào)告”。這個(gè)報(bào)告中包括均值、方差、區(qū)別顯著性檢驗(yàn)、正態(tài)分布圖,這種方法是基于全班學(xué)生的整體水平為出發(fā)點(diǎn)的,通過分析可以得出全班同學(xué)對這門課程的整體掌握水平。但不能分析出每一個(gè)學(xué)生作為個(gè)體影響成績的因素,這些是需要進(jìn)一步的分析數(shù)據(jù)。
采用傳統(tǒng)的簡單的數(shù)理分析統(tǒng)計(jì)的方法不能實(shí)現(xiàn),所以采取數(shù)據(jù)挖掘的方法來對計(jì)算機(jī)統(tǒng)考成績進(jìn)行分析統(tǒng)計(jì),擬得到有用信息。
采用的分析方法具體為:用數(shù)據(jù)挖掘中決策樹算法分析出影響天津交通職業(yè)學(xué)院學(xué)生計(jì)算機(jī)能力考核成績優(yōu)秀的因素的相關(guān)聯(lián)系以及比例。
這些因素包括:1.生源類型:高中上來的還是中專上來的學(xué)生;2.課堂學(xué)習(xí)情況:(課堂掌握知識的情況);3.是否是補(bǔ)考;4.曠課情況;5.學(xué)生是否對課程感興趣。
通過分析,得出現(xiàn)在考試成績優(yōu)秀的學(xué)生中,分析出學(xué)生成績優(yōu)良與學(xué)生自身的五個(gè)因素有關(guān),分析出這五個(gè)因素之間的聯(lián)系對學(xué)生成績優(yōu)良的影響所占的比重。找出影響學(xué)生成績潛在的因素,以加強(qiáng)學(xué)生成績科學(xué)化、規(guī)范化管理,提高考試的通過率。
數(shù)據(jù)采集。這是一個(gè)工作量較大,占據(jù)時(shí)間較多的一個(gè)階段。需要在以往的教學(xué)實(shí)踐中,注意收集數(shù)據(jù)信息,有些數(shù)據(jù)的產(chǎn)生可以直接獲得,有些數(shù)據(jù)需要對學(xué)生進(jìn)行調(diào)查獲得。基于本文的研究,所采集的數(shù)據(jù)有:
1.學(xué)生調(diào)查信息表:
內(nèi)容包括對生源類型:高中或是中專;是否是補(bǔ)考:是或不是;學(xué)生對課程的感興趣:是或者不是等。這些信息主要通過調(diào)查,由學(xué)生填寫產(chǎn)生,最后由任課老師匯總。
2.教師課堂測驗(yàn)(課堂學(xué)習(xí)情況):
內(nèi)容包括課堂學(xué)習(xí)情況,即上課掌握知識的情況。這些信息主要通過教師和學(xué)生配合完成產(chǎn)生。
3.教師上課用點(diǎn)名冊:
內(nèi)容包括學(xué)生曠課情況。這些信息主要通過教師匯總點(diǎn)名記錄產(chǎn)生。
4.成績數(shù)據(jù)庫:
成績數(shù)據(jù)庫中包括了學(xué)生計(jì)算機(jī)能力課程的考試成績。
5.自動判卷系統(tǒng):
學(xué)生上機(jī)考完試以后,從計(jì)算機(jī)能力模塊考試系統(tǒng)自動判卷系統(tǒng)中得到各項(xiàng)得分?jǐn)?shù)據(jù),進(jìn)行整理出有用的數(shù)據(jù)。
通過上面收集的數(shù)據(jù)后,進(jìn)行整體匯總,存在于數(shù)據(jù)庫SQL 2000數(shù)據(jù)庫中,以數(shù)據(jù)庫表的形式進(jìn)行存儲。將學(xué)生調(diào)查信息數(shù)據(jù)表與本學(xué)期計(jì)算機(jī)能力考核成績生成學(xué)生成績分析基本數(shù)據(jù)表。如表1所示:
表1 計(jì)算機(jī)能力考核成績生成學(xué)生成績分析基本數(shù)據(jù)表
1.數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)轉(zhuǎn)換主要是對數(shù)據(jù)進(jìn)行規(guī)格化操作,將數(shù)據(jù)變成統(tǒng)一的格式,以適合數(shù)據(jù)挖掘。使用概念分層技術(shù),可以將連續(xù)值屬性轉(zhuǎn)換為離散值屬性(即離散化)。
(1)將學(xué)生計(jì)算機(jī)能力考核成績屬性的所有值按0-70分、70分-80分、80分以上劃分成“差”、“一般”、“良好”三類。
(2)將學(xué)生計(jì)算機(jī)能力考核課堂學(xué)習(xí)情況屬性的所有值按0-60分、60分-85分、85分以上劃分成“不夠好”、“基本掌握”、“完全掌握”三類。
(3)將學(xué)生計(jì)算機(jī)能力課程的曠課屬性的所有值按0-5節(jié)、6節(jié)-10節(jié)、10節(jié)以上劃分成“好”、“一般”、“差”三類。
將學(xué)生調(diào)查信息與本學(xué)期計(jì)算機(jī)能力考核成績生成學(xué)生成績分析基本數(shù)據(jù)表。如表2所示:
表2 學(xué)生成績分析基本數(shù)據(jù)表
2.數(shù)據(jù)消減
結(jié)合本文,采用數(shù)據(jù)消減的方法為:消減維數(shù)。將“考核成績”字段轉(zhuǎn)化為“是否優(yōu)良”字段,選擇“是否優(yōu)良”為類別屬性,有兩個(gè)類“Yes”和“No”,即:Yes表示總評為“優(yōu)良”,否則該字段屬性值為“N o”;將“生源類型”字段選擇兩個(gè)類:“高中”和“中專”;將“課堂學(xué)習(xí)情況”選擇三個(gè)類:“基本掌握”和“完全掌握”和“不夠好”;將“是否是補(bǔ)考”選擇兩個(gè)分類:“是”和“不是”;將“曠課情況”字段選擇三個(gè)類:“一般”和“優(yōu)”和“差”;將“學(xué)生是否對課程感興趣”字段選擇兩個(gè)分類:“是”和“不是”,總共300條記錄。從而生成用于對成績是否優(yōu)良進(jìn)行分類的基本數(shù)據(jù)表。如表3所示。
表3 數(shù)據(jù)消減后的學(xué)生成績分析基本數(shù)據(jù)表
1.利用ID 3算法構(gòu)造決策樹
在建立學(xué)生成績是否優(yōu)良決策樹模型時(shí),選擇了其中與成績屬性相關(guān)性較大的生源類型、課堂學(xué)習(xí)情況、是否是補(bǔ)考、曠課情況、學(xué)生是否對課程感興趣以及考核成績以及是否優(yōu)良屬性作為類別屬性。
在表3所示的數(shù)據(jù)庫表中,共有300個(gè)樣本,其中類“Yes”有102個(gè)樣本,類“N o”有198個(gè)樣本。為計(jì)算每個(gè)屬性的信息增益,計(jì)算對給定樣本分類所需的信息熵:
首先計(jì)算“生源類型”屬性,該屬性有兩個(gè)屬性值,需對每個(gè)屬性所劃分的子集計(jì)算信息熵:
對于“生源類型”=“高中”,類“Yes”有60個(gè)樣本,類“N o”有85個(gè)樣本,計(jì)算出:
對于“生源類型”=“中?!?類“Yes”有95個(gè)樣本,類“N o”有60個(gè)樣本,計(jì)算出:
計(jì)算出這種劃分的信息增益是:
Gain(“生源類型”)=I(S1,S2)-E(“生源類型”)=0.0362
用類似方法可以計(jì)算出:
Gain(“課堂學(xué)習(xí)情況”)=0.1623
Gain(“是否是補(bǔ)考”)=0.041
Gain(“曠課情況”)=0.0876
Gain(“學(xué)生是否對課程感興趣”)=0.081
“課堂學(xué)習(xí)情況”屬性具有最高增益信息,它被選作測試屬性。創(chuàng)建一個(gè)節(jié)點(diǎn),用“平時(shí)成績”標(biāo)記,并對每個(gè)屬性值,引出分支,樣本以此劃分 ,其它分支節(jié)點(diǎn)的劃分也按此方法。算法返回的決策樹如圖1所示。
可計(jì)算出按平時(shí)成績劃分給定樣本所需的期望信息為:
圖1 成績是否優(yōu)良決策樹
2.決策樹算法ID 3的改進(jìn)
以上的決策樹不能看出“課堂學(xué)習(xí)情況完全掌握、曠課情況是優(yōu)的最后成績是優(yōu)秀紀(jì)錄”與“課堂學(xué)習(xí)情況完全掌握、曠課情況是一般、學(xué)生對課程感興趣的最后成績是優(yōu)秀紀(jì)錄”的記錄數(shù)差額,誤以為等同。根據(jù)以上分析,改進(jìn)ID 3算法為:在葉節(jié)點(diǎn)記錄符合條件的統(tǒng)計(jì)數(shù)據(jù)。
圖2 改進(jìn)的決策樹
通過研究,利用決策樹ID 3算法研究了五個(gè)因素以及它們之間的聯(lián)系得到了結(jié)論:
If課堂掌握知識的情況=“完全掌握”and曠課情況=“優(yōu)秀”then考核成績=“優(yōu)秀”<占到總共優(yōu)秀率的44.1%>
If課堂掌握知識的情況=“基本掌握”and曠課情況=“優(yōu)秀”then考核成績=“優(yōu)秀”<占到總共優(yōu)秀率的26.4%>
If課堂掌握知識的情況=“完全掌握”and曠課情況=“優(yōu)秀”and學(xué)生是否對課程感興趣=“不”and是否是補(bǔ)考 =“不是”then考核成績=“優(yōu)秀”<占到總共優(yōu)秀率的17.6%>
If課堂掌握知識的情況=“完全掌握”and曠課情況=“一般”and學(xué)生是否對課程感興趣=“不”then考核成績=“優(yōu)秀”<占到總共優(yōu)秀率的6%>
If課堂掌握知識的情況=“基本掌握”and曠課情況=“一般”and學(xué)生是否對課程感興趣=“是”and是否是補(bǔ)考 =“不是”and生源類型=“中專生”then考核成績=“優(yōu)秀”<占到總共優(yōu)秀率的4.9%>
通過分析上述決策樹ID 3算法的分析,得出現(xiàn)在考試成績優(yōu)秀的學(xué)生中,分析出學(xué)生成績優(yōu)良與學(xué)生自身的五個(gè)因素有關(guān),并且也分析出了這五個(gè)因素之間的聯(lián)系對學(xué)生成績優(yōu)良的影響所占的比重。從而找出影響學(xué)生成績潛在的因素,對于這些因素之間的聯(lián)系和最后成績優(yōu)良的比重也是不一樣的,所以對于學(xué)生在某一方面的不足,老師可以在另一方面進(jìn)行彌補(bǔ)。加強(qiáng)學(xué)生成績科學(xué)化、規(guī)范化管理。提高考試的通過率。
在本論文的設(shè)計(jì)過程中,創(chuàng)新點(diǎn)是:解決問題的方法和以往的解決問題的方法不同,即改進(jìn)了以往的計(jì)算機(jī)能力考核成績分析方法,而且這種不同的解決問題的方法更有利于解決該問題。提出把數(shù)據(jù)挖掘技術(shù)中決策樹算法首次引用到高職高專計(jì)算機(jī)能力考核成績分析中,利用決策樹ID 3算法生成決策樹,建立了決策樹模型,分析學(xué)生成績優(yōu)良與五個(gè)因素有關(guān),通過對決策樹算法的改進(jìn),在節(jié)點(diǎn)上記錄符合條件的統(tǒng)計(jì)數(shù)據(jù),分析得出這五個(gè)因素之間的聯(lián)系對學(xué)生成績優(yōu)良的影響的比重。
[1]毛國君.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2005.
[2]劉瑞新.智能數(shù)據(jù)挖掘技術(shù)[M].北京:電子工業(yè)出版社,2005.
[3]余建英,何旭宏.數(shù)據(jù)統(tǒng)計(jì)分析與SPSS應(yīng)用[M].北京:人民郵電出版社,2003.
A bs tra c t:This paper discusses how the author uses the decision tree of data m ining technique to analyze the relationship between students’grades and their personal qualities.Through the analysis,the potential factors that influence students’grades are found,w hich is hoped to be able help form a more scientific and standard management system of students’grades,thus increase the excellent rate of grades.
Key word s:grades of computer-based test;data m ining;decision tree
Analysis&Processing of Data-m ining-based CB T Grades
L IU Jian-li
(Tianjin Transportation Vocational College,Tianjin 300110 China)
TP311
A
1673-582X(2011)02-0096-05
2010-10-10
劉建莉(1980-),女,天津交通職業(yè)學(xué)院基礎(chǔ)教學(xué)學(xué)部教師,本科學(xué)歷,研究方向:計(jì)算機(jī)信息管理。