【摘要】本文以orange機(jī)器學(xué)習(xí)軟件為工具,以廣西師范學(xué)院計(jì)算機(jī)本科專(zhuān)業(yè)學(xué)生的基本信息和成績(jī)數(shù)據(jù)作為處理對(duì)象,詳細(xì)介紹了如何利用orange軟件中的決策樹(shù)算法對(duì)計(jì)算機(jī)專(zhuān)業(yè)的本科生的成績(jī)分布進(jìn)行數(shù)據(jù)處理及分析的過(guò)程。實(shí)驗(yàn)結(jié)果表明:數(shù)據(jù)分析得到的結(jié)論符合計(jì)算機(jī)學(xué)科特點(diǎn),能夠?yàn)閷W(xué)院決策者在專(zhuān)業(yè)培養(yǎng)計(jì)劃的制定中提供科學(xué)依據(jù)。
【關(guān)鍵詞】orange;高校;學(xué)生成績(jī);數(shù)據(jù)挖掘
1.引言
學(xué)生的成績(jī)是衡量高校教學(xué)質(zhì)量的一個(gè)重要指標(biāo)。隨著高校學(xué)生人數(shù)的逐年增加,學(xué)生成績(jī)數(shù)據(jù)也越來(lái)越龐大,這些大量的數(shù)據(jù)中蘊(yùn)含著許多有意義的信息。數(shù)據(jù)挖掘(Data mining)是用于從大量的不完全的、模糊的、有噪聲的觀察數(shù)據(jù)中,去發(fā)現(xiàn)用戶(hù)感興趣數(shù)據(jù)的技術(shù)。利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)大量學(xué)生成績(jī)數(shù)據(jù)中的規(guī)律和隱含的知識(shí),對(duì)于指導(dǎo)高校教學(xué)質(zhì)量和培養(yǎng)計(jì)劃的制定都具有重要的實(shí)際意義。
本文將利用數(shù)據(jù)挖掘工具軟件orange,以廣西師范學(xué)院計(jì)算機(jī)專(zhuān)業(yè)學(xué)生成績(jī)?yōu)槔?,?duì)計(jì)算機(jī)專(zhuān)業(yè)學(xué)生的成績(jī)做非監(jiān)督分類(lèi)處理分析。
2.orange軟件簡(jiǎn)介
Orange是一個(gè)基于組件的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)軟件套裝,其中封裝了決策樹(shù)、關(guān)聯(lián)規(guī)則、統(tǒng)計(jì)分析等數(shù)十種數(shù)據(jù)挖掘經(jīng)典算法。它功能友好,其具有快速而又多功能的可視化編程前端,可以方便瀏覽數(shù)據(jù)分析和可視化。Orange軟件是綁定了Python以進(jìn)行腳本開(kāi)發(fā),能夠與c,c++方便的融合。是數(shù)據(jù)挖掘的有利工具。打開(kāi)orange軟件后可見(jiàn)其界面圖:
圖1 orange軟件的界面圖
本文利用orange軟件中的ID3決策樹(shù)算法對(duì)廣西師范學(xué)院計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生成績(jī)做分類(lèi)分析。決策樹(shù)是一種利用信息論原理對(duì)樣本的屬性進(jìn)行歸納分類(lèi)產(chǎn)生的樹(shù)形結(jié)構(gòu)。
構(gòu)建決策樹(shù)的基本步驟為:
(1)連續(xù)屬性離散化
(2)選擇測(cè)試屬性構(gòu)造決策樹(shù)
(3)決策樹(shù)剪枝
3.利用orange的id3算法分析高校學(xué)生成績(jī)
在利用orange中的決策樹(shù)算法對(duì)高校學(xué)生成績(jī)進(jìn)行分析之前,進(jìn)行數(shù)據(jù)采集,并將數(shù)據(jù)處理成算法所需的數(shù)據(jù)格式等步驟。下面詳細(xì)介紹分析過(guò)程:
3.1 數(shù)據(jù)采集
本文以廣西師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院的3屆學(xué)生成績(jī)?yōu)槔?,?duì)其進(jìn)行處理分析。所采到的原始數(shù)據(jù)信息表包括:學(xué)生的基本信息表、學(xué)生學(xué)科成績(jī)表,其中學(xué)生學(xué)科成績(jī)表包含了學(xué)生大學(xué)四年所修的所有學(xué)科的成績(jī)數(shù)據(jù)。
原始學(xué)生成績(jī)表如表1所示:
表1 學(xué)生成績(jī)信息
原始學(xué)生基本信息表如表2所示(基于保密原則,給出格式,學(xué)生具體信息不便透露):
表2 學(xué)生基本信息
表3 學(xué)生成績(jī)分布處理字段說(shuō)明
Codedesign:程序設(shè)計(jì)成績(jī); math:數(shù)學(xué)成績(jī); P.E.:體育成績(jī);
Introduceofcomputer:計(jì)算機(jī)導(dǎo)論成績(jī); English:英語(yǔ)成績(jī); Total:總成績(jī);
area:籍貫; sex:性別; result:等級(jí)評(píng)定;
表4 整理后的部分學(xué)生成績(jī)表
codedesign math P.E. English introduceofcomputer area sex result
1.3 1.3 1.8 1.7 0.7 M 1 C
1.5 1.2 1.8 1.5 0.7 E 1 D
1.4 1.4 1.8 1.5 0.7 W 1 C
1.5 1.4 1.9 1.3 0.6 E 1 D
3.2 數(shù)據(jù)預(yù)處理
(1)數(shù)據(jù)清洗
在收集到的數(shù)據(jù)中,往往包含著許多與挖掘任務(wù)無(wú)相關(guān)、冗余的屬性。為提高決策樹(shù)算法的效率,需要對(duì)原始數(shù)據(jù)進(jìn)行清洗。
學(xué)生基本信息表的清洗:只保留性別、籍貫兩個(gè)屬性。
學(xué)生成績(jī)信息表數(shù)據(jù)量大,科目繁多。為能夠在成績(jī)分類(lèi)挖掘中進(jìn)行統(tǒng)一比較,本文只選取了部分科目成績(jī)進(jìn)行整理比較。這些科目成績(jī)分別是:程序設(shè)計(jì)成績(jī)、數(shù)學(xué)成績(jī)、體育成績(jī)、英語(yǔ)成績(jī)和計(jì)算機(jī)導(dǎo)論成績(jī)數(shù)據(jù)。
(2)數(shù)據(jù)規(guī)范化
學(xué)校的學(xué)生成績(jī)信息是用百分制記錄,不符合ID3算法數(shù)據(jù)需離散型的要求,故應(yīng)ID3算法的要求,數(shù)據(jù)源整理為離散型變量。
性別數(shù)據(jù)處理:男為1,女為2;
籍貫數(shù)據(jù)處理:本次收集到的學(xué)生數(shù)據(jù)以廣西學(xué)生為多,桂南為S,桂北為N,桂東為E,桂西為W,桂中為M。廣西以外地區(qū)以another表示。
成績(jī)數(shù)據(jù)離散化處理:由于原始成績(jī)都為百分制,使得數(shù)據(jù)過(guò)于連續(xù),難以進(jìn)行區(qū)分。處理方法為:將總成績(jī)除以一百,再進(jìn)行四舍五入。例:在其中一組數(shù)據(jù)49份P.E.成績(jī)中,學(xué)生的分?jǐn)?shù)從158分至192分不等,出現(xiàn)三十余組數(shù)據(jù)。將其成績(jī)除以100再四舍五入,如158分的成績(jī)將化為1.6,192分的成績(jī)則化為1.9。整組P.E.成績(jī)便被劃分為了:1.6、1.7、1.8、1.9四個(gè)組別。
經(jīng)過(guò)預(yù)處理后,得到的學(xué)生信息表內(nèi)容如表3所示,部分?jǐn)?shù)據(jù)整理示例如表4所示.
3.3 實(shí)驗(yàn)步驟
(1)打開(kāi)orange軟件。
(2)使用File部件負(fù)責(zé)所需分析數(shù)據(jù)的導(dǎo)入,Classification部件負(fù)責(zé)分類(lèi)算法的選擇,Classification Tree Viewer 與 Classification Tree Graph部件分別代表決策樹(shù)的兩種不同表達(dá)形式。前者是以樹(shù)狀目錄表的形式表示ID3的分類(lèi)結(jié)果,可以觀察到分類(lèi)的數(shù)據(jù)細(xì)節(jié),包括類(lèi)別、閾值等。后者以圖形的方式表示ID3的分類(lèi)結(jié)果,非常直觀。
將部件以單線相連,便可以實(shí)現(xiàn)由File所導(dǎo)入數(shù)據(jù)的決策樹(shù)輸出。
圖2 Orange Canvas部件連接圖
(3)雙擊File部件將出現(xiàn)數(shù)據(jù)導(dǎo)入界面,按提示操作即可完成實(shí)驗(yàn)數(shù)據(jù)導(dǎo)入。
(4)導(dǎo)入數(shù)據(jù)后,回到Orange Canvas部件連接圖,此時(shí)數(shù)據(jù)已經(jīng)通過(guò)Examples連接線段導(dǎo)入Classifiction Tree部件選擇了算法。Classifiction Tree的連接線段將其導(dǎo)入Classification Tree Viewer 部件和Classification Tree Graph部件。我們通過(guò)雙擊Classification Tree Viewer 與 Classification Tree Graph部件便可以得到?jīng)Q策樹(shù)的兩種表現(xiàn)形式。
Classification Tree Graph示例如圖3所示:
圖3 實(shí)驗(yàn)結(jié)果Classification Tree Graph表示
3.4 實(shí)驗(yàn)結(jié)果分析
從決策樹(shù)的分類(lèi)結(jié)果我們可以看出:信息熵下降程度最大的分類(lèi)屬性為math;其次為專(zhuān)業(yè)課成績(jī)introduceofcomputer。數(shù)據(jù)分布表現(xiàn)為:學(xué)生成績(jī)首先以math成績(jī)進(jìn)行分類(lèi),math成績(jī)lt;1.250的學(xué)生成績(jī)?cè)u(píng)定都為D,math成績(jī)gt;1.250的學(xué)生成績(jī)?cè)u(píng)定以C為多,占有73.7%;其次在math成績(jī)gt;1.250的學(xué)生里以introduceofcomputer成績(jī)進(jìn)行分類(lèi),introduceofcomputer成績(jī)lt;0.650的學(xué)生成績(jī)?cè)u(píng)定為為D,introduceofcomputer成績(jī)gt;0.650的學(xué)生成績(jī)?cè)u(píng)定為C,等等。
從以上成績(jī)的分布來(lái)看,影響計(jì)算機(jī)專(zhuān)業(yè)學(xué)生的專(zhuān)業(yè)成績(jī)的主要因素有兩個(gè),一個(gè)是數(shù)學(xué)成績(jī),一個(gè)是計(jì)算機(jī)導(dǎo)論成績(jī)。這說(shuō)明了計(jì)算機(jī)專(zhuān)業(yè)本身是一個(gè)邏輯性很強(qiáng)的專(zhuān)業(yè),數(shù)學(xué)能力較強(qiáng)的學(xué)生比較容易適應(yīng)這個(gè)專(zhuān)業(yè)的學(xué)習(xí)。另一方面,計(jì)算機(jī)專(zhuān)業(yè)也是一個(gè)應(yīng)用型的專(zhuān)業(yè),要求學(xué)生有較強(qiáng)的動(dòng)手能力,反映到成績(jī)上,表現(xiàn)為一年級(jí)的學(xué)生如果在計(jì)算機(jī)導(dǎo)論的成績(jī)較好,說(shuō)明這些學(xué)生對(duì)計(jì)算機(jī)的操作熟練,對(duì)這個(gè)專(zhuān)業(yè)有直觀具體的認(rèn)識(shí),因而在后面的專(zhuān)業(yè)學(xué)習(xí)中成績(jī)也較好。
4.結(jié)論
本文以orange機(jī)器學(xué)習(xí)軟件為工具,以廣西師范學(xué)院計(jì)算機(jī)本科專(zhuān)業(yè)學(xué)生的基本信息和成績(jī)數(shù)據(jù)作為處理對(duì)象,對(duì)如何利用orange軟件中的決策樹(shù)算法對(duì)計(jì)算機(jī)專(zhuān)業(yè)的本科生的成績(jī)分布進(jìn)行了數(shù)據(jù)處理及分析,提供了詳細(xì)的實(shí)驗(yàn)步驟和方案。數(shù)據(jù)分析得到的結(jié)論符合計(jì)算機(jī)學(xué)科特點(diǎn),能夠?yàn)閷W(xué)院領(lǐng)導(dǎo)在專(zhuān)業(yè)培養(yǎng)計(jì)劃的制定中提供科學(xué)的依據(jù)。
參考文獻(xiàn)
[1]劉曉芬.決策樹(shù)分類(lèi)算法及其在高校學(xué)生就業(yè)中的應(yīng)用研究[D].湖北大學(xué)碩士學(xué)位論文.2012:26-32.
[2]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].國(guó)防工業(yè)出版社,2010:153-154.
[3]胡文瑜,孫志揮,吳英杰.數(shù)據(jù)挖掘取樣方法研究[J]. 計(jì)算機(jī)研究與發(fā)展,2011,48(1).45-54.
[4] 范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社,2012.
[5]劉春陽(yáng).數(shù)據(jù)挖掘技術(shù)在高校成績(jī)管理中的應(yīng)用研究[D].大連交通大學(xué)工程碩士學(xué)位論文.2009:29-4.
作者簡(jiǎn)介:
王宇紅(1991—),女,廣西桂林人,現(xiàn)就讀于廣西師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院。
馬健(1993—),男,山東龍口人,現(xiàn)就讀于廣西師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院。
通訊作者:覃曉(1973—),女,廣西環(huán)江人,碩士,廣西師范學(xué)院副教授,研究方向:數(shù)據(jù)挖掘。