• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    orange軟件在高校學(xué)生成績(jī)分析中的應(yīng)用

    2014-12-31 00:00:00王宇鴻覃曉馬健
    電子世界 2014年20期

    【摘要】本文以orange機(jī)器學(xué)習(xí)軟件為工具,以廣西師范學(xué)院計(jì)算機(jī)本科專(zhuān)業(yè)學(xué)生的基本信息和成績(jī)數(shù)據(jù)作為處理對(duì)象,詳細(xì)介紹了如何利用orange軟件中的決策樹(shù)算法對(duì)計(jì)算機(jī)專(zhuān)業(yè)的本科生的成績(jī)分布進(jìn)行數(shù)據(jù)處理及分析的過(guò)程。實(shí)驗(yàn)結(jié)果表明:數(shù)據(jù)分析得到的結(jié)論符合計(jì)算機(jī)學(xué)科特點(diǎn),能夠?yàn)閷W(xué)院決策者在專(zhuān)業(yè)培養(yǎng)計(jì)劃的制定中提供科學(xué)依據(jù)。

    【關(guān)鍵詞】orange;高校;學(xué)生成績(jī);數(shù)據(jù)挖掘

    1.引言

    學(xué)生的成績(jī)是衡量高校教學(xué)質(zhì)量的一個(gè)重要指標(biāo)。隨著高校學(xué)生人數(shù)的逐年增加,學(xué)生成績(jī)數(shù)據(jù)也越來(lái)越龐大,這些大量的數(shù)據(jù)中蘊(yùn)含著許多有意義的信息。數(shù)據(jù)挖掘(Data mining)是用于從大量的不完全的、模糊的、有噪聲的觀察數(shù)據(jù)中,去發(fā)現(xiàn)用戶(hù)感興趣數(shù)據(jù)的技術(shù)。利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)大量學(xué)生成績(jī)數(shù)據(jù)中的規(guī)律和隱含的知識(shí),對(duì)于指導(dǎo)高校教學(xué)質(zhì)量和培養(yǎng)計(jì)劃的制定都具有重要的實(shí)際意義。

    本文將利用數(shù)據(jù)挖掘工具軟件orange,以廣西師范學(xué)院計(jì)算機(jī)專(zhuān)業(yè)學(xué)生成績(jī)?yōu)槔?,?duì)計(jì)算機(jī)專(zhuān)業(yè)學(xué)生的成績(jī)做非監(jiān)督分類(lèi)處理分析。

    2.orange軟件簡(jiǎn)介

    Orange是一個(gè)基于組件的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)軟件套裝,其中封裝了決策樹(shù)、關(guān)聯(lián)規(guī)則、統(tǒng)計(jì)分析等數(shù)十種數(shù)據(jù)挖掘經(jīng)典算法。它功能友好,其具有快速而又多功能的可視化編程前端,可以方便瀏覽數(shù)據(jù)分析和可視化。Orange軟件是綁定了Python以進(jìn)行腳本開(kāi)發(fā),能夠與c,c++方便的融合。是數(shù)據(jù)挖掘的有利工具。打開(kāi)orange軟件后可見(jiàn)其界面圖:

    圖1 orange軟件的界面圖

    本文利用orange軟件中的ID3決策樹(shù)算法對(duì)廣西師范學(xué)院計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生成績(jī)做分類(lèi)分析。決策樹(shù)是一種利用信息論原理對(duì)樣本的屬性進(jìn)行歸納分類(lèi)產(chǎn)生的樹(shù)形結(jié)構(gòu)。

    構(gòu)建決策樹(shù)的基本步驟為:

    (1)連續(xù)屬性離散化

    (2)選擇測(cè)試屬性構(gòu)造決策樹(shù)

    (3)決策樹(shù)剪枝

    3.利用orange的id3算法分析高校學(xué)生成績(jī)

    在利用orange中的決策樹(shù)算法對(duì)高校學(xué)生成績(jī)進(jìn)行分析之前,進(jìn)行數(shù)據(jù)采集,并將數(shù)據(jù)處理成算法所需的數(shù)據(jù)格式等步驟。下面詳細(xì)介紹分析過(guò)程:

    3.1 數(shù)據(jù)采集

    本文以廣西師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院的3屆學(xué)生成績(jī)?yōu)槔?,?duì)其進(jìn)行處理分析。所采到的原始數(shù)據(jù)信息表包括:學(xué)生的基本信息表、學(xué)生學(xué)科成績(jī)表,其中學(xué)生學(xué)科成績(jī)表包含了學(xué)生大學(xué)四年所修的所有學(xué)科的成績(jī)數(shù)據(jù)。

    原始學(xué)生成績(jī)表如表1所示:

    表1 學(xué)生成績(jī)信息

    原始學(xué)生基本信息表如表2所示(基于保密原則,給出格式,學(xué)生具體信息不便透露):

    表2 學(xué)生基本信息

    表3 學(xué)生成績(jī)分布處理字段說(shuō)明

    Codedesign:程序設(shè)計(jì)成績(jī); math:數(shù)學(xué)成績(jī); P.E.:體育成績(jī);

    Introduceofcomputer:計(jì)算機(jī)導(dǎo)論成績(jī); English:英語(yǔ)成績(jī); Total:總成績(jī);

    area:籍貫; sex:性別; result:等級(jí)評(píng)定;

    表4 整理后的部分學(xué)生成績(jī)表

    codedesign math P.E. English introduceofcomputer area sex result

    1.3 1.3 1.8 1.7 0.7 M 1 C

    1.5 1.2 1.8 1.5 0.7 E 1 D

    1.4 1.4 1.8 1.5 0.7 W 1 C

    1.5 1.4 1.9 1.3 0.6 E 1 D

    3.2 數(shù)據(jù)預(yù)處理

    (1)數(shù)據(jù)清洗

    在收集到的數(shù)據(jù)中,往往包含著許多與挖掘任務(wù)無(wú)相關(guān)、冗余的屬性。為提高決策樹(shù)算法的效率,需要對(duì)原始數(shù)據(jù)進(jìn)行清洗。

    學(xué)生基本信息表的清洗:只保留性別、籍貫兩個(gè)屬性。

    學(xué)生成績(jī)信息表數(shù)據(jù)量大,科目繁多。為能夠在成績(jī)分類(lèi)挖掘中進(jìn)行統(tǒng)一比較,本文只選取了部分科目成績(jī)進(jìn)行整理比較。這些科目成績(jī)分別是:程序設(shè)計(jì)成績(jī)、數(shù)學(xué)成績(jī)、體育成績(jī)、英語(yǔ)成績(jī)和計(jì)算機(jī)導(dǎo)論成績(jī)數(shù)據(jù)。

    (2)數(shù)據(jù)規(guī)范化

    學(xué)校的學(xué)生成績(jī)信息是用百分制記錄,不符合ID3算法數(shù)據(jù)需離散型的要求,故應(yīng)ID3算法的要求,數(shù)據(jù)源整理為離散型變量。

    性別數(shù)據(jù)處理:男為1,女為2;

    籍貫數(shù)據(jù)處理:本次收集到的學(xué)生數(shù)據(jù)以廣西學(xué)生為多,桂南為S,桂北為N,桂東為E,桂西為W,桂中為M。廣西以外地區(qū)以another表示。

    成績(jī)數(shù)據(jù)離散化處理:由于原始成績(jī)都為百分制,使得數(shù)據(jù)過(guò)于連續(xù),難以進(jìn)行區(qū)分。處理方法為:將總成績(jī)除以一百,再進(jìn)行四舍五入。例:在其中一組數(shù)據(jù)49份P.E.成績(jī)中,學(xué)生的分?jǐn)?shù)從158分至192分不等,出現(xiàn)三十余組數(shù)據(jù)。將其成績(jī)除以100再四舍五入,如158分的成績(jī)將化為1.6,192分的成績(jī)則化為1.9。整組P.E.成績(jī)便被劃分為了:1.6、1.7、1.8、1.9四個(gè)組別。

    經(jīng)過(guò)預(yù)處理后,得到的學(xué)生信息表內(nèi)容如表3所示,部分?jǐn)?shù)據(jù)整理示例如表4所示.

    3.3 實(shí)驗(yàn)步驟

    (1)打開(kāi)orange軟件。

    (2)使用File部件負(fù)責(zé)所需分析數(shù)據(jù)的導(dǎo)入,Classification部件負(fù)責(zé)分類(lèi)算法的選擇,Classification Tree Viewer 與 Classification Tree Graph部件分別代表決策樹(shù)的兩種不同表達(dá)形式。前者是以樹(shù)狀目錄表的形式表示ID3的分類(lèi)結(jié)果,可以觀察到分類(lèi)的數(shù)據(jù)細(xì)節(jié),包括類(lèi)別、閾值等。后者以圖形的方式表示ID3的分類(lèi)結(jié)果,非常直觀。

    將部件以單線相連,便可以實(shí)現(xiàn)由File所導(dǎo)入數(shù)據(jù)的決策樹(shù)輸出。

    圖2 Orange Canvas部件連接圖

    (3)雙擊File部件將出現(xiàn)數(shù)據(jù)導(dǎo)入界面,按提示操作即可完成實(shí)驗(yàn)數(shù)據(jù)導(dǎo)入。

    (4)導(dǎo)入數(shù)據(jù)后,回到Orange Canvas部件連接圖,此時(shí)數(shù)據(jù)已經(jīng)通過(guò)Examples連接線段導(dǎo)入Classifiction Tree部件選擇了算法。Classifiction Tree的連接線段將其導(dǎo)入Classification Tree Viewer 部件和Classification Tree Graph部件。我們通過(guò)雙擊Classification Tree Viewer 與 Classification Tree Graph部件便可以得到?jīng)Q策樹(shù)的兩種表現(xiàn)形式。

    Classification Tree Graph示例如圖3所示:

    圖3 實(shí)驗(yàn)結(jié)果Classification Tree Graph表示

    3.4 實(shí)驗(yàn)結(jié)果分析

    從決策樹(shù)的分類(lèi)結(jié)果我們可以看出:信息熵下降程度最大的分類(lèi)屬性為math;其次為專(zhuān)業(yè)課成績(jī)introduceofcomputer。數(shù)據(jù)分布表現(xiàn)為:學(xué)生成績(jī)首先以math成績(jī)進(jìn)行分類(lèi),math成績(jī)lt;1.250的學(xué)生成績(jī)?cè)u(píng)定都為D,math成績(jī)gt;1.250的學(xué)生成績(jī)?cè)u(píng)定以C為多,占有73.7%;其次在math成績(jī)gt;1.250的學(xué)生里以introduceofcomputer成績(jī)進(jìn)行分類(lèi),introduceofcomputer成績(jī)lt;0.650的學(xué)生成績(jī)?cè)u(píng)定為為D,introduceofcomputer成績(jī)gt;0.650的學(xué)生成績(jī)?cè)u(píng)定為C,等等。

    從以上成績(jī)的分布來(lái)看,影響計(jì)算機(jī)專(zhuān)業(yè)學(xué)生的專(zhuān)業(yè)成績(jī)的主要因素有兩個(gè),一個(gè)是數(shù)學(xué)成績(jī),一個(gè)是計(jì)算機(jī)導(dǎo)論成績(jī)。這說(shuō)明了計(jì)算機(jī)專(zhuān)業(yè)本身是一個(gè)邏輯性很強(qiáng)的專(zhuān)業(yè),數(shù)學(xué)能力較強(qiáng)的學(xué)生比較容易適應(yīng)這個(gè)專(zhuān)業(yè)的學(xué)習(xí)。另一方面,計(jì)算機(jī)專(zhuān)業(yè)也是一個(gè)應(yīng)用型的專(zhuān)業(yè),要求學(xué)生有較強(qiáng)的動(dòng)手能力,反映到成績(jī)上,表現(xiàn)為一年級(jí)的學(xué)生如果在計(jì)算機(jī)導(dǎo)論的成績(jī)較好,說(shuō)明這些學(xué)生對(duì)計(jì)算機(jī)的操作熟練,對(duì)這個(gè)專(zhuān)業(yè)有直觀具體的認(rèn)識(shí),因而在后面的專(zhuān)業(yè)學(xué)習(xí)中成績(jī)也較好。

    4.結(jié)論

    本文以orange機(jī)器學(xué)習(xí)軟件為工具,以廣西師范學(xué)院計(jì)算機(jī)本科專(zhuān)業(yè)學(xué)生的基本信息和成績(jī)數(shù)據(jù)作為處理對(duì)象,對(duì)如何利用orange軟件中的決策樹(shù)算法對(duì)計(jì)算機(jī)專(zhuān)業(yè)的本科生的成績(jī)分布進(jìn)行了數(shù)據(jù)處理及分析,提供了詳細(xì)的實(shí)驗(yàn)步驟和方案。數(shù)據(jù)分析得到的結(jié)論符合計(jì)算機(jī)學(xué)科特點(diǎn),能夠?yàn)閷W(xué)院領(lǐng)導(dǎo)在專(zhuān)業(yè)培養(yǎng)計(jì)劃的制定中提供科學(xué)的依據(jù)。

    參考文獻(xiàn)

    [1]劉曉芬.決策樹(shù)分類(lèi)算法及其在高校學(xué)生就業(yè)中的應(yīng)用研究[D].湖北大學(xué)碩士學(xué)位論文.2012:26-32.

    [2]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學(xué)建模[M].國(guó)防工業(yè)出版社,2010:153-154.

    [3]胡文瑜,孫志揮,吳英杰.數(shù)據(jù)挖掘取樣方法研究[J]. 計(jì)算機(jī)研究與發(fā)展,2011,48(1).45-54.

    [4] 范明,孟小峰譯.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出版社,2012.

    [5]劉春陽(yáng).數(shù)據(jù)挖掘技術(shù)在高校成績(jī)管理中的應(yīng)用研究[D].大連交通大學(xué)工程碩士學(xué)位論文.2009:29-4.

    作者簡(jiǎn)介:

    王宇紅(1991—),女,廣西桂林人,現(xiàn)就讀于廣西師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院。

    馬健(1993—),男,山東龍口人,現(xiàn)就讀于廣西師范學(xué)院計(jì)算機(jī)與信息工程學(xué)院。

    通訊作者:覃曉(1973—),女,廣西環(huán)江人,碩士,廣西師范學(xué)院副教授,研究方向:數(shù)據(jù)挖掘。

    锡林浩特市| 濮阳县| 广州市| 全州县| 崇文区| 衡山县| 资兴市| 泸溪县| 内乡县| 巴东县| 宜城市| 博罗县| 广东省| 淮安市| 贵阳市| 淮北市| 营山县| 湾仔区| 广汉市| 新营市| 伽师县| 务川| 积石山| 洞头县| 利辛县| 余姚市| 松原市| 闵行区| 西乌珠穆沁旗| 庆元县| 丰镇市| 克拉玛依市| 通辽市| 东城区| 睢宁县| 故城县| 武功县| 惠水县| 永安市| 昌黎县| 饶平县|