馮麗慧 馮立智
摘要:數(shù)據(jù)挖掘技術(shù)自產(chǎn)生以來(lái),己經(jīng)被廣泛應(yīng)用于多種領(lǐng)域,并得到了充分的驗(yàn)證,顯示了其重要的經(jīng)濟(jì)和社會(huì)價(jià)值。利用數(shù)據(jù)挖掘技術(shù)快速而準(zhǔn)確的提取有價(jià)值的教學(xué)信息,提高畢業(yè)論文教學(xué)質(zhì)量是一項(xiàng)系統(tǒng)工程。研究目的在于探索如何在當(dāng)前的教學(xué)條件下提高學(xué)生畢業(yè)論文教學(xué)質(zhì)量,及時(shí)發(fā)現(xiàn)對(duì)教學(xué)管理有用的知識(shí),并將這些知識(shí)應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)工作實(shí)踐中,為學(xué)校管理者提供有用的信息,進(jìn)而獲得更好的管理效益。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹(shù);C4.5算法;教學(xué)管理;高校教學(xué)
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)30-7150-04
隨著數(shù)字信息化社會(huì)的飛速發(fā)展,計(jì)算機(jī)技術(shù)和數(shù)據(jù)庫(kù)管理系統(tǒng)被廣泛應(yīng)用于科學(xué)探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過(guò)程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫(kù)技術(shù),通過(guò)對(duì)教務(wù)管理的大量數(shù)據(jù)進(jìn)行多層次、多維度的加工處理,從而實(shí)現(xiàn)人性化管理,為科學(xué)決策提供支持。
畢業(yè)論文在教學(xué)體系中占有十分重要的位置,是本科生培養(yǎng)計(jì)劃中衡量教學(xué)質(zhì)量的重要指標(biāo)。提高畢業(yè)論文教學(xué)質(zhì)量是一項(xiàng)系統(tǒng)工程,為研究在當(dāng)前的教學(xué)條件下如何提高畢業(yè)論文教學(xué)質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對(duì)影響畢業(yè)論文成績(jī)管理的多方面因素進(jìn)行了深入分析和挖掘,以期發(fā)現(xiàn)對(duì)學(xué)校畢業(yè)論文教學(xué)管理有用的知識(shí),將這些知識(shí)應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)實(shí)踐中,為學(xué)校管理者提供有用的信息,進(jìn)而獲得更好的管理效益,為學(xué)校未來(lái)的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。
1 數(shù)據(jù)挖掘簡(jiǎn)介
數(shù)據(jù)挖掘(Data Mining),又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過(guò)分析每一個(gè)具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域。
1.1 數(shù)據(jù)挖掘的定義
H包含如下功能:
綜上所述,數(shù)據(jù)挖掘具有三大特點(diǎn):其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個(gè)對(duì)大量數(shù)據(jù)處理的過(guò)程,有特定的步驟[3]。
1.2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉領(lǐng)域,它由人工智能、機(jī)器學(xué)習(xí)的方法起步,并與統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)和可視化技術(shù)相融合,以數(shù)據(jù)庫(kù)為研究對(duì)象,圍繞面對(duì)應(yīng)用,為決策者提供服務(wù)。
數(shù)據(jù)挖掘的方法主要可分為六大類(lèi):統(tǒng)計(jì)分析方法、歸納學(xué)習(xí)方法、仿生物技術(shù)、可視化技術(shù)、聚類(lèi)方法和模糊數(shù)學(xué)方法。歸納學(xué)習(xí)法是目前重點(diǎn)研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學(xué)習(xí)法中的決策樹(shù)技術(shù)構(gòu)造分類(lèi)模型,將事例分類(lèi)成不同的類(lèi)別。
2 決策樹(shù)算法基本理論
2.1 決策樹(shù)方法介紹
決策樹(shù)[4]方法是以事例學(xué)習(xí)為基礎(chǔ)的歸納推算法,著眼于從一組無(wú)序的,無(wú)規(guī)則的事例中推斷出類(lèi)似條件下會(huì)得到什么值這類(lèi)規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個(gè)布爾函數(shù)[5]。決策樹(shù)歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來(lái)作預(yù)測(cè)。建模過(guò)程中,即樹(shù)的生長(zhǎng)過(guò)程是不斷的把數(shù)據(jù)進(jìn)行切分,采用“自頂向下,分而治之”的方法將問(wèn)題的搜索空間劃分為若干個(gè)互不交叉的子集,通常用來(lái)形成分類(lèi)器和預(yù)測(cè)模型。如圖1所示,為決策樹(shù)的示意圖。
決策樹(shù)一種類(lèi)似流程圖的樹(shù)形結(jié)構(gòu),是一種知識(shí)的表現(xiàn)形式。為了對(duì)未知樣本進(jìn)行分類(lèi),生成具體的分類(lèi)規(guī)則,信息樣本的各個(gè)屬性值要在決策樹(shù)上進(jìn)行測(cè)試。主要分為兩個(gè)階段:在第一階段中生成樹(shù)。決策樹(shù)最上面的節(jié)點(diǎn)為根節(jié)點(diǎn),是整個(gè)決策樹(shù)的開(kāi)始,然后遞歸的進(jìn)行數(shù)據(jù)分區(qū),每次切分對(duì)應(yīng)一個(gè)問(wèn)題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn);在第二階段中對(duì)樹(shù)進(jìn)行修剪,此過(guò)程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹(shù)的過(guò)匹配,進(jìn)而保證生成決策樹(shù)的有效性和合理性。當(dāng)一個(gè)節(jié)點(diǎn)中的所有數(shù)據(jù)都屬于同一類(lèi)別,或者沒(méi)有屬性可以再用于數(shù)據(jù)進(jìn)行分割時(shí),分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹(shù)算法,它是最早的決策樹(shù)算法之一。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本中具有信息增益值的屬性作為測(cè)試屬性,對(duì)樣本的劃分則依據(jù)測(cè)試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來(lái)的,它繼承了ID3算法的全部?jī)?yōu)點(diǎn),并增加了新的功能改進(jìn)了ID3算法中的不足,可以進(jìn)行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機(jī)的決策樹(shù)算法中,C4.5算法不僅分類(lèi)準(zhǔn)確而且執(zhí)行速度快。
C4.5通過(guò)兩個(gè)步驟來(lái)建立決策樹(shù):第一階段樹(shù)的生成,第二階段樹(shù)的剪枝。C4.5算法采用信息增益率來(lái)記錄字段不同取值的選擇,首先計(jì)算各個(gè)屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點(diǎn),自頂向下生成決策樹(shù)。C4.5算法構(gòu)造決策樹(shù)的基本策略如下:
首先計(jì)算出給定樣本所需的期望信息,設(shè)S為一個(gè)包含s個(gè)數(shù)據(jù)樣本的集合,對(duì)于類(lèi)別屬性,可以取m個(gè)不同取值,分別對(duì)應(yīng)于m個(gè)不同的類(lèi)別[Ci(i∈1,2,...,m)]。假設(shè)類(lèi)別[Ci]中的樣本個(gè)數(shù)為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計(jì)。
接著,計(jì)算當(dāng)前樣本集合所需用的信息熵,設(shè)一個(gè)屬性A具有n個(gè)不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個(gè)子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測(cè)試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類(lèi)別的樣本集,根據(jù)A劃分計(jì)算的熵為:
然后利用屬性A對(duì)當(dāng)前分支結(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分計(jì)算信息增益:
最后,求信息增益率,表達(dá)式為:
C4.5算法的偽代碼如下:
輸入:訓(xùn)練樣本Samples;目標(biāo)屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹(shù)
1)創(chuàng)建根節(jié)點(diǎn)root;
2)If Samples都在同一類(lèi)C Then;
3)返回label=類(lèi)C的單結(jié)點(diǎn)樹(shù)root;
4)If Attributes為空Then;
5)返回單結(jié)點(diǎn)樹(shù)root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測(cè)試屬性列表Attributes中的屬性;
8)IF測(cè)試屬性是連續(xù)的Then;
9)對(duì)測(cè)試屬性進(jìn)行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計(jì)算測(cè)試屬性的信息增益比率;
20)添加子樹(shù)Generate Tree C4.5;
21)對(duì)已建立的決策樹(shù)計(jì)算每個(gè)結(jié)點(diǎn)的分類(lèi)錯(cuò)誤,進(jìn)行剪枝,并返回根結(jié)點(diǎn)Root。
3 畢業(yè)論文成績(jī)管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)
利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的成績(jī)數(shù)據(jù)進(jìn)行提煉,所產(chǎn)生的結(jié)果和信息會(huì)對(duì)以后的教學(xué)管理工作提供有用的信息,進(jìn)而獲得更好的管理效益。解決問(wèn)題的重點(diǎn)在于怎樣對(duì)學(xué)生的畢業(yè)論文成績(jī)進(jìn)行全面且深度的分析,從而挖掘出成績(jī)與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹(shù)技術(shù)挖掘信息時(shí),主要操作步驟如下:
1)確定挖掘來(lái)源:清晰地定義挖掘?qū)ο?,明確挖掘目標(biāo)是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績(jī),旨在通過(guò)對(duì)大量成績(jī)數(shù)據(jù)進(jìn)行各層次的挖掘,全面了解具體影響學(xué)生畢業(yè)論文成績(jī)的各方面因素,正確的針對(duì)問(wèn)題擬定分析過(guò)程。
2)獲取相關(guān)知識(shí):數(shù)據(jù)是挖掘知識(shí)最原始的資料,根據(jù)確定的數(shù)據(jù)分析對(duì)象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問(wèn)題的數(shù)據(jù)收集完成之后,與目標(biāo)信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對(duì)學(xué)生進(jìn)行調(diào)查才能的得到。
3)數(shù)據(jù)預(yù)處理:此過(guò)程中是對(duì)已收集的大量數(shù)據(jù)進(jìn)行整合與檢查。因?yàn)榇娣旁跀?shù)據(jù)庫(kù)中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行清理、整理和歸并,以提高挖掘過(guò)程的精度和性能。
4)數(shù)據(jù)轉(zhuǎn)換:對(duì)預(yù)處理后的數(shù)據(jù)建立分析模型,對(duì)于特定的任務(wù),需要選擇合適的算法來(lái)建立一個(gè)準(zhǔn)確的適合挖掘算法的分析模型。本文采用決策樹(shù)技術(shù)進(jìn)行分類(lèi)建模來(lái)解決相應(yīng)的問(wèn)題。
5)分類(lèi)挖掘知識(shí)和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實(shí)現(xiàn)的功能和任務(wù)來(lái)確定挖掘的分類(lèi)模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當(dāng)?shù)某绦蛟O(shè)計(jì)語(yǔ)言來(lái)實(shí)現(xiàn)該算法,對(duì)凈化和轉(zhuǎn)換過(guò)得數(shù)據(jù)訓(xùn)練集進(jìn)行挖掘,獲得有價(jià)值的分析信息。
6)知識(shí)表示:將數(shù)據(jù)挖掘得到的分析信息進(jìn)一步的解釋和評(píng)價(jià),生成可用的、正確的、可理解的分類(lèi)規(guī)則呈現(xiàn)給管理者,應(yīng)用于實(shí)踐。
7)知識(shí)應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學(xué)管理中,教師可以利用所得到的知識(shí)針對(duì)性的開(kāi)展畢業(yè)設(shè)計(jì)的教學(xué)活動(dòng),進(jìn)一步指導(dǎo)教學(xué)工作,提高教學(xué)水平和學(xué)生的畢業(yè)論文質(zhì)量。
4 結(jié)論
最終發(fā)現(xiàn)影響學(xué)生畢業(yè)論文成績(jī)主要的因素不是指導(dǎo)教師的職稱(chēng),學(xué)生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學(xué)歷高低。根據(jù)具體分類(lèi)規(guī)則的結(jié)論,學(xué)校教學(xué)管理工作應(yīng)加重對(duì)教師的素質(zhì)及能力培養(yǎng),合理的分配每個(gè)教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學(xué)生整體論文質(zhì)量的提高。
在高校教學(xué)數(shù)字化的時(shí)代趨勢(shì)下,利用數(shù)據(jù)挖掘技術(shù)來(lái)挖掘提取教學(xué)工作中的全面而有價(jià)值信息,可以為教育管理者的教學(xué)工作提供有效的參考信息,改進(jìn)教學(xué)管理方法,提高教學(xué)質(zhì)量和學(xué)生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。
參考文獻(xiàn):
[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學(xué),2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005(2):150-154.
[4] Tom M Mitchell.(美)卡內(nèi)基梅隆大學(xué).機(jī)器學(xué)習(xí)[D].曾華軍,張銀奎,譯,北京:機(jī)械工業(yè)出版社,2003.
[5] Porter B W, Holte E R. Concept Learnin gand He uristic Classification in Weak Theory Domains[D].A rtificial Intelligence.1989,45(2):229-293.
[6] Quinlan J R. Induction of Decision Tree[J].Machine Learning,1986(1):81-106.