沈偉明
[摘要]學(xué)校里每年都存放著大量的學(xué)生信息,這些信息的大部分是用于今后查對(duì),如果這些成千LYY的信息只用于核對(duì)和備案,可以說這是一種信息浪費(fèi)。如何充分地利用這些數(shù)據(jù),使其潛在的使用價(jià)值得到充分的挖掘和利用,為學(xué)校決策者提供決策依據(jù),科學(xué)指導(dǎo)教學(xué)。本文利用現(xiàn)有學(xué)生成績(jī)數(shù)據(jù)庫(kù),應(yīng)用改進(jìn)的數(shù)據(jù)挖掘Apfiofi算法進(jìn)行了情況分類,分析《c語(yǔ)言程序設(shè)計(jì)》課程成績(jī)優(yōu)秀直接影響《數(shù)據(jù)結(jié)構(gòu)》課程成績(jī)優(yōu)秀.學(xué)校可以調(diào)整教學(xué)內(nèi)容和改進(jìn)教學(xué)方法以適應(yīng)學(xué)生的學(xué)習(xí)和教學(xué)質(zhì)量的提高。
[關(guān)鍵詞]數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apfiofi算法
一、數(shù)據(jù)挖掘概述
1.1數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是近幾年來新興的一種對(duì)數(shù)據(jù)處理的技術(shù),又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),就是從大量的、不完全、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的,人們事先不知道的,但又是潛在有用的信息和知識(shí)(模型或規(guī)則)的過程,是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘的第一步就是將手中的信息進(jìn)行預(yù)處理操作后存放在數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清理與數(shù)據(jù)集成,數(shù)據(jù)清理的內(nèi)容有消除噪聲和不一致數(shù)據(jù),對(duì)于本文研究的學(xué)生成績(jī)數(shù)據(jù)庫(kù),因?yàn)樵趯W(xué)生成績(jī)輸入過程中可能出現(xiàn)輸入失誤。數(shù)據(jù)集成就是將多種數(shù)據(jù)源統(tǒng)一為一種存儲(chǔ)方式,在研究的學(xué)生成績(jī)信息大部分是以電子表格(EXCEL)和WPs文件格式存儲(chǔ)的,除此之外還有文本格式(TXT)與其它格式,要研究多年來所有學(xué)生的信息,必須把它們放在一個(gè)統(tǒng)一數(shù)據(jù)庫(kù)中以便數(shù)據(jù)挖掘系統(tǒng)進(jìn)行挖掘。數(shù)據(jù)挖掘在最近幾年里已被數(shù)據(jù)庫(kù)界廣泛研究,其中關(guān)聯(lián)規(guī)則的挖掘是一個(gè)重要的方面.
1.2關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則挖掘是在大量數(shù)據(jù)中項(xiàng)集之間發(fā)現(xiàn)有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,是一種簡(jiǎn)單卻很實(shí)用的分析規(guī)則。滿足x的數(shù)據(jù)庫(kù)元組也很可能會(huì)滿足Y。關(guān)聯(lián)規(guī)則挖掘問題可以劃分成兩個(gè)子問題:發(fā)現(xiàn)頻繁項(xiàng)目集;生成關(guān)聯(lián)規(guī)則。
1.3Apfiofi算法
首先設(shè)計(jì)一個(gè)保存有所有項(xiàng)集的類,它的主要屬性有PID:PID項(xiàng)集;Sup_count:PID項(xiàng)集的支持計(jì)數(shù),還包含一個(gè)主要方法,目的是判斷PID對(duì)象是否是頻繁項(xiàng)集。然后,我們要找到頻繁集項(xiàng),根據(jù)事務(wù)表的存儲(chǔ)方式,對(duì)表進(jìn)行簡(jiǎn)單l的SQL查詢就可得到支持計(jì)數(shù),從而判斷是否是頻繁一項(xiàng)集。找到頻繁一項(xiàng)集就可以通過頻繁k項(xiàng)集找了頻繁k+1項(xiàng)集,主要過程為:構(gòu)造出頻繁k項(xiàng)集的Lu和Lv,對(duì)其進(jìn)行連接步計(jì)算,如果可以連接,則生成候選的k+1項(xiàng)集;對(duì)通過連接步生成的候選k+1項(xiàng)集通過頻繁k項(xiàng)集進(jìn)行MN,縮小候選k+1項(xiàng)集;統(tǒng)計(jì)選k+1項(xiàng)集的支持度,通過對(duì)事物集進(jìn)行SQL統(tǒng)計(jì),計(jì)算出k+1項(xiàng)集的支持技術(shù),若滿足最小支持度,則標(biāo)記為頻繁項(xiàng)集。最后,對(duì)所有頻繁項(xiàng)集L找出其所有非空真子集Lu,計(jì)算Lu和L-Lu的置信度,這個(gè)即是頻繁項(xiàng)集又滿足最低之心度的項(xiàng)集即為一條關(guān)聯(lián)規(guī)則。至此,Apfiofi算法在程序中基本實(shí)現(xiàn),運(yùn)行程序,測(cè)試器有效性和效率,完成關(guān)聯(lián)規(guī)則并給出結(jié)果。
二、方案實(shí)施實(shí)例
1、挖掘?qū)ο蠹澳繕?biāo):本例以我校2009級(jí)計(jì)算機(jī)應(yīng)用技術(shù)專業(yè)畢業(yè)班的學(xué)生成績(jī)?yōu)樵紨?shù)據(jù),采用關(guān)聯(lián)規(guī)則和Apfiofi算法對(duì)該數(shù)據(jù)進(jìn)行分析,大致說明數(shù)據(jù)挖掘在高校成績(jī)管理中的應(yīng)用。
2、數(shù)據(jù)采集:成績(jī)數(shù)據(jù)庫(kù)中包括了學(xué)生的平時(shí)作業(yè)成績(jī)及課程的考試成績(jī)。這個(gè)數(shù)據(jù)庫(kù)由教師在教學(xué)過程中產(chǎn)生。
3、模型的選定:分析學(xué)生各科目成績(jī)的之間的影響關(guān)系,例如:某學(xué)生《c語(yǔ)言程序設(shè)計(jì)》優(yōu)秀與《數(shù)據(jù)結(jié)構(gòu)》優(yōu)秀的關(guān)系。我們采用關(guān)聯(lián)規(guī)則中最著名的Apfiofi算法。
4、集成數(shù)據(jù):將采集到的多個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)行合并操作。
5、清理數(shù)據(jù):在統(tǒng)計(jì)學(xué)生成績(jī)?cè)幢頂?shù)據(jù)時(shí),會(huì)存在一些屬性缺少屬性值的情況,對(duì)于這些缺少屬性值的屬性,采用清理技術(shù)來填補(bǔ)空缺的數(shù)據(jù)值.本文采用忽略元祖的方法把沒有參加考試學(xué)生及成績(jī)數(shù)據(jù)不完整的記錄n除掉.最后得到有效記錄數(shù)據(jù)。
6、轉(zhuǎn)換數(shù)據(jù):使用統(tǒng)一的格式表示成績(jī)數(shù)據(jù),便于數(shù)據(jù)挖掘、本文挖掘的是軟件專業(yè)學(xué)生備門課程之間的優(yōu)秀關(guān)系,使用關(guān)聯(lián)規(guī)則挖掘成績(jī)數(shù)據(jù)需要邏輯性數(shù)據(jù),所以大于90分成績(jī)定義屬性值為“1”。
三、Apriori算法數(shù)據(jù)挖掘
1)建立事務(wù)數(shù)據(jù)表,根據(jù)挖掘要求,只保留優(yōu)秀成績(jī),沒有獲得優(yōu)秀的學(xué)生記錄做n除處理。2)頻繁項(xiàng)集的數(shù)據(jù)表.表中用來存放項(xiàng)目名稱xl,X2及包含此項(xiàng)目的記錄數(shù)。3)將數(shù)據(jù)表中支持度計(jì)數(shù)小于最小支持度的記錄n除,得到最終頻繁l項(xiàng)集.4)求后繼各頻繁項(xiàng)目集.5)把最終頻繁項(xiàng)集中小于最小置信度。值的記錄n除,從而產(chǎn)生規(guī)則信息,存人數(shù)據(jù)表1。
計(jì)算最后的置信度,把小于最小置信度0值的記錄n除,得出最終關(guān)聯(lián)規(guī)則,存入數(shù)據(jù)表2
總之,隨著數(shù)據(jù)分析技術(shù)的發(fā)展,數(shù)據(jù)挖掘在學(xué)校教學(xué)管理方面有著巨大的應(yīng)用潛力,高校的教育管理者應(yīng)該充分認(rèn)識(shí)到信息的重要性,提高信息的利用效率。endprint