摘要:隨著全球網(wǎng)絡(luò)化,網(wǎng)絡(luò)環(huán)境已被應(yīng)用到各個領(lǐng)域,而學(xué)生信息的不斷增加使得普通數(shù)據(jù)庫已無法滿足學(xué)生管理需求。為了促進學(xué)生信息管理工作更好的開展,利用數(shù)據(jù)挖掘技術(shù)從大量歷史數(shù)據(jù)中挖掘其中隱含的信息就變得尤為重要,而挖掘的信息也可以作為指導(dǎo)學(xué)生信息管理工作開展的依據(jù)。本文以學(xué)生信息管理系統(tǒng)為研究對象,針對學(xué)生信息管理工作冗長復(fù)雜且管理困難等問題提出Apriori算法,Apriori算法在系統(tǒng)中的運用使得學(xué)生信息管理效率有了大幅度的提升。
關(guān)鍵詞:Apriori算法;信息管理;關(guān)聯(lián)規(guī)則
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9599 (2012) 21-0000-02
學(xué)生信息管理工作作為學(xué)校管理工作的重要內(nèi)容,目前學(xué)生信息管理工作內(nèi)容包括學(xué)生資料、學(xué)生成績、學(xué)生評估等多方面的內(nèi)容,由于數(shù)據(jù)來源眾多格式相對混亂,因而為信息管理工作帶來了許多困難,無論是存儲還是查閱都不方便。為了解決以上問題讓管理員在存儲、搜索和查閱學(xué)生信息的過程中更為簡便高效,本文提出了一種基于Apriori算法的學(xué)生信息管理系統(tǒng),該系統(tǒng)以學(xué)生成績?yōu)槔龑﹃P(guān)聯(lián)規(guī)則在管理系統(tǒng)中的實際運用進行了研究和探索。引入關(guān)聯(lián)規(guī)則算法中的Apriori算法對學(xué)生學(xué)年成績進行分析,通過挖掘數(shù)據(jù)中潛在的信息來探索學(xué)生的發(fā)展規(guī)律,為提高教學(xué)水平提供一定的科學(xué)依據(jù)。
1 數(shù)據(jù)挖掘技術(shù)
1.1 數(shù)據(jù)挖掘理論。數(shù)據(jù)挖掘是一種透過數(shù)理模式對數(shù)據(jù)進行分析,并從大量數(shù)據(jù)中找出其潛在規(guī)律的一種挖掘技術(shù),由于被挖掘的數(shù)據(jù)量龐大、模糊且不具備任何規(guī)律,所以數(shù)據(jù)挖掘數(shù)據(jù)是一項偉大的發(fā)現(xiàn)。數(shù)據(jù)挖掘又稱知識發(fā)現(xiàn),根據(jù)過程不同它大致可分為三個步驟,即數(shù)據(jù)準備、數(shù)據(jù)挖掘、結(jié)果表達和解釋,由于數(shù)據(jù)挖掘可以挖掘出潛在的規(guī)律和信息,它可以幫助決策者調(diào)整市場策略以降低運營風(fēng)險,做出正確的決策,所以它被廣泛的應(yīng)用于各個領(lǐng)域,對企業(yè)數(shù)據(jù)進行高度自動化的分析。
1.2 關(guān)聯(lián)規(guī)則簡介。關(guān)聯(lián)規(guī)則是指從數(shù)據(jù)庫中找出高頻數(shù)據(jù)項之間潛在的某種關(guān)系的規(guī)則,關(guān)聯(lián)規(guī)則在實際領(lǐng)域中的運用使得資源得到了有效的利用,而個領(lǐng)域的服務(wù)質(zhì)量有相對有所提升。Apriori算法是關(guān)聯(lián)規(guī)則中常用的一種算法,也是數(shù)據(jù)挖掘技術(shù)中影響力較大的一種算法,其核心是基于兩階段頻集思想的遞推算法。首先應(yīng)找出所有頻集,然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小置信度,一旦規(guī)則生成那些小于用戶預(yù)定最小置信度的規(guī)則則被排除,然后好再對剩下的頻集進行搜索和掃描,在壓縮收縮空間的同時提高頻繁項集的置信度。
2 關(guān)聯(lián)算法在學(xué)生成績管理系統(tǒng)的實現(xiàn)與具體應(yīng)用
2.1 關(guān)聯(lián)規(guī)則在程序中的應(yīng)用。在程序中實現(xiàn)關(guān)聯(lián)規(guī)則首先應(yīng)設(shè)計一個具有各種項集的類,還有一個可以判斷PID對象是否為頻繁項集的主要方法,然后根據(jù)事務(wù)表的存儲方式對頻繁集項進行SQL查詢判斷該頻繁項集是否符合要求。先構(gòu)造頻繁項集k的非空真子集Lu,并進行連接步計算,若連接成功則生成候選項集k+1;計算出項集k+1的支持度,若支持度大于最小支持度,則標記為頻繁項集;最后找出所有頻繁項集的非空真子集Lu,并通過事務(wù)表計算出非空真子集的置信度,比較非空真子集的置信度與最小置信度的大小,若符合則該項集為一條關(guān)聯(lián)規(guī)則,至此關(guān)聯(lián)規(guī)則在程序中的應(yīng)用就算實現(xiàn)了。
2.2 數(shù)據(jù)挖掘的具體應(yīng)用。由于學(xué)生推優(yōu)需要得出一個公正全面的評價結(jié)果,所以評價過程需對學(xué)生各方面的信息和表現(xiàn)進行綜合考慮,學(xué)科成績和綜合評測作為評價學(xué)生的重要依據(jù),挖掘這兩個數(shù)據(jù)庫中的數(shù)據(jù)就成了推優(yōu)工作的重要內(nèi)容。本文將我院2009級機械工程專業(yè)畢業(yè)班的學(xué)生成績作為數(shù)據(jù)挖掘的原始數(shù)據(jù),并利用數(shù)據(jù)挖掘中的Apriori算法對這些原始數(shù)據(jù)進行分析,促進數(shù)據(jù)挖掘技術(shù)在高校信息管理系統(tǒng)中的運用。
第一步:數(shù)據(jù)采集。如表1所示為2009級機械工程專業(yè)畢業(yè)班的學(xué)生成績,將這些數(shù)據(jù)據(jù)聚集到一起并建立一個原始數(shù)據(jù)庫,數(shù)據(jù)庫中包含了48名學(xué)生以及22門課程,總共1056條記錄。如表1所示為學(xué)生原始成績數(shù)據(jù):
第二步:數(shù)據(jù)預(yù)處理。為了簡化存儲過程,我們可以去掉一些無關(guān)項目或是用一些簡單的符號作為課程編號,通過這種數(shù)據(jù)轉(zhuǎn)換方式對數(shù)據(jù)進行預(yù)處理。如表2所示用學(xué)號代替學(xué)生姓名、C1表示體育科目、C2代表大學(xué)語文、C3表示實習(xí)科目,用C4表示大學(xué)英語等。如表2所示為原始數(shù)據(jù)轉(zhuǎn)換后的數(shù)據(jù)模式:
第三步:數(shù)據(jù)轉(zhuǎn)換:為了滿足數(shù)據(jù)挖掘所需要求,在進行數(shù)據(jù)挖掘前我們應(yīng)對數(shù)據(jù)的格式進行統(tǒng)一處理,在挖掘?qū)W生成績的過程中引入關(guān)聯(lián)分析,將預(yù)處理后的數(shù)據(jù)轉(zhuǎn)換成邏輯型數(shù)據(jù),而學(xué)生成績數(shù)據(jù)表則用布爾型數(shù)據(jù)表表示,為了體現(xiàn)各學(xué)科之間的優(yōu)劣關(guān)系,我們將90分以上的成績用“1”表示,90分以下的用“0”表示,“1”表示事務(wù)中該項存在,相反則不存在該項。
第四步:應(yīng)用Apriori 算法進行數(shù)據(jù)挖掘:
將置信度設(shè)置為0.6,支持度設(shè)定為0.2,將轉(zhuǎn)換后的數(shù)據(jù)導(dǎo)入關(guān)聯(lián)規(guī)則表,利用Apriori算法得出科目與成績之間的關(guān)聯(lián)規(guī)則。如表3所示為部分關(guān)聯(lián)規(guī)則:
從上表得知大學(xué)語文“優(yōu)”大學(xué)英語“優(yōu)”的置信度約為62%,機械制圖“優(yōu)”電工基礎(chǔ)“優(yōu)”的置信度約為64%,同樣的情況在工程力學(xué)和機械制圖兩個科目上也有所體現(xiàn),由此可見,這兩個科目是比較重要的課程,根據(jù)挖掘結(jié)果顯示可對這兩個科目的課程進行重點建設(shè)。
3 總結(jié)
通過實踐證明基于Apriori算法在學(xué)生信息管理系統(tǒng)中的應(yīng)用具有一定的實用價值,數(shù)據(jù)挖掘的針對性和準確性使得關(guān)聯(lián)規(guī)則算法在學(xué)生信息管理系統(tǒng)發(fā)揮了課程建設(shè)和提高教學(xué)水平的功能。盡管數(shù)據(jù)挖掘技術(shù)目前在高校學(xué)生管理系統(tǒng)中運用得并不多,但隨著關(guān)聯(lián)規(guī)則算法的不斷推廣,其獨特優(yōu)越性使得數(shù)據(jù)挖掘技術(shù)有了大力的推廣,而基于Apriori算法的學(xué)生信息管理系統(tǒng)也將成為高校學(xué)生管理領(lǐng)域今后發(fā)展的重要方向。
參考文獻:
[1]邱桃榮,白小明,張麗萍.基于粒計算的Apriori算法及其在圖書管理系統(tǒng)中的應(yīng)用[J].微計算機信息,2006,22(21):218-221.
[2]柴晟,成飏,李學(xué)鋒.基于改進Apriori算法的評教系統(tǒng)應(yīng)用研究[J].微計算機信息,2007,23(15):218-220.
[作者簡介]
陶榮(1981-),女,工程碩士,工作單位:廣西工商職業(yè)技術(shù)學(xué)院,講師,研究方向:計算機應(yīng)用技術(shù)。