馬煜
(陜西中醫(yī)藥大學(xué)信息化建設(shè)管理處,咸陽(yáng) 712046)
基于Apriori算法的高校學(xué)生綜合測(cè)評(píng)數(shù)據(jù)挖掘
馬煜
(陜西中醫(yī)藥大學(xué)信息化建設(shè)管理處,咸陽(yáng) 712046)
高等院校在每年評(píng)選獎(jiǎng)學(xué)金工作中積累大量的數(shù)據(jù),將數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則挖掘算法Apriori應(yīng)用于學(xué)校學(xué)生綜合測(cè)評(píng)中,通過對(duì)這些數(shù)據(jù)分析,找到學(xué)生綜合測(cè)評(píng)與學(xué)生成績(jī)、家庭情況、性別、父母職業(yè)、父母教育背景、父母職業(yè)、學(xué)生在校獲獎(jiǎng)情況等相關(guān),為學(xué)生評(píng)優(yōu)工作、課程開設(shè)順序提供有力證據(jù)。
關(guān)聯(lián)規(guī)則;Apriori;數(shù)據(jù)挖掘;綜合測(cè)評(píng)
近些年隨著我國(guó)高等院校教育事業(yè)的飛速發(fā)展,高校每年招生數(shù)量不斷增多,從而學(xué)生管理工作變得尤為重要[1]。在實(shí)際的管理學(xué)生工作中,學(xué)生的信息之間有一定的潛在關(guān)聯(lián),女生在中醫(yī)理論方面強(qiáng)于男生,而男生又勝于實(shí)驗(yàn)課的操作環(huán)節(jié);理科學(xué)生成績(jī)普遍高于文科學(xué)生,而文科學(xué)生在大學(xué)英語(yǔ)通過率上又有明顯優(yōu)勢(shì)。此外,每屆學(xué)生課程順序的不同,也會(huì)對(duì)學(xué)生掌握新課程的難易起到了影響。
數(shù)據(jù)挖掘是從長(zhǎng)年積累的數(shù)據(jù)中找到具有潛在價(jià)值的信息。在長(zhǎng)期教學(xué)管理工作中,積累的數(shù)據(jù)越來越多,人們對(duì)這些數(shù)據(jù)挖掘相應(yīng)關(guān)聯(lián)知識(shí)的重視愈演愈烈。挖掘關(guān)聯(lián)規(guī)則就是從給定的數(shù)據(jù)集中搜索數(shù)據(jù)項(xiàng)之間所存在的有價(jià)值聯(lián)系[2]。本文將利用數(shù)據(jù)挖掘技術(shù),以現(xiàn)有數(shù)據(jù)為基礎(chǔ),基于Apriori算法提取隱含在其中的潛在有用信息,建立大學(xué)各科成績(jī)、學(xué)生性別、學(xué)生家庭情況、學(xué)生父母職業(yè)、學(xué)生父母教育背景等之間的關(guān)聯(lián),為教務(wù)管理部門提供依據(jù),同時(shí)探索課程開設(shè)順序?qū)W(xué)生各科成績(jī)的影響。
關(guān)聯(lián)規(guī)則挖掘就是從巨大的數(shù)據(jù)資源中尋找出數(shù)據(jù)間潛在有用信息的知識(shí)。1993年Rakesh Agrawal與 Ramakrishnan Srikant兩位博士首先提出了從交易數(shù)據(jù)庫(kù)發(fā)現(xiàn)項(xiàng)目間關(guān)聯(lián)規(guī)則的相關(guān)問題,并給出了基本頻繁集的Apriori算法[3]。關(guān)聯(lián)規(guī)則指的是事務(wù)對(duì)象間的相互依存關(guān)系,若多個(gè)事務(wù)間存在一定的內(nèi)部聯(lián)系,那么其中單個(gè)事務(wù)就可以通過其他事務(wù)推測(cè)出,其目的就是從事務(wù)集中找出不同事務(wù)之間的潛在聯(lián)系。目前該研究廣泛應(yīng)用于數(shù)據(jù)庫(kù)應(yīng)用、決策系統(tǒng)等方面。
1.1 關(guān)聯(lián)規(guī)則概念
設(shè)I={I1,I2,…,Im}是由m個(gè)不同事務(wù)組成的集合,其中Ik(k=1,2,…m)是該集合中的某一項(xiàng),包含k個(gè)項(xiàng)的項(xiàng)集為k-項(xiàng)集。設(shè)定一個(gè)事務(wù)數(shù)據(jù)庫(kù)D,而一個(gè)事務(wù)T是I的一個(gè)子集,由不同事務(wù)一起組成的事務(wù)集D就形成了關(guān)聯(lián)規(guī)則事務(wù)數(shù)據(jù)庫(kù)。假定X,Y是I中的項(xiàng)集,其中X?I,Y?I,X?Y≠?。依據(jù)X、Y同時(shí)出現(xiàn)的頻度(支持度)和既出現(xiàn)X又出現(xiàn)Y的強(qiáng)度(置信度),則可以確定關(guān)聯(lián)規(guī)則X?Y的成立,X稱為該關(guān)聯(lián)規(guī)則的前提,Y稱為結(jié)論[4]。
1.2 Apriori算法概述
Apriori算法會(huì)對(duì)事務(wù)集D進(jìn)行多次掃描以找出所有頻繁項(xiàng)集,在首次掃描時(shí)計(jì)算D中所有單個(gè)項(xiàng)的出現(xiàn)頻度(即支持度)生成候選項(xiàng)集C1,比較支持度后產(chǎn)生頻繁1項(xiàng)集L1,隨后通過L1自連接生成新的候選項(xiàng)集C2,在掃描D后對(duì)每個(gè)候選項(xiàng)統(tǒng)計(jì)后生成頻繁2項(xiàng)集L2,依次向后,直到不能找到新的頻繁項(xiàng)集。此外,候選項(xiàng)集通過剪枝生成頻繁項(xiàng)集,即刪除候選項(xiàng)集的支持度低于最小支持度閾值的項(xiàng)集,剪枝的思路是一個(gè)頻繁項(xiàng)集的任何一項(xiàng)集必定也是頻繁項(xiàng)集。而新候選項(xiàng)集CK的生成是通過頻繁項(xiàng)集Lk-1的自連接,自連接的前提是要求前(k-1)項(xiàng)相同。
由于在每次計(jì)算項(xiàng)集支持度時(shí),需要掃描一次事務(wù)集D,從而增加了時(shí)間復(fù)雜度;在尋找頻繁項(xiàng)集過程中要生成大量的候選項(xiàng)集,從而需要一定的內(nèi)存空間存放候選項(xiàng)集,增加了空間復(fù)雜度。
2.1 數(shù)據(jù)采集
通過從相關(guān)部門抽取500名學(xué)生的基本信息,其中女生350人,男生150人。同時(shí)收集這些學(xué)生的2015-2016學(xué)年第一學(xué)期各科成績(jī)、在校獲獎(jiǎng)情況。
2.2 數(shù)據(jù)庫(kù)建立
將獲取的數(shù)據(jù)進(jìn)行選擇并建立相應(yīng)的數(shù)據(jù)庫(kù),為關(guān)聯(lián)規(guī)則挖掘提供所需數(shù)據(jù)。Apriori算法將逐遍掃描數(shù)據(jù)庫(kù),通過設(shè)定的支持度生成新的候選集并找到頻繁項(xiàng)集,根據(jù)設(shè)定的最小置信度生成關(guān)聯(lián)規(guī)則。
2.3 關(guān)聯(lián)規(guī)則表達(dá)方式定義
本系統(tǒng)在信息挖掘過程中,關(guān)聯(lián)規(guī)則以文本方式形成。
例:中醫(yī)基礎(chǔ)理論優(yōu)→醫(yī)古文優(yōu)35%85%
3.1 挖掘結(jié)果
根據(jù)關(guān)聯(lián)規(guī)則Apriori算法,對(duì)500名學(xué)生數(shù)據(jù)信息進(jìn)行挖掘,得到相應(yīng)的關(guān)聯(lián)規(guī)則。
3.2 結(jié)果分析
①該規(guī)則支持度28%,置信度92%,表明了高等數(shù)學(xué)成績(jī)好的學(xué)生,他們的組織胚胎學(xué)成績(jī)也好,也表明了理科學(xué)生對(duì)組織形態(tài)的觀察能力和空間思維能力有著良好的基礎(chǔ)。
②該規(guī)則支持度35%,置信度85%,說明了馬克西主義原理成績(jī)高的學(xué)生,他們的醫(yī)學(xué)心理學(xué)成績(jī)也高,馬克思主義原理作為思政課,在一定程度上會(huì)對(duì)學(xué)生在醫(yī)學(xué)心理學(xué)上有著積極影響。
③該規(guī)則支持度25%,置信度87%,說明了內(nèi)科學(xué)成績(jī)高的學(xué)生,他們的溫病學(xué)成績(jī)也高。
④該規(guī)則支持度40%,置信度82%,說明了女生大學(xué)英語(yǔ)成績(jī)普遍比男生好,也表明了女生在語(yǔ)言學(xué)習(xí)上比男生更自覺主動(dòng)。
⑤該規(guī)則支持度28%,置信度70%,說明了思想道德修養(yǎng)與法律基礎(chǔ)成績(jī)好的學(xué)生,他們的醫(yī)古文成績(jī)也好。
⑥該規(guī)則支持度30%,置信度75%,說明了人體解剖學(xué)成績(jī)好的學(xué)生,他們的婦產(chǎn)科學(xué)成績(jī)也好。學(xué)生對(duì)人體結(jié)構(gòu)掌握后,對(duì)婦產(chǎn)科學(xué)有了更深的認(rèn)識(shí)。
⑦該規(guī)則支持度45%,置信度80%,說明了男生實(shí)驗(yàn)課成績(jī)普遍要比女生好,原因在于男生實(shí)際動(dòng)手能力比較強(qiáng),這與男女性格差異有關(guān)。
⑧該規(guī)則支持度20%,置信度90%,說明了擁有特長(zhǎng)的學(xué)生基本上都獲得過校園活動(dòng)獎(jiǎng)勵(lì),他們?cè)趯W(xué)生活動(dòng)中善于表現(xiàn)自己,性格普遍開朗。
⑨該規(guī)則支持度26%,置信度85%,說明了學(xué)生父母的教育文化程度對(duì)學(xué)生的特長(zhǎng)培養(yǎng)起到了很大影響。
⑩該規(guī)則支持度50%,置信度65%,在支持度提高的情況下,依舊能生成該規(guī)則,說明了醫(yī)古文課程成績(jī)的好壞對(duì)醫(yī)學(xué)心理學(xué)成績(jī)沒有太大的影響。
隨著高校學(xué)生信息的逐年豐富,管理者開始意識(shí)到從中獲取有用信息的重要性,數(shù)據(jù)挖掘技術(shù)逐漸受到了關(guān)注。本文將關(guān)聯(lián)規(guī)則挖掘應(yīng)用到高校學(xué)生綜合測(cè)評(píng)中,從學(xué)生的基本信息、每學(xué)年成績(jī)、在校獲獎(jiǎng)情況等數(shù)據(jù)中,得出學(xué)生綜合測(cè)評(píng)與學(xué)生性別、性格、學(xué)生父母文化程度等存在內(nèi)在聯(lián)系,也得出了部分課程在開設(shè)上,應(yīng)當(dāng)考慮先后順序,盡量將相關(guān)課程安排連貫有序,不易間隔過久影響學(xué)生后續(xù)課程的學(xué)習(xí)效果。
[1]張冬冬,李玉龍,王玉鑫.數(shù)據(jù)挖掘技術(shù)在高校貧困生認(rèn)定中的應(yīng)用[J].西安文理學(xué)院學(xué)報(bào):自然科學(xué)版,2013,16(4):90-94.
[2]郭景峰,路燕.一種數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則的高效算法[J].山西大同大學(xué)學(xué)報(bào):自然科學(xué)版,2008,24(4):35-37.
[3]陳則芝,李冬梅.數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則Apriori算法的優(yōu)化[J].山西大同大學(xué)學(xué)報(bào):自然科學(xué)版,2008,24(4):35-37.
[4]宋衛(wèi)林.基于最大頻繁項(xiàng)集的數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則算法研究[D].北京:北京郵電大學(xué),2006.
Data Mining of the Comprehensive Evaluation of College Students Based on Apriori Algorithm
MA Yu
(The Informatization Construction Management Office,Shaanxi University of Chinese Medicine,Xianyang 712046)
The massive data has been accumulated in the selection of scholarship annually among different colleges and universities in China.Applies the Apriori algorithm of association rules in student comprehensive evaluation system,through the analysis of data,figures out the relationship between the evaluation and various factors,provides positive evidence to the evaluation work and the reasonable sequence of courses.
Association Rules;Apriori Algorithm;Data Mining;Comprehensive Evaluation
1007-1423(2017)01-0011-03
10.3969/j.issn.1007-1423.2016.01.003
馬煜(1989-),男,陜西咸陽(yáng)人,碩士研究生,初級(jí)工程師,研究方向?yàn)樗惴ㄔO(shè)計(jì)與分析
2016-11-01
2016-12-05