陳志忠
(四川郵電職業(yè)技術(shù)學(xué)院,四川成都610067)
數(shù)據(jù)挖掘聚類算法在學(xué)生信息管理系統(tǒng)中的應(yīng)用
陳志忠
(四川郵電職業(yè)技術(shù)學(xué)院,四川成都610067)
針對(duì)傳統(tǒng)的K-means聚類算法在學(xué)生信息管理中受隨機(jī)中心地址的影響,提出了數(shù)據(jù)分段方法進(jìn)行中心地址選擇。該算法將數(shù)據(jù)源進(jìn)行K段劃分,接著在每段內(nèi)中選擇中心地址,使用迭代回歸方法進(jìn)行中心選擇。在現(xiàn)有部分學(xué)生信息上進(jìn)行仿真結(jié)果表明,算法的迭代次數(shù)降低,所改進(jìn)算法提高了傳統(tǒng)K-means算法。
K-means;中心選擇;學(xué)生信息
隨著高校擴(kuò)張,各高校在校人數(shù)不斷增多,學(xué)生管理難度加大。同時(shí)對(duì)學(xué)生來講,在學(xué)校中接受教育時(shí),希望學(xué)生能接受多樣化的管理制度,為學(xué)生提供輕松、自由的學(xué)習(xí)環(huán)境。在信息化進(jìn)程日益加快的今天,學(xué)校管理中也開始引入計(jì)算機(jī)、互聯(lián)網(wǎng)等信息技術(shù),通過先進(jìn)技術(shù)的應(yīng)用提高管理水平。學(xué)生人數(shù)的增多,給學(xué)校管理帶來了挑戰(zhàn),為了提高學(xué)生管理效率和水平,很多學(xué)校都開始致力于學(xué)生信息管理系統(tǒng)的研究和應(yīng)用。在學(xué)生信息管理系統(tǒng)中,除了實(shí)現(xiàn)學(xué)生基本信息如專業(yè)、學(xué)籍、班級(jí)等的管理外,還將學(xué)生選課服務(wù)、學(xué)習(xí)進(jìn)度、畢業(yè)論文管理、就業(yè)信息管理等相關(guān)內(nèi)容融入其中,實(shí)現(xiàn)了學(xué)生所有信息管理的“一條龍”服務(wù)。通過專門的學(xué)生信息管理系統(tǒng),將學(xué)生各項(xiàng)信息都融合在一起,實(shí)現(xiàn)了所有信息的高水平管理。
當(dāng)今時(shí)代屬于信息時(shí)代,各類信息數(shù)據(jù)較多。在學(xué)校中,學(xué)生相關(guān)信息也多,而在互聯(lián)網(wǎng)的幫助下,學(xué)生信息也呈現(xiàn)出價(jià)值、海量特點(diǎn)。學(xué)校在開展學(xué)生信息管理時(shí),需要根據(jù)學(xué)生信息情況合理進(jìn)行分類,并根據(jù)學(xué)生具體需求開展相應(yīng)的信息管理,以提高信息管理水平。而要實(shí)現(xiàn)這些就需要借助學(xué)生數(shù)據(jù)信息的分析,如何從海量的信息中提取到真正有用的信息,則成為學(xué)校開展學(xué)生信息管理時(shí)面臨的一個(gè)重要問題。在這種情況下,就需要用到數(shù)據(jù)挖掘技術(shù),通過數(shù)據(jù)挖掘?qū)A康膶W(xué)生信息進(jìn)行深度挖掘、分析,提取到真正有用的學(xué)生信息,并用到學(xué)生信息管理中,提高學(xué)生信息管理水平。數(shù)據(jù)挖掘技術(shù)較多,如聚類算法、分類算法、回歸分析、關(guān)聯(lián)規(guī)則算法等,都是數(shù)據(jù)挖掘中經(jīng)常采用的方法。本文主要對(duì)數(shù)據(jù)挖掘中的聚類算法在學(xué)生信息管理系統(tǒng)中的應(yīng)用進(jìn)行了分析,為數(shù)據(jù)挖掘在學(xué)生信息管理中的具體應(yīng)用提供參考建議。
數(shù)據(jù)挖掘是計(jì)算機(jī)學(xué)科中的一門重要技術(shù)方法。數(shù)據(jù)挖掘是從好靚數(shù)據(jù)信息中搜索出有用或潛在的信息。一般情況下,數(shù)據(jù)挖掘主要通過統(tǒng)計(jì)、分析等實(shí)現(xiàn)。數(shù)據(jù)挖掘技術(shù)產(chǎn)生以后,最初在統(tǒng)計(jì)、數(shù)據(jù)庫(kù)、人工智能等行業(yè)和領(lǐng)域內(nèi)進(jìn)行應(yīng)用。隨著大數(shù)據(jù)時(shí)代的到來,各行各業(yè)都開始加大數(shù)據(jù)挖掘技術(shù)的應(yīng)用。數(shù)據(jù)挖掘時(shí),在數(shù)據(jù)信息來源判斷的基礎(chǔ)上,獲取到相關(guān)數(shù)據(jù)信息,并將相關(guān)數(shù)據(jù)信息整合到一起,進(jìn)行數(shù)據(jù)檢查,將不符合要求的數(shù)據(jù)去除,然后建構(gòu)數(shù)據(jù)模型,實(shí)現(xiàn)數(shù)據(jù)的挖掘、分析,從而完成數(shù)據(jù)挖掘工作。在數(shù)據(jù)挖掘過程中,最重要的一步工作是對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,保證數(shù)據(jù)信息、格式等和要求相符,從而進(jìn)行深度挖掘、分析。
數(shù)據(jù)挖掘技術(shù)較多,如聚類算法、分類算法、回歸分析、關(guān)聯(lián)規(guī)則算法等,都是數(shù)據(jù)挖掘中經(jīng)常采用的方法。如下是對(duì)幾種方法的具體分析:
關(guān)聯(lián)規(guī)則分析:關(guān)聯(lián)規(guī)則分析方法主要是對(duì)數(shù)據(jù)信息中隱藏的關(guān)系進(jìn)行挖掘分析。采用關(guān)聯(lián)規(guī)則分析法進(jìn)行數(shù)據(jù)挖掘時(shí),主要是通過兩個(gè)環(huán)節(jié)實(shí)現(xiàn):第一個(gè)環(huán)節(jié)是從海量的數(shù)據(jù)信息中尋找出真正符合要求的數(shù)據(jù);第二環(huán)節(jié)則是對(duì)這些數(shù)據(jù)信息中存在的關(guān)系進(jìn)行挖掘。在金融行業(yè)中,關(guān)聯(lián)規(guī)則分析法應(yīng)用較為廣泛。
分類:將海量數(shù)據(jù)中的具有相同點(diǎn)的數(shù)據(jù)按照類別歸為一類,并通過分類模型等實(shí)現(xiàn)數(shù)據(jù)的挖掘分析。在應(yīng)用分類、趨勢(shì)預(yù)測(cè)等領(lǐng)域中該方法應(yīng)用方法,如目前電商平臺(tái)都會(huì)采用分類算法向用戶推薦相關(guān)聯(lián)的商品信息。
聚類算法:將海量數(shù)據(jù)中相似的數(shù)據(jù)聚集到一起歸為一類,從而實(shí)現(xiàn)數(shù)據(jù)挖掘分析。
在聚類算法中,相似的數(shù)據(jù)在一個(gè)聚集內(nèi),實(shí)現(xiàn)了數(shù)據(jù)挖掘。聚類算法在學(xué)生信息管理系統(tǒng)中應(yīng)用時(shí),將具有相似特征的學(xué)生信息聚在一起;基于學(xué)習(xí)目標(biāo)將選課相同的學(xué)生匯集一起等。聚類算法也較多,如下對(duì)幾種聚類算法在學(xué)生信息管理系統(tǒng)中的具體應(yīng)用了詳細(xì)分析。
假設(shè)樣本數(shù)據(jù)用Y={y1,y2,..yn}表示,其中yi(1<i<n)表示一個(gè)對(duì)象;用C={c1,c2,..cm}表示有m個(gè)類;對(duì)于兩個(gè)對(duì)象之間的距離使用歐式距離其中m表示維數(shù)y表示第k個(gè)類中的中心類。
1)從數(shù)據(jù)Y中隨機(jī)選擇K個(gè)對(duì)象作為初始中心;
2)根據(jù)歐式距離方法計(jì)算所有的yi(1<i<n)到中心的距離;根據(jù)最小距離將對(duì)象進(jìn)行劃分;
3)計(jì)算聚類均值;
4)計(jì)算目標(biāo)函數(shù),如果函數(shù)值最小則算法終止;如果算法不滿足則跳轉(zhuǎn)到(2)。
在K-means聚類算法中,初始點(diǎn)的選擇直接影響到聚類效果。為了防止初始點(diǎn)選擇過于集中導(dǎo)致聚類效果不佳,本文提出了一種選擇中心點(diǎn)盡可能互相原理的算法,這樣既可提高聚類效果也可使得算法性能得到提高。算法過程如下所示:
1)假設(shè)Y={y1,y2,..yn}表示聚類樣品數(shù)據(jù),采用矩陣Dist=表示聚類距離矩陣,在該矩陣dij表達(dá)式中d(xi,xj)。
在學(xué)生信息管理系統(tǒng)中包含的結(jié)構(gòu)主要有:學(xué)生信息、學(xué)生班級(jí)、學(xué)生專業(yè)、學(xué)生考試成績(jī)等。表1為某部分學(xué)生信息表。
表1 某部分學(xué)生信息表
如圖1為距離代價(jià)函數(shù)很K值的關(guān)系。從圖中可以看出隨著K值增加距離變化逐漸降低,這表明算法性能有效。
圖1 K值和距離函數(shù)的關(guān)系
圖2 改進(jìn)算法和傳統(tǒng)算法效率比較
從圖2中可以看出隨著K值的增加改進(jìn)算法性能逐漸優(yōu)于傳統(tǒng)K-means算法。表明對(duì)距離進(jìn)行多次劃分可以提高算法性能。
傳統(tǒng)的K-means算法中心地址選擇是隨機(jī)選擇,這樣算法需要經(jīng)歷多次遞歸才能收斂,使得算法性能不高。本文提出了分段中心地址選擇,通過對(duì)性能分析,結(jié)果顯示改進(jìn)算法能夠提高算法性能。
[1]李紹中.數(shù)據(jù)挖掘改進(jìn)算法在學(xué)生成績(jī)分析中的應(yīng)用[J].科技通報(bào),2012,28(8):208-209.
[2]劉美玲,李熹,李永勝.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)與管理中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(5):1130-1133.
[3]王全旺,趙兵川.數(shù)據(jù)挖掘技術(shù)在Moodle課程管理系統(tǒng)中的應(yīng)用研究[J].電化教育研究,2011(11):69-73.
[4]孫力,程玉霞.大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育學(xué)習(xí)成績(jī)預(yù)測(cè)的研究與實(shí)現(xiàn)——以本科公共課程統(tǒng)考英語為例[J].開放教育研究,2015(3):74-80.
[5]王華,劉萍.改進(jìn)的關(guān)聯(lián)規(guī)則算法在學(xué)生成績(jī)預(yù)警中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2015(3):679-682.
TP311
A
1009-3044(2017)24-0021-02
2017-07-06