張秀玲
(長(zhǎng)春金融高等??茖W(xué)校現(xiàn)代教育中心 吉林 長(zhǎng)春 130012)
伴隨著科技的不斷發(fā)展,信息技術(shù)在各行業(yè)領(lǐng)域中的應(yīng)用變得更加廣泛。在這一背景下,傳統(tǒng)的數(shù)據(jù)收集和統(tǒng)計(jì)模式已經(jīng)無法滿足相關(guān)行業(yè)能力的需求,特別是在數(shù)字化校園技術(shù)中,針對(duì)數(shù)據(jù)信息的挖掘分析急需更加先進(jìn)的技術(shù),因此對(duì)于相關(guān)領(lǐng)域研究人員而言,了解數(shù)據(jù)挖掘技術(shù)和數(shù)字化校園技術(shù)的相關(guān)理論,認(rèn)識(shí)在數(shù)字化校園建設(shè)中對(duì)數(shù)據(jù)挖掘技術(shù)的具體使用需求,探索數(shù)字挖掘技術(shù)在數(shù)字化校園建設(shè)中的具體使用路徑,是其必須要關(guān)注的重要課題。
所謂數(shù)據(jù)挖掘技術(shù),一般是指依靠相關(guān)方式從相關(guān)實(shí)際應(yīng)用數(shù)據(jù)中把部分信息最大化地進(jìn)行提取利用和加工處理,一般來說,這些數(shù)據(jù)是提取者之前并未了解,但是卻知曉這些數(shù)據(jù)具有一定的利用價(jià)值,在實(shí)際使用數(shù)據(jù)挖掘技術(shù)的過程中,可以采用多種數(shù)據(jù)挖掘技術(shù),例如分析分類技術(shù)、序列模式分析技術(shù)、關(guān)聯(lián)分析技術(shù)等,但是在針對(duì)上述技術(shù)進(jìn)行選擇的過程中,應(yīng)當(dāng)充分基于現(xiàn)實(shí)情況,依靠數(shù)據(jù)挖掘,能夠?yàn)橄嚓P(guān)人員的決策行為帶來全方位的數(shù)據(jù)信息支持[1]。
所謂數(shù)字化校園,指的是在互聯(lián)網(wǎng)技術(shù)背景下,使用所有可以有效利用的資源和設(shè)備,實(shí)現(xiàn)對(duì)教學(xué)資源、教學(xué)環(huán)境、教學(xué)活動(dòng)等內(nèi)容的整體性全方位管理。把當(dāng)前的數(shù)字化信息技術(shù)和現(xiàn)代校園管理工作進(jìn)行融合,能夠有效推進(jìn)現(xiàn)代教育事業(yè)的發(fā)展,在這一大背景下,學(xué)校的相關(guān)配置能夠得到有效的優(yōu)化,也能夠有效推進(jìn)現(xiàn)代學(xué)校的建設(shè)和進(jìn)步。值得注意的是,數(shù)據(jù)挖掘技術(shù)在應(yīng)用過程中涉及到多個(gè)環(huán)節(jié),如數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)決策樹等,這些都是數(shù)據(jù)挖掘技術(shù)在使用過程中的重要算法,對(duì)不同級(jí)別的信息實(shí)現(xiàn)合理優(yōu)化分類,確定當(dāng)中存在的具有較高使用價(jià)值的數(shù)據(jù)信息[2]。在這一背景下,可以使用多種類型的數(shù)據(jù)挖掘工具,例如Clementine、MineSet。在這些技術(shù)當(dāng)中,Clementine技術(shù)是把不同種類的數(shù)據(jù)挖掘技術(shù)進(jìn)行整合,例如關(guān)聯(lián)規(guī)則技術(shù)、神經(jīng)網(wǎng)絡(luò)技術(shù)等,讓這些技術(shù)同時(shí)出現(xiàn)于對(duì)應(yīng)的可視化圖形界面之中,在使用Clementine技術(shù)的情況下,數(shù)據(jù)模型能夠在很短的時(shí)間中進(jìn)行快速建立,幫助相關(guān)人員對(duì)數(shù)據(jù)進(jìn)行有效分析,為其提供合理化建議[3]。
在數(shù)字化校園系統(tǒng)當(dāng)中,認(rèn)識(shí)管理系統(tǒng)指的是基于教師為核心,對(duì)教師的心理、治理、能力、績(jī)效等因素以及彼此之間的關(guān)聯(lián)性進(jìn)行分析,從而建立相關(guān)的人才培養(yǎng)機(jī)制,實(shí)現(xiàn)學(xué)校的正規(guī)化管理。因此在使用數(shù)據(jù)挖掘技術(shù)具體操作的過程中,第一步從數(shù)據(jù)庫中獲得教師的性別、年齡、工齡、學(xué)歷、職稱、發(fā)表論文等信息;第二步是使用Apriori算法,在數(shù)據(jù)立方體上搜索頻繁項(xiàng)集;第三步得出在Minsup=16%時(shí),{副教授、碩士、核心}support為16%,作為頻繁項(xiàng)集,在進(jìn)行二步挖掘之后,獲得6個(gè)關(guān)聯(lián)規(guī)則,運(yùn)算其置信度,依次為:
Conf{副教授/碩士 核心}=37%,Conf{碩士/副教授 核心}=47%,
Conf{核心/副教授 碩士}=42%,Conf{副教授 碩士/核心}=67%,
Conf{副教授 核心/碩士}=70%,Conf{碩士 核心/副教授}=67%
通過以上信息運(yùn)算可以發(fā)現(xiàn),教師群體中職稱為副教授,學(xué)歷為碩士同時(shí)發(fā)表論文等級(jí)為核心的教書數(shù)量占據(jù)人數(shù)總量的16%。依靠以上數(shù)據(jù)分析,能夠幫助學(xué)校領(lǐng)導(dǎo)作出相關(guān)決策,提升學(xué)校教師的整體層次。
一般情況下,校園教務(wù)系統(tǒng)內(nèi)容主要涉及有評(píng)價(jià)、選課、成績(jī)上交、課程設(shè)置、考場(chǎng)布置等功能,在教務(wù)系統(tǒng)中,含有大量的學(xué)生成績(jī)信息、學(xué)生基礎(chǔ)信息、課程信息等內(nèi)容,基于上述數(shù)據(jù)的關(guān)聯(lián)性,教務(wù)人員可以從這些數(shù)據(jù)中選取學(xué)生成績(jī)和個(gè)人信息,使用C4.5算法來對(duì)學(xué)生知識(shí)的掌握情況進(jìn)行了解,探尋彼此之間所存在的關(guān)系,并有針對(duì)性地制定教學(xué)內(nèi)容,提升學(xué)生們的學(xué)習(xí)熱情。
數(shù)據(jù)挖掘算法常見有:K-means算法、Apriori算法、PageRank算法,數(shù)據(jù)挖掘技術(shù)的創(chuàng)新應(yīng)用路徑主要可以分成明確目標(biāo)、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)處理以及數(shù)據(jù)分析(可視化)這些過程[4],如圖1所示。
圖1 數(shù)字化校園建設(shè)中對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用路徑
確定目標(biāo)是數(shù)字化校園建設(shè)中使用數(shù)據(jù)挖掘技術(shù)的起源,因此該階段工作具有十分重要的意義。在數(shù)字化校園建設(shè)過程中,其存儲(chǔ)的數(shù)據(jù)信息資源與學(xué)校的教師、學(xué)生等高度關(guān)聯(lián),因此,使用數(shù)據(jù)挖掘技術(shù)必須要基于學(xué)生和教師資源為基礎(chǔ),以協(xié)調(diào)教師和學(xué)生之間的關(guān)系為目標(biāo),有效推進(jìn)校園教學(xué)活動(dòng)開展。
在使用數(shù)據(jù)挖掘技術(shù)的過程中,需要開展數(shù)據(jù)的搜集和描述工作。一般情況下,數(shù)據(jù)準(zhǔn)備涉及兩個(gè)程序,依次為數(shù)據(jù)選取與數(shù)據(jù)預(yù)處理[5]。筆者以所在學(xué)校為案例,其數(shù)據(jù)選取工作包含有學(xué)生家庭狀況、閱讀消費(fèi)狀況、月度圖書借閱情況、社會(huì)實(shí)踐活動(dòng)參與情況等,以上均為數(shù)據(jù)選取的內(nèi)容。針對(duì)某一學(xué)生來說,在數(shù)據(jù)挖掘過程中,需要依靠校園一卡通系統(tǒng)查閱學(xué)生的閱讀伙食消費(fèi)狀況,依靠對(duì)學(xué)生數(shù)據(jù)的各個(gè)字庫中開展數(shù)據(jù)挖掘,之后把這些數(shù)據(jù)開展深層加工處理。學(xué)校還需要將學(xué)生在文字表現(xiàn)中所呈現(xiàn)的不同點(diǎn)開展量化處理,之后把全班學(xué)生分成若干個(gè)級(jí)別。學(xué)校使用了1~5級(jí)來進(jìn)行表示,其中處在1級(jí)別的學(xué)生為綜合素質(zhì)最強(qiáng),之后以此類推。
把以上數(shù)據(jù)作為基礎(chǔ),在本次研究活動(dòng)中,把全校學(xué)生級(jí)別作為類型標(biāo)識(shí)屬性,把家庭背景、月度消費(fèi)、必修課平均成績(jī)、圖書閱讀量、社會(huì)實(shí)踐活動(dòng)等作為屬性集合,之后依靠構(gòu)建數(shù)學(xué)模型,計(jì)算出每一種屬性的增益,如表1所示。
表1 學(xué)生數(shù)據(jù)表
依靠對(duì)以上五項(xiàng)內(nèi)容的增益情況開展對(duì)比,并描繪出相關(guān)的數(shù)據(jù)表以后,能夠讓相關(guān)人員對(duì)學(xué)校中相關(guān)學(xué)生的等級(jí)有較為直接的認(rèn)識(shí)和了解。學(xué)??梢酝ㄟ^數(shù)據(jù)挖掘技術(shù)得出相關(guān)結(jié)論。第一,不難發(fā)現(xiàn),在專業(yè)課中表現(xiàn)的好壞是衡量學(xué)生級(jí)別的重要原因之一;第二,圖書館借書次數(shù)較為頻繁,不難發(fā)現(xiàn)本校學(xué)生都比較重視學(xué)習(xí),但是積極參加社會(huì)活動(dòng)的學(xué)生,其綜合素質(zhì)評(píng)價(jià)并不一定會(huì)很高;第三,月度消費(fèi)額較高的學(xué)生都較為重視學(xué)習(xí)以外方面的內(nèi)容,如社會(huì)實(shí)踐活動(dòng)等,但是在學(xué)業(yè)上的精力投入會(huì)略顯不足;第四,并非是來自貧困家庭的學(xué)生都是優(yōu)秀學(xué)生,也不是家庭情況較為優(yōu)越的學(xué)生都是后進(jìn)生,以此可以衡量大學(xué)生是否優(yōu)秀的關(guān)鍵是觀察其個(gè)人努力的狀況等,綜合以上信息,經(jīng)過全面的數(shù)據(jù)挖掘以后,能夠把大量復(fù)雜的信息在進(jìn)行處理后變得直觀明了。
綜上所述,數(shù)據(jù)挖掘技術(shù)在在數(shù)字化校園建設(shè)中的應(yīng)用,能夠有效地將大量的數(shù)字信息提煉出有價(jià)值的信息,不僅有利于提高學(xué)校的管理效率,更有利于加快數(shù)字化校園的建設(shè),同時(shí),對(duì)學(xué)校的長(zhǎng)遠(yuǎn)發(fā)展還具有重要意義。