楊筱平 徐馳
摘 要數(shù)據(jù)挖掘技術(shù)作為一項(xiàng)數(shù)據(jù)分析工具,已經(jīng)在多個行業(yè)領(lǐng)域得到廣泛應(yīng)用,極大的促進(jìn)了各領(lǐng)域的生產(chǎn)效率和管理效率。本文主要對數(shù)據(jù)挖掘技術(shù)的相關(guān)理論概念進(jìn)行了簡要介紹,然后以學(xué)生成績分析為例,對該項(xiàng)技術(shù)的應(yīng)用進(jìn)行分析,希望能對教育管理者和教學(xué)人員提供一定參考。
【關(guān)鍵詞】數(shù)據(jù)挖掘 大數(shù)據(jù) 教育 學(xué)生成績
1 數(shù)據(jù)挖掘技術(shù)基礎(chǔ)理論分析
1.1 涵義分析
數(shù)據(jù)挖掘是集合人工智能、數(shù)據(jù)庫、機(jī)器學(xué)、統(tǒng)計(jì)學(xué)、數(shù)學(xué)等多個學(xué)科的一門交叉性學(xué)科,該學(xué)科不僅能為商業(yè)性企業(yè)提供決策依據(jù),解決發(fā)展困境,還能為管理者優(yōu)化管理方案提供參考。數(shù)據(jù)挖掘技術(shù)就是對數(shù)據(jù)信息進(jìn)行提取、處理、分析和轉(zhuǎn)化,以期從海量、雜亂的數(shù)據(jù)信息中發(fā)現(xiàn)隱藏的規(guī)律,從而為企業(yè)或用戶制定科學(xué)的決策提供參考。
1.2 數(shù)據(jù)挖掘?qū)嵤┝鞒?/p>
數(shù)據(jù)挖掘過程是根據(jù)數(shù)據(jù)特征建立模型,然后通過科學(xué)檢驗(yàn),發(fā)現(xiàn)模型和數(shù)據(jù)之間規(guī)模的一系列活動,具體來說就是確定分析對象,對數(shù)據(jù)進(jìn)行預(yù)處理,選擇合適的數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)處理,將分析結(jié)果進(jìn)行可視化展現(xiàn)等,以下將對各個環(huán)節(jié)進(jìn)行詳細(xì)分析。
1.2.1 數(shù)據(jù)準(zhǔn)備
從操作上來說,數(shù)據(jù)準(zhǔn)備階段主要執(zhí)行的操作時數(shù)據(jù)選取、數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)化三相工作,具體來說就是選擇數(shù)據(jù)源,確定數(shù)據(jù)挖掘處理的對象,根據(jù)實(shí)際需求從海量數(shù)據(jù)中選擇所需要處理的數(shù)據(jù)內(nèi)容,生成目標(biāo)數(shù)據(jù);目標(biāo)數(shù)據(jù)多為原始數(shù)據(jù),可能會存在數(shù)據(jù)不全、數(shù)據(jù)污染等異常情況。為確保數(shù)據(jù)挖掘效果,需要對目標(biāo)數(shù)據(jù)進(jìn)行清洗,就是通過一系列操作補(bǔ)全殘缺數(shù)據(jù)、消除不合理數(shù)據(jù),使其轉(zhuǎn)為凈化數(shù)據(jù)待用。
1.2.2 數(shù)據(jù)挖掘
這一階段的工作主要是根據(jù)數(shù)據(jù)特征設(shè)定數(shù)據(jù)集合屬性,將不參與算法的字段進(jìn)行處理,然后將其他參與算法的字段看作一個新的數(shù)據(jù)集合;數(shù)據(jù)集合屬性設(shè)定完畢后,需要根據(jù)數(shù)據(jù)挖掘的目的和業(yè)務(wù)需求選擇合適的算法。
1.2.3 結(jié)果可視化呈現(xiàn)
數(shù)據(jù)分析處理結(jié)束后產(chǎn)生的結(jié)果不利于用戶直接使用,需要將其進(jìn)行轉(zhuǎn)化,然后通過可視化手段將其進(jìn)行展現(xiàn),為用戶決策或管理工作改進(jìn)提供參考。
1.3 關(guān)鍵技術(shù)介紹
數(shù)據(jù)挖掘技術(shù)雖是一項(xiàng)新興的數(shù)據(jù)處理技術(shù),但其發(fā)展速度十分迅猛,至今已經(jīng)形成了決策樹、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)習(xí)、聚類分析、關(guān)聯(lián)規(guī)則等多項(xiàng)數(shù)據(jù)挖掘技術(shù),極大的滿足了用戶的需求。
1.3.1 決策樹算法
決策樹算法是分類和預(yù)測的常用技術(shù)之一,可用于深入分析分類問題,使用時,決策樹能夠利用預(yù)測理論對多個變量中進(jìn)行分析,從而預(yù)測處任一變量的發(fā)展趨勢和變化關(guān)系;除此以外,還能對變量發(fā)展趨勢進(jìn)行雙向預(yù)測,既能進(jìn)行正向預(yù)測,也能進(jìn)行反向預(yù)測,因此具有方便靈活的優(yōu)勢。
1.3.2 神經(jīng)網(wǎng)絡(luò)算法
神經(jīng)網(wǎng)絡(luò)是將計(jì)算機(jī)技術(shù)與現(xiàn)代神經(jīng)生物學(xué)結(jié)合的產(chǎn)物,該技術(shù)是通過模擬人腦信息處理機(jī)制,對數(shù)值數(shù)據(jù)進(jìn)行處理,并在處理過程中表現(xiàn)出一種思維、學(xué)習(xí)和記憶能力。神經(jīng)網(wǎng)絡(luò)有多種分類方式,若按照互聯(lián)結(jié)構(gòu)分,可分為以下四種,如圖1所示。由結(jié)構(gòu)示意圖可知,神經(jīng)網(wǎng)絡(luò)能對大規(guī)模數(shù)據(jù)進(jìn)行處理,且容錯能力強(qiáng),具有很好的自組織和自適應(yīng)能力,在解決非線性復(fù)雜問題方面具有較高的優(yōu)勢。
1.3.3 統(tǒng)計(jì)學(xué)習(xí)
統(tǒng)計(jì)學(xué)習(xí)是一種預(yù)測方法,該法是對數(shù)據(jù)進(jìn)行深入分析,找出不能通過的規(guī)律,然后對所發(fā)現(xiàn)的規(guī)律進(jìn)一步研究和分析,并結(jié)合實(shí)際情況對數(shù)據(jù)發(fā)展趨勢進(jìn)行預(yù)測。由此可見,統(tǒng)計(jì)學(xué)習(xí)能對人類無法確認(rèn)的事務(wù)進(jìn)行預(yù)測,這對了解進(jìn)一步了解世界,探索未知事物具有重要意義。
1.3.4 聚類分析法
聚類分析作為一種非參數(shù)分析方法,可對樣本分組中多為數(shù)據(jù)點(diǎn)間的差異及關(guān)聯(lián)進(jìn)行分析,使用該法時,無需對數(shù)據(jù)進(jìn)行總體假設(shè),也不需要受數(shù)理依據(jù)等原則的限制,只需要通過數(shù)據(jù)搜集、數(shù)據(jù)轉(zhuǎn)換兩個步驟,就能完成聚類分析的全過程。聚類分析能對數(shù)據(jù)的分布情況進(jìn)行分析,還能對數(shù)據(jù)分布的局勢進(jìn)行快捷分析,準(zhǔn)確識別出密集和系數(shù)區(qū)域;另外,聚類分析對單類的數(shù)據(jù)同樣具有超強(qiáng)的分析能力,可對每個類的數(shù)據(jù)進(jìn)行深入分析,發(fā)現(xiàn)其特征,找出變量和類之間的內(nèi)在關(guān)聯(lián)性?;诰垲惙治鲈砘A(chǔ)上的方法很多,如層次法、密度分析法和網(wǎng)絡(luò)法就是最常用的聚類分析方法。
1.3.5 關(guān)聯(lián)規(guī)則法
關(guān)聯(lián)規(guī)則的主要優(yōu)勢是能對數(shù)據(jù)與數(shù)據(jù)之間的依賴關(guān)系進(jìn)行準(zhǔn)確描述,該技術(shù)能對給定事物數(shù)據(jù)庫進(jìn)行深入分析,尋找各數(shù)據(jù)和項(xiàng)目之間的內(nèi)在聯(lián)系,然后將所有符合支持度和置信度的,符合一定標(biāo)準(zhǔn)的關(guān)聯(lián)規(guī)則進(jìn)行羅列。關(guān)聯(lián)規(guī)則算法的典型代表是FP-Tree算法,經(jīng)過實(shí)驗(yàn)證明,該算法在處理數(shù)據(jù)關(guān)系方面具有十分強(qiáng)大的優(yōu)勢。
2 數(shù)據(jù)挖掘技術(shù)的應(yīng)用
近年來,數(shù)據(jù)挖掘技術(shù)得到了飛躍式發(fā)展,其應(yīng)用領(lǐng)域也涉及到商業(yè)零售、電信數(shù)據(jù)分析、金融數(shù)據(jù)分析、生物醫(yī)學(xué)分析、教育管理分析等多個領(lǐng)域。隨著各行各業(yè)信息化建設(shè)的不斷完善,大量的信息數(shù)據(jù)為數(shù)據(jù)挖掘技術(shù)的應(yīng)用提供了基礎(chǔ)和保障。本文將以教學(xué)為例,利用數(shù)據(jù)挖掘技術(shù)對學(xué)生學(xué)習(xí)成績進(jìn)行深入分析。
2.1 數(shù)據(jù)挖掘在教育教學(xué)中應(yīng)用的可行性分析
數(shù)據(jù)驅(qū)動學(xué)校,分析變革教育的大數(shù)據(jù)時代已經(jīng)帶來,利用數(shù)據(jù)挖掘技術(shù)對教育領(lǐng)域的相關(guān)數(shù)據(jù)進(jìn)行分析,探索教育變量之間的關(guān)系,為教育教學(xué)的科學(xué)決策提供有力支撐,已經(jīng)成為教育發(fā)展的趨勢之一。大數(shù)據(jù)時代的到來,將掀起人類教與學(xué)的又一次變革。對此,美國國家教育部于2012年就已經(jīng)發(fā)布了《通過教育數(shù)據(jù)挖掘和學(xué)習(xí)分析促進(jìn)教與學(xué)》的報(bào)告。報(bào)告中,列舉了大數(shù)據(jù)教育應(yīng)用的案例、領(lǐng)域、應(yīng)用中所面臨的困難以及應(yīng)采取的態(tài)度和對策等。
計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)在我國起步較晚,但發(fā)展迅速,尤其是近幾年“互聯(lián)網(wǎng)+”時代的到來,極大的促進(jìn)了各行各業(yè)的發(fā)展?;ヂ?lián)網(wǎng)的發(fā)展同樣會促進(jìn)學(xué)校信息化的建設(shè),加強(qiáng)教育教學(xué)領(lǐng)域的大數(shù)據(jù)研究和應(yīng)用分析,具有重要的實(shí)踐意義。教育學(xué)者在信息技術(shù)和網(wǎng)絡(luò)技術(shù)的影響下,逐漸加大了對數(shù)據(jù)挖掘技術(shù)的研究力度,通過一系列研究,就“國家和地方應(yīng)在技術(shù)層面、管理體制、法律制度上加大對大數(shù)據(jù)研究和應(yīng)用力度,按照發(fā)展現(xiàn)狀及未來規(guī)劃,整合現(xiàn)有資源,發(fā)揮后勁優(yōu)勢,真正推動我國教育教學(xué)工作的改革進(jìn)程。大數(shù)據(jù)給各個行業(yè)的發(fā)展帶來的變革和挑戰(zhàn)是前所未有的,就教育行業(yè)而言,教師的教學(xué)行為、學(xué)生的學(xué)習(xí)活動、教學(xué)管理工作、科學(xué)研究等數(shù)據(jù)都能為學(xué)校領(lǐng)導(dǎo)者制定決策提供依據(jù),數(shù)據(jù)挖掘技術(shù)在教育教學(xué)領(lǐng)域具有廣泛應(yīng)用價值。
2.2 數(shù)據(jù)挖掘技術(shù)對學(xué)生成績的分析
在教學(xué)領(lǐng)域,學(xué)習(xí)分析是其中最為重要的組成部分。學(xué)習(xí)分析就是收集與學(xué)習(xí)者有關(guān)的信息數(shù)據(jù),然后構(gòu)建數(shù)據(jù)模型,從中發(fā)現(xiàn)數(shù)據(jù)中隱含的規(guī)律;還可利用該技術(shù)對學(xué)習(xí)者的行為表現(xiàn)進(jìn)行分析,根據(jù)學(xué)生表現(xiàn)制定合適的學(xué)習(xí)計(jì)劃,提高學(xué)生的學(xué)習(xí)效率;總之,學(xué)習(xí)分析是涉及到社會學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)和信息技術(shù)等多種學(xué)科的一種理論方法,是利用海量數(shù)據(jù)的收集、分析、處理,發(fā)現(xiàn)影響學(xué)習(xí)者學(xué)校結(jié)果的因素,評價學(xué)生學(xué)習(xí)情況,根據(jù)分析反饋結(jié)果,對教學(xué)內(nèi)容、教學(xué)計(jì)劃和教學(xué)方式進(jìn)行調(diào)整和改進(jìn),以此推進(jìn)教學(xué)和學(xué)習(xí)的整體效率。
2.3 數(shù)據(jù)挖掘技術(shù)應(yīng)用過程
2.3.1 數(shù)據(jù)選取
數(shù)據(jù)是數(shù)據(jù)挖掘的基礎(chǔ),也是整個數(shù)據(jù)挖掘流程中耗費(fèi)時間和精力最多的環(huán)節(jié),大概占整個數(shù)據(jù)挖掘項(xiàng)目的60%-80%。在這一環(huán)節(jié)中,若數(shù)據(jù)類型沒有完成轉(zhuǎn)換,則數(shù)據(jù)類型與模型中的算法匹配度就會受到影響;數(shù)據(jù)中存在的噪聲過多或不完整度過高,就會影響模型的準(zhǔn)確性,由此可見,數(shù)據(jù)選取工作具有十分重要的地位,應(yīng)對其引起足夠的重視。數(shù)據(jù)質(zhì)量越高,越有利于實(shí)現(xiàn)挖掘目標(biāo),分析出來后所得出的規(guī)律結(jié)論更可靠。
2.3.2 數(shù)據(jù)挖掘過程
學(xué)生成績數(shù)據(jù)可通過學(xué)校教學(xué)平臺獲取,其挖掘過程如下:
(1)數(shù)據(jù)準(zhǔn)備階段。首先,先數(shù)據(jù)導(dǎo)入操作,選擇類型為Excel表格后,執(zhí)行查詢操作。然后,對數(shù)據(jù)進(jìn)行清理。將原始數(shù)據(jù)中異常數(shù)據(jù)、噪聲數(shù)據(jù)或不合理數(shù)據(jù)進(jìn)行清除;對不完整數(shù)據(jù)進(jìn)行字段補(bǔ)償,待數(shù)據(jù)符合數(shù)據(jù)挖掘要求后,將其導(dǎo)入數(shù)據(jù)庫。最后,數(shù)據(jù)轉(zhuǎn)換。將以百分制記錄的原始數(shù)據(jù)分為1-10個檔次的成績備用。
(2)數(shù)據(jù)挖掘階段。本文選擇決策樹為算法,對學(xué)生成績進(jìn)行數(shù)據(jù)挖掘。首先定義成績字段及其含義,可見表1所示。
本文以《C語言程序設(shè)計(jì)》、《Java應(yīng)用》、《計(jì)算機(jī)網(wǎng)絡(luò)》和《操作系統(tǒng)》四門課程學(xué)生成績?yōu)檠芯繉ο螅鶕?jù)研究目的構(gòu)建決策樹,對目標(biāo)數(shù)據(jù)進(jìn)行計(jì)算,然后將處理結(jié)果通過轉(zhuǎn)化形成可視化知識。
(3)數(shù)據(jù)可視化呈現(xiàn)及解釋。將分析結(jié)果進(jìn)行轉(zhuǎn)化后,形成如圖2和圖3的關(guān)系圖。
以上四門課程中,《C語言程序設(shè)計(jì)》成績較好時,《操作系統(tǒng)》對《計(jì)算機(jī)網(wǎng)絡(luò)》的影響較大;而《C語言程序設(shè)計(jì)》學(xué)習(xí)成績一般時(90分以下),《Java應(yīng)用》對《計(jì)算機(jī)網(wǎng)絡(luò)》的影響較大。針對以上分析結(jié)果,可對教學(xué)管理提出如下建議:《C語言程序設(shè)計(jì)》這門課程較為重要,應(yīng)該適當(dāng)增加課時,盡量保證每周可開設(shè)六個學(xué)時,而且要確保每周都有實(shí)踐課,提高學(xué)生動手操作的能力;《操作系統(tǒng)》這門課對其他課程的影響不大,可相應(yīng)減少課時;網(wǎng)站開發(fā)是以《Java應(yīng)用》課程為基礎(chǔ)的,而且該學(xué)科也是學(xué)習(xí)其他編程語言的基礎(chǔ),應(yīng)該適當(dāng)增加總課時數(shù)和實(shí)踐活動;《C語言程序設(shè)計(jì)》與《Java應(yīng)用》課程可以結(jié)合在一起上,學(xué)完《C語言程序設(shè)計(jì)》課程后就可繼續(xù)學(xué)習(xí)《Java應(yīng)用》,不需等到下一新學(xué)期再上。
3 結(jié)語
數(shù)據(jù)挖掘技術(shù)在分析海量數(shù)據(jù),尋找數(shù)據(jù)內(nèi)隱含規(guī)律方面具有明顯優(yōu)勢,通過數(shù)據(jù)挖掘分析,能為使用者科學(xué)決策,減少失誤提供技術(shù)保障;該技術(shù)的應(yīng)用還能促進(jìn)教學(xué)工作的有效性,提升教學(xué)質(zhì)量,促進(jìn)學(xué)生學(xué)習(xí)成績的進(jìn)步。
參考文獻(xiàn)
[1]崔廣風(fēng).數(shù)據(jù)挖掘中的統(tǒng)計(jì)方法及其應(yīng)用研究[D].四川:西南石油大學(xué),2014.
[2]黃雯.數(shù)據(jù)挖掘算法及其應(yīng)用研究[D].南京:南京郵電大學(xué),2013.
[3]吳澤曦.數(shù)據(jù)挖掘技術(shù)及其在車輛監(jiān)控系統(tǒng)中的應(yīng)用[D].北京:北京郵電大學(xué),2015.
作者單位
天水師范學(xué)院電子信息與電氣工程學(xué)院 甘肅省天水市 741001