杜可敬
隨著信息科學(xué)技術(shù)的不斷進(jìn)步,社會(huì)的不斷發(fā)展,大數(shù)據(jù)已經(jīng)滲透到我們生活的方方面面,應(yīng)用的行業(yè)也是十分廣泛。其中大數(shù)據(jù)也滲透到高校的教學(xué)管理工作當(dāng)中,基于大數(shù)據(jù)的精確學(xué)情診斷、個(gè)性化學(xué)習(xí)分析和智能決策支持,大大提升了教育品質(zhì),對(duì)促進(jìn)教育公平、提高教育質(zhì)量、優(yōu)化教育治理都具有重要作用,已經(jīng)成為教育現(xiàn)代化必不可少的重要支撐。借助教育大數(shù)據(jù)能夠?qū)W(xué)習(xí)者的所有信息進(jìn)行系統(tǒng)地整理和分析,如可以運(yùn)用大數(shù)據(jù)設(shè)計(jì)教育環(huán)境,完善教學(xué)的場(chǎng)景,配置教育試驗(yàn)場(chǎng)景等,這些都能夠充分的調(diào)動(dòng)大學(xué)生群體在學(xué)習(xí)領(lǐng)域中的主動(dòng)性和積極性,對(duì)教育領(lǐng)域的發(fā)展有著不可估量的作用。目前隨著我國(guó)大眾化高等教育的普及以及高等學(xué)校的不斷擴(kuò)招,面對(duì)那么多的大學(xué)生每天產(chǎn)生的海量信息數(shù)據(jù),如何從中挖掘出有用信息更好地反饋到教學(xué)管理上,無(wú)疑對(duì)高校教學(xué)工作是一個(gè)很大的難題。因此要想解決此類問(wèn)題,就要提高大數(shù)據(jù)意識(shí),應(yīng)用數(shù)據(jù)挖掘技術(shù)探索數(shù)據(jù)中存在的潛在價(jià)值,從而不斷挖掘出高校教學(xué)管理中更高效的方法和策略。
當(dāng)前大數(shù)據(jù)背景下高校教學(xué)管理中主要存在以下問(wèn)題:(1)互聯(lián)網(wǎng)的迅速發(fā)展引起了網(wǎng)絡(luò)教育信息的海量增長(zhǎng),然而由于網(wǎng)絡(luò)結(jié)構(gòu)的龐雜性以及教育信息自身分布的無(wú)規(guī)律性,信息的獲取與應(yīng)用往往具有局限性。因此如何更加高效的獲取、利用教育信息資源更是一個(gè)重要的問(wèn)題。(2)在高校的教學(xué)中,特別是高校的基礎(chǔ)課程教學(xué)上,普遍存在著師資力量不足、生師比過(guò)高。譬如在一些學(xué)校的高等數(shù)學(xué)、大學(xué)英語(yǔ)等基礎(chǔ)課教學(xué)中,師生比平均高達(dá)1:200人,授課的班級(jí)規(guī)模越來(lái)越大,使得教師在教學(xué)過(guò)程中很難對(duì)每一個(gè)學(xué)生的學(xué)習(xí)情況做到很了解。同時(shí)對(duì)于在對(duì)學(xué)生的課下輔導(dǎo)答疑等方面也顯得力不從心,這必然影響教學(xué)的質(zhì)量。(3)每個(gè)學(xué)生的基礎(chǔ)不同。由于每個(gè)學(xué)生來(lái)自不同的地區(qū),各個(gè)地方的教育水平也有所不同,這就導(dǎo)致班級(jí)中的學(xué)生基礎(chǔ)水平參差不齊。如何平衡這些差異、體現(xiàn)素質(zhì)教育、對(duì)不同基礎(chǔ)的學(xué)生進(jìn)行分類,進(jìn)而因材施教是一個(gè)急需解決的問(wèn)題。(4)大數(shù)據(jù)觀念不強(qiáng)及對(duì)教學(xué)大數(shù)據(jù)的分析處理能力較弱。大數(shù)據(jù)作為一種新興技術(shù),將高校中的教育教學(xué)問(wèn)題和其結(jié)合是一個(gè)長(zhǎng)期、系統(tǒng)的工程,需要高校在教學(xué)管理中逐漸樹立運(yùn)用大數(shù)據(jù)的觀念。高校的教學(xué)管理者及教師,都應(yīng)該做到用數(shù)據(jù)管理、用數(shù)據(jù)決策,用數(shù)據(jù)進(jìn)行評(píng)價(jià),將大數(shù)據(jù)融入到日常的教學(xué)實(shí)踐中,使得教學(xué)方式、管理策略更加客觀化。
在教學(xué)實(shí)施過(guò)程中往往積累了大量的數(shù)據(jù),但目前對(duì)于這些數(shù)據(jù)的處理還局限于表面層次的對(duì)數(shù)據(jù)進(jìn)行備份、查詢以及簡(jiǎn)單統(tǒng)計(jì),使得這些寶貴數(shù)據(jù)不能發(fā)揮它應(yīng)有的作用。如何開發(fā)這些“寶藏?cái)?shù)據(jù)”,從中獲得有價(jià)值的知識(shí)是一個(gè)重要問(wèn)題。這里我們考慮采用數(shù)據(jù)挖掘中的分類技術(shù),可以將大量的數(shù)據(jù)轉(zhuǎn)化為分類規(guī)則,從而可以更好地分析和利用這些數(shù)據(jù),得出有用的信息。
對(duì)教育信息進(jìn)行分類,構(gòu)建一個(gè)統(tǒng)一的資源檢索平臺(tái),改善當(dāng)前教育信息資源分布無(wú)規(guī)律、組織結(jié)構(gòu)較為松散的狀況,為用戶檢索與使用教育信息資源提供了便利。另一方面,通過(guò)對(duì)相關(guān)數(shù)據(jù)的進(jìn)行分類分析,能夠形成對(duì)于當(dāng)前教育軟硬件資源分布狀況的統(tǒng)計(jì)描述,為教學(xué)管理人員、科研工作者等提供參考,有利于更好的依據(jù)宏觀統(tǒng)計(jì)把握與調(diào)配教育資源。因此,分類分析的思想在處理高校教育教學(xué)信息和數(shù)據(jù)方面發(fā)揮了重要作用,在教育領(lǐng)域展現(xiàn)出了極大的社會(huì)價(jià)值。
1.分類技術(shù)的基本思想
數(shù)據(jù)挖掘是從模糊的、不完全的、隨機(jī)的大量實(shí)際數(shù)據(jù)中來(lái)提取出那些隱含的、有潛在價(jià)值的、原先未知的有效信息。數(shù)據(jù)挖掘的主要任務(wù)有關(guān)聯(lián)分析、聚類分析、分類、預(yù)測(cè)、時(shí)序模式等。其中分類是數(shù)據(jù)挖掘領(lǐng)域中的重要技術(shù)和研究熱點(diǎn)。對(duì)于分類問(wèn)題我們都不陌生,日常生活中我們每天都在進(jìn)行著分類過(guò)程。例如,當(dāng)你看到一個(gè)人,你的腦子下意識(shí)判斷他是學(xué)生還是上班族;你可能經(jīng)常會(huì)走在路上對(duì)身邊的朋友說(shuō)“這個(gè)人一看就是白領(lǐng)”之類的話,其實(shí)這就是一種分類操作。簡(jiǎn)單說(shuō)分類的過(guò)程就是對(duì)事物做出區(qū)別的過(guò)程,現(xiàn)在有一名學(xué)生叫張三,你想確定他是好學(xué)生還是差學(xué)生,這個(gè)確定的過(guò)程就是分類。
分類就是找到一個(gè)類別的概念描述,它代表了這類數(shù)據(jù)的整體信息,即該類的內(nèi)涵描述,并用這種描述來(lái)構(gòu)造模型,一般用規(guī)則或決策樹模式表示。分類是利用訓(xùn)練數(shù)據(jù)集通過(guò)一定的算法而求得分類規(guī)則。分類可被用于規(guī)則描述和預(yù)測(cè)。其本意是對(duì)我們的數(shù)據(jù)進(jìn)行分類,把它們分到已知的某一個(gè)類別。舉個(gè)例子,就像一個(gè)果籃中有很多的梨子和葡萄,機(jī)器會(huì)通過(guò)我們訓(xùn)練出來(lái)的模型對(duì)果籃中的水果進(jìn)行分類。比如:綠色=梨子,紫色=葡萄。若要讓機(jī)器知道這種規(guī)則,我們就需要一定量的帶標(biāo)簽的“綠/紫”標(biāo)簽的數(shù)據(jù),然后讓模型學(xué)習(xí)。所以分類往往需要“帶標(biāo)簽”數(shù)據(jù)。目標(biāo)數(shù)據(jù)有哪些特征以及這些特征對(duì)應(yīng)什么標(biāo)簽都必須是已知的。
“別和其他壞學(xué)生在一起,否則你也會(huì)和他們一樣”這句話通常來(lái)自父母的勸誡,但它透露了不折不扣的近鄰思想。在分類技術(shù)中,K近鄰是最簡(jiǎn)單易于理解的算法。它的主要思想是通過(guò)待遇測(cè)樣本最近的K個(gè)樣本類別來(lái)判斷當(dāng)前樣本的類別。家長(zhǎng)希望孩子成為優(yōu)秀的三好學(xué)生,因此可以不惜花重金買學(xué)區(qū)房、上私立學(xué)?;蛘邊⒓痈鞣N補(bǔ)習(xí)班,原因之一是這些優(yōu)秀的學(xué)校里有更多優(yōu)秀的學(xué)生。與其他優(yōu)秀的學(xué)生走的更近,從分類技術(shù)中的K近鄰算法的角度看,就是讓目標(biāo)樣本與其他正樣本距離更近,與其他負(fù)樣本距離更遠(yuǎn),從而使得其近鄰中正樣本的比例更高,更大概率被判斷為正樣本。
“根據(jù)以往抓獲網(wǎng)癮少年的情況看,十個(gè)壞學(xué)生中有九個(gè)愛(ài)上網(wǎng)玩游戲”說(shuō)這句話的教導(dǎo)主任就是根據(jù)分類技術(shù)中的樸素貝葉斯算法來(lái)區(qū)分好、壞學(xué)生?!笆畟€(gè)壞學(xué)生有九個(gè)愛(ài)上網(wǎng)玩游戲”即“壞學(xué)生”上網(wǎng)玩游戲的概率P(上網(wǎng)玩游戲|壞學(xué)生)=0.9。假設(shè)根據(jù)教導(dǎo)主任處歷史記錄來(lái)看,壞學(xué)生占學(xué)生總數(shù)P(壞學(xué)生)=0.1,上網(wǎng)玩游戲發(fā)生的概率是P(上網(wǎng)打游戲)=0.09,那么此時(shí)若發(fā)生上網(wǎng)玩游戲事件,就可以利用分類技術(shù)中樸素貝葉斯算法判斷出當(dāng)事學(xué)生是“壞學(xué)生”概率P(壞學(xué)生|上網(wǎng)玩游戲)=P(上網(wǎng)玩游戲|壞學(xué)生)*P(壞學(xué)生)/P(上網(wǎng)打游戲)=1.0。由此判斷該當(dāng)事學(xué)生百分之百是“壞學(xué)生”。
“先看抽不抽煙,再看燙不燙頭,最后看講不講臟話”,這是社區(qū)大媽判斷一個(gè)學(xué)生是“好壞”學(xué)生的三項(xiàng)關(guān)鍵特征,那么這樣一個(gè)有先后次序的判斷邏輯就構(gòu)成了一個(gè)決策樹模型。在分類技術(shù)的決策樹分類算法中,最能區(qū)別類別的特征作為最先判斷的條件,然后依次向下判斷各個(gè)次優(yōu)特征。決策樹的核心就是在于如何選取每個(gè)節(jié)點(diǎn)的最優(yōu)判斷條件,即特征選擇的過(guò)程。
分類技術(shù)應(yīng)用的范圍也十分的廣泛。如在垃圾郵件的判別中,根據(jù)郵件正文中的單詞是否經(jīng)常出現(xiàn)在垃圾郵件中,進(jìn)行判斷。例如,如果一份郵件正文中出現(xiàn)“報(bào)銷”、“發(fā)票”、“促銷”等詞匯時(shí),該郵件被判定為垃圾郵件的可能性比較大;如在商品圖片分類中,淘寶上含有數(shù)以千計(jì)的商品圖片,“拍照購(gòu)”、“拍同款”等應(yīng)用必須對(duì)用戶提供的商品圖片進(jìn)行分類。同時(shí),提取商品圖片中的圖像特征,可以進(jìn)行按需推送,提高廣告的效果。
2.分類技術(shù)在高等教育中的應(yīng)用案例
(1)分類技術(shù)在高校學(xué)生成績(jī)分析中的應(yīng)用
高等教育的重點(diǎn)是提升教學(xué)質(zhì)量,為社會(huì)培養(yǎng)具有高素質(zhì)綜合能力強(qiáng)的復(fù)合型人才。而學(xué)生的成績(jī)作為衡量教學(xué)質(zhì)量的一個(gè)重要依據(jù),也是評(píng)價(jià)學(xué)生對(duì)知識(shí)掌握程度,學(xué)習(xí)態(tài)度的一個(gè)重要標(biāo)志。因此對(duì)學(xué)生成績(jī)進(jìn)行預(yù)測(cè)分析,可以為教學(xué)管理者深化教學(xué)改革,合理安排教學(xué)計(jì)劃,提高教學(xué)質(zhì)量提供重要依據(jù)。隨著學(xué)生成績(jī)數(shù)據(jù)量的急劇增長(zhǎng),教師很難再像從前一樣直接根據(jù)學(xué)生成績(jī)的分布尋找規(guī)律,并根據(jù)此規(guī)律來(lái)進(jìn)行決策。教師對(duì)學(xué)生成績(jī)的傳統(tǒng)分析處理一般僅僅是統(tǒng)計(jì)成績(jī)處于優(yōu)、良、一般、差級(jí)別的人數(shù),而對(duì)學(xué)生取得這些成績(jī)分布的原因無(wú)法了解。如果教師能充分了解引起學(xué)生取得這些成績(jī)的原因,必然能更好地“對(duì)癥下藥”提高教學(xué)質(zhì)量。對(duì)于在教學(xué)過(guò)程中產(chǎn)生的海量數(shù)據(jù),過(guò)去往往僅采用初級(jí)的數(shù)據(jù)備份、查詢及簡(jiǎn)單的統(tǒng)計(jì)階段,使得這些數(shù)據(jù)沒(méi)有得到充分利用?,F(xiàn)在可以采用數(shù)據(jù)挖掘分類技術(shù)將大量的數(shù)據(jù)轉(zhuǎn)化為分類規(guī)則,從而更好地分析這些數(shù)據(jù),得出有用的信息。
(2)分類技術(shù)在高校教學(xué)質(zhì)量評(píng)價(jià)中的應(yīng)用
教學(xué)質(zhì)量評(píng)價(jià)是高校教學(xué)質(zhì)量管理中備受關(guān)注的一個(gè)重要環(huán)節(jié),一個(gè)科學(xué)合理的教學(xué)質(zhì)量評(píng)價(jià)是保證優(yōu)質(zhì)教學(xué)的前提。在大數(shù)據(jù)時(shí)代,傳統(tǒng)的教學(xué)質(zhì)量評(píng)價(jià)體系以及跟不上教育改革的發(fā)展步伐,在大數(shù)據(jù)提供的新技術(shù)新思路下,我們嘗試構(gòu)建基于大數(shù)據(jù)挖掘技術(shù)的新型教學(xué)質(zhì)量評(píng)價(jià)體系,緊跟時(shí)代步伐積極推進(jìn)教學(xué)改革。傳統(tǒng)的教學(xué)質(zhì)量評(píng)價(jià)往往是按照以下步驟展開:首先教學(xué)主管部門按照本校的規(guī)章制度和實(shí)際情況制定一套評(píng)價(jià)指標(biāo)和權(quán)重,然后通過(guò)網(wǎng)絡(luò)對(duì)評(píng)價(jià)表進(jìn)行逐項(xiàng)打分,最后,教務(wù)處根據(jù)所得分?jǐn)?shù)進(jìn)行劃分教學(xué)質(zhì)量考核等級(jí),并以此作為重要參考對(duì)教師進(jìn)行評(píng)獎(jiǎng)評(píng)優(yōu)和年終考核。一般情況下,評(píng)價(jià)主體包括學(xué)生評(píng)價(jià)、同行之間互評(píng)、教學(xué)專家評(píng)價(jià)等,各個(gè)評(píng)價(jià)部分按重要程度占不同的權(quán)重。網(wǎng)絡(luò)評(píng)分后,我們要合理的利用數(shù)據(jù)挖掘分類技術(shù)對(duì)這些大量的評(píng)教數(shù)據(jù)進(jìn)行分析處理,尋找隱藏在其背后的有價(jià)值的信息,從而更好地反饋到教師的教學(xué)和管理當(dāng)中。
(3)分類技術(shù)在大學(xué)生教學(xué)資源特點(diǎn)分析上的應(yīng)用
高校的教學(xué)資源包括高等數(shù)學(xué)、大學(xué)英語(yǔ)、大學(xué)語(yǔ)文、大學(xué)物理、毛澤東思想概論、思想道德修養(yǎng)、體育等多個(gè)學(xué)科分類,是一個(gè)多分類問(wèn)題。此外,高校的教學(xué)資源看似獨(dú)立,實(shí)質(zhì)上內(nèi)部之間相互聯(lián)系緊密。比如大學(xué)英語(yǔ)中出現(xiàn)的歷史文化內(nèi)容,多為大學(xué)語(yǔ)文課教授內(nèi)容。而思想道德修養(yǎng)、毛澤東思想概論同屬于政治科目,在內(nèi)容上也存在著大量的交叉內(nèi)容。所以我們說(shuō)高等教育的教學(xué)資源具有多個(gè)類別標(biāo)簽,根據(jù)此特點(diǎn),我們利用分類技術(shù),分析資源特點(diǎn),進(jìn)行類別的劃分。
(4)分類技術(shù)在高校教學(xué)管理中的應(yīng)用
隨著我國(guó)目前高等教育的普及,高等學(xué)校的數(shù)量和規(guī)模也不斷增大,高校也面臨著越來(lái)越大的管理壓力。為了適應(yīng)高等教育的多元化和大眾化,培養(yǎng)高素質(zhì)應(yīng)用型人才,很多高校在培養(yǎng)方案上也進(jìn)行了大幅度的改革。大部分的高校采取“大專業(yè)、寬口徑、多方向”的培養(yǎng)模式。即在大學(xué)的前兩年,學(xué)習(xí)例如大學(xué)英語(yǔ)、大學(xué)數(shù)學(xué)等基礎(chǔ)必修課程,而后兩年,學(xué)生們可以根據(jù)自己的興趣、未來(lái)從業(yè)方向選一個(gè)方向進(jìn)行深入學(xué)習(xí)。專業(yè)方向的選擇一定程度上決定了未來(lái)的職業(yè)規(guī)劃和人生發(fā)展,所以合理地選擇適合自己的專業(yè)方向是一件很重要的事。高校教學(xué)管理者可以利用數(shù)據(jù)挖掘中的貝葉斯分類技術(shù),結(jié)合學(xué)生對(duì)專業(yè)選擇的實(shí)際要求,根據(jù)學(xué)生的實(shí)際學(xué)習(xí)情況和興趣愛(ài)好等方面進(jìn)行科學(xué)合理的分類預(yù)測(cè),給大學(xué)生選擇專業(yè)方向以及預(yù)測(cè)專業(yè)方向人數(shù)提供指導(dǎo),更有利于大學(xué)生的職業(yè)生涯規(guī)劃。
(5)分類技術(shù)在高校教學(xué)管理中的應(yīng)用
在高等學(xué)校中,貧困生工作也是學(xué)生管理中的一個(gè)重要部分。各大高校已經(jīng)建立了自己的貧困大學(xué)生庫(kù),面對(duì)大量復(fù)雜的貧困大學(xué)生信息,管理者的工作也越來(lái)越艱巨,對(duì)于貧困生的狀態(tài)和發(fā)展也越來(lái)越難以預(yù)測(cè)?,F(xiàn)在面對(duì)海量數(shù)據(jù),不應(yīng)該僅僅停留在簡(jiǎn)單的查詢和備份,而是需要通過(guò)對(duì)這些數(shù)據(jù)進(jìn)行挖掘獲得對(duì)貧困生準(zhǔn)確、有效的綜合評(píng)價(jià),從而為更公平合理的獎(jiǎng)助學(xué)金評(píng)定工作提供科學(xué)依據(jù)??梢岳脭?shù)據(jù)挖掘中的決策樹分類算法得出影響評(píng)定貧困生等級(jí)的各種因素,為高校貧困生綜合評(píng)價(jià)提供科學(xué)的決策支持,從而使高校學(xué)生管理部門能夠更科學(xué)的了解學(xué)生。
3.總結(jié)
隨著云計(jì)算和移動(dòng)互聯(lián)網(wǎng)的迅速發(fā)展,各類數(shù)據(jù)均呈現(xiàn)爆炸式的增長(zhǎng),大數(shù)據(jù)在教育領(lǐng)域也產(chǎn)生了深遠(yuǎn)的影響。學(xué)習(xí)行為、思維方式、教育管理、教學(xué)評(píng)估等無(wú)不受到大數(shù)據(jù)的影響。本文主要討論了大數(shù)據(jù)背景下傳統(tǒng)的教育教學(xué)模式下存在的一些不足,如何利用大數(shù)據(jù)技術(shù)挖掘隱藏在教學(xué)管理過(guò)程中產(chǎn)生的數(shù)據(jù)背后的有用價(jià)值信息,從而更好地改善教學(xué)質(zhì)量;最后本文簡(jiǎn)單介紹了數(shù)據(jù)挖掘分類技術(shù)在高校教學(xué)管理中應(yīng)用的幾個(gè)具體案例??傊咝5慕處熂肮芾碚邞?yīng)該增強(qiáng)自身的大數(shù)據(jù)意識(shí),將傳統(tǒng)的教學(xué)管理模式和大數(shù)據(jù)挖掘進(jìn)行結(jié)合,提高教學(xué)數(shù)據(jù)資源的使用效率,更好地應(yīng)對(duì)未來(lái)的挑戰(zhàn)。
(基金來(lái)源:1.北方民族大學(xué)研究生創(chuàng)新資助項(xiàng)目;2.項(xiàng)目名稱:基于三支決策的原型聚類算法研究;3.項(xiàng)目編號(hào):YCX21171。)