劉金憶
(江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院 江蘇 南京 210000)
學(xué)生的成績(jī)至關(guān)重要,是衡量一所高校教育成果的重要標(biāo)準(zhǔn)。如今,每一所高校都十分重視學(xué)生的成績(jī)問(wèn)題,每年高等院校都會(huì)通過(guò)各種方式考核學(xué)生的學(xué)習(xí)成果,例如:舉行各種競(jìng)賽、課堂回答問(wèn)題、校內(nèi)活動(dòng)參與、舉行一學(xué)期一度的期末考試,這些考核方式的結(jié)果最終會(huì)根據(jù)一定的比例換算成分?jǐn)?shù),都體現(xiàn)在教務(wù)系統(tǒng)錄入的學(xué)生成績(jī)單上。所以,現(xiàn)在的大多數(shù)高校雖然利用了互聯(lián)網(wǎng)技術(shù)收集了大量的學(xué)生成績(jī),但當(dāng)前存在的問(wèn)題是對(duì)這些數(shù)據(jù)并沒有很好地利用,僅僅是簡(jiǎn)單的查詢和統(tǒng)計(jì),無(wú)法獲取成績(jī)之間隱含的大量信息,比如學(xué)生為何取得這些成績(jī),開設(shè)課程之間以及學(xué)生的成績(jī)與課程的設(shè)置之間的聯(lián)系[1]。如何科學(xué)地解決學(xué)校安排與學(xué)生成績(jī)之間、教學(xué)計(jì)劃與提高成績(jī)之間的問(wèn)題,更加充分合理科學(xué)地利用學(xué)生成績(jī)的寶貴數(shù)據(jù)資源,形成每一位學(xué)生獨(dú)特的“學(xué)生畫像”,為教學(xué)服務(wù),為就業(yè)服務(wù),為每一位學(xué)生的健康發(fā)展服務(wù),是現(xiàn)在亟待解決的關(guān)鍵問(wèn)題。
數(shù)據(jù)挖掘技術(shù)是一項(xiàng)充分利用了人工智能、模糊邏輯、神經(jīng)網(wǎng)絡(luò)、機(jī)器學(xué)習(xí)及數(shù)據(jù)統(tǒng)計(jì)等理論知識(shí)和方法技術(shù)的數(shù)據(jù)庫(kù)的核心技術(shù)。數(shù)據(jù)挖掘是從大量的、模糊的、繁雜的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但是極為有用的潛在信息和知識(shí)[2]。數(shù)據(jù)挖掘技術(shù)可以從繁雜的信息中提取有用的知識(shí),實(shí)現(xiàn)信息之間的相互連接,有效地利用數(shù)據(jù)信息的寶貴資源。數(shù)據(jù)挖掘技術(shù)通常要經(jīng)歷數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示等6個(gè)步驟[3]。數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和發(fā)展對(duì)數(shù)據(jù)庫(kù)的實(shí)際應(yīng)用起到了重要的作用,這項(xiàng)技術(shù)可以對(duì)數(shù)據(jù)庫(kù)的內(nèi)容進(jìn)行檢索、統(tǒng)計(jì)、分析,對(duì)數(shù)據(jù)信息資源加以整合,用來(lái)解決實(shí)際應(yīng)用中的問(wèn)題。另外,數(shù)據(jù)挖掘技術(shù)還可以通過(guò)智能的分析數(shù)據(jù)信息,找出信息與信息之間的聯(lián)系,從而發(fā)現(xiàn)一些事物在發(fā)展過(guò)程中的規(guī)律性。所以,利用數(shù)據(jù)挖掘技術(shù)可以有效分析事件發(fā)展的規(guī)律,抽絲剝繭,預(yù)測(cè)事件未來(lái)的發(fā)展方向。因此,在我國(guó)的高校教育方面,利用數(shù)據(jù)挖掘技術(shù)對(duì)高校學(xué)生的成績(jī)進(jìn)行分析和預(yù)測(cè),從而研究和總結(jié)出學(xué)生的專業(yè)能力和學(xué)習(xí)水平、學(xué)校課程設(shè)置和學(xué)生成績(jī)的取得之間的關(guān)系,是教學(xué)實(shí)踐中的明智之舉。
大多數(shù)科研項(xiàng)目的進(jìn)行都離不開提出問(wèn)題、假設(shè)條件的過(guò)程。與此相同,根據(jù)數(shù)據(jù)挖掘技術(shù)建立數(shù)據(jù)庫(kù)模型也離不開對(duì)提出的問(wèn)題的探索,只有提出了具體的問(wèn)題,模型才能根據(jù)問(wèn)題給出相應(yīng)的解決策略。在這一過(guò)程中,要求提出問(wèn)題、進(jìn)行假設(shè)時(shí)要充分了解數(shù)據(jù)挖掘技術(shù),熟悉這一數(shù)據(jù)庫(kù)研究和建設(shè)的經(jīng)驗(yàn)和知識(shí),同時(shí),還要有勇氣和創(chuàng)新力、想象力,大膽地進(jìn)行假設(shè),根據(jù)某一具體數(shù)據(jù)的數(shù)值,推斷出與之相關(guān)聯(lián)的信息,繼而要結(jié)合實(shí)際,小心謹(jǐn)慎地求證這些問(wèn)題,得出結(jié)論。這一過(guò)程是實(shí)施數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校學(xué)生成績(jī)分析,建立相關(guān)數(shù)據(jù)庫(kù)模型的基礎(chǔ),要求數(shù)據(jù)挖掘技術(shù)的研究者加強(qiáng)與相關(guān)領(lǐng)域的專家、學(xué)者相互溝通,充分協(xié)作。
一般情況下,收集數(shù)據(jù)的方法通常有“調(diào)查法”和“設(shè)計(jì)實(shí)驗(yàn)法”兩種,“調(diào)查法”就是根據(jù)某一具體要求從特定的人群中得出的數(shù)據(jù)結(jié)果,有訪問(wèn)調(diào)查、郵寄調(diào)查、電話調(diào)查、網(wǎng)上調(diào)查等。“設(shè)計(jì)實(shí)驗(yàn)法”是根據(jù)研究主體的特點(diǎn)設(shè)置定量和相關(guān)變量,根據(jù)二者之間的關(guān)系得出大量數(shù)據(jù),之后,研究人員還要根據(jù)數(shù)據(jù)的規(guī)律和研究,填補(bǔ)缺失數(shù)據(jù)。這兩種方法各有其特點(diǎn),在實(shí)際應(yīng)用中可以靈活地選擇使用。按照以上兩種方法收集的數(shù)據(jù)繁多、較為雜亂,有個(gè)別異常數(shù)據(jù)的存在或者個(gè)別數(shù)值的缺失,這些都會(huì)干擾數(shù)據(jù)挖掘中的信息提取結(jié)果,因此,收集到足夠的數(shù)據(jù)之后就要對(duì)這些信息進(jìn)行初步的處理。對(duì)于異常數(shù)據(jù)的出現(xiàn),可以在確定它的不合理性后,采用其他數(shù)據(jù)的平均值或者眾數(shù)進(jìn)行測(cè)算,得出相近的、合理的數(shù)值結(jié)果進(jìn)行替代。若存在缺位數(shù)據(jù),可以使用數(shù)據(jù)中的出現(xiàn)較多的數(shù)值或者根據(jù)平均值選擇最為可能的數(shù)值來(lái)填補(bǔ)空缺的數(shù)值。
一般而言,收集數(shù)據(jù)是為了得出數(shù)據(jù)之間的關(guān)聯(lián)并由此推斷出數(shù)據(jù)信息的發(fā)展規(guī)律,進(jìn)而分析它們產(chǎn)生的原因和影響的因素。所以,在收集到數(shù)據(jù)并對(duì)它們進(jìn)行了初步的處理以后就要仔細(xì)分析,根據(jù)研究的需要建立數(shù)據(jù)挖掘模型。在這一過(guò)程中,要求減少人為干擾因素,保持?jǐn)?shù)據(jù)模型的科學(xué)性和客觀性,還要確保數(shù)據(jù)挖掘模型的實(shí)用性和準(zhǔn)確性,使普通人經(jīng)過(guò)一般的學(xué)習(xí)就可以進(jìn)行操作。在數(shù)據(jù)挖掘模型建設(shè)的科學(xué)性和準(zhǔn)確性方面,要求數(shù)據(jù)模型開發(fā)者參考相關(guān)領(lǐng)域的資料,與相關(guān)領(lǐng)域的專家和學(xué)者進(jìn)行合作,運(yùn)用先進(jìn)的建模技術(shù),得出高精確度的、高實(shí)用性的數(shù)據(jù)挖掘技術(shù)模型。
數(shù)據(jù)挖掘技術(shù)不斷發(fā)展與進(jìn)步,高校的數(shù)據(jù)庫(kù)建立也越來(lái)越完善,數(shù)據(jù)資源越來(lái)越多,然而大多數(shù)高校只是把這些統(tǒng)計(jì)的成績(jī)當(dāng)作查詢和記錄的數(shù)據(jù),這是對(duì)資源的一種浪費(fèi)。如同電商領(lǐng)域的用戶畫像用于精準(zhǔn)定位目標(biāo)客戶,學(xué)生畫像可以將“因材施教”做到極致。及時(shí)了解學(xué)生成績(jī)的影響因素和學(xué)校教育與學(xué)生成績(jī)之間的關(guān)系,這些是完成學(xué)生畫像繪制的重要環(huán)節(jié)。
高校學(xué)生成績(jī)由多種考察的結(jié)果構(gòu)成,因此,最終影響學(xué)生成績(jī)的因素也較多,要利用數(shù)據(jù)挖掘技術(shù)對(duì)高校學(xué)生成績(jī)進(jìn)行分析就要選擇合適的挖掘內(nèi)容,確立建立數(shù)據(jù)挖掘技術(shù)模型的目標(biāo)。在高校學(xué)生的成績(jī)構(gòu)成中,可以選擇期末考試成績(jī)?yōu)榛A(chǔ)數(shù)據(jù),以研究影響學(xué)生期末考試成績(jī)的因素為目標(biāo),據(jù)此,建立數(shù)據(jù)挖掘技術(shù)模型,進(jìn)一步分析和總結(jié)規(guī)律。
在數(shù)據(jù)挖掘技術(shù)模型中有多種算法,例如:分類分析、聚類分析、神經(jīng)網(wǎng)絡(luò)方法、決策樹算法等[4]。在這里,數(shù)據(jù)模型建設(shè)者可以采用決策樹算法,首先對(duì)數(shù)據(jù)進(jìn)行分類,列出一組組的數(shù)據(jù),分析每一組挖掘數(shù)據(jù),建設(shè)出清晰的決策樹。最后,對(duì)決策樹的每一個(gè)分支進(jìn)行更詳細(xì)的分析和補(bǔ)充,進(jìn)一步得出學(xué)生成績(jī)的影響因素。
例如:將學(xué)生的期末考試成績(jī)分成4個(gè)等級(jí),不同的等級(jí)對(duì)應(yīng)不同的分?jǐn)?shù)段,它們分別是“優(yōu)秀”,對(duì)應(yīng)成績(jī)?yōu)?5分以上者;“良好”,對(duì)應(yīng)成績(jī)?cè)?5分到85分的學(xué)生;“及格”,對(duì)應(yīng)成績(jī)?cè)?0分到75分的學(xué)生;“不及格”,對(duì)應(yīng)成績(jī)?cè)?0分以下的學(xué)生。根據(jù)這些標(biāo)準(zhǔn)把學(xué)生成績(jī)分為4組,之后再分析不同組的學(xué)生成績(jī)的影響因素。最后,根據(jù)以上分析和研究結(jié)果得出結(jié)論。
分析高校學(xué)生成績(jī),就要充分挖掘和收集學(xué)生成績(jī)的信息。由于目前高校對(duì)學(xué)生成績(jī)的收集較多且極為完善,包括學(xué)生的平時(shí)課業(yè)成績(jī)、課堂考核成績(jī)、考試成績(jī),所以,構(gòu)建模型的學(xué)生成績(jī)數(shù)據(jù)可以直接從高校的成績(jī)數(shù)據(jù)庫(kù)中提取。另外,要分析影響學(xué)生成績(jī)的因素還需要收集學(xué)生個(gè)人狀況調(diào)查數(shù)據(jù),在這一方面可以班級(jí)或小組為單位,為保證數(shù)據(jù)的真實(shí)性,要統(tǒng)一收集獲取,在學(xué)生開班會(huì),集體活動(dòng)的課后,都可以進(jìn)行收集。主要了解學(xué)生平時(shí)的生活習(xí)慣,他們對(duì)學(xué)習(xí)的興趣、對(duì)課堂聽講的參與態(tài)度、對(duì)學(xué)校課程安排的意見等,這些都是影響學(xué)生成績(jī)的關(guān)鍵因素。收集的數(shù)據(jù)可以利用表格或統(tǒng)計(jì)圖的形式表達(dá),進(jìn)行整理和分析,最后與學(xué)生的成績(jī)數(shù)值進(jìn)行比較,從而得出結(jié)論,達(dá)到建立數(shù)據(jù)挖掘技術(shù)模型的目標(biāo)。
收集過(guò)的數(shù)據(jù)和信息要進(jìn)行整理和修正,在收集學(xué)生的成績(jī)數(shù)據(jù)時(shí)進(jìn)行仔細(xì)核對(duì)、確保準(zhǔn)確無(wú)誤即可,因?yàn)閷W(xué)生成績(jī)?cè)趯?dǎo)入高校教務(wù)系統(tǒng)的數(shù)據(jù)庫(kù)已經(jīng)有專業(yè)人員進(jìn)行過(guò)整理和確認(rèn)。而對(duì)學(xué)生的調(diào)查信息就要進(jìn)行仔細(xì)的檢查和分類整理。在調(diào)查開始前就要選擇合適的方式,盡可能地保證學(xué)生們反映信息的真實(shí)性。為此,數(shù)據(jù)收集要先設(shè)計(jì)科學(xué)合理的問(wèn)卷調(diào)查,不可以將選項(xiàng)固定在一定的范圍內(nèi),也不可以設(shè)置全部肯定或否定的答案,例如:?jiǎn)栴}:你對(duì)學(xué)習(xí)是否有興趣?選項(xiàng):A非常有興趣;B比較有興趣;C一般興趣。這樣的問(wèn)題設(shè)置不能完整地反映學(xué)生對(duì)學(xué)習(xí)的全部心理,是一個(gè)失敗的問(wèn)題調(diào)查。
對(duì)于收集完成的信息數(shù)據(jù)要開始清理和修補(bǔ),對(duì)于異?;蚴菤埲钡男畔?shù)據(jù),無(wú)法修補(bǔ),且結(jié)果影響較大的就要予以清除。對(duì)于可以修補(bǔ)的數(shù)據(jù),要利用平均信息或常數(shù)進(jìn)行補(bǔ)充[4]。
當(dāng)今是互聯(lián)網(wǎng)的時(shí)代,大數(shù)據(jù)的開發(fā)與應(yīng)用是我國(guó)發(fā)展的重要內(nèi)容,各個(gè)領(lǐng)域的發(fā)展都離不開數(shù)據(jù)的統(tǒng)計(jì)與處理,數(shù)據(jù)挖掘技術(shù)已經(jīng)滲透到各個(gè)行業(yè)的發(fā)展中。但在教育行業(yè),數(shù)據(jù)挖掘技術(shù)的應(yīng)用還不夠廣泛,高校教務(wù)系統(tǒng)收集著大量的學(xué)生信息,合理運(yùn)用這些珍貴的資源,通過(guò)對(duì)學(xué)生畫像的繪制更深刻地了解學(xué)生,是當(dāng)前數(shù)據(jù)挖掘技術(shù)在教育領(lǐng)域應(yīng)用的重點(diǎn)研究?jī)?nèi)容。本文結(jié)合當(dāng)今時(shí)代發(fā)展,根據(jù)高校教育的實(shí)施狀況、數(shù)據(jù)資源的收集和管理狀況,從數(shù)據(jù)挖掘技術(shù)的實(shí)施方案方面分析,提出了數(shù)據(jù)挖掘技術(shù)應(yīng)用于高校學(xué)生成績(jī)分析中的具體措施,其中包括選擇數(shù)據(jù)挖掘的主要內(nèi)容和研究目標(biāo);構(gòu)建合適的模型,進(jìn)行分析;對(duì)研究數(shù)據(jù)的挖掘和收集;對(duì)學(xué)生成績(jī)和調(diào)查信息的預(yù)處理4個(gè)措施。雖然當(dāng)前我國(guó)數(shù)據(jù)挖掘技術(shù)在高校數(shù)據(jù)系統(tǒng)里應(yīng)用不夠完善,但經(jīng)過(guò)相關(guān)領(lǐng)域研究者的不斷努力,這種情況會(huì)得到改善。