許亞杰,梁靖涵
(鄭州科技學(xué)院 信息工程學(xué)院,河南 鄭州 450000)
青少年是祖國的未來,是黨和國家事業(yè)的接班人,正處于學(xué)習(xí)基礎(chǔ)知識、認(rèn)識世界的關(guān)鍵時期。研究表明,青少年時期的表現(xiàn)對青少年以后的人生有著深遠(yuǎn)的影響,因此,教育者應(yīng)當(dāng)重視學(xué)生表現(xiàn)[1]。目前,國內(nèi)外專家學(xué)者對學(xué)生表現(xiàn)評價的研究已取得了一定的研究進(jìn)展,相關(guān)的理論和實踐性研究成果為本課題形成提供了重要的思想借鑒,但是,專門針對初級中學(xué)生家庭、行為和教學(xué)特征的研究成果尚不多見[2]。然而,初級中學(xué)生正處于是青春發(fā)育的關(guān)鍵期,存在著各式各樣的問題,因此,教育者更要關(guān)注學(xué)生的成長,發(fā)現(xiàn)學(xué)生成長中的隱患,及時調(diào)整學(xué)生狀態(tài),促進(jìn)學(xué)生全面發(fā)展。
數(shù)據(jù)集來源于標(biāo)準(zhǔn)測試數(shù)據(jù)集,由加州大學(xué)歐文分校提供,數(shù)據(jù)集名稱為Student Performance。該數(shù)據(jù)集通過使用學(xué)校報告和調(diào)查表進(jìn)行收集,數(shù)據(jù)屬性包括學(xué)生成績、社會和與學(xué)校相關(guān)特征,數(shù)據(jù)集共有395條、33個屬性。
本文重點研究影響學(xué)生學(xué)習(xí)表現(xiàn)的自身、家庭和學(xué)校因素。為保證數(shù)據(jù)集特征與分析內(nèi)容相關(guān)性,需要對數(shù)據(jù)進(jìn)行初步篩選。經(jīng)過統(tǒng)計分析,總結(jié)出影響學(xué)生的如下因素:(1)在自身因素上,主要考慮健康狀況、是否想要接受高等教育的意愿、是否戀愛;(2)在家庭因素上,家庭大小、父母同居狀態(tài)、家庭關(guān)系質(zhì)量;(3)在學(xué)校因素上,缺勤次數(shù)、每周學(xué)習(xí)時間、課外活動、上網(wǎng)時間、空閑時間等。
為此,本文提取了其中的主要因素對數(shù)據(jù)進(jìn)行匯總,選擇了famsize,Pstatus,studytime,activities,higher,Internet,romantic,famrel,freetime,goout,health和absences等12個屬性作為特征評價指標(biāo)。各屬性及描述如表1所示。
表1 數(shù)據(jù)集的屬性與描述
數(shù)據(jù)清洗主要包括格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)和重復(fù)數(shù)據(jù)清除和錯誤數(shù)據(jù)糾正。通過簡單查詢,可以看到本文所使用的學(xué)生表現(xiàn)數(shù)據(jù),數(shù)據(jù)的格式包含:數(shù)值型數(shù)據(jù)、字符型數(shù)據(jù)和邏輯數(shù)據(jù),為保障數(shù)據(jù)分析的有效性,必須對數(shù)據(jù)進(jìn)行規(guī)范化處理。為此,本文對字符型數(shù)據(jù)進(jìn)行編碼,使其轉(zhuǎn)化為數(shù)值型數(shù)據(jù),其中,對于famsize特征:LE3編碼成0,GT3編碼成1;Pstatus特征:T編碼成0,A編碼成1。對于邏輯型數(shù)據(jù),通過編碼使其轉(zhuǎn)化成數(shù)值型數(shù)據(jù),為此,對于特征activities,higher,Internet和romantic的屬性值,TRUE編碼成1,F(xiàn)ALSE編碼成0。
同時,本文對學(xué)生表現(xiàn)數(shù)據(jù)集進(jìn)行異常值檢測并清理。本文選擇G3(最終成績)作為數(shù)據(jù)標(biāo)簽,并查看其數(shù)據(jù)分布。從G3的數(shù)據(jù)分布可以看出,數(shù)據(jù)分布從0~20,可以看出大部分學(xué)生的成績分布在8~15分,小部分的學(xué)生分布在0~7和16~20。其中,對于數(shù)據(jù)集中G1(第一階段成績)、G2(第二階段成績)、G3(第三階段成績)的關(guān)聯(lián)性來看,對于G3為0 的學(xué)生而言,G1和G2很高,而G3為0,說明該學(xué)生G3成績數(shù)據(jù)存在異常,為此,為保障分類的準(zhǔn)確性,將數(shù)據(jù)集中G3為0的38條數(shù)據(jù)進(jìn)行清除,至此,數(shù)據(jù)集共有357條。
從G3的數(shù)據(jù)分布上可以看到數(shù)據(jù)集成績分布在0~20,等級劃分較為松散,在數(shù)據(jù)集樣本量不大的情況下,不利于數(shù)據(jù)分類預(yù)測,為此,為保障數(shù)據(jù)標(biāo)簽劃分的合理性,本文采用K-means聚類算法,將數(shù)據(jù)劃分成兩類,分別是warning和keeping兩類標(biāo)簽,用0和1代替。
針對學(xué)生表現(xiàn)分類,本文利用已有研究結(jié)果,考慮到方法適用性以及理論成熟性,在數(shù)據(jù)挖掘算法中選擇了決策樹分類方法[3]。
決策樹算法包含有ID3,C4.5和 CART樹,其中CART樹又稱為分類回歸樹,既可用于分類,也可用于回歸。當(dāng)數(shù)據(jù)集的因變量是離散值時,可以采用CART分類樹進(jìn)行擬合[4]。本文中,數(shù)據(jù)集特征均為離散型數(shù)據(jù),且特征較多,適合使用CART樹進(jìn)行分類。
決策樹建模過程是一個遞歸的過程,基本步驟如下:
(1)首先加載樣本數(shù)據(jù)。
(2)根據(jù)樣本特點,選擇合適的特征選擇標(biāo)準(zhǔn)。
(3)開始將所有記錄看作一個節(jié)點。
(4)根據(jù)特征選擇標(biāo)準(zhǔn),遍歷每個變量的每一種分割方式,找到最好的分割點。
(5)分割成兩個節(jié)點N1和N2。
輪式機(jī)器人的線速度可通過編碼器獲得,設(shè)兩輪輪距為L,編碼器的線數(shù)為P(輪子轉(zhuǎn)一圈編碼器輸出的脈沖數(shù)),輪徑為D。通過左右編碼器的脈沖頻率fL和fR可以算得左右輪子的線速度為:
(6)對N1和N2分別繼續(xù)執(zhí)行(3)-(5)步,直到每個節(jié)點足夠“純”為止。
(7)生出決策樹模型。
決策樹算法通過大量數(shù)據(jù)集樣本訓(xùn)練,構(gòu)建樹形結(jié)構(gòu)來描述分類規(guī)則。其中,樹形結(jié)構(gòu)是關(guān)鍵,需要確定樹上的每一層的屬性,前提是需要確定特征選擇標(biāo)準(zhǔn)。
對于CART 決策樹算法使用基尼指數(shù)來選擇劃分屬性,基尼值代表了根據(jù)某一特征屬性分類后的數(shù)據(jù)的不純度?;嶂翟叫”硎炯霞兌仍礁撸粗?,集合越不純[5]。
其中,數(shù)據(jù)集D中有K個類,k表示類別;pk表示樣本屬于第k個類別的概率。
對于特征A,將集合D劃分成D1和D2,基尼指數(shù)G(D,A)表示經(jīng)過特征A劃分后集合D的不確定性,公式如下:
其中,∣D∣,∣D1∣,∣D2∣分別表示數(shù)據(jù)集D,D1,D2中樣本數(shù)量。
CART模型在學(xué)生表現(xiàn)分類中的應(yīng)用。具體過程,由于總樣本量共357條,樣本量不大,為提高訓(xùn)練模型的泛化能力,采用K折交叉驗證法,其中k=10,選擇其中285條數(shù)據(jù)作為訓(xùn)練集數(shù)據(jù)來進(jìn)行模型擬合,利用剩下72條數(shù)據(jù)作為測試集來進(jìn)行模型預(yù)測,驗證模型準(zhǔn)確率。
在建模方面,通過網(wǎng)格搜索找到最優(yōu)參數(shù),設(shè)定決策樹模型關(guān)鍵參數(shù)為criterion="gini",max_depth=3、min_samples_split=25,random_state=0。
通過CART算法對數(shù)據(jù)集進(jìn)行決策樹模型建立,如圖1所示。其中,每一個內(nèi)部結(jié)點特征取值為是和否,左分支是,右分支否。每個節(jié)點第一個屬性表示分割節(jié)點條件,samples 表示這一層分類使用的樣本數(shù),class表示所屬類別,value中的兩個值分別表示標(biāo)簽為warning和keeping的樣本數(shù)。
圖1 決策樹模型
根據(jù)CART模型可以得到影響學(xué)生表現(xiàn)的重要指標(biāo)以及指標(biāo)內(nèi)容指向。從圖1中可以看出,對學(xué)生表現(xiàn)影響比較大的因素分別是goout,absences,health以及Internet。從根節(jié)點右分支來看,當(dāng)學(xué)生goout次數(shù)大于3.5,且學(xué)生健康指數(shù)大于2.5,學(xué)生曠課次數(shù)大于7次,可以明顯地判定出學(xué)生表現(xiàn)會很差。即對于初中學(xué)生而言,如果出去次數(shù)過多,在身體允許情況下,經(jīng)常曠課,會嚴(yán)重影響學(xué)生表現(xiàn)。因此,在今后學(xué)生管理中,對于學(xué)生家長,要適當(dāng)約束學(xué)生外出次數(shù),對學(xué)校管理要加強(qiáng)學(xué)生考勤工作,在身體允許情況下,保證出勤次數(shù),以此來確保學(xué)生有足夠時間投入學(xué)習(xí),達(dá)到提高成績的目的。
本文采用決策樹算法對學(xué)生表現(xiàn)數(shù)據(jù)集中的famrel,goout,health和absences等12個特征進(jìn)行分析,建立了決策樹CART模型。從決策樹規(guī)則中可以看出,學(xué)生要積極鍛煉身體保證身體健康,家庭方面要合理地限制學(xué)生外出次數(shù),學(xué)校要嚴(yán)格執(zhí)行考勤制度,確保學(xué)生在健康情況下,要應(yīng)出勤盡出勤,以此來保障學(xué)生的投入學(xué)習(xí),提高教學(xué)效果,保障教學(xué)質(zhì)量。