西安交通大學(xué)附屬中學(xué) 劉蘊軒
十年樹木,百年樹人。教育始終是全社會熱議的話題。學(xué)習(xí)成績是考核學(xué)習(xí)能力的重要指標,也是選拔人才的重要標準,倍受每一個家庭的關(guān)注。孩子們的學(xué)習(xí)能力深刻地影響家庭的未來,甚至國家的興衰發(fā)展。如何有效地提高成績成為經(jīng)久不衰的議題。影響學(xué)習(xí)成績的因素有很多,其中與孩子的自身相關(guān)的因素有心理狀態(tài)、智能水平、學(xué)習(xí)方法、學(xué)習(xí)時間,學(xué)習(xí)習(xí)慣等。大多研究都是從主觀方面,或者從心理學(xué)角度切入,針對孩子的一些自身問題,告誡家長要正確引導(dǎo),不要給孩子施加太大的壓力,要多陪伴和鼓勵孩子等等。然而,“心理戰(zhàn)術(shù)”仍然讓許多家長力不從心,效果也并不盡如人意。
大數(shù)據(jù)時代的到來,使得大數(shù)據(jù)分析技術(shù)在很多情況下都能得到一些問題所在。我們在Kaggle網(wǎng)站上得到了一組高中學(xué)生學(xué)習(xí)情況和原生家庭情況的數(shù)據(jù)記錄,這些數(shù)據(jù)是在針對中學(xué)生數(shù)學(xué)課程學(xué)習(xí)情況的調(diào)查中統(tǒng)計得到的。數(shù)據(jù)包括了家庭與學(xué)校的遠近、是否經(jīng)常參加課外活動、監(jiān)護人主要為父親還是母親、父母的受教育程度、父母的工作、父母的離異情況以及家庭的規(guī)模等。拋開與孩子自身相關(guān)的因素的探討,本文著重探究學(xué)習(xí)成績和家庭客觀因素的關(guān)系。這樣的客觀因素往往被人們忽視,它們究竟對孩子的學(xué)習(xí)成績有怎樣的影響?本文依據(jù)學(xué)生成績的相關(guān)數(shù)據(jù)來對各種因素進行剖析挖掘,立于數(shù)據(jù),用事實說話,詳細地探究了影響孩子學(xué)習(xí)成績的家庭客觀因素。
本組數(shù)據(jù)是在kaggle網(wǎng)站獲得的關(guān)于中學(xué)學(xué)生數(shù)學(xué)和葡萄牙語課程調(diào)查數(shù)據(jù)。它包含了33個屬性,分別是:學(xué)生的學(xué)校、學(xué)生的性別、學(xué)生的年齡(15~22)、學(xué)生的家庭地址類型(農(nóng)村、城市)、家庭大小、父母是否同居、父母的受教育程度、父母的工作、選擇這所學(xué)校的理由、學(xué)生的監(jiān)護人、上學(xué)時長、每周學(xué)習(xí)時長、過去失敗次數(shù)、學(xué)校額外的教育支持、家庭教育支持、是否參加補習(xí)班、是否參加課外活動、是否上過幼兒園、是否想接受高等教育、是否在家上網(wǎng)、是否談戀愛、課余時間長短、是否和朋友出去玩,周末飲酒、健康狀況、缺課數(shù)以及本學(xué)期的三次考試成績(G1,G2,G3),總共為600多條記錄。
由于相關(guān)屬性過多,不便于直接繼續(xù)研究。筆者對各項屬性一一進行篩選,將希望進一步探究的屬性分為六大類,分類結(jié)果如表1所示。其中,這三組的屬性更加直觀地、定量地影響學(xué)習(xí)成績。本組數(shù)據(jù)的屬性非常多,導(dǎo)致直接構(gòu)建決策樹,會使決策樹冗長且不易分析。減少決策樹輸入的屬性個數(shù)是降低決策樹長度的有效方法。為了合理減少輸入?yún)?shù)的數(shù)量,我們對時間規(guī)劃、其他教育支持、上進心這三類中的屬性進行了加權(quán)合并,每組合并為一個屬性。根據(jù)不同屬性對結(jié)果的影響程度不同,我們采用了加權(quán)合并的辦法。為了獲得不同因素之間影響程度的對比,我們計算屬性的“信息增益值”,作為屬性的權(quán)重。“信息增益值”Gain(SA, A)的計算公式如下:
其中,S表示整個樣本集合,SA表示在節(jié)點屬性A下的集合。Entropy(SA)表示屬性A在集合SA的熵值。變量NA表示屬性A上的樣本集合,使用NiA表示在屬性A的全部樣本中屬于類別Ci的樣本數(shù)量,使用NAm表示在屬性A選擇屬性m的樣本數(shù)量,用NiAm表示選擇屬性m的樣本中,屬于類別Ci的樣本數(shù)量。
以“時間規(guī)劃”這一類的屬性為例,我們使用這類屬性下的五個屬性,對于學(xué)習(xí)成績進行的影響進行決策樹建模,計算屬性的增益值作為它們相對地重要性。我們使用IBM SPSS構(gòu)建C5.0決策樹,其中學(xué)習(xí)時間重要性達0.41,上學(xué)交通用時0.0109,自由時間長短0.1177,是否參加課外活動0.1402,是否常和朋友出去玩0.3213。因為權(quán)重過小,我們忽略“上學(xué)交通用時”,將另外三項屬性按重要性加權(quán)合并,得到FTA(自由時間規(guī)劃)。
使用相同的方法,我們將“其他教育支持”和“上進心”的各項屬性作為輸入建樹。其他教育支持的各項屬性權(quán)重如下:學(xué)校額外的教育支持1,是否參加補習(xí)班0.922,是否上過幼兒園0.884,以此加權(quán)相加,得到OES(其他教育支持)。上進心類種的各個屬性權(quán)重如下:選擇這所學(xué)校的理由0.0996,缺課數(shù)0.1509,是否想接受高等教育0.7495。其中,我們將“缺課數(shù)”權(quán)重變?yōu)樨撝担粗匾约訖?quán)合并,得到UM(上進心)。
圖1 決策樹結(jié)果及屬性重要性
表1 與學(xué)習(xí)成績相關(guān)因素的分類
因為決策樹是分類算法,只能預(yù)測類別,不能預(yù)測數(shù)值。因此我們將學(xué)習(xí)成績從高到低,平均劃分為3類,即0-6分為第一類,7-13分為第二類,14-20分為第三類?;贗BM SPSS Modeler 14.0軟件的C5.0決策樹模型,對合并簡化后剩余18個可能的影響因素進行探索,在得到初步的決策樹結(jié)果后,我們還得到了各個屬性的重要性,作為以此衡量它們對于決策樹構(gòu)建的貢獻大小。分析發(fā)現(xiàn),對于客觀因素,性別、年齡本身對學(xué)習(xí)成績產(chǎn)生影響很小,作為輸入不但會造成決策樹冗長,還會影響其他因素的重要性分析,因此將這幾項屬性從輸入數(shù)據(jù)里刪除。此外,學(xué)校屬性的影響性非常小,也被刪除。我們用剩下的13個屬性在此進行決策樹構(gòu)建,分析結(jié)果顯示,決策樹仍然非常的冗長,不能進行有效地分析。因此,我們重復(fù)上面的步驟,篩減去重要性較低的屬性,不斷調(diào)整輸入?yún)?shù)構(gòu)造決策樹,直至篩選出到最重要的屬性,得到?jīng)Q策樹結(jié)果,如圖1所示。在此模型中,剩余5個輸入分別是:母親的受教育程度(Medu)、父親的受教育程度(Fedu)、母親的工作(Mjob)、每周學(xué)習(xí)時長(studytime)、上進心(UM),樹狀圖深度為8,交互驗證的平均值為54.2,誤差為2.0。變量重要性分布如圖1所示。
由以上模型分析可知,家庭環(huán)境、其他教育支持、生活習(xí)慣對學(xué)習(xí)成績的影響很小,父母對孩子的影響主要體現(xiàn)在父母的受教育程度和工作上,時間規(guī)劃上的影響主要體現(xiàn)在學(xué)習(xí)時間上。在所有因素中,父母對孩子的影響起到很重要的作用,母親起到更加重要的作用。孩子只要在學(xué)習(xí)上花費了時間,孩子在其他事情(比如:參加課外活動、上網(wǎng)、和朋友出去玩)上花費一定時間并不會很大程度上的影響學(xué)習(xí)。我們發(fā)現(xiàn)上進心強的孩子常常會獲得更好的成績,我們常關(guān)注的報補習(xí)班的數(shù)量和花費的時間并不會很大程度的影響學(xué)習(xí)。也就是說孩子上進心的強弱遠比報補習(xí)班參加課外學(xué)習(xí)重要。
因此,孩子的學(xué)習(xí)一方面取決于自己是否有足夠的上進心,另一方面也與父母提供的家庭教育密切相關(guān)。
本文基于強大的數(shù)據(jù)挖掘算法,對學(xué)習(xí)成績的各項可能的影響因素進行探索。受到數(shù)據(jù)集的內(nèi)容不夠豐富完善,本人能力水平不足等限制,本文探究具有一些缺陷。
學(xué)習(xí)成績是全社會關(guān)注的熱點問題,小到是衡量每個學(xué)生的重要指標,大到是衡量一個地區(qū)教育質(zhì)量的重要指標,科教興國,人才強國的戰(zhàn)略號角早已吹響,我們能否肩負起中華民族偉大復(fù)興的中國夢,或許就在于祖國的花朵是否足夠艷麗和芬芳。
在大數(shù)據(jù)剛剛興起的時代,我們可研究探索的主題太多太多,以數(shù)據(jù)挖掘的思路探究一些受眾多復(fù)雜因素干擾的問題,不失為一種方法,讓我們基于現(xiàn)實數(shù)據(jù),探求相關(guān),獲得更加客觀、實際、科學(xué)的結(jié)論。在本文的基礎(chǔ)上加以更豐富更海量的數(shù)據(jù),加以更強大的算法模型,加以技藝更精湛的數(shù)據(jù)挖掘?qū)<?,必將獲得可以為決策者提供條件的科學(xué)的結(jié)論,必將為祖國科技繁榮作出微薄的貢獻。
[1]Freund,Yoav,and Llew Mason.”The alternating decision tree learning algorithm.”Inicml,vol.99,pp.124-133,1999.
[2]Mining,What Is Data.”Data Mining:Concepts and Techniques.”Morgan Kaufinann(2006).
[3]Fayyad,Usama,Gregory Piatetsky-Shapiro,and Padhraic Smyth.”From data mining to know ledge discovery in databases.”AI magazine 17,no.3(1996):37.