趙永暉
摘 要: 目前高校不斷擴招,生源卻逐漸減少,于是預防和減少學生流失正成為各高校必須面對的問題。通過對高校學生流失情況進行數據挖掘,可發(fā)現一些有價值的信息,為解決高校學生流失問題提供幫助。基于糊模理論提出了糊模ID3算法,并將該算法運用于分析高校學生流失原因之中。通過實驗證明,該算法生成的決策樹更加合理,分類速度更快,為解決高校學生流失問題提供了理論依據。
關鍵詞: 學生流失; 數據挖掘; 糊模ID3算法; 決策樹
中圖分類號:TP311.1 文獻標志碼:A 文章編號:1006-8228(2014)03-36-02
0 引言
我國高等教育歷經十多年的改革發(fā)展,各高校不斷擴大招生規(guī)模,學校也越來越多,而參加高考的人數近年來卻逐漸減少,所以生源競爭日趨激烈,生源質量也有所下降,同時,學生流失在當前各高校是一個十分普遍的現象,這些對高校的管理和教學是一個挑戰(zhàn),而如何預防和減少學生的流失則成為各高校需要迫切解決的問題[1]。
高校在發(fā)展的同時,也積累了大量的學生個人信息數據。在這些海量的數據中隱藏著一些內在的聯系和規(guī)律,對分析研究高校學生流失的原因有很大的幫助。從海量數據中挖掘出有價值的信息,是預防和減少學生流失的一個重要手段。傳統(tǒng)的統(tǒng)計分析方法,只能獲取一些表面的信息,有很大的局限性,分析和預測的結果不夠理想。
目前,以ID3算法為代表的決策樹算法是數據挖掘中一種重要的方法,該算法是1986年由Quinlan提出的[2],但該算法對不精確、不確定信息的處理能力較弱。糊模ID3算法基于糊模理論提出對ID3算法的一種推廣,綜合了模糊理論和決策樹的優(yōu)點,不僅具有很強的分類處理能力,而且能很好地處理模糊性和不確定性問題[3]。
1 模糊決策樹
1.1 ID3算法
決策樹的算法中最典型的是ID3學習算法,它采用分治策略,通過遞歸構造決策樹,在樹的結點上采用信息增益最大的屬性作為分枝屬性,具有容易理解、處理速度快等優(yōu)點。
1.2 糊模ID3算法
模糊決策樹學習算法有很多,比較常見的是糊模ID3算法,它是模糊理論在ID3算法中的運用,主要用于處理模糊和不確定的信息。它也采用了分治策略,在構造模糊決策樹時,選取最小模糊信息熵作為節(jié)點屬性選擇標準。
設有經過模糊后的示例集合V={V1,V2,…,Vn},模糊特征屬性A={A1,A2,…,Am},模糊類屬性C={C1,C2,…,Cj},每個屬性Ai的屬性值K(Ai)={ai1,ai2,…,aiki}(i=1,2,…,m),隸屬度umn表示第m個示例Vm關于第n個屬性的值,它是K(Am)上的模糊子集。
對于數據集V的信息增益G(Ai,V)的計算公式如下:
公式⑴
其中,,j為分類個數,。
構建模糊決策樹過程如下:選取一個結點中的任一個屬性值Ai,根據公式⑴計算出每個屬性Ai對于數據集V的信息增益G(Ai,V),從所有屬性值中選取最大信息增益的屬性作為測試屬性,根據這個屬性進行模糊分割,得到其他節(jié)點,并依次判別是否葉子節(jié)點,重復以上的過程,直到每一個結點都是葉子為止。
葉子節(jié)點產生的條件:①測試屬性全部用完;②當前節(jié)點的模糊分割的隸屬度之和小于給定的閾值α;③當前節(jié)點中僅包含一類的示例。
2 利用模糊決策樹分析學生流失
各高校都有學生信息管理系統(tǒng),積累了大量的學生考試成績數據和其他學生基本情況信息,這為數據挖掘提供了基礎條件。通過把糊模決策樹算法運用于學生信息數據庫中,利用數據挖掘技術,挖掘出有價值的信息,以供分析學生流失的原因。
2.1 數據模糊化處理
分析學生流失的原因,勢必要討論評測學生的各項指標,如學生專業(yè)課考試成績、大學英語、技能水平和性別等。其中專業(yè)課考試成績、大學英語是百分制數據,比較特殊,是離散型數據。
在以往的數據挖掘過程中,離散型數據劃分成若干個區(qū)間,得到一個符號類屬性,但在臨界處會突變,從而增加誤差。如規(guī)定大學英語成績在90到100之間為優(yōu),若甲學生的成績?yōu)?0分,評價為優(yōu),而乙同學成績?yōu)?9分,評價為良,其實兩個同學成績非常接近,英語水平相差無幾,現強行區(qū)分成兩個等級,很明顯增加了誤差。這是采用決策樹ID3算法的一個缺點,所以對于模糊數據,采用糊糊決策樹算法是比較科學。
本文的原始數據是我校2006級到2010級學生的成績和相關一些基本情況信息,主要包括學生的姓名、性別、身份證號、地址、民族、籍貫、各門功課的成績、技能成績等。收集數據后,把各門功課的成績求出平均值作為學生的專業(yè)課成績,抽取了一部分作為訓練集,同時根據分析學生流失原因的需要,去掉了學生的民族、籍貫和地址等一些與流失不太相關的屬性,并對數據進行了模糊化處理,處理后得到數據如表1所示。
表1 模糊處理后的訓練集(學生信息表)
[編號\&性別\&專業(yè)成績\&專業(yè)技能\&文理科\&是否流失\&男\&女\&優(yōu)\&良\&中\&差\&強\&中\&弱\&文\&理\&是\&否\&1\&0\&0\&0.7\&0.2\&0.1\&0\&0.1\&0.6\&0.3\&0\&1\&0\&1\&2\&1\&0\&0.1\&0.7\&0.2\&0.1\&0.7\&0.1\&0.2\&1\&0\&0\&1\&3\&1\&0\&0.8\&0.1\&0.1\&0\&0.3\&0.6\&0.1\&1\&0\&0\&1\&4\&0\&1\&0.8\&0.1\&0\&0.1\&0.1\&0.2\&0.7\&0\&1\&0\&1\&5\&1\&0\&0.5\&0.2\&0.1\&0.2\&0.2\&0.3\&0.5\&0\&1\&1\&0\&6\&0\&1\&0.7\&0.2\&0.1\&0\&0.1\&0.3\&0.6\&0\&1\&0\&1\&7\&1\&1\&0.6\&0.2\&0.1\&0.1\&0.5\&0.3\&0.2\&0\&1\&0\&1\&8\&0\&1\&0.6\&0.2\&0.1\&0.1\&0.8\&0.1\&0.1\&1\&0\&0\&1\&9\&1\&0\&0.1\&0.2\&0.6\&0.1\&0.4\&0.1\&0.5\&0\&1\&1\&0\&……\&90\&1\&0\&0.8\&0.2\&0\&0\&1\&0\&0\&0\&1\&1\&0\&]
2.2 構造模糊決策樹
采用1.2節(jié)介紹的構建模糊決策樹過程構造模糊決策樹,閾值α=0.7。由于計算過程比較復雜,在這里不詳細敘述,僅給出糊模ID3算法生成的部分模糊決策樹,如圖1所示。
[D\&專業(yè)成績\&][D∩優(yōu)\&0.89\&][D∩良\&專業(yè)技能\&][D∩中\&0.34\&][D∩差\&0.27\&] [優(yōu)][良][中] [差][0.72\&][0.90\&][0.46\&] [強][中][弱]
圖1 部分模糊決策樹
2.3 決策推理
一個嚴格決策樹可以轉變成一個規(guī)則集合[4]。模糊決策樹與ID3決策樹一樣可以轉變成相應的模糊規(guī)則。從根節(jié)點開始,沿著決策樹的分支,通過屬性值向下搜索到葉節(jié)點,即為一個規(guī)則。輸入一個樣本,依次從根節(jié)點到葉節(jié)點的順序進行決策,由于模糊決策樹中的樣本可能同時被劃分到多個葉節(jié)點上,因此結果為[0 1]之間的隸屬度。
在本例中,根據模糊決策樹轉換得到的一組模糊規(guī)則挖掘到一些有價值的信息。
專業(yè)成績優(yōu)秀學生流失可能性小,這是因為專業(yè)成績優(yōu)秀的學生學習興趣高,自信心足,學習目標明確。專業(yè)技能強但專業(yè)成績良的學生也不太會流失,主要原因是這類學生動手能力強,學習技能熱情高,就業(yè)前景好。專業(yè)成績中等,專業(yè)技能一般的學生流失與不流失概率差不多,因此這部分學生是最需要關注的,要及時指導他們的學習,培養(yǎng)其學習興趣,加強溝通,了解原因,防止學生流失。專業(yè)成績和技能都比較差的學生流失可能性最大,主要原因是對專業(yè)不感興趣,學習動力不足,基礎較差等。
2.4 實驗結果比較與分析
為了驗證本文提出的模糊決策樹算法的有效性,針對表1中模糊處理后的高校學生流失數據信息,分別采有ID3算法和糊模ID3算法進行了分析,結果如表2所示。其實驗環(huán)境如下:Intel Core(TM2) Duo CPU 1.83GHz,2G內存,Windows Vista,Matlab7.0[5]。
表2 實驗結果
[算法名稱\&訓練精度\&測試精度\&運行時間/s\&ID3算法\&0.86%\&0.72\&9.7\&糊模ID3算法\&0.84%\&0.79\&7.6\&]
實驗結果表明,在測試精度和運行時間兩個方面糊模ID3算法比ID3算法更優(yōu)。由于ID3算法與訓練數據過度適應,ID3算法比糊模ID3算法的訓練精度更高。在各種現象中,往往存在著許多事物,不能簡單劃分到某一個區(qū)間,存在著不確定性,而糊模ID3算法能很好地體現不確性。ID3算法由于生成規(guī)則是明確的,沒有反映出不確定性,所以糊模ID3算法具有較強的分類能力及穩(wěn)健性,規(guī)則以一定的隸屬度表示,知識的表示更為自然,更加容易理解。
3 結束語
為了解決ID3算法對不精確、不確定信息的處理能力較弱的問題,基于糊模理論提出了糊模ID3算法,并將算法應用于高校學生流失原因分析和預測,并利用我校的學生信息數據進行了實驗。實驗結果表明,糊模ID3算法用于高校學生流失原因分析中,生成的決策樹更加合理,精度和速度更優(yōu),知識的表示更為自然,更容易理解。這些優(yōu)勢能很好地為高校管理提供準確的學生流失信息,為預防和減少學生流失提供了強而有力的理論依據。
參考文獻:
[1] 楊清波.高校學生流失問題分析及對策[J].科學咨詢(科技·管理),
2012.10:12-13
[2] Quinkm J R.Induction of decision tree[J]. Machine Learning,
1986.1(1):81-106
[3] 楊斷利,張銳,王文顯.基于模糊決策樹的高校就業(yè)數據挖掘研究[J].
河北農業(yè)大學學報,2012.35(2):111-113
[4] 張朝杰.一種基于模糊決策樹的軟件工作量估算方法[D].國防科學技
術大學,2010:21-22
[5] 張化光,劉鑫蕊,孫秋野.MATLIB/SIMULINK實用教程[M].人民郵電
出版社,2009.