朱莉萍
(成都文理學(xué)院,四川 成都 610000)
招生工作是各大院校的常規(guī)工作也是最重要的工作之一,對(duì)于民辦高職院校而言,招生工作更是關(guān)乎全校教職工的生計(jì)。報(bào)考率和報(bào)到率是招生人員最為關(guān)心的兩個(gè)因素,也是衡量一個(gè)學(xué)校招生管理水平和成效的重要依據(jù)。利用數(shù)據(jù)挖掘技術(shù)對(duì)招生錄取數(shù)據(jù)進(jìn)行挖掘分析,提煉出影響報(bào)到率的重要因素,進(jìn)行報(bào)到預(yù)測(cè),將挖掘結(jié)果用于指導(dǎo)招生宣傳和服務(wù),輔助招生管理決策。
文獻(xiàn)[1]中,作者利用決策樹算法對(duì)不同專業(yè)考生的性別進(jìn)行預(yù)測(cè),利用貝葉斯算法預(yù)測(cè)每個(gè)專業(yè)的生源省份,得到的預(yù)測(cè)結(jié)果和實(shí)際結(jié)果之間的誤差率較低;文獻(xiàn)[2]中,作者用CHAID 算法構(gòu)建決策樹模型,挖掘出性別同專業(yè)、成績(jī),生源地同專業(yè)等方面的潛在信息。
決策樹是一種使用非常廣泛的分類技術(shù)。在分類的過程中,用一棵倒置的樹從根節(jié)點(diǎn)開始由上到下逐漸構(gòu)建決策的分支。常見的決策樹算法有ID3、CHAID、CART、C4.5 等。為了確保在決策樹的構(gòu)建過程中每一個(gè)決策分支之間的差異最大,ID3 算法將信息增益作為確定劃分的標(biāo)準(zhǔn),而C4.5算法將信息增益率作為確定劃分的標(biāo)準(zhǔn)。C4.5 算法是在ID3算法的基礎(chǔ)上改進(jìn)而來的,不僅可以處理離散型數(shù)據(jù),也能處理連續(xù)性數(shù)據(jù),因此本文考慮利用C4.5 算法對(duì)招生數(shù)據(jù)進(jìn)行挖掘。下面介紹幾個(gè)概念和公式:
(1)信息熵:表示信息的不確定性,公式定義如下:
(2)屬性分裂后信息熵
假設(shè)屬性有個(gè)離散值,數(shù)據(jù)集合中的元組被劃分為個(gè)子集合D,按照屬性分裂后的信息熵定義為:
(3)信息增益
(4)信息增益率
本文將某民辦高職院校近三年的招生錄取數(shù)據(jù)作為研究對(duì)象。招生錄取源數(shù)據(jù)從招辦系統(tǒng)導(dǎo)出,屬性很多,包含考生號(hào)、準(zhǔn)考證號(hào)、考生姓名、性別、出生年月、民族代碼、政治面貌代碼、考生科類代碼、畢業(yè)類別代碼、中學(xué)代碼、身份證號(hào)、家庭地址、郵政編碼、專業(yè)志愿、提檔成績(jī)、錄取成績(jī)等幾十個(gè)字段。
在數(shù)據(jù)預(yù)處理階段采用何種方法和技術(shù)需要在充分理解招生業(yè)務(wù)特點(diǎn)、招生數(shù)據(jù)挖掘目標(biāo)和對(duì)源數(shù)據(jù)本身的理解的基礎(chǔ)上進(jìn)行選擇。
2.2.1 數(shù)據(jù)集成
由于高職院校有單獨(dú)招生考試和普通招生考試兩種考試錄取制度,且每年數(shù)據(jù)單獨(dú)存放,因此需要將三年的錄取數(shù)據(jù)合并,增加“錄取方式”字段,填入“單招”和“統(tǒng)招”屬性值。
2.2.2 數(shù)據(jù)清理
招生數(shù)據(jù)中的大部分字段對(duì)挖掘任務(wù)沒有意義,將準(zhǔn)考證號(hào)、出生年月、聯(lián)系電話等字段刪除。“是否報(bào)到”字段是在新生報(bào)到期間手動(dòng)填寫的信息,有幾條空值,去除少數(shù)缺失數(shù)據(jù),同時(shí)將保留學(xué)籍的數(shù)據(jù)處理為“是”,將退學(xué)的數(shù)據(jù)處理為“否”。將專業(yè)志愿中簡(jiǎn)寫的專業(yè)名稱更改為規(guī)范名稱。
2.2.3 數(shù)據(jù)轉(zhuǎn)換
根據(jù)招生經(jīng)驗(yàn),生源地對(duì)考生報(bào)到有一定影響,但生源地的類別較多,故按照東西南北方向?qū)⑸吹剡M(jìn)行泛化,轉(zhuǎn)換成川東、川南等6 個(gè)地區(qū)。
同樣,對(duì)眾多的專業(yè)根據(jù)學(xué)校院系劃分進(jìn)行泛化,轉(zhuǎn)換為財(cái)稅金融、公共管理、建筑設(shè)計(jì)等10 個(gè)專業(yè)群。
另外,成績(jī)是連續(xù)的數(shù)據(jù),且單獨(dú)招生考試和普通招生考試的單科分值等存在較大差異,因此先將考分進(jìn)行標(biāo)準(zhǔn)化,再進(jìn)行離散化,最終將成績(jī)轉(zhuǎn)換為A(優(yōu)良)、B(中等)、C(較差)三個(gè)等級(jí)。
2.2.4 預(yù)處理結(jié)果
對(duì)招生數(shù)據(jù)進(jìn)行預(yù)處理之后的數(shù)據(jù)效果如圖1所示。
圖1 預(yù)處理后的數(shù)據(jù)集
根據(jù)C4.5 算法中的公式(1)~(4),下文計(jì)算招生數(shù)據(jù)中各個(gè)屬性的信息量、信息增益、信息增益率等。
招生數(shù)據(jù)集共計(jì)15 526 條,按測(cè)試屬性“是否報(bào)到”分為T 和F 兩類,T=13 125,F(xiàn)=2 401,得到測(cè)試屬性的信息量為:
分別計(jì)算性別、考生類別、成績(jī)、錄取方式、生源地、考生科類、專業(yè)志愿7 個(gè)屬性的信息量如下:
(1)“性別”屬性各節(jié)點(diǎn)是否報(bào)到的數(shù)據(jù)為男[7 079,1 289],女[6 046,1 112]
(2)“考生類別”屬性各節(jié)點(diǎn)是否報(bào)到的數(shù)據(jù)為農(nóng)村[10 011,1 936],城鎮(zhèn)[3 114,465]
(3)“成績(jī)”屬性各節(jié)點(diǎn)是否報(bào)到的數(shù)據(jù)為A[2 056,267],B[9 211,1 633],C[1 858,501],同理可得:
Info(A)=0.514 6
Info(B)=0.611 3
Info(C)=0.746
(4)“錄取方式”屬性各節(jié)點(diǎn)是否報(bào)到的數(shù)據(jù)為單招[9 831,1 430],統(tǒng)招[3 294,971]
Info(單招)=0.549 1
Info(統(tǒng)招)=0.773 9
(5)“生源地”屬性各節(jié)點(diǎn)是否報(bào)到的數(shù)據(jù)為川東[3 254,642],川南[2 705,523],川西[1 770,308],川北[1 737,298],川東北[2 969,477],三州[690,153]
Info(川東)=0.645 6
Info(川南)=0.639 1
Info(川西)=0.605 4
Info(川北)=0.600 9
Info(川東北)=0.580 1
Info(三州)=0.638 8
(6)“考生科類”屬性各節(jié)點(diǎn)是否報(bào)到的數(shù)據(jù)為對(duì)口高職[5 650,1 340],理工[2 417,333],文史[4 905,670],藝體[153,58]:
Info(對(duì)口高職)=0.705
Info(理工)=0.532 5
Info(文史)=0.529 9
Info(藝體)=0.848 4
(7)“專業(yè)志愿”屬性各節(jié)點(diǎn)是否報(bào)到的數(shù)據(jù)為財(cái)稅金融[1 028,171],公共管理[1 476,252],健康[2 660,591],建筑設(shè)計(jì)[1 382,202],教育管理[1 248,211],汽修[821,189],數(shù)媒[1 266,227],通信[878,168],物流電商[663,124],信息技術(shù)[1 703,266]:
Info(財(cái)稅金融)=0.591 1
Info(公共管理)=0.599 3
Info(健康)=0.684
Info(建筑設(shè)計(jì))=0.550 6
Info(教育管理)=0.596 2
Info(汽修)=0.695 4
Info(數(shù)媒)=0.614 9
Info(通信)=0.635 8
Info(物流電商)=0.628 4
Info(信息技術(shù))=0.571 2
各個(gè)屬性的信息熵計(jì)算結(jié)果為:
同理:
Info(考生類別)=0.620 3
Info(成績(jī))=0.617 3
Info(錄取方式)=0.610 9
Info(生源地)=0.620 5
Info(考生產(chǎn)類)=0.613 5
Info(專業(yè)志愿)=0.619 3
各個(gè)屬性分裂后的信息量為:
同理:
SInfo(考生類別)=0.778 9
SInfo(成績(jī))=1.184 7
SInfo(錄取方式)=0.848 1
SInfo(生源地)=2.454 4
SInfo(考生科類)=1.575 5
SInfo(專業(yè)志愿)=3.206 2
同理:
GainR(考生類別)=0.001 3
GainR(成績(jī))=0.003 4
GainR(錄取方式)=0.012 3
GainR(生源地)=0.000 3
GainR(考生科類)=0.005
GainR(專業(yè)志愿)=0.000 6
根據(jù)第(5)步的結(jié)果可知“錄取方式”字段信息增益率最大,故將其作為根節(jié)點(diǎn),然后分別在單招和統(tǒng)招兩種情況下繼續(xù)計(jì)算其他屬性值的信息熵和信息增益率,將信息增益率相對(duì)最高的屬性作為下一級(jí)分支節(jié)點(diǎn),不斷重復(fù)以上幾個(gè)步驟,完成各個(gè)分支的劃分,并最終得到是否報(bào)到的完整決策樹。由于生成的完整的決策樹較大不便展示,圖2僅顯示了其中較小一部分。
圖2 決策樹局部
決策樹每一條分支的路徑就是一條規(guī)則,由決策樹生成的部分規(guī)則表示如下:
(1)規(guī)則用于“是否報(bào)到”=“F”的5 個(gè)規(guī)則:
規(guī)則1:IF 性別 = 女 and 考生科類 = 對(duì)口高職類 and 提檔成績(jī) = C and 錄取方式 = 統(tǒng)招and 專業(yè) = 物流電商專業(yè)群and 考生類別 = 農(nóng)村 Then F
規(guī)則 :IF 性別 = 女a(chǎn)nd 生源地 in [ "三州地區(qū)" "川北地區(qū)" "川西地區(qū)" ]
and 考生科類 = 對(duì)口高職類and 錄取方式 = 統(tǒng)招 and 專業(yè) = 信息技術(shù)專業(yè)群Then F
規(guī)則3:IF 生源地 = 川南地區(qū) and 提檔成績(jī) = C and 錄取方式 = 統(tǒng)招
and 專業(yè) = 財(cái)稅金融專業(yè)群 Then F
規(guī)則4:IF 性別 = 男and 考生科類 = 對(duì)口高職類and 錄取方式 = 統(tǒng)招
and 專業(yè) = 物流電商專業(yè)群 Then F
規(guī)則5:IF 考生科類 in[“文史類””理工類”]and 生源地 = 川南地區(qū)and 錄取方式 = 統(tǒng)招and 專業(yè) = 財(cái)稅專業(yè)群and 提檔成績(jī) = C Then F
(2)規(guī)則用于“是否報(bào)到”=“T”的5 個(gè)規(guī)則:
規(guī)則1:IF 考生科類 in [ "文史類" "理工類" ]and 提檔成績(jī) = A Then T
規(guī)則2:IF 考生科類 in [ "文史類" "理工類" ]and 專業(yè) in [ “信息技術(shù)專業(yè)群” “健康專業(yè)群” “公共管理專業(yè)群” “建筑設(shè)計(jì)專業(yè)群” “教育管理專業(yè)群” “數(shù)媒專業(yè)群”“汽修專業(yè)群” “物流電商專業(yè)群” ]Then T
規(guī)則3:IF 考生科類 in[ “文史類” “理工類” ]and提檔成績(jī) = Band 性別 = 男 Then T
規(guī)則4:IF 生源地 in [ “三州地區(qū)” “川東北地區(qū)”“川東地區(qū)” “川北地區(qū)” “川西地區(qū)” ]and 考生科類 in ["文史類" "理工類” ]Then T
規(guī)則5:IF 專業(yè) = 通信專業(yè)群 and 錄取方式 = 單招Then T
根據(jù)決策樹規(guī)則,對(duì)招生數(shù)據(jù)挖掘模型進(jìn)行測(cè)試,得到預(yù)測(cè)的準(zhǔn)確率為85.91%,得到各因素影響報(bào)到的重要程度排序?yàn)椋轰浫》绞?、專業(yè)志愿、生源地、考生科類、考生類別、性別。
決策樹算法簡(jiǎn)單,建立的樹型結(jié)構(gòu)也容易讓不懂?dāng)?shù)據(jù)挖掘的招生人員看懂,對(duì)報(bào)到情況的預(yù)測(cè)準(zhǔn)確率也滿足需求,挖掘結(jié)果對(duì)招生管理工作有一定的輔助作用,未來可以考慮集合更多數(shù)據(jù),對(duì)決策樹算法進(jìn)行改進(jìn),更好地應(yīng)用于招生數(shù)據(jù)挖掘。