梁 健
(錦州師范高等??茖W(xué)校 成人教育部,遼寧 錦州 121000)
近年來,我國職業(yè)教育迅猛發(fā)展,各院校之間競(jìng)爭(zhēng)日趨激烈,越來越多的院校意識(shí)到擁有更多優(yōu)質(zhì)生源在競(jìng)爭(zhēng)中的重要性[1].如何從招生的海量數(shù)據(jù)中獲取有價(jià)值信息呢? 數(shù)據(jù)挖掘技術(shù)的產(chǎn)生解決了這一問題.數(shù)據(jù)挖掘技術(shù)就是從大量的實(shí)際數(shù)據(jù)中,提取隱含在其中的有用信息和知識(shí)的過程.關(guān)聯(lián)規(guī)則則是數(shù)據(jù)挖掘技術(shù)中最為簡(jiǎn)單、有效的挖掘方法之一.利用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)進(jìn)行全面分析,提取出隱藏在海量的招生數(shù)據(jù)中深層次的、潛在的、有價(jià)值的信息,為決策者提供決策支持是十分必要的[2].
關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘技術(shù)中應(yīng)用范圍廣泛,是實(shí)際應(yīng)用當(dāng)中比較容易理解而且實(shí)用性強(qiáng)的規(guī)則,它所采用的是描述型模型,體現(xiàn)出數(shù)據(jù)的特征.應(yīng)用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘最為經(jīng)典的應(yīng)用是美國沃爾瑪超市的“購物籃”問題,它可以尋找出不同商品之間所隱藏的聯(lián)系,讓經(jīng)營者明確消費(fèi)者的購物習(xí)慣和喜好,從而更好地提供決策幫助.
數(shù)據(jù)挖掘過程整體上比較復(fù)雜,我們可以簡(jiǎn)單地把數(shù)據(jù)挖掘分為三個(gè)步驟:第一,從特定的數(shù)據(jù)源當(dāng)中搜尋一些用戶相對(duì)感興趣的數(shù)據(jù),同時(shí)將這些數(shù)據(jù)組織成為更適合數(shù)據(jù)系統(tǒng)挖掘的組織形式;第二,借助于相應(yīng)的算法來完成知識(shí)積累的過程;第三,對(duì)生成的知識(shí)模式進(jìn)行評(píng)估和評(píng)價(jià)[3].
本文進(jìn)行挖掘的數(shù)據(jù)來自某高職院校近年來招生存檔數(shù)據(jù),以Excel表格的形式提供.通過挖掘?qū)W生性別、專業(yè)、生源地、畢業(yè)類別、成績(jī)等對(duì)報(bào)到率的影響,找出影響學(xué)生報(bào)到率的因素,為院校的招生宣傳、專業(yè)規(guī)劃及招生計(jì)劃的投放提供決策依據(jù)[4].
在數(shù)據(jù)挖掘過程中,數(shù)據(jù)的預(yù)處理是其中的重要階段.由于數(shù)據(jù)量大,一些數(shù)據(jù)項(xiàng)會(huì)存在錯(cuò)誤,比如數(shù)據(jù)值冗余、異常和丟失等情況,這些問題都會(huì)對(duì)數(shù)據(jù)挖掘工作造成不良影響,所以需要選擇相應(yīng)的數(shù)據(jù)預(yù)處理方法對(duì)原始數(shù)據(jù)進(jìn)行相應(yīng)的處理[5].在數(shù)據(jù)表中,準(zhǔn)考證號(hào)第一位和學(xué)生類型相關(guān),因此只需要對(duì)準(zhǔn)考證號(hào)的第一位數(shù)據(jù)進(jìn)行捕捉即可,舍棄其他位的信息;一個(gè)學(xué)生由一個(gè)唯一的序號(hào)來表示,所以學(xué)生姓名在本次挖掘過程中沒有作用;總成績(jī)的分布可以看作是離散的,但是離散程度太大,實(shí)際過程中還需要采用分段的方式進(jìn)行歸納.表1為預(yù)處理后數(shù)據(jù)表結(jié)構(gòu).
表1 預(yù)處理后數(shù)據(jù)表結(jié)構(gòu)
該高職院校2018年入學(xué)的學(xué)生中,325~350分區(qū)間人數(shù)最多,為370人.從學(xué)生的成績(jī)來看,報(bào)到入學(xué)的學(xué)生成績(jī)主要是在300~475分之間,475~500分以及500分以上的人極少.影響新生入學(xué)的因素比較多,以下將結(jié)合學(xué)生的類別屬性和成績(jī)來對(duì)學(xué)生的報(bào)到率進(jìn)行分析.圖1為該高職院校報(bào)到入學(xué)的學(xué)生人數(shù)與成績(jī)之間的關(guān)系直方圖結(jié)果,圖2為該高職院校在2018年錄取的不同類別、不同生源地的學(xué)生入學(xué)情況.通過對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)要的分析之后發(fā)現(xiàn),該校的新生報(bào)到率與未入學(xué)率結(jié)果主要如下:
(1)2018年該高職院校錄取的新生中城鎮(zhèn)應(yīng)屆生與農(nóng)村應(yīng)屆生入學(xué)率分別為20%與14%,城鎮(zhèn)應(yīng)屆生與農(nóng)村應(yīng)屆生未入學(xué)率分別為12%與14%;城鎮(zhèn)往屆生與農(nóng)村往屆生入學(xué)率分別為13%與14%,未入學(xué)率分別為5%和4%.由此可以看出該高職院校往屆新生入學(xué)率普遍低于應(yīng)屆新生入學(xué)率.
(2)對(duì)該校2018年入學(xué)學(xué)生的成績(jī)進(jìn)行分析發(fā)現(xiàn),城鎮(zhèn)地區(qū)應(yīng)屆學(xué)生,成績(jī)處于一般水平的入學(xué)率較高,為76%;未入學(xué)率為24%;成績(jī)處于中等水平的入學(xué)率次之,為59%;成績(jī)處于高等水平的入學(xué)率最低,為27%.農(nóng)村地區(qū)應(yīng)屆學(xué)生,成績(jī)水平一般的入學(xué)率為62.5%;成績(jī)處于中等水平的入學(xué)率為38.5%;成績(jī)處于高等水平的入學(xué)率只有1.4%.
我們能夠發(fā)現(xiàn)生源地不同、類別不同,學(xué)生的錄取率也會(huì)隨之發(fā)生相應(yīng)的變化.圖中數(shù)據(jù)呈現(xiàn)出的結(jié)果為,農(nóng)村應(yīng)屆生報(bào)到入學(xué)以及未報(bào)到的人數(shù)均高于農(nóng)村往屆生比例;城鎮(zhèn)應(yīng)屆生報(bào)到入學(xué)及未報(bào)到的比例也都高于城鎮(zhèn)往屆生.從整體上來看,農(nóng)村往屆生和城市往屆生的總?cè)藬?shù)與農(nóng)村應(yīng)屆生與城市應(yīng)屆生相比明顯更低.
綜合該高職院校新生的報(bào)到信息數(shù)據(jù),在對(duì)高考成績(jī)進(jìn)行挖掘之前需要對(duì)其進(jìn)行概化處理,即將其分為不同的成績(jī)范圍值;在對(duì)戶口所在地進(jìn)行數(shù)據(jù)挖掘之前需要將新生分為不同的類型,如“城鎮(zhèn)新生”“農(nóng)村新生”;考生類別則是分為“應(yīng)屆”與“往屆”.本次設(shè)計(jì)的基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘平臺(tái),其置信度控制在20%左右,支持度設(shè)置在0.1%左右.利用對(duì)本次所設(shè)計(jì)的影響新生報(bào)到入學(xué)的因素?cái)?shù)據(jù)挖掘平臺(tái)進(jìn)行數(shù)據(jù)挖掘之后,所獲得的關(guān)聯(lián)規(guī)則共達(dá)到了400余條,挑選其中比較有代表性的10條數(shù)據(jù),如下所示:
(1)關(guān)聯(lián)規(guī)則:農(nóng)村應(yīng)屆錄取新生>入學(xué)報(bào)到;[sup=20.8%;conf=60.5%]
(2)關(guān)聯(lián)規(guī)則:城鎮(zhèn)應(yīng)屆錄取新生>入學(xué)報(bào)到;[sup=23.8%.conf=65.9%]
(3)關(guān)聯(lián)規(guī)則:城鎮(zhèn)應(yīng)屆/女生>入學(xué)報(bào)到;[sup=8.15%;conf=72.3%]
(4)關(guān)聯(lián)規(guī)則:城鎮(zhèn)應(yīng)屆/男生>入學(xué)報(bào)到;[sup=14.6%;conf=62.8%]
(5)關(guān)聯(lián)規(guī)則:農(nóng)村應(yīng)屆/女生>入學(xué)報(bào)到;[sup=7.6%;conf=68.1%]
(6)關(guān)聯(lián)規(guī)則:農(nóng)村應(yīng)屆/男生>入學(xué)報(bào)到;[sup=12.8%;conf=58.7%]
(7)關(guān)聯(lián)規(guī)則:城鎮(zhèn)應(yīng)屆/女生/省會(huì)>入學(xué)報(bào)到;[sup=0.6%;conf=61.8%]
(8)關(guān)聯(lián)規(guī)則:城鎮(zhèn)應(yīng)屆/男生>入學(xué)報(bào)到;[sup=1.3%;conf=66.4%]
(9)關(guān)聯(lián)規(guī)則:農(nóng)村應(yīng)屆/女生/省會(huì)>入學(xué)報(bào)到;[sup=0.2%;conf=55.6%]
(10)關(guān)聯(lián)規(guī)則:農(nóng)村應(yīng)屆/男生/省會(huì)>入學(xué)報(bào)到;[sup=0.8%;conf=54.9%]
根據(jù)關(guān)聯(lián)規(guī)則分析結(jié)果,我們能夠看出城鎮(zhèn)應(yīng)屆生報(bào)到率與農(nóng)村應(yīng)屆生報(bào)到率相比明顯更高;女生的報(bào)到率與男生相比更高;成績(jī)處于“好”范圍之內(nèi)的學(xué)生報(bào)到率與成績(jī)處于“較好”與“一般”范圍的學(xué)生相比其報(bào)到率會(huì)更低一些.這些規(guī)律在實(shí)際的工作當(dāng)中我們也有所體會(huì).比如農(nóng)村地區(qū)的一些學(xué)生受到家境及經(jīng)濟(jì)條件等因素的影響,他們可能會(huì)選擇學(xué)費(fèi)更低的學(xué)校學(xué)習(xí)或者是希望考上更好的學(xué)校,但并未如愿,而選擇放棄,直接就業(yè).
隨著招生制度的改革,各院校的招生向著自主化、多元化的方向發(fā)展.如何利用好現(xiàn)有的數(shù)據(jù)來解決招生決策中面臨的問題,變得十分重要.通過對(duì)新生報(bào)到影響因素?cái)?shù)據(jù)挖掘系統(tǒng)的研究分析能夠發(fā)現(xiàn)在高職院校錄取工作過程中所出現(xiàn)的表象或是潛在的特征與規(guī)律,這樣可以幫助學(xué)校實(shí)現(xiàn)更好的針對(duì)性管理,讓學(xué)校在教學(xué)管理、學(xué)生公寓安排、專業(yè)設(shè)置、班級(jí)設(shè)置等方面提前做好準(zhǔn)備和調(diào)整,避免由于招生盲目性所帶來的不良影響.