摘要:高等教育自學(xué)考試(自考)是我國(guó)高等教育的一種重要形式,考生流失是自考的一種普遍現(xiàn)象。流失原因分析對(duì)自考管理方法的改革有著重要的意義。文章嘗試采用聚類分析中K-Means方法對(duì)北京市自考考生流失的多重因素進(jìn)行分析,揭示出自考考生流失的一些規(guī)律。
關(guān)鍵詞:數(shù)據(jù)挖掘;K-均值;高等教育自學(xué)考試;考生流失;聚類
引言
數(shù)據(jù)挖掘(Data Mining)指的是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)技術(shù)是計(jì)算機(jī)領(lǐng)域一個(gè)非常有活力的研究課題,其研究成果已廣泛應(yīng)用于金融、醫(yī)療保健、零售、制造業(yè)、工程與科學(xué)等行業(yè)??忌魇亲钥嫉囊环N普遍現(xiàn)象,分析流失原因?qū)ψ钥脊芾矸椒ǖ母母镉兄匾饬x。一些研究人員采用分類統(tǒng)計(jì)等研究方法,從公共課成績(jī)?nèi)胧址治隽魇У囊?guī)律,對(duì)該問題進(jìn)行了基礎(chǔ)性的研究。本文采用數(shù)據(jù)挖掘中的聚類分析方法尋找高等教育自學(xué)考試考生各種屬性和考生流失之間的聯(lián)系,希望能為相關(guān)機(jī)構(gòu)提供濃縮的數(shù)據(jù)歸納結(jié)果和有效的建議,更好地服務(wù)于教育機(jī)構(gòu),服務(wù)于考生。
1、流失定義與流失考生數(shù)據(jù)提取
自學(xué)考試的考試時(shí)間完全可以由考生自己選擇,學(xué)制沒有明確的期限,考生流失既不需要到相關(guān)部門認(rèn)定,也不保證以后不會(huì)再來參加考試。也就是說不再參加考試的考生在學(xué)籍中不會(huì)有記載,而且過了很長(zhǎng)時(shí)間(2、3年)后也許會(huì)重新參加考試。因此研究自學(xué)考試考生流失就必須對(duì)流失考生加以明確定義。
首先定義兩個(gè)概念:“跨度”和“暫停期”?!翱缍取倍x為考生參加第一門課程考試與參加最后一門課程考試的時(shí)間間隔(單位為月);“暫停期”定義為考生兩門課程考試間隔的最大時(shí)間(單位為月)。
圖1、圖2分別是北京市12658名自考已畢業(yè)的考生“跨度”和“暫停期”的統(tǒng)計(jì)數(shù)據(jù),其中???859人,他們中99.5%以上的畢業(yè)生跨度為66個(gè)月,94.1%以上的畢業(yè)生的暫停期為24個(gè)月;本科3799人,他們中99.3%以上的畢業(yè)生跨度為66個(gè)月,95.0%以上的畢業(yè)生的暫停期為24個(gè)月。因此在研究中定義66個(gè)月和24個(gè)月作為“跨度”和“暫停期”的流失閾值A(chǔ)和B。
自考考生流失的定義:跨度大于等于A(66個(gè)月)且最后一門課程考試距當(dāng)前最近一次考試時(shí)間大于等于B(24個(gè)月)的考生即為流失考生。
根據(jù)上述定義,從還未畢業(yè)的18050名考生中篩選出12545名流失考生??偭魇蕿?9.5%。其中??屏魇蕿?2%,本科流失率為54.3%。(注:其中專本同時(shí)報(bào)考的考生人數(shù)為1275人。)
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文