瞿華禮,樊秀龍
(安徽廣播電視大學 宣城分校, 安徽 宣城 242000)
?
基于聚類分析的遠程開放教育滯留生研究
——以宣城廣播電視大學為例
瞿華禮,樊秀龍
(安徽廣播電視大學 宣城分校, 安徽 宣城 242000)
利用現(xiàn)有的挖掘技術(shù)中的K-means聚類分析對開放教育滯留生的數(shù)據(jù)進行了分析,對開放教育中收集到的兩類滯留生的數(shù)據(jù),根據(jù)滯留的性質(zhì)不同,分別設置了不同的觀測變量,利用K-means聚類分析,劃分出聚類中心,得出了影響學生滯留的關(guān)鍵性因素。
數(shù)據(jù)挖掘;聚類;滯留生
如今的國家開放大學(簡稱國開)實行的是一種師生準分離狀態(tài)的遠程開放教育。開放教育實行學分制,學籍有效期八年,最短學習年限不少于兩年半,學生在學籍有效期內(nèi)修滿專業(yè)學分即可獲得畢業(yè)證書。本課題擬將在最短學習年限和學籍有效期八年之間的時間內(nèi)的學生,定義為滯留生。本文研究的對象僅限于本科層次的學生,文中所指的滯留生包括已修滿課程學分獲得畢業(yè)資格,卻欲申請學位而延遲畢業(yè)的本科學生和未修滿課程學分卻超出最短學習年限并在學籍有效期內(nèi)的學生。
各級電大都要面對滯留生的問題,較高的滯留率會增加遠程開放教育的辦學成本,會加大基層電大的管理負擔,也不利于學生學習信念的堅定。目前,對遠程開放教育學生滯留原因卻鮮有相關(guān)深入的研究。
從電大管理的實際情況上看,滯留生總量較大,有關(guān)于滯留生的年級、專業(yè)和滯留的原因更加多樣復雜。實踐經(jīng)驗和已有研究表明,工學矛盾、心理預期、學習能力、工作狀況、家庭狀況等,專業(yè)設置、課程資源、教學質(zhì)量、師資條件、技術(shù)支持等,都是可能導致滯留或輟學的影響因素。[1]另外,滯留生個人因就業(yè)行業(yè)變動、居住地和工作地點變動等原因造成整個滯留生管理工作難度加大,從大力改進教學管理和提升教學服務質(zhì)量,并以學生為中心出發(fā),督促學生盡快完成學業(yè),挖掘?qū)W生滯留規(guī)律[2],采取切實有效的措施使滯留率降至最低,將會推動遠程開放教育教學管理及服務制度更健康的發(fā)展,也將使遠程開放教育理論體系得以完善。
數(shù)據(jù)挖掘(Data Mining) 指從海量隨機的有噪聲的數(shù)據(jù)中提取隱含在其中的卻又潛在有用的信息和知識的過程,它也被稱為知識發(fā)現(xiàn)。[3]數(shù)據(jù)挖掘技術(shù)揭示事物的規(guī)律與聯(lián)系,指導未來的活動。它已被應用于多個領(lǐng)域,包括教育行業(yè)。
數(shù)據(jù)挖掘是一項應用性很強的技術(shù),許多大型的數(shù)據(jù)庫廠商,如微軟,ORACLE等都有數(shù)據(jù)挖掘工具。在眾多企業(yè)中,IBM以它的Intelligent Miner走在了這項技術(shù)研發(fā)的前列[4],本文所用的統(tǒng)計分析工具就是IBM SPSS Statistics Version 22.0。本文運用了K-means聚類算法對數(shù)據(jù)進行分析。聚類算法使用迭代技術(shù)將數(shù)據(jù)分為包含類似特征的組,這些分組有利于識別數(shù)據(jù)異常及預測將來的活動。K-Means算法使用距離度量值將數(shù)據(jù)分到給其聚類中心最近的分類,它較適合分類任務。
例如,在實際應用中,我們可以用聚類分析的方法分析市場,給市場中的消費者進行分類,針對不同的消費者喜好推出不同的營銷策略從而增加營業(yè)收益。
(一)數(shù)據(jù)來源
項目組選取了離2016最近的三個畢業(yè)季,根據(jù)電大的最短學習年限,即選取了宣城廣播電視大學2012秋本科、2013春本科、2013秋本科,它們分別在2015年春季、2015年秋季、2016年春季畢業(yè)。選取的時間段因為研究方法所決定的。研究方法采用了問卷調(diào)查法,即對有滯留生的班級發(fā)放問卷或邀請班主任根據(jù)學生情況填寫問卷,如果選取的學生入學年限過長,信息會遺失且可用的樣本數(shù)會少,滯留生會隨著時間的延長逐漸畢業(yè),失去統(tǒng)計分析的意義[5],根據(jù)學生首次滯留來收集信息,一位學生多學期滯留則不重復進入樣本。
利用電大教學點管理平臺的“相關(guān)查詢”“學籍相關(guān)查詢”“教學點人數(shù)統(tǒng)計報表”統(tǒng)計出每個招生季的本科生數(shù)目,利用電大打印平臺的“畢業(yè)審核”“畢業(yè)申請花名冊”可以得出每學期的畢業(yè)人數(shù),根據(jù)下載報表中的學號,剔除往季的滯留生,即不在樣本內(nèi)的三個季的學生,就是各季首次畢業(yè)的學生數(shù)。招生人數(shù)減首次畢業(yè)的學生數(shù),即為樣本各季滯留學生數(shù)。根據(jù)平臺統(tǒng)計本研究應該得到的滯留生樣本數(shù)據(jù)是452條,三季招生總數(shù)為876人,滯留率=滯留生樣本數(shù)/樣本總數(shù),本研究的滯留率為51.5%。
(二)數(shù)據(jù)整理
通過走訪分校內(nèi)涉及樣本班級的所有班主任,填寫問卷,在452條的數(shù)據(jù)樣本里,離世1人,明確表示退學者25人,缺新華社采像照片4人,因特殊數(shù)據(jù)較少,不納入觀察,滯留生樣本還有422人。筆者將觀察樣本分為兩類:一類學分已滿延期申請學位的滯留生,二類學分不滿的滯留生,分別研究造成滯留的原因。根據(jù)宣城廣播電視大學教務管理檔案,三個招生季中,一類有77人,全部納入觀察;二類中去除離世和退學者,將余下的345人納入觀察。
根據(jù)筆者十余年在開放教育一線的工作實踐,本研究在一類問卷中,將班級、畢業(yè)設計/論文、學位課程、學位英語、時間因素、地點因素、學習體驗、主動學習效果作為觀測值,旨在通過數(shù)據(jù)分析得出最能影響學生申請學位的關(guān)鍵點和主要原因。在二類問卷中,項目組將班級、畢業(yè)設計/論文、教育部網(wǎng)考、網(wǎng)上作業(yè)、傳統(tǒng)筆試作為觀測值。
問卷在數(shù)據(jù)化的過程中,班級分別為3、2、1來為13秋季班、13春季班、12秋季班取值,其他觀察量用1表示此觀察量“已通過”或“被該觀測量影響”。本研究中設計的觀測體系如下表所示:
表1 開放教育滯留生觀測體系
本研究針對研究的兩類對象分別采用了不同的觀測指標,這是由于學分已滿和學分未滿的根本性差別,這樣更能從不同角度分析滯留原因。
本研究的數(shù)據(jù)采用統(tǒng)計軟件IBM SPSS 22.0進行K-means聚類分析[6-7]。
(一)一類滯留生分析
根據(jù)聚類分析的步驟,項目組根據(jù)研究目標將除班級外的7個指標全部納入觀測,考察各個變量的影響程度,標簽觀測量選定為專業(yè)班級,迭代最大次數(shù)設置為10,根據(jù)主要影響學分已滿學生滯留原因主要有學位課程、畢業(yè)設計和學位外語,筆者將數(shù)據(jù)聚為三類,統(tǒng)計的結(jié)果要求顯示初始聚類中心、方差分析表和每個觀測量的聚類信息,結(jié)果見表2。
表2 一類滯留生最終聚類中心距離最終聚類中心之間的距離
從表2可以看出,聚類中心之間的距離還是比較大的,分類的結(jié)果較理想。
表3 一類滯留生最終聚類中心最終聚類中心
表4 一類滯留生個案分布每個聚類中的個案數(shù)量
從最終的聚類中心看出,學生三項申請學位的條件均未達到時,主要因為距離因素和學習體驗因素造成的,當距離成為主要原因,學生不能到學校參加學習,學習體驗自然不如意。根據(jù)統(tǒng)計結(jié)果顯示,這類學生有17人;學生的學位英語未通過而畢業(yè)設計和學位課程通過者,主要影響因素為主動學習效果。主動學習效果不好可以理解為自學效果不佳或本身基礎比較薄弱,這類學生有42人,在整個群體中占較大比重,可見學位英語對申請學位影響較大;在第三個聚類中,畢業(yè)設計影響比較的學生有18人,由此比較可知,畢業(yè)設計的影響程度比學位英語影響程度較弱。
(二)二類滯留生分析
同一類滯留生分析過程一樣,項目組將除班級外的4個指標全部納入觀測,標簽觀測量選定為專業(yè)班級,迭代最大次數(shù)設置為10,筆者將數(shù)據(jù)聚為三類,統(tǒng)計的結(jié)果要求顯示初始聚類中心、每個觀測量的聚類信息。
表5 二類滯留生最終聚類中心最終聚類中心
表6 二類滯留生個案分布每個聚類中的個案數(shù)量
從分析的結(jié)果上看,第二類滯留生聚類的346個樣本中,聚類2中的個案數(shù)量最多,248人。從最終的聚類中心可以看出,教育部統(tǒng)考影響因素最大。
本文研究了遠程開放教育本科學生滯留的原因,按學分已滿和學分未滿兩類進行分別分析,可以得出基本結(jié)論:學位英語成為申請學位者的最大障礙,教育部網(wǎng)考的兩門課中,其中一門是大學英語A或大學英語B,網(wǎng)考也是在學分未滿中的滯留生中占了相對較高的影響比重。根據(jù)基本數(shù)據(jù)分析的結(jié)果,我們可以建議教學管理部門可以針對英語這門課程多分配教學時間,也可以進行相關(guān)的專門培訓或集中輔導來解決這個問題。宣城電大在教育部網(wǎng)考方面多年來一直堅持向?qū)W生提供考前強化輔導服務,取得了一定的效果。
滯留生的大量存在,對辦學成本和教職人員分配也造成了較大的影響,尤其是跟滯留生最接近的班主任老師,給一線的電大教職員工帶來了大量的隱性工作量。這是學校的管理者值得重視的問題。
[1] 朱祖林,畢磊,齊新安,等.現(xiàn)代遠程教育輟學率的挖掘分析:基于安徽地區(qū)1999-2009年數(shù)據(jù)[J].遠程教育雜志,2011(4):18-26.
[2] 畢悅.遠程開放教育學生滯留率問題研究[J].科教文匯,2014(4):91-92.
[3] 韓家煒.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2012:316-320.[4] 王海濤.常用數(shù)據(jù)挖掘算法研究[J].電子設計工程,2011(19):90-91.
[5] 張琳琳.電大開放教育遺留生問題研究綜述[J].北京廣播電視大學學報,2012(2):30-32.
[6] 張文彤,鄺春偉.SPSS統(tǒng)計分析基礎教程[M].北京:高等教育出版社,2015:32-33.
[7] 謝龍漢,尚濤.SPSS統(tǒng)計分析與數(shù)據(jù)挖掘[M].北京:電子工業(yè)出版社,2014:231-239.
[責任編輯 李潛生]
On the Retention Students of Distance Open Education Based on the Clustering Analysis——Taking Xuancheng Branch for Example
QU Hua-li,FAN Xiu-long
(Xuancheng Branch,Anhui Radio and TV University, Xuancheng Anhui 242000, China)
By using the K-means clustering analysis in the existing mining technology, the paper analyzes the data of the retention students of distance open education. Based on the data of two types of the retention students and the differences of the retention nature, different observed variables are set up. The key factors causing the retention are found by adopting the K-means clustering analysis and then dividing the centers of clustering.
data mining; clustering; retention students
2016-05-19
安徽廣播電視大學青年教師科研基金(項目編號:qn15-18)。
瞿華禮(1980-),女,安徽霍邱人,講師。研究方向:數(shù)據(jù)挖掘。
G728;TP311
A
1008-6021(2016)04-0057-03