張彥,張淑芳
(山東醫(yī)學(xué)高等專科學(xué)校,山東 臨沂276000)
高等職業(yè)教育是高等教育的重要組成部分,是職業(yè)技術(shù)教育的高等階段。隨著高校招生規(guī)模不斷擴大,高職院校的學(xué)生數(shù)量也越來越多。他們的學(xué)習(xí)素質(zhì)比起本科院校,生源知識結(jié)構(gòu)參差不齊,基礎(chǔ)較差,自制力較弱[1]。而隨著科技的快速發(fā)展,智能手機普及,大數(shù)據(jù)潮流來臨,影響學(xué)生學(xué)習(xí)成績的因素也較以前繁多。大數(shù)據(jù)不僅是一門技術(shù),更是一種全新的模式,利用大數(shù)據(jù)分析高職院校醫(yī)學(xué)生的成績影響因素,充分利用數(shù)據(jù)挖掘[2]、決策樹[3]等對學(xué)生各門科目、紀律與考勤等日常行為進行研究,分析學(xué)生各種學(xué)習(xí)行為及成績影響因素,從而使學(xué)校領(lǐng)導(dǎo)和一線教師對學(xué)生學(xué)習(xí)和日常管理有的放矢,有效提升高職院校教育教學(xué)質(zhì)量。
1.1 研究對象 選取山東醫(yī)學(xué)高等專科學(xué)校2017 級大一學(xué)生第一學(xué)期(2017 年9 月—2018 年1 月)考試理論成績。成績科目中,人體解剖學(xué)學(xué)包括期中和期末理論成績,組織胚胎學(xué)和公共英語期末理論成績。學(xué)生專業(yè)包括臨床專業(yè)18 個班,護理、檢驗、影像等專業(yè)各隨機抽取兩個班。學(xué)生成績不包括期末實訓(xùn)成績,只是期中與期末筆試理論成績,滿分100。
1.2 方法 從臨床專業(yè)18個班中,分析每個班不同分數(shù)段的人數(shù),進行班級頻數(shù)比較,分析每個班級是否符合正態(tài)分布、負偏態(tài)分布和正偏態(tài)分布。再從4個專業(yè)(臨床、護理、檢驗、影像)中每個專業(yè)各隨機抽取兩個班,共8個班,以個人為單位進行縱向比較,生成決策樹,見圖1。
圖1 決策樹
1.3 統(tǒng)計學(xué)處理 應(yīng)用SPSS20.0 軟件進行數(shù)據(jù)錄入分析,包括一般描述性分析,正偏態(tài)分布分析。應(yīng)用數(shù)據(jù)挖掘中的決策樹分析,決策樹算法采用改進的C4.5算法并進行決策樹修剪生成。
2.1 臨床專業(yè)18個班解剖學(xué)期末成績各班頻數(shù)比較見表1、圖2。
2.2 臨床專業(yè)男女生平均分比較 見表2。
表1 人體解剖學(xué)期末成績臨床各班各分段頻數(shù)比較
圖2 臨床17班、10班和14班成績頻數(shù)直方圖和負偏態(tài)分布曲線
表2 臨床專業(yè)男女生平均分比較(±s,分)
表2 臨床專業(yè)男女生平均分比較(±s,分)
性別 n 解剖學(xué)理論成績 組胚學(xué)期末理論成績期中 期末女生 483 76.15±9.49 72.67±10.26 67.96±9.78男生 455 67.13±12.51 63.45±13.34 60.10±13.67
2.3 決策樹構(gòu)造及生成
2.3.1 數(shù)據(jù)收集 學(xué)生成績從2017 級臨床專業(yè)、護理專業(yè)、影像專業(yè)和檢驗專業(yè)隨機抽兩個班,共8個班,431 名學(xué)生。學(xué)生成績表中數(shù)據(jù)由學(xué)生信息表和教師信息表兩部分組成。學(xué)生信息數(shù)據(jù)中有學(xué)號、性別、專業(yè)、課程名稱、成績和紀律考勤。教師信息數(shù)據(jù)中有教師姓名、職稱和課程名稱。
2.3.2 數(shù)據(jù)預(yù)處理 對采集到的數(shù)據(jù)進行數(shù)據(jù)“清洗”,通過數(shù)據(jù)轉(zhuǎn)換與選擇[4],將數(shù)據(jù)量縮減,如學(xué)生的紀律考勤用A 代表良好,B 代表較差;課程類型的屬性用A、B、C 分別表示公共課、專業(yè)基礎(chǔ)課和專業(yè)課;教師職稱的屬性值[5]用A、B、C、D代表教授、副教授、講師和助教;學(xué)生成績<60為不及格,用C表示;成績<80 為良好,用B 表示;成績>80 為優(yōu)秀,用A表示。
由于學(xué)生成績數(shù)據(jù)表中的屬性個數(shù)較多,為了方便決策樹模型的建立,選擇性別、專業(yè)名稱、課程名稱、紀律考勤和教師職稱這五個屬性,簡化形成訓(xùn)練數(shù)據(jù)集,作為建立學(xué)生成績分類決策樹模型的依據(jù),生成決策樹。
2.3.3 決策樹模型 本文中對決策屬性進行離散化處理,使其適合使用決策樹方法。并采用改進的C4.5算法[6],簡化計算量和計算復(fù)雜度,提升了建樹效率。通過對重點數(shù)據(jù)進行分類,計算并比較每個屬性的信息熵及信息增益率[7]。由于“專業(yè)名稱”的屬性具有最高信息增益率,所以被選為測試屬性。創(chuàng)建這個節(jié)點,并對該節(jié)點遞歸調(diào)用上述方法進行分類,創(chuàng)建決策樹[8]。當訓(xùn)練數(shù)據(jù)集中存在有噪聲,在盡量忠于源數(shù)據(jù)的決策規(guī)則,必須對決策樹進行剪枝。常用的剪枝方法有前剪和后剪。圖3 為采用后剪枝法形成的決策樹。
2.3.4 生成分類規(guī)則 決策樹最大的優(yōu)點就是可以直接提取類規(guī)則。將決策樹進行廣度優(yōu)先搜索[9],對每一個葉節(jié)點,求出從根節(jié)點到該葉節(jié)的路徑,該路徑上所有節(jié)點的劃分條件并在一起,并在每個葉節(jié)點生成規(guī)則,即構(gòu)成一條分類規(guī)則。由改進的C4.5 算法建好決策樹后,可以快速地將決策轉(zhuǎn)換為分類規(guī)則,采用IF...THEN 的形式來表達,生成規(guī)則,例如,IF“專 業(yè) 名 稱”=“臨 床 專 業(yè)”AND 職 稱=“助 教”THEN類成績=“B”
圖3 采用后剪枝法形成的決策樹
高職院校醫(yī)學(xué)生的成績管理是高校教務(wù)管理工作的基礎(chǔ)和核心[9]。傳統(tǒng)的大學(xué)生學(xué)習(xí)成績分析多由授課老師自己完成,將學(xué)生的考試成績做簡單排序和分析試卷難度,然后交由教務(wù)處存檔。在大數(shù)據(jù)背景下,通過數(shù)據(jù)挖掘?qū)︶t(yī)學(xué)生成績的各種影響因素進行挖掘,研究找出教學(xué)活動過程中哪些因素對學(xué)生成績具有重要影響[10],從而分析和識別出學(xué)生成績的直接影響因素和間接影響因素,實時掌握醫(yī)學(xué)生的學(xué)習(xí)狀況,就可以及時準確的為整個教學(xué)活動提供信息反饋,更好的提高教學(xué)效果和學(xué)生成績[11]。
通過人體解剖學(xué)期末成績臨床各班各分段頻數(shù)比較(表1)和臨床17 班、10 班和14 班成績頻數(shù)直方圖和負偏態(tài)分布曲線(圖2)的大數(shù)據(jù)分析,發(fā)現(xiàn)醫(yī)學(xué)生成績開始呈現(xiàn)負偏態(tài)和正偏態(tài)分布。例如同是臨床專業(yè),某些優(yōu)秀班級90 分以上可達12 個,80 以上可達10 個,呈現(xiàn)負偏態(tài)分布。但是不及格者也可達10個,許多班級成績呈現(xiàn)兩極分化,極大的拉低了班級平均分。而某些極差班級80 分以上沒有1 個,不及格的能達到20~25個,班級整體水平都趨于差,呈現(xiàn)正偏態(tài)分布。在大數(shù)據(jù)應(yīng)用中,分析在一個大教室上課的兩個班級成績存在一定的關(guān)聯(lián)性(我校學(xué)生上課大部分是兩個班同時合堂上大課),比如,臨床9、10、17、18 班,護理13、14 班,檢驗1、2 班等合堂班成績偏好,臨床13、14班,護理9、10班等合堂班普遍成績偏差。采用大數(shù)據(jù)中的決策樹生成來深入挖掘其背后隱藏的規(guī)則。
通過決策樹的IF-THEN 簡化規(guī)則,通過大數(shù)據(jù)分析發(fā)現(xiàn)對高職院校醫(yī)學(xué)生成績影響最大的是學(xué)生所學(xué)專業(yè)。如人體解剖學(xué)是影像專業(yè)的主要專業(yè)基礎(chǔ)課,在臨床、護理、影像和檢驗四個專業(yè)中,影像專業(yè)學(xué)生的人體解剖期末成績最高。同理,檢驗專業(yè)的主要專業(yè)基礎(chǔ)課是組織胚胎學(xué),所以檢驗專業(yè)學(xué)生的組胚學(xué)期末成績最高。
通過決策樹分析還發(fā)現(xiàn),學(xué)生的科目成績與教師的職稱高低并不成正比,但與課程性質(zhì)是否是公共課、專業(yè)基礎(chǔ)課和專業(yè)課有一定的關(guān)系。例如公共課如英語課,講師和副教授的課業(yè)成績比教授成績要好;對于專業(yè)基礎(chǔ)課,副教授職稱一般好于講師的課業(yè)成績;對于專業(yè)課,副教授和教授課業(yè)成績差別不明顯。決策樹還側(cè)面驗證了學(xué)生班級紀律考勤對成績也有比較明顯的影響因素。決策樹分析發(fā)現(xiàn),合堂班級整體學(xué)習(xí)紀律好,學(xué)習(xí)風(fēng)氣正,那兩個班成績都很好。反之,合堂班級紀律不好,兩個班成績都比較差,呈現(xiàn)明顯的相關(guān)性。
綜合分析認為,高職院校特別是高職醫(yī)學(xué)類院校,課程繁多,又以記憶類內(nèi)容為主;影響學(xué)生理論成績的因素很多,但對于大一新生,專業(yè)和紀律因素最明顯。應(yīng)針對不同專業(yè)情況采取不同措施,盡量在大一就形成良好的班級紀律和學(xué)習(xí)風(fēng)氣。
綜上所述,通過數(shù)據(jù)挖掘可以把學(xué)生日常紀律、選課數(shù)據(jù)、課堂活動、圖書借閱、網(wǎng)上學(xué)習(xí)、自習(xí)室使用頻率、實習(xí)實訓(xùn)和學(xué)生老師評價等進行分析歸納處理[12]。再通過深度數(shù)據(jù)挖掘,能發(fā)現(xiàn)一些沒被人注意到,但又是較大程度影響教學(xué)質(zhì)量的因素,如本課題通過決策樹分析就發(fā)現(xiàn)班級紀律也是影響高職院校醫(yī)學(xué)生成績的重要因素。所以,數(shù)據(jù)挖掘能在詳細掌握學(xué)生學(xué)習(xí)狀況的基礎(chǔ)上,獲取大量有益信息,還能及時應(yīng)對學(xué)生學(xué)習(xí)中遇到的問題,分析并做出學(xué)生成績下滑預(yù)警、成績關(guān)聯(lián)預(yù)警、學(xué)生生活狀態(tài)波動的危急預(yù)警[13]等,對學(xué)霸學(xué)習(xí)規(guī)律進行分析和推廣應(yīng)用,為學(xué)生全方面發(fā)展創(chuàng)造有利條件。
菏澤醫(yī)學(xué)專科學(xué)校學(xué)報2020年2期