孫雪凌
(無錫太湖學(xué)院,江蘇 無錫 214000)
數(shù)據(jù)科學(xué)在高校學(xué)風(fēng)治理工作中的應(yīng)用探索
孫雪凌
(無錫太湖學(xué)院,江蘇無錫214000)
大數(shù)據(jù)時代下,高校教育信息化的建設(shè)水平日趨完善,數(shù)據(jù)驅(qū)動決策的管理思路也逐漸被引入到教務(wù)管理領(lǐng)域。文章主要聚焦于探索該領(lǐng)域中的學(xué)風(fēng)治理業(yè)務(wù)方向,其主要研究內(nèi)容是針對傳統(tǒng)學(xué)風(fēng)治理手段中的不足,創(chuàng)新地將數(shù)據(jù)科學(xué)引入其中,嘗試解決高校學(xué)風(fēng)治理工作中的種種問題,幫助切實提高新時代下教務(wù)管理工作的治理能效。文中探討了利用數(shù)據(jù)科學(xué)方法,基于Python在該領(lǐng)域的應(yīng)用實現(xiàn),精準(zhǔn)定位學(xué)風(fēng)表現(xiàn)典型班級群體,辨析學(xué)風(fēng)整體表現(xiàn)的影響因素,為教務(wù)管理的個性化治理方案制定提供依據(jù),以此幫助學(xué)校實現(xiàn)學(xué)習(xí)風(fēng)氣的整體提升。
數(shù)據(jù)挖掘;數(shù)據(jù)可視化;學(xué)風(fēng)治理
自2012年出臺《教育信息化十年發(fā)展規(guī)劃(2011—2020年)》起,教育信息化領(lǐng)域的政策集中發(fā)布。時至今日,10年規(guī)劃已經(jīng)過半,常規(guī)教學(xué)運行業(yè)務(wù)已實現(xiàn)了與信息技術(shù)的高度融合。在教務(wù)信息系統(tǒng)的幫助下,高校獲得了比以往任何時期都更為強(qiáng)大的業(yè)務(wù)處理效能,同時,關(guān)于教師、學(xué)生等的業(yè)務(wù)數(shù)據(jù)無論是在數(shù)據(jù)量還是指標(biāo)維度的數(shù)量上均獲得了爆發(fā)性增長,信息化戰(zhàn)略的實施為高校實現(xiàn)數(shù)據(jù)化治理積累了海量的數(shù)據(jù)儲備。然而,數(shù)據(jù)價值都具有時效性,如果無法及時培育出與業(yè)務(wù)數(shù)據(jù)生產(chǎn)速度相適應(yīng)的數(shù)據(jù)轉(zhuǎn)化與利用能力,在有效時間內(nèi)從數(shù)據(jù)海洋里挖掘出蘊藏其中的價值信息,將使得這部分?jǐn)?shù)據(jù)的價值逐步貶值,從而催化教學(xué)監(jiān)控工作“有監(jiān)無控”狀態(tài)的產(chǎn)生。近年來,伴隨工業(yè)界對數(shù)據(jù)科學(xué)應(yīng)用需求的不斷增長,Python,R等開源工具在數(shù)據(jù)化治理領(lǐng)域受到了高度關(guān)注和長足發(fā)展,尤其是Python一系列針對數(shù)據(jù)分析、數(shù)據(jù)挖掘與數(shù)據(jù)可視化開源擴(kuò)展庫的推出,更是使得管理人員利用Python數(shù)據(jù)科學(xué)應(yīng)用,輔助開展業(yè)務(wù)管理工作變得便利可靠。而相對于高校管理業(yè)務(wù)而言,外部技術(shù)環(huán)境的逐漸成熟則更加使得傳統(tǒng)教務(wù)管理業(yè)務(wù)借力現(xiàn)代數(shù)據(jù)科學(xué)應(yīng)用技術(shù),大幅改善學(xué)風(fēng)管理治理能效成為可能。
現(xiàn)如今,學(xué)風(fēng)治理工作已成為高校教學(xué)質(zhì)量監(jiān)控體系非常重要的環(huán)節(jié)之一,其治理能效極大程度地影響甚至決定了一所高校的整體學(xué)風(fēng)水平。然而細(xì)究傳統(tǒng)學(xué)風(fēng)治理工作會發(fā)現(xiàn),其評價手段往往比較單一,通常做法就是根據(jù)任課教師對各教學(xué)班的評價打分?jǐn)?shù)據(jù),計算出加權(quán)平均分,然后根據(jù)分值以班級為單位進(jìn)行簡單排序,以班級的排名次序作為學(xué)風(fēng)考核的唯一依據(jù)。這樣的考核方式雖然具備一定的有效性,但同時也存在非常明顯的缺點,其主要體現(xiàn)在不能精準(zhǔn)區(qū)分學(xué)風(fēng)明顯優(yōu)秀、表現(xiàn)一般和顯著落后的班級,因此也就無法針對各個群體的個性特征來制定和實施針對性治理方案,這在一定程度上影響了學(xué)風(fēng)治理的工作能效,在幫助改進(jìn)學(xué)校學(xué)風(fēng)方面的價值也非常有限,對于學(xué)校學(xué)風(fēng)建設(shè)工作的參考價值并不高。然而在當(dāng)今的大數(shù)據(jù)時代下,數(shù)據(jù)驅(qū)動決策的理念逐漸成為主流,從高校教務(wù)管理的實際需求出發(fā),基于對數(shù)據(jù)科學(xué)相關(guān)技術(shù)的應(yīng)用與功能實現(xiàn),努力探索制定一套能夠切實提高學(xué)風(fēng)治理能效的決策支持方案,成為當(dāng)務(wù)之急。
3.1關(guān)鍵技術(shù)介紹
3.1.1Python程序開發(fā)語言
Python是一種流行的程序設(shè)計語言,其具備語法簡潔、快速開發(fā)、功能完善等特征,并且Python擁有豐富且功能強(qiáng)大的各種擴(kuò)展庫,可以執(zhí)行很多種類的任務(wù),數(shù)據(jù)科學(xué)應(yīng)用便是其中的一個開發(fā)方向。對于本文的研究內(nèi)容而言,其最大的優(yōu)點是能夠?qū)崿F(xiàn)軟件的快速開發(fā),幫助教務(wù)人員從繁瑣的軟件開發(fā)工作中解脫出來,將更多的精力專注于業(yè)務(wù)內(nèi)容本身,在方案實現(xiàn)上具備較好的推廣復(fù)用基礎(chǔ)。
3.1.2Python數(shù)據(jù)處理技術(shù)
近年來,Python在數(shù)據(jù)科學(xué)領(lǐng)域已經(jīng)形成了一個由研究員、從業(yè)者和新手組成的氛圍活躍的大社區(qū),在良好外部環(huán)境的培育下得到了長足發(fā)展,并不斷涌現(xiàn)出如Numpy,Pandas,scikit-learn等一批功能完善、且完全開源的數(shù)據(jù)科學(xué)工具庫。為Python使用者實施數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)分析、數(shù)據(jù)挖掘等工作提供了優(yōu)良的技術(shù)儲備。
3.1.3 Python數(shù)據(jù)可視化技術(shù)
可視化的作用一般分為兩種,即探索式數(shù)據(jù)可視化或解釋性數(shù)據(jù)可視化,本文中的應(yīng)用需求對于以上兩者均有所涉及。首先,在數(shù)據(jù)挖掘階段,為提高結(jié)果的準(zhǔn)確度,需要從人的視覺決斷維度入手來評估和調(diào)整離群挖掘算法中的閥值參數(shù),探索式數(shù)據(jù)可視化則在這一過程中起到了關(guān)鍵性的輔助作用,能夠幫助分析員利用視覺決斷力快速、準(zhǔn)確地完成對異常值群體的辨析任務(wù)。而后,在描述分析原理及分析結(jié)論階段,又需要借助解釋性數(shù)據(jù)可視化的手段去呈現(xiàn)數(shù)據(jù)表征,幫助業(yè)務(wù)管理人員理解復(fù)雜的數(shù)據(jù)結(jié)構(gòu)和分析過程。對于上述需求,Python的matplotlib擴(kuò)展庫能夠為這一過程提供良好的技術(shù)支撐,其擁有非常豐富的功能函數(shù)群,能夠勝任各類數(shù)據(jù)可視化任務(wù),是數(shù)據(jù)工作者最常用到的數(shù)據(jù)可視化工具之一。
3.2實現(xiàn)過程及應(yīng)用成效
Python為本文的分析任務(wù)提供了良好的開發(fā)環(huán)境,以及包括數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化等在內(nèi)的全套技術(shù)支撐,在利用上述工具完成開發(fā)環(huán)境搭建后,即可開始班風(fēng)數(shù)據(jù)異常值的挖掘與成因辨析等工作。本文的示例數(shù)據(jù)來自某高校一整學(xué)期的教師評價數(shù)據(jù),其評價體系如表1所示。
表1 某高校班級學(xué)風(fēng)評價體系
學(xué)風(fēng)治理的數(shù)據(jù)分析工作主要可劃分為班級表現(xiàn)分類、異常值識別、結(jié)論可視化呈獻(xiàn)、影響因素辨析4個步驟,其具體的實現(xiàn)方法及應(yīng)用成效如下。
(1)根據(jù)學(xué)風(fēng)表現(xiàn)對班級群體分類。本文中的實例數(shù)據(jù)由教師評學(xué)體系的10項細(xì)分指標(biāo)及其具體分值構(gòu)成。第一步動作是將學(xué)校內(nèi)428個班級的學(xué)風(fēng)評價得分?jǐn)?shù)據(jù)準(zhǔn)確劃分為兩個簇,即學(xué)風(fēng)趨好群體與學(xué)風(fēng)趨差群體。班風(fēng)表現(xiàn)的分簇主要是基于Python對K-Means聚類挖掘算法的實現(xiàn)來完成,在完成分簇動作后,其分簇結(jié)果可matplotlib以紅、藍(lán)兩色進(jìn)行可視化呈獻(xiàn),效果如圖1所示。
圖1 某高校班級學(xué)風(fēng)聚類效果
(2)利用離群挖掘算法識別典型群體。在成功實現(xiàn)班級分簇后,第二步便是在分簇基礎(chǔ)上區(qū)分出各簇內(nèi)的異常值群體,即學(xué)風(fēng)表現(xiàn)明顯優(yōu)秀與顯著落后的兩類班級群體。其識別動作主要是基于Python對離群挖掘算法的實現(xiàn)完成,首先需通過將各班級學(xué)風(fēng)評價得分的10項細(xì)分指標(biāo)值聚合轉(zhuǎn)換成一個單項值,即本班級學(xué)風(fēng)各項評價得分離簇中心的距離,然后根據(jù)離心距離與閥值的比較,判斷其是否屬于離群點。過程中最關(guān)鍵的就是借助探索性數(shù)據(jù)可視化手段來設(shè)定合適的離群閥值參數(shù),以此準(zhǔn)確區(qū)分和定位兩簇內(nèi)的離群點班級,并用紅色圓點進(jìn)行標(biāo)注,其解釋性可視化效果如圖2所示。
圖2 離群挖掘過程解釋性可視化
(3)對數(shù)據(jù)挖掘結(jié)論進(jìn)行可視化呈獻(xiàn)。在確定前兩個步驟得到有效實施后,即可根據(jù)班級名稱關(guān)聯(lián)整合學(xué)風(fēng)聚類挖掘和離群挖掘的結(jié)果數(shù)據(jù),最終達(dá)到對學(xué)風(fēng)表現(xiàn)特別優(yōu)秀和顯著落后的兩類班級進(jìn)行定位與識別的目的,并對外輸出詳細(xì)的預(yù)警與榜樣班級名單。同時,為直觀呈獻(xiàn)分析結(jié)論,還可利用解釋性可視化手段對其數(shù)據(jù)表征進(jìn)行呈獻(xiàn),通過matplotlib的繪圖功能,將學(xué)風(fēng)表現(xiàn)明顯優(yōu)秀的班級用紅色三角形標(biāo)注,而將顯著落后的班級用藍(lán)色三角形進(jìn)行標(biāo)注,效果如圖3所示。
圖3 學(xué)風(fēng)表現(xiàn)典型班級群體識別效果可視化
(4)辨析影響學(xué)風(fēng)表現(xiàn)的決定性指標(biāo)。在完成上述一系列典型班級的識別動作后,還需要進(jìn)一步完成對典型學(xué)風(fēng)表現(xiàn)成因的辨析,找出顯著影響學(xué)風(fēng)評價得分的細(xì)分指標(biāo)項,即利用相關(guān)性算法來判斷哪些細(xì)分指標(biāo)對最終班級學(xué)風(fēng)評價的加權(quán)均分產(chǎn)生了高度的影響,以此來為學(xué)風(fēng)治理方案的制定提供決策依據(jù)。對于這一步的動作實現(xiàn),則主要是依賴Python對相關(guān)性算法的實現(xiàn)來完成,經(jīng)過相關(guān)性算法的計算,最終發(fā)現(xiàn)5項與實例數(shù)據(jù)中評價總分產(chǎn)生強(qiáng)相關(guān)關(guān)系的細(xì)分指標(biāo),如表2所示。
表2 學(xué)風(fēng)表現(xiàn)典型班級群體識別效果可視化
由此,教務(wù)管理人員可參照上述數(shù)據(jù)挖掘的結(jié)論,針對學(xué)風(fēng)表現(xiàn)優(yōu)秀和落后的群體,分別提出有效地鞏固與提升治理方案,以數(shù)據(jù)驅(qū)動決策的方式,開展更加高效、精準(zhǔn)的學(xué)風(fēng)治理工作。
Python數(shù)據(jù)科學(xué)應(yīng)用技術(shù)能夠很好地解決傳統(tǒng)學(xué)風(fēng)治理工作所面臨的定位不精確和治理能效低下等問題。通過“準(zhǔn)確聚焦—對癥下藥”的創(chuàng)新思路,基于Python語言對各種數(shù)據(jù)挖掘算法和可視化繪圖功能的實現(xiàn),本文在實踐中探索出一套建立在數(shù)據(jù)驅(qū)動決策基礎(chǔ)上的學(xué)風(fēng)治理整體解決方案。其理念更加貼合當(dāng)今大數(shù)據(jù)時代下業(yè)務(wù)信息化、管理數(shù)據(jù)化的治理思路,相較于傳統(tǒng)的學(xué)風(fēng)治理方案,其效果更加顯著,是較理想的替代方案。
今后,通過對該方案在高校環(huán)境下的長期探索實踐,不斷總結(jié)改進(jìn),教務(wù)管理者甚至能夠?qū)⑵渲械慕?jīng)驗平行遷移,應(yīng)用至其他相近業(yè)務(wù)中,令高校的業(yè)務(wù)信息化工作真正有效支撐治理方案的制定,建立聚焦度更高、長期有效的教務(wù)治理體系。長此以往,將使得高校教學(xué)運行與教學(xué)建設(shè)之間形成良性循環(huán),更好地適應(yīng)大數(shù)據(jù)時代下飛速發(fā)展的教育信息化建設(shè)工作要求,成為推動學(xué)?,F(xiàn)代化建設(shè)發(fā)展的重要動力。
[1]ROBERT L.Learning Data Mining with Python[M].北京:中國工信出版集團(tuán),2016.
[2]M KINNY W.Python for Data Analysis[M].California: O'Reilly Media, Inc, 2013.
[3]IGOR M.Python Data Visualization Cookbook[M]. Birmingham: Packt Publishing, 2013.
[4]張剛要,李藝.信息技術(shù)教育應(yīng)用之外的第二條道路—“信息技術(shù)與教育深度融合”路徑之反思[J].中國電化教育,2016(5):13-17.
Research on the application of data science in the study atmosphere management of universities and colleges
Sun Xueling
(Wuxi Taihu College, Wuxi 214000, China)
In the era of big data, the construction of information technology in higher education is becoming more and more perfect, and the management of data driven decision-making has gradually been introduced into the feld of educational administration management. This paper mainly focused to explore in the feld of studying atmosphere management business direction, and the main content of the research is aiming at the shortage of traditional studying atmosphere treatment means, and innovatedly applied data science into it,and tried to solve the problems in the governance of studying atmosphere in colleges and universities, to help enhance educational administration management effciency of high-tech era. This paper discussed using scientifc data method, basing on the application and implementation of Python in the feld, and precisely position the class group of typical style performed, and analyzed the infuence factors of the overall performance of studying atmosphere, providing the basis for individualized treatment plan of educational administration, in order to help schools to achieve the whole ascent of studying atmosphere.
data mining; data visualization;management of studying atmosphere
孫雪凌(1988— ),男,江蘇無錫,助理研究員;研究方向:數(shù)據(jù)科學(xué),計算機(jī)教學(xué)。