謝韻佳
摘要:隨著海量學(xué)籍?dāng)?shù)據(jù)的積累,運(yùn)用數(shù)據(jù)挖掘等技術(shù),發(fā)掘隱藏于學(xué)籍?dāng)?shù)據(jù)背后有價(jià)值的信息并以可視化方式呈現(xiàn),對高校決策具有重要意義。借助CARD信息可視化模型,選取SQL Server和ECharts作為主要工具,提出學(xué)籍信息可視化的基本模式。以164783名在籍生學(xué)籍信息可視化實(shí)現(xiàn)為例,對研究成果加以驗(yàn)證,得到相關(guān)輔助決策信息。模式為高校實(shí)現(xiàn)直觀可靠的決策數(shù)據(jù)支持提供了方法和路徑,對高校提高管理水平、科學(xué)規(guī)劃學(xué)科發(fā)展具有促進(jìn)作用。
關(guān)鍵詞:高校學(xué)籍管理;信息可視化;ECharts
DOI:10.11907/rjdk.191336
中圖分類號:G434 文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2019)012-0271-06
0引言
學(xué)籍信息管理是高校教務(wù)管理工作的重要內(nèi)容。為實(shí)現(xiàn)學(xué)籍信息的高效管理,管理方式由純手工記錄逐步轉(zhuǎn)變?yōu)檫\(yùn)用學(xué)籍信息系統(tǒng)進(jìn)行電子化記錄,在提高效率的同時(shí)也積累了海量的電子學(xué)籍?dāng)?shù)據(jù)。運(yùn)用數(shù)據(jù)挖掘技術(shù),發(fā)掘隱藏于學(xué)籍?dāng)?shù)據(jù)背后有價(jià)值的信息并以可視化方式呈現(xiàn),對高校提高管理水平、科學(xué)規(guī)劃學(xué)科發(fā)展等都具有重要意義。
信息可視化是可視化技術(shù)在非空間數(shù)據(jù)領(lǐng)域的應(yīng)用,可以增強(qiáng)數(shù)據(jù)呈現(xiàn)效果,讓用戶以直觀交互的方式實(shí)現(xiàn)對數(shù)據(jù)的觀察和瀏覽,從而發(fā)現(xiàn)數(shù)據(jù)中隱藏的特征、關(guān)系和模式。ECharts是一個(gè)純Javascript的圖表庫,可以流暢運(yùn)行在PC和移動設(shè)備上,提供直觀、生動、可交互、可高度個(gè)性化定制的數(shù)據(jù)可視化圖表。
我國學(xué)籍信息相關(guān)的可視化研究主要在信息系統(tǒng)構(gòu)建、可視化技術(shù)與方案選擇領(lǐng)域。2012年數(shù)據(jù)可視化成為研究熱點(diǎn),主要研究成果有:陳小燕等對可視化分析常用的方法與工具進(jìn)行分析與比較,形成了一套能對復(fù)雜數(shù)據(jù)進(jìn)行處理的可視化方案;王龍等、范以定及陳鳳構(gòu)建高校信息可視化系統(tǒng)及輔助決策模塊,形成了一套完整的輔助高校綜合信息分析可視化決策系統(tǒng);劉奇扉等將高校的圖書館信息在Web端實(shí)現(xiàn)可視化。但以上研究都未對可視化系統(tǒng)搭建之前的高校學(xué)籍信息提出可視化解決方案。
基于此,本文運(yùn)用Card信息可視化模型,借助可視化圖表庫ECharts,闡述高校學(xué)籍信息可視化的基本思路,構(gòu)建學(xué)籍信息可視化的基本框架模式,提出直觀可靠的高校決策數(shù)據(jù)支持方法和實(shí)現(xiàn)路徑,并以某成人高校F大學(xué)教務(wù)系統(tǒng)的學(xué)籍信息可視化實(shí)現(xiàn)為例,對研究成果加以驗(yàn)證。該學(xué)籍信息可視化系統(tǒng)運(yùn)用的模式、方法和工具,可為高校其它信息可視化研究提供借鑒。
1學(xué)籍信息可視化特點(diǎn)
信息可視化囊括了數(shù)據(jù)可視化、信息圖形、知識可視化、科學(xué)可視化以及視覺設(shè)計(jì)方面的所有發(fā)展與進(jìn)步。大數(shù)據(jù)時(shí)代背景下,信息可視化通常與數(shù)據(jù)分析相組合,包括數(shù)據(jù)接人整合、數(shù)據(jù)處理等功能。與傳統(tǒng)的學(xué)籍?dāng)?shù)據(jù)統(tǒng)計(jì)相比,信息可視化存在多方面特點(diǎn)和優(yōu)勢。
首先,信息可視化將學(xué)籍?dāng)?shù)據(jù)以更直觀、豐富的方式展現(xiàn),增強(qiáng)學(xué)籍?dāng)?shù)據(jù)的說服力。在可視化圖表工具中,圖表類型種類繁多,可以滿足不同的展示和分析需求。
其次,信息可視化能夠幫助學(xué)籍?dāng)?shù)據(jù)需求者更高效地理解學(xué)籍?dāng)?shù)據(jù),提高工作場所或教育機(jī)構(gòu)溝通交流效率,增強(qiáng)共享信息有效性,從而進(jìn)行更高效的決策。人們可以快速地對數(shù)據(jù)形成全面認(rèn)識,發(fā)現(xiàn)數(shù)據(jù)關(guān)鍵點(diǎn)。而傳統(tǒng)形式的學(xué)籍分析可能需要數(shù)小時(shí)解析所有數(shù)據(jù),且面對多維度和大數(shù)量的數(shù)據(jù)不可避免地產(chǎn)生混亂。
再者,能夠展現(xiàn)巨量學(xué)籍?dāng)?shù)據(jù)是數(shù)據(jù)可視化的另一個(gè)優(yōu)勢。數(shù)據(jù)可視化被普遍認(rèn)為是一種簡單有效的數(shù)據(jù)概括方式。學(xué)籍分析者可以在圖表中顯示出大型數(shù)據(jù)集總體,而不是部分樣本。用戶可高效操作海量數(shù)據(jù),發(fā)現(xiàn)隱含信息,從而產(chǎn)生新的預(yù)見。
最后,信息可視化適用于大規(guī)模非結(jié)構(gòu)化的字符型數(shù)據(jù)展示,如地理信息數(shù)據(jù)幫助人們理解和分析數(shù)據(jù)。
2信息可視化研究現(xiàn)狀
在中國知網(wǎng)(cNKI)檢索關(guān)鍵詞“信息可視化”,共有7445篇文章(截至2019年3月29日)。在CNKI中對全部檢索結(jié)果進(jìn)行計(jì)量可視化分析,得出總體趨勢分析圖和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),如圖1、圖2所示。
(1)信息可視化研究最早可追溯到1990年,Herr&Johnson等人在IEEE會議上首次將信息可視化概念及應(yīng)用作了詳細(xì)介紹。1994年鄭飛等將信息可視化引入國內(nèi)的學(xué)術(shù)研究。1994-2002年間的研究進(jìn)展緩慢,將信息可視化初步應(yīng)用于生產(chǎn)領(lǐng)域,如內(nèi)燃機(jī)、三峽工程等。2002年之后相關(guān)研究成果數(shù)量有明顯增長,信息可視化被應(yīng)用于氣象、地理、醫(yī)療、環(huán)境等多個(gè)領(lǐng)域。同時(shí),隨著Web技術(shù)的發(fā)展,實(shí)現(xiàn)了動態(tài)數(shù)據(jù)繪圖,大大提高了用戶對數(shù)據(jù)的控制和溝通能力。至2003年后更是呈爆發(fā)式增長,這基本和計(jì)算機(jī)軟硬件技術(shù)尤其是可視化技術(shù)的發(fā)展階段密切關(guān)聯(lián)。
(2)信息可視化通常與地理信息系統(tǒng)、GIS、三維可視化、虛擬現(xiàn)實(shí)、知識圖譜、數(shù)據(jù)挖掘、OpenGL和數(shù)據(jù)可視化等關(guān)鍵詞共同出現(xiàn)。因此,從關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)分析,信息可視化研究主要集中于地理信息、數(shù)據(jù)挖掘和三維可視化等領(lǐng)域。
我國信息可視化研究近年蓬勃發(fā)展,研究主題從理論研究逐步過渡到與相關(guān)學(xué)科結(jié)合的實(shí)踐研究,研究領(lǐng)域集中在地理數(shù)據(jù)、三維可視化和數(shù)據(jù)挖掘等方面,而信息可視化技術(shù)尚未進(jìn)入學(xué)籍信息研究領(lǐng)域。在學(xué)籍信息領(lǐng)域引人信息可視化技術(shù)是開拓性舉措,具有十分重要的現(xiàn)實(shí)意義。地理信息可視化等領(lǐng)域研究已較為成熟,為學(xué)籍信息可視化研究積累了諸多可供借鑒參考的經(jīng)驗(yàn)。
至于學(xué)籍信息可視化,已有研究較少,從中國知網(wǎng)(cNKI)上檢索關(guān)鍵詞“學(xué)籍信息可視化”,得到文章數(shù)為24篇。從檢索結(jié)果來看,文獻(xiàn)的研究主題主要是關(guān)于學(xué)籍管理系統(tǒng)的設(shè)計(jì)與開發(fā),學(xué)籍信息可視化研究文獻(xiàn)較少,有必要加以探索。
3學(xué)籍信息可視化基本思路
3.1基本模式
1989年斯圖爾特·卡德(stuart K.Card)、約克·麥金利(Jock D.Mackinlay)和喬治·羅伯遜(George G.RobeRson)首次提出,次年卡德等發(fā)布了信息可視化模型,是現(xiàn)階段可視化模型的基礎(chǔ)。該模型首次將線性可視化流程描述為一個(gè)循環(huán)過程,是后續(xù)其它可視化模型的基礎(chǔ)。CARD信息可視化過程分為數(shù)據(jù)預(yù)處理、繪制及顯示與交互3個(gè)階段。
(1)數(shù)據(jù)預(yù)處理:將信息進(jìn)行過濾與加工,使其易于輸人可視化模塊。預(yù)處理包括格式及標(biāo)準(zhǔn)化處理、異常值檢出、數(shù)據(jù)壓縮等。
(2)繪制:將數(shù)據(jù)轉(zhuǎn)換為幾何圖形,按照用戶需求應(yīng)用多種可視化技術(shù)繪制圖表。
(3)顯示和交互:將幾何圖像數(shù)據(jù)按照用戶指定條件渲染輸出。除將圖像信息輸出外,還需把用戶的反饋信息回傳,實(shí)現(xiàn)良好的人機(jī)交互。
3.2可視化工具
可視化工具種類繁多,日新月異,選擇一種或多種適合使用場景的工具顯得尤為重要。由于研究的樣本數(shù)據(jù)來自年份較早的教務(wù)系統(tǒng),因此兼容性是首要考慮的因素,所用的相關(guān)工具須與教務(wù)管理系統(tǒng)高度集成、流暢運(yùn)行。其次需要考慮運(yùn)行的穩(wěn)定性。所選用的軟件應(yīng)是大型軟件公司開發(fā)的成熟度較高的正式版本,并考慮更新升級,保障軟件穩(wěn)定性。最后決定性因素是選用契合學(xué)籍可視化需求的工具。學(xué)籍可視化具有數(shù)據(jù)量大、圖表呈現(xiàn)需精確等特點(diǎn),可視化工具的選擇需考慮學(xué)籍信息可視化特點(diǎn),在滿足需求的前提下,選擇資源占用低、性能高的可視化工具。
綜合上述因素,本研究選用SQL Server和EChaRs作為學(xué)籍可視化的實(shí)現(xiàn)工具。SQL Server(structured QueryLanguage Server)是微軟公司推出的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),具有良好的兼容性,可跨越從運(yùn)行Microsoft Windows98到運(yùn)行Microsoft Windows 2012的大型多處理器,為數(shù)據(jù)提供可靠的存儲,且T-SQL查詢語句為數(shù)據(jù)分析帶來便捷。ECharts是一個(gè)運(yùn)行于瀏覽器的純Javascript圖表庫,可以流暢運(yùn)行于PC和移動設(shè)備,兼容當(dāng)前絕大部分瀏覽器。底層依賴輕量級的Canvas類庫ZRender,提供直觀、生動、可交互、可高度個(gè)性化定制的數(shù)據(jù)可視化圖表。ECharts提供大數(shù)據(jù)量的可視化,擁有豐富的圖表類型,支持多個(gè)坐標(biāo)系,并能夠?qū)崿F(xiàn)數(shù)據(jù)驅(qū)動下的動態(tài)可視化。在深度的數(shù)據(jù)交互方面,ECharts也有相應(yīng)支持,基本滿足“總覽為先,縮放過濾按需查看細(xì)節(jié)”的需求。
3.3學(xué)籍信息可視化實(shí)現(xiàn)路徑
依據(jù)卡德信息可視化模型,結(jié)合SQL Server和ECharts工具特性,將學(xué)籍信息可視化實(shí)現(xiàn)路徑分為3個(gè)階段。
(1)學(xué)籍?dāng)?shù)據(jù)預(yù)處理。對學(xué)籍?dāng)?shù)據(jù)進(jìn)行檢測、篩選和加工。學(xué)籍?dāng)?shù)據(jù)中發(fā)現(xiàn)部分異常值需予以剔除,并將數(shù)據(jù)轉(zhuǎn)化成符合ECharts可視化模塊可輸入的標(biāo)準(zhǔn)格式。
(2)繪制可視化圖表。按照可視化需求,設(shè)立篩選條件,通過SQL Server獲得滿足條件的數(shù)據(jù),并將學(xué)籍?dāng)?shù)據(jù)輸人ECharts可視化模塊,應(yīng)用多種可視化技術(shù)繪制圖表。
(3)顯示與交互學(xué)籍可視化圖表。按照指定條件渲染輸出圖表,按照用戶反饋信息加以顯示并進(jìn)行相應(yīng)調(diào)整。例如,用戶可根據(jù)需要,選擇特定區(qū)域顯示特定記錄的單項(xiàng)數(shù)據(jù)或特定集合的細(xì)節(jié)數(shù)據(jù)。
4應(yīng)用案例
本研究選用某成人高校F大學(xué)作為應(yīng)用對象。該校在籍學(xué)生數(shù)量多達(dá)16萬余人,且為非全日制學(xué)生,具有分布廣、層次多、類型雜、學(xué)生差異性大等特點(diǎn),適合開展全面的學(xué)籍?dāng)?shù)據(jù)分析。該校早自1995年起就逐步開展學(xué)籍?dāng)?shù)據(jù)信息化管理,積累了大量學(xué)籍信息,如加以深入分析能產(chǎn)生有價(jià)值的成果。
4.1數(shù)據(jù)來源
學(xué)籍?dāng)?shù)據(jù)來源于F大學(xué)教務(wù)管理系統(tǒng),統(tǒng)計(jì)時(shí)間截至2017年4月10日,涵蓋2007年春季至2016年秋季共164783名在籍學(xué)生,剔除其中553名無效身份證號的學(xué)生,實(shí)際取得164230名學(xué)生的學(xué)籍信息。統(tǒng)計(jì)的學(xué)籍?dāng)?shù)據(jù)涉及學(xué)生個(gè)人基本信息、專業(yè)信息和選課信息。
4.2生源分布情況
了解生源分布情況最直觀的方式就是通過分布散點(diǎn)地圖,為每個(gè)學(xué)生在地圖上描點(diǎn),最終得出總體分布地圖,具體過程如下:
(1)截取所有學(xué)生的身份證號前6位,導(dǎo)入百度地圖省市縣經(jīng)緯度數(shù)據(jù),通過SQL Server篩選出所需數(shù)據(jù),并將其轉(zhuǎn)換為分布式地圖所需格式。
(3)渲染生源分布情況圖表,如圖4所示。從地圖上分析,F(xiàn)大學(xué)的學(xué)生來自于全國各地,東南部地區(qū)學(xué)生占主體地位,生源的主力軍是福建地區(qū)學(xué)生。
4.3性別比例和入學(xué)年齡分布情況
4.3.1性別比例
通過身份證號碼的性別標(biāo)識位,標(biāo)識出所有學(xué)生的性別。經(jīng)統(tǒng)計(jì),164230條數(shù)據(jù)中,女性占92832條,男性占71398條。男女性比例約為7:10,見圖5。
4.3.2入學(xué)年齡分布情況
分別統(tǒng)計(jì)各性別的入學(xué)年齡分布情況。截取所有學(xué)生身份證號的出生年份,將學(xué)生的入學(xué)年份減去出生年份,得出每個(gè)學(xué)生的人學(xué)年齡標(biāo)注于二維表。例如,篩選男性人學(xué)年齡數(shù)據(jù)的代碼如下:
統(tǒng)合以上兩張圖表可以得出,從性別上分析,女性多于男性,比例達(dá)到10:7;從年齡上分析,最小年齡為14歲,最大年齡為69歲,主要分布于17-47歲。結(jié)合二者分析,女性的年齡跨度較小,集中于17-42歲;男性的年齡跨度較大,集中于17-47歲。
4.4專業(yè)人數(shù)分年度情況匯總
對學(xué)生的專業(yè)信息進(jìn)行歸類統(tǒng)計(jì),得出人數(shù)排名前10位的專業(yè),分別為行政管理、法學(xué)、會計(jì)學(xué)(財(cái)會方向)、會計(jì)學(xué)、學(xué)前教育、農(nóng)村行政管理、建筑施工管理、工商管理、學(xué)前教育(教師方向)和小學(xué)教育。統(tǒng)計(jì)出排名前10的分專業(yè)人數(shù)后,引入“年份”維度,進(jìn)行年份與專業(yè)人數(shù)的可視化分析。從圖7可知:①行政管理是F大學(xué)擁有學(xué)生人數(shù)最多的專業(yè),達(dá)26825人次;②專業(yè)人數(shù)分布落差較大,排名第2的法學(xué)專業(yè)(14680人)人數(shù)占行政管理專業(yè)人數(shù)的54%,排名第10的小學(xué)教育專業(yè)(1813人)人數(shù)只占行政管理專業(yè)人數(shù)的6%;③法學(xué)、學(xué)前教育、農(nóng)村行政管理3個(gè)專業(yè),在2018年達(dá)到本專業(yè)人數(shù)最高值,說明2017年這3個(gè)專業(yè)招生情況明顯好轉(zhuǎn)。
4.5課程與學(xué)生選課情況
福建廣播電視大學(xué)課程按單位類型分為中央開設(shè)課程和省開設(shè)課程。根據(jù)學(xué)生選課情況表的歸類匯總,排名前10位的都是公共必修課,非行政管理部門可利用的數(shù)據(jù)。而省開課的選課情況是行政管理部門進(jìn)行課程資源分配和管理的重要依據(jù)。所以,本文對省開課的選課情況進(jìn)行統(tǒng)計(jì)分析,篩選出選課前10位的課程名稱為:地域文化(專)、地域文化(本)、社會調(diào)查、畢業(yè)作業(yè)、社IXq-作講座、社會學(xué)概論、社會實(shí)踐、信息管理概論、組織行為學(xué)、民族與宗教,對其進(jìn)行總?cè)藬?shù)對比分析,如圖8所示。從圖8可知:①地域文化??坪捅究普n程占比最大,達(dá)到36%;②社區(qū)工作講座、社會學(xué)概論、信息管理概論、組織行為學(xué)和民族與宗教這5門非公共必修課受學(xué)生歡迎程度較高,能夠與其它3門公共必修課一同列人選課排名表前10的位置。
5可視化對政策影響
高校內(nèi)涵建設(shè)的關(guān)鍵在于提高教育質(zhì)量。通過數(shù)據(jù)挖掘技術(shù)對學(xué)生、教師、專業(yè)、課程的基本情況進(jìn)行宏觀數(shù)據(jù)分析,并用可視化方式呈現(xiàn),為教育決策提供清晰可靠的依據(jù),是數(shù)據(jù)挖掘技術(shù)服務(wù)于教育的有效手段。
學(xué)生基本信息數(shù)據(jù)的大規(guī)模描點(diǎn)是在校生基本情況的直觀體現(xiàn),是決策的信息基礎(chǔ)。提高教育質(zhì)量是教育決策的重要目標(biāo),專業(yè)建設(shè)是重中之重。通過學(xué)籍?dāng)?shù)據(jù)挖掘與可視化分析,將專業(yè)、課程信息進(jìn)行精確的數(shù)據(jù)分析呈現(xiàn),為決策提供宏觀的學(xué)生專業(yè)人數(shù)與選課情況信息。學(xué)校專業(yè)數(shù)據(jù)的可視化結(jié)果直觀反映了本校專業(yè)的強(qiáng)項(xiàng)與短板,為教育規(guī)劃提供專業(yè)建設(shè)與人才培養(yǎng)決策的依據(jù)。
選課制借鑒“市場自由效應(yīng)”對課程進(jìn)行篩選,選課數(shù)據(jù)分析與可視化結(jié)果可以真實(shí)反映課程與任課教師受歡迎程度,可作為判斷教學(xué)有效性的重要指標(biāo)。其結(jié)果為教育決策者提供課程改革的數(shù)據(jù)支撐,并為教師隊(duì)伍建設(shè)與合理配置提供有效依據(jù)。
6結(jié)語
本文利用Card信息可視化模型,對2007-2017年間164230名學(xué)生的學(xué)籍信息進(jìn)行可視化分析研究,繪制出學(xué)生籍貫分布散點(diǎn)地圖、性別占比餅狀圖、入學(xué)年齡一性別分布散點(diǎn)圖、年份與專業(yè)人數(shù)堆疊條形圖和選課次數(shù)組成瀑布圖。通過分析,得到最受歡迎省開課前10名的學(xué)生分布比例,直觀看出地域文化占比36%居首位等信息,為高校內(nèi)涵建設(shè)相關(guān)決策提供依據(jù)。但此次研究對象集中于獨(dú)立組或獨(dú)立個(gè)體的大規(guī)模分析,例如大規(guī)模標(biāo)注分析、聚類分析、占比分析等,存在以下不足:
(1)未涉及獨(dú)立組及個(gè)體之間內(nèi)在關(guān)系分析。學(xué)生籍貫地圖、分性別年齡分布散點(diǎn)圖是針對獨(dú)立個(gè)體的大規(guī)??梢暬治?,專業(yè)分年度人數(shù)柱狀圖和選課次數(shù)組成瀑布圖,是對分組后的獨(dú)立組進(jìn)行個(gè)別研究,二者都未涉及關(guān)系網(wǎng)絡(luò)可視化分析領(lǐng)域。
(2)未涉及大規(guī)模數(shù)據(jù)支持的趨勢分析。趨勢分析是大數(shù)據(jù)支持的可視化分析領(lǐng)域,例如谷歌通過用戶檢索的關(guān)鍵詞預(yù)測某地區(qū)將爆發(fā)流感。
在后續(xù)研究中將應(yīng)用更為復(fù)雜的統(tǒng)計(jì)學(xué)方法和可視化圖表,對選課、轉(zhuǎn)專業(yè)、轉(zhuǎn)學(xué)等學(xué)籍信息進(jìn)行分析,找尋合適的趨勢分析研究方向。