徐瑩++于耳
摘 要:高校在日常的教學(xué)和管理中積累了大量的歷史數(shù)據(jù),如何挖掘數(shù)據(jù)背后的重要信息,并運用于學(xué)校的日常管理和教學(xué)工作是每個高校都需要考慮的問題。本文以上海公安高等??茖W(xué)校為例,提出了構(gòu)建大數(shù)據(jù)分析平臺的設(shè)想,闡述了平臺的建設(shè)目標(biāo)、原則以及系統(tǒng)框架,探討了平臺構(gòu)建中的關(guān)鍵技術(shù),并對平臺建設(shè)的預(yù)期效果進行了展望。
關(guān)鍵詞:大數(shù)據(jù);決策支持;數(shù)據(jù)分析
中途分類號:TP393 文獻標(biāo)志碼:A 文章編號:1673-8454(2017)05-0051-05
隨著信息化建設(shè)的不斷推進,高校建設(shè)正由數(shù)字化校園向著智慧校園的方向邁進。信息化高度發(fā)展,給教學(xué)、科研、學(xué)習(xí)、生活帶來了高速便捷的服務(wù),同時也長生了大量記錄高校日常管理和教學(xué)工作的數(shù)據(jù),這些數(shù)據(jù)隨著時間的積累構(gòu)成了一個龐大的大數(shù)據(jù)資源。這些資源具有很高的價值,如何讓這些數(shù)據(jù)發(fā)揮價值,為高校各項工作提供服務(wù),是值得每一個學(xué)校思考的課題。
一、信息化發(fā)展現(xiàn)狀
公安教育信息化是培養(yǎng)高素質(zhì)公安人才的根本要求,是開展教育訓(xùn)練工作的實際需要,是順應(yīng)公安信息化發(fā)展趨勢的必然選擇。上海公安高等??茖W(xué)校作為上海公安教育訓(xùn)練工作的主陣地,在校園信息化建設(shè)方面進行了積極的探索,由數(shù)字化校園正逐步向智慧校園邁進,在服務(wù)公安教育培訓(xùn)、指導(dǎo)公安實戰(zhàn)等方面發(fā)揮了重要的作用。
1.信息化基礎(chǔ)設(shè)施建設(shè)
自2005年啟動第一個信息化五年規(guī)劃以來,我校信息化基礎(chǔ)設(shè)施水平不斷提升。目前公安網(wǎng)和教科網(wǎng)兩套網(wǎng)絡(luò)均成熟應(yīng)用,公安網(wǎng)成為日常辦公的主要載體,無線網(wǎng)絡(luò)在校內(nèi)已實現(xiàn)了全覆蓋,廣大師生均可免費使用。此外學(xué)校率先使用虛擬化等先進技術(shù),運行了各類實體服務(wù)器107臺、虛擬服務(wù)器289臺,以及各類信息系統(tǒng)102個,其中郵件系統(tǒng)為全市5萬多名公安民警提供服務(wù),是上海市公安局首個面向全局民警應(yīng)用的郵件系統(tǒng)。
2.建成公安教育云服務(wù)平臺
2011年被評為上海市10家云計算應(yīng)用培育單位之一,我校開啟了公安教育云服務(wù)平臺的建設(shè)工作。在綜合考慮公安實戰(zhàn)及公安教育的業(yè)務(wù)需求基礎(chǔ)上,云平臺建設(shè)分為兩個方面,一方面是建立數(shù)據(jù)中心,將已有的物理資源、虛擬資源、數(shù)據(jù)及應(yīng)用資源進行整合,形成云資源池,通過云資源管理軟件對計算資源進行統(tǒng)一管理;另一方面,建立虛擬云桌面,將應(yīng)用封裝為各類云服務(wù)集中到云數(shù)據(jù)中心,用戶可通過多種聯(lián)網(wǎng)終端接入云門戶獲取相應(yīng)服務(wù)。云服務(wù)平臺作為上海市經(jīng)信委云計算培育項目在學(xué)校得到廣泛使用,其提供的云盤、虛擬云桌面、云應(yīng)用等功能有效地解決了教學(xué)資源異地訪問受限的問題,也為未來移動教學(xué)提供了一個優(yōu)秀的支撐平臺。
3.自主研發(fā)信息系統(tǒng)集成平臺
學(xué)校采用SOA等先進技術(shù)自主開發(fā)了信息應(yīng)用系統(tǒng)集成平臺,將校內(nèi)主要74個信息系統(tǒng)納入平臺進行統(tǒng)一管理。此外,上海公安教育訓(xùn)練管理平臺作為公安行業(yè)內(nèi)第一個覆蓋民警終身培訓(xùn)全過程的管理系統(tǒng),其16個培訓(xùn)管理子系統(tǒng)也納入了統(tǒng)一的信息化流程,為上海公安每一位民警形成了一份完整的教育訓(xùn)練活動電子檔案。信息系統(tǒng)平臺目前集成了學(xué)校80%的應(yīng)用軟件,當(dāng)前用戶56000人,日均在線1000人,為全局教育訓(xùn)練工作提供了強有力的支撐,也成為大數(shù)據(jù)分析最重要的數(shù)據(jù)來源之一。
4.建成上海公安遠程教育網(wǎng)
我校率先在全國公安院校建立“上海公安遠程教育網(wǎng)”,通過研發(fā)網(wǎng)絡(luò)學(xué)習(xí)平臺、領(lǐng)導(dǎo)干部在線學(xué)習(xí)平臺、在線考試系統(tǒng)、在線答疑等輔助模塊,探索遠程教育應(yīng)用于公安教育訓(xùn)練的新模式。學(xué)校教師教官均參與到公安網(wǎng)絡(luò)課程、公安微課程的建設(shè)中,形成了人人有課程教學(xué)網(wǎng)站、時時可布置在線作業(yè),處處可進行在線答疑的良好教學(xué)互動局面,打破了學(xué)員學(xué)習(xí)的時空限制,有效拓寬了學(xué)院獲取教學(xué)資源的渠道,使上海公安教育在使用教育信息技術(shù)方面成為全國的排頭兵。
二、信息化建設(shè)中的大數(shù)據(jù)
我校在信息化建設(shè)過程中,已部署了眾多軟件系統(tǒng),如信息系統(tǒng)集成平臺、教學(xué)管理系統(tǒng)、OA辦公系統(tǒng)、后保綜合系統(tǒng)、遠程教育、數(shù)字圖書館等,這些系統(tǒng)每天都在產(chǎn)生大量數(shù)據(jù),并且產(chǎn)生的速度越來越快。這些數(shù)據(jù)來源于不同的應(yīng)用和層次,既有教學(xué)、科研、人事、財務(wù)、資產(chǎn)等常規(guī)管理型業(yè)務(wù)所產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),又有課件、圖片、視頻等多媒體教學(xué)資源產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù),同時還有購物、吃飯、洗浴等一卡通消費行為數(shù)據(jù),以及無線網(wǎng)絡(luò)、RFID、GPS等物聯(lián)網(wǎng)感知的位置數(shù)據(jù)。這些數(shù)據(jù)在系統(tǒng)運行中不斷積累,目前學(xué)校各業(yè)務(wù)系統(tǒng)已有結(jié)構(gòu)化數(shù)據(jù)表約1000多個,記錄約5千萬條,數(shù)據(jù)規(guī)模接近200G,初步積累了“公安教育大數(shù)據(jù)”。這些數(shù)據(jù)得到了有效的存儲和管理,但囿于技術(shù)限制以及數(shù)據(jù)應(yīng)用經(jīng)驗的不足,這些數(shù)據(jù)在分析挖掘、充分利用方面還不夠。如何利用這些數(shù)據(jù),使這些數(shù)據(jù)變?yōu)橛袃r值的信息和知識,為公安教育訓(xùn)練工作提供決策成為擺在我們面前的一道亟需攻克的難題。
通過對信息系統(tǒng)和數(shù)據(jù)進行梳理,我們發(fā)現(xiàn)當(dāng)前系統(tǒng)中還存在一些問題:
(1)信息孤島現(xiàn)象仍然存在。雖然學(xué)校的信息集成平臺集中了絕大部分管理類的應(yīng)用,但是遠程教育、數(shù)字圖書館等專業(yè)應(yīng)用仍有較強的獨立性,信息并為充分集中和互通,數(shù)據(jù)之間無法動態(tài)關(guān)聯(lián),降低了數(shù)據(jù)的使用效率;
(2)技術(shù)難點需要突破。由于數(shù)據(jù)類型繁多,類型不一,傳統(tǒng)的數(shù)據(jù)挖掘算法無法滿足這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理要求,傳統(tǒng)數(shù)據(jù)挖掘技術(shù)面臨巨大的挑戰(zhàn);
(3)缺乏數(shù)據(jù)分析的模式和方法,數(shù)據(jù)需求不夠強烈,數(shù)據(jù)價值難以體現(xiàn)。
同時為了解學(xué)校對數(shù)據(jù)服務(wù)的需求,探索大數(shù)據(jù)應(yīng)用的解決方案,我們還對學(xué)校的教學(xué)部門及管理部門進行了走訪調(diào)查,聽取了各部門對信息化工作的意見和建議,并對日常教學(xué)、科研、管理等方面存在的數(shù)據(jù)應(yīng)用需求進行了歸納:
(1)校辦公室提出,希望通過數(shù)據(jù)掌握學(xué)校總體運行情況,但目前無法實時了解在校培訓(xùn)總?cè)藬?shù),教室、宿舍使用率,教師教官教學(xué)狀態(tài)等,缺乏相關(guān)數(shù)據(jù)支撐,為領(lǐng)導(dǎo)提供決策支持方面工作收到較大局限。
(2)政治處要時刻掌握民警的出勤情況、人員結(jié)構(gòu)、思想狀況等,但目前考勤系統(tǒng)還未能實現(xiàn)對各種出勤數(shù)據(jù)的自動統(tǒng)計,人事數(shù)據(jù)變動也無法做到即時的自動分析,工作人員則希望系統(tǒng)產(chǎn)生的數(shù)據(jù)可以通過統(tǒng)計和分析來得到有用信息從而降低人工統(tǒng)計的工作量,并能夠通過人員結(jié)構(gòu)變化進行各種趨勢分析。
(3)教務(wù)處目前已提供了各專業(yè)課程數(shù)據(jù)、師資情況、學(xué)校教室使用分布數(shù)據(jù)、學(xué)生實習(xí)實訓(xùn)等情況,工作人員希望能通過利用已有數(shù)據(jù)、分析排課規(guī)律來實現(xiàn)自動排課功能。學(xué)管處在現(xiàn)有錄入數(shù)據(jù)的基礎(chǔ)上,希望通過學(xué)生在??荚嚦煽?、德育表現(xiàn)、獲獎情況等在學(xué)員畢業(yè)前自動為每個學(xué)員形成綜合畫像。
(4)后保處表示對于學(xué)校日常管理的數(shù)據(jù)需求日漸增大,如對于能源消耗管理、車輛運行管理、經(jīng)費管理等應(yīng)用大數(shù)據(jù)分析,將大大提高后勤管理的工作效率。
(5)教學(xué)部門的工作人員提出希望能通過數(shù)據(jù)自動分析出網(wǎng)絡(luò)課程各模塊學(xué)員參與度及掌握情況,以及在線考試題目的錯誤率等,從而為網(wǎng)絡(luò)課程的設(shè)計提供參考,并為教學(xué)創(chuàng)新提供重要依據(jù)。
我校數(shù)據(jù)來源廣泛、數(shù)據(jù)類型繁多,數(shù)據(jù)量隨著信息化建設(shè)的推進日益增加?;谀壳暗臄?shù)據(jù)現(xiàn)狀,以及學(xué)校各部門對于數(shù)據(jù)應(yīng)用的需求,我們考慮建立公安教育大數(shù)據(jù)分析平臺,對學(xué)校人事、課程、資產(chǎn)、檔案等方面的數(shù)據(jù)進行收集、存儲、分析,把得出的知識再反過來服務(wù)于管理、教學(xué)、科研、后勤等各項工作,通過系統(tǒng)的整合以及數(shù)據(jù)的互聯(lián)、共享,提高數(shù)據(jù)的利用效率,從而推動數(shù)據(jù)在公安教育中的智能化運用。
三、公安教育大數(shù)據(jù)分析平臺的構(gòu)建方案探索
我校100多個信息應(yīng)用系統(tǒng),在日常教學(xué)和管理中積累了大量歷史數(shù)據(jù),但這些海量數(shù)據(jù)卻沒有得到有效的分析和利用,各部門人員在日常數(shù)據(jù)錄入和維護中只是通過統(tǒng)計和排序?qū)?shù)據(jù)進行簡單的功能操作獲得一些表面、淺顯、價值不高的結(jié)果。構(gòu)建一個大數(shù)據(jù)分析平臺,從學(xué)校其他應(yīng)用平臺中抽取海量數(shù)據(jù)進行管理、整合、分析和利用,從中發(fā)現(xiàn)潛在問題和有價值的規(guī)律,并通過可視化的方式進行展示,能夠為學(xué)校管理層提供科學(xué)決策的支持,并滿足教師教官、學(xué)員的個性化需求,從而提高我校信息化服務(wù)的質(zhì)量。
1.構(gòu)建目標(biāo)
(1)實現(xiàn)數(shù)據(jù)的共享和交換。將學(xué)校各應(yīng)用系統(tǒng)的數(shù)據(jù)進行集成和整合,使來源各異、種類不一的各類數(shù)據(jù)可以相互使用,豐富數(shù)據(jù)的來源,打破系統(tǒng)間的信息孤島,實現(xiàn)數(shù)據(jù)的共享和應(yīng)用。
(2)大數(shù)據(jù)的采集和存儲。研制數(shù)據(jù)適配接口,對接校內(nèi)各應(yīng)用系統(tǒng)獲取各類異構(gòu)數(shù)據(jù),并采用大數(shù)據(jù)主流的框架和系統(tǒng)對數(shù)據(jù)進行統(tǒng)一存儲,為數(shù)據(jù)的挖掘和分析打好基礎(chǔ)。
(3)大數(shù)據(jù)分析與決策。采用數(shù)據(jù)挖掘、數(shù)理統(tǒng)計等相關(guān)技術(shù),構(gòu)建大數(shù)據(jù)分析框架,提取數(shù)據(jù)中隱含的、未知的、極具潛在應(yīng)用價值的信息和規(guī)律,為學(xué)校的教務(wù)管理、科研管理、學(xué)員管理、后勤管理等各項工作提供決策和指導(dǎo)。
2.構(gòu)建原則
(1)安全性。公安教育訓(xùn)練工作中有許多保密性內(nèi)容,大數(shù)據(jù)分析平臺依托公安網(wǎng)進行部署,應(yīng)采取安全性高的訪問認證機制,同時在平臺建設(shè)中要充分重視系統(tǒng)自身的安全性以及其他應(yīng)用系統(tǒng)的安全性。
(2)可擴展性。對公安教育大數(shù)據(jù)的分析和應(yīng)用是一項長期持久的工作,隨著管理工作的重點、教育訓(xùn)練工作的變化推進,對于分析平臺的規(guī)模和要求也會不斷變化。因此,要求平臺的設(shè)計和實施要具有良好的擴展性,以滿足不斷發(fā)展變化的要求。
(3)靈活性。在平臺的設(shè)計和實施中要考慮到與其他應(yīng)用系統(tǒng)的整合,開發(fā)出多個類型的接口,能夠靈活接入其他系統(tǒng)、拓展服務(wù)類型。
3.總體框架
平臺應(yīng)適應(yīng)于大數(shù)據(jù)處理要求,能支持PB級數(shù)據(jù)管理。系統(tǒng)架構(gòu)應(yīng)高安全性、易擴展性,能夠支持各類主流開發(fā)語言,并提供豐富的接口。同時能夠支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲和應(yīng)用。Hadoop作為開源的大數(shù)據(jù)處理平臺和工具,其提供的HDFS分布式文件系統(tǒng)和MapReduce模型能夠很好地滿足以上的要求。系統(tǒng)的總體架構(gòu)圖如1所示。
基于Hadoop技術(shù)的公安院校大數(shù)據(jù)分析平臺自下而上分為三個部分,分別為:數(shù)據(jù)層、大數(shù)據(jù)采集與存儲、數(shù)據(jù)分析及展示。
(1)數(shù)據(jù)層,針對不同系統(tǒng)進行分析,制定系統(tǒng)數(shù)據(jù)采集范圍與目標(biāo),收集本校在日常管理和教學(xué)中的產(chǎn)生的各類數(shù)據(jù),將各種結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進行整合,為大數(shù)據(jù)的分析提供支撐。
(2)大數(shù)據(jù)采集與存儲旨在為各類異構(gòu)數(shù)據(jù)研制適配接口,與校內(nèi)其他各系統(tǒng)對接,并為數(shù)據(jù)提供適配、轉(zhuǎn)換、存儲等基本管理功能,基本步驟包括:
a.數(shù)據(jù)抽?。横槍Υ髷?shù)據(jù)分析平臺需要采集的各類數(shù)據(jù),分別有針對性地研制適配接口。對于已有的信息系統(tǒng),研發(fā)對應(yīng)的接口模塊與各信息系統(tǒng)對接,不能實現(xiàn)數(shù)據(jù)共享接口的系統(tǒng)通過ETL工具進行數(shù)據(jù)采集,支持多種類型數(shù)據(jù)庫,如SQL SERVER, ORACLE, ACCESS等學(xué)校系統(tǒng)數(shù)據(jù)庫,按照相應(yīng)規(guī)范對數(shù)據(jù)進行清洗轉(zhuǎn)換,從而實現(xiàn)數(shù)據(jù)的統(tǒng)一存儲管理。對于其他數(shù)據(jù),需要具體根據(jù)數(shù)據(jù)情況實現(xiàn)相關(guān)接口,利用對應(yīng)接口獲取相關(guān)數(shù)據(jù)信息,進而完成數(shù)據(jù)的抽取。
b、數(shù)據(jù)預(yù)處理:為使大數(shù)據(jù)分析平臺的MAPREDUCE算法能更方便對數(shù)據(jù)進行處理,同時為了使得數(shù)據(jù)的存儲機制擴展性、容錯性更好,需要把通過數(shù)據(jù)按照相應(yīng)關(guān)聯(lián)性進行組合,并將據(jù)轉(zhuǎn)化為文本格式,作為文件存儲下來。
c、數(shù)據(jù)存儲:為了提升數(shù)據(jù)存儲的擴展性和容錯性,采用主流的大數(shù)據(jù)框架Hadoop的HDFS文件系統(tǒng)對學(xué)校的各類數(shù)據(jù)統(tǒng)一進行文本化存儲,數(shù)據(jù)按相應(yīng)規(guī)則存儲,實現(xiàn)每日保存一套完整數(shù)據(jù)文件集,形成數(shù)據(jù)倉庫。
(3)數(shù)據(jù)分析和展示是核心業(yè)務(wù)層,通過數(shù)據(jù)報表工具,根據(jù)需求制定多樣的,針對性的數(shù)據(jù)報表。通過基于的Hadoop的MapReduce編程模型實現(xiàn)的數(shù)據(jù)分析系統(tǒng),針對存儲的數(shù)據(jù)進行數(shù)據(jù)處理、算法運行、結(jié)果轉(zhuǎn)換操作,將結(jié)果保存為報表文件,每日形成的報表文件集。報表展現(xiàn)系統(tǒng)將生成的報表文件以可視化方式進行展現(xiàn)。