孔曉宇
摘 要:隨著教學(xué)、消費(fèi)、學(xué)生行為等數(shù)據(jù)量的積累,校園的各個(gè)應(yīng)用系統(tǒng)獲取的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)也越來(lái)越多。為了對(duì)學(xué)校的海量數(shù)據(jù)進(jìn)行深層次的數(shù)據(jù)挖掘和分析,校本數(shù)據(jù)中心的建設(shè)已成必然趨勢(shì)。文章以無(wú)錫商業(yè)職業(yè)技術(shù)學(xué)院校本中心的建設(shè)為例,通過(guò)對(duì)學(xué)情現(xiàn)狀分析、校本中心的建設(shè)情況,提出校本數(shù)據(jù)中心建設(shè)的重要性。
關(guān)鍵詞:校本數(shù)據(jù)中心;校情分析;大數(shù)據(jù)
1 實(shí)施背景
經(jīng)過(guò)多年的信息應(yīng)用系統(tǒng)建設(shè),高校已經(jīng)積累了海量的教學(xué)、消費(fèi)、學(xué)生行為等數(shù)據(jù)。但是校本數(shù)據(jù)的存儲(chǔ)和整合過(guò)程較為分散,缺乏統(tǒng)一平臺(tái)進(jìn)行管理,而且這些海量數(shù)據(jù)也沒(méi)有得到有效、充分的分析和利用,各部門(mén)人員在日常數(shù)據(jù)錄入和維護(hù)中只是通過(guò)統(tǒng)計(jì)和排序?qū)?shù)據(jù)進(jìn)行簡(jiǎn)單的功能操作,獲得一些表面、淺顯、價(jià)值不高的結(jié)果。
2 現(xiàn)狀分析
經(jīng)過(guò)多年的數(shù)字化校園建設(shè),高校校園的各個(gè)應(yīng)用系統(tǒng)獲取的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)也越來(lái)越多,目前存在應(yīng)用系統(tǒng)種類(lèi)多、數(shù)據(jù)分布分散等問(wèn)題。
(1)數(shù)據(jù)規(guī)模日益龐大,數(shù)據(jù)來(lái)源多元化,共享數(shù)據(jù)庫(kù)涵蓋系統(tǒng)多,高校生源不斷擴(kuò)張,信息不斷積累,致使數(shù)據(jù)庫(kù)中的信息不斷增加,進(jìn)而為數(shù)據(jù)挖掘、管理和分析帶來(lái)了困難。
(2)缺乏穩(wěn)定高效的校本數(shù)據(jù)中心環(huán)境,高校不同學(xué)科與專(zhuān)業(yè)采用的數(shù)據(jù)環(huán)境大多依賴(lài)現(xiàn)有的IT環(huán)境,導(dǎo)致數(shù)據(jù)運(yùn)行的基礎(chǔ)系統(tǒng)環(huán)境比較混亂且極其不穩(wěn)定,缺乏有效的數(shù)據(jù)管理,阻礙教學(xué)和科研工作的高效進(jìn)行。
(3)在科研管理活動(dòng)中,沒(méi)有使用成熟的管理平臺(tái),不僅數(shù)據(jù)難以共享,還容易出現(xiàn)數(shù)據(jù)隨意修改、刪除等現(xiàn)象,除了容易造成數(shù)據(jù)不一致,還嚴(yán)重影響了數(shù)據(jù)的安全性和穩(wěn)定性。
(4)數(shù)據(jù)利用不充分,校園的信息仍然停留在收集和累積階段,而數(shù)據(jù)僅僅停留在簡(jiǎn)單查詢(xún)和分析階段,并沒(méi)有對(duì)數(shù)據(jù)進(jìn)行整合、梳理和挖掘,使得這些信息仍未被管理者采用,作為決策依據(jù)的信息則少之又少。
(5)數(shù)據(jù)驅(qū)動(dòng)帶來(lái)的教學(xué)新挑戰(zhàn),數(shù)據(jù)劇增由量變引起質(zhì)變,學(xué)生的思維和行為模式在傳統(tǒng)的學(xué)科研究領(lǐng)域中發(fā)生轉(zhuǎn)變。如何借助大數(shù)據(jù)和人工智能相關(guān)技術(shù)以及資源,找到校本數(shù)據(jù)研究分析成果的新視角,為教學(xué)和學(xué)生服務(wù)提供策略指導(dǎo)是管理層面臨的新挑戰(zhàn)。
3 校本數(shù)據(jù)中心的建設(shè)
文章以無(wú)錫商業(yè)職業(yè)技術(shù)學(xué)院為例,校本中心的建設(shè)框架和內(nèi)容如下。
3.1 總體框架的設(shè)計(jì)
數(shù)據(jù)中心應(yīng)適應(yīng)于大數(shù)據(jù)處理要求,能支持PB級(jí)數(shù)據(jù)管理。系統(tǒng)架構(gòu)應(yīng)高安全性、易擴(kuò)展性,能夠支持各類(lèi)主流開(kāi)發(fā)語(yǔ)言,并提供豐富的接口。同時(shí)能夠支持結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和應(yīng)用,搭建4層架構(gòu)的全量數(shù)據(jù)中心。
(1)建設(shè)原始數(shù)據(jù)層(ODS層)。數(shù)據(jù)工程師根據(jù)接口對(duì)各系統(tǒng)的數(shù)據(jù)原樣加載到數(shù)據(jù)倉(cāng)庫(kù)ODS層,設(shè)定數(shù)據(jù)拉鏈、可對(duì)數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控,保證數(shù)據(jù)準(zhǔn)確無(wú)誤。同時(shí)有效地解決了傳統(tǒng)模式下第三方接口不可管理、原始數(shù)據(jù)質(zhì)量無(wú)法檢測(cè)的問(wèn)題。
(2)建設(shè)主題明細(xì)數(shù)據(jù)層(TDS層)。對(duì)中心庫(kù)最基本的數(shù)據(jù)進(jìn)行集中管理,依據(jù)標(biāo)準(zhǔn)規(guī)范建立數(shù)據(jù)集市,為數(shù)據(jù)的分析提供明細(xì)主題查詢(xún),解決數(shù)據(jù)可視化管理的問(wèn)題。
(3)建設(shè)匯總統(tǒng)計(jì)數(shù)據(jù)層(SMY層)??梢罁?jù)數(shù)據(jù)分析的需求提供各種匯總統(tǒng)計(jì),并可作為明細(xì)數(shù)據(jù)的校驗(yàn)和統(tǒng)計(jì)分析數(shù)據(jù)源,解決了傳統(tǒng)模式下數(shù)據(jù)分析建立模型的不規(guī)范性以及模型統(tǒng)一管理問(wèn)題。
(4)建設(shè)應(yīng)用數(shù)據(jù)層(SER層)。可依據(jù)第三方業(yè)務(wù)需求,構(gòu)建出對(duì)外服務(wù)的統(tǒng)一接口,實(shí)現(xiàn)接口的開(kāi)放性,解決了傳統(tǒng)模式下數(shù)據(jù)庫(kù)對(duì)外服務(wù)接口不規(guī)范、無(wú)法管理的問(wèn)題,保證數(shù)據(jù)安全的情況下也便于對(duì)外接口的統(tǒng)一定義和管理。
3.2 建設(shè)內(nèi)容
校本數(shù)據(jù)建設(shè)內(nèi)容如表1所示。
3.3 技術(shù)要求
3.3.1 平臺(tái)架構(gòu)技術(shù)要求
(1)以開(kāi)源的Hadoop為基礎(chǔ),研發(fā)校本數(shù)據(jù)中心,具備自主知識(shí)產(chǎn)權(quán)。系統(tǒng)通過(guò)多租戶(hù)功能允許各個(gè)院系或數(shù)據(jù)分析人員接入大數(shù)據(jù)平臺(tái)開(kāi)展數(shù)據(jù)分析與探索工作。以平臺(tái)數(shù)據(jù)管理為基礎(chǔ),可針對(duì)特定角色的用戶(hù)賦予指定表、指定列、指定行的訪問(wèn)權(quán)限,數(shù)據(jù)下載需按照我校的電子數(shù)據(jù)提取管理辦法完成審批流程,導(dǎo)出數(shù)據(jù)通過(guò)桌面文檔安全管理系統(tǒng)進(jìn)行加密并授權(quán)訪問(wèn)[1]。
(2)該平臺(tái)支持Windows、Linux操作平臺(tái);數(shù)據(jù)庫(kù)支持Oracle,Sql Server;Web服務(wù)器支持WebLogic,Tomcat較新版本等。客戶(hù)端兼容IE,F(xiàn)irefox,Chrome,Safari,360等主流瀏覽器、手機(jī)Android平臺(tái)Opera、UC及IOS平臺(tái)safari瀏覽器的各個(gè)版本。友好支持 PC、平板電腦、智能手機(jī)便捷操作。
(3)事務(wù)響應(yīng)時(shí)間不超過(guò)2s,同時(shí)在線數(shù)達(dá)到≥? ? 1 500人,并發(fā)數(shù)于≥500人。
(4)保證數(shù)據(jù)無(wú)縫對(duì)接,并提供安全策略及備份策略,保證與其他平臺(tái)之間的共享與交互,符合學(xué)校的數(shù)據(jù)標(biāo)準(zhǔn)。
3.3.2 軟件開(kāi)發(fā)的要求
(1)遵循學(xué)校信息化標(biāo)準(zhǔn)。
平臺(tái)的建設(shè)必須符合和遵守學(xué)校制定的信息化相關(guān)標(biāo)準(zhǔn)要求,以便規(guī)范地進(jìn)行業(yè)務(wù)數(shù)據(jù)的采集、存儲(chǔ)、傳輸、應(yīng)用。軟件平臺(tái)供應(yīng)商應(yīng)熟悉學(xué)校數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范和數(shù)據(jù)接口規(guī)范,在學(xué)校標(biāo)準(zhǔn)覆蓋不全的情況下,根據(jù)國(guó)家相關(guān)部門(mén)制定的標(biāo)準(zhǔn),與學(xué)校一起升級(jí)和完善學(xué)校自己的標(biāo)準(zhǔn)[2]。
(2)應(yīng)用程序的編程語(yǔ)言及服務(wù)器要求。
軟件須采用Java編程語(yǔ)言和服務(wù)器端Java技術(shù)進(jìn)行開(kāi)發(fā),業(yè)務(wù)應(yīng)用平臺(tái)和數(shù)據(jù)集成平臺(tái)均必須基于如Oracle大型數(shù)據(jù)庫(kù)上。數(shù)據(jù)庫(kù)服務(wù)器平臺(tái)、Web服務(wù)器平臺(tái)和應(yīng)用服務(wù)器平臺(tái)可以運(yùn)行于多種操作平臺(tái),包括但不僅限于Windows NT/2000/2003/2008、Unix和Linux(Red Hat Linux)等操作平臺(tái)。同時(shí),考慮到學(xué)校在服務(wù)器虛擬化方面的工作,要求平臺(tái)須適合在虛擬機(jī)上運(yùn)行。
(3)面向?qū)ο蟮慕M件技術(shù)。
采用了基于元數(shù)據(jù)的設(shè)計(jì)模式,開(kāi)發(fā)組件模塊化,統(tǒng)計(jì)指標(biāo)參數(shù)化,各個(gè)平臺(tái)之間協(xié)同工作,不同的平臺(tái)在同一運(yùn)行環(huán)境下彼此之間通過(guò)接口進(jìn)行程序模塊的調(diào)用、參數(shù)傳遞、數(shù)據(jù)共享。考慮到整個(gè)學(xué)校管理體系的改革以及建設(shè)規(guī)模的龐大和復(fù)雜,平臺(tái)建設(shè)具有很強(qiáng)的擴(kuò)展性要求。各模塊應(yīng)該相對(duì)獨(dú)立,通過(guò)接口容易組裝,整個(gè)平臺(tái)容易升級(jí)和擴(kuò)展[3]。統(tǒng)計(jì)指標(biāo)可以由用戶(hù)自定義,方便隨時(shí)根據(jù)業(yè)務(wù)變化來(lái)調(diào)整平臺(tái)參數(shù)。
(4)標(biāo)準(zhǔn)規(guī)范的接口技術(shù)及安全的數(shù)據(jù)集成。
建立一個(gè)能夠適應(yīng)學(xué)校未來(lái)發(fā)展的,能夠?yàn)榈谌綉?yīng)用平臺(tái)提供相關(guān)接口、開(kāi)發(fā)規(guī)范以及相關(guān)數(shù)據(jù)集成的接口規(guī)范。數(shù)據(jù)中心要求與學(xué)校其他應(yīng)用系統(tǒng)實(shí)行對(duì)接,制定與學(xué)校數(shù)據(jù)中心對(duì)接的數(shù)據(jù)共享解決方案,提供必要的數(shù)據(jù)檢查和清洗,消除信息孤島,實(shí)現(xiàn)學(xué)校其他系統(tǒng)與數(shù)據(jù)中心的高度統(tǒng)一和內(nèi)部共享。
(5)易用性。
平臺(tái)必須符合國(guó)人的使用習(xí)慣,并且簡(jiǎn)化各個(gè)功能模塊步驟,努力實(shí)現(xiàn)“方便找、找得到、使用簡(jiǎn)單”,體現(xiàn)“服務(wù)大廳”一站式服務(wù)特點(diǎn)以及“信息推送”的特點(diǎn)。
4 結(jié)語(yǔ)
制定更全面的數(shù)據(jù)管理平臺(tái),為全校師生提供安全可靠、完整統(tǒng)一的數(shù)據(jù)信息,必須從數(shù)據(jù)分類(lèi)、數(shù)據(jù)維護(hù)、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)使用與服務(wù)、數(shù)據(jù)安全等各個(gè)方面,建立有效的校本數(shù)據(jù)中心,實(shí)現(xiàn)數(shù)據(jù)共建、共享體系,提高數(shù)據(jù)質(zhì)量和利用效率,更深一步地發(fā)揮數(shù)據(jù)的作用和功能。
[參考文獻(xiàn)]
[1]許琦.內(nèi)部質(zhì)量保證體系中校本數(shù)據(jù)中心建設(shè)探討—以異構(gòu)數(shù)據(jù)遷移方法為例 [J].職業(yè)技術(shù),2020(5):1-6.
[2]王金彬.淺議數(shù)字化校本教學(xué)資源庫(kù)的建設(shè)與應(yīng)用[J].高考,2018(36):54.
[3]趙艷妮,郭華磊.基于XML異構(gòu)數(shù)據(jù)庫(kù)遷移技術(shù)研究[J].計(jì)算機(jī)與數(shù)字工程,2018(1):129-133.
(編輯 王雪芬)