高曉東 周建(江蘇工程職業(yè)技術(shù)學(xué)院圖文信息中心,江蘇南通226001)
?
高職院校圖書(shū)館大數(shù)據(jù)在學(xué)業(yè)預(yù)警中的應(yīng)用
高曉東周建
(江蘇工程職業(yè)技術(shù)學(xué)院圖文信息中心,江蘇南通226001)
[摘要]基于對(duì)圖書(shū)館入館統(tǒng)計(jì)分析報(bào)表的研究,發(fā)現(xiàn)并證實(shí)了圖書(shū)館大數(shù)據(jù)在學(xué)業(yè)預(yù)警平臺(tái)中的重要作用。圍繞圖書(shū)館大數(shù)據(jù)應(yīng)用的探索和實(shí)踐,用好自身資源對(duì)于圖書(shū)館迎接大數(shù)據(jù)時(shí)代的到來(lái)具有深遠(yuǎn)的意義。
[關(guān)鍵詞]圖書(shū)館大數(shù)據(jù)學(xué)業(yè)預(yù)警
[分類號(hào)]G250.7
近年來(lái)“大數(shù)據(jù)”革命開(kāi)始爆發(fā),從洛杉磯警察局和加利福尼亞大學(xué)合作利用大數(shù)據(jù)預(yù)測(cè)犯罪的發(fā)生到Google流感趨勢(shì)(Google Flu Trends)利用搜索關(guān)鍵詞預(yù)測(cè)禽流感的散布,體現(xiàn)了大數(shù)據(jù)巨大的應(yīng)用價(jià)值和商業(yè)價(jià)值。在圖書(shū)館學(xué)界,提高文獻(xiàn)數(shù)據(jù)處理能力,搜尋新的數(shù)據(jù)計(jì)算、探索圖書(shū)館大數(shù)據(jù)新的應(yīng)用途徑也逐漸成為研究熱點(diǎn)[1]。高職院校圖書(shū)館既有數(shù)據(jù)收集、存儲(chǔ)的基礎(chǔ)條件,也有大數(shù)據(jù)分析、利用的技術(shù)條件。一方面,圖書(shū)館書(shū)目種類多、數(shù)量大,各類電子資源豐富形成了大量的結(jié)構(gòu)化數(shù)據(jù)記錄;另一方面在日常服務(wù)過(guò)程中,讀者基本信息、借閱信息、入館信息、資源檢索信息等非結(jié)構(gòu)化數(shù)據(jù)也在不斷高速增長(zhǎng)。長(zhǎng)期以來(lái)這些數(shù)據(jù)只做了簡(jiǎn)單的存儲(chǔ)而沒(méi)有被重視和利用,通過(guò)大數(shù)據(jù)分析工具以及其他技術(shù)手段挖掘其背后蘊(yùn)含的深刻含義,是提升圖書(shū)館服務(wù)水平和能力的重要途徑,也是為學(xué)校其他業(yè)務(wù)部門提供決策的重要依據(jù)和支撐。
職業(yè)教育的蓬勃發(fā)展,使得高職院校招生規(guī)模逐年擴(kuò)大,而高職學(xué)生學(xué)習(xí)的主觀能動(dòng)性和實(shí)踐能力卻有所下降,進(jìn)而讓人擔(dān)憂學(xué)生的就業(yè)率。同時(shí)通過(guò)對(duì)圖書(shū)館入館統(tǒng)計(jì)報(bào)表的分析,發(fā)現(xiàn)圖書(shū)館紙質(zhì)圖書(shū)的借閱量逐年減少,人均入館次數(shù)也明顯降低。造成當(dāng)前局面的主要因素包括:①學(xué)生的自身素質(zhì)和讀書(shū)熱情不高;②任課教師對(duì)學(xué)生的參考書(shū)籍閱讀重視程度不夠;③圖書(shū)館的服務(wù)能力和服務(wù)水平還有待提升。
鑒于此,首先,學(xué)生自主學(xué)習(xí)能力的培養(yǎng)應(yīng)該納入教育教學(xué)考核體系,并且作為學(xué)生綜合素質(zhì)測(cè)評(píng)的一個(gè)重要指標(biāo);其次,圖書(shū)館要與二級(jí)教學(xué)單位密切溝通聯(lián)系,分析原因,尋找解決問(wèn)題的途徑,因地制宜采取措施激發(fā)學(xué)生讀書(shū)、學(xué)習(xí)的熱情;再次,教育職能作為高校圖書(shū)館的三大職能之一,圖書(shū)館有義務(wù)培養(yǎng)學(xué)生學(xué)習(xí)的主觀能動(dòng)性和學(xué)習(xí)興趣,也有必要通過(guò)各種信息化手段,通過(guò)預(yù)警信息的發(fā)布和推送來(lái)促進(jìn)和幫助學(xué)生提高學(xué)業(yè)水平。
2.1大數(shù)據(jù)概述
大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法通過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學(xué)和大數(shù)據(jù)應(yīng)用等領(lǐng)域。目前人們談?wù)撟疃嗟氖谴髷?shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用。工程和科學(xué)問(wèn)題尚未被重視。大數(shù)據(jù)工程指大數(shù)據(jù)的規(guī)劃建設(shè)運(yùn)營(yíng)管理的系統(tǒng)工程;大數(shù)據(jù)科學(xué)關(guān)注大數(shù)據(jù)網(wǎng)絡(luò)發(fā)展和運(yùn)營(yíng)過(guò)程中發(fā)現(xiàn)和驗(yàn)證大數(shù)據(jù)的規(guī)律及其與自然和社會(huì)活動(dòng)之間的關(guān)系[2]。
2.2學(xué)業(yè)預(yù)警機(jī)制
預(yù)警機(jī)制是指在預(yù)測(cè)出事件將要產(chǎn)生或可能產(chǎn)生不良后果時(shí)能及時(shí)發(fā)出警告,從而主動(dòng)防范以減少不必要損失的工作制度。它具有主動(dòng)性、超前性、針對(duì)性和及時(shí)性的特點(diǎn),能夠在預(yù)測(cè)范圍內(nèi)把風(fēng)險(xiǎn)與損失降至最低。學(xué)業(yè)預(yù)警是一種學(xué)校主動(dòng)管理、學(xué)生自我管理、家長(zhǎng)積極參與的多方協(xié)作管理模式[3]?!皩W(xué)業(yè)預(yù)警”制度最初由江西理工大學(xué)實(shí)施,分為期初預(yù)警、期中預(yù)警和期末預(yù)警3個(gè)階段。學(xué)校主要通過(guò)對(duì)不同學(xué)習(xí)階段的學(xué)生動(dòng)態(tài)加以密切關(guān)注,對(duì)缺課達(dá)到一定數(shù)量的學(xué)生采取提醒、教育等預(yù)先警示方式給予指出并責(zé)令改正。學(xué)分制下高職院校的學(xué)生學(xué)業(yè)預(yù)警機(jī)制,是對(duì)學(xué)生學(xué)習(xí)過(guò)程的監(jiān)控,通過(guò)學(xué)校、社會(huì)、家長(zhǎng)、學(xué)生之間多方面溝通與協(xié)作,對(duì)學(xué)生在學(xué)習(xí)中即將發(fā)生的問(wèn)題與困難進(jìn)行提示[4]。
目前,學(xué)業(yè)預(yù)警體系還不夠完善,學(xué)生檔案信息還不健全,判定學(xué)業(yè)水平的參數(shù)來(lái)源比較單一,對(duì)學(xué)生全方位跟蹤的能力還不夠。實(shí)際上,學(xué)業(yè)預(yù)警系統(tǒng)目前的數(shù)據(jù)主要來(lái)源于教務(wù)管理系統(tǒng),而作為學(xué)業(yè)預(yù)警體系,其龐大的數(shù)據(jù)來(lái)源應(yīng)該是多方面的,如圖書(shū)館利用數(shù)據(jù)、一卡通流水甚至各種視頻監(jiān)控?cái)?shù)據(jù),進(jìn)而構(gòu)建完整的學(xué)業(yè)預(yù)警體系。
圖1 圖書(shū)館學(xué)生入館統(tǒng)計(jì)
3.1圖書(shū)館入館統(tǒng)計(jì)分析
針對(duì)圖書(shū)館紙質(zhì)圖書(shū)借閱量下降以及入館人數(shù)偏少等諸多現(xiàn)狀,根據(jù)圖書(shū)館現(xiàn)有的管理系統(tǒng)進(jìn)行入館數(shù)據(jù)統(tǒng)計(jì)分析,統(tǒng)計(jì)報(bào)表的樣式如圖1所示。統(tǒng)計(jì)報(bào)表的數(shù)據(jù)來(lái)源主要是門禁系統(tǒng)數(shù)據(jù)、圖書(shū)館自動(dòng)化管理系統(tǒng)數(shù)據(jù)、一卡通數(shù)據(jù)等。
本報(bào)表以學(xué)生為個(gè)體,以其所屬的二級(jí)教學(xué)單位為分組進(jìn)行研究。主要參數(shù)包括所屬二級(jí)教學(xué)單位、二級(jí)教學(xué)單位在校生人數(shù)、二級(jí)教學(xué)單位在校班級(jí)數(shù)、到館人次、到館人數(shù)、借閱冊(cè)數(shù)、到館率、人均到館率、人均到館次數(shù)、Top100到館次數(shù)占比、Top100借閱冊(cè)數(shù)占比。其中到館人次是在統(tǒng)計(jì)周期內(nèi)重復(fù)統(tǒng)計(jì)同一個(gè)讀者多次入館的總次數(shù);到館人數(shù)是指統(tǒng)計(jì)周期內(nèi)一個(gè)讀者多次入館只統(tǒng)計(jì)一次;到館率=到館人數(shù)/在校學(xué)生數(shù)×100%;人均到館率=到館人次/在校學(xué)生數(shù)×100%;Top100到館次數(shù)占比是指該二級(jí)教學(xué)單位在統(tǒng)計(jì)周期內(nèi)到館次數(shù)最多的前100名學(xué)生所占的人數(shù);Top100借閱冊(cè)數(shù)占比是指該二級(jí)教學(xué)單位在統(tǒng)計(jì)周期內(nèi)到館借閱圖書(shū)最多的前100名學(xué)生所占的人數(shù)。
從報(bào)表數(shù)據(jù)來(lái)看,不難得出以下結(jié)論:①各二級(jí)教學(xué)單位的入館人次分布不均,除個(gè)別二級(jí)教學(xué)單位入館人次較少外,大部分二級(jí)教學(xué)單位入館人次相當(dāng)。一方面說(shuō)明了二級(jí)教學(xué)單位對(duì)學(xué)生入館學(xué)習(xí)的重視程度不同,另一方面說(shuō)明了圖書(shū)館對(duì)不同專業(yè)能有效提供參考文獻(xiàn)的服務(wù)能力不夠。②到館人次和到館人數(shù)明顯存在差異,Top100到館次數(shù)占比發(fā)布不均。這說(shuō)明同一個(gè)學(xué)生在統(tǒng)計(jì)周期內(nèi)多次到館,而大部分同學(xué)很少入館學(xué)習(xí)或者根本沒(méi)有入館,即存在少部分主觀學(xué)習(xí)能動(dòng)性較高的學(xué)生,但大部分學(xué)生需要通過(guò)一定的監(jiān)督和促進(jìn)手段來(lái)培養(yǎng)其學(xué)習(xí)興趣。③Top100借閱圖書(shū)冊(cè)數(shù)發(fā)布不均。學(xué)生入館后可能去了電子閱覽室查閱電子圖書(shū)和數(shù)據(jù)庫(kù),也可能進(jìn)入閱覽室完成功課,但是沒(méi)有借閱紙質(zhì)圖書(shū)。從某種方面說(shuō)明了傳統(tǒng)的紙質(zhì)圖書(shū)與現(xiàn)代電子圖書(shū)相比,其弱勢(shì)凸顯,這需要結(jié)合電子圖書(shū)和數(shù)據(jù)庫(kù)的檢索和下載記錄來(lái)分析。從一張簡(jiǎn)單的入館統(tǒng)計(jì)分析報(bào)表中,還可得出其他更多的信息,如學(xué)生入館次數(shù)、借閱紙質(zhì)圖書(shū)冊(cè)數(shù)與其學(xué)業(yè)水平的關(guān)系,這是圖書(shū)館大數(shù)據(jù)利用的意義體現(xiàn)。
3.2圖書(shū)館大數(shù)據(jù)支持學(xué)業(yè)預(yù)警
3.2.1圖書(shū)館大數(shù)據(jù)來(lái)源
目前,高職院校圖書(shū)館的信息化管理水平相對(duì)較高,在長(zhǎng)期的服務(wù)過(guò)程中產(chǎn)生了大量的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括圖書(shū)館管理系統(tǒng)中記錄的讀者基本信息、借閱記錄、超期違章等,這些數(shù)據(jù)具有較強(qiáng)的邏輯性。在圖書(shū)館服務(wù)過(guò)程中產(chǎn)生的沒(méi)有明顯因果關(guān)系的大量數(shù)據(jù),如讀者流量的電子資源、對(duì)文獻(xiàn)的咨詢、書(shū)目信息的檢索等則是非結(jié)構(gòu)化數(shù)據(jù),其具有隨時(shí)、海量與彈性的基本特征。非結(jié)構(gòu)化數(shù)據(jù)每時(shí)每刻都在不斷增長(zhǎng)。
圖書(shū)館大數(shù)據(jù)的應(yīng)用首先取決于大數(shù)據(jù)源的獲取。圖書(shū)館具有獨(dú)立的服務(wù)器和存儲(chǔ)設(shè)備,電子資源以及相關(guān)管理系統(tǒng)均已經(jīng)本地化部署。通過(guò)數(shù)據(jù)庫(kù)客戶端工具可以方便地查詢和獲取相關(guān)字段,這為圖書(shū)館大數(shù)據(jù)獲取提供了便利。圖書(shū)館大數(shù)據(jù)源包括:①門禁系統(tǒng)。高職院校圖書(shū)館基本上已經(jīng)擁有了先進(jìn)的門禁系統(tǒng)。學(xué)生入館需要刷卡進(jìn)入通道機(jī),系統(tǒng)實(shí)時(shí)調(diào)取學(xué)生的基本信息并記錄入館時(shí)間。從該系統(tǒng)記錄的數(shù)據(jù)可以分析出入館學(xué)生所屬年級(jí)分布狀況、入館高峰時(shí)段、入館時(shí)長(zhǎng)等信息。②OPAC系統(tǒng)。OPAC系統(tǒng)是圖書(shū)館自動(dòng)化管理系統(tǒng)的Web服務(wù)方式,OPAC系統(tǒng)可以為學(xué)生提供書(shū)目查詢、新書(shū)通報(bào)、借閱歷史、預(yù)期催還等服務(wù)。該數(shù)據(jù)系統(tǒng)可以分析出學(xué)生的圖書(shū)檢索記錄、熱門檢索詞、超期催還率等。③圖書(shū)館自動(dòng)化管理系統(tǒng)。借出率、借到率、年借閱量、熱門圖書(shū)、逾期催還、優(yōu)秀讀者年級(jí)分布等。④電子資源。圖書(shū)館電子資源服務(wù)常見(jiàn)的有CNKI、讀秀、超星數(shù)字圖書(shū)館等。相關(guān)電子資源數(shù)據(jù)庫(kù)對(duì)讀者的檢索記錄、下載記錄、熱門檢索均做了存儲(chǔ)。⑤電子閱覽室管理系統(tǒng)。通過(guò)一卡通機(jī)房管理系統(tǒng),可以對(duì)上機(jī)時(shí)長(zhǎng)、高峰時(shí)段、人員分布甚至上機(jī)瀏覽內(nèi)容進(jìn)行分析。其次,構(gòu)建大數(shù)據(jù)應(yīng)用環(huán)境。圖書(shū)館海量數(shù)據(jù)預(yù)處理是關(guān)鍵,即對(duì)數(shù)據(jù)進(jìn)行篩選、過(guò)濾、分類、關(guān)聯(lián)等初加工和清洗,使原始數(shù)據(jù)存儲(chǔ)有序化以提高數(shù)據(jù)的應(yīng)用效率。
3.2.2圖書(shū)館大數(shù)據(jù)分析
圖書(shū)館大數(shù)據(jù)分析借助于BDA(Big Data Analysis)實(shí)現(xiàn)。BDA是將先進(jìn)的分析技術(shù)用于大數(shù)據(jù)集,從而實(shí)現(xiàn)從數(shù)據(jù)到有價(jià)值信息的轉(zhuǎn)換。它關(guān)注兩個(gè)方面:一是大數(shù)據(jù)本身及分析技術(shù);二是二者的結(jié)合實(shí)現(xiàn)從大數(shù)據(jù)提取有價(jià)值的信息。BDA的分析過(guò)程采用各種平臺(tái)和工具,如阿帕奇Ha?doop。Hadoop是一個(gè)開(kāi)源的系統(tǒng),主要包括兩部分,一是分布文件系統(tǒng)(HDFS),二是分布計(jì)算系統(tǒng)(MapReduce)[5]。HDFS是一個(gè)分布文件管理系統(tǒng),呈主/從結(jié)構(gòu),一個(gè)主節(jié)點(diǎn)稱為名字節(jié)點(diǎn)(Namenode),其余的計(jì)算機(jī)是從節(jié)點(diǎn),稱為數(shù)據(jù)節(jié)點(diǎn)(Datanode)。主節(jié)點(diǎn)管理元數(shù)據(jù),從節(jié)點(diǎn)存放和管理應(yīng)用數(shù)據(jù)。一個(gè)HDFS系統(tǒng)可以支持巨大的分布文件系統(tǒng),為了進(jìn)一步支持大數(shù)據(jù),在HDFS上構(gòu)建了一個(gè)NoSQL數(shù)據(jù)庫(kù)系統(tǒng)。除此以外,Hadoop在HBase上還提供了一個(gè)數(shù)據(jù)倉(cāng)庫(kù)/數(shù)據(jù)挖掘軟件Hivi以及面向機(jī)器學(xué)習(xí)軟件包Mahout。
以Hadoop技術(shù)與平臺(tái)實(shí)現(xiàn)圖書(shū)館大數(shù)據(jù)分析,實(shí)施流程與常用的OODA環(huán)即(觀察、定位、決策、行動(dòng))類似,包括圖書(shū)館大數(shù)據(jù)訪問(wèn)(大數(shù)據(jù)聚集(大數(shù)據(jù)分析(決策(人在環(huán)路或人不在環(huán)路))))。圖書(shū)館多源大數(shù)據(jù)的分析主要解決多源信息的集成、復(fù)雜數(shù)據(jù)的索引與檢索以及異構(gòu)數(shù)據(jù)庫(kù)聯(lián)合。借助Objectivity公司開(kāi)發(fā)的Objectivity/DB可以實(shí)現(xiàn)多源數(shù)據(jù)的集成以及采用一種并行搜索引擎快速確定可能包含所查詢對(duì)象的“數(shù)據(jù)容器”,并利用線程迭代找到目標(biāo)數(shù)據(jù)容器。
由圖書(shū)館大數(shù)據(jù)實(shí)現(xiàn)學(xué)業(yè)預(yù)警信息轉(zhuǎn)換,首先要依據(jù)學(xué)校相關(guān)學(xué)業(yè)制度,其次要科學(xué)設(shè)定評(píng)判學(xué)生圖書(shū)館利用率的閾值。如一學(xué)期內(nèi)學(xué)生從未到圖書(shū)館或者到了圖書(shū)館但文獻(xiàn)資源的檢索和借閱為零,則至少表明該學(xué)生對(duì)專業(yè)學(xué)習(xí)的興趣不高。從這些方面可以找到學(xué)生學(xué)業(yè)水平不高的原因,是學(xué)業(yè)預(yù)警系統(tǒng)決策的重要支撐依據(jù)。在圖書(shū)館異構(gòu)數(shù)據(jù)庫(kù),Objectivity/DB則采用單一邏輯視圖方法處理。Objectivi?ty/DB不僅能管理和構(gòu)造所有數(shù)據(jù)庫(kù)還能通過(guò)ODBC或中間件增加傳統(tǒng)數(shù)據(jù)庫(kù)的管理系統(tǒng)網(wǎng)關(guān)。圖書(shū)館大數(shù)據(jù)通過(guò)構(gòu)建協(xié)同工作環(huán)境的分析流程如圖2所示。
圖2 Objectivity /DB圖書(shū)館大數(shù)據(jù)分析流程
3.2.3學(xué)業(yè)預(yù)警信息的推送方式
基于BDA,看似雜亂無(wú)章的數(shù)據(jù)將形成“某某同學(xué),您近期借閱圖書(shū)偏少”或者“某某同學(xué),您近期未到圖書(shū)館”等智慧信息。這些智慧信息通過(guò)多種途徑和手段,如手機(jī)短信推送、即時(shí)通訊工具、學(xué)生一體化信息平臺(tái)與學(xué)生進(jìn)行交互,最終成為支持學(xué)業(yè)預(yù)警的有效依據(jù),便于學(xué)生、二級(jí)教學(xué)單位、學(xué)生管理業(yè)務(wù)部門能夠在第一時(shí)間掌握學(xué)生學(xué)業(yè)動(dòng)態(tài)。
由數(shù)據(jù)得到信息,由信息督促學(xué)生提升學(xué)業(yè)水平。近幾年來(lái),通過(guò)高職院校圖書(shū)館與二級(jí)教學(xué)單位共同努力,學(xué)生入館數(shù)據(jù)明顯發(fā)生變化:學(xué)生讀書(shū)學(xué)習(xí)的熱情提高,學(xué)生學(xué)習(xí)的主觀能動(dòng)性得以發(fā)揮,學(xué)業(yè)水平也有所提升。
高職院校圖書(shū)館開(kāi)發(fā)和利用大數(shù)據(jù)不僅是圖書(shū)館服務(wù)模式轉(zhuǎn)變的重要途徑,同時(shí)對(duì)于教育教學(xué)研究的決策具有重要支持作用。筆者探討了高職院校圖書(shū)館大數(shù)據(jù)應(yīng)用于學(xué)生學(xué)業(yè)預(yù)警平臺(tái)的積極意義,以及為學(xué)工等部門提供的決策依據(jù),旨在拋磚引玉。但在大數(shù)據(jù)時(shí)代,高職院校圖書(shū)館大數(shù)據(jù)所提供服務(wù)的深度和廣度還有待進(jìn)一步探索和實(shí)踐。
參考文獻(xiàn):
[1]韓翠峰.大數(shù)據(jù)時(shí)代圖書(shū)館的服務(wù)創(chuàng)新與發(fā)展[J].圖書(shū)館,2013(1):121-122.
[2]百度百科[EB/OL].[2014-07-02].http://baike.baidu.com/ view/6954399.htm?fr=aladdin.
[3]華金秋.大學(xué)生畢業(yè)預(yù)警機(jī)制研究[J].氣象教育與科技,2007(3):137-138.
[4]陳欽華.構(gòu)建學(xué)分制下高校學(xué)生學(xué)業(yè)預(yù)警機(jī)制的探索[J].廣西師范學(xué)院學(xué)報(bào),2007(S2):63-65.
[5]百度百科[EB/OL].[2014-07-02].http://baike.baidu.com/ view/908354.htm?fr=Aladdin.
高曉東男,1981年生。碩士,館員。研究方向:知識(shí)管理、計(jì)算技術(shù)。
周建男,1965年生。圖文信息中心副教授,主任。研究方向:計(jì)算機(jī)應(yīng)用及現(xiàn)代教育技術(shù)。
收稿日期:(2014-09-01;責(zé)編:王天泥。)