摘要:隨著圖書(shū)館數(shù)字化、網(wǎng)絡(luò)化的發(fā)展,數(shù)據(jù)挖掘及數(shù)據(jù)分析技術(shù)的層出不窮,通過(guò)對(duì)圖書(shū)館產(chǎn)生的大量的用戶(hù)行為信息記錄、資源信息和服務(wù)信息數(shù)據(jù)的分析和挖掘,為圖書(shū)館的發(fā)展提供了重要的依據(jù),本文針對(duì)圖書(shū)館各種軟件、系統(tǒng)及資源數(shù)據(jù)建設(shè)現(xiàn)狀,總結(jié)了大數(shù)據(jù)環(huán)境下圖書(shū)館可以采集的數(shù)據(jù),為大數(shù)據(jù)環(huán)境下圖書(shū)館數(shù)據(jù)分析與挖掘提供借鑒和參考。
關(guān)鍵詞: 圖書(shū)館; 數(shù)據(jù)采集; 數(shù)據(jù)分析; 數(shù)據(jù)挖掘
中圖分類(lèi)號(hào): G250; TP391
文獻(xiàn)標(biāo)志碼: A
文章編號(hào): 2095-2163(2017)05-0140-02
Abstract: With the development of library digital network, data mining and data analysis technology is endless. Through the analysis and mining of a large number of user behavior information records, resource information and service information data produced in the library,laying the important foundation for the development of the library, therefore aiming at the current situation of library software、system and resource data construction,this paper summarizes the data that the library could collect in the large data environment, which provides the reference for the analysis and excavation of the library data in the large data environment.
Keywords: library; data collection; data analysis; data mining
0引言
圖書(shū)館大量的數(shù)據(jù)是圖書(shū)館館藏的最重要的組成部分,數(shù)據(jù)作為原始類(lèi)的產(chǎn)品經(jīng)過(guò)加工、整理和分析可轉(zhuǎn)化為有意義的信息和知識(shí)。圖書(shū)館的數(shù)據(jù)是圖書(shū)館的珍貴典藏,這些數(shù)據(jù)信息真實(shí)地展示了圖書(shū)館的整個(gè)發(fā)展過(guò)程,同時(shí)也充分體現(xiàn)了圖書(shū)館的服務(wù)水平和發(fā)展方向。
本文主要針對(duì)大數(shù)據(jù)環(huán)境下圖書(shū)館的數(shù)據(jù)搜集途徑進(jìn)行了詳細(xì)地闡述,數(shù)據(jù)來(lái)源主要為用戶(hù)行為數(shù)據(jù)、圖書(shū)館建設(shè)數(shù)據(jù)及網(wǎng)絡(luò)數(shù)據(jù)等,而用戶(hù)行為記錄則是其中頗具規(guī)模的應(yīng)用組成內(nèi)容。圖書(shū)館的首要設(shè)置功能就是資源和服務(wù)。具體來(lái)說(shuō),服務(wù)數(shù)據(jù)來(lái)源如表1所示,資源數(shù)據(jù)來(lái)源如表2所示。
1服務(wù)
1.1流通借閱
流通借閱是圖書(shū)館服務(wù)的根本,也是圖書(shū)館原始數(shù)據(jù)的直觀展現(xiàn)。流通借閱系統(tǒng)后臺(tái)數(shù)據(jù)中存放了圖書(shū)館大量的圖書(shū)信息、用戶(hù)信息、用戶(hù)借書(shū)記錄、還書(shū)記錄、續(xù)借記錄等一系列流通歷史數(shù)據(jù),可通過(guò)對(duì)歷史數(shù)據(jù)分析研究得到用戶(hù)借閱規(guī)律、用戶(hù)借閱需求和閱讀傾向。
1.2信息咨詢(xún)服務(wù)
目前,圖書(shū)館的信息咨詢(xún)服務(wù)主要分為面對(duì)面咨詢(xún)、電話(huà)咨詢(xún)、QQ咨詢(xún)、平臺(tái)咨詢(xún)、微信咨詢(xún)等,涉及范圍大體上包括了業(yè)務(wù)咨詢(xún)、意見(jiàn)反饋、下載行為等方面,這些咨詢(xún)方式產(chǎn)生的咨詢(xún)記錄一定層面上展示了圖書(shū)館服務(wù)的不足,指明了服務(wù)的改進(jìn)方向,為制定更好的決策提供幫助。
1.3圖書(shū)館門(mén)禁系統(tǒng)
門(mén)禁系統(tǒng)是一款已廣泛應(yīng)用于圖書(shū)館通道安全管理的軟件,根據(jù)門(mén)禁系統(tǒng)形式不同分為密碼門(mén)禁、刷卡門(mén)禁和生物識(shí)別門(mén)禁系統(tǒng),也有許多高校使用混合驗(yàn)證方式(即指紋+密碼+卡驗(yàn)證)來(lái)保障高級(jí)別的安全環(huán)境,無(wú)論哪種形式的門(mén)禁系統(tǒng)都可以詳細(xì)記錄圖書(shū)館的到訪人員信息、到館時(shí)間、在館時(shí)長(zhǎng)、離館時(shí)間等。通過(guò)對(duì)圖書(shū)館門(mén)禁系統(tǒng)數(shù)據(jù)的搜集和統(tǒng)計(jì),可以求得圖書(shū)館空間利用率,為改善圖書(shū)館服務(wù)積累更多的實(shí)施依據(jù)。
1.4圖書(shū)館座位管理系統(tǒng)
圖書(shū)館座位管理系統(tǒng)是用來(lái)管理圖書(shū)館座位空間的一款軟件,可以保證圖書(shū)館座位空間的合理利用。用戶(hù)可以利用該系統(tǒng)進(jìn)行座位選擇、續(xù)約座位、放棄座位等??梢酝ㄟ^(guò)搜集該系統(tǒng)中的用戶(hù)信息、用戶(hù)使用座位信息、使用時(shí)長(zhǎng)等,進(jìn)行圖書(shū)館座位空間使用率的分析,也可以與門(mén)禁系統(tǒng)、流通借閱系統(tǒng)數(shù)據(jù)相結(jié)合,有效展開(kāi)各類(lèi)專(zhuān)用數(shù)據(jù)分析。
1.5圖書(shū)館電子閱覽室上機(jī)系統(tǒng)
圖書(shū)館電子閱覽室上機(jī)系統(tǒng)是用來(lái)管理圖書(shū)館電子計(jì)算機(jī)合理利用的一款軟件,用戶(hù)可以使用該系統(tǒng)進(jìn)行刷卡上機(jī)和刷卡下機(jī)。通過(guò)搜集該系統(tǒng)中的用戶(hù)信息、用戶(hù)使用計(jì)算機(jī)的時(shí)間及使用時(shí)長(zhǎng)等,對(duì)圖書(shū)館電子計(jì)算機(jī)的使用率而建立推理演繹及分析,對(duì)館內(nèi)各個(gè)閱讀空間內(nèi)的計(jì)算機(jī)實(shí)現(xiàn)合理配置。
1.6圖書(shū)館網(wǎng)站
圖書(shū)館網(wǎng)站也是圖書(shū)館配設(shè)中的一種服務(wù),圖書(shū)館網(wǎng)站展示功能通常包括圖書(shū)館基本概況、服務(wù)、資源、咨詢(xún)、新聞更新、資源動(dòng)態(tài)等,這些信息是圖書(shū)館功能的開(kāi)放式設(shè)計(jì)屬性。通過(guò)采集圖書(shū)館網(wǎng)站的新聞動(dòng)態(tài)、資源動(dòng)態(tài)、資源種類(lèi)變化等動(dòng)態(tài)信息可以發(fā)現(xiàn)圖書(shū)館一段時(shí)間內(nèi)的資源更新規(guī)律,通過(guò)總結(jié)多個(gè)圖書(shū)館網(wǎng)站發(fā)布數(shù)據(jù),并進(jìn)行對(duì)比分析,可以為改進(jìn)服務(wù)功能發(fā)揮至關(guān)重要的參考價(jià)值作用。
1.7圖書(shū)館微信公眾平臺(tái)
近年來(lái),隨著微信用戶(hù)使用量的增加,圖書(shū)館微信公眾平臺(tái)已經(jīng)發(fā)展成為圖書(shū)館中堪稱(chēng)現(xiàn)代高效的自媒體活動(dòng)的宣傳手段,通過(guò)微信公眾平臺(tái)發(fā)布消息快捷、方便、直接且涉及范圍較廣。微信公眾平臺(tái)的定制開(kāi)發(fā)功能可以與圖書(shū)館其它系統(tǒng)和平臺(tái)進(jìn)行對(duì)接,方便用戶(hù)使用。通過(guò)微信公眾平臺(tái)推送的新聞動(dòng)態(tài)之后,用戶(hù)可以對(duì)動(dòng)態(tài)新聞信息進(jìn)行反饋,這些反饋信息以及教師與學(xué)生在公眾平臺(tái)實(shí)現(xiàn)的咨詢(xún)互動(dòng)過(guò)程都可采集到大量的數(shù)據(jù)資源,因而成為現(xiàn)代化圖書(shū)館建設(shè)的又一重要數(shù)據(jù)來(lái)源。endprint
2資源
2.1數(shù)字圖書(shū)館
數(shù)字圖書(shū)館是圖書(shū)館現(xiàn)代化、智能化、網(wǎng)絡(luò)化的必然選擇,承載著各種文獻(xiàn)(圖書(shū)、資料、文獻(xiàn)、雜志)、各種印刷型文本(含古籍、珍本、善本)、地圖、縮微資料、視聽(tīng)資料等的數(shù)字化內(nèi)容。用戶(hù)通過(guò)平臺(tái)進(jìn)行檢索、瀏覽和下載文獻(xiàn),通過(guò)長(zhǎng)時(shí)間瀏覽量、檢索次數(shù)以及下載次數(shù)的匯總分析,可以對(duì)資源的使用情況進(jìn)行統(tǒng)計(jì),作為評(píng)價(jià)資源的重要標(biāo)準(zhǔn)。
2.2圖書(shū)館遠(yuǎn)程訪問(wèn)系統(tǒng)
圖書(shū)館遠(yuǎn)程訪問(wèn)系統(tǒng)是一種針對(duì)使用者由于受到IP的限制而無(wú)法訪問(wèn)內(nèi)部資源的一種解決方案,用戶(hù)可以通過(guò)遠(yuǎn)程訪問(wèn)系統(tǒng)隨時(shí)隨地地聯(lián)入資源的訪問(wèn),系統(tǒng)可以記載資源的信息、資源的使用量和下載量,還可以通過(guò)系統(tǒng)提交意見(jiàn)反饋,同2.4節(jié)結(jié)合來(lái)評(píng)估數(shù)字資源,并記錄反饋結(jié)果。
2.3文獻(xiàn)傳遞
文獻(xiàn)傳遞是將用戶(hù)所需的文獻(xiàn)復(fù)制品以有效的方式和合理的費(fèi)用,直接或間接傳遞給用戶(hù)的一種非返還式的文獻(xiàn)提供服務(wù),國(guó)內(nèi)5個(gè)比較重要的文獻(xiàn)傳遞服務(wù)系統(tǒng):CASHL、CALIS、NSTL、LCAS和中國(guó)國(guó)家圖書(shū)館基本上能夠滿(mǎn)足國(guó)內(nèi)各高校及研究院所的文獻(xiàn)需求,提高對(duì)文獻(xiàn)傳遞信息的處理能力,可以主動(dòng)掌握讀者文獻(xiàn)信息需求變化,從而利于生成有效的資源整合機(jī)制,構(gòu)建知識(shí)資源導(dǎo)航體系。
2.4匯文系統(tǒng)
匯文系統(tǒng)中除了1.1節(jié)中的流通借還功能,還有圖書(shū)加工、到書(shū)分類(lèi)統(tǒng)計(jì)、采訪經(jīng)費(fèi)統(tǒng)計(jì)、各類(lèi)圖書(shū)比例是否合理等功能,充分利用系統(tǒng)中的數(shù)據(jù)的分析可以更好地推進(jìn)采訪工作,改善采購(gòu)服務(wù),提高工作效率。
3數(shù)據(jù)采集
3.1系統(tǒng)數(shù)據(jù)
綜上論述可知,圖書(shū)館大部分?jǐn)?shù)據(jù)都存儲(chǔ)在圖書(shū)館管理系統(tǒng)的數(shù)據(jù)庫(kù)中,涉及到的數(shù)據(jù)種類(lèi)也比較多,如:MySql、SqlServer、Oracle等。若要使用這些數(shù)據(jù),就需將有用的數(shù)據(jù)信息導(dǎo)出到一個(gè)固定格式文件或?qū)氲揭粋€(gè)統(tǒng)一的數(shù)據(jù)庫(kù)中,經(jīng)過(guò)字段格式處理,將多個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)結(jié)合起來(lái),再去除冗余數(shù)據(jù),經(jīng)過(guò)清洗、加工等轉(zhuǎn)換成可以送入數(shù)據(jù)分析與挖掘處理的數(shù)據(jù)源。
3.2網(wǎng)絡(luò)數(shù)據(jù)
由于網(wǎng)絡(luò)數(shù)據(jù)量跡近龐大,如果不利用一些工具和程序?qū)o(wú)法及時(shí)捕捉到有用信息,時(shí)下常用的網(wǎng)頁(yè)信息采集器有八爪魚(yú)采集器、火車(chē)采集器等,而且還可依據(jù)需要采集的網(wǎng)絡(luò)數(shù)據(jù)的特點(diǎn)自行定制開(kāi)發(fā)爬蟲(chóng)軟件。
3.3數(shù)字化信息
圖書(shū)館在信息化建設(shè)之前,存留了很多紙質(zhì)數(shù)據(jù),如咨詢(xún)單、文獻(xiàn)傳遞單等等,這些數(shù)據(jù)未經(jīng)整理,需要通過(guò)一定的數(shù)字化手段把這些紙質(zhì)數(shù)據(jù)轉(zhuǎn)換成可以長(zhǎng)久保存且有助于數(shù)字分析和挖掘的電子數(shù)據(jù)。
4結(jié)束語(yǔ)
圖書(shū)館大數(shù)據(jù)研究是一類(lèi)復(fù)雜課題,圖書(shū)館數(shù)據(jù)的采集、存儲(chǔ)及標(biāo)準(zhǔn)化也是一項(xiàng)繁瑣艱巨的技術(shù)任務(wù),隨著圖書(shū)館數(shù)字化發(fā)展性能的綜合推進(jìn),可以采集數(shù)據(jù)的渠道會(huì)越來(lái)越多,圖書(shū)館需要明確全面需求,明確服務(wù)方向,正確處理各種結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),從數(shù)據(jù)開(kāi)始,創(chuàng)建圖書(shū)館服務(wù)發(fā)展的新進(jìn)程。
段春樂(lè).大數(shù)據(jù)技術(shù)在圖書(shū)館中的應(yīng)用[J]. 黑龍江科技信息,2015(18):192-193.
[2] 杜璟.大數(shù)據(jù)時(shí)代的文獻(xiàn)傳遞服務(wù)[J]. 圖書(shū)館學(xué)刊,2014(1):75-77.
[3] 白文秀,孫慧,張桂杰.數(shù)據(jù)挖掘技術(shù)在圖書(shū)館遠(yuǎn)程訪問(wèn)系統(tǒng)中的應(yīng)用研究[J].吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(4): 149-152.
[4] 陳傳夫,錢(qián)鷗,代鈺珠.大數(shù)據(jù)時(shí)代的數(shù)字圖書(shū)館建設(shè)研究[J].圖書(shū)情報(bào)工作,2014,58(7): 40-45.
[5]王春華,李維,文庭孝.我國(guó)圖書(shū)情報(bào)領(lǐng)域大數(shù)據(jù)研究熱點(diǎn)分析[J].圖書(shū)情報(bào)知識(shí),2015 (4):82-89.
[6] 陳廉芳.大數(shù)據(jù)環(huán)境下圖書(shū)館用戶(hù)小數(shù)據(jù)的采集、分析與應(yīng)用[J].國(guó)家圖書(shū)館學(xué)刊,2016 (3):69-74.
[7] 嵇婷,吳政.公共文化服務(wù)大數(shù)據(jù)的來(lái)源、采集與分析研究[J]. 圖書(shū)館建設(shè),2015 (11):21-24.endprint