胡伶霞
(湖北工業(yè)大學工程技術學院圖書館)
基于大數(shù)據(jù)的高校圖書館個性化信息服務系統(tǒng)模型構建研究
胡伶霞
(湖北工業(yè)大學工程技術學院圖書館)
首先分析高校圖書館個性化信息服務系統(tǒng)的可行性,再與大數(shù)據(jù)技術處理流程特點相結合,重點分析我國高校圖書館個性化服務系統(tǒng)模型構成,并對系統(tǒng)各大功能與使用時存在的最大難題進行詳細分析。
大數(shù)據(jù);高校圖書館;個性化服務
1.1 海量數(shù)據(jù)來源
先進的大數(shù)據(jù)挖掘分析技術的基礎是豐富的數(shù)據(jù)資源。隨著互聯(lián)網(wǎng)與社交網(wǎng)絡的普及,以及互聯(lián)網(wǎng)技術的發(fā)展,用戶與圖書館之間的信息交流愈加緊密和頻繁,產(chǎn)生了大量數(shù)據(jù)資源,如用戶對圖書館論壇、網(wǎng)頁的瀏覽,借閱、檢索圖書館資源等環(huán)節(jié)中產(chǎn)生的數(shù)據(jù)都被記錄下來。[1]海量的數(shù)據(jù)資源是高校圖書館能夠引進大數(shù)據(jù)技術的基石,大數(shù)據(jù)技術只有在豐富的數(shù)據(jù)資源的基礎上才能發(fā)揮它的應用功能。
1.2 對用戶信息需求的實時了解
對用戶信息需求的實時了解是為用戶提供個性化信息服務的前提。高校圖書館的用戶以本校師生為主,個性化信息需求圍繞科研與教學的要求,會不定時發(fā)生變化,那么如何準確掌握師生變化著的信息需求成為高校圖書館個性化信息服務最大的難題。圖書館可依據(jù)用戶上網(wǎng)行為信息,如瀏覽記錄、搜索的關鍵詞等,跟蹤分析其實時的信息行為,再利用大數(shù)據(jù)技術,挖掘到有價值的信息,達到為用戶提供有質量的個性化服務的目的。
1.3 對用戶真實身份的明確認知
高校圖書館信息資源由于受到版權與經(jīng)費等因素的影響,在用戶登錄使用系統(tǒng)之前,第一步就是進行實名注冊,為了避免重復,通常使用唯一的工號或學號作為用戶名。如此一來,每位用戶的身份就可以通過賬號來進行識別,大數(shù)據(jù)技術也通常以賬號作為關鍵字進行挖掘。通過這種挖掘技術分析形成的用戶需求信息模型,能對用戶的身份做正確的判斷,從而為用戶提供更有針對性的個性化服務。
2.1 目標
為師生提供個性化信息服務主要包含兩方面意思:一方面是幫助師生從圖書館所有儲藏的信息資源中搜尋到他們所需要的信息資源;另一方面是結合師生實時信息需求,主動推送他們所需的信息資源。[2]
通過大數(shù)據(jù)挖掘技術不但可以知道用戶當前信息情境,還能掌握他們多變的信息需求,最終目的是為用戶提供最好的個性化信息服務。
通過圖1看出,圖書館服務平臺、服務模式與數(shù)據(jù)倉庫收集的數(shù)據(jù)源是大數(shù)據(jù)高校圖書館個性化信息服務系統(tǒng)的基石;經(jīng)過數(shù)據(jù)挖掘技術,獲得實時用戶信息需求,再搜索出符合用戶所需要的信息;最后經(jīng)過智能技術把信息輸送給用戶。這就是大數(shù)據(jù)高校圖書館個性化信息系統(tǒng)向用戶提供個性化服務全部過程。[3]
圖1 高校圖書館個性化信息服務系統(tǒng)構建示意圖
2.2 模型構建
大數(shù)據(jù)高校圖書館個性化信息系統(tǒng)有如下幾個模塊組成(見圖2)。
圖2 高校圖書館個性化信息服務系統(tǒng)模型圖
(1)用戶接口模塊。用戶登陸個性化信息服務系統(tǒng),需要在接口模塊輸入賬號、密碼進行身份認證,登陸后系統(tǒng)會自動把用戶基本資料添加到用戶信息庫,從而形成用戶專用信息數(shù)據(jù)庫。同時,用戶通過該模塊檢索數(shù)據(jù)資源,輸入檢索要求,系統(tǒng)會自動依據(jù)要求進行檢索,最后把獲得到的資源經(jīng)過該模塊傳遞給用戶。用戶還可以對服務的質量進行反饋。
(2)用戶信息庫模塊。用戶通過用戶接口模塊進行登記注冊,輸入工號、性別、年級、專業(yè)等基本信息,系統(tǒng)會把這些格式規(guī)整的結構化數(shù)據(jù)自動存儲到用戶信息庫中,用戶反饋的評價信息也作為備注儲存于用戶信息庫。如此一來,圖書館為用戶提供信息服務時,可以結合信息庫中每位用戶的反饋內容主動推送該用戶有可能需要的其他服務。
(3)信息過濾模塊。信息過濾模塊將信息檢索模塊檢索到的用戶所需信息進行篩選,依據(jù)相關度排序,抓取到相關度高的信息,并結合由用戶長期的信息檢索行為計算得到的用戶模型,篩選、檢索信息,該模塊會對信息特點進行抽取,得到信息向量模型;然后與用戶信息需求模型進行匹配,再清除相關度低的資源。這樣所獲得的信息資源更能夠滿足用戶需求,提高高校圖書館個性化信息服務質量。
(4)信息檢索模塊。用戶通過用戶接口模塊輸入檢索關鍵詞,系統(tǒng)就會自動把用戶需要檢索的信息通過智能檢索代理技術,在圖書館資源中進行搜索,搜索到與用戶需求相關的信息并反饋至此模塊。倘若在館內資源中沒找到,就會從互聯(lián)網(wǎng)資源中搜索,把搜索到的相配套的資源信息再存入本地信息庫中,補充館內資源。
(5)數(shù)據(jù)集成模塊。用戶信息行為數(shù)據(jù)存儲于圖書館不同系統(tǒng)中,其中一些系統(tǒng)中的數(shù)據(jù)源會被鏈接,使用戶得到更全面的信息資源,也為下一步數(shù)據(jù)規(guī)范處理做好準備。
(6)數(shù)據(jù)規(guī)范化模塊。通過大數(shù)據(jù)技術對用戶信息行為等數(shù)據(jù)進行挖掘分析,要保證數(shù)據(jù)的一致性。不同的系統(tǒng)對數(shù)據(jù)屬性的描述存在差異,所以要對數(shù)據(jù)進行規(guī)范化處理,使數(shù)據(jù)與挖據(jù)算法要求標準相符(見圖3)。
圖3 大數(shù)據(jù)對數(shù)據(jù)規(guī)范化流程
①數(shù)據(jù)合成。進行數(shù)據(jù)合成,需要找到各系統(tǒng)數(shù)據(jù)庫中有關字段之間的聯(lián)系,建立識別關鍵字段,通過關鍵字段把各系統(tǒng)的數(shù)據(jù)聯(lián)系起來。
②數(shù)據(jù)規(guī)約。高校圖書館中各自動化系統(tǒng)的標準千差萬別,不同系統(tǒng)數(shù)據(jù)庫中對字段的標識也不同,即使是相同的信息被儲存于不同數(shù)據(jù)庫,其形式也可能是大相徑庭。如在用戶信息庫性別是“男”,儲存于借書記錄數(shù)據(jù)庫,其性別可能成為“male”。為了提高數(shù)據(jù)分辨率,需要對數(shù)據(jù)進行規(guī)約。[4]
③數(shù)據(jù)優(yōu)化處理。數(shù)據(jù)優(yōu)化處理是指對數(shù)據(jù)合成與規(guī)約后的數(shù)據(jù)進行處理。盡管利用唯一識別字段使不同系統(tǒng)之間的用戶記錄信息發(fā)生聯(lián)系,但也有很多問題。比如各系統(tǒng)數(shù)據(jù)庫連接之后,要清除重復字段;又比如有些字段的屬性只有一部分數(shù)據(jù)能夠使用,連接之后,其他數(shù)據(jù)庫無法使用,需要補充。
④數(shù)據(jù)轉換。就是指把經(jīng)過優(yōu)化處理之后的數(shù)據(jù)進行變換,使其與大數(shù)據(jù)挖掘算法要求相符。
(7)數(shù)據(jù)分析模塊。此模塊的作用是對規(guī)范化后的數(shù)據(jù)進行處理。由于圖書館自動系統(tǒng)存有大量用戶行為信息數(shù)據(jù),其中,包括結構化數(shù)據(jù)、非結構化數(shù)據(jù)與半結構化數(shù)據(jù),一起存入系統(tǒng)日志中。[5]再依據(jù)用戶獲取信息的方式把數(shù)據(jù)分析模塊分成三類:①利用本館資源獲取的結構化數(shù)據(jù),使用結構化數(shù)據(jù)分析模塊;②通過網(wǎng)絡獲取的數(shù)據(jù),使用系統(tǒng)日志分析模塊;③利用移動社交網(wǎng)絡等方式獲取的資源,使用特殊信息分析模塊。
(8)信息匹套模塊。此模塊最重要的職能是使用戶需求模型與整理得到的數(shù)據(jù)信息進行匹配,二次挑選出相關度高的信息傳送給推送模塊,再由館員選出符合用戶實際需求的模型信息。圖書館工作人員可以依據(jù)用戶需求模型,與互聯(lián)網(wǎng)資源和本地資源進行比對,及時推送符合用戶要求的信息。
(9)信息推送模塊。信息推送模塊主要采用智能代理技術,依據(jù)用戶需求,把符合要求的信息通過用戶接口模塊推送給用戶。比如依據(jù)圖書館自動化系統(tǒng)對用戶進行跟蹤挖掘,當用戶下次進行搜尋時,系統(tǒng)會主動為用戶推薦與搜索相關的內容或者其沒有意識到的信息需求;對用戶社交網(wǎng)絡跟蹤分析,挖掘用戶實時信息需求,主動向用戶推薦提示。
(10)用戶評價模塊。用戶體驗收到的推送信息,通過使用評價模塊對信息服務做出滿意度評價。系統(tǒng)把用戶評價信息存儲于用戶信息庫。經(jīng)過大數(shù)據(jù)分析,為改善數(shù)據(jù)挖掘算法創(chuàng)造了條件。
3.1 軟硬件條件差
由于大數(shù)據(jù)處理技術需要大量使用數(shù)據(jù)分析與儲存功能,這就需要容量大、速度快的軟硬件設備做載體。當前我國有相當部分高校圖書館由于受到經(jīng)濟條件與國家政策等方面的影響,無法滿足大數(shù)據(jù)處理技術的要求,需要先投入一定的資金才能引進大數(shù)據(jù)技術。
3.2 數(shù)據(jù)來源的局限性
采用大數(shù)據(jù)技術對用戶信息行為數(shù)據(jù)進行發(fā)掘,生成用戶信息需求模型。為了使挖掘結果更可靠,首先要有大量的數(shù)據(jù)資源,其次是數(shù)據(jù)之間要有耦合度,這樣的挖掘結果才是最真實的信息需求模型。當前,我國高校圖書館通常只是獲得校內用戶的信息行為記錄數(shù)據(jù),校外數(shù)據(jù)要與中國移動或電信等運營商等進行協(xié)調才能獲得,使數(shù)據(jù)出現(xiàn)不全面的現(xiàn)象,降低用戶信息需求模型的準確性。
3.3 用戶隱私的安全性得不到保障
個性化信息服務要對用戶的信息行為進行記錄,在這個信息獲取過程中,難免會對用戶隱私安全造成影響。所以,為了保護用戶隱私安全,圖書館需要與用戶簽訂保護協(xié)議,取得用戶同意才能對系統(tǒng)進行監(jiān)控,倘若有涉及到用戶隱私方面的信息要提前刪除,還要加強系統(tǒng)安全性,最大程度做到對用戶隱私的保護,建立用戶與圖書館的信用機制。
[1]賈淑敏.數(shù)字圖書館個性化信息服務的實現(xiàn)[J].河南圖書館學刊,2010,30(5):54-56.
[2]S E Middleton,et al.Ontological user profiling in recommender systems[J].ACM Transactions on Information Systems,2004,22(1):54-88.
[3]樊偉紅,等.圖書館需要怎樣的"大數(shù)據(jù)"[J].圖書館雜志,2012(11):63-68.
[4]張文彥,等.大數(shù)據(jù)時代的圖書館初探[J].圖書與情報,2013(6):15-21.
[5]蘇蓉.基于大數(shù)據(jù)的數(shù)字圖書館信息服務研究[D].武漢:華中師范大學,2014.
[作者信息]胡伶霞(1979-),女,武漢大學圖書館學碩士,館員,研究方向:圖書館管理,文獻信息資源建設。
Construction of University Library Personalized Information Service System Based on Big Data
Hu Ling-xia
Thisarticle firstlyanalyzesthe feasibilityofuniversity library personalized information servicesystem,and analyzes the construction of the system based on Big Data.Meanwhile,itmakesa detailed analysisof thebiggestchallengesexisting in the system and theapplication ofit.
BigData;University Library;Personalized Service
G258.6;G250.76
A
1005-8214(2016)11-0080-03
2016-04-11[責任編輯]劉丹