胡薇薇
關(guān)鍵詞:多源數(shù)據(jù);數(shù)據(jù)融合;數(shù)字圖書館;用戶偏好挖掘模型
摘?要:文章介紹了多源數(shù)據(jù)融合技術(shù)的概念和功用,分析了數(shù)字圖書館構(gòu)建用戶偏好挖掘模型的目的,探討了用戶偏好挖掘模型的設(shè)計(jì)原則、設(shè)計(jì)目標(biāo)、設(shè)計(jì)框架,提出了基于多源數(shù)據(jù)融合的數(shù)字圖書館用戶偏好挖掘模型的構(gòu)建策略,以期提升數(shù)字圖書館的服務(wù)水平,為用戶提供優(yōu)質(zhì)的信息服務(wù)。
中圖分類號(hào):G250文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1003-1588(2020)02-0075-02
隨著計(jì)算機(jī)技術(shù)的發(fā)展及信息資源數(shù)量的增多,數(shù)字圖書館數(shù)據(jù)呈多源數(shù)據(jù)發(fā)展趨勢,用戶的信息需求也更加多元化。因此,如何將多源數(shù)據(jù)與用戶的個(gè)性化信息需求結(jié)合起來,方便用戶在海量的數(shù)據(jù)資源中提取所需信息,已成為數(shù)字圖書館亟須解決的問題。筆者利用多源數(shù)據(jù)融合技術(shù)建立了數(shù)字圖書館用戶偏好挖掘模型,以期提升數(shù)字圖書館的信息資源利用率和服務(wù)水平,為用戶提供優(yōu)質(zhì)的信息服務(wù)。
1?多源數(shù)據(jù)融合技術(shù)
多源數(shù)據(jù)融合技術(shù)指采用特定算法和手段對(duì)多個(gè)信息分析調(diào)查結(jié)果進(jìn)行有效綜合和評(píng)價(jià),并將評(píng)價(jià)結(jié)果進(jìn)行有效統(tǒng)一的技術(shù)。該技術(shù)的目的是將各種不同的數(shù)據(jù)信息進(jìn)行綜合,根據(jù)不同數(shù)據(jù)源的特點(diǎn),從中提取出統(tǒng)一的、比單一數(shù)據(jù)更好、更豐富的信息。由于錯(cuò)誤的數(shù)據(jù)對(duì)象直接影響多源數(shù)據(jù)融合的結(jié)果,不同類型的數(shù)據(jù)有不同的用途,數(shù)字圖書館要對(duì)多源數(shù)據(jù)進(jìn)行篩選,確定合適的融合對(duì)象,并對(duì)確定的數(shù)據(jù)源進(jìn)行預(yù)處理。數(shù)據(jù)源的不同使數(shù)據(jù)在類型、結(jié)構(gòu)方面存在不同,不同的數(shù)據(jù)類型和結(jié)構(gòu)會(huì)大大增加多源數(shù)據(jù)融合的難度,有時(shí)甚至?xí)?dǎo)致多源數(shù)據(jù)融合的失敗,因此數(shù)字圖書館有必要對(duì)多源數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)字圖書館不僅可采用現(xiàn)有的數(shù)據(jù)預(yù)處理技術(shù),如數(shù)據(jù)流技術(shù)等,對(duì)多源數(shù)據(jù)的格式、類型、結(jié)構(gòu)進(jìn)行統(tǒng)一處理,確保所有數(shù)據(jù)的互聯(lián)互通,還可利用數(shù)據(jù)庫技術(shù)、圖像處理技術(shù)等對(duì)多源數(shù)據(jù)進(jìn)行有效處理,確保所選多源數(shù)據(jù)的真正融合、統(tǒng)一。
2?數(shù)字圖書館用戶偏好挖掘的需求分析
隨著信息技術(shù)的不斷發(fā)展,用戶個(gè)人隱私被泄露的現(xiàn)象越來越多,很多用戶在訪問網(wǎng)絡(luò)時(shí)通常會(huì)采用匿名訪問的方式,以便對(duì)自己的隱私信息進(jìn)行有效保護(hù)。因此,學(xué)術(shù)界主要對(duì)注冊(cè)用戶的偏好進(jìn)行了研究,卻忽略了匿名訪問用戶的偏好。數(shù)字圖書館應(yīng)根據(jù)用戶偏好,如專業(yè)特長、行為習(xí)慣、個(gè)人愛好等,對(duì)用戶的信息需求進(jìn)行挖掘。
2.1?用戶檢索需求的分析
隨著人工智能、云計(jì)算技術(shù)的不斷發(fā)展,圖書館應(yīng)利用先進(jìn)技術(shù)對(duì)館藏資源進(jìn)行有效管理,調(diào)整信息檢索方式,為用戶檢索信息提供便利。事實(shí)上,用戶在圖書館查閱館藏紙質(zhì)資源的過程中需要花費(fèi)大量的時(shí)間。因此,數(shù)字圖書館應(yīng)及時(shí)調(diào)整信息檢索方式,滿足用戶的多元化信息需求,提升館藏資源利用率。
2.2?用戶偏好模型分析
用戶檢索、借閱紙質(zhì)圖書資源會(huì)在圖書館管理系統(tǒng)中產(chǎn)生操作記錄,如圖書信息、用戶信息等。數(shù)字圖書館可對(duì)這些信息數(shù)據(jù)進(jìn)行深入分析,挖掘用戶的閱讀偏好,建立科學(xué)的用戶偏好模型,為用戶提供優(yōu)質(zhì)的信息服務(wù)。
2.3?用戶偏好推薦需求分析
目前,多數(shù)圖書館根據(jù)圖書資源的類型及存儲(chǔ)檢索方式建立了數(shù)字圖書館服務(wù)平臺(tái)。隨著圖書資源的日益增多,用戶不能快速獲取所需資源。因此,數(shù)字圖書館應(yīng)對(duì)館藏紙質(zhì)資源進(jìn)行數(shù)字化,將相關(guān)資源的鏈接放到網(wǎng)站主頁,根據(jù)用戶的閱讀偏好,為他們推薦合適的資源,滿足他們的多元化信息需求。
3?基于多源數(shù)據(jù)融合的數(shù)字圖書館用戶偏好挖掘模型設(shè)計(jì)
數(shù)字圖書館應(yīng)采用多源數(shù)據(jù)融合技術(shù)對(duì)用戶偏好進(jìn)行挖掘分析,建立用戶偏好挖掘模型,為他們推薦合適的資源,滿足他們的信息需求。數(shù)字圖書館在設(shè)計(jì)用戶偏好模型的過程中要制定明確的設(shè)計(jì)目標(biāo)和設(shè)計(jì)原則,并對(duì)設(shè)計(jì)框架的可行性進(jìn)行分析。
3.1?用戶偏好挖掘模型的設(shè)計(jì)原則
數(shù)字圖書館在設(shè)計(jì)用戶偏好挖掘模型的過程中應(yīng)結(jié)合館藏資源的特點(diǎn)和用戶的閱讀偏好,以實(shí)用性為設(shè)計(jì)原則,同時(shí)兼顧個(gè)性化。數(shù)字圖書館應(yīng)根據(jù)用戶的閱讀偏好設(shè)計(jì)模型流程,確定系統(tǒng)內(nèi)容,及時(shí)滿足用戶的多元化信息需求。
3.2?用戶偏好挖掘模型的設(shè)計(jì)目標(biāo)
構(gòu)建用戶偏好挖掘模型,為用戶提供個(gè)性化信息服務(wù)是數(shù)字圖書館體系建設(shè)的核心內(nèi)容,該模型常常也被應(yīng)用于指導(dǎo)其他方面的工作。針對(duì)目前數(shù)字圖書館龐大的信息資源,其構(gòu)建用戶偏好挖掘模型的主要目的是為了有效化解館藏資源過載問題。因此,數(shù)字圖書館應(yīng)根據(jù)體系建設(shè)要求,將技術(shù)支持、資源配置及服務(wù)水平作為基于多源數(shù)據(jù)融合的用戶偏好挖掘模型設(shè)計(jì)的三個(gè)目標(biāo)。技術(shù)支持目標(biāo)是指數(shù)字圖書館基于多源數(shù)據(jù)融合技術(shù)建立一個(gè)操作性強(qiáng)、功能完備的框架體系,并與其他數(shù)字化技術(shù)進(jìn)行無縫連接;資源配置目標(biāo)是指數(shù)字圖書館根據(jù)用戶的閱讀偏好收集與處理信息資源,建設(shè)科學(xué)的信息資源數(shù)據(jù)庫;服務(wù)水平目標(biāo)是指數(shù)字圖書館基于用戶偏好挖掘模型提高服務(wù)效率和服務(wù)質(zhì)量,展現(xiàn)清晰的服務(wù)流程和服務(wù)內(nèi)容。
3.3?用戶偏好挖掘模型的設(shè)計(jì)框架
基于多源數(shù)據(jù)融合的數(shù)字圖書館用戶偏好挖掘需要通過相應(yīng)的系統(tǒng)模塊實(shí)現(xiàn),因此數(shù)字圖書館可將B/S作為模塊構(gòu)建的架構(gòu)?;诙嘣磾?shù)據(jù)融合的數(shù)字圖書館在堅(jiān)持設(shè)計(jì)原則和設(shè)計(jì)目標(biāo)的前提下,可從數(shù)據(jù)應(yīng)用層、信息服務(wù)層、數(shù)據(jù)存儲(chǔ)層和基礎(chǔ)資源層四個(gè)層面構(gòu)建用戶偏好挖掘模型?;A(chǔ)資源層是整個(gè)用戶偏好挖掘模型構(gòu)建的基礎(chǔ),主要包括模塊構(gòu)建的物理資源,如高速無線網(wǎng)絡(luò)、圖書館網(wǎng)絡(luò)安全系統(tǒng)、數(shù)據(jù)交換服務(wù)器等;數(shù)據(jù)存儲(chǔ)層主要是為用戶偏好挖掘模型構(gòu)建的數(shù)據(jù)資源提供存儲(chǔ)支持,數(shù)據(jù)資源主要包括館藏資源、用戶信息及一些動(dòng)態(tài)數(shù)據(jù)資源;信息服務(wù)層是用戶偏好挖掘模型構(gòu)建的重要環(huán)節(jié),主要是為整個(gè)模型流程提供功能支持;數(shù)據(jù)應(yīng)用層是展現(xiàn)用戶偏好數(shù)據(jù)信息的層面。
4?基于多源數(shù)據(jù)融合的數(shù)字圖書館用戶偏好挖掘模型的構(gòu)建
4.1?用戶偏好信息提取
用戶在使用數(shù)字圖書館過程中留下了大量的記錄信息,這些信息包括用戶的借閱信息、瀏覽網(wǎng)頁信息、檢索關(guān)鍵詞及專業(yè)特長等,數(shù)據(jù)量大,呈多源特點(diǎn)。數(shù)字圖書館可采用多源數(shù)據(jù)融合技術(shù)對(duì)用戶的記錄信息進(jìn)行統(tǒng)一整理與分析,提取用戶的偏好數(shù)據(jù)信息。數(shù)字圖書館可根據(jù)用戶的偏好數(shù)據(jù)信息,構(gòu)建用戶偏好挖掘模型,進(jìn)而為他們提供優(yōu)質(zhì)的信息服務(wù)。
4.2?用戶偏好挖掘模型的構(gòu)建
用戶偏好挖掘模型具有一定的特殊性和使用局限性,因此,數(shù)字圖書館要利用數(shù)據(jù)過濾技術(shù)對(duì)多源數(shù)據(jù)進(jìn)行過濾,利用多源數(shù)據(jù)融合技術(shù)對(duì)海量用戶偏好數(shù)據(jù)進(jìn)行挖掘,找出有價(jià)值的數(shù)據(jù)信息,分析內(nèi)在規(guī)律,為用戶偏好挖掘模型的構(gòu)建奠定基礎(chǔ)。數(shù)字圖書館可通過分析用戶偏好信息的規(guī)律,找出對(duì)用戶借閱產(chǎn)生影響的關(guān)鍵因素。影響用戶借閱的主要因素包括用戶特征信息、借閱信息及圖書特征信息。數(shù)字圖書館可設(shè)置一類、二類特征索引,將圖書頁碼、圖書標(biāo)識(shí)號(hào)、圖書出版日期及用戶注冊(cè)時(shí)間、登錄次數(shù)、登錄時(shí)間等設(shè)置為一類特征索引,將圖書借閱時(shí)間、借閱次數(shù)、標(biāo)注習(xí)慣及用戶學(xué)歷、專業(yè)方向、性別、愛好等設(shè)置為二類特征索引,利用多源數(shù)據(jù)融合技術(shù)對(duì)影響用戶的借閱因素進(jìn)行歸類分析,準(zhǔn)確描述與用戶偏好相關(guān)的信息,進(jìn)而構(gòu)建用戶偏好挖掘模型。
參考文獻(xiàn):
[1] 武龍龍,李桂華.高校數(shù)字圖書館匿名用戶偏好模型研究[J].情報(bào)科學(xué),2014(2):21-23.
[2] 孫雨生,仇蓉蓉,黃傳慧,等.國內(nèi)數(shù)字圖書館個(gè)性化服務(wù)研究主題演化分析[J].情報(bào)理論與實(shí)踐,2014(8):104-107.
[3] 沈敏,楊新涯,王楷.基于機(jī)器學(xué)習(xí)的高校圖書館用戶偏好檢索系統(tǒng)研究[J].圖書情報(bào)工作,2015(11):14-17.
[4] 李娜.數(shù)字圖書館個(gè)性化推薦系統(tǒng)研究[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2015(9):76-77.
[5] 王偉.基于數(shù)據(jù)挖掘的圖書館用戶行為分析與偏好研究[J].情報(bào)科學(xué),2012(3):51-53.
[6] 葉春蕾,馮璐,冷伏海.數(shù)字圖書館個(gè)性化服務(wù)中用戶弱信息需求模型研究[J].圖書情報(bào)工作,2012(15):121-123.
(編校:孫新梅)