作者簡(jiǎn)介:陳佩欣(1991—):女,本科,助理工程師,研究方向圖書(shū)情報(bào)。
摘要:隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)爆炸性的整體發(fā)展緊隨其后。人們每天都在處理各式各樣的數(shù)字化信息,如何在眾多的信息中快速得到人們所需要的信息尤為重要。數(shù)字圖書(shū)館作為人們獲取信息的重要渠道之一,在幫助用戶找到所需要信息方面不斷進(jìn)行探索,應(yīng)用各種信息挖掘技術(shù)方法,實(shí)現(xiàn)數(shù)字資源的個(gè)性化建設(shè),是新時(shí)期數(shù)字圖書(shū)館發(fā)展的必然服務(wù)趨勢(shì)。該文將從數(shù)字圖書(shū)館和數(shù)字圖書(shū)館的個(gè)性化服務(wù)發(fā)展的現(xiàn)狀展開(kāi)研究,主要研究了數(shù)據(jù)挖掘的相關(guān)技術(shù)、數(shù)據(jù)探索技術(shù)在數(shù)字圖書(shū)館的發(fā)展、促進(jìn)圖書(shū)館的互聯(lián)網(wǎng)技術(shù)的應(yīng)用服務(wù)提供方面發(fā)現(xiàn)的問(wèn)題,并在此基礎(chǔ)上提出了解決對(duì)策。
關(guān)鍵詞:數(shù)據(jù)挖掘 數(shù)字圖書(shū)館 個(gè)性化 服務(wù)建設(shè)
中圖分類號(hào): G25 ????文獻(xiàn)標(biāo)識(shí)碼:A???文章編號(hào):1672-3791(2021)12(c)-0000-00
Abstract: With the development of IT, digital information developed explosively. People are dealing with all kinds of digital information, how to get the information we need is particularly important. As one of the important ways for people to obtain information, the digital library is constantly exploring in helping users to find the information they need. This article starts from the current status of the development of digital library and digital library's personalized service, mainly researches the related technology of data mining and promotes the service of library's Internet technology. The countermeasures have been proposed to solve problems at the moment.
Key Words: Data mining; Digital library; Personalization; Service construction
在信息技術(shù)的飛速發(fā)展下,一方面大量的信息內(nèi)容給現(xiàn)代人的生活帶來(lái)了便利,另一方面數(shù)量巨大且冗雜的信息也為人們帶來(lái)了搜尋上的不便。數(shù)字圖書(shū)館使用者增加的同時(shí),人們對(duì)數(shù)字圖書(shū)館個(gè)性化服務(wù)的需求也隨之增加。為了在大量的信息中得到用戶真正需要的信息,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。在數(shù)字圖書(shū)館中應(yīng)用各種深度數(shù)據(jù)挖掘技術(shù),可以增強(qiáng)在數(shù)字圖書(shū)館中篩選相關(guān)圖書(shū)信息的效率。在數(shù)字圖書(shū)館的基礎(chǔ)上豐富個(gè)性化服務(wù),更能滿足用戶的信息檢索和圖書(shū)閱讀的需求,提高用戶的閱讀效率[1]。為用戶提供更優(yōu)質(zhì)的個(gè)性化服務(wù),已然成為每個(gè)數(shù)字圖書(shū)館管理者需要考慮的主要問(wèn)題,也是和同類網(wǎng)絡(luò)信息資源建設(shè)產(chǎn)品競(jìng)爭(zhēng)的重要手段。
1數(shù)字圖書(shū)館的概述
1.1數(shù)字圖書(shū)館的概念
美國(guó)密歇根大學(xué)于1990年提出建立電子圖書(shū)館,并將與閱覽室密切相關(guān)的各部門建立的館藏標(biāo)準(zhǔn)定義為數(shù)字化圖書(shū)館。該文對(duì)數(shù)字化圖書(shū)館的標(biāo)準(zhǔn)定義沒(méi)有研究不做過(guò)多闡述,將其具體定義為利用數(shù)字的含義、各種技術(shù)流程以內(nèi)部存儲(chǔ)各種相關(guān)信息的軟件系統(tǒng)[2]。
1.2數(shù)據(jù)挖掘及相關(guān)技術(shù)
數(shù)據(jù)挖掘是指從數(shù)據(jù)中找出隱藏的、具有市場(chǎng)價(jià)值的信息內(nèi)容,通過(guò)各種知識(shí)的刪除和選擇、提取以及尋找數(shù)據(jù)規(guī)律,使用統(tǒng)計(jì)、檢索信息數(shù)據(jù)庫(kù)以及多種模型識(shí)別等在數(shù)據(jù)庫(kù)中查找可用數(shù)據(jù),然后尋找數(shù)據(jù)規(guī)則并運(yùn)用規(guī)則,它能輸入特定名詞進(jìn)行驅(qū)動(dòng)查詢,挖掘信息中的規(guī)律[3]。數(shù)據(jù)進(jìn)行深度挖掘的主要方式有聚類、分類與預(yù)測(cè)、關(guān)聯(lián)和偏差檢測(cè)。主要技術(shù)有決策樹(shù)、回歸分析、人工神經(jīng)網(wǎng)絡(luò)等。建設(shè)數(shù)字圖書(shū)館只有綜合運(yùn)用以上技術(shù),才能建設(shè)好具有個(gè)性化特點(diǎn)的數(shù)字圖書(shū)館。
2個(gè)性化數(shù)字圖書(shū)館系統(tǒng)模型的設(shè)計(jì)與實(shí)施
2.1模型設(shè)計(jì)思路
數(shù)字圖書(shū)館個(gè)性化系統(tǒng)模型的設(shè)計(jì)應(yīng)以用戶為中心,重點(diǎn)考慮數(shù)字圖書(shū)館的操作性,結(jié)構(gòu)性以及可更新性,并對(duì)用戶、圖書(shū)資源進(jìn)行分析挖掘。數(shù)據(jù)挖掘的個(gè)性化數(shù)字圖書(shū)館系統(tǒng)模型的設(shè)計(jì)就是要挖掘數(shù)字圖書(shū)館用戶的個(gè)人信息、上網(wǎng)行為,并從中分析出用戶的興趣愛(ài)好、學(xué)習(xí)關(guān)注點(diǎn)以及行為習(xí)慣,這樣才能向用戶提供優(yōu)質(zhì)的個(gè)性化服務(wù),并為圖書(shū)館文獻(xiàn)的錄入提供依據(jù)[4]。
2.2對(duì)資源的分析
對(duì)用戶行為分析,根據(jù)用戶的注冊(cè)信息,借閱、瀏覽記錄進(jìn)行聚類分析,劃分類別,針對(duì)不同的群組提供不同的服務(wù)方式和推薦模式;對(duì)被借閱書(shū)籍分析,被借閱次數(shù)多的圖書(shū)受眾面大,可作為圖書(shū)館的熱門圖書(shū)放在用戶登錄首頁(yè)或推送圖書(shū)板塊處。
2.3個(gè)性化系統(tǒng)結(jié)構(gòu)模型設(shè)計(jì)
系統(tǒng)根據(jù)用戶在數(shù)字圖書(shū)館的注冊(cè)、登錄信息,建立用戶模型,根據(jù)用戶的檢索記錄形成信息庫(kù)。將用戶模型與信息庫(kù)進(jìn)行匹配,通過(guò)匹配結(jié)果向用戶提供個(gè)性化信息服務(wù)。
2.4系統(tǒng)工作流程
根據(jù)用戶的注冊(cè)信息、檢索信息以及閱讀信息建立用戶信息庫(kù)和信息資源庫(kù),個(gè)性化系統(tǒng)會(huì)調(diào)用用戶資源庫(kù)及信息資源庫(kù),把用戶歸類并建立借閱行為模型,利用數(shù)據(jù)挖掘技術(shù)找出用戶意向資源,把信息推送給用戶。
2.5數(shù)字圖書(shū)館數(shù)據(jù)挖掘數(shù)據(jù)源選取
以中國(guó)國(guó)家數(shù)字圖書(shū)館為研究對(duì)象,中國(guó)國(guó)家數(shù)字圖書(shū)館館書(shū)藏書(shū)990多萬(wàn)冊(cè),電子文獻(xiàn)日瀏覽量非常大,瀏覽量越大其隱形價(jià)值信息就越豐富,該文選擇中國(guó)國(guó)家數(shù)字圖書(shū)館2016年1月到2019年12月的用戶借閱數(shù)據(jù)為個(gè)性化服務(wù)研究展開(kāi)說(shuō)明。
2.5.1用戶基本信息
序號(hào)、用戶編號(hào)、用戶名、注冊(cè)時(shí)間、讀者類型、借書(shū)狀態(tài)等信息、為用戶分類、借閱意向分類提供依據(jù)。
2.5.2借閱數(shù)據(jù)的處理
刪除用戶的重復(fù)信息以及已經(jīng)注銷賬號(hào)的用戶信息、補(bǔ)全用戶信息表用戶屬性缺失的部分;借閱信息的清洗是數(shù)據(jù)集的核心部分,可以選擇借閱數(shù)量大的用戶群體為研究對(duì)象,清除借閱數(shù)量少的用戶群體數(shù)據(jù)[5]。數(shù)據(jù)挖掘要挖掘的兩個(gè)信息表中存儲(chǔ)字段的形式不同,需要進(jìn)行數(shù)據(jù)轉(zhuǎn)換,在設(shè)計(jì)目標(biāo)時(shí),要了解用戶借閱圖書(shū)的次數(shù)以及感興趣的圖書(shū)類別,將圖書(shū)進(jìn)行劃分,為縮短數(shù)據(jù)挖掘處理時(shí)間,還需處理用戶借閱次數(shù)、表名、用戶類型、字段名等方面[6]。
2.6數(shù)據(jù)集成
除了用戶信息表和借閱信息表,還需組織統(tǒng)計(jì)數(shù)據(jù)表,如圖書(shū)借閱次數(shù)集成表和用戶借閱次數(shù)集成表。圖書(shū)借閱次數(shù)集成表應(yīng)包含以下字段屬性:圖書(shū)所屬類別、圖書(shū)館圖書(shū)借閱情況;用戶借閱次數(shù)集成表應(yīng)包含以下字段屬性:用戶名、用戶編號(hào)、借閱次數(shù)。
關(guān)聯(lián)規(guī)則的分析過(guò)程中,將數(shù)字圖書(shū)館的借閱數(shù)據(jù)處理集成,把用戶對(duì)該類圖書(shū)有過(guò)借閱行為的取值為“1”,沒(méi)有過(guò)借閱行為的取值為“0”[7]。其用戶借閱事務(wù)數(shù)據(jù)如圖1所示。
從圖1數(shù)據(jù)可以看出,用戶編號(hào)為21324234與32141757的兩位用戶,從用戶圖書(shū)借閱量上來(lái)看,用戶21324234圖書(shū)借閱量為34,用戶32141757圖書(shū)借閱量為274;從借閱圖書(shū)類別上看,用戶21324234借閱類別偏向O類和U類的圖書(shū),而對(duì)于用戶編號(hào)為32141757來(lái)說(shuō),他在圖書(shū)分類O類與U類處為0,則說(shuō)明32141757對(duì)這兩類圖書(shū)不感興趣,它對(duì)P類與V類的圖書(shū)感興趣。將原數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換和集成,得到了滿足用戶需求的數(shù)據(jù)。
3數(shù)據(jù)挖掘在數(shù)字圖書(shū)館上個(gè)性化服務(wù)的應(yīng)用
3.1信息定制與信息推送
數(shù)字圖書(shū)館的個(gè)性化服務(wù)就是數(shù)字圖書(shū)館針對(duì)不同用戶在不同的時(shí)間、地點(diǎn),提供量身定制的服務(wù)。主要體現(xiàn)在用戶的個(gè)性化信息定制和信息推送服務(wù),都是利用用戶的注冊(cè)信息以及用戶的網(wǎng)頁(yè)訪問(wèn)行為形成用戶個(gè)人數(shù)據(jù)庫(kù),然后系統(tǒng)利用數(shù)據(jù)挖掘技術(shù)及其他信息處理技術(shù)挖掘用戶關(guān)注的信息,并發(fā)送給用戶。根據(jù)數(shù)字圖書(shū)館可更新性原則,系統(tǒng)會(huì)在未來(lái)的工作中實(shí)時(shí)更新用戶個(gè)人數(shù)據(jù)庫(kù)滿足用戶實(shí)時(shí)的信息獲取需求。
3.2優(yōu)化信息檢索服務(wù)
信息檢索是用戶與數(shù)字信息建立聯(lián)系的紐帶,在數(shù)字圖書(shū)館中應(yīng)用數(shù)據(jù)挖掘技術(shù),利用聚類算法將搜尋到的結(jié)果聚類分析,將提高信息檢索的效率。數(shù)據(jù)挖掘技術(shù)根據(jù)用戶的注冊(cè)信息、行為活動(dòng)數(shù)據(jù),分析出用戶的數(shù)據(jù)需求,然后搜索引擎將用戶檢索的相關(guān)信息呈現(xiàn)給用戶。
3.3優(yōu)化個(gè)性化服務(wù)系統(tǒng)流程
用戶進(jìn)入數(shù)字圖書(shū)館首先進(jìn)行用戶信息注冊(cè)、登錄,這些與用戶的檢索記錄共同構(gòu)成用戶數(shù)據(jù)庫(kù)。系統(tǒng)對(duì)用戶數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘,構(gòu)建“我的數(shù)字圖書(shū)館”。
3.4促進(jìn)信息資源的管理
目前數(shù)字圖書(shū)館的文獻(xiàn)資源主要是電子圖書(shū)期刊,可利用聚類、關(guān)聯(lián)技術(shù)將圖書(shū)劃分為多組不同的類中,用戶在查閱圖書(shū)時(shí),可關(guān)注和圖書(shū)處于同類的圖書(shū),提高檢索效率;分析并歸納文獻(xiàn)資料里的最能概括文獻(xiàn)的關(guān)鍵詞及關(guān)鍵句作為文獻(xiàn)檢索的檢索詞,可快速檢索到同類別的資料;把文獻(xiàn)貼合主題的文本進(jìn)行提取作為文獻(xiàn)的摘要,用戶可以通過(guò)摘要了解文章。
4數(shù)字圖書(shū)館個(gè)性化服務(wù)存在的問(wèn)題及對(duì)策
4.1個(gè)性化信息的獲取來(lái)源少
目前主要的數(shù)字圖書(shū)館信息來(lái)源有:用戶的注冊(cè)信息表、搜索時(shí)的關(guān)鍵詞、瀏覽、服務(wù)器日志信息等。信息獲取來(lái)源太少,可綜合應(yīng)用隱式獲取和顯示獲取收集個(gè)性化信息,建立完善的用戶評(píng)估及信息反饋機(jī)制。
4.2用戶信息研究不深入
用戶信息是個(gè)性化服務(wù)的基礎(chǔ),需要收集用戶的背景資料以及信息需求,然后對(duì)這些信息進(jìn)行全面的分析,才能真正促進(jìn)數(shù)字圖書(shū)館的個(gè)性化服務(wù)建設(shè)。
4.3信息資源整合力度不足
信息資源整合力度不足指的是信息資源處于無(wú)序狀態(tài),不能進(jìn)行高效的信息結(jié)構(gòu)建設(shè)。需要以用戶為中心,針對(duì)用戶數(shù)據(jù)需求和用戶注冊(cè)信息來(lái)進(jìn)行館內(nèi)資源建設(shè),通過(guò)整理用戶所有信息,提高信息資源的利用率。
4.4信息安全存在隱患
加強(qiáng)用戶隱私及網(wǎng)絡(luò)信息安全的建設(shè),提升用戶信任度并提交更多的個(gè)人信息,這些數(shù)據(jù)可支持?jǐn)?shù)字圖書(shū)館為用戶提供更全面、更精確的個(gè)性化服務(wù)。
4.5不斷創(chuàng)新信息檢索方式
傳統(tǒng)的信息檢索方式得到的結(jié)果缺乏交互性、準(zhǔn)確性、指向性,聯(lián)網(wǎng)信息內(nèi)容數(shù)據(jù)庫(kù)的各種檢索模式可以完全支持新概念系統(tǒng)檢索、關(guān)鍵詞檢索數(shù)據(jù)庫(kù)檢索、關(guān)聯(lián)數(shù)據(jù)檢索和句子數(shù)據(jù)庫(kù)檢索,并且可以使用聚類優(yōu)化算法來(lái)分析和聚類實(shí)際結(jié)果,使結(jié)果清晰條理的推送到用戶面前。
4.6完善個(gè)性化推薦技術(shù)
我國(guó)絕大多數(shù)數(shù)字圖書(shū)館仍以文獻(xiàn)搜索為主,這種非主動(dòng)的服務(wù)方式為用戶提供的個(gè)性化服務(wù)是有限的,針對(duì)這一現(xiàn)象應(yīng)該完善個(gè)性化推薦技術(shù),將被動(dòng)的提供搜索服務(wù)轉(zhuǎn)化為主動(dòng)的提供推送服務(wù)。
5結(jié)語(yǔ)
在數(shù)字圖書(shū)館領(lǐng)域應(yīng)用數(shù)據(jù)挖掘技術(shù)使個(gè)性化服務(wù)建設(shè)又上了一個(gè)新臺(tái)階。數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書(shū)館中的應(yīng)用,改變了數(shù)字圖書(shū)館被動(dòng)服務(wù)的狀態(tài),為用戶提供了更多個(gè)性化信息服務(wù)和行動(dòng)支持,推動(dòng)了數(shù)字圖書(shū)館的現(xiàn)代化、個(gè)性化服務(wù)建設(shè)。
參考文獻(xiàn)
[1] ELIZABETH B. Integrating Digital Stewardship into Library Instruction: An Argument for Student (and Librarian) Success[J]. The Journal of Academic Librarianship,2020,46(1):102099.
[2] 蔣秀麗.論高校圖書(shū)館個(gè)性化服務(wù)[J].中國(guó)多媒體與網(wǎng)絡(luò)教學(xué)學(xué)報(bào),2020(3):108-109.
[3] 王慧娜.數(shù)字圖書(shū)館個(gè)性化交互服務(wù)行為信息挖掘系統(tǒng)設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2020,43(10):153-155,159.
[4] 范宇.基于大數(shù)據(jù)的高校圖書(shū)館個(gè)性化服務(wù)路徑[J].吉林化工學(xué)院學(xué)報(bào),2019,6(12):67-70.
[5] 薩支斌,許震.基于個(gè)性化推送服務(wù)的數(shù)字圖書(shū)館學(xué)習(xí)資源提取[J].圖書(shū)與情報(bào),2019(5):103-108.
[6] ?李冬云.利用關(guān)聯(lián)規(guī)則挖掘技術(shù)實(shí)現(xiàn)數(shù)字圖書(shū)館個(gè)性化推薦服務(wù)[J].蘭臺(tái)內(nèi)外,2020(34):40-42.
[7] 陳越.數(shù)字圖書(shū)館個(gè)性化信息服務(wù)模式分析[J].山西檔案,2019(3):94-96.
3662500338241