[摘 要] 融合圖書館用戶數(shù)據(jù)、Web圖書數(shù)據(jù)的新型高校圖書館書目系統(tǒng)分為數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)集成、數(shù)據(jù)分析和結(jié)果呈現(xiàn)三個(gè)模塊;用戶數(shù)據(jù)源來(lái)自北京大學(xué)圖書館數(shù)據(jù)資源服務(wù)中心的用戶及其行為數(shù)據(jù)和館藏資源及其使用數(shù)據(jù),Web數(shù)據(jù)源包括豆瓣讀書數(shù)據(jù)、當(dāng)當(dāng)圖書數(shù)據(jù)、京東圖書數(shù)據(jù)以及中國(guó)知網(wǎng)引文數(shù)據(jù);數(shù)據(jù)處理方法包括數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)集成;系統(tǒng)實(shí)現(xiàn)的三個(gè)關(guān)鍵技術(shù)為融合用戶數(shù)據(jù)及內(nèi)容的圖書推薦方法、豆瓣讀書筆記的摘要和關(guān)鍵詞生成方法以及情感分析方法。該書目系統(tǒng)聚焦于解決書目信息單一的問題,通過(guò)集成和分析圖書館用戶數(shù)據(jù)和Web圖書數(shù)據(jù),豐富書目信息的內(nèi)容,為下一代圖書館書目系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)提供了參考。
[關(guān)鍵詞] 高校圖書館 圖書館書目系統(tǒng) 用戶數(shù)據(jù) 網(wǎng)絡(luò)數(shù)據(jù) 圖書推薦
[中圖分類號(hào)] G258.6;G250.7 [文獻(xiàn)標(biāo)志碼] A [ DOI ] 10.19764 / j.cnki.tsgjs.20221737
[本文引用格式] 王一博,張鵬翼.融合用戶數(shù)據(jù)的高校圖書館書目系統(tǒng)設(shè)計(jì)[J].圖書館建設(shè),2024(1):121-130,145.
Designing a University Library Bibliographic System Integrating User Data
Wang Yibo, Zhang Pengyi
[Abstract] The new university library bibliography system integrating library user data and e-commerce book purchase platform data is divided into three modules: data preparation and data cleansing, data specification and data integration, data analysis and result presentation. User data sources come from the user and their behavior data, as well as the collection resources and their usage data from the Data Resource Service Center of Peking University Library. Web data sources include Douban Reading Data, Dangdang Book Data, JD.com Book Data, and CNKI Citation Database. Data processing methods include data cleansing, data specification and data integration. The three key technologies implemented in the system are book recommendation methods that integrate user data and content, abstract and keyword generation methods for Douban reading notes, and sentiment analysis methods. This bibliographic system focuses on solving the problem of single bibliographic information. By integrating and analyzing library user data and web book data, it enriches the content of bibliographic information and provides a reference for the design and implementation of the next generation library bibliographic system.
[Keywords] University library; Library bibliographic system; User data; Web data; Book recommendation
0 引 言
隨著大數(shù)據(jù)、人工智能等技術(shù)的迅猛發(fā)展,各行各業(yè)都發(fā)生著深刻的變革。圖書館擁有豐富的館藏資源與數(shù)據(jù)庫(kù)商提供的海量信息資源,如何為用戶提供更優(yōu)質(zhì)的服務(wù)是圖書館管理和圖書館學(xué)研究共同關(guān)注的重要問題之一。
圖書館集成管理系統(tǒng)既包含開放給圖書館用戶進(jìn)行資源檢索的OPAC系統(tǒng),也包含對(duì)圖書館的各項(xiàng)業(yè)務(wù)進(jìn)行管理的業(yè)務(wù)管理系統(tǒng)。用戶最頻繁使用和直接交互的是其中的書目系統(tǒng),書目系統(tǒng)的設(shè)計(jì)在很大程度上決定了圖書館是否可以滿足用戶對(duì)于圖書館獲取書目資源和服務(wù)的基本需求,是用戶從多維度評(píng)價(jià)圖書館發(fā)展水平的重要指標(biāo)之一。目前,圖書館集成管理系統(tǒng)的提供商大都集中在英語(yǔ)國(guó)家,如美國(guó)、英國(guó)、加拿大、澳大利亞、新西蘭等國(guó)家的 120 多家廠商提供圖書館自動(dòng)化系統(tǒng)產(chǎn)品[1]。其中,商業(yè)自動(dòng)化系統(tǒng)有 Innovative Interfaces 公司的Millennium、Exlibris公司的Aleph 500和 Voyager系統(tǒng)、SirsiDynix 公司的 Symphony 系統(tǒng)等,開源自動(dòng)化系統(tǒng)有 Folio、Evergreen、Koha 系統(tǒng)等。
盡管集成管理系統(tǒng)中的書目系統(tǒng)提供了基本的書目元數(shù)據(jù)檢索功能,但現(xiàn)有圖書館書目系統(tǒng)大多未綜合利用各類用戶數(shù)據(jù),未能在圖書描述數(shù)據(jù)和用戶使用數(shù)據(jù)之間建立有效的關(guān)聯(lián)。本文旨在研究如何融合圖書館內(nèi)部用戶數(shù)據(jù)和Web用戶數(shù)據(jù),以更好地收集和豐富圖書元數(shù)據(jù),多維度反映圖書的內(nèi)容和特征,對(duì)高校圖書館書目系統(tǒng)的改進(jìn)提出一些建議。
本文設(shè)計(jì)的系統(tǒng)架構(gòu)分為3個(gè)主要模塊:數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范與數(shù)據(jù)集成、數(shù)據(jù)分析與結(jié)果呈現(xiàn)。系統(tǒng)設(shè)計(jì)所用的技術(shù)涉及到Web數(shù)據(jù)采集、數(shù)據(jù)集成和數(shù)據(jù)挖掘,自然語(yǔ)言處理相關(guān)技術(shù)如中文分詞、詞頻統(tǒng)計(jì)等,數(shù)據(jù)庫(kù)查詢語(yǔ)言SQL,計(jì)算機(jī)系統(tǒng)設(shè)計(jì)等。
1 國(guó)內(nèi)外相關(guān)研究與實(shí)踐
1.1 圖書館書目系統(tǒng)發(fā)展歷程和功能
圖書館的發(fā)展經(jīng)歷了從以藏書為中心到突出開放借閱,再到以人為本,注重人的需求、可接近性、開放性、生態(tài)環(huán)境和資源融合的幾個(gè)階段[2]。圖書館書目系統(tǒng)作為用戶獲取圖書館館藏的重要渠道,其發(fā)展歷程也可以大致反映上述圖書館發(fā)展的階段。其中,第一階段(20世紀(jì)50年代至70年代)是圖書館系統(tǒng)發(fā)展的萌芽階段[3]。隨著計(jì)算機(jī)的出現(xiàn),紙質(zhì)的卡片目錄逐漸被機(jī)讀目錄所替代,圖書館系統(tǒng)開始出現(xiàn)。第二階段(20世紀(jì)80年代到21世紀(jì)初)是圖書館系統(tǒng)的蓬勃發(fā)展階段[3]。這一時(shí)期圖書館的發(fā)展理念從以館藏資源為中心逐漸向以用戶為中心轉(zhuǎn)變。圖書編目不再成為系統(tǒng)中唯一重要的模塊,采編、流通、期刊管理、用戶管理等模塊也都陸續(xù)集成在系統(tǒng)中,圖書館的業(yè)務(wù)流程也得到了一定程度的優(yōu)化。第三階段(2010年左右至今)是圖書館系統(tǒng)發(fā)展的成熟階段[3]。商業(yè)化圖書館服務(wù)平臺(tái)(Library Service Platform,簡(jiǎn)稱LSP)作為第三階段圖書館系統(tǒng)進(jìn)入公眾視野,受到越來(lái)越多的關(guān)注[4]。一些圖書館開始積極研發(fā)基于FOLIO(The Future of Libraries is Open)的微服務(wù)架構(gòu)的圖書館書目系統(tǒng),這從一個(gè)側(cè)面說(shuō)明了圖書館系統(tǒng)由統(tǒng)一的集成書目系統(tǒng)向個(gè)性化開發(fā)定制的方向轉(zhuǎn)變。
圖書館學(xué)研究十分注重對(duì)圖書館書目系統(tǒng)發(fā)展歷程和作用的分析和反思。例如,胡振寧[5]回顧并梳理了深圳大學(xué)圖書館系統(tǒng)30年的發(fā)展歷程。張志東等[6]運(yùn)用了文獻(xiàn)調(diào)研法和訪談法,對(duì)云南大學(xué)1988—2018年的圖書館系統(tǒng)建設(shè)歷程進(jìn)行了梳理。霍建梅等[1]對(duì)國(guó)外較為成熟的圖書館系統(tǒng)市場(chǎng)格局進(jìn)行了分析,指出了商業(yè)化系統(tǒng)和開源系統(tǒng)各自的優(yōu)劣勢(shì)、面臨的挑戰(zhàn)和未來(lái)的發(fā)展趨勢(shì)。
一些學(xué)者通過(guò)分析大量用戶搜索書目系統(tǒng)的數(shù)據(jù),從中發(fā)現(xiàn)了一些特征和規(guī)律。早在1993年,Millsap等[7]就發(fā)現(xiàn)在加州大學(xué)MELVYL圖書館系統(tǒng)中,30.2%的用戶只搜索了1次,62.2%的用戶進(jìn)行的是標(biāo)題檢索。Schultheiss等[8]研究了德國(guó)圖書館搜索系統(tǒng)超過(guò)420萬(wàn)次的搜索會(huì)話,發(fā)現(xiàn)用戶更傾向于使用簡(jiǎn)短的搜索語(yǔ)句,約有38%至57%的用戶在檢索前預(yù)先知道需要檢索的內(nèi)容,而且基本都只瀏覽檢索結(jié)果的首頁(yè)。
盡管圖書館書目系統(tǒng)經(jīng)過(guò)幾十年的發(fā)展已經(jīng)取得了很大的進(jìn)步和成就,但不可否認(rèn)的是,現(xiàn)有書目系統(tǒng)仍存在不足,直接影響了圖書館服務(wù)效能,并制約了年輕圖書館用戶群體的發(fā)展壯大。與網(wǎng)絡(luò)搜索引擎對(duì)檢索結(jié)果的優(yōu)化帶給用戶的體驗(yàn)相比,圖書館書目系統(tǒng)的檢索體驗(yàn)老舊而冗余;與此同時(shí),不少用戶寧愿花錢在圖書電商網(wǎng)站(如當(dāng)當(dāng)、京東等)購(gòu)買新的紙質(zhì)或電子圖書,也不愿在圖書館書目系統(tǒng)費(fèi)力進(jìn)行檢索;與豆瓣、知乎等相關(guān)圖書愛好者建立的知識(shí)交流社區(qū)相比,現(xiàn)有圖書館書目系統(tǒng)也缺乏與用戶進(jìn)行相關(guān)交流的平臺(tái)。Moscoso等將OPAC系統(tǒng)的錯(cuò)誤分為4類:與OPAC系統(tǒng)連接操作相關(guān)的錯(cuò)誤消息,與OPAC搜索數(shù)據(jù)條目相關(guān)的錯(cuò)誤消息,與結(jié)果頁(yè)面訪問相關(guān)的錯(cuò)誤消息,與結(jié)果導(dǎo)航任務(wù)相關(guān)的錯(cuò)誤消息[9]。Trivedi等[10]對(duì)印度不同大學(xué)圖書館的239名研究對(duì)象開展了問卷調(diào)查,結(jié)果表明OPAC系統(tǒng)在清晰地展現(xiàn)圖書館資源和可用資源、在線搜索館藏速度等方面尚有提升的空間。
1.2 書目數(shù)據(jù)與用戶數(shù)據(jù)融合相關(guān)研究
圖書館內(nèi)部用戶數(shù)據(jù)是指廣大用戶與圖書館交互不斷積累的各類大數(shù)據(jù),如用戶進(jìn)出館數(shù)據(jù)、借還書數(shù)據(jù)、預(yù)約數(shù)據(jù)等。已有研究嘗試?yán)脙?nèi)部數(shù)據(jù)源對(duì)書目系統(tǒng)的用戶服務(wù)進(jìn)行擴(kuò)充。其中,何娟[11]使用了某院校圖書館2017 年全年的用戶借還書數(shù)據(jù),從書目數(shù)據(jù)和用戶數(shù)據(jù)兩個(gè)維度構(gòu)建了個(gè)人用戶畫像,利用向量空間模型計(jì)算用戶之間的相似度,使用K-means聚類法對(duì)用戶聚類形成群體用戶畫像,為圖書個(gè)性化推薦奠定了基礎(chǔ)。胡云飛[12]對(duì)某高校圖書館的用戶基本信息、館藏基本信息、用戶行為信息進(jìn)行了清洗和匯總,構(gòu)建了讀者行為庫(kù),并針對(duì)某一維度或多個(gè)維度組合后的用戶群體,利用自身提出的基于馬氏距離的二分 K-means 算法進(jìn)行聚類,最后設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)高校圖書館用戶畫像系統(tǒng)。
與圖書館對(duì)用戶體驗(yàn)不夠重視相比,圖書電子商務(wù)網(wǎng)站(如京東、當(dāng)當(dāng)?shù)龋┩ㄟ^(guò)收集和分析用戶信息、建立不同群體用戶畫像做精準(zhǔn)營(yíng)銷。Web用戶數(shù)據(jù)是指用戶在多種知識(shí)社區(qū)、電子商務(wù)平臺(tái)以及微博等社交媒體平臺(tái)上的行為記錄,如對(duì)圖書的購(gòu)置、評(píng)價(jià)和其他與之相關(guān)的原創(chuàng)內(nèi)容生成行為。例如,中國(guó)知網(wǎng)引文數(shù)據(jù)庫(kù)中的圖書被引頻次,豆瓣讀書社區(qū)中的圖書評(píng)論數(shù)據(jù),以及京東和當(dāng)當(dāng)?shù)入娮由虅?wù)平臺(tái)上圖書的銷售與用戶評(píng)價(jià)數(shù)據(jù)等。在用戶行為建模中,已有大量研究提出了各種模型的構(gòu)建方法,如基于圖書內(nèi)容和借閱記錄的推薦模型,用戶書評(píng)的情感分析和摘要提取方法等。國(guó)內(nèi)外的學(xué)者們對(duì)此進(jìn)行了很多相關(guān)研究,Hu等[13]提出一種基于Word2Vec和TF-IDF融合的特征提取方法建立用戶畫像,并通過(guò)分析一段時(shí)間內(nèi)用戶的搜索日志,推斷出用戶的基本信息。Wang等[14]將用戶興趣分為固定類別的興趣和動(dòng)態(tài)事件的興趣,并通過(guò)建立動(dòng)態(tài)模型捕捉用戶的興趣變化。Sharma等[15]為用戶查詢提供個(gè)性化結(jié)果,將查詢結(jié)果與用戶資料中的關(guān)鍵詞匹配,證明了方法的有效性。陳楊等[16]提出基于網(wǎng)絡(luò)數(shù)據(jù)采集建立的少兒圖書用戶畫像模型,該模型包含對(duì)用戶基本屬性、認(rèn)知興趣、認(rèn)知心理的角色定位,對(duì)用戶的圖書偏好和圖書瀏覽及購(gòu)買歷史的閱讀需求,以及對(duì)用戶消費(fèi)行為、忠誠(chéng)度及滿意度的行為屬性,可以實(shí)現(xiàn)用戶信息的標(biāo)簽化,進(jìn)而實(shí)現(xiàn)圖書圈層精準(zhǔn)營(yíng)銷目的。陳旭松[17]考慮到用戶動(dòng)態(tài)興趣的因素,將用戶一段時(shí)期內(nèi)購(gòu)買的物品按照時(shí)間排序,刻畫出用戶的長(zhǎng)短期興趣,以提升推薦精度。
有很多學(xué)者對(duì)圖書館書目系統(tǒng)的改進(jìn)提出了新的設(shè)計(jì)思路。Nahotko[18]分析研究了55所波蘭大學(xué)圖書館網(wǎng)站的內(nèi)容及其分面導(dǎo)航的OPAC,提出應(yīng)該增加MARC字段的搜索并提供“一框搜索”,而且可以在得到初步檢索結(jié)果的基礎(chǔ)上疊加一組類別過(guò)濾器。林珍梅[19]將大數(shù)據(jù)時(shí)代的Hadoop技術(shù)與圖書館閱讀書目智慧推薦相結(jié)合,集成了多個(gè)不同來(lái)源的數(shù)據(jù),將整個(gè)系統(tǒng)設(shè)計(jì)分為網(wǎng)頁(yè)前端、數(shù)據(jù)存儲(chǔ)、分析推薦3部分,并采用調(diào)查問卷等性能評(píng)估方法對(duì)系統(tǒng)的推薦效果開展了評(píng)估。曹意[20]引用人工智能技術(shù)訓(xùn)練書目數(shù)據(jù)集,利用迭代函數(shù)通過(guò)多次迭代獲得最優(yōu)推薦集合,結(jié)合硬件設(shè)計(jì)和軟件設(shè)計(jì)完成圖書館書目推薦系統(tǒng)設(shè)計(jì)。唐樂等[21]通過(guò)采集、分析、處理西南交通大學(xué)圖書館OPAC日志數(shù)據(jù)的結(jié)構(gòu),設(shè)計(jì)了一個(gè)日志管理系統(tǒng),該系統(tǒng)可以自動(dòng)采集并分析用戶日志,識(shí)別用戶檢索行為,完成圖書推薦并將結(jié)果返回給用戶。
無(wú)論學(xué)者是應(yīng)用各類數(shù)據(jù)挖掘方法對(duì)圖書館各類流通數(shù)據(jù)分析挖掘方面的研究,還是對(duì)用戶在電商平臺(tái)上購(gòu)買、評(píng)論商品等行為的用戶畫像構(gòu)建,都為更好地改進(jìn)圖書館書目系統(tǒng),進(jìn)而更好地為用戶服務(wù)提供新的思路和方法。
2.3 用戶檢索與書目系統(tǒng)研究
信息行為研究發(fā)現(xiàn),用戶在檢索過(guò)程中無(wú)法精準(zhǔn)描述自身信息需求,Belkin[22]將這種狀態(tài)稱為“知識(shí)非常態(tài)”(Anomalous State of Knowledge,簡(jiǎn)稱ASK)模型。因此,需要深入到信息需求表達(dá)的背后,了解其信息查找行為的根源,即其欲利用信息解決的問題[23]。在信息檢索領(lǐng)域,在系統(tǒng)設(shè)計(jì)中融入ASK模型,可以更有效匹配信息資源和用戶需求[24]。有研究通過(guò)“隱式相關(guān)性反饋”,基于用戶的點(diǎn)擊、瀏覽等行為,作為反映信息資源與用戶需求相關(guān)性的隱式指標(biāo)來(lái)更好地預(yù)測(cè)用戶的檢索意圖[25]。
用戶在使用書目數(shù)據(jù)進(jìn)行檢索的過(guò)程中,也存在檢索式表達(dá)和真實(shí)需求之間的差異。目前,高校圖書館書目系統(tǒng)大多存在的問題包括:提供的檢索入口與用戶真實(shí)需求相關(guān)性差異大、檢索結(jié)果未包含電子資源、書目信息過(guò)于簡(jiǎn)單、缺少用戶互動(dòng)的知識(shí)社區(qū)等。例如,美國(guó)哈佛大學(xué)圖書館員Single[26]在研究16項(xiàng)圖書館門戶可用性測(cè)試成果的基礎(chǔ)上總結(jié)出圖書館門戶存在的6大問題,包括專業(yè)術(shù)語(yǔ)的使用、用戶對(duì)搜索工具不理解、用戶對(duì)資源實(shí)體的誤用、外部鏈接的低效、全文獲取的障礙性及用戶對(duì)頁(yè)簽系統(tǒng)的忽視。與之類似,北京大學(xué)圖書館采用的是1998年由SirsiDynix公司推出的Unicorn系統(tǒng)(已升級(jí)為Symphony系統(tǒng))。該系統(tǒng)在國(guó)內(nèi)多所高校圖書館(如蘭州大學(xué)圖書館、河南大學(xué)圖書館等)已有廣泛應(yīng)用,系統(tǒng)普遍面臨以下三類問題:首先,用戶輸入關(guān)鍵詞與檢索結(jié)果之間的關(guān)聯(lián)性不高,達(dá)不到用戶的心理預(yù)期;其次,書目信息展現(xiàn)過(guò)于簡(jiǎn)略;最后,系統(tǒng)缺乏用戶交互性的知識(shí)社區(qū)環(huán)境,限制了師生之間的知識(shí)傳播。
因此,構(gòu)建融合用戶數(shù)據(jù)的高校圖書館書目系統(tǒng)可以在一定程度上利用用戶的借閱、購(gòu)買、評(píng)論等行為數(shù)據(jù)進(jìn)行更精準(zhǔn)的推薦服務(wù),如同義詞、相關(guān)檢索詞的聯(lián)想和推薦等,并可以通過(guò)用戶在使用系統(tǒng)中的反饋進(jìn)一步完善系統(tǒng),形成用戶和系統(tǒng)之間的交互。
2 系統(tǒng)設(shè)計(jì)和主要模塊
本文在參照國(guó)內(nèi)外部分圖書館書目系統(tǒng)和電子商務(wù)系統(tǒng)的基礎(chǔ)上,設(shè)計(jì)了一個(gè)融合內(nèi)外部用戶數(shù)據(jù)的高校圖書館書目系統(tǒng)。信息系統(tǒng)開發(fā)的規(guī)范流程主要分為4個(gè)步驟:需求分析、系統(tǒng)分析、系統(tǒng)設(shè)計(jì)、原型實(shí)現(xiàn)。本文遵循了一般信息系統(tǒng)開發(fā)的流程,重點(diǎn)介紹系統(tǒng)分析、系統(tǒng)設(shè)計(jì)和原型實(shí)現(xiàn)。
系統(tǒng)的總體設(shè)計(jì)分為三個(gè)主要模塊:數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)集成、數(shù)據(jù)分析和結(jié)果呈現(xiàn)。本研究系統(tǒng)的總體架構(gòu)如圖1所示。
模塊一為數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)清洗。為深入挖掘用戶在圖書館、互聯(lián)網(wǎng)知識(shí)社區(qū)、電子商務(wù)購(gòu)書平臺(tái)上的行為模式,本文的數(shù)據(jù)以北京大學(xué)圖書館的各類數(shù)據(jù)為例,并引入Web圖書數(shù)據(jù)。不同數(shù)據(jù)的抽取方式存在很大差異,如北京大學(xué)圖書館的數(shù)據(jù)都是結(jié)構(gòu)化地存儲(chǔ)在數(shù)據(jù)庫(kù)中,因此只需要編寫SQL語(yǔ)句就可以從數(shù)據(jù)庫(kù)中抽取出數(shù)據(jù);而京東等電商售書平臺(tái)的評(píng)論數(shù)據(jù)分散在不同網(wǎng)頁(yè)中,需要程序爬取后編寫相關(guān)的正則表達(dá)式,去掉無(wú)關(guān)的網(wǎng)頁(yè)標(biāo)簽。
模塊二為數(shù)據(jù)規(guī)范和數(shù)據(jù)集成。圖書館用戶數(shù)據(jù)可分為用戶及其行為數(shù)據(jù)和館藏資源及其使用數(shù)據(jù)兩大類:用戶及其行為數(shù)據(jù)包含用戶基本信息和用戶行為,館藏資源及其使用數(shù)據(jù)包含館藏資源描述和館藏資源被使用情況。圖書館內(nèi)部用戶數(shù)據(jù)一般為結(jié)構(gòu)化數(shù)據(jù),其搜集方法通常是:根據(jù)特定需求,通過(guò)SQL語(yǔ)句從數(shù)據(jù)庫(kù)中查詢和導(dǎo)出。Web圖書數(shù)據(jù)又可分為用戶評(píng)價(jià)和書目補(bǔ)充數(shù)據(jù)、圖書銷售數(shù)據(jù)以及圖書被引數(shù)據(jù)三大類:用戶評(píng)價(jià)和書目補(bǔ)充數(shù)據(jù)包含豆瓣閱讀筆記、豆瓣評(píng)分與評(píng)價(jià),圖書銷售數(shù)據(jù)包含當(dāng)當(dāng)圖書銷售和京東圖書銷售數(shù)據(jù),圖書被引數(shù)據(jù)包含知網(wǎng)圖書被引數(shù)據(jù)。由于每一類數(shù)據(jù)源的元數(shù)據(jù)格式、數(shù)據(jù)處理規(guī)則不同,數(shù)據(jù)清洗后的數(shù)據(jù)并不能直接用于數(shù)據(jù)分析,需要對(duì)數(shù)據(jù)進(jìn)行分類,并進(jìn)行人工審核和二次規(guī)范。數(shù)據(jù)規(guī)范完成后,再將各類規(guī)范后的數(shù)據(jù)存放在數(shù)據(jù)庫(kù)表中,以備后續(xù)分析和使用,本文使用PostgreSQL關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)。
模塊三為數(shù)據(jù)分析和結(jié)果呈現(xiàn)。本模塊在對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析與挖掘的基礎(chǔ)上,構(gòu)建用戶端的展示系統(tǒng),將最終分析結(jié)果呈現(xiàn)給用戶。該系統(tǒng)展示的內(nèi)容包括四類:圖書館藏信息、圖書補(bǔ)充信息、用戶借閱數(shù)據(jù)和Web用戶數(shù)據(jù)。尤其是用戶借閱數(shù)據(jù)和Web用戶數(shù)據(jù),可作為傳統(tǒng)書目系統(tǒng)數(shù)據(jù)的有效補(bǔ)充。例如,系統(tǒng)會(huì)根據(jù)用戶的檢索行為對(duì)用戶給予一定量的顯式反饋,如“查看更多館藏”“相似用戶推薦”等,數(shù)據(jù)管理員也可以通過(guò)瀏覽借閱日志分析發(fā)掘用戶的潛在需求。本系統(tǒng)后端采用Python下的網(wǎng)頁(yè)端框架Django,前端采用Vue.js用戶界面的漸進(jìn)式框架,結(jié)合Element桌面端組件庫(kù)共同搭建。
UML(Unified Modeling Language,統(tǒng)一建模語(yǔ)言)用例圖描述系統(tǒng)外部的執(zhí)行者與系統(tǒng)的用例之間的某種聯(lián)系,能夠較為確切和詳細(xì)地描述用戶的功能需求[27]。本系統(tǒng)主要包括三類用戶:廣大讀者、數(shù)據(jù)管理員和系統(tǒng)管理員。對(duì)于讀者,可以查詢自己的個(gè)人信息,進(jìn)行圖書檢索、社群發(fā)現(xiàn),對(duì)系統(tǒng)進(jìn)行相關(guān)性反饋。數(shù)據(jù)管理員在日常工作中主要負(fù)責(zé)數(shù)據(jù)的管理與分析以及數(shù)據(jù)可視化展示,數(shù)據(jù)的管理與分析包括用戶借閱數(shù)據(jù)、Web用戶數(shù)據(jù)和圖書館藏?cái)?shù)據(jù)三個(gè)部分,每部分?jǐn)?shù)據(jù)都需要進(jìn)行查詢及添加、更新及刪除等;數(shù)據(jù)可視化展示包括對(duì)用戶借閱數(shù)據(jù)、Web用戶數(shù)據(jù)和圖書館藏?cái)?shù)據(jù)的可視化展示。系統(tǒng)管理員主要負(fù)責(zé)整個(gè)系統(tǒng)的運(yùn)轉(zhuǎn)和維護(hù),如系統(tǒng)界面和功能維護(hù)、后臺(tái)用戶增刪、用戶權(quán)限設(shè)定和系統(tǒng)日志維護(hù)等。用戶和用例的關(guān)系以及用例間關(guān)系如圖2所示。
3 數(shù)據(jù)源和數(shù)據(jù)處理方法
3.1 圖書館用戶數(shù)據(jù)源
北京大學(xué)圖書館內(nèi)部組織結(jié)構(gòu)調(diào)整后成立了國(guó)內(nèi)第一家高校圖書館數(shù)據(jù)中心——數(shù)據(jù)資源服務(wù)中心。該中心將所有數(shù)據(jù)分為:用戶及其行為數(shù)據(jù)、館藏資源及其使用數(shù)據(jù)、服務(wù)業(yè)務(wù)數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)、館員數(shù)據(jù)、科研類數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、長(zhǎng)期保存數(shù)據(jù)8大類,進(jìn)一步劃分為94小類數(shù)據(jù)。本文選擇的內(nèi)部數(shù)據(jù)源主要來(lái)自于用戶及其行為數(shù)據(jù)和館藏資源及其使用數(shù)據(jù)兩大類。
用戶行為數(shù)據(jù)包含兩部分:一是描繪用戶基本信息的數(shù)據(jù),主要包含的數(shù)據(jù)項(xiàng)有用戶借閱證號(hào)、姓名、性別、身份、院系、學(xué)部、權(quán)限授予和到期時(shí)間等;二是描繪用戶在圖書館內(nèi)產(chǎn)生的進(jìn)館、借閱、預(yù)約、室內(nèi)閱覽等行為的數(shù)據(jù),以借閱數(shù)據(jù)為例,包含的數(shù)據(jù)項(xiàng)有借閱時(shí)間、借閱工作站編號(hào)、借閱館別、所借書條碼號(hào)、借閱用戶借閱證號(hào)等。
館藏資源及其使用數(shù)據(jù)也包含兩部分:一是描繪圖書館館藏資源的數(shù)據(jù),主要包含的數(shù)據(jù)項(xiàng)有機(jī)器可讀目錄MARC、圖書題名、作者、出版地、出版商、出版年、語(yǔ)種、分類號(hào)、索書號(hào)等;二是描繪館藏資源被使用情況的數(shù)據(jù),主要包含的數(shù)據(jù)項(xiàng)有圖書編目時(shí)間、上架時(shí)間、外借時(shí)間、上一次借閱時(shí)間、當(dāng)前借閱狀態(tài)等。
3.2 Web圖書數(shù)據(jù)源
本文所選的Web數(shù)據(jù)源較為豐富,具體包括:豆瓣讀書數(shù)據(jù)、當(dāng)當(dāng)圖書數(shù)據(jù)、京東圖書數(shù)據(jù)以及中國(guó)知網(wǎng)引文數(shù)據(jù)庫(kù),以獲得書目基本信息之外的用戶評(píng)價(jià)與書目補(bǔ)充數(shù)據(jù)、圖書銷售數(shù)據(jù)和被引數(shù)據(jù)。
用戶評(píng)價(jià)與書目補(bǔ)充數(shù)據(jù):既包括用戶在閱讀某本圖書后留下的圖書摘要和評(píng)論,撰寫的閱讀筆記、讀后感、相關(guān)圖書推薦等內(nèi)容,也包括反映用戶真實(shí)感受的情感值。豆瓣網(wǎng)是一個(gè)知識(shí)社區(qū)網(wǎng)站,用戶可以通過(guò)注冊(cè)的方式選擇自己感興趣的社區(qū)(包括豆瓣讀書、電影、音樂等),在所選社區(qū)中與其他用戶交流心得。以豆瓣讀書社區(qū)為例,每位用戶可以為感興趣的圖書打分、撰寫評(píng)論、撰寫讀書筆記等,其他用戶可以查看該圖書總得分、評(píng)價(jià)人數(shù)、評(píng)價(jià)星級(jí),從而對(duì)該書形成一個(gè)總體印象。據(jù)不完全統(tǒng)計(jì),豆瓣讀書每個(gè)月有800萬(wàn)的訪問用戶數(shù)和上億的用戶訪問量[28]。
圖書銷售數(shù)據(jù):截至2022年,我國(guó)各類電商圖書零售碼洋規(guī)模占比為84.7%,實(shí)體店圖書零售碼洋規(guī)模占比為15.3%[29]。疊加疫情影響,線下銷售乏力的趨勢(shì)仍在持續(xù)。京東、當(dāng)當(dāng)為線上圖書銷量排行榜中前兩名的平臺(tái)。
圖書被引數(shù)據(jù):中國(guó)知網(wǎng)引文數(shù)據(jù)庫(kù)是依據(jù)中國(guó)知網(wǎng)收錄數(shù)據(jù)庫(kù)的文后參考文獻(xiàn)和文獻(xiàn)注釋為信息對(duì)象建立的具有特殊檢索功能的文獻(xiàn)數(shù)據(jù)庫(kù)[30],所提供的文獻(xiàn)資源引用數(shù)據(jù)包括期刊論文、博碩士學(xué)位論文、圖書、專利等。本文是以書目為研究對(duì)象,因而重點(diǎn)關(guān)注圖書被引這一數(shù)據(jù)指標(biāo)。
Web用戶數(shù)據(jù)一般為半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù),其搜集方法主要是通過(guò)編寫程序自動(dòng)抓取,或者使用商業(yè)數(shù)據(jù)采集工具(如八爪魚等)進(jìn)行數(shù)據(jù)的抓取。本文通過(guò)python編寫的爬蟲和八爪魚工具相結(jié)合,采集了用戶評(píng)價(jià)與書目補(bǔ)充數(shù)據(jù)、圖書銷售數(shù)據(jù)和圖書被引數(shù)據(jù)。
3.3 數(shù)據(jù)處理方法
本文所用的數(shù)據(jù)處理方法包括:數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)集成。數(shù)據(jù)清洗所用的程序語(yǔ)言為Python編程語(yǔ)言,具體包括Numpy、Pandas等常用的數(shù)據(jù)清洗模塊;數(shù)據(jù)規(guī)范是指對(duì)每一大類數(shù)據(jù),根據(jù)其元數(shù)據(jù)格式和數(shù)據(jù)處理規(guī)則不同,選擇合適的數(shù)據(jù)規(guī)范方法;數(shù)據(jù)集成是將規(guī)范的各類數(shù)據(jù)集成到同一個(gè)數(shù)據(jù)庫(kù)的不同數(shù)據(jù)表中。其他的數(shù)據(jù)處理方法還包括中文分詞、英文詞干提取等。
4 系統(tǒng)實(shí)現(xiàn)的關(guān)鍵技術(shù)
4.1 融合用戶數(shù)據(jù)及內(nèi)容的圖書推薦方法
在圖書推薦方面,本文采用了結(jié)合圖書內(nèi)容、內(nèi)部數(shù)據(jù)源和Web數(shù)據(jù)源的綜合推薦算法,主要由以下三個(gè)步驟組成:首先,對(duì)當(dāng)當(dāng)購(gòu)書平臺(tái)、京東購(gòu)書平臺(tái)、豆瓣讀書平臺(tái)的圖書推薦列表,以及北京大學(xué)圖書館圖書借閱的共現(xiàn)圖書列表取并集,得到候選圖書列表;其次,依據(jù)內(nèi)部數(shù)據(jù)源和Web數(shù)據(jù)源中的數(shù)據(jù)及圖書的摘要內(nèi)容,對(duì)候選圖書列表中的每一本候選圖書進(jìn)行打分;最后,根據(jù)所有圖書得分,按照分值高低進(jìn)行排序,選擇分值最高的前n本圖書作為最終的推薦圖書列表。
4.2 摘要生成和關(guān)鍵詞提取方法
除圖書基本信息外,用戶評(píng)價(jià)及摘要數(shù)據(jù)是用戶在閱讀書目?jī)?nèi)容的基礎(chǔ)上,撰寫的個(gè)人主觀感受,可以獨(dú)立于圖書著者的內(nèi)容簡(jiǎn)介,對(duì)這類內(nèi)容的分析有助于加深其他用戶對(duì)該書的理解。
文本摘要是大至一本書、小至一段文字內(nèi)容的提煉和概括。隨著自然語(yǔ)言處理技術(shù)的不斷發(fā)展,生成式摘要和抽取式摘要均成為自動(dòng)摘要生成的主要方式[31]。自動(dòng)生成文本摘要的主要方法有:統(tǒng)計(jì)分析方法、主題模型方法、圖模型方法和機(jī)器學(xué)習(xí)方法等[32],這些方法已在實(shí)踐中有廣泛的應(yīng)用,如生成新聞?wù)W(xué)術(shù)報(bào)告摘要、法律文本摘要等。
與內(nèi)容概括式的摘要不同,用戶在閱讀平臺(tái)如豆瓣讀書等分享的內(nèi)容多種多樣,既包括對(duì)書內(nèi)容的概括、喜歡的章節(jié)摘抄,也包括讀后的感悟和思索。因此,對(duì)豆瓣讀書筆記的分析和挖掘,能夠補(bǔ)充傳統(tǒng)書目數(shù)據(jù)中內(nèi)容概括式摘要的不足,從提煉和分享用戶的閱讀體會(huì)出發(fā),貫徹“用戶中心”的理念。本文采用了TextRank算法對(duì)每本書的豆瓣評(píng)論文本進(jìn)行摘要生成與關(guān)鍵詞提取。其中,TextRank算法是一種基于圖的排序算法,主要用于文本的無(wú)監(jiān)督排序,其基本思想來(lái)源谷歌的PageRank算法。該算法通過(guò)構(gòu)建文本中的關(guān)鍵詞或句子之間的共現(xiàn)關(guān)系網(wǎng)絡(luò),評(píng)估每個(gè)關(guān)鍵詞或句子的重要性,進(jìn)而提取重要的關(guān)鍵詞或生成文本摘要。
4.3 情感分析方法
Web用戶評(píng)價(jià)及讀書筆記一般表達(dá)了撰寫者的情感色彩和情感傾向性,如喜、怒、哀、樂、贊同、反對(duì)、中立等,其他用戶可以通過(guò)瀏覽這些內(nèi)容了解撰寫者對(duì)于圖書的主觀感受,分析不同用戶的文本內(nèi)容能夠得出用戶對(duì)于圖書的情感值。
文本情感分析又稱意見挖掘[33],主要研究如何從文本中發(fā)現(xiàn)或挖掘人們對(duì)于某種事物、產(chǎn)品或服務(wù)所表達(dá)出的情感、意見或情緒[34]。情感分析包括情感信息的抽取、情感信息的分類以及情感信息的檢索與歸納[35],可以在篇章級(jí)、句子級(jí)和方面級(jí)三種粒度展開[36]。
用戶的書目選擇和閱讀過(guò)程,既受到圖書主題和信息需求主題的相關(guān)性影響,也受到圖書所傳達(dá)的情緒和情感傾向的影響。用戶閱讀圖書特別是休閑閱讀的主要目的之一就包括尋求情感支持和情緒共鳴等。分析用戶分享的筆記文本的情感傾向,可以幫助其他用戶更好地判斷圖書所反映的情感特征是否符合其需求。本文在去除停用詞、中文分詞的基礎(chǔ)上,對(duì)每本書所有用戶的評(píng)價(jià)及讀書筆記調(diào)用SnowNLP①進(jìn)行情感分析,計(jì)算情感值得分。
5 原型系統(tǒng)展示
本文設(shè)計(jì)了一個(gè)“融合用戶數(shù)據(jù)的北京大學(xué)圖書館書目系統(tǒng)”,如圖3所示。
在圖3中,系統(tǒng)的主界面簡(jiǎn)要展示了第一頁(yè)共計(jì)10本書的基本信息,書目信息下方可選擇每頁(yè)顯示的數(shù)據(jù)數(shù)量和翻頁(yè)頁(yè)碼。每本書的具體信息包括:書名、作者、出版社、出版年、復(fù)本數(shù)、未借出復(fù)本數(shù)、索書號(hào)、館藏位置。點(diǎn)擊一本書后面的綠色“查看”按鈕,將會(huì)打開該書的詳情界面,用戶可查看本書更為詳細(xì)的信息,管理員可進(jìn)行常規(guī)的增刪查改等操作,亦可完成批量導(dǎo)入導(dǎo)出等操作。
以一本書的詳情頁(yè)面為例,進(jìn)入這本書的詳情界面,首先可以看到圖書的題名和封面圖片,如圖4所示。
“圖書基本信息” 模塊與圖3所展示的系統(tǒng)主界面的內(nèi)容基本一致,包括書名、作者、出版社、出版年、復(fù)本數(shù)、未借出復(fù)本數(shù)、索書號(hào)和館藏位置(見圖5)。
“圖書補(bǔ)充信息”模塊包含這本書的內(nèi)容簡(jiǎn)介、作者簡(jiǎn)介、所屬學(xué)科和引用統(tǒng)計(jì)。其中,內(nèi)容簡(jiǎn)介、作者簡(jiǎn)介來(lái)自Web數(shù)據(jù)源當(dāng)當(dāng)圖書平臺(tái),所屬學(xué)科為教育部一級(jí)學(xué)科,引用統(tǒng)計(jì)為中國(guó)知網(wǎng)引文數(shù)據(jù)庫(kù)中的圖書被引次數(shù)(見圖6)。
“用戶借閱數(shù)據(jù)” 模塊反映了這本書在北京大學(xué)圖書館的借閱情況,具體包括:近五年總借閱量、 近五年本科生借閱量、近五年碩士研究生借閱量、近五年博士研究生借閱量、近五年教工借閱量、 近五年男性借閱量、 近五年女性借閱量、近五年借閱最多的學(xué)院和近五年借閱最多的學(xué)部。上述數(shù)據(jù)通過(guò)書目、借閱、用戶數(shù)據(jù)庫(kù)的SQL查詢得到,查詢結(jié)果如圖7所示。
“Web用戶數(shù)據(jù)” 模塊反映了這本書在豆瓣、當(dāng)當(dāng)、京東的評(píng)價(jià)和銷售情況,還包括對(duì)這些平臺(tái)的用戶評(píng)論、讀書筆記挖掘分析的結(jié)果。具體包括:豆瓣評(píng)分、評(píng)價(jià)人數(shù)、 5星占比、當(dāng)當(dāng)評(píng)價(jià)數(shù)、當(dāng)當(dāng)好評(píng)數(shù)、當(dāng)當(dāng)好評(píng)率、京東評(píng)價(jià)數(shù)、京東好評(píng)數(shù)、京東好評(píng)度、關(guān)鍵詞提取、情感值計(jì)算、文本摘要和圖書推薦(見圖8)。
6 結(jié)論與展望
信息技術(shù)的快速發(fā)展帶來(lái)了新的發(fā)展機(jī)遇。傳統(tǒng)的圖書館書目系統(tǒng)受到搜索引擎技術(shù)、電商平臺(tái)等的沖擊和挑戰(zhàn),用戶不再單純依賴書目系統(tǒng)進(jìn)行信息獲取和圖書借閱。這都為高校圖書館提升用戶獲取圖書的滿意度、更好履行信息提供者和用戶服務(wù)職能提出了更高的挑戰(zhàn)。
智慧圖書館是未來(lái)的發(fā)展方向,其體現(xiàn)之一就是要求圖書館系統(tǒng)能夠隨用戶需求的不斷提升而成長(zhǎng),不斷優(yōu)化圖書館的服務(wù)[4]。高校圖書館用戶在使用圖書館平臺(tái)時(shí),不僅需要館藏資源查詢、數(shù)據(jù)庫(kù)檢索等大多數(shù)圖書館平臺(tái)所具備的基本功能,還需要圖書推薦、用戶社群等更為豐富的交互、交流功能,這都要求圖書館相關(guān)學(xué)者和技術(shù)人員在充分考慮用戶需求的基礎(chǔ)上,不斷完善現(xiàn)有高校圖書館書目系統(tǒng)的功能。
本文旨在研究如何融合圖書館內(nèi)部用戶數(shù)據(jù)和Web用戶數(shù)據(jù),為高校圖書館書目系統(tǒng)的改進(jìn)提出設(shè)計(jì)方案,并實(shí)際搭建了原型系統(tǒng),主要研究?jī)?nèi)容如下:
(1)設(shè)計(jì)了一個(gè)融合用戶數(shù)據(jù)的高校圖書館書目系統(tǒng)的框架。系統(tǒng)的設(shè)計(jì)分為三個(gè)主要模塊:數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)清洗、數(shù)據(jù)規(guī)范和數(shù)據(jù)集成、數(shù)據(jù)分析和結(jié)果呈現(xiàn)。
(2)闡述了圖書館用戶數(shù)據(jù)源和Web圖書數(shù)據(jù)源包含的內(nèi)容,以及數(shù)據(jù)處理方法,奠定了系統(tǒng)的基礎(chǔ)數(shù)據(jù)支撐。
(3)提出了系統(tǒng)實(shí)現(xiàn)的三個(gè)關(guān)鍵技術(shù):融合用戶數(shù)據(jù)及內(nèi)容的圖書推薦方法、豆瓣讀書筆記的摘要和關(guān)鍵詞生成方法以及情感分析方法。
(4)設(shè)計(jì)了一個(gè)融合用戶數(shù)據(jù)的北京大學(xué)圖書館書目系統(tǒng),對(duì)系統(tǒng)的界面和各個(gè)功能模塊進(jìn)行了展示。
圖書館書目系統(tǒng)是用戶與圖書館交互最多的系統(tǒng)之一,其易用性從很大程度上決定了是否可以滿足用戶最基本的需求。本研究主要聚焦于解決圖書館書目系統(tǒng)書目信息單一的問題,通過(guò)集成和分析圖書館用戶數(shù)據(jù)和Web圖書數(shù)據(jù),豐富了書目信息的內(nèi)容,為下一代圖書館書目系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)提供了參考。
本文也存在一些研究不足:首先,本文僅選擇一所高校的圖書館數(shù)據(jù)作為內(nèi)部數(shù)據(jù)源,可能無(wú)法揭示各個(gè)圖書館用戶的總體特征,更無(wú)法反映我國(guó)各個(gè)地域(東部地區(qū)、中部地區(qū)、西部地區(qū))之間用戶使用資源的差異。其次,本文圖書推薦所用算法涉及權(quán)重的確定,不同專家間可能會(huì)存在一定程度的差異,該主觀因素會(huì)影響最終的推薦結(jié)果,可能不一定滿足用戶的實(shí)際需要。第三,系統(tǒng)未考慮相似用戶興趣的知識(shí)社群構(gòu)建。第四,未對(duì)系統(tǒng)進(jìn)行可用性評(píng)估。這些不足將會(huì)在今后的研究中不斷改進(jìn)完善。
隨著新一代圖書館系統(tǒng)的開放性不斷增強(qiáng),圖書館開源社區(qū)的技術(shù)水平不斷發(fā)展,相信在不遠(yuǎn)的未來(lái),高校圖書館書目系統(tǒng)將可以為用戶提供更好的個(gè)性化精準(zhǔn)服務(wù)。
參考文獻(xiàn):
[1] 霍建梅, 李書寧. 國(guó)外圖書館自動(dòng)化系統(tǒng)市場(chǎng)發(fā)展?fàn)顩r研究[J].大學(xué)圖書館學(xué)報(bào), 2012, 30 (4): 66-71.
[2] 吳建中. 走向第三代圖書館[J]. 圖書館雜志,2016,35(6): 4-9.
[3] 何珂.Folio框架下圖書館管理系統(tǒng)設(shè)計(jì)研究 [D]. 濟(jì)南:山東師范大學(xué), 2021.
[4] 王文清, 陳凌, 關(guān)濤. 融合發(fā)展的CALIS新一代圖書館服務(wù)平臺(tái)[J]. 數(shù)字圖書館論壇, 2020 (1): 2-10.
[5] 胡振寧. 上下求索 與時(shí)俱進(jìn)——深圳大學(xué)圖書館計(jì)算機(jī)管理集成系統(tǒng)(Sulcmis)發(fā)展歷程回顧(1985-2015)[J].圖書館論壇, 2017,37(6):36-44.
[6] 張志東,黃體楊,徐國(guó)英.云南大學(xué)圖書館自動(dòng)化管理系統(tǒng)發(fā)展歷程(1988-2018)[J].圖書館論壇,2019,39(9):12-18.
[7] MILLSAP L,F(xiàn)ERL T E.Search patterns of remote usersan analysis of OPAC transaction logs[J]. Information technology and libraries,1993,12(3):321-343.
[8] SCHULTHEISS S,LINHART A,BEHNERT C,et al. Known-item searches and search tactics in library search systems:results from four transaction log analysis studies[J/OL].[2022-04-15].https:// www.sciencedirect.com/science/article/abs/pii/ S0099133320301051.
[9] MOSCOSO P,GARCIA ORTIZ F M.Error and information messages in online public access catalogues[J].Revista espanola de documentacion cientifica,2008,31(1):52-65.
[10] TRIVEDI D,BHATT A,TRIVEDI M,et al.Assessment of e-service quality performance of university libraries[J]. Digital library perspectives,2021,37(4): 384-400.
[11] 何娟. 基于用戶個(gè)人及群體畫像相結(jié)合的圖書個(gè)性化推薦應(yīng)用研究[J].情報(bào)理論與實(shí)踐,2019,42(1):129-133,160.
[12] 胡云飛. 基于讀者行為分析和多視角聚類算法的高校圖書館用戶畫像研究[D].杭州:浙江工業(yè)大學(xué),2019.
[13] HU J,JIN F,ZHANG G,et al.A user profile modeling method based on word2vec [C]// Proceedings of the IEEE International Conference on Software Quality,Reliability and Security (Companion Volume). Prague:IEEE,2017.
[14] WANG J,LI Z W,YAO J Y,et al.Adaptive user profile model and collaborative filtering for personalized news[M]//ZHOU X F, LI J Z,SHEN H,et al. Frontiers of WWW research and development-Apweb 2006.Harbin:8th Asia-Pacific Web Conference,2006:474-485.
[15] SHARMA S,RANA V.Web search personalization using semantic similarity measure[C]//Proceedings of the 2nd International Conference on Recent Innovations in Computing (ICRIC),Jammu:Springer International Publishing,2020.
[16] 陳楊,羅曉光.少兒圖書用戶畫像模型構(gòu)建及精準(zhǔn)營(yíng)銷分析——以分眾傳播理論為視角[J].中國(guó)出版,2019,(11): 50-53.
[17] 陳旭松.基于用戶行為序列建模的推薦算法研究[D].北京:中國(guó)科學(xué)技術(shù)大學(xué),2021.
[18] NAHOTKO M.Knowledge organization affordances in a faceted Online Public Access Catalog(Opac)[J]. Cataloging classification quarterly,2022,60(1):86-111.
[19] 林珍梅.基于Hadoop的高校圖書館閱讀書目智慧推薦系統(tǒng)設(shè)計(jì)[J].圖書館學(xué)研究,2020(23):91-101.
[20] 曹意.基于人工智能技術(shù)的圖書館書目協(xié)同推薦系統(tǒng)[J].現(xiàn)代電子技術(shù),2020, 43 (15):168-170,174.
[21] 唐樂,李向前.基于用戶日志的OPAC推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].數(shù)字圖書館論壇, 2019(1): 30-36.
[22] BELKIN N J.Anomalous states of knowledge as a basis for information retrieval[J].Canadian journal of information and library science,1980(5):133-143.
[23] 馬費(fèi)成,宋恩梅.信息管理學(xué)基礎(chǔ)[M].武漢:武漢大學(xué)出版社,2011:310-311.
[24] 喬歡.信息行為學(xué)[M].北京:北京師范大學(xué)出版社,2010: 168-169.
[25] KELLY D,TEEVAN J.Implicit feedback for inferring user preference:a bibliography[C]//Proceedings of the Acm Sigir Forum.New York:ACM,2003.
[26] 陳劍暉.美國(guó)圖書館門戶研究的啟示與思考[J].圖書館學(xué)研究,2015(3):89-92,101.
[27] 姚路,李靖,曾斌,等.管理信息系統(tǒng)[M].北京:國(guó)防工業(yè)出版社,2021:338-340.
[28] 2020年十大閱讀APP排行榜 古今中外文學(xué) 國(guó)外名著閱讀軟件[EB/OL].[2022-04-15].https://www.phb123. com/shenghuo/shuji/40525.html.
[29] 2022年圖書零售市場(chǎng)年度報(bào)告[EB/OL].[2023-09-02]. https://www.sohu.com/a/625857552_121124778.
[30] CNKI中國(guó)引文數(shù)據(jù)庫(kù)[EB/OL].[2022-04-15].http:// www.scaa.xhu.edu.cn/2c/1f/c2575a76831/page.htm.
[31] GAMBHIR M,GUPTA V.Recent automatic text summarization techniques:a survey[J].Artificial intelligence review,2017,47(1):1-66.
[32] 汪旭祥,韓斌,高瑞,等.基于改進(jìn)TextRank的文本摘要自動(dòng)提取[J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(6):155-160.
[33] 周建,劉炎寶,劉佳佳.情感分析研究的知識(shí)結(jié)構(gòu)及熱點(diǎn)前沿探析[J].情報(bào)學(xué)報(bào),2020,39(1):111-124.
[34] MESSAOUDI C,GUESSOUM Z,BEN ROMDHANE L. Opinion mining in online social media:a survey[J].Social network analysis and mining,2022,12(1):25.
[35] 趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010, 21(8):1834-1848.
[36] 譚翠萍.文本細(xì)粒度情感分析研究綜述[J].大學(xué)圖書館學(xué)報(bào),2022,40(4):85-99,119.
[作者簡(jiǎn)介]
王一博 1992年,北京大學(xué)信息管理系博士生,北京大學(xué)圖書館館員,研究方向?yàn)橛脩粞芯?、?shù)據(jù)分析等。E-mail:wangyibo46@pku.edu.cn。
張鵬翼 1981年,北京大學(xué)信息管理系長(zhǎng)聘副教授,研究方向?yàn)橛脩粞芯?、信息組織等,本文通訊作者。E-mail:pengyi@pku.edu.cn。
①SnowNLP是一個(gè)python的類庫(kù),可以應(yīng)用于中文文本數(shù)據(jù)的情感訓(xùn)練和預(yù)測(cè)。