陳 丹 羅 燁 吳智勤
(1.江蘇理工學(xué)院計(jì)算機(jī)工程學(xué)院 江蘇常州 213001)
(2.江蘇理工學(xué)院圖書(shū)館 江蘇常州 213001)
個(gè)性化服務(wù)體現(xiàn)了圖書(shū)館以人為本的理念和價(jià)值觀,是現(xiàn)代圖書(shū)館提高競(jìng)爭(zhēng)力的重要途徑。不同于以往的被動(dòng)服務(wù)模式,圖書(shū)館個(gè)性化服務(wù)充分利用館藏資源優(yōu)勢(shì),主動(dòng)地以用戶為中心開(kāi)展全方位服務(wù),全面滿足用戶個(gè)性化需求。高等院校是國(guó)家科技創(chuàng)新、知識(shí)創(chuàng)新的重要陣地,高校圖書(shū)館是高等學(xué)校的重要職能部門(mén)之一。高校圖書(shū)館需要開(kāi)展高質(zhì)量的個(gè)性化服務(wù),更好地服務(wù)于學(xué)習(xí)、教學(xué)、科研,為文化建設(shè)和科技發(fā)展作出更大貢獻(xiàn)。
為用戶提供高質(zhì)量的個(gè)性化服務(wù),全面深刻地了解用戶是前提。用戶畫(huà)像是近年來(lái)出現(xiàn)的一種全面勾畫(huà)用戶、聯(lián)系用戶與產(chǎn)品的良好工具。用戶畫(huà)像描繪用戶的背景、身份、興趣、需求、心理、性格等,全面細(xì)致地展現(xiàn)一個(gè)用戶的信息全貌,為圖書(shū)館理解用戶、制定服務(wù)策略提供依據(jù)和參考。在互聯(lián)網(wǎng)+背景下,高校圖書(shū)館的用戶數(shù)量和用戶產(chǎn)生的行為、社交等數(shù)據(jù)迅速增加,形成了用戶大數(shù)據(jù)。來(lái)源豐富、類型多樣、規(guī)模巨大的用戶大數(shù)據(jù)使精準(zhǔn)用戶畫(huà)像的構(gòu)建成為可能。以往的圖書(shū)館只能獲取用戶的少量信息,基于小樣本進(jìn)行個(gè)性化服務(wù),在大數(shù)據(jù)時(shí)代,圖書(shū)館可以獲得用戶方方面面的信息和數(shù)據(jù),從而更為精確地勾畫(huà)用戶,把數(shù)據(jù)轉(zhuǎn)化為價(jià)值,使個(gè)性化服務(wù)更為精準(zhǔn),更好地滿足用戶需求,極大地提升用戶的體驗(yàn)。
本文提出基于用戶畫(huà)像的高校圖書(shū)館個(gè)性化服務(wù)模型框架,如圖1所示。用戶大數(shù)據(jù)是構(gòu)建圖書(shū)館用戶畫(huà)像的寶貴資源,首先對(duì)圖書(shū)館用戶大數(shù)據(jù)進(jìn)行收集和整合,然后采用大數(shù)據(jù)挖掘算法分析和挖掘用戶大數(shù)據(jù),提取用戶標(biāo)簽,構(gòu)建用戶畫(huà)像,最后根據(jù)用戶畫(huà)像為用戶提供滿足其需求的圖書(shū)、論文、專利等圖書(shū)館文獻(xiàn)和資源,實(shí)現(xiàn)高質(zhì)量的個(gè)性化服務(wù)。
圖1 基于大數(shù)據(jù)挖掘和用戶畫(huà)像的高校圖書(shū)館個(gè)性化服務(wù)模型框架
用戶的身份、偏好、活躍度、顯性興趣等標(biāo)簽可以通過(guò)傳統(tǒng)的統(tǒng)計(jì)分析方法得到,而用戶的隱性興趣、潛在需求、心理、情感等則不易直接從數(shù)據(jù)中獲得。通過(guò)大數(shù)據(jù)挖掘方法和技術(shù)深入分析和挖掘海量用戶數(shù)據(jù),可以洞察用戶的需求、心理、情感、情緒等,提取相關(guān)標(biāo)簽。
物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等技術(shù)在圖書(shū)館的深入應(yīng)用使得圖書(shū)館數(shù)據(jù)持續(xù)不斷地以超大規(guī)模增長(zhǎng),傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)和分析方法不能適應(yīng)海量數(shù)據(jù)的處理,需要采用大數(shù)據(jù)挖掘技術(shù)分析和挖掘海量動(dòng)態(tài)的圖書(shū)館大數(shù)據(jù)[1]。應(yīng)用大數(shù)據(jù)挖掘技術(shù),從圖書(shū)館用戶大數(shù)據(jù)中提取用戶畫(huà)像標(biāo)簽主要有以下3種途徑。
3.1.1 挖掘用戶行為大數(shù)據(jù)獲取用戶標(biāo)簽
應(yīng)用大數(shù)據(jù)挖掘技術(shù)分析和處理用戶行為大數(shù)據(jù)是提取用戶畫(huà)像的偏好、興趣標(biāo)簽的重要途徑之一。用戶行為不僅包括借閱行為,也包括圖書(shū)館網(wǎng)站的點(diǎn)擊、收藏、下載、閱讀等行為。對(duì)于高校圖書(shū)館來(lái)說(shuō),讀者行為還包括自主學(xué)習(xí)、學(xué)術(shù)文化交流以及教學(xué)和科研等內(nèi)容[2]。劉春雷以浙江圖書(shū)館為例,基于數(shù)據(jù)分析對(duì)用戶續(xù)借行為進(jìn)行探討,為圖書(shū)館服務(wù)工作提供參考和依據(jù)[3]。王向真以技術(shù)接受整合模型為基礎(chǔ),研究高校學(xué)生電子圖書(shū)使用行為,進(jìn)而推進(jìn)電子圖書(shū)資源服務(wù)的精準(zhǔn)營(yíng)銷[4]。大數(shù)據(jù)挖掘算法眾多,其中關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、K-Means聚類等算法可用于分析用戶行為大數(shù)據(jù)的規(guī)律和模式,從而發(fā)現(xiàn)用戶偏好、興趣、活躍度等特征,提取標(biāo)簽。
3.1.2 挖掘用戶社交大數(shù)據(jù)獲取用戶標(biāo)簽
隨著社交網(wǎng)絡(luò)技術(shù)的發(fā)展及其普遍應(yīng)用,高校圖書(shū)館建立了基于微博、微信公眾號(hào)、QQ群、論壇的知識(shí)服務(wù)社區(qū),為用戶和圖書(shū)館的交流和互動(dòng)提供了極大的便利,也為提取用戶標(biāo)簽提供了數(shù)據(jù)來(lái)源。用戶社交網(wǎng)絡(luò)數(shù)據(jù)由3個(gè)維度構(gòu)成:用戶、交流、內(nèi)容。社交網(wǎng)絡(luò)用戶具有社會(huì)化、相關(guān)性強(qiáng)的特點(diǎn),其核心是關(guān)系。社交網(wǎng)絡(luò)使得現(xiàn)實(shí)社會(huì)中難以形成的關(guān)系層在互聯(lián)網(wǎng)上可以不斷涌現(xiàn)。社交網(wǎng)絡(luò)中的用戶關(guān)系眾多,且用戶之間隨時(shí)進(jìn)行著交流。交流包括討論、交談、評(píng)價(jià)、分享自己的狀態(tài)更新、贊賞他人的分享和信息等。大量用戶的交流形成了豐富的內(nèi)容,交流內(nèi)容具有類型多樣性的特點(diǎn)。文本是交流內(nèi)容中最常見(jiàn)的數(shù)據(jù)類型。社交網(wǎng)絡(luò)上的文本不同于傳統(tǒng)的文本(例如新聞),具有情感性,攜帶了用戶或正面或負(fù)面的豐富情感。柳益君等[5]通過(guò)用戶在社交網(wǎng)絡(luò)中的興趣相似好友來(lái)挖掘用戶的多樣隱性興趣,實(shí)現(xiàn)多樣性的閱讀推薦。韓梅花等[6]根據(jù)抑郁情感詞典分析用戶微博文本,計(jì)算其抑郁情感指數(shù),得到用戶畫(huà)像,根據(jù)用戶畫(huà)像向用戶推送相應(yīng)的閱讀治療資源。
3.1.3 挖掘用戶標(biāo)簽集得到獲取用戶標(biāo)簽
用戶畫(huà)像的標(biāo)簽體系構(gòu)建是一個(gè)動(dòng)態(tài)迭代過(guò)程,在圖書(shū)館用戶畫(huà)像建模過(guò)程中,標(biāo)簽不僅可以從用戶數(shù)據(jù)中挖掘得到,也可以通過(guò)挖掘已有的用戶標(biāo)簽集合來(lái)得到。鄭海雁等[7]設(shè)計(jì)標(biāo)簽集約束近似頻繁模式挖掘算法LCPP,并將該算法并行部署在MapReduce計(jì)算模型中,使之能高效處理大規(guī)模數(shù)據(jù)。周樸雄等[8]借助標(biāo)簽云系統(tǒng)的概念,對(duì)其加以改進(jìn),將其作為用戶興趣的表達(dá)方式,通過(guò)共現(xiàn)分析建立標(biāo)簽集之間的關(guān)聯(lián)關(guān)系,預(yù)測(cè)用戶興趣。在已有用戶標(biāo)簽的基礎(chǔ)上,采用頻繁模式挖掘、關(guān)聯(lián)規(guī)則挖掘等大數(shù)據(jù)挖掘算法,深入分析圖書(shū)館用戶畫(huà)像的標(biāo)簽之間的關(guān)系和模式,可以預(yù)測(cè)和發(fā)現(xiàn)新的用戶畫(huà)像標(biāo)簽。
關(guān)聯(lián)規(guī)則算法是數(shù)據(jù)挖掘中的經(jīng)典算法之一。關(guān)聯(lián)規(guī)則挖掘算法最初用來(lái)解決購(gòu)物籃分析問(wèn)題,通過(guò)關(guān)聯(lián)規(guī)則挖掘,發(fā)現(xiàn)顧客的購(gòu)物籃里不同物品之間的關(guān)聯(lián),從而幫助商家制定營(yíng)銷策略。關(guān)聯(lián)規(guī)則挖掘技術(shù)在零售、電商、金融、搜索引擎、智能推薦等領(lǐng)域有廣泛應(yīng)用。
應(yīng)用關(guān)聯(lián)規(guī)則算法分析用戶畫(huà)像的習(xí)慣、偏好和興趣等標(biāo)簽之間的關(guān)聯(lián)性,挖掘用戶在學(xué)習(xí)、科研等方面的隱性興趣和需求,將之作為新的用戶畫(huà)像標(biāo)簽,進(jìn)一步完善用戶畫(huà)像。對(duì)所有用戶畫(huà)像進(jìn)行關(guān)聯(lián)規(guī)則挖掘計(jì)算量大且意義不明顯,可針對(duì)目標(biāo)用戶,在該目標(biāo)用戶畫(huà)像與其近鄰用戶畫(huà)像的范圍內(nèi)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,這樣計(jì)算量小且結(jié)果更有意義。本文提出基于關(guān)聯(lián)規(guī)則的圖書(shū)館用戶畫(huà)像隱性興趣標(biāo)簽預(yù)測(cè)流程,見(jiàn)圖2。例如,目標(biāo)用戶畫(huà)像的興趣標(biāo)簽中有“機(jī)器學(xué)習(xí)”而無(wú)“數(shù)據(jù)挖掘”,對(duì)目標(biāo)用戶及其近鄰的用戶畫(huà)像進(jìn)行顯性興趣標(biāo)簽關(guān)聯(lián)規(guī)則挖掘,得到“機(jī)器學(xué)習(xí)=>數(shù)據(jù)挖掘”的興趣規(guī)則,將“數(shù)據(jù)挖掘”作為目標(biāo)用戶的隱性興趣預(yù)測(cè)標(biāo)簽加入用戶畫(huà)像。
用戶畫(huà)像構(gòu)建需要關(guān)注時(shí)效性、顆粒度、隱私保護(hù)等問(wèn)題。
3.3.1 用戶畫(huà)像的時(shí)效性
圖2 基于關(guān)聯(lián)規(guī)則的圖書(shū)館用戶畫(huà)像隱性興趣標(biāo)簽預(yù)測(cè)流程
構(gòu)建圖書(shū)館用戶畫(huà)像需要考慮畫(huà)像的時(shí)效性。用戶畫(huà)像對(duì)于時(shí)效性很敏感,某一時(shí)刻的用戶畫(huà)像對(duì)該時(shí)刻的個(gè)性化服務(wù)最為有效。用戶畫(huà)像的來(lái)源數(shù)據(jù)中,用戶屬性數(shù)據(jù)涉及人口統(tǒng)計(jì)特征,是靜態(tài)的,相對(duì)穩(wěn)定。但是,海量行為數(shù)據(jù)、社交數(shù)據(jù)等具有較強(qiáng)的動(dòng)態(tài)性,用戶的行為隨時(shí)間持續(xù)增加,新行為會(huì)使現(xiàn)有用戶畫(huà)像失效。此外,用戶會(huì)受環(huán)境、其他用戶等各種不確定因素的影響而改變偏好、興趣和需求,這就需要用戶畫(huà)像隨之改變以適應(yīng)用戶新?tīng)顩r。用戶畫(huà)像并非一成不變,而是實(shí)時(shí)動(dòng)態(tài)變化的,具有時(shí)效性。圖書(shū)館要提供精準(zhǔn)的個(gè)性化服務(wù),需要設(shè)計(jì)合理有效的用戶畫(huà)像動(dòng)態(tài)更新機(jī)制,以準(zhǔn)確刻畫(huà)用戶的當(dāng)前狀態(tài)。
3.3.2 用戶畫(huà)像的顆粒度
構(gòu)建圖書(shū)館用戶畫(huà)像需要考慮顆粒度,即畫(huà)像細(xì)化程度。顆粒度小的用戶畫(huà)像對(duì)用戶描述很精細(xì),有利于提高圖書(shū)館個(gè)性化服務(wù)的精準(zhǔn)性。但是,顆粒度越小意味著用戶數(shù)據(jù)越細(xì)化,這會(huì)導(dǎo)致用戶畫(huà)像建模成本增加,也會(huì)降低用戶畫(huà)像適用性。例如,“機(jī)械工業(yè)出版社的機(jī)器學(xué)習(xí)書(shū)籍”和“機(jī)器學(xué)習(xí)書(shū)籍”兩個(gè)閱讀興趣標(biāo)簽,前者顆粒度更小,但是只能代表某一特定出版社出版的機(jī)器學(xué)習(xí)類書(shū)籍,使得服務(wù)目標(biāo)過(guò)于單一,后者顆粒度更大,但是適用性更好。需要根據(jù)圖書(shū)館具體業(yè)務(wù)需求選擇合適的顆粒度,構(gòu)建立體清晰且適用性強(qiáng)的用戶畫(huà)像。
3.3.3 用戶畫(huà)像的隱私保護(hù)
用戶隱私保護(hù)是圖書(shū)館用戶畫(huà)像構(gòu)建和應(yīng)用中一個(gè)令人關(guān)注的問(wèn)題。構(gòu)建用戶畫(huà)像的過(guò)程中不可避免地要收集用戶個(gè)人信息,在大數(shù)據(jù)環(huán)境下尤其如此。圖書(shū)館需要在“告知與同意”的隱私保護(hù)框架下,實(shí)施更加有效的措施加強(qiáng)用戶隱私保護(hù)。用戶畫(huà)像中的用戶隱私管理不僅需要技術(shù)方法和手段,也需要完善相關(guān)條例和法規(guī)。在技術(shù)上,保護(hù)用戶敏感信息,保證用戶隱私數(shù)據(jù)的安全,防范各種風(fēng)險(xiǎn),如數(shù)據(jù)不適當(dāng)公開(kāi)、數(shù)據(jù)非法獲取和使用、數(shù)據(jù)損壞或修改、數(shù)據(jù)丟失和泄露等。在用戶畫(huà)像建模算法中融入隱私保護(hù)技術(shù),或者對(duì)用戶畫(huà)像信息劃分等級(jí),在不同級(jí)別的應(yīng)用中使用相應(yīng)等級(jí)的用戶信息。在圖書(shū)館管理?xiàng)l例和法規(guī)中,規(guī)范圖書(shū)館在授權(quán)范圍內(nèi)對(duì)用戶隱私數(shù)據(jù)的使用、超時(shí)銷毀等行為,保障用戶對(duì)敏感信息和隱私數(shù)據(jù)的控制權(quán),最終在保障用戶隱私的前提下構(gòu)建出清晰有效的用戶畫(huà)像。
隨著經(jīng)濟(jì)的發(fā)展和科技的進(jìn)步,人類進(jìn)入了知識(shí)社會(huì)的新時(shí)代。知識(shí)的激增在促進(jìn)社會(huì)進(jìn)步的同時(shí),也讓人們迷失在信息和知識(shí)的海洋中,難以找到自己所需要的信息和知識(shí),人們普遍面臨著知識(shí)迷航和信息過(guò)載的困境。高校圖書(shū)館用戶以學(xué)生、教師、科研人員為主,他們需要圖書(shū)館的個(gè)性化服務(wù)來(lái)幫助自己擺脫信息過(guò)載的困境。但是,沒(méi)有對(duì)用戶全面充分的了解,高校圖書(shū)館為用戶提供個(gè)性化服務(wù)便有盲目性。有了用戶畫(huà)像,高校圖書(shū)館為用戶提供個(gè)性化服務(wù)不再盲目,而是有據(jù)可依。通過(guò)用戶畫(huà)像展示的用戶背景、興趣、需求、活躍度等全貌信息,高校圖書(shū)館可以充分洞察用戶,進(jìn)而有針對(duì)性地開(kāi)展以用戶為中心、以滿足用戶需求為目標(biāo)的高質(zhì)量個(gè)性化服務(wù),幫助用戶擺脫信息過(guò)載的困境。
通過(guò)用戶畫(huà)像關(guān)聯(lián)圖書(shū)、論文、專利等各類紙質(zhì)和電子館藏資源,圖書(shū)館可以為用戶提供符合其興趣、需求的資源和服務(wù)。這里以個(gè)性化圖書(shū)推薦為例,探討用戶畫(huà)像在個(gè)性化服務(wù)中的應(yīng)用。圖3給出了基于用戶畫(huà)像的用戶-圖書(shū)關(guān)聯(lián)示意。一本圖書(shū)與個(gè)性化服務(wù)相關(guān)的屬性有:①作者。用戶可能會(huì)喜愛(ài)幾位特定作者的書(shū)籍。②類別。按中國(guó)圖書(shū)館分類法得到的圖書(shū)類別,用戶可能會(huì)喜愛(ài)某些類別或方向的圖書(shū)。③出版社。用戶可能會(huì)偏愛(ài)某些出版社的圖書(shū)。④出版年份。用戶可能會(huì)偏愛(ài)某些時(shí)期的圖書(shū)。⑤媒介類型。用戶可能會(huì)偏愛(ài)某些媒介類型的圖書(shū),如紙質(zhì)媒介,或pdf、圖像、音視頻等格式的電子媒介。⑥語(yǔ)言。用戶可能會(huì)偏愛(ài)某些語(yǔ)言的圖書(shū)。除了以上6種屬性,也可以從圖書(shū)的內(nèi)容描述或用戶的評(píng)論等非結(jié)構(gòu)化信息中提取與之相關(guān)的特征。通過(guò)用戶畫(huà)像的圖書(shū)偏好和興趣標(biāo)簽關(guān)聯(lián)用戶和館藏書(shū)目庫(kù),為用戶提供精準(zhǔn)性的個(gè)性化圖書(shū)推薦服務(wù)。
圖3 基于用戶畫(huà)像的用戶-圖書(shū)關(guān)聯(lián)示意圖
在大數(shù)據(jù)時(shí)代背景下,高校圖書(shū)館需要充分利用大數(shù)據(jù),開(kāi)展基于大數(shù)據(jù)分析的個(gè)性化服務(wù),更好地服務(wù)于知識(shí)傳播、科技創(chuàng)新。本文首先提出基于用戶畫(huà)像的高校圖書(shū)館個(gè)性化服務(wù)模型框架,利用大數(shù)據(jù)挖掘技術(shù)分析和挖掘圖書(shū)館大數(shù)據(jù),獲取用戶的全貌信息,構(gòu)建用戶畫(huà)像,以用戶畫(huà)像為依據(jù)提供高質(zhì)量的個(gè)性化服務(wù),并探討了基于大數(shù)據(jù)挖掘的用戶畫(huà)像構(gòu)建,以及用戶畫(huà)像支持下的個(gè)性化服務(wù)。本文的研究對(duì)于應(yīng)用用戶畫(huà)像提升高校圖書(shū)館服務(wù)水平有一定借鑒意義。