大數(shù)據(jù)環(huán)境下圖書館的變革進一步深化,圖書館服務(wù)形式也不斷創(chuàng)新,如知識發(fā)現(xiàn)、學(xué)科服務(wù)、Lib 2.0、移動終端服務(wù)等。同時圖書館用戶信息需求更加多元化、個性化,而目前圖書館信息系統(tǒng)主要統(tǒng)計每天讀者數(shù)量、借閱數(shù)據(jù)等整體數(shù)據(jù),與用戶需求產(chǎn)生了矛盾。大數(shù)據(jù)時代,圖書館服務(wù)的發(fā)展趨勢逐漸個性化、精準化,用戶畫像為解決這個問題提供了思路。
用戶畫像旨在深入了解用戶,推測用戶的真實需求和潛在需求,精準化定位個人或者人群特點,以便為用戶提供個性化、精準化的服務(wù)。用戶畫像為商家和企業(yè)利用大數(shù)據(jù)進行精準營銷提供了營銷機會、運營方向,最大程度把用戶的消費行為進行“可視化”。因此,筆者認為可以借鑒電子商務(wù),在掌握讀者對圖書館的現(xiàn)實需求下,通過深入分析讀者檢索行為、閱讀行為等數(shù)據(jù),將用戶畫像應(yīng)用于圖書館的服務(wù)中,實現(xiàn)圖書館的精準服務(wù)。
經(jīng)過文獻檢索發(fā)現(xiàn)國外圖書館領(lǐng)域?qū)τ脩舢嬒竦难芯勘容^多,且應(yīng)用實踐也相對成熟。相比之下,目前國內(nèi)圖書館界對用戶畫像的研究很少。
用戶畫像來自人類對自我需求的探索。大數(shù)據(jù)環(huán)境下,信息技術(shù)發(fā)展迅速,用戶畫像作為一種勾畫目標用戶、聯(lián)系用戶訴求與設(shè)計方向的有效工具[1],廣泛應(yīng)用于電子商務(wù)、金融、社交網(wǎng)絡(luò)等領(lǐng)域。交互設(shè)計鼻祖Alan Cooper較早提出了用戶畫像概念,認為用戶畫像是真實用戶的虛擬代表,是建立在一系列真實數(shù)據(jù)之上的目標用戶模型[2]。
David Travis提出滿足用戶畫像的7個條件:基本性(Primary research)、移情性(Empathy)、真實性(Realistic)、獨特性(Singular)、目標性(Objectives)、數(shù)量(Number)、應(yīng)用性(Applicable)[3]。用戶畫像是構(gòu)建在多元系列真實數(shù)據(jù)上勾畫用戶需求和喜好的用戶模型,其意義在于深度了解用戶,推測用戶的現(xiàn)實需求和潛在需求,進而推送精準化、個性化信息。而這些多元真實數(shù)據(jù)來源于用戶本身,包含用戶的基本信息、興趣、習(xí)慣、行為等特征,將這些數(shù)據(jù)立體化、可視化,從而勾畫用戶畫像。
用戶畫像技術(shù)的算法是國外學(xué)者研究的主要內(nèi)容之一。構(gòu)建、完善及應(yīng)用用戶畫像都需要算法與技術(shù)的支持,如向量空間模型算法、樸素貝葉斯分類法、加權(quán)算法、過濾算法等。運用標簽向量和標簽組描述用戶畫像時因用戶的唯一性導(dǎo)致每個標簽對不同用戶的重要程度不同,因此需要對標簽加權(quán)處理。Billsus D和Pazzani MJ提出針對用戶的短期喜好應(yīng)采用最鄰近分類算法,而長期喜好則采用樸素貝葉斯分類法[4]。
由于對用戶畫像的理解角度不同,如用戶畫像有個人用戶畫像與群體用戶畫像,因此學(xué)者研究的出發(fā)點有所差異,構(gòu)建用戶畫像的模型和方法便存在差別。Amato G等學(xué)者提出用戶畫像的構(gòu)建需明確描述相關(guān)的用戶信息及如何描述兩個步驟,同時他們認為用戶畫像構(gòu)建的信息應(yīng)該包含個人信息、采集數(shù)據(jù)(采集的內(nèi)容、類型和來源)、數(shù)據(jù)的提交時間與方式、用戶的行為數(shù)據(jù)(特別是與隱私相關(guān)的安全數(shù)據(jù))[5]。Rumpler B認為應(yīng)通過以下4種方法構(gòu)建用戶畫像模型:采用調(diào)查或訪談的方式采集用戶信息,運用記憶算法和程序挖掘用戶信息,通過用戶對自身、對使用系統(tǒng)、對特定領(lǐng)域的認知,通過案例推理用戶行為[6]。Henczel S提出用戶畫像構(gòu)建的6個步驟:明確需要采集用戶的信息,分析現(xiàn)有數(shù)據(jù)以及需補充的數(shù)據(jù),通過調(diào)查或者訪談收集數(shù)據(jù),分析系統(tǒng)數(shù)據(jù)特征并按照個人或具有相同特征的群體進行用戶畫像,評估階段注意用戶行為變化制定方案,通過反饋機制完善及維護用戶畫像[7]。
學(xué)者通過用戶的群體特征對移動互聯(lián)網(wǎng)和互聯(lián)網(wǎng)的數(shù)據(jù)構(gòu)建用戶畫像,從而為精準營銷提供數(shù)據(jù)支撐。如通過對新浪微博數(shù)據(jù)進行采集分析,構(gòu)建用戶畫像模型,描述企業(yè)用戶群體的行為特征,支撐精準營銷[2];在分析移動用戶的基站軌跡基礎(chǔ)上,采用頻繁模式挖掘、構(gòu)建概率矩陣等方法,構(gòu)建包含地理位置信息的用戶畫像模型[8];采用貝葉斯網(wǎng)絡(luò)構(gòu)建用戶興趣模型,以用戶興趣模型刻畫用戶畫像[9];借助大數(shù)據(jù)平臺分析用戶的潛在需求和目標,幫助企業(yè)營銷和品牌形象建設(shè)[10];以大量的電信移動用戶數(shù)據(jù)為基站,從移動用戶的活動頻率、行為偏好和移動速率3方面進行用戶畫像構(gòu)建[11]。以三槍集團的營銷數(shù)據(jù)庫作為案例,通過4C理論構(gòu)建了用戶細分模型,力求重構(gòu)用戶的需求,精確定位消費者目標群體,為企業(yè)實施精準營銷方案提供了重要支撐數(shù)據(jù)[12]。
圖書館服務(wù)也可以借鑒電商及其他領(lǐng)域應(yīng)用先進技術(shù)的經(jīng)驗,為讀者提供更為準確的信息服務(wù)。目前圖情領(lǐng)域的學(xué)者已經(jīng)開始關(guān)注用戶畫像。我國圖情領(lǐng)域有關(guān)用戶畫像的研究較少,有的從知識社區(qū)的角度構(gòu)建圖書館知識社區(qū)用戶模型,運用層次分析法評價用戶畫像中標簽對服務(wù)能力的影響[13]。有的在實際案例中從資源層、數(shù)據(jù)采集層及數(shù)據(jù)挖掘?qū)訕?gòu)建圖書館用戶畫像[14]。把用戶畫像應(yīng)用到閱讀推廣的智慧推薦系統(tǒng)中,從而實現(xiàn)用戶個性化服務(wù)及打破無差別推廣現(xiàn)狀[15]。也有學(xué)者從國外圖書館界對用戶畫像研究的現(xiàn)狀和熱點進行分析為國內(nèi)圖書館應(yīng)用用戶畫像提供了思路[16]。用戶畫像在智慧圖書館服務(wù)中也展現(xiàn)了很大作用,高校圖書館智慧服務(wù)在可視化用戶畫像基礎(chǔ)上實現(xiàn)了精準閱讀服務(wù)[17]。用戶畫像技術(shù)在特殊讀者群體中的應(yīng)用具有現(xiàn)實意義及社會價值,如通過用戶畫像構(gòu)建讀者抑郁情感詞典,分析讀者的抑郁情感指數(shù),進而針對特殊讀者提供其所需的閱讀服務(wù)[18]。筆者認為,國內(nèi)圖書館可以借鑒國外經(jīng)驗構(gòu)建用戶畫像模型。由于國內(nèi)外圖書館發(fā)展程度不同,服務(wù)類型和用戶群體也存在許多差異,圖書館在構(gòu)建用戶畫像時應(yīng)注意差異,對模型進行調(diào)整和借鑒,分析用戶需求,真正實現(xiàn)精準服務(wù)和有效服務(wù)。
我國圖書館正處于快速發(fā)展階段,圖書館除了為用戶提供知識信息資源保障外,也應(yīng)構(gòu)建圖書館用戶畫像,為用戶提供精準信息服務(wù)。用戶畫像巳在電商、手機用戶、微博等各領(lǐng)域應(yīng)用廣泛,為圖書館應(yīng)用用戶畫像提供了技術(shù)保障。雖然目前國內(nèi)圖書館尚未廣泛應(yīng)用該技術(shù),但是天津圖書館、武漢大學(xué)圖書館社區(qū)知識用戶構(gòu)建的案例,證明了將用戶畫像應(yīng)用于圖書館服務(wù)是可行的。再者,國外圖書館用戶畫像的實踐應(yīng)用也已經(jīng)成熟,典型的應(yīng)用有信息推薦、信息過濾與圖書館的服務(wù)設(shè)計。如用戶在利用圖書館在線系統(tǒng)檢索時,通常會檢索到很多不相關(guān)或者相關(guān)性不大的信息,通過用戶畫像,了解到用戶真實需求便能解決這個問題,為用戶提供精準信息。
2.2.1 有助于重視用戶信息需求,推動知識服務(wù)
用戶畫像最初的目的是深度挖掘用戶的真實需求與潛在需求。圖書館服務(wù)人員研究用戶畫像,從用戶需求角度設(shè)計服務(wù)系統(tǒng),在用戶畫像中實現(xiàn)用戶需求的“可視化”,針對用戶的基本屬性信息、用戶搜索行為習(xí)慣及興趣喜好精準推送信息,進而促進知識服務(wù)、智能服務(wù)。
2.2.2 有助于實現(xiàn)精準服務(wù),提高服務(wù)質(zhì)量
輔助數(shù)據(jù)挖掘是用戶畫像的顯著特征。通過深度挖掘用戶的環(huán)境背景,實現(xiàn)圖書館服務(wù)系統(tǒng)個性化推薦和檢索。目前,用戶真正所需信息與檢索結(jié)果之間的“信息鴻溝”是圖書館檢索系統(tǒng)面臨的問題之一,而圖書館檢索系統(tǒng)可以通過用戶畫像完善個性化檢索。即使用戶檢索詞表述不精準,系統(tǒng)依然能根據(jù)用戶畫像的數(shù)據(jù)反饋出與用戶相關(guān)度較高的結(jié)果。通過利用用戶畫像的關(guān)聯(lián)原則和聚類算法進行個性化推薦,不僅可以實現(xiàn)精準服務(wù),還能提高服務(wù)質(zhì)量。
2.2.3 有助于更新優(yōu)化系統(tǒng),提升用戶體驗
當前圖書館服務(wù)系統(tǒng)種類繁多,功能相似。數(shù)量龐大的數(shù)據(jù)庫雖然給用戶帶來了大量數(shù)據(jù),但是面對種類繁多、功能各異的數(shù)據(jù)庫,用戶難免會產(chǎn)生困擾。圖書館應(yīng)引入用戶畫像,構(gòu)建特征用戶畫像群體。在服務(wù)系統(tǒng)的設(shè)計中設(shè)置感知變化,便于及時適應(yīng)用戶需求,根據(jù)用戶畫像及時更新優(yōu)化服務(wù)系統(tǒng),從而提升用戶體驗。
目前圖書館業(yè)務(wù)中用戶數(shù)據(jù)分析主要是從圖書館信息系統(tǒng)中統(tǒng)計圖書館每天借閱量、讀者流量等整體用戶數(shù)據(jù)情況。信息系統(tǒng)中還存在大量個體用戶的行為痕跡,個體用戶或者具有相似信息行為數(shù)據(jù)的用戶數(shù)據(jù)更需要深入挖掘。用戶畫像是基于目前圖書館讀者數(shù)據(jù)分析的大平臺上更深入挖掘各大信息系統(tǒng)的數(shù)據(jù)。針對個體用戶數(shù)據(jù)挖掘、分析及標簽最大限度定位用戶需求畫像,才能提供精準化、個性化、多元化服務(wù)。
用戶畫像是用戶信息標識,目的是了解用戶(如知識背景、教育程度、傾向領(lǐng)域、信息行為等)并確定如何向各類用戶提供精準服務(wù)。如某博士用戶在搜索引擎的選擇上傾向于國外軟件,檢索的關(guān)鍵詞與“教育”相關(guān),那就基于上述信息描述標簽,進行用戶畫像。用戶畫像的核心即為個人用戶或群體用戶描述特征標簽,這些標簽建立在相應(yīng)的數(shù)據(jù)倉庫上,數(shù)據(jù)倉庫的建立則需要用戶各方面數(shù)據(jù)集合。
用戶數(shù)據(jù)統(tǒng)計與分析是用戶畫像的基礎(chǔ)。用戶數(shù)據(jù)可分為用戶屬性數(shù)據(jù)與用戶行為數(shù)據(jù),即通常所說的靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)。圖書館用戶在注冊時已將個人基本屬性信息輸入圖書館用戶管理系統(tǒng),用戶屬性數(shù)據(jù)包含性別、年齡、學(xué)歷、住址、身份證號、工作單位等靜態(tài)數(shù)據(jù)。根據(jù)上述數(shù)據(jù),圖書館員可對個人信息進行統(tǒng)計進而為用戶畫像提供用戶個人數(shù)據(jù)集,并根據(jù)這些數(shù)據(jù)集對用戶進行初步識別判斷。
用戶的行為數(shù)據(jù)則是通過網(wǎng)站系統(tǒng)、數(shù)字資源平臺及移動終端產(chǎn)生的數(shù)據(jù),如瀏覽歷史記錄、咨詢、閱讀、下載、訂閱、收藏及搜索的關(guān)鍵詞或主題等數(shù)據(jù)信息,甚至可以查詢用戶登錄次數(shù)和瀏覽時間。這些行為數(shù)據(jù)是用戶畫像十分重要的標簽描述,在此基礎(chǔ)上通過聚類形成用戶的宏觀畫像。
用戶數(shù)據(jù)的來源不僅僅是一個系統(tǒng),用戶畫像所需的數(shù)據(jù)在各類系統(tǒng)或數(shù)據(jù)庫中,靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)源自不同的系統(tǒng)。因此需要對用戶進行整合。在圖書館用戶管理系統(tǒng)中采集用戶基本屬性信息,用戶檢索、下載、訂閱、閱讀等行為數(shù)據(jù)則通過資源服務(wù)平臺系統(tǒng)、移動終端系統(tǒng)、網(wǎng)站系統(tǒng)采集。用戶畫像數(shù)據(jù)來源由靜態(tài)數(shù)據(jù)與動態(tài)數(shù)據(jù)構(gòu)成。
用戶畫像數(shù)據(jù)來源中,用戶的注冊信息和瀏覽日志的數(shù)據(jù)需經(jīng)過數(shù)據(jù)挖掘技術(shù)分類、聚類、關(guān)聯(lián)分析等預(yù)處理后才能得到用戶畫像的有效數(shù)據(jù)。因為數(shù)據(jù)源中包含一些與用戶特征無關(guān)的冗余信息,分析處理此信息十分必要。通過信息過濾系統(tǒng)篩選出有效數(shù)據(jù),才能確保用戶畫像與用戶之間的真實性、有效性。
標簽通常是人為規(guī)定的高度精煉的特征標識,如年齡、性別、地域、用戶偏好等,最后將所有標簽綜合起來,就可以勾勒出該用戶的“畫像”[2]。用戶畫像信息標簽是模型構(gòu)建的最后一步。圖書館用戶畫像是對用戶屬性數(shù)據(jù)、行為數(shù)據(jù)等進行語義化、短文本化標簽。如用戶登錄賬號、姓名、性別、職業(yè)、工作單位、工作性質(zhì)等標簽主要是對用戶屬性特征畫像;而行為數(shù)據(jù)標簽則通過瀏覽、檢索、下載主題、關(guān)鍵詞、登錄時間、點擊數(shù)據(jù)庫類別等歷史記錄數(shù)據(jù)形成用戶行為特征畫像。通過用戶基本特征標簽和用戶行為數(shù)據(jù)標簽,逐步構(gòu)建分類標簽、多級標簽用戶畫像標簽結(jié)構(gòu)。
通過圖書館用戶管理系統(tǒng)、網(wǎng)站系統(tǒng)、移動終端系統(tǒng)、資源服務(wù)平臺系統(tǒng)采集用戶的動、靜態(tài)數(shù)據(jù),經(jīng)過分析處理后對用戶屬性數(shù)據(jù)和用戶行為數(shù)據(jù)進行標簽化工作,形成分類、多級標簽用戶畫像標簽結(jié)構(gòu),用戶畫像模型在此基礎(chǔ)上便可實現(xiàn)“可視化”構(gòu)建。用戶畫像中個人用戶畫像與傳統(tǒng)的數(shù)據(jù)統(tǒng)計不同。個人用戶畫像以“用戶”為本,圍繞用戶進行數(shù)據(jù)分析,運用可視化方式描述用戶需求、動態(tài)分析用戶的行為習(xí)慣,實現(xiàn)精準化、個性化服務(wù)。“可視化”的用戶畫像從多維度標簽、分類標簽反應(yīng)用戶大量信息和變化,化抽象為形象,逐步展示畫像數(shù)據(jù)結(jié)構(gòu)。同時根據(jù)用戶行為的動態(tài)及時更新、優(yōu)化、完善已有用戶畫像。
用戶畫像框架模型(圖1)建立在數(shù)據(jù)來源層、數(shù)據(jù)分析處理層及數(shù)據(jù)標簽層上。
圖1用戶畫像框架模型
數(shù)據(jù)來源層是用戶畫像的基礎(chǔ),通過圖書館用戶管理系統(tǒng)和其他三大系統(tǒng)采集用戶屬性數(shù)據(jù)和行為數(shù)據(jù),將數(shù)據(jù)序列化后形成原始數(shù)據(jù)庫,同時注意用戶行為數(shù)據(jù)的變化,以便及時更新原始數(shù)據(jù)庫數(shù)據(jù);數(shù)據(jù)分析處理層則是通過信息過濾、數(shù)據(jù)清理等技術(shù)對原始數(shù)據(jù)進行預(yù)處理,建立用戶畫像有效數(shù)據(jù)集;數(shù)據(jù)標簽層是運用數(shù)據(jù)挖掘技術(shù)進行分類、聚類、關(guān)聯(lián)分析等對用戶畫像有效數(shù)據(jù)集進行語義化標簽,建立用戶數(shù)據(jù)標簽數(shù)據(jù)庫,最后建立用戶畫像,并通過可視化形式展現(xiàn)。
大數(shù)據(jù)環(huán)境下,圖書館龐大的用戶群體為圖書館服務(wù)工作帶來了機遇與挑戰(zhàn)。基于圖書館業(yè)務(wù)的用戶數(shù)據(jù)分析為圖書館員了解用戶需求提供數(shù)據(jù)支撐和服務(wù)方向,并有助于掌握圖書館總體被利用情況。同時圖書館也需不斷提高讀者服務(wù)水平和服務(wù)質(zhì)量,因此,了解用戶現(xiàn)實需求和挖掘潛在需要對服務(wù)工作的重要性不言而喻。用戶畫像技術(shù)是在用戶數(shù)據(jù)分析的基礎(chǔ)上深化挖掘個體用戶或者相似群體用戶的信息行為,通過對用戶行為數(shù)據(jù)的分析、標簽等用戶畫像的構(gòu)建,實現(xiàn)圖書館服務(wù)的個性化、精準化。通過分析用戶畫像數(shù)據(jù)來源、數(shù)據(jù)分析處理、數(shù)據(jù)標簽化3個層次搭建用戶畫像模型,能使圖書館用戶需求可視化,也能讓圖書館館員了解用戶的真實需求及推測潛在需求,從而提高服務(wù)質(zhì)量。