樂承毅,王 曦(華東交通大學(xué)經(jīng)濟(jì)管理學(xué)院)
近年來,用戶畫像方法不斷被應(yīng)用于營銷服務(wù)研究領(lǐng)域,成為精準(zhǔn)描述用戶行為特征的有利工具之一,[1]通過構(gòu)建高校圖書館用戶畫像,可以準(zhǔn)確描述用戶的興趣和行為偏好,為讀者個(gè)性化地推送信息,幫助高校圖書館優(yōu)化用戶體驗(yàn),提供更深層次的服務(wù)。
本文以某一高校圖書館的真實(shí)行為數(shù)據(jù)為例,首先嘗試引入客戶細(xì)分領(lǐng)域的RFM模型和思想,并對其進(jìn)行改進(jìn),設(shè)計(jì)高校圖書館讀者用戶的細(xì)分指標(biāo);其次采用兩步聚類方法,確定高校圖書館的不同細(xì)分群體。在此基礎(chǔ)上,繪制不同讀者群體的用戶畫像。
用戶畫像(Persona)由美國交互設(shè)計(jì)之父Cooper A提出,他將用戶畫像描述為“在用戶真實(shí)數(shù)據(jù)基礎(chǔ)上集成的虛擬象征”,是對用戶的定性勾畫,通過對用戶數(shù)據(jù)的挖掘和提煉,將用戶信息全貌最大程度地展現(xiàn)出來。[2]還有學(xué)者將用戶畫像描述為從海量數(shù)據(jù)中獲取的、由用戶信息組成的圖像聚合,這個(gè)聚集體能夠闡述用戶的需求、興趣、性格偏好等。[3-4]目前,針對用戶畫像的構(gòu)建方法主要有傳統(tǒng)統(tǒng)計(jì)方法、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、聚類分析、主題模型等。
也有很多學(xué)者對用戶畫像在圖書館領(lǐng)域的應(yīng)用進(jìn)行了研究。劉海鷗等梳理了國內(nèi)外關(guān)于用戶畫像建模方法的最新研究成果,對其在圖書館領(lǐng)域中的具體應(yīng)用進(jìn)行了闡述,提出用戶畫像方法可以在個(gè)性化推薦、提高滿意度、規(guī)范失信行為方面起到作用。[5]胡媛等對數(shù)字圖書館用戶畫像進(jìn)行建模分析,并構(gòu)建綜合服務(wù)能力評價(jià)指標(biāo)體系,為數(shù)字圖書館社區(qū)用戶描述提供參考。[6]潘宇光建立了高校圖書館個(gè)體用戶畫像的指標(biāo)體系,構(gòu)建了讀者關(guān)系圖譜,但其建立的指標(biāo)體系較為粗糙,還有待進(jìn)一步地完善。[7]趙巖提出了大數(shù)據(jù)環(huán)境下圖書館用戶畫像構(gòu)建方法,并研究了閱讀資源推薦流程,但沒有進(jìn)行實(shí)例分析。[8]劉速以天津圖書館為例,使用交叉分析及知識(shí)圖譜等方法建立了公共圖書館的用戶畫像及基于畫像的用戶關(guān)系圖譜。[9]楊帆以國家圖書館大數(shù)據(jù)項(xiàng)目為例,提出了一種基于讀者畫像及資源畫像為基礎(chǔ)的構(gòu)建圖書館大數(shù)據(jù)分析平臺(tái)的方法。[10]
綜上,近年來用戶畫像領(lǐng)域的研究快速增長,但總體而言,圖書館領(lǐng)域?qū)τ脩舢嬒竦难芯咳詼笥谄渌袠I(yè)。[11]在建立用戶畫像時(shí),綜合用戶的注冊信息、偏愛數(shù)據(jù)等特征,同時(shí)考慮時(shí)間和外部情景影響的較為全面的用戶畫像體系還未健全,尤其在高校圖書館領(lǐng)域的研究甚少。除此之外,關(guān)于用戶畫像的研究大多集中在對個(gè)體間差異進(jìn)行勾勒,鮮少在用戶群體劃分基礎(chǔ)上對不同群體用戶形象進(jìn)行描摹。本文結(jié)合相關(guān)研究,以某高校圖書館用戶為例,基于改進(jìn)的RFM模型對用戶進(jìn)行細(xì)分,分析該高校圖書館讀者的行為特征和需求特征,建立用戶畫像指標(biāo)體系與模型,最終形成不同群集的用戶畫像。
在客戶關(guān)系管理和市場營銷領(lǐng)域,RFM模型[12]已被廣泛應(yīng)用于客戶評級、細(xì)分、提供客戶維護(hù)策略等方面,該模型通過R(Recency,最近一次消費(fèi)時(shí)間)、F(Frequency,消費(fèi)頻率)、M(Monetary,消費(fèi)金額)三個(gè)指標(biāo)來描述某一位客戶的價(jià)值狀況并對客戶進(jìn)行細(xì)分。高校圖書館的讀者細(xì)分需要考慮讀者行為與客戶行為的一致性。綜合圖書館用戶行為的特性,建立適用于高校圖書館讀者細(xì)分的RFM模型體系,以提升讀者對圖書館的滿意度。[13]
用戶在高校圖書館借閱圖書時(shí)會(huì)產(chǎn)生借書、還書、續(xù)借三種行為。借書的用戶不一定是優(yōu)質(zhì)用戶,有部分用戶是借完圖書馬上就還,其知識(shí)獲取的情況并不好。而低借書頻率的用戶也不一定是劣質(zhì)用戶,有部分用戶經(jīng)常續(xù)借,其知識(shí)利用率較高,因此將讀者續(xù)借行為也考慮在RFM模型之內(nèi)。同時(shí),讀者在某一學(xué)期內(nèi)借閱圖書的數(shù)量能在一定程度上代表讀者借閱書籍的情況,故建立改進(jìn)的RFM模型(見圖1)。R代表最近一次借閱的時(shí)間,R越小說明讀者越活躍,對圖書館的價(jià)值越大;RF代表一段時(shí)間內(nèi)還書次數(shù), RF越小說明讀者在本學(xué)年內(nèi)較少產(chǎn)生還書行為,持有書籍的時(shí)間較長,對知識(shí)的掌握情況較好;IF代表一段時(shí)間內(nèi)的續(xù)借次數(shù),IF越大說明讀者對圖書的興趣值較大,讀者較活躍;BF代表一段時(shí)間內(nèi)借書次數(shù),BF越大說明讀者對圖書的粘性較高,對知識(shí)的需求較為旺盛,讀者較活躍;B代表一段時(shí)間內(nèi)該讀者的平均借閱冊數(shù),由讀者借閱的總冊數(shù)除以讀者借閱的總次數(shù),則B越大代表讀者閱讀的書籍越多。
圖1 改進(jìn)后的RFM模型
(1)某高校圖書館的數(shù)據(jù)描述。本文選取了2017-2018學(xué)年的讀者行為數(shù)據(jù),包括借書卡號、姓名、學(xué)院、讀者級別、題名、出版社、出版日期、館藏地址、索書號、借閱時(shí)間、還書數(shù)據(jù)、借閱類型等。由于數(shù)據(jù)量較大,因此在采集數(shù)據(jù)時(shí)對集成的數(shù)據(jù)進(jìn)行了清理,清理后共有13,072人。其中,男性5,699人(43.6%),女性7,373人(56.4%);本科生10,601人(81.1%),研究生1,556人(11.9%),教師681人(4.5%),其他人員327人(2.5%)。從圖書借閱情況來看,所有用戶借閱次數(shù)分布在1-114次之間,平均值為8次,借閱次數(shù)在5次以下的有6,869人(53.5%),在10次以下的有9,807人(75%)。
(2)兩步聚類分析。由于高校圖書館的讀者數(shù)據(jù)量大、對聚類個(gè)數(shù)要求不高,且兩步聚類算法在算法效率、準(zhǔn)確率和噪聲敏感性三個(gè)方面都比常見的k-means聚類和基于層次劃分的算法情況要好。因此,本文選取兩步聚類算法對13,072個(gè)樣本進(jìn)行聚類分析。聚類變量選取一段時(shí)間內(nèi)續(xù)借頻次(IF)、一段時(shí)間內(nèi)還書頻次(RF)、一段時(shí)間內(nèi)借書頻次(BF)、平均借閱冊數(shù)(B)和最近一次借書時(shí)間(R,取數(shù)據(jù)采集日期減去用戶最近的一次借書日期的差值)五個(gè)維度指標(biāo),使用對數(shù)似然估計(jì)方法和施瓦茨貝葉斯(BIC)準(zhǔn)則,通過SPSS Modeler軟件對指標(biāo)進(jìn)行處理,得到兩步聚類的聚類結(jié)果(見圖2)。
圖2 兩步聚類的分類結(jié)果
通過兩步聚類分析得出三類讀者群體五個(gè)變量的對比情況(見圖3)。結(jié)合對聚類變量特征的描述及RFM理論,將聚類1、聚類2、聚類3分別描述為流失用戶、回流用戶和活躍用戶。
圖3 三類讀者群體五個(gè)變量對比
(3)圖書館用戶細(xì)分類別。① 活躍用戶(聚類3):聚類3的續(xù)借次數(shù)(IF)、還書次數(shù)(RF)、借書次數(shù)(BF)、平均借閱冊數(shù)(B)較總體平均值大,最近一次借書時(shí)間(R)較總體平均值小。說明聚類3的用戶發(fā)生借閱行為的次數(shù)較多,借書冊數(shù)較大,且近期發(fā)生過借閱行為,總體來看較為活躍,故將其定義為活躍用戶。② 回流用戶(聚類2):聚類2的續(xù)借次數(shù)(IF)、還書次數(shù)(RF)、借書次數(shù)(BF)、平均借閱冊數(shù)(B)、最近一次借書時(shí)間(R)較總體平均值小。說明聚類2的用戶從整段時(shí)間上來看發(fā)生借閱行為次數(shù)較少,借書冊數(shù)較少,但在近期開始有借閱行為發(fā)生,故將其定義為回流用戶。③ 流失用戶(聚類1):聚類1的續(xù)借次數(shù)(IF)、還書次數(shù)(RF)、借書次數(shù)(BF)、平均借閱冊數(shù)(B)較總體平均值小,最近一次借書時(shí)間(R)較總體平均值大。說明聚類1的用戶發(fā)生借閱行為次數(shù)較少,借閱冊數(shù)較少,最近一次借閱時(shí)間距今久遠(yuǎn),故將其定義為流失用戶。
根據(jù)高校圖書館的用戶行為特征,圍繞用戶的基本信息標(biāo)簽、行為偏好標(biāo)簽、互動(dòng)標(biāo)簽、情景標(biāo)簽、活躍度標(biāo)簽5個(gè)維度的信息對高校圖書館用戶構(gòu)建用戶畫像指標(biāo)體系,并將用戶畫像按照UC={User,Behavior,Interact,Scene,Activity}的方式進(jìn)行描述,以此構(gòu)建高校圖書館用戶畫像。
3.1.1 用戶基本信息標(biāo)簽
用戶基本信息標(biāo)簽主要對用戶的基本情況進(jìn)行勾勒,如用戶的卡號(Id)、姓名(Name)、性別(Sex)、年齡 (Age)、年級 (Grade)、專業(yè) (Major)、學(xué)院(College)、身份級別 (Id_Grade)、籍貫 (Native_Place)、聯(lián)系方式 (Tel)、住址 (Address) 等。用戶基本信息標(biāo)簽表示為:
User={Id,Name,Sex,Age,Grade,Major,College,Id_Grade,Native_Place,Tel,Address}。
其中,Id為數(shù)據(jù)的唯一標(biāo)識(shí)符,用于用戶身份的識(shí)別及檢索,Id_Grade包含大學(xué)生、研究生、教職工和其他四種。
3.1.2 用戶行為偏好標(biāo)簽
用戶行為偏好標(biāo)簽主要描述用戶的行為偏好,體現(xiàn)高校圖書館用戶的檢索、瀏覽、閱讀、預(yù)約、收藏、關(guān)注等行為。用戶行為偏好標(biāo)簽表示為:
Behavior={Search,Browse,Read,Order,Collect,Point}。
Search為用戶使用圖書館系統(tǒng)進(jìn)行檢索時(shí)輸入的關(guān)鍵字,該關(guān)鍵字體現(xiàn)了用戶的興趣所在;Browse為用戶在瀏覽圖書館頁面時(shí)的時(shí)間節(jié)點(diǎn)和頁面停留長度;Read為用戶閱讀的內(nèi)容,體現(xiàn)用戶興趣及其所屬的類別范疇;Order為用戶的預(yù)約內(nèi)容,體現(xiàn)用戶的需求,也從側(cè)面反映館藏資料的不足;Collect為用戶的收藏內(nèi)容,體現(xiàn)用戶的興趣點(diǎn);Point為用戶的關(guān)注點(diǎn)分為喜歡借閱的圖書類別和經(jīng)常閱讀的出版社。
3.1.3 用戶互動(dòng)標(biāo)簽
用戶互動(dòng)標(biāo)簽是對用戶進(jìn)行內(nèi)容分享、評論及回復(fù)、情感態(tài)度等互動(dòng)行為時(shí)的特征進(jìn)行刻畫。圖書館用戶互動(dòng)屬性標(biāo)簽表示為:
Interact={Share,Comment,Attitude}。
Share為用戶分享的內(nèi)容,該標(biāo)簽體現(xiàn)了用戶主動(dòng)與其他用戶的互動(dòng)情況;Comment為用戶評論,即用戶在社交平臺(tái)及相關(guān)網(wǎng)站進(jìn)行評論、回復(fù)的內(nèi)容;Attitude為用戶態(tài)度,即用戶在社交平臺(tái)及相關(guān)網(wǎng)站進(jìn)行評論、回復(fù)時(shí)的情感特點(diǎn)。用戶評論和用戶態(tài)度體現(xiàn)了用戶在瀏覽了他人發(fā)布的內(nèi)容后所產(chǎn)生的情感傾向或行為態(tài)度。
3.1.4 情景標(biāo)簽
用戶情境屬性標(biāo)簽主要包括可以反映用戶所在位置、事發(fā)時(shí)間以及周邊環(huán)境的信息,其表示為:
Scene={Time,Position,Weather_Con}。
Time是用戶時(shí)間信息標(biāo)簽,主要通過時(shí)間屬性記錄用戶訪問圖書館或發(fā)生借閱行為時(shí)的時(shí)間情況;Position是用戶位置信息標(biāo)簽,用于描摹讀者所處位置的相關(guān)情況,如讀者所在的地理位置、讀者的位置類型、周圍人群情況、社會(huì)關(guān)系等;Weather_Con是外界環(huán)境信息標(biāo)簽,主要指氣候、光照、噪音等外界環(huán)境因素變化對讀者操作行為帶來的影響。
(1)用戶時(shí)間標(biāo)簽表示為:
Time={TID,Datetime,Month,Part_time}。
TID為時(shí)間的唯一標(biāo)識(shí);Datetime為當(dāng)前用戶瀏覽的絕對時(shí)間;Month為用戶發(fā)現(xiàn)操作行為時(shí)的月份;Part_time為時(shí)間段,如中午、晚上等。
(2)用戶位置標(biāo)簽表示為:
Position={City,PosType,Colleague}。
City為用戶在進(jìn)行操作時(shí)所處的地理位置,如城市、學(xué)校等信息;PosType為用戶發(fā)送操作行為時(shí)所在位置,如圖書館閱覽室、宿舍、機(jī)房等;Colleague為用戶發(fā)生操作時(shí)旁邊存在的人際關(guān)系,如單獨(dú)一個(gè)人、與同學(xué)一起等。
(3)用戶外界環(huán)境標(biāo)簽表示為:
Weather_Con={Weather,Humidity,Noise}。
Weather為用戶發(fā)生操作行為時(shí)的天氣情況,如晴朗、雨、霜;Humidity表示用戶發(fā)生操作行為時(shí)的溫度,將其劃分為 0℃以下、0-10℃、10-20℃、20-30℃、30℃以上;Noise為用戶發(fā)生操作行為時(shí)的附近的噪聲狀況。
3.1.5 用戶活躍度標(biāo)簽
用戶活躍度標(biāo)簽主要描述用戶訪問圖書館的活躍度,用于反映讀者對書籍的借閱情況,該維度在一定程度上反映出讀者的知識(shí)需求和學(xué)習(xí)情況。用戶活躍度標(biāo)簽表示為:
Activity= {Visit_Num,Borrowing_Num,Renew_Num,Return_Num,LastTime_Visit,Visit_Time}。
Visit_Num為用戶累計(jì)登陸高校圖書館或進(jìn)館訪問的次數(shù),可進(jìn)一步將其細(xì)化為電子訪問次數(shù)和實(shí)體訪問次數(shù);Borrowing_Num為用戶的借書次數(shù),統(tǒng)計(jì)每位讀者當(dāng)前學(xué)期借書總次數(shù);Renew_Num為用戶的續(xù)借次數(shù);Return_Num為用戶的還書次數(shù);Last-Time_Visit為用戶的最近一次到訪時(shí)間;Visit_Time為讀者借閱時(shí)長,統(tǒng)計(jì)出還書日期與借書日期間的差值,求和后計(jì)算出當(dāng)前學(xué)期的總借閱時(shí)長,形成讀者借閱時(shí)長的維度指標(biāo)。
筆者利用本體建模法構(gòu)建了高校圖書館用戶畫像的概念模型,將用戶特征直觀展現(xiàn)出來(見圖4)。
圖4 用戶畫像概念模型的構(gòu)建
以某一用戶為例,用戶畫像指標(biāo)體系和模型建立的用戶個(gè)體畫像見圖5。在構(gòu)建過程中從用戶數(shù)據(jù)入手,將用戶的特征標(biāo)簽化,直觀展示實(shí)現(xiàn)用戶畫像,使圖書管理員可以清晰掌握用戶特征及需求,從而使圖書館的各項(xiàng)服務(wù)活動(dòng)更有針對性和目的性。
圖5 高校圖書館個(gè)體畫像展示
3.3.1 活躍用戶的用戶畫像
活躍用戶對知識(shí)的渴望程度高,主動(dòng)學(xué)習(xí)能力強(qiáng)。以卡號為201607*****7000的讀者為例,建立用戶畫像(見圖6),由用戶畫像可知,該讀者學(xué)年內(nèi)借書、還書、續(xù)借次數(shù)較多,活動(dòng)較為頻繁。為了更好地服務(wù)于這部分用戶,圖書館可以對其到館訪問時(shí)間、訪問方式、借閱圖書的類別等進(jìn)行分析,把握活躍用戶的興趣愛好,了解其需求,有針對性地進(jìn)行圖書推薦。此外,由于活躍用戶借閱書籍較多,為節(jié)約用戶時(shí)間,可開通手機(jī)App服務(wù),提供預(yù)約到館、即到即取等服務(wù)。
圖6 活躍用戶的用戶畫像
3.3.2 回流用戶的用戶畫像
總體來看,回流用戶的借閱量不大、借閱頻次較低,但在近段時(shí)間有回流的趨勢。該類型用戶主動(dòng)性較弱,需要加強(qiáng)引導(dǎo)和挖掘興趣,將其轉(zhuǎn)變?yōu)榛钴S用戶。以卡號為201509******0200的讀者為例,建立用戶畫像(見圖7),由用戶畫像可知,該讀者學(xué)年內(nèi)借書、還書、續(xù)借次數(shù)較少,但最近一次到館日期較近,說明其活動(dòng)有回流趨勢。為了留住這部分用戶,可以分析其需求量增加的原因,針對其近期的興趣、關(guān)注點(diǎn)主動(dòng)推送圖書及服務(wù)。同時(shí),對這部分用戶進(jìn)行追蹤調(diào)查,探索其回流背后的潛在原因,如近期科研任務(wù)的加重、興趣愛好的改變、圖書館的某項(xiàng)服務(wù)或活動(dòng)吸引了其回流。
圖7 回流用戶的用戶畫像
3.3.3 流失用戶的用戶畫像
流失用戶一般長時(shí)間沒有到訪記錄及借閱記錄,圖書館在逐漸失去對該類用戶的吸引力。圖書館可針對這部分用戶開通綠色通道,如流失用戶可優(yōu)先借閱新書,以期喚醒該部分用戶,使其轉(zhuǎn)化為回流用戶。以卡號為201313******0325的讀者為例,建立用戶畫像(見圖8),由用戶畫像可知,其學(xué)年內(nèi)借書、還書、續(xù)借次數(shù)較少,已長期沉寂。由于其長時(shí)間沒有到訪記錄及借閱記錄,圖書館可根據(jù)其以往的借閱情況及興趣愛好點(diǎn)主動(dòng)開展推薦服務(wù)。同時(shí),分析其長期未進(jìn)行借閱的原因,如因?yàn)閳D書館館藏?zé)o法滿足其需求,則圖書館可以有針對性地進(jìn)行圖書采購,并在采購后及時(shí)推薦給這部分用戶。
圖8 流失用戶的用戶畫像
本文圍繞高校圖書館的用戶畫像構(gòu)建進(jìn)行研究,提出了基于改進(jìn)RFM聚類的高校圖書館用戶細(xì)分方法。希望本文能為高校圖書館開展精準(zhǔn)服務(wù)和個(gè)性化推薦等服務(wù)提供借鑒,未來將會(huì)繼續(xù)收集更廣泛的高校用戶數(shù)據(jù),采用數(shù)據(jù)挖掘等方法深入了解用戶需求,不斷豐富和完善高校圖書館用戶畫像實(shí)踐研究。