孫彥、向彩霞、趙曉媛、鄒翼/北京航天長征科技信息研究所
本項目基于航天某研究院圖書館APP 用戶應用場景,引入用戶畫像技術,將研究院數(shù)字圖書館用戶數(shù)據(jù)可視化與文獻資源建設相融合,通過了解不同讀者的文獻使用需求,重點標識關鍵用戶,并通過技術手段了解用戶文獻信息需求變化趨勢;加強用戶管理和研究,構(gòu)建研究院圖書館APP 用戶需求數(shù)據(jù)模型,為研究院圖書館服務模式創(chuàng)新開辟新路徑。
該技術在國外圖書館領域的應用始于20 世紀80 年代中,其研究范圍包括定義、方法等理論方面;具體實踐應用方面,對應用技術、系統(tǒng)平臺等開展了相應工作。人們逐步認識到用戶畫像可以實現(xiàn)精準文獻信息服務。隨著信息化技術的迅猛發(fā)展,用戶畫像技術算法正逐漸成為國外學者的主要研究方向,采用特定的算法構(gòu)建不同的場景用戶模型,成為研究文獻用戶特征的重要手段之一。
該方法在國內(nèi)行業(yè)領域的探索和使用也逐漸增多,相關研究主要集中在定義內(nèi)涵外延等方面。與圖書館具體業(yè)務工作相結(jié)合的實踐主要表現(xiàn)在定制化服務方面?;谀承?shù)字圖書館應用場景,通過深入分析相關算法與技術、框架模型設計及構(gòu)建流程,構(gòu)建標簽體系,利用因子分析等篩選符合條件的用戶畫像數(shù)量,為技術運用奠定基礎。
交互設計之父AlanCooper 最早提出用戶畫像是真實用戶的虛擬表現(xiàn),是建立在一系列真實數(shù)據(jù)之上的目標用戶模型,這是針對該技術較早的概念研究。在數(shù)字圖書館用戶服務中,會產(chǎn)生大量的使用痕跡,如登錄、瀏覽、檢索、下載等數(shù)據(jù),我們稱之為行為數(shù)據(jù)。結(jié)合用戶基礎信息數(shù)據(jù),利用計算機技術模擬出用戶的虛擬畫像,勾勒出不同用戶的信息全貌,呈現(xiàn)出不同用戶利用、獲取數(shù)字資源的行為特點。
時效性。用戶在使用數(shù)字圖書館文獻資源的過程中,經(jīng)常會因工作計劃、研究方向、項目調(diào)整等因素影響,對文獻資源的獲取產(chǎn)生不同的行為特征,這些特征時效性顯著。
迭代性。行為特征構(gòu)成的用戶畫像會隨著時間的變化不斷更迭,不同的時間段會呈現(xiàn)出不同的結(jié)果。因此,該技術具有迭代性。
可視性。通過收集用戶使用的各種數(shù)據(jù),篩選甄別后進行多角度的統(tǒng)計分析,利用信息技術描繪出用戶的整體模型,統(tǒng)計維度越多模型越明晰具體,表現(xiàn)出了可視性。
群集性。通過分析統(tǒng)計相關用戶的數(shù)據(jù),展現(xiàn)某一類用戶的相同特點,具備了群集的特征。同一集合中用戶對象具有鮮明的相似點,利用計算機技術將這些相似點進行連接可制作出關聯(lián)圖譜。
構(gòu)建完整的用戶畫像,需要對用戶的基本數(shù)據(jù)和行為數(shù)據(jù)從多維度、多層次進行描述。基于數(shù)字圖書館的實際情況,基本數(shù)據(jù)主要包括機構(gòu)用戶的賬號名稱、個人用戶的讀者卡號。行為數(shù)據(jù)主要包括登錄時長、登錄次數(shù)、下載量、檢索量、檢索關鍵詞、各數(shù)據(jù)庫訪問量、點擊量等。
用戶畫像的流程建構(gòu)主要有采集并過濾數(shù)據(jù)、畫像建模、完成畫像三個步驟。
第一步,采集并過濾數(shù)據(jù)。數(shù)據(jù)來源按照構(gòu)建維度分為基礎數(shù)據(jù)和行為數(shù)據(jù)。通過對注冊系統(tǒng)、登錄賬號等進行采集可獲得基礎數(shù)據(jù);行為數(shù)據(jù)一般通過智能采集系統(tǒng)的日志方式獲取。采集到的原始數(shù)據(jù)存在數(shù)據(jù)缺失、錯誤、冗余等問題,為了減少這些數(shù)據(jù)對建模的影響,需要進行篩選、過濾等,并對數(shù)據(jù)進行標準化,確保數(shù)據(jù)的有效性。
第二步,畫像建模。本階段是對過濾后的數(shù)據(jù)進行建模的過程,抽取用戶基本數(shù)據(jù)和行為數(shù)據(jù),運用相關的計算機技術為用戶進行標簽。
第三步,畫像完成。在第二步的基礎上,加入可視化技術因素對用戶標簽體系進行系統(tǒng)梳理,呈現(xiàn)用戶畫像。
為提升航天某院數(shù)字圖書館文獻服務能力,2019 年底,該館完成了數(shù)字移動圖書館APP 的開發(fā),2020 年初,該院圖書館APP 正式上線,為研究院讀者提供文獻資源服務。用戶可以利用碎片時間,充分發(fā)揮智能移動平臺的優(yōu)勢提高工作和學習效率。
用戶畫像作為一種服務創(chuàng)新,是對用戶獲取文獻的行為軌跡進行重構(gòu),通過計算機技術得到虛擬化的用戶形象,迅速定位服務對象、為實施文獻資源的精準采購提供重要參考。
該技術在該院掌上圖書館APP 的運用主要基于該APP 的歷史數(shù)據(jù)為用戶進行行為描繪。通過對其進行有目標的篩選與標準化處理,過濾掉無效數(shù)據(jù),大幅度提升數(shù)據(jù)的可用性。
構(gòu)建用戶畫像主要通過挖掘用戶獲取文獻資源背后的痕跡,采用可視化的方式將獲取的有效數(shù)據(jù)進行呈現(xiàn)。挖掘信息包括基礎數(shù)據(jù)和行為數(shù)據(jù)兩個主要方面?;A數(shù)據(jù)指的是用戶在注冊登錄時主動提供的信息。行為數(shù)據(jù)指的是用戶在使用研究院圖書館APP 時根據(jù)自己的主觀意識行為留下的使用足跡。這兩種數(shù)據(jù)組成了用戶畫像的體系架構(gòu)。
圖書館在用戶數(shù)據(jù)的采集中,緊密圍繞用戶展開?;A數(shù)據(jù)主要包括姓名、性別、職稱、單位、專業(yè)、注冊時間、電話、郵箱、通訊地址等。行為數(shù)據(jù)主要包括登錄、登錄時長、瀏覽、檢索、常用檢索詞下載量、收藏、發(fā)送分享等。
用戶畫像獲取的具體方法是采用日志采集系統(tǒng)實時收集用戶行為數(shù)據(jù),包括用戶打開APP 的時間、使用時長、檢索、瀏覽、下載等行為,記錄為行為數(shù)據(jù)日志。存儲在系統(tǒng)處理(hdfs/kafka)系統(tǒng)中的hBase 表中。
通過數(shù)據(jù)源管理、數(shù)據(jù)映射、抽取任務管理等技術,從hBase 表中提取用戶標簽。利用支持主流結(jié)構(gòu)化數(shù)據(jù)直接通過可視化方式生成知識圖譜,再采用可編程關系設置的D2R 組件生成畫像,如圖1 所示。
圖1 用戶畫像獲取方法流程圖
航天某院圖書館APP 有兩種注冊方式,第一種需提供機構(gòu)賬號和讀者卡號,機構(gòu)賬號和讀者卡號關聯(lián)的具體信息只儲存在內(nèi)部電腦中,不進入互聯(lián)網(wǎng)環(huán)境。第二種需提供手機號便可注冊,未與其它個人信息關聯(lián)。這兩種方式注冊后,在登錄使用中的權(quán)限不同,關聯(lián)賬號用戶可實現(xiàn)研究院圖書館APP 所有功能的操作。無論哪種用戶在使用過程中均會產(chǎn)生大量的行為數(shù)據(jù),如登錄時間、登錄時長、瀏覽的界面、使用的數(shù)據(jù)庫、使用的檢索詞、下載量(手機號用戶除外)、收藏情況等。
在航天某院圖書館APP 系統(tǒng)統(tǒng)計模塊集中采集數(shù)據(jù),形成用戶標簽數(shù)據(jù)庫。其中針對有關用戶基本屬性進行描述可形成用戶基本信息標簽,這類標簽只有關聯(lián)機構(gòu)賬號的讀者卡號和沒有與信息關聯(lián)的手機號兩種。行為屬性的特征描述形成行為標簽,通過標簽體系,對信息進行分類整合,形成畫像數(shù)據(jù)庫,再通過抽取分析,最終形成畫像模型。具體標簽分類見表1。
表1 航天某院圖書館APP系統(tǒng)用戶標簽體系
通過一系列信息抽取技術,在獲取了用戶信息標簽后,再通過對復雜文檔數(shù)據(jù)進行有效的加工、處理、整合,轉(zhuǎn)化為簡單、清晰的“標簽、關系、標簽”的三元組,聚合大量信息,實現(xiàn)信息的快速響應和推理,最后生成可視化的用戶統(tǒng)計分析的畫像,完成用戶畫像。
通過多維度對機構(gòu)用戶、個人用戶數(shù)據(jù)統(tǒng)計形成畫像,尤其對檢索詞的統(tǒng)計分析,能夠準確地得知用戶的需求,為研究院圖書館的資源建設提供技術支撐。
用戶畫像技術在研究院圖書館APP 上的應用,促使該館由過去以資源為主轉(zhuǎn)型到以服務為主,創(chuàng)新了圖書館服務理念。通過技術引進優(yōu)化了傳統(tǒng)的服務模式,使線上服務更精準。
該技術在研究院圖書館APP 的成功應用,是基于用戶在該APP 實際應用場景開展的。構(gòu)建研究院圖書館APP 用戶畫像,為實現(xiàn)精準信息服務奠定了良好的技術基礎。
通過對用戶畫像的研究分析,將研究結(jié)果應用到資源采購的流程中,可為實現(xiàn)精準采購的決策提供重要參考,從而確保文獻資源建設的質(zhì)量、節(jié)約了建設成本。由于服務模式的轉(zhuǎn)型帶來管理方法的改變,進而實現(xiàn)了管理效能的提升。
航天某院數(shù)字圖書館是該院科研生產(chǎn)、管理決策的有效支撐和重要保障。后續(xù),該館將基于用戶畫像推薦內(nèi)容,進一步完善、豐富用戶畫像,使用戶畫像從針對用戶潛在需求的研究,延伸到對用戶持續(xù)性、實時性需求的研究;通過抓住用戶興趣,滿足用戶需求,提升其閱讀專注度、愉悅度,建立起用戶對數(shù)字圖書館的長期依賴。未來可以實現(xiàn)跨部門跨項目組共性需求的畫像呈現(xiàn)。