劉 莉,周曉虹
(1. 吉林建筑科技學(xué)院,吉林 長春 130114;2. 吉林建筑大學(xué),吉林 長春 130119)
通過用戶真實數(shù)據(jù)獲取用戶的屬性、行為偏好等,以技術(shù)手段使其形成特有標(biāo)簽,可充分描述用戶整體特征與輪廓的虛擬表達(dá)形式稱為用戶畫像。用戶畫像的核心思想是用戶特征的可視化,其廣泛應(yīng)用在各個領(lǐng)域中[1,2],尤其是在圖書館書籍管理中,通過用戶畫像可識別精準(zhǔn)用戶需求,針對不同用戶為其提供相應(yīng)書籍推薦服務(wù)。用戶畫像生成方法是提升圖書館書籍管理能力的重要途徑之一,為此很多學(xué)者致力于研究用戶畫像自動生成方法或模型,如萬家山[3]等人研究的基于KD-Tree聚類的社交用戶畫像建模方法,依托智慧學(xué)習(xí)平臺獲取用戶信息,通過KNN聚類獲取用戶興趣特征,并依據(jù)用戶興趣特征對其實施分類處理,形成標(biāo)簽后通過二次建模形成用戶畫像。但該方法在應(yīng)用過程中由于推薦信息指向性和平臺用戶數(shù)據(jù)轉(zhuǎn)化率較低,導(dǎo)致其無法精準(zhǔn)描述用戶特征,因此應(yīng)用效果不佳。徐海玲[4]等人研究的用戶畫像的構(gòu)建及資源聚合模型,將用戶信息標(biāo)簽化后,通過研究用戶畫像和資源畫像的映射關(guān)系,完成用戶畫像生成。但由于用戶屬性眾多,該模型僅從資源方面對用戶畫像展開描述,具有一定的片面性,因此應(yīng)用性不強(qiáng)。
大數(shù)據(jù)時代的來臨,為新型生產(chǎn)要素的衍生提供了基礎(chǔ),以大數(shù)據(jù)為驅(qū)動方式的各行業(yè)數(shù)字化轉(zhuǎn)型已成為其尋求長久發(fā)展的手段之一,尤其是在圖書館管理方面,面對來源和格式不同且呈分布式狀態(tài)的用戶數(shù)據(jù),圖書館的圖書推薦功能需依據(jù)當(dāng)前用戶特點(diǎn)為其推薦相應(yīng)數(shù)據(jù),而圖書館用戶畫像則是描述該用戶特點(diǎn)與需求的表達(dá)形式之一[5],因此需通過相應(yīng)技術(shù)使其形成用戶特有的畫像,以便于圖書館更好地服務(wù)用戶。在此結(jié)合大數(shù)據(jù)驅(qū)動技術(shù),設(shè)計基于大數(shù)據(jù)驅(qū)動的用戶畫像自動生成模型。
用戶畫像自動生成的實現(xiàn)依托大數(shù)據(jù)分析模塊完成,將用戶畫像自動生成模型分為兩個部分,一部分是依托Hadoop、Spark大數(shù)據(jù)分析模塊實現(xiàn),在該模塊內(nèi),將用戶畫像文本標(biāo)簽分類結(jié)果存儲于數(shù)據(jù)倉庫內(nèi),利用Spark內(nèi)存計算模型對用戶畫像數(shù)據(jù)進(jìn)行分析和預(yù)測,以Dubbox框架解耦用戶數(shù)據(jù)分析過程,將結(jié)果輸送至用戶畫像展示端服務(wù)器進(jìn)行顯示,另一部分是用戶畫像展示模塊,該模塊以Spring MVC、web頁面等方式實現(xiàn)人機(jī)交互,用戶通過查詢姓名可獲取所查詢者的用戶畫像?;诖髷?shù)據(jù)驅(qū)動的用戶畫像生成模型具體結(jié)構(gòu)如圖1所示。
圖1 基于大數(shù)據(jù)驅(qū)動的用戶畫像生成模型示意圖
基于大數(shù)據(jù)驅(qū)動的用戶畫像生成模型共包含5層,信息預(yù)處理層將長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)引入到條件隨機(jī)場模型(CRF)內(nèi),構(gòu)建用戶信息抽取模型,利用該模型從互聯(lián)網(wǎng)中抽取用戶畫像信息,對用戶畫像信息標(biāo)簽進(jìn)行分類后將其輸入至數(shù)據(jù)層,畫像計算層從數(shù)據(jù)層調(diào)用文本標(biāo)簽分類結(jié)果,當(dāng)用戶發(fā)起畫像查詢時,通過調(diào)取數(shù)據(jù)層用戶畫像信息并融合后輸入至結(jié)果存儲層,該層利用HBase、MySQL、Redis等方式對融合后的用戶畫像信息進(jìn)行存儲,然后通過Java編程技術(shù)連接畫像展示層,為用戶提供畫像可視化功能,至此實現(xiàn)用戶畫像自動生成功能。
提取用戶畫像信息是用戶畫像自動生成的基礎(chǔ),在此以序列標(biāo)注形式描述畫像信息抽取過程,將長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)引入到條件隨機(jī)場模型(CRF)內(nèi),建立LSTM-CRF用戶畫像信息抽取模型,從圖書館主頁獲取用戶基礎(chǔ)信息,該模型依據(jù)信息字段定義啟發(fā)原則,可在一定程度上提升信息抽取的準(zhǔn)確性。用戶畫像信息抽取模型如圖2所示。
圖2 LSTM-CRF用戶畫像信息抽取模型示意圖
LSTM-CRF用戶畫像信息抽取模型獲取用戶信息來源于圖書館網(wǎng)站主頁,通過人名匹配、頭像信息提取、郵箱信息提取以及網(wǎng)頁預(yù)處理等步驟獲取用戶的性別、頭像等相關(guān)信息。
由于各個用戶主頁之間的實體結(jié)構(gòu)較為相似[6],實體之間聯(lián)系緊密,尤其是網(wǎng)頁內(nèi)的文本信息,各個節(jié)點(diǎn)之間的信息均存在線性關(guān)系,即當(dāng)前節(jié)點(diǎn)信息可通過文本節(jié)點(diǎn)內(nèi)容進(jìn)行描述。在此利用長短期記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行用戶網(wǎng)頁信息的特征提取與文本分詞處理,其步驟如下。
第一步:網(wǎng)頁預(yù)處理
由于用戶主頁存在很多用戶個性化設(shè)置或簽名,存在大量信息冗余,因此需要對用戶網(wǎng)頁進(jìn)行數(shù)據(jù)清洗和實體標(biāo)注[7],首先,將網(wǎng)頁內(nèi)無效標(biāo)簽、樣式以及運(yùn)行腳本以文本過濾的方式去除其中的空白和注釋字符,獲取相對簡化的用戶網(wǎng)頁文本信息,將得到的信息嵌入HTML格式標(biāo)簽后,對文本字符高于200個的文本節(jié)點(diǎn)進(jìn)行分詞處理,其抽取單元為標(biāo)簽文本節(jié)點(diǎn)。按照用戶屬性設(shè)置標(biāo)注類型,將用戶專業(yè)標(biāo)注為ORG,郵箱標(biāo)注為EML,專業(yè)標(biāo)注為PSN,所屬學(xué)校標(biāo)注為LCN,其余統(tǒng)一標(biāo)記為0,將所有標(biāo)注以label屬性標(biāo)記在相應(yīng)標(biāo)簽內(nèi)。
第二步:詞向量表示
利用上一步標(biāo)記的用戶信息文本節(jié)點(diǎn)建立詞庫表,以n維向量描述標(biāo)簽的文本節(jié)點(diǎn),其由o∈Rn表示,該詞向量由Word2Vec算法經(jīng)過迭代得到,并由長短期記憶神經(jīng)網(wǎng)絡(luò)依據(jù)詞特征獲取字符詞向量,二者分別由ow2v∈Rd1、ochars∈Rd2表示,二者關(guān)系滿足|d1|+|d2|=n。
令o=[c1,c2,…cp]表示用戶信息單詞,其詞向量由ci∈Rd3表示,該詞向量的長度為固定數(shù)值,利用長短期記憶神經(jīng)網(wǎng)絡(luò)對其字母級別展開映射。
第三步:節(jié)點(diǎn)序列表示
由于網(wǎng)頁位置對文本節(jié)點(diǎn)標(biāo)注類型影響較大[8],需對文本節(jié)點(diǎn)與其相連節(jié)點(diǎn)進(jìn)行特征提取,利用長短期記憶神經(jīng)網(wǎng)絡(luò)的第二個網(wǎng)絡(luò)層次訓(xùn)練文本節(jié)點(diǎn)序列后,可獲取到該節(jié)點(diǎn)前后信息詞向量,由h∈Rd表示,當(dāng)存在m個文本節(jié)點(diǎn)時,則其詞向量則由h1,h2,…h(huán)m∈Rk表示,從而獲取到用戶信息節(jié)點(diǎn)序列。
第四步:CRF層序列概率獲取
獲取到用戶信息的詞向量與節(jié)點(diǎn)序列后,LSTM-CRF用戶畫像信息抽取模型利用全連接層對詞向量展開解碼,可獲得詞向量的相對目標(biāo)標(biāo)簽得分[9,10]。
令b∈R5、W∈R5*k、s∈R5分別表示偏置矩陣、權(quán)重矩陣、分向量,三者之間關(guān)系可由s=W*h+b表示,在長短期記憶神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)最后添加條件隨機(jī)場層,利用該層獲取文本節(jié)點(diǎn)的標(biāo)簽概率分布,依據(jù)節(jié)點(diǎn)序列可獲取到文本節(jié)點(diǎn)的分向量s1,s2…sm和其所對應(yīng)的標(biāo)簽e1,e2…em,則條件隨機(jī)場層的損失表達(dá)公式如下
(1)
式中,b、δ、T分別表示初始標(biāo)簽、結(jié)束標(biāo)簽和狀態(tài)轉(zhuǎn)移矩陣,通過該公式可獲取用戶信息序列的標(biāo)簽概率分區(qū)情況,獲取最高標(biāo)簽序列。
利用動態(tài)規(guī)劃算法計算式(1),并將結(jié)果輸入到SoftMax函數(shù)內(nèi),獲取標(biāo)簽序列的得分概率分布,令Z表示序列概率之和,其表達(dá)公式如下
(2)
當(dāng)et作為標(biāo)簽初始序列時,經(jīng)過轉(zhuǎn)換后,得到序列概率表達(dá)公式如下
(3)
概率分布的優(yōu)化函數(shù)交叉熵表達(dá)公式如下
(4)
基于上述運(yùn)算,LSTM-CRF用戶畫像信息抽取模型建立完成,經(jīng)過訓(xùn)練模型參數(shù)并對該模型輸出數(shù)值實施解碼處理后,獲取最優(yōu)標(biāo)簽序列,完成用戶畫像的所屬國家與單位信息提取,用戶郵箱利用正則表達(dá)式進(jìn)行抽取,用戶頭像則通過人臉識別與標(biāo)簽文本相結(jié)合的形式進(jìn)行提取,至此用戶畫像信息自動提取完成。若實現(xiàn)用戶畫像自動生成,則需對提取到的用戶畫像信息標(biāo)簽進(jìn)行分類處理,更加精準(zhǔn)地描述當(dāng)前用戶[11,12],便于后續(xù)用戶畫像自動生成。
基于上述獲取的用戶畫像文本標(biāo)簽信息,使用多標(biāo)簽學(xué)習(xí)算法對其進(jìn)行分類,其步驟如下:
令X表示用戶畫像文本標(biāo)簽信息的輸入數(shù)據(jù),其標(biāo)簽矩陣由Y表示,則多標(biāo)簽的訓(xùn)練數(shù)據(jù)集由S={(xi,yi)|1≤i≤n}表示,其中xi、yi分別表示特征向量和標(biāo)簽向量。令L( )表示損失函數(shù),則多標(biāo)簽算法表達(dá)公式如下
(5)
式中,α表示正則化參數(shù)。
令pd|y、py|n分別表示特征標(biāo)簽條件概率矩陣和標(biāo)簽實例條件矩陣,則多標(biāo)簽算法分類表達(dá)公式如下
(6)
式中,θ表示拉普拉斯矩陣,Py表示標(biāo)簽奇異值矩陣,β表示可變參數(shù)。
通過對式(6)求解,得到用戶畫像的文本標(biāo)簽分類結(jié)果,為用戶畫像自動生成提供數(shù)據(jù)支撐,以此完成用戶畫像自動生成。
為驗證本文模型的實際應(yīng)用效果,以某大學(xué)圖書館用戶為實驗對象,使用本文模型生成大學(xué)生畫像,分析本文模型的應(yīng)用性。
以該圖書館用戶的性別信息和頭像信息作為實驗對象,抽取性別信息的精度減去抽取頭像信息的精度數(shù)值作為正偏差數(shù)值,反之則為反偏差數(shù)值,以兩種數(shù)值衡量本文模型信息抽取能力,在抽取文本大小不同時,測試本文模型提取的用戶性別信息與頭像信息正偏差數(shù)值和負(fù)偏差數(shù)值,分析其用戶信息抽取能力,結(jié)果如圖3所示。
圖3 用戶信息抽取測試結(jié)果
分析圖3可知,文本大小與信息抽取的正偏差數(shù)值和負(fù)偏差數(shù)值均成正比例關(guān)系,在文本大小為200kB之前,本文模型抽取的用戶信息正偏差和負(fù)偏差數(shù)值均為0,當(dāng)文本大小超過200kB后正負(fù)偏差數(shù)值逐漸拉大,當(dāng)文本大小為500kB時,模型用戶畫像信息抽取的正偏差數(shù)值和負(fù)偏差數(shù)值僅為0.08左右,該結(jié)果表明,本文模型在抽取用戶畫像信息時,受文本大小影響較低,抽取信息的精準(zhǔn)度較高。
漢明損失函數(shù)(Hamming Loss)是衡量標(biāo)簽分類能力的重要指標(biāo),統(tǒng)計在不同文本大小情況下,本文模型的漢明損失函數(shù)變化情況,結(jié)果如圖4所示。
圖4 用戶興趣標(biāo)簽分類測試結(jié)果
分析圖4可知,隨著用戶文本信息大小的增加,本文模型的漢明損失函數(shù)數(shù)值也隨之增加,但增加幅度較小,在文本大小為3000kB之前,模型的漢明損失函數(shù)數(shù)值始終保持在0.15左右,隨著文本大小的增加,漢明損失函數(shù)數(shù)值呈現(xiàn)指數(shù)上升趨勢,當(dāng)文本大小為9000kB時,本文模型的漢明損失函數(shù)數(shù)值僅為0.23左右,其增長幅度僅為0.08,該結(jié)果表明:本文模型的用戶興趣標(biāo)簽分類效果較好。
以該圖書館某一用戶借閱書籍以及在圖書館網(wǎng)站注冊信息為實驗對象,利用本文模型獲取到該用戶的部分圖書標(biāo)簽信息,如表1所示,依據(jù)表1所示的用戶信息生成用戶畫像如圖5所示。
表1 用戶圖書標(biāo)簽信息(部分)
圖5 圖書館用戶畫像
綜合分析表1和圖5可知,依據(jù)部分用戶標(biāo)簽信息,本模型所生成的圖書館用戶畫像涵蓋用戶id、郵箱、性別等基礎(chǔ)信息的同時,也包含用戶的個性簽名,對用戶標(biāo)簽信息整合后,提取到用戶的數(shù)據(jù)興趣標(biāo)簽共5個,依據(jù)書籍類別也可以呈現(xiàn)該用戶對歷史類和詩詞類書籍的偏好程度,圖書館管理系統(tǒng)可依據(jù)該用戶對書籍的偏好程度為其提供更精準(zhǔn)的服務(wù),該結(jié)果表明:本文模型可有效生成圖書館用戶畫像,充分描述用戶興趣特征。
本文設(shè)計的基于大數(shù)據(jù)驅(qū)動的用戶畫像自動生成模型由信息預(yù)處理層、畫像計算層、數(shù)據(jù)層,結(jié)果存儲層以及畫像展示層構(gòu)成。經(jīng)過實驗驗證:本文模型抽取的用戶畫像信息正偏差數(shù)值和負(fù)偏差數(shù)值僅為0.08左右,抽取信息的精準(zhǔn)度較高;漢明損失函數(shù)數(shù)值低,隨著文本大小的增加,該數(shù)值上升幅度較??;生成的圖書館用戶畫像涵蓋用戶基本信息的同時,用戶興趣特征描述清晰,且可呈現(xiàn)用戶的書籍類別偏好。