姜建武,李景文,陸妍玲,葉良松
(桂林理工大學(xué) 測(cè)繪地理信息學(xué)院,廣西 桂林 541004)
?
基于用戶畫(huà)像的信息智能推送方法*
姜建武,李景文,陸妍玲,葉良松
(桂林理工大學(xué) 測(cè)繪地理信息學(xué)院,廣西 桂林 541004)
針對(duì)傳統(tǒng)信息推送服務(wù)由于缺少對(duì)用戶個(gè)人綜合因素的考慮,存在針對(duì)性差、推廣轉(zhuǎn)化率低的問(wèn)題,在大數(shù)據(jù)理論基礎(chǔ)上提出了一種基于用戶畫(huà)像的智能信息推送方法。該方法將用戶抽象為結(jié)構(gòu)化信息本體,通過(guò)構(gòu)建行為-主題、主題-詞匯及行為-詞匯三位一體的數(shù)學(xué)模型,研究基于用戶畫(huà)像的信息本體提取方法。采用包含對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)六方面內(nèi)容的事件描述法計(jì)算本體權(quán)重,以此構(gòu)建用戶畫(huà)像。設(shè)計(jì)了基于用戶畫(huà)像的智能信息推送系統(tǒng),為大數(shù)據(jù)環(huán)境下面向用戶的智能信息推送提供了一種新的方法。
用戶畫(huà)像;信息推送;信息本體;大數(shù)據(jù)
基于“用戶畫(huà)像”的信息智能推送服務(wù)已經(jīng)廣泛應(yīng)用于亞馬遜、京東、阿里、百度、百分點(diǎn)、騰訊等電商和信息服務(wù)企業(yè),國(guó)內(nèi)外眾多學(xué)者也對(duì)其進(jìn)行了深入研究。彭藝等研究了云環(huán)境下智能推送服務(wù)在數(shù)字化教學(xué)中的應(yīng)用[1];顏友軍研究了移動(dòng)平臺(tái)上基于本體知識(shí)庫(kù)的問(wèn)答與Web服務(wù)推送系統(tǒng)[2];赫磊研究了基于云平臺(tái)的智慧旅游信息推送系統(tǒng)[3];黃舒榕提出了基于JXTA的移動(dòng)智能小區(qū)信息推送服務(wù)平臺(tái)[4];劉海等采用4C理論構(gòu)建了服裝領(lǐng)域的“用戶畫(huà)像”數(shù)據(jù)庫(kù),并在此基礎(chǔ)上構(gòu)建了精準(zhǔn)營(yíng)銷(xiāo)細(xì)分模型[5];莫靜泱構(gòu)建了B/S架構(gòu)的用戶健康消費(fèi)智能推送系統(tǒng)[6];肖鋒等圍繞LBS服務(wù)、情景模型和智能信息推送,提出了基于位置的智能信息服務(wù)模式[7-8]。然而,這些研究都是傳統(tǒng)的信息推送方法,缺少對(duì)用戶的偏好、時(shí)間、購(gòu)買(mǎi)力等個(gè)人因素的考慮,導(dǎo)致推送信息泛濫,缺乏精準(zhǔn)性。本文研究了用戶畫(huà)像數(shù)學(xué)模型的構(gòu)建及基于用戶畫(huà)像的智能信息推送方法,通過(guò)對(duì)用戶網(wǎng)絡(luò)行為數(shù)據(jù)和個(gè)人信息數(shù)據(jù)的采集、處理,建立用戶畫(huà)像數(shù)學(xué)模型,提取信息本體、計(jì)算本體權(quán)重,構(gòu)建用戶個(gè)人信息畫(huà)像,并融入信息智能推送過(guò)程,提供面向用戶的個(gè)性化精準(zhǔn)信息推送服務(wù)。
1.1 信息本體的確定
用戶畫(huà)像又稱用戶角色[9],是一種大數(shù)據(jù)環(huán)境下用戶信息標(biāo)簽化方法。信息本體是一種語(yǔ)義本體,分為靜態(tài)(如人口屬性、商業(yè)屬性等)和動(dòng)態(tài)兩類。靜態(tài)本體來(lái)自用戶注冊(cè)信息,該類本體自成標(biāo)簽,在實(shí)際提取中主要進(jìn)行數(shù)據(jù)清洗工作。動(dòng)態(tài)本體隱藏于用戶隨機(jī)互聯(lián)網(wǎng)行為中,具有隱蔽性,需通過(guò)數(shù)據(jù)分析,挖掘隱藏信息并提取本體,其提取過(guò)程如圖1所示。
圖1 動(dòng)態(tài)本體提取過(guò)程
圖1中,K表示主題集合,M表示行為集合,Nm表示第m個(gè)行為中的詞匯個(gè)數(shù),α,β為先驗(yàn)參數(shù)。
動(dòng)態(tài)本體的提取分為數(shù)據(jù)預(yù)處理、行為-主題建模、主題-詞匯建模和行為-詞匯建模四個(gè)部分,其中行為-主題模型與主題-詞匯模型服從Dirichlet分布,行為-詞匯模型服從Multiomial分布。
(1)行為數(shù)據(jù)預(yù)處理
首先過(guò)濾用戶行為數(shù)據(jù),去除非文本信息,且只保留行為文本中的動(dòng)詞和名詞[10],然后求解各詞匯的TF-IDF指標(biāo),保留指標(biāo)在70%以上的詞匯,構(gòu)成動(dòng)態(tài)本體數(shù)據(jù)源。
其中,TF指詞項(xiàng)頻率,TF-IDF指逆文檔頻率[11],TF-IDF指標(biāo)的計(jì)算公式為:
(1)
式(1)中,N代表互聯(lián)網(wǎng)行為總集,ni為詞匯i出現(xiàn)過(guò)的行為集合,j為某一行為記錄,fi,j表示詞i在j中出現(xiàn)的次數(shù)[12]。
(2)行為-主題建模
從參數(shù)為α的Dirichlet分布中抽取各文檔M對(duì)應(yīng)的行為-主題分布模型,記為θm,則有[10]:
θm~Dir(α),m∈[1,M]
(2)
其中整個(gè)行為庫(kù)中主題的生成概率為:
(3)
(3) 主題-詞匯建模
從參數(shù)為β的Dirichlet分布中抽取各主題K對(duì)應(yīng)的主題-詞匯分布模型,記為φk,則:
φk~Dir(β), k∈[1,K]
(4)
其中所有主題中詞匯生成的概率為:
(5)
根據(jù)主題生成概率和詞匯生成概率得出主題-詞匯的聯(lián)合分布為:
p(w,z|α,β)=p(w|z,β)p(z|α)
(6)
(4) 行為-詞匯建模
根據(jù)主題-詞匯分布模型和行為-主題分布模型,則行為m對(duì)應(yīng)的第n個(gè)詞匯的計(jì)算過(guò)程為:
① 從θm中采樣一個(gè)主題,記為Zm,n,則[10]:
(7)
② 根據(jù)計(jì)算的主題Zm,n,從φk中取出與Zm,n對(duì)應(yīng)的特定單詞Wm,n:
Wm,n~Mult(Zm,n)
(8)
在以上求解過(guò)程中,Wm,n為獲取量,Zm,n為隱含量,本文采用Gibbs Sampling采樣法求解Zm,n,由于圖1中①和②兩過(guò)程均服從Dirichlet-Multiomial共軛分布,根據(jù)前述所得的聯(lián)合分布p(w,z|α,β),并將行為Z中的第i個(gè)詞對(duì)應(yīng)的主題記為Zi,i表示去除下標(biāo)為i的詞,假設(shè)已經(jīng)觀測(cè)的詞wi=t,則有如下推導(dǎo):
p(zi=k|z,w)∝p(zi=k,wi=t|z,w)
(9)
(10)
根據(jù)以上兩式,得到最終行為-詞匯模型的Gibbs Sampling公式如下[13-14]:
(11)
通過(guò)以上步驟,提取用戶隨機(jī)互聯(lián)網(wǎng)行為中的動(dòng)態(tài)信息本體,綜合靜態(tài)信息本體,構(gòu)成用戶畫(huà)像數(shù)學(xué)模型的label參數(shù)。label只能表示用戶的興趣偏向內(nèi)容,而無(wú)法體現(xiàn)偏向程度,需計(jì)算label權(quán)重p(i)。
1.2 本體權(quán)重的計(jì)算
權(quán)重用于表示用戶對(duì)某一本體的偏向程度。靜態(tài)本體相對(duì)穩(wěn)定,權(quán)重設(shè)為1。目前,用戶畫(huà)像標(biāo)簽權(quán)重的計(jì)算主要考慮對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容4個(gè)因素,文中提出用戶隨機(jī)互聯(lián)網(wǎng)行為的對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次數(shù)6因素事件描述法,可更全面地描述用戶的隨機(jī)互聯(lián)網(wǎng)行為。采用6因素事件描述法表示的互聯(lián)網(wǎng)隨機(jī)行為動(dòng)態(tài)本體的權(quán)重計(jì)算方法如下:
(1) 對(duì)象
對(duì)象即互聯(lián)網(wǎng)上區(qū)分用戶的標(biāo)識(shí)(Cookie、IP、Email、身份證等),不同標(biāo)識(shí)的可信度不同。對(duì)象權(quán)重為該標(biāo)識(shí)可信度值與可信度值總和的比值,即:
(12)
(2) 時(shí)間
時(shí)間包含時(shí)間戳和時(shí)間間隔兩方面內(nèi)容。時(shí)間戳用于標(biāo)識(shí)事件發(fā)生、結(jié)束的時(shí)刻,時(shí)間間隔用于標(biāo)識(shí)瀏覽時(shí)間,則時(shí)間對(duì)動(dòng)態(tài)本體的權(quán)重T(label)記為瀏覽本體的時(shí)間與用戶所有上網(wǎng)時(shí)間的比值,即:
(13)
(3) 地點(diǎn)(接觸點(diǎn))
地點(diǎn)是用戶互聯(lián)網(wǎng)行為的接觸點(diǎn)(天貓、官網(wǎng)等),用戶行為接觸點(diǎn)的不同,對(duì)標(biāo)簽的影響亦不同。為不同接觸點(diǎn)設(shè)置重要程度度量值,則地點(diǎn)對(duì)本體的權(quán)重L(label)為:
(14)
(4) 內(nèi)容
內(nèi)容是動(dòng)態(tài)本體權(quán)重的重要組成部分,標(biāo)識(shí)了一個(gè)互聯(lián)網(wǎng)行為的核心,用C(label)表示,即該動(dòng)態(tài)本體包含詞匯的最大TF-IDF指標(biāo):
(15)
(5) 行為
行為是用戶對(duì)網(wǎng)站內(nèi)容的操作,如瀏覽、收藏等,不同的行為具有的權(quán)重不同,用A(label)表示,計(jì)算公式為:
(16)
(6) 重返次數(shù)
重返次數(shù)體現(xiàn)了用戶對(duì)該網(wǎng)站(產(chǎn)品、內(nèi)容)的關(guān)注程度,這將在很大程度上影響該次互聯(lián)網(wǎng)行為的“有效性”。重返次數(shù)采用R(label)表示,其權(quán)重為該行為的重返次數(shù)與用戶所有瀏覽次數(shù)的比值,計(jì)算公式為:
(17)
1.3 用戶畫(huà)像最終數(shù)學(xué)模型
用戶畫(huà)像最終數(shù)學(xué)模型如式(18)所示。
C(label)+A(label)+R(label)]×0.2×ri}
(18)
式中l(wèi)abeli表示某一方面用戶的信息標(biāo)簽,p(i)表示該標(biāo)簽的權(quán)重,Obj(label)、T(label)、L(label)、C(label)、A(label)、R(label)為事件對(duì)應(yīng)六方面內(nèi)容對(duì)標(biāo)簽的權(quán)重,r為衰減因子,用來(lái)描述信息本體對(duì)某一標(biāo)簽的興趣隨著時(shí)間變化的衰減程度。
推送技術(shù)的模式分為操作式推送和觸發(fā)式推送兩種[15]?;谟脩舢?huà)像的智能信息推送系統(tǒng)是操作式推送與觸發(fā)式推送的結(jié)合體,即客戶端操作觸發(fā)信息推送與服務(wù)器主動(dòng)推送二者相結(jié)合。該系統(tǒng)分為數(shù)據(jù)獲取及處理、信息本體獲取及權(quán)重計(jì)算、信息推送三個(gè)階段,具體過(guò)程如下:
(1) 數(shù)據(jù)獲取及處理
用戶基本數(shù)據(jù)(年齡、體重等)通過(guò)注冊(cè)信息獲取,該部分信息相對(duì)穩(wěn)定,為靜態(tài)信息本體(如表1所示),權(quán)重定為1。動(dòng)態(tài)本體隱藏于用戶行為中,通過(guò)用戶互聯(lián)網(wǎng)行為抓取,實(shí)現(xiàn)電商、社交、媒體等信息的獲取。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,主要獲取網(wǎng)頁(yè)的標(biāo)題信息,過(guò)濾用戶行為中非文本信息,只保留動(dòng)詞與名詞,且只保留TF-IDF指標(biāo)在70%以上的詞匯,并按照對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為五方面內(nèi)容以天為單位存儲(chǔ)至數(shù)據(jù)庫(kù)(如表2所示)。
表1 靜態(tài)本體記錄表
表2 互聯(lián)網(wǎng)行為記錄表
(2)動(dòng)態(tài)信息本體獲取
通過(guò)行為-主題建模、主題-詞匯建模、行為-詞匯建模三個(gè)過(guò)程,從用戶行為庫(kù)中挖掘動(dòng)態(tài)信息本體,提取行為主體及主題詞匯。
(3)動(dòng)態(tài)信息本體權(quán)重計(jì)算
根據(jù)對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為五個(gè)方面,依據(jù)動(dòng)態(tài)信息本體權(quán)重計(jì)算公式求解其聯(lián)合影響權(quán)重。
(4)用戶畫(huà)像構(gòu)建
根據(jù)步驟(1)、(2)、(3)所得結(jié)果,結(jié)合用戶畫(huà)像數(shù)學(xué)模型,構(gòu)建特定用戶的用戶畫(huà)像,采用非關(guān)系型數(shù)據(jù)庫(kù)MongoDB以Bson格式存儲(chǔ)。對(duì)用戶畫(huà)像做可視化處理,直觀顯示用戶偏向內(nèi)容及偏向程度,如圖2所示。
圖2 用戶畫(huà)像柱狀圖
(5)信息推送
將用戶畫(huà)像中各信息本體按照權(quán)重排列,采用LBS技術(shù)定位用戶實(shí)時(shí)位置,以位置和信息本體為查詢條件,查詢信息數(shù)據(jù)庫(kù),將查詢結(jié)果組合、排序,為用戶提供符合個(gè)人情況的智能信息,如圖3。
圖3 推送結(jié)果
本文提出的信息本體概念利于用戶描述和計(jì)算機(jī)處理,基于行為-主題、主題-詞匯及行為-詞匯模型的信息本體提取方法和采用對(duì)象、時(shí)間、地點(diǎn)、內(nèi)容、行為和重返次
數(shù)的聯(lián)合影響權(quán)重計(jì)算方法構(gòu)建的用戶畫(huà)像數(shù)學(xué)模型,能夠較好地描述用戶偏好。本文設(shè)計(jì)的基于用戶畫(huà)像的智能信息推送系統(tǒng),為大數(shù)據(jù)環(huán)境下的精準(zhǔn)營(yíng)銷(xiāo)提供了一種新的方法。
[1] Peng Yi .An application for digital teaching of intelligent push technology under the cloud environment[C].International Conference on Social Science and Education,2013:398-403.
[2] 顏友軍.移動(dòng)平臺(tái)上基于本體知識(shí)庫(kù)的問(wèn)答與Web服務(wù)推送系統(tǒng)[D].南京:南京大學(xué),2013.
[3] 赫磊.基于云平臺(tái)的智慧旅游信息推送系統(tǒng)研究[D].西安:西安工業(yè)大學(xué),2014.
[4] 黃舒榕.基于JXTA的移動(dòng)智能小區(qū)信息推送服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].廈門(mén):廈門(mén)大學(xué),2014.
[5] 劉海,盧慧,阮金花,等.基于“用戶畫(huà)像”挖掘的精準(zhǔn)營(yíng)銷(xiāo)細(xì)分模型研究[J].絲綢,2015,52(12):37-42.
[6] 莫靜泱.基于數(shù)據(jù)挖掘的用戶個(gè)性化健康消費(fèi)智能推送系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].南京:南京郵電大學(xué),2015.
[7] 肖鋒,侯岳,王留召,等.基于LBS的智能信息推送技術(shù)研究[J].測(cè)繪與空間地理信息,2015 (6):125-127.
[8] 肖鋒,侯岳,賈寶.情境建模下的LBS智能信息服務(wù)推送方法[J].測(cè)繪通報(bào),2016(4):96-98.
[9] 余孟杰.產(chǎn)品研發(fā)中用戶畫(huà)像的數(shù)據(jù)建模——從具象到抽象[J].設(shè)計(jì)藝術(shù)研究,2014,4(6):62-64.
[10] 何建云,陳興蜀,杜敏,等.基于改進(jìn)的在線LDA模型的主題演化分析[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(2):547-553.
[11] 周品.云時(shí)代的大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2013.
[12] 張亮.數(shù)字圖書(shū)館多層次閱讀擴(kuò)展系統(tǒng)[D].杭州:浙江大學(xué),2010.
[13] LDA-math-LDA [EB/OL].(2013-02-03)[2016-07-30].https://www.baidu.com/link?url=7pX4p07QnrELNMnz Fp8w_tOVaZQjd_M_YCzH-J3K76EkWWlLdGHKTz7O0 BUQlsgOrp5zWAa87JtJ082036AWV_DTPWUPvUrK-0x9U8Wc44_&wd=&eqid=d0a6f0b80002a92f000000035672ad45.
[14] GREGOR Heinrich. Parameter estimation for text analysis[R].Darmstadt: Fraunhofer,2009:17-30.
[15] 石巖.基于智能推送技術(shù)的個(gè)性化服務(wù)系統(tǒng)研究[J].現(xiàn)代情報(bào),2006,26(10):146-148.
Intelligent information push method based on user portrait
Jiang Jianwu,Li Jingwen,Lu Yanling,Ye Liangsong
(College of Geomatics and Geoinformation,Guilin University of Technology,Guilin 541004,China)
Traditional information push service lack of consideration of user's personal factors, so has two problems of low efficiency and low conversion, to solve these problems, this paper presents a new intelligent information push method based on user portrait and big data theory. This method abstracts user as a structured information noumenon, through building behavior-theme, theme-words and behavior-words mathematical model, to study the information ontology extraction method based on the user portrait. The body weight is calculated by six aspects including the object, time, place, content , behavior and return times, comprehensive information ontology and weight to build a user portrait and design a intelligent information push process based on user portrait. The method provides a new way for the intelligent information push in the large data environment.
user portrait; information push; information ontology; big data
廣西自然科學(xué)基金項(xiàng)目(2014GXNSFDA118032);廣西科學(xué)研究與技術(shù)開(kāi)發(fā)計(jì)劃項(xiàng)目(1598019-4);廣西桂林市科技攻關(guān)項(xiàng)目(20140108-2)
TP399
A
10.19358/j.issn.1674- 7720.2016.23.025
姜建武,李景文,陸妍玲,等. 基于用戶畫(huà)像的信息智能推送方法[J].微型機(jī)與應(yīng)用,2016,35(23):86-89,92.
2016-08-13)
姜建武(1992-),通訊作者,男,碩士研究生,主要研究方向:GIS理論和應(yīng)用。E-mail: 1126926348@qq.com。
李景文(1971-),男,博士,教授,主要研究方向:GIS理論和應(yīng)用。
陸妍玲(1988-),女,碩士研究生,講師,主要研究方向:GIS理論和應(yīng)用。