蘇翠華 熊婷
摘? 要: 針對(duì)目前用于精準(zhǔn)營(yíng)銷推送的用戶畫像模型普遍存在全面性與深入性差等問題,文中基于深度學(xué)習(xí)技術(shù)研究用于精準(zhǔn)營(yíng)銷推送的用戶畫像模型構(gòu)建算法。該算法利用結(jié)巴分詞算法與SIFT方法對(duì)短文本與圖片進(jìn)行預(yù)處理與融合,借助PGBN深度學(xué)習(xí)模型及吉布斯向上?向下的采樣方法對(duì)用戶畫像模型進(jìn)行構(gòu)建與訓(xùn)練,從而獲取用戶的興趣、愛好等信息。對(duì)測(cè)試數(shù)據(jù)集進(jìn)行的仿真計(jì)算結(jié)果表明,該文算法由于融合圖片與文本數(shù)據(jù),相較于普通算法,能夠較為全面地獲取用戶的屬性特征,因此在精準(zhǔn)營(yíng)銷推送中發(fā)揮著重要作用。
關(guān)鍵詞: 精準(zhǔn)營(yíng)銷推送; 深度學(xué)習(xí); 用戶畫像模型; 模型訓(xùn)練; 信息獲取; 數(shù)據(jù)集測(cè)試
中圖分類號(hào): TN911?34; TP181? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)22?0144?04
Abstract: In allusion to the problems that the user portrait models used for precision marketing push are generally poor comprehensiveness and depth, the construction algorithm of the user portrait model used in precision marketing push is researched based on the deep learning technology. In this algorithm, short text and pictures are preprocessed and fused by means of the stuttering segmentation algorithm and SIFT method, and the user portrait model is constructed and trained by means of the PGBN deep learning model and Gibbs up?down sampling method, so as to obtain the users′ interests, hobbies and other information. The simulation results of the testing dataset show that, in comparison with the ordinary algorithm, the algorithm can acquire the attributive character of users more comprehensively because of the fusion of image and text data, so it play an important role in the accurate marketing push.
Keywords: precision marketing push; deep learning; user portrait model; model training; information obtain; dataset testing
0? 引? 言
互聯(lián)網(wǎng)技術(shù)的發(fā)展與社交媒體的誕生促進(jìn)了信息的傳播,為人們的溝通及交流提供了新的渠道與方法[1?2]。其可以通過社交媒體等開放的公共平臺(tái),跨越時(shí)間與物理距離,進(jìn)行自由的分享、學(xué)習(xí)、溝通和交流,呈現(xiàn)并記錄自己的日常生活,表達(dá)內(nèi)心的興趣愛好。因此社交媒體所產(chǎn)生的社交數(shù)據(jù),能夠充分反映出用戶的興趣愛好、日常行為與習(xí)慣、心理活動(dòng)等屬性特征。對(duì)于互聯(lián)網(wǎng)思維下各行業(yè)的精準(zhǔn)營(yíng)銷、產(chǎn)品個(gè)性化分析與優(yōu)化而言,具有較高的挖掘價(jià)值[3?5]。
目前,利用用戶畫像模型提取與分析用戶在社交媒體上表現(xiàn)出的特征是數(shù)據(jù)挖掘及應(yīng)用的一種常用手段[6?7]。通過用戶行為習(xí)慣、基本屬性等特征的提取與分析,可構(gòu)建包含興趣愛好、年齡、性別、職業(yè)、消費(fèi)行為等在內(nèi)的標(biāo)簽化用戶畫像模型。然而,由于用戶屬性事先定義的局限性與社交媒體內(nèi)容模式的多樣性,傳統(tǒng)用戶畫像模型的屬性描述通常存在不全面、不夠深入等缺陷[8]。基于此,本文針對(duì)微博的圖像與文本數(shù)據(jù),通過引入深度學(xué)習(xí)技術(shù),設(shè)計(jì)并研究了用于精準(zhǔn)營(yíng)銷推送的用戶畫像模型構(gòu)建算法。
1? 理論和技術(shù)分析
1.1? 用戶畫像及構(gòu)建方法
用戶畫像,即根據(jù)社交媒體上呈現(xiàn)出的用戶行為習(xí)慣、基本屬性、心理活動(dòng)等內(nèi)容。構(gòu)建標(biāo)簽化的用戶原型,從而得到用戶的年齡、性別、職業(yè)等標(biāo)簽特征。其構(gòu)建的一般流程如圖1所示,依次為基礎(chǔ)數(shù)據(jù)收集、預(yù)處理與建模。
其中,基礎(chǔ)數(shù)據(jù)收集主要包括用戶的基本屬性信息數(shù)據(jù)(用戶注冊(cè)過程中提交的姓名、性別、教育情況等信息)、瀏覽行為與內(nèi)容數(shù)據(jù)(用戶日常的行為習(xí)慣與發(fā)表內(nèi)容,如網(wǎng)購(gòu)記錄、網(wǎng)頁(yè)瀏覽記錄、發(fā)表的圖文等)、相關(guān)屬性信息數(shù)據(jù)(如產(chǎn)品評(píng)價(jià))和服務(wù)需求數(shù)據(jù)(如查詢操作)等;數(shù)據(jù)預(yù)處理主要包括文本與圖片數(shù)據(jù)的處理,通過對(duì)文本數(shù)據(jù)的分詞、停用詞去除與詞頻統(tǒng)計(jì),以及對(duì)圖片數(shù)據(jù)的特征提取與表示,從而進(jìn)行爬取數(shù)據(jù)的標(biāo)準(zhǔn)化操作,供后續(xù)處理與分析評(píng)價(jià)的使用;用戶畫像建模主要通過遺傳算法、聚類算法和各類神經(jīng)網(wǎng)絡(luò)算法對(duì)用戶屬性進(jìn)行抽象提取。
1.2? 預(yù)處理技術(shù)
預(yù)處理技術(shù)主要用于實(shí)現(xiàn)文本與圖片的預(yù)處理。對(duì)于文本而言,主要為特殊用語、停用詞去除與文本分詞、建立文本詞袋模型等步驟。其中,分詞方法主要有基于知識(shí)理解、基于詞庫(kù)匹配或基于詞頻統(tǒng)計(jì)的三類方法。本文則選用結(jié)合詞庫(kù)匹配與詞頻統(tǒng)計(jì)的結(jié)巴分詞方法,綜合前者分詞速度快與后者針對(duì)新詞或歧義詞分詞效果好的兩種優(yōu)勢(shì),能夠得到較為理想的分詞效果[9]。
對(duì)于圖片而言,預(yù)處理主要為圖片特征提取,用于圖像典型像素點(diǎn)信息的提取。圖片特征提取方法主要有HOG方向梯度直方圖、HAAR矩形特征、SIFT尺度不變特征變換、LBP局部二值模式等方法[10?11]??紤]到SIFT方法具有較高的容忍性、獨(dú)特性與多量性,本文的圖片特征提取方法選用SIFT方法。
1.3? PGBN主題模型
PGBN為有向深度網(wǎng)絡(luò)主題模型,有別于DBN等傳統(tǒng)網(wǎng)絡(luò)的二元隱藏單元。其非負(fù)實(shí)隱藏單元符合伽馬分布,能夠無監(jiān)督地推導(dǎo)表示出多層多元的計(jì)數(shù)向量,實(shí)現(xiàn)隱藏可見特征相關(guān)性的簡(jiǎn)單有效表示[12]。PGBN主題模型將觀測(cè)計(jì)數(shù)向量(泊松近似下)分解轉(zhuǎn)換為第一層隱藏單元(伽馬分布下)與因子載荷矩陣的乘積,并進(jìn)一步將該層隱藏單元分解轉(zhuǎn)換為下一層隱藏單元與連接權(quán)重矩陣的乘積。相比于傳統(tǒng)二元隱藏單元深層網(wǎng)絡(luò)的推理處理及網(wǎng)絡(luò)深度與各層寬度的調(diào)整要求,PGBN主題模型能夠在第一層寬度確定的情況下,使用非負(fù)實(shí)隱藏單元對(duì)后續(xù)層寬度進(jìn)行推導(dǎo)。
2? 用戶畫像模型的構(gòu)建
2.1? 文本和圖片預(yù)處理
本文文本預(yù)處理的一般流程如圖2a)所示。借助結(jié)巴中文分詞包配套的Python組件進(jìn)行分詞操作,經(jīng)停用詞表遍歷后,將無意義的停用詞與無效詞過濾,進(jìn)而整合成詞匯表。詞匯表中,同種詞匯有序放置在同一行,各種詞匯所對(duì)應(yīng)的行數(shù)記為索引值。進(jìn)一步列出計(jì)數(shù)矩陣[Xw],用于統(tǒng)計(jì)微博中的詞頻,其各元素[Xw(i,j)]即表示詞匯[i]出現(xiàn)在文檔[j]中的頻率。
圖片預(yù)處理則使用了SIFT方法對(duì)圖片局部特征進(jìn)行提取。在不同空間尺度中,對(duì)極值點(diǎn)進(jìn)行尋找并將其作為關(guān)鍵點(diǎn),進(jìn)而得到圖像特征向量。該向量包含方向、尺度與位置信息。其一般流程如圖2b)所示。用[128×n]的描述子對(duì)得到的局部特征關(guān)鍵點(diǎn)的維度與數(shù)量進(jìn)行表示,所有的描述子則構(gòu)成了該幅圖像的集合。由于每幅圖像得到的SIFT矢量數(shù)目龐大,會(huì)給計(jì)算資源帶來較大的壓力。因此采用聚類算法對(duì)上述集合元素進(jìn)行聚類,生成與特征矢量逐一對(duì)應(yīng)的視覺序列,從而得到描述該幅圖像的字典。字典的構(gòu)造步驟可描述為:對(duì)[M]幅圖像的[N]個(gè)SIFT特征進(jìn)行提取;利用K?means算法進(jìn)行聚類,得到[k]個(gè)聚類中心(即視覺詞),進(jìn)而得到長(zhǎng)度為[k]的字典;計(jì)算各特征與上述聚類中心的距離,并對(duì)與聚類中心距離最近的詞頻進(jìn)行統(tǒng)計(jì),從而得到表示每幅圖像的詞頻矢量;歸一化處理每幅圖像經(jīng)聚類得到的字典矢量,最終構(gòu)造出字典。
2.2? 模型框架和構(gòu)建方法
文中主要根據(jù)目前使用廣泛的微博內(nèi)容進(jìn)行用戶畫像模型的構(gòu)建,因此數(shù)據(jù)集主要由微博用戶的圖片與配套短文本構(gòu)成。本文用戶畫像模型的框架即流程如圖3所示。
借助詞袋方式對(duì)圖像與文本數(shù)據(jù)進(jìn)行處理,得到相應(yīng)的原始特征,進(jìn)而生成視覺與文本詞袋。用潛變量[Θ(t)j∈RKt+]描述文件[j]中圖片與文本的模態(tài)共享,該潛變量符合伽馬分布,為串聯(lián)的視覺與文本隱藏單元[θ(t)w-j∈RKt+]和[θ(t)v-j∈RKt+]。其中,層數(shù)[t=1,2,…,T-1],[R+={w:w≥0,v:v≥0}]。此外,用[θ(t)v∈RKtKt+1+]與[θ(t)w∈RKtKt+1+]分別表示圖片和文本中表現(xiàn)出的主題?;赑GBN深度學(xué)習(xí)網(wǎng)絡(luò)模型建立包含5層隱藏單元的深度網(wǎng)絡(luò),并使用吉布斯向上?向下的采樣方法對(duì)參數(shù)進(jìn)行推導(dǎo)采樣[13]。
3? 仿真和分析
文中隨機(jī)選擇2 985名微博活躍用戶,爬取基本用戶信息與其所發(fā)布同時(shí)含有文本與圖片的257 952條微博,作為本文模型的訓(xùn)練與測(cè)試數(shù)據(jù)集。在訓(xùn)練模型時(shí),選用了Layer?Wise訓(xùn)練方法,第一層的寬度設(shè)置為400,網(wǎng)絡(luò)深度設(shè)置為5,初始化超參數(shù)值為[a0=b0=0.011],[e0=f0=0.9],所有層均滿足[η(t)=ξ(t)=0.04]。
在對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行文本與圖片預(yù)處理后,訓(xùn)練并構(gòu)建本文的用戶畫像模型,得到包括軍事、美食、寵物、體育、旅游、數(shù)碼、健身、音樂、美妝、游戲在內(nèi)的10個(gè)偏向于興趣愛好的用戶屬性主題。其部分主題的主題詞與權(quán)重如表1所示。可以看到,部分主題詞會(huì)在不同的主題中出現(xiàn),例如“跑步”同時(shí)出現(xiàn)在健身與體育主題中,這是因?yàn)閮烧呔哂休^高的關(guān)聯(lián)性。此外,各主題下的大部分主題詞均具有獨(dú)特的特征,比如動(dòng)作、瑜伽、健身等能夠較明顯地看出其屬于“健身”這一主題。
本文挑選的3名微博用戶興趣愛好情況如圖4所示。從圖4可看出,不同用戶具有不同屬性特點(diǎn),在各個(gè)主題的偏好上具有不同的傾向分布。其中,用戶1對(duì)美妝主題具有最高的關(guān)注度,其次是健身、美食、寵物與游戲;用戶2則偏愛于健身,其次是美妝與美食;用戶3對(duì)于軍事主題具有較高的關(guān)注度,而對(duì)于其他的主題則關(guān)注度較低。因此,可以利用本文的用戶畫像模型獲取用戶的屬性與興趣愛好,進(jìn)而實(shí)現(xiàn)精準(zhǔn)營(yíng)銷與推送。
此外,本文同樣利用測(cè)試數(shù)據(jù)集對(duì)傳統(tǒng)的用戶畫像模型進(jìn)行測(cè)試。發(fā)現(xiàn)當(dāng)用戶發(fā)表的內(nèi)容形式單一時(shí),得到的用戶屬性通常并不完整,缺失用戶興趣愛好標(biāo)簽的概率較大。這是因?yàn)閭鹘y(tǒng)模型只針對(duì)文本或圖片進(jìn)行構(gòu)建,而本文算法由于融合了圖片與文本兩種數(shù)據(jù),所以能夠有效改善這一狀況。
4? 結(jié)? 語
本文基于深度學(xué)習(xí)技術(shù)對(duì)用戶畫像模型構(gòu)建算法進(jìn)行了研究。通過借助結(jié)巴分詞算法與SIFT方法,對(duì)短文本及圖片進(jìn)行了預(yù)處理與融合,并結(jié)合PGBN深度學(xué)習(xí)模型與吉布斯向上?向下的采樣方法,實(shí)現(xiàn)了用戶畫像模型的構(gòu)建和訓(xùn)練。本文方法能夠同時(shí)利用網(wǎng)絡(luò)上的文本與圖片信息,精準(zhǔn)地采集、分析出用戶的興趣愛好特征信息并全面獲取用戶的屬性特征,從而有效提高營(yíng)銷推送的精準(zhǔn)性與目的性。
參考文獻(xiàn)
[1] 李鑫,郭進(jìn)利,張禹.互聯(lián)網(wǎng)空間下的城市網(wǎng)絡(luò)格局及結(jié)構(gòu)研究[J].計(jì)算機(jī)應(yīng)用研究,2017,34(3):808?812.
[2] 田鶴,趙海,王進(jìn)法,等.互聯(lián)網(wǎng)傳播行為的時(shí)序演化與預(yù)測(cè)[J].通信學(xué)報(bào),2018,39(6):116?126.
[3] 田亞明.鐵路移動(dòng)互聯(lián)網(wǎng)營(yíng)銷策略研究[J].鐵路計(jì)算機(jī)應(yīng)用,2017,26(6):48?51.
[4] 葛從進(jìn).基于移動(dòng)互聯(lián)網(wǎng)的客戶營(yíng)銷管理系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].南京:南京理工大學(xué),2018.
[5] GAO Weifeng, HUANG Lingling, LIU Sanyang, et al. Artificial bee colony algorithm based on information learning [J]. IEEE transactions on cybernetics, 2015, 45(12): 2827?2839.
[6] 李恒超,林鴻飛,楊亮,等.一種用于構(gòu)建用戶畫像的二級(jí)融合算法框架[J].計(jì)算機(jī)科學(xué),2018,45(1):157?161.
[7] BOYER V. An artistic portrait caricature model [C]// International Symposium on Visual Computing. Berlin: Springer, 2005: 212?216.
[8] 于興尚,王迎勝.面向精準(zhǔn)化服務(wù)的圖書館用戶畫像模型構(gòu)建[J].圖書情報(bào)工作,2019,63(22):41?48.
[9] 成于思,施云濤.面向?qū)I(yè)領(lǐng)域的中文分詞方法[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(17):30?34.
[10] LI Y, HU M, WANG T Y. Weld image recognition algorithm based on deep learning [J]. International journal of pattern recognition and artificial intelligence, 2020, 34(8): 17.
[11] 辛亮亮.基于局部二值模式的圖像特征描述方法研究[D].重慶:重慶郵電大學(xué),2019.
[12] 郭丹丹,陳渤,叢玉來,等.基于PGBN模型的SAR圖像目標(biāo)識(shí)別方法[J].電子與信息學(xué)報(bào),2016,38(12):2996?3003.
[13] 張志遠(yuǎn),楊宏敬,趙越.基于吉布斯采樣結(jié)果的主題文本網(wǎng)絡(luò)構(gòu)建方法[J].計(jì)算機(jī)工程,2017,43(6):150?157.