陳志明, 胡震云
?
UGC網(wǎng)站用戶畫像研究①
陳志明, 胡震云
(河海大學(xué)商學(xué)院, 南京 211100)
近幾年, 社交網(wǎng)絡(luò)的高速發(fā)展使人們的工作、生活、學(xué)習(xí)方式發(fā)生了重大改變, 人們獲取知識(shí)的方式呈現(xiàn)明顯的網(wǎng)絡(luò)化趨勢(shì). 人們通過網(wǎng)絡(luò)獲取信息的同時(shí), 也在其上留下了個(gè)人的痕跡, 考慮到現(xiàn)實(shí)中獲取個(gè)人信息成本高昂, 捕捉其在網(wǎng)絡(luò)中留下的痕跡, 研究其在網(wǎng)絡(luò)社會(huì)中的“映射”, 不失為一種可行的方法. 用戶畫像作為真實(shí)用戶的虛擬代表, 是建立在一系列真實(shí)數(shù)據(jù)之上的用戶模型. 通過對(duì)“知乎”網(wǎng)站的深入挖掘, 構(gòu)建了基于用戶基本屬性、社交屬性、興趣屬性和能力屬性四個(gè)維度的動(dòng)態(tài)用戶畫像模型, 并對(duì)“知乎”網(wǎng)站PM 2.5話題下1303位用戶進(jìn)行實(shí)證分析.
知乎網(wǎng); 用戶畫像; 社交影響力; h指數(shù)
近十年, 隨著Web2.0概念的成熟應(yīng)用, 社交網(wǎng)絡(luò)獲得了“井噴式”發(fā)展, 影響著人們的學(xué)習(xí)、生活、工作等方式, 每一個(gè)“觸網(wǎng)”的人都在發(fā)生著潛移默化的改變. 人們縱情遨游網(wǎng)絡(luò)的同時(shí), 也在網(wǎng)絡(luò)中留下的大量的個(gè)人“痕跡”. 隨著社交網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大, 個(gè)人的“痕跡”也在不斷增多. 在學(xué)術(shù)界與產(chǎn)業(yè)界, 如何獲取這些“痕跡”, 如何利用這些“痕跡”的討論不絕于耳. 社會(huì)學(xué)家需要這些“痕跡”來剖析網(wǎng)絡(luò)結(jié)構(gòu)的演變、網(wǎng)絡(luò)傳播學(xué)等; 網(wǎng)站的擁有者希望利用“痕跡”為用戶提供更好的網(wǎng)絡(luò)體驗(yàn); 社交網(wǎng)絡(luò)上的商家希望利用“痕跡”進(jìn)行精準(zhǔn)的廣告投放; 政府部門需要對(duì)社交網(wǎng)絡(luò)上的用戶言論進(jìn)行監(jiān)管, 尤其是對(duì)輿情的控制和非法言論的處理. 用戶畫像模型為解決這些問題提供了可能的方法.
隨著技術(shù)的發(fā)展和數(shù)據(jù)資源的累積, 碎片化的“痕跡”才慢慢組合為用戶畫像. 用戶畫像作為真實(shí)用戶的虛擬代表, 是建立在一系列真實(shí)數(shù)據(jù)之上的用戶模型. 目前有許多關(guān)于用戶畫像的實(shí)際應(yīng)用, 比如趙曙光[1]基于對(duì)高轉(zhuǎn)化率的社交媒體用戶研究重要性的認(rèn)識(shí), 通過一對(duì)一的深度訪談的方式對(duì)用戶的社交媒體使用動(dòng)機(jī)和行為進(jìn)行總結(jié)概括, 對(duì)社交用戶進(jìn)行分類. 劉海[2]等基于4C理論構(gòu)建了“用戶畫像”數(shù)據(jù)庫, 通過對(duì)數(shù)據(jù)庫的挖掘來進(jìn)行消費(fèi)者群體細(xì)分. 在此基礎(chǔ)上, 從營銷的角度構(gòu)建了精準(zhǔn)營銷細(xì)分模型. 此外,在個(gè)性化推薦系統(tǒng)[3]、產(chǎn)品研發(fā)[4]、廣告投放[5]等領(lǐng)域也有用戶畫像的應(yīng)用. 對(duì)用戶畫像的分析不僅可以更好的認(rèn)識(shí)網(wǎng)絡(luò)中的用戶, 從而低成本、高效率的完成公眾參與社會(huì)活動(dòng), 還可以對(duì)現(xiàn)有網(wǎng)絡(luò)進(jìn)行更好的完善, 推動(dòng)社交網(wǎng)絡(luò)的進(jìn)一步發(fā)展. 因此, 用戶畫像的構(gòu)建, 在學(xué)術(shù)界與產(chǎn)業(yè)界都具有重大意義.
用戶畫像又稱用戶角色, 在模型的構(gòu)建過程中往往會(huì)以最為淺顯和貼近生活的話語將用戶的屬性、行為和偏好聯(lián)結(jié)起來, 作為實(shí)際用戶的虛擬代表, 用戶畫像所形成的角色模型并不能脫離實(shí)際場(chǎng)景之外被構(gòu)建出來. 一個(gè)用戶可以從多個(gè)方面去刻畫, 即用戶模型可以從多個(gè)維度去考慮. “知乎”作為社交化問答網(wǎng)站, 用戶在平臺(tái)上通過某些行為(如回答問題、點(diǎn)擊圖片、瀏覽信息流、關(guān)注等)生產(chǎn)或獲取信息, 也通過其它一些行為(如轉(zhuǎn)發(fā)、點(diǎn)贊、評(píng)論等)將信息傳播出去. 由此, 我們依據(jù)社交網(wǎng)絡(luò)的特性, 結(jié)合“知乎”網(wǎng)用戶的特點(diǎn), 將用戶畫像模型進(jìn)行四個(gè)維度的劃分, 即用戶的自然屬性、社交屬性、興趣屬性和能力屬性. 同時(shí), 用戶在網(wǎng)絡(luò)社會(huì)中的“痕跡”越多, 用戶畫像模型越能準(zhǔn)確反映現(xiàn)實(shí)社會(huì)中該用戶的特征. 但是, 考慮到成本及隱私, 構(gòu)建“完整”的用戶模型幾乎不可能, 要結(jié)合實(shí)際的應(yīng)用場(chǎng)景, 構(gòu)建滿足條件的用戶畫像模型即可.
1.1 自然屬性
自然屬性是指人的肉體存在及其特性, 是人存在的基礎(chǔ). 自然屬性指相對(duì)穩(wěn)定和靜態(tài)的人口屬性, 例如: 性別、地域、受教育程度、職業(yè)經(jīng)歷等, 由于用戶對(duì)個(gè)人隱私的有意保護(hù), 這些信息的收集主要依靠網(wǎng)站自身的引導(dǎo)、調(diào)查、第三方提供等, 并在此基礎(chǔ)上進(jìn)行補(bǔ)充和交叉驗(yàn)證.
以“知乎”為例的自然屬性指標(biāo)如表1所示.
表1 自然屬性指標(biāo)
用戶的自然屬性指標(biāo)在不同的應(yīng)用場(chǎng)景下對(duì)用戶畫像的描述具有一定程度影響力, 但出于隱私保護(hù)的考慮, 往往獲取成本較高, 多用于對(duì)樣本整體進(jìn)行評(píng)價(jià). 其中, 如性別、居住地、行業(yè)和簡介等指標(biāo)不具備等級(jí)差別, 如果用戶的以上指標(biāo)與用戶畫像的應(yīng)用場(chǎng)景相關(guān), 則定義一個(gè)函數(shù)表示用戶的這些屬性對(duì)構(gòu)建用戶畫像的影響:
(2)
對(duì)于用戶自然屬性中的教育經(jīng)歷, 不僅影響著用戶畫像的構(gòu)建, 還具有等級(jí)之分. 本節(jié)選用三角模糊數(shù)兩級(jí)比例法對(duì)定性指標(biāo)進(jìn)行量化.
雖然由于各種原因, 獲取完整的用戶的自然屬性信息困難重重, 但用戶的自然屬性反映著用戶的基本情況, 是連接線上社交網(wǎng)絡(luò)和線下真實(shí)社會(huì)的紐帶, 其重要性不言而喻. 通過以上幾個(gè)方面的分析, 定義函數(shù)表示用戶的自然屬性, 則:
1.2 社交屬性
本文所探討的用戶的社交屬性, 主要通過用戶的社交影響力進(jìn)行衡量, 即用戶由于和其他人或團(tuán)體之間的交互而改變自身觀點(diǎn)、情感、態(tài)度和行為的現(xiàn)象[6]. 本節(jié)基于社交影響力的定義, 綜合考慮網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)及社交節(jié)點(diǎn)的相互影響程度, 對(duì)社交影響力進(jìn)行如下因素分析:
1) 用戶的活躍度. 反映了用戶的活躍程度, 用戶越活躍, 影響其他用戶的機(jī)會(huì)就越大. 包括用戶關(guān)注的人數(shù)、關(guān)注的話題數(shù)、關(guān)注的專欄數(shù)、提問及回答的數(shù)量等. 這些都是UGC網(wǎng)站中用戶活躍度的直接體現(xiàn). 考慮到這五個(gè)指標(biāo)有可能不在一個(gè)數(shù)量級(jí)上, 給用戶活躍程度的對(duì)比帶來困難, 因此, 需將它們進(jìn)行歸一化.
;;;;
2) 用戶“鄰居”的影響力. 定義“鄰居”為用戶的關(guān)注者, 等同于“粉絲”. 社交網(wǎng)絡(luò)中信息的流動(dòng)離不開“鄰居”, 鄰居節(jié)點(diǎn)作為傳播的載體, 本身的影響力同樣重要. 對(duì)于“鄰居”的影響力, 我們使用“鄰居”的關(guān)注者數(shù)量及“鄰居”與用戶的親密度進(jìn)行度量.
(6)
(8)
借鑒PageRank的核心思想, 本節(jié)關(guān)于用戶“鄰居”影響力的定義如下:
(10)
綜合考慮用戶本身的活躍度與用戶“鄰居”的影響力, 且這兩者均與社交影響力成正比, 則可得用戶在網(wǎng)絡(luò)中的全局社交影響力, 即用戶的社交屬性為:
1.3 興趣屬性
網(wǎng)站會(huì)在用戶注冊(cè)時(shí)要求其選擇自己感興趣的話題, 并依此進(jìn)行相關(guān)內(nèi)容的推薦, 因此用戶所關(guān)注的話題可以看作是其顯性興趣; 用戶在瀏覽網(wǎng)站的過程中, 會(huì)對(duì)自己感興趣的話題進(jìn)行提問、回答與收藏, 因此用戶的這些行為也能反映其興趣, 稱之為隱性興趣. 下面我們對(duì)興趣屬性進(jìn)行建模:
1) 顯性興趣建模
用戶會(huì)對(duì)自己感興趣的話題進(jìn)行關(guān)注, 以方便獲取這方面的相關(guān)內(nèi)容, 所以我們可以將用戶的關(guān)注話題看作顯性興趣的反映. 對(duì)于興趣標(biāo)簽的權(quán)重計(jì)算, 我們使用TF-IDF方法, TF-IDF是一種經(jīng)典的信息加權(quán)技術(shù), 其值常用來度量一個(gè)詞語在文件中的地位[7]. 通過用戶的話題標(biāo)簽表示用戶的興趣模型, 標(biāo)簽映射的回答數(shù)即為標(biāo)簽被使用的次數(shù), 利用TF-IDF方法計(jì)算用戶的興趣標(biāo)簽的權(quán)重:
2) 隱性興趣建模
用戶的關(guān)注話題, 直觀體現(xiàn)了用戶的顯性興趣. 然而話題標(biāo)簽是用戶注冊(cè)時(shí)人為設(shè)定的, 很多用戶為了節(jié)省注冊(cè)時(shí)間, 會(huì)任意勾選話題, 又或者選擇很多話題, 這就造成了用戶興趣度量的準(zhǔn)確性不高. 隱性興趣不同于顯性興趣, 興趣標(biāo)簽無法根據(jù)用戶的關(guān)注話題直接獲得, 而是通過用戶的交互行為獲取. 我們通過分析用戶的提問、回答和收藏來構(gòu)建用戶的隱性興趣. 關(guān)于它們的定義如表2所示.
表2 用戶行為定義
則用戶的隱性興趣標(biāo)簽權(quán)重為:
用戶的隱性興趣權(quán)重通過提問、回答和收藏來度量, 通過對(duì)三個(gè)行為所涉及的內(nèi)容進(jìn)行標(biāo)簽提取, 用戶的隱性興趣模型表示為:
(15)
3) 用戶興趣建模
(17)
1.4 能力屬性
本文中的能力屬性特指用戶輸出優(yōu)質(zhì)內(nèi)容的水平. 用戶生產(chǎn)內(nèi)容(user generated content, UGC)是在Web2.0環(huán)境下出現(xiàn)的一種新興的網(wǎng)絡(luò)信息資源創(chuàng)作與組織模式, 泛指以任何形式在網(wǎng)絡(luò)上存在的由用戶發(fā)表的文字、圖片、視頻等內(nèi)容, 也就是說, 用戶既是網(wǎng)絡(luò)內(nèi)容的瀏覽者, 也是網(wǎng)絡(luò)內(nèi)容的生產(chǎn)者與傳播者[8]. “知乎”作為典型的UGC網(wǎng)站, 用戶優(yōu)質(zhì)內(nèi)容的產(chǎn)出能力極其重要, 它是網(wǎng)站的核心競(jìng)爭(zhēng)力. 本節(jié)綜合考慮內(nèi)容的質(zhì)與量, 借鑒Hirsch教授設(shè)計(jì)的科學(xué)計(jì)量評(píng)價(jià)指標(biāo)h指數(shù)(highly cited index)[9]與金碧輝等人提出的R指數(shù)[10], 進(jìn)行用戶能力屬性的度量. 其中, Hirsch將h指數(shù)定義為: 一位作者的h指數(shù)等于其發(fā)表了h篇至少被引h次的論文, 即一個(gè)作者的h指數(shù)表明其至多有h篇論文被引用了至少h次.
H指數(shù)具備簡潔新穎的特點(diǎn), 但也有自己的不足. 首先, h指數(shù)對(duì)高被引論文的影響力反映不足; 其次, h指數(shù)對(duì)普通研究者缺乏區(qū)分度, 對(duì)于大量普通研究者來說, 他們擁有相同的h指數(shù), 且h指數(shù)的值都比較低; 最后, h指數(shù)受自引和合作發(fā)文的影響, 大量自引可以顯著改變h指數(shù). 針對(duì)h指數(shù)的缺陷, 金碧輝提出了R指數(shù). R指數(shù)表示的是h核內(nèi)論文的總被引頻次的平方根. R指數(shù)的數(shù)學(xué)公式如下:
本節(jié)通過分析h指數(shù)與R指數(shù)各自的特點(diǎn)后, 將兩種指數(shù)配對(duì)使用, 將會(huì)有效彌補(bǔ)h指數(shù)的不足, 對(duì)用戶的能力屬性進(jìn)行度量如下所示:
贊同的h指數(shù)和R指數(shù)理論上就是:
(19)
同理: 討論的h指數(shù)和R指數(shù)理論上就是:
同理: 關(guān)注人數(shù)的h指數(shù)與R指數(shù)為:
提問能力與回答能力在UGC網(wǎng)站中同等重要, 故本節(jié)關(guān)于用戶的能力屬性定義如下:
1.5 用戶畫像模型構(gòu)建
以上四節(jié)分別從用戶的自然屬性、社交屬性、興趣屬性及能力屬性四個(gè)方面對(duì)用戶畫像模型進(jìn)行構(gòu)建, 該模型可以較為全面的對(duì)用戶進(jìn)行模型抽象, 但是眾所周知, 用戶畫像模型的應(yīng)用離不開實(shí)際的應(yīng)用場(chǎng)景, 在面對(duì)不同的場(chǎng)景時(shí), 用戶畫像所側(cè)重的屬性是不同的. 這就要求模型具有動(dòng)態(tài)特征, 定義函數(shù)表示用戶的畫像模型, 則:
眾所周知, 用戶畫像的應(yīng)用離不開使用場(chǎng)景的設(shè)置, 沒有使用場(chǎng)景, 空談?dòng)脩舢嬒袷菦]有實(shí)際意義的. 我們對(duì)用戶畫像模型的構(gòu)建過程有了深刻的理解, 接下來我們將結(jié)合實(shí)際的場(chǎng)景設(shè)置, 對(duì)用戶畫像模型的實(shí)際應(yīng)用進(jìn)行研究. 本文所用數(shù)據(jù)集為“知乎”網(wǎng)站關(guān)注PM2.5話題的用戶的數(shù)據(jù)信息. 截止到2015年12月, 共有1318人關(guān)注該子話題, 數(shù)據(jù)由Gooseeker爬蟲抓取, 其中成功抓取1303位用戶數(shù)據(jù), 成功率為98.9%. 本文的實(shí)證即對(duì)這1303位用戶進(jìn)行分析.
場(chǎng)景一: 網(wǎng)站核心用戶甄別
對(duì)于UGC網(wǎng)站而言, 其核心用戶應(yīng)具備輸出優(yōu)質(zhì)內(nèi)容的能力, 即用戶的能力屬性值排名靠前. 由1.4節(jié)可知, 用戶的能力屬性包括用戶的提問能力及回答能力, 分別通過提問能力指數(shù)和回答能力指數(shù)進(jìn)行度量. 令,, 可得用戶能力屬性的散點(diǎn)圖如圖1所示.
圖1 用戶能力屬性散點(diǎn)圖
分析上圖可知, 數(shù)據(jù)集中絕大部分用戶的能力屬性值比較小, 主要原因是其提問與回答數(shù)都比較小, 或者其少量的提問與回答中, 質(zhì)量并不高, 所以并沒有得到網(wǎng)絡(luò)中用戶的認(rèn)同; 在圖中, 有一位用戶的能力屬性h值高達(dá)268.4, 該用戶在網(wǎng)絡(luò)中的回答數(shù)量為1417, 提問數(shù)量為106, 而其得到的總贊數(shù)為653528; 同樣, 用戶AreYouKiddingMe的h值為61.8, 可其回答數(shù)量為2031, 提問數(shù)量為505; 可見h值可以更好的反映用戶的能力, 它不僅考慮了用戶輸出內(nèi)容的量, 還考慮了內(nèi)容的質(zhì).
場(chǎng)景二: 公眾參與環(huán)保政策的制定
公眾參與環(huán)保政策的制定, 需要考慮兩個(gè)方面的問題, 一方面是公眾的選擇問題, 另一方面是公眾的高效參與問題.
關(guān)于公眾的選擇, 可以應(yīng)用用戶畫像模型得到結(jié)果. 首先, 評(píng)估用戶的教育經(jīng)歷, 選取學(xué)歷為本科及以上的用戶; 其次, 分析用戶能力屬性, 能力屬性值越大, 表示其輸出的內(nèi)容質(zhì)量越高; 然后, 結(jié)合用戶的興趣屬性, 判斷其輸出內(nèi)容是否與環(huán)保相關(guān); 最后即可確定該用戶是否適合參與環(huán)保政策的制定. 根據(jù)以上分析, 式(24)轉(zhuǎn)變?yōu)?
分析數(shù)據(jù)集可得到部分結(jié)果, 如表3所示. 需要注意的是, 表格中的能力值是結(jié)合興趣屬性后在環(huán)境保護(hù)相關(guān)話題下的能力, 是對(duì)環(huán)保相關(guān)的提問、回答的度量.
表3 場(chǎng)景二分析結(jié)果
由上表可以看出, 教育經(jīng)歷在一定程度上影響著用戶的興趣. 在確定了哪些公眾適合參與政策制定的情況下, 需要考慮公眾的高效參與問題. 本文以目前我國公民的主要參與方式為出發(fā)點(diǎn)進(jìn)行論述.
1) 關(guān)鍵公眾參與法. 即尋找與政策制定相關(guān)的公民進(jìn)行咨詢, 上表中選取的關(guān)鍵公眾, 有效彌補(bǔ)了傳統(tǒng)選擇方法中只關(guān)注精英分子的缺陷, 真正做到讓普通大眾參與到環(huán)保相關(guān)政策的制定中.
2) 公民調(diào)查法. 即運(yùn)用問卷調(diào)查或現(xiàn)場(chǎng)訪談的形式, 了解公眾對(duì)于相關(guān)政策的態(tài)度和看法. 在新媒體時(shí)代, 利用用戶畫像模型將網(wǎng)絡(luò)問卷發(fā)放給特定的公眾, 既提高了調(diào)查的有效性, 又降低了相關(guān)工作人員的時(shí)間成本.
3) 民眾論壇. 即將網(wǎng)絡(luò)中適合參與環(huán)保政策制定的民眾組織起來, 構(gòu)建專業(yè)的民眾論壇. 首先, 為公眾參與提供通道; 其次, 引導(dǎo)輿論走向, 構(gòu)建官方與民間的溝通渠道; 然后, 搭建專業(yè)型平臺(tái), 為普通公眾的環(huán)保問題提供解決方案; 最后, “取之于民”的政策更利于推行.
1 趙曙光.高轉(zhuǎn)化率的社交媒體用戶畫像:基于500用戶的深訪研究.現(xiàn)代傳播:中國傳媒大學(xué)學(xué)報(bào),2014,(6):115–120.
2 劉海,盧慧,阮金花,田丙強(qiáng),胡守忠.基于“用戶畫像”挖掘的精準(zhǔn)營銷細(xì)分模型研究.絲綢,2015,52(12):37–42.
3 邢星.社交網(wǎng)絡(luò)個(gè)性化推薦方法研究[博士學(xué)位論文].大連:大連海事大學(xué),2013.
4 余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)模建——從具象到抽象.設(shè)計(jì)藝術(shù)研究,2014,(6):60–64.
5 Bakshy E, Eckles D, Yan R, Rosenn I. Social influence in social advertising: Evidence from field experiments. Proc. of the 13th ACM Conference on Electronic Commerce.ACM. 2012. 146–161.
6 Rashotte L. Social influence. The blackwell encyclopedia of social psychology, 2007, 9: 562–563.
7 宗成慶.統(tǒng)計(jì)自然語言處理.北京:清華大學(xué)出版社,2008.
8 朱慶華.新一代互聯(lián)網(wǎng)環(huán)境下用戶生成內(nèi)容的研究與應(yīng)用.北京:科學(xué)出版社,2014.
9 Hirsch JE. An index to quantify an individual’s scientific research output. Proc. of the National academy of Sciences of the United States of America, 2005, 102(46): 16569–16572.
10 金碧輝.R指數(shù),AR指數(shù):H指數(shù)功能擴(kuò)展的補(bǔ)充指標(biāo).科學(xué)觀察,2007,2(3):1–8.
User Portrait Study on UGC Website
CHEN Zhi-Ming, HU Zhen-Yun
(Business School, Hohai University, Nanjing 211100, China)
In recent years, the rapid development of social networks has significantly changed the styles of people’s work and life. The way people acquiring knowledge shows a clear trend of the network. When people acquire information through the Internet, it also leaves personal traces. Taking the high cost of obtaining personal information in reality into account, it’s a good idea to catch people’s leaving traces in the network and study its “mapping” in the network society. User portrait as a virtual representative of real users is based on a series of real data on the user model. Based on dynamic modeling of user portrait, the user is defined as the basic attributes, social attributes, interests, and abilities by digging the “ZhiHu” site. Then we make an empirical analysis of the 1303 users who follow the topic of PM 2.5.
“ZhiHu” site; user portrait; social impact; h-index
2016-04-21;收到修改稿時(shí)間:2016-05-26
[10.15888/j.cnki.csa.005543]