劉海鷗 張靜 李源 康鵬松
摘要:構(gòu)建微博群體用戶的畫像模型并對其信息行為進行分析,是認識大數(shù)據(jù)環(huán)境下微博群體用戶復(fù)雜行為的前提和基礎(chǔ),有助于微博平臺精準營銷的實施。以微博群體用戶為例,基于微博數(shù)據(jù)構(gòu)建了微博群體用戶畫像的概念模型,由此對其信息耦合傳播機理進行實證分析。
關(guān)鍵詞:微博群體用戶;用戶畫像;信息發(fā)布行為;交互行為
作為異軍突起的新興社交網(wǎng)絡(luò)媒體,微博每天都能產(chǎn)生大量的數(shù)據(jù),這些海量的用戶行為數(shù)據(jù)、博文數(shù)據(jù),可以全方位、立體性的刻畫用戶需求,形成微博用戶畫像。構(gòu)建微博群體用戶的畫像并對其信息行為進行分析,是認識網(wǎng)絡(luò)環(huán)境下微博群體用戶復(fù)雜行為的前提和基礎(chǔ),有助于微博平臺根據(jù)用戶特征及其偏好提供更精準的個性化服務(wù)。因此,如何深刻認識微博群體用戶畫像模型并揭示其信息耦合傳播行為,具有重大理論意義和實際應(yīng)用價值。
1、數(shù)據(jù)來源
構(gòu)建微博群體用戶畫像所需要的數(shù)據(jù)主要來源于兩類:一是體現(xiàn)用戶年齡、性別、學(xué)歷、住所的自然數(shù)據(jù);二是來自于用戶行為操作、能夠反映用戶具體行為的數(shù)據(jù),例如用戶的訪問次數(shù)、頁面停留時間、點擊頻率、轉(zhuǎn)發(fā)點贊、屏蔽行為等。本文實證數(shù)據(jù)來自我國最為知名的新浪微博。用戶數(shù)據(jù)涉及如下元素:用戶編號、用戶昵稱、性別、年齡、職業(yè)、地域、使用設(shè)備等,信息數(shù)據(jù)包括:信息編號、信息內(nèi)容、信息發(fā)布時間、信息的評論數(shù)量等。其中,自然數(shù)據(jù)主要通過微博用戶的個人檔案頁面(profile pages)獲取,此類數(shù)據(jù)是用戶在新浪微博注冊時需要輸入的信息,如個人信息簡介頁面包含的用戶年齡、性別、學(xué)歷、住所、工作情況、興趣標簽、注冊時間等,因此可以獲得社交用戶較為精確和細粒度的個人信息特征。本文對研究獲得的個人基本特征數(shù)據(jù)進行了顯著性檢驗,由此得出用戶個人基本特征的皮爾遜相關(guān)系數(shù)PCC以及X2統(tǒng)計量。根據(jù)X2統(tǒng)計量計算結(jié)果,大多數(shù)微博用戶個人基本特征通過了置信水平為9570時的顯著性檢驗。其中,PCC的高低體現(xiàn)了微博用戶個人基本特征與用戶信息行為之間存在較強的線性相關(guān)關(guān)系還是較弱的線性相關(guān)關(guān)系。如微博用戶個人基本特征中“地域”的X2統(tǒng)計值最高,由此體現(xiàn)了微博平臺活躍用戶主要聚集于部分一線城市與沿海發(fā)達省份,這些地區(qū)的用戶數(shù)量及其信息行為要明顯強于其它地區(qū)。究其原因,主要是這一現(xiàn)象與經(jīng)濟與社會發(fā)展水平有關(guān),由于地理以及歷史原因,內(nèi)陸和西部地區(qū)無論在經(jīng)濟上還是社會發(fā)展上都存在較大差距,從而導(dǎo)致這些地區(qū)的活躍用戶數(shù)量及關(guān)系強度小于一線城市與沿海發(fā)達省份,從而在一定程度上體現(xiàn)了不同地理區(qū)間經(jīng)濟發(fā)展的不平衡性。
2、微博群體用戶畫像概念模型
在構(gòu)建微博群體用戶畫像模型的過程中,通常會使用較為通俗且貼近現(xiàn)實生活的語義去描述微博群體用戶的屬性特征、行為特征與偏好特征,由此來形成用戶畫像的概念模型,并將其作為實際用戶的虛擬代表。對微博群體用戶來講,可從多個維度對其進行刻畫,即可從多個方面去構(gòu)建用戶畫像模型。搜集到的用戶社交活動“痕跡”越多,構(gòu)建的用戶畫像模型越能準確反映現(xiàn)實社會中該用戶的具體特征。但鑒于信息搜集成本以及隱私保護方面的限制,構(gòu)建完全匹配的“精準”用戶畫像幾乎是不可能的。因此,在信息搜集過程中需要充分考慮實際的應(yīng)用場景,構(gòu)建滿足條件的微博群體用戶畫像模型即可。
鑒于上述考慮,本文在收集新浪微博用戶信息時,主要從以下兩個方面考慮:微博群體用戶通過哪些行為(如回答問題、點擊圖片、瀏覽信息、關(guān)注等)產(chǎn)生或獲取信息,或通過哪些行為(如轉(zhuǎn)發(fā)、點贊、評論等)將該信息傳播出去。由此,本文將重點研究在線社交活動中用戶的以下兩種信息行為:(1)同一個人發(fā)布不同信息的行為,稱為發(fā)布行為;(2)不同個體同時評論某一條信息,其中包含信息發(fā)布者對評論者的回復(fù)信息,稱為交互行為。依據(jù)微博特性以及用戶的自身特點,本文從三個維度對微博用戶畫像模型進行劃分,即用戶的基本特征(人口統(tǒng)計學(xué)屬性)、用戶的信息發(fā)布行為特征以及用戶交互行為特征。微博群體用戶畫像概念模型如圖1所示。
3、信息耦合傳播行為分析
本文在分析微博群體用戶信息發(fā)布行為與交互行為的過程中,主要采用了發(fā)布行為時間間隔分布、交互行為時間間隔分布、交互周期分布、交互熱度分布等。
3.1信息發(fā)布時間間隔分布
用戶在日常生活中會從事各種重復(fù)性活動,包括呈現(xiàn)規(guī)律性的吃飯、睡覺和無規(guī)律性的購物、出游、上網(wǎng)等,對于這些無規(guī)律的活動,研究用戶相同活動相繼發(fā)生的時間間隔,可發(fā)現(xiàn)其從事某活動的規(guī)律,對研究社交用戶的信息行為有重要意義。圖2表示數(shù)據(jù)集的時間間隔分布,在雙對數(shù)坐標下呈現(xiàn)明顯的胖尾特征,表明在線社交活動中,少數(shù)人處于活躍狀態(tài),積極頻繁地發(fā)布消息,而大部分成員活躍程度低,一般處于靜默狀態(tài),頻繁發(fā)出消息的是固定的幾個“話嘮”,大部分成員都處于“潛水”或“冒泡”的狀態(tài)。去掉下垂的頭部和松散的尾部,數(shù)據(jù)集的時間間隔部分服從冪律分布,通過最大似然估計方法計算冪指數(shù),冪指數(shù)集中在1 .69-2.38的范圍內(nèi)。
3.2交互時間間隔分布
圖3顯示數(shù)據(jù)集交互行為的時間間隔分布,本文數(shù)據(jù)集的時間間隔為以某條信息為主題,所討論的相鄰內(nèi)容的時間差。每個數(shù)據(jù)集的時間間隔均服從冪律分布,冪指數(shù)集中在1.57-1.99的范圍內(nèi),一條信息發(fā)出后,有相同或相似經(jīng)歷的用戶會產(chǎn)生共鳴,進而展開討論,好友或關(guān)注關(guān)系可能會有一定的影響,但不會因為這種關(guān)系形成爆發(fā)性評論。交互行為與發(fā)布行為一樣,都表現(xiàn)出重尾分布特征,在線網(wǎng)絡(luò)中信息爆炸,大多數(shù)的信息都被淹沒,無人問津,只有極少數(shù)信息在短時間內(nèi)收到爆發(fā)性評論,例如鹿晗獲得千萬評論的微博“十年相依,終身紅魔!”在發(fā)出的第一天就收到了將近9千條評論。
3.3 交互周期分布
人類對信息的興趣都呈逐漸衰減的趨勢,開始時對其興趣極濃,時間長了興趣消失,很少人會對其進行評論。人們對信息或話題的討論存在一個交互周期。本文將發(fā)布信息與最后一條評論的時間差作為交互周期。信息發(fā)布的三個月之后,評論數(shù)量非常少,因此,剔除距離采集時間三個月之內(nèi)的信息,計算每個信息的交互周期及其互補累積分布,如圖4所示,熱門話題與冷淡話題之間的交互周期相差4-6個數(shù)量級,微博的最大與最小的交互周期相差較少,為4個數(shù)量級。從形態(tài)上看,其交互周期分布較窄,具有長周期的信息所占的概率較大,這是由于部分話題的“直播”引起,信息內(nèi)容不是一次性發(fā)出,而是利用碎片時間經(jīng)過幾天到十幾天不等的時間陸續(xù)發(fā)布,不斷吸引人跟帖并討論,形成較長的交互周期。
3.4 交互熱度分布
人們對某個話題感興趣時,在生活、娛樂和其他空閑時間都會有所提及和討論,這方面的話題信息也得到傳播,進而引起更大強度的討論和交流,形成病毒式傳播。因此,人類行為與其在社交活動中的交互是密不可分的,交互熱度對人類行為有重要影響。交互熱度的計算如公式為Pi=Ni/Ti。其中,Pi表示交互熱度,Ni表示對一個信息人們討論的總數(shù)量,Ti表示話題的交互周期。圖5顯示交互熱度的互補累積分布,不同交互熱度的話題相差好幾個數(shù)量級,交互熱度強的話題所占的概率非常高,說明微博是引起爆發(fā)性評論的主要聚集地之一。
4、結(jié)語
微博在人們的生活中起到至關(guān)重要的作用,微博信息發(fā)布行為與交互行為已經(jīng)成為人們生活的常態(tài),研究微博群體用戶信息傳播行為的統(tǒng)計特征并刻畫其用戶畫像,不僅有助于發(fā)揮微博用戶線上交流的積極性和信息傳播的主動性,充分認識人們的社交活動,同時對強化精準服務(wù)、投放廣告、企業(yè)宣傳具有重要的應(yīng)用價值。需要指出的是,本研究對微博群體用戶畫像的描述性屬性方面考慮不夠全面,擬在今后的研究中全面考慮與用戶需求趨向相關(guān)的信息,以此為基礎(chǔ)進行模型化表示,多維度制定微博用戶的描述性標簽屬性,全面刻畫微博用戶畫像模型。
參考文獻
[l]林燕霞,謝湘生.基于社會認同理論的微博群體用戶畫像[J].情報理論與實踐,2017(11)
[2]黃文彬,徐山川,吳家輝,王軍.移動用戶畫像構(gòu)建研究[J].現(xiàn)代情報,2016,(IO)
[3]孫晶晶.移動數(shù)字圖書館用戶畫像模型及情境化推薦方法[J].圖書館,2018,(6)
[4]陳晶.網(wǎng)紅經(jīng)濟下青少年卷入行為及其歸因?qū)嵶C研究[J].情報雜志,2018,(3)
[5]劉海鷗.云環(huán)境用戶情境感知的移動服務(wù)QoS混合推薦[J].情報雜志,2016,35(4)
[6]蘇妍嫄.面向圖書館大數(shù)據(jù)知識服務(wù)的多情境興趣推薦方法[J].現(xiàn)代情報雜志,2018,(6)
[7]張亞明.國內(nèi)外用戶畫像研究綜述[J].情報理論與實踐,2018,(7)
[8]趙攀.在線社交活動中的用戶畫像及其信息傳播行為分析[J].情報科學(xué),2018 (6)
[9]孫晶晶.基于用戶畫像的旅游情境化推薦服務(wù)研究[J].情報理論與實踐,2018.(5)