杜海燕 葉光輝
(武漢大學信息管理學院,武漢,430072)
社交博客用戶分層與話題演化研究——以MetaFilter Music版塊為例
杜海燕葉光輝
(武漢大學信息管理學院,武漢,430072)
[摘要]結(jié)合時序分析、聚類分析與復雜網(wǎng)絡(luò)分析,對社交博客用戶分層及話題演化進行了分析。依據(jù)用戶在社交媒體中的活躍程度,設(shè)置關(guān)聯(lián)強度閾值和比例,提取核心用戶群體。統(tǒng)計各年度整個用戶群體關(guān)注的熱點話題,對比核心用戶群體關(guān)注的熱點話題,評估核心用戶群體對熱點話題衍生的影響大小。實證分析可知核心用戶群體對熱點話題衍生具有顯著影響,長尾效應使得非核心用戶群的影響也不能忽視。
[關(guān)鍵詞]社交博客話題演化MetaFilter用戶分層
1引言
作為Web2.0時代的典型代表,博客發(fā)展經(jīng)歷了傳統(tǒng)博客、社交博客、微博三階段。傳統(tǒng)博客為每一個用戶提供了表達的獨立空間,微博則為所有用戶提供了表達的公共空間。社交博客介于二者之間,是傳統(tǒng)博客向微博過渡的中間形式,因此也被叫做輕博客。隨著社交媒體的迅速發(fā)展和互聯(lián)網(wǎng)博客數(shù)量的急劇增長,微博、社交博客等已經(jīng)成為互聯(lián)網(wǎng)上一種重要的信息源,將用戶從原來單純的信息接收者變成接收和發(fā)布信息的完全參與者,從而讓社會走進全民記者時代。相較于微博,社交博客不受140字符限制,能夠集成更為豐富詳實的內(nèi)容,減弱微博內(nèi)容隨意性大、有價值信息極度分散等負面影響,同時社交功能也比較完善,能夠滿足不同主題用戶的社交需求。微博與社交博客話題提取結(jié)合各自的平臺特征、用戶群而在話題內(nèi)容上有所差異,但在相關(guān)提取方法等(包括自然語言處理、復雜網(wǎng)絡(luò)分析等)則大體一致。
社交博客自身的大眾特性,使得任何個人或團體、組織可通過微博隨時隨地隨心地發(fā)布任意類型的內(nèi)容和觀點,有時候不可避免地充當了謠言流言、虛假消息的傳播工具。巨大的用戶基數(shù)和通暢的社交網(wǎng)絡(luò)使得虛假消息可以迅速得到廣泛傳播。虛假消息的傳播,不僅會誤導人們做出錯誤的選擇,甚至可能影響一個社會團體至整個社會,引起社會性的反應。為幫助政府部門監(jiān)控輿論走向,了解民意,從海量社交博客資源中識別熱點用戶和話題成為新的研究熱點。文獻調(diào)研發(fā)現(xiàn),目前熱點用戶研究主要集中在意見領(lǐng)袖[1]挖掘,如尹衍騰等[2]提出了一種結(jié)合用戶關(guān)系和用戶屬性的意見領(lǐng)袖挖掘方法,并通過數(shù)據(jù)驗證了該方法的準確和高效;蔣翠清等[3]從影響力、支持力等方面刻畫意見領(lǐng)袖,構(gòu)造話題參與者的屬性矩陣,通過加權(quán)平均得到各用戶的綜合評價,最后發(fā)現(xiàn)了話題的意見領(lǐng)袖;Xu等[4]嘗試利用內(nèi)容和網(wǎng)絡(luò)分析相結(jié)合的技術(shù)方法,對Twitter平臺上政治行動網(wǎng)絡(luò)(Political Activism Network)中的意見領(lǐng)袖進行了識別,并以Wisconsin Recall Election事件為例說明了該方法的有效性;Zhang等[5]設(shè)計了一種基于K派系聚類的社群抽取及意見領(lǐng)袖挖掘的算法,并以天涯社區(qū)為例,實證了該算法的可行性。熱點話題與熱點用戶具有很強的關(guān)聯(lián)關(guān)系,但該關(guān)系不一定是線性的、同步的,目前熱點話題研究主要圍繞微博語料來展開,常用的話題抽取及挖掘方法包括分類聚類方法[6]、LDA模型[7]、自動摘要[8]等,通過社交博客來提取熱點話題的研究工作還沒有引起重視。
基于前人基礎(chǔ)研究工作及不足,本文將構(gòu)建社交媒體環(huán)境下的語義網(wǎng)絡(luò),利用復雜網(wǎng)絡(luò)和社交網(wǎng)絡(luò)分析指標及方法,分層識別社交博客用戶,提取和挖掘熱點主題演化路徑,并梳理熱點用戶及主題之間的關(guān)聯(lián)關(guān)系,寄望為相關(guān)政府部門輿情監(jiān)控工作提供思路。
2研究方法
結(jié)合引言陳述,可知用戶及話題是本文重點研究的兩類對象,但目前國內(nèi)圍繞微博話題的研究較多,而有關(guān)社交博客話題研究較少,這一方面是由于國內(nèi)社交博客平臺較少,且相比微博,用戶活躍度不高;另一方面社交博客平臺數(shù)據(jù)開源獲取性差,結(jié)構(gòu)化程度不高。藉此,本文選擇國外知名社交博客網(wǎng)站MetaFilter的Music版塊作為數(shù)據(jù)來源。MetaFilter是美國目前較有影響力的社交博客平臺,其開放性好,注冊用戶數(shù)量多,博客活躍程度高且社交活動數(shù)據(jù)可開源獲取(http://stuff.metafilter.com/infodump/)。本文以其Music版塊為示例,獲取從2009~2013年的相關(guān)數(shù)據(jù)(對于分年度展示的內(nèi)容,常以2009年數(shù)據(jù)為示例)。Music版塊數(shù)據(jù)表與公共表(如username、favorites)之間的參照關(guān)系參見圖1。
社交博客用戶分層與話題演化研究目的在于從不同語義元素(如主題、評論、標簽、類別等)構(gòu)成的融合了多維語義關(guān)系(如評論、標注、分類、發(fā)表等)的元網(wǎng)絡(luò)中提取出輿情分析需要的用戶及話題。根據(jù)用戶在社交平臺中的活躍程度(以相應指標來量化),將用戶進行分層聚合,形成不同的用戶群體,不同用戶群體的影響力存在差異,這種差異體現(xiàn)的一個重要方面就是話題的熱度。因此本文社交博客話題將從兩方面來展示,一是以時間為軸,說明話題的時序演進。二是以用戶群體為分類指標,揭示不同用戶群體關(guān)注的主題。通過一定方法,對比不同參照系下的主題差異,描述用戶與話題之間的關(guān)聯(lián)關(guān)系。社交博客用戶分層與話題演化步驟主要包括:
(1)用戶分層研究:利用Music版塊內(nèi)用戶與不同節(jié)點元素形成的語義關(guān)系(如用戶評論關(guān)系、用戶標注關(guān)系等)構(gòu)建社會網(wǎng)絡(luò),分層識別2009~2013各年度社交用戶及其群體。不同用戶群體對社交網(wǎng)絡(luò)的影響力不同,其在社交網(wǎng)絡(luò)中話語權(quán)也存在較大差別,用戶群體劃分的合理與否將對話題識別、用戶與話題之間關(guān)聯(lián)關(guān)系梳理等內(nèi)容產(chǎn)生較大影響,藉此用戶分層研究將采用聚類分析與復雜網(wǎng)絡(luò)分析相結(jié)合的方法。
圖1 MetaFilter中Music版塊的數(shù)據(jù)集結(jié)構(gòu)解析[9]
(2)話題演化分析:話題時序分析,揭示不同時期用戶關(guān)注主題的分布情況。該部分將利用話題與不同節(jié)點元素之間的關(guān)系(如話題發(fā)布、話題評論等)構(gòu)建社會網(wǎng)絡(luò),利用時序分析與聚類分析相結(jié)合的方法,判斷2009~2013年話題演化的趨勢,分析結(jié)果將作為用戶與話題之間關(guān)聯(lián)關(guān)系分析的參照數(shù)據(jù)。
(3)用戶與話題關(guān)聯(lián)關(guān)系分析:該部分內(nèi)容將結(jié)合(1)(2)來展開,以時間為連接點,采用話題重合度與加權(quán)余弦相似度指標來集中判斷用戶、時間、話題三者之間的關(guān)系,說明用戶與話題之間關(guān)聯(lián)程度及方向。
3研究發(fā)現(xiàn)
社交博客用戶分層的本質(zhì)就是聚類,聚類分析通過預設(shè)的算法量化了一段時期內(nèi)社會語義網(wǎng)中的各個類群集合及其特征,其常用分析方法包括系統(tǒng)聚類、K-means、多維尺度分析等,聚類結(jié)果呈現(xiàn)方式包括樹形圖、冰柱圖和戰(zhàn)略坐標圖。本文采用復雜網(wǎng)絡(luò)及其可視化工具來進行聚類分析,其分析步驟包括:
(1)獲取用戶評論數(shù)據(jù),生成用戶關(guān)系網(wǎng)絡(luò):通過數(shù)據(jù)庫表間的多表連接操作,可獲取2009~2013各年度用戶關(guān)系網(wǎng)絡(luò),其規(guī)模參見表1。
表1 各年度Music版塊用戶評論關(guān)系
(2)生成復雜網(wǎng)絡(luò):利用txt2pajek格式轉(zhuǎn)換工具將數(shù)據(jù)庫導出的記錄形式的文本數(shù)據(jù)轉(zhuǎn)換為復雜網(wǎng)絡(luò)分析的.net文件,實際上完成了從鄰接表到網(wǎng)絡(luò)的轉(zhuǎn)化,其網(wǎng)絡(luò)“核心-邊緣”結(jié)構(gòu)利用pajek自帶的可視化工具可大致呈現(xiàn),參見圖2。
(3)篩選核心用戶群:如果用戶間關(guān)聯(lián)強度閾值設(shè)置為0,以2009年Music版塊用戶關(guān)系網(wǎng)絡(luò)為例,獲取的用戶群體有80個,其中單節(jié)點群體有22個。這種形式獲取的用戶群同質(zhì)性比較高,群體之間的差異性較低,因此為篩選核心用戶群必須提升用戶間關(guān)聯(lián)強度閾值。本文假定“核心用戶群體”集合占對應年度用戶集合的比例為1%。利用VosViewer工具,通過不斷調(diào)整用戶關(guān)聯(lián)強度閾值,可獲取2009、2010、2011、2012和2013年的“核心用戶群體”集合,參見表2,集合大小分別為7、6、4、4和3。
圖2 Music版塊2009年用戶關(guān)系網(wǎng)絡(luò)“核心-邊緣”結(jié)構(gòu)[9]
時間用戶群體20092010201120122013關(guān)聯(lián)強度閾值292286155183159集合17479,21223,39010,49344,741891502,9204821223,25653,39010,49344,7418,9150221223,25653,39010,9150217479,25653,363749150225653,36374,84790所屬類群數(shù)目21121
注:表2中“集合”一行部分單元格進行了拆分,用于表征不同類群。數(shù)字代表用戶的userid。
tag是大眾分類法的產(chǎn)物,用戶標注的tag反映了用戶關(guān)注的主題,也反映了一段時間內(nèi)社交博客中的熱點話題,為此筆者以用戶標注的tag為基礎(chǔ)數(shù)據(jù),對社交話題時序演化情況進行了分析。
(1)tag分布規(guī)律:MetaFilter數(shù)據(jù)集中有描述post title和tag的數(shù)據(jù)表,其中post title相當于被標注的對象,tag表示對象的標注詞。以Music版塊為例進行了分析,可得出以下結(jié)論:①tag在其對應主題中的title keywords中出現(xiàn)的次數(shù)為1407,占posttitles_Music與tagdata_music連接獲取記錄數(shù)(18741)的7.5%,而CiteULike中的比例為31.97%[10]。這種差別主要源于兩方面原因:一是MetaFilter用戶更為多元,而CiteULike用戶多為從事科研活動的人員,信息素養(yǎng)相對較高;二是MetaFilter標注對象多為自然語言文本,隨意性比較大,而CiteULike中標注對象為學術(shù)資源。②出現(xiàn)title keywords的tag共有985個,最高頻次為50,tag分布情況參見圖3。依據(jù)圖3,發(fā)現(xiàn)tag使用頻次及分布符合冪律,這與Chen等通過CiteULike分析結(jié)果基本一致[10],但CiteULike中tag分布的倒J曲線要更陡峭,這說明CiteULike中用戶tag標注用詞更為集中,MetaFilter中tag用詞更為廣泛,這與①中分析也形成了參照。
(2)主題可視化分析:在posttitle中tag使用頻次及分布規(guī)律分析的基礎(chǔ)之上,利用可視化工具Vosviewer,筆者接著以tag為視角透視了用戶主題標注的演化,為與3.1分層用戶群相對照,Music版塊中tag數(shù)據(jù)被切分到五個周期:2009、2010、2011、2012和2013,2009年熱點社交話題參見圖4。圖4中mefiMusicchallenge、guitar、cover等音樂形式是2009年Music版塊社交用戶關(guān)注的重點話題。
圖3 tag使用頻次及分布規(guī)律
圖4 2009年熱點話題分布態(tài)勢
(3)熱點話題時序分布:除了2009年以外,筆者還對2010~2013年社交用戶關(guān)注的10大重點音樂話題進行了統(tǒng)計按照當年熱度排序結(jié)果參見表3。
表3 2009~2013用戶標注熱點話題演化過程
(4)熱點話題演化結(jié)論:通過圖4及表3分析可發(fā)現(xiàn),用戶主題標注基本符合版塊特色,主要圍繞音樂類型或器材(如guitar、pop、rock、contrabassoon等)、音樂活動或表演形式(mefimusicchallenge、improv、solo等)、音樂專輯或團體(如thechrismasablum、cover pop等)、音樂主題(如vampire、love等)等來展開。隨著音樂形式的不斷發(fā)展,用戶主題標注也在不斷演化。以MetaFilter力推的音樂形式mefimusicchallenge為例,其在不同年份的熱度起伏不定,在2009、2012年最為流行,在2010~2011年熱度不減,但被更多個性且獨立的音樂形式(如improv、gyrophonia)所超越,但依舊是用戶關(guān)注的重點。2013年則排名墊底,呈現(xiàn)出明顯的下滑趨勢。
3.3.1關(guān)聯(lián)分析背景
筆者將聚類分析與復雜網(wǎng)絡(luò)分析相結(jié)合,按照時間順序?qū)usic版塊核心用戶群進行了分層處理。同時,結(jié)合時序分析與復雜網(wǎng)絡(luò)分析,統(tǒng)計了各年度用戶關(guān)注的10大話題,并按照熱度高低進行了排序,參見表3。兩種形式都是以時間為參照對象,分別說明了用戶群體隨時間的演化規(guī)律和社交話題的遷移變化。
(1)2009~2013年用戶群體的演化可以通過用戶角色遷移來體現(xiàn):userid為91502和25653的用戶,長期活躍于社會網(wǎng)絡(luò)中,能夠適應主題和時間的變化;userid為7418、21223、49344、36374和39010的用戶,他們在一段連續(xù)時間內(nèi)(最少為兩年)比較活躍,適應性較好;userid為92048,84790和17479的用戶,他們穩(wěn)定性較差(不超過兩年且非連續(xù)),隨時間和主題變動比較大,遷移性比較強。
(2)同理,社交話題的遷移通過表3也可以清晰地展現(xiàn)出來。有些音樂形式如mefimusicchallenge、guitar、improv、cover、rock等長期活躍于Music版塊,是廣受用戶歡迎的音樂形式;有些音樂形式如acoustic、gyrophonia等在一段時間內(nèi)比較流行,之后熱度逐漸消退。
但上述分析方式無法考察核心用戶群體對熱點話題的影響程度,為此筆者將逐年提取核心用戶群體關(guān)注的熱點話題,與當年整個用戶群體關(guān)注的熱點問題進行對比分析。如果二者表現(xiàn)出一定程度的一致性,則說明核心用戶群體的影響力對當年熱點話題的產(chǎn)生具有較大程度的影響。如果二者表現(xiàn)出較大程度的差異性,則說明核心用戶群體的影響力對當年熱點話題產(chǎn)生的貢獻度不高,熱點話題產(chǎn)生具有一定的偶發(fā)因素,與較為分散的非核心用戶群體關(guān)聯(lián)性更強。
3.3.2關(guān)聯(lián)分析過程
依據(jù)3.3.1關(guān)聯(lián)背景分析,本文提取表2核心用戶群標注的話題信息,采用3.2社交話題抽取方法,將tag關(guān)聯(lián)強度閾值控制與聚類分析相結(jié)合,獲取2009~2013年核心用戶群標注的10大話題,參見表4。
表4 2009~2013核心用戶群標注話題演化過程
將表3和表4統(tǒng)計結(jié)果進行對比,對比算法采用話題重合度和加權(quán)余弦相似度計算,計算過程建立在“核心用戶群與整個用戶群體關(guān)注熱點越高的主題一致性越好,則二者相似度越高”這一假設(shè)基礎(chǔ)之上,這一方面是為了規(guī)避單一采用話題重合度所造成的系統(tǒng)誤差,誤差源于沒有考慮話題熱度的影響或?qū)⑺性掝}熱度定義為一致;另一方面也是為了從話題內(nèi)容角度更加清晰地量化核心用戶群體與整個用戶群體話題相似度。
基于上述假設(shè),算法過程可描述為:
(1)統(tǒng)計各年度熱點話題重合的數(shù)量,并計算話題重合度。
(2)單采用話題重合度來評測核心用戶群對熱點話題的影響還不夠,基于“表3和表4熱度越高的主題一致性越好,則相似度越高”這一考慮,筆者還采用加權(quán)余弦相似度計算方式來進一步完善對比方法。按照熱度順序分別賦予各年度熱點話題一定權(quán)重,熱度最高的話題權(quán)重為10,逐次遞減1,則熱度最低話題權(quán)值為1。
(3)在確認各年度各個話題權(quán)重后,構(gòu)建各年度熱點話題特征向量,如2009年整體用戶標注話題特征向量為V09=((guitar,10),(mefimusicchallenge,9),(instrumental,8),(cover,7) (improv,6),(acoustic,5),(rock,4),(gyrophonia,3),( electronic,2),(ukulele,1))。計算同年度整體用戶熱點話題特征向量與核心用戶熱點話題特征向量的相似度,相似度計算通過特征向量夾角余弦值來衡量,計算結(jié)果參照表5。
表5 整體用戶標記話題與核心用戶群標記話題相似度統(tǒng)計
3.3.3關(guān)聯(lián)分析結(jié)論
由表5可獲取關(guān)聯(lián)分析相關(guān)結(jié)論,主要體現(xiàn)為:
(1)話題重合次數(shù)越多并不一定相似度越高。對比2009、2012與2010統(tǒng)計結(jié)果,2010年重合話題比例為70%,遠高于2009年的40%和2012年的30%,但相似度為0.3740,低于2009年的0.4597和2012年的0.4286,這源于2010年統(tǒng)計的重合話題的整體熱度排名要低于2009年和2012年,同時間接證明本文所做基本假設(shè)“熱度越高的主題一致性越好,則相似度越高”是符合實際情形的。
(2)核心用戶群標記的熱點話題與整體用戶標記的熱點話題重合比例為36%,相似度值為0.3205,從數(shù)值分析的角度來講,這說明核心用戶群對整個社交博客熱點話題的衍生具有一定的影響力,并不顯著,但如果注意到本文分析的核心用戶群占當年度整個用戶群體的比例僅為1%,則可見核心用戶群體對熱點話題的影響是顯著的。本文核心用戶群比例設(shè)置相對嚴格,如果擴展核心用戶群占整體用戶群體的比例,則核心用戶群體對熱點話題的影響力將更加顯著。
(3)核心用戶群的對立面是非核心用戶群,之前已經(jīng)說明tag標注呈現(xiàn)冪律分布,由于互聯(lián)網(wǎng)長尾效應的影響,通過數(shù)值分析可知非核心用戶群對熱點話題也有一定影響,是社交博客運營方不可忽視的重要群體,盡管其影響是分散的。
4結(jié)語
本文將時序分析、聚類分析與復雜網(wǎng)絡(luò)分析相結(jié)合,對社交博客用戶分層及話題演化進行了分析。社交博客用戶分層依據(jù)用戶在社交媒體中的活躍程度,評估不同用戶群體對社交網(wǎng)絡(luò)影響的大小,重點圍繞核心用戶群體來展開。之后,筆者又逐年分析了整個用戶群體關(guān)注的熱點話題,對比核心用戶群體關(guān)注的熱點話題,從而評估核心用戶群體對熱點話題衍生的影響大小。通過MetaFilter數(shù)值分析可知,核心用戶群體對熱點話題衍生的影響是顯著的,但同時由于互聯(lián)網(wǎng)長尾效應帶來的影響,非核心用戶群對熱點話題衍生也具有一定影響,值得引起社交博客運營方的注意。同時需要注意的是,本文分析尚存在部分不足,主要表現(xiàn)為:分析數(shù)據(jù)主要來源于MetaFilter Music版塊,由于不同社交主題領(lǐng)域的差異,其分析結(jié)果可能存在一定差異,因此需要進一步拓展主題分析領(lǐng)域,核實分析結(jié)論的應用面。參考文獻
[1]Lazarsfeld P F, Berelson B, Gaudet H.The People’s Choice: How the voter makes up his mind in a presidential campaign[M].New York: Columbia University Press, 1948:1-178
[2]尹衍騰,李學明,蔡孟松.基于用戶關(guān)系與屬性的微博意見領(lǐng)袖挖掘方法[J].計算機工程,2013,39(4):184-189
[3]蔣翠清,朱義生,丁勇.基于UGC下的意見領(lǐng)袖發(fā)現(xiàn)研究[J].情報雜志,2011,30(10):82-85
[4]Xu W W, Sang Y, Blasiola S, et al. Predicting opinion leaders in Twitter activism networks: The case of the Wisconsin Recall Election[J]. American Behavioral Scientist, 2014, 58(10):1278-1293
[5]Zhang W,He H,Cao B.Identifying and evaluating the internet opinion leader community based on k-clique clustering[J]. Neural Comput & Applic, 2014(25):595-602
[6]蔡淑琴, 張靜, 王旸,等. 基于中心化的微博熱點發(fā)現(xiàn)方法[J]. 管理學報, 2012, 9(6): 874-879
[7]Sankaranarayanan J, Samet H, Teitler B E, et al. TwitterStand: News in tweets[C]//Proceedings of the 17th ACM SIGSPATIAL International Conference on Advances in Geographic Information Systems. New York:ACM, 2009, 42-51
[8]莫溢, 劉盛華, 劉悅,等. 一種相關(guān)話題微博信息的篩選規(guī)則學習算法[J]. 中文信息學報, 2012, 26(5):1-6
[9]李綱,葉光輝,張巖.“小眾專家”特征識別——基于MetaFilter的實證分析[J]. 現(xiàn)代圖書情報技術(shù), 2015,31(6):71-77
[10] Chen Y, Ke H. A study on mental models of taggers and experts for article indexing based on analysis of keyword usage[J].Journal of the Association for Information Science and Technology,2014, 65(8):1675-1694
Research on User Classification and Topic Evolution in Social Blog: Empirical Analysis Based on Music Section in MetaFilter Dataset
Du HaiyanYe Guanghui
(School of Information Management of Wuhan University, Wuhan 430072)
[Abstract]Combined with time series analysis, cluster analysis and complex network analysis, this paper analyzes user classification and topic evolution in social blog. Firstly, according to the user activity in the social media, the authors set the threshold of relationship intensity and extract the core users. Secondly, this paper does the statistics of the annual hot topics concerned by the whole community. Finally,with comparing to hot topics tagged by core users, empirical analysis shows that the core users has significant impact on the derivative of hot topics and non-core users should not be ignored for the long tail effect.
[Key words]Social blogTopic evolutionMetaFilterUser classification
(收稿日期:2015-09-18)
DOI:10.13365/j.jirm.2015.04.039
[中圖分類號]G350
[文獻標識碼]A
[文章編號]2095-2171(2015)04-0039-08
[作者簡介]杜海燕,女,碩士研究生,研究方向為網(wǎng)絡(luò)信息資源管理;葉光輝,男,博士研究生,研究方向為信息資源組織與分析。
[基金項目]本文系國家自然科學基金青年項目“多因素融合下的微博話題可信度評估模型及實證研究”(71303179)、武漢大學自主科研項目“跨學科專家科研團隊發(fā)現(xiàn)研究”(2014104010202)和2014年武漢大學人文社會科學青年項目“基于引證鏈接的網(wǎng)絡(luò)文獻可追溯性研究”研究成果之一,受到中央高?;究蒲袠I(yè)務(wù)費專項資金資助。