徐 翔
(同濟(jì)大學(xué)藝術(shù)與傳媒學(xué)院大數(shù)據(jù)與計(jì)算傳播研究中心 上海 201804)
社交媒體的強(qiáng)勢(shì)發(fā)展給數(shù)字網(wǎng)絡(luò)、信息社會(huì)帶來新的特征,社交媒體的用戶生成內(nèi)容(User Generated Content,UGC)成為影響到社會(huì)文化的重要信息環(huán)境。隨著海量社交媒體信息的傳播,用戶可能陷入的“信息繭房”問題也日益引起矚目和擔(dān)憂。然而,信息的繭房化、信息封閉和窄化不只是個(gè)體面臨的信息風(fēng)險(xiǎn),也是社會(huì)共同體和輿論場(chǎng)整體面臨的風(fēng)險(xiǎn)。本研究的核心問題是:社交媒體平臺(tái)下資訊的生產(chǎn)與傳播是否以及如何體現(xiàn)著平臺(tái)公共的信息封閉與窄化?這種平臺(tái)內(nèi)容的封閉程度,與平臺(tái)內(nèi)容傳播熱度之間具有怎樣的可確定性描述的分布和規(guī)律?
網(wǎng)絡(luò)中的“信息繭房”“回音室”[1]“巴爾干化”[2]等多方面的研究,指出用戶會(huì)陷入輿論、信息的重復(fù)和隔離。桑斯坦提出“信息繭房”概念,意指人們將自身桎梏于像蠶繭一般的“繭房”中,獲得“窄化”的信息[3]。從內(nèi)涵與機(jī)理而言,現(xiàn)有的“信息繭房”概念及信息窄化主要指?jìng)€(gè)體用戶或用戶群組之現(xiàn)象,是局部區(qū)別于其他局部、或區(qū)別于社會(huì)整體,而不是指社會(huì)整體的。在此,宏觀平臺(tái)層面的信息“繭房化”和信息內(nèi)容在流動(dòng)中趨于重復(fù)、窄化的內(nèi)容收斂,成為本研究的重點(diǎn)問題。
一些研究從用戶之間的聯(lián)系、社會(huì)網(wǎng)絡(luò)、社會(huì)連接和群體內(nèi)接觸之間,探討用戶及其信息的同質(zhì)化問題。Himelboim發(fā)現(xiàn)高度自我聯(lián)系的子群,twitter用戶不容易接觸異質(zhì)性的內(nèi)容[4]。Lawrence對(duì)于博客鏈接的分析也得出跨黨派用戶群之間的意識(shí)形態(tài)隔離[5]。Jacobson等人測(cè)量了意見氣候中“過濾氣泡”的影響,發(fā)現(xiàn)社交媒體上的政治討論可能存在話語(yǔ)壁壘[6]。對(duì)此需要注意的是,把社群間的意見隔離和“回音室”轉(zhuǎn)變?yōu)樯鐣?huì)整體結(jié)構(gòu)化的“信息繭房”還需要更為直接的銜接和證據(jù)。即使在社交網(wǎng)絡(luò)中存在著局部的信息同質(zhì)化,也不意味著它等同于全局的信息同質(zhì)化;難以通過對(duì)特定領(lǐng)域、垂直主題或有限用戶群的分析而將群體性的信息繭房擴(kuò)展為平臺(tái)性的公共信息繭房。
就作為一種“公共領(lǐng)域”或類公共領(lǐng)域的社交媒體而言,其中信息的同質(zhì)化和異質(zhì)化、局部同質(zhì)化和全局異質(zhì)化之間的矛盾,是一直存在的問題。例如有觀點(diǎn)認(rèn)為,“信息繭房”對(duì)于社會(huì)中異質(zhì)性的加強(qiáng)會(huì)促動(dòng)“全民共有話題的消失”[7]。但是在公眾“信息繭房”交織下,公共領(lǐng)域是體現(xiàn)一個(gè)個(gè)“微”繭房構(gòu)筑的多樣性,或是公共領(lǐng)域的同質(zhì)化和“公共回音室”,兩者并未得到直接有效的勾連。局部的信息窄化、內(nèi)容收斂和社會(huì)“公共領(lǐng)域”之間的深層次矛盾,因此需推移到宏觀信息環(huán)境層面的“公共信息繭房”。
對(duì)于平臺(tái)整體的公共信息繭房,它不同于個(gè)體性的信息繭房視角,而是關(guān)注社交媒體平臺(tái)如何被困在有限的信息空間之中。這其中,一些研究涉及社交媒體訊息和UGC生產(chǎn)過程中的同質(zhì)化。例如Pew研究中心擔(dān)憂,互聯(lián)網(wǎng)使人們退卻到自己狹窄的興趣中,那些偶發(fā)的新聞資訊有越來越少的趨勢(shì)[8]。趙焱鑫等通過模型仿真指出,網(wǎng)絡(luò)中輿情主體的流動(dòng)性和記憶能力的提高可以增大輿情同質(zhì)化傾向[9]。但是高熱度信息的相似并不直接意味著低熱度信息的不相似,也不等同于高熱度信息彼此之間比低熱度信息彼此之間更相似。在此基礎(chǔ)上,值得進(jìn)一步探討的問題包括:高熱度帖子彼此間的趨似程度,和帖子的媒介傳導(dǎo)熱度之間是否存在以及存在著怎樣的對(duì)應(yīng)關(guān)系?低熱度帖子之間是高相似度還是低相似度?本文從三個(gè)可能的層面對(duì)社交媒體信息的趨似方式加以考察,也即信息彼此之間的相似性(簡(jiǎn)稱Sim1)、信息趨于和全局信息的相似性(簡(jiǎn)稱Sim2)、信息趨于和頂部最高熱度信息的相似性(簡(jiǎn)稱Sim3);當(dāng)結(jié)合信息的傳播熱度變化后,Sim1、Sim2、Sim3依次對(duì)應(yīng)于后文Q2.1、Q2.2、Q2.3中所述的層內(nèi)收斂性、全局收斂性、趨頂收斂性。
平臺(tái)中的高傳播度信息的同質(zhì)性,使得頭部信息可能比全局其他信息可能更為窄化。在媒體議程研究中,有研究認(rèn)為公共議程的數(shù)量受到時(shí)間、注意力和資源等約束力的限制,議程之間實(shí)際存在零和博弈的競(jìng)爭(zhēng)關(guān)系[10]。Jennings等認(rèn)為受到更多關(guān)注的議程對(duì)象會(huì)對(duì)長(zhǎng)期議程多樣性產(chǎn)生負(fù)面影響[11]。不僅某些問題比其他問題受到更多關(guān)注,而且某些問題僅在議程更加多樣化時(shí)才受到關(guān)注[12]。在社交媒體中,信息的生產(chǎn)、特征與其傳播熱度具有密切聯(lián)系,高熱度內(nèi)容呈現(xiàn)出明顯的類型有限化、收窄化現(xiàn)象[13-14]。一些分析對(duì)此探討了社交網(wǎng)絡(luò)中高熱度信息可能的共同特征。例如,Ma等人發(fā)現(xiàn)Twitter上關(guān)于相似話題的標(biāo)簽可能同時(shí)具備相似的流行度趨勢(shì)[15]。Dworak表示網(wǎng)絡(luò)不是鼓勵(lì)報(bào)道的多樣性,而是把精力集中在類似的報(bào)道上[16]。這些研究顯示社交網(wǎng)絡(luò)高熱度內(nèi)容可能具有更強(qiáng)的彼此相似性(Sim1),而低熱度內(nèi)容或低顯著度議程則受到的同質(zhì)化約束則較低。
社交媒體中用戶選擇的趨同,使得高關(guān)注度內(nèi)容可能具有較之一般內(nèi)容的更高相似性和重復(fù)性。在競(jìng)爭(zhēng)激烈的新聞生態(tài)中,市場(chǎng)機(jī)制往往會(huì)根據(jù)消費(fèi)者的偏好產(chǎn)生“更多相同”的內(nèi)容[17-18]。高選擇性的媒體環(huán)境并沒有導(dǎo)致受眾的分化,而是產(chǎn)生受眾之間的高重復(fù)度[19]。對(duì)在線社交網(wǎng)絡(luò)的音樂收聽分析顯示,聽眾的收聽對(duì)象具有同質(zhì)化現(xiàn)象[20]。Yoo等人發(fā)現(xiàn)級(jí)聯(lián)的擴(kuò)散受到具有相似內(nèi)容的并行級(jí)聯(lián)的同時(shí)擴(kuò)散的抑制;那些擁有較大網(wǎng)絡(luò)的內(nèi)容的傳播更有可能被相似內(nèi)容的傳播放大[21]。這些研究一方面顯示出受偏好內(nèi)容的高度擴(kuò)散而增強(qiáng)它們對(duì)于平臺(tái)的覆蓋、對(duì)于其他多樣信息的抑制,使得少數(shù)高熱度內(nèi)容在平臺(tái)中具有更高的普遍性和全局相似度(Sim2),另一方面也有助于推測(cè)高熱度內(nèi)容的集中使得其比低熱度內(nèi)容具有更強(qiáng)的彼此相似性(Sim1)
平臺(tái)中的高傳播度信息會(huì)增強(qiáng)其他內(nèi)容與自己的相似化,使得一定時(shí)期內(nèi)平臺(tái)信息朝向高傳播度信息加強(qiáng)趨同。Marty 等通過新聞主題的分析強(qiáng)調(diào)某些主題的過度曝光與傳播,強(qiáng)化了“多即少”理論[22]。當(dāng)“信息級(jí)聯(lián)”效應(yīng)發(fā)生在平臺(tái)中時(shí),容易導(dǎo)致某些內(nèi)容在短時(shí)間內(nèi)被大范圍和重復(fù)性地傳播,使得熱門議題表現(xiàn)得單一化[23]。Webster表示數(shù)字媒體時(shí)代雖然沒有媒體節(jié)目完全相同,但他們的交叉點(diǎn)將是最受歡迎的文化產(chǎn)品,這將人們的注意力集中在最流行的選擇上[24]。由于高傳播度的內(nèi)容使得其他內(nèi)容與自己相似化的能效更強(qiáng),可能使得全局內(nèi)容表現(xiàn)得與高傳播熱度內(nèi)容具有更高的相似度,體現(xiàn)出趨頂?shù)南嗨菩?Sim3)。
社交媒體新聞內(nèi)容生產(chǎn)中的同質(zhì)模仿和“媒體風(fēng)暴”增強(qiáng)高熱度內(nèi)容的相似和封閉。 “媒體風(fēng)暴”下在更廣泛的社會(huì)政治環(huán)境中存在一個(gè)重大的、突出的問題(或議程)并反過來導(dǎo)致不同的媒體來源報(bào)道類似的問題[25]。Zhang證實(shí)了新聞媒體存在相互觀察和模仿的日常行為[26]。對(duì)于一些中小型媒體而言,會(huì)更加留意權(quán)威媒體的做法,以確信自身新聞報(bào)道的價(jià)值[27]。與該現(xiàn)象類似,一系列主體相似、內(nèi)容相關(guān)的事件會(huì)使得出現(xiàn)新聞“搭車”現(xiàn)象[28]。這些一方面使得熱門新聞和信息集中到有限和窄化的范圍中而增強(qiáng)信息的趨頂相似性(Sim3),另一方面也使信息內(nèi)容減少其多樣化、異質(zhì)化成分而增強(qiáng)在高可見度信息覆蓋下的全局相似性(Sim2)。
為簡(jiǎn)化表述,本文把社交媒體信息內(nèi)容之間趨于相似化、重復(fù)化的現(xiàn)象與態(tài)勢(shì)代稱為內(nèi)容收斂,它強(qiáng)調(diào)內(nèi)容消減其多樣性和異質(zhì)性,而趨向似同、封閉、窄化的有限范圍收斂。沿著[信息內(nèi)容收斂→用戶或社群層面的信息內(nèi)容收斂→社交媒體宏觀意義上的信息內(nèi)容收斂→媒介傳導(dǎo)程度與宏觀信息內(nèi)容收斂]的邏輯路徑,本文針對(duì)微博的社交媒體環(huán)境,提出關(guān)于社交媒體平臺(tái)“內(nèi)容收斂”的核心問題:信息在媒介平臺(tái)中的傳導(dǎo)程度,是否以及如何影響著該媒介平臺(tái)中的信息內(nèi)容的“收斂”,使平臺(tái)信息表現(xiàn)和加強(qiáng)著重復(fù)和封閉程度?
結(jié)合上一節(jié)的分析,作為一種網(wǎng)絡(luò)平臺(tái)和內(nèi)容生產(chǎn)平臺(tái)的社交媒體,不僅可能存在著高傳播度內(nèi)容的同質(zhì)化現(xiàn)象,而且這種現(xiàn)象的程度與內(nèi)容傳播熱度、內(nèi)容在平臺(tái)的顯要性之間存在聯(lián)系。由本文核心問題提出假設(shè)Q1,及其延伸子假設(shè)Q2、Q3:
Q1:在有限周期內(nèi),新浪微博中越是高熱度的帖子則其相似的“內(nèi)容收斂”程度越高,兩者成正比關(guān)系。
Q2:如果Q1成立和顯著,則可以進(jìn)一步推知:
Q2.1、趨向彼此的收斂。越是高熱度的帖子,彼此之間的多樣性越是消減,而相似、封閉的程度增加。也就意味著:同一熱度層級(jí)的帖子,彼此的平均相似度與該層級(jí)帖子的平均熱度(或熱度“質(zhì)心”)成正比。
Q2.2、趨向全局的收斂。帖子的內(nèi)容收斂不是朝向哪個(gè)限定性的局部或指定范圍的,而是關(guān)乎到總體內(nèi)容的收斂。越是高熱度的帖子就越是表現(xiàn)出朝向周期內(nèi)的“眾聲喧嘩”“蕓蕓眾聲”的全體內(nèi)容的趨同化,而相較于全體內(nèi)容的差異性、異質(zhì)性的成分就越少。也即:帖子的熱度越高,那么和周期內(nèi)全體帖子的平均相似度也就越高,兩者成正比。
Q2.3、趨向頂部的收斂。如果越是高熱度的帖子就越趨似于總體的內(nèi)容,那么帖子平均“貼近”于總體內(nèi)容的過程同時(shí)也近似地表現(xiàn)為“貼近于”最高熱度帖子群的過程。帖子的熱度越高,那么和最高熱度“層級(jí)”帖子的相似度也就越高,兩者成正比。
Q3、在Q2.1、Q2.2、Q2.3中分別涉及到的三種不同的內(nèi)容收斂(層內(nèi)收斂性、全局收斂性、趨頂收斂性三個(gè)層面),這三者的收斂程度不是割裂或沖突的,而是具有高度的正相關(guān)性和一致性。如果Q2.1、Q2.2、Q2.3都成立,那么很難設(shè)想Q3不成立,除非前面的假設(shè)環(huán)節(jié)具有重大紕漏(見圖1)。
圖1 基本假設(shè)與結(jié)構(gòu)關(guān)系
針對(duì)全文的問題和假設(shè),研究思路與主要操作步驟如下:
a.獲取新浪微博的帖子樣本(見2.3節(jié))。
b.將每條帖子進(jìn)行向量化的轉(zhuǎn)換(見2.4節(jié))。
c.對(duì)帖子按照其傳播熱度進(jìn)行等頻分層(見2.3節(jié)),設(shè)層數(shù)為max。
d.對(duì)步驟③中分層后的每層帖子,計(jì)算該層帖子和以下帖子的內(nèi)容相似度(計(jì)算方法見2.5節(jié)):4A、計(jì)算層內(nèi)這些帖子彼此的平均相似度,全部各層得到的結(jié)果記為數(shù)值序列S1;4B、逐層計(jì)算該層和全體帖子的平均相似度(由于實(shí)際計(jì)算量太大,因此全體帖子用隨機(jī)抽樣的部分帖子代替),全部各層得到的結(jié)果記為數(shù)值序列S2;4C、計(jì)算該層和熱度最高層帖子的相似度,全部各層得到的結(jié)果記為數(shù)值序列S3。S1、S2、S3中的元素個(gè)數(shù)=max個(gè),元素順序皆與步驟③中的層順序?qū)?yīng)。
e.對(duì)每層帖子,計(jì)算該層帖子的平均傳播熱度,記為數(shù)值序列F。F中的元素個(gè)數(shù)=max個(gè),元素順序與S1、S2、S3中的層順序皆一一對(duì)應(yīng)。
f.6A、通過S1和F的相關(guān)關(guān)系與回歸分析,檢驗(yàn)Q2.1及其對(duì)應(yīng)的假設(shè)H1(見后文第3節(jié));6B、通過S2和F的相關(guān)關(guān)系與回歸分析,檢驗(yàn)Q2.2及其對(duì)應(yīng)的假設(shè)H2(見后文第4節(jié));6C、通過S3和F的相關(guān)關(guān)系與回歸分析,檢驗(yàn)Q2.3及其對(duì)應(yīng)的假設(shè)H3(見后文第5節(jié));6D、通過S1、S2、S3的一致性,檢驗(yàn)Q2及其對(duì)應(yīng)的假設(shè)H4。
上述實(shí)施思路和關(guān)鍵環(huán)節(jié)進(jìn)一步見圖2。
圖2 研究思路與假設(shè)內(nèi)涵
選擇新浪微博,抓取、篩選其用戶在2017年1月1日到2018年12月31日的兩年間的帖子樣本;其中4個(gè)日期的數(shù)據(jù)缺失或不足,剩下實(shí)際有效分析的為726天。帖子被抓取時(shí)間為2019年10月-2020年1月,熱度指標(biāo)已經(jīng)過一段時(shí)間的冷卻期,其評(píng)論數(shù)、點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)已穩(wěn)定,從而避免無效擾動(dòng)。
對(duì)于帖子發(fā)布者采取廣覆蓋、成本相對(duì)較低的多階段抽樣。首先從新浪微博首頁(yè)47個(gè)內(nèi)容版塊(分別是:社會(huì)、國(guó)際、科技、科普、數(shù)碼、財(cái)經(jīng)、股市、明星、綜藝、電視劇、電影、音樂、汽車、體育、運(yùn)動(dòng)健身、健康、瘦身、養(yǎng)生、軍事、歷史、美女模特、美圖、情感、搞笑、辟謠、正能量、政務(wù)、游戲、旅游、育兒、校園、美食、房產(chǎn)、家居、星座、讀書、三農(nóng)、設(shè)計(jì)、藝術(shù)、時(shí)尚、美妝、動(dòng)漫、宗教、萌寵、法律、視頻、上海)中,各個(gè)版塊每天早晚各抓取一次,持續(xù)1個(gè)月,共獲得67 362條“種子”帖。由于結(jié)合了新浪微博自身的內(nèi)容分發(fā)系統(tǒng),因此種子帖廣泛而大致均衡地分布在這47類版塊。然后從這些種子帖做一輪“滾雪球”抽樣的擴(kuò)散,每條種子帖抓取500條評(píng)論的評(píng)論者(不足500條的則全部抓取)。其后去除重復(fù)用戶和無效用戶、抓取失敗的用戶后,獲取其發(fā)布者和評(píng)論者共計(jì)3 501 153個(gè)用戶的初始庫(kù),并從中隨機(jī)取10萬個(gè)用戶,其中有效抓取到87 739個(gè)用戶所發(fā)帖子。樣本用戶的使用特征、自我標(biāo)示的地區(qū)來源見圖3、表1。
表1 樣本用戶所標(biāo)示的地區(qū)來源
圖3中,關(guān)注他人數(shù)的均值為5.74,標(biāo)準(zhǔn)差為1.137,有效樣本數(shù)為71 856個(gè);粉絲數(shù)的均值為6.58,標(biāo)準(zhǔn)差為2.884,有效樣本數(shù)為71 919個(gè);發(fā)微博條數(shù)的均值為7.970,標(biāo)準(zhǔn)差為2.090,有效樣本數(shù)為71 495個(gè)。根據(jù)圖3中還原的原始數(shù)值,用戶的關(guān)注他人數(shù)平均為311.06人,粉絲數(shù)平均為720.54人,發(fā)微博數(shù)平均為2 892.86條。
微博的帖子熱度以其轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、點(diǎn)贊數(shù)作為衡量指標(biāo)。首先將每個(gè)指標(biāo)值xi經(jīng)以2為底的對(duì)數(shù)函數(shù)轉(zhuǎn)換: log2(xi+1)。其后進(jìn)行Min-Max歸一化處理,歸一化的公式為:(xi-min(x))/(max(x)-min(x))。轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、點(diǎn)贊數(shù)分別歸一化,統(tǒng)一量綱到[0,1]之間的值,并將三者等權(quán)相加后的值作為帖子的熱度值指標(biāo)(代稱C1,后文涉及的帖子熱度如非特別說明均指C1)。
得到帖子的歸一化熱度(C1)后,在量綱[0,1]的尺度下,本研究去除C1<=0.05的帖子,被過濾的熱度“譜段” [0~0.05]是占[0~1]的全譜段寬度的最低5%。過于微弱的評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā)數(shù)其偶然性和干擾較多。微博中存在著網(wǎng)絡(luò)水軍、社交機(jī)器人、“僵尸粉”等用戶,進(jìn)行著虛假評(píng)論、虛假轉(zhuǎn)贊等行為[29-30]過濾掉一些轉(zhuǎn)贊評(píng)過于微弱的帖子,有助于降低干擾度。本研究目的針對(duì)的是具有宏觀結(jié)構(gòu)性的內(nèi)容收斂和社會(huì)性的信息繭房問題,因此著重于具有一定程度的“公共領(lǐng)域”性質(zhì)和公眾熱度的帖子。部分的個(gè)體化、私人化性質(zhì)的帖子具有很低程度的評(píng)論、點(diǎn)贊、轉(zhuǎn)發(fā),這些帖子的社會(huì)擴(kuò)散范圍過窄,甚至可能只是兩人之間就某個(gè)話題、事物的交流。對(duì)于公共領(lǐng)域的信息而言,熱度過低的帖子是“可見度”很低、甚至是接近于靜默的聲音。去除了“尾部”熱度過于“微弱”的成分可以使得用于分析的帖子更為真實(shí)有效地反映帖子的社會(huì)參與性與社會(huì)公共性,更好地符合研究目的。剩下的樣本中依然包含了大量的低熱度樣本,可以反映冷門帖子的特征以及帖子從冷到熱的變化規(guī)律。同時(shí),本文也謹(jǐn)慎地把結(jié)論限定在C1指標(biāo)值處于0.05~1的范圍內(nèi)。最后分析的有效的帖子樣本數(shù)為12331149條,熱度分布見圖4,其均值等于0.1553,中位數(shù)等于0.1372,標(biāo)準(zhǔn)差等于0.0854。
圖4 帖子熱度分布直方圖
熱度計(jì)算過程中的各子指標(biāo)分布如下,下述三個(gè)指標(biāo)均為微博官方原始數(shù)值x經(jīng)log2(x+1)轉(zhuǎn)換后。(1)轉(zhuǎn)發(fā)數(shù)。均值5.46,中值5.21,標(biāo)準(zhǔn)差2.96,范圍0~22.83;(2)評(píng)論數(shù)。均值3.24,中值2.81,標(biāo)準(zhǔn)差2.54,范圍0~22.39。(3)點(diǎn)贊數(shù)。均值5.46,中值5.21,標(biāo)準(zhǔn)差2.96,范圍0~22.83。
熱度指標(biāo)之間的皮爾遜相關(guān)系數(shù)如下(表2)。
表2 熱度指標(biāo)的相關(guān)系數(shù)矩陣
兩年的跨度內(nèi),每天的帖子量均值為16985條,統(tǒng)計(jì)描述詳見表3。
表3 每天帖子樣本數(shù)量的統(tǒng)計(jì)描述
對(duì)于微博帖子進(jìn)行分周期、分時(shí)間段考察。在不同的短、中輿論周期下,選擇的周期天數(shù)分別為:3、5、9、10、20、27、40、80天。如果某周期下不能恰好整分,則余下的日期組成最后一個(gè)時(shí)間段。周期天數(shù)選擇的原因如下。其一,盡量使之具有隨意性和隨機(jī)性,回避7天或14天、30天、60天等整周、整月的循環(huán)周期。其二,有研究指出,新浪微博多數(shù)信息的生命周期是1天[31];亦有研究指出,新浪微博熱點(diǎn)話題的半衰期為8天[32]。本研究不刻意按照常見的輿論周期劃分,而是符合周期或者不符合周期都予以考察。其三,長(zhǎng)短多樣周期都涉及到,避免結(jié)果只是某種特殊周期下的特殊現(xiàn)象。
對(duì)帖子按照熱度進(jìn)行分層;采取各層帖子數(shù)量相等的等頻均勻切分(也即常用的“等頻分箱”),避免各層級(jí)規(guī)??趶讲灰恢隆0褌鞑岫?C1)相同或最為相近的帖子納入同一層組Gx,也即把Gx作為分析的基本“信息單元”。分層的具體過程為:首先對(duì)于熱度的數(shù)值序列通過stats模塊中的scoreatpercentile()函數(shù)得到等頻分箱的分位數(shù),然后根據(jù)這些分位數(shù)對(duì)原序列采取numpy模塊中的digitize()函數(shù)進(jìn)行分箱。某周期內(nèi)所有帖子劃分為從低到高的熱度層級(jí),依次為{G1,G2,G3,……,Gm}。對(duì)每層的帖子計(jì)算它們的熱度平均值作為該層的熱度“質(zhì)心”,則上述所有“信息單元”對(duì)應(yīng)的熱度質(zhì)心為數(shù)值序列{H1,H2,H3,……,Hm},代稱為F。
對(duì)于帖子按照熱度的分層(也即數(shù)據(jù)預(yù)處理中的“分箱”)有兩種常用方法。一種是“等距分箱”,但這種處理,如前文的預(yù)分析所示(參見圖4),會(huì)造成低層級(jí)的“箱”內(nèi)帖子數(shù)量遠(yuǎn)超于中、高層級(jí)。另一種則是同樣常見的“等頻分箱”,也即每層中的帖子數(shù)量相等。本研究選擇“等頻分箱”主要基于以下考慮。帖子每天數(shù)量平均已達(dá)16 985條,而本研究考察的周期長(zhǎng)度至少也達(dá)到了3天,也即每周期內(nèi)的帖子數(shù)量平均已達(dá)到約5萬條甚至數(shù)十萬條、上百萬條,切分成較為有限的層級(jí)后每層內(nèi)部的熱度依然可以保持足夠的稠密性和帖子“同熱度性”。此外,另一種需要考慮的疑問是,微博低熱度的帖子較多所以可能相似度低,高熱度的帖子較少所以可能相似度高,這對(duì)于本文的觀點(diǎn)論證是否有影響?基于這種可能的疑問,本文恰恰是采用“等頻分箱”以更好地回應(yīng)和論證:同樣規(guī)模的低熱度帖子組和高熱度帖子組,后者比前者更為收斂,而且這種收斂是隨著熱度由低到高而逐步提升的,從而排除“低熱度帖子由于較多所以相似程度更低”的疑惑。
對(duì)于內(nèi)容相似度的計(jì)算需要把微博帖子的短文本轉(zhuǎn)為向量。對(duì)每條帖子的向量化轉(zhuǎn)換采用在業(yè)界和學(xué)界有廣泛成熟應(yīng)用、快速和穩(wěn)定的Word2Vec[33]及其平均池化方式進(jìn)行。首先對(duì)樣本中的帖子,采取常用的分詞軟件“jieba”進(jìn)行分詞[34];其后利用開源工具GenSim[35],將分詞后的每一個(gè)詞轉(zhuǎn)換成一個(gè)300維的Word2Vec詞向量,對(duì)這些詞的詞向量經(jīng)過平均池化后得到該帖子的語(yǔ)句向量。訓(xùn)練Word2Vec所使用的語(yǔ)料采用自行抓取的26G的中文語(yǔ)料庫(kù),來源包括媒體新聞庫(kù)、網(wǎng)絡(luò)論壇帖子、經(jīng)典名著等,訓(xùn)練結(jié)果包括5830979個(gè)詞匯的嵌入式表示,效果充分良好。
Word2vec包括CBOW和Skip-Gram模型,本文采用其中的CBOW模型。CBOW模型的主要思想是上、下文信息作為輸入,當(dāng)前詞作為監(jiān)督數(shù)據(jù)或監(jiān)督標(biāo)簽。訓(xùn)練目標(biāo)是使當(dāng)前詞出現(xiàn)的概率最大,而當(dāng)前詞的后驗(yàn)概率如下:
(1)
由詞向量表示句子或短文本,采取對(duì)詞向量求平均池化值,也即計(jì)算各向量等權(quán)后的平均向量[36]。Shen等的研究將簡(jiǎn)單詞向量模型(SWEM),也即對(duì)詞向量進(jìn)行等權(quán)求平均向量的方法,與循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行比較得出在大多數(shù)情況下SWEM表現(xiàn)出高性能[37]?;趙ord2vec詞向量進(jìn)行平均池化得到帖子向量,具有良好基礎(chǔ)與現(xiàn)實(shí)應(yīng)用性。
對(duì)于信息內(nèi)容“收斂”主要通過內(nèi)容之間的相似度來反映:相似程度越高表明這些內(nèi)容之間兩兩的相似和重復(fù)程度越高;若異質(zhì)化的內(nèi)容越多,內(nèi)容之間差異越大,則這些內(nèi)容的平均相似程度就會(huì)越低。
將每條帖子轉(zhuǎn)為向量后依此逐條計(jì)算帖子和帖子之間的內(nèi)容相似度。任意兩條帖子(序號(hào)分別為i、j)之間的相似度Sik采用常用的余弦相似度[38-39],也即這兩條帖子分別轉(zhuǎn)換得到的兩個(gè)向量A、B之間的夾角θ的余弦值cos(θ):
(2)
一組帖子G1與另一組帖子G2的平均相似度用衡量?jī)山M對(duì)象之間距離或相似度的常用的“類平均法”(組間平均連接)測(cè)度,也即:假設(shè)G1包含n1條帖子,G2包含n2條帖子,G1中第i條帖子和G2中第k條帖子之間的相似度用Sik表示,則G1和G2之間的平均相似度為
(3)
如果是計(jì)算同一層組內(nèi)部的自我相似度,則將上述公式中G1、G2置定為同一組,同理計(jì)算可得。當(dāng)n1和n2都等于1的時(shí)候,式3還原為式2。
前文的Q1、Q2、Q3經(jīng)過操作化界定和相應(yīng)的轉(zhuǎn)換后得到要檢驗(yàn)的子假設(shè)H1、H2、H3、H4。某個(gè)時(shí)間周期內(nèi)的帖子樣本切分為等頻的100層之后,轉(zhuǎn)換后的假設(shè)見表4。
表4 轉(zhuǎn)換過程以及可操作化之后的假設(shè)
8種周期下的各時(shí)間段,F(xiàn)和S1的皮爾遜相關(guān)系數(shù)的p值遠(yuǎn)小于0.001;皮爾遜相關(guān)系數(shù)值都很高,周期內(nèi)各時(shí)間段的相關(guān)系數(shù)均值都達(dá)到0.92甚至0.96以上(見表5)。
表5 信息層熱度(F)和層內(nèi)內(nèi)容平均相似度(S1)的皮爾遜相關(guān)系數(shù)情況
一元線性回歸結(jié)果如表6。
表6顯示,各時(shí)間段下,回歸方程的顯著性全部小于0.001;擬合優(yōu)度指標(biāo)R方在各周期平均值都達(dá)到0.86以上,甚至部分周期下接近于0.93。也即用簡(jiǎn)單的直線擬合這種變化關(guān)系已經(jīng)有良好效果。
表6 信息層熱度(自變量F)和層內(nèi)內(nèi)容平均相似度(因變量S1)的線性回歸分析
同時(shí),各周期一元線性回歸的一次項(xiàng)系數(shù)(斜率)基本都在0.425,常數(shù)項(xiàng)(截距)基本都為0.173(在0.172-0.174之間輕微波動(dòng))。信息層級(jí)的熱度(自變量)和其層內(nèi)相似度(因變量)的共變關(guān)系穩(wěn)定,不是一種大幅波動(dòng)的現(xiàn)象。
8個(gè)周期下的各個(gè)時(shí)間段,都顯示出了在信息的熱度(F)和信息趨于頂部層級(jí)內(nèi)容的相似性(S2)之間的強(qiáng)烈的正相關(guān)(見表7)。不少時(shí)間段下,F(xiàn)和S2的相關(guān)系數(shù)已經(jīng)達(dá)到0.97以上的接近于為1的完全正相關(guān)。
表7 信息層熱度(F)和層趨向全局內(nèi)容平均相似度(S2)的皮爾遜相關(guān)系數(shù)情況
采用一元線性回歸(見表8)。
表8 信息層熱度(自變量F)和層趨向全局內(nèi)容平均相似度(因變量S2)的線性回歸分析
表8顯示,各時(shí)間段下,一元線性回歸擬合狀況總體而言較為理想,擬合優(yōu)度指標(biāo)R方在各周期平均值都達(dá)到0.86以上,多數(shù)周期下超過0.90甚至在0.94以上。用簡(jiǎn)單的直線擬合這種“全局趨同化”的變化關(guān)系,已經(jīng)有良好的效果。
各周期一元線性回歸,經(jīng)驗(yàn)線性擬合方程的一次項(xiàng)系數(shù)(斜率)都在0.200極輕微的波動(dòng),這種波動(dòng)甚至可以忽略;常數(shù)項(xiàng)(截距)全部穩(wěn)定在0.201-0.202。不同周期下,一元線性回歸的經(jīng)驗(yàn)方程其系數(shù)穩(wěn)定。
8個(gè)周期下的各個(gè)時(shí)間段,都顯示出了在信息的輿論熱度(F)和信息趨于頂部層級(jí)內(nèi)容的相似性(S3)之間的強(qiáng)烈的正相關(guān)。所有周期、所有時(shí)間段下,F(xiàn)和S3的皮爾遜相關(guān)系數(shù)的p值小于0.001,周期內(nèi)各時(shí)間段的相關(guān)系數(shù)均值達(dá)到0.93甚至0.97以上(見表9)。
表9 信息層熱度(F)和層趨向頂部?jī)?nèi)容平均相似度(S3)的皮爾遜相關(guān)系數(shù)情況
采用一元線性回歸,結(jié)果見表10。
表10結(jié)果顯示,各時(shí)間段下的一元線性回歸擬合狀況總體而言都較為理想,擬合優(yōu)度指標(biāo)R方在各周期平均值都達(dá)到0.87以上,甚至部分周期下超過0.93乃至0.94。各周期一元線性回歸,經(jīng)驗(yàn)線性擬合方程的一次項(xiàng)系數(shù)(斜率)大部分都在0.260(少部分在0.258和0.262之內(nèi)輕微波動(dòng)),常數(shù)項(xiàng)(截距)全部穩(wěn)定在0.228。
表10 信息層熱度(自變量F)和層趨向頂部?jī)?nèi)容平均相似度(因變量S3)的線性回歸分析
對(duì)假設(shè)H4進(jìn)行分析。首先,層內(nèi)收斂性(S1)、全局收斂性(S2)、趨頂收斂性(S3)這三種內(nèi)容“收斂”態(tài)勢(shì),兩兩之間的皮爾遜相關(guān)系數(shù)分析結(jié)果顯示:這三個(gè)方向的收斂“步調(diào)”高度一致,8種周期、數(shù)百個(gè)時(shí)間段,其皮爾遜相關(guān)系數(shù)平均值達(dá)到了0.996以上,是接近于1的完全正相關(guān),而且所有的相關(guān)系數(shù)的p值均小于0.001。
為了考察不同的變量之間的內(nèi)部一致性,用Cronbach'sα系數(shù)考察層組的層內(nèi)收斂、全局收斂、趨頂收斂的三個(gè)變量之間的統(tǒng)一性。Cronbach'sα值如果達(dá)到0.6以上是通??山邮艿慕Y(jié)果,達(dá)到0.8或0.9以上是很理想的值(見表11)。
表11 層內(nèi)收斂、全局收斂、趨頂收斂三種作用的一致性分析
對(duì)三者的cronbachα系數(shù)分析顯示,各周期下其各時(shí)間段的平均值達(dá)到了0.946。三者之間的共同趨向性也達(dá)到了很高的程度,表現(xiàn)為趨向于層內(nèi)的同質(zhì)化、趨向于全局的同質(zhì)化、趨向于頂部的同質(zhì)化的“殊途同向”與“殊途同歸”。盡管結(jié)論簡(jiǎn)單,但是具有一定程度的反直觀性。比如:越是趨同、封閉于本信息層內(nèi),則越是和“全局信息”趨同,通常被認(rèn)為是不會(huì)同步的,前者往往意味著比后者更強(qiáng)的窄化和自我封閉性。又比如,越是趨同于全局的平均相似化就越是趨同于頂部的最熱信息層,這兩個(gè)過程有時(shí)也并非同步的。但實(shí)證結(jié)果確證了它們之間的同步、一致的規(guī)律性。
本研究以新浪微博為對(duì)象,分析了社交網(wǎng)絡(luò)媒體中可能的內(nèi)容收斂和分層次漸進(jìn)的重復(fù)化和封閉化。社交媒體環(huán)境中廣泛、多元、分散的訊息內(nèi)容,隨著媒介傳導(dǎo)程度和層級(jí)的不同而具有鮮明的、漸進(jìn)的內(nèi)容收斂及其趨同。核心結(jié)果是:a.微博社交網(wǎng)絡(luò)中看似開放和自由的信息交流、傳播,必定發(fā)生越來越朝向有限標(biāo)的發(fā)生同化、封閉、窄化的“內(nèi)容收斂”,充分的信息流動(dòng)產(chǎn)生封閉而非開放;b.社會(huì)信息的“內(nèi)容收斂”程度和信息熱度之間成正比。
文章的主要貢獻(xiàn)如下。a.社交媒體信息的傳導(dǎo)熱度,是否以及如何線性地關(guān)聯(lián)于內(nèi)容收斂的程度,是當(dāng)前仍被理論重視不夠、也實(shí)證研究不足的問題。本文對(duì)新浪微博進(jìn)行的規(guī)模性的實(shí)證分析較為精確地描畫了兩者之間的線性關(guān)系及其變化、分布的軌跡。對(duì)于H1、H2、H3,線性回歸方程的R方達(dá)0.85乃至0.9以上,其中:層內(nèi)收斂的經(jīng)驗(yàn)線性擬合方程,一次項(xiàng)及常數(shù)項(xiàng)分別平均穩(wěn)定于0.425和0.173左右;全局收斂的線性方程其一次項(xiàng)及常數(shù)項(xiàng)分別平均穩(wěn)定于0.200和0.201-0.202左右;趨頂收斂的線性方程其一次項(xiàng)及常數(shù)項(xiàng)分別平均穩(wěn)定于0.260和0.228左右。參數(shù)在不同周期下都高度穩(wěn)定。b.在當(dāng)前學(xué)界所熱點(diǎn)討論的用戶信息繭房、“過濾氣泡”、網(wǎng)絡(luò)群體“回音室”等微觀、中觀現(xiàn)象的基礎(chǔ)上,將之拓展到宏觀、整體層面的“超個(gè)體信息繭房”“平臺(tái)信息窄化”,有助于進(jìn)一步推進(jìn)解析信息社會(huì)與使用者之間的復(fù)雜、異化關(guān)系。c.通過信息如何越來越趨向于彼此間的同化、趨向于和總體信息的同化、以及在此過程中的趨頂收斂性這三個(gè)關(guān)聯(lián)層面,多角度地驗(yàn)證了社會(huì)信息如何內(nèi)容收斂的途徑和方式,豐富對(duì)于該現(xiàn)象與后果的認(rèn)知。同時(shí),不同的收斂作用之間的聯(lián)系和高度緊密的統(tǒng)一性在現(xiàn)有研究中關(guān)注不足,本文明確分析了微博內(nèi)容的層內(nèi)趨同、全局趨同、頂部趨同這三種收斂路徑的統(tǒng)一性,其克朗巴赫內(nèi)在一致性系數(shù)高達(dá)0.946左右。
與社交媒體內(nèi)容收斂相聯(lián)系的,是在充分的社會(huì)“公共領(lǐng)域”和平臺(tái)信息流動(dòng)之中,不斷趨于窄化和自我封閉的“公共信息繭房”。充分的信息傳播帶來社會(huì)信息的內(nèi)容收斂而非多樣性。
在一個(gè)特定的周期內(nèi),盡管微博環(huán)境的構(gòu)成多元、多樣和自主,但其信息層級(jí)的三種趨同性必定隨熱度線性增長(zhǎng)。其后果之一是潛藏的“輿論極端”語(yǔ)境及其帶來的收斂和封閉。根據(jù)本文的計(jì)算,如果各種參數(shù)不變,由于熱度歸一化后的最高值為1,所以信息彼此之間趨同的層內(nèi)收斂性(S1)、趨同于全局的收斂性(S2)、趨同于頂部信息的收斂性(S3)程度,根據(jù)前文的線性回歸,其平均相似度的最大值估算如下:S1約為0.425×1+0.173=0.598;S2約為0.200×1+0.202=0.402;S3約為0.260×1+0.228=0.488?;诖丝梢灶A(yù)測(cè),在最極端、最“狂熱”的高熱度信息環(huán)境中,那些“最頂端”的熱信息或社會(huì)注意力所集中的內(nèi)容,其彼此間的內(nèi)容相似度可高達(dá)0.598,大大高于任意兩條帖子的0.231左右的平均相似度水平。雖然就兩條信息的相似度而言這個(gè)值不算很高;但是本研究的結(jié)果在數(shù)百條帖子以上的尺度是很穩(wěn)定的,而考慮到數(shù)百條、數(shù)千條以上的帖子規(guī)模達(dá)到0.5以上的平均相似度,則是較深的信息同質(zhì)化和窄化,反映出社會(huì)流動(dòng)中的熱信息趨于“同一個(gè)模子”的強(qiáng)烈程度。這在緊急的社會(huì)動(dòng)員或面臨重大公共事件時(shí),會(huì)顯現(xiàn)的更加清晰。
對(duì)于公共信息繭房和內(nèi)容收斂的另一種推進(jìn)是網(wǎng)絡(luò)民意和輿論引導(dǎo)從“議程設(shè)置”向“廣義議程設(shè)置”和“單極化議程設(shè)置”的延拓。經(jīng)典而得到廣泛應(yīng)用的“議程設(shè)置”理論揭示的是:新聞媒介在告訴人們?cè)趺聪脒@一方面可能并不成功,但是在告訴人們想什么的方面則異常成功[40]。該理論強(qiáng)調(diào)“議程”之間設(shè)置和被設(shè)置的關(guān)系,但是忽視了“頂部”議程本身的相互同化。由層內(nèi)收斂性可以預(yù)期,媒介議程隨著熱度提升而越來越趨同化、“濃稠化”,而不是傳統(tǒng)的“議程設(shè)置”理論中所預(yù)設(shè)的多元議程;高熱度議程具有對(duì)其他不相關(guān)議程的“擠出效應(yīng)”乃至“獨(dú)占效應(yīng)”,而后者在“議程設(shè)置”等理論中是被忽視的。與此同時(shí),結(jié)合媒介輿論引導(dǎo)的實(shí)踐,由內(nèi)容收斂性對(duì)該結(jié)論進(jìn)行反推,則有助于思考的是:如何制造高熱度、高流量的議程?亦或者,如何預(yù)判一個(gè)議程在周期內(nèi)可能的熱度?由趨頂收斂性可以預(yù)期,高熱度信息需要和頂部最熱帖子盡可能相似,這種“蹭熱點(diǎn)”策略雖然被應(yīng)用但多是作為經(jīng)驗(yàn)技巧,而本文對(duì)其有效性予以了科學(xué)解釋與統(tǒng)計(jì)檢驗(yàn);由全局收斂性可以預(yù)期,高熱度議程需要和周期內(nèi)全部議程盡可能具有高的平均相似度,因此需要提升該議程的公共性而非容易誤認(rèn)為的垂直細(xì)分性;由層內(nèi)收斂性可以預(yù)期,最高熱度的議程具有“擠出性”和頂部?jī)?yōu)勢(shì),此時(shí)對(duì)于議程的“加熱”或炒作有助于加強(qiáng)該議程的“頂部?jī)?yōu)勢(shì)”。
盡管微博中的訊息千千萬萬,但這些多樣性中存在著趨同性;它們具有類似于“金字塔結(jié)構(gòu)”的特征,從最底部的低熱度層到最頂部的高熱度層,而逐漸減少內(nèi)部訊息的“自由彈性”,從寬松多變而變得更為有限和同質(zhì)化,逐步增強(qiáng)其層內(nèi)相似的“稠密”程度(層內(nèi)收斂性);這個(gè)從底部到頂部的逐步收斂的過程,同時(shí)也是各層逐漸接近“頂部”(從而發(fā)生趨頂收斂性)的過程;全局內(nèi)容雖然是很分散的,但是趨同于“頂部”的收斂性一方面使得只有“越是普通的”才越是“流行”的,而非“越是奇葩”才“越是流行”,另一方面也使得微博的內(nèi)容環(huán)境呈現(xiàn)出一種全局“向心化”結(jié)構(gòu)。一些流行觀點(diǎn)認(rèn)為社交媒體信息不受某種中心話語(yǔ)、權(quán)威話語(yǔ)的控制和主導(dǎo),是多元和去中心的,但是本文結(jié)果顯示:社交媒體信息不是去中心的而是有中心的,這個(gè)中心就是“趨頂收斂性”所指涉的“頂部”內(nèi)容;圍繞這些作為中心的頂部?jī)?nèi)容形成向外一圈圈漣漪狀的圈層,每一漣漪圈層可視為熱度逐漸遞減的信息層,往外擴(kuò)散的圈層和中心的相似度逐步線性降低;每往外擴(kuò)散的圈層,圈層內(nèi)部的帖子相似度也由于“層內(nèi)收斂性”而線性降低;越往內(nèi)圈則由于“全局收斂性”而作為全體相似中心的程度越高,給場(chǎng)域所有帖子都帶來這個(gè)中心的烙印和投影。