近年來,短視頻和社交媒體平臺不斷快速發(fā)展。以微博、抖音為代表的平臺,不僅成為內(nèi)容消費(fèi)的主要渠道,還推動了信息的高速傳播[1]。微博以文本為主要形式,涵蓋了多種多樣的內(nèi)容。抖音平臺依靠短視頻為核心的輕量化內(nèi)容,以短時(shí)高效的方式彌補(bǔ)了人們視覺化碎片化娛樂的需求,吸引了大量的用戶,為跨平臺協(xié)助奠定了良好的用戶基礎(chǔ),而同時(shí)爆發(fā)性增長也使得社交媒體成為短視頻內(nèi)容傳播的重要媒介,也帶來了傳播學(xué)的研究需求[2。參考國外同類型軟件Twitter和YouTube,Twitter作為重要的社交媒體平臺,為跨平臺短視頻傳播提供了支持,YouTube憑借算法推薦和高質(zhì)量用戶生成內(nèi)容吸引了大量用戶[3],進(jìn)而導(dǎo)致病毒式傳播現(xiàn)象的誕生。而這種病毒式傳播在國內(nèi)軟件微博、抖音也具有顯著影響。病毒式傳播在微博、抖音的跨平臺協(xié)作具備傳播速度快和涉及范圍廣的特點(diǎn),作為一種具有強(qiáng)大影響力的傳播現(xiàn)象,其背后蘊(yùn)含的內(nèi)容特性、傳播機(jī)制和預(yù)測方法,不僅在社會媒體領(lǐng)域引發(fā)廣泛討論,也成為學(xué)術(shù)界研究的熱點(diǎn)課題。
現(xiàn)有病毒式傳播的研究重點(diǎn),在于研究傳播影響因素,例如內(nèi)容情感、用戶影響以及算法推薦的作用[4。然而,大多數(shù)研究只關(guān)注一個(gè)平臺,對跨平臺傳播的動態(tài)研究存在較大的局限性,使用機(jī)器學(xué)習(xí)來準(zhǔn)確預(yù)測傳播仍然是一個(gè)棘手的課題[5]?;谏鲜鰡栴},本文提出了一種基于LightGBM(LightGradientBoostingMachine)模型的病毒式傳播預(yù)測框架,重點(diǎn)對抖音、微博以及跨平臺病毒式傳播預(yù)測進(jìn)行研究。
一、設(shè)計(jì)數(shù)據(jù)集
為深人研究社交媒體跨平臺的病毒式傳播預(yù)測,病毒式傳播具有及時(shí)性和快速性特征,我們以2024年為時(shí)間點(diǎn)進(jìn)行數(shù)據(jù)選取,選擇一組短視頻作為研究對象,方法是對微博流數(shù)據(jù)進(jìn)行采樣,搜索包含指向抖音視頻鏈接的微博帖子。通過使用微博公開數(shù)據(jù)接口(API),設(shè)置關(guān)鍵詞實(shí)現(xiàn)在流量中過濾指向抖音視頻鏈接(如域名douyincom和短鏈接t.cn/douyin)。
我們使用此采集方式收集了大量包含抖音視頻鏈接的微博帖子。從這些帖子中,隨機(jī)選擇1萬個(gè)抖音視頻作為數(shù)據(jù)集的種子集(如圖1所示),在為期兩周的時(shí)間內(nèi),持續(xù)收集種子集中每個(gè)視頻數(shù)據(jù),具體包括:每日從抖音平臺獲取視頻元數(shù)據(jù)(如觀看量、點(diǎn)贊和評論數(shù)等),同時(shí)跟蹤這些視頻在微博平臺上相關(guān)互動數(shù)據(jù)(如轉(zhuǎn)發(fā)數(shù)、評論和點(diǎn)贊數(shù))和提及情況(包括發(fā)布時(shí)間和傳播路徑)。通過這種采集方式,即能獲得跨平臺的數(shù)據(jù),同時(shí)量化視頻在抖音上的熱度和在微博上的傳播行為。
二、病毒性傳播預(yù)測方法
(一)機(jī)器學(xué)習(xí)模型
本研究中,分析目標(biāo)是設(shè)計(jì)一個(gè)分類任務(wù),用于根據(jù)輸人特征將每個(gè)視頻分類為“病毒性傳播”和“非病毒性傳播”兩類。為此,借助LightGBM模型訓(xùn)練了一個(gè)二元分類器來進(jìn)行分類預(yù)測。
(二)特征提取
為有效利用分類器實(shí)現(xiàn)分類任務(wù),需要從數(shù)據(jù)集中提取高效的特征[。表1展示了從抖音平臺提取的部分短視頻特征示例。抖音作為熱門的、日活躍度較高的短視頻平臺,擁有大量受眾,因此在抖音平臺的特征提取中,聚焦于視頻的基礎(chǔ)元數(shù)據(jù)和上傳者屬性,基礎(chǔ)元數(shù)據(jù)包括每日新增的觀看次數(shù)、評論次數(shù)、點(diǎn)贊次數(shù)和收藏次數(shù),以及視頻的上傳時(shí)間戳和所屬類別。上傳者屬性則包括已發(fā)布的視頻總數(shù)和粉絲數(shù)量。抖音API提供的是視頻從上傳到查詢時(shí)間點(diǎn)的累積統(tǒng)計(jì)數(shù)據(jù),因此可以根據(jù)累計(jì)數(shù)據(jù)導(dǎo)出任意給定日期或時(shí)間段的特征值。
表2展示了從微博帖子中提取的部分特征示例。微博作為互聯(lián)網(wǎng)早期社區(qū)式網(wǎng)絡(luò)中心,以文字和互動著稱,因此微博平臺的特征提取主要圍繞帖子本體數(shù)據(jù)和用戶特性展開,帖子本體數(shù)據(jù)涵蓋每日發(fā)布的博客數(shù)量、轉(zhuǎn)發(fā)量、瀏覽次數(shù)、評論次數(shù)和點(diǎn)贊次數(shù)以及博客類別。用戶特性包括發(fā)布者的粉絲數(shù)量,此外,還考慮了跨平臺特征,例如從微博分享至抖音的視頻傳播路徑和傳播延遲。
除了上述基本特征之外,為進(jìn)一步捕捉傳播的動態(tài)變化,本文還定義了3種衍生特征,以下是特征構(gòu)造的主要方法:
1.比率特征
用于將特征值與其累計(jì)大小關(guān)聯(lián)。例如,views_ratio_n表示第n天的觀看次數(shù)與總觀看次數(shù)之比。
2.加速度特征
表示特征值的變化速率。例如,views_acc_n表示第n天的觀看次數(shù)與第 n-1 天的觀看次數(shù)之比。
3.差值特征
表示特征在某時(shí)間段的累積變化值。例如,views_diff為某段時(shí)間內(nèi)瀏覽次數(shù)的變化量。這些特征被用于訓(xùn)練分類器,以預(yù)測視頻的病毒傳播性和流行度的二元標(biāo)簽。
(三)模型訓(xùn)練
為了有效捕捉傳播的動態(tài)變化并提高模型的預(yù)測能力,本文將窗口機(jī)制引入到LightGBM模型的訓(xùn)練和預(yù)測過程中。訓(xùn)練窗口用于提供模型所需的歷史數(shù)據(jù),幫助捕捉傳播的趨勢和模式,通過設(shè)置不同長度的訓(xùn)練窗口,可以在數(shù)據(jù)豐富性與計(jì)算復(fù)雜度之間找到平衡[8]
當(dāng)訓(xùn)練窗口長度超過24h時(shí),可提取生成更多衍生特征,例如比率、加速度等,這些衍生特征是基于長時(shí)間的深度挖掘,具有較為可靠的真實(shí)性,往往可以更全面地反映傳播規(guī)律[9。訓(xùn)練窗口結(jié)束后的時(shí)間段被定義為標(biāo)注窗口,用于確定視頻的真實(shí)傳播結(jié)果。
為了評估預(yù)測模型的準(zhǔn)確性,我們采用10倍交叉驗(yàn)證方法。具體步驟如下:
1.將數(shù)據(jù)集隨機(jī)劃分為10個(gè)子集,每次選擇其中的 90% 用于訓(xùn)練, 10% 用于測試。
2.在訓(xùn)練集上構(gòu)建分類模型,并預(yù)測測試集在標(biāo)注窗口內(nèi)的視頻病毒傳播性和非病毒性傳播標(biāo)簽。
3.對于測試集,比較預(yù)測標(biāo)簽與真實(shí)標(biāo)簽計(jì)算以下指標(biāo):
(1)精度(Precision):正確預(yù)測的正樣本占所有預(yù)測正樣本的比例。
(2)召回率(RecaII):正確預(yù)測的正樣本占所有真實(shí)正樣本的比例。
(3)AUC(ROC曲線下面積):評估分類器的綜合性能。
在研究中,重復(fù)上述過程10次,并對所有實(shí)驗(yàn)的結(jié)果進(jìn)行平均,以消除隨機(jī)劃分帶來的偏差
三、預(yù)測結(jié)果
我們基于微博、抖音平臺及其跨系統(tǒng)的病毒性傳播樣本,利用LightGBM模型進(jìn)行模型訓(xùn)練,并深人分析與預(yù)測實(shí)驗(yàn),以探索不同媒體平臺上的傳播規(guī)律。
(一)微博平臺病毒性傳播預(yù)測
在微博特征預(yù)測抖音視頻流行度研究里,我們發(fā)現(xiàn)當(dāng)下的微博推文率,比如次日原創(chuàng)推文數(shù)量,極具預(yù)測力。在信息傳播生態(tài)中,近期活躍用戶作為“傳播節(jié)點(diǎn)”,他們高頻互動行為,能直接助推視頻流行。傳播范圍的衡量指標(biāo),如推文覆蓋的用戶數(shù)量,則突顯出微博用戶社交圈影響力對于視頻傳播的重要性,對于發(fā)布時(shí)間較長的視頻,用戶發(fā)布原創(chuàng)推文的傾向則展現(xiàn)活躍用戶在視頻長期流轉(zhuǎn)中的核心地位,不斷提升討論熱度與關(guān)注度。
在實(shí)驗(yàn)中,基于微博數(shù)據(jù)集特征抽取,輸入LightGBM模型進(jìn)行分類預(yù)測,其Precision-Recall曲線如圖2所示,實(shí)驗(yàn)結(jié)果表明,使用全部特征時(shí)模型在較長時(shí)間跨度( gt;7 天)下表現(xiàn)最佳,AUC達(dá)到0.89,顯示出對微博病毒傳播現(xiàn)象具備較高預(yù)測能力;而在較短時(shí)間跨度( ?7 天)下,全部特征的AUC降至0.77,說明短時(shí)間內(nèi)預(yù)測性能受限。相比之下,基本特征(不包含比率等衍生特征)在較長時(shí)間跨度下的AUC為0.87,與全部特征接近,但在短時(shí)間內(nèi)的AUC降至0.69,預(yù)測能力顯著下降。此外,全部特征在不同時(shí)間跨度下的曲線更為平滑,表現(xiàn)出更強(qiáng)的穩(wěn)定性,而基本特征的曲線波動較大,下降更快??傮w來看,豐富的特征組合對于短時(shí)間內(nèi)病毒傳播的預(yù)測尤為重要,而較長時(shí)間跨度下,即使僅使用基本特征,模型依然具備較高的穩(wěn)定性和預(yù)測性能。
(二)抖音平臺病毒性傳播預(yù)測
對于抖音單獨(dú)數(shù)據(jù)集輸入模型進(jìn)行分類預(yù)測,實(shí)驗(yàn)結(jié)果如圖3所示,使用全部特征時(shí),模型在較長時(shí)間范圍( gt;7 天)內(nèi)表現(xiàn)最佳,曲線下降趨勢平穩(wěn),AUC為0.69,顯示出較高的預(yù)測能力;而在短時(shí)間范圍( ?7 天)內(nèi),AUC降至0.47,反映出短時(shí)間傳播預(yù)測的復(fù)雜性。相比之下,使用基本特征的模型性能較低,在較長時(shí)間范圍內(nèi)( gt; 7天),曲線波動明顯但整體下降較平緩,AUC為0.49;而在短時(shí)間范圍內(nèi)( ?7 天)AUC僅為0.31,預(yù)測性能較差。整體來看,豐富的特征組合對病毒傳播預(yù)測具有顯著優(yōu)勢,而短時(shí)間范圍內(nèi)的傳播預(yù)測對特征和模型提出了更高要求。
在抖音平臺視頻傳播過程中,觀察到點(diǎn)贊和評論的增長率是預(yù)測視頻病毒傳播的關(guān)鍵指標(biāo),揭示了用戶即時(shí)互動在傳播過程中的核心作用。用戶點(diǎn)贊和評論不僅反映了對視頻內(nèi)容的共鳴,還能迅速吸引其他用戶注意,推動傳播路徑擴(kuò)展。此外,我們以傳播學(xué)的“擴(kuò)散模型”和“累積優(yōu)勢”為思路,證明了觀看次數(shù)與視頻生命周期的比率是衡量傳播效率的重要指標(biāo),能準(zhǔn)確捕捉視頻在其生命周期中的傳播潛力,強(qiáng)調(diào)信息在時(shí)間維度上的傳播速度和廣度。對于久遠(yuǎn)的視頻,點(diǎn)贊數(shù)和觀看次數(shù)依然是病毒傳播的主要預(yù)測特征,表明累積的用戶行為對視頻持續(xù)性起到了決定性作用。上傳者的上傳歷史也對視頻的病毒傳播產(chǎn)生了顯著影響,尤其是高頻上傳者,通常擁有龐大粉絲群體,形成了在一定領(lǐng)域內(nèi)的意見發(fā)布者,能在視頻發(fā)布后迅速產(chǎn)生初始傳播效應(yīng),揭示了抖音平臺內(nèi)容傳播的核心動力機(jī)制。
(三)跨系統(tǒng)病毒性傳播預(yù)測
在跨系統(tǒng)病毒傳播預(yù)測中,不同特征組合和時(shí)間跨度對模型性能同樣產(chǎn)生了顯著影響。如圖4所示使用全部特征( gt;7 天)時(shí),模型表現(xiàn)最佳,其曲線呈現(xiàn)平穩(wěn)下降趨勢,AUC達(dá)到0.72;而在較短時(shí)間范圍( ?7 天)內(nèi),雖然使用全部特征的AUC降至0.51,但其曲線在召回率較低時(shí)仍保持一定的預(yù)測能力,表明時(shí)間跨度的縮短對模型性能有一定影響。
相比之下,使用基本特征的模型性能略遜一籌。在較長時(shí)間范圍( gt;7 天)內(nèi),基本特征的AUC為0.56,Precision-Recall曲線下降較快但仍具有一定的預(yù)測能力,這表明核心特征在長期傳播中的作用不可忽視。然而,在較短時(shí)間范圍( ?7 天)內(nèi),基本特征的模型性能明顯下降,AUC僅為0.45,曲線快速下滑,這反映出在短時(shí)間范圍內(nèi),缺乏多樣化特征的模型難以準(zhǔn)確捕捉跨平臺傳播的復(fù)雜規(guī)律。
本次實(shí)驗(yàn)融合了傳播學(xué)的“時(shí)間滯后效應(yīng)”“傳播復(fù)雜性”“跨平臺傳播協(xié)同”與“用戶互動驅(qū)動”思維,針對社交媒體的病毒式傳播展開研究,收獲了一系列有價(jià)值的成果。
實(shí)驗(yàn)結(jié)果明確揭示出三個(gè)關(guān)鍵要點(diǎn)。
其一,時(shí)間跨度在模型性能方面發(fā)揮著至關(guān)重要的作用。研究發(fā)現(xiàn),較長的時(shí)間范圍更有助于提升模型的穩(wěn)定性。以微博、抖音平臺數(shù)據(jù)為依據(jù),在長時(shí)間跨度下,模型對視頻病毒式傳播的預(yù)測更為精準(zhǔn),因?yàn)槠淠懿蹲降絺鞑ミ^程中更多的關(guān)鍵信息與趨勢,從而做出更可靠的判斷。
其二,特征組合的豐富程度對模型效果影響顯著,豐富特征組合在各方面都明顯優(yōu)于基本特征。豐富特征涵蓋了多種維度的信息,不僅包含基礎(chǔ)數(shù)據(jù),還融人了如比率、加速度、差值等衍生特征。這些特征能從多個(gè)角度全方位地捕捉傳播動態(tài),更精準(zhǔn)地描繪傳播過程中的變化細(xì)節(jié),相比基本特征,能為模型提供更全面、深入的信息支持。
其三,在跨平臺傳播預(yù)測中,呈現(xiàn)出多樣化行為特征。聚焦多樣化行為特征,能夠有效提升模型的預(yù)測能力與適用性。
此外,研究還剖析了微博、抖音之間的跨平臺傳播規(guī)律。微博的傳播效率,在抖音視頻傳播的初期發(fā)揮著關(guān)鍵作用,它能迅速提升視頻熱度,為后續(xù)在其他平臺的傳播搭建良好基礎(chǔ)。而抖音的優(yōu)勢則體現(xiàn)在用戶互動上,用戶之間頻繁的互動行為,與病毒傳播性預(yù)測緊密相關(guān)。這種互動極大地影響了視頻的傳播范圍和速度,有力推動了病毒式傳播的發(fā)生。微博、抖音在傳播機(jī)制上的互補(bǔ)性,為內(nèi)容的跨平臺擴(kuò)散提供了強(qiáng)大動力,也為機(jī)器學(xué)習(xí)模型提供了豐富且全面的數(shù)據(jù),進(jìn)而優(yōu)化模型性能,使預(yù)測更加準(zhǔn)確、高效。
結(jié)語
在當(dāng)前媒體傳播生態(tài)格局中,微博、抖音憑借龐天的用戶基數(shù)和強(qiáng)天的傳播效能,成為塑造信息傳播版圖的關(guān)鍵力量。二者數(shù)據(jù)跨平臺的病毒性傳播現(xiàn)象,因其蘊(yùn)含的復(fù)雜傳播機(jī)制和巨大影響力,成為傳播學(xué)領(lǐng)域備受矚目的研究焦點(diǎn)。其中微博具有“大眾傳播”的典型特征,其廣泛的覆蓋范圍賦予了信息快速擴(kuò)散的能力。微博類似于傳統(tǒng)大眾傳播媒介中的廣播,能將信息盡可能多地觸達(dá)潛在受眾,打破時(shí)間和空間的限制,實(shí)現(xiàn)信息的廣泛傳播。這種傳播模式基于微博開放的社交網(wǎng)絡(luò)結(jié)構(gòu),用戶之間的弱連接關(guān)系使得信息可以在短時(shí)間內(nèi)跨越不同的社交圈層,像漣漪一樣迅速向外擴(kuò)散,傳播范圍呈指數(shù)級增長。
而抖音則以高互動性展現(xiàn)出“人際傳播”與“群體傳播”融合的特色。用戶在平臺上的點(diǎn)贊、評論、分享等互動行為,形成了強(qiáng)大的傳播動力。這種互動行為類似于人際傳播中的口碑傳播,基于用戶之間的信任和興趣共鳴,信息得以在小群體內(nèi)深人傳播。同時(shí),抖音的算法推薦機(jī)制又將具有相似興趣愛好的用戶聚集在一起,形成一個(gè)個(gè)虛擬的群體,信息在這些群體中傳播時(shí),會引發(fā)群體成員的互動和反饋,進(jìn)一步推動信息的擴(kuò)散,從而引發(fā)更多的互動和傳播。
本研究創(chuàng)新運(yùn)用LightGBM模型,構(gòu)建了一套針對社交媒體病毒式傳播的有效預(yù)測方法。這一方法從傳播學(xué)的“傳播要素”理論出發(fā),通過提取視頻的基本元數(shù)據(jù)、上傳者特征、微博帖子特征以及跨平臺特征等多維度信息,對傳播過程中的關(guān)鍵要素進(jìn)行量化分析。通過訓(xùn)練二元分類器,將視頻分類為“病毒性傳播”和“非病毒性傳播”兩類,從而實(shí)現(xiàn)對病毒式傳播現(xiàn)象的預(yù)測,將復(fù)雜的傳播現(xiàn)象轉(zhuǎn)化為可量化的數(shù)據(jù)指標(biāo),為深入研究傳播機(jī)制提供可行性的方法。
本研究揭示了此類傳播背后的關(guān)鍵因素,進(jìn)一步豐富了傳播學(xué)理論。微博的傳播效率,如推文率、傳播范圍衡量指標(biāo)等,對抖音視頻的初期熱度有著顯著影響,為后續(xù)傳播奠定基礎(chǔ),這體現(xiàn)了傳播過程中“議程設(shè)置”的作用,微博的傳播行為在一定程度上引導(dǎo)了受眾對抖音視頻的關(guān)注。而抖音用戶的互動特性,如點(diǎn)贊和評論的增長率,對病毒傳播性預(yù)測表現(xiàn)出極高的相關(guān)性,強(qiáng)調(diào)了“受眾參與”在傳播過程中的核心地位。用戶的互動行為不僅是對傳播內(nèi)容的反饋,更是推動傳播的關(guān)鍵動力。
隨著新媒體技術(shù)的不斷發(fā)展,后續(xù)研究可進(jìn)一步探索更多平臺的融合,且不同平臺在傳播過程中的協(xié)同效應(yīng)和互補(bǔ)機(jī)制。同時(shí),引人實(shí)時(shí)反饋機(jī)制,通過實(shí)時(shí)收集和分析傳播過程中的數(shù)據(jù),及時(shí)調(diào)整預(yù)測模型和傳播策略,以更好地適應(yīng)復(fù)雜多變的傳播環(huán)境,提升預(yù)測能力與實(shí)際應(yīng)用價(jià)值,為信息傳播的理論研究和實(shí)踐應(yīng)用開辟新的路徑。
參考文獻(xiàn):
[1]侯天一,鄧富民,王曉妍,等消費(fèi)者品牌內(nèi)容分享行為:基于社會化媒體的研究[J].軟科學(xué),2020(5):94-100.
[2]龍小華,李輝,燕春培.新媒體視域下科技倫理的傳播策略研究:以字節(jié)跳動為例[J].江西科學(xué),2024(6):1367-1372.
[3]詹恂,李慧杰.涉藏地區(qū)自媒體在YouTube平臺上的跨文化傳播:以“TibetTravel”為例[J].民族學(xué)刊,2023(9):126-134;166.
[4]符冰,強(qiáng)月新.自媒體平臺圖像傳播中的異化及倫理風(fēng)險(xiǎn)[J].新聞愛好者,2023(3):65-67.
[5]陳紅松,趙秀鋒.微博重大輿情網(wǎng)絡(luò)暴力角色標(biāo)注規(guī)則及處置語言合規(guī)建議[J].北京航空航天大學(xué)學(xué)報(bào),2025(1):1-12.
[6]梁怡萍,肖路巍,王琳琳.基于標(biāo)簽感知增強(qiáng)的社交媒體心理亞健康歸因方法[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2025(1):124-137.
[7]安璐,張思宇.支持或反對:社交媒體用戶觀點(diǎn)的形成機(jī)理[J].圖書館論壇,2024(3):199-210.
[8]吳煜播.新媒體背景下抖音短視頻平臺品牌營銷策略分析[J].經(jīng)濟(jì)研究導(dǎo)刊,2024(11):47-50
[9]李賀,楊心苗,沈旺.啟發(fā)式圖結(jié)構(gòu)增強(qiáng)的 社交媒體短文本謠言檢測研究[J].情報(bào)理論與實(shí) 踐,2025(3):151-159.