中圖分類號:G206.3文獻標識碼:A
文章編號:1673-8268(2025)03-0159-11
隨著互聯網發(fā)展日新月異,平臺中的信息以不同的主題類型增減漲落,并呈現出在時間序列內不斷起伏演化的特征;不同主題間的協同聯動或觸發(fā)還關系到輿情的演化、引導和調節(jié)等重要問題。本研究基于主題演化的周期特征,對網絡平臺中主題觸發(fā)其他主題的能力及其影響因素進行考察?;谒惴ㄍ扑]平臺,可采取功率譜分析等測量時間序列周期特征的方法,重點關注主題要具備哪些特定的周期長度會對其觸發(fā)能力發(fā)生顯著作用,是否以及如何利用主題的周期長度來預測其觸發(fā)能力等核心問題。
已有研究發(fā)現了主題間觸發(fā)、聯動的重要性,但未進一步從主題周期角度進行分析。劉自強等[1通過大數據挖掘和LDA(latent dirichlet alocation)主題建模(也稱為潛在狄利克雷分配),獲取2020—2022年我國網絡輿情的七大熱點話題,他們發(fā)現:熱點話題“家庭生活”與“社會事件”聯系緊密,每個相鄰時期大都存在明顯的演化路徑,呈現出顯著的關聯演化特征;熱點話題“疫情防控”與“國際關系”的內容演化路徑存在一定的弱關聯。針對主題的演化具備周期規(guī)律性這一問題,已有研究圍繞輿情或主題的發(fā)展演變做出詳細分析,指出輿情具備顯著的生命周期特征[2],且根據不同判定標準劃分了輿情生命周期的類型及演化階段[3-4]。由此可知,已有研究對主題周期的作用與功能探究不夠深人,僅僅劃分某特定事件的單一周期階段或分析單一周期長度,并不能有效解讀主題在網絡平臺發(fā)展演變的機制,也難以挖掘主題之間彼此牽引觸發(fā)的規(guī)律。
一、研究緣起與文獻回顧
由于網絡平臺的各類主題具有顯著的周期規(guī)律性,通過分析輿情或內容的流行度特征、拓撲特征等[5-6]來挖掘信息傳播規(guī)律,可為本文提供重要研究依據。輿論演化層面,Peng 和 Shan[7]指出網絡輿論演變具有三個關鍵點(爆發(fā)點、拐點和冰點)和四個階段(前驅期、爆發(fā)期、慢性期和化解期),通過對不同階段網絡輿論特征的比較分析,評價網絡輿論演進階段的合理性??镂牟╗8]以蝴蝶效應為線索,將新媒體輿情周期分為議題出現、存活、整合、消散四個階段。晏敬東等[9利用扎根理論,將微博輿情生命周期劃分為四個階段,即潛伏期、預熱期、熱議期和衰退期。劉強和李文軍[10]將疫情背景下的網絡輿情生命周期分為萌芽期、爆發(fā)期、穩(wěn)定期、衰退期。議題關注層面,已有研究指出公眾對議題的關注具有周期性,網絡主題的發(fā)展及主題間觸發(fā)將隨著公眾注意力周期的變化而變化,并呈現出周期性規(guī)律,如Downs 的“議題注意力周期”五個階段說,即前問題階段、問題驚現與熱情高漲階段、困難與成本認知階段、熱情逐漸消退階段、輿論消退階段[1-12]。還有研究發(fā)現網絡平臺中的情緒也具有周期性[13], Sano[14] 等學者發(fā)現集體情緒表現出明顯的周期性循環(huán),在每周和每個季節(jié)中均有體現,并伴隨著自然災害而引起脈沖。上述研究論證了輿論發(fā)展的周期性、議題注意力的周期性、網絡情緒的周期性,表明本文所提出的網絡平臺主題的周期性研究依據充分,遺憾的是,這些研究未深入探究主題周期規(guī)律的功能與作用。
已有研究通過小波分析、傅里葉分析等方法對主題周期進行測算,為本研究測量主題演化的具體周期種類、周期長度等提供可行性。如趙潔等[15]借鑒頻域分析法將微博突發(fā)詞項轉為時序信號并進行離散傅里葉變換(DFT),并基于頻域信號和閾值進行微博事件的檢驗。張虹等人[16]利用小波分析與神經網絡相結合的方法進行網絡論壇話題熱度趨勢的預報,對由帖子的點擊數(或回復數)所形成的原始時間序列進行小波多尺度分析。徐翔和徐舟爽[17]采取小波分析、紅噪聲檢驗、格蘭杰因果分析方法,分析和檢驗微博中主題的不同周期性特征對其主題觸發(fā)和影響輿論能力所起的作用。
網絡平臺主題所具備的特定周期長度對主題觸發(fā)能力起特殊作用,但并非所有周期長度都能夠有效影響主題的觸發(fā)能力。已有研究表明:看似不相關的主題之間可能存在相似甚至相同的演化周期類型,而具備某些特殊周期的主題還能夠引起其他主題的變化。如Komori等人[18]發(fā)現,用戶在Twitter上發(fā)布“推文”的頻率以一日和七日的長度為周期形成周期性波動,他們對11570名用戶的周內推文頻率變化進行了傅里葉級數展開和主成分分析(principal component analysis,PCA),還調查了用戶的基線情緒與主成分分數之間的關系。研究發(fā)現:工作日期間推文的高頻率與低積極情感狀態(tài)有關,大量發(fā)布推文與消極情感狀態(tài)有關。Yang等人[19]具體探討了氣候和季節(jié)對美國推特用戶抑郁癥患病率的影響,發(fā)現抑郁癥患病率、氣候風險因素與季節(jié)之間的關系復雜多變,且具有地域性特征:同一氣候指標在不同地區(qū)可能與抑郁癥患病率呈現相反的相關性;相對濕度、溫度、海平面氣壓、降水量、降雪量、風速、全球太陽輻射以及日照時長等因素,均對抑郁癥患病率的地理差異有所貢獻。由此可見,某些特殊的周期能夠引發(fā)不同主題間的共鳴和協同演化。雖然這些研究發(fā)現了特定周期的存在,但還未具體探究其引起主題觸發(fā)能力的作用機制與影響效果。由此,本文推測假設H1:存在一些特殊的周期長度對主題的觸發(fā)能力具有顯著作用。
在網絡平臺主題的所有周期類型中,某些特定的短周期具有更鮮明的影響作用。Mayor 和 Bieti[20]運用多種工具比較Twitter上的自我引用推文與其他主題推文,發(fā)現所有工具在兩個數據集中都具有顯著的晝夜節(jié)律(24小時)和周期性(7天)模式,他們匯總指出周期性(7天)模式既出現在人類情緒、認知和行為的規(guī)律變化中,也常出現在其他社會文化類主題中。Fan等人[21]研究發(fā)現:積極情緒從產生到消散約持續(xù)1.25小時,而消極情緒從產生到消散約持續(xù)1.5小時。Dai等人[22]以北京市6個城區(qū)為研究對象,獲取2014年9月24日至10月7日新浪微博簽到數據,發(fā)現在連續(xù)時間段內,用戶的微博簽到呈現以24小時為周期的波動周期變化,并具有時間分化特征。還有研究從信息半衰期與老化期角度出發(fā),證明互聯網信息或新聞的半衰期、老化期較短,如梁芷銘[23]發(fā)現新浪微博“熱點話題”的生命周期中,成熟期很短或者基本不存在,并測出新浪微博這一網絡結構單元的半衰期為8天,普賴斯指數為 0.86 。而宗紅等人[24]通過分析在線新聞評論生長特征的測度指標(生長周期、生長峰值、集中度絕對值、峰值集中指數和生長半衰期),發(fā)現絕大多數在線新聞評論生長周期較短、生長峰值較小,評論峰值集中出現在靠前位置。還有研究發(fā)現某些特定的周期長度在主題演化中作用較大,如每周、季節(jié)性等,甚至有研究發(fā)現特定事件具有7.2個季度、18個季度等具體長度特征[25]。以上研究發(fā)現了網絡信息或其他主題的“24小時”或\"7天\"這種短周期對主題演化產生特殊影響,表明本文著重探究的短周期長度作用機制具備一定的研究基礎。由此,本文推測假設H2:對主題的觸發(fā)能力具有重要作用的周期長度主要位于短周期內。
二、研究數據與實證檢驗
本項目選取今日頭條上2020年7月1日至2023年6月30日1095天內發(fā)布的28473604條帖子為研究數據。首先通過BERT模型將每條帖子向量化,再進行K-means聚類,最后得到300類主題帖文每日的分布比例及其在時間序列上的變化情況。由于任一主題均具備多種周期,故通過功率譜周期分析與紅噪聲標準譜顯著性檢驗確定它們在1095天內的所有顯著周期,再通過格蘭杰因果檢驗得到主題間的觸發(fā)與被觸發(fā)情況。
(一)樣本選取與數據預處理
今日頭條作為算法分發(fā)模式先行者的聚合新聞客戶端受到業(yè)界和學界矚目[26],它目前擁有推薦引擎、搜索引擎、關注訂閱和內容運營等分發(fā)方式,囊括圖文、視頻、問答、微頭條、專欄、小說、直播、音頻和小程序等板塊,涵蓋科技、體育、健康、美食、教育“三農”、國風等領域[27]。
本研究使用八爪魚軟件進行數據抓取工作。其一,對首頁“財經、科技、熱點、國際、軍事、體育、數碼、娛樂、歷史、問答、美食、游戲、旅游、育兒、養(yǎng)生、時尚、視頻、同城\"等18個內容板塊進行連續(xù)兩個月的數據抓取,每天早、中、晚各抓取1次“種子”帖,共獲得370 871個發(fā)布者。其二,對發(fā)布者的歷史發(fā)帖再逐個抓取,進行時間口徑上的統(tǒng)一處理后,共計49024037條帖子;因為這些帖子分屬于18個內容板塊,為確保各版塊均衡,從每個內容板塊中再抽取相等數量的發(fā)布者,即選取10109名用戶。去除重復計算的用戶,最后共得111397名,然后將篩選后的用戶在這一時期的歷史帖文28473 604條作為本研究的樣本數據。
接下來對獲取樣本用戶的粉絲數進行統(tǒng)計并對其做對數函數轉換,得到如圖1所示的用戶粉絲數分布情況示意圖①。
(二)帖子向量化表示與主題聚類
本研究采用 Sentence-BERT(SBERT)[28]模型對帖子進行向量化表示。借助 Python 中的 sentence_transformers庫導人預訓練的SBERT模型,再利用該模型將每條帖文轉為768維的向量。在帖子向量化過程中,使用的python版本為3.8、tensorflow版本為2.8.0、torch版本為1.7.1。
使用K-means算法對帖子向量進行聚類操作。K-means是一種常用的無監(jiān)督學習算法,通常將數據集劃分為不同的簇(clusters)。它通過計算數據點之間的距離(如歐氏距離、曼哈頓距離等)推導出數據點之間的相似性,并基于相似性進行聚類,將相似數據點分配到同一個簇中。調用 skleam.preprocessing中的normalize函數對每個向量進行L2規(guī)范化,并使用MiniBatchKMeans對規(guī)范化后的向量進行聚類,發(fā)現聚類誤差將隨著聚類數量的變化而變化(見圖2)。圖2中的橫軸表示聚類數量,縱軸表示聚類誤差。其中,聚類誤差是借助 skleam庫中的kmeans.inertia_,通過簇內誤差平方和計算得到的。鑒于綜合聚類誤差與聚類的復雜程度,本研究最終選擇300類作為樣本帖子的主題聚類數量。
后547天的300類主題帖文分布情況如圖3所示。圖3顯示,帖文數量呈現平穩(wěn)分布狀態(tài),各類主題數量基本相等,符合研究關注的普遍性與代表性;圖3中橫軸表示帖文的類型序號,縱軸表示該類的帖子數量。
圖2聚類數量變化趨勢圖
圖1用戶粉絲數分布示意圖
圖3300類的帖文數量分布示意圖
(三)帖文頻率與周期分布
通過計算300類主題在每日帖文樣本中的占比,得到它們各自在1095天的分布比例,最終得到1095行 ×300 列的面板數據。再對這300列數據進行平穩(wěn)性檢驗,發(fā)現部分序列不符合平穩(wěn)性要求,故將它們全部一階差分處理并ADF檢驗,結果均達到平穩(wěn)性要求。
本研究使用功率譜分析法提取類主題在時間序列上的頻率分布數值,在得出300類主題的譜值后,再引入紅噪聲檢驗譜值的顯著性,即剔除不顯著的頻率,篩選出具有顯著性的主題頻率,最后根據功率譜估計和紅噪聲標準譜繪制曲線圖。隨機抽取第100、200、300個主題,功率譜和紅噪聲標準譜示意圖分別詳見圖4、圖5、圖6所示。圖4至圖6中,縱軸方向的實線所對應的值為功率譜結果,虛線所對應的值為紅噪聲檢驗值計算結果;橫軸方向表示頻率(一一對應于其特定的周期長度)。在相同的橫軸位置(也即頻率或其對應的周期長度),若實線點位置高于虛線點,則表示主題在該頻率(或周期長度)上的周期具有顯著性。
圖4第100個主題的功率譜與紅噪聲檢驗圖
圖5第200個主題的功率譜與紅噪聲檢驗示意圖
本研究意在探討1095天前半段時間內主題頻率對于后半段時間中主題演化發(fā)生的作用,故計算了300類主題在前547天內的頻率分布情況。經由上述計算檢驗后,300類主題的顯著頻率分布如圖7所示:橫軸表示頻率種類,縱軸表示300類主題。任意白點表示其所對應的縱軸上的主題,具備該點所對應的橫軸上的頻率種類;任意黑點表示該點所對應的縱軸上的主題,不具備其所對應的橫軸上的頻率種類。547天與主題頻率的比值即主題周期長度,具體計算公式為:總時間長度 ÷ 總時間長度內的振蕩頻率,每個頻率對應一個周期長度,由主題頻率的測算可得出主題周期數值,該值是本研究的核心變量。
圖6第300個主題的功率譜與紅噪聲檢驗示意圖
圖7300行 ?×273 列的顯著頻率獨熱碼示意圖
如圖7所示,300類主題在時間序列上的演化具備周期特征,該主題在獨熱碼圖中表現出周期性、集中性的振蕩頻率特征;而在圖8中,只有7.0128天、3.5064天、2.3376天三個主題數量尖峰表現出特有的主頻特征。
300 類主題的273類頻率/周期長度中,各個頻率出現的頻次如表1所示。其中,占據前三位的主題振蕩頻率分別為78次(201.0個頻次)、156次(199.0個頻次)、234次(37.0個頻次),其所對應的周期長度分別為7.0128天、3.5064天、2.3376天,這三種特殊頻率/周期長度組成了今日頭條平臺在前547天里的主頻率Top3(為表述簡便,以下將這三個最為突出的頻率及其對應的周期長度簡稱為今日頭條的“平臺主頻”)。值得注意的是,Top3 的周期長度分別對應1周、1/2周、1/3周,而其主題振蕩頻率間的關系恰好是一倍、兩倍、三倍。
圖8300類主題在各頻率上的總體分布示意圖
表1各頻率的出現頻次統(tǒng)計表
(四)主題觸發(fā)能力與周期長度
1.主題對其他主題的觸發(fā)能力
當我們在計算每類主題每天所占比例的時間序列時,得到的原始時間序列常存在部分不平穩(wěn)情況,因此將所有主題的時間序列一階差分,經ADF檢驗后均符合平穩(wěn)性要求,可以兩兩之間進行格蘭杰因果分析。一階差分后,設定滯后期為1天,300個主題“漲落”之間的格蘭杰因果關系形成 300×300 的矩陣。該矩陣中的單元格值若為1,表明存在行對列的因果作用;單元格值若為0,表明行對列不存在因果作用。
格蘭杰因果關系反映的是主題間的聯動觸發(fā)關系,而在社會網絡分析中,中介中心性主要考察某個節(jié)點作為任意兩個節(jié)點直接相連的中介的概率,即占據其余節(jié)點之間最短路徑的程度[29],故本研究采用中介中心性來考察主題的觸發(fā)能力。中介中心性越高,表明該主題在格蘭杰因果關系矩陣中具有較強的觸發(fā)其他主題變化的能力。
2.帖文有效周期長度
本研究針對300類主題在前547天的273種周期長度進行獨立樣本 χt 檢驗,篩選出對后547天觸發(fā)能力存在顯著影響的有效周期長度。對于第 n(n=273) 個周期長度,以獨熱碼圖中(見圖7)第 n 列數據為待檢驗因子,該列對應的300類主題若不具備第 n 個周期長度則為0向量,若具備則為1向量,由此可知,待檢驗因子包含300個0或1向量。
將待檢驗因子設為自變量,將300類主題對其他主題的觸發(fā)能力設為因變量,通過獨立樣本 χt 檢驗考察自變量對應的因變量是否存在顯著差異,再根據檢驗結果篩選出15種特征頻率用于后續(xù)預測分析。
3.帖文周期與觸發(fā)能力
對主題 300*300 觸發(fā)矩陣的“中介中心度”進行計算,可得到300類主題觸發(fā)其他主題的程度/能力數值,再將結果由高到低排序后分為兩類:高觸發(fā)能力、低觸發(fā)能力。高觸發(fā)能力的 50% 標為2,低觸發(fā)能力的 50% 標為1,將高低觸發(fā)能力各150類用于邏輯回歸預測。使用Python中sklear.linear_model庫的LogisticRegression函數,在隨機打亂所有數據后,將其中的 80% 的類建立邏輯回歸模型,預測剩余的20% 的類。邏輯回歸參數為:求解優(yōu)化問題的算法選擇newton-cg,各個類別的權重設置為balanced,研究對預測進行了10輪,平均準確率、精確率、召回率、F1分別為:0.7883、0.7911、0.7841、0.7843。以上結果表明:主題周期長度會顯著影響主題觸發(fā)能力。
經由獨立樣本 χt 檢驗篩選后的15種有效周期長度中,將待檢驗因子中0向量標為0類(即不具備對應的周期長度)、1向量標為1類(即具備對應的周期長度)。用0類主題觸發(fā)能力減去1類主題觸發(fā)能力,所得差值若為負,則表明1類主題觸發(fā)能力強,對應周期長度存在正向影響作用;若為正值,則表明0類主題觸發(fā)能力強,對應周期長度存在抑制作用。邏輯回歸系數與主題觸發(fā)能力差值詳見表2所示。
表215種有效周期長度主題觸發(fā)能力差值統(tǒng)計表
從表2可知,負值的主題類別對應的周期長度分別為:7.0128天、3.5064天、2.8342天、2.3376天,表明僅有這4類周期長度對主題觸發(fā)能力存在正向影響作用,且恰好分別為1周、1/2周、2/5周、1/3 周。在這4種周期長度中,除2/5周外,1周、1/2周、1/3周均在前文所列的\"主頻”范圍內,且所對應頻次在主頻頻次中分別排名第1、第2、第3。
由表2可知,正值的主題類別對應的周期長度共有11種,它們對主題觸發(fā)能力起顯著抑制作用,且存在一定規(guī)律性。具體分析如下:
其一,11種起抑制作用的周期長度里,僅有3.8521天、3.5752天、3.5290天、3.3975天4種出現在頻次Top29的平臺頻率里(見表1),分別對應第21位、第15位、第23位、第28位;另7種起抑制作用的周期長度均不在頻次Top29的平臺頻率里。也就是說,對主題觸發(fā)能力起抑制作用的周期長度,大多不存在于高頻次平臺頻率里。
其二,起抑制作用的7.1039天、3.5290天、3.4841天、2.4311天4種周期長度,它們最接近平臺三大主頻里具備正向影響作用的周期長度。這些波長與三大主頻相差不大,卻呈現出截然相反的作用效果,推測原因,這可能與鄰近的波長并非平臺主頻、除3.5290天外多數波長不屬于Top29的平臺頻率有很大關系。結合其一可知,正因為這些波長在Top29 中出現次數較少甚至沒有出現,故而對主題觸發(fā)能力具備顯著的抑制能力。
其三,對主題觸發(fā)能力具備顯著影響作用的15種周期長度,無論是正向影響作用還是抑制作用,周期長度均為短周期,即1周或1周內的天數值。而起到正向影響作用的三大主頻(78,156,234)從78到234的波段里,除三大主頻外還有26種頻率(見表3):其中78到156的波段頻率占多數,合計17種(約占 65.4% );頻率156至234的波段明顯較少,僅9種(約占 34.6% )。
表3三大主頻內的頻率波段統(tǒng)計表
其四,15種周期長度中,1/2周及接近1/2周的周期長度包括主頻內的3.5064天及非主頻內的3.8521天、3.5752天、3.5290天、3.4841天、3.4620天、3.3975天等7種周期長度。它們占據半數,表明1/2周及接近1/2周的周期長度對影響/預測主題觸發(fā)能力意義重大。
4.帖文周期與觸發(fā)能力:決策樹模型
本小節(jié)將運用決策樹分析主題周期對主題觸發(fā)能力的預測效果。自變量為上述經獨立樣本 χt 檢驗后提取的15種周期長度,因變量為二等分做定序處理后的主題觸發(fā)能力。在數據預處理階段,原數據集包含300個類別,為優(yōu)化模型性能、提高其預測效率,本研究特采用學習 80% 類別(即240類)預測剩余20% 類別(即60類)的策略。60個預測類別是隨機選取的,旨在確保預測的類別是模型在學習過程中未曾見過的,以客觀評估模型的泛化能力。研究發(fā)現,通過調整決策樹的參數,預測效果(準確率/F1值)可達到0.801,表明模型性能處于較高水平。具體分析過程如下:在Python中調用 Skleam庫中的Decision-TreeClassifier函數,運用網格法確定決策樹的最優(yōu)參數。參數尋求條件為:最大深度取值范圍為2~20,最小樣本分割數取值范圍為2~10,最小葉子節(jié)點樣本數取值范圍為1~10。在最優(yōu)決策樹情況下,決策樹模型輸出結果為:準確率為0.8,精確率為0.7969,召回率為0.8009,F1值為0.7979。本研究60類預測類實際預測結果的混淆矩陣詳見表4所示。
表460類預測類實際預測結果的混淆矩陣
三、研究結論與拓展
本文通過功率譜分析、格蘭杰因果分析和決策樹等方法,檢測并驗證了H1、H2的成立。計算發(fā)現:網絡平臺主題的演化不僅具備單一生命周期,還具備多種類型的演化周期;而主題的演化周期既可顯著影響主題觸發(fā)其他主題的能力,還可有效預測主題觸發(fā)其他主題的能力。
1.主題周期不僅關系主題本身的演化,還關系主題觸發(fā)其他主題的能力,具備顯著的預測效力。在對300類主題的273種周期長度進行檢驗后,本文提取出對主題觸發(fā)其他主題能力具有顯著影響作用的15種有效周期長度,并采用決策樹方法,得出的準確率、精確率、召回率、 .F1 值均接近0.8,說明主題周期對主題觸發(fā)其他主題能力的高預測性。以往研究多強調主題生命周期、主題彼此觸發(fā)、主題特殊周期等,鮮見對主題周期功能與作用的探討,本文的論證進一步明確了主題周期的作用機制與預測能力。
2.周期長度對觸發(fā)其他主題的能力具有顯著影響,且不同周期長度的影響作用有正負之分。在15種顯著周期長度中,僅有1周(7.0128天)、1/2周(3.5064天)、2/5周(2.8342天)、1/3周(2.3376天)4類對主題觸發(fā)能力存在正向影響作用,且1周、1/2周、1/3 周均為平臺主頻;其他11種則起到負向抑制作用,且大多不在高頻次平臺主頻里。此外,具有顯著正向促進作用的周期類型雖然種類少,但主導了全平臺的主題振蕩規(guī)律;具有負向抑制作用的周期類型雖然種類多,但出現次數少,表明全平臺多數主題不具備起抑制作用的周期。本文由此提出,主題的不同特定周期長度對其觸發(fā)其他主題的能力有不同作用,并計算出精準的長度類型。本文進一步認為,在探究主題間共振、協同演化以及輿論監(jiān)測、調控時,不僅要注重主題周期的作用,還應根據不同長度的不同功能進行選擇與運用。
3.無論是顯著促進主題能力的周期類型,還是抑制類周期類型,均呈現短周期特征,即1周及1周內的天數長度。主題不僅具有多種周期類型,還具備長周期與短周期,但并非所有周期類型都對主題觸發(fā)其他主題的能力起作用,僅有短周期具備顯著影響力;1/2周及接近1/2周的周期長度在影響/預測主題觸發(fā)能力時,重要性不可低估。綜上所述,主題的短周期特性對其觸發(fā)其他主題的能力具有顯著影響,與算法推薦平臺中信息快速更新、層出不窮的特點密切相關。由于具備短周期特性的主題能夠高頻次地出現在公共平臺,故能有效降低公眾的遺忘程度,持續(xù)加深公眾印象。這種高頻曝光機制既強化了主題間的相互觸發(fā)作用,又使得網絡平臺中的多個主題呈現持續(xù)共振與動態(tài)演化的特征。
本研究的意義:一是提出主題周期對主題觸發(fā)其他主題能力的作用與功能,拓展了周期相關理論的研究維度,令主題周期由“存在\"研究延伸到“機理”研究,由此激發(fā)了探索主題周期與主題共振之間路徑研究的可能性;二是從300類主題的273種周期長度中提取出具有顯著性的15種有效周期長度,并精確計算出具有不同作用的周期的長度天數,為輿論調控提供操作性強的方法;三是發(fā)現了主題周期與主題觸發(fā)能力之間的關系,搭建了二者間可計算、可量化的橋梁。
本研究的不足與待拓展之處:其一,本文雖然發(fā)現了15種顯著周期長度,但為何是這15種,原因有待進一步研究;其二,有效影響及預測主題觸發(fā)其他主題的能力的周期顯示了短周期的重要性,但短周期的界限與范圍仍有待后續(xù)深人探究;其三,為何平臺三大主頻能夠有效促進主題觸發(fā)其他主題的能力,而7.1013天、3.5290天、3.4841天、2.4311天這4種最接近三大主頻的周期長度卻呈現出抑制作用,雖然本文推測這與周期長度在平臺主頻頻次中所占據的位置高低(頻次高低)有關,仍有待后續(xù)扎實的機理分析。
參考文獻:
[1]劉自強,岳麗欣,馮志剛.多維度視角下我國網絡與情熱點話題演化特征研究[J/OL].情報科學:1-13[2024-03-05].https://kns.cnki. net/kcms2/article/abstract? v=? LeTZRn7a1NKgVInnSJrgmQSHCl2v-2M-eo6qSbKZORliQr2qt2hz_q9KpzoyB59WacHgVYmauNJ8CUBJs7c0sMOyjp9zM1iF-UoPD0AoMoM7NiPZJcRBDaeI9QWjUOdoAAaOufb4u6Y τ=τ amp;uniplatformΣ=Σ NZKPTamp;language CHS.
[2]王日芬,王一山,楊潔.基于社區(qū)發(fā)現和關鍵節(jié)點識別的網絡輿情主題發(fā)現與實證分析[J].圖書與情報,2020(5):48-58.
[3]劉曉娟,王吳賢,張愛蕓.微博信息生命周期研究[J].圖書情報工作,2014(1):72-78.
[4] 呂揚帆,李鋼,劉玲,等.COVID-19疫情期間謠言傳播的時空分異機制與治理對策[J].西北大學學報(自然科學版),2021(2) :207-219.
[5]張云,劉玲.SNA視域下體育突發(fā)事件網絡輿情的形成及結構分析[J].西南民族大學學報(人文社科版),2018(8): 141-146.
[6]LIU Z,WU X.Structural analysis of theevolution mechanismof online publicopinionandits development stages basedon machine leaingandsocial ntworkanalysis[J]InternationalJouralofomputational Intellgence Systems,3(1):99.
[7]HUANG W,CUIY,XIAO X.Two-way mutual-structure-based public opinioncommunication system:An analysis with simulation[J].Tehnic Ki Vjesnik,2019(1) :201-207.
[8]匡文波.論新媒體與論的生命周期理論模型[J].杭州師范大學學報(社會科學版),2014(2):112-117.
[9]晏敬東,楊彩霞,張煒南.基于生命周期理論的微博輿情引控研究[J].情報雜志,2017(8):88-93.
[10]劉強,李文軍.重大疫情防控中網絡輿情治理的實踐困境與策略優(yōu)化[J].重慶郵電大學學報(社會科學版),2022 (5) :92-99.
[11] DOWNS A.Up and down with ecology:The“issue-attention cycle\"[M].London: Routledge,2016:27-33.
[12]王積龍,張妲萍,李本乾.微博與報紙議程互設關系的實證研究——以騰格里沙漠污染事件為例[J].新聞與傳播研 究,2022(10) :80-93.
[13]徐翔,楊航宇,徐舟爽,等.社交網絡的情緒波動周期性及應對策略——基于新浪微博樣本的大數據分析[J].新聞與 寫作,2021(8) :22-32.
[14]SANO Y,TAKAYASUH,HAVLINS,et al.Identifying long-term periodic cycles and memories of collectiveemotioninonlie social media[J].PLoS One,2019(3) :e0213843.
[15]趙潔,馬錚,周曉峰,等.基于突發(fā)詞項頻域分析的微博突發(fā)事件檢測[J].情報理論與實踐,2015(1):124-129.
[16]張虹,鐘華,趙兵.基于數據挖掘的網絡論壇話題熱度趨勢預報[J].計算機工程與應用,2007(31):159-161.
[17]徐翔,徐舟爽.社交媒體主題的周期性對其主題觸發(fā)能力的影響——基于新浪微博的樣本分析[J/OL].情報雜志:1- 12[2024-01-29].htp://kns.cnki.net/kcms/detail/61.1167.G3.20240122.1426.002.html.
[18]KOMORIM,MATSUMURA N,MIURA A,et al.Relationships between periodic behaviors in micro-bloging andthe users’ baseline mood[C]//2O1213thACIS InternationalConferenceon SoftwareEngineering,Artificial Inteligence,Networking and Paralll/Distributed Computing.Piscataway,NJ:IEEE,2012:405-410.
[19]YANG W,MUL,SHENY.Efetofclimate andseasonalityondepresed mood among Twiterusers[J].Aplied Geography, 2015,63:184-191.
[20]MAYOR E,BIETTI L M.Twiter,time and emotions[J].Royal Society Open Science,2021(5):201900.
[21]FANR,VAROLO,VARAMESHA,etal.Theminute-scaledynamicsofonlineemotionsreveal theefectsof aectlabeling [J].Nature Human Behaviour,2019(1) :92-100.
[22]DAIL,XUET,WUB,etal.Spatiotemporalstructure featuresofnetworkcheck-inactivitiesofurbanresidentsandteirimpacting factors:Acase study in sixurban districtsof Beijing[J].Journal ofAsian ArchitectureandBuilding Engineering, 2017(1) :131-138.
[23]梁芷銘.基于新浪微博的網絡信息生命周期實證研究[J].新聞界,2014(3):60-64.
[24]宗紅,薛春香,陳芬.在線新聞評論生長規(guī)律研究[J].數據分析與知識發(fā)現,2018(9):50-58.
[25]ENDERS W,ARISEGF,SANDLERT.Atime-series analysis of transnational terrorism:Trends and cycles[J].Defenceand Peace Economics,1992(4) :305-320.
[26]王茜.打開算法分發(fā)的“黑箱”———基于今日頭條新聞推送的量化研究[J].新聞記者,2017(9):7-14.
[27]關于頭條[EB/OL].[2023-12-15].https://www.toutiao.com/about/? wid Σ=Σ 1720488271801.
[28]REIMERS N,GUREVYCH 1.Sentence-BERT:Sentence embeddings using siamese BERT-Networks[C]//Procedings of the 2019 Conference onEmpirical Methods in Natural Language Processing andthe 9th International Joint Conference on Natural Language Processng(EMNLP-IJCNLP).East Stroudsburg,PA:AssociationforComputational Linguistics,2O19:3982-3992.
[29]羅家德.社會網分析講義「M].北京:社會科學文獻出版社.2010:187-227.
The impact of and prediction for the cycle length of online platform topics on their triggering abilities
XUXiang,YANG Xinru (Research Centerof Big Data and Computing Communication,Collge of Artsand Media, Tongji University, Shanghai 201804,China)
Abstract:The evolution of information topics ononline platforms exhibits aregular periodicityintimeseries.This study, based onthe Toutiao platform,employs methods such as power spectrum analysis and decision trees to explore how the cyclelengthof topics ononlineplatforms affcts theirtriggeringcapabilities.Theresults indicatethat:(1)thelength of a topic'scyclecan influence itsabilityto triggerother topicsandpossesses significant predictive power;(2)most topics exhibitcyclelengthsof1week,1/2week,and1/3week,whichconstitute thethree primaryfrequenciesonthe Toutiao platform;(3)among the 15 cycle lengths that significantly impact topic triggering capabilities,four lengths -1 week, 1/2 week,2/5week,and1/3 week-haveapositive promoting effect;(4)thecycle lengths that inhibit topic triggering capabilities mostlydonot exist in high-frequencyplatform frequencies;(5)both thecycle lengths that significantly promote andthose that inhibit topic triggering capabilities areshort in duration;(6)from a predictive perspective,cycle lengthsof1/2 weekand close to1/2 week exhibit significant importancein influencing/predicting topic triggering capabilities.In summary,the characteristicsof these cycle lengths canserve as predictorsof topic triggering capabilities,with the accuracy,precision,recall,and F1 scores of logistic regression all around 0.8.
Keywords:Internet platform;online platform topics;cycle length;topic triggering capability;power spectrum
(編輯:李春英)