盧林艷,李媛媛,盧功靖,劉熠,王成軍
(南京大學(xué),南京 210023)
基于社交機器人的計算宣傳(Computational Pro‐paganda)目前已經(jīng)進入公眾視野并被廣泛運用到各種輿論宣傳中。計算宣傳是綜合使用算法、自動化和人工有目的地在社交網(wǎng)絡(luò)中散布誤導(dǎo)性信息。社交機器人是在社交網(wǎng)絡(luò)中扮演人的身份、擁有不同程度人格屬性,且與人進行互動的人工智能應(yīng)用(張洪忠,2019)。已有的研究顯示,社交機器人占所有Twitter賬戶的9%?15%(Bence,2016)。通過模仿和模擬人類在社交媒體中的行為,社交機器人有組織地與人類用戶交互,依照人類操縱者的意圖影響目標(biāo)受眾(鄭晨予,范紅,2020)。基于社交網(wǎng)絡(luò)建立的社交機器人具有天然的傳播基因或優(yōu)勢,已經(jīng)被廣泛地應(yīng)用到宣傳與輿論傳播當(dāng)中。社交機器人通過系統(tǒng)化的傳播行為支持或者抹黑特定主體(師文,2020)。不同于水軍,機器人或人工智能技術(shù)取代了人類在輿論宣傳中的角色(趙爽,2017)。社交機器人為了達(dá)到目標(biāo)會去學(xué)習(xí)與模仿人類的行為,包括但不限于傳播信息和影響目標(biāo)(kevin,2016)。
政治領(lǐng)域的計算宣傳是目前研究者主要關(guān)注的方向。為了達(dá)到目的,社交機器人向社交媒體用戶傳遞誤導(dǎo)性的信息或發(fā)送垃圾消息、偽造政治關(guān)注、攻擊政治對手、制造趨勢話題,以此來制造共識并操縱輿論(羅昕&張夢,2019)。社交機器人通常被用來營造虛假人氣、推送政治消息、傳播虛假或垃圾政治信息,制造煙霧遮蔽效應(yīng)混淆公眾視聽(張洪忠,2019)。計算宣傳同時出現(xiàn)在經(jīng)濟和文化領(lǐng)域。在經(jīng)濟方面,計算宣傳常被用于操縱股票和廣告市場。托馬斯(2017)發(fā)現(xiàn)欺詐者通過在市場上傳播虛假或誤導(dǎo)信息來兜售公司股票,人為地暫時提高股價。在文化方面,Alice和Rebecca(2015)認(rèn)為,互聯(lián)網(wǎng)亞文化群體正在利用當(dāng)前的媒體生態(tài)系統(tǒng)來操縱新聞框架、設(shè)定議程和傳播思想,通過增加主流媒體上的錯誤信息數(shù)量的方式來降低主流媒體的可信度。然而,無論計算宣傳具體應(yīng)用于何種用途,其本質(zhì)都在于操控輿論(羅昕&張夢,2019)。采用社會網(wǎng)絡(luò)方法,研究者發(fā)現(xiàn)社交機器人只需要占特定討論參與者的5%?10%,就可以改變公眾輿論,使它們的觀點最終成為占主導(dǎo)地位的觀點(Cheng,Luo&Yu,2020)。
計算宣傳研究對政治以外的其他領(lǐng)域關(guān)注較少。例如,在商業(yè)和社會事件當(dāng)中往往也會卷入大量的社交機器人。另外,目前已有的研究以國外研究為主,但國內(nèi)外輿論場和公眾參與有較大區(qū)別(魏少華,2017)。在國內(nèi)社交媒體當(dāng)中,社交機器人在非政治類事件當(dāng)中的影響力更大。本研究將研究視野從政治領(lǐng)域轉(zhuǎn)移至社會領(lǐng)域,重點關(guān)注微博上的社會類公共事件。本研究主要致力于解決解答以下困惑:在非政治類的社會熱點事件中,社交機器人驅(qū)動的計算宣傳對輿論演化是否起到操縱作用以及如何發(fā)揮作用?
本文認(rèn)為社交機器人作為媒介生態(tài)中的重要組成部分,已成為改變公共話語和輿論議程的一只看不見的手。這要求我們能夠通過算法精準(zhǔn)識別機器人并進行有效治理。同時,社交機器人的人格化特征又區(qū)別于一般意義上的真人,針對社交機器人這一新的行動者(agent),需要重新分析其傳播模式(張洪忠等,2019)。鑒于社交機器人在社交媒體中的普遍存在,以及社交機器人可能在社會事件中對輿論起到影響乃至操控的作用,有必要對這個“無形的手”進行深入剖析。
計算宣傳是一種特殊的宣傳形式。對于宣傳的研究起源于第一次世界大戰(zhàn)。拉斯韋爾在1927年提出宣傳是指借助故事、謠言、報道、圖片以及社會傳播的其他形式實現(xiàn)意見控制的目的(拉斯韋爾,1927)。拉斯韋爾(1937)進一步將宣傳視為一種操縱的技術(shù),宣傳是一種通過操縱文本的表述方式來影響人類行為的技巧。隨著互聯(lián)網(wǎng)快速發(fā)展,宣傳的意義和內(nèi)涵隨之發(fā)生轉(zhuǎn)變。伴隨2016年美國總統(tǒng)大選,計算宣傳(Computational Propaganda)作為一種新的傳播方式開始出現(xiàn)。計算宣傳以大數(shù)據(jù)和算法為支撐,由機器人假扮人類向社交媒體用戶傳遞誘導(dǎo)性或欺騙性信息,試圖制造共識并操縱輿論(羅昕&張夢,2019)。
本文將從技術(shù)屬性和社會屬性兩個維度構(gòu)建分析框架,研究微博社會熱點事件中的計算宣傳行為。目前關(guān)于計算宣傳研究的主要知識領(lǐng)域包括計算機科學(xué)和社會科學(xué)兩個方面。這兩個研究領(lǐng)域分別對應(yīng)著計算宣傳的雙重屬性:技術(shù)屬性和社會屬性。技術(shù)屬性來源自以人工智能、算法為代表的現(xiàn)代信息傳播技術(shù)(ICT)的發(fā)展,主要關(guān)注計算宣傳背后的技術(shù)問題,主要關(guān)注檢測、識別、追蹤社交機器人的存在;而社會屬性則重點關(guān)注宣傳控制輿論的內(nèi)涵,將計算宣傳視為利用人工智能技術(shù)操縱輿論的新途徑,探討計算宣傳在政治、文化和經(jīng)濟領(lǐng)域產(chǎn)生的影響(羅昕&張夢,2019)。計算宣傳既是一種影響政治和社會的技術(shù)力量,也是一種操縱輿論的宣傳方式。計算宣傳必須基于算法等技術(shù)手段,但主要是為了達(dá)到背后操縱者的特定目標(biāo)。從傳播手段而言,計算宣傳往往逾越倫理的邊界故意歪曲符號、訴諸情感和偏見來繞過理性思維(Bolsover&Howard,2017)。
目前社交媒體機器人賬號檢測致力于尋找區(qū)分度明顯的檢測特征,以及準(zhǔn)確率高綜合代價小的檢測算法(劉蓉等,2017)。構(gòu)建社交機器人識別模型首先需要基于機器人和人類行為的差異提取特征。一般而言,社交機器人的表現(xiàn)比起人類同質(zhì)性更強(Cresci,2019)。目前社交機器人識別主要集中在以下幾個維度:
賬戶元特征指賬戶的元數(shù)據(jù),如賬號ID昵稱、賬號的注冊時間、賬號的簡介、賬號關(guān)注的人數(shù)、賬號的粉絲數(shù)、賬號的轉(zhuǎn)發(fā)數(shù)量、賬號發(fā)布內(nèi)容的數(shù)量以及賬號采用的頭像圖片等(王雅晗,2019)。Beskow和Carley(2019)提出社交賬號的用戶名可以分為隨機和非隨機兩種,在創(chuàng)建非隨機的社交機器人用戶名時往往遵循一套固定的命名邏輯。還有學(xué)者發(fā)現(xiàn)機器人賬戶總是在很短時間內(nèi)被批量創(chuàng)建,且發(fā)文時定位的地理位置呈現(xiàn)出很強的離散性,甚至均勻分布在大西洋和無人區(qū)(Echeverria,J.,2017)。除此之外,用戶的認(rèn)證類型、等級和勛章以及賬戶發(fā)布推文的API接口等屬性也是重要的賬戶元特征,機器人賬號大多缺乏會員認(rèn)證或綁定信息,且由于存活時間較短,因而等級往往較低;API接口用于判斷其發(fā)文時使用的終端平臺(如iPhone、Android、網(wǎng)頁端)。機器人發(fā)文的API接口往往指向同一個平臺(Bolsover,2019)。
網(wǎng)絡(luò)結(jié)構(gòu)可以反映不同節(jié)點間的通信特征(Das A,2016),根據(jù)信息擴散模式多個維度,對于機器人識別的網(wǎng)絡(luò)特征也分為基于關(guān)注與被關(guān)注關(guān)系的社交關(guān)系網(wǎng)絡(luò),基于轉(zhuǎn)發(fā)、提及(@關(guān)系)和標(biāo)簽(#hashtag)的行動網(wǎng)絡(luò),建立網(wǎng)絡(luò)并提取了他們的統(tǒng)計特征,例如度分布、聚類系數(shù)和中心度。Dorri,Abadi&Dadfarnia(2018)提出可以根據(jù)社交網(wǎng)絡(luò)的同質(zhì)性進行社交機器人識別。如果兩個賬戶在一個社交網(wǎng)絡(luò)中連接在一起,那么他們就可能具有相似的屬性。一方面,機器人為了騙取人類關(guān)注自己往往會關(guān)注更多的真實人類;另一方面,機器人也會相互關(guān)注,并且關(guān)注機器人的賬號大多也是機器人。
微博內(nèi)容可以反映出一個賬號的行為習(xí)慣及寫作風(fēng)格(Ghosh R,2011)。因此,微博內(nèi)容特征也是目前社交機器人機器學(xué)習(xí)檢測技術(shù)中的一類常用特征,針對文本本身,如,微博內(nèi)容長度、微博內(nèi)容中所含的詞匯數(shù)量(Jr,S.B,et al.,2018).、微博內(nèi)容相似性和重復(fù)性(Bara,Fung,&Dinh,2015)、不同的符號數(shù)量(例如“?!钡龋?、微博內(nèi)容所含的URL鏈接數(shù)量以及微博內(nèi)容使用的語言、語法、語義(Dickerson,Kagan,&Subrahmanian,2014)等;除了上述文本本身特征,對文本進行進一步分析,可以挖掘出微博內(nèi)容的情感特征,Loyola?Gonzalez 等人(Loyola?Gonzalez,Monroy,Rodriguez,Lopez?Cuevas,&Mata?Sanchez,2019)利用情緒分析構(gòu)建了一個使用基于對比模式的分類器檢測推特機器人的模型,并取得了較好的識別效果。機器人的發(fā)帖數(shù)量、規(guī)模、信息的爆發(fā)性被認(rèn)為是高于人類用戶。在2016年美國大選中,每天在某一特定議題下發(fā)表50篇推文被用做識別社交機器人的分界線(Howard,et al.2016);機器人的發(fā)文間隔最快為幾秒,而人類往往需要更久的時間;社交機器人賬號數(shù)量小,但發(fā)布的內(nèi)容數(shù)量極多,遇到大事件時,會突然集中爆發(fā)(張洪忠等,2020)。
綜上,我們可以從社交媒體賬號的元特征、網(wǎng)絡(luò)特征、內(nèi)容特征、時間特征四個維度就社交機器人進行識別,基于此提出第一個研究問題:
Q1:在社會熱點事件中,社交機器人和人類在不同維度的特征上有何差異?
監(jiān)督式機器學(xué)習(xí)方法是更為常見的社交機器人識別算法(Subrahmanian et al.,2016),該方法從樣本中選擇特征參數(shù),建立判別函數(shù),對未被識別的樣本進行分類,能夠有效利用先驗數(shù)據(jù)信息,減少人為因素的干預(yù),形成符合特征的分類模型。該方法依賴有標(biāo)記的數(shù)據(jù)集,這些標(biāo)簽通常來自人工編碼(Varol,Ferrara,Davis,et al.,2017)、自動化方法(Lee et al.,2011),或者是暴露出可疑行為的僵尸網(wǎng)絡(luò)(Echeverria &Zhou,2017a,2017b)。
BotOrNot 是Twitter 公開的第一個檢測社交機器人的接口。該系統(tǒng)利用Twitter 的搜索接口,收集待檢測賬號最近的200 個帖子和最近被提及的100 個帖子,從網(wǎng)絡(luò)、用戶、好友、時間、內(nèi)容和情感等6 類特征入手,判斷該賬號屬于惡意機器人的可能性,經(jīng)過十折交叉驗證后發(fā)現(xiàn)隨機森林模型的分類效果最好(Davis et al.,2016)。此外,樸素貝葉斯算法、K 近鄰算法、C4.5 決策樹、支持向量機、隨機森林算法等都已被用于識別社交機器人。Echeverria 和Zhou(2017)選取發(fā)文內(nèi)容、發(fā)文數(shù)量、粉絲和好友數(shù)量、推文來源、用戶注冊時間、地理位置信息等7個特征,使用樸素貝葉斯的方法對Twitter 上真實用戶和星球大戰(zhàn)僵尸機器人進行研究,發(fā)現(xiàn)機器人賬戶與真實用戶在地理距離和連接屬性上呈現(xiàn)明顯差異,真實用戶的推文數(shù)據(jù)呈冪率分布,而機器人呈現(xiàn)出均勻分布的特征。談磊等(2012)將樸素貝葉斯模型與K 近鄰模型結(jié)合起來,提出了一種基于復(fù)合分類模型的算法來檢測社交網(wǎng)絡(luò)中的惡意用戶。還有學(xué)者提出了多種檢測網(wǎng)絡(luò)水軍的算法,包括基于黑名單的算法(Grier et al.,2010)、基于用戶特征的算法(Irani,Webb&Pu,2010)以及基于文本的方法(Lau et al.,2012)等。
社交機器人處于不斷演化的過程中,是否具有可預(yù)測性呢?微博熱點事件中的機器人識別仍具有挑戰(zhàn),他們可能更隱蔽也可能更笨拙。針對性地找到合適的識別方法成為我們要解決的問題。在構(gòu)建社交機器人識別特征的同時,我們想進一步追問社交機器人識別問題的可預(yù)測性?;诖?,提出第二個研究問題:
Q2:社會熱點事件中社交機器人具有可預(yù)測性嗎?或者說是否可以精準(zhǔn)識別的社交機器人?
從社會屬性來看,計算宣傳與社交媒體操縱(Social Media Manipulation)緊密相聯(lián)。社交媒體操縱也被稱為“社交媒體宣傳操縱”,主要是指在社交媒體上使用自動化程序或者機器人進行蓄意宣傳和虛假消息傳播(Woolley&Howard,2017)。這一概念目前已被廣泛應(yīng)用到政治、經(jīng)濟、文化等多個領(lǐng)域。在政治領(lǐng)域,計算宣傳通常被用來左右國家選舉、營造虛假人氣、煽動公眾抗議、開展國際攻擊(羅昕&張夢,2019)。2016年美國大選中特朗普和希拉里陣營利用社交機器人提高候選人支持率(Bence et al,2016)、英國公投期間大量社交機器人參與推動其退出歐盟(Cadwalladr,2017)、烏克蘭危機運動中社交媒體上出現(xiàn)大量假新聞(Khaldarova&Pantti,2016)、巴西公眾抗議運動中社交機器人號召人們上街游行(Oliveira et al,2016)、敘利亞戰(zhàn)爭中社交機器人通過發(fā)布大量無關(guān)的推文弱化抗議者的聲音并轉(zhuǎn)移公眾注意力(Michael,2017)。2017 年,包括美國在內(nèi),至少有18 個國家在選舉中遭遇了線上操縱和虛假信息(House,2017)。
微博平臺憑借龐大的用戶群和公開性成為計算宣傳的理想場所。本文立足于國內(nèi),以新浪微博為研究對象,新浪微博被稱為中國的推特,為用戶提供了一個參與討論的平臺,同時也為計算宣傳提供了空間(Bolsover&Howard,2019)。Bolsover在2013年以新浪微博為研究對象對一項新聞的傳播網(wǎng)絡(luò)進行分析,發(fā)現(xiàn)6%的新聞報道由虛假賬號轉(zhuǎn)發(fā),30%的意見領(lǐng)袖實則是用來操縱信息的機器人賬號。2018年,Bolsover和Howard(2019)研究了推特上110萬條與中國政治標(biāo)簽相關(guān)的帖子以及國內(nèi)官方新聞微博下150萬條評論。他們發(fā)現(xiàn)推特上存在大量反中國政府的社交機器人,這些社交機器人致力于傳播對抗中國政府的虛假信息。
從以上研究我們可以發(fā)現(xiàn)不同類型事件中的主體不同、計算宣傳的目的不同,社交媒體操縱的表現(xiàn)也不相同。另一方面,多數(shù)研究集中在政治領(lǐng)域,而忽略了對非政治領(lǐng)域的社交媒體操縱問題。本研究認(rèn)為針對社會公共事件中社交媒體操縱進行研究對更好理解計算宣傳具有重要意義?;诖?,我們提出以下問題:
Q3:微博社會熱點話題事件中是否存在社交媒體操縱現(xiàn)象?可以分為哪些基本類型?哪一種類型的操縱作用最強?
本文首先利用2019?2020年備受關(guān)注的社會公共事件數(shù)據(jù)集訓(xùn)練社交機器人識別算法模型,為更多數(shù)據(jù)打上是否是機器人的標(biāo)簽;在此基礎(chǔ)上借助邏輯回歸模型和統(tǒng)計檢驗分析社交機器人的行為特征,區(qū)分社交機器人的行為表現(xiàn)以及對人類的影響。
本文選取了2019?2020年11個的社會公共事件,包括“西安奔馳漏油”“、上海特斯拉自燃”、“視覺中國版權(quán)風(fēng)波”、“北大弒母案”等引起公眾廣泛關(guān)注與討論的熱點事件。所有數(shù)據(jù)集總計包含220萬個微博用戶,除了微博文本內(nèi)容外,還包括根微博內(nèi)容、賬號信息、發(fā)布時間等輔助性信息。由于機器人在不同性質(zhì)事件中參與行為存在差異,我們將事件分為正面、負(fù)面、中性三個類型加以控制。
在保證分析的維度后,我們對數(shù)據(jù)集進行規(guī)范性處理。由于微微博內(nèi)容本是一種非正式的文本,其內(nèi)容可能僅僅是一句話、一個表情或是一張圖片,還可能包括“話題標(biāo)簽#”、“提及@”以及網(wǎng)頁鏈接等不規(guī)范的文本內(nèi)容,而這些不規(guī)范的文本會給文本內(nèi)容識別帶來阻滯。為了去除文本噪音,更好識別微微博內(nèi)容本真正的文本意涵,我們對微博內(nèi)容進行包括停用詞在內(nèi)等常規(guī)的預(yù)處理,同時還進行以下的額外處理:
(1)對表情包與網(wǎng)址進行語言化處理
微微博內(nèi)容本中存在大量的表情包等圖片形式語言,同時有研究發(fā)現(xiàn):機器人可能會較多地使用表情包,表達(dá)某種情緒來模糊視點(Yang,2019)。這些表情包表達(dá)的意義各不相同,如不對其處理,將無法捕捉到該文本特征。因此,我們將所有文本中的表情包替換成對應(yīng)表情的文字,例如“吃驚”的表情包被替換成“吃驚”;文本中的網(wǎng)頁鏈接被替換成“網(wǎng)址”。
(2)“轉(zhuǎn)發(fā)微博”字樣文本針對性處理
由于微微博內(nèi)容本包含大量的帶有“轉(zhuǎn)發(fā)微博”字樣的文本,實則是沒有意義的空轉(zhuǎn)發(fā)。因此,在計算與“其他微博的文本相似性”特征時將剔除“轉(zhuǎn)發(fā)微博”文本;但在計算“賬號自身文本相似性”時,由于有部分機器人只發(fā)布空轉(zhuǎn)發(fā),因此將保留該部分?jǐn)?shù)據(jù)。
(3)處理類別不平衡問題
由于各數(shù)據(jù)集均存在不同程度的類別不平衡問題,這會導(dǎo)致模型無法有效識別少數(shù)類。通過調(diào)整正樣本權(quán)重,在保留樣本的真實分布的同時,緩解類別不平衡問題,并選取AUC 作為模型評價指標(biāo)。
除了賬號屬性、參與程度、時間特性與文本內(nèi)容四類特征之外,結(jié)合微博數(shù)據(jù)特點,構(gòu)造出根微博特征,同時將BERT 模型的輸出結(jié)果作為特征之一輸入模型,以期在更大范圍內(nèi)識別機器人用戶的立場和動機。具體來說,賬戶屬性主要包括性別、粉絲數(shù)、關(guān)注數(shù)、認(rèn)證類型等屬性信息。參與程度指賬號發(fā)布微博條數(shù)、用戶使用平均數(shù)量、用戶使用總數(shù)量。在時間特征上,不同于以往研究中常使用的發(fā)文時間,本模型從時間維度的“爆發(fā)性”維度建構(gòu),提取平均一天發(fā)文數(shù)量、同時發(fā)布的平均微博數(shù)兩個特征。而根微博即原創(chuàng)微博,是轉(zhuǎn)發(fā)微博的最初來源,我們使用平均根微博轉(zhuǎn)發(fā)數(shù)量、平均根微博不同微博占比、微博來源同質(zhì)性三個變量衡量根微博特征。此外,本模型采用TF?IDF 來構(gòu)建文本內(nèi)容的特征,包括“平均詞匯多樣性”、“其他用戶與自己微博平均重復(fù)次數(shù)”、“與機器人微微博內(nèi)容本相似性”(BERT特征)等。
區(qū)別于其他社交機器人識別模型,本算法基于人為提取特征與BERT特征,將數(shù)據(jù)集根據(jù)轉(zhuǎn)發(fā)率拆分為原創(chuàng)集、轉(zhuǎn)發(fā)集、全集并分別進行特征篩選與建模。最后,通過數(shù)據(jù)集融合與模型融合兩個步驟,得到最終的輸出結(jié)果。關(guān)鍵步驟流程為:
(1)Cleanlab標(biāo)簽清洗
通過觀察微博樣本發(fā)現(xiàn),部分機器人標(biāo)簽標(biāo)注并不是那么準(zhǔn)確。而保證訓(xùn)練集標(biāo)簽的準(zhǔn)確性是提升模型準(zhǔn)確度的關(guān)鍵,我們借助Cleanlab進行訓(xùn)練集的標(biāo)簽清洗,以各個類的平均預(yù)測概率為概率閾值,估計出已知的有噪聲標(biāo)簽和未知的無噪聲標(biāo)簽之間的聯(lián)合概率分布,并對可能錯誤的標(biāo)簽進行清洗(Northcutt C G,2019)。
(2)數(shù)據(jù)集拆分
在社交機器人識別中,轉(zhuǎn)發(fā)率高賬號與轉(zhuǎn)發(fā)率低賬號的行為模式與關(guān)鍵特征顯著不同,如將兩類賬號混合訓(xùn)練會降低模型的分類性能。因此,本模型將數(shù)據(jù)集拆分為全集、原創(chuàng)集和轉(zhuǎn)發(fā)集,對三類數(shù)據(jù)集分別建模并將結(jié)果融合。在特征重要性方面,本文發(fā)現(xiàn)轉(zhuǎn)發(fā)集中根微博特征最為重要,原創(chuàng)集則以BERT 特征最為重要,全集中BERT 特征重要性提高。通過拆分?jǐn)?shù)據(jù)集,整體特征重要性有較大變化,這表明數(shù)據(jù)集拆分有其合理性。
本模型采用嵌入法篩選特征,利用LightGBM 克服特征多重共線性。每一個數(shù)據(jù)集最終均輸出6 個結(jié)果,分別為全集、轉(zhuǎn)發(fā)集、原創(chuàng)集在LightGBM 和CatBoost模型上的結(jié)果,依次進行數(shù)據(jù)集融合和模型融合,得到最終的結(jié)果。具體模型流程圖1所示。
圖1 模型流程圖
因為數(shù)據(jù)集存在類別不平衡問題,本模型采用AUC作為模型評價指標(biāo)。經(jīng)過模型融合,在不修改驗證集標(biāo)簽的情形下,最終我們的模型在數(shù)據(jù)集上的AUC在0.815-0.967之間,平均AUC為0.88,AUC數(shù)值的波動可能與數(shù)據(jù)集大小、數(shù)據(jù)集分布、數(shù)據(jù)集標(biāo)簽準(zhǔn)確度有關(guān)。如果使用Cleanlab清洗驗證集可能錯誤的標(biāo)簽,模型在各個數(shù)據(jù)集上的AUC 均可達(dá)到0.9 以上,平均AUC 為0.928。最終,模型能夠較為精準(zhǔn)識別社會熱點事件中的社交機器人。因此,對于Q2,本研究發(fā)現(xiàn)社交機器人具有較高的可預(yù)測性。
為了回答Q1,本研究構(gòu)建了邏輯斯蒂回歸模型。借助社交機器人賬號識別模型,我們給微博用戶打上是否是機器人的標(biāo)簽,總計2205025個微博用戶(含機器人),按照每個事件原本的機器人比例進行隨機抽樣,獲得了144111個微博用戶(含機器人),在此基礎(chǔ)上采用邏輯回歸模型對抽樣數(shù)據(jù)進行分析。邏輯回歸可以理解為參數(shù)θ在已知x的條件下比較P(y=1|x,θ)和P(y=0|x,θ)概率大小,選擇較大的概率作為分類結(jié)果。邏輯斯蒂回歸(logistic regression)的概率公式:
其中是否是機器人二分類標(biāo)簽是因變量,賬號屬性、參與程度、時間特性、根微博、文本內(nèi)容五大類共14個特征為自變量,同時引入事件性質(zhì)虛擬變量(正面、負(fù)面、中性)進行控制(表1)。
表1 羅杰斯蒂回歸結(jié)果
(1)、在賬號屬性方面,機器人的認(rèn)證類型基本上全部為普通用戶(β=9.15,P<.001)。此外,社交機器人大多偽裝成男性參與公共事件討論(β=0.66,P<.001),這可能是因為男性為建立微博賬號時的默認(rèn)選項。
(2)、在參與程度方面,社交機器人賬號在發(fā)布微博數(shù)量方面沒有人類積極(β=-0.04,P<.01),機器人賬號發(fā)布的平均微博條數(shù)(1.17)比人類賬戶(1.41)低。機器人在模仿人類“@”行為與“參與話題#”行為上表現(xiàn)不積極。社交機器人不像人類用戶一般建立好友關(guān)系網(wǎng)、與其他賬戶互動并產(chǎn)生聯(lián)系。機器人幾乎不參與“@”行為(β=-1.76,P<.001),轉(zhuǎn)發(fā)率也相對較低(β=-0.56,P<.001)。
(3)、從時間維度上看,社交機器人平均一天發(fā)文量卻顯著高于人類(β=0.18,P<.001)。
(4)、在轉(zhuǎn)發(fā)的根微博方面,社交機器人轉(zhuǎn)發(fā)的根微博獨特文本占比較低(β=-1.40,P<.001),轉(zhuǎn)發(fā)的根微博來源同質(zhì)性水平更高(β=1.12,P<.001)。
(5)、在文本內(nèi)容方面,社交機器人微博平均詞匯多樣性低(β=-0.42,P<.001),與其它社交機器人微博文本相似性高(β=5.77,P<.001)。
(6)、在事件屬性方面,社交機器人更傾向于關(guān)注高情感極性的事件。例如,與中性事件相比,社交機器人對負(fù)面事件(β=0.3,P<.001)和正面事件(β=0.41,P<.001)的關(guān)注度更高。
以機器人和人類都轉(zhuǎn)發(fā)過的根微博為樣本,以小時為單位,分別統(tǒng)計機器人和人類轉(zhuǎn)發(fā)同一條根微博的高峰時間,機器人轉(zhuǎn)發(fā)高峰早于人類轉(zhuǎn)發(fā)高峰意味著該條根微博一開始集中被機器人轉(zhuǎn)發(fā),后期大量人類參與轉(zhuǎn)發(fā),機器人在影響人類;機器人轉(zhuǎn)發(fā)高峰等于人類轉(zhuǎn)發(fā)高峰即表示不存在明顯的前后影響,機器人與人共同參與話題討論,推動事件熱度升級;機器人轉(zhuǎn)發(fā)高峰晚于人類轉(zhuǎn)發(fā)高峰則表示人類率先關(guān)注某話題,機器人跟風(fēng)參與,機器人扮演擴聲器而非意見領(lǐng)袖。
最后的結(jié)果如圖2所示,在11個熱點事件中,機器人轉(zhuǎn)發(fā)高峰早于人類的占比低,高峰時間一致的占比高,人類轉(zhuǎn)發(fā)高峰早于機器人的占比次之,由此可知,熱點事件中的機器人并未像政治事件中一樣以較高比例主動發(fā)起話題,更多用來渾水摸魚,以烏合之眾的身份和人類一同推動事件熱度發(fā)酵。
圖2 機器人發(fā)文高峰與人類發(fā)文高峰比較
雖然機器人和人類轉(zhuǎn)發(fā)根微博的時間先后能夠說明機器人究竟是在引導(dǎo)人類還是充當(dāng)人類的擴音器,但單純的時間差并不能說明機器人的宣傳效果大小。比如,在機器人轉(zhuǎn)發(fā)高峰早于人類轉(zhuǎn)發(fā)高峰的情況下,當(dāng)一條根微博率先被50個機器人轉(zhuǎn)發(fā),但最終過了5個小時只吸引到了一個人類轉(zhuǎn)發(fā),而另一條根微博同樣率先被50個機器人轉(zhuǎn)發(fā),在1 小時內(nèi)就吸引到了40個人類轉(zhuǎn)發(fā),引發(fā)了人類轉(zhuǎn)發(fā)高峰,那么很顯然第二條根微博的機器人轉(zhuǎn)發(fā)對引導(dǎo)人類轉(zhuǎn)發(fā)起到了更大的作用,宣傳效果更大;而在機器人轉(zhuǎn)發(fā)高峰晚于人類的情況下,當(dāng)一條根微博首先被50個人類轉(zhuǎn)發(fā),而后被1個機器人轉(zhuǎn)發(fā),另一條根微博同樣首先被50個人類轉(zhuǎn)發(fā),而后一個小時內(nèi)被100個機器人轉(zhuǎn)發(fā),那么第二條根微博機器人轉(zhuǎn)發(fā)對于擴大人類聲量的作用更大,宣傳效果更強。
首先,我們設(shè)置了機器人引導(dǎo)效果這個指標(biāo),通過計算人類高峰轉(zhuǎn)發(fā)次數(shù)所對應(yīng)的單位時間機器人的轉(zhuǎn)發(fā)數(shù)量表示機器人的宣傳效果,計算公式如下:
當(dāng)機器人轉(zhuǎn)發(fā)某一根微博的高峰時間早于人類轉(zhuǎn)發(fā)的高峰時間時(即人類與機器人的轉(zhuǎn)發(fā)高峰時間差為正時),我們即認(rèn)為機器人對人類產(chǎn)生了引導(dǎo)作用;單位時間單位機器人轉(zhuǎn)發(fā)影響的人類越多,引導(dǎo)效果的值越大。
當(dāng)該根微博被機器人轉(zhuǎn)發(fā)的高峰時間晚于人類轉(zhuǎn)發(fā)的高峰時間時(即人類與機器人的轉(zhuǎn)發(fā)高峰時間差為負(fù)時),機器人失去引導(dǎo)效果,此時我們可以采用類似的公式計算機器人擴音效果(或跟隨效果):
對11個微博熱點事件,我們共分析了被機器人和人類共同轉(zhuǎn)發(fā)過的14546條根微博。排除5818條機器人和人類同一小時轉(zhuǎn)發(fā)的根微博之后(無明顯操縱作用),發(fā)現(xiàn)其中2426條根微博的機器人宣傳效果為引導(dǎo)作用,剩下6302條根微博的機器人宣傳效果為擴音作用。這說明社交機器人主要采用的是擴音策略(占比約為72.2%)。進一步比較了引導(dǎo)作用和擴音作用哪一個更大,結(jié)果發(fā)現(xiàn)社交機器人的擴音作用也明顯高于引導(dǎo)作用(t(8726)=-3.64,P<.000)。
圖3 機器人宣傳效果
此外,本研究還采用格蘭杰因果檢驗的方式分析每條微博擴散的過程中,究竟是社交機器人影響人類(引導(dǎo)作用)還是人類影響社交機器人(擴音作用)?;诖耍梢缘玫讲煌麄餍Ч母⒉┰谠撌录兴嫉谋壤?。對以上格蘭杰檢驗的結(jié)果進行T檢驗也證實擴音作用強于引導(dǎo)作用(t(20)=-3.16,P<0.000)。綜上,社交機器人的擴音作用引導(dǎo)作用使用更廣、效果更強。
一方面,社交機器人不是傳播中的意見領(lǐng)袖,更接近喧嘩的大眾。社交機器人試圖將自己以普通用戶(或大眾)的身份隱藏起來。但為了完成其輿論操縱作用,社交機器人又必須表達(dá)觀點。社交機器人避免過多的互動,行為表現(xiàn)上卻像是大眾社會里孤立的個體。機器人發(fā)聲的目的不是創(chuàng)造某種觀點,而是讓某種觀點變得引人矚目或者通過關(guān)注特定話題模糊視線。機器人賬號使用者另辟角度切入熱點話題,通過提高話題暴風(fēng)眼外圍微博的曝光量,吸引公眾注意力,例如在“上海特斯拉自燃事件”中,正常人類用戶主要在討論和吐槽特斯拉汽車質(zhì)量問題和新能源電池安全問題,而機器人主要關(guān)注和轉(zhuǎn)發(fā)特斯拉自燃事件車主狀況和起火原因調(diào)查。從行為方面來看,社交機器人在某些程度上比人類表現(xiàn)更加懶惰。通常我們認(rèn)為社交機器人會不眠不休的全天候進行工作,直到操縱者下令停止。但研究發(fā)現(xiàn),社交機器人往往具有更少的發(fā)文數(shù)量和更低的活躍度。這可能是因為微博等社交平臺的反垃圾信息機制的制約,低活躍率可以避免被現(xiàn)有的算法識別并封禁。
另一方面,社交機器人會在特定時間段內(nèi)更加活躍,同時行動完成任務(wù)目標(biāo)。例如在“2019北京園藝博覽會”相關(guān)話題微博中,很多機器人在轉(zhuǎn)發(fā)同一根微博時頻繁使用表情包“、贊”“、不錯”“、支持”“、太喜歡了”等文案,呈現(xiàn)出整齊劃一的排隊陣勢。此外,社交機器人參與的微博內(nèi)容的同質(zhì)性和文本相似性水平較高,而詞匯多樣性低。
從社交機器人的宣傳策略來看,社交機器人普遍采用的是輿論擴音策略而非引導(dǎo)策略,但從效果來看擴音作用也明顯強于引導(dǎo)作用。進一步,我們發(fā)現(xiàn)機器人主要起引導(dǎo)作用的事件是那些需要改變?nèi)藗冇^點的事件,如IG戰(zhàn)勝LNG奪冠、封存未成年人犯罪記錄等;而那些機器人主要起擴音器作用且擴音作用比較強的事件中,主要為北大弒母案、北京垃圾分類這些主要目的在于進行信息普及的事件。由于目的的不同,機器人會采取不同的操縱策略。
計算宣傳現(xiàn)象的興起影響著人們公共生活的參與,準(zhǔn)確識別、捕捉社交機器人,掌握社交機器人的行為特征、動機訴求對于我們更好地治理社交機器人至關(guān)重要。與僅使用人工特征的社交機器人識別模型不同,我們構(gòu)建的機器人識別模型在使用人工特征的基礎(chǔ)上,引入BERT模型并將模型結(jié)果特征化使用,同時,借助Cleanlab清洗訓(xùn)練集標(biāo)簽,結(jié)合特征異常值輔助分類、數(shù)據(jù)集拆分、模型融合等方法進一步提高了模型性能,最終建立平均AUC為0.88的社交機器人識別模型。
與國外社交媒體上常見的政治機器人不同,社會公共事件中的機器人既“聰明”又“傻瓜”。一方面,機器人借助低發(fā)文率、低活躍度掩飾其本質(zhì);另一方面,社交機器人總是群體行動、以缺乏互動的“傻瓜”行徑暴露其身份。在社交媒體操縱影響方面,大量社交機器人發(fā)文高峰早于人類,但其輿論引導(dǎo)作用弱于擴音作用。需要注意的是,社交機器人識別與反識別是一場持續(xù)的博弈。隨著技術(shù)的進步和社會需求,社交機器人也會不斷進化,本文的研究發(fā)現(xiàn)在更大程度上應(yīng)該被看作研究的起點。