[摘 要] 為幫助公眾識別假新聞,研究使用人工智能和高級統(tǒng)計技術(shù)檢測假新聞,在此基礎上探討開發(fā)學生媒體素養(yǎng)的評估和學習工具。通過人工智能、計算語言學和高級統(tǒng)計,分析用戶或推特屬性是否能區(qū)分4165條糾正過拼寫錯誤的英文推文的真、假新聞,這些推文與20條匹配的相關(guān)新聞報道之一(10條真,10條假)關(guān)聯(lián)。相較而言,使用常用詞、負面情緒、更高情感激勵、更高支配力、第一人稱單數(shù)代詞、第三人稱代詞或擁有更多關(guān)注用戶的推文,是真新聞的可能性更大;使用第二人稱代詞、以無主語句開頭或使用委婉語的推文,是假新聞的可能性更大。結(jié)果表明,一些通用的預測因素(如代詞、禮貌用語、關(guān)注用戶人數(shù)等)和特定主題的預測因素(如常用詞、情緒、委婉語等)可以有效識別真假新聞。最后提出用簡單易懂的媒體素養(yǎng)儀表盤模擬假新聞的傳播范圍、速度和形狀,以幫助學生學習和評估自身媒體素養(yǎng)。
[關(guān)鍵詞] 媒體素養(yǎng);假新聞;人工智能;高階統(tǒng)計
[中圖分類號] G424.74 [文獻標識碼] A
[文章編號] 1673—1654(2024)04—001—008
假信息往往制造聳人聽聞的謠言或偽科學概念,不僅破壞公眾對真相的判斷,還將導致公眾誤解真相或被誤導。因此,提高公眾的媒體素養(yǎng)極其重要。
當下偵測假信息大多采用間接方式,如檢視作者歷史和權(quán)威性、辨識作者目的、考慮多重觀點、使用注意力吸引策略等[1-2]。通過檢視作者歷史和權(quán)威性,可以識別過去的假信息或找到一連串的真信息記錄,可以用來評估當前信息的效度。然而,過去的信息并不一定能預測現(xiàn)在,以《209 時報》為例,該報紙發(fā)布的信息中有99%為真信息,但其中卻混雜1%難以識別的假信息,因此在大部分真信息中偵測假信息非常具有挑戰(zhàn)性。通過文本辨識作者目的或考慮多重觀點也有助于甄別信息真?zhèn)危叨夹枰ㄙM大量的時間進行縝密分析,且各人詮釋也未必可靠。使用注意力吸引策略的新聞報道可能是假信息,也可能不是。當《紐約時報》等主流媒體越來越多地使用該策略時,這種策略的存在就不一定代表假信息??傊鲜鲩g接方式雖然有助于甄別假信息,但均存在不足,因此需要采用更加直接的方法偵測假信息。
一、研究假設
基于社會元認知理論(social metacognition theory)[3]、禮貌理論(politeness theory)[4]和問題解決情境理論(the situation theory of problem solving)[5],需要考慮一些假信息(相對于真信息)在理論上的因果機制,如社群/關(guān)系、情緒和確定性程度等。有研究發(fā)現(xiàn):欺騙對關(guān)系有較大損害[6],因此對假信息作者的關(guān)注人數(shù)較真信息的關(guān)注人數(shù)少;粗魯?shù)娜溯^少使用禮貌用語,但與受眾的關(guān)系更親近,其被信賴、接納和服從的程度也更高[4];相較于真信息作者,假信息的作者會通過較少使用禮貌用語營造親切感,從而增強受眾對自己的信賴、接納和服從[7];假信息作者還可以通過模糊焦點信息減輕責任[8],如通過使用更多的第二人稱代名詞(你、你的、你們、你們的)和更少的第一人稱代名詞(我、我的),將責任轉(zhuǎn)移到受眾方;此外,由于驗證第三人稱客觀事件比驗證主觀觀點更容易[9],假信息作者較真信息作者而言,有可能更少地使用第三人稱代名詞(他、她、他們、她們、他的、她的、他們的、她們的)。
真信息和假信息的推文在情緒基調(diào)上存在差異。以一條與COVID-19相關(guān)的新聞為例。真信息表述為“COVID-19致命。戴口罩。保障生命”。假信息表述為“你相信COVID-19的末日論?享受你的生活和自由?!庇纱税l(fā)現(xiàn):真信息推文(致命、戴、保障)表現(xiàn)出消極情緒、高激情/激勵和高支配力;假信息推文(享受、自由、質(zhì)疑)則表現(xiàn)出積極情緒,低激情/激勵和低支配力[10]。
真信息和假信息推文在確定性和清晰度上存在差異。以下面兩則推文為例。真信息表述為“COVID-19致命。戴口罩。保障生命?!奔傩畔⒈硎鰹椤八^最新一代mRNA疫苗直接干預患者的遺傳物質(zhì),這是被禁止的,也是犯罪?!庇纱税l(fā)現(xiàn):真信息推文較常使用簡單的詞匯(致命、戴、口罩、保障、生命)和句子結(jié)構(gòu)(名詞-動詞、動詞-名詞)[11],多數(shù)是名詞和動詞,較少形容詞或副詞,句子的意思也更加確定和清晰;假信息推文更多地使用艱澀的詞匯(mRNA、遺傳)和復雜的句子結(jié)構(gòu)(復合形容詞、涉及多種介詞詞組的賓語)[5,12],且使用較多的形容詞(所謂的、最新)和副詞(直接),這些修辭和句法的使用反而降低了信息的確定性和清晰度[5,13]。
簡言之,本研究提出10條假設,表示推文中出現(xiàn)以下10種表述方式時,更有可能與真信息相關(guān)。
H-1:較多關(guān)注者
H-2a:沒有第二人稱代名詞
H-2b:第一人稱代詞
H-2c:第三人稱代詞
H-3:禮貌用語
H-4a:消極情緒傾向
H-4b:高情感激勵
H-4c:高情感支配力
H-5:常見詞匯
H-6:沒有不確定性詞語(如委婉語)
二、研究方法
(一)數(shù)據(jù)來源
指向新聞報道的推文經(jīng)常引起人們的注意或用它們支持某種觀點,有些推文甚至可能攻擊它們鏈接的新聞,但我們收集到的數(shù)據(jù)中并未發(fā)現(xiàn)上述情況。
首先,使用獨立的事實查核網(wǎng)站(https://www.snopes.com/fact-check-ratings/)找出10條與COVID-19相關(guān)且被評為假或大部分假的新聞,這些假新聞包含有關(guān)治療或政治譴責的主張,如“用鹽水或醋漱口可以消除新冠病毒嗎?”。
其次,找到鏈接上述10條假新聞來源(如假新聞網(wǎng)站、Facebook或Twitter帖子)的Twitter推文。為便于比較,在《紐約時報》、路透社、英國廣播公司或美聯(lián)社找10條相同議題的真新聞。
再次,從GitHub(https://github.com/echen102/COVID-19-TweetIDs)取得2020年1月21日—2021年1月2日有關(guān)COVID-19的推特數(shù)據(jù),用Twitter的搜尋應用程序編程接口(https://developer.twitter.com/en/docs/twitter-api/v1/tweets/post-and-engage/api-reference/get-statuses-lookup)獲得完整的Twitter元數(shù)據(jù)。在超過10億條推文中發(fā)現(xiàn)有16 897條鏈接到假新聞或真新聞,刪掉其中10 656條轉(zhuǎn)發(fā)及608條只有網(wǎng)址沒有其他文字(其中603條假新聞和5條真新聞)的推文后,剩下5 633條推文。
最后,用langid軟件(https://pypi.org/project/langid/)分辨推文是英語還是其他語言,刪掉1468條非英語推文后,余下4165條英語推文,其中有3777條鏈接到假新聞,388條鏈接到真新聞。
綜上可知,推文中假新聞的鏈接比例較高,這與過去的研究一致。在a=0.05和效應值小至0.1的情況下,2 358位推特用戶和4 165條推文的統(tǒng)計檢定力均大于0.99,表明樣本大小對研究和分析而言是足夠的。同時,對推文數(shù)據(jù)進行統(tǒng)一處理,如將推文中存在的符號(如$@#”)和多余的空格做刪除處理,將推文拆分為單詞,將字母轉(zhuǎn)為小寫,使用spaCy3.0軟件還原詞形,使用自動更正功能(https://pypi.org/project/autocorrect/)糾正拼寫錯誤。
(二)變量
確定真假新聞的值。如果推文鏈接到《紐約時報》、路透社、英國廣播公司或美聯(lián)社新聞等來源的真實新聞報道,賦值為1;如果推文鏈接到Snopes.com認證的假新聞,賦值為0。
1.用戶變量
為了更加科學、有效地分析推文數(shù)據(jù),需要確定幾個關(guān)鍵變量,具體見下文。
與用戶相關(guān)的變量包括用戶發(fā)布的總推文數(shù)、該用戶的用戶數(shù)(關(guān)注者)以及該用戶關(guān)注的其他用戶數(shù)(關(guān)注中)。
2.文本變量
與文本相關(guān)的變量包括寫作風格和詞匯。信息屬性包括日期、寫作風格、情緒、代詞、禮貌程度和不確定性。研究人員依據(jù)美國電影和電視連續(xù)劇的英文字幕匯編5 100萬個單詞的語料庫(SUBTLEX-US語料庫),計算每個單詞的出現(xiàn)次數(shù)(單詞頻率)。通過上述度量標準計算常用單詞頻率,公式為:
常用單詞頻率=log(單詞頻率+1),然后再計算推文中所有單詞的平均值。
3.情緒變量
研究人員給亞馬遜Mechanical Turk網(wǎng)站上的1 827名美國居民付費,請他們對13 915個高頻英語單詞(其中64%是名詞,13%是動詞,23%是形容詞)的情感傾向進行評分,不包括常見的停用詞,如一個(a)、那個(the)、為了(to)[14]。參與者使用9點評分量表(1~9)在3個維度上對單詞評分,其中情感傾向范圍從消極情緒基調(diào)(如憤怒)到積極情緒基調(diào)(如歡樂),情感興奮度范圍從低情感激勵(如無聊)到高情感激勵(如熱情),情感支配范圍從低情緒自信(如服務)到高情緒自信(如控制),未對具有多種含義的單詞(多義詞)進行評分。最后,計算每條推文在情感傾向、情感激勵和情感支配方面的平均分。
4.代詞
為每條推文中是否存在代詞創(chuàng)建二值變量[10]。如果推文中出現(xiàn)“I”“me”“my”“mine”,則第一人稱單數(shù)變量賦值為1;未出現(xiàn)則賦值為0。如果推文中出現(xiàn)“you”“your”“yours”,則第二人稱變量賦值為1,未出現(xiàn)則賦值0。如果一條推文中出現(xiàn)“he”“she” “they” “him” “her” “them” “his”“their”“hers”“theirs”,則第三人稱變量賦值為1,未出現(xiàn)則賦值0。
5.與禮貌相關(guān)的變量
Convokit:politeness軟件能夠識別6個禮貌類別的單詞或短語,如道歉(如“對不起”)、順從(如“打擾一下”)、疑問(如“誰…?”)、感謝(如“謝謝”)、請求(如“請你”)、突兀/粗魯?shù)拈_始(如“所以,你會不會”)[15]。因此,可以使用該軟件為推文創(chuàng)建6個同名的二值變量,即如果推文中包含道歉的單詞或短語,則賦值變量為1,未出現(xiàn)賦值0。
6.與不確定性相關(guān)的變量
Convokit:politeness軟件還能識別委婉(如“提議”)和假設(如“或會”)兩個類別的單詞或詞語,因此也可以使用該軟件創(chuàng)建這兩類變量。
(三)分析
為準確分析數(shù)據(jù),本研究使用更簡單的統(tǒng)計話語分析方法[16]解決以下8個問題,見表1。
具體而言:用多層分析法(multilevel analysis)[17]比較不同作者之間信息的相似性和差異;用邏輯回歸/概率單位回歸模型(logit / probit)[18]處理離散結(jié)果;用邏輯無偏估計量(logit bias estimator)[19]處理罕見結(jié)果;用多層M-測試(multilevel M-tests)[20]處理非直接、多層中介效應;用隨機效應模型(random effects models)[21]分析跨層級互動(信息×作者);用兩階段逐步增加程序(two stage linear step-up)[22]處理大量假設的假陽性;使用拉格朗日乘數(shù)檢定(Lagrange multiplier tests)[23]比較效應值;分析子數(shù)據(jù)集以檢定數(shù)據(jù)集之間的結(jié)果是否一致(穩(wěn)健性)[18]。
巢狀數(shù)據(jù):這些數(shù)據(jù)中的推文按用戶進行組織。同一用戶的推文通常比不同用戶的推文具有更多的相似性,所以忽視這些相似性或會令回歸系數(shù)的估計準確度出現(xiàn)偏誤(標準差,Hansen,2022)。
離散變量:因變量是離散(如0或1;錯或?qū)Γ┒沁B續(xù)(如高度)時,邏輯回歸可得出無偏標準差,有別于一般的最小平方回歸。例如:真實鏈接屬于二元推文變量,其值為1(鏈接真信息)或0(沒有)。因此,用多數(shù)統(tǒng)計軟件都包含的邏輯回歸為其建模。(面對有序離散值的有序因變量[如喜好:不喜歡、中性或喜歡],使用有序邏輯回歸處理)。
罕見結(jié)果:罕見結(jié)果(出現(xiàn)少于25%回合)或會令邏輯回歸結(jié)果出現(xiàn)偏誤,因此估算偏誤并將之移除(King amp; Zeng,2001)。
非直接效應:用單層M檢定偵測非直接效應(X→M→Y)或會令標準偏差出現(xiàn)偏誤。因此,用多層M檢定(MacKinnon et al.,2004),通過中介變量適切地測試非直接效應。
跨層級互動:處理巢狀數(shù)據(jù)時,不能單單將兩個變量相乘來建??鐚蛹壸兞恐g的互動(如粗魯×總關(guān)注人數(shù)[推文層級和人層級],結(jié)果會出現(xiàn)偏誤(Hox et al.,2017)。要測試跨層級互動(又稱跨層級調(diào)節(jié)),檢視解釋變量系數(shù)的跨組別或跨時段的變化(又稱方差分量,Hox et al.,2017)。若解釋變量如粗魯?shù)幕貧w系數(shù)(如βujk = βu + guk)在更高層級的單位如人(guk≠0?)之間有顯著差異,使用該更高層級的變量(如人層級的總關(guān)注人數(shù);βujk = βu + βufollowersk)來建?;貧w系數(shù),以測試跨層級調(diào)節(jié)。
假陽性:測試很多假設會提升假陽性的風險(第一類錯誤)。使兩階段線性逐步增加程序來減少假陽性。計算機仿真結(jié)果顯示,此方法比其他13種方法更有效。
比較效應值:測試效應值是否有分別時,Wald 檢定和似然比檢定不適用于邊界點,因此采用拉格朗日乘數(shù)檢定,此方法對偏離零假設的小偏差有更大的統(tǒng)計效能。
穩(wěn)健性:為測試結(jié)果的一致性(穩(wěn)健性),進行了額外分析,檢視子數(shù)據(jù)集之間的分別(如每用戶的推文,參閱上述關(guān)于跨層級互動的部分)。
(四)解釋模型
為了確定將推文鏈接到真實新聞文章而非假新聞文章的先決條件,使用多層二進制邏輯回歸/概率單位回歸分析對用戶的每條推文進行建模。其計算公式為:P(真實_鏈接ij)=F(β0 + fj+βt用戶j +βuj寫作ij +βvj情緒ij +βwj關(guān)系ij +βxj不確定性ij +βj轉(zhuǎn)發(fā)ij+βzj互動ij)+eij。用戶j發(fā)出的推文i出現(xiàn)真實鏈接的概率為:通過總平均數(shù)β0的邏輯鏈接函數(shù)(F)及用戶層級和推文層級(fj,eij)的未解釋成分(殘差)得出的預估值。時間因素決定解釋變量輸入的次序。由于用戶特征比推文屬性更早存在,因此可以先輸入用戶變量的向量,如總推文數(shù)、關(guān)注者數(shù)、關(guān)注中數(shù)等。由于理解先于其他推文的上下文屬性,因此接下來輸入的是寫作變量(平均常用單詞的頻率),然后是情緒變量(情緒傾向、激勵和支配力)。由于人們重視人際關(guān)系,因此接下來輸入顯示用戶與受眾關(guān)系的單詞,如人稱代詞(第一人稱單數(shù)、第一人稱復數(shù)、第二人稱、第三人稱)和禮貌用語(道歉、尊重、疑問、感激、請和突兀/粗魯?shù)拈_始)等。最后,輸入不確定性變量委婉和假設。計算F1比率,即最終模型預測的與實際真實新聞的預測準確度。
三、結(jié)果與討論
(一)結(jié)果
用戶屬性、詞匯、情感、與觀眾的關(guān)系及不確定性都與真實的新聞推文有關(guān),其相關(guān)性見圖1。
由圖1可知:
1. 與平均值相比,關(guān)注者數(shù)量多于1000人的用戶發(fā)送真實新聞推文的概率略高(0.3%),支持假設H-1;
2.使用更常見單詞的推文比其他推文更可能是真實的新聞推文,支持假設H-5;
3.情緒屬性(傾向性、激勵、支配力)也與真實的推文有關(guān),如負面情緒效價低1度、激勵高1度或支配力高1度的推文分別有20%、9%或13%的可能性是真實的新聞推文,支持假設H-4a、H-4b和H-4c;
4.受眾關(guān)系標記(代詞、禮貌用語)與真實的推文有關(guān),如使用第一人稱單數(shù)或第三人稱代詞的推文分別比其他推文更可能是真實的新聞推文,支持假設H-2b和H-2c;
5.以第二人稱代詞或以突兀/粗魯開頭的推文是真新聞的機會比其他推文分別少21%或18%,支持假設H-2a和H-3;
6.有委婉語(不確定性詞語)的推文是真新聞的機會比其他推文少16%,支持假設H-6。最終模型解釋近11%的方差,F(xiàn)1比率為0.95。
(二)討論
與以往有關(guān)假信息的媒體素養(yǎng)研究專注于廣義解讀或作者不同,研究表明,特定詞匯或其他與文本相關(guān)的變量(如詞匯、情緒、受眾關(guān)系和不確定性)在整體模型中的變異性遠大于與作者相關(guān)的變量(如關(guān)注者數(shù)量)。然而,這些與文本相關(guān)的變量與假信息之間的聯(lián)系是普遍的、特定于某議題還是特定于某情境的,需要通過實證研究解答?;蛟S假信息的情感效價、激勵和支配力與真信息截然相反,因此使它們之間的聯(lián)系方向因新聞議題改變而變化。相反,詞匯、受眾關(guān)系和不確定性反映欺騙性寫作策略,因此能更廣泛地應用。未來可進一步驗證這些后續(xù)假設。
四、研究展望
(一)假新聞的傳播分析
在個人發(fā)送推文后,這條信息是否能在人群中傳播給更多的用戶(擴散)并不確定,因此其傳播范圍、速度和形狀有所不同[24]。其中,用戶總數(shù)代表擴散范圍,令更多人變成用戶有多快(單位時間內(nèi)的用戶數(shù)量)代表擴散速度。
擴散形狀在廣播和人與人之間的傳播程度方面有所不同[24]。許多用戶可能會很快參與推文,但隨著時間的推移,這樣做的人數(shù)會減少,從而產(chǎn)生類似于對數(shù)累積分布曲線的趨勢線,該曲線迅速上升然后逐漸放緩(廣播/外部影響),見圖2。
通常,有影響力的個人或機構(gòu)傾向展示廣播式擴散(如唐納德·特朗普、英國廣播公司等)。與之相反,一些影響力低的人發(fā)布的某則引人入勝的推文更容易產(chǎn)生累積分布S線(人傳人/內(nèi)部影響),即一開始只吸引少數(shù)關(guān)注者,但經(jīng)這些關(guān)注者傳播之后,推文影響力增加直至信息在目標群眾之間飽和。采用多層擴散分析法[24]測試假信息推文(比真信息推文)的擴散是否會開始更早、擴散范圍更廣、擴散速度更快,或有更多人際間的傳播。
(二)媒體素養(yǎng)儀表盤
為了更科學地評估每條推文是假信息的可能性、傳播范圍和傳播速度,本研究聯(lián)合應用整合理論、統(tǒng)計模型和機器學習,偵測和追蹤社群內(nèi)、跨社群的COVID-19假信息推文,并創(chuàng)建容易閱讀的儀表盤實際應用模型。具體而言:首先將由理論指導并經(jīng)統(tǒng)計模型提煉的人工智能/機器學習系統(tǒng)加入社交媒體分析及報告工具箱(Social Media Analytics and Reporting Toolkit,SMART 2.0)系統(tǒng)[25]。SMART 2.0儀表盤運用先進的數(shù)據(jù)可視化功能,更加便于用戶互動探索和實時分析公開的推特和Instagram數(shù)據(jù)。SMART 3.0的功能進一步提升,可以實時偵測及監(jiān)察COVID-19假信息在社群內(nèi)和跨社群之間的擴散。如圖2所示,SMART 3.0顯示了到今天為止的每則推文的內(nèi)容危險度、傳播范圍、速度和形態(tài)(實線)及預測路線(虛線),并伴隨交通燈警示水平(綠色代表低水平、黃色代表中等水平、紅色代表高水平)。具體而言,圖2展示的推文內(nèi)容危險度為中等,已接觸很多人(范圍),擴散比之前緩慢(速度),因此其整體警示水平為中等。
(三)培養(yǎng)學生媒體素養(yǎng)
SMART 3.0可以幫助學生培養(yǎng)媒體素養(yǎng),并評估學生的媒體素養(yǎng)。例如每條推文中標記的單詞表示更大的受眾責任(你、你的)、不確定性(相信、疑惑)、復雜性(末日論者),以及正面、低激勵、低支配情緒(享受、免費),學生由此可以了解作者創(chuàng)作假信息的手法。此外,SMART 3.0還展示了未標記信息并突顯選定字詞,如讓學生標個別單字的假信息手法,然后評定該信息整體上是否為真信息,從而評估學生的數(shù)字媒體素養(yǎng)。每個單詞或推文本質(zhì)上都可以看作一道多項選擇題,并且易于用計算機自適應測試和題項反應模型實施測試、評分及分析。學生完成測試后,SMART 3.0可以實時突顯錯誤答案并指出正確的解答思路或答案,進一步說明二者的差異,以便學生進一步訓練。通過培養(yǎng)學生的數(shù)字媒體素養(yǎng),可以幫助他們更有效地偵測假信息,從而作出更好的決策。
(注:論文原文為英文,由林思明譯為中文。)
參考文獻:
[1] Cherner T S,Curry K. Preparing Pre-Service Teachers to Teach Media Literacy:A Response to \"Fake News\" [J]. Journal of Media Literacy Education,2019,11(1):1-31.
[2] Corser K,Dezuanni M,Notley T. How News Media Literacy is Taught in Australian Classrooms? [J]. The Australian Educational Researcher,2022,49(4):761-777.
[3] Chiu M M,Kuo S W. From Metacognition to Social Metacognition:Similarities,Differences,and Learning [J]. Journal of Education Research,2009,3(4):1-19.
[4] Eelen G. A Critique of Politeness Theory [M]. Routledge,2014.
[5] Kim J-N,Grunig J E. Problem Solving and Communicative Action:A Situational Theory of Problem Solving [J]. Journal of Communication,2011,61(1):120-149.
[6] Dunbar N E,Gangi K,Coveleski S,et al. When Is It Acceptable to Lie? [J]. Communication Studies,2016,67(2):129-146.
[7] Baxter L A. An Investigation of Compliance-Gaining as Politeness [J]. Human "Communication Research,1984,10(3):427-456.
[8] Kahn M. The Passive Voice of Science [M]. Ecolinguistics Reader,2006:241.
[9] Moore M E. Third Person Pronoun Errors by Children with and without Language Impairment [J]. Journal of Communication Disorders,2001,34(3):207-228.
[10] Chiu M M,Morakhovski A,Ebert D,et al. Detecting COVID-19 Fake News on Twitter:Followers,Emotions,Relationships,and Uncertainty [J]. American Behavioral Scientist,2023.
[11] Brysbaert M,New B. Moving beyond Ku?era and Francis [J]. Behavior Research Methods,2009,41(4):977-990.
[12] Grunig J E,Kim J-N. Publics Approaches to Segmentation in Health and Risk Messaging [M] // Parrott R,ed. Encyclopedia of Health and Risk Message Design and Processing. Oxford University Press,2017.
[13] Gifford R. The Dragons of Inaction [J]. American Psychologist,2011,66(4):290-302.
[14] Warriner A B,Kuperman V,Brysbaert M. Norms of Valence,Arousal,and Dominance for 13,915 English Lemmas [J]. Behavior Research Methods,2013,45(4):1191-1207.
[15] Danescu-Niculescu-Mizil C,Sudhof M,Jurafsky D,et al. A Computational Approach to Politeness with Application to Social Factors [EB/OL]. arXiv:1306.6078,2013.
[16] Chiu M M,Lehmann-Willenbrock N. Statistical Discourse Analysis [J]. Group Dynamics:Theory,Research,and Practice,2016,20(3):242-258.
[17] Wise A,Chiu M M. Analyzing Temporal Patterns of Knowledge Construction in a Role-Based Online Discussion [J]. International Journal of Computer-Supported Collaborative Learning,2011,6:445-470.
[18] Kennedy P. Guide to Econometrics [M]. New York,NY:Wiley-Blackwell,2008.
[19] King G,Zeng L. Logistic Regression in Rare Events Data [J]. Political Analysis,2001,9(2);137-163. https://doi.org/10.1093/oxfordjournals.pan.a004868
[20] MacKinnon D P,Lockwood C M,Williams J. Confidence Limits for the Indirect Effect [J]. Multivariate Behavioral Research,2004,39(1):99-128.
[21] Hox J J,Moerbeek M,Van de Schoot R. Multilevel Analysis [M]. Routledge,2017.
[22] Benjamini Y,Krieger A M,Yekutieli D. Adaptive Linear Step-Up Procedures that Control the False Discovery Rate [J]. Biometrika,2006,93(3);491-507.
[23] Bertsekas D P. Constrained Optimization and Lagrange Multiplier Methods [M]. Academic,2014.
[24] Rossman G,Chiu M M,Mol J M. Modeling Diffusion of Multiple Innovations via Multi-Level Diffusion Curves [J]. Sociological Methodology,2008,38(1):201-230.
[25] Zhang J,Chae J,Surakitbanharn,C,et al. SMART [R]. In The IEEE Workshop on Visualization in Practice 2017(pp. 1-5). IEEE,2007.
Assessing Media Literacy:Using Artificial Intelligence and Advanced Statistics to Detect Fake News
Chiu Mingming "Lin Siming(Translator)
The Education University of Hong Kong,Hong Kong,999077
Abstract:To help the public identify fake news,research is being conducted on the use of artificial intelligence and advanced statistical techniques to detect fake news. This study uses artificial intelligence,computational linguistics,and advanced statistics to test whether user or tweet attributes can distinguish true versus fake news in 4,165 spell-checked English tweets linked to one of 20 matched COVID-19 news stories(10 true,10 fake). Tweets with common words,negative emotional valence,higher arousal,greater dominance,first person singular pronouns,third person pronouns or by users with more followers were more likely to be true. By contrast,tweets with second person pronouns,bald starts,or hedges were more likely to be fake news. The results suggest some universal predictors(pronouns,politeness,followers)and topic-specific predictors(common words,emotions,hedges). We model diffusion scope,speed and shape of fake news for a dashboard to help students learn and assess their media literacy.
Key words:Media Literacy,F(xiàn)ake News,AI Plus,Higher-order Statistics
(責任編輯:陳暢)