關鍵詞: 網(wǎng)絡欺凌; 文本檢測; LIME 算法; 算法解釋; 數(shù)據(jù)故事化
DOI:10.3969 / j.issn.1008-0821.2024.09.005
〔中圖分類號〕TP391.1 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2024) 09-0059-12
網(wǎng)絡欺凌檢測研究是一個融合心理學、教育學、行為科學和信息技術等多學科的社會科學研究, 基于檢測模型監(jiān)管網(wǎng)絡欺凌行為符合信息資源管理領域?qū)τ跀?shù)據(jù)規(guī)范、隱私管理和信息合規(guī)性檢驗的要求。聯(lián)合國指出, 網(wǎng)絡欺凌是“使用數(shù)字技術的欺凌, 它可以在社交媒體、消息傳遞平臺、游戲平臺和手機上進行, 這是重復的行為, 旨在嚇唬、激怒或羞辱那些被針對的人”[1] 。從我國關于加強網(wǎng)絡文明建設的建議中得知[2] , 網(wǎng)絡欺凌行為會對個人身心健康、社會穩(wěn)定甚至國家安全造成潛在威脅,實現(xiàn)對欺凌行為的準確識別和有效應對具有戰(zhàn)略和現(xiàn)實意義。因此, 本研究旨在通過對網(wǎng)絡欺凌檢測模型結(jié)果進行算法解釋, 并以數(shù)據(jù)故事方式呈現(xiàn)欺凌文本, 為實現(xiàn)實時性、局部性和精準化的網(wǎng)絡信息內(nèi)容生態(tài)治理提供參考依據(jù), 有助于維護網(wǎng)絡秩序和構(gòu)建良好的網(wǎng)絡環(huán)境。
提高結(jié)果的可解釋性是促進算法模型廣泛應用于社會科學研究的重要舉措, 可有效增強研究人員對模型決策的認可、信任與理解。通過對用戶信息行為合規(guī)性檢驗與隱私權(quán)保護的思考, 本研究構(gòu)建了一個識別網(wǎng)絡欺凌文本特征、算法解釋方法和故事化呈現(xiàn)的理論框架。該框架將故事化解釋方法與情報學領域的信息檢索相結(jié)合, 是數(shù)據(jù)故事化方法在網(wǎng)絡治理方面的應用拓展。目前, 網(wǎng)絡欺凌檢測研究大多關注用戶特征[3] 、語言類型[4] 、檢測方法[5] 等內(nèi)容, 并取得了一定的研究進展, 但對網(wǎng)絡欺凌檢測的可解釋性以及故事化呈現(xiàn)方面的探索有待加強。本研究試圖回答以下研究問題: ①網(wǎng)絡欺凌檢測模型的高準確性是否代表其具有高應用價值與可信度? 如何權(quán)衡檢測模型準確性與可解釋性之間的關系? ②增強算法解釋對于指導網(wǎng)絡欺凌模型實踐應用有何價值? ③故事化方法在網(wǎng)絡欺凌檢測結(jié)果解釋中發(fā)揮了何種作用? 如何將模型預測結(jié)果和解釋結(jié)果應用于故事化框架中?
1相關研究
1.1網(wǎng)絡欺凌檢測模型
網(wǎng)絡欺凌檢測模型是一種用于自動識別和分類網(wǎng)絡欺凌行為的算法程序, 能夠分析文本、圖像、音視頻或其他形式的欺凌內(nèi)容。為分析現(xiàn)有研究中涉及的網(wǎng)絡欺凌檢測模型分析對象, 本研究在Webof Science Core Collection、中國知網(wǎng)CNKI 等核心數(shù)據(jù)庫中進行檢索與篩選, 以“主題=網(wǎng)絡欺凌檢測模型”“主題=網(wǎng)絡欺凌檢測模型AND 主題=文本”“主題=網(wǎng)絡欺凌檢測模型AND 主題=圖像”“主題=網(wǎng)絡欺凌檢測模型AND 主題=音視頻” 檢索式在中國知網(wǎng)數(shù)據(jù)庫中進行檢索, 分別得到4篇、4篇、0篇、0篇文獻。并以Topic=“cyberbullying de?tection model”、Topic=“cyberbullying detection mod?el” And Topic=“text”、Topic=“cyberbullying detec?tion model” And Topic=“image”、Topic=“cyberbul?lying detection model” And Topic=“Audio or video”檢索式在Web of Science 核心數(shù)據(jù)庫進行主題檢索,分別獲得文獻144 篇、78 篇、24篇和13篇。其中, 文獻類型、發(fā)表時間不做限制。在已發(fā)表文獻中, 網(wǎng)絡欺凌檢測模型不同分析對象分布如圖1 所示。可見, 文本分析在網(wǎng)絡欺凌檢測模型研究中占比最高, 這是因為文本內(nèi)容相較于其他形式對判斷網(wǎng)絡欺凌行為更加方便、直觀。因此, 本研究重點對網(wǎng)絡欺凌文本進行算法分析與案例研究。
現(xiàn)有研究多利用智能傳感設備和機器學習方法對用戶行為進行檢測, 通過尋找關鍵敏感特征或訓練檢測模型識別網(wǎng)絡欺凌行為。①智能傳感設備主要通過語音或行為判斷是否屬于欺凌行為, 例如,Ye L 等[6] 通過傳感器數(shù)據(jù)(文本或音視頻)識別用戶的運動類型, 并結(jié)合分析音頻源的情感識別方法,為辨別欺凌任務或行動提供一種新方法。Zhao Z H等[7] 基于智能傳感器的活動識別、基于情緒的語氣識別, 使用主成分分析算法識別哪些特征空間對欺凌行為分類最具辨別力。Gattulli V 等[8] 基于手機傳感器方法識別用戶欺凌行為, 利用人類活動識別(Human Activity Recognition, HAR)模型將用戶分類為欺凌、網(wǎng)絡欺凌、欺凌受害者和網(wǎng)絡欺凌受害者。②機器學習方法利用上下文內(nèi)容、情感傾向和情緒特征等信息識別網(wǎng)絡欺凌。Paruchuri V L等[9] 提出了具有N 元語法特征選擇的七層卷積神經(jīng)網(wǎng)絡模型, 可在基于辱罵詞的單詞級別和基于同義詞的字符級別檢測網(wǎng)絡欺凌。已有學者總結(jié)分析了現(xiàn)有的基于深度學習的網(wǎng)絡欺凌檢測技術, 調(diào)查發(fā)現(xiàn), 深度學習憑借高效處理大規(guī)模多元數(shù)據(jù)、隱藏層自動提取特征等優(yōu)勢[10] , 在識別網(wǎng)絡欺凌上超越了傳統(tǒng)的機器學習算法。亦有研究提出了自訓練的ELMo ( Embeddings from Language Models) -TextCNN 檢測模型[11] 和跨層連接的多通道DBiSAC網(wǎng)絡欺凌檢測模型[12] , 通過提取文本特征和分析語義信息實現(xiàn)對網(wǎng)絡欺凌文本的檢測。綜上所述,詞向量、文本特征和上下文語義信息是識別網(wǎng)絡欺凌文本的關鍵。
1.2面向網(wǎng)絡欺凌檢測模型的解釋方法
可解釋性方法是用戶理解并信任模型檢測結(jié)果的技術手段之一。對于未知的文本內(nèi)容, 僅依靠模型準確性指標評估網(wǎng)絡欺凌分類結(jié)果并不可信, 應提供支持文本分類結(jié)果的關鍵特征。通過解釋特定特征的分類, 可用于監(jiān)控和識別網(wǎng)絡欺凌。面向網(wǎng)絡欺凌檢測模型的可解釋性方法有特征重要性分析[13] 、局部解釋方法[14] 、梯度類激活圖[15] 和因果解釋[16] 等。其中, ①特征重要性分析方法通過計算或獲取每個特征的重要性分數(shù)(分數(shù)代表特征對于模型決策的影響程度), 了解數(shù)據(jù)特征與網(wǎng)絡欺凌的關聯(lián)程度, 來識別可能的欺凌特征; ②局部解釋方法用于解釋網(wǎng)絡欺凌檢測模型在特定樣本或數(shù)據(jù)點上的決策, 以幫助理解模型是如何判斷某個輸入是否屬于網(wǎng)絡欺凌的; ③梯度類激活圖等可視化方法利用梯度信息表示欺凌類別與神經(jīng)元的關聯(lián)程度, 并以熱力圖形式顯示對于預測結(jié)果有重要影響的關鍵特征; ④因果解釋方法使用因果圖、潛在因果模型或其他因果推斷技術, 幫助人們理解輸入特征與欺凌行為之間的因果關系。研究發(fā)現(xiàn), 單一的可解釋性方法并不能滿足網(wǎng)絡欺凌檢測模型的解釋需求, 往往需要多種技術結(jié)合起來。例如, 在一項仇恨言論檢測研究中, Ansari G 等[14] 提出, 通過文本的數(shù)據(jù)增強來提高深度學習模型的性能和可解釋性, 并采用LIME(Local Interpretable Model-Ag?nostic Explanations)和積分梯度方法識別與預測類(是否仇恨)相關的重要關鍵字, 生成深度學習模型的局部解釋。
機器學習模型與可解釋性方法相結(jié)合,可以為網(wǎng)絡欺凌檢測提供有效的解決方案?;跈C器學習方法(如隨機森林、深度神經(jīng)網(wǎng)絡模型)檢測網(wǎng)絡欺凌行為, 面臨可解釋性差、缺乏合乎道德和無偏見工具的支持等難題。為解決上述困難, GoldfederB 等[17] 提出, 基于面向服務的架構(gòu)(Service-Orien?ted Architecture,SOA)的網(wǎng)絡欺凌檢測新方法, 允許基于類的Softmax 輸出進行更好的人工解釋。通過提供一組透明且可解釋的圖表, 使用戶能夠獲得制定決策所需的關鍵信息, 以提高非專業(yè)人士對模型輸出結(jié)果的可理解性、信任和接受度。提供決策解釋的網(wǎng)絡欺凌檢測模型在醫(yī)療健康、政府政策以及軍事情報等領域均能發(fā)揮重要作用, 如情報機構(gòu)可以使用網(wǎng)絡欺凌檢測技術收集和分析網(wǎng)絡威脅情報, 包括識別潛在的網(wǎng)絡攻擊、漏洞、惡意軟件與黑客活動, 便于情報機構(gòu)實時跟蹤事件、話題和情報來源, 從而幫助情報機構(gòu)快速響應潛在威脅和網(wǎng)絡攻擊, 并采取及時的防御措施。
1.3數(shù)據(jù)故事化呈現(xiàn)方式
數(shù)據(jù)故事化是一種將數(shù)據(jù)及數(shù)據(jù)洞見以故事形式進行敘述的過程[18] , 該過程可使用可視化圖表、故事板或儀表盤、基于增強現(xiàn)實的數(shù)據(jù)動畫、故事流程圖等方式進行呈現(xiàn)。呈現(xiàn)方式的差異展示了不同的故事化解釋效果。
1) 可視化圖表是數(shù)據(jù)故事的一種呈現(xiàn)形式, 旨在向非專業(yè)人士解釋數(shù)據(jù)規(guī)律并使其信任分析結(jié)果。作為一種呈現(xiàn)數(shù)據(jù)洞見的媒介, Lee B 等[19] 介紹了一種支持數(shù)據(jù)的敘事可視化工具——SketchStory,可以借鑒現(xiàn)有的敘事手段, 如漫畫、海報等, 并通過擴展白板動畫的敘事功能以發(fā)展出一種更具吸引力的故事化形式?;诳梢暬瘓D表促進交互式探索,有助于快速輕松地創(chuàng)建個性化和富有表現(xiàn)力的數(shù)據(jù)圖表。
2) 故事板或儀表盤是一種結(jié)合文本、圖片、音頻或視頻來講述數(shù)據(jù)故事的多媒體顯示方式, 可以幫助將數(shù)據(jù)可視化與數(shù)據(jù)洞見組織成有連貫性的故事。例如, Tableau Public[20] 支持在Web 上發(fā)布交互式可視化, 從而借助帶有圖表注釋的故事面板實現(xiàn)故事講述。從社會數(shù)據(jù)中提取知識和獲得見解,對于改善政府服務和預測情報活動具有重要價值,而數(shù)據(jù)故事化有助于理解和呈現(xiàn)嵌入在數(shù)據(jù)中的見解。為實現(xiàn)“理解社會數(shù)據(jù)” 這一目標, BeheshtiA 等[21] 實施了一個交互式講故事儀表板, 即iSto?ry,實現(xiàn)基于重要特征的智能敘事構(gòu)建, 并使用摘要技術從多個級別和不同視圖講述故事。
3) 數(shù)據(jù)動畫通過時間軸的動態(tài)變化展示數(shù)據(jù)的變化和趨勢。增強現(xiàn)實(Augmented Reality, AR)技術能在現(xiàn)有呈現(xiàn)設備的基礎上添加數(shù)據(jù)和增強功能, 通過使用AR 顯示器的多模態(tài)輸入和輸出, 設計師可以制作數(shù)據(jù)驅(qū)動的故事, 讓受眾沉浸在故事中。已有研究提出了一種新穎的HydrogenAR 演示工具, 利用數(shù)據(jù)驅(qū)動的故事敘述和沉浸式AR 的優(yōu)勢來解釋氫氣分配器的可靠性問題[22] , 從而為用戶帶來更具吸引力的體驗和數(shù)據(jù)理解。
4) 故事流程圖通過引入數(shù)據(jù)背后的人物與模型, 將數(shù)據(jù)處理過程及分析結(jié)果作為事件點, 并按照一定邏輯進行情景化呈現(xiàn)。故事流程圖需依托特定的數(shù)據(jù)故事模型與結(jié)構(gòu), 如五元素模型[23] 、SPSN模型[24] 、金字塔結(jié)構(gòu)[25] 和向下鉆取模型[26] 等, 并按照收集理解數(shù)據(jù)、明確故事目的、確定關鍵要素(人物、事件和情節(jié))、選擇故事模型、敘述故事等步驟進行故事呈現(xiàn), 從而幫助目標受眾理解和記憶數(shù)據(jù)故事。
綜上, 數(shù)據(jù)故事化呈現(xiàn)方式具有多種類型, 已在市場營銷、數(shù)據(jù)新聞和社交娛樂等領域開展實踐研究, 并且數(shù)據(jù)故事形式可輔助網(wǎng)絡安全監(jiān)管部門更好地理解、分析和應對欺凌事件。通過數(shù)據(jù)故事化呈現(xiàn), 網(wǎng)絡言論治理團隊可以更容易地分析欺凌數(shù)據(jù), 理解欺凌事件的發(fā)展和影響, 從而采取適當?shù)拇胧﹣砉芾砭W(wǎng)絡言論。
2 網(wǎng)絡欺凌檢測模型的解釋與應用
LIME 算法可應用于網(wǎng)絡欺凌檢測模型, 以解釋模型對于特定實例的決策, 從而增強模型行為的可解釋性和透明度。此外, LIME 算法具有模型無關與局部解釋特性, 因此該算法適用于解釋各種網(wǎng)絡欺凌檢測模型的特定實例。
2.1 LIME 解釋算法的選擇依據(jù)
現(xiàn)有研究的網(wǎng)絡欺凌檢測模型種類繁多且可解釋性較差, 選擇何種解釋方法需要考慮兩個方面。一方面, 準確識別欺凌行為和增強模型可信度的關鍵是在檢測模型未知的情況下實現(xiàn)對輸出結(jié)果的合理解釋, 即“模型無關”; 另一方面, 網(wǎng)絡欺凌檢測模型的研究對象通常是某一具體的實例數(shù)據(jù), 單個樣本點的局部關鍵特征有助于判斷是否屬于欺凌行為, 即“局部解釋”。同時, 考慮網(wǎng)絡欺凌數(shù)據(jù)類型的多樣性, 選擇的可解釋性算法應適用于多種數(shù)據(jù)類型。已知的模型無關局部解釋技術包括局部特征重要性分析、局部代理模型、敏感性分析、LIME、SHAP 和可視化技術等。相較于其他模型無關局部解釋技術, LIME 算法具有解釋模型簡單、采樣方法適用于高維復雜數(shù)據(jù)、模型適應性廣、支持分類和回歸任務的優(yōu)勢。LIME 是一種模型無關局部可解釋方法, 算法思想是基于訓練的局部代理模型實現(xiàn)對單個樣本點的預測[27] , 并且LIME 可用于表格數(shù)據(jù)、圖像和文本的解釋。因此, 本研究采用LIME 方法作為網(wǎng)絡欺凌檢測模型的解釋手段。
2.2 基于LIME 算法的文本解釋原理
基于現(xiàn)有文獻發(fā)現(xiàn), 文本分析在網(wǎng)絡欺凌模型中應用廣泛。因此, 本研究將文本數(shù)據(jù)作為欺凌模型解釋的重點研究對象。通過LIME 算法, 用戶可以針對特定輸入文本解釋網(wǎng)絡欺凌檢測模型的決策, 了解模型是如何基于不同特征做出決策的。這有助于識別重要特征、證明模型可靠性以及輔助檢測模型治理不良文本。
LIME 算法在網(wǎng)絡欺凌檢測模型中的應用方式如下: ①選擇一個特定的待解釋輸入樣本, 并在特定樣本鄰域擾動生成新的樣本集; ②使用原始網(wǎng)絡欺凌檢測模型對生成的擾動樣本進行預測, 并基于擾動樣本與預測標簽訓練一個簡單的可解釋模型(線性模型或決策樹), 這個模型將用于近似原始網(wǎng)絡欺凌檢測模型在目標樣本附近的行為; ③通過局部模型的系數(shù)得知哪些特征對于模型的輸出具有積極或消極的影響, 以及它們的相對重要性; ④可視化局部可解釋模型的權(quán)重和特征重要性。以文本數(shù)據(jù)為例, LIME 算法的文本解釋原理示意如圖2所示。
面向文本內(nèi)容的算法解釋原理可描述為: ①選定某一特定文本作為解釋對象, 將文本內(nèi)容分割為一個個字符串并賦予索引值, 實現(xiàn)文本到字符串特征的可解釋性表示; ②通過隨機刪除特征的方式對特定文本進行擾動, 進而生成新的樣本集, 并利用余弦相似度計算待解釋樣本與擾動樣本間的距離作為權(quán)重; ③利用原始黑盒模型對新樣本數(shù)據(jù)進行預測得到其標簽信息, 基于擾動數(shù)據(jù)及標簽訓練簡單的可解釋性模型(結(jié)合擾動數(shù)據(jù)、標簽和距離權(quán)重,返回對特定文本的解釋)。
2.3LIME 算法在網(wǎng)絡欺凌檢測模型中的“ 鉆石結(jié)構(gòu)式”應用流程
LIME 算法是針對網(wǎng)絡欺凌檢測模型預測結(jié)果進行解釋, 從而幫助用戶了解模型是如何基于不同特征做出決策的。LIME 算法在網(wǎng)絡欺凌檢測模型的“鉆石結(jié)構(gòu)式” 應用流程如圖3 所示, 包括文本采集、模型訓練與預測、LIME 算法解釋以及故事化應用4 步。首先, 利用公開數(shù)據(jù)集、網(wǎng)絡爬蟲和API 接口等方式采集欺凌文本數(shù)據(jù)集, 經(jīng)過數(shù)據(jù)清洗、數(shù)據(jù)預處理與加工、模型訓練與測試等步驟得到欺凌檢測模型。其次, 選擇特定文本作為網(wǎng)絡欺凌檢測模型的輸入樣本, 若模型預測結(jié)果判斷為欺凌行為, 則采用LIME 算法識別出欺凌特征并可視化, 理解哪些特征對于模型的輸出具有積極或消極的影響, 以及它們的相對重要性, 進而實現(xiàn)對文本預測結(jié)果的解釋; 若模型預測結(jié)果判斷為非欺凌行為, 則對非欺凌結(jié)果進行解釋性描述并可視化。最后, 對具有欺凌行為的文本及解釋結(jié)果進行故事化呈現(xiàn), 通過明確故事目的、確定故事背景和故事人物、選擇數(shù)據(jù)故事模型、填充故事事件與情節(jié)等步驟實現(xiàn)模型解釋的故事化呈現(xiàn)。
2.4基于欺凌模型預測及解釋結(jié)果的故事化呈現(xiàn)框架
基于文本預測及解釋的故事化呈現(xiàn)框架旨在將模型解釋結(jié)果轉(zhuǎn)化為數(shù)據(jù)故事, 有利于進一步提高結(jié)果的可解釋、可理解。根據(jù)數(shù)據(jù)故事化基本流程與模型解釋任務特性, 本研究將故事化框架分為數(shù)據(jù)層、模型層、解釋層和敘事層4 部分, 如圖4 所示。①數(shù)據(jù)層: 對提取的欺凌文本數(shù)據(jù)進行加工處理, 并將其劃分為訓練集和測試集用于欺凌模型構(gòu)建; ②模型層: 旨在開展多模型(邏輯回歸、樸素貝葉斯、支持向量機、神經(jīng)網(wǎng)絡、隨機森林、梯度提升模型)性能與解釋效果對比研究; ③解釋層: 提供特定文本在各類欺凌模型中的預測結(jié)果解釋功能,利用LIME 算法輔助解釋, 選擇性能較好、解釋可靠的模型進行故事化框架搭建; ④敘事層: 在明確故事目標的前提下, 將解釋結(jié)果轉(zhuǎn)化為故事要素,并選擇適當故事結(jié)構(gòu)進行數(shù)據(jù)呈現(xiàn)和故事敘述。
3實驗與分析
為驗證網(wǎng)絡欺凌檢測模型解釋和故事化呈現(xiàn)框架的有效性, 更好地呈現(xiàn)LIME算法在不同檢測模型中的解釋效果, 本研究將通過實驗對上述框架與方案進行實證研究, 隨機選擇數(shù)據(jù)集樣本進行結(jié)果解釋和故事化呈現(xiàn)。
3.1數(shù)據(jù)準備
考慮到通過網(wǎng)絡爬蟲手段獲取媒體平臺文本內(nèi)容的方式牽涉?zhèn)€人隱私,并且自獲取數(shù)據(jù)缺乏判斷網(wǎng)絡欺凌的標簽信息, 因此本研究采用Kaggle 中網(wǎng)絡欺凌分類任務的公開數(shù)據(jù)集[28] 。該數(shù)據(jù)集包含47 692條帶有欺凌類別標記的推文, 欺凌類別包括年齡、種族、性別、宗教、其他類型網(wǎng)絡欺凌和非網(wǎng)絡欺凌6 種。通過去除停用詞、刪除標點符號、表情符號處理、刪除空值和去重等數(shù)據(jù)預處理操作,得到45143條數(shù)據(jù), 如圖5 所示, 各欺凌類型分布相對均衡, 能夠用于訓練可識別模型。
3.2模型選擇
網(wǎng)絡欺凌類型檢測通過多分類模型實現(xiàn), 為選擇性能與效果較好的網(wǎng)絡欺凌檢測模型, 實現(xiàn)準確性與可解釋性之間的權(quán)衡, 本研究采用了邏輯回歸(主要參數(shù): 優(yōu)化算法選擇參數(shù)solver = “saga”)、支持向量機(采用默認參數(shù))、隨機森林(主要參數(shù): 決策樹個數(shù)n_estimators= 128, random_state =42)、梯度提升(弱學習器的最大迭代次數(shù)n_esti?mators= 200, random_state = 42)、樸素貝葉斯(采用默認參數(shù))和神經(jīng)網(wǎng)絡(主要參數(shù): 激活函數(shù)ac?tivation= “logistic”, 最大迭代次數(shù)max_iter = 10,學習率learning_rate_int=0 002)等多種分類模型進行欺凌預測, 并通過半網(wǎng)格搜索原理(HalvingGrid?SearchCV)進行超參數(shù)調(diào)優(yōu), 實現(xiàn)不同模型的預測性能與解釋效果比較。
3.3模型性能與解釋效果度量指標
對網(wǎng)絡欺凌檢測模型的預測結(jié)果及解釋結(jié)果進行指標衡量, 對于評估模型準確性、可靠性和可解釋性具有關鍵作用。依據(jù)指標度量有助于發(fā)現(xiàn)模型弱點和選擇合適的模型類型, 并將其應用于數(shù)據(jù)故事中以實現(xiàn)更好地解釋。
使用機器學習模型進行網(wǎng)絡欺凌檢測, 常見的性能評估指標包括準確率(Accuracy)、F1 分數(shù)(F1score)、精度(Precision)、召回率(Recall) 和受試者工作特征—曲線下區(qū)域(ROC-AUC)分數(shù)等, 對于解釋效果的衡量指標有保真度、復雜度等, 各指標名稱及含義如表1 所示。
各指標可通過預測結(jié)果進行統(tǒng)計性計算, 其方法如式(1) ~ (4) 所示[29] 。其中, TP 表示真陽性, 即預測結(jié)果與真實結(jié)果均為欺凌; TN 表示真陰性, 即預測結(jié)果與真實結(jié)果均為非欺凌; FP 表示假陽性, 即預測結(jié)果為欺凌, 真實結(jié)果卻為非欺凌; FN 表示假陰性, 即預測結(jié)果為非欺凌, 真實結(jié)果卻為欺凌。
通過調(diào)研網(wǎng)絡欺凌檢測文獻發(fā)現(xiàn), 衡量網(wǎng)絡欺凌檢測模型的預測效果并不僅僅采用單一指標, 而是計算多個指標值綜合檢驗模型性能。例如, RafiqR I 等[30] 提出了一種多階段網(wǎng)絡欺凌檢測模型, 實現(xiàn)了0.71 的精度和0.66 的召回率, 為解決網(wǎng)絡欺凌檢測系統(tǒng)的可擴展性和及時性提供方案。由式(4)可知, F1 分數(shù)具有衡量模型在精度和召回率之間平衡的能力, 并在數(shù)據(jù)集標簽存在高度不平衡現(xiàn)象時, 僅使用準確性指標并不可靠, 因此越來越多的網(wǎng)絡欺凌檢測文獻使用F1 分數(shù)作為評估網(wǎng)絡欺凌檢測模型性能的關鍵指標。例如, Dani H 等[31] 提出一種情緒知情網(wǎng)絡欺凌檢測框架, 使用數(shù)據(jù)中情緒分數(shù)的分布來區(qū)分網(wǎng)絡欺凌帖子和正常帖子的情緒, 實現(xiàn)AUC 得分為0.80,F1 得分為0.68。Agrawal S 等[32] 使用DNN 模型與遷移學習相結(jié)合的方法, 檢測3 個社交媒體平臺上的網(wǎng)絡欺凌數(shù)據(jù)集, 實現(xiàn)部分樣本集上最高的準確率為0.92,召回率為0.99, F1 得分為0.95。Zhao R 等[33] 使用語義增強邊緣化去噪自動編碼器進行網(wǎng)絡欺凌檢測,利用MySpace 數(shù)據(jù)集在分類上的平均結(jié)果準確度達到89.7%, F1 分數(shù)達到77.6%。
3.4模型性能及解釋效果評估
為全面客觀地評價模型性能, 本研究采用準確率(Acc)和F1 分數(shù)(F1)作為衡量指標。網(wǎng)絡欺凌數(shù)據(jù)集在不同模型下的預測性能如表2 所示。除樸素貝葉斯外, 各模型的準確率相對較高, 并且梯度提升具有最大的準確率; 而對于F1分數(shù), 性能由高到低分別為梯度提升、隨機森林、支持向量機、邏輯回歸、神經(jīng)網(wǎng)絡和樸素貝葉斯。
為更好地理解各個模型在網(wǎng)絡欺凌檢測任務上是如何進行預測的, 采用LIME 算法對單個實例結(jié)果進行解釋, 在欺凌樣本子集中隨機選擇部分樣本點, 輸出對結(jié)果影響較大的文本特征, 解釋結(jié)果如表3 所示。
從上述LIME 算法解釋結(jié)果看, 對文本Ⅰ的預測結(jié)果為“ethnicity”(種族欺凌), 而文本中的“nigger”是最能識別欺凌類型的關鍵特征, 其他諸如“fuck”“bitch” “ass”“shit”等詞匯則帶有濃烈的侮辱性含義, 對于判斷種族欺凌具有積極作用; 但“terrorist”“pedophile”“rapist” 對于判斷種族欺凌并沒有很大幫助, 因此通過考慮這些關鍵特征, 各模型的LIME 解釋效果由高到低排序為梯度提升>隨機森林>支持向量機>邏輯回歸>神經(jīng)網(wǎng)絡>樸素貝葉斯。對文本Ⅱ的預測結(jié)果為“reli?gion”(宗教欺凌), 由語義分析可知,“idiot”和“muslims”是判斷宗教欺凌的核心詞匯, 基于LIME解釋結(jié)果發(fā)現(xiàn), 神經(jīng)網(wǎng)絡與隨機森林對于文本Ⅱ的預測具有合理的可解釋性證據(jù), 而其他4 類模型僅識別出部分關鍵特征。文本Ⅲ是對一些事實的客觀闡述, 實際預測結(jié)果應為“not cyberbullying”, 但模型解釋結(jié)果出現(xiàn)了差異, 由LIME 解釋結(jié)果發(fā)現(xiàn),僅隨機森林模型作出了正確預測。因此, 本研究采用隨機森林模型開展數(shù)據(jù)故事呈現(xiàn)研究。上述研究也回答了研究問題(1) 和(2), 即模型預測結(jié)果的高準確性不能代表更高的模型應用價值與可信度, 可解釋性技術輔助復雜模型預測有利于權(quán)衡模型準確性與可解釋性之間的關系。同時, 算法解釋結(jié)果可檢驗模型預測的可靠程度, 通過可視化關鍵特征來判斷模型做出預測的正確性, 實現(xiàn)算法的可理解、可解釋。
3.5基于網(wǎng)絡欺凌模型解釋結(jié)果的故事化呈現(xiàn)
為更好地展示LIME 算法對于網(wǎng)絡欺凌檢測模型的解釋結(jié)果, 本研究采用五元素模型(人物、場景、情節(jié)、沖突、解決方案)[34] 作為故事呈現(xiàn)方式,如表4 所示。本研究將基于五元素模型的網(wǎng)絡欺凌解釋故事生成分為4 個階段: ①對于網(wǎng)絡欺凌文本數(shù)據(jù)集, 通過訓練、測試、參數(shù)調(diào)優(yōu)等方式確立合適的網(wǎng)絡欺凌檢測模型和可解釋性技術(場景);②選擇單個實例作為待解釋文本(人物), 利用LIME等解釋技術可視化文本關鍵特征; ③通過刪除關鍵詞匯、變動詞匯排列等擾動方法促使預測結(jié)果發(fā)生由“欺凌” 到“非欺凌” 的轉(zhuǎn)變(沖突), 其中,單次特征改變發(fā)生的預測概率變化可看作一個事件點, 不同事件點的有序排列構(gòu)成故事情節(jié)(情節(jié));④在先驗知識的驅(qū)動下, 突出識別真實預測結(jié)果的關鍵特征, 進而生成數(shù)據(jù)故事, 最后基于解釋結(jié)果給出預防欺凌行為的方法和建議(解決方案)。
對于網(wǎng)絡欺凌檢測, 數(shù)據(jù)故事的生成目的是幫助社交媒體平臺從源頭上剔除不良用戶, 有效避免網(wǎng)絡欺凌的發(fā)生。表4展示了某一欺凌文本數(shù)據(jù)通過特征改變成為非欺凌文本的故事化呈現(xiàn)過程。研究發(fā)現(xiàn), LIME解釋算法對于識別文本欺凌特征起到關鍵作用, 而故事化呈現(xiàn)為非專業(yè)用戶解釋模型預測結(jié)果、增強數(shù)據(jù)理解提供了可行路徑。同時,2.2 與3.4分別從理論與實踐角度回答了研究問題(3), 即故事化方法從用戶層面增強了預測結(jié)果的可理解性和普適性, 模型預測及解釋結(jié)果可作為數(shù)據(jù)故事的生成要素, 輔助實現(xiàn)故事易于記憶、易于理解、易于表達的目的。
4結(jié)論
對網(wǎng)絡欺凌模型開展算法解釋及故事化呈現(xiàn)研究, 可輔助社交媒體平臺開發(fā)“在線反欺凌工具”,通過識別負面敏感信息來規(guī)范用戶發(fā)言和指導平臺文明建設。本研究從網(wǎng)絡欺凌檢測模型、模型結(jié)果解釋方法和故事化呈現(xiàn)方式3 個方面出發(fā), 明確了3 個研究問題, 并確定了研究對象(網(wǎng)絡欺凌文本)、研究方法(多個檢測模型、LIME解釋技術)、應用流程和呈現(xiàn)框架(故事化呈現(xiàn)), 最后實驗驗證故事化呈現(xiàn)框架的可行性。具體而言, 本研究提出了LIME 算法在欺凌檢測模型中的“鉆石結(jié)構(gòu)式” 應用流程, 并構(gòu)建了基于欺凌模型預測及解釋結(jié)果的故事化呈現(xiàn)框架。針對上述3個研究問題, 本研究的研究價值與創(chuàng)新體現(xiàn)在: ①基于LIME算法對網(wǎng)絡欺凌檢測模型的預測結(jié)果進行解釋, 并采用數(shù)據(jù)故事化方式呈現(xiàn)解釋結(jié)果; ②探索和提出一種新的面向網(wǎng)絡欺凌文本檢測的解釋方法, 為決策者提出關于網(wǎng)絡言論治理、用戶隱私保護和安全保障之間的平衡建議提供參考; ③提出了一個融合網(wǎng)絡欺凌文本特征、結(jié)果解釋和故事化呈現(xiàn)的理論框架, 其研究成果可為日后的網(wǎng)絡治理實踐提供指導。
本研究提供了面向網(wǎng)絡欺凌文本檢測模型的解釋新方案與新形式, 但也受限于單一語言文本數(shù)據(jù)集, 未囊括多語種、多地區(qū)的欺凌數(shù)據(jù)類型。已有研究發(fā)現(xiàn), BERT作為基于自注意力機制的語言模型, 是一種先進的網(wǎng)絡欺凌檢測模型和深度學習模型[29] 。因此, 未來一方面可繼續(xù)對不同語種及數(shù)據(jù)類型進行研究; 另一方面可對BERT等檢測模型進行探索, 為網(wǎng)絡欺凌行為的快速識別與響應, 以及實時性、局部性和精準化的網(wǎng)絡言論管理做出貢獻。