黃艷艷 朱英浩 邱冬冬 張石麗
摘要:自2020年3月1日起,《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》明確禁止網(wǎng)絡(luò)信息內(nèi)容服務(wù)使用者和生產(chǎn)者、平臺(tái)開展網(wǎng)絡(luò)暴力、人肉搜索,在學(xué)界中,已經(jīng)有大量對(duì)網(wǎng)絡(luò)暴力的定義、分析和治理建議,基于這些背景和基礎(chǔ),本文通過對(duì)網(wǎng)絡(luò)語言暴力這一范圍中進(jìn)行詳細(xì)的研究,來設(shè)計(jì)出核心程序,以此更加科學(xué)、有效的識(shí)別網(wǎng)絡(luò)語言暴力,并規(guī)劃了如何使用的流程,希望以此起到凈化網(wǎng)絡(luò)的目的。
關(guān)鍵詞:網(wǎng)絡(luò)暴力;程序設(shè)計(jì);機(jī)器學(xué)習(xí)
中圖分類號(hào):TP311? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ?文章編號(hào):1007-9416(2020)04-0000-00
1研究背景
學(xué)界有關(guān)網(wǎng)絡(luò)暴力較為嚴(yán)謹(jǐn)?shù)亩x是:網(wǎng)絡(luò)暴力指由個(gè)人或團(tuán)體通過電子或數(shù)字媒體反復(fù)實(shí)施的,傳播表達(dá)敵意或侵襲性的信息,意圖摧殘、折磨他人精神,足以壓制受害人反抗的行為[1]。
2020年3月1日,《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》發(fā)布,其中已經(jīng)明確禁止網(wǎng)絡(luò)暴力、人肉搜索等行為,各大主流社交媒體平臺(tái)紛紛積極響應(yīng)了政策,將部分大型群體性網(wǎng)絡(luò)暴力事件的相關(guān)話題和評(píng)論進(jìn)行了一些關(guān)閉和刪除等操作,然而,對(duì)于小型的、個(gè)體性的網(wǎng)絡(luò)暴力事件暫時(shí)還沒有體現(xiàn)有效管理。
近幾年里,網(wǎng)絡(luò)暴力的話題被大家高度關(guān)注,盡管網(wǎng)民們已經(jīng)充分地認(rèn)識(shí)到了網(wǎng)絡(luò)暴力的威力和危害,但是網(wǎng)絡(luò)暴力依然活躍在各大熱門網(wǎng)絡(luò)話題中,因此,整頓、治理網(wǎng)絡(luò)暴力的工作仍舊非常艱難[2]。
大多學(xué)者主要提出了完善法律、實(shí)名制、提高網(wǎng)民素養(yǎng)、加強(qiáng)媒體把關(guān)人的職能、主流媒體的積極引導(dǎo)以及加強(qiáng)平臺(tái)管理等治理辦法。
2設(shè)計(jì)與應(yīng)用
2.1設(shè)計(jì)流程
基于對(duì)網(wǎng)絡(luò)暴力的背景研究并結(jié)合了實(shí)踐過程中對(duì)網(wǎng)絡(luò)語言暴力的新發(fā)現(xiàn),本文從以下方面來設(shè)計(jì)對(duì)網(wǎng)絡(luò)暴力語言的判斷和屏蔽操作。
程序首先將對(duì)一個(gè)評(píng)論區(qū)的用戶評(píng)論進(jìn)行情感分析,評(píng)論較為積極則可以正常發(fā)布,若評(píng)論的情緒較為負(fù)面,則進(jìn)入第二輪機(jī)器判斷。第二輪判斷將得出評(píng)論是不是針對(duì)該評(píng)論區(qū)的個(gè)人,如果是并且還包含了網(wǎng)絡(luò)暴力語言敏感詞,則確定該評(píng)論屬于網(wǎng)絡(luò)暴力。對(duì)于網(wǎng)絡(luò)暴力語言,將進(jìn)行三步處理法:第一步,對(duì)暴力語言進(jìn)行屏蔽;第二步,同時(shí)對(duì)發(fā)表該評(píng)論的用戶進(jìn)行警告提醒,當(dāng)警告累計(jì)達(dá)到五次則進(jìn)行封號(hào)處理;第三步,則是對(duì)接下來的用戶評(píng)論進(jìn)行會(huì)話框提示:“請(qǐng)慎重考慮您的發(fā)言,避免出現(xiàn)網(wǎng)絡(luò)語言暴力”,如圖1所示:
2.2程序相關(guān)過程及運(yùn)行結(jié)果準(zhǔn)確率
該設(shè)計(jì)主要運(yùn)用到了Word2vec模型,將爬取到的偏向積極正面的發(fā)言數(shù)據(jù)和負(fù)面發(fā)言數(shù)據(jù)進(jìn)行了詞向量的訓(xùn)練,然后用到SVM分類器對(duì)語料進(jìn)行分類,使得機(jī)器學(xué)會(huì)智能判斷評(píng)論的情感趨勢(shì)。
首先在各大平臺(tái)中爬取與網(wǎng)絡(luò)暴力相關(guān)的數(shù)據(jù),做好標(biāo)記,然后進(jìn)行jieba分詞、對(duì)數(shù)據(jù)隨機(jī)切分,生成訓(xùn)練集和測(cè)試集,再用Word2vec模型計(jì)算每段話的向量,訓(xùn)練SVM模型,最后對(duì)單個(gè)句子進(jìn)行分類,完成情感判斷。
在實(shí)驗(yàn)運(yùn)行過程中,情感分析和對(duì)判斷言論是針對(duì)個(gè)人還是平臺(tái)的訓(xùn)練集預(yù)測(cè)準(zhǔn)確率分別達(dá)到了82.84%和87.35%,測(cè)試集預(yù)測(cè)準(zhǔn)確率較低,在59%和57.32%。過擬合是造成測(cè)試集準(zhǔn)確率下降的主要原因[3]。
2.3應(yīng)用環(huán)境
由于各類評(píng)論環(huán)境的不同、相關(guān)推送、大數(shù)據(jù)個(gè)性化定制用戶喜好等機(jī)制,以及對(duì)網(wǎng)絡(luò)暴力語言具有流動(dòng)性、用戶實(shí)名信息、平臺(tái)是否對(duì)用戶進(jìn)行強(qiáng)制封號(hào)等因素的考慮,該設(shè)計(jì)的部分功能在實(shí)際應(yīng)用中將會(huì)受到一定的限制。
根據(jù)抽樣調(diào)查的數(shù)據(jù)顯示,僅有23.55%的人有非常強(qiáng)烈的意愿來使用這樣一個(gè)可以屏蔽網(wǎng)絡(luò)語言暴力的程序,大多數(shù)人認(rèn)為這種方法治標(biāo)不治本,沒有較強(qiáng)的使用意愿。
從平臺(tái)和用戶兩方面評(píng)估后,本文認(rèn)為該程序可行性高,能做成平臺(tái)的相關(guān)插件,根據(jù)用戶的個(gè)人意愿自主選擇,讓那些已經(jīng)受到、害怕受到網(wǎng)絡(luò)暴力的個(gè)人用戶有一個(gè)較為優(yōu)質(zhì)的網(wǎng)絡(luò)語言環(huán)境。
3結(jié)語
2017年Google開發(fā)出了一款“Perspective”的工具,利用機(jī)器學(xué)習(xí)的方法來檢測(cè)網(wǎng)絡(luò)上侮辱、騷擾等語言,[2]但在誹謗及譏諷性質(zhì)的言論的識(shí)別上還有難度。2018年知乎瓦力升級(jí),可以判斷出陰陽怪氣的評(píng)論并進(jìn)行折疊,但是用戶對(duì)于這個(gè)把正常評(píng)論一起折疊的功能不太認(rèn)同。
作者意在采集暴力語言數(shù)據(jù),再用人工智能技術(shù)進(jìn)行主動(dòng)學(xué)習(xí),設(shè)計(jì)智能檢測(cè)網(wǎng)絡(luò)暴力語言的程序,并將之作為社交平臺(tái)的附屬插件,起到凈化網(wǎng)絡(luò)用語環(huán)境的目的。相較于Google和知乎這種大平臺(tái)對(duì)“語言”識(shí)別的直接開發(fā),作者換了一個(gè)思路,從判斷語言情感的方向入手,結(jié)合了網(wǎng)絡(luò)語言暴力中一些特定的詞匯庫,判斷出該語言是不是針對(duì)個(gè)人的,由此來進(jìn)行判斷,在隨機(jī)測(cè)試環(huán)節(jié)達(dá)到了非常好的效果。
但是在數(shù)據(jù)判斷的準(zhǔn)確度上還有待提升,對(duì)未來,作者提出了新的數(shù)據(jù)模型訓(xùn)練,尋找大量有關(guān)帶有隱喻性、諷刺性、指代性網(wǎng)絡(luò)暴力語言分別通過機(jī)器專門訓(xùn)練其背后的情感模型,還可以專門訓(xùn)練機(jī)器來識(shí)別語言中是否含有隱喻、夸張、諷刺等手法,來進(jìn)行更好、更精確的識(shí)別。
參考文獻(xiàn)
[1] 徐穎.論“網(wǎng)絡(luò)暴力”致人自殺死亡的刑事責(zé)任[J].政法論壇,2020,38(1):132-142
[2] 韓蒙如.網(wǎng)絡(luò)暴力背后的心理和語言機(jī)制[N].社會(huì)科學(xué)報(bào),2019-11-28.
[3] 任仝.網(wǎng)絡(luò)語言暴力現(xiàn)象分析[D].長春:吉林大學(xué),2019.
收稿日期2020-03-07
基金項(xiàng)目:河南省大學(xué)生創(chuàng)新性實(shí)驗(yàn)訓(xùn)練計(jì)劃項(xiàng)目資助(201910475144);河南大學(xué)大學(xué)生創(chuàng)新性實(shí)驗(yàn)訓(xùn)練計(jì)劃項(xiàng)目資助(201910475144)
作者簡介:黃艷艷,女,上海人,本科,研究方向:網(wǎng)絡(luò)與新媒體。
Combining Research on Cyber Violence and Designing Programs and Applications that Intelligently Identify Cyber Language Violence
HUANG Yan-yan,ZHU Ying-hao,QIU Dong-dong,ZHANG Shi-li
(Henan University, Kaifeng? Henan 475000)
Abstract:Since March 1, 2020, the "Regulations on the Ecological Governance of Network Information Contents" explicitly prohibit users and producers of network information content services, platforms from carrying out cyber violence and human flesh search. In the academic community, there have been a lot of definitions, analysis and governance suggestions on cyber violence. Based on these backgrounds and foundations, this paper studies the scope of cyber language violence in detail. To design the core program, in order to identify the cyber language violence more scientifically and effectively, and to plan how to use the process, hoping to purify the network.
Keyword:cyber violence;programming;machine learning