• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LDA模型和卡方檢驗的網(wǎng)絡(luò)暴力話題挖掘方法

      2023-01-17 04:47:40劉玉文
      關(guān)鍵詞:特征詞文檔暴力

      謝 靜,劉玉文

      (蚌埠醫(yī)學(xué)院 a.公共基礎(chǔ)學(xué)院; b.衛(wèi)生管理學(xué)院,安徽 蚌埠 233030)

      0 引言

      隨著交互式多媒體網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了眾多自媒體交互平臺(如抖音、快手、小紅書等)。自媒體平臺的無限上傳、轉(zhuǎn)發(fā)、評論、點贊等互動功能,使信息交互更加快捷多樣,人們只要擁有一部智能手機(jī)就能輕松成為一個自媒體人。由于網(wǎng)絡(luò)的跨時空特性[1],社會熱點事件極易在網(wǎng)上形成熱點話題,加速了網(wǎng)絡(luò)輿情的形成。

      目前,由于網(wǎng)絡(luò)缺乏道德約束和有效的監(jiān)管[2],網(wǎng)絡(luò)上滋生著大量網(wǎng)絡(luò)暴力,網(wǎng)絡(luò)話題是網(wǎng)絡(luò)暴力的主要載體。由于網(wǎng)絡(luò)具有無邊界性[3],暴力話題一旦形成,圍觀網(wǎng)民數(shù)量會迅速增長,對當(dāng)事人會造成非常大的心理傷害。網(wǎng)絡(luò)暴力的存在嚴(yán)重破壞了網(wǎng)絡(luò)生態(tài)環(huán)境,阻礙了社會的和諧發(fā)展,所以,開展網(wǎng)絡(luò)暴力話題識別研究有助于對網(wǎng)絡(luò)暴力進(jìn)行組織分類,對輿情管控和引導(dǎo)具有十分重要的意義。

      從交互式網(wǎng)絡(luò)技術(shù)出現(xiàn)以來,網(wǎng)絡(luò)暴力就隨即出現(xiàn)。隨著自媒體技術(shù)的普及應(yīng)用,網(wǎng)絡(luò)暴力更加盛行。網(wǎng)絡(luò)暴力的形成涉及網(wǎng)絡(luò)、社會、心理等多種因素,一直以來都是網(wǎng)絡(luò)輿情領(lǐng)域研究的重點[4]。為了應(yīng)對網(wǎng)絡(luò)暴力給社會生態(tài)文明帶來的沖擊,降低網(wǎng)絡(luò)暴力危害,眾多學(xué)者從多個層面開展了相關(guān)研究工作。劉績宏等[5]從道德層面分析了網(wǎng)絡(luò)暴力演化過程中的影響因素,并以821位網(wǎng)民的上網(wǎng)數(shù)據(jù)為基礎(chǔ),構(gòu)建了網(wǎng)民心理和行為的結(jié)構(gòu)方程模型,發(fā)現(xiàn)道德焦慮能夠使網(wǎng)民對相關(guān)主體產(chǎn)生消極的道德判斷,從而促使網(wǎng)民實施網(wǎng)絡(luò)暴力行為;石經(jīng)海等[6]從法律層面分析了網(wǎng)絡(luò)暴力刑法規(guī)制的困境,建議將網(wǎng)絡(luò)暴力現(xiàn)象納入相關(guān)法律治理體系中予以立體化治理,增設(shè)網(wǎng)絡(luò)暴力罪,以解決網(wǎng)絡(luò)暴力刑事責(zé)任追究難的問題;田圣斌等[7]從社會管理層面分析法律在應(yīng)對網(wǎng)絡(luò)暴力時存在的缺陷,強(qiáng)調(diào)網(wǎng)絡(luò)暴力治理首先要精準(zhǔn)識別網(wǎng)絡(luò)暴力,然后實施階段性治理舉措,加強(qiáng)行政干預(yù),規(guī)范網(wǎng)絡(luò)治理行為,實現(xiàn)網(wǎng)絡(luò)社會的綜合治理。上述研究主要從社會和心理行為角度分析了網(wǎng)絡(luò)暴力形成原因及治理方式,為網(wǎng)絡(luò)暴力的管理提出了新思路,但存在的問題是不能從網(wǎng)絡(luò)大數(shù)據(jù)上了解網(wǎng)絡(luò)暴力特性,無法運用技術(shù)手段對網(wǎng)絡(luò)暴力進(jìn)行引導(dǎo)。為了能及早探測網(wǎng)絡(luò)暴力,縮短輿情干預(yù)響應(yīng)時間,一些學(xué)者從網(wǎng)絡(luò)本身入手研究網(wǎng)絡(luò)暴力形成及發(fā)展規(guī)律,提出了觀點演化[8]、主題識別與演化[9]、情感計算[10]、社區(qū)發(fā)現(xiàn)[11]等相關(guān)技術(shù)。谷學(xué)匯[12]針對網(wǎng)絡(luò)暴力單一模態(tài)檢測方法精度低等問題,提出了基于文本、視頻以及音頻多模態(tài)融合算法,將文本、視音頻分類器當(dāng)作預(yù)分類器完成視頻的初始分類,獲得候選暴力影視集,隨后再運用視音頻分類器對候選集進(jìn)行分類,最終完成對網(wǎng)絡(luò)暴力的識別;范濤等[13]為了提高負(fù)面情感內(nèi)容識別精度,提出了基于圖卷積神經(jīng)網(wǎng)絡(luò)和依存句法分析的網(wǎng)民負(fù)面情感分析模型,該模型運用雙向長短期記憶網(wǎng)絡(luò)和自注意力機(jī)制抽取文本特征作為依存句法圖中的節(jié)點特征,再應(yīng)用圖卷積神經(jīng)網(wǎng)絡(luò)對生成的節(jié)點特征鄰接矩陣進(jìn)行訓(xùn)練學(xué)習(xí),輸出負(fù)面情感類別。以上研究成果實現(xiàn)了暴力內(nèi)容的精確查找,但存在的問題是網(wǎng)絡(luò)暴力組織屬性識別能力較差,無法實現(xiàn)網(wǎng)絡(luò)事件與網(wǎng)絡(luò)暴力的關(guān)系映射。

      針對上述問題,本文提出了一種基于LDA模型和卡方檢驗的網(wǎng)絡(luò)暴力話題識別方法。該方法首先運用LDA模型對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行主題分類,然后再用卡方檢驗對主題內(nèi)暴力特征進(jìn)行識別,最后通過情感計算技術(shù)定量計算話題內(nèi)的暴力密度,依據(jù)密度閾值對網(wǎng)絡(luò)暴力主題進(jìn)行識別。

      1 相關(guān)技術(shù)介紹

      1.1 卡方檢驗

      社交網(wǎng)絡(luò)中,文本形式的語言暴力(以下簡稱文本暴力)是網(wǎng)絡(luò)暴力的主要表現(xiàn)形式,文本暴力語言帶有強(qiáng)烈的負(fù)面情感特征。本質(zhì)上說,文本暴力識別是自然語言處理技術(shù)的一種具體應(yīng)用。識別過程包括:文本分詞、特征詞提取、情感計算、語義關(guān)聯(lián)等,其中特征詞提取是關(guān)鍵。目前,文本特征詞識別方法[14]主要包括信息增益法、文檔頻率法及卡方檢驗法等,其中卡方檢驗法是常用的文本特征選擇方法。

      卡方檢驗[15]是用于度量樣本理論推斷值與實際觀測值相關(guān)程度的統(tǒng)計方法,卡方值越大,表明二者相關(guān)性越大,卡方統(tǒng)計量用χ2表示,計算公式如(1)所示。

      式中:變量Fi表示特征;Cj表示特征類別;m表示訓(xùn)練數(shù)據(jù)集內(nèi)文本個數(shù);a表示包含F(xiàn)i的Cj類文本數(shù)量;b表示包含F(xiàn)i的非Cj類文本數(shù)量;c表示不包含F(xiàn)i的Cj類文本數(shù)量;d表示不包含F(xiàn)i的不屬于Cj類文本數(shù)量。

      1.2 LDA模型

      1.2.1 模型描述

      隱狄利克雷分配(Latent Dirichlet Allocation,LDA)是一種基于無監(jiān)督學(xué)習(xí)的文檔生成模型[16]。該模型認(rèn)為一篇文檔包含多個主題,每個主題又對應(yīng)著不同詞匯;一篇文章的構(gòu)造過程依賴文檔、主題、詞匯之間的概率假設(shè)。首先文檔以一定的概率選擇某個主題,然后主題又以一定的概率選擇某個詞,不斷重復(fù)執(zhí)行這個過程,直到完成整個文檔的生成為止。LDA模型根據(jù)文檔生成的逆過程,對文檔主題特征和主題詞匯特征進(jìn)行學(xué)習(xí),把文檔建模成主題分布,又把文檔中的主題建模成詞匯分布。從生成過程來看,LDA模型是一個3層貝葉斯網(wǎng)絡(luò),根據(jù)概率依賴關(guān)系,定義了4個變量:文本-主題分布矩陣θ,主題-詞匯分布矩陣φ,主題向量Z以及詞匯W。

      1.2.2 模型參數(shù)介紹

      除了4個變量之外,LDA模型還包含2個超參數(shù)α和β。Z是隱變量,W是唯一可實際觀測到的文檔詞匯。各變量在模型中的含義如表1所示,模型結(jié)構(gòu)如圖1所示。

      表1 LDA模型變量含義

      圖1 LDA模型的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)

      1.2.3 文檔生成公式

      LDA模型先運用超參數(shù)α生成一個文檔主題概率分布,然后運用β生成N個主題概率分布,最后生成整篇文檔的N個詞的聯(lián)合概率,如式(2)所示。

      由于θ和Z是隱變量,需要對其進(jìn)行邊緣概率求解,從而消除θ和Z,最后計算得到文本中每個單詞的生成概率,計算公式如(3)所示。

      通過文檔中可觀測的詞匯,運用吉布斯采樣過程對公式(3)進(jìn)行反復(fù)迭代,并利用最大期望算法(Expectation Maximization,簡稱EM算法)對參數(shù)θ和φ值進(jìn)行估計,最終訓(xùn)練出文檔-主題分布矩陣θ和主題-詞匯分布矩陣φ。雖然LDA模型存在著運算效率高、建模方便等諸多優(yōu)點,但也存在著主題數(shù)K需要依賴人為經(jīng)驗事先設(shè)定等缺陷,大大增加了建模結(jié)果的不確定性。

      1.2.4 動態(tài)話題數(shù)計算

      為了降低主題數(shù)人為設(shè)定給建模結(jié)果帶來的影響,研究者提出了一系列動態(tài)主題數(shù)計算方法。其中,基于貝葉斯主題數(shù)計算方法是最流行的方法,計算公式如(4)和(5)所示。

      式(4)~(5)中:Γ(x)是伽馬函數(shù);nzw表示主題z內(nèi)詞匯w出現(xiàn)的次數(shù);nz?表示主題z內(nèi)詞匯總數(shù);K表示主題數(shù)量;G表示吉布斯采樣次數(shù);zg表示第g次采樣時的主題。。

      結(jié)合公式(4)和(5)對P(w|K)進(jìn)行求解,當(dāng)P(w|K)達(dá)到極值時,選擇K值為最優(yōu)主題數(shù)。

      2 網(wǎng)絡(luò)暴力話題識別方法

      網(wǎng)絡(luò)暴力話題識別包括2個步驟:第1步,運用主題模型從語料文本中對主題進(jìn)行識別,構(gòu)造出文檔-主題和主題-詞匯2個分布矩陣;再用主題詞與文檔進(jìn)行相似度計算,對文檔進(jìn)行主題文本分類,得到主題文本集。第2步,對每個主題文本集進(jìn)行暴力特征篩選,運用情感計算技術(shù)計算話題的暴力情感值,根據(jù)暴力密度閾值對話題的暴力屬性進(jìn)行判斷。具體識別過程如圖2所示。

      圖2 暴力話題識別流程

      網(wǎng)絡(luò)暴力是網(wǎng)絡(luò)文本內(nèi)的一種情感形式,帶有強(qiáng)烈的負(fù)情感,所以,網(wǎng)絡(luò)暴力可以借助情感實現(xiàn)定量計算。本文運用話題暴力密度作為判定話題暴力屬性的依據(jù),話題暴力密度含義如定義1所示。

      定義11:話題暴力密度 設(shè)話題z由話題詞匯集A={w1,w2,…,wx}表示,話題內(nèi)暴力詞匯集B={wc1,wc2,…,wcy}表示,且B?A,則話題z的暴力密度TD(z)指B內(nèi)詞匯情感絕對值之和與A內(nèi)所有詞匯情感絕對值之和的比值,計算公式如(6)所示。

      式中:S(w)表示詞匯w的情感計算函數(shù)。當(dāng)TD(z)大于設(shè)定的閾值時,則判定話題z為暴力話題。

      2.1 話題文本分類

      話題文本分類的目的是把文本按照話題進(jìn)行劃分,獲取話題文本集。話題文本分類需要運用話題識別和相似度計算2項技術(shù)。話題識別技術(shù)是為了挖掘語料文本中隱含的話題,相似度計算技術(shù)是為了計算話題特征詞與文本的相似度,從而實現(xiàn)依據(jù)主題對文檔進(jìn)行歸類。本文運用的話題識別技術(shù)是LDA模型,該模型通過對網(wǎng)絡(luò)語料庫D進(jìn)行建模,分別生成大小為M×K的文檔-主題分布矩陣θ和大小為K×N的主題-詞匯分布矩陣φ。其中,φ的行代表主題,列代表詞匯。對每行詞匯生成概率按大小進(jìn)行排序,選擇Top-K詞匯作為主題特征詞。

      從LDA建模原理可以看出,LDA模型本身不能完成話題文本分類,但主題-詞匯分布矩陣φ中的話題特征詞為文本分類提供了聚類特征。在文本語料中,語義環(huán)境是判斷詞匯相似的重要依據(jù)。設(shè)主題zi=[w1,…,wK],文本di=[w1,…,wN],對于zi中任意詞匯wk和di中任意詞匯wn,如果wk和wn在同一語境中共現(xiàn)頻次較大,滿足設(shè)定的相似度閾值時,則wk和wn就具有相關(guān)相似性,即可判定wk和wn屬于同一主題。由于語境對詞匯意義表達(dá)影響較大,文本運用基于對稱差的KL距離來進(jìn)行主題與文本的相似度計算。

      KL 距離[15](Kullback-Leibler Divergence)用來度量2個概率向量在相同事件空間內(nèi)分布的差異性。假設(shè)X=[x1,x2,…,xn]和Y=[y1,y2,…,yn]是2個概率分布向量,則X和Y差異性計算公式如(7)所示。

      式(7)中,KL(X|Y)值越小,X和Y的差異性就越小,說明X和Y的相似性就越高。但KL距離公式存在的缺陷是不具有對稱性[14],即 KL(X|Y) ≠KL(Y|X),在實際運用時受到時序因素影響較大。為了彌補(bǔ)這個缺陷,本文在KL距離的基礎(chǔ)上引入相對熵概念,通過變量之間的雙向KL距離計算消除變量次序?qū)τ嬎憬Y(jié)果的影響,建立了X和Y對稱差異性計算方法,如式(8)所示。

      對于主題zi=[w1,..,wK]與文本di=[w1,..,wN],通過公式(8)就可得到zi和di的相似度。運用上述方法,依次把主題-詞匯分布矩陣φ中的主題zi與語料庫中所有文本進(jìn)行相似度計算,再把與zi相似度高的文本歸類在一起,得到話題zi的文本集,最終完成所有主題的文本分類。

      2.2 話題內(nèi)暴力特征分類器建立

      話題文本分類完成后,下一個重要核心任務(wù)是在話題文本內(nèi)進(jìn)行暴力特征詞篩選,為話題暴力定量計算提供特征詞組集。如上文所述,從情感角度來說,網(wǎng)絡(luò)暴力語言帶有極強(qiáng)的負(fù)面情感,但負(fù)面情感不一定都是暴力語言。一般來說,文本集內(nèi)暴力特征詞集是負(fù)面情感詞的子集。負(fù)面情感特征用情感詞典很容易計算得到,但如何從負(fù)面情感詞中篩選出暴力詞是本文的難點。本文采用χ2檢驗作為文本特征篩選方法,以初始的話題暴力詞作為種子詞對負(fù)面詞匯集進(jìn)行反復(fù)迭代,并逐步提升每次迭代的檢驗閾值,直到遍歷完所有候選詞為止,具體篩選過程如圖3所示。

      圖3 基于χ2檢驗的網(wǎng)絡(luò)暴力特征詞篩選過程

      基于χ2檢驗的話題暴力特征詞篩選過程包括以下幾個步驟:

      第1步:運用情感詞典HowNet對話題詞匯集A中的詞匯進(jìn)行情感計算,得到每個詞匯的情感值,并篩選出負(fù)情感詞匯集E。

      第2步:在負(fù)情感詞集E中,按情感值大小對情感詞排序,用人工方式挑選出負(fù)面情感最強(qiáng)烈的10個詞作為暴力種子詞存放在暴力詞匯集B中。

      第3步:遍歷負(fù)情感詞集E中所有詞匯,利用卡方檢驗依次對所有詞匯進(jìn)行特征計算。設(shè)定χ2檢驗閾值ξ=0.90。如果χ2(wi,B)≥ξ,則判定wi為暴力詞,并把wi添加到暴力詞匯集B中,增加檢驗閾值ξ,使得ξ=ξ+0.01,并返回到第2步;否則直接返回到第2步。

      第4步:反復(fù)執(zhí)行上述過程,直到選不出暴力特征詞為止,最終得到暴力詞匯集B。

      2.3 話題暴力計算與識別

      話題暴力計算是運用話題暴力詞匯集B計算出話題暴力的程度。通常情況下,由于網(wǎng)民存在認(rèn)知偏差,大多數(shù)網(wǎng)絡(luò)話題內(nèi)或多或少都存在著暴力成分,但并不是說話題內(nèi)含有暴力成分就判定該話題一定是暴力話題。只有當(dāng)暴力成分在話題內(nèi)占比達(dá)到或超過一定比重時才能判定為暴力話題,這個比值用暴力密度來表示。文本暴力與情感具有很強(qiáng)的相關(guān)性,所以,暴力計算可以借助情感計算技術(shù)來實現(xiàn)。由于修飾詞的存在,修飾詞對實體情感詞的影響較大,在情感計算時需要結(jié)合修飾詞進(jìn)行綜合計算。

      2.3.1 詞語的修飾處理

      修飾詞包括2個屬性:一是詞性,二是位置。從文本詞性語義分析來看,形容詞、副詞及否定詞對實體詞的情感表達(dá)影響較大。另外,否定詞的位置也是影響實體詞情感表達(dá)的重要因素,比如“很不好”和“不很好”二者表達(dá)的情感相差很大。所以,在進(jìn)行情感計算時一定要考慮實體情感詞的上下文語義環(huán)境。為了方便計算,文本運用語義詞來刻畫情感詞的上下文關(guān)系,具體形式如定義2所示。

      定義 22:語義詞設(shè)一個五元組w=<we, Neg,Adv, Pos, Q>是個語義詞,we表示主題內(nèi)情感實體詞,Neg表示we的否定前綴,Adv表示we的修飾前綴,Pos表示否定詞位置,Q表示we的極性。

      語義詞w的情感計算過程如下:按照文本順序讀取一個詞we,首先判斷we是否為情感實體詞,如果是,則根據(jù)we在文本中的位置讀取出前綴詞,并對前綴詞進(jìn)行詞性判斷,按公式(9)對we進(jìn)行情感計算;否則讀取下個詞語,并重復(fù)上述過程。

      式中:Neg(we)表示we的否定權(quán)重;Pos(wn)表示否定詞的位置權(quán)重;Q(we)表示情感翻轉(zhuǎn)系數(shù);Adv(we)表示we修飾權(quán)重。其中,Neg(we)和 Adv(we)可進(jìn)一步分解,分解公式分別如式(10)和(11)所示。

      式(10)~(11)中:t表示否定詞出現(xiàn)的次數(shù);V表示修飾詞出現(xiàn)的數(shù)量。根據(jù)文本語義規(guī)則,否定詞位置影響著修飾詞對情感實體詞的修飾程度,本文對否定詞的位置權(quán)重做如下規(guī)定:若否定詞在修飾詞前,則 Pos(wn)取值為 0.5;若在修飾詞后,則取值為1。

      2.3.2 話題暴力計算

      通過卡方檢驗從話題負(fù)情感集E中篩選出話題暴力特征詞,按照式(9)計算每個暴力詞的情感值,然后再對所有暴力詞進(jìn)行情感求和,得到話題暴力值。由于網(wǎng)絡(luò)暴力值是負(fù)值,為了直觀地對網(wǎng)絡(luò)話題暴力進(jìn)行描述,文本對話題暴力值進(jìn)行翻轉(zhuǎn),把暴力值映射到正數(shù)區(qū)間內(nèi),具體的話題暴力計算公式如式(12)所示。

      最后,運用式(9)對話題zi內(nèi)其他非暴力詞的情感進(jìn)行計算,再運用式(6)計算話題zi的暴力密度,如果暴力密度超過設(shè)定的閾值即可判斷zi為暴力話題。

      3 實驗分析

      3.1 數(shù)據(jù)來源及預(yù)處理

      本文使用“八爪魚”網(wǎng)絡(luò)數(shù)據(jù)采集器在騰訊新聞中下載了4個話題文本數(shù)據(jù),數(shù)據(jù)包括正文內(nèi)容和評論,具體數(shù)據(jù)詳情如表2所示。為了模擬真實網(wǎng)絡(luò)環(huán)境以便驗證本文方法,把所有下載的話題文章混合放在一起,并隨機(jī)加入20個無主題文本,組成一個混合主題文本集,構(gòu)造一個小規(guī)模網(wǎng)絡(luò)環(huán)境。然后再把主題文本與評論文本建立對應(yīng)關(guān)系。隨后使用Python軟件中提供的Jieba分詞工具對每條新聞文本及評論進(jìn)行分詞,去除停用詞、介詞、語氣詞、轉(zhuǎn)折詞等無用詞后,分別建立新聞文本語料矩陣D和評論文本語料庫C。運用動態(tài)主題數(shù)計算方法獲取D中的主題數(shù)K,再對LDA模型進(jìn)行參數(shù)設(shè)置:α設(shè)置為0.5/K,β設(shè)置為0.1,話題特征詞數(shù)量T=15,抽樣次數(shù)為1 000。

      表2 實驗數(shù)據(jù)集

      3.2 實驗結(jié)果及分析

      運行LDA模型前,運用動態(tài)主題數(shù)識別方法對主題數(shù)K進(jìn)行運算,計算結(jié)果為4,與D中事先混合的主題數(shù)相同,說明動態(tài)主題數(shù)計算方法的精度較高。運用LDA模型對語料庫D中的話題進(jìn)行識別,再用相似度計算公式對語料庫D中的文本按話題進(jìn)行分類,得到話題文本集;然后,對每個話題對應(yīng)的評論文本集進(jìn)行情感計算,并用卡方檢驗從負(fù)面情感詞中篩選出暴力特征;最后,通過暴力密度判定話題的暴力屬性。話題特征詞、評論暴力詞及話題暴力密度計算結(jié)果如表3所示。

      表3 網(wǎng)絡(luò)話題特征詞及暴力特征詞識別結(jié)果

      表3給出了對4個話題特征詞及評論暴力詞的識別結(jié)果,根據(jù)式(4)計算出每個話題的暴力密度。暴力話題密度閾值設(shè)置為0.1。話題2和話題4的暴力密度分別為0.132和0.217,根據(jù)規(guī)則,判斷出話題2和話題4是暴力話題。對實際網(wǎng)絡(luò)文本分析可以發(fā)現(xiàn),在話題2評論中,網(wǎng)友對墜樓女子、女子丈夫及家庭均進(jìn)行了大量的指責(zé),語言尖銳,負(fù)面情感很強(qiáng);話題4是全國“臭名昭著”的“徽州宴”事件,不僅大量網(wǎng)民對徽州宴老板娘實施網(wǎng)絡(luò)暴力,而且全國網(wǎng)紅也圍堵了徽州宴實體店,消費者紛紛退訂,導(dǎo)致徽州宴經(jīng)營受阻,線上線下都遭受了暴力對待。

      話題1和話題3的暴力密度分別是0.013和0.075,均沒有達(dá)到設(shè)定閾值,判定不是暴力話題。從網(wǎng)絡(luò)文本分析看,雖然話題1中的環(huán)衛(wèi)工人在前期遭受到較強(qiáng)的網(wǎng)絡(luò)暴力,部分網(wǎng)民指他觸碰女孩隱私部位,但隨著真相的逐步披露,緊急關(guān)頭救助被卡女童的高尚行為還是被絕大多數(shù)網(wǎng)民所贊同,使得先期的暴力語言逐漸被正能量語言所稀釋,暴力密度逐漸降低,大眾對環(huán)衛(wèi)工人的態(tài)度符合大眾的理性認(rèn)知。對于話題3,從表面上看應(yīng)該會成為暴力話題,但計算結(jié)果卻“出乎意料”,它并不是暴力話題。從網(wǎng)絡(luò)文本分析中可以推斷出它沒有成為暴力話題的原因可能有2個:一是女子酒駕行為沒有對其他人造成傷害,沒有激怒網(wǎng)民;二是大多數(shù)網(wǎng)民在酒駕女子的“滑稽表演”中完全充當(dāng)吃瓜看客,評論語言既委婉又諷刺,負(fù)情感不是非常強(qiáng)烈,也體現(xiàn)出了網(wǎng)民“吃瓜群眾”的天然屬性。

      3.3 性能評價

      文本的實驗數(shù)據(jù)集是事先用4個話題文本集與20個無主題文本混合而成,為了驗證本文方法(LDA-χ2)的話題暴力識別性能,把實驗運算得到的話題內(nèi)暴力特征詞與混合前4個原始話題內(nèi)標(biāo)注暴力特征詞進(jìn)行對比,再以黃瑞[14]提出的方法(NVLD)做對比,2種方法對4個話題內(nèi)暴力特征詞的識別性能如表4所示。從表4可以看出,在4個話題的混合文本集上,文本方法的暴力特征詞組識別性能(F值)好于NVLD方法,說明文本的話題暴力特征詞識別效果達(dá)到了良好的水平。

      表4 暴力特征識別性能對比

      4 結(jié)語

      為了在復(fù)雜網(wǎng)絡(luò)環(huán)境中精確挖掘網(wǎng)絡(luò)暴力話題,本文提出了一種LDA模型和卡方檢驗網(wǎng)絡(luò)暴力話題識別方法,該方法首先運用LDA模型識別出網(wǎng)絡(luò)文本語料庫中存在的話題,并運用相似度計算方法對話題文本進(jìn)行分類;然后運用卡方檢驗篩選出話題文本中的暴力特征詞,并用情感計算技術(shù)得出話題暴力的值;最后運用暴力密度對話題的暴力屬性進(jìn)行判斷。經(jīng)過實驗驗證,本文方法在網(wǎng)絡(luò)話題網(wǎng)絡(luò)暴力特征識別方面達(dá)到了較好的性能。

      本文方法認(rèn)為暴力特征詞都具有強(qiáng)烈的負(fù)面情感,對于其他情感屬性的暴力詞識別較為困難,如何在多情感分布下提高暴力特征識別精確是下一步需要研究的方向。

      猜你喜歡
      特征詞文檔暴力
      反性別暴力
      有人一聲不吭向你扔了個文檔
      “暴力”女
      基于改進(jìn)TFIDF算法的郵件分類技術(shù)
      產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
      暴力云與送子鸛
      基于RI碼計算的Word復(fù)制文檔鑒別
      Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
      面向文本分類的特征詞選取方法研究與改進(jìn)
      向暴力宣戰(zhàn)
      滦南县| 宝清县| 东方市| 阜阳市| 邻水| 清流县| 资兴市| 芷江| 甘孜县| 清涧县| 咸阳市| 麦盖提县| 乌恰县| 长泰县| 平顶山市| 普安县| 宜宾县| 防城港市| 边坝县| 大足县| 鄂伦春自治旗| 湖南省| 山西省| 富民县| 万载县| 海伦市| 类乌齐县| 全州县| 湛江市| 吴桥县| 五寨县| 巴彦淖尔市| 德惠市| 二连浩特市| 舞钢市| 原平市| 汪清县| 虎林市| 昌黎县| 门源| 南涧|