• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于SSI-GuidedLDA模型的引導(dǎo)式網(wǎng)絡(luò)敏感信息識(shí)別研究*

      2023-11-23 13:11:14吳樹(shù)芳侯曉舟
      情報(bào)雜志 2023年11期
      關(guān)鍵詞:博文語(yǔ)義聚類(lèi)

      吳樹(shù)芳 楊 強(qiáng) 侯曉舟 尹 萌

      (1.河北大學(xué)管理學(xué)院 保定 071000;2.河北大學(xué)外國(guó)語(yǔ)學(xué)院 保定 071000)

      0 引 言

      網(wǎng)絡(luò)敏感信息的泛濫會(huì)導(dǎo)致輿情失控、引起公眾恐慌、加劇社會(huì)矛盾,從而嚴(yán)重威脅到國(guó)家安全和社會(huì)穩(wěn)定[1-2]。因此,有效識(shí)別出網(wǎng)絡(luò)敏感信息具有極大的價(jià)值,已經(jīng)引起國(guó)內(nèi)外學(xué)者的廣泛關(guān)注。

      為了更加準(zhǔn)確、高效地識(shí)別網(wǎng)絡(luò)敏感信息,研究者們進(jìn)行了大量研究,提出了多種識(shí)別方法,包括基于敏感詞匹配的網(wǎng)絡(luò)敏感信息識(shí)別、基于傳統(tǒng)機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別和基于深度學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別,這些研究為網(wǎng)絡(luò)輿情監(jiān)測(cè)、社交媒體管理和網(wǎng)絡(luò)信息安全等領(lǐng)域提供了有力的技術(shù)支持。

      1 相關(guān)研究

      目前已有網(wǎng)絡(luò)敏感信息識(shí)別研究主要從以下三方面展開(kāi):

      一是基于敏感詞匹配的網(wǎng)絡(luò)敏感信息識(shí)別,該類(lèi)方法通過(guò)構(gòu)建敏感詞庫(kù)并與待檢測(cè)文本進(jìn)行匹配來(lái)識(shí)別網(wǎng)絡(luò)敏感信息,如楊忠[3]提出在網(wǎng)絡(luò)直播活動(dòng)中審核禁忌性詞語(yǔ),通過(guò)敏感詞匹配的審核方式對(duì)網(wǎng)絡(luò)敏感信息進(jìn)行把關(guān);付聰?shù)萚4]利用敏感詞的拼音、簡(jiǎn)稱和拆分三種變形體優(yōu)化擴(kuò)充敏感詞庫(kù),有效提高了敏感詞匹配的全面性;Fu等[5]通過(guò)對(duì)敏感詞進(jìn)行語(yǔ)義擴(kuò)展來(lái)解決敏感詞數(shù)量不足的問(wèn)題,并利用拼音匹配方法識(shí)別縮寫(xiě)、字符分割以及字符替換等形式的敏感詞變形體;劉聰?shù)萚6]構(gòu)建了暴恐敏感詞典,在此基礎(chǔ)上將敏感觸發(fā)事件與敏感詞之間的文本相似度進(jìn)行匹配實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息識(shí)別;李瀛等[7]通過(guò)人工篩選詞向量模型輸出的敏感詞及其相關(guān)詞構(gòu)建新聞敏感詞庫(kù),利用敏感詞匹配識(shí)別新聞中的敏感信息;吳樹(shù)芳等[8]通過(guò)融合敏感先驗(yàn)概率、敏感語(yǔ)義相關(guān)性和復(fù)合共現(xiàn)優(yōu)化擴(kuò)展敏感詞典,提高了敏感詞匹配的全面性和準(zhǔn)確性?;诿舾性~匹配的研究方法實(shí)現(xiàn)簡(jiǎn)單,但是過(guò)度依賴于敏感詞典的構(gòu)建,而敏感詞典的更新需要耗費(fèi)大量人力物力。

      二是基于傳統(tǒng)機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別,該類(lèi)研究突破了對(duì)敏感詞典的依賴,如Li等[9]根據(jù)敏感信息特征獲取有效的支持向量來(lái)訓(xùn)練支持向量機(jī),提高了網(wǎng)絡(luò)敏感信息識(shí)別的速度和準(zhǔn)確率;Xu等[10]依據(jù)各類(lèi)網(wǎng)絡(luò)敏感信息的特征,對(duì)比得出SVM比樸素貝葉斯和決策樹(shù)擁有更好的網(wǎng)絡(luò)敏感信息識(shí)別能力;余敦輝等[11]通過(guò)分析敏感詞的結(jié)構(gòu)和讀音等特征,構(gòu)建敏感詞決策樹(shù)識(shí)別拼音、簡(jiǎn)稱和拆分三種敏感詞變形體;王藝皓等[12]等結(jié)合敏感詞的文字特征和決策樹(shù)的特點(diǎn)構(gòu)建敏感信息決策樹(shù),實(shí)現(xiàn)了對(duì)網(wǎng)絡(luò)敏感信息的檢測(cè)和過(guò)濾;陳祖琴等[13]通過(guò)提取網(wǎng)絡(luò)敏感信息中的實(shí)體特征、信息詞特征和情景特征,使用樸素貝葉斯分類(lèi)器生成網(wǎng)絡(luò)敏感信息與情景間的映射關(guān)系,分析了網(wǎng)絡(luò)敏感信息的情景畫(huà)像,以期提高網(wǎng)絡(luò)敏感信息的識(shí)別效果;Xu等[14]在LDA模型基礎(chǔ)上,通過(guò)加權(quán)提高敏感詞的分布權(quán)重,在特定類(lèi)型的新聞數(shù)據(jù)集上提取出了敏感主題特征,實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息主題識(shí)別。然而,基于傳統(tǒng)機(jī)器學(xué)習(xí)的研究方法在進(jìn)行語(yǔ)義挖掘時(shí)十分困難,尤其是在多特征學(xué)習(xí)中。

      三是基于深度學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別,深度學(xué)習(xí)的多特征學(xué)習(xí)能力為解決基于傳統(tǒng)機(jī)器學(xué)習(xí)進(jìn)行網(wǎng)絡(luò)敏感信息識(shí)別的不足提供了堅(jiān)實(shí)的基礎(chǔ),如Xu等[15]利用Text-CNN文本分類(lèi)模型的上下文語(yǔ)義特征學(xué)習(xí)能力,提高了網(wǎng)絡(luò)敏感信息的識(shí)別效率;Li等[16]通過(guò)引入局部卷積特征和全局語(yǔ)義特征,提出了一種多級(jí)卷積神經(jīng)網(wǎng)絡(luò)和計(jì)算敏感詞權(quán)重相結(jié)合的方法,利用局部及全局語(yǔ)義信息與相應(yīng)敏感詞權(quán)重之間的關(guān)系構(gòu)建敏感信息的特征,在此基礎(chǔ)上實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息的識(shí)別。Liu等[17]利用圖卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制提取敏感詞的特征并用于檢測(cè)文本中的敏感詞,從而實(shí)現(xiàn)網(wǎng)絡(luò)敏感信息識(shí)別;Ding等[18]將BERT模型應(yīng)用于網(wǎng)絡(luò)敏感信息識(shí)別,通過(guò)對(duì)模型參數(shù)進(jìn)行微調(diào),取得了較好的識(shí)別效果;Cong等[19]通過(guò)結(jié)合預(yù)訓(xùn)練的知識(shí)圖譜中文實(shí)體嵌入模型和CNN分類(lèi)模型,對(duì)中文文本輸入中的實(shí)體進(jìn)行特征提取,有效地實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息識(shí)別;高浩鑫等[20]通過(guò)將BERT模型學(xué)習(xí)到的敏感文本語(yǔ)義特征與圖卷積網(wǎng)絡(luò)學(xué)習(xí)到的敏感文本全局共現(xiàn)特征相結(jié)合,以提高網(wǎng)絡(luò)敏感信息識(shí)別效果。

      上述研究中,基于敏感詞匹配和基于傳統(tǒng)機(jī)器學(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別方法在構(gòu)建敏感信息特征時(shí)依賴于人的經(jīng)驗(yàn)和判斷,導(dǎo)致敏感信息特征構(gòu)建不全面?;谏疃葘W(xué)習(xí)的網(wǎng)絡(luò)敏感信息識(shí)別方法雖然可以自動(dòng)構(gòu)建一組特征來(lái)反映敏感信息,但由于深度學(xué)習(xí)屬于無(wú)監(jiān)督學(xué)習(xí),故學(xué)習(xí)到的特征的準(zhǔn)確性有待提升。GuidedLDA主題模型可以通過(guò)種子詞自動(dòng)引導(dǎo)生成有傾向性的敏感主題特征,有效解決上述研究存在的不足。如果直接將GuidedLDA主題模型用于網(wǎng)絡(luò)敏感信息識(shí)別存在如下問(wèn)題:由于敏感種子詞數(shù)量有限,可能導(dǎo)致引導(dǎo)式生成的敏感主題不夠全面和準(zhǔn)確,為解決該問(wèn)題,本文在已有研究的基礎(chǔ)上,提出了一種融合敏感語(yǔ)義信息的引導(dǎo)式LDA模型SSI-GuidedLDA(Guided LDA with Sensitive Semantic Information),以實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)敏感信息的有效識(shí)別,并實(shí)驗(yàn)驗(yàn)證了研究?jī)?nèi)容的有效性。

      2 引導(dǎo)式網(wǎng)絡(luò)敏感信息識(shí)別

      2.1 研究設(shè)計(jì)

      本文的研究框架主要包括三部分:敏感種子詞及敏感語(yǔ)義相關(guān)詞獲取、構(gòu)建引導(dǎo)式主題模型SSI-GuidedLDA和基于SSI-GuidedLDA模型的網(wǎng)絡(luò)敏感信息識(shí)別,如圖1所示。

      圖1 網(wǎng)絡(luò)敏感信息識(shí)別研究框架

      基于SSI-GuidedLDA模型的引導(dǎo)式網(wǎng)絡(luò)敏感信息識(shí)別方法首先需要獲取敏感種子詞及敏感語(yǔ)義相關(guān)詞,以此構(gòu)建敏感特征;然后將構(gòu)建的敏感特征融入GuidedLDA主題模型,實(shí)現(xiàn)SSI-GuidedLDA模型的構(gòu)建;最后基于該模型實(shí)現(xiàn)網(wǎng)絡(luò)敏感信息識(shí)別,具體步驟如下:

      第1步,敏感種子詞及敏感語(yǔ)義相關(guān)詞獲取:從各種網(wǎng)絡(luò)資源中篩選出敏感種子詞,并采用K-means方法對(duì)敏感種子詞進(jìn)行聚類(lèi)得到C類(lèi)敏感種子詞集。利用詞向量模型計(jì)算敏感種子詞和爬取的網(wǎng)絡(luò)資源中其它詞的相似度,得到種子詞的敏感語(yǔ)義相關(guān)詞。

      第2步,構(gòu)建引導(dǎo)式主題模型SSI-GuidedLDA:在GuidedLDA主題模型的基礎(chǔ)上,將分類(lèi)后的敏感種子詞集和敏感語(yǔ)義相關(guān)詞集融入SSI節(jié)點(diǎn),實(shí)現(xiàn)對(duì)SSI-GuidedLDA主題模型的構(gòu)建,該模型依據(jù)輸入的網(wǎng)絡(luò)資源引導(dǎo)生成C個(gè)敏感主題以及無(wú)監(jiān)督生成K-C個(gè)非敏感主題。

      第3步,網(wǎng)絡(luò)敏感信息識(shí)別:根據(jù)SSI-GuidedLDA主題模型可以得到待識(shí)別博文的博文-主題分布,將該分布下概率最大的主題作為博文的主題分配結(jié)果,通過(guò)判斷主題分配結(jié)果是否為敏感主題實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)敏感信息的精準(zhǔn)識(shí)別。

      2.2 敏感種子詞及敏感語(yǔ)義相關(guān)詞獲取

      2.2.1敏感種子詞獲取

      由于目前沒(méi)有公開(kāi)的敏感詞列表,本文將通過(guò)搜集和篩選網(wǎng)絡(luò)上的敏感資源獲取敏感種子詞:首先從一些影響力較大的網(wǎng)絡(luò)平臺(tái)中搜集敏感資源,如微博、百度、知乎中的敏感信息以及發(fā)布在GitHub上的敏感詞典;然后將網(wǎng)絡(luò)敏感資源中的敏感詞作為查詢?cè)谛吕宋⒉┲羞M(jìn)行檢索,篩選出檢索反饋結(jié)果為“根據(jù)相關(guān)法律法規(guī)和政策,搜索結(jié)果未予顯示”的敏感詞作為敏感種子詞。本文最終得到1323個(gè)敏感種子詞,并將其構(gòu)建為敏感種子詞集合S。

      為了引導(dǎo)生成不同類(lèi)別的敏感主題,我們將對(duì)獲取到的敏感種子詞進(jìn)行聚類(lèi)分析。K-means算法是經(jīng)典的聚類(lèi)算法之一,其算法穩(wěn)定,能夠克服短文本內(nèi)容稀疏的問(wèn)題[21],而本文聚類(lèi)的對(duì)象主要是短文本,故采用K-means算法進(jìn)行聚類(lèi)。為了得到較好的聚類(lèi)結(jié)果,本文通過(guò)手肘法來(lái)確定最優(yōu)聚類(lèi)數(shù):即隨著聚類(lèi)數(shù)的增加,核心指標(biāo)值下降幅度由驟減到平緩拐點(diǎn)所對(duì)應(yīng)的聚類(lèi)數(shù)為最優(yōu)聚類(lèi)數(shù)。手肘法的核心指標(biāo)為誤差平方和SSE[22],其準(zhǔn)則函數(shù)定義為

      (1)

      其中,C是聚類(lèi)數(shù),Ci表示第i個(gè)類(lèi),p表示Ci中的樣本點(diǎn),mi表示Ci中的均值點(diǎn)。

      本文計(jì)算得到不同聚類(lèi)數(shù)下的誤差平方和如圖2所示,圖中橫坐標(biāo)是不同聚類(lèi)數(shù)量,縱坐標(biāo)為不同聚類(lèi)數(shù)對(duì)應(yīng)的誤差平方和SSE。

      圖2 不同聚類(lèi)數(shù)下的SSE值

      觀察圖2,根據(jù)手肘法[22]可以確定最優(yōu)聚類(lèi)數(shù)為7。通過(guò)分析各類(lèi)別敏感種子詞的語(yǔ)義特征,種子詞集的7類(lèi)敏感詞分別為:S1政治敏感類(lèi)、S2暴恐類(lèi)、S3邪教封迷類(lèi)、S4色情類(lèi)、S5賭博類(lèi)、S6違禁品類(lèi)和S7欺詐類(lèi),聚類(lèi)結(jié)果與我國(guó)2020年實(shí)施的《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》[23]描述一致,說(shuō)明我們實(shí)驗(yàn)爬取的數(shù)據(jù)比較全面,基本覆蓋了所有類(lèi)別的網(wǎng)絡(luò)敏感信息,本文爬取的敏感種子詞規(guī)模如表1所示。

      表1 敏感種子詞信息

      2.2.2敏感語(yǔ)義相關(guān)詞獲取

      當(dāng)前,在詞向量訓(xùn)練模型當(dāng)中,Word2Vec訓(xùn)練得到的詞向量語(yǔ)義豐富,能夠較好地表達(dá)不同詞之間的相似度和類(lèi)比關(guān)系[24-25],故本文采用該模型進(jìn)行詞向量訓(xùn)練,將詞映射到高維向量空間中,其中詞wi訓(xùn)練后的向量表示如式(2)所示。

      wi=(wi1,…,wir,…,wiR)

      (2)

      其中,wir表示詞向量wi的第r維元素,R表示詞向量的維度。獲取詞語(yǔ)的向量表示后,詞wi,wj的相似度采用公式(3)計(jì)算:

      (3)

      通過(guò)設(shè)置語(yǔ)義相似度閾值λ來(lái)判斷種子詞的敏感語(yǔ)義相關(guān)詞,考慮到不同類(lèi)的敏感種子詞閾值不同,論文將在實(shí)驗(yàn)部分獲取7類(lèi)敏感種子詞的不同相似度閾值λi(i=1,2,…,7)。當(dāng)詞語(yǔ)與種子詞之間的語(yǔ)義相似度大于等于λi時(shí),認(rèn)為該詞是第i類(lèi)種子詞的敏感語(yǔ)義相關(guān)詞。本文最終獲取得到7類(lèi)敏感語(yǔ)義相關(guān)詞集SSk。

      2.3SSI-GuidedLDA主題模型的構(gòu)建

      GuidedLDA通過(guò)引入種子詞集合,將無(wú)監(jiān)督的LDA主題模型更改為半監(jiān)督的主題模型,來(lái)引導(dǎo)生成與種子詞相關(guān)聯(lián)的主題[26]。但是在基本的GuidedLDA中沒(méi)有考慮敏感種子詞的敏感語(yǔ)義信息,語(yǔ)義信息的融入可以生成更加全面、準(zhǔn)確的敏感主題特征來(lái)描述網(wǎng)絡(luò)敏感信息?;诖?本文構(gòu)建了SSI-GuidedLDA主題模型,模型圖及其符號(hào)描述如圖3所示。

      圖3 SSI-GuidedLDA模型圖

      SSI-GuidedLDA主題模型以類(lèi)別劃分后的敏感種子詞集及其敏感語(yǔ)義相關(guān)詞集作為SSI節(jié)點(diǎn)的輸入,輸入形式為

      SSI={SSI1:[S1,SS1],…,SSI7:[S7,SS7],SSI8:[ ],…,SSIK:[ ]}

      以爬取的網(wǎng)絡(luò)資源數(shù)據(jù)作為SSI-GuidedLDA主題模型的輸入,即D條由詞語(yǔ)特征組成的文本文檔。第一次迭代是對(duì)D條文檔中的每個(gè)特征初始化主題,如果當(dāng)前特征w存在于SSIk中,則通過(guò)種子置信度SC的值增加當(dāng)前特征w初始化為主題k的概率,因此,初始化主題完成后的第k個(gè)主題特征分布當(dāng)中,存在于SSIk中的特征相比于其它特征概率更大。主題初始化過(guò)程表明SSIk中敏感詞在引導(dǎo)生成主題k當(dāng)中的作用大小由種子置信度SC確定,置信度越大,SSIk中敏感詞引導(dǎo)生成的主題k傾向于敏感詞所屬類(lèi)型的概率越高,依據(jù)文獻(xiàn)[27]將SC設(shè)置為0.8。

      在每一次進(jìn)一步迭代中,需要為每個(gè)特征的主題進(jìn)行采樣,采樣公式如下:

      (4)

      其中,zi表示為當(dāng)前特征i抽取的主題;i表示除i以外;V表示訓(xùn)練數(shù)據(jù)集的詞表特征數(shù);表示除i以外,主題k下特征t的數(shù)量;表示除i以外,文檔d中主題為k的特征數(shù)量;依據(jù)文獻(xiàn)[27]將α和β分別設(shè)置為0.1和0.01。

      根據(jù)式(5),迭代過(guò)程中以最大化文檔-主題相關(guān)度和主題-特征相關(guān)度的乘積為目標(biāo),為每個(gè)特征抽取主題。因?yàn)閷儆谥黝}k的特征中,SSIk中的敏感詞有更高的概率,所以SSIk中敏感詞抽取到主題k的概率變大。

      模型經(jīng)過(guò)多次迭代達(dá)到收斂,迭代完成后的主要輸出為:主題-特征分布,即每個(gè)主題由其詞語(yǔ)特征分布定義,如表2所示。通過(guò)分析SSI-GuidedLDA主題模型的迭代過(guò)程可以發(fā)現(xiàn),該模型可以通過(guò)SSIk中的敏感詞引導(dǎo)生成有傾向性的敏感主題特征分布:當(dāng)k∈{1,…,7}時(shí),該模型依據(jù)SSIk中的敏感詞引導(dǎo)生成相應(yīng)類(lèi)型的敏感主題,即政治敏感主題、暴恐主題、邪教封迷主題、色情主題、賭博主題、違禁品主題和欺詐主題;當(dāng)k大于7時(shí),SSIk中沒(méi)有敏感詞,故相應(yīng)主題為無(wú)引導(dǎo)生成的主題,為非敏感主題。

      表2 主題特征分布矩陣

      SSI-GuidedLDA在主題生成過(guò)程中,不僅考慮了通過(guò)敏感種子詞引導(dǎo)生成敏感主題,還考慮了種子詞的敏感語(yǔ)義信息,通過(guò)融合敏感語(yǔ)義信息,使種子詞的敏感語(yǔ)義相關(guān)詞也參與引導(dǎo)生成敏感主題,提高了相關(guān)敏感詞被分類(lèi)到同一主題中的概率,提升了敏感主題表示的完備性和準(zhǔn)確性。

      2.4 網(wǎng)絡(luò)敏感信息識(shí)別

      基于SSI-GuidedLDA模型的網(wǎng)絡(luò)敏感信息識(shí)別流程如下:

      a.將待識(shí)別博文進(jìn)行預(yù)處理,包括分詞、除去停用詞等。

      b.將待識(shí)別博文輸入到主題模型中,可以得到每篇博文的博文-主題分布,即每篇博文blog屬于各主題的概率:blog={k=1:P1,…,k=7:P7,…,k=K:PK}。一個(gè)主題概率越大則表示博文內(nèi)容屬于這個(gè)主題類(lèi)型的概率越高,將博文-主題分布下概率最高的主題表示為博文的主題分配,可以提取得到每篇博文的主題分配結(jié)果Result。

      c.根據(jù)待識(shí)別博文的主題分配結(jié)果和主題定義進(jìn)行網(wǎng)絡(luò)敏感信息識(shí)別:若一篇博文的主題分配結(jié)果Result∈{1,…,7},則該博文屬于敏感信息;若一篇博文的主題分配結(jié)果Result∈{8,…,K},則該博文屬于非敏感信息。

      3 實(shí) 驗(yàn)

      3.1 數(shù)據(jù)集

      為驗(yàn)證基于SSI-GuidedLDA模型的引導(dǎo)式網(wǎng)絡(luò)敏感信息識(shí)別方法的有效性,采用新浪微博數(shù)據(jù)作為實(shí)證研究數(shù)據(jù)集。我們共爬取微博195110條,運(yùn)用德?tīng)柗品╗28]從中篩選出29383條敏感博文,并對(duì)其敏感類(lèi)型進(jìn)行了標(biāo)注。為了更有效地進(jìn)行實(shí)驗(yàn),對(duì)采集到的數(shù)據(jù)進(jìn)行分詞和除去停用詞,在分詞過(guò)程中,為了防止敏感種子詞被分詞處理,將種子詞添加到用戶詞典中,以此來(lái)保證分詞結(jié)果更加準(zhǔn)確。

      3.2 評(píng)價(jià)指標(biāo)

      本文采用分類(lèi)模型中常用的三種評(píng)價(jià)指標(biāo):準(zhǔn)確率、召回率和F1值進(jìn)行評(píng)價(jià)[29]。其中,F1值為權(quán)衡準(zhǔn)確率和召回率的評(píng)估度量值,指標(biāo)取值越大表示識(shí)別性能越好。準(zhǔn)確率、召回率、F1值可以通過(guò)公式(5)、公式(6)、公式(7)計(jì)算得到:

      (5)

      (6)

      (7)

      其中,TP表示被識(shí)別為敏感信息,實(shí)際也為敏感信息的個(gè)數(shù);FP表示被識(shí)別為敏感信息,但實(shí)際為非敏感信息的個(gè)數(shù);FN表示被識(shí)別為非敏感信息,但實(shí)際為敏感信息的個(gè)數(shù)。

      3.3 參數(shù)設(shè)置

      本文方法的關(guān)鍵參數(shù)為:語(yǔ)義相似度閾值λ和Word2Vec訓(xùn)練參數(shù)。在Word2Vec詞向量訓(xùn)練時(shí),本文將詞向量維度vector_size設(shè)置為300,選擇CBOW訓(xùn)練模型sg=0,將min_count設(shè)置為0,以此來(lái)保證一些出現(xiàn)次數(shù)極低的敏感詞不被忽略。

      關(guān)于語(yǔ)義相似度閾值λ:當(dāng)設(shè)置較大λ時(shí),可以將敏感語(yǔ)義相關(guān)詞限制為一組與敏感種子詞高度相關(guān)的單詞,然而,設(shè)置一個(gè)高相似度界限,可能會(huì)遺漏一些敏感語(yǔ)義相關(guān)詞;當(dāng)設(shè)置較小λ時(shí),則難以保證敏感語(yǔ)義相關(guān)詞與敏感種子詞的相關(guān)性。為了確定合適的λ值,本文將在數(shù)據(jù)集上根據(jù)不同閾值參數(shù)的分類(lèi)結(jié)果,分別計(jì)算識(shí)別各類(lèi)網(wǎng)絡(luò)敏感信息的F1值,以此確定各個(gè)語(yǔ)義相似度閾值。具體地,首先在[0.1,1]區(qū)間內(nèi)以步長(zhǎng)0.1分別取各個(gè)語(yǔ)義相似度閾值,觀察發(fā)現(xiàn),當(dāng)閾值為0.8或0.9時(shí),F1值較大,然后,進(jìn)一步在[0.8,0.95]區(qū)間內(nèi)以步長(zhǎng)0.03取閾值進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖4所示:

      圖4 各個(gè)類(lèi)別隨閾值調(diào)整對(duì)應(yīng)的F1值

      通過(guò)圖4可以觀察得到,當(dāng)政治敏感、暴恐、邪教封迷、色情、賭博、違禁品和欺詐類(lèi)語(yǔ)義相似度閾值分別為0.86、0.86、0.86、0.89、0.90、0.83和0.83時(shí),F1值達(dá)到最大,故本文將λ1、λ2、λ3、λ4、λ5、λ6和λ7依次設(shè)置為上述值。

      3.4 結(jié)果與分析

      為了驗(yàn)證SSI-GuidedLDA主題模型的有效性,選取了3種基線模型與本文方法進(jìn)行對(duì)比,模型簡(jiǎn)寫(xiě)及其解釋如表3所示:

      表3 模型簡(jiǎn)寫(xiě)及其解釋

      采用準(zhǔn)確率、召回率和F1值衡量網(wǎng)絡(luò)敏感信息識(shí)別性能,借鑒文獻(xiàn)[31]的實(shí)驗(yàn)思路,將主題數(shù)K依次設(shè)置為10、30、50。通過(guò)實(shí)驗(yàn)可以得到各個(gè)模型識(shí)別網(wǎng)絡(luò)敏感信息的整體效果,從而對(duì)不同模型的網(wǎng)絡(luò)敏感信息識(shí)別性能進(jìn)行客觀的衡量和比較。實(shí)驗(yàn)結(jié)果如圖5所示:

      通過(guò)圖5可知,SSI-GuidedLDA在不同主題數(shù)條件下的識(shí)別性能均表現(xiàn)良好,相比于LDA、SW-LDA和GuidedLDA在準(zhǔn)確率上分別平均提高7.67%、6.12%、4.31%;在召回率上分別平均提高13.70%、12.10%、7.13%;在F1值上分別平均提高10.36%、8.78%、5.55%。這是因?yàn)镾SI-GuidedLDA通過(guò)融入種子詞的敏感語(yǔ)義信息,利用種子詞及其敏感語(yǔ)義相關(guān)詞引導(dǎo)敏感主題的生成,最大程度地提高了敏感主題特征質(zhì)量,從而能夠表現(xiàn)出良好的識(shí)別性能。LDA由于不能根據(jù)數(shù)據(jù)集的特點(diǎn)監(jiān)督敏感主題的生成,因此其得到的敏感主題特征質(zhì)量較低,難以準(zhǔn)確識(shí)別出網(wǎng)絡(luò)敏感信息;SW-LDA僅利用加權(quán)提高敏感詞的分布權(quán)重,未從根本上提高敏感主題特征質(zhì)量;GuidedLDA雖然可以通過(guò)種子詞引導(dǎo)生成敏感主題,但未深入挖掘敏感詞的敏感語(yǔ)義信息,而本文提出的模型在上述模型的基礎(chǔ)上融入了敏感語(yǔ)義信息。

      為了未來(lái)能得到更好的識(shí)別效果,我們深入分析了本文識(shí)別錯(cuò)誤的實(shí)例,以下為三個(gè)識(shí)別錯(cuò)誤的博文示例:

      示例1:揭開(kāi)“全能神”邪教畫(huà)皮。

      示例2:王洪光中將霸氣表態(tài):美國(guó)在臺(tái)灣部署薩德?他敢?!那就是解放臺(tái)灣之日!……,港獨(dú),臺(tái)獨(dú),合流的話就一塊干掉啊!

      示例3:阿彌陀佛!誦《乾隆大藏經(jīng)》之《大般若波羅蜜多經(jīng)》第三十五卷,諸佛菩薩加持,……,法輪常轉(zhuǎn),正法久住!

      上述三個(gè)示例中包含敏感詞“邪教”、“臺(tái)獨(dú)”和“法輪”等,因此SSI-GuidedLDA模型會(huì)將這些博文識(shí)別為敏感信息。但該類(lèi)博文并未涉及任何違反道德或法律規(guī)定的內(nèi)容,只是表達(dá)了宣傳警示、對(duì)國(guó)家的信仰、以及一些佛教用語(yǔ)和祈愿語(yǔ),因此不屬于網(wǎng)絡(luò)敏感信息。產(chǎn)生錯(cuò)誤識(shí)別的原因是由于論文提出的識(shí)別方法僅通過(guò)詞語(yǔ)概率獲得主題和博文的概率分布,沒(méi)有挖掘上下文語(yǔ)境,未來(lái)我們將對(duì)此展開(kāi)深入研究。

      4 結(jié) 語(yǔ)

      考慮到現(xiàn)有網(wǎng)絡(luò)敏感信息識(shí)別方法存在的不足,本文將敏感語(yǔ)義信息和引導(dǎo)式主題模型相結(jié)合,提出了一種融合敏感語(yǔ)義信息的引導(dǎo)式主題模型SSI-GuidedLDA,并基于該模型實(shí)現(xiàn)了網(wǎng)絡(luò)敏感信息的精準(zhǔn)識(shí)別。本文雖然在一定程度上提高了網(wǎng)絡(luò)敏感信息識(shí)別性能,但尚存不足之處,后續(xù)研究擬圍繞以下內(nèi)容展開(kāi):a.本文以離線形式的新浪微博作為數(shù)據(jù)集,而網(wǎng)絡(luò)敏感信息識(shí)別的目的是即時(shí)發(fā)現(xiàn)并阻斷其傳播,故后續(xù)研究我們擬使用數(shù)據(jù)流形式的微博數(shù)據(jù)對(duì)網(wǎng)絡(luò)敏感信息識(shí)別模型進(jìn)行改進(jìn)。b.本文中的敏感語(yǔ)義信息僅考慮了敏感種子詞的語(yǔ)義信息,但還有其他多個(gè)方面有利于敏感語(yǔ)義信息的豐富,如:上下文語(yǔ)境、情感信息和用戶信息等,故后續(xù)研究將深入挖掘其他有效信息,進(jìn)一步提高敏感語(yǔ)義信息的準(zhǔn)確性,進(jìn)而提高網(wǎng)絡(luò)敏感信息識(shí)別性能。

      猜你喜歡
      博文語(yǔ)義聚類(lèi)
      第一次掙錢(qián)
      語(yǔ)言與語(yǔ)義
      誰(shuí)和誰(shuí)好
      基于DBSACN聚類(lèi)算法的XML文檔聚類(lèi)
      “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
      Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
      基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
      一種層次初始的聚類(lèi)個(gè)數(shù)自適應(yīng)的聚類(lèi)方法研究
      認(rèn)知范疇模糊與語(yǔ)義模糊
      打電話2
      阿合奇县| 醴陵市| 平顺县| 南通市| 扎兰屯市| 祁连县| 台江县| 蕉岭县| 凌源市| 江北区| 海淀区| 渑池县| 栾川县| 安顺市| 无极县| 双牌县| 基隆市| 云梦县| 米林县| 手机| 彩票| 甘南县| 启东市| 林周县| 区。| 迭部县| 潼关县| 靖边县| 普宁市| 津市市| 嵊泗县| 铜陵市| 金乡县| 清新县| 嘉荫县| 荣成市| 道孚县| 鄂温| 水富县| 高尔夫| 琼中|