黃誠(chéng),趙倩銳
基于語(yǔ)言模型詞嵌入和注意力機(jī)制的敏感信息檢測(cè)方法
黃誠(chéng),趙倩銳*
(四川大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,成都 610065)( ? 通信作者電子郵箱2018141531131@stu.scu.edu.cn)
針對(duì)基于關(guān)鍵詞字符匹配和短語(yǔ)級(jí)情感分析等傳統(tǒng)敏感信息檢測(cè)方法準(zhǔn)確率低和泛化性差的問(wèn)題,提出了一種基于語(yǔ)言模型詞嵌入和注意力機(jī)制(A-ELMo)的敏感信息檢測(cè)方法。首先,進(jìn)行字典樹(shù)快速匹配,以最大限度地減少無(wú)用字符的比較,從而極大地提高查詢效率;其次,構(gòu)建了一個(gè)語(yǔ)言模型詞嵌入模型(ELMo)進(jìn)行語(yǔ)境分析,并通過(guò)動(dòng)態(tài)詞向量充分表征語(yǔ)境特征,從而實(shí)現(xiàn)較高的可擴(kuò)展性;最后,結(jié)合注意力機(jī)制加強(qiáng)模型對(duì)敏感特征的識(shí)別度,從而進(jìn)一步提升對(duì)敏感信息的檢測(cè)率。在由多個(gè)網(wǎng)絡(luò)數(shù)據(jù)源構(gòu)成的真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明,所提敏感信息檢測(cè)方法與基于短語(yǔ)級(jí)情感分析的方法相比,準(zhǔn)確率提升了13.3個(gè)百分點(diǎn);與基于關(guān)鍵字匹配的方法相比,準(zhǔn)確率提升了43.5個(gè)百分點(diǎn),充分驗(yàn)證了所提方法在加強(qiáng)敏感特征識(shí)別度、提高敏感信息檢測(cè)率方面的優(yōu)越性。
敏感信息;語(yǔ)言模型詞嵌入;語(yǔ)境分析;注意力機(jī)制;字典樹(shù)
隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)通信技術(shù)的快速發(fā)展,社交網(wǎng)絡(luò)的規(guī)模不斷壯大,推動(dòng)著商業(yè)、文化、教育等領(lǐng)域的革新迭代。社交網(wǎng)絡(luò)每天產(chǎn)生的信息量數(shù)以億計(jì),信息類別龐雜,涉及行業(yè)眾多??梢?jiàn),社交網(wǎng)絡(luò)已經(jīng)成為了社會(huì)信息傳遞的重要途徑。得益于此,廣大的網(wǎng)民可以利用社交平臺(tái)分享自己對(duì)事件的觀點(diǎn)、看法。然而,隨著社交網(wǎng)絡(luò)的發(fā)展及網(wǎng)民規(guī)模的增長(zhǎng),也有越來(lái)越多的不法分子利用互聯(lián)網(wǎng)的匿名性,在社交平臺(tái)發(fā)表惡意評(píng)論或觀點(diǎn),傳播暴力、反動(dòng)、色情、賭博等敏感信息,也有邪教組織開(kāi)始利用社交網(wǎng)絡(luò)進(jìn)行邪教思想傳播,目前我國(guó)已有多起利用微信群、QQ群等傳播邪教信息的案件發(fā)生。
近年來(lái),研究者們開(kāi)始關(guān)注敏感信息檢測(cè)問(wèn)題,并積極開(kāi)展相關(guān)研究和探索[1-3]。現(xiàn)有的研究工作更多關(guān)注對(duì)敏感詞本身的檢測(cè),檢測(cè)方法一般采用關(guān)鍵字匹配方法,即根據(jù)現(xiàn)有語(yǔ)料庫(kù)設(shè)置敏感詞,構(gòu)建出對(duì)應(yīng)的詞庫(kù),在實(shí)際檢測(cè)過(guò)程中將待檢測(cè)文本與詞庫(kù)進(jìn)行比對(duì),如果比對(duì)結(jié)果不為空,系統(tǒng)就將其標(biāo)記為敏感信息并發(fā)出警告。這種方法的優(yōu)勢(shì)在于實(shí)現(xiàn)難度較低、誤報(bào)率低,但是也存在明顯的不足,如檢測(cè)結(jié)果過(guò)于依賴詞庫(kù),僅關(guān)注敏感詞本身,對(duì)于敏感詞的上下文信息考慮不足,不能很好地解決一詞多義問(wèn)題,且敏感詞需要大量人工選擇和標(biāo)記,難以適用于大規(guī)模的語(yǔ)料環(huán)境。
為了彌補(bǔ)上述缺陷,本文提出了一種基于語(yǔ)言模型詞嵌入和注意力機(jī)制(Attention mechanism-based Embedding from Language Model, A-ELMo)的敏感信息檢測(cè)方法。該方法將注意力機(jī)制與語(yǔ)言模型詞嵌入(Embedding from Language Model, ELMo)結(jié)合,加強(qiáng)模型對(duì)敏感特征的識(shí)別度,提升模型對(duì)敏感信息的檢測(cè)率,從而對(duì)文中的敏感詞進(jìn)行有效分類和判定。本文的主要工作如下:
1)采用語(yǔ)言模型詞嵌入(ELMo)替代傳統(tǒng)的Word2Vec、GloVe等模型,通過(guò)運(yùn)用動(dòng)態(tài)詞向量來(lái)表征多義詞,以解決固定詞向量不能很好表征多義詞的問(wèn)題,并通過(guò)在真實(shí)敏感信息上實(shí)驗(yàn)測(cè)試,驗(yàn)證了該模型的有效性。
目前,越來(lái)越多的學(xué)者注意到基于關(guān)鍵字匹配方法存在過(guò)于依賴詞庫(kù),對(duì)敏感詞以外的信息考慮不足等缺陷,并提出一系列方法來(lái)改進(jìn)基于關(guān)鍵字匹配的敏感詞檢測(cè)方法[4-7]。鄧一貴等[8]提出了一種基于決策樹(shù)的信息過(guò)濾算法,該算法考慮了敏感詞以外的要素,并以此確定敏感詞權(quán)重,建立了敏感詞檢測(cè)模型。付聰?shù)龋?]考慮了敏感詞的變形體檢測(cè)問(wèn)題,研究了敏感詞的拼音、簡(jiǎn)稱、拆分三種變形體,分別針對(duì)三種變形體提出了相應(yīng)的識(shí)別算法,實(shí)驗(yàn)結(jié)果表明可以有效檢測(cè)敏感詞。上述方法的檢測(cè)對(duì)象不再局限于敏感詞本身,而是考慮了詞頻、變體等其他要素,提升了對(duì)敏感信息的檢測(cè)效果;但本質(zhì)上仍是基于關(guān)鍵字匹配方法,檢測(cè)對(duì)象盡管由敏感詞延伸至拼音、簡(jiǎn)稱等變體,但仍僅關(guān)注對(duì)象本身,缺乏對(duì)上下文信息的考慮,因此其效果有待進(jìn)一步提高。
為彌補(bǔ)敏感詞匹配僅考慮檢測(cè)對(duì)象本身的缺陷,李揚(yáng)等[10]提出了基于情感分析的敏感詞檢測(cè)方法,該方法考慮了實(shí)際數(shù)據(jù)中敏感詞的分布特性、情感極性等要素,以此提升對(duì)文本敏感性的判別效果。姚艷秋等[11]提出了一種基于Laplace平滑情感判定的文本分類方法,該方法使用Laplace算法對(duì)詞典進(jìn)行擴(kuò)充,然后對(duì)文本進(jìn)行詞間、句型、句間等規(guī)則分析,并計(jì)算情感值,最后在此基礎(chǔ)上對(duì)情感文本進(jìn)行分類。胡思才等[12]提出了一種基于擴(kuò)展的情感詞典和卡方模型的中文情感特征選擇方法,該方法考慮了情感極值對(duì)分類的影響,通過(guò)基于字頻的相似度計(jì)算,提出了帶有情感極性的詞典建立方法,并將帶有情感極性的詞典與卡方模型結(jié)合,提出了基于卡方模型的情感詞分類方法,實(shí)驗(yàn)結(jié)果表明該方法可以一定程度上提升情感詞分類的效果。上述方法通過(guò)對(duì)詞典進(jìn)行擴(kuò)充、情感極性分析等,一定程度考慮了上下文信息,然而,通過(guò)對(duì)句子打分或情感極性評(píng)價(jià)來(lái)進(jìn)行情感分類的方法過(guò)于片面,實(shí)際情況中,一段文本包含多個(gè)情感詞,即使同一個(gè)情感詞也會(huì)因?yàn)樾揎棇?duì)象不同而體現(xiàn)不一樣的情感傾向,所以僅在整體文本的粒度上考慮情感詞的特性和極值不足以對(duì)其中的敏感詞進(jìn)行有效識(shí)別。明弋洋等[13]提出了一種基于短語(yǔ)級(jí)情感分析的敏感信息檢測(cè)方法,該方法考慮到了敏感信息所在的語(yǔ)境語(yǔ)義,同時(shí)考慮了句子的語(yǔ)法規(guī)則,在一定程度上提升了上下文信息不同時(shí)的檢測(cè)效果,但是該方法的泛化性較差,不僅依賴情感詞庫(kù),而且依賴所使用的語(yǔ)法規(guī)則,現(xiàn)實(shí)中的中文句式種類龐雜,依靠經(jīng)驗(yàn)建立的語(yǔ)法規(guī)則難以適用。Guo等[14]提出一種從非結(jié)構(gòu)化數(shù)據(jù)中提取敏感信息的方法,利用了基于內(nèi)容和基于上下文的提取機(jī)制,但是沒(méi)有考慮到真實(shí)的語(yǔ)境信息。Wang等[15]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和最新的預(yù)訓(xùn)練基于變換器的雙向編碼器表示(Bidirectional Encoder Representations from Transformers, BERT)技術(shù)的網(wǎng)絡(luò)敏感信息分類模型,提高了詞嵌入的泛化能力,但并未考慮短文本評(píng)論的互動(dòng)關(guān)系,影響了短文本的預(yù)測(cè)效果。薛朋強(qiáng)等[16]提出了一種基于確定有窮自動(dòng)機(jī)的改進(jìn)算法,該算法使用決策樹(shù)分流提高了查詢效率以及借助拼音縮小了查詢的范圍,但較難識(shí)別多形式的同義詞。Fu等[17]提出了一種基于變異識(shí)別和關(guān)聯(lián)分析的敏感詞檢測(cè)方法,給出了變異識(shí)別和相似度計(jì)算的方法,主要包括同義詞、代用詞、縮略語(yǔ)和詞形變化,然后結(jié)合規(guī)則對(duì)敏感詞進(jìn)行判斷,但其運(yùn)行成本太大,很難運(yùn)用于不斷變化形式的網(wǎng)絡(luò)敏感詞。此外,文獻(xiàn)[18-19]從多種角度檢測(cè)敏感信息,但是仍未從根本上解決誤報(bào)問(wèn)題。
可見(jiàn),盡管現(xiàn)有研究對(duì)基于關(guān)鍵字匹配的敏感詞檢測(cè)方法進(jìn)行了不同程度的改進(jìn),但仍然存在不能很好表征多義詞、檢測(cè)時(shí)準(zhǔn)確率低、誤報(bào)率高的問(wèn)題,本文提出一種基于語(yǔ)言模型詞嵌入和注意力機(jī)制的敏感信息檢測(cè)方法,利用語(yǔ)言模型詞嵌入可以有效表征多義詞,結(jié)合注意力機(jī)制可以進(jìn)一步提升對(duì)敏感信息的檢測(cè)率,降低誤報(bào)率。
字典樹(shù)[17]是一種類似于哈希樹(shù)的變種多叉搜索樹(shù),又稱為trie或前綴樹(shù),主要用于字符串的快速檢索和存儲(chǔ),其中根節(jié)點(diǎn)不存儲(chǔ)任何字符,其余每個(gè)節(jié)點(diǎn)存儲(chǔ)一個(gè)字符,根節(jié)點(diǎn)遍歷至葉子節(jié)點(diǎn)的完整路徑代表一個(gè)字符串,搜索字符串時(shí)將目標(biāo)字符串與路徑上的字符串進(jìn)行比較。與哈希樹(shù)不同的是,一個(gè)節(jié)點(diǎn)的所有后代都必須有一個(gè)共同的前綴,這樣可以最大限度地減少無(wú)用字符的比較,極大提高查詢效率。
詞嵌入是現(xiàn)在自然語(yǔ)言處理中最常用的單詞表示法,從早期的獨(dú)熱編碼到神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型訓(xùn)練得到的分布式詞向量[20],以及之后的眾多嵌入式靜態(tài)詞向量都無(wú)法解決一詞多義的問(wèn)題。就Word2Vec而言,其本質(zhì)上是一個(gè)靜態(tài)模型,也就是說(shuō)Word2Vec采用固定的詞向量表征策略,詞匯一旦經(jīng)過(guò)轉(zhuǎn)換后,其詞向量是固定不變的,不會(huì)因?yàn)樯舷挛男畔⒉煌淖?,這種情況對(duì)于多義詞是非常不友好的。例如英文中的Bank這個(gè)單詞,既有河岸的意思,又有銀行的意思,但在使用Word2Vec進(jìn)行詞向量表征的預(yù)訓(xùn)練時(shí),對(duì)于多義詞Word2Vec會(huì)輸出一個(gè)混合多義詞的詞向量,但這個(gè)詞向量是固定的,不會(huì)隨語(yǔ)境改變。
ELMo是一種在詞向量或詞嵌入中表示詞匯的新方法,與Word2Vec、GloVe等同屬于詞向量嵌入模型,其中包含字符級(jí)CNN、雙向長(zhǎng)短期記憶(Long Short-Term Memory, LSTM)等子模塊。ELMo的提出就是為了解決這種語(yǔ)境問(wèn)題,動(dòng)態(tài)地去更新詞的詞嵌入。ELMo的本質(zhì)思想是:事先用語(yǔ)言模型在一個(gè)大的語(yǔ)料庫(kù)上學(xué)習(xí)好詞的詞嵌入。在實(shí)際使用中,既能以詞匯為單位生成詞向量作為ELMo模型的輸入,也能以字符為單位生成字符向量作為輸入。為了避免詞典外的詞語(yǔ)無(wú)法被表示以及詞匯過(guò)多造成的存儲(chǔ)空間利用率低的問(wèn)題,本文以字符為單位生成字符向量,再將字符向量作為CNN的輸入,生成的詞向量作為ELMo的輸入,在使用過(guò)程中僅需保存字符向量和模型參數(shù),減少了存儲(chǔ)空間的占用。
(2)生產(chǎn)階段。從檢驗(yàn)單證的監(jiān)管部門責(zé)任及信息采集實(shí)現(xiàn),到生產(chǎn)階段的產(chǎn)品等級(jí)劃分及層級(jí)包裝形成在倉(cāng)儲(chǔ)和運(yùn)輸環(huán)節(jié)可追溯的包裝體系建設(shè)。
本文提出的基于A-ELMo的敏感信息檢測(cè)方法優(yōu)勢(shì)在于:1)采用ELMo替代傳統(tǒng)的Word2Vec、GloVe等模型,通過(guò)運(yùn)用動(dòng)態(tài)詞向量來(lái)表征多義詞,有效彌補(bǔ)傳統(tǒng)方法不能很好處理一詞多義的缺陷;2)在ELMo語(yǔ)言模型之上引入注意力機(jī)制,根據(jù)敏感程度賦予詞匯不同的權(quán)重,加強(qiáng)了模型對(duì)敏感信息的識(shí)別;3)引入了字典樹(shù)匹配,在進(jìn)行情感分析前,先使用結(jié)巴(jieba)函數(shù)將文本切分成詞,輸入字典樹(shù)對(duì)敏感詞進(jìn)行快速匹配,有效減少了需要A-ELMo分析的詞匯數(shù)量,提高了檢測(cè)效率。如圖1所示,收到待檢測(cè)文本后,首先將文本按一定的規(guī)則進(jìn)行分句,再以分句為單位進(jìn)行分詞,獲得輸入字符;其次,構(gòu)建敏感詞所對(duì)應(yīng)的字典樹(shù),從根節(jié)點(diǎn)開(kāi)始,將輸入字符依次向下匹配,判斷輸入內(nèi)容是否包含敏感詞,如果包含,則使用A-ELMo進(jìn)行情感分析,分析的結(jié)果用于判斷該句子是否需要報(bào)警。
圖1 基于A-ELMo的敏感信息檢測(cè)方法流程
英文有天然的空格作為分隔符來(lái)區(qū)分單詞,而中文的單詞之間不存在分隔符,分詞后會(huì)產(chǎn)生大量的單詞字符,若將所有待檢測(cè)文本作為ELMo輸入會(huì)影響時(shí)間及準(zhǔn)確率。為解決這一問(wèn)題,本文將對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并使用字典樹(shù)判斷,作為初步篩選,減少需要輸入到ELMo的字符數(shù)量。首先,是對(duì)待檢測(cè)文本按一定的規(guī)則進(jìn)行分句,以句子為單位進(jìn)行處理。由于在關(guān)鍵字匹配階段采用的是字典樹(shù)快速匹配,所以需要對(duì)句子進(jìn)行分詞??紤]到待檢測(cè)的文本是以句子為單位,每個(gè)句子所含分詞有限,本文對(duì)各種類型敏感詞庫(kù)中的敏感詞構(gòu)建相應(yīng)的字典樹(shù),利用不同字符串有相同的前綴來(lái)構(gòu)建節(jié)點(diǎn),不僅在一定程度上縮小了存儲(chǔ)空間,也提高了字符串檢索的速度和檢測(cè)的準(zhǔn)確率。對(duì)于輸入的待檢測(cè)文本,先用jieba函數(shù)切分成詞后,再依次輸入字典樹(shù)進(jìn)行匹配,從而快速匹配出敏感詞。
如果匹配到敏感詞匯,則進(jìn)一步輸入A-ELMo進(jìn)行情感分析,模型結(jié)構(gòu)如圖1中A-ELMo情感分析部分所示,包含注意力機(jī)制和ELMo。ELMo的詞向量是在雙層雙向語(yǔ)言模型上計(jì)算的,由兩層雙向的長(zhǎng)短期記憶網(wǎng)絡(luò)疊在一起,每層都有前向和后向兩種迭代。將句子處理為詞向量后,輸入雙向語(yǔ)言模型中第一層;前向迭代中包含了該詞以及該詞之前的一些詞匯或語(yǔ)境的信息;后向迭代中包含了該詞之后的信息;這兩種迭代的信息組成了中間詞向量;這些中間詞向量被輸入到模型的下一層;最終表示(ELMo)就是原始詞向量和兩個(gè)中間詞向量的加權(quán)和。因?yàn)殡p向語(yǔ)言模型的輸入度量是字符而不是詞匯,該模型能捕捉詞的內(nèi)部結(jié)構(gòu)信息。比如“反動(dòng)”和“反動(dòng)的”,即使不了解這兩個(gè)詞的上下文,雙向語(yǔ)言模型也能夠識(shí)別出它們?cè)谝欢ǔ潭壬系南嚓P(guān)性。
本文所提模型結(jié)合了前、后向語(yǔ)言模型,最大化其聯(lián)合似然函數(shù),如式(3)所示:
如圖2所示,敏感性越高的詞匯其權(quán)重越高。生成ELMo向量后再使用一個(gè)全連接層神經(jīng)網(wǎng)絡(luò)層[21]和SoftMax[22]函數(shù)進(jìn)行分類。
在報(bào)警決策階段,本文制定了如下規(guī)則[8]:當(dāng)正向敏感信息所在句子的情感是積極的,負(fù)向敏感信息所在的句子情感是消極的,則不報(bào)警;反之則報(bào)警。對(duì)于中性敏感詞,無(wú)論其所在情感傾向如何,都做出報(bào)警決策。
本文從敏感信息檢測(cè)方法、詞嵌入模型及語(yǔ)言模型訓(xùn)練效率三個(gè)方面對(duì)所提基于A-ELMo的敏感信息檢測(cè)方法的性能表現(xiàn)進(jìn)行了實(shí)驗(yàn)驗(yàn)證。搭建實(shí)驗(yàn)環(huán)境為Intel Core i7-9700 CPU @3.00 GHz,8 GB RAM,Windows 10 OS,編程語(yǔ)言為Python 3.7。采用準(zhǔn)確率、召回率以及精確率作為評(píng)估所提方法性能表現(xiàn)的3種評(píng)價(jià)指標(biāo)。
將本文方法與常用于敏感信息檢測(cè)的短語(yǔ)級(jí)情感分析法[6]及關(guān)鍵詞匹配法進(jìn)行了對(duì)比實(shí)驗(yàn)。將本文采用的A-ELMo和GloVe[23]、Word2Vec[24]、FastText[25]、文獻(xiàn)[26]方法、文獻(xiàn)[27]方法等進(jìn)行了實(shí)驗(yàn)對(duì)比。其中:Word2Vec和GloVe均采用固定詞向量表征+詞匯級(jí)別的詞向量嵌入方式,F(xiàn)astText采用固定詞向量表征+字符級(jí)別的詞向量嵌入方式,文獻(xiàn)[26]方法采用注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)敏感信息,文獻(xiàn)[27]方法采用自注意力機(jī)制和圖卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)敏感信息。此外,還將本文方法與無(wú)詞向量嵌入的情況進(jìn)行了消融實(shí)驗(yàn)對(duì)比,無(wú)詞向量嵌入實(shí)驗(yàn)中去除了A-ELMo,將詞在語(yǔ)料庫(kù)中的索引經(jīng)過(guò)簡(jiǎn)單編碼后作為輸入。在訓(xùn)練效率上,本文將A-ELMo中的Bi-LSTM替換成其他具有相同功能的模型進(jìn)行了消融實(shí)驗(yàn)對(duì)比。
本文爬取了人民網(wǎng)、新華網(wǎng)、央視新聞等網(wǎng)頁(yè)上的486篇新聞報(bào)道作為白樣本,另外從境外中文網(wǎng)站下載了357篇博客文章作為黑樣本,組合形成本文所使用的數(shù)據(jù)集。其中,486篇新聞報(bào)道包含了15 800個(gè)“共產(chǎn)黨”“中國(guó)政府”等敏感詞匯,但均屬于正常的新聞報(bào)道;357篇博客文章包含類似敏感詞匯9 350個(gè),均屬于敏感文章。本文將新聞報(bào)道和博客文章按自然句劃分,并按句子長(zhǎng)度設(shè)置閾值進(jìn)行過(guò)濾,提取并選擇實(shí)驗(yàn)數(shù)據(jù)如表1所示。在實(shí)驗(yàn)過(guò)程中,按7∶3劃分訓(xùn)練、測(cè)試數(shù)據(jù)。
表1 實(shí)驗(yàn)數(shù)據(jù)集
在進(jìn)行情感分析之前,需要對(duì)ELMo進(jìn)行預(yù)訓(xùn)練,以獲得上下文相關(guān)的詞向量信息。原始數(shù)據(jù)包括正常的新聞數(shù)據(jù)集和敏感信息數(shù)據(jù)集,預(yù)處理首先去除內(nèi)容中的空行、特殊符號(hào),過(guò)濾詞語(yǔ)少于3個(gè)的句子,利用jieba分詞進(jìn)行每句話的切詞處理。
本文使用Word2Vec工具的skip-gram[28]模型作為字符向量表征模型,在獲得字符向量后,將其作為輸入來(lái)初始化字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)的嵌入層,學(xué)習(xí)分詞語(yǔ)料,獲得模型參數(shù)。
將本文所提的敏感信息檢測(cè)方法與短語(yǔ)級(jí)情感分析方法[13]、關(guān)鍵字匹配方法進(jìn)行對(duì)比實(shí)驗(yàn),在準(zhǔn)確率、召回率、精確率3個(gè)指標(biāo)上進(jìn)行了性能對(duì)比,結(jié)果如表2所示。
表2 3種方法在3個(gè)指標(biāo)上的性能對(duì)比 單位:%
本文方法不僅與關(guān)鍵字匹配方法相比,在檢測(cè)的準(zhǔn)確率和速度上有提升,在準(zhǔn)確率、召回率上較基于短語(yǔ)級(jí)情感分析的不良信息檢測(cè)方法[13]也有較大提升。另外,雖然模型訓(xùn)練所用的數(shù)據(jù)集不是真正敏感信息數(shù)據(jù)集,而是采用大量公開(kāi)數(shù)據(jù)集進(jìn)行訓(xùn)練,但在所選的測(cè)試數(shù)據(jù)集上已取得較高的召回率。
考慮到不同的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)會(huì)造成不同的結(jié)果,本文將數(shù)據(jù)隨機(jī)化后,按照4∶1的比例切分訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù),結(jié)果如表3所示。實(shí)驗(yàn)結(jié)果表明,本文的方法在新的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)下依舊保持良好的檢測(cè)效果,相較于現(xiàn)有的短語(yǔ)級(jí)情感分析、關(guān)鍵字匹配有明顯的提升。
表3 3種方法經(jīng)數(shù)據(jù)隨機(jī)化后的在3個(gè)指標(biāo)上的性能對(duì)比 單位:%
此外,將本文方法分別與FastText[25]、Word2Vec[24]、GloVe[23]、文獻(xiàn)[26]方法、文獻(xiàn)[27]方法及無(wú)詞向量嵌入情況分別進(jìn)行了充分的實(shí)驗(yàn)對(duì)比,結(jié)果如表4所示。
表4 7種方法所用的詞嵌入模型在3個(gè)指標(biāo)上的性能對(duì)比 單位:%
為了研究LSTM的訓(xùn)練效率,將本文A-ELMo的Bi-LSTM部分替換成具有相同功能(可作為語(yǔ)言模型)的一維卷積神經(jīng)網(wǎng)絡(luò)(1D-CNN)、層級(jí)softmax[22]、Transformer[19]進(jìn)行對(duì)比,其中層級(jí)softmax為FastText[25]工作中使用的方法、Transformer為文獻(xiàn)[19]中使用的方法,1D-CNN是大量用于序列建模的基準(zhǔn)方法。不同方法達(dá)到各自最佳測(cè)試性能對(duì)應(yīng)的訓(xùn)練時(shí)間如表5所示。
表5 4種語(yǔ)言模型在4個(gè)指標(biāo)上的性能對(duì)比
實(shí)驗(yàn)結(jié)果表明:盡管Bi-LSTM的訓(xùn)練時(shí)間相較于其他方法更長(zhǎng),但其測(cè)試效果有顯著提高;此外,由于Bi-LSTM能提取更為抽象的語(yǔ)義,且與ELMo的詞嵌入更加適配,可以更好解決一詞多義問(wèn)題,因此其檢測(cè)準(zhǔn)確率明顯優(yōu)于其他方法。
針對(duì)基于關(guān)鍵詞字符匹配和短語(yǔ)級(jí)情感分析方法等傳統(tǒng)敏感信息檢測(cè)方法準(zhǔn)確率低和泛化性差的問(wèn)題,本文提出了一種基于語(yǔ)言模型詞嵌入和注意力機(jī)制(A-ELMo)的敏感信息檢測(cè)方法。該方法采用了ELMo進(jìn)行語(yǔ)境分析,有效降低了一詞多義對(duì)檢測(cè)效果的影響,并結(jié)合注意力機(jī)制,增強(qiáng)了模型對(duì)敏感特征的識(shí)別度,進(jìn)一步提升對(duì)敏感信息的檢測(cè)率。在由多個(gè)網(wǎng)絡(luò)數(shù)據(jù)源構(gòu)成的真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),驗(yàn)證了所提方法在檢測(cè)敏感信息上的有效性。
從實(shí)驗(yàn)結(jié)果來(lái)看,所提方法的精確率相較準(zhǔn)確率和召回率依然具備一定的提升空間,可以在未來(lái)工作中考慮運(yùn)用在線學(xué)習(xí)的方法來(lái)進(jìn)一步提高檢測(cè)精確率,減少誤報(bào)。
[1] QIAO H, TIAN Z, LI W L, et al. A sensitive information detection method based on network traffic restore[C]// Proceedings of the 12th International Conference on Measuring Technology and Mechatronics Automation. Piscataway: IEEE, 2020: 832-836.
[2] XU Y Y, LI Y X, ZHANG Z Y. Sensitive text classification and detection method based on sentiment analysis[J]. International Core Journal of Engineering, 2021, 7(5): 60-66.
[3] DIAS M, BONé J, FERREIRA J C, et al. Named entity recognition for sensitive data discovery in Portuguese[J]. Applied Sciences, 2020, 10(7): No.2303.
[4] ESIN Y E, ALAN O, ALPASLAN F N. Improvement on corpus- based word similarity using vector space models[C]// Proceedings of the 24th International Symposium on Computer and Information Sciences. Piscataway: IEEE, 2009: 280-285.
[5] SUNDERMEYER M, SCHLüTER R, NEY H. LSTM Neural networks for language modeling[C]// Proceedings of the Interspeech 2012. [S.l.]: International Speech Communication Association, 2012: 194-197.
[6] LIU W Y, WEN Y D, YU Z D, et al. Large-margin softmax loss for convolutional neural networks[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 507-516.
[7] GUTHRIE D, ALLISON B, LIU W, et al. A closer look at skip-gram modelling[C]// Proceedings of the 5th International Conference on Language Resources and Evaluation. [S.l.]: European Language Resources Association, 2006: 1222-1225.
[8] 鄧一貴,伍玉英. 基于文本內(nèi)容的敏感詞決策樹(shù)信息過(guò)濾算法[J]. 計(jì)算機(jī)工程, 2014, 40(9):300-304.(DENG Y G, WU Y Y. Information filtering algorithm of test content-based sensitive words decision tree[J]. Computer Engineering, 2014, 40(9): 300-304.)
[9] 付聰,余敦輝,張靈莉. 面向中文敏感詞變形體的識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用研究, 2019, 36(4):988-991.(FU C, YU D H, ZHANG L L. Study on identification method for change from of Chinese sensitive words[J]. Application Research of Computers, 2019, 36(4): 988-991.)
[10] 李揚(yáng),潘泉,楊濤. 基于短文本情感分析的敏感信息識(shí)別[J]. 西安交通大學(xué)學(xué)報(bào), 2016, 50(9):80-84.(LI Y, PAN Q, YANG T. Sensitive information recognition based on short text sentiment analysis[J]. Journal of Xi’an Jiaotong University, 2016, 50(9): 80-84.)
[11] 姚艷秋,鄭雅雯,呂妍欣. 基于LS-SO算法的情感文本分類方法[J]. 吉林大學(xué)學(xué)報(bào)(理學(xué)版), 2019, 57(2):375-379.(YAO Y Q, ZHENG Y W, LYU Y X. Emotional text classification method based on LS-SO algorithm[J]. Journal of Jilin University (Science Edition), 2019, 57(2): 375-379.)
[12] 胡思才,孫界平,琚生根,等. 基于擴(kuò)展的情感詞典和卡方模型的中文情感特征選擇方法[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 56(1):37-44.(HU S C, SUN J P, JU S G, et al. Chinese emotion feature selection method based on the extended emotion dictionary and the chi-square model[J]. Journal of Sichuan University (Natural Science Edition), 2019, 56(1): 37-44.)
[13] 明弋洋,劉曉潔. 基于短語(yǔ)級(jí)情感分析的不良信息檢測(cè)方法[J]. 四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2019, 56(6):1042-1048.(MING Y Y, LIU X J. Sensitive information detection based on phrase-level sentiment analysis[J]. Journal of Sichuan University (Natural Science Edition), 2019, 56(6):1042-1048.)
[14] GUO Y Y, LIU J Y, TANG W W, et al. ExSense: extract sensitive information from unstructured data[J]. Computers and Security, 2021, 102: No.102156.
[15] WANG Y J, SHEN X J, YANG Y J. The classification of Chinese sensitive information based on BERT-CNN[C]// Proceedings of the 2019 International Symposium on Intelligence Computation and Applications, CCIS 1205. Singapore: Springer, 2020: 269-280.
[16] 薛朋強(qiáng),努爾布力,吾守爾·斯拉木. 基于網(wǎng)絡(luò)文本信息的敏感信息過(guò)濾算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2016, 37(9):2447-2452.(XUE P Q, NURBOL, ISLAM W. Sensitive information filtering algorithm based on text information network[J]. Computer Engineering and Design, 2016, 37(9): 2447-2452.)
[17] FU Y, YU Y, WU X P. A sensitive word detection method based on variants recognition[C]// Proceedings of the 2019 International Conference on Machine Learning, Big Data and Business Intelligence. Piscataway: IEEE, 2019: 47-52.
[18] DING M, WANG X, WU C M, et al. Research on automated detection of sensitive information based on BERT[J]. Journal of Physics: Conference Series, 2021, 1757: No.012088.
[19] BIGONHA M A S, FERREIRA K, SOUZA P, et al. The usefulness of software metric thresholds for detection of bad smells and fault prediction[J]. Information and Software Technology, 2019, 115: 79-92.
[20] 李丹陽(yáng),趙亞慧,羅夢(mèng)江,等. 基于字典樹(shù)語(yǔ)言模型的專業(yè)課查詢文本校對(duì)方法[J]. 延邊大學(xué)學(xué)報(bào)(自然科學(xué)版), 2020, 46(3):260-264.(LI D Y, ZHAO Y H, LUO M J, et al. Query text proofreading method of professional courses based on trie tree language model[J]. Journal of Yanbian University (Natural Science), 2020, 46(3): 260-264.)
[21] LOPEZ M M, KALITA J. Deep learning applied to NLP[EB/OL]. (2017-03-09) [2021-03-13].https://arxiv.org/pdf/1703.03091.pdf.
[22] 周飛燕,金林鵬,董軍. 卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J]. 計(jì)算機(jī)學(xué)報(bào), 2017, 40(6):1229-1251.(ZHOU F Y, JIN L P, DONG J. Review of convolutional neural network[J]. Chinese Journal of Computers, 2017, 40(6):1229-1251.)
[23] PENNINGTON J, SOCHER R, MANNING C D. GloVe: global vectors for word representation[C]// Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 1532-1543.
[24] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-09-07) [2021-03-13].https://arxiv.org/pdf/1301.3781.pdf.
[25] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics (Volume 2: Short Papers). Stroudsburg, PA: Association for Computational Linguistics, 2017: 427-431.
[26] SHARMIN S, CHAKMA D. Attention-based convolutional neural network for Bangla sentiment analysis[J]. AI and Society, 2021, 36(1): 381-396.
[27] LIU Y, YANG C Y, YANG J. A graph convolutional network-based sensitive information detection algorithm[J]. Complexity, 2021, 2021: No.6631768.
[28] BENGIO Y, DUCHARME R, VINCENT P, et al. A neural probabilistic language model[J]. Journal of Machine Learning Research, 2003, 3: 1137-1155.
HUANG Cheng, born in 1987, Ph. D., associate professor. His research interests include network security, attack and defense technology.
ZHAO Qianrui, born in 2000. Her research interests include cyberspace security.
Sensitive information detection method based on attention mechanism-based ELMo
HUANG Cheng, ZHAO Qianrui*
(,,610065,)
In order to solve the problems of low accuracy and poor generalization of the traditional sensitive information detection methods such as keyword character matching-based method and phrase-level sentiment analysis-based method, a sensitive information detection method based on Attention mechanism-based Embedding from Language Model (A-ELMo) was proposed. Firstly, the quick matched of trie tree was performed to reduce the comparison of useless words significantly, thereby improving the query efficiency greatly. Secondly, an Embedding from Language Model (ELMo) was constructed for context analysis, and the dynamic word vectors were used to fully represent the context characteristics to achieve high scalability. Finally, the attention mechanism was combined to enhance the identification ability of the model for sensitive features, and further improve the detection rate of sensitive information. Experiments were carried out on real datasets composed of multiple network data sources. The results show that the accuracy of the proposed sensitive information detection method is improved by 13.3 percentage points compared with that of the phrase-level sentiment analysis-based method, and the accuracy of the proposed method is improved by 43.5 percentage points compared with that of the keyword matching-based method, verifying that the proposed method has advantages in terms of enhancing identification ability of sensitive features and improving the detection rate of sensitive information.
sensitive information; Embedding from Language Model (ELMo); context analysis; attention mechanism; trie tree
This work is partially supported by National Natural Science Foundation of China (61902265), Key Research and Development Program of Science and Technology Department of Sichuan Province (2020YFG0076).
1001-9081(2022)07-2009-06
10.11772/j.issn.1001-9081.2021050877
2021?05?27;
2021?08?27;
2021?08?30。
國(guó)家自然科學(xué)基金資助項(xiàng)目(61902265);四川省科技廳重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2020YFG0076)。
TP183
A
黃誠(chéng)(1987—),男,重慶云陽(yáng)人,副教授,博士,CCF會(huì)員,主要研究方向:網(wǎng)絡(luò)安全、攻防技術(shù); 趙倩銳(2000—),女,四川巴中人,主要研究方向:網(wǎng)絡(luò)空間安全。