摘" 要: 針對各類網(wǎng)站為了避免被檢測到敏感信息,網(wǎng)站內(nèi)的文字常采用變體詞對敏感詞詞庫進行規(guī)避。為解決這一問題,文中提出一種基于BERT模型結(jié)合變體字還原算法的網(wǎng)站敏感信息識別的方法。該方法將針對文本中的變體詞進行還原,通過采用BERT模型對文本內(nèi)容進行向量化,并將其輸入由BiLSTM層和CNN層構(gòu)成的模型進行訓練,從而實現(xiàn)對網(wǎng)站內(nèi)敏感信息及其變體詞的識別。實驗結(jié)果顯示,變體詞還原的正確率較高,通過BERT模型獲取的文本向量在文本分類任務中表現(xiàn)出色。與其他模型相比,BERT?BiLSTM?CNN模型在網(wǎng)站敏感信息識別任務中表現(xiàn)出更高的準確率、召回率和[F1]值,呈現(xiàn)明顯的提升。文中模型為變體詞還原問題和敏感信息識別領(lǐng)域提供了參考和支持,具有一定的實際應用價值。
關(guān)鍵詞: 網(wǎng)站; 敏感信息; 變體詞; BERT; 雙向長短期記憶網(wǎng)絡; 卷積神經(jīng)網(wǎng)絡
中圖分類號: TN711?34; TP391.1" " " " " " " " " 文獻標識碼: A" " " " " " " " " " "文章編號: 1004?373X(2024)23?0105?08
Research on website sensitive information identification and variant restoration technology based on BERT model
FU Zefan1, YAO Jingfa2, 3, TENG Guifa1, 4, 5
(1. College of Information Science and Technology, Hebei Agricultural University, Baoding 071001, China;
2. Software Engineering Department, Hebei Software Institute, Baoding 071000, China;
3. Hebei College Intelligent Interconnection Equipment and Multi?modal Big Data Application Technology Research and Development Center, Baoding 071000, China;
4. Hebei Digital Agriculture Industry Technology Research Institute, Shijiazhuang 050021, China;
5. Hebei Key Laboratory of Agricultural Big Data, Baoding 071001, China)
Abstract: In view of the rapid development of the network and the decreasing cost of website establishment, to avoid detection of sensitive information, variant words are frequently utilized within texts of various types of websites, so that the sensitive word databases can be evaded. Therefore, this study proposes a method for identifying website sensitive information based on a BERT (bidirectional encoder representation from transformers) model combined with a variant word restoration algorithm. In this method, the variant words within the texts are restored, the text content are vectorized by the BERT model and then inputted into a model composed of BiLSTM (bi?directional long short?term memory) layer and CNN (convolutional neural network) layer for training, so as to achieve the identification of sensitive information and its variant words within websites. Experimental results demonstrate a high accuracy in variant word restoration, and the text vectors obtained by the BERT model exhibit excellent performance in the tasks of text classification. In comparison with the other models, the BERT?BiLSTM?CNN model demonstrates higher accuracy rate, recall rate, and [F1] score in the task of identifying sensitive information on websites, which indicates a significant improvement. The proposed model provides reference and support for variant word restoration and the field of sensitive information identification, possessing a certain practical application value.
Keywords: website; sensitive information; variant word; BERT; BiLSTM; CNN
0" 引" 言
隨著網(wǎng)絡和經(jīng)濟的發(fā)展,互聯(lián)網(wǎng)用戶的增多,個人網(wǎng)站的創(chuàng)建成本大幅降低,網(wǎng)站數(shù)量日益增長。我國發(fā)布的《中華人民共和國網(wǎng)絡安全法》對保護隱私信息、追查敏感信息及維護國家信息安全等方面提出了嚴格要求。為更準確、高效地識別網(wǎng)絡敏感信息,研究者們進行了大量研究,提出了多種方法,包括基于敏感詞匹配的網(wǎng)絡敏感信息識別、基于傳統(tǒng)機器學習的網(wǎng)絡敏感信息識別和基于深度學習的網(wǎng)絡敏感信息識別[1]。這些研究提供了主要的思路和方向,為當前的網(wǎng)絡信息安全和網(wǎng)站內(nèi)容管理等領(lǐng)域提供了理論依據(jù),對于網(wǎng)站內(nèi)可能存在的敏感信息的識別提供了技術(shù)支持。
另一方面,網(wǎng)站內(nèi)的內(nèi)容書寫相較于正式的板書更為隨意,其中會摻雜著大量的網(wǎng)絡用語,對于變體字的使用也較為頻繁。為了避免和躲避網(wǎng)絡監(jiān)管的審查和檢測,部分網(wǎng)站內(nèi)的文本內(nèi)容會采用大量的變體字進行規(guī)避,通過變體字躲避網(wǎng)絡監(jiān)管的敏感詞詞庫的檢測。而中文漢字的多變性和諧音也阻礙了更好地檢測出網(wǎng)站內(nèi)可能存在的敏感信息。對于變體字的還原和識別成為敏感信息識別和檢測的重要課題之一。
以上問題的出現(xiàn)有礙于對網(wǎng)站內(nèi)容的管理和敏感信息的識別檢測。針對這些問題,本文引入變體詞還原算法對變體詞進行還原,并且通過構(gòu)建BERT?BiLSTM?CNN語言模型對網(wǎng)站內(nèi)可能存在的敏感信息識別任務進行訓練,主要工作如下。
1) 對變體詞進行識別和還原:由于變體詞形式較為多變,如拼音、縮寫、添詞、刪詞等形式均在當今互聯(lián)網(wǎng)網(wǎng)站中以組合的形式出現(xiàn),這使得敏感詞詞庫難以通過簡單的匹配檢測出文本中可能包含的敏感信息。因此,在對敏感信息進行檢測和識別之前需要對變體詞進行識別,將其還原為原來的詞語,為后續(xù)的敏感信息檢測工作提供語料。
2) 訓練語言模型以識別變體字和敏感信息:通過采用BERT模型對文本內(nèi)容進行向量化。BiLSTM用于捕獲文本的上下文信息,CNN則可以通過使用不同尺寸的卷積核對待測文本的語義信息進行提取。實驗結(jié)果表明,該模型在變體詞和敏感信息的識別任務上對比其他模型表現(xiàn)更優(yōu)。
1" 相關(guān)工作
當前對于互聯(lián)網(wǎng)網(wǎng)站的敏感信息識別的主要研究方法大體可以分為以下三類。
1) 基于敏感信息匹配原則,通過構(gòu)建敏感詞詞庫和相應的詞典,根據(jù)詞典中對應的敏感詞進行敏感信息的檢測以及后續(xù)的分類識別。如文獻[2]通過人工構(gòu)建敏感信息詞庫的方式,根據(jù)敏感詞在語料中的頻率計算文本信息的敏感度,從而實現(xiàn)對互聯(lián)網(wǎng)中存在的敏感信息的識別。此類方法依賴于敏感詞庫和詞典的構(gòu)建,同時整體算法的最終效果也與敏感詞詞庫和詞典的質(zhì)量相關(guān)。需要消耗一定的人力和時間專注于敏感詞詞庫的維護。此類方法在面對突發(fā)事件和專項行動任務時,對于新出現(xiàn)的個別敏感詞無法進行精確的識別,從而導致時效性較差。
2) 基于傳統(tǒng)的機器學習的敏感信息識別,通過特征提取的方式實現(xiàn)了對于敏感信息的識別檢測。如文獻[3]從敏感信息特征中提取出支持向量,對支持向量機進行訓練,通過這種方法提高網(wǎng)絡敏感信息識別的檢測速度以及其準確性。文獻[4]從輿情特征信息詞中提取出包含的輿情敏感信息,研究輿情敏感信息與突發(fā)事件情景之間的關(guān)系,通過生成映射函數(shù)的方法提高網(wǎng)絡敏感信息不同情景的分類效果。
3) 基于深度學習的敏感信息識別。在機器學習的基礎上,通過引入深度學習算法和神經(jīng)網(wǎng)絡,以彌補機器學習在語義信息和語境判斷方面的不足。如文獻[5]使用深度學習的方法,對于輿情中含有敏感信息的部分進行識別和篩查,以發(fā)現(xiàn)網(wǎng)絡中含有敏感信息的部分。文獻[6]通過BERT模型方法和語義分析方法相結(jié)合,對新聞的風險水平進行評估,實現(xiàn)了網(wǎng)絡新聞敏感信息識別和敏感程度計算。
在中文變體字研究方面,文獻[7]通過分析漢字的結(jié)構(gòu)和讀音等特征,針對詞的簡稱、拼音和拆分三種變體形式提出了一種中文敏感詞變形體的識別方法。文獻[8]則構(gòu)建了概率模型,研究敏感詞中的拼音、縮寫等變形體的特征對變體詞識別并且實現(xiàn)了變體詞的還原。
2" BERT?BiLSTM?CNN模型構(gòu)建
2.1" 模型設計
本文通過結(jié)合BERT模型和BiLSTM(雙向長短期記憶)網(wǎng)絡以及CNN(卷積神經(jīng)網(wǎng)絡)來構(gòu)建BERT?BiLSTM?CNN模型。整個模型結(jié)構(gòu)分為五個主要部分,分別是輸入層、BERT層、BiLSTM層、CNN層以及最后的輸出層。在輸入層處輸入待檢測的網(wǎng)站文本內(nèi)容,通過變體詞的還原算法對需要檢測的文本內(nèi)容進行變體字的檢測與還原,將含有變體詞的文本轉(zhuǎn)換成普通待檢測的文本。規(guī)定輸入的文件格式為csv文件,并且字段與規(guī)定字段相匹配。通過BERT層對文本內(nèi)容進行預處理,并且進行詞向量轉(zhuǎn)換。由BERT層進入BiLSTM層和CNN層后,對網(wǎng)站文本內(nèi)容的深層語義特征進行提取,最后在文本輸出部分輸出文本內(nèi)容檢測結(jié)果。具體模型結(jié)構(gòu)如圖1所示。
2.2" 變體詞還原算法
針對網(wǎng)站文本內(nèi)容中可能出現(xiàn)的填詞、少詞、改詞、拼音、縮寫等變體形式,本文采用一種基于編輯距離(Edit Distance)的變體字相似度匹配算法。
首先根據(jù)匹配算法通過構(gòu)建的敏感詞詞庫在文本內(nèi)容中檢索出所有含敏感詞的文本,將文本認定為敏感信息并不參與接下來的變體字還原工作?;诰庉嬀嚯x的算法主要依靠與變體詞和還原后的詞之間的編輯距離進行相似度的判斷。編輯距離本質(zhì)是操作步數(shù),當一個字符串轉(zhuǎn)化為另一個字符串時需要通過一定的步數(shù)進行轉(zhuǎn)換,編輯距離為所需的最少操作步數(shù)。例如原詞的漢字排列為“我愛你”,進行變體后的變體詞為“我你愛”。將“我愛你”替換為“我你愛”需要進行2次替換修改操作,則最小編輯距離[d]=2。替換過程如圖2所示。
在針對不同的變體形式中,編輯距離的計算公式也有所不同。假設有兩個字符串[A]和[B],其句子長度分別為[LA]和[LB] ,則計算公式如下:
當進行增加操作時:
[d1=ED(Ai-1,Bj)+1] (1)
當進行刪除操作時:
[d2=ED(Ai,Bj-1)+1] (2)
當進行修改操作,常出現(xiàn)使用拼音或縮寫進行替換,出現(xiàn)拼音縮寫的變體字分為部分為縮寫、全部為縮寫、部分由拼音組成、全部由拼音組成等四種情況[9],例如詞語“六合彩”的拼音縮寫可能是:LHC、6合彩、liu合彩、liuhecai等情況,此時編輯距離的計算公式為:
[d3=ED(Ai-1,Bj-1)," " "Ai=BjED(Ai-1,Bj-1)+1," " "Ai≠Bj] (3)
若同時存在多種狀態(tài),則取上述三種狀態(tài)中的最小值作為最小編輯距離。因此,可以得到一個狀態(tài)轉(zhuǎn)換方程:
[EDAiBj=max(LA,LB)," " LA=0LB=0minED(Ai-1,Bj)+1,ED(Ai,Bj-1)+1,ED(Ai-1,Bj-1)," nbsp; "Ai=BjED(Ai-1,Bj-1)+1," " "Ai≠Bj] (4)
得到最小編輯距離后,通過最小編輯距離計算兩個句子或是詞語之間的相似度,當相似度達到一定閾值時,判斷為存在變體詞并且通過敏感詞詞庫內(nèi)的敏感詞對其進行還原操作。
例如存在句子[A]為“今天氣溫適宜,適合去打球,也適合旅游?!?;存在句子[B]為“今天氣溫正常,適合去玩,也適合去旅游?!眲t它們的最小編輯距離為[d]=5。由此可以計算其相似度,計算公式如下:
[similarity=1-EDABmax(LA,LB)=0.75] (5)
兩個句子具有75%的相似程度,因此可以判斷兩個句子類似為同一句話,其表達的意思相同。變體詞同理,通過計算變體詞和敏感詞詞庫中的詞的最小編輯距離,可以獲得變體詞和敏感詞之間的相似度,當相似度大于75%時,可以判斷該變體詞的還原形式為敏感詞詞庫中的敏感詞,則包含有該變體詞的文本信息判斷為敏感信息。75%的閾值可以隨實際情況而調(diào)整,例如當遇到長句時,可以適當下調(diào)相似度閾值,放在錯漏潛在的包含敏感信息的句子中。
2.3" BERT預訓練模型
中文文本處理與英文有所不同,中文需要考慮到詞和字的區(qū)別。在自然語言處理的語言模型里,BERT系列語言模型效果表現(xiàn)良好。相較于OpenAI的GPT與ELMo這兩個較為主流的語言模型, BERT采用雙向Transformer作為編碼器[10]。BERT系列語言模型包含有根據(jù)任務的大小提供可以選擇的base和large版本,對應參數(shù)如表1所示。
BERT模型主要分為兩個階段:用于使用無標簽數(shù)據(jù)進行訓練的預訓練階段(pre?training)和用于增加輸出層后的微調(diào)階段(fine?tuning)。在預訓練階段進行預訓練任務時,會調(diào)用模型內(nèi)的多個Encoder結(jié)構(gòu),由多個Encoder堆疊而成從而實現(xiàn)預訓練任務,如圖3所示。
BERT預訓練模型的主要部分為雙向Transformer編碼器,主要核心技術(shù)和思想為自注意力機制。其思想是計算一句話中每一詞與所有詞的相互關(guān)系,并利用相互關(guān)系調(diào)整每個詞的權(quán)重來獲得新的表達,表示在詞本身語義的基礎上還包含與其他詞的關(guān)系,可以實現(xiàn)一詞多義的區(qū)分[11]。
對于每個注意力頭,計算公式為:
[Attention(Q,K,V)=SoftmaxQKTdkV] (6)
式中:[Q]為查詢矩陣;[K]為鍵矩陣;[V]為值矩陣。鍵矩陣[K]中的每一個向量維度都是以[dk]來表示:
[dk=d1,d2,…,dn] (7)
由于在詞向量轉(zhuǎn)化過程中,為防止在最終實驗計算過程中詞向量維度過高導致詞向量維度膨脹帶來的計算問題,公式中對詞向量維度進行開平方的計算操作。這樣做的目的是使Softmax歸一化指數(shù)函數(shù)的結(jié)果更加穩(wěn)定,以便接下來在梯度反向傳播過程中模型能夠更加容易地獲取平衡的梯度[12]。
BERT模型具有兩個預訓練任務,分別為掩碼語言模型(Masked Language Model, MLM)任務和NSP任務,通過這兩個任務完成對于文本內(nèi)容特征的學習。其中,MLM是BERT及其變體中最重要的預訓練任務,它模擬了雙向上下文推理能力[13]。
在MLM學習方法中,80%采用[mask]token標記,10%采用隨機選取一個詞來代替[mask]token,10%保持不變,即用句子中的原始token,如表2所示。
2.4" BiLSTM層
長短期記憶(LSTM)網(wǎng)絡由Hochreiter于1997年首次提出。與RNN相比,LSTM增加了一個“門”結(jié)構(gòu),可以控制信息的丟棄或添加,以控制信息的遺忘和記憶[14]。LSTM網(wǎng)絡結(jié)構(gòu)控制信息的傳遞主要依托于遺忘門(forget gate)、輸入門(input gate)和輸出門(output gate)。
通過[t]-1時刻內(nèi)的hidden state [ht-1]來計算遺忘門[ft],輸出門[it],輸入門[ot]的結(jié)果,計算公式如下所示:
[ft=σ(wfxt+ufht-1+bf)] (8)
[it=σ(wixt+uiht-1+bi)] (9)
[ot=σ(woxt+uoht-1+bo)] (10)
通過[t]-1時刻內(nèi)的hidden state [ht-1]來計算候選值[ct]和[ct]的值,計算公式如下所示:
[ct=tanh(wcxt+ucht-1+bc)] (11)
[ct=ft?ct-1+it?ct] (12)
最終根據(jù)輸出門[ot]和[ct]計算外部狀態(tài)[ht]。
[ht=ot?tanh(ct)] (13)
本文采用的LSTM在前后兩個方向上提取更多的特征。前向和后向LSTM接收前一層的輸出,并分別從左到右和從右到左進行處理[15],計算公式如下所示:
[LLSTM=LSTM(wiEi)," " i∈[0,t]] (14)
[LLSTM=LSTM(wiEi)," " i∈[t,0]] (15)
最終雙向LSTM模塊連接起來,整個LSTM模塊接收BERT模塊處理后的向量化輸入,將文本中的正向和逆向語句的序列狀態(tài)信息輸出至下一個模塊。BiLSTM層結(jié)構(gòu)如圖4所示。
在前向的LSTML輸入文本后,將會按照文本內(nèi)容依次得到向量{[hL0],[hL1],[hL2],…,[hLn]},并且同樣對后向的LSTMR依次輸入文本,按照文本內(nèi)容依次得到向量{[hR0],[hR1],[hR2],…,[hRn]}。通過這種方式就可以得到前后雙向的長短期記憶網(wǎng)絡所提供的向量,最后將前向和后向的向量進行拼接,得到[n]×2的向量矩陣:{[[hL0,hRn]],[[hL1,hRn-1]],[[hL2,hRn-2]],…,[[hLn,hR0]]}。由于前后向量的方向相反,所以前向LSTM的第一個向量即[L0]對應著后向LSTM的第[n]個向量即[Rn],其他向量以此類推。最終得到向量組[{h0,h1,h2,…,hn}]。
最終輸出結(jié)果為如下公式所示:
[LLSTM=[LLSTM,LLSTM]] (16)
2.5" CNN層
在文本處理中,對句子做分詞處理,得到詞向量數(shù)據(jù),然后將詞向量數(shù)據(jù)輸入到CNN的卷積層,使用卷積核對其做卷積操作,得到新的特征矩陣[16]。卷積核在向量矩陣[T]中通過上下滑動的方式進行特征的提取,利用不同大小的卷積核的向量矩陣滑動進行卷積。卷積層是CNN的主要構(gòu)建塊,該層通過將數(shù)據(jù)與[N]個隨機生成的過濾器進行卷積來計算語義向量上的卷積函數(shù)[17],從而形成維度大小為[(n-h+1)×1]的特征矩陣,計算公式如下所示:
[c=[c1,c2,…,cn-h+1]] (17)
卷積層文本特征表示公式如下所示:
[ci=f(Wi?T+b)] (18)
CNN層的輸入層接受來自BiLSTM層的上下文語義信息對特征詞進行判斷。模型選用了有別于傳統(tǒng)卷積在圖像處理中所使用的二維卷積,而是選擇更適合處理文本序列的一維卷積作為模型的卷積核[18]。經(jīng)過卷積層[a]后,數(shù)據(jù)經(jīng)過最大池化層處理,然后進入卷積層[b]進行高維特征學習。在二次卷積層處理后,增加平均池化層,使模型更平滑,防止過擬合現(xiàn)象。最終輸出的CNN層結(jié)構(gòu)如圖5所示。
CNN層處理特征詞步驟如下。
1) 獲取上一層即BiLSTM層的信息,其中每條數(shù)據(jù)具有相同的維度(256,128)。
2) 將數(shù)據(jù)輸入到一維卷積層[a]中進行處理。其中的卷積核大小為3、維度為64。
3) 生成的向量進入大小為3的最大池化層進行處理,最終將向量壓縮為(84,64)。
4) 接入到一維卷積層[b]中學習高維特征。其中的卷積核大小為3,由于要進行高維特征學習,其維度上升為128。
5) 通過平均池化層將數(shù)據(jù)拉長變?yōu)橐痪S的數(shù)組形式。
6) 最終使用Sigmoid為激活函數(shù)在全連接層生成判定值。通過該值判斷特征詞屬于何種類型,從而進行文本分類。
3" 實驗分析
3.1" 實驗環(huán)境與設置
本實驗采用同一套設備和同一數(shù)據(jù)集,對不同的模型進行訓練后,進行對照實驗從而判斷效果最佳的模型。實驗所用設備的軟件和硬件的版本以及具體型號如表3所示。
本實驗基于PyTorch框架,并且選擇了使用CUDA進行GPU加速模型的訓練。實驗中所需要的環(huán)境配置以及版本號如表4所示。
在訓練過程中,模型采取統(tǒng)一參數(shù)。經(jīng)過測試,在相同參數(shù)的情況下各個模型的訓練時間大約都控制在30 min。參數(shù)配置為:詞向量維度為768,batch_size為128,PAD_size為32,epochs次數(shù)為3次,學習率為5×10-5。本文實驗中使用到的數(shù)據(jù)集數(shù)量較多,故上調(diào)了batch大小和學習率,并且當連續(xù)訓練超過1 000個batch后模型效果仍未提升,則會提前終止訓練,以減少資源和時間的浪費。同時,認定此時的模型參數(shù)已達到最佳狀態(tài)。表5為模型的詳細參數(shù)設置。
3.2" 數(shù)據(jù)收集與處理
本文所涉及的實驗數(shù)據(jù)并非來自第三方的公開數(shù)據(jù)集,而是由個人及團隊有針對性地收集和處理的。研究與河北省保定市國家互聯(lián)網(wǎng)信息辦公室進行合作,數(shù)據(jù)收集對象為河北省保定市及其下屬縣級市區(qū)域內(nèi)的網(wǎng)站。通過由河北省保定市互聯(lián)網(wǎng)信息辦公室提供的名單,使用網(wǎng)絡爬蟲針對保定市區(qū)域內(nèi)的互聯(lián)網(wǎng)網(wǎng)站進行文本信息的爬取。網(wǎng)絡爬蟲所使用的框架為Scrapy框架。Scrapy架構(gòu)由引擎、調(diào)度器、下載器、數(shù)據(jù)分析與數(shù)據(jù)管道五方面構(gòu)成[19]。在爬取策略方面選擇廣度優(yōu)先,優(yōu)先遍歷網(wǎng)站內(nèi)的全部子頁面。
在數(shù)據(jù)收集的過程中,采用網(wǎng)絡爬蟲方式,共爬取10 370家網(wǎng)站,其中政府類型的網(wǎng)站為27家。
在與保定市互聯(lián)網(wǎng)信息辦公室溝通合作后,由保定市互聯(lián)網(wǎng)信息辦公室提供敏感詞列表,基于國家對網(wǎng)絡信息安全風險防控與治理的主要焦點問題,結(jié)合《中華人民共和國網(wǎng)絡安全法》《網(wǎng)絡信息內(nèi)容生態(tài)治理規(guī)定》和《互聯(lián)網(wǎng)信息服務管理辦法》的相關(guān)內(nèi)容[20]進行單獨敏感詞詞庫的構(gòu)建。
敏感詞列表內(nèi)的敏感詞進行了敏感詞類型分類,并且對每一個敏感詞類型都添加了相對應的標簽,最后統(tǒng)計每個敏感詞類型內(nèi)所含敏感詞的數(shù)量。敏感詞詞庫信息如表6所示。
在文本預處理階段,首先需要對語料文本進行分詞處理。將收集到的原始文本內(nèi)容進行分詞處理后,使用基于匹配原則的方法識別出文本內(nèi)包含有上述敏感詞詞庫內(nèi)的敏感詞文本,并且通過查找敏感詞對應的標簽找到其對應的敏感詞類型。
在中文文本環(huán)境下的分詞領(lǐng)域內(nèi),jieba(結(jié)巴)分詞的分詞效果較為優(yōu)秀,并且可以提供多種不同的分詞模式以適配所需要的分詞效果。分詞模式選擇全模式分詞,可以做到盡可能地將全部的詞切分出來。在分詞過程中,如果文本中包含有自定義詞典內(nèi)的詞,則認為該文本包含有所需識別的敏感詞。
數(shù)據(jù)集內(nèi)的文本格式為[label,text],如:[7,開云體育競技]。將全部數(shù)據(jù)集以6∶2∶2的比例分配為訓練集(Train)、測試集(Test)和驗證集(Val),最終獲得數(shù)據(jù)集信息如表7所示。
3.3" 實驗結(jié)果與分析
實驗選擇準確率、召回率以及[F1]數(shù)值作為評判標準,其計算公式分別如下所示:
[Acc=TP+TNTP+FP+FN+TN] (19)
[R=TPTP+FN] (20)
[F1=2TP2TP+FP+FN] (21)
式中:TP(True Positive)和FN(False Negative)為在正樣本的情況下被正確識別為正樣本和被錯誤識別為負樣本的情況;FP(False Positives)和TN(True Negative)為在負樣本的情況下被錯誤識別為正樣本和被正確識別為負樣本的情況。
實驗分為兩組:不包含變體詞組和包含變體詞組,兩組實驗采用相同的實驗環(huán)境和配置,以及相同的對照組模型。實驗最終結(jié)果如表8、表9所示。
根據(jù)上述兩組實驗結(jié)果得出:在對于網(wǎng)站內(nèi)的敏感信息(不含變體詞)進行識別任務中,與其他模型相比,本文提出的基于BERT?BiLSTM?CNN模型在此類任務中表現(xiàn)得更為出色,其性能指標在數(shù)值上有明顯提升。其準確率可以達到95%以上,召回率達到95%,[F1]值達到96%。在第二組實驗中,考慮到變體詞的干預,其他模型的準確率普遍下降,而本文采用的基于編輯距離的變體詞還原算法準確率仍可達到88%以上,召回率達到91%,[F1]值達到89%。實驗結(jié)果表明,BERT模型所獲取的文本向量在任務中表現(xiàn)良好。而基于BERT?BiLSTM?CNN模型在網(wǎng)站文本敏感信息的檢測和識別任務上的表現(xiàn)優(yōu)于其他模型,準確率、召回率、[F1]值都有顯著提升。當面對通過變體詞隱藏敏感信息的情況時,本文方法仍能保持較高的準確率,有效解決了網(wǎng)站中可能存在的敏感信息及其變體形式的識別問題。
綜上所述,本文提出的基于BERT?BiLSTM?CNN模型的網(wǎng)站文本敏感信息及其變體識別的方法能夠更好地完成對網(wǎng)站內(nèi)可能存在的敏感文本信息進行識別,并且可以較為優(yōu)秀地針對敏感信息可能出現(xiàn)的變體形式進行還原。對當前日益增多的網(wǎng)站內(nèi)可能存在的敏感信息和對其變體形式識別困難的問題提供了較為有效的解決方法。
4" 結(jié)" 語
本文從當前網(wǎng)絡中日益增多的網(wǎng)站數(shù)量導致網(wǎng)站內(nèi)文本內(nèi)容頻繁出現(xiàn)敏感信息的問題出發(fā),著重分析和研究了有關(guān)區(qū)域內(nèi)網(wǎng)站上的文本內(nèi)容中敏感信息部分的相關(guān)檢測和分類技術(shù),提出了一種基于BERT模型的網(wǎng)站敏感信息識別及變體還原方法。通過變體詞還原算法將變體詞進行還原后,使用深度學習的方法,將BERT語言模型與雙向長短期記憶神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡結(jié)合,充分發(fā)揮各網(wǎng)絡模型的優(yōu)勢。目前在針對互聯(lián)網(wǎng)網(wǎng)站內(nèi)存在的敏感信息識別任務中,不單局限于使用一種單一模型來解決問題,例如多任務學習與CNN網(wǎng)絡結(jié)合[21]、使用TF?IDF改進聚類算法 [22]等多種模型和算法融合的方法來解決問題,其融合實驗結(jié)果相較于單一模型有明顯提升。多模型融合也會是未來將要著重研究的方向。
在日后的工作和研究中,敏感詞詞庫仍然有待優(yōu)化和提升。針對更多形式的變體詞,如拆字、諧音詞、生僻字或是帶有emoji的詞組等形式的變體詞需要更多的還原方法。
注:本文通訊作者為姚竟發(fā)。
參考文獻
[1] 吳樹芳,楊強,侯曉舟,等.基于SSI?GuidedLDA模型的引導式網(wǎng)絡敏感信息識別研究[J].情報雜志,2023,42(11):119?125.
[2] 杜智濤,謝新洲.利用灰色預測與模式識別方法構(gòu)建網(wǎng)絡輿情預測與預警模型[J].圖書情報工作,2013,57(15):27?33.
[3] LI W P, WU H Y, YANG J. Intelligent recognition algorithm for social network sensitive information based on classification technology [J]. Discrete and continuous dynamical systems?S, 2019, 12(4/5): 1385?1398.
[4] 陳祖琴,蔣勛,葛繼科.基于網(wǎng)絡輿情敏感信息的突發(fā)事件情景分析[J].現(xiàn)代情報,2021,41(5):25?32.
[5] 鄧磊,孫培洋.基于深度學習的網(wǎng)絡輿情監(jiān)測系統(tǒng)研究[J].電子科技,2022,35(12):97?102.
[6] 李瀛,王冠楠.網(wǎng)絡新聞敏感信息識別與風險分級方法研究[J].情報理論與實踐,2022,45(4):105?112.
[7] 付聰,余敦輝,張靈莉.面向中文敏感詞變形體的識別方法研究[J].計算機應用研究,2019,36(4):988?991.
[8] WANG A B, KAN M Y. Mining informal language from Chinese microtext: Joint word recognition and segmentation [C]// Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. [S.l.]: ACL, 2013: 731?741.
[9] 路松峰,鄭召作,周軍龍,等.融合變體字還原和語義分析的敏感信息檢測[J].湖北大學學報(自然科學版),2023,45(6):879?887.
[10] WANG Z N, JIANG M, GAO J L, et al. Chinese named entity recognition method based on BERT [J]. Computer science, 2019, 46(S2): 138?142.
[11] LI Y C, QIAN L F, MA J. Early detection of micro blog rumors based on BERT?RCNN model [J]. Information studies: Theory amp; application, 2021, 44(7): 173?177.
[12] 綦方中,田宇陽.基于BERT和LDA模型的酒店評論文本挖掘[J].計算機應用與軟件,2023,40(7):71?76.
[13] CUI Y M, CHE W X, LIU T. Pre?training with whole word masking for Chinese BERT [C]// IEEE/ACM Transactions on Audio, Speech, and Language Processing. New York: IEEE, 2021: 3504?3514.
[14] LI X Y, RAGA R C. BiLSTM model with attention mechanism for sentiment classification on Chinese mixed text comments [J]. IEEE access, 2023, 11: 26199?26210.
[15] KAUR K, KAUR P. BERT?RCNN: An automatic classification of APP reviews using transfer learning based RCNN deep model [EB/OL]. [2023?01?24]. https://doi.org/10.21203/rs.3.rs?2503700/v1.
[16] 胡任遠,劉建華,卜冠南,等.融合BERT的多層次語義協(xié)同模型情感分析研究[J].計算機工程與應用,2021,57(13):176?184.
[17] KAUR K, KAUR P. BERT?CNN: Improving BERT for requirements classification using CNN [J]. Procedia computer science, 2023, 218: 2604?2611.
[18] 江魁,余志航,陳小雷,等.基于BERT?CNN的Webshell流量檢測系統(tǒng)設計與實現(xiàn)[J].計算機應用,2023,43(z1):126?132.
[19] 劉多林,呂苗.Scrapy框架下分布式網(wǎng)絡爬蟲數(shù)據(jù)采集算法仿真[J].計算機仿真,2023,40(6):504?508.
[20] 李潔,周毅.網(wǎng)絡信息內(nèi)容生態(tài)安全風險:內(nèi)涵、類型、成因與影響研究[J].圖書情報工作,2022,66(5):4?12.
[21] 孟旭陽,徐雅斌.社交網(wǎng)絡中的敏感內(nèi)容檢測方法研究[J].現(xiàn)代電子技術(shù),2019,42(15):72?78.
[22] 孟彩霞,陳紅玉.基于TF?IDF改進聚類算法的網(wǎng)絡敏感信息挖掘[J].現(xiàn)代電子技術(shù),2015,38(24):44?46.
作者簡介:符澤凡(2000—),男,河北保定人,碩士研究生,研究方向為自然語言處理。
姚竟發(fā)(1983—),男,河北衡水人,博士研究生,講師,碩士生導師,研究方向為大數(shù)據(jù)與人工智能。
滕桂法(1963—),男,河北衡水人,博士研究生,教授,博士生導師,主要從事人工智能應用技術(shù)研究。