馬 甜 張國梁 郭曉軍
(西藏民族大學信息工程學院,陜西 咸陽 712082)
近年來,在深度學習的推動下,作為人工智能的一個重要分支的自然語言處理(NLP)發(fā)展迅速。深度神經(jīng)網(wǎng)絡(luò),如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和卷積神經(jīng)網(wǎng)絡(luò)(CNN),已在語義理解、語音識別和機器翻譯等方面展示出卓越性能,但同時也面臨著對抗樣本和毒化攻擊等安全風險。因此,深入分析NLP模型的攻防機制至關(guān)重要。
在NLP的文本表示領(lǐng)域,深度學習的應用集中于開發(fā)高效算法實現(xiàn)詞匯嵌入和語義表示。Word2Vec[1]和GloVe[2]通過神經(jīng)網(wǎng)絡(luò)將詞匯轉(zhuǎn)換為密集向量表示,廣泛應用于信息檢索、推薦系統(tǒng)和文本分類。2018年,Devlin等[3]在BERT模型中引入了基于Transformer的先進技術(shù),通過未標記文本上的預訓練,學習雙向編碼器表示,如圖1所示。自動化組合性檢測的關(guān)注增加,幫助理解短語語義的組合性。這些發(fā)展表明,深度學習在文本表示上的應用,為NLP的多個方面提供了強有力的支持和推動。
圖1 Transformer模型架構(gòu)
近年來,在NLP的語序建模領(lǐng)域的研究進展顯著。2018年,Devlin等[3]提出的BERT模型,利用深度雙向轉(zhuǎn)換器和預訓練機制,顯著提升了各種NLP任務的性能,改變了語序建模的方法。2019年,Yang等[4]推出的Transformer-XL模型,突破了處理長序列數(shù)據(jù)時的固定長度上下文限制,提高了模型對長期依賴關(guān)系的學習能力。此外,2013年,Graves等[5]的研究顯示了循環(huán)神經(jīng)網(wǎng)絡(luò)及其變體,如長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU)在序列建模中的強大潛力,特別是在語音識別等序列預測任務的應用。這些發(fā)展表明,深度學習模型在捕捉序列數(shù)據(jù)的時間依賴性方面具有獨特優(yōu)勢。2016年,Goodfellow等[6]在《深度學習》一書中全面討論了序列建模,包括從基礎(chǔ)的RNN到更復雜的結(jié)構(gòu)如LSTM和GRU的應用。2016年,Goldberg[7]的教程為初學者提供了序列建模技術(shù)的基礎(chǔ)解釋。
在NLP中,知識表示是理解和生成自然語言的關(guān)鍵組成部分。1997年,Ali等[8]提出了一種實現(xiàn)系統(tǒng)中非平凡知識表示和推理(KRR)的NLP系統(tǒng)的最新狀態(tài),如圖2所示,NLP的知識表示在理解和生成自然語言中發(fā)揮著核心作用。圖中明確了不同的NLP子領(lǐng)域之間的關(guān)聯(lián),包括基本任務、進階技術(shù)和NLP+的跨學科應用。知識表示學習不僅支持基礎(chǔ)的語言處理任務,如詞性標注和句法分析,還對高級任務如情感分析和話題建模至關(guān)重要。此外,圖中還展示了知識表示如何與其他領(lǐng)域相結(jié)合,為機器翻譯和對話系統(tǒng)等NLP+應用提供支持。他們強調(diào)了傳統(tǒng)KRR技術(shù)的全面實施以及為滿足NLP需求而開發(fā)的新的知識相關(guān)處理機制的重要性。IEEE Xplore的綜述和相關(guān)文章強調(diào)了知識表示學習在NLP中的應用,展示了它在理解復雜查詢和提高機器處理自然語言能力方面的作用。SpringerLink的研究突出了利用文本數(shù)據(jù)中的知識結(jié)構(gòu)來改善語言模型的方法。此外,研究還討論了知識表示學習,特別是在詞匯層面上的影響,表明知識表示是NLP研究中一個多樣化且持續(xù)發(fā)展的領(lǐng)域,對于增強機器理解自然語言的能力極為重要。
圖2 NLP關(guān)系圖
圖3 對抗性文本樣本生成與攻擊流程圖
在NLP領(lǐng)域,文本生成任務面臨的攻擊技術(shù)是當前研究的熱點。2022年,arXiv的一篇研究介紹了一種基于提示的對抗性示例生成方法,指出預訓練的語言模型(PLMs)可以通過示例學習來生成對抗性文本,旨在提高攻擊的成功率并增強模型的魯棒性。2020年,在ACL Anthology發(fā)表的另一項研究中,Hao[9]等提出了T3方法,這是一種樹形遞歸神經(jīng)網(wǎng)絡(luò)約束的對抗性文本生成技術(shù),專門用于針對性攻擊,通過改變文本結(jié)構(gòu)的關(guān)鍵信息來欺騙模型,同時保持語法和句法的準確性。這些研究表明,通過對預訓練模型的微調(diào),可以制造出看似正常但具有欺騙性的文本,使模型作出錯誤的判斷。這些發(fā)現(xiàn)對NLP社區(qū)至關(guān)重要,因為它們揭示了即使是先進的語言處理系統(tǒng)也存在脆弱性,需要更多研究來增強其抵御對抗性攻擊的能力。
在NLP的文本分類領(lǐng)域,對抗性攻擊技術(shù)的發(fā)展正挑戰(zhàn)著模型的魯棒性。2021年,Song等提出了一種通用對抗性攻擊方法,通過對抗性觸發(fā)詞誤導分類器,即使在未知輸入的情況下也能成功。2020年,Morris等[10]開發(fā)的TextAttack框架為對抗性攻擊提供了一個模型無關(guān)的平臺,同時也支持數(shù)據(jù)增強和對抗性訓練。2017年,Ebrahimi等[11]介紹了基于梯度的HotFlip攻擊,利用對抗性梯度翻轉(zhuǎn)關(guān)鍵詞以制造攻擊。2019年,Pruthi等[12]探討了通過微小字符級擾動誤導分類器的技術(shù),這種攻擊對人類來說難以察覺,但對分類器卻有效。同年,Zuo等[13]研究了基于粒子群優(yōu)化生成對抗性樣本的方法,針對深度神經(jīng)網(wǎng)絡(luò)模型提供了新的攻擊策略。此外,Ren等[14]檢驗了通過單詞交換操縱詞級特征的攻擊,揭示了模型在理解語義方面的漏洞。這些研究不僅展示了文本分類任務中對抗性攻擊的多樣性和復雜性,還凸顯了保護NLP應用免受惡意攻擊的重要性,推動了防御策略研究的發(fā)展。
在語義解析任務中,多樣且復雜的攻擊技術(shù)正利用解析器漏洞產(chǎn)生誤導性結(jié)果。2021年的研究顯示,使用橋接語言進行反向翻譯能產(chǎn)生保持原意的擾動,這可能影響解析器的魯棒性。2022年的研究進一步提出,通過自訓練和釋義增強,即使在數(shù)據(jù)有限的情況下也能訓練出自然化的語義解析器,這對低資源環(huán)境下的性能提升至關(guān)重要。AllenNLP框架為構(gòu)建序列到序列的語義解析模型提供了重要工具,有助于保護系統(tǒng)免受攻擊。同時,改進VerbNet的語義表示法,采用生成詞匯的子事件結(jié)構(gòu)理論,為語義解析任務提供了更豐富的語義表示。這些研究強調(diào)了在設(shè)計和改進語義解析系統(tǒng)時考慮抵御對抗性攻擊的重要性,以及增強語義表示和數(shù)據(jù)多樣性的必要性。
在文本生成任務中,防御技術(shù)的發(fā)展旨在提高模型對對抗性攻擊的抵抗力。根據(jù)最新的研究,文本向量化是增強模型安全性的基礎(chǔ)步驟,它包括基于詞頻的編碼、獨熱編碼和神經(jīng)上下文編碼等方法,這些編碼方式對抗對手攻擊的性能至關(guān)重要。此外,控制文本生成中的情感也是一個重要的防御策略,這可以防止生成不正確或不恰當?shù)膬?nèi)容。針對GPT和BERT這樣的預訓練語言模型,通過改進訓練方法和微調(diào)已經(jīng)取得了顯著進展,這些模型正在不斷提高其防御對抗性攻擊的能力。圖4展示了BERT模型處理單個句子的一個示例。在這個過程中,文本首先被分解為tokens,然后轉(zhuǎn)換為token IDs,這是模型能夠理解和處理的數(shù)字表示。接著,生成一個mask,標識出哪些token是重要的,以及一個segment標記,用于區(qū)分不同的句子。這個過程是文本向量化的一個例子,是文本生成模型防御對抗性攻擊的基礎(chǔ)步驟之一。通過對模型的輸入進行精細化處理,我們可以提高模型的安全性和魯棒性,確保生成的文本既準確又合適。
圖4 BERT輸入單個句子的示例
綜上所述,通過多層防御策略的應用和不斷的技術(shù)創(chuàng)新,文本生成模型正在變得更加穩(wěn)固,能夠有效地對抗惡意攻擊并保證生成文本的可靠性。
在文本分類任務的防御技術(shù)方面,研究者提出了多種方法來提升模型的魯棒性。2023年,TextGuard的開發(fā)者提出了一種針對文本分類中后門攻擊的可證明防御策略,這是在該領(lǐng)域的一個重要創(chuàng)新。該策略通過對訓練數(shù)據(jù)進行分割,達到了有效的防御效果。此外,研究分類了后門防御方法,包括基于數(shù)據(jù)和模型級別的策略。例如,魯棒訓練調(diào)整模型容量和訓練周期,使分類器專注于主要特征,忽略次要特征。預訓練模型如ELMo、Transformer和GPT也支持文本分類的防御,ELMo處理復雜語義,而Transformer基于注意力機制提高效果。這些進展顯示,文本分類防御技術(shù)正變得更復雜和多元化,從基本防御到利用深度學習模型增強魯棒性。
在語義解析任務的防御技術(shù)方面,近期的研究展示了多種創(chuàng)新方法。2023年,Drozdov[15]介紹了使用大型語言模型的動態(tài)最少提示技術(shù),允許在實際自然語言任務中最小化提示,通過語言模型句法解析的分解和示例選擇生成解決方案。2021年,Arash Einolghozati[16]提出了基于神經(jīng)語言模型重排解析結(jié)果的方法,顯著提升了解析準確率。此外,研究還提出了遞歸插入式編碼器(RINE)用于任務導向?qū)υ挼恼Z義解析,使用預訓練的RoBERTa模型生成線性化的語義解析樹。這些進展表明,語義解析的防御技術(shù)正朝著利用高級深度學習模型和復雜解碼策略的方向發(fā)展,以增強解析的準確性和魯棒性。
文本分類是自然語言處理的核心任務之一,目的是將文本自動分類到預定義的類別中。隨著深度學習技術(shù)的應用,雖然基于神經(jīng)網(wǎng)絡(luò)的文本分類器性能有所提升,但它們也面臨著對抗攻擊的威脅。為了應對這一挑戰(zhàn),集成對抗訓練(Ensemble Adversarial Training)技術(shù)出現(xiàn)了。這種技術(shù)通過結(jié)合多個獨立的子分類器(如BiLSTM、BiGRU等循環(huán)神經(jīng)網(wǎng)絡(luò))的預測,并在訓練中加入對抗樣本來提高模型的魯棒性。通過計算子分類器輸出的概率分布,模型能夠更準確地判斷預測類別。實驗結(jié)果表明,使用該技術(shù)可以提升分類準確率3%~5%和提升F1值超過2%,從而增強模型對對抗噪聲的適應能力。為評估集成對抗訓練技術(shù)的效果,實驗使用了AGNews數(shù)據(jù)集,包含120 000條訓練樣本和7 600條測試樣本,涵蓋4種新聞標題類別。實驗構(gòu)建了TextCNN、TextRNN、TextRCNN等子分類器,并建立集成模型,通過計算子模型分類結(jié)果的加權(quán)平均得出最終輸出。同時,利用20%的訓練樣本生成FGSM、PGD等對抗文本,以此加入模型訓練中,旨在提升分類性能和抵御對抗攻擊。主要觀測指標有分類準確率、F1值,并與單一模型結(jié)果進行比較。實驗重復5輪,結(jié)果取平均值,數(shù)據(jù)如表1所示。
表1 實驗結(jié)果比較
結(jié)果顯示,集成對抗訓練整體提升了分類效果,并增強了對抗攻擊的適應能力。后續(xù)將測試不同組合的子模型效果。要全面評估集成對抗訓練技術(shù)的防御效果,從多個角度比較了關(guān)鍵性能指標。首先,直接比較集成模型和單一基準模型(如TextCNN)在原始測試集上的表現(xiàn)。評估分類的準確率和F1值,前者反映分類正確的樣本比例,后者反映綜合精度和召回率。這里Ensemble模型在兩個指標上都有一定提升。
其次,在測試集同時加入對抗樣本,比較模型的抗干擾能力。例如,F(xiàn)GSM和PGD生成的對抗文本一定程度破壞了TextCNN模型的判斷,而Ensemble則損失更少。這驗證了集成機制和對抗訓練增強了魯棒性。重復實驗訓練多個子模型組合,分析準確率和時間成本的權(quán)衡關(guān)系。結(jié)果顯示,加入更多分類器準確度更高,但訓練時間也增加。因此實踐中需平衡。
圖4 模型對比圖
通過實驗驗證,與單一模型相比,集成對抗訓練技術(shù)更高效穩(wěn)健地完成文本分類任務。首先,模型顯示集成學習的效果。Ensemble模型整合多個分類器判斷,在原始測試集上的分類效果優(yōu)于TextCNN等單模型,準確率和F1值均分別提升1.5個百分點。其次,模型表現(xiàn)出更強的抗干擾能力。當測試集中加入對抗樣本時從數(shù)據(jù)來看,TextCNN模型在對抗樣本上的準確率從96.3%下降到92.1%,下降了4.2個百分點。而Ensemble模型從97.8%下降到94.5%,下降了3.3個百分點。這表明,盡管Ensemble模型的整體準確率更高,但在面對對抗樣本時,其性能下降幅度相對更小,顯示出更好的魯棒性。
另外,通過集成不同數(shù)量和組合的子分類器,Ensemble模型的準確率可以進一步提升到98.5%,這超過了單一模型的性能上限。但這種性能提升伴隨著計算成本的增加,這在實際應用中需要進行權(quán)衡。所以,權(quán)衡分類效果與效率因素,集成對抗訓練框架可以生成更優(yōu)、更穩(wěn)定的文本分類模型,為自然語言處理任務提供安全保障,值得推廣應用。后續(xù)研究可繼續(xù)優(yōu)化防御機制的性價比,以適應實際場景需求。
本文全面深入地探討了深度學習在自然語言處理(NLP)領(lǐng)域的關(guān)鍵應用,重點分析了文本表示、語序建模和知識表示這三大核心任務。在這些領(lǐng)域中,如BERT等典型模型展現(xiàn)了前所未有的性能和效果,標志著深度學習技術(shù)在理解和處理復雜語言結(jié)構(gòu)方面的顯著進步。文章進一步探討了文本生成、分類和語義解析任務中面臨的對抗攻擊問題,深入剖析了NLP模型的潛在安全漏洞。這些挑戰(zhàn)不僅凸顯了現(xiàn)有模型的脆弱性,也為未來的研究方向提供了重要的指引。為應對這些挑戰(zhàn),文章介紹了一系列防御策略和技術(shù),包括向量化和魯棒訓練,特別是通過實證研究驗證了集成對抗訓練技術(shù)的有效性。這種技術(shù)通過結(jié)合多個獨立的子分類器,提高了模型面對復雜攻擊時的魯棒性,從而增強了模型的整體性能和可靠性。這一發(fā)現(xiàn)不僅為NLP領(lǐng)域的研究者提供了新的工具和方法,也為實際應用中的安全性和有效性提供了有力的保障。
展望未來,本文的研究將繼續(xù)關(guān)注NLP領(lǐng)域的最新進展和挑戰(zhàn),旨在為讀者提供及時和創(chuàng)新的綜述視角。這不僅有助于推動該領(lǐng)域的研究前沿,還將為利用深度學習技術(shù)解決現(xiàn)實世界中的復雜語言處理問題提供理論支持和實際指導。隨著技術(shù)的不斷發(fā)展,預計會有更多創(chuàng)新的模型和方法出現(xiàn),進一步推動自然語言處理技術(shù)的邊界,為人工智能的發(fā)展做出更大的貢獻。