摘要:本文以軍事術(shù)語為研究對象,結(jié)合軍事語料,使用近年來在自然語言處理中取得突破性進(jìn)展的預(yù)訓(xùn)練語言模型實現(xiàn)軍事術(shù)語的自動抽取。研究基礎(chǔ)工作包括大型軍事語料庫的構(gòu)建與抽取,模型的設(shè)計采用ChatGLM作為基礎(chǔ)模型,通過“預(yù)訓(xùn)練”“微調(diào)”兩個階段實現(xiàn)新軍事術(shù)語抽取,預(yù)訓(xùn)練階段是模型在大規(guī)模無標(biāo)注的軍事語料進(jìn)行預(yù)訓(xùn)練,以獲取語料中的軍事術(shù)語信息。
關(guān)鍵詞:軍事術(shù)語,預(yù)訓(xùn)練語言模型,術(shù)語抽取
中圖分類號:E0-03;TP391DOI:10.12339/j.issn.1673-8578.2025.02.019
Automatic Term Extraction and Analysis of Military Terms Based on Pretrained Language Model//XIANG Yin
Abstract: In this paper we take military terminology as the research object and, in conjunction with military corpora, employ a pretrained language model that has achieved groundbreaking progress in natural language processing in recent years to realize the automatic extraction of military terms. The foundational work of the research includes the construction of a largescale military corpus and the design of the extraction model. Using ChatGLM as the base model, the extraction of new military terms is realized through the “pretraining” and “finetuning” phases. The pretraining phase involves pretraining the model on a largescale unlabeled military corpus to acquire military terminology information from the corpus.
Keywords: military terminology, pretrained language model, term extraction
0引言
近年來,深度學(xué)習(xí)發(fā)展勢頭迅猛,在自然語言處理、計算機(jī)視覺、語音識別等領(lǐng)域中表現(xiàn)優(yōu)異,在部分領(lǐng)域甚至已具有全面取代傳統(tǒng)方法的趨勢。而隨著數(shù)據(jù)規(guī)模增長與算力的發(fā)展,在海量文本數(shù)據(jù)上進(jìn)行大規(guī)模文本模型預(yù)訓(xùn)練并在下游任務(wù)上進(jìn)行微調(diào)已經(jīng)是自然語言領(lǐng)域處理的通用范式。這些預(yù)訓(xùn)練模型在情感分析、問題回答、命名實體識別、文本摘要等許多下游任務(wù)上都具有很強的泛用性,在新術(shù)語抽取方面可有效解決數(shù)據(jù)資源不足、標(biāo)注數(shù)據(jù)多等問題[1]。
1ChatGLM模型大規(guī)模軍事語料預(yù)訓(xùn)練
預(yù)訓(xùn)練階段,模型基于大規(guī)模無標(biāo)注語料進(jìn)行訓(xùn)練,目的是讓模型學(xué)習(xí)語料中的通用知識,便于后續(xù)多種下游任務(wù)的遷移學(xué)習(xí)。本文以《解放軍報》等軍內(nèi)報紙和大型軍事網(wǎng)站《中國軍網(wǎng)》以及各類軍用文書等作為軍事語料來源構(gòu)建語料庫。
1.1預(yù)訓(xùn)練數(shù)據(jù)處理
預(yù)訓(xùn)練的第一步是構(gòu)建和處理適合的數(shù)據(jù)集。本文的語料來源包含大量軍事術(shù)語,非常適合用于軍事語言模型的訓(xùn)練。在數(shù)據(jù)處理階段,首先進(jìn)行文本清洗,移除無關(guān)內(nèi)容和格式錯誤,以確保數(shù)據(jù)質(zhì)量。然后使用分詞工具SentencePiece對文本進(jìn)行分詞處理,將句子分解為基本語言單位。此外,考慮到軍事文本的特殊性,引入專門的軍事術(shù)語字典,以確保模型能夠正確理解這些專業(yè)詞匯。
在自然語言處理領(lǐng)域,由于中文缺少明確詞邊界,文本分詞的任務(wù)具有挑戰(zhàn)性。Sentence Piece結(jié)合BytePairEncoding(BPE)算法和unigram language model原理,有效地解決了這一問題。它的核心優(yōu)勢在于能夠直接處理原始文本,無須依賴于特定語言的預(yù)處理,適用于多種語言環(huán)境。
SentencePiece的基礎(chǔ)是BPE算法,這種算法原本用于數(shù)據(jù)壓縮的技術(shù),后來人們發(fā)現(xiàn)BPE算法也適用于分詞,其工作原理是不斷地將文本中最常見的相鄰字符對合并為一個新的單元。具體來說,它首先將文本分解為基礎(chǔ)字符(例如字母),然后迭代地識別并合并頻繁出現(xiàn)的字符對。數(shù)學(xué)上,這一過程可以表示為一個優(yōu)化問題,目標(biāo)是最小化重構(gòu)原始文本時的誤差。例如,如果序列“aa”頻繁出現(xiàn),BPE會將“aa”視為一個新的單元。這一過程重復(fù)進(jìn)行,直到達(dá)到預(yù)設(shè)的詞匯量大小或迭代次數(shù)。
另一方面,unigram language model是基于概率的分詞方法,它計算每種可能的分詞方式生成原始文本的概率。在這個模型中,給定一個詞匯單元的集合,每種分詞方式對應(yīng)一個概率分布,這個概率分布指示了各種分詞方式生成觀測序列的可能性。數(shù)學(xué)上這可以表示為尋找一個概率分布,該分布最大化觀測數(shù)據(jù)的似然。換言之,模型會嘗試所有可能的分詞方式,并選擇那些使得生成原始文本概率最高的分詞方案。
結(jié)合這兩種方法,SentencePiece能夠有效處理多種語言,特別是那些沒有明確詞邊界的語言。通過直接從原始文本數(shù)據(jù)中學(xué)習(xí),SentencePiece避免了傳統(tǒng)分詞方法中常見的預(yù)處理錯誤和信息丟失。此外,它為用戶提供了控制詞匯大小的靈活性,這對于不同大小和復(fù)雜性的神經(jīng)網(wǎng)絡(luò)模型至關(guān)重要。在軍事領(lǐng)域,如果文本中存在大量未登錄軍事術(shù)語,SentencePiece可以有效地進(jìn)行分詞。
1.2基礎(chǔ)模型選擇和預(yù)訓(xùn)練過程
1.2.1基礎(chǔ)模型選擇
2023年,智譜AI和清華大學(xué)KEG實驗室聯(lián)合發(fā)布了新一代對話預(yù)訓(xùn)練模型ChatGLM,ChatGLM36B是ChatGLM3系列的開源模型,在保留了前兩代模型對話流暢、部署門檻低等眾多優(yōu)秀特性的基礎(chǔ)上,ChatGLM36B的基礎(chǔ)模型ChatGLM36BBase采用了更多樣的訓(xùn)練數(shù)據(jù)、更充分的訓(xùn)練步數(shù)和更合理的訓(xùn)練策略。在語義、數(shù)學(xué)、推理、代碼、知識等不同角度的數(shù)據(jù)集測評顯示,ChatGLM36BBase具有在10B以下的基礎(chǔ)模型中最強的性能,非常適合作為基礎(chǔ)模型進(jìn)行二次預(yù)訓(xùn)練[2],因此本文采用ChatGLM36BBase作為基礎(chǔ)模型。
1.2.2預(yù)訓(xùn)練過程
本文采用MegatronLM框架進(jìn)行模型的二次預(yù)訓(xùn)練,為了防止模型只在軍事語料上進(jìn)行預(yù)訓(xùn)練,還引入了WuDao Corpora這一中文通用語料與軍事語料進(jìn)行混合預(yù)訓(xùn)練,通用語料和軍事語料的混合比例設(shè)為8:2,預(yù)訓(xùn)練的參數(shù)如表1所示。
2預(yù)訓(xùn)練微調(diào)
2.1預(yù)訓(xùn)練語言模型微調(diào)方法
微調(diào)階段,提供少量的術(shù)語標(biāo)注樣例對預(yù)訓(xùn)練語言模型進(jìn)行微調(diào),使其掌握軍事術(shù)語抽取能力。此階段使用高質(zhì)量標(biāo)注數(shù)據(jù)對預(yù)訓(xùn)練過的模型進(jìn)行微調(diào),能將模型的能力迅速遷移到下游任務(wù)。由于預(yù)訓(xùn)練階段已經(jīng)具有了通用知識,經(jīng)過“預(yù)訓(xùn)練”+“微調(diào)”的模型性能優(yōu)于直接在下游任務(wù)進(jìn)行訓(xùn)練的模型。
預(yù)訓(xùn)練語言模型如BERT、GPT等,在巨大的數(shù)據(jù)集上預(yù)先訓(xùn)練,已經(jīng)學(xué)習(xí)了大量的語言知識和世界知識。這些模型在特定領(lǐng)域如軍事領(lǐng)域,可以通過微調(diào)進(jìn)一步提升其對專業(yè)術(shù)語的理解和抽取能力。微調(diào)是在預(yù)訓(xùn)練模型基礎(chǔ)上,使用目標(biāo)領(lǐng)域的數(shù)據(jù)進(jìn)行訓(xùn)練,使模型更好地適應(yīng)特定任務(wù)。
2.1.1兩種常見微調(diào)方法
常見的微調(diào)方法有全參數(shù)微調(diào)和高效參數(shù)微調(diào)兩種。如果采用全參數(shù)微調(diào)方法,預(yù)訓(xùn)練模型的所有參數(shù)都會在微調(diào)階段進(jìn)行更新。這意味著不僅更新模型的頂層(通常是與特定任務(wù)直接相關(guān)的層),而且還更新了所有隱藏層。這種方法的優(yōu)點是可以最大限度地利用預(yù)訓(xùn)練模型中的知識使模型能夠更好地適應(yīng)新任務(wù),主要缺點是當(dāng)模型非常大時計算成本較高。高效參數(shù)微調(diào)與全參數(shù)微調(diào)不同,這種方法只更新模型的部分參數(shù),因其不需要更新所有參數(shù),所以計算成本相對較低,其主要缺點是當(dāng)目標(biāo)任務(wù)與預(yù)訓(xùn)練任務(wù)相差較大時,可能無法充分利用預(yù)訓(xùn)練模型中的所有知識。
在實際應(yīng)用中,選擇哪種微調(diào)方法取決于多種因素。在資源受限的情況下或者需要快速迭代和實驗的情況下,可選擇高效參數(shù)微調(diào)。全參數(shù)微調(diào)提供了更全面的模型更新,但代價是更高的計算成本和更長的訓(xùn)練時間。在軍事領(lǐng)域的應(yīng)用中,考慮到術(shù)語的專業(yè)性和復(fù)雜性,全參數(shù)微調(diào)可能更適合,因其能夠更深入地挖掘和利用模型中的知識來理解和處理專業(yè)術(shù)語。但如果資源有限或?qū)r間有嚴(yán)格要求,高效參數(shù)微調(diào)也是可行的選擇。
2.1.2LoRA高效參數(shù)微調(diào)方法
LoRA(LowRank Adaptation)作為一種高效的參數(shù)微調(diào)方法,旨在優(yōu)化大型預(yù)訓(xùn)練語言模型的微調(diào)過程,減少所需的計算資源,同時保持模型的核心知識和結(jié)構(gòu)不變。這一方法對于自然語言處理任務(wù)特別有效,尤其是在那些對計算資源有限制的環(huán)境中。
在LoRA中,核心思想是使用低秩矩陣近似技術(shù)來更新模型中的全連接層權(quán)重。假設(shè)原始的權(quán)重矩陣是W,尺寸為 m×n。在傳統(tǒng)的微調(diào)過程中,這個矩陣會直接更新,但在LoRA中,不直接修改W,而是引入兩個較小的矩陣A和B,分別具有m×r和r×n的尺寸。這里的r相對于m和n來說非常小,意味著A和B的尺寸遠(yuǎn)小于原始的W。通過調(diào)整A和B,可以實現(xiàn)對原始權(quán)重矩陣W的有效修改,而不需要直接調(diào)整W中的每個元素。
這種低秩近似的方法有幾個關(guān)鍵優(yōu)勢。首先,它顯著降低了參數(shù)數(shù)量,因為只有A和B需要在訓(xùn)練過程中更新,而不是整個大型權(quán)重矩陣W。這大大減少了計算資源的需求,使得微調(diào)過程更加高效。其次,由于原始的權(quán)重矩陣W保持不變,因此模型能夠保留在預(yù)訓(xùn)練階段學(xué)習(xí)到的大量知識和信息。這對于保持模型的泛化能力和理解復(fù)雜語言結(jié)構(gòu)的能力至關(guān)重要。
LoRA的另一個優(yōu)點是其靈活性。它可以根據(jù)不同任務(wù)的需求調(diào)整在模型中的應(yīng)用層次。例如,可以只在模型的特定幾層中應(yīng)用LoRA,根據(jù)任務(wù)的特點和難度來優(yōu)化模型的表現(xiàn)。這種靈活性使得LoRA在自然語言處理的多種任務(wù)中都有很好的應(yīng)用前景,從基本的文本分類到更復(fù)雜的語義理解和生成任務(wù)。
總的來說,LoRA提供了一種在保持預(yù)訓(xùn)練模型核心知識和結(jié)構(gòu)不變的同時有效減少計算資源需求的微調(diào)方法。這種方法通過在全連接層應(yīng)用低秩矩陣近似,使得模型微調(diào)變得更加高效和實用。對于那些需要在計算資源有限的環(huán)境中部署大型語言模型的應(yīng)用場景,LoRA提供了一種非常有價值的解決方案。
2.2軍事抽取語料微調(diào)
2.2.1微調(diào)數(shù)據(jù)集構(gòu)造
微調(diào)階段首先需要構(gòu)造用于微調(diào)的數(shù)據(jù)集,ChatGLM是一個生成式模型,因此需要構(gòu)造對應(yīng)的輸入和輸出對模型進(jìn)行訓(xùn)練。比如從下述文段中提取出所有的“軍事術(shù)語”,如果提取到多個軍事術(shù)語,使用逗號分隔,如果沒有提取到軍事術(shù)語,則輸出為空。
在波瀾壯闊的強軍實踐中,著眼于實現(xiàn)中華民族偉大復(fù)興的中國夢,圍繞新時代建設(shè)一支什么樣的強大人民軍隊、怎樣建設(shè)強大人民軍隊,深入進(jìn)行理論探索和實踐創(chuàng)造,形成了新時代強軍思想。新修訂的共同條令使用了一系列反映新概念新軍語……[3]
上述文段的輸出表示模型從中抽取一個軍事術(shù)語。手動找到250個包含軍事術(shù)語的段落,用于構(gòu)造數(shù)據(jù)的正例;在大多數(shù)情況,文段中不存在軍事術(shù)語,我們也構(gòu)造了250個沒有軍事術(shù)語的段落作為負(fù)例。這樣得到包含500條數(shù)據(jù)的微調(diào)數(shù)據(jù)集,取50條作為測試集,其余450條作為訓(xùn)練集合。
2.2.2微調(diào)過程
采用ChatGLM3官方提供的微調(diào)代碼,基于預(yù)訓(xùn)練得到的基礎(chǔ)模型進(jìn)行微調(diào)。訓(xùn)練共進(jìn)行500步,使用4塊NVIDIASXM4A800顯卡進(jìn)行微調(diào),學(xué)習(xí)率為1e4,最終得到MilitaryGLM36B模型。此外,用于對比,我們還采用了LoRA參數(shù)微調(diào)方法對ChatGLM模型進(jìn)行微調(diào),具體實驗結(jié)果如下文。
3實驗分析
3.1評價指標(biāo)與實驗方法
本部分首先確定評價指標(biāo)與實驗方法,然后將不同的模型在同樣的指標(biāo)和實驗方法下進(jìn)行對比,分析不同模型的抽取效果。
3.1.1評價指標(biāo)
本研究采用精準(zhǔn)率(Precision)、召回率(Recall)、F1值作為評價指標(biāo)。在實驗過程中,關(guān)注各個評價指標(biāo),以確保模型在各個方面都能達(dá)到滿意的效果。各指標(biāo)的計算公式為:
Precision=TPTP+FP×100%
Recall=TPTP+FN×100%
F1=2PRP+R×100%
其中TP為模型分類為某種標(biāo)簽,實際也是該種標(biāo)簽的數(shù)量;FP為模型分類為非該種標(biāo)簽,但實際是該種標(biāo)簽的數(shù)量;FN為模型分類為非該種標(biāo)簽,實際也是這種標(biāo)簽的數(shù)量。
3.1.2實驗方法
(1)數(shù)據(jù)準(zhǔn)備
首先,收集與軍事領(lǐng)域相關(guān)的文本數(shù)據(jù),如《解放軍報》《中國軍網(wǎng)》以及各類軍用文書等作為軍事語料。文本數(shù)據(jù)需涵蓋多個主題,以提高軍事術(shù)語抽取的泛化能力。
(2)預(yù)處理
對原始文本進(jìn)行預(yù)處理,包括分詞、去除停用詞等。使用分詞工具,并根據(jù)實際需求選擇合適的預(yù)處理方法。
(3)訓(xùn)練MilitaryGLM36B模型
使用MilitaryGLM36B模型進(jìn)行訓(xùn)練。將預(yù)處理后的文本數(shù)據(jù)輸入模型,進(jìn)行無監(jiān)督的語義表示學(xué)習(xí)。
(4)軍事術(shù)語抽取
輸入:將預(yù)處理后的文本數(shù)據(jù)和術(shù)語詞典輸入到訓(xùn)練好的MilitaryGLM36B模型中。
輸出:模型將返回一個包含候選術(shù)語的列表。對于每個文本片段,模型會為其分配一個概率值,表示該文本片段中包含軍事術(shù)語的可能性。
閾值設(shè)置:根據(jù)實驗需求,設(shè)置概率閾值,篩選出符合條件的候選軍事術(shù)語。
去重:對候選軍事術(shù)語進(jìn)行去重處理,以消除重復(fù)的軍事術(shù)語。
(5)評估與優(yōu)化
使用精確率(Precision)、召回率(Recall)和F1值(F1score)等指標(biāo)評估術(shù)語抽取效果[4]。根據(jù)實驗結(jié)果,調(diào)整預(yù)處理方法、軍事術(shù)語詞典、模型參數(shù)等,以提高軍事術(shù)語抽取的準(zhǔn)確性。
3.1.3實驗結(jié)果
在本次實驗中,MilitaryGLM36B的精準(zhǔn)率為63.34%,召回率為64.50%,F(xiàn)1性能為63.93%(見表2),表明模型能夠較為準(zhǔn)確地對語料中的軍事術(shù)語進(jìn)行抽取。
3.2抽取結(jié)果分析
在一段文本中MilitaryGLM36B抽取結(jié)果為:新時代軍隊使命任務(wù),黨在新時代的強軍目標(biāo),中國特色強軍之路,“五個更加注重”,中國特色現(xiàn)代作戰(zhàn)體系,政治建軍原則,改革強軍戰(zhàn)略,科技興軍戰(zhàn)略,依法治軍方略,軍委主席負(fù)責(zé)制,“四有”新時代革命軍人,“四鐵”過硬部隊,“三個絕對”,新型人民軍隊,中國特色軍事法治體系,軍民融合發(fā)展。
在分析由MilitaryGLM36B模型抽取出的軍事術(shù)語時,我們可以看到這些術(shù)語準(zhǔn)確地捕捉了中國強軍思想的核心內(nèi)容,這些新軍事術(shù)語不僅表現(xiàn)了新時代中國軍隊的使命和目標(biāo),而且還反映出新的軍事理論、新的軍事思想和新的政策制度。
4結(jié)語
本文選取中文能力較強的ChatGLM模型作為基礎(chǔ)模型,在其基礎(chǔ)上進(jìn)行二次軍事語料的繼續(xù)預(yù)訓(xùn)練,通過“預(yù)訓(xùn)練”“微調(diào)”兩個階段實現(xiàn)軍事術(shù)語抽取。預(yù)訓(xùn)練階段是模型進(jìn)行大規(guī)模無標(biāo)注的軍事語料預(yù)訓(xùn)練,獲取語料中的軍語語義信息,微調(diào)階段是對預(yù)訓(xùn)練好的語言模型在有標(biāo)注的術(shù)語抽取語料上進(jìn)行微調(diào),使模型掌握軍事術(shù)語抽取能力,最后對不同模型的抽取效果進(jìn)行比較分析,實驗表明ChatGLM模型達(dá)到了抽取軍事術(shù)語的預(yù)期效果。
參考文獻(xiàn)
[1] 馮志偉,李穎.自然語言處理中的預(yù)訓(xùn)練范式[J].外語研究,2021(1):1-14.
[2] ZENG A H, LIU X. An Open Bilingual Pretrained Model [N].The Eleventh International Conference on Learning Representations(ICLR), 2023.
[3] 中央軍委政治工作部.全面推進(jìn)新時代強軍事業(yè)的科學(xué)指南:深入學(xué)習(xí)貫徹習(xí)近平強軍思想[N]. 解放軍報,2018-2-12.
[4] 常寶寶.科技術(shù)語自動提取技術(shù):現(xiàn)狀與思考[J].中國科技術(shù)語,2022, 24(1): 3-13.