摘 要:自然語言處理(NLP)技術(shù),在個性化內(nèi)容推薦系統(tǒng)、對話式人工智能等多個領(lǐng)域發(fā)揮著重要作用。在NLP領(lǐng)域,詞嵌入和長短時記憶網(wǎng)絡(luò)(LSTM)等神經(jīng)網(wǎng)絡(luò)模型取得了顯著進(jìn)展,提升了自然語言處理的能力。盡管這些模型在實際應(yīng)用中表現(xiàn)出色,但它們通常需要大量數(shù)據(jù)來進(jìn)行訓(xùn)練,這在一定程度上限制了模型訓(xùn)練的效果和泛化能力。因此,研究者們一直在探索新的方法來提高模型的訓(xùn)練效率,同時減少對大規(guī)模數(shù)據(jù)集的依賴。研究提出了一種改進(jìn)的統(tǒng)一預(yù)訓(xùn)練語言模型(UniLM),它結(jié)合了Transformer和注意力機制模型的優(yōu)勢,能夠完成從單向到雙向的多種語言預(yù)測任務(wù)。在大規(guī)模數(shù)學(xué)問答數(shù)據(jù)集的實驗中,改進(jìn)的模型展現(xiàn)出比傳統(tǒng)模型更優(yōu)的性能,準(zhǔn)確率最高達(dá)80.56%,證明了其在自然語言處理任務(wù)中的能力。
關(guān)鍵詞:自然語言處理;自然語言生成;無監(jiān)督預(yù)訓(xùn)練;有監(jiān)督微調(diào);UniLM;雙向預(yù)測
中圖分類號:TP3-0; 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-1302(2024)10-0-03
0 引 言
自然語言處理(NLP)的核心是基于統(tǒng)計的語言模型(LM)[1]。語言模型是一系列單詞的概率分布,可以定量評估一串字符出現(xiàn)的概率。LM在語音識別、機器翻譯、詞性標(biāo)注、解析、光學(xué)字符識別、手寫識別、信息檢索等任務(wù)中得到了廣泛應(yīng)用[2]。它作為一種概率模型被用來建模語言規(guī)則,能夠為NLP處理相關(guān)任務(wù)提供強大助力。
常見的LM有兩種類型:統(tǒng)計語言模型和神經(jīng)語言模
型[3]。統(tǒng)計LM使用傳統(tǒng)的統(tǒng)計技術(shù),如利用N-gram、隱馬爾可夫模型(HMM)和某些語言規(guī)則來學(xué)習(xí)單詞的概率分布[4]。然而,在這些模型中,隨著文本的增大,數(shù)據(jù)稀疏性和不準(zhǔn)確的問題變得愈發(fā)嚴(yán)重,使得模型預(yù)測準(zhǔn)確率降低。為了解決使用N-gram模型估計概率時的數(shù)據(jù)稀疏性問題,研究人員嘗試使用神經(jīng)網(wǎng)絡(luò)來研究語言模型,并嘗試使用各種機制來優(yōu)化語言模型的文本分析能力,例如CNN、RNN和Transformer[5-6]。CNN LSTM架構(gòu)使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)層對輸入數(shù)據(jù)進(jìn)行特征提取,結(jié)合LSTM支持序列預(yù)測,改善了RNN中存在的長期依賴問題。此外,使用Bert預(yù)訓(xùn)練模型可以實現(xiàn)良好的預(yù)測性能,相較于傳統(tǒng)的統(tǒng)計技術(shù)優(yōu)勢明顯。文獻(xiàn)[7]提出了一種基于Bert的簡單且輕量級的文本分類深度學(xué)習(xí)模型。該架構(gòu)類似word2vec CBOW模型[8]。實驗結(jié)果表明,添加預(yù)訓(xùn)練的模型能夠更加準(zhǔn)確地識別文本的上下文關(guān)系,取得較好的文本分析結(jié)果。
預(yù)訓(xùn)練能夠更好地幫助模型達(dá)到預(yù)期效果。例如,百度提出了一種預(yù)訓(xùn)練連續(xù)學(xué)習(xí)性框架ERNIE[9]。該框架通過學(xué)習(xí)算法,將大數(shù)據(jù)預(yù)設(shè)與多源知識相結(jié)合,不斷吸收大量數(shù)據(jù)文本中的文本結(jié)構(gòu)和知識體系。通過不斷學(xué)習(xí),ERNIE已經(jīng)在40多個經(jīng)典的NLP任務(wù)中取得了SOTA效果,并在國際名人比賽中贏得了十多位冠軍。近年來,微軟研究院在Bert的基礎(chǔ)上推出了最新的預(yù)訓(xùn)練語言模型—UniLM。UniLM是一種簡單而有效的多模態(tài)文本預(yù)訓(xùn)練方法。與Bert不同,UniLM可以使用不同的自注意力掩碼來聚合不同類型的語言模型的上下文[10]。UniLM結(jié)合了AR和AE兩種語言模型的優(yōu)點,在抽象摘要、生成式問題回答和語言生成數(shù)據(jù)集的抽樣領(lǐng)域獲得了優(yōu)異的成績。
本文提出了一種基于UniLM的半監(jiān)督方法,該方法使用無監(jiān)督預(yù)訓(xùn)練和有監(jiān)督微調(diào)方式來處理語言任務(wù)。算法的訓(xùn)練過程分為兩個階段:第一階段使用未標(biāo)記數(shù)據(jù)上的語言建模目標(biāo)來學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的初始參數(shù);第二階段使用相應(yīng)的有監(jiān)督目標(biāo)來使這些參數(shù)適應(yīng)目標(biāo)任務(wù)。此外,為了評估本文模型與其他模型的性能,我們在數(shù)據(jù)集MAWPS上進(jìn)行了一系列實驗。結(jié)果顯示,所提出模型的準(zhǔn)確率最高為80.56%。
1 系統(tǒng)設(shè)計
本文所提出的模型是一個類似于Bert的多層Transformer網(wǎng)絡(luò)。與Bert相比,該模型可以同時實現(xiàn)3個預(yù)訓(xùn)練目標(biāo),模型中還添加了一種新的序列到序列的訓(xùn)練方法,使得模型在自然語言理解(NLU)和自然語言生成(NLG)任務(wù)上表現(xiàn)得更加出色。此外,模型通過加入掩碼詞的上下文語境完成了對掩碼詞的預(yù)測,將任務(wù)轉(zhuǎn)換成填空任務(wù)。對于不同的訓(xùn)練目標(biāo),應(yīng)用不同的上下文進(jìn)行處理。
該模型的執(zhí)行流程如圖1所示。
1.1 輸入
輸入x都是由單詞標(biāo)記組成的序列,該序列可以是短句或者長句。對于每個輸入標(biāo)記ti,通過對應(yīng)的標(biāo)記嵌入、位置嵌入和段落嵌入計算其相應(yīng)的xi。對于序列開頭/結(jié)尾的標(biāo)記,添加了一個特殊的分類嵌入(CLS)和每個段落的特殊序列結(jié)束嵌入(SEP)。
1.2 Transformer編碼器
模型使用多層雙向Transformer編碼器來編碼由輸入表示的上下文信息。給定輸入向量X={xi}Ni=1,L層Transformer的輸入編碼形式如下:Hl=Transformer(Hl-1)。其中,l∈[1, L],H0=X, HL=[h1L, ..., hNL],Hl是隱式向量,用作ti的上下文表示。
1.3 預(yù)訓(xùn)練目標(biāo)
為充分利用語言中豐富的句內(nèi)結(jié)構(gòu)和句間結(jié)構(gòu),模型在完成編碼后,對原始的UniLM預(yù)訓(xùn)練目標(biāo)進(jìn)行了兩方面擴(kuò)展:詞結(jié)構(gòu)目標(biāo)(主要用于單句任務(wù))和句子結(jié)構(gòu)目標(biāo)(主要用于長句任務(wù))擴(kuò)展。對輔助目標(biāo)和原始掩碼語言模型目標(biāo)一同進(jìn)行預(yù)訓(xùn)練,使語言模型能夠在統(tǒng)一的模型中找到內(nèi)部的語言結(jié)構(gòu)。模型結(jié)構(gòu)如圖2所示。
1.4 詞結(jié)構(gòu)目標(biāo)
展示同時訓(xùn)練新的詞目標(biāo)和掩碼語言模型目標(biāo)的方法,對每個輸入序列,首先像UniLM那樣,隨機掩蓋15%的標(biāo)記,然后將輸出向量發(fā)送到softmax分類器,以預(yù)測原始掩碼。給定一個隨機打亂的標(biāo)記(考慮新單詞的順序),將詞目標(biāo)等同于最大化每個打亂的標(biāo)記被放置在正確位置的概率。該概率可以用以下公式表示:
式中:θ表示模型中可訓(xùn)練的參數(shù);K表示每個打亂子序列的長度,較大的K將迫使模型重構(gòu)更長的序列,同時注入更多的干擾輸入,取K=3來平衡模型的可重現(xiàn)性和魯棒性。
1.5 句子結(jié)構(gòu)目標(biāo)
原始的UniLM模型能夠準(zhǔn)確預(yù)測下一個句子(準(zhǔn)確率為97%~98%)。在設(shè)計的模型中,需要預(yù)測的不僅是下一個句子,還包括前一個句子,以使預(yù)訓(xùn)練的語言模型以雙向方式感知句子的順序。如圖2所示,給定一對句子S1、S2,其中S2可能是S1的下一個句子,或相反,或無關(guān)。一般而言,S2是S1的下一個句子或前一個句子的概率為2/3,或者它們是無關(guān)句子的概率為1/3。我們使用SEP標(biāo)記連接S1和S2,然后將CLS編碼向量輸入到softmax分類器進(jìn)行三類預(yù)測。
2 實驗和結(jié)果分析
為了評估所提出模型在數(shù)學(xué)問題上的有效性,設(shè)計了多組實驗進(jìn)行驗證。數(shù)據(jù)集采用廣泛使用的MAWPS基準(zhǔn)測試數(shù)學(xué)問題。實驗不僅驗證了該模型在實際數(shù)學(xué)問答應(yīng)用中的有效性,而且討論了模型中不同參數(shù)設(shè)置對實驗結(jié)果的影響。
2.1 數(shù)據(jù)集
MAWPS數(shù)據(jù)集提供了一個包含1 674個問題和答案對的訓(xùn)練集,以及一個包含865個問題和答案對的測試集。我們從訓(xùn)練集中選擇了900個問題作為開發(fā)集,剩下的1 639個問題和答案對被用作訓(xùn)練集。
2.2 實驗結(jié)果
本文實驗分為2部分:實驗1比較所提出模型與其他基準(zhǔn)模型的預(yù)測性能。見表1所列,所提出模型在實驗中的表現(xiàn)優(yōu)于所有基準(zhǔn)模型,最高準(zhǔn)確率達(dá)80.56%。例如,在F1-Score的比較中,與Graph2Tree和GTS分別為0.76和0.75的得分相比,本模型將F1分?jǐn)?shù)提高到了0.79。這是因為UniLM結(jié)合了AR和AE模型的優(yōu)點,彌補了LSTM只能存儲單向信息的缺點。顯然,所提出的模型在所有任務(wù)中都能夠達(dá)到良好的效果。
為了更好地理解受限模型能夠表現(xiàn)出色的原因,我們進(jìn)一步進(jìn)行實驗,測試模型中不同參數(shù)設(shè)置對結(jié)果的影響。
2.3 參數(shù)設(shè)置的影響
2.3.1 算術(shù)順序的影響
錯誤的算術(shù)順序會導(dǎo)致生成錯誤的結(jié)果表達(dá)式,本文提出的模型針對這一問題做出了改進(jìn),并通過實驗證明了模型改進(jìn)的有效性。我們首先檢索出具有錯誤預(yù)測表達(dá)式的數(shù)學(xué)問題。在實驗中,檢查錯誤預(yù)測表達(dá)式的長度是否與其對應(yīng)的真實表達(dá)式長度相等。見表2所列,本文模型只有
105個預(yù)測錯誤的句子,而Seq2Seq有131個,Graph2Tree有111個。
檢查最初檢索集中預(yù)測錯誤句子的數(shù)量。結(jié)果顯示,本文提出的模型生成的算術(shù)順序錯誤句子較少,表明所提出的模型準(zhǔn)確率相對更高。
2.3.2 句子長度的影響
本文還研究了句子長度對模型性能的影響。實驗在測試集上進(jìn)行,旨在驗證所提出模型在句子長度增加時的表現(xiàn)。使用顯式樹解碼器對本文模型與幾個基準(zhǔn)模型進(jìn)行比較。見表3所列,在大多數(shù)情況下,所提出模型的表現(xiàn)均優(yōu)于其他模型(除句子長度等于5的情況)。當(dāng)句子長度少于5時,與其他模型相比,該模型顯示出良好的效果。其次,隨著句子復(fù)雜度的增加,所有模型的性能均下降。當(dāng)句子長度達(dá)到10時,所有模型的預(yù)測性能均大幅下滑。這是因為較長的句子導(dǎo)致了更復(fù)雜的問題,更難以預(yù)測。
3 結(jié) 語
本文提出了一種優(yōu)化的數(shù)學(xué)問題解答模型,該模型通過UniLM處理多樣化語言預(yù)測任務(wù),從而提高了模型性能。實驗結(jié)果表明,該模型在解決數(shù)學(xué)問題方面超越了其他基準(zhǔn)模型,準(zhǔn)確率峰值達(dá)到80.56%。然而,該模型在處理長且復(fù)雜的句子時預(yù)測效果不盡人意。因此,在今后的工作中,將專注于理解數(shù)學(xué)量之間的關(guān)系及其對預(yù)測問題上下文和答案的影響,提高模型的準(zhǔn)確性。
參考文獻(xiàn)
[1]王超,孔祥輝.大型預(yù)訓(xùn)練語言模型在網(wǎng)絡(luò)健康信息鑒別中的應(yīng)用探討[J].農(nóng)業(yè)圖書情報學(xué)報,2023,35(6):51-59.
[2]沈凌云,樂小虬.文本神經(jīng)語義解析方法研究進(jìn)展[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2023,7(12):1-21.
[3]李政.基于神經(jīng)網(wǎng)絡(luò)語言模型的統(tǒng)計機器翻譯應(yīng)用分析[J].信息與電腦(理論版),2022,34(22):109-111.
[4]李沅靜,葉仁玉,冷婷.基于二階隱馬爾可夫模型的中文分詞在文本情感分析中的應(yīng)用[J].安慶師范大學(xué)學(xué)報(自然科學(xué)版),2023,29(3):44-48.
[5] CHEN G,LIU S,XU J T. Memory-boosting RNN with dynamic graph for event-based action recognition [J]. Optoelectronics letters,2023,19(10):629-634.
[6]馬占海,張俊超,田光欣.電網(wǎng)人機對話系統(tǒng)短文本用戶意圖自動識別方法[J].電子設(shè)計工程,2023,31(17):128-131.
[7]劉斐瑜,俞衛(wèi)琴.融合Bert與注意力的文本情感分析模型[J].軟件導(dǎo)刊,2023,22(8):66-71.
[8] ZHELEZNIAK V,SAVKOV A,SHEN A,et al. Don't settle for average,go for the max:fuzzy sets and max-pooled word vectors [J]. arXiv:1904.13264,2019.
[9]趙逢達(dá),郭凡,李賢善,等. ASE-ERNIE:一種基于ERNIE的中文指令動作序列生成方法[J].計算機集成制造系統(tǒng),2024,30(5):1745-1753.
[10]曾江峰,劉園園,程征,等.基于UniLM模型的學(xué)術(shù)文摘觀點自動生成研究[J].圖書情報工作,2023,67(2):131-139.