中圖分類號:TP391.1;TP301.1 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2025)08-0138-08
Abstract:Chinese Spelling Correction(CSC)isacrucial foundational task inNaturalLanguage Processing (NLP),and providessupport forthedownstreamtasks andresearch.Theresearch in the fieldofCSCtaskscontinues to develop,mainly divided into eror corrction methods based onN-Gram language models,Deep Leaming,andLarge Language Models (LLMs). Firstly,techaracteristicsoftheN-GamlnguagemodelanditsapplicationinCSCareanalyzed,rvealingitsadvatagesin capturing contextual information.Secondly,methodsbasedonDepLearning improve theaccuracyof error coectionthrough deep neural networksand are widelyused in Chinese text procesing.Atthesame time,theriseofLLMs provides new ideas for speling correction,demonstrating their enormous potentialindealing withcomplex languagephenomena.Thisreviewprovides adetailedoverviewofthecurrentresearchstatusintheCSCfeld,providingareferenceforscholars engaged inrelatedresearch.
Keywords: Chinese text; spelling correction; N-Gram language model; Deep Learning; Large Language Model
0 引言
中文文本拼寫錯(cuò)誤(CSC)是自然語言處理(NLP)領(lǐng)域的一個(gè)重要的基礎(chǔ)研究方向,其目的是檢測和糾正文本中出現(xiàn)的拼寫錯(cuò)誤,為后續(xù)的文本分析、信息檢索、文本生成等任務(wù)提供了干凈、準(zhǔn)確的輸入數(shù)據(jù)。另外拼寫糾錯(cuò)與其他NLP任務(wù)緊密相關(guān)。例如,在信息抽取任務(wù)中,準(zhǔn)確的文本能夠提高信息提取的準(zhǔn)確性;在機(jī)器翻譯中,拼寫錯(cuò)誤可能導(dǎo)致翻譯結(jié)果不準(zhǔn)確,因此糾錯(cuò)可以提高翻譯質(zhì)量。此外人們在日常在線交流、寫作和翻譯中,難免會出現(xiàn)拼寫錯(cuò)誤問題,這些錯(cuò)誤可能會影響到文本的準(zhǔn)確性和可讀性。它可以幫助用戶在撰寫文檔時(shí)提高寫作質(zhì)量,改善用戶體驗(yàn)。綜上所述,中文文本拼寫糾錯(cuò)在自然語言處理中不僅是一個(gè)關(guān)鍵的基礎(chǔ)任務(wù),也為各種應(yīng)用和研究提供了支持,促進(jìn)了NLP技術(shù)的全面發(fā)展。
1基于N-Gram語言模型的糾錯(cuò)方法
早期無監(jiān)督時(shí)代拼寫糾錯(cuò)方法主要利用無監(jiān)督管道系統(tǒng)即在沒有人工標(biāo)注或監(jiān)督信號的情況下,通過自動化處理流程來完成特定任務(wù)的系統(tǒng)。由于N-Gram語言模型在上下文建模、處理語言特性、計(jì)算效率以及實(shí)現(xiàn)和可解釋性等方面的優(yōu)勢,早期的拼寫糾錯(cuò)方法都采用了N-Gram的語言模型,并結(jié)合了動態(tài)規(guī)劃、加權(quán)平滑、發(fā)音和字形相似性等多種技術(shù)手段提升糾錯(cuò)精度。
1.1N-Gram 語言模型
N-Gram語言模型是一種基于概率的語言模型,用于預(yù)測一串詞序列中給定上下文后出現(xiàn)某個(gè)詞的概率。N-Gram模型通過統(tǒng)計(jì)不同長度的詞組(即 N 個(gè)詞組成的片段)在語料庫中的出現(xiàn)頻率,來計(jì)算詞與詞之間的條件概率。N-Gram模型的核心思想是使用前面的 N - 1 個(gè)詞預(yù)測第 N 個(gè)詞。
在這個(gè)模型中,假設(shè)一個(gè)句子中的第i個(gè)詞的出現(xiàn)只依賴于前面的 N - 1 個(gè)詞,而與其他詞無關(guān),即滿足馬爾可夫假設(shè)。 N 的值決定了模型的復(fù)雜度和上下文長度。常用的N-Gram模型包括:
1)Unigram(一元模型)假設(shè)每個(gè)詞的出現(xiàn)獨(dú)立 于前面的詞,只考慮詞本身的頻率。 2)Bigram(二元模型)只考慮前一個(gè)詞。 3)Trigram(三元模型)考慮前兩個(gè)詞。
例如,N-Gram語言模型預(yù)測第 N 個(gè)詞只依賴于第 N - 2 和第 N - 1 個(gè)詞。
第 i 個(gè)詞只依賴于第 i - 2 和第i-1個(gè)詞。對于給定的詞序列 ,N-Gram模型計(jì)算該序列的概率如下:
其中, 表示在前面 N - 1 個(gè)詞出現(xiàn)的情況下,第 i 個(gè)詞出現(xiàn)的條件概率。
條件概率通過詞頻的相對頻率來估計(jì),即:
其中, 表示該N-Gram在語料庫中出現(xiàn)的次數(shù),而count
表示前面 N - 1 個(gè)詞組成的詞組出現(xiàn)的次數(shù)。
在實(shí)際應(yīng)用中,由于數(shù)據(jù)稀疏性,很多N-Gram組合可能在語料庫中沒有出現(xiàn)。為了解決這種“零概率”問題,需要使用平滑技術(shù),如拉普拉斯平滑、加權(quán)平滑、Kneser-Ney平滑等。這些方法通過將部分概率質(zhì)量從高頻事件轉(zhuǎn)移到低頻甚至未出現(xiàn)的事件,來提高模型的泛化能力。
1.2N-Gram語言模型在中文拼寫糾錯(cuò)中的應(yīng)用
Xie等人[2]將Bigram和Trigram模型結(jié)合并使用動態(tài)規(guī)劃和加權(quán)平滑解決了訓(xùn)練數(shù)據(jù)稀疏性問題并提高了糾錯(cuò)能力,但其召回率(Recall)較低,且處理長句子時(shí)復(fù)雜度較高。Huang等人[3]使用了Trigram語言模型進(jìn)一步提高了其糾錯(cuò)能力,但其主要針對字符級別的錯(cuò)誤檢測和糾正,忽略了單詞級別的錯(cuò)誤。Yu等人[4使用字符級N-Gram語言模型用于檢測潛在的拼寫錯(cuò)誤的字符,并根據(jù)發(fā)音和形狀相似性生成候選集,再根據(jù)詞字典過濾掉不能形成合法單詞的候選項(xiàng),最后選擇最高概率的候選字符作為糾錯(cuò)的結(jié)果。Yeh等人[5]使用了N-Gram排名倒排索引列表用于映射潛在的拼寫錯(cuò)誤字符到可能的對應(yīng)字符,并結(jié)合發(fā)音和形狀字典用于生成候選集,并用E-HowNet傳統(tǒng)中文詞匯的知識表提高了糾錯(cuò)效果,但其訓(xùn)練和測試階段的復(fù)雜性較高。Yu等人結(jié)合了多種統(tǒng)計(jì)方法(N-Gram模型、機(jī)器學(xué)習(xí)模型、圖模型)以及使用了多個(gè)語料庫的資源,增強(qiáng)了模型的效果并提高了魯棒性和準(zhǔn)確性,但其融合多種方法導(dǎo)致其實(shí)現(xiàn)和維護(hù)難度增加。
綜上所述,N-Gram模型計(jì)算效率高、對小數(shù)據(jù)集友好且解讀性好,但其長距離依賴有限,只能捕捉固定窗口內(nèi)的依賴關(guān)系,處理較長的句子時(shí)效果不佳,容易忽視跨N-Gram邊界的詞匯關(guān)系。而且稀疏性問題嚴(yán)重,當(dāng) N 值較大時(shí),N-Gram模型會變得稀疏,導(dǎo)致無法捕捉到足夠的語言現(xiàn)象,影響糾錯(cuò)的準(zhǔn)確性。最后N-Gram模型在生成候選詞方面不如深度學(xué)習(xí)模型,容易導(dǎo)致糾錯(cuò)的多樣性和自然性不足。
2基于深度學(xué)習(xí)的糾錯(cuò)方法
中文拼寫糾錯(cuò)需要考慮上下文語境,以判斷某字是否正確。傳統(tǒng)的N-Gram模型只能捕捉有限范圍的上下文信息,而深度學(xué)習(xí)網(wǎng)絡(luò)(如Transformer[)可以利用自注意力機(jī)制在全局范圍內(nèi)建模句子的語義關(guān)系,捕捉到長距離的詞匯關(guān)聯(lián)。而且拼寫錯(cuò)誤在不同的上下文中可能代表不同的糾正方式,深度學(xué)習(xí)模型通過上下文對字詞進(jìn)行編碼,可以根據(jù)具體句子的語義來調(diào)整糾錯(cuò)建議。這對于中文這樣有大量同音字和形近字的語言尤其重要。另外深度學(xué)習(xí)模型既可以通過生成式方法給出候選糾錯(cuò)字詞,也可以通過判別式方法判斷某字是否錯(cuò)誤。這種靈活性使得深度學(xué)習(xí)網(wǎng)絡(luò)可以更全面地解決拼寫糾錯(cuò)任務(wù)。因此,深度學(xué)習(xí)網(wǎng)絡(luò)因其強(qiáng)大的特征學(xué)習(xí)和長距離依賴建模能力,非常適合中文拼寫糾錯(cuò)任務(wù)。在當(dāng)前實(shí)踐中,BERT等預(yù)訓(xùn)練語言模型以及基于Transformer的序列到序列網(wǎng)絡(luò)在中文拼寫糾錯(cuò)任務(wù)中已經(jīng)展現(xiàn)出優(yōu)異的表現(xiàn)。
2.1 深度學(xué)習(xí)網(wǎng)絡(luò)
深度學(xué)習(xí)網(wǎng)絡(luò)[8是一種通過多個(gè)神經(jīng)網(wǎng)絡(luò)層級結(jié)構(gòu)來模擬人類大腦的學(xué)習(xí)模式的算法模型。通過層層的神經(jīng)元結(jié)構(gòu),深度學(xué)習(xí)網(wǎng)絡(luò)能夠自動提取數(shù)據(jù)中的多級特征,實(shí)現(xiàn)復(fù)雜模式的識別和預(yù)測。深度學(xué)習(xí)網(wǎng)絡(luò)中的常見模型有前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetwork,F(xiàn)NN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)和
Transformer等。深度學(xué)習(xí)網(wǎng)絡(luò)的基本結(jié)構(gòu)如圖1所示,包括輸入層、隱藏層和輸出層。輸入層用于接收輸入數(shù)據(jù),如文本、圖像等。隱藏層包含多個(gè)神經(jīng)元層,負(fù)責(zé)數(shù)據(jù)特征的提取和抽象。深度網(wǎng)絡(luò)的“深度”通常指隱藏層的數(shù)量。輸出層產(chǎn)生模型的最終預(yù)測結(jié)果。
深度學(xué)習(xí)網(wǎng)絡(luò)通過大量的數(shù)據(jù)訓(xùn)練,使得網(wǎng)絡(luò)層的權(quán)重逐漸調(diào)整,以最小化預(yù)測結(jié)果與真實(shí)值之間的誤差。這個(gè)過程通過反向傳播和梯度下降來實(shí)現(xiàn)。
2.2深度學(xué)習(xí)在中文拼寫糾錯(cuò)中的應(yīng)用
2.2.1 模型架構(gòu)創(chuàng)新
隨著Wang等人提出自動生成偽標(biāo)記數(shù)據(jù)的技術(shù)解決CSC數(shù)據(jù)稀缺的問題,標(biāo)志著CSC研究范式向以深度神經(jīng)網(wǎng)絡(luò)為主導(dǎo)的監(jiān)督學(xué)習(xí)時(shí)代的轉(zhuǎn)變。這一時(shí)期,研究人員探索了各種途徑來提高CSC性能。Zhang等人[1o]提出了新的神經(jīng)網(wǎng)絡(luò)Soft-MaskedBERT架構(gòu),如圖2所示,通過結(jié)合錯(cuò)誤檢測網(wǎng)絡(luò)和基于BERT的錯(cuò)誤糾正網(wǎng)絡(luò)使其能夠更有效地利用全局上下文信息,顯著提高了拼寫錯(cuò)誤糾正的性能。其中錯(cuò)誤檢測網(wǎng)絡(luò)使用雙向GRU(Bi-GRU)網(wǎng)絡(luò)來預(yù)測每個(gè)字符是否為錯(cuò)誤。對于每個(gè)字符,定義了一個(gè)條件概率 表示其為錯(cuò)誤的概率。錯(cuò)誤糾正網(wǎng)絡(luò)使用BERT模型作為錯(cuò)誤糾正網(wǎng)絡(luò),其最后一層包含一個(gè)Softmax函數(shù),用于輸出每個(gè)字符的糾正概率。
Zhu等人[提出了一種新的多任務(wù)檢測-校正框架MDCSpell,如圖3所示,并通過利用拼寫錯(cuò)誤字符的字形和發(fā)音特征同時(shí)最小化其對上下文的誤導(dǎo)性影響從而在中文拼寫糾錯(cuò)任務(wù)中表現(xiàn)出色。其中檢測網(wǎng)絡(luò)使用基于Transformer的結(jié)構(gòu)作為檢測網(wǎng)絡(luò),確定每個(gè)字符的錯(cuò)誤概率。輸入文本的嵌入序列經(jīng)過多層Transformer編碼后,得到檢測網(wǎng)絡(luò)的輸出編碼向量,表示每個(gè)位置字符的正確性概率。糾錯(cuò)網(wǎng)絡(luò)使用BERT-base作為糾錯(cuò)網(wǎng)絡(luò),找到替換錯(cuò)誤字符的正確字符。BERT-base由12層相同的Transformer塊組成,最后一層的隱藏狀態(tài)用于糾錯(cuò)任務(wù)。
2.2.2 訓(xùn)練策略改進(jìn)創(chuàng)新
Liu等人[12]提出了一種新的訓(xùn)練策略CRASpell(Contextual Typo Robust Approach for ChineseSpellingCorrection),通過引入噪聲建模模塊和復(fù)制機(jī)制,有效解決了中文拼寫糾錯(cuò)中的上下文錯(cuò)別字干擾和過度糾正問題。噪聲建模模塊為了使模型對上下文噪聲魯棒,該方法首先生成每個(gè)訓(xùn)練樣本的噪聲上下文。然后,強(qiáng)制糾錯(cuò)模型基于原始上下文和噪聲上下文生成相似的輸出。噪聲建模模塊通過替換原始訓(xùn)練樣本中的字符來生成噪聲上下文,具體替換策略包括替換位置(從距離最近錯(cuò)別字一定范圍內(nèi)的位置中選擇位置進(jìn)行替換)和替換字符(根據(jù)混淆集隨機(jī)替換為音似字符、形似字符或詞匯表中的任意字符)。而糾錯(cuò)模塊輸入為嵌入序列,經(jīng)過Transformer編碼器生成隱藏表示矩陣。最終輸出分布是生成分布和復(fù)制分布的加權(quán)和,算式如下:
其中, 表示生成分布,
表示復(fù)制分布, ω 表示復(fù)制概率。生成分布通過一層前饋網(wǎng)絡(luò)計(jì)算,復(fù)制分布是一個(gè)獨(dú)熱向量(One-hotVector),復(fù)制概率通過兩層前饋網(wǎng)絡(luò)計(jì)算。
Wu等人[13]提出了一種簡單但有效的方法來解決BERT在CSC任務(wù)中過度擬合錯(cuò)誤模型的問題。該CSC任務(wù)需要語言模型和錯(cuò)誤模型協(xié)同工作來做出決策。語言模型決定給定上下文中字符的分布,而錯(cuò)誤模型表示給定上下文及其正確形式的潛在拼寫錯(cuò)誤的分布。算式如下:
其中, x 表示除位置 外的所有字符。為了提高語言模型的性能而不影響錯(cuò)誤模型,該論文提出在微調(diào)過程中隨機(jī)掩蓋輸入序列中 20 % 的非錯(cuò)誤標(biāo)記。這樣模型被迫在給定上下文的情況下預(yù)測被掩蓋的標(biāo)記,從而學(xué)習(xí)到更好的語言模型。這種方法不需要對人類錯(cuò)誤的任何假設(shè),因此能夠從真實(shí)的人類數(shù)據(jù)中學(xué)習(xí)到完全無偏的錯(cuò)誤模型。另外還提出了一種利用單語數(shù)據(jù)與并行數(shù)據(jù)進(jìn)行模型訓(xùn)練的方法,以實(shí)現(xiàn)在新領(lǐng)域的領(lǐng)域遷移。Liu等人[4]提出了重述語言模型(ReLM)來解決中文拼寫糾錯(cuò)問題。傳統(tǒng)的序列標(biāo)注方法將CSC視為字符到字符的標(biāo)注任務(wù),模型被訓(xùn)練來將一個(gè)字符映射到另一個(gè)字符。這種方法會導(dǎo)致模型過度依賴訓(xùn)練數(shù)據(jù)中的錯(cuò)誤模式,忽略了整個(gè)句子的語義。然而重述語言模型(ReLM)為了克服序列標(biāo)注的缺點(diǎn),提出用重述作為CSC的主要訓(xùn)練目標(biāo)。具體來說,源句子首先被編碼到語義空間,然后基于給定的掩碼槽進(jìn)行重述以生成正確的句子。
ReLM基于BERT模型,通過填充預(yù)設(shè)的掩碼槽來實(shí)現(xiàn)重述。ReLM是一個(gè)非自回歸的重述模型,使用BERT架構(gòu)。輸入句子和目標(biāo)字符被連接起來,模型被訓(xùn)練來逐個(gè)生成目標(biāo)字符。算式如下:
其中, 表示用于
的掩碼字符。ReLM自然地適用于多任務(wù)學(xué)習(xí),所有任務(wù)都統(tǒng)一為掩碼語言建模格式,增強(qiáng)了CSC到各種任務(wù)的可遷移性。
2.2.3 多模態(tài)與特征增強(qiáng)創(chuàng)新
此外,還可以將發(fā)音或字形特征融入模型增強(qiáng)糾錯(cuò)效果,如Cheng等人[15]提出了一種新的拼寫糾錯(cuò)方法SpellGCN,通過圖卷積網(wǎng)絡(luò)(GraphConvolutionalNetwork,GCN)將語音和視覺相似性知識融入語言模型中。首先,從開源的混淆集中構(gòu)建兩個(gè)相似性圖,分別對應(yīng)發(fā)音相似性和形狀相似性。每個(gè)相似性圖是一個(gè)二進(jìn)制鄰接矩陣,表示混淆集中的字符對是否存在。SpellGCN通過圖卷積操作吸收圖中相鄰字符的信息。每層采用輕量級的GCN卷積層,算式如下:
其中, 表示鄰接矩陣 A 的歸一化版本,
表示可訓(xùn)練的權(quán)重矩陣。
為了結(jié)合發(fā)音和形狀相似性圖,采用了注意力機(jī)制。對于每個(gè)字符,表示組合操作的算式如下:
其中, 表示圖 k 的卷積表示的第 i 行,
表示權(quán)重,計(jì)算式為:
β 表示一個(gè)超參數(shù),控制注意力權(quán)重的平滑度。
等人[提出了REALISE中文拼寫檢查器,通過利用漢字的多模態(tài)信息(語義、發(fā)音和圖形信息)來檢測和糾正拼寫錯(cuò)誤。其實(shí)驗(yàn)結(jié)果表明,REALISE模型在SIGHAN基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)顯著優(yōu)于現(xiàn)有的最先進(jìn)模型,驗(yàn)證了多模態(tài)信息在中文拼寫檢查任務(wù)中的有效性。該REALISE模型包含了語義編碼器、語音編碼器和圖形編碼器。其中語義編碼器采用BERT作為語義編碼器的骨干,捕捉文本信息。語音編碼器使用漢語拼音作為語音特征,設(shè)計(jì)了一個(gè)分層編碼器。拼音由聲母、韻母和聲調(diào)組成,分別用字母和數(shù)字表示。圖形編碼器應(yīng)用ResNet作為圖形編碼器,提取字符圖像的視覺信息。字符圖像從預(yù)設(shè)的字體文件中讀取,使用三種字體(黑體、小篆)來捕捉字符的圖形關(guān)系。最終輸出為一個(gè)向量,長度等于語義編碼器的隱藏大小
。
Li等人[17]提出了SCOPE(Spelling Check byPronunciationPrediction),SCOPE基于共享編碼器和兩個(gè)并行解碼器,一個(gè)用于主要的CSC任務(wù),另一個(gè)用于細(xì)粒度的輔助CPP(CharacterPronunciationPrediction)任務(wù)。輸入句子經(jīng)過編碼器處理后,生成語義、語音和形態(tài)特征。其次兩個(gè)解碼器分別生成目標(biāo)正確字符和預(yù)測每個(gè)目標(biāo)字符的聲母、韻母和聲調(diào)。Liang等人[18]提出了DORM(DisentangledPhoneticRepresentationModel)糾錯(cuò)模型,其通過分離文本和拼音特征,并引入拼音到字符的預(yù)測目標(biāo)和自我蒸餾模塊。其中包含拼音感知輸入序列。首先,將拼音序列附加到原始文本輸入,構(gòu)建一個(gè)拼音感知的輸入序列。拼音序列由聲母和韻母組成,忽略聲調(diào)信息。Wu等人[提出了一種通過隨機(jī)遮蔽非錯(cuò)誤詞元來增強(qiáng)語言模型的方法。即在微調(diào)過程中,隨機(jī)遮蔽輸入序列中 20 % 的非錯(cuò)誤詞元,迫使模型在沒有這些詞元的情況下預(yù)測目標(biāo)詞元。這種方法不同于BERT預(yù)訓(xùn)練時(shí)的 1 5 % 詞元遮蔽,旨在增強(qiáng)語言模型的學(xué)習(xí)而不影響錯(cuò)誤模型。該方法有效地解決了BERT在CSC任務(wù)中過度擬合錯(cuò)誤模型的問題以及LEMON基準(zhǔn)的引入為CSC模型的泛化能力評估提供了新的標(biāo)準(zhǔn)。
綜上所述,研究者通過創(chuàng)新模型架構(gòu)、改進(jìn)訓(xùn)練策略及融合多模態(tài)特征,顯著提升了拼寫糾錯(cuò)的性能。基于深度學(xué)習(xí)的中文拼寫糾錯(cuò)方法具備更高的針對性和計(jì)算效率,尤其適合處理中文特有的拼音、字形等錯(cuò)誤類型,且對數(shù)據(jù)需求較低,適用性強(qiáng)。但其泛化能力和靈活性較弱,難以應(yīng)對復(fù)雜上下文和多種類型的錯(cuò)誤。相比之下,大語言模型雖然計(jì)算成本更高,但具備強(qiáng)大的語言理解和遷移能力,能夠在多樣化場景中處理更復(fù)雜的語言錯(cuò)誤。
3基于大語言模型的糾錯(cuò)方法
3.1 大語言模型
大語言 模型(Large Language Model,LLM)[20]是一種由包含數(shù)百億以上參數(shù)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語言模型。其訓(xùn)練通?;邶嫶蟮奈谋緮?shù)據(jù)集進(jìn)行,這些數(shù)據(jù)集包含了廣泛的語言現(xiàn)象、語法規(guī)則和詞匯用法。從而使模型能夠?qū)W習(xí)到語言的復(fù)雜性和多樣性,從而在處理文本糾錯(cuò)任務(wù)時(shí)能夠識別并糾正各種語言錯(cuò)誤。其次大語言模型具有強(qiáng)大的上下文理解能力,能夠根據(jù)句子的前后文來推斷詞語的正確用法。這種能力使得模型在糾正文本錯(cuò)誤時(shí),能夠考慮到整個(gè)句子的語義和語法結(jié)構(gòu),而不僅僅是單個(gè)詞語的替換。而且大語言模型具有強(qiáng)大的文本生成能力,能夠生成流暢、連貫的文本。在文本糾錯(cuò)任務(wù)中,這種生成能力使得模型能夠替換掉錯(cuò)誤的詞語或句子,同時(shí)保持文本的連貫性和可讀性。其次通過增加大模型參數(shù)規(guī)?;驍?shù)據(jù)規(guī)模會帶來下游任務(wù)的模型性能提升,這種現(xiàn)象通常被稱為擴(kuò)展定律(ScalingLaw)[21]如圖4所示。而當(dāng)模型參數(shù)規(guī)模達(dá)到千億量級(例如175B參數(shù)的GPT-3[22]和540B參數(shù)的 )語言大模型能夠展現(xiàn)出多方面的能力躍升。又如,GPT-3可以通過“上下文學(xué)習(xí)”(In-ContextLearning,ICL)的方式來利用少樣本數(shù)據(jù)解決下游任務(wù),甚至在某些任務(wù)上超過當(dāng)時(shí)最好的專用模型。
綜上所述,大語言模型由于其大規(guī)模數(shù)據(jù)集訓(xùn)練、上下文理解能力、生成能力、自適應(yīng)性和可擴(kuò)展性、語言模型的內(nèi)在特性以及錯(cuò)誤模式識別能力等因素,非常適合用于文本糾錯(cuò)任務(wù)。這些特性使得大語言模型在處理文本糾錯(cuò)時(shí)能夠表現(xiàn)出色,為用戶提供準(zhǔn)確、可靠的糾正建議。
3.2大語言模型在拼寫糾錯(cuò)中的應(yīng)用
Li等人[24認(rèn)為LLMs在滿足中文拼寫檢查任務(wù)的字符級約束方面存在不足,通過提出C-LLM方法并建立字符級映射,逐字檢查和糾正錯(cuò)誤來提高拼寫檢查的性能,使其成為字符復(fù)制和替換的任務(wù)。Li等人[25]使用LLMs作為基礎(chǔ)模型進(jìn)行微調(diào)并通過任務(wù)特定的提示和上下文學(xué)習(xí)策略來評估和改進(jìn)LLMs在CSC任務(wù)中的表現(xiàn)。任務(wù)特定提示如圖5所示,為了引導(dǎo)LLMs像糾錯(cuò)模型一樣行為,提示要求LLMs最小化對原始輸入句子的更改,并且在拼寫糾錯(cuò)任務(wù)中保持輸入和輸出句子長度一致。而在上下文學(xué)習(xí)策略中設(shè)計(jì)了三種隨機(jī)樣本:隨機(jī)錯(cuò)誤樣本、正確和錯(cuò)誤樣本、選擇難以糾正的錯(cuò)誤樣本,以此來增強(qiáng)LLMs的中文拼寫糾錯(cuò)能力。
Dong等人[2提出了名為RS-LLM(RichSemanticbasedLLMs)的上下文學(xué)習(xí)方法將GPT-3.5-turbo和ChatGLM2-6B作為基礎(chǔ)模型,并研究引入各種中文富語義信息對框架的影響。其中構(gòu)建了一個(gè)包含6763個(gè)漢字的GB2312簡化漢字編碼表,并收集了每個(gè)漢字的多種屬性,如拼音、部首、筆畫數(shù)、結(jié)構(gòu)等,如圖6所示。為了確保數(shù)據(jù)的準(zhǔn)確性和完整性,對這些信息進(jìn)行了手動標(biāo)注。
利用RS-LLM的上下文學(xué)習(xí)能力,通過提供有限的與任務(wù)相關(guān)的例子來快速提高任務(wù)性能。如圖7所示,在該提示模板中,限制RS-LLM對輸入句子的語義重述,并要求其找到并糾正拼寫錯(cuò)誤。為了避免RS-LLM在生成修正句子時(shí)過度修改句子長度或未有效使用語義信息,引入了一個(gè)內(nèi)省機(jī)制即生成修正句子后,再次將其與原始輸入句子一起輸入RS-LLM,要求其判斷兩個(gè)句子的長度是否一致以及語義信息是否有效使用。只有當(dāng)兩個(gè)問題的答案都是“是”時(shí),才輸出修正結(jié)果;否則,將當(dāng)前對話作為歷史對話的一部分,并再次請求RS-LLM回復(fù)。其實(shí)驗(yàn)結(jié)果表明發(fā)音和部首信息對CSC任務(wù)的提升最為顯著,其次是結(jié)構(gòu)信息,而筆畫信息的提升相對較小。
Zhou等人[27]提出了首個(gè)無須訓(xùn)練和提示的框架,該方法完全不同于以往的中文拼寫糾錯(cuò)(CSC)方法,利用大型語言模型(LLMs)作為傳統(tǒng)語言模型進(jìn)行評估。并提出了長度獎(jiǎng)勵(lì)策略以及忠實(shí)度獎(jiǎng)勵(lì)策略,有效促進(jìn)了多字符標(biāo)記的生成,減少了過度糾正問題。
4結(jié)論
本文詳細(xì)闡述了中文文本拼寫糾錯(cuò)(CSC)的研究現(xiàn)狀,重點(diǎn)介紹了基于N-Gram語言模型、深度學(xué)習(xí)和大語言模型的糾錯(cuò)方法。N-Gram語言模型通過統(tǒng)計(jì)詞組頻率來預(yù)測詞的概率,盡管計(jì)算效率高,但在處理長距離依賴和生成候選詞方面存在局限。基于深度學(xué)習(xí)方法探討了模型架構(gòu)創(chuàng)新、訓(xùn)練策略改進(jìn)和多模態(tài)特征融合等方面的研究進(jìn)展。特別是基于Transformer的模型,通過自注意力機(jī)制捕捉長距離依賴,顯著提高了糾錯(cuò)性能,大語言模型憑借其強(qiáng)大的上下文理解和生成能力,進(jìn)一步提升了糾錯(cuò)效果。隨著技術(shù)的不斷進(jìn)步和優(yōu)化,我們可以期待這一領(lǐng)域在未來呈現(xiàn)更多創(chuàng)新和突破。
參考文獻(xiàn):
[1]KONDRAK G.N-Gram Similarity and Distance[C]//String Processing and Information Retrieval (SPIRE 20o5).BuenosAires:SpringerNature,2005:115-126.
[2]XIEWJ,HUANGPJ,ZHANGXR,etal.ChineseSpellingCheck SystemBased onN-GramModel[C]//Proceedingsof the Eighth SIGHANWorkshop on ChineseLanguage Processing(SIGHAN-8).Beijing:ACL,2015:128-136.
[3]HUANGQ,HUANGPJ,ZHANGXR,et al.Chinese SpellingCheck System Based on Tri-Gram Model [C]//Proceedingsof the ThirdCIPS-SIGHAN JointConferenceonChineseLanguage Processing.Wuhan:ACL,2014:173-178.
[4]YUJJ,LI Z H.Chinese Spelling Error Detection andCorrection Based onLanguage Model,Pronunciation,and Shape[C]//Proceedings of the Third CIPS-SIGHAN Joint Conference onChinese Language Processing.Wuhan:ACL,2014:220-223.
[5]YEHJ-F,LI S-F,WU M-R,et al.Chinese WordSpellingCorrectionBasedonN-GramRanked Inverted IndexList[C]//Proceedings of the Seventh SIGHAN Workshop on ChineseLanguage Processing.Nagoya:ACL,2013:43-48.
[6]YUL-C,LEEL-H,TSENGY-H,etal.OverviewofSIGHAN 2014 Bake-off for Chinese SpellingCheck[C]//Proceedings of the Third CIPS-SIGHAN Joint Conference onChinese Language Processing.Wuhan:ACL,2014:126-132.
[7]VASWANIA,SHAZEERN,PARMARN,etal.Attention IsAll You Need[C]//3lst International Conference onNeural Information Processing Systems.Long Beach:CurranAssociatesInc,2017:6000-6010.
[8]SCHMIDHUBER J.Deep Learning in Neural Networks:AnOverview[J].Neural Networks,2015,61:85-117.
[9] WANGDM,SONGY,LIJ,et al.AHybrid ApproachtoAutomatic Corpus Generation for Chinese Spelling Check[C]//Proceedings of the 2018 Conference on Empirical Methods inNaturalLanguage Processing.Brussels:ACL,2018:2517-2527.
[10] ZHANG SH,HUANG HR,LIUJC,et al. SpellingError Correction with Soft-Masked BERT[C]//Proceedings ofthe 58th Annual Meeting of the Association for ComputationalLinguistics.Online:ACL,2020:882-890.
[11]ZHUCX,YINGZQ,ZHANGBY,etal.MDCSpell:A Multi-task Detector-corrector Framework forChinese Spelling Correction [C]//Findings of the Association forComputational Linguistics.Dublin:ACL,2022:1244-1253.
[12] LIU SL,SONG SK,YUETC,et al.CRASpell: AContextual Typo Robust Approach to Improve Chinese SpellingCorrection [C]//Findings of the Association for ComputationalLinguistics.Dublin:ACL,2022:3008-3018.
[13]WUHQ,ZHANG SH,ZHANGYC,et al.Rethinking Masked Language Modeling for Chinese SpelingCorrection[C]//Proceedingsof the6lstAnnualMeetingoftheAssociation for ComputationalLinguistics.Toronto:ACL,2023:10743-10756.
[14]LIULF,WUHQ,ZHAO H.ChineseSpelling Correction as Rephrasing Language Model [J/OL].arXiv:2308.08796 [cs.CL].[2024-10-02].https://arxiv.org/abs/2308.08796.
[15]CHENGXY,XUWD,CHENKL,et al.SpellGCN: Incorporating Phonological and Visual Similarities intoLanguage Models for Chinese Spelling Check [C]//Proceedingsof the 58th Annual Meeting of the Association for ComputationalLinguistics.Online:ACL,2020:871-881.
[16] XUH-D,LI ZL,ZHOUQY,et al.Read,Listen,and See: Leveraging Multimodal Information Helps Chinese SpellChecking [J/OL].arXiv:2105.12306 [cs.CL].[2024-10-02].https://arxiv.org/abs/2105.12306.
[17] LI JH,WANGQ,MAO ZD,et al. ImprovingChinese Spelling Check by Character Pronunciation Prediction:The Effects ofAdaptivity and Granularity[J/OL].arXiv:2210.10996[cs.CL].[2024-10-04].https://arxiv.org/abs/2210.10996.
[18] LIANG ZH,QUANXJ,WANGQF.DisentangledPhonetic Representation for Chinese Spelling Correction [J/OL].arXiv:2305.14783 [cs.CL].[2024-10-05].https://arxiv.org/abs/2305.14783?context=cs.CL.
[19]WUHQ,ZHANGSH,ZHANGYC,et al.Rethinking Masked Language Modeling for Chinese SpellingCorrection [J/OL].arXiv:2305.17721[cs.CL].[2024-10-07].https://arxiv.org/abs/2305.17721?context=cs.
[20] ZHAOWX,ZHOUK,LIJY,etal.A Surveyof LargeLanguageModels[J/OL].arXiv:2303.18223[cs.CL].[2024- 09-20].https://arxiv.org/abs/2303.18223.
[21]KAPLANJ,MCCANDLISHS,HENIGHAN T,etal.ScalingLaws forNeuralLanguage Models[J/OL]. arXiv:2001.08361 [cs.LG].[2024-09-20].https://arxiv.org/ abs/2001.08361?file=2001.08361.
[22]WUTY,HESZ,LIUJP,etal.ABriefOverviewof ChatGPT:The History, StatusQuo and Potential FutureDevelopment[J].IEEE/CAAJournal ofAutomatica Sinica,2023,10(5):1122-1136.
[23]ANILR,DAIAM,F(xiàn)IRATO,etal.PaLM2 TechnicalReport[J/OL].arXiv:2305.10403[cs.CL].[2024-09-10]. https://arxiv.0rg/abs/2305.10403v3#.
[24]LIKT,HUY,HEL,etal.C-LLM:Learnto Check Chinese Spelling Errors Character by Character[J/ OL].arXiv:2406.16536 [cs.CL].[2024-09-10].https://arxiv.org/ abs/2406.16536.
[25]LIYH,HUANGHJ,MASR,etal.Onthe (in)Effectiveness ofLarge Language Models for Chinese Text Correction [J/OL].arXiv:2307.09007 [cs.CL].[2024-09-16].https:// arxiv.org/abs/2307.09007?context=cs.CL.
[26]DONGM,CHENYJ,ZHANG M,etal.Rich SemanticKnowledgeEnhancedLargeLanguageModelsforFewshotChinese Spell Checking[J/OL].arXiv:2403.08492[cs.CL]. [2024-09-16].https://arxiv.org/abs/2403.08492.
[27]ZHOUHQ,LIZH,ZHANGB,etal.A Simple yetEffective Training-free Prompt-freeApproach to Chinese SpellingCorrection BasedonLargeLanguageModels[J/ OL].arXiv:2410.04027[cs.CL].[2024-09-16].https://arxiv.org/ abs/2410.04027?context=cs.CL.
作者簡介:沈友志(1997一),男,漢族,九江人,碩士在讀,研究方向:自然語言處理;通信作者:程春雷(1976一),男,漢族,人,副教授,碩士生導(dǎo)師,博士,研究方向:機(jī)器學(xué)習(xí)、知識表示與學(xué)習(xí)、知識圖譜;句澤東(1998一),男,漢族,山西朔州人,碩士在讀,研究方向:自然語言處理;龔著凡(2000一),男,漢族,人,碩士在讀,研究方向:自然語言處理。