吳南輝,沈炎松
(1.漳州職業(yè)技術(shù)學(xué)院 國(guó)際合作學(xué)院,福建 漳州 363000;2.漳州職業(yè)技術(shù)學(xué)院 電子信息學(xué)院,福建 漳州 363000)
在自然語(yǔ)言處理領(lǐng)域內(nèi),語(yǔ)法校正逐步成為主要的研究方向之一。在機(jī)器學(xué)習(xí)方法持續(xù)發(fā)展進(jìn)程中,越來(lái)越多的學(xué)者著手研究應(yīng)用機(jī)器學(xué)習(xí)類算法實(shí)現(xiàn)語(yǔ)法的校正,以此規(guī)避以往語(yǔ)法校正的效率低及精度差等問(wèn)題[1]。英漢翻譯所涉及的兩種語(yǔ)言體系在表達(dá)方式與語(yǔ)法上均具有極大的差距,無(wú)法完全通過(guò)直譯的方式實(shí)現(xiàn)英漢翻譯[2]。通常情況下,英漢翻譯大多采用意譯和直譯兩種方式,由于兩種語(yǔ)言體系的結(jié)構(gòu)存在差異,且所涉及到的文化因素也有所不同,導(dǎo)致意譯存在一定的制約性,易出現(xiàn)誤譯問(wèn)題[3-4]。另外,因不恰當(dāng)?shù)倪x詞與專業(yè)知識(shí)不足等也易導(dǎo)致出現(xiàn)語(yǔ)法誤譯現(xiàn)象,降低英漢翻譯的準(zhǔn)確率,為實(shí)際應(yīng)用帶來(lái)不便。為有效解決以上問(wèn)題,需選取出恰當(dāng)?shù)姆椒▽?duì)英漢翻譯語(yǔ)法誤譯實(shí)施精準(zhǔn)高效的校正,提升英漢翻譯的精確度[5]。為此,研究者進(jìn)行了很多的研究。
文獻(xiàn)[6]通過(guò)數(shù)據(jù)增廣和復(fù)制的語(yǔ)法錯(cuò)誤糾正方法將復(fù)制機(jī)制與自注意力模型相結(jié)合,生成文本語(yǔ)法錯(cuò)誤糾正模型,實(shí)現(xiàn)文本語(yǔ)法錯(cuò)誤的糾正,該方法可針對(duì)文本語(yǔ)法內(nèi)的錯(cuò)誤詞匯實(shí)施糾正,但對(duì)于缺詞與語(yǔ)序等語(yǔ)法問(wèn)題效果不理想;文獻(xiàn)[7]方法通過(guò)LSTM與N-gram結(jié)合的語(yǔ)法錯(cuò)誤糾正,主要針對(duì)介、冠詞錯(cuò)誤實(shí)施糾正,通過(guò)將各類詞匯構(gòu)成詞匯集用于LSTM模型內(nèi),并結(jié)合N-gram投票方法完成錯(cuò)誤糾正,該方法可糾正語(yǔ)法內(nèi)的介、冠詞錯(cuò)誤,錯(cuò)誤糾正的平均F1值約為32.76%左右,但其糾錯(cuò)過(guò)程的耗時(shí)較長(zhǎng),整體效率不理想。文獻(xiàn)[8]提出TF-IDF(特征頻次-逆文檔頻次)特征提取算法,其本質(zhì)為對(duì)詞匯的出現(xiàn)頻次權(quán)重以及各個(gè)文本之間的相似程度實(shí)施運(yùn)算,獲得此詞匯的最優(yōu)語(yǔ)法,達(dá)到提取語(yǔ)法特征的目的。該算法能夠防止語(yǔ)法內(nèi)語(yǔ)義及詞匯的丟失,提取語(yǔ)法特征準(zhǔn)確度高,可為語(yǔ)法誤譯特征提取及校正奠定扎實(shí)的基礎(chǔ)。K均值聚類方法作為異常檢測(cè)領(lǐng)域內(nèi)的常用方法之一,其本質(zhì)是運(yùn)用不同類樣本的中心作為各類的代表實(shí)施迭代,以此持續(xù)動(dòng)態(tài)調(diào)節(jié)不同類中心實(shí)現(xiàn)聚類。其優(yōu)點(diǎn)為自適應(yīng)性強(qiáng)、自主性高等,其檢測(cè)結(jié)果可隨著樣本分布模式的更換自主更新,整體檢測(cè)性能較高[9-10]。
綜合以上分析,本文研究一種基于K均值聚類的英漢翻譯語(yǔ)法誤譯校正方法,以英漢翻譯語(yǔ)法數(shù)據(jù)預(yù)處理與特征提取為基礎(chǔ),運(yùn)用K均值聚類實(shí)現(xiàn)語(yǔ)法誤譯特征檢測(cè),構(gòu)建誤譯校正模型,實(shí)現(xiàn)英漢翻譯語(yǔ)法誤譯的校正,高效精準(zhǔn)地校正英漢翻譯語(yǔ)法內(nèi)的各類誤譯問(wèn)題,提高翻譯的準(zhǔn)確性,為使用者的使用提供便利。
1.英漢翻譯語(yǔ)法數(shù)據(jù)預(yù)處理
為了令所提取的語(yǔ)法特征能夠直接應(yīng)用到K均值聚類算法內(nèi),在提取英漢翻譯語(yǔ)法特征之前,需對(duì)采集的英漢翻譯語(yǔ)法數(shù)據(jù)實(shí)施數(shù)值化與歸一化預(yù)處理[11]。
1)數(shù)值化處理:由于語(yǔ)法數(shù)據(jù)屬于非數(shù)值屬性,在K均值聚類算法內(nèi)不能實(shí)施距離運(yùn)算,故需將語(yǔ)法數(shù)據(jù)各維度的屬性轉(zhuǎn)化為數(shù)值。通過(guò)不同維度屬性所呈現(xiàn)的頻次將初始屬性取代實(shí)現(xiàn)數(shù)值化,防止轉(zhuǎn)化過(guò)程中相同屬性各個(gè)值之間存在的不均等距離,導(dǎo)致聚類誤差。
2)歸一化處理:語(yǔ)法數(shù)據(jù)內(nèi)的不同維度數(shù)值具有較大差距,為了更有效地運(yùn)用各維度數(shù)據(jù),需對(duì)不同維度數(shù)據(jù)實(shí)施歸一化處理,處理算法為
某個(gè)維度內(nèi)的最高與最低數(shù)據(jù)分別以Nmax和Nmin表示;待歸一化數(shù)據(jù)以Xλ表示。
2.英漢翻譯語(yǔ)法特征提取
在上述英漢翻譯語(yǔ)法數(shù)據(jù)轉(zhuǎn)換后,選取TF-IDF算法由預(yù)處理后的英漢翻譯語(yǔ)法數(shù)據(jù)內(nèi)提取語(yǔ)法特征,構(gòu)成英漢翻譯語(yǔ)法特征樣本集[12]。通過(guò)對(duì)英漢翻譯語(yǔ)法內(nèi)文本的接近程度與詞匯的出現(xiàn)頻次權(quán)重,實(shí)施運(yùn)算提取語(yǔ)法特征。其中,英漢翻譯語(yǔ)法內(nèi)詞匯的權(quán)重可通過(guò)IDF和TF二者的乘積得到,在此基礎(chǔ)上,將詞匯的最佳語(yǔ)法提取到,運(yùn)算式為
文檔編號(hào)以b表示;詞匯通過(guò)sl表示;W表示權(quán)重。
IDF的任務(wù)是提高出現(xiàn)頻次較少詞匯的關(guān)鍵度以及文本的差異性,其運(yùn)算公式為
全部文檔內(nèi)所存在的i詞匯數(shù)目以mi表示;英漢翻譯文本內(nèi)所包含的文檔個(gè)數(shù)以M表示。
TF代表特征頻次,其表達(dá)式為:
1.誤譯校正模型構(gòu)建
4)通過(guò)校正模型集Eall內(nèi)的全部子模型依次對(duì)VTT-1向量實(shí)施校正,統(tǒng)計(jì)全部校正結(jié)果后實(shí)施投票;
5)輸出整體的最終校正標(biāo)記,當(dāng)標(biāo)記等于-1時(shí),代表此語(yǔ)法存在誤譯;當(dāng)標(biāo)記等于1時(shí),則代表此語(yǔ)法正確。
實(shí)驗(yàn)中選擇BNC(British National Corpus)語(yǔ)料庫(kù)中的數(shù)據(jù)為例,由其中隨機(jī)抽取部分語(yǔ)料作為實(shí)驗(yàn)對(duì)象,所抽取實(shí)驗(yàn)部分語(yǔ)料內(nèi)共包含10種語(yǔ)法誤譯類別,分別為動(dòng)詞錯(cuò)誤、縮寫(xiě)詞錯(cuò)誤、修辭錯(cuò)誤、語(yǔ)態(tài)錯(cuò)誤、語(yǔ)序、詞匯錯(cuò)誤、缺詞、主謂錯(cuò)誤、名詞單復(fù)數(shù)錯(cuò)誤及多詞,通過(guò)本文方法對(duì)實(shí)驗(yàn)部分語(yǔ)料內(nèi)語(yǔ)法誤譯實(shí)施校正,檢驗(yàn)本文方法的實(shí)際應(yīng)用效果。
將實(shí)驗(yàn)部分語(yǔ)料隨機(jī)劃分為5個(gè)數(shù)據(jù)集(A、B、C、D、E),各數(shù)據(jù)集的基本情況如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集
首先,通過(guò)本文方法對(duì)各實(shí)驗(yàn)數(shù)據(jù)集實(shí)施預(yù)處理,并提取其中語(yǔ)法特征,然后對(duì)所提取的語(yǔ)法特征內(nèi)的誤譯特征實(shí)施檢測(cè),將本文方法的誤譯特征檢測(cè)結(jié)果呈現(xiàn),檢驗(yàn)本文方法的誤譯特征檢測(cè)效果。
檢測(cè)過(guò)程中,設(shè)定由5個(gè)實(shí)驗(yàn)數(shù)據(jù)集內(nèi)所提取的5個(gè)語(yǔ)法特征樣本集(A1、B1、C1、D1、E1)的初始聚類參數(shù)k值依次為23、25、100、45、180,通過(guò)本文方法對(duì)各個(gè)特征樣本集依次實(shí)施三次重復(fù)實(shí)驗(yàn),取平均值作為誤譯特征檢測(cè)結(jié)果,如表2所示。
表2 本文方法的誤譯特征檢測(cè)結(jié)果統(tǒng)計(jì)
分析表2可得出,本文方法可實(shí)現(xiàn)語(yǔ)法誤譯特征的檢測(cè),所檢測(cè)出的各語(yǔ)法特征樣本集內(nèi)的語(yǔ)法誤譯特征個(gè)數(shù)與對(duì)應(yīng)數(shù)據(jù)集內(nèi)的誤譯類別數(shù)量十分接近,驗(yàn)證了本文方法的誤譯特征檢測(cè)效果較好。
為進(jìn)一步檢驗(yàn)本文方法的誤譯特征檢測(cè)能力,提升實(shí)驗(yàn)結(jié)果的可信度,運(yùn)用本文方法對(duì)5個(gè)語(yǔ)法特征樣本集重新實(shí)施10次檢測(cè)實(shí)驗(yàn),統(tǒng)計(jì)本文方法的綜合檢測(cè)準(zhǔn)確率(PR)、檢測(cè)率(DR)及F1值,驗(yàn)證本文方法的誤譯特征檢測(cè)性能。統(tǒng)計(jì)結(jié)果如圖1所示。
圖1 本文方法誤譯特征檢測(cè)性能統(tǒng)計(jì)
檢驗(yàn)本文方法檢測(cè)各語(yǔ)法特征樣本集內(nèi)誤譯特征過(guò)程中的聚類收斂用時(shí)情況,以其中三次實(shí)驗(yàn)為例,檢驗(yàn)結(jié)果如圖2所示。
圖2 本文方法誤譯特征檢測(cè)中的聚類收斂情況
結(jié)合圖1—2可以看出,本文方法的誤譯特征檢測(cè)率、準(zhǔn)確率及F1值均較高,數(shù)據(jù)集內(nèi)數(shù)據(jù)量的多少對(duì)本文方法的誤譯特征檢測(cè)性能的影響較小,對(duì)檢測(cè)過(guò)程中聚類收斂用時(shí)情況影響相對(duì)較大,三次實(shí)驗(yàn)本文方法針對(duì)相同樣本集檢測(cè)時(shí)的聚類收斂用時(shí)較為接近,整體而言,本文方法的誤譯特征檢測(cè)綜合性能較為理想。
進(jìn)一步驗(yàn)證誤譯特征檢測(cè)性能,分析誤譯特征未檢測(cè)出的具體數(shù)據(jù),以數(shù)據(jù)集A為例,實(shí)驗(yàn)結(jié)果如表3所示。
表3 誤譯特征未檢測(cè)出的數(shù)據(jù)分析表
根據(jù)表3可知,應(yīng)用本文方法后,未檢測(cè)出的誤譯樣本數(shù)僅為0.8 MB,占比僅為0.89%,該值低于1%,并且未檢測(cè)出的最多數(shù)據(jù)僅為0.2 MB,因此,本文方法可以有效檢測(cè)出誤譯數(shù)據(jù),提高了檢測(cè)準(zhǔn)確性。
通過(guò)本文方法基于以上實(shí)驗(yàn)結(jié)果對(duì)各數(shù)據(jù)集內(nèi)的語(yǔ)法誤譯實(shí)施校正,得出最終校正結(jié)果如圖3所示。
圖3 本文方法的語(yǔ)法誤譯校正結(jié)果
由圖3能夠得出,本文方法可實(shí)現(xiàn)英漢翻譯語(yǔ)法誤譯的校正,通過(guò)本文方法校正后能夠有效區(qū)分正確語(yǔ)法與誤譯語(yǔ)法。其中,本文方法校正所得出的5個(gè)實(shí)驗(yàn)數(shù)據(jù)集的誤譯語(yǔ)法樣本數(shù)依次為89、71、475、197及890,與各實(shí)驗(yàn)數(shù)據(jù)集的實(shí)際語(yǔ)法誤譯樣本數(shù)極為接近,語(yǔ)法誤譯的校正精度均可達(dá)到98%以上,由此說(shuō)明,本文方法具有較好的語(yǔ)法誤譯校正性能。
英漢翻譯文本質(zhì)量的高低直接影響學(xué)者的應(yīng)用情況,為此,本文針對(duì)一種基于K均值聚類的英漢翻譯語(yǔ)法誤譯校正方法展開(kāi)研究。通過(guò)結(jié)合數(shù)值化與歸一化方法,預(yù)處理所采集的英漢翻譯語(yǔ)法數(shù)據(jù),采用TF-IDF算法經(jīng)過(guò)預(yù)處理的英漢翻譯語(yǔ)法數(shù)據(jù)內(nèi)提取出語(yǔ)法特征,構(gòu)成語(yǔ)法特征樣本集,運(yùn)用K均值聚類檢測(cè)出該樣本集內(nèi)的語(yǔ)法誤譯特征,并依據(jù)所檢測(cè)誤譯特征生成誤譯校正模型,實(shí)現(xiàn)對(duì)輸入的英漢翻譯語(yǔ)法文本集內(nèi)語(yǔ)法誤譯的校正。實(shí)驗(yàn)結(jié)果表明:本文方法能夠?qū)崿F(xiàn)語(yǔ)法誤譯特征的檢測(cè),且由各語(yǔ)法特征樣本集內(nèi)所檢測(cè)出的語(yǔ)法誤譯特征個(gè)數(shù)與對(duì)應(yīng)數(shù)據(jù)集內(nèi)的誤譯類別數(shù)量幾乎吻合,具有較高的誤譯特征檢測(cè)率、準(zhǔn)確率及F1值,整體校正精度超出98%,具有較高的實(shí)際應(yīng)用性。