李哲
(常州工學(xué)院外國(guó)語學(xué)院,江蘇 常州 213022)
網(wǎng)絡(luò)時(shí)代,在數(shù)量巨大的語言信息中,對(duì)同一事物的稱呼、描述、評(píng)判等日益多樣化,固定表達(dá)也產(chǎn)生了諸多語言變體。例如,現(xiàn)代漢語中“軟件程序”一詞有“App”“手機(jī)程序”“手機(jī)軟件”等諸多表達(dá)方式,其對(duì)應(yīng)的日語有“アプリケーション”“アプリ”“スマホソフトウエア”等。在自然語言處理的過程中,首先需要識(shí)別并區(qū)分這些固定表達(dá)的語言變體,對(duì)其進(jìn)行同義性判定,然后,根據(jù)同義性判定結(jié)果分別對(duì)漢語和日語中的語言變體進(jìn)行同義配對(duì),達(dá)到精確翻譯的目的。本研究首先對(duì)同義表達(dá)進(jìn)行分類,然后嘗試提供漢日固定表達(dá)同義性判定的技術(shù)方案,并對(duì)判定結(jié)果進(jìn)行評(píng)價(jià)。
以往對(duì)漢日固定表達(dá)中的同義詞進(jìn)行同義性判定時(shí),多借助同義詞詞典對(duì)語言符號(hào)相似度高的同義詞進(jìn)行判定和配對(duì),如對(duì)“讀書”和“読書”,“進(jìn)行”和“進(jìn)行”等常用詞和固定程度較高的專用詞的判定比較容易,然而,對(duì)符號(hào)相似度不高、具有任意性和隨意性的網(wǎng)絡(luò)新詞的判定則較為困難。因此,很有必要對(duì)固定表達(dá)中的同義詞進(jìn)行分類,根據(jù)其同義類別采取相應(yīng)的同義判定方式。本文將漢日固定表達(dá)中的同義詞分成兩類:有標(biāo)記同義詞和派生性同義詞。
本文將有明顯的同義符號(hào)標(biāo)記,即根據(jù)字形標(biāo)記符號(hào)能判定為同義詞的詞稱為有標(biāo)記同義詞。同形同義詞即屬此類。這類詞在漢日同義詞中占了不小的比例,在語言信息處理的過程中很容易被識(shí)別,可借助漢日同義詞詞典迅速完成同義配對(duì)。因此此類詞機(jī)器翻譯的精確度很高,目前已達(dá)到了較為理想的翻譯效果。
隨著語言的發(fā)展,漢語和日語中有些字形相同的詞在語言環(huán)境的影響下出現(xiàn)語義擴(kuò)大、縮小甚至轉(zhuǎn)移的現(xiàn)象。因此,看上去字形完全相同的詞語,其語義范圍卻不完全一致。傳統(tǒng)語法將這種詞稱為同形近義詞。
例如,來源于日語流行詞的“佛系”一詞,其語源是“僧職系”和“草食系”,在日語語境下主要形容愛獨(dú)處、專注于自己的興趣、不想花時(shí)間與異性交往的男人。該詞在中文網(wǎng)絡(luò)環(huán)境中流行后,語義范圍擴(kuò)大,形容不爭(zhēng)不搶、擁有淡定從容處世態(tài)度的人。流行過程中,隨著應(yīng)用語境的擴(kuò)展,又產(chǎn)生了“佛系青年”“佛系女子”“佛系生活”“佛系戀愛”等一系列“佛系”衍生詞。
這類同形近義詞也屬于有標(biāo)記同義詞。同形近義詞的語言信息處理方法總體上與同形同義詞一致。區(qū)別在于,借助同義詞詞典配對(duì)時(shí),要進(jìn)行語義單項(xiàng)標(biāo)注,根據(jù)不同的語境選擇合適的詞語與其對(duì)應(yīng),從而達(dá)到翻譯精準(zhǔn)的目的。
除了有標(biāo)記同義詞外,漢語和日語中還有大量沒有明確標(biāo)記,需要其他輔助信息來判定同義性的詞語。本文稱之為派生性同義詞。它們是固定表達(dá)在某種特殊語境影響下生成的新表達(dá)方式。
例如“打call”一詞來源于日語,對(duì)應(yīng)的日語詞為“コール”。日語語境下的“コール”反映了宅文化或二次元文化中的粉絲應(yīng)援文化,指現(xiàn)場(chǎng)演出時(shí)臺(tái)下觀眾跟隨音樂節(jié)奏呼喊口號(hào),揮動(dòng)熒光棒,與臺(tái)上的表演者互動(dòng)的一種行為。此行為表達(dá)了對(duì)偶像的支持態(tài)度。在漢語流行語中,“打call”的意義發(fā)生了很大變化,用以表達(dá)贊成、支持的態(tài)度。使用者可以是任何人,可以在任意語境下使用,主要表達(dá)對(duì)話語對(duì)象的感情支持?!按騝all”本義為打電話,在翻譯軟件中輸入“打call”,日語翻譯結(jié)果為“電話する”或“コールをかける”。
為解決漢語和日語固定表達(dá)的同義性判定問題,首先要在網(wǎng)絡(luò)上收集某個(gè)固定表達(dá)在漢日兩種語言中所有可能的表達(dá)方式,并分別創(chuàng)立同義表達(dá)候補(bǔ)項(xiàng)集合。
傳統(tǒng)的同義詞判定方法主要有識(shí)別方法和生成方法。識(shí)別方法是在任意文本集合中抽取同義詞候補(bǔ)項(xiàng),配對(duì)后判斷其是否同義。為了確保精度,配對(duì)時(shí)要參考文本的句式構(gòu)造、特殊句式表達(dá)等信息,并根據(jù)漢語和日語的語言特點(diǎn)和語言習(xí)慣設(shè)計(jì)補(bǔ)充規(guī)則以提高配對(duì)精度。但是,此方法存在受候補(bǔ)項(xiàng)覆蓋范圍限制的問題,超出候補(bǔ)項(xiàng)范圍的同義詞難以成功配對(duì),而且這種判定方式對(duì)文本信息的依賴度較高。
生成方法是圍繞某固定表達(dá),使用概率模型文字列生成該表達(dá)所有可能的同義詞,然后確認(rèn)所生成的表達(dá)是否準(zhǔn)確。由于會(huì)生成大量無關(guān)的同義詞候補(bǔ)項(xiàng),因此需要耗費(fèi)大量時(shí)間處理這些無關(guān)項(xiàng)。
為彌補(bǔ)識(shí)別和生成方式的不足,本文提出幾種同義性判定的輔助方案。其中,文字列追加和標(biāo)記變換適用于判定派生性同義詞。派生性同義詞是固定詞組受特殊語境影響生成的新表達(dá)方式。同義性判定時(shí)要捕捉派生性同義詞的特征。在其原有固定表達(dá)的基礎(chǔ)上,通過文字列追加或者標(biāo)記變換的方式達(dá)到同義性判定的目的。首先,需要擴(kuò)充其派生的同義詞候補(bǔ)項(xiàng),確認(rèn)派生性同義詞的派生類型,然后計(jì)算機(jī)按照特定條件將其從候補(bǔ)項(xiàng)中分離出來。
以網(wǎng)絡(luò)詞語“粉絲”為例?!胺劢z”本義為一種食物,后來借由英文單詞“fans”的音譯,發(fā)生了語義轉(zhuǎn)移,指迷戀、崇拜某個(gè)名人或某種產(chǎn)品的群體。義為“追星族”的漢語“粉絲”對(duì)應(yīng)的日語為“ファン”,這在各大機(jī)器翻譯軟件中都能得到精確的翻譯結(jié)果。但是,義為“食物”的“粉絲”,翻譯結(jié)果卻極不理想。另外,由具有“追星族”語義的“粉絲”衍生出來的“金粉”“黑粉”“路轉(zhuǎn)粉”等詞,機(jī)器翻譯結(jié)果不盡如人意。目前幾乎沒有軟件能將“金粉”“黑粉”“路轉(zhuǎn)粉”等詞語中的“粉”與“粉絲”的“粉”進(jìn)行正確的同義判定。
通過文字列追加和標(biāo)記變換,可以為“粉絲”設(shè)立語義識(shí)別候補(bǔ)項(xiàng)集合。利用語料庫和網(wǎng)絡(luò)收集與“粉絲”相關(guān)的最大表達(dá)合集。對(duì)所收集的所有候補(bǔ)項(xiàng)進(jìn)行文字列和標(biāo)記分析,按照語義解析結(jié)果標(biāo)注其語義特征。此時(shí),計(jì)算機(jī)可以自動(dòng)標(biāo)注所有收集到的與“粉絲”相關(guān)的前后語境信息(本文稱其為“粉絲”的標(biāo)準(zhǔn)化前、后項(xiàng)集合)。 例如,對(duì)“路轉(zhuǎn)粉”的判定,可通過文字列追加,將“路轉(zhuǎn)粉”追加為“路人轉(zhuǎn)粉絲”,然后識(shí)別候補(bǔ)項(xiàng)集合中“粉絲”的語義特征,判定“路轉(zhuǎn)粉”的“粉”與其同義,從而完成“路轉(zhuǎn)粉”的同義判定,此時(shí)“粉”即可與日文中的“ファン”完成配對(duì),達(dá)到精確翻譯的目的。
除文字列追加外,標(biāo)記變換也是判定派生性同義詞同義的有效方法。標(biāo)記變換判定處理流程為:首先利用語素解析器對(duì)固定表達(dá)的同義候補(bǔ)項(xiàng)進(jìn)行解析,然后根據(jù)適用規(guī)則對(duì)需要判定的同義詞進(jìn)行配對(duì),檢測(cè)其語素意義是否一致。這個(gè)步驟常常依賴語音規(guī)則信息。特別是漢語使用諧音時(shí),詞匯意義、語素意義會(huì)發(fā)生變化,需要建立相似語音信息的同義詞候補(bǔ)項(xiàng)集合。如“抖森”這個(gè)昵稱源于湯姆·希德勒斯頓(Tom Hiddleston)名字的連讀諧音;日本演員瑛太,在中國(guó)一般被稱為“A太”,因?yàn)槿照Zえいた(瑛太)中“えい”讀音與“A”相近。通過標(biāo)記變換可以完成“瑛太”和“A太”這一對(duì)候補(bǔ)項(xiàng)的同義性判定。
漢語和日語的固定表達(dá)中均出現(xiàn)了很多略縮詞。這些略縮詞和原有詞語義相同,是同義詞。計(jì)算機(jī)需要進(jìn)行省略判定來識(shí)別這些略縮詞。具體處理方法為:計(jì)算機(jī)先確定兩詞屬于包含關(guān)系,比較兩個(gè)候選項(xiàng)的語素差異,確認(rèn)是否省略前后標(biāo)記,然后用固定表達(dá)抽取器抽取語料庫和網(wǎng)絡(luò)文本中的固定表達(dá)及其略縮詞,形成候補(bǔ)項(xiàng)集合;對(duì)符合包含關(guān)系且與省略判定條件一致的候補(bǔ)項(xiàng)進(jìn)行條件分析;通過分析刪除的語素和文字,得出略縮規(guī)則。
以“GW”為例,使用Google的翻譯軟件翻譯“今年のGWは最大10連休”,譯文為“今年的GW連續(xù)10個(gè)假期”。且不論“10連休”被錯(cuò)譯為“10個(gè)假期”,對(duì)略縮詞“GW”的翻譯,翻譯軟件就無能為力?!癎W”是日語固定表達(dá)“ゴールデンウィーク”的縮寫,對(duì)應(yīng)的漢語是“黃金周”,指的是日本從4月末到5月,由于昭和之日、憲法紀(jì)念日、綠之日和兒童節(jié)、端午節(jié)這些節(jié)日相鄰,形成的一周左右連休的假期?!癎W”與“黃金周”的同義性判定,需要借助省略判定的方式完成。在語料庫和網(wǎng)絡(luò)文本中檢索時(shí),會(huì)出現(xiàn)下面的文本:
2019年のゴールデンウィーク(GW)は、最長(zhǎng)でなんと10連休!毎年好評(píng)のゴールデンウィーク旅行は、宿泊予約も早めに計(jì)畫して、最高の思い出を作ろう。
Google翻譯軟件譯為:
2019年的黃金周(GW)連續(xù)10個(gè)假期最長(zhǎng)! 每年都會(huì)在熱門的黃金周旅行中提前計(jì)劃您的預(yù)訂并留下最美好的回憶。
計(jì)算機(jī)抽取文本中的“ゴールデンウィーク(GW)”,將其列入該固定表達(dá)的候補(bǔ)項(xiàng)集合中,分析規(guī)則,記錄省略方式,從而完成從“ゴールデンウィーク”到“GW”的省略判定,并認(rèn)定其為同義詞,繼而在相似語境下將“GW”識(shí)別為“ゴールデンウィーク”,譯為“黃金周”。
在固定表達(dá)的同義性判定中,如果單靠一種方法無法判定同義候補(bǔ)項(xiàng)是否同義,可綜合運(yùn)用以上判定方式進(jìn)行判定。例如,日本著名演員“小栗旬”的昵稱為“建國(guó)”,中國(guó)網(wǎng)友喜歡稱他為“栗子”。栗子是一種堅(jiān)果,而“堅(jiān)果”與“建國(guó)”諧音,因此“小栗旬”“栗子”和“建國(guó)”都指這位男演員,是同義詞。這3個(gè)詞的同義性判定,需要同時(shí)借助“栗”的文字列追加和“jianguo”這一語音的標(biāo)記變換才能完成。此為組合判定在同義性判定中的應(yīng)用。
為了檢測(cè)上述判定方法是否有效,建議使用一定數(shù)量的同義詞候選項(xiàng)進(jìn)行同義性判定評(píng)價(jià)。評(píng)價(jià)所使用的數(shù)據(jù)來源于語料庫和社交平臺(tái)以及新聞報(bào)道等。
首先,從以上平臺(tái)中選擇文本,從文本中人工提取一定數(shù)量的固定表達(dá)。選擇其中的派生性同義詞作為評(píng)價(jià)的主體,提取的派生性同義詞數(shù)量要占提取的固定表達(dá)總數(shù)的九成以上。然后通過文字列追加、標(biāo)記變換、省略判定、組合判定對(duì)這些同義詞候補(bǔ)項(xiàng)進(jìn)行同義判定。
人工核查同義性判定的結(jié)果,確認(rèn)機(jī)器判定的結(jié)果是否準(zhǔn)確。記錄判定結(jié)果的數(shù)據(jù),用判定成功的候補(bǔ)項(xiàng)個(gè)數(shù)除以評(píng)價(jià)總數(shù)據(jù),得出的數(shù)據(jù)即為每個(gè)判定方法的正確率。
實(shí)施以上評(píng)價(jià)方法時(shí),需要對(duì)提案的判定方法和評(píng)價(jià)結(jié)果進(jìn)行多方面考察。在文字列追加手法判定方面,需要注意同一評(píng)價(jià)結(jié)果的再現(xiàn)率,因?yàn)樵谥贫ㄎ淖至凶芳优卸ǖ囊?guī)則時(shí),不需要針對(duì)某一實(shí)體進(jìn)行特別處理,由此可能出現(xiàn)評(píng)價(jià)結(jié)果不一致的情況。在標(biāo)記變換的判定方面,判定的精度和再現(xiàn)率均可能會(huì)出現(xiàn)波動(dòng)。省略判定時(shí),在略縮詞的同義詞候補(bǔ)項(xiàng)中,由于省略的位置不同單詞的意思也完全不同。如果刪除的語素信息太多,則會(huì)導(dǎo)致判定困難。如電影《致我們終將逝去的青春》在社交平臺(tái)中被省略成《致青春》后,因信息大量缺失,兩詞的同義性判定難以自動(dòng)完成,從而導(dǎo)致日文翻譯失敗。另外,組合判斷也可能會(huì)出現(xiàn)由于語素解析失敗導(dǎo)致的語素匹配錯(cuò)誤等。
總體看來,以上方案在漢日固定表達(dá)的同義性判定方面可行性較高,也為漢日語言機(jī)器翻譯提供了實(shí)用有效的翻譯方法,對(duì)漢日固定表達(dá)語料庫的建設(shè)也有借鑒意義。
本文以漢日固定表達(dá)中的同義詞分類為基礎(chǔ),提出漢日固定表達(dá)同義性判定的幾種技術(shù)方案。可借助漢日同義詞詞典進(jìn)行同義信息配對(duì),完成有標(biāo)記同義詞的同義性識(shí)別;派生性同義詞的同義性判定需利用識(shí)別和生成技術(shù)。為彌補(bǔ)識(shí)別和生成技術(shù)的不足,本文提出了文字列追加、標(biāo)記變換、省略判定和組合判定4種輔助判定方案,提出在語料庫和網(wǎng)絡(luò)社交平臺(tái)上抽取漢日固定表達(dá)樣本進(jìn)行評(píng)價(jià),以檢測(cè)判定方式的有效性。
常州工學(xué)院學(xué)報(bào)(社科版)2019年5期