諾明花,張立強(qiáng),劉匯丹,吳 健,丁治明
(1. 中國(guó)科學(xué)院 軟件研究所,北京 100190;2. 中國(guó)科學(xué)院 研究生院,北京 100049)
本文核心問(wèn)題是針對(duì)特定領(lǐng)域漢藏多策略機(jī)器輔助翻譯系統(tǒng)(簡(jiǎn)稱MSCT_CAT)構(gòu)建短語(yǔ)對(duì)齊詞典。MSCT_CAT是基于實(shí)例的輔助翻譯系統(tǒng)。首先把輸入的漢語(yǔ)句子正確地分解為一些短語(yǔ)碎片,接著把這些短語(yǔ)碎片翻譯成藏文的短語(yǔ)碎片,最后再把這些短語(yǔ)碎片組織成完整的句子,每個(gè)短語(yǔ)碎片的翻譯是通過(guò)類比的原則來(lái)識(shí)別和比較已有實(shí)例與待譯短語(yǔ)的相似之處和相差之處,從而挑選出正確的譯文。
基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯的優(yōu)勢(shì)在于短語(yǔ)能夠抓住局部上下文的依賴關(guān)系。迄今為止,已經(jīng)出現(xiàn)了多種短語(yǔ)對(duì)抽取方法。Marcu[1]給出了一種直接計(jì)算短語(yǔ)對(duì)列表和相應(yīng)概率值的方法;Wu[2]用一個(gè)雙語(yǔ)框架(Bracketing)的方法來(lái)抽取短語(yǔ)。這兩種方法的計(jì)算復(fù)雜性太高。Zhang[3]為雙語(yǔ)句子對(duì)建立一個(gè)互信息矩陣,從這個(gè)矩陣中抽取互信息相似的矩形區(qū)域即得到短語(yǔ)對(duì),此方法并不要求詞對(duì)齊,而是充分利用詞對(duì)的互信息。后來(lái)Zhang[4]將短語(yǔ)抽取看作一個(gè)句子分割問(wèn)題,在固定源短語(yǔ)時(shí),尋找目標(biāo)短語(yǔ)的最優(yōu)左邊界和右邊界。這種方法的問(wèn)題在于只能抽取連續(xù)的短語(yǔ)。Kaji[5]對(duì)源句子和目標(biāo)句子分別進(jìn)行句法分析,然后按照詞對(duì)齊結(jié)果來(lái)提取源子樹(shù)和目標(biāo)子樹(shù)就得到短語(yǔ)對(duì),該方法依賴于句法分析的結(jié)果。Och[6]提出了對(duì)齊模板方法,將單詞映射到詞類中。該方法由于算法簡(jiǎn)單,容易實(shí)現(xiàn),故而應(yīng)用較廣,但是利用的信息較少。有的學(xué)者也提出了一些非連續(xù)短語(yǔ)的抽取方法,Chiang[7]的層次短語(yǔ),允許短語(yǔ)內(nèi)部包含子短語(yǔ),但是由于沒(méi)有加入句法信息導(dǎo)致抽取的規(guī)則會(huì)帶來(lái)太多的噪音信息,對(duì)時(shí)間和空間的要求較高。何彥青[8]給出了一種基于“松弛尺度”的短語(yǔ)抽取方法,對(duì)Och的方法進(jìn)行了修改。
考慮到目前藏文在詞性標(biāo)注、句法層面加工處理技術(shù)不成熟,藏文短語(yǔ)獲取方法必須擺脫對(duì)詞對(duì)齊、句法分析等資源的依賴。
Wang[9]提出了一種基于序列相交的短語(yǔ)譯文獲取方法。該方法將句子視為詞的序列,在中日句對(duì)齊語(yǔ)料庫(kù)中包含待譯短語(yǔ)的所有漢語(yǔ)句子對(duì)應(yīng)的日語(yǔ)句子進(jìn)行序列相交,在不需要詞對(duì)齊、句法分析及詞典等資源的情況下,通過(guò)充分挖掘句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù),獲得高質(zhì)量的短語(yǔ)譯文。
方法由基本模型、高頻干擾詞限制模塊、支持度限制模塊組成。基本模型從句子級(jí)對(duì)齊雙語(yǔ)語(yǔ)料庫(kù)中提取高質(zhì)量的短語(yǔ)翻譯對(duì)候選并對(duì)其進(jìn)行排序;高頻詞限制模塊解決譯文的輸出結(jié)果中的高頻詞干擾問(wèn)題;支持度限制模塊控制輸出結(jié)果的個(gè)數(shù)。其中支持度限制模塊是因?yàn)榛灸P蜎](méi)有使用詞典、詞對(duì)齊等資源,無(wú)法判斷求出的交集結(jié)果是否符合譯文要求。故當(dāng)求交結(jié)果的支持度很低時(shí),往往得到的不是正確譯文;當(dāng)候選譯文之間的支持度比較相近時(shí),只輸出一個(gè)譯文,很可能漏掉正確的譯文結(jié)果。因此為了提高譯文結(jié)果的質(zhì)量,需要一個(gè)判定模塊,在基本模型中增加對(duì)候選譯文的支持度的限制。
本文從句對(duì)齊漢藏語(yǔ)料中先獲取所有有效漢語(yǔ)語(yǔ)塊,對(duì)包含待譯漢語(yǔ)語(yǔ)塊的句對(duì)求交集,經(jīng)過(guò)后處理得到相應(yīng)的藏語(yǔ)譯文即得到漢藏互譯短語(yǔ)。本文獲取的短語(yǔ)是廣義上的,它是由若干個(gè)單詞組成的語(yǔ)塊。MSCT_CAT的短語(yǔ)對(duì)齊詞典中每條記錄包含漢語(yǔ)有效短語(yǔ)以及對(duì)應(yīng)的藏文譯文。
藏文詞序列相交算法(簡(jiǎn)稱TIA)使用的語(yǔ)料庫(kù)為漢藏句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù)SABC,其中包含若干個(gè)漢藏對(duì)齊的句對(duì)。漢語(yǔ)句子是沒(méi)有像英文那樣自然形成的分詞標(biāo)記。作為一種拼音文字,藏文中各音節(jié)之間由音節(jié)點(diǎn)分隔,但是詞與詞之間沒(méi)有分隔標(biāo)記[10],很難區(qū)分詞的邊界。為了詞序列相交,本文分別使用斯坦福的中文分詞開(kāi)源項(xiàng)目和中國(guó)科學(xué)院軟件研究所多語(yǔ)言信息處理研究室開(kāi)發(fā)的藏文分詞模塊對(duì)漢藏單語(yǔ)語(yǔ)料進(jìn)行分詞,為T(mén)IA做準(zhǔn)備。TIA的核心是通過(guò)漢藏詞序列相交模型,獲取1-n的漢藏互譯短語(yǔ)對(duì)。
基本模型中,句子和短語(yǔ)均以詞序列的形式表示。句子和短語(yǔ)的序列表示以及句子的序列相交定義沿用文獻(xiàn)[9]的公式表示,表1給出漢藏雙語(yǔ)句對(duì)詞序列相交的示例。
表1 漢藏雙語(yǔ)句對(duì)詞序列相交示例表
續(xù)表
本節(jié)介紹藏文詞序列相交算法短語(yǔ)譯文獲取模型,簡(jiǎn)稱SIBPTM模型。
從以上分析可以得出,兩個(gè)句對(duì)SPr與SPt相交結(jié)果表示如下:
Q={Q1,Q2, …,Qk} 為句對(duì)SPr和SPt中漢語(yǔ)句子CSr和CSt的交集(漢語(yǔ)短語(yǔ)集合),其中包含Qi(1≤i≤k)待翻譯的中文短語(yǔ),T={T1,T2, …,Tg} 為SPr和SPt中藏文句子TSr和TSt的交集。T中肯定包含Qi的翻譯譯文,可以查找漢藏詞典確定漢藏互譯對(duì)(Qi,Tj)。
待翻譯中文短語(yǔ)由多個(gè)漢語(yǔ)單詞構(gòu)成,表示為如下公式(2):
假設(shè)Qi中任意單詞Qi+θ(1≤θ≤l)在詞典中查到一個(gè)以上譯文,這些譯文保存到鏈結(jié)構(gòu)L中,一定會(huì)存在某個(gè)Tj+ω能夠滿足Tj+ω∩L≠ Ф的條件。這些Tj+ω(1≤ω≤g)最終構(gòu)成Qi的譯文Tj。Tj可以是連續(xù)的,也可以是非連續(xù)的。
從公式(1)得知,句對(duì)的序列相交由若干個(gè)藏文公共子串CS組成。其中為每個(gè)CS構(gòu)造一個(gè)樹(shù)結(jié)構(gòu)T的話,句對(duì)的序列相交可以組成一個(gè)森林。設(shè)定兩種節(jié)點(diǎn)。其中有存儲(chǔ)藏文CS的某個(gè)單詞的節(jié)點(diǎn),用ITN表示;還有某個(gè)藏文單詞節(jié)點(diǎn)的同義詞、時(shí)態(tài)變化或格變化的節(jié)點(diǎn),用SYN表示,約定SYN在其關(guān)聯(lián)的ITN的右子節(jié)點(diǎn)中記錄;ITN的左子節(jié)點(diǎn)中記錄同一個(gè)CS中相鄰的藏文單詞。因此,某個(gè)T的根節(jié)點(diǎn)是tag 域?yàn)?的ITN節(jié)點(diǎn),T的葉子是左子節(jié)點(diǎn)為空的ITN節(jié)點(diǎn)。CS中某個(gè)單詞對(duì)應(yīng)節(jié)點(diǎn)的所有同義詞、格變化或時(shí)態(tài)變化等形態(tài)變化形式構(gòu)成一個(gè)列表SL。
假設(shè),在SABC中有42個(gè)中文句子包含待翻譯語(yǔ)塊Q,其對(duì)應(yīng)藏文句子取交后獲取兩個(gè)公共子串P1和P2。P1和P2的樹(shù)結(jié)構(gòu)分別用T1和T2表示,如圖1。
圖1 譯文確認(rèn)過(guò)程
確認(rèn)(Qi,Tj)的過(guò)程是對(duì)由T1和T2組成的森林的搜索過(guò)程。在圖1中,P11出現(xiàn)頻次等于42,被接受為譯文Tj的一部分。P12節(jié)點(diǎn)最后一個(gè)域指向P12_sy1、P12_sy2和P12_sy3組成的鏈表,同時(shí)P12、P12_sy1、P12_sy2和P12_sy3出現(xiàn)頻次的和等于42,因此詞組[P12,P12_sy1,P12_sy2,P12_sy3] 被接受。P13出現(xiàn)頻次為42,它被接受為T(mén)j的一部分。P14和P14_sy1出現(xiàn)頻次和為38,從而它們被丟棄。同樣,P21和P23出現(xiàn)頻次等于42,它們被接受為T(mén)j的一部分。P22、P22_sy1、P22_sy2的頻次和等于42,詞組[P22,P22_sy1,P22_sy2] 被接受為T(mén)j的一部分。Qi的最終翻譯結(jié)果Tj是一個(gè)集合P={P11[P12,P12_sy1,P12_sy2,P12_sy3]P13,P21[P22,P22_sy1,P22_sy2]P23}。
為了不依賴于額外資源,本文提出兩步抽取漢藏短語(yǔ)方法。漢藏短語(yǔ)對(duì)抽取流程如圖2所示。漢語(yǔ)和藏文語(yǔ)塊抽取先后分兩步來(lái)進(jìn)行。在面向中文信息處理的研究工作中,呂學(xué)強(qiáng)和張樂(lè)[12]利用Nagao的N-gram 統(tǒng)計(jì)算法,在大規(guī)模漢語(yǔ)語(yǔ)料中進(jìn)行抽取語(yǔ)塊的實(shí)驗(yàn),他們?cè)谡撐闹羞€提出一個(gè)刪除同頻子串的算法(SSR),提高了語(yǔ)塊抽取的準(zhǔn)確率。SSR可靠并復(fù)雜度不高。在大規(guī)模語(yǔ)料中很實(shí)用。從漢語(yǔ)語(yǔ)塊抽取的實(shí)際需求出發(fā),本文在Nagao的串頻統(tǒng)計(jì)方法的基礎(chǔ)上開(kāi)展基于詞語(yǔ)的中文語(yǔ)塊抽取并刪除同頻詞串。提取的中文語(yǔ)塊是連續(xù)的。具體串頻統(tǒng)計(jì)和刪除同頻詞串不是本文的重點(diǎn),不再贅述,可以參考文獻(xiàn)[12-13]。
圖2 漢藏短語(yǔ)對(duì)抽取流程
除了藏文語(yǔ)塊抽取(虛線內(nèi)部)外,漢藏短語(yǔ)對(duì)抽取需要做的工作有以下幾點(diǎn)。虛線內(nèi)部算法將在4.2節(jié)詳細(xì)說(shuō)明。首先,用腳本程序?qū)ABC分為漢藏各自的單語(yǔ)語(yǔ)料,漢語(yǔ)語(yǔ)料和藏文語(yǔ)料分別標(biāo)記為CC和TC。其次,用Nagao的算法計(jì)算出CC中所有2-gram 到5-gram 語(yǔ)塊做為候選漢語(yǔ)連續(xù)語(yǔ)塊。根據(jù)文獻(xiàn)[12]中算法,通過(guò)子串歸并刪除同一頻度的子串。最后對(duì)這些候選漢語(yǔ)語(yǔ)塊進(jìn)行過(guò)濾和排序后將漢語(yǔ)語(yǔ)塊集CPS保存到文本文檔中。另,構(gòu)建TC中的藏文停用詞表TSW為邊界高頻干擾過(guò)濾模塊使用做準(zhǔn)備。
藏文詞串序列相交(簡(jiǎn)稱TIA)算法不依賴于額外資源的前提下,對(duì)句對(duì)齊雙語(yǔ)語(yǔ)料庫(kù)中包含待翻譯漢語(yǔ)語(yǔ)塊Q的句對(duì)TSS求交集,通過(guò)后處理得到漢語(yǔ)語(yǔ)塊的譯文,從而構(gòu)建漢藏短語(yǔ)詞典。為了提高準(zhǔn)確率TIA用到漢藏詞典[11],并設(shè)定閾值來(lái)解決部分未登錄現(xiàn)象。TIA重點(diǎn)解決1-n的短語(yǔ)對(duì)。
TIA算法的核心由兩步組成。第一步使用第二節(jié)介紹的序列相交翻譯模型,對(duì)藏文句子集中任意兩句取交來(lái)為已知的Q構(gòu)建公共子串森林F。在公式(2),Q由若干個(gè)詞Qi(1≤i≤l) 組成。取交過(guò)程中任意Qi的譯文均被保存并生成公共子串樹(shù)T或森林F。并不是T或F中所有節(jié)點(diǎn)構(gòu)成Q的譯文P,節(jié)點(diǎn)滿足以下兩個(gè)條件才能組成P的候選。
1) 譯文中一定包含任意Qi(1≤i≤l) 的譯文;
2) 所有候選譯文的支持度和等于Sn。
第二步遍歷F,篩選出滿足以上條件的候選單詞并確認(rèn)Q的譯文P。P是CS的集合,P的生成過(guò)程描述如下。
輸入:藏文句子集公共子串森林F
1. 初始化tn:= 0 ,用于記錄森林中樹(shù)的個(gè)數(shù)。
2. 初始化con:=true,用于記錄一棵樹(shù)中出現(xiàn)的候選是否連續(xù)。
3.Fornumfrom 1 to subTreeCount(F)
4. Foridfrom 1 to nodeCount(T)
5.nodeList:= RightChild(id) .
6. If (nodeList==null && Freq(id)==Sn)
7. then節(jié)點(diǎn)id添加到{Pi} 中。
8. Else if ( Freq(nodeList)==Sn)
9. then 節(jié)點(diǎn)id的左子節(jié)點(diǎn)組合添加到{Pi} 中。
10. Else
11. 拋棄當(dāng)前節(jié)點(diǎn)id,con:=false。
12. End for
13. 公共子串樹(shù)的個(gè)數(shù)tn自動(dòng)加1。
14. End for
15. If (tn==1 )
16. then (Q,P) 標(biāo)記為 A 。
17. If (tn> 1 )
18. then (Q,P) 標(biāo)記為 B。
19. If (i==1 )
20. then P 被標(biāo)記為 C。
21. If (i> 1 )
22. then P 被標(biāo)記為D。
輸出:連續(xù)性和對(duì)應(yīng)關(guān)系被標(biāo)記的漢藏互譯對(duì)(Q,P)
偽代碼中,函數(shù)subTreeCount(F)表示組成森林的樹(shù)的個(gè)數(shù);nodeCount(T)表示一個(gè)樹(shù)中節(jié)點(diǎn)個(gè)數(shù);RightChild(id)表示節(jié)點(diǎn)id的右子節(jié)點(diǎn),null值表示沒(méi)有右子節(jié)點(diǎn);Freq(id)表示節(jié)點(diǎn)id出現(xiàn)頻率,如果其參數(shù)是節(jié)點(diǎn)列表,計(jì)算出列表中所有節(jié)點(diǎn)出現(xiàn)頻率之和;Sn表示包含待譯語(yǔ)塊Q的句對(duì)個(gè)數(shù);con用于記錄一棵樹(shù)中出現(xiàn)的候選是否連續(xù), 值等于false表示一棵樹(shù)中出現(xiàn)的候選譯文中只有部分滿足頻率條件而構(gòu)成不連續(xù)譯文P,值等于true表示一棵樹(shù)中出現(xiàn)的候選譯文是連續(xù);{Pi}表示候選譯文集合。用A,B,C,D分別將P標(biāo)記為1-1,1-n,連續(xù)或非連續(xù)等不同短語(yǔ)類型。
公共子串樹(shù)和森林結(jié)構(gòu)可以充分體現(xiàn)藏文語(yǔ)料中時(shí)態(tài)變化和格變化等形態(tài)變化引起的一對(duì)多的互譯短語(yǔ);同時(shí)能夠正確找出非連續(xù)的藏文短語(yǔ)。譯文生成過(guò)程中標(biāo)識(shí)了所有藏文短語(yǔ)類型。因此,TIA抽取的短語(yǔ)既能滿足藏文短語(yǔ)的連續(xù)性,又能滿足短語(yǔ)對(duì)應(yīng)關(guān)系。
實(shí)驗(yàn)數(shù)據(jù)是漢藏法律法規(guī)和公文報(bào)告等特定領(lǐng)域語(yǔ)料。收集到的原始語(yǔ)料通過(guò)篇章對(duì)齊和句子對(duì)齊后,再抽取單語(yǔ)語(yǔ)料,最終形成短語(yǔ)對(duì)抽取模塊可以處理的五份漢藏單語(yǔ)語(yǔ)料。通過(guò)分析發(fā)現(xiàn), 語(yǔ)料
1和語(yǔ)料4中低頻短語(yǔ)對(duì)(在語(yǔ)料中出現(xiàn)次數(shù)很少)較頻繁,語(yǔ)料5在五組語(yǔ)料中句對(duì)數(shù)最多。實(shí)驗(yàn)的準(zhǔn)確率(P)定義為:
其中,N為算法從語(yǔ)料庫(kù)中抽取出的所有藏文短語(yǔ)的個(gè)數(shù),Nr為其中正確短語(yǔ)的個(gè)數(shù)。
Giza++是用于從句子對(duì)齊雙語(yǔ)語(yǔ)料中訓(xùn)練詞語(yǔ)對(duì)齊,但工作組在特定領(lǐng)域已收集的句子對(duì)齊漢藏語(yǔ)料規(guī)模還無(wú)法達(dá)到較大的規(guī)模,Giza++雙向詞對(duì)齊結(jié)果合并后很不理想。因此本文提出擺脫詞對(duì)齊結(jié)果的短語(yǔ)抽取方案SIBPTM模型。
Moses是一個(gè)基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng),從訓(xùn)練到解碼完全開(kāi)放源代碼。Moses在解碼之前可以生成雙語(yǔ)短語(yǔ)表和重排序表,但其在本實(shí)驗(yàn)設(shè)計(jì)中使用的漢藏句對(duì)齊五份實(shí)驗(yàn)語(yǔ)料上性能和短語(yǔ)準(zhǔn)確率沒(méi)有TIA算法運(yùn)行效果好。就性能而言,搭建Moses前需要安裝Giza、Srilm等額外工具之外生成短語(yǔ)表之前需要生成目標(biāo)語(yǔ)語(yǔ)言模型,這些工作較費(fèi)時(shí)間;TIA只需要句子對(duì)齊漢藏語(yǔ)料作為輸入,計(jì)算出來(lái)的即為漢藏短語(yǔ)。就準(zhǔn)確率而言,請(qǐng)參見(jiàn)圖3。圖中橫坐標(biāo)表示語(yǔ)料序號(hào),縱坐標(biāo)表示準(zhǔn)確率。
圖3 TIA和Moses準(zhǔn)確率比較圖
圖3結(jié)果表明,為實(shí)驗(yàn)準(zhǔn)備的五份漢藏語(yǔ)料上TIA算法生成漢藏短語(yǔ)對(duì)準(zhǔn)確率明顯高于Moses生成的短語(yǔ)表準(zhǔn)確率。Moses要用到基于統(tǒng)計(jì)的語(yǔ)言模型,工作組收集語(yǔ)料初步階段的漢藏法律法規(guī)和公文領(lǐng)域?qū)R語(yǔ)料規(guī)模無(wú)法達(dá)到Moses及相關(guān)統(tǒng)計(jì)機(jī)器翻譯開(kāi)源工具對(duì)語(yǔ)料規(guī)模的要求。目前的語(yǔ)料規(guī)模下,MSCT_CAT抽取短語(yǔ)互譯對(duì)再生成待譯句子的譯文過(guò)程中,Moses生成的短語(yǔ)表還不可取。
在實(shí)驗(yàn)中,對(duì)五組漢語(yǔ)語(yǔ)料用Nagao的N-gram 統(tǒng)計(jì)算法和刪除同頻子串的算法(SSR)后處理停用詞,再人工篩選得到語(yǔ)法意義較明確的漢語(yǔ)語(yǔ)塊。藏文語(yǔ)料先用TIA進(jìn)行短語(yǔ)抽取,再采用計(jì)算機(jī)輔助人工的方法判斷互譯對(duì)正確與否,表2列出TIA抽取的連續(xù)短語(yǔ)和非連續(xù)短語(yǔ)統(tǒng)計(jì)結(jié)果。表2中D表示Discontinuous,C表示Continuous。
表2 TIA抽取結(jié)果的連續(xù)性統(tǒng)計(jì)表
為了證明TIA算法抽取1-n短語(yǔ)對(duì)的有效性,對(duì)TIA抽取到的結(jié)果分析其漢藏對(duì)應(yīng)關(guān)系。表3顯示對(duì)應(yīng)關(guān)系分布情況。該方法獲得的短語(yǔ)譯文準(zhǔn)確率均值達(dá)到81%。
表3 TIA抽取結(jié)果的對(duì)應(yīng)關(guān)系統(tǒng)計(jì)表
顯而易見(jiàn),語(yǔ)料中非連續(xù)短語(yǔ)對(duì)和1-n的短語(yǔ)對(duì)不可以忽略不計(jì)。TIA可以抽取連續(xù)和非連續(xù)的短語(yǔ)對(duì)。同時(shí)能夠有效地抽取1-1和1-n漢藏短語(yǔ)對(duì)。從實(shí)驗(yàn)結(jié)果分析,由于數(shù)據(jù)稀疏問(wèn)題,語(yǔ)料1和語(yǔ)料4兩組準(zhǔn)確率在同組試驗(yàn)中低于其他語(yǔ)料。低頻短語(yǔ)在序列相交過(guò)程中很容易帶著額外的與譯文無(wú)關(guān)內(nèi)容,這些干擾信息導(dǎo)致這兩組的準(zhǔn)確率降低。設(shè)定頻率限度可以提高準(zhǔn)確率,損失召回率。在每組實(shí)驗(yàn)結(jié)果中,語(yǔ)料5的準(zhǔn)確率最佳,這表明可以通過(guò)擴(kuò)大領(lǐng)域?qū)R語(yǔ)料規(guī)模提高覆蓋率,較高的覆蓋率能提高準(zhǔn)確率。
目前漢藏雙語(yǔ)語(yǔ)料資源不足,語(yǔ)料處理技術(shù)正處于起步階段。這種前提下,文章提出兩步抽取漢藏語(yǔ)塊的方法。第一步利用Nagao的N-gram 統(tǒng)計(jì)算法和呂學(xué)強(qiáng)的SRR抽取有效漢語(yǔ)語(yǔ)塊。第二步計(jì)算包含待譯漢語(yǔ)語(yǔ)塊的漢藏句對(duì)公共子串的思想出發(fā),嘗試藏文詞串序列相交算法獲取譯文。其結(jié)果能滿足多策略漢藏輔助翻譯系統(tǒng)的短語(yǔ)實(shí)例建設(shè)需求。然而,目前收集的漢藏對(duì)齊語(yǔ)料中存在數(shù)據(jù)稀疏問(wèn)題。N-gram、SSR以及TIA都是依賴于統(tǒng)計(jì)的,對(duì)于數(shù)據(jù)稀疏問(wèn)題無(wú)濟(jì)于事。提高語(yǔ)料覆蓋率有利于擴(kuò)建漢藏短語(yǔ)詞典。序列相交模型將漢藏詞典作為輔助資源進(jìn)行短語(yǔ)對(duì)獲取,由于召回率不高而導(dǎo)致未登陸現(xiàn)象。另外,雙語(yǔ)語(yǔ)料中形態(tài)變化現(xiàn)象比較復(fù)雜,進(jìn)一步分析和解決有助于提高準(zhǔn)確率并解決未登錄現(xiàn)象。下一步工作中提高準(zhǔn)確率的同時(shí)提高召回率,使得抽取的短語(yǔ)融入生成模型中為漢藏輔助翻譯工作發(fā)揮作用。
[1] Daniel Marcu,William Wong. A Phrase-based,Joint Probability Model for Statistical Machine Translation[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). Philadelphia,PA,USA. July 2002: 133-139.
[2] Dekai wu. Stochastic inversion transduction grammars and bilingual parsing of parallel corpora[J]. Computational Linguistics, 1997, 23(3):377-404.
[3] Ying Zhang,Stephan Vogel,Alex Waibel. Integrated phrase segmentation and alignment algorithm for statistical machine translation[C]//Proceeding of International Conference on Natural Language Processing and Knowledge Engineering. Beijing,2003: 567-573.
[4] Ying Zhang,Stephan Vogel. Competitive Grouping in Integrated Phrase Segmentation and Alignment Model[C]//Proceeding of ACL Workshop On Building and Using Parallel Texts. Ann Arbor,2005:159-162.
[5] H Kaji,Y Kida,Y Morimoto. Learning Translation Templates from Bilingual Texts[C]//Proceedings of the 14thInternational Conference on Computational Linguistics. Nantes France,1992:672-678.
[6] Franz Josef Och,Hermann Ney. The alignment template approach to statistical machine translation[J]. Computational Linguistics,2004,30(4): 417-449.
[7] David Chiang. A Hierarchical Phrase-Based Model for Statistical Machine Translation[C]//Proceedings of the 43thAnnual Meeting of the Association for Computational Linguistics. Arbor,2005: 263-270.
[8] 何彥青,周玉,宗成慶,等. 基于“松弛尺度”的短語(yǔ)翻譯對(duì)抽取方法[J]. 中文信息學(xué)報(bào),2007,21(5):91-95.
[9] 王辰,宋國(guó)龍,吳宏林,等. 基于序列相交的短語(yǔ)譯文獲取[J]. 中文信息學(xué)報(bào),2009,23(1):39-43.
[10] 周季文,傅同和. 藏漢互譯教程[J]. 北京,民族出版社,1999.
[11] 張怡蓀. 藏漢大辭典[J]. 北京,民族出版社,1993.
[12] Xueqiang Lv, Le Zhang, and Junfeng Hu. Statistical Substring Reduction in Linear Time[C]//Proceedings of IJCNLP-2004,2004:320-327.
[13] Nagao,Makoto,Shinsuke Mori. A new method of N-gram statistics for large number of n and automatic extraction of words and phrases from large text data of Japanese[C]//COLING-94,1994: 611-615.