劉智穎,郭艷波,晉耀紅
1.北京師范大學中文信息處理研究所,北京 100875
2.中國專利信息中心-北京師范大學機器翻譯聯(lián)合實驗室,北京 100875
3.盤古文化傳播有限公司,北京 100162
漢英機器翻譯中格式轉(zhuǎn)換研究
劉智穎1,2,郭艷波3,晉耀紅1,2
1.北京師范大學中文信息處理研究所,北京 100875
2.中國專利信息中心-北京師范大學機器翻譯聯(lián)合實驗室,北京 100875
3.盤古文化傳播有限公司,北京 100162
格式在HNC理論中是指廣義作用句各主語塊位置的不同排列組合方式。由于主語塊的排列方式在漢英兩種語言中表達的差異,漢語句子翻譯到英語時常常發(fā)生格式轉(zhuǎn)換。格式轉(zhuǎn)換是HNC機器翻譯理論的一個重要內(nèi)容,是機器翻譯理論實踐的基礎(chǔ)和前提。以HNC機器翻譯理論為指導,以真實文本的專利文獻漢英句對為分析對象,研究專利機器翻譯中漢英兩種語言之間廣義作用句的格式轉(zhuǎn)換規(guī)律,制定了排除規(guī)則、識別規(guī)則和轉(zhuǎn)換規(guī)則,對部分規(guī)則進行了人工評測,結(jié)果表明準確率能達到85%左右。
格式轉(zhuǎn)換;廣義作用句;機器翻譯
格式轉(zhuǎn)換在HNC理論[1]中是指廣義作用句各主語塊位置的不同排列組合方式。由于主語塊的排列方式在漢英兩種語言中表達的差異,漢語句子翻譯到英語時常常發(fā)生格式轉(zhuǎn)換。格式轉(zhuǎn)換是HNC機器翻譯理論的一個重要內(nèi)容,是機器翻譯理論實踐的基礎(chǔ)和前提。
HNC理論以概念聯(lián)想脈絡(luò)為主線,建立了自然語言的計算機理解處理模式,該理論的一個重要應(yīng)用之一就是研究和開發(fā)漢英機器翻譯系統(tǒng)。HNC機器翻譯是基于規(guī)則的機器翻譯系統(tǒng),分為源語言分析、過渡處理、目標語生成三個處理階段。過渡處理包括六個環(huán)節(jié),即句類轉(zhuǎn)換、句式轉(zhuǎn)換、主輔語塊變換、語塊構(gòu)成變換、輔塊排序調(diào)整和小句排序調(diào)整[2]。其中,句式轉(zhuǎn)換包括格式轉(zhuǎn)換和樣式轉(zhuǎn)換。格式轉(zhuǎn)換存在于廣義作用句中,而樣式轉(zhuǎn)換存在于廣義效應(yīng)句中。據(jù)統(tǒng)計,漢英機器翻譯中,需要進行格式轉(zhuǎn)換的句子占20%[3]??梢?,格式轉(zhuǎn)換是機器翻譯的一個重要內(nèi)容。
本文以HNC機器翻譯理論為指導,以真實文本的專利文獻漢英句對為分析對象,從HNC角度研究專利機器翻譯中漢英兩種語言之間廣義作用句的格式轉(zhuǎn)換規(guī)則,包括排除規(guī)則、識別規(guī)則和轉(zhuǎn)換規(guī)則。經(jīng)過測試,語義翻譯引擎對格式轉(zhuǎn)換的處理取得良好的效果,對于全局的格式轉(zhuǎn)換處理的準確率能夠達到85%左右。
表1 概念層次網(wǎng)絡(luò)理論中的概念林L0分類
在世界上的語言中,按句子語序可分為三種類型:主動賓(SVO)、動主賓(VSO)、主賓動(SOV)。英語的語序多為主動賓(SVO),現(xiàn)代漢語在語序類型上屬于SVO型語言,語法上的一般規(guī)則是:句子成分一般按照“主語—謂語—賓語”的順序排列。而漢語的語序很大程度上取決于句子的意義,因而主語與動詞的次序較為靈活[4]。
格式轉(zhuǎn)換又叫調(diào)序,即根據(jù)需要調(diào)整句子的語序[5]。調(diào)序在統(tǒng)計機器翻譯中是很重要的一個環(huán)節(jié),調(diào)序方法主要有兩類:采用概率統(tǒng)計方法和采用模版方法。各種調(diào)序模型及對調(diào)序模型的融合研究逐漸成為機器翻譯研究的熱點[6]。
HNC理論對格式問題也作過相應(yīng)的研究。針對某種特定句類,曾經(jīng)研究過漢英翻譯中一般轉(zhuǎn)移句的格式轉(zhuǎn)換,總結(jié)了一般轉(zhuǎn)移句格式轉(zhuǎn)換的規(guī)律[7],塊擴句式轉(zhuǎn)換問題[8]。針對漢英機器翻譯中的句式轉(zhuǎn)換,研究了漢英兩種語言在句式表達方面的異同,描述了漢英句式轉(zhuǎn)換的一般規(guī)律[9]。此外,還就漢英機器翻譯的格式自轉(zhuǎn)換進行了研究[10]。不過,這些研究也僅停留在理論研究和構(gòu)想階段,對語言現(xiàn)象的分析是理論層面的,制定的形式化規(guī)則沒有得到實驗驗證,而且在分類上還不夠細致。
本文在以上研究的基礎(chǔ)上,對漢英專利機器翻譯的格式轉(zhuǎn)換進行更深入、更全面、更具體的研究,所制定的轉(zhuǎn)換規(guī)則直接服務(wù)于漢英專利機器翻譯語義引擎,并可以在語義引擎中直接檢驗規(guī)則的有效性,從而實現(xiàn)對規(guī)則的實時調(diào)試與修改。
格式,又叫語句格式,是指句子中主語塊的排列順序[11]。句類表示式說明了一個句類由幾個什么樣的主語塊構(gòu)成,而這些主語塊在不同的句子中可能順序不同,這就是語句格式的不同。
在HNC理論中,不考慮語塊的省略,語句格式有三種類型:
(1)基本格式(!0):對于三主塊句,句子的格式是“GBK1+EK+GBK2”。也就是SVO的格式。
(2)規(guī)范格式(!1):對于三主塊句,句子的格式是“GBK1+^GBK2+EK”(!11)或“GBK2+^GBK1+EK”(!12)。也就是SOV或OSV格式,廣義對象語塊(S和O)相鄰且相鄰語塊之間存在語塊標記。
(3)違例格式(!2):不同于規(guī)范格式,廣義對象語塊相鄰且相鄰語塊之間不存在語塊標記。
以基本作用句XJ為例,它有三個主語塊,即作用者A、作用X和對象B,“張三打了李四”是A+X+B(!0)格式,“張三把李四打了”是A+^B+X(!11)格式,“李四被張三打了”是B+^A+X(!12)格式。
句類分為廣義作用句和廣義效應(yīng)句兩大類。只有廣義作用句才具有格式信息。
對于廣義作用句而言,漢語既允許使用基本格式和違例格式,也允許使用規(guī)范格式,對某些句類甚至偏好規(guī)范格式,如:主動反應(yīng)句;而英語只允許使用基本格式或違例格式,不允許使用規(guī)范格式,因為形成規(guī)范格式所必需的語法工具(即HNC所定義的語言邏輯l0概念)英語是殘缺不全的,而漢語是完備的。
漢語中,概念林l0轄屬4株概念樹,分別作為不同類型語塊的標識符。
概念層次網(wǎng)絡(luò)理論中的概念林L0分類如表1所示。
英語的廣義作用句不存在規(guī)范格式。當漢語句子的規(guī)范格式翻譯到英語時,必然發(fā)生格式轉(zhuǎn)換。如漢語句子“播放器對該內(nèi)容進行解擾。(The player descrambles the content.)”,采用的是規(guī)范格式“GBK1+^GBK2+EK”,英語采用基本格式“GBK1+EK+GBK2”。
由于規(guī)范格式存在明顯的語塊邊界標識符,所以本文著重研究漢語廣義作用句的規(guī)范格式向英語的轉(zhuǎn)換問題。
本文的研究單位是以逗號或句號劃分成的單句或小句。格式轉(zhuǎn)換既可能發(fā)生在單句和小句中,也可能發(fā)生在單句或小句內(nèi)部的語塊中。本文關(guān)注前者,即發(fā)生在單句中的格式轉(zhuǎn)換。研究的前提是小句已經(jīng)切分,EG(特征語塊)、ABK(輔塊)、LB(句間邏輯說明符)已經(jīng)識別出來。
本文的研究對象是漢英專利機器翻譯廣義作用句的格式轉(zhuǎn)換,語料使用中國專利信息中心的檢索系統(tǒng)根據(jù)l0概念(將、把、對、向等)檢索出來的1萬句漢英句對。
本文對語料的標注是多維度的,包括格式轉(zhuǎn)換的現(xiàn)象、依據(jù)、結(jié)果和規(guī)則。現(xiàn)象指源語言中的語言邏輯概念(l0)和特征語塊(E)。依據(jù)指影響格式轉(zhuǎn)換的因素,包括句類因素、是否有JK1、是否有聯(lián)結(jié)詞、是否發(fā)生句類轉(zhuǎn)換等。結(jié)果描述漢語句子翻譯到英語句子后,是主動形式還是被動形式,以及翻譯前后源語言和目標語的格式變化。規(guī)則部分用較為簡練的符號標注了格式轉(zhuǎn)換的條件及結(jié)果,“=>”左邊是條件,右邊是結(jié)果。
表2 格式轉(zhuǎn)換語料的多維標注
圖1 格式轉(zhuǎn)換語料規(guī)則表示
格式轉(zhuǎn)換語料的多維標注如表2所示。
對語料進行標注分析,總結(jié)規(guī)則后,要對規(guī)則進行形式化,便于計算機識別和處理。為此設(shè)立了一套規(guī)則符號,包括特征集、位置標記、操作函數(shù)、屬性集等。定義好規(guī)則符號后,即可對規(guī)則進行形式化表示,如圖1所示。
漢英專利機器翻譯格式轉(zhuǎn)換規(guī)則研究,包括研究其排除規(guī)則、識別規(guī)則和轉(zhuǎn)換規(guī)則。
排除規(guī)則主要是排除與l0概念兼類的其他概念,充當l0概念的詞通常是“把、將、對、向”等,但這些詞不僅充當l0概念,還充當動態(tài)概念、基本概念等。所以首先要對這些不屬于l0概念的情況進行排除,識別出l0概念。
識別規(guī)則主要是識別l0的層次,單句中l(wèi)0的層次記為1,小句中l(wèi)0的層次記為2,不同層次格式轉(zhuǎn)換的規(guī)律不同,所以要對l0的層次進行識別。
最后制定格式轉(zhuǎn)換規(guī)則。
不管是排除規(guī)則、識別規(guī)則還是轉(zhuǎn)換規(guī)則,都具有一定的優(yōu)先順序。首先,排除規(guī)則優(yōu)先于識別規(guī)則和轉(zhuǎn)換規(guī)則;其次,所有規(guī)則都以(0)號節(jié)點(通常為l0概念)為切入點,先向前匹配,再向后匹配。
5.1 排除規(guī)則
充當l0概念的詞都是常用詞,幾乎都具有兼類現(xiàn)象,所以要先進行處理,排除含l0概念的詞但不屬于格式轉(zhuǎn)換的情況。可以利用的信息有:
(1)EG信息
l0概念的詞大體對應(yīng)于介詞,大多具有動態(tài)概念屬性,下面這條規(guī)則可統(tǒng)一排除這種兼類情況。
此條規(guī)則的含義是:當“把,將,對,向,由,給,比,與”后面找不到特征語塊(EG)時,那么這些詞是動態(tài)概念,不作l0概念。
例如:第一圖像(110)給//l0消費者一種安全感。
句中用“//”加具體語塊或概念的形式,標明其與規(guī)則的對應(yīng)。
(2)位置信息
邏輯概念都可以用于三主塊句,當三主塊句的EG位于句尾時,優(yōu)先選擇這類詞為l0概念,規(guī)則如下:
例如:移動終端對//l0信號能量進行探測//EG。
(3)個性特征
對于每個l0概念的個性特征,將分別制定排除規(guī)則。以“對”為例,《現(xiàn)代漢語詞典》(第六版)中,“對”共有16個義項,對應(yīng)于HNC概念有5個概念,分別是動態(tài)概念(v)、值概念(zzp,zzw)、主語塊標識符(l0)、靜態(tài)概念(g)、倫理屬性概念(jgu841),如表3所示。
表3 詞語“對”的概念特征
“對”需要排除的是做量詞(值概念zzp,zzw)、形容詞(倫理屬性概念jgu841)和介詞(輔語塊標識符l1)的情況??赏ㄟ^以下規(guī)則排除:
(0)CHN[對]+(f){CHN[來說,說來,而言]}=>!LC_ SELECT(0,LC_CC,l0)$當“對”后面有“來說,說來,而言”時,“對”為輔塊標識符l14。
5.2 識別規(guī)則
識別規(guī)則主要用來識別格式轉(zhuǎn)換是發(fā)生在主句還是小句(從句)中。這是進行下一步句子分析和語序調(diào)整的依據(jù)。在邏輯概念l0上標記level屬性,用以表明邏輯概念的級別。level=1表示l0是全局的語塊標識符,level=2表示l0是局部的語塊標識符,數(shù)字越大,表示級別越低。
識別規(guī)則階段,除了切分小句,識別出EG、ABK、LB、l0概念之外,沒有其他的信息可供利用。所以要識別出LEVEL=1的l0,需利用知識庫中l(wèi)0的句類信息和EG的句類信息。如果EG前面的l0的句類信息和EG的句類信息匹配,那么這個l0的LEVEL等于1:
例如:播放器對//l0該內(nèi)容進行解擾(208)//EG。
l0“對”的句類可以是作用句(X),EG“進行解擾”的句類也可以是作用句(X),它們的句類信息相匹配,所以此處l0的LEVEL是1。
5.3 轉(zhuǎn)換規(guī)則
采用排除規(guī)則可以排除不進行格式轉(zhuǎn)換的句子,采用分析規(guī)則可以識別出l0的層次。識別過程結(jié)束后,會產(chǎn)生一棵分析樹,轉(zhuǎn)換規(guī)則將在這棵樹上進行,如圖2所示。
圖2 格式轉(zhuǎn)換分析樹
以由“對”所構(gòu)成的格式為例,格式轉(zhuǎn)換規(guī)則總的來說有以下特征:
“對”,可用于反應(yīng)句、信息轉(zhuǎn)移句、交換句、一般承受句、因果句、一般判斷句、約束句、單向關(guān)系句、作用句、關(guān)系自身轉(zhuǎn)移句、效應(yīng)句,主要作為GBK2的標識符l02??捎糜谌鲏K句也可用于四主塊句,通常采用!11、!113格式。不管用于四主塊句還是三主塊句,其EG都不帶下裝(hv)。
當“對”用于三主塊句時,EG通常為高低搭配EQ+E結(jié)構(gòu),如“進行描述、進行解擾、進行計數(shù)”等。
(1)當句子中存在GBK1(即主語不缺省)時,翻譯成英語時采用主動格式。
規(guī)則如下:
例如:這些計數(shù)器//GBK對//l0這些數(shù)據(jù)輸入/輸出裝置發(fā)出的總線分配請求數(shù)//GBK進行計數(shù)//EG。(These counters count the number of bus allocation request signals issued from these data input/output devices.)
(2)當句子中沒有GBK1(即主語缺?。r,翻譯成英語時采用被動格式。
規(guī)則如下:
例如:以上結(jié)合本發(fā)明的優(yōu)選實施方式對//l0本發(fā)明//GBK進行了描述//EG。(The present invention hasbeen described above in connection with the embodiments of the invention.)
當“對”用于四主塊句時,翻譯成英語需要在GBK2前面加介詞(如to、for等)。
(3)當句子中存在GBK1(即主語不缺?。r,翻譯成英語時采用主動格式,并在位置(1)前增加介詞to/for。
規(guī)則如下:
例如:第二通信模塊//GBK對//l0計算機系統(tǒng)//GBK提供//EG第二格式的第二表示數(shù)據(jù)//GBK。(The second communications module transmits the second indicating data in a second format to the computer system.)
(4)當句子中沒有GBK1(即主語缺?。r,翻譯成英語時采用被動格式。
規(guī)則如下:
沒有GBK1時,翻譯成英語采用被動格式。
例如:在持久操作期間,盡管電池包耗盡,仍可對//l0便攜式終端//GBK穩(wěn)定地提供//EG電源//GBK。(The power can be stably provided to the portable terminal in spite of depletion of a battery during a long-duration operation.)
隨機抽取了3 000個句子對排除規(guī)則和LEVEL=1的轉(zhuǎn)換規(guī)則進行了人工評測,評測結(jié)果能達到85%的準確率。
對評測結(jié)果進行分析,發(fā)現(xiàn)問題主要集中在以下幾方面:
分詞的影響。如“則由軌跡結(jié)構(gòu)對調(diào)焦誤差信號的調(diào)制最小?!本渲?,“對調(diào)”被切成了一個詞。
EG規(guī)則的影響。如“將由數(shù)據(jù)排序裝置所排序的數(shù)據(jù)中的有效數(shù)據(jù)輸出到裝置外部,”中,當“將”后面有“由”時,EG識別制定的規(guī)則是“將”為QE。
輔塊規(guī)則的影響。如“反射區(qū)域內(nèi)液晶分子與聚合物的比比透射區(qū)域內(nèi)低。”中,第二個“比”被當成了l1。
EG識別的影響。如“本發(fā)明所述方法對MPLS LSP的性能參數(shù)測量作了詳細的規(guī)定?!敝?,將“規(guī)定”識別為了E,因而影響了l0概念“對”的識別。
本文針對漢英專利格式轉(zhuǎn)換語料標注了轉(zhuǎn)換現(xiàn)象、依據(jù)、結(jié)果和規(guī)則。定義了漢英專利格式轉(zhuǎn)換的規(guī)則符號,對規(guī)則進行了形式化表示。總結(jié)了漢英專利格式轉(zhuǎn)換的規(guī)則,包括排除規(guī)則、識別規(guī)則和轉(zhuǎn)換規(guī)則。并對轉(zhuǎn)換規(guī)則進行了人工評測,取得了較好的實驗效果。
下一步的工作是,繼續(xù)對排除規(guī)則、識別規(guī)則和轉(zhuǎn)換規(guī)則都進行人工評測,針對性改進規(guī)則,提高規(guī)則效果;同時改進程序,提高系統(tǒng)的性能;另外,還需進一步擴大研究范圍和研究深度,將格式轉(zhuǎn)換的研究范圍擴大到所有語言邏輯概念;并且探索格式轉(zhuǎn)換發(fā)生在語塊內(nèi)部的情形。
[1]黃曾陽.HNC(概念層次網(wǎng)絡(luò))理論[M].北京:清華大學出版社,1998.
[2]黃曾陽.語言概念空間的基本定理和數(shù)學物理表示式[M].北京:海洋出版社,2004.
[3]張艷紅.英漢互譯中的格式轉(zhuǎn)換[C]//張全,蕭國政.HNC與語言研究.武漢:武漢理工大學出版社,2001:302-307.
[4]Greenberg J H,Croft W.Genetic linguistics:essays on theory and method[M].USA:Oxford University Press,2005.
[5]晉耀紅.HNC(概念層次網(wǎng)絡(luò))語言理解技術(shù)及其應(yīng)用[M].北京:科學出版社,2006.
[6]孫廣范.句法調(diào)序的統(tǒng)計機器翻譯方法研究[J].計算機工程與應(yīng)用,2009,45(36):142-144.
[7]孫雄勇.漢英翻譯中一般轉(zhuǎn)移句格式轉(zhuǎn)換[C]//苗傳江,杜燕玲.第二屆HNC與語言學研討會論文集.北京:海洋出版社,2004:362-367.
[8]曾維,張克亮.塊擴句的漢英句類及句式轉(zhuǎn)換[C]//朱小健,張全,陳小盟.HNC與語言學研究(第4輯).北京:北京師范大學出版社,2009:338-344.
[9]張克亮.面向機器翻譯的漢英句類及句式轉(zhuǎn)換[M].開封:河南大學出版社,2007.
[10]連巍巍,張克亮.面向漢英機器翻譯的格式自轉(zhuǎn)換研究[C]//朱小健,張全,陳小盟.HNC與語言學研究:第4輯.北京:北京師范大學出版社,2010:297-303.
[11]苗傳江.HNC(概念層次網(wǎng)絡(luò))理論導論[M].北京:清華大學出版社,2005.
LIU Zhiying1,2,GUO Yanbo3,JIN Yaohong1,2
1.Institute of Chinese Information Processing,Beijing Normal University,Beijing 100875,China
2.China Patent Information Center-Beijing Normal University Joint Laboratory of Machine Translation,Beijing 100875,China
3.Pangu Culture Media Company,Beijing 100162,China
The format in Hierarchical Network of Concepts(HNC)theory refers to the different arrangement methods of the main chunk in the general action sentence.The format conversion always occurs in the Chinese-English translation for the difference of the main chunk arrangements in two languages.Based on the HNC machine translation theory,this paper analyzes the patent documents Chinese-English sentence pairs,studies the format conversion laws in the general action sentences,makes the exclusion rules,recognition rules and conversion rules,evaluates the effects of part rules.The experiments show that translation precision of about 85%can be obtained.
format conversion;general action sentence;machine translation
A
TP391
10.3778/j.issn.1002-8331.1309-0428
LIU Zhiying,GUO Yanbo,JIN Yaohong.Format conversion in Chinese-English machine translation.Computer Engineering and Applications,2014,50(6):192-196.
國家高技術(shù)研究發(fā)展計劃(863)(No.2012AA011104);中央高?;究蒲袠I(yè)務(wù)費專項資金。
劉智穎(1975—),女,博士,主要研究方向為中文信息處理;郭艷波(1987—),女,碩士,主要研究方向為中文信息處理;晉耀紅(1973—),男,教授,主要研究方向為信號與信息處理。E-mail:liuzhy@bnu.edu.cn
2013-09-27
2013-12-04
1002-8331(2014)06-0192-05