曹 井 香, 黃 德 根, 王 偉, 王 帥 軍
( 1.大連理工大學 計算機科學與技術學院, 遼寧 大連 116024;2.大連理工大學 外國語學院, 遼寧 大連 116024 )
?
電子與信息工程、管理工程
中英平行短語依存樹庫構建
曹 井 香*1,2, 黃 德 根1, 王 偉1, 王 帥 軍2
( 1.大連理工大學 計算機科學與技術學院, 遼寧 大連 116024;2.大連理工大學 外國語學院, 遼寧 大連 116024 )
提出了面向翻譯研究的融合短語結構樹和依存分析的短語依存樹庫(phrase dependency treebank, PDT)的構建思想,闡述了中英平行PDT的構建方法.PDT 采用“扁平結構優(yōu)先”的短語結構樹和“基于語義”的依存句法功能標注原則,有別于傳統(tǒng)依存分析的完全二分法.大連理工大學中英平行PDT(DUT-CEPDT)的生語料取自文本質量較高的政府工作報告和白皮書及其官方譯文.首先,對文本進行分詞和詞性標注之后,利用專為語言學家開發(fā)的輔助工具LingTreeConstructor構建中文和英文的單語PDT;之后,在兩個單語PDT之間從篇章到詞的節(jié)點進行對齊,這種多層次的立體對齊比只有詞、短語或句子的單層對齊能提供更豐富的翻譯知識;最后,依據FrameNet進行雙語平行的框架語義角色標注.DUT-CEPDT將為譯員培訓和機器翻譯研究提供所需的標準語料.
短語依存樹庫;機器翻譯;節(jié)點對齊;句法功能;語義角色
當前機器翻譯取得的進展大都是基于統(tǒng)計的方法,或者是統(tǒng)計和規(guī)則相結合的方法.機器翻譯研究所依賴的標注語料資源多是單句庫,句子一般都不能太復雜.隨著句子長度和復雜度的提高,人譯的難度加大,機譯則更困難.
目前中英平行語料庫有Babel語料庫,它有句對齊和詞性標注,語料取自英文報刊文章及其中譯版,主要用于中英語言對比研究[1];專利語料庫,由中國專利的中英文摘要或專利中英文可比較語料挖掘的句對構建,句子結構復雜,但是都沒有深加工[2].目前深加工的中文單語樹庫有美國賓州中文樹庫[3]、臺北“中研院”Sinica中文樹庫[4]、清華大學中文樹庫[5]和哈爾濱工業(yè)大學中文依存樹庫[6]等.英文單語樹庫有很多,應用最廣泛的是美國賓州英文樹庫[7].深加工的雙語平行樹庫有布拉格捷克語-英語平行依存樹庫(Prague Czech-English dependency treebank, PCEDT),可把賓州英文樹庫的華爾街日報子庫翻譯成捷克語句子,同時實現(xiàn)了雙語依存樹的節(jié)點對齊[8].
隨著我國改革開放和對外交往的不斷發(fā)展,雙語語料文本越來越多,如產品說明書、文件和論文的摘要、旅游景點介紹等,但這些譯文大多是一個門面的裝飾,譯文質量參差不齊,不能作為翻譯學習的樣本.PCEDT專門把賓州英文樹庫翻譯成捷克語而沒有采用現(xiàn)有譯文語料,考慮的原因之一就是能夠收集到的翻譯文本翻譯太自由,意譯和編譯普遍,很難實現(xiàn)深度的平行.而政府文件的官方翻譯是要向外界傳達國家重要信息的,翻譯質量很高.這些文本是譯員學習的樣本,也應該作為機譯學習的樣本,以提高機譯的質量.因此,本文嘗試利用人譯的思路深度加工這些雙語文本,并實現(xiàn)最大程度的對齊,為機器翻譯研究構建一個高質量的學習和評測語料庫.
本文提出短語依存樹庫(phrase dependency treebank, PDT)的構建思想,闡述大連理工大學中英平行短語依存樹庫(DUT-CEPDT)的構建過程,介紹比傳統(tǒng)句對齊或詞對齊更徹底的從篇章到詞的節(jié)點翻譯對齊.
1.1 LingTreeConstructor的改造
LingTreeConstructor是由丹麥計算語言學家Sandborg-Petersen開發(fā)的語言學句法樹構建軟件[9],該軟件專門為語言專業(yè)人員設計,其豎排圖示與其他句法樹可視化軟件的橫排圖示不同,方便大段文本可視化加工(圖1).
圖1 句法樹構建工具LingTreeConstructor
對這個軟件的改造主要是增加以下功能:分離語料中的詞性標注;實現(xiàn)平行翻譯對齊節(jié)點連結;增加傳統(tǒng)括號格式句法樹輸出,方便后期機器學習.
1.2 FrameNet的引入
FrameNet是美國加州大學伯克利分校創(chuàng)建的,用于標注中心語的語義類別及附屬語與中心語的語義關系,也就是語義角色標注(semantic role labeling)[10].目前FrameNet已建框架還很有限.語義標注是一項巨大的工程,為了確保標注的質量,按詞的語義類別分組進行,即不是一次性完成文本中所有詞的語義標注,而是一次性完成某組同一義類的詞的標注,然后逐步完成所有詞的標注.表1是FrameNet總結的“保護”類詞(bulwark n, cover n, guard v, insulate v, safeguard n, protect v, protection_(entity) n, protection_(event) n, safeguard v, secure v, shelter n, shelter v, shield n, shield v)的框架.
引入語義角色標注是要在句法功能標注依存關系以外添加語義關系.不同語種之間表達同一意思的句法結構和功能會有所不同,但語義關系應該是基本相通的,這也是翻譯的基本假設,即相信兩種語言可以表達相同的意思.
表1 保護語義的框架
2.1 政府文件文本及其預處理
原始文本從中華人民共和國中央人民政府官方網站(http://www.gov.cn)下載,目前只用了政府工作報告(Report on the Work of the Government, 2000~2012,每年一份)和白皮書(White Papers, 2000~2012,每年數目不等),英文788 670 詞,28 569句;中文1 189 161字,33 318 句.中英文皆為官方發(fā)布,語言正式,句式復雜,內容廣泛.比較政府文件翻譯和其他文本翻譯,可以觀察到政府文件翻譯高度忠實于原文,除了增加一些注釋外,幾乎沒有改動.
中文文本分詞和詞性標注使用的是大連理工大學開發(fā)的NiHao語料標注系統(tǒng)[11],分詞標準是北京大學的《規(guī)范2003》.分詞結果如下例:
現(xiàn)在/NOUN-ADV, /WD 我/PERSON-PRON 代表/NVERB 國務院/ORG, /WD 向/PREP 大會/COM-NOUN 作/COM-VERB 政府/COM-NOUN 工作/NVERB-N 報告/NVERB-N, /WD 請/COM-VERB 各位/PERSON-PRON 代表/NVERB 審議/NVERB, /WD 并/CNJ 請/COM-VERB 全國/COM-NOUN 政協(xié)/ORG 委員/COM-NOUN 提出/NVERB 意見/COM-NOUN./WJ
對英文文本進行詞性標注,使用的是英國蘭卡斯特大學UCREL中心[12]開發(fā)的CLAWS7標注器,標注結果如下例:
On_II31 behalf_II32 of_II33 the_AT State_NN1 Council_NN1, _, I_PPIS1 now_RT present_VV0 to_II you_PPY my_APPGE report_NN1 on_II the_AT work_NN1 of_IO the_AT government_NN1 for_IF your_APPGE deliberation_NN1 and_CC approval_NN1 ._. I_PPIS1 also_RR invite_VV0 the_AT members_NN2 of_IO the_AT National_JJ Committee_NN1 of_IO the_AT Chinese_JJ People_NN ′s_GE Political_JJ Consultative_JJ Conference_NN1 (_( CPPCC_NP1 )_) to_TO submit_VVI comments_NN2 and_CC suggestions_NN2 ._.
之所以選擇這兩個標注器,是因為它們的詞性分類都很細,包含了較豐富的語義和語法信息,有利于后期的機器學習.
另外,對比上例中的中英兩個版本,中文只有1個句末標點,而英文有2個;中文用簡稱“全國政協(xié)委員”,而英文用全稱the members of the National Committee of the Chinese People′s Political Consultative Conference (CPPCC).這兩個現(xiàn)象在中英翻譯中非常普遍,因此要做的是與常見的單句對齊或詞對齊不同的節(jié)點對齊.
2.2 DUT-CEPDT的句法標注特點
當前的句法分析主要有兩種形式:一種是傳統(tǒng)的短語結構分析;另一種是依存關系分析.短語結構分析不直接包含依存關系,現(xiàn)有把短語結構樹庫轉換為依存樹庫的研究都需要配合30條左右的轉換規(guī)則,這些轉換規(guī)則是短語結構樹庫以外的知識.但是依存樹庫可以直接根據繼承推導來實現(xiàn)短語結構,不過也只能得到無標注的層次劃分而已,不能得到結構類型標注.結構類型也需要外部的知識規(guī)則來判定,目前這類研究很少見.DUT-CEPDT的句法分析形式融合了這兩種句法分析的結果,既保留了傳統(tǒng)的短語結構樹,又標注了依存方向和依存關系.短語結構的保留是為了節(jié)點對齊的塊翻譯研究;依存方向和關系可用于翻譯的調序問題研究.
2.2.1 短語依存樹的節(jié)點類型 當前自然語言處理領域的結構樹都是以句子為最大單位.平行語料庫多以翻譯句對為計量單位.然而語言的理解和翻譯經常需要句子之外的上下文語境,保留原文篇章的完整更符合人譯的習慣.為了探討擬合人譯的機器翻譯方法研究,篇章的根節(jié)點為text,定義的節(jié)點結構類型自底向上依次有:
(1)詞word,中文分詞和詞性標注,英文詞性標注之后,以空格為界的最小單位.本文不對詞進行判定,而是直接采納標注工具的標注結果.詞是樹庫的終節(jié)點.
(2)短語詞phrasal word,書寫有空格為界的幾個詞,但從語義和用法看是一個整體,都是結構相對穩(wěn)固的習語或成語.CLAWS7在詞性標注階段就有標注,如前文例子中的On_II31 behalf_II32 of_II33、中文“在中國共產黨的領導下”中的“在……下”,又如中文的“特別是”“環(huán)比”等.中文的原始文本無分詞標識的,不同分詞方法和工具對同一文本的標注可能不同.短語詞的構建是對分詞結果的一個修正,就是把不該切分的單位復合成一個單位.短語詞的可操作性判別有3個標準:①朗讀和口語中的語感,是不可停頓的整體,異常停頓后會感覺表達不流暢;②內部結構關系不好確定,需要查閱詞源信息;③譯文是一個詞.特征①和②是最重要的,③只做參考.短語詞按整體的功能以詞性分類,如短語名詞、短語動詞、短語連詞等(如圖1左下角的PhrV、PhrII、PhrRR、PhrCC).
(3)短語phrase,由兩個及以上詞組成且不能構成小句的非短語詞結構.短語是介于小句和詞之間的單位,幾個詞是否能夠組合成短語,主要看這個結構在語義上是否相對完整,同時可以整體被替換或移動.短語基本按傳統(tǒng)語法功能分類(如圖1中的NP、AP等).謂語動詞,包括助動詞和主動詞,設為PredVP,其賓語、狀語和補語分開另設,這個是以動詞為中心語的依存設計.
(4)小句clause,以主謂結構定義.英文小句是以謂語動詞為中心語的結構;中文小句的主語不是必要成分,主要參照的是謂語,主語承前省略的并列謂語結構也為小句.主語省略的小句與非謂語動詞短語的區(qū)別在于非謂語動詞有上一層小句作為父節(jié)點,而省略主語的小句通常是并列謂語.
(5)句子sentence,以原文的書寫為準.中文以句末標點(。?!……)定義,英文以句首字母大寫和句末標點(.?!…)定義.小句加句末標點是句子,短語加句末標點也是句子.
(6)句群group sentence,在翻譯對齊中,中英文句子會有一對多、多對一的時候,句群是對應同一句子的多個句子.這個節(jié)點標注在雙語節(jié)點對齊的工序中補加.
(7)段落paragraph,以原文的排版為準,如首行縮進、換行.標題、獨立呼語行(如“各位代表,”,“各位來賓,”)等都劃為段落.
以上的節(jié)點類型定義中,段落和句子是完全按形式定義的,小句、短語和短語詞是按語義和內部結構定義的,而句群是按翻譯的對齊結果定義的.標點符號在分詞處理中與詞相同對待,因此在終節(jié)點上歸入詞一級.定義短語詞是為了高效處理一些已經石化的習語,免去對其詞源歷史的追蹤,這些短語詞通常被譯成一個詞;定義句群是為了研究翻譯過程中句子之外結構的調整,合譯與分譯是人譯經常采用的處理技巧.
2.2.2 “扁平結構優(yōu)先”的短語結構分析 本文的短語結構分析基本相當于傳統(tǒng)的短語成分層次分析.符合英語習慣的是中心語先與前置附屬語組合,然后再與后置附屬語組合.符合漢語習慣的是中心語先與近的附屬語組合,再與較遠的附屬語組合.圖2所示的Stanford parser對以下句對的分析結果就體現(xiàn)了這種單語分析的特點.
“十一五”時期是我國發(fā)展進程中極不平凡的五年。The Eleventh Five-Year Plan period was a truly extraordinary time in the course of the country′s development.
(a) 中文
(b) 英文
圖2 斯坦福句法分析結果
Fig.2 Stanford parser result
英文a truly extraordinary time 先組合,然后再與 in the course of the country′s development 組合;而中文 “我國發(fā)展過程中”先與 “極”“不”“平凡”組合,再與“的”組合之后才與“五年”組合.都是先就近組合再與較遠的附屬語組合.這樣的結構分析除了末端節(jié)點的詞對齊之外,就只有根節(jié)點、主語節(jié)點和謂語節(jié)點3個能對齊的了.但是如果盡量采取前后修飾語扁平處理的話,可對齊的節(jié)點就更多,對翻譯研究有益,也更忠實于深層語義結構.
因此,為了服務于翻譯研究,本文不采用把句子首先劃分為主語和謂語的傳統(tǒng)二分法,而是以主句謂詞為中心語(head),傳統(tǒng)語法的主語、賓語、狀語和補語都是同級對待的,都是謂詞中心語的附屬語(dependent).而且每個結構的前置附屬語和后置附屬語也是同一層的,而不是前后依次嵌套的.這就是本文提出的“扁平結構優(yōu)先”原則,能并列的就不分層,減少層次,這樣有助于后期的節(jié)點對齊,有助于翻譯調序處理[11],也有助于探索多語統(tǒng)一的分析標注體系.圖3是依據“扁平結構優(yōu)先”原則對圖2的例子進行人工分析的結果,詞性標注為本文2.1所述標注器的標注結果.
(a) 中文
(b) 英文
圖3 “扁平結構優(yōu)先”原則
Fig.3 Flat structure preference rule
這個處理方法有別于目前單語依存樹庫構建思想.在單語依存樹庫構建中,很多的課題是研究把扁平結構進行二分處理的.本文從探索多語統(tǒng)一標注體系和翻譯研究的角度出發(fā),最大限度保留扁平結構,以實現(xiàn)多語的一致性和翻譯的靈活性.2.2.3 基于語義的依存方向標注 本文的依存句法關系標注是指分層標注中心語及其附屬語的句法關系,也就是標注本層結構的中心語以及附屬語組塊與中心語的關系.依存處理是以格語法為依據的,即小句(clause)的中心語(head)是謂語動詞,主語、賓語、狀語、補語都是附屬語.單語依存樹庫的構建通常是為了實現(xiàn)一致的二分法依存,很多虛詞甚至是標點符號被認定為中心語,比如連詞、介詞甚至是冠詞.
Chomsky學派就提出用DP(限定短語)替代NP(名詞短語)的語法理論,提出了限定詞(如a, the, this, his)是傳統(tǒng)名詞短語的中心語的說法,而沒有限定詞的泛指名詞短語則引入空語類(null)來解釋[13].包括漢語在內的很多語言都被探討,試圖說明DP是比NP更有解釋力的普遍語法.介詞(前置詞)短語結構(prepositional phrase, PP)已經被廣泛接受,普遍把介詞當成PP的中心語,現(xiàn)有文獻中的依存也都是把介詞當成中心語的,在介賓結構中,賓語是附屬語.還有并列結構和同位語結構,起初是規(guī)定連詞或標點符號為中心語,現(xiàn)在普遍規(guī)定首個或末尾組分為中心語.因此賓州依存樹庫在給出typed dependency 之外還有dependency collapsed[14-15].而Prague依存樹庫則在analytical level之外又另設一層tectogrammatical level[8].這些處理的核心都是簡化或者刪除虛詞為中心語的依存關系表示,突出語義層面的關系.
針對以上情況,為了方便翻譯研究,本文對中心語,即依存方向,作了一些不同于傳統(tǒng)語法,也不同于大多數現(xiàn)有依存樹的處理.
(1)短語詞phrasal word,是補充的在短語一級定義的與詞相同的結構.在結構和依存分析中,把短語詞看成是一個詞,不再分析.同時像a lot of, a number of 等短語量詞與名詞組合時,這些量詞是附屬語,而后面的名詞是中心語.
(2)謂語動詞短語PredVP,就是小句謂語動詞,包含助動詞.主動詞是中心語,這也是與其他依存句法分析中把助動詞定義為中心語不同的處理.
(3)屬格短語PossP(possessive phrase),英文詞性標注把 ′s分隔成詞,名詞或名詞短語與′s組合后就是PossP.屬格短語的中心語是前面的名詞或名詞短語.
(4)中文“的”字結構deP,中文分詞把“的”分隔成詞,“的”字前面的部分是中心語.
(5)中文方位短語LocP(locative phrase),就是名詞+“里、中、內”等,前面沒有“在”的情況.方位詞前面的部分是中心語.
本文規(guī)定的中心語都是語義中心語,而非傳統(tǒng)句法依存中心語.世界不同語種之間的差異重在語法虛詞的使用,翻譯的核心是語義轉達.以中英語言為例,英文譯成中文時冠詞、介詞和助動詞通常被省略,而中文譯成英文時需要添加.這些虛詞通常都沒有內含嵌套的結構,本文把這些虛詞附屬語與中心語的依存關系定義為句法限定語(determiner)和連接語(link).
基于語義的依存方向標注簡化了現(xiàn)有依存標注因部分結構句法依存和語義依存方向相反而使得全庫需要用兩套標注的煩瑣,而且這樣的理解也是傳統(tǒng)語言學的主張.
2.2.4 并列及同位結構的多中心分析 并列結構和同位語結構是依存關系構建中需要特殊處理的結構.為了滿足二分法的要求,目前的處理方法可以歸納為“就近原則”,即靠近父節(jié)點中心的部分為中心,Stanford parser就是這樣處理的.
圖4中的每對依存關系中前面的是中心語,后面的是附屬語,圖4(a)是Stanford的分析結
國防和軍隊現(xiàn)代化建設取得重大成就。Great progress was made in the modernization of national defense and the army.
(a) 句法中心與并列單中心分析
(b) 語義中心與并列多中心分析
果.中文“國防和軍隊”的依存中心是“軍隊”,“國防”與“軍隊”的關系是conj,“和”與“軍隊”的關系是cc.英文“national defense and the army”的依存中心是defense,national、and和army都是defense 的附屬語.把并列關系和修飾關系等同對待,在翻譯對齊上就會造成混亂.允許多中心的分層次依存,就是“國防和軍隊”中“國防”和“軍隊”都是中心,“和”是附屬于兩個中心的.這個NP再附屬于“現(xiàn)代化”,意思是“國防現(xiàn)代化和軍隊現(xiàn)代化”,再一起附屬于“建設”.這種并列的結構和理解在翻譯過程中是時常會遇到的.
圖4(b)是根據DUT-CEPDT構建結果的等同表示,不含短語結構信息.與圖4(a)的主要區(qū)別就在于并列結構的多中心和介詞的非中心語處理,即介詞、連詞和冠詞等語法功能詞都在依存關系括號的后位.同時對中文的語義依存分析有一處不同,即圖4(a)認為“現(xiàn)代化”和“國防與軍隊”同為“建設”的修飾語,而圖4(b)認為“現(xiàn)代化”是“國防和軍隊”的中心語,“建設”只是“現(xiàn)代化”的中心語.
2.2.5 句法依存關系類別 本文的單語標注階段還需要對同級關系進行依存關系類別標注.句法依存關系類別基本是以傳統(tǒng)的句法功能定義的.小句(句子)的內部句法依存關系類別有:主語(subject)、謂語(predicate)、直接賓語(object)、間接賓語(indirect object)、謂語狀語(adjunct)、小句狀語(disjunct)、插入語(parenthesis/expletives)、呼語(vocative);短語的內部句法功能類別有:中心語(head)、內容附屬語(modifier)、虛詞限定語(determiner)和連結語(link).連結語包括并列連詞、從屬連詞、標點符號和中文“的”.虛詞限定語是指英文的冠詞、形容詞性物主代詞等.句法依存關系是在單語處理階段標注的.
2.3 翻譯節(jié)點對齊
2.3.1 翻譯節(jié)點對齊設計 目前平行語料對齊是段落、句子、短語或者詞對齊.本文希望實現(xiàn)不同層級的最充分對齊,即節(jié)點對齊.也就是比照雙語文本,節(jié)點所表示的結構整體互譯,連結后該節(jié)點保存對譯樹庫中的節(jié)點ID,既方便翻譯知識學習,也方便后期的語義角色平行標注.本文認為除文學和廣告文本翻譯外,絕大部分翻譯的本質是語義的翻譯,語義是基本對應的,不同的是語言形式,其深層結構對應,表層結構不同.圖5是對以下句子的節(jié)點對齊示意圖.
我們在國際事務中發(fā)揮重要的建設性作用,有力維護國家主權、安全和發(fā)展利益,全方位外交取得重大進展。We played an important and constructive role in international affairs; effectively safeguarded our national sovereignty, security and development interests; and made major progress in our all-around diplomacy.
(a) 中文樹
(b) 英文樹
圖5 節(jié)點翻譯對齊
Fig.5 Translation node alignment
包括標點符號在內,中文樹共27個終節(jié)點,英文樹共30個終節(jié)點,中文多了“的”和“中”,英文多了an、our、in和2個and.對齊的節(jié)點共41對.在子節(jié)點與父節(jié)點的連線中,點虛線表示虛詞附屬語,短畫線表示實詞附屬語,實線表示中心語.這些句法關系都是相對于同一父節(jié)點的同級關系.
對齊連結就是在兩個樹庫中可以對譯的節(jié)點之間建立關聯(lián).圖5中每個節(jié)點只保留了一個主參數,葉子節(jié)點就是原詞,詞性標注省略,中間節(jié)點是短語類名,所有節(jié)點的句法功能標注和語義角色標注都省略.中括號內信息是該節(jié)點在單語庫的ID和對譯節(jié)點在對譯單語庫中的ID.如中文節(jié)點C17對譯英文節(jié)點E12,即“重要的建設性作用”對譯“an important and constructive role”.
傳統(tǒng)短語結構分析法首先是主語謂語切分,但本文采用“扁平結構優(yōu)先”原則.以E38和C39節(jié)點表示的小句為例, “全方位外交取得重大進展”和“and made major progress in our all-round diplomacy”的主語是不一樣的,中文的主語“全方位外交”對譯是“in our all-round diplomacy”,是狀語.如果把它們放在同一層級,在節(jié)點翻譯后調整位置就完成翻譯了.
自然文本的語篇對齊,句子層面會有一對多、多對一情況.以較長文本為準,對譯的多句添加一個句群節(jié)點與之對齊,可用于研究翻譯中的斷句與合句規(guī)則學習.
2.3.2 節(jié)點對齊操作 節(jié)點對齊人工操作輔助工具是作者自行開發(fā)的.
圖6中的左上方實現(xiàn)詞性提取和轉換功能,右上方實現(xiàn)對齊操作.主框左右便是雙語樹庫了.每個節(jié)點可收可放,已經對齊的顯示為綠色(文中深色部分),未對齊的節(jié)點為白色.選中左右要對齊的節(jié)點,點擊“建立關聯(lián)”,兩個節(jié)點的樹庫ID碼便建立了關聯(lián),保存在關聯(lián)文件里.
圖6 節(jié)點對齊標注工具
關聯(lián)文件表示以下對齊:
10010 Text,10010 Text,
10011 各位,10011 Fellow,
10012 代表,10012 Deputies 等
2.4 語義依存關系標注
對齊的節(jié)點連結之后,分層標注附屬語與中心語的語義依存關系.由于翻譯節(jié)點之間建立關聯(lián),在語義角色標注中能實現(xiàn)雙語同時標注,源語與譯語的語義關系是相同的.傳統(tǒng)依存關系把句法關系和語義關系融合成一個標注符,也就是說依存關系標注的一個特征值里包含了句法和語義信息.本文的標注把句法功能和語義關系分開,句法功能在單語庫標注,語義關系可在關聯(lián)之后標注.因為翻譯的前提就是假設兩個文本意思相同,那么同一中心語的附屬語的語義角色也相同,中文的時間不會變成英文的地點,但是中文的主語很可能譯成英文的狀語.標注語義關系為“的”的區(qū)別于同一級附屬語的不同元素,為翻譯規(guī)則學習增加一項可用的特征參數.
FrameNet團隊為相同語義類別的詞歸納框架,歸納了框架的主要元素和次要元素[10].框架元素就是該框架中心語的附屬語.該團隊已經標注了大量的框架,但是還有很多需要總結.框架的總結依據語料庫的檢索行(concordance).常用的語料庫檢索工具目前有AntConc、WordSmith Tools和ParaConc等.雖然ParaConc是針對平行語料的,但輸入語料要求已經句對齊.本文保留了篇章的原貌,沒有先進行句對齊,而是采用語料庫語言學領域使用最多的WordSmith Tools 5.0[16].圖7是protect的檢索行界面截圖.
圖7 WordSmith Tools 5.0 檢索
圖8是表1所示protect框架的標注實例.根據目標詞在檢索行所在語境的附屬語類別,歸納出語義框架,特別是該框架的框架元素.語義依存關系標注,也就是語義角色標注,是非常復雜而艱巨的任務,需要分批次逐個完成.
圖8 “protect”語義角色標注實例
DUT-CEPDT的主要特點歸納如下:
(1)翻譯節(jié)點多層對齊.這個是文獻中還未見到的.它的優(yōu)勢在于對齊徹底,計劃用于各個層次的翻譯知識獲取、詞語翻譯、短語翻譯、小句翻譯等.
(2)短語結構語法與依存語法相結合.常規(guī)依存樹是單點之間的聯(lián)系,只能通過繼承來實現(xiàn)層次連接,因此所有結構都只有唯一中心,并列結構也要先單點連結;同位語結構甚至把標點符號作為中心.雖然在形式上一致了,但在語言理解上與人的直覺理解相悖,在翻譯過程中也會出現(xiàn)困難.因此本文采用“扁平結構優(yōu)先”的短語結構分析和基于語義的依存分析來解析句法結構和功能,允許多中心結構,只有實詞可作為中心語,既符合人對語言的理解,也有利于翻譯知識的提?。陶Z層次的依存有助于互譯塊和翻譯規(guī)則的學習.
(3)生語料語言規(guī)范,譯文質量很高.政府文件文本句法結構復雜,話題內容廣泛.不是新聞題材,也不是專業(yè)題材,而是常見主題的正規(guī)表達.
中英平行短語依存樹庫是嶄新的嘗試,工程浩大.其困難之一在于這樣的精細加工需要大量的語言專業(yè)人力投入,這也是一開始就把建庫應用領域定位在語言和語言學教學、譯員培訓和翻譯機器學習的考慮.在教學工作中積累所需語料,項目可以得到持續(xù)擴展和升級.困難之二是后期的自動化或半自動化分析.人工標注只是一個基礎,工程應用需要實現(xiàn)自動化,需要實現(xiàn)規(guī)模.實現(xiàn)這樣精細的加工自動化有很大的困難,但是可以依賴現(xiàn)有的一些工具的拼接和整合先實現(xiàn)半自動化,逐步訓練匹配的分析器可以實現(xiàn)自動化.
2013年剛由Springer出版的自然語言處理理論與應用叢書之一的《計算機語言獲取的認知問題》第十章專門討論“樹庫分析和語言知識”[17],介紹了利用標注語料庫來獲取傳統(tǒng)語言學意義上的“語言知識”的思路和方法,認為當前利用大規(guī)模語料統(tǒng)計學習來獲取語言知識的方法的性能有限,語料的持續(xù)增加會積累“不自然”的語言結構,因此獲取傳統(tǒng)語言學知識對于提高機器學習和句法分析的性能很重要.實驗表明未經加工或者是淺層加工的語料規(guī)模加大并不能持續(xù)提高機器學習的效果,目前更需要深加工的語料來提高機器學習的性能.DUT-CEPDT的單語庫可用于語法教學和語言學研究,機器學習語法規(guī)則;雙語庫可用于語言對比研究,機器翻譯規(guī)則學習.
由于標注信息量加大,無論是人工標注,還是機器標注總體上操作性都變難了.但是由于采用了更符合人們直覺的語義優(yōu)先的標注體系,在單項任務上人工標注的一致性容易實現(xiàn).目前的標注全部是人工進行的,但只有實現(xiàn)自動和半自動標注才能實現(xiàn)工程上的運用,因此,下一步工作重點就是以人工標注為基礎進行自動化標注研究.
[1]Xiao R. Babel English-Chinese parallel corpus [DB/OL]. [2013-02-13]. http://www. lancs. ac. uk/fass/projects/corpus/babel/babel. htm.
[2]LU B, Tsou B K, JIANG Tao,etal. Mining large-scale parallel corpora from multilingual patents:an English-Chinese example and its application to SMT [C] // Proceedings of the1st CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2010). Beijing:CLP, 2010.
[3]XUE Nian-wen, XIA Fei, Chiou Fu-dong,etal. The Penn Chinese TreeBank:phrase structure annotation of a large corpus [J]. Natural Language Engineering, 2005,11(2):207-238.
[4]陳鳳儀, 蔡碧芳, 陳克健, 等. 中文句結構樹資料庫的構建[J]. 中文計算語言學期刊, 1999,4(2):87-104.
Chen Feng-yi, Tsai Bi-fang, Chen Keh-Jiann,etal. The construction of the Sinica treebank [J]. Computational Linguistics and Chinese Language Processing, 1999,4(2):87-104. (in Chinese)
[5]周 強. 漢語句法樹庫標注體系[J]. 中文信息學報, 2004,18(4):1-8.
ZHOU Qiang. Annotation scheme for Chinese treebank [J]. Journal of Chinese Information Processing, 2004,18(4):1-8. (in Chinese)
[6]LIU Ting, MA Jin-shan, LI Sheng. Building a dependency treebank for improving Chinese parser [J]. Journal of Chinese Language and Computing, 2006,16(4):207-224.
[7]Marcus M, Santorini B, Marcinkiewicz M. Building a large annotated corpus of English:The Penn treebank [J]. Computational Linguistics, 1993,19(2):313-330.
[9]Sandborg-Petersen U. LingTreeConstructor [DB/OL]. [2013-01-10]. http://ltc.sourceforge.net/.
[10]Baker C F, Fillmore C J, Lowe J B. The Berkeley FrameNet project [C] // COLING-ACL ′98:Proceedings of the Conference. Montreal:COLING-ACL, 1998:86-90
[11]HUANG De-gen, TONG De-qin. Context information and fragments based cross-domain word segmentation [J]. China Communications, 2012,9(3):49-57.
[12]Garside R, Smith N. A hybrid grammatical tagger:CLAWS4 [C] // Corpus Annotation:Linguistic Information from Computer Text Corpora. London:Longman, 1997:102-121.
[13]肖欣延,劉 洋,劉 群,等. 面向層次短語翻譯的詞匯化調序方法研究[J]. 中文信息學報, 2012,26(1):37-41.
XIAO Xin-yan, LIU Yang, LIU Qun,etal. Lexical reordering for hierarchical phrase-based translation [J]. Journal of Chinese Information Processing, 2012,26(1):37-41. (in Chinese)
[14]Szabolcsi A. The possessor that ran away from home [J]. The Linguistic Review, 1983,3(1):89-102.[15]Marneffe M, Maccartney B, Manning C. Generating typed dependency parses from phrase structure parses [C] // Proceedings of the International Conference on Language Resources and Evaluation (LREC-06). Genoa:Diplomarbeit, 2006:449-454.
[16]Scott M. WordSmith Tools version 5 [DB/OL]. [2013-01-10]. http://www. lexically. net/wordsmith/version5/index. html.
[17]Fong S, Malioutov I, Yankama B,etal. Treebank parsing and knowledge of language [C] // Cognitive Aspects of Computational Language Acquisition, Theory and Application of Natural Language Processing. Heidelberg:Springer-Verlag, 2013:133-172.
ConstructionofparallelChinese-Englishphrasedependencytreebank
CAO Jing-xiang*1,2, HUANG De-gen1, WANG Wei1, WANG Shuai-jun2
( 1.School of Computer Science and Technology, Dalian University of Technology, Dalian 116024, China;2.School of Foreign Languages, Dalian University of Technology, Dalian 116024, China )
A phrase dependency treebank (PDT) integrating phrase structure grammar and dependency grammar is proposed and elaborated to cater for translation studies. The construction of DUT Parallel Chinese-English PDT (DUT-CEPDT) is reported. PDT favors flat structures and the dependency is based on semantics rather than syntactic functions, which differs from the mainstream dependency analysis that favors binary branching. The raw texts of DUT-CEPDT are Chinese government work reports and White Papers and their official English translation. First of all, after word segmentation and part of speech (POS) tagging, Chinese PDT and English PDT are constructed manually with the aid of LingTreeConstructor, a tool tailored for linguists. Then, node alignment, which covers translation alignments of words, phrases, clauses up to the whole passage, is proposed instead of traditional word or sentence alignment to provide more translation knowledge. Lastly, semantic roles based on the FrameNet are labeled simultaneously on the aligned nodes of the English and Chinese trees. DUT-CEPDT can serve as a resource and standard of the training and assessment of both human translators and machine translation systems.
phrase dependency treebank; machine translation; node alignment; syntactic function; semantic roles
2012-10-02;
: 2013-11-08.
國家自然科學基金資助項目(61173100).
曹井香*(1973- ),女,博士,副教授,碩士生導師,E-mail: caojx@dlut.edu.cn;黃德根(1965-),男,博士,教授,博士生導師,E-mail:huangdg@dlut.edu.cn.
TP391
:A
10.7511/dllgxb201401015