• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      漢英篇章結(jié)構(gòu)平行語料庫的對齊標注研究

      2013-10-15 01:52:18馮文賀
      中文信息學(xué)報 2013年6期
      關(guān)鍵詞:層次結(jié)構(gòu)漢英平行

      馮文賀

      (河南科技學(xué)院 中文系,河南 新鄉(xiāng)453003;武漢大學(xué) 計算機學(xué)院,湖北 武漢430072)

      1 前言

      篇章結(jié)構(gòu)平行語料庫是對具有對譯關(guān)系的雙語文本標注了平行篇章結(jié)構(gòu)信息(含篇章單位和層次化結(jié)構(gòu)及關(guān)系等)的語料庫。例1給出了一個漢英篇章結(jié)構(gòu)的平行標注文本。

      例1 少年姓孫,//[并列]屬馬,/[并列]比小水小著一歲,///[并列]個頭也沒小水高,//[轉(zhuǎn)折]人卻本分實誠。(賈平凹《浮躁》)

      This boy,a member of the Sun family,//[并列]had been born in the year of the horse./[并列]Although he was a year younger///[并列]and a head shorter than Water Girl,//[轉(zhuǎn)折]he was honest and sincere.(Goldblatt,1991)

      平行語料庫和篇章結(jié)構(gòu)語料庫近年來都有較大發(fā)展。國際上平行語料庫20世紀90年代以來快速發(fā)展,漢英平行語料庫基本同步并取得較多進展[1-3]。然而整體上,現(xiàn)有漢英平行語料庫除做了一般性段落、句子、短語對齊工作外,很少進行句法、語義等深度標注加工,特別是篇章結(jié)構(gòu)的標注加工,還沒見到相關(guān)工作。另一方面,國際上篇章結(jié)構(gòu)語料庫已有成熟工作[4-6],漢語方面也有一些理論探索和實踐[7-9],但至今未見到漢英(及其他雙語)篇章結(jié)構(gòu)平行語料庫工作。篇章結(jié)構(gòu)平行語料庫的匱乏制約了基于篇章的機器翻譯等技術(shù)的發(fā)展。我們在基本完成漢語篇章語料庫600篇標注(CNDB1.0版)工作基礎(chǔ)之上,提出并開始漢英平行語料庫的建設(shè)工作。本文內(nèi)容是基于已進行的標注實踐。

      對齊標注是漢英篇章結(jié)構(gòu)平行語料庫的核心理論基礎(chǔ)。不同于一般平行語料庫工作,它既要求單位對齊(篇章單位對齊),還要求結(jié)構(gòu)與關(guān)系對齊(篇章結(jié)構(gòu)與篇章關(guān)系對齊)。不同于一般單語篇章結(jié)構(gòu)語料庫工作,它要在篇章結(jié)構(gòu)標注同時考慮對齊問題??梢哉J為,漢英篇章結(jié)構(gòu)語料庫實質(zhì)是對齊與標注合二為一的工作。由此,它富有挑戰(zhàn)性和創(chuàng)新性;在機器翻譯等領(lǐng)域?qū)⒂歇毺貞?yīng)用價值,對于其他平行語料庫工作也將有一定理論啟示意義。

      2 已有研究

      首先,關(guān)于平行語料庫的對齊和標注。就此問題,目前的平行語料庫工作有以下主要特點:(1)理論上認為對齊和標注可以相對獨立進行。通常對齊在前,然后單獨進行各類標注,這也是平行語料庫前期多對齊而少深層標注的原因。(2)對于對齊,多理解為單位對齊,如有段落、句子、小句、短語、詞語等各級語言單位的對齊工作;一般不進行各層級的結(jié)構(gòu)對齊工作。(3)由于標注獨立于對齊,標注基本等同單語上的標注,并不考慮雙語問題。

      這種“對齊和標注相對獨立,有單位對齊而無結(jié)構(gòu)對齊”工作模式的形成,與理論上認為雙語的語言結(jié)構(gòu),特別是句法結(jié)構(gòu)有巨大差異有關(guān),由此,不可能有對齊的句法結(jié)構(gòu),也不可能有對齊的詞性標注等,這就從根本上造成了目前的工作模式。由于對齊和標注獨立,又由于有單位對齊而無結(jié)構(gòu)對齊,平行語料庫不能高效指導(dǎo)后續(xù)的語言技術(shù)。例如,在基于結(jié)構(gòu)轉(zhuǎn)換的機器翻譯中[10],結(jié)構(gòu)對齊和轉(zhuǎn)換不能在現(xiàn)有平行語料庫中得到高效指導(dǎo)。

      這種工作模式在篇章結(jié)構(gòu)平行語料庫中可能得到改變。在漢英篇章結(jié)構(gòu)平行語料庫中,將實現(xiàn)“對齊和標注并行,單位對齊和結(jié)構(gòu)對齊共進”。這主要與客觀上篇章結(jié)構(gòu)的雙語差異可能沒有句法結(jié)構(gòu)差異那么大、那么精細有關(guān)。其次也與主觀上語言學(xué)理論對于篇章結(jié)構(gòu)的認識還沒有那么根深蒂固有關(guān)。

      其次,關(guān)于篇章結(jié)構(gòu)語料庫標注。雖然目前的篇章結(jié)構(gòu)語料庫主要是單語工作,但有關(guān)的基本篇章單位定義、結(jié)構(gòu)分析、關(guān)系體系及標注等工作,仍可作為平行篇章結(jié)構(gòu)語料庫的重要基礎(chǔ)。然而,由于要考慮雙語對齊,特別是結(jié)構(gòu)對齊,雙語平行語料庫對于基本篇章單位、結(jié)構(gòu)分析、關(guān)系分析等將有一些特別考慮,某些標注可能會和單語上的工作有很大不同。由于雙語對齊視野,對于篇章結(jié)構(gòu)及其分析我們將會有一些不同認識。

      3 漢英篇章結(jié)構(gòu)平行語料庫的對齊標注策略

      3.1 對齊標注總原則

      漢英篇章結(jié)構(gòu)平行語料庫的對齊標注總原則是“結(jié)構(gòu)對齊,關(guān)系對齊”。例1即是此原則下的對齊標注,該例結(jié)構(gòu)層次和篇章關(guān)系完全相同。關(guān)于這一原則有幾點需要說明。

      第一,本原則的基本假設(shè)是具有對譯關(guān)系的篇章,其內(nèi)部的層次結(jié)構(gòu)和結(jié)構(gòu)關(guān)系一一對應(yīng)。本質(zhì)上篇章結(jié)構(gòu)是一種邏輯語義結(jié)構(gòu),對于一個優(yōu)質(zhì)的翻譯文本,源語中的因果、轉(zhuǎn)折、并列等邏輯語義關(guān)系必然在目的語中得到反映,而且該邏輯語義關(guān)系的結(jié)構(gòu)層級等也會得到較好反映。所以這里的“結(jié)構(gòu)對齊、關(guān)系對齊”本質(zhì)上是邏輯語義結(jié)構(gòu)對齊。

      第二,本原則沒有明確體現(xiàn)單位對齊,并不意味著沒有單位對齊,因為單位對齊是結(jié)構(gòu)對齊的必然結(jié)果之一。標注過程中,主要著力于從上到下的層層結(jié)構(gòu)對齊,其間及最終自然帶來各級篇章單位、直至最小篇章單位的對齊。

      第三,本原則在實現(xiàn)雙語結(jié)構(gòu)對齊、關(guān)系對齊的同時實現(xiàn)標注。所以它實質(zhì)上是一個“標注中有對齊,對齊中有標注”的對齊與標注合二為一的過程。

      漢英篇章結(jié)構(gòu)的對齊標注,包括切分對齊、結(jié)構(gòu)對齊、關(guān)系對齊、中心判定對齊等幾個關(guān)鍵對齊標注任務(wù),下面分述它們的具體處理。

      3.2 切分對齊

      切分對齊指篇章單位對齊,它用來解決某一語段能否切分或切分到何處的問題。其關(guān)鍵是基本篇章單位對齊問題?;酒聠挝皇瞧陆Y(jié)構(gòu)從上到下切分的終點(在從下到上的結(jié)構(gòu)組合中是起點)。漢英的基本篇章單位有重要差異,要給出一個同時適合兩種語言的基本篇章單位定義,并用以工程實踐是困難的。在這個問題上,我們采用“源語優(yōu)先”的對齊策略,即首先按既定的漢語基本篇章單位進行切分,然后以英語對齊(最終可根據(jù)結(jié)果歸納英語基本篇章單位)。例1的切分對齊就是在這一原則下實現(xiàn)的。對于漢語基本篇章單位,我們采用了一個操作性強的標準[11]:

      “子句是篇章分析的基本單位,含傳統(tǒng)單句和復(fù)句中的分句。結(jié)構(gòu)上,子句至少包含一個謂語部分,至少表達一個命題;功能上,子句對外不作為其他子句結(jié)構(gòu)的語法成分,子句和子句間發(fā)生命題關(guān)系;形式上,子句間一定有標點分割,通常是逗號、分號和句號等。實際語料中,一些與典型子句在結(jié)構(gòu)、功能、形式上類似的傳統(tǒng)所謂短語在特定條件下也作為子句處理?!?/p>

      需要指出,漢英基本篇章單位的差異主要在內(nèi)部結(jié)構(gòu),其對外語義功能是一致的,即均與其他篇章單位發(fā)生命題間“因果、轉(zhuǎn)折”等關(guān)系,而非發(fā)生句法成分之間的語義關(guān)系。從處理結(jié)果上看,這種對齊切分的結(jié)果表現(xiàn)為以下兩點。

      (1)雙語文本都是典型基本篇章單位

      典型基本篇章單位既具備一定結(jié)構(gòu)要素,又具備特定功能要素。其中結(jié)構(gòu)要素一般包含謂語部分,功能要素是對外發(fā)生命題關(guān)系。例2、例3中對齊的基本篇章單位都比較典型①下文各例均自《中國憲法》(中英文),語料來源為中國人大網(wǎng)http://law.npc.gov.cn:87/home/begin1.cbs。

      下文各例均自《中國憲法》(中英文),語料來源為中國人大網(wǎng)http://law.npc.gov.cn:87/home/begin1.cbs

      例2 中國是世界上歷史最悠久的國家之一。/中國各族人民共同創(chuàng)造了光輝燦爛的文化,//具有光榮的革命傳統(tǒng)。

      China is a country with one of the longest histories in the world./The people of all of China’s nationalities have jointly created a culture of grandeur//and have a glorious revolutionary tradition.

      例3 一九一一年孫中山先生領(lǐng)導(dǎo)的辛亥革命,廢除了封建帝制,//創(chuàng)立了中華民國。/但是,中國人民反對帝國主義和封建主義的歷史任務(wù)還沒有完成。

      The Revolution of 1911,led by Dr.Sun Yatsen,abolished the feudal monarchy//and gave birth to the Republic of China./But the historic mission of the Chinese people to overthrow imperialism and feudalism remained unaccomplished.

      (2)源語是典型基本篇章單位,目的語不是典型基本篇章單位

      注意對照例4、例5中英文的劃線部分的內(nèi)部結(jié)構(gòu)。

      例4 人民依照法律規(guī)定,通過各種途徑和形式,管理國家事務(wù),/管理經(jīng)濟和文化事業(yè),//管理社會事務(wù)。

      The people administer State affairs/and manage economic and cultural undertakings//and social affairs through various channels and in various ways in accordance with the provisions of law.

      例5 在維護民族團結(jié)的斗爭中,要反對大民族主義,//主要是大漢族主義,/也要反對地方民族主義。

      In the struggle to safeguard the unity of the nationalities,it is necessary to combat big-nation chauvinism,//mainlyHan chauvinism,/and to combat local national chauvinism.

      3.3 層次結(jié)構(gòu)對齊

      層次結(jié)構(gòu)對齊要求雙語的篇章層次結(jié)構(gòu)分析一致。層次結(jié)構(gòu)是篇章單位語義親近程度的反映,具有一定客觀性,通常雙語的篇章層次結(jié)構(gòu)會自然對應(yīng),如例2、例3。這種情況下各自獨立標注雙語,也會得到雙語篇章層次結(jié)構(gòu)對齊。但由于雙語差異和篇章層次結(jié)構(gòu)的理解主觀性,目的語中會加入特定語言特征和翻譯者的理解主觀性,并進而影響目的語的層次結(jié)構(gòu)。這種情況下,使用目的語優(yōu)先原則進行層次結(jié)構(gòu)對齊。對比例6~例8的A、B兩種可能處理,其中B為目的語優(yōu)先原則下的處理。

      例6 A.人民依照法律規(guī)定,通過各種途徑和形式,管理國家事務(wù),/管理經(jīng)濟和文化事業(yè),/管理社會事務(wù)。

      B.人民依照法律規(guī)定,通過各種途徑和形式,管理國家事務(wù),/管理經(jīng)濟和文化事業(yè),//管理社會事務(wù)。

      The people administer State affairs/and manage economic and cultural undertakings//andso-cial affairs through various channels and in various ways in accordance with the provisions of law.

      例7 A.一九四九年,以毛澤東主席為領(lǐng)袖的中國共產(chǎn)黨領(lǐng)導(dǎo)中國各族人民,在經(jīng)歷了長期的艱難曲折的武裝斗爭和其他形式的斗爭以后,終于推翻了帝國主義、封建主義和官僚資本主義的統(tǒng)治,///取得了新民主主義革命的偉大勝利,//建立了中華人民共和國。/從此,中國人民掌握了國家的權(quán)力,//成為國家的主人。

      B.一九四九年,以毛澤東主席為領(lǐng)袖的中國共產(chǎn)黨領(lǐng)導(dǎo)中國各族人民,在經(jīng)歷了長期的艱難曲折的武裝斗爭和其他形式的斗爭以后,終于推翻了帝國主義、封建主義和官僚資本主義的統(tǒng)治,//取得了新民主主義革命的偉大勝利,//建立了中華人民共和國。/從此,中國人民掌握了國家的權(quán)力,//成為國家的主人。

      After waging protracted and arduous struggles,armed and otherwise,along a zigzag course,the Chinese people of all nationalities led by the Communist Party of China with Chairman Mao Zedong as its leader ultimately,in 1949,overthrew the rule of imperialism,feudalism and bureaucratcapitalism,//won a great victoryin the New-Democratic Revolution//andfounded the People's Republic of China./Since then the Chinese people have taken control of state power and become masters of the country.

      例8 A.中國人民和中國人民解放軍戰(zhàn)勝了帝國主義、霸權(quán)主義的侵略、破壞和武裝挑釁,/維護了國家的獨立和安全,/增強了國防。

      B.中國人民和中國人民解放軍戰(zhàn)勝了帝國主義、霸權(quán)主義的侵略、破壞和武裝挑釁,維護了國家的獨立和安全,增強了國防。

      The Chinese people and the Chinese People’s Liberation Army have defeated imperialist and hegemonist aggression,sabotage and armed provocations/and have thereby safeguarded China’s national independence and security//and strengthened its national defence.

      這種處理在目的語中往往有形式標志。如例6英文謂詞administer和manage所引導(dǎo)的篇章單位首先構(gòu)成第一層并列,而中文原有的后一個并列項為第二層并列,因為英文中后一個并列項與前一并列項共享一個謂詞manage。例7中,邏輯上“終于……統(tǒng)治”“取得……勝利”前二分句的關(guān)系比與后一分句“建立……共和國”的關(guān)系近一點,但對應(yīng)英文采用“,,and”一般并列結(jié)構(gòu)的連接形式,故采用B的結(jié)構(gòu)分析。而例8,直觀上中文的三個分句可構(gòu)成并列,但對應(yīng)英文采用的“and…and”并不是英文連接同層并列的一般方式,分析后可知,第一個and的地位要高于第二個and,故相應(yīng)結(jié)構(gòu)劃分采用B。這種“注重形式,目的語優(yōu)先”的層次結(jié)構(gòu)對齊方式,有利于指導(dǎo)機器翻譯中的結(jié)構(gòu)轉(zhuǎn)換等工作。

      3.4 關(guān)系對齊

      關(guān)系對齊要求雙語對應(yīng)結(jié)構(gòu)的篇章關(guān)系類別判定要一致。篇章關(guān)系本質(zhì)上是邏輯關(guān)系,由于邏輯關(guān)系的客觀性,通常判定一種語言的篇章關(guān)系,同時運用于兩種語言即可。不過,篇章關(guān)系的理解具有主觀性,特別是翻譯文本中會加入翻譯者的主觀理解,從而會影響到目的語。這種情況下按照目的語優(yōu)先原則進行關(guān)系對齊。例9、例10所標記關(guān)系即為目的語優(yōu)先原則下的對齊標注。目的語優(yōu)先通常要求目的語有形式標志,例9的連接詞“and…thereby”,例10的“to”提示了相應(yīng)關(guān)系。目的語優(yōu)先的關(guān)系對齊有利于指導(dǎo)機器翻譯的關(guān)系翻譯等。

      例9 中國人民和中國人民解放軍戰(zhàn)勝了帝國主義、霸權(quán)主義的侵略、破壞和武裝挑釁,/[遞進,因果]維護了國家的獨立和安全,//增強了國防。

      The Chinese people and the Chinese People’s Liberation Army have defeated imperialist and hegemonist aggression,sabotage and armed provocations/[遞進;因果]and have thereby safeguarded China’s national independence and security//and strengthened its national defence.

      例10 各少數(shù)民族聚居的地方實行區(qū)域自治,/設(shè)立自治機關(guān),//行使自治權(quán)。

      Regional autonomy is practised in areas where people of minority nationalities live in concentrated communities;/in these areas organs of self-government are established//[目的]to exercise the power of autonomy.

      3.5 中心對齊

      中心通常是關(guān)系項的主旨或重點,中心對齊要求雙語文本對于關(guān)系項主次地位的判定一致。中心項的確定有客觀性,但也有理解主觀性,翻譯中會加入翻譯者的理解,進而影響目的語的語言結(jié)構(gòu),我們使用目的語優(yōu)先原則進行對齊。這時候目的語一般有形式標志,如例11下劃線所示英文篇章單位的不定式形式提示該項在相應(yīng)關(guān)系中的非中心地位,例12下劃線英文篇章單位的名詞短語限定形式、定語從句形式和主要謂語形式提示相應(yīng)項的主次地位。采用目的語優(yōu)先的中心對齊標注,對于機器翻譯中主從結(jié)構(gòu)轉(zhuǎn)換等會有一定指導(dǎo)意義。

      例11 各少數(shù)民族聚居的地方實行區(qū)域自治,/設(shè)立自治機關(guān),*//行使自治權(quán)。

      Regional autonomy is practised in areas where people of minority nationalities live in concentrated communities;//in these areas organs of self-government are established//to exercise the power of autonomy.(注:這里用*標記相應(yīng)層次結(jié)構(gòu)的中心項,下同)

      例12 中國人民政治協(xié)商會議是有廣泛代表性的統(tǒng)一戰(zhàn)線組織,*//過去發(fā)揮了重要的歷史作用,/*今后在國家政治生活、社會生活和對外友好活動中,在進行社會主義現(xiàn)代化建設(shè)、維護國家的統(tǒng)一和團結(jié)的斗爭中,將進一步發(fā)揮它的重要作用。

      The Chinese People’s Political Consultative Conference,a broadly based representative organization of the united front* //which has played a significant historical role,/* will playa still more important role in the country's political and social life,in promoting friendship with other countries and in the struggle for socialist modernization and for the reunification and unity of the country.

      3.6 角色分布對齊

      角色指篇章關(guān)系中關(guān)系項的角色地位,如因果關(guān)系中,一個關(guān)系項為“原因”項,一個關(guān)系項為“結(jié)果”項。角色分布指關(guān)系項的位置分布或順序,例如,漢語“因果關(guān)系”通?!霸颉痹谇埃敖Y(jié)果”在后。我們以漢語的角色分布常規(guī)作為角色分布的對齊標準。對于一個“原因”在后,“結(jié)果”在前的文本,無論中英文,均認為其“不合常規(guī)”。這種對齊對于機器翻譯中的語序調(diào)整將起一定作用。

      4 對齊標注實現(xiàn)

      4.1 標注平臺

      為了獲得高效、一致的標注,我們開發(fā)了一個漢英篇章結(jié)構(gòu)的輔助對齊標注平臺。實現(xiàn)的功能包括雙語導(dǎo)入、篇章單位切分、層次結(jié)構(gòu)標注、連接詞標注、關(guān)系標注、角色分布標注、中心標注。標注平臺工作界面見圖1。為了便于結(jié)果直觀對比,中英雙語的對齊標注均給出樹圖顯示,見圖2,圖式例子為例3。直觀上雙語篇章結(jié)構(gòu)對齊,樹圖結(jié)構(gòu)完全一致。

      圖1 漢英篇章結(jié)構(gòu)平行語料庫標注平臺界面

      4.2 標注操作

      為了保證對齊標注,我們制定了對齊標注操作流程規(guī)范。主要有:

      第一,從漢到英,從英到漢,形式優(yōu)先。從漢到英,指切分首先從漢語判定,以漢語為標準切分對齊,這主要與本工作是“漢—英”方向的平行語料庫有關(guān)。從英到漢,指層次結(jié)構(gòu)、篇章關(guān)系、中心等由英語而漢語進行判定,這一方面與英語有較多的形式結(jié)構(gòu)可把握有關(guān),另一方面也與這首先是一項服務(wù)于機器翻譯的工作有關(guān)。

      第二,從上到下,從左至右,步步對齊。從上到下,從左至右,指標注中層次結(jié)構(gòu)的劃分遵循從上到下、從左至右的結(jié)構(gòu)切分流程,并且要求漢英篇章結(jié)構(gòu)平行分析,步步對齊。

      4.3 標注結(jié)果

      標注結(jié)果保存為XML格式,雙語標注結(jié)果各自獨立保存,二者的對齊關(guān)系通過段落號(P ID)、關(guān)系號(R ID)等體現(xiàn)。下面給出例3的標注結(jié)果實例。

      中文標注實例:

      <P ID="4">

      <R ID="4"StructureType="逐層切分"ConnectiveType="顯式關(guān)系"Layer="1"RelationNumber="單個關(guān)系"Connective="但是"RelationType="轉(zhuǎn)折關(guān)系"ConnectivePosition="35…36"ConnectiveAttribute="不可刪除"RoleLocation="normal"LanguageSense="true"Sen-tence="一九一一年孫中山先生領(lǐng)導(dǎo)的辛亥革命,廢除了封建帝制,創(chuàng)立了中華民國。|但是,中國人民反對帝國主義和封建主義的歷史任務(wù)還沒有完成。"SentencePosition="1…34|35…63"Center="2"ChildList="5"ParentId="-1"UseTime="20"/>

      <R ID="5"StructureType="逐層切分"ConnectiveType="隱式關(guān)系"Layer="2"RelationNumber="單個關(guān)系"Connective=""RelationType="順承關(guān)系"ConnectivePosition=""ConnectiveAttribute="不可添加"RoleLocation="normal"LanguageSense="true"Sentence="一九一一年孫中山先生領(lǐng)導(dǎo)的辛亥革命,廢除了封建帝制,|創(chuàng)立了中華民國。"SentencePosition="1…26|27…34"Center="3"ChildList=""ParentId="4"UseTime="72"/>

      英文標注實例:

      <P ID="4">

      <R ID="4"StructureType="逐層切分"ConnectiveType="顯式關(guān)系"Layer="1"RelationNumber="單個關(guān)系"Connective="But"RelationType="轉(zhuǎn)折關(guān)系"ConnectivePosition="116…119"ConnectiveAttribute="不可刪除"RoleLocation="normal"LanguageSense="true"Sentence="The Revolution of 1911,led by Dr.Sun Yat-sen,abolished the feudal monarchy and gave birth to the Republic of China.|But the historic mission of the Chinese people to overthrow imperialism and feudalism remained unaccomplished."SentencePosition="1…115|116…225"Center="2"ChildList="5"ParentId="-1"UseTime="25"/>

      <R ID="5"StructureType="逐層切分"ConnectiveType="顯式關(guān)系"Layer="2"RelationNumber="單個關(guān)系"Connective="and"RelationType="順承關(guān)系"ConnectivePosition="76…78"ConnectiveAttribute="不可刪除"RoleLocation="normal"LanguageSense="true"Sentence="The Revolution of 1911,led by Dr.Sun Yat-sen,abolished the feudal monarchy|and gave birth to the Republic of China."SentencePosition="1…74|76…115"Center="3"ChildList=""ParentId="4"UseTime="14"/>

      5 難點問題及其解決

      5.1 基本篇章單位問題

      對齊切分以漢語標準為優(yōu)先原則,漢語切分中篇章結(jié)構(gòu)和復(fù)雜句結(jié)構(gòu)的區(qū)分是個難點。如例13,如果認為“在…以后,終于”是表順承關(guān)系的連接詞,可以認為劃線部分就是一個基本篇章單位。不過,傳統(tǒng)語法一般把其分析為狀語,作為句法結(jié)構(gòu)的一部分。這是篇章結(jié)構(gòu)和句法結(jié)構(gòu)有過渡地帶的反映。我們暫按傳統(tǒng)語法,把劃線部分的分析留給句法結(jié)構(gòu)。

      例13 一九四九年,以毛澤東主席為領(lǐng)袖的中國共產(chǎn)黨領(lǐng)導(dǎo)中國各族人民,在經(jīng)歷了長期的艱難曲折的武裝斗爭和其他形式的斗爭以后,終于推翻了帝國主義、封建主義和官僚資本主義的統(tǒng)治,取得了新民主主義革命的偉大勝利,建立了中華人民共和國。

      5.2 篇章關(guān)系問題

      由于目前的篇章關(guān)系體系還不是一個嚴格邏輯體系,以及篇章關(guān)系理解的主觀性,當(dāng)缺少明顯關(guān)系標記的時候,關(guān)系對齊標注就比較困難。我們采取兩種策略解決這個問題。

      第一,制定形式策略,保證篇章關(guān)系判定的客觀性。常用方法如下。

      添加連接詞法:為當(dāng)前關(guān)系添加某類關(guān)系的典型連接詞,如果連貫順暢,該關(guān)系可能即為當(dāng)前關(guān)系的所屬類別。如例14通過添加“但是”測試,可以判定相應(yīng)關(guān)系為轉(zhuǎn)折關(guān)系。

      提問回答法:用適合于某類關(guān)系的提問方式測定當(dāng)前關(guān)系,如果當(dāng)前關(guān)系的前后項比較適合該提問方式則認定當(dāng)前關(guān)系即為該類關(guān)系。如例14對前項提問“怎樣區(qū)域自治”,而后項適合作為該項回答,可以認定當(dāng)前關(guān)系為解釋關(guān)系。

      例14 各少數(shù)民族聚居的地方實行區(qū)域自治,//[解釋](提問:“怎樣區(qū)域自治?”)設(shè)立自治機關(guān),///[目的](添加連接詞:“以”)行使自治權(quán)。/[轉(zhuǎn)折](添加連接詞:“但是”)各民族自治地方都是中華人民共和國不可分離的部分。

      第二,允許多種篇章關(guān)系存在,但一般不超過三種。從不同角度看,可能同時存在多種關(guān)系。見例15。這既可減少關(guān)系判斷的困難與分歧,也較真實的反映了篇章關(guān)系事實。

      例15 平等、團結(jié)、互助的社會主義民族關(guān)系已經(jīng)確立,/[順承;并列;遞進]并將繼續(xù)加強。

      5.3 中心問題

      由于中心的理解主觀性,在缺少一定形式標志的時候,中心對齊就成為困難問題,通過兩種策略解決。

      第一,制定形式策略,保證中心判定的客觀性。通??捎脛h除法測試。見例16。

      刪除法:關(guān)系中的中心項不可刪除,非中心項可以刪除。二者的區(qū)別在于非中心項刪除后句子仍然保持原有連貫關(guān)系,而中心項對外具有代表性,刪除后不能保持原有連貫關(guān)系。

      例16 各少數(shù)民族聚居的地方實行區(qū)域自治,*//設(shè)立自治機關(guān),*///行使自治權(quán)。*/*各民族自治地方都是中華人民共和國不可分離的部分。

      第二,允許多個中心存在。當(dāng)無法利用形式標志和既定策略判定中心項的時候允許多個中心存在。如例16第一層前后項均為中心。另外,并列結(jié)構(gòu)一般是多中心結(jié)構(gòu)。

      值得指出,以上的一些難點問題,大多是單語篇章結(jié)構(gòu)標注中就存在的問題。

      6 結(jié)語

      對齊標注是漢英篇章結(jié)構(gòu)平行語料庫的核心理論基礎(chǔ),本文提出“結(jié)構(gòu)對齊,關(guān)系對齊”的對齊標注策略,應(yīng)用于切分對齊、層次結(jié)構(gòu)對齊、關(guān)系標注對齊、中心對齊等環(huán)節(jié),實現(xiàn)了“對齊和標注并行,單位對齊和結(jié)構(gòu)對齊共進”的平行語料庫構(gòu)建模式。本策略輔之以相應(yīng)工作平臺和工作程序,和相應(yīng)難點解決方案,被證明是一種高效的篇章結(jié)構(gòu)平行語料庫工作方式。下一步工作中,我們將不斷完善本標注策略,進一步擴大標注實驗,形成完整的對齊標注規(guī)范和其他相關(guān)篇章結(jié)構(gòu)標注規(guī)范,最終研制一個大規(guī)模的漢英篇章結(jié)構(gòu)平行語料庫供學(xué)界和工業(yè)界使用。

      致謝:匿名評審專家和李艷翠為本文提出了寶貴意見,苗圖文、常偉開發(fā)了輔助標注平臺,郭海芳、王筱錚、王玉夢、胡炎磊參與了項目標注工作。

      [1]柏曉靜,常寶寶,詹衛(wèi)東,等.構(gòu)建大規(guī)模的漢英雙語平行語料庫[C]//機器翻譯研究進展—2002年全國機器翻譯研討會論文集.2002.

      [2]王克非.雙語對應(yīng)語料庫:研制與應(yīng)用[M].北京:外語教學(xué)與研究出版社.2004.

      [3]劉澤權(quán),田璐,劉超朋.《紅樓夢》中英文平行語料庫的創(chuàng)建[J].當(dāng)代語言學(xué),2008,10(4):329-339.

      [4]Carlson L,Marcu D,Okurowski M E.Building a discourse-tagged corpus in the framework of rhetorical structure theory[C]//Proceedings of Jan van Kuppev-elt and Ronnie W.Smith(eds.),Current and New Directions in Discourse and Dialogue,Kluwer Academic Publishers,2003:85-112.

      [5]Wolf F,Gibson E.Representing discourse coherence:A corpus-based study[J].Computational Linguistics,2005,31(2):249-287.

      [6]Prasad R,Dinesh N,Lee A,et al.The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and E-valuation.2008.

      [7]Xue N.Annotating discourse connectives in the Chinese Treebank[C]//Proceedings of the Workshop on Frontiers in Corpus Annotations II:Pie in the Sky.Association for Computational Linguistics,2005:84-91.

      [8]樂明.漢語篇章修辭結(jié)構(gòu)的標注研究[J].中文信息學(xué)報,2008,22(4):19-23.

      [9]Zhou Y,Xue N.PDTB-style Discourse Annotation of Chinese Text[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics.2012:69-77.

      [10]劉群.漢英機器翻譯若干關(guān)鍵技術(shù)研究[M].北京:清華大學(xué)出版社.2008.

      [11]李艷翠,馮文賀,周固棟,等.基于逗號的漢語子句識別研究[J].北京大學(xué)學(xué)報:自然科學(xué)版,2013(1):7-14.

      猜你喜歡
      層次結(jié)構(gòu)漢英平行
      向量的平行與垂直
      平行
      逃離平行世界
      基于級聯(lián)網(wǎng)絡(luò)和語義層次結(jié)構(gòu)的圖像自動標注方法
      論立法修辭功能的層次結(jié)構(gòu)
      法律方法(2017年2期)2017-04-18 09:00:37
      話題鏈在漢英篇章翻譯中的統(tǒng)攝作用
      從目的論看環(huán)保公示語的漢英翻譯
      建構(gòu)利益相關(guān)者管理的三層次結(jié)構(gòu)分析
      再頂平行進口
      汽車觀察(2016年3期)2016-02-28 13:16:36
      漢英文字的幽默修辭功能淺探
      語言與翻譯(2014年1期)2014-07-10 13:06:14
      富蕴县| 昌吉市| 绥化市| 平昌县| 通山县| 滨海县| 娄烦县| 福清市| 哈巴河县| 墨竹工卡县| 扬中市| 龙陵县| 桐柏县| 黔东| 西峡县| 清新县| 乌拉特后旗| 都兰县| 武平县| 屏南县| 武定县| 安陆市| 嘉善县| 五原县| 洛扎县| 黄冈市| 黔江区| 白朗县| 深州市| 丹阳市| 铜川市| 高雄市| 新源县| 区。| 昂仁县| 云南省| 中方县| 怀远县| 乌兰察布市| 二手房| 新营市|