鄒兵,王斌華
(1.廣東外語外貿(mào)大學(xué)高級(jí)翻譯學(xué)院,廣東廣州 510420; 2.香港理工大學(xué)中文及雙語學(xué)系,香港九龍)
口譯語料庫中副語言信息的轉(zhuǎn)寫及標(biāo)注:現(xiàn)狀、問題與方法
鄒兵1,王斌華2
(1.廣東外語外貿(mào)大學(xué)高級(jí)翻譯學(xué)院,廣東廣州 510420; 2.香港理工大學(xué)中文及雙語學(xué)系,香港九龍)
本文對(duì)口譯副語言信息的相關(guān)概念進(jìn)行了界定,并檢視了國際范圍內(nèi)口譯語料庫中副語言信息的轉(zhuǎn)寫標(biāo)注情況,發(fā)現(xiàn)現(xiàn)有研究對(duì)副語言信息的轉(zhuǎn)寫標(biāo)注等口譯語料庫基礎(chǔ)建設(shè)問題缺乏關(guān)注。本文基于筆者設(shè)計(jì)和建設(shè)口譯語料庫的經(jīng)驗(yàn),歸納了口譯副語言信息轉(zhuǎn)寫及標(biāo)注應(yīng)注意的問題,并從標(biāo)注工具、標(biāo)注步驟和后期建設(shè)幾個(gè)方面探討了口譯副語言信息的轉(zhuǎn)寫及標(biāo)注方法。
口譯語料庫;研究現(xiàn)狀及問題;副語言信息;轉(zhuǎn)寫及標(biāo)注
語料庫應(yīng)用于翻譯研究已逾20個(gè)年頭。當(dāng)前基于語料庫的筆譯研究多關(guān)注語言層面,即集中于譯文語言特征研究和譯者語體/文體風(fēng)格研究。對(duì)基于語料庫的口譯研究而言,語言層面之外的副語言和超語言信息也值得關(guān)注,因?yàn)檫@些信息對(duì)于研究者分析口譯產(chǎn)品的特點(diǎn)以及考察口譯過程起著關(guān)鍵作用。而在口譯語料庫建設(shè)中,語言層面之外的信息轉(zhuǎn)寫和標(biāo)注是一個(gè)難題,當(dāng)前關(guān)于這一難題的討論(包括轉(zhuǎn)寫內(nèi)容、方法、工具、原則與標(biāo)準(zhǔn)等)卻不多見,這一定程度上制約了語料庫口譯研究的發(fā)展。在本文中,筆者在檢視世界范圍內(nèi)主要口譯語料庫的基礎(chǔ)上,結(jié)合自身設(shè)計(jì)與建設(shè)口譯語料庫的經(jīng)驗(yàn),探討口譯語料區(qū)別于筆譯語料的特有信息——副語言信息的轉(zhuǎn)寫和標(biāo)注問題,希望能對(duì)口譯語料庫建設(shè)的標(biāo)準(zhǔn)化有所貢獻(xiàn)。
語言學(xué)中的副語言信息概念最初由 Trager (1958)在“Paralanguage:A First Approximation”一文中首次使用(梁茂成,1994:128),指在與詞匯和語法層面平行的信號(hào)層面上的非語言話語信息(陳瑞青、王巍巍,2011:5)。
口譯語料涉及的信息大致可分為三類,即語言信息(linguistic information)、副語言信息(paralinguistic information)和超語言信息(extra-linguistic information)?;赗oach,et al.(1998)、Monti,et al.(2005)、張威(2009)等的觀點(diǎn),結(jié)合口譯語料庫的特點(diǎn)和設(shè)計(jì)需要,筆者對(duì)這三類信息界定如下:
1)語言信息,即口譯源語與譯語中詞句篇章各個(gè)層面的信息,包括:詞性標(biāo)注、句法標(biāo)注、時(shí)間標(biāo)記、句子段落標(biāo)記、詞句段對(duì)齊,等等。
2)副語言信息,即源語和譯語產(chǎn)出的同時(shí)所伴隨產(chǎn)生的相關(guān)信息,包括:停頓、支吾語(猶豫)、填充語、重音、語音拖長(zhǎng)、自我修正、打斷、話語重疊、不完整句、幽默、肢體語言,等等。
3)超語言信息,即與口譯活動(dòng)相關(guān)的環(huán)境信息,包括:①口譯背景信息,如口譯主題、口譯場(chǎng)合、時(shí)間地點(diǎn)、源語語體、專業(yè)難度、技術(shù)設(shè)備等;②講話人信息,如口音、語速、時(shí)長(zhǎng)及字?jǐn)?shù)、信息密度、國籍、性別、政治身份等;③口譯員信息,如口譯經(jīng)歷、專業(yè)級(jí)別、口譯形式、準(zhǔn)備時(shí)間、國籍、性別、母語等;④口譯聽眾信息,如知識(shí)背景、與會(huì)目的、雙語水平等;⑤口譯活動(dòng)贊助人、組織者信息,等等。
這些信息是口譯語料庫建設(shè)時(shí)所應(yīng)轉(zhuǎn)寫和標(biāo)注的基本信息。關(guān)于語言信息和超語言信息的轉(zhuǎn)寫和標(biāo)注,當(dāng)前筆譯語料庫建設(shè)已經(jīng)積累了較為標(biāo)準(zhǔn)化和可操作化的方法、工具和體系??谧g語言信息的標(biāo)注基本可以參照筆譯或筆語語料庫的標(biāo)注體系(如詞性標(biāo)注集、句法標(biāo)注集等),超語言信息的標(biāo)注也基本可以在頭文件(text header)中統(tǒng)一處理即可。(梁茂成、許家金,2012)
但是,口譯副語言信息的轉(zhuǎn)寫和標(biāo)注問題,目前尚未引起足夠的重視,這從相關(guān)研究的缺失即可看出。有必要指出的是,副語言信息的標(biāo)注對(duì)于口譯語料而言有著特殊的意義,因?yàn)楦闭Z言信息“有利于判定具體口譯策略的影響因素以及這些策略的應(yīng)用效果”(張威,2009:56),“有助于揭示口譯語體特征和譯員風(fēng)格的差異”(胡開寶、陶慶,2010:52),有助于“研究非言語因素對(duì)口譯的方向性和語言特征的影響”(李婧、李德超,2010:101)。
從筆者設(shè)計(jì)和建設(shè)口譯語料庫的經(jīng)驗(yàn)以及作為口譯研究者和口譯教師對(duì)口譯語料庫功能的期待來看,口譯語料庫建設(shè)之初的設(shè)計(jì)工作應(yīng)引起極大的重視。因?yàn)榭谧g語料庫建設(shè)是一項(xiàng)耗時(shí)耗力的龐大工程,哪怕只是一個(gè)磁帶小時(shí)的口譯語料,往往需要花費(fèi)數(shù)倍的時(shí)間來轉(zhuǎn)寫和標(biāo)注,所以在口譯語料轉(zhuǎn)寫之前就應(yīng)當(dāng)根據(jù)研制語料庫的目的確定要關(guān)注的信息類別,在轉(zhuǎn)寫的同時(shí)標(biāo)注這些信息。
根據(jù)筆者掌握的資料,目前世界范圍內(nèi)已建和在建的口譯語料庫僅有十多個(gè)。此處對(duì)現(xiàn)有口譯語料庫的建設(shè)情況作一檢視,重點(diǎn)關(guān)注其對(duì)口譯副語言信息的轉(zhuǎn)寫及標(biāo)注,詳見表1的描述。
表1 現(xiàn)有口譯語料庫建設(shè)及其副語言轉(zhuǎn)寫標(biāo)注情況①
通過考察這些口譯語料庫的建設(shè)情況,筆者發(fā)現(xiàn),其副語言信息轉(zhuǎn)寫及標(biāo)注存在以下幾方面問題:
1)轉(zhuǎn)寫及標(biāo)注內(nèi)容選擇不一。表1中較大型的口譯語料庫(如 EPIC、CIAIR、CECIC、CoSi、CorIT),對(duì)副語言信息轉(zhuǎn)寫和標(biāo)注較為全面,其它口譯語料庫則選擇性地轉(zhuǎn)寫和標(biāo)注了停頓等部分副語言信息。各個(gè)語料庫選擇轉(zhuǎn)寫和標(biāo)注的內(nèi)容重合度較低,沒有體現(xiàn)對(duì)口譯語料最基本的一些副語言特征的關(guān)注。
2)轉(zhuǎn)寫及標(biāo)注規(guī)范不統(tǒng)一。如EPIC、CECIC、 TIC按照TEI文本編碼規(guī)范(見4.1.2),ComInDat及其子庫(DiK,IiSCC,SimDik)、CoSi遵循HIAT口語文本轉(zhuǎn)寫標(biāo)注規(guī)范(見4.1.2),CorIT則依據(jù)會(huì)話分析領(lǐng)域的轉(zhuǎn)寫規(guī)范,其它語料庫則根據(jù)需要自行設(shè)定了轉(zhuǎn)寫和標(biāo)注符號(hào)。
3)較少考慮語料庫兼容問題。語料庫之間的兼容體現(xiàn)在若干方面,除了要轉(zhuǎn)寫標(biāo)注一些基本特征以及要遵循統(tǒng)一的轉(zhuǎn)寫標(biāo)注規(guī)范之外,語料庫文件格式還要能方便地轉(zhuǎn)換為現(xiàn)在所普遍提倡的XML格式,從而方便未來的跨庫研究。而表1中只有較少語料庫(如EPIC、CECIC)考慮到了與其它語料庫的兼容問題。
總體而言,當(dāng)前多數(shù)口譯語料庫的開發(fā)者并沒有很詳細(xì)地描述其副語言信息的轉(zhuǎn)寫標(biāo)注過程,再加上很多語料庫本身并不公開,因此對(duì)于其它口譯語料庫的副語言信息轉(zhuǎn)寫標(biāo)注無法提供很好的指導(dǎo)和借鑒。
上文的考察反映出,國內(nèi)外學(xué)者在探討口譯語料庫開發(fā)及建設(shè)時(shí),都認(rèn)為口譯語料深加工是需要重點(diǎn)關(guān)注和解決的問題,但是少有學(xué)者論及口譯副語言信息轉(zhuǎn)寫和標(biāo)注的具體操作問題。下面筆者將結(jié)合自己設(shè)計(jì)和開發(fā)口譯語料庫的經(jīng)驗(yàn),探討副語言信息轉(zhuǎn)寫標(biāo)注應(yīng)注意的問題和轉(zhuǎn)寫標(biāo)注的方法。
4.1 口譯副語言信息轉(zhuǎn)寫標(biāo)注應(yīng)注意的問題
4.1.1 轉(zhuǎn)寫及標(biāo)注內(nèi)容的選擇
口譯副語言信息層面可以轉(zhuǎn)寫標(biāo)注的內(nèi)容,除了上文(見2.0)提及的類別之外,還可以包括口譯學(xué)習(xí)者的口譯錯(cuò)誤和職業(yè)譯員的口譯策略。至于這些內(nèi)容如何選擇,則須遵循兩點(diǎn)原則:
1)明確建設(shè)語料庫的最終目的。即在建庫之初,要明確口譯語料庫使用方(包括口譯研究者、口譯學(xué)習(xí)者、口譯教育者、口譯實(shí)踐者、機(jī)器口譯研發(fā)者等)的需求。面向的服務(wù)對(duì)象不同,對(duì)口譯副語言信息轉(zhuǎn)寫和標(biāo)注程度的要求也有所不同。同時(shí),轉(zhuǎn)寫和標(biāo)注內(nèi)容的選擇也要考慮現(xiàn)有資源(包括語料規(guī)模、資金、人員等)以及所掌握技術(shù)的情況。
2)體現(xiàn)對(duì)口譯基本/共性特征的關(guān)注。即對(duì)口譯活動(dòng)表現(xiàn)的一些基本和共性的副語言特征表示關(guān)注。這樣做的目的是增強(qiáng)各個(gè)領(lǐng)域、各種形式、各個(gè)語種的口譯語料庫的可比性和兼容性,有利于未來進(jìn)行跨語料庫的多語類多語種口譯比較研究。筆者認(rèn)為口譯語料庫應(yīng)當(dāng)轉(zhuǎn)寫和標(biāo)注以下幾類基本的副語言信息:①言語行為特征,包括停頓(又可分為無聲停頓和有聲停頓)、猶豫、填充語、不完整句、自我修正、打斷、話語重疊、重復(fù)、口誤、不規(guī)范用語;②明顯的發(fā)聲特征,如拼讀錯(cuò)誤、語音拖長(zhǎng)、語音變異(口音)、語速、音量/調(diào)變化、笑聲、咳嗽等;③明顯的體態(tài)語特征,如眼神、手勢(shì)等面部表情和肢體動(dòng)作;④無法辨識(shí)的現(xiàn)象,如因設(shè)備影響而聽不清、故意含混不清等現(xiàn)象;⑤突發(fā)事件;⑥轉(zhuǎn)寫者評(píng)論,如幽默、錯(cuò)誤、策略等。
4.1.2 轉(zhuǎn)寫及標(biāo)注體系與規(guī)范
當(dāng)前各口譯語料庫遵循的規(guī)范大致有三類,即TEI文本編碼規(guī)范、HIAT口語文本轉(zhuǎn)寫標(biāo)注規(guī)范和會(huì)話分析轉(zhuǎn)寫規(guī)范。
TEI全稱為Text Encoding Initiative,是一個(gè)國際性的跨學(xué)科的編碼標(biāo)準(zhǔn),提倡使用可擴(kuò)充置標(biāo)語言XML對(duì)數(shù)據(jù)和語料語言及結(jié)構(gòu)信息進(jìn)行編碼,現(xiàn)行版本TEI P5專辟一章說明如何轉(zhuǎn)寫語音語料②。HIAT全稱為Halbinterpretative Arbeitstranskriptionen (Semi-Interpretaive Working Transcriptions),現(xiàn)已發(fā)展成為集轉(zhuǎn)寫標(biāo)注格式規(guī)范和轉(zhuǎn)寫標(biāo)注工具為一身的EXMARaLDA系統(tǒng),主要致力于解決口語文本的轉(zhuǎn)寫和標(biāo)注問題③。語言學(xué)中的會(huì)話分析(Conversation Analysis,CA)領(lǐng)域長(zhǎng)期關(guān)注機(jī)構(gòu)話語和日常會(huì)話的結(jié)構(gòu)、策略和風(fēng)格特點(diǎn),并形成了一套比較系統(tǒng)和完整的會(huì)話轉(zhuǎn)寫規(guī)范。(Schiffrin,1994)
對(duì)口譯副語言信息而言,這三類規(guī)范各有優(yōu)勢(shì),各大口譯語料庫對(duì)這三類規(guī)范也是各有青睞,但其彼此之間既有交叉也存在一定差異。隨著未來口譯語料庫建設(shè)日益走向標(biāo)準(zhǔn)化,還是有必要根據(jù)口譯活動(dòng)自身的特點(diǎn)以及口譯語料庫“目標(biāo)用戶”的需要,研制出一套普遍適用且能被廣泛采用的口譯語料庫副語言信息轉(zhuǎn)寫及標(biāo)注體系或規(guī)范。(Cencini&Aston,2002)可以說,“語料轉(zhuǎn)寫是決定口譯語料庫代表性的一項(xiàng)關(guān)鍵工作,轉(zhuǎn)寫的程序與操作規(guī)范都可以成為研究課題”。(張威,2013:83)
4.1.3 其它相關(guān)問題
1)轉(zhuǎn)寫標(biāo)注者主觀因素
在副語言信息轉(zhuǎn)寫和標(biāo)注過程中,需要注意的一個(gè)重要問題是如何避免或盡量減少轉(zhuǎn)寫標(biāo)注者的主觀因素,因?yàn)檫@些主觀因素往往容易導(dǎo)致語料標(biāo)注前后不一致甚至相互沖突。為此,可以采取的措施有:①在轉(zhuǎn)寫標(biāo)注之前專門進(jìn)行集體培訓(xùn),并進(jìn)行試驗(yàn)性轉(zhuǎn)寫標(biāo)注,在試驗(yàn)期間進(jìn)行反復(fù)調(diào)試,直至完全符合要求后再正式參與轉(zhuǎn)寫標(biāo)注工作;②專設(shè)核對(duì)和“質(zhì)檢”的角色,即時(shí)監(jiān)控轉(zhuǎn)寫標(biāo)注過程,隨時(shí)發(fā)現(xiàn)問題隨時(shí)更正;③在工具開發(fā)上嘗試設(shè)計(jì)標(biāo)準(zhǔn)化的轉(zhuǎn)寫標(biāo)注功能,對(duì)每一類副語言信息設(shè)置單獨(dú)的轉(zhuǎn)寫標(biāo)注模塊,出現(xiàn)此類信息時(shí)直接點(diǎn)擊選擇,自動(dòng)生成相應(yīng)的轉(zhuǎn)寫標(biāo)注符號(hào),從而減少插入符號(hào)時(shí)出現(xiàn)的失誤;④有些涉及口譯錯(cuò)誤和口譯策略的副語言特征,本身便存在主觀判別的風(fēng)險(xiǎn),這便需要事先進(jìn)行明確定義,在操作過程中一以貫之地執(zhí)行。
2)語料庫的兼容問題
現(xiàn)有語料庫大多存在重復(fù)建設(shè)、轉(zhuǎn)寫標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一以及經(jīng)過調(diào)整也很難融合的問題,即語料庫之間的兼容性太差。當(dāng)前語料庫建設(shè)普遍提倡在建庫時(shí)即采用XML置標(biāo)語言,或者所建語料庫能夠方便地轉(zhuǎn)換為XML文件格式,這對(duì)于語料庫的標(biāo)準(zhǔn)化、網(wǎng)絡(luò)化十分關(guān)鍵。對(duì)于口譯副語言信息而言,具體的轉(zhuǎn)寫標(biāo)注內(nèi)容和符號(hào)需要研究者結(jié)合口譯活動(dòng)特點(diǎn)和口譯研究需要,制定一個(gè)通行的可操作性強(qiáng)的操作準(zhǔn)則和細(xì)則??谧g語料庫建設(shè)尚剛剛起步,在起步之初,如果各口譯語料庫的設(shè)計(jì)者在語料選取上能夠盡量避免同質(zhì)和重復(fù),并且能很好地遵循通行的轉(zhuǎn)寫標(biāo)注規(guī)范和體系,那么隨著越來越多的語料庫形成一個(gè)大的集合,未來的口譯語料庫研究一定會(huì)發(fā)揮越來越大的作用,遠(yuǎn)非現(xiàn)在的各自為戰(zhàn)所能比擬。
3)語料庫的應(yīng)用問題
語料庫建好之后如何應(yīng)用,這是在建庫之初就應(yīng)思考的問題??谧g語料庫中所轉(zhuǎn)寫標(biāo)注的副語言信息如何應(yīng)用,筆者認(rèn)為可以從其最終目的出發(fā)進(jìn)行考慮:①若為口譯研究者服務(wù),便要清楚認(rèn)識(shí)到副語言特征可以說明什么問題,如停頓、支吾語、填充語等可能與譯員當(dāng)時(shí)當(dāng)?shù)氐男睦砘顒?dòng)有關(guān),若再針對(duì)這些副語言現(xiàn)象出現(xiàn)的規(guī)律提出一定的研究假說,與其它的實(shí)證研究手段(如TAPs、ERPs、fMRI等)結(jié)合進(jìn)行三方驗(yàn)證,便能很好地解釋和預(yù)測(cè)復(fù)雜口譯過程中的一些現(xiàn)象,但需要注意的是進(jìn)行語料庫口譯研究時(shí),應(yīng)特別重視方法論設(shè)計(jì)(Setton,2002);②若為口譯教育者和口譯學(xué)習(xí)者服務(wù),則需要注重語料庫調(diào)用的功能模塊設(shè)計(jì),如在課堂上同時(shí)檢索呈現(xiàn)不同譯員停頓的位置、時(shí)長(zhǎng)、前后語境等信息,同時(shí)還要注意與口譯多媒體教學(xué)平臺(tái)的兼容問題。
4.2 口譯副語言信息的轉(zhuǎn)寫及標(biāo)注方法
4.2.1 轉(zhuǎn)寫及標(biāo)注工具
口譯副語言信息的轉(zhuǎn)寫和標(biāo)注與語言信息和超語言信息不同,需要使用專門的工具和軟件。副語言信息通常的轉(zhuǎn)寫方法是用“…”、“-”、“*”、“p”等符號(hào)指代某類副語言特征,各類副語言信息夾雜于口譯輸出文本之中,語言信息與副語言信息相互交織。這種做法的優(yōu)點(diǎn)是便于線性轉(zhuǎn)寫操作,缺點(diǎn)在于:1)文內(nèi)的標(biāo)點(diǎn)需要去掉或作特別處理(以免與標(biāo)注符號(hào)弄混),為此不得不使用額外的符號(hào)區(qū)分語段間隔;2)較難處理多種副語言信息出現(xiàn)在同一時(shí)間節(jié)點(diǎn)的情況,也較難處理話語重疊等副語言現(xiàn)象;3)不便于實(shí)現(xiàn)轉(zhuǎn)寫和標(biāo)注的可視化操作。
關(guān)于副語言信息的轉(zhuǎn)寫及標(biāo)注,目前已經(jīng)有一些較為成熟的工具和軟件可供利用,如Anvil、EXMARaLDA Partitur Editor、Praat等,這些軟件各有優(yōu)勢(shì)。以Anvil為例,該軟件開發(fā)的初衷是為肢體語言研究服務(wù),其操作界面如圖1所示。
圖1 Anvil軟件轉(zhuǎn)寫及標(biāo)注界面
值得關(guān)注的是,Anvil軟件成功實(shí)現(xiàn)了副語言信息轉(zhuǎn)寫和標(biāo)注的可視化操作。它允許對(duì)語言信息與副語言信息進(jìn)行分層標(biāo)注,不同類別的信息在不同的軌道(track)上進(jìn)行標(biāo)注,彼此之間互不干擾,而又通過線性時(shí)間軸相互聯(lián)系。甚至不同類別的副語言信息(如肢體動(dòng)作、語音高低長(zhǎng)短、停頓等)還可進(jìn)一步細(xì)分,在不同的軌道進(jìn)行單獨(dú)標(biāo)注,這也避免了不同類別副語言信息在同一時(shí)間節(jié)點(diǎn)出現(xiàn)時(shí)不便標(biāo)注的問題。講話人的輸出與口譯員的輸出也可各自占據(jù)一條軌道,因此講話人與口譯員話語重疊的問題也得到了解決。新軌道可以由轉(zhuǎn)寫標(biāo)注者自行開辟,標(biāo)注符號(hào)體系可以由轉(zhuǎn)寫標(biāo)注者自行制定和導(dǎo)入,同時(shí)該軟件還提供簡(jiǎn)單的數(shù)據(jù)統(tǒng)計(jì)分析功能,并且可以很方便地將轉(zhuǎn)寫標(biāo)注好的語料導(dǎo)出成XML格式文件,因此也較好解決了與其它語料庫的兼容性問題。
可惜的是該軟件使用舒適度較低(Garg et al.,2004),而且支持的影音格式和輸入語言有限。但這些都可以在未來通過對(duì)軟件的不斷更新進(jìn)行完善,或者至少為口譯副語言信息轉(zhuǎn)寫標(biāo)注工具的研制提供了很好的思路和方向?,F(xiàn)階段口譯副語言信息轉(zhuǎn)寫和標(biāo)注可以依托現(xiàn)有工具可利用的功能,綜合利用各個(gè)工具的長(zhǎng)處。但未來大規(guī)模口譯語料庫的建設(shè),還是有待于性能更加優(yōu)良、更符合口譯研究需要的副語言信息轉(zhuǎn)寫標(biāo)注軟件的研發(fā)。
4.2.2 轉(zhuǎn)寫及標(biāo)注步驟
基于對(duì)上述問題的探討,并根據(jù)自身建設(shè)口譯語料庫的經(jīng)驗(yàn),筆者總結(jié)了口譯語料庫副語言信息轉(zhuǎn)寫標(biāo)注的步驟:
1)明確建庫目的,初步確定其未來應(yīng)用領(lǐng)域,據(jù)此選定需要進(jìn)行轉(zhuǎn)寫及標(biāo)注的副語言信息類別(本文4.1.1建議的基本副語言特征應(yīng)予標(biāo)注);
2)基于文本編碼規(guī)范(TEI)、口語文本轉(zhuǎn)寫標(biāo)注規(guī)范(HIAT)和會(huì)話分析(CA)領(lǐng)域的會(huì)話特征轉(zhuǎn)寫規(guī)范,編制符合當(dāng)前口譯語料庫建設(shè)需要的副語言信息轉(zhuǎn)寫及標(biāo)注符號(hào)體系(應(yīng)盡可能使用現(xiàn)存規(guī)范已有的標(biāo)注符號(hào));
3)對(duì)口譯影音語料進(jìn)行頭文件信息轉(zhuǎn)寫,要求盡可能多地涵蓋該口譯活動(dòng)所涉及的超語言信息;
4)根據(jù)第1)步所選取的副語言信息類別,設(shè)定轉(zhuǎn)寫標(biāo)注軟件(如 Anvil)中的轉(zhuǎn)寫標(biāo)注軌道(track),有幾類副語言信息就通過編寫程序設(shè)定幾個(gè)軌道;
5)運(yùn)用轉(zhuǎn)寫標(biāo)注軟件(如Anvil),按照第2)步中所確定的副語言信息轉(zhuǎn)寫標(biāo)注符號(hào),對(duì)口譯影音語料同時(shí)進(jìn)行語言信息和副語言信息轉(zhuǎn)寫及標(biāo)注,每個(gè)轉(zhuǎn)寫標(biāo)注軌道對(duì)應(yīng)一個(gè)類別的語言信息或副語言信息;
6)從轉(zhuǎn)寫標(biāo)注軟件(如Anvil)中導(dǎo)出已經(jīng)轉(zhuǎn)寫標(biāo)注好的語料的XML格式文件,并運(yùn)用語料庫建庫工具(如TEC Tools)建立口譯語料庫;
7)運(yùn)用語料庫檢索軟件(如BFSU ParaConc)以及相關(guān)統(tǒng)計(jì)分析軟件(如SPSS),基于所建立的口譯語料庫,開展相應(yīng)的研究與教學(xué)工作。
4.2.3 后期建設(shè)
口譯語料庫的建設(shè)往往要在前期投入大量的時(shí)間和精力,但建庫完成并不意味著建設(shè)工作的結(jié)束,后期建設(shè)同樣要引起足夠的重視。據(jù)筆者的經(jīng)驗(yàn),需要注意以下兩方面的問題。首先,口譯語料庫的維護(hù)問題。前期建設(shè)過程中難免會(huì)出現(xiàn)紕漏,比如副語言信息標(biāo)注位置錯(cuò)誤、標(biāo)注類別錯(cuò)誤等,這就需要在語料庫實(shí)際使用過程中不斷發(fā)現(xiàn)問題,不斷進(jìn)行更正。有時(shí)建庫者可能還要根據(jù)教學(xué)與研究需要,追加標(biāo)注更多更為細(xì)化的副語言信息,這也是后期建設(shè)的重要工作。第二,口譯語料庫的擴(kuò)充問題。口譯語料庫的建設(shè)是一個(gè)長(zhǎng)期的過程,也是一個(gè)語料從少到多不斷壯大的過程,因此后期語料規(guī)模擴(kuò)大也是在建庫之初就要考慮到的問題。有些建庫者是長(zhǎng)期依托團(tuán)隊(duì)力量,讓每一屆學(xué)生參與轉(zhuǎn)寫、標(biāo)注等建庫工作,這種情況下一定要注意副語言信息轉(zhuǎn)寫標(biāo)注體系和方法的傳承性。
本文只是針對(duì)口譯語料庫副語言信息轉(zhuǎn)寫及標(biāo)注問題的一項(xiàng)探索性研究?;诳谧g語料庫開展口譯研究的意義已經(jīng)得到口譯學(xué)界的廣泛認(rèn)同,但其應(yīng)用前景尚待進(jìn)一步拓展?,F(xiàn)有研究多停留在使用詞匯密度、詞長(zhǎng)、句長(zhǎng)等書面語的參數(shù)研究口譯語言特征等問題,對(duì)口譯產(chǎn)品的口語體典型特征關(guān)注不夠(王斌華,2012),對(duì)于口譯特有的認(rèn)知處理過程緊密相關(guān)的副語言信息關(guān)注不夠。另外,開展語料庫口譯研究的前提是已經(jīng)建設(shè)好經(jīng)過一定程度加工的較高質(zhì)量的口譯語料庫,而關(guān)于口譯語料庫建設(shè)的基礎(chǔ)研究目前還相當(dāng)欠缺。近年來,一些學(xué)者已經(jīng)開始關(guān)注口譯語料庫建設(shè)中的轉(zhuǎn)寫和標(biāo)注問題,分享了各自建庫方法和技術(shù)方面的經(jīng)驗(yàn),這對(duì)于后來者有著相當(dāng)程度的參考和借鑒價(jià)值。誠如張威(2011:46)所言,“口譯語料庫的建設(shè)和相關(guān)研究也必將是口譯教學(xué)與研究未來發(fā)展的一個(gè)核心”,或者更準(zhǔn)確地說,至少在未來相當(dāng)一段時(shí)期內(nèi),口譯副語言信息的轉(zhuǎn)寫標(biāo)注等口譯語料庫建設(shè)的基礎(chǔ)類研究還是大有可為的,還需要更多研究者積極參與進(jìn)來。
注釋:
①表1中語料庫名稱縮寫的全稱依次為:EPIC (European Parliament Interpreting Corpus);CIAIR (CIAIR Simultaneous Interpretation Corpus);CECIC (Chinese-English Conference Interpreting Corpus,漢英會(huì)議口譯語料庫);PACCEL(Parallel Corpus of Chinese EFL Learners,中國大學(xué)生英漢漢英口筆譯語料庫);DIRSI-C(Directionality in Simultaneous Interpreting Corpus);FOOTIE(Football in Europe,a corpus of press conferences of EURO 2008);CoSi/K6 (Consecutive and Simultaneous Interpreting);ComIn-Dat(Community Interpreting Database Pilot Corpus); Dik/K2(Dolmetschen im Krankenhaus[Interpreting in Hospitals]);IiSCC(a corpus of interpreter-mediated interaction in New York Small Claims Court);TIC (Television Interpreting Corpus);CorIT(Italian Television Interpreting Corpus);FPC(Formula one grand prix Press Conferences).
② 關(guān)于 TEI的詳細(xì)說明參見:http://www.tei-c.org/index.xml。文本編碼的國際規(guī)范還有語料庫編碼標(biāo)準(zhǔn)(Corpus Encoding Standard,CES),但其在語音語料轉(zhuǎn)寫方面尚處探索階段。
③關(guān)于HIAT的詳細(xì)說明參見:http://www.exmaralda.org/hiat/en_index.html。
[1]Angermeyer,P.S.Speak English or What? Codeswitching and Interpreter Use in New York Small Claims Court[D].New York University,2006.
[2]Angermeyer,P.S.et al.Sharing community interpreting corpora:A pilot study[A].In T.Schmidt& K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis[C].Amsterdam/Philadelphia: John Benjamins,2012.275-294.
[3]Bendazzoli,C.From international conferences to machine-readable corpora and back:An ethno-graphic approach to simultaneous interpreter-mediated communicative events[A].In F.Straniero Sergio&C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern: Peter Lang,2012.91-118.
[4]Bührig,K.et al.The corpus“Interpreting in hospitals”— Possible applications for research and communication trainings[A]. In T.Schmidt& K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis[C].Amsterdam/Philadelphia: John Benjamins,2012.305-318.
[5]Cencini,M.&G.Aston.Resurrecting the corp (us|se):Towards an encoding standard for interpreting data[A].In G.Garzone&M.Viezzi (eds.).Interpreting in the 21st Century —Challenges and Opportunities[C].Amsterdam/ Philadephia:John Benjamins,2002.47-62.
[6]Falbo,C.CorIT(Italian Television Interpreting Corpus):Classification criteria[A].In F.Straniero Sergio& C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern:Peter Lang,2012.155-186.
[7]Garg,S.et al.Evaluation of Transcription and Annotation tools for a Multi-modal,Multi-party dialogue corpus[J/OL]. In Proceedingsof LREC 2004.http://www.dtic.mil/cgi-bin/ GetTRDoc?AD=ADA 459208.[2013-06-30]
[8]House,J.et al.CoSi-A Corpus of Consecutive and SimultaneousInterpreting[A]. In T.Schmidt& K.W?rner(eds.).Multilingual Corpora and Multilingual Corpus Analysis[C].Amsterdam/Philadelphia: John Benjamins,2012.295-304.
[9]Monti,C.et al.Studying directionality in simultaneous interpreting through an electronic corpus:EPIC(European Parliament Interpreting Corpus)[J].Meta,2005,50(4):114-129.
[10]Roach,P.et al.Transcription of prosodic and paralinguistic feature of emotional speech[J].Journal of the International Phonetic Association,1998,28(1-2):83-94.
[11]Russo,M.et al.The European Parliament Interpreting Corpus(EPIC):Implementation and developments[A].In F.Straniero Sergio&C.Falbo(eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern:Peter Lang,2012.53-90.
[12]Sandrelli,A.Introducing FOOTIE(Footbal in Europe):Simultaneous interpreting in football press conferences[A].In F.Straniero Sergio&C.Falbo(eds.).Breaking Ground in Corpusbased Interpreting Studies[C].Bern: Peter Lang,2012.119-154.
[13]Schiffrin,D.Approaches to Discourse[M].Cambridge:Blackwell Publishers,1994.
[15]Straniero Sergio,F(xiàn).Using corpus evidence to discoverstyle in interpreters'performances[A].In F.StranieroSergio& C.Falbo (eds.).Breaking Ground in Corpus-based Interpreting Studies[C].Bern:Peter Lang,2012.211-230.
[16]Tohyama,H.et al.CIAIR Simultaneous Interpretation Corpus[J/OL].In Proceedings of the O-COCOSDA 2004.http://ir.nul.nagoya-u.ac.jp/jspui/handle/2237/15081.[2013-08-15]
[17]Trager,G.Paralanguage:A first approximation[J].Studies in Linguistics,1958,13(1):1-12.
[18]陳瑞青,王巍巍.口譯中的副語言信息研究芻議[J].外語藝術(shù)教育研究,2011,(3):5-9.
[19]胡開寶,陶慶.漢英會(huì)議口譯語料庫的創(chuàng)建與應(yīng)用研究[J].中國翻譯,2010,(5):49-56.
[20]李婧,李德超.基于語料庫的口譯研究:回顧與展望[J].中國外語,2010,(9):100-105,111.
[21]梁茂成.副語言初論[J].徐州師范學(xué)院學(xué)報(bào),1994,(2):128-130.
[22]梁茂成,許家金.雙語語料庫建設(shè)中元信息的添加和段落與句子的兩極對(duì)齊[J].中國外語,2012,(11):37-42,63.
[23]王斌華.語料庫口譯研究——口譯產(chǎn)品研究方法的突破[J].中國外語,2012,(3):94-100.
[24]文秋芳,王金銓.中國大學(xué)生英漢漢英口筆譯語料庫[M].北京:外語教學(xué)與研究出版社,2008.
[25]張威.口譯語料庫的開發(fā)與建設(shè):理論與實(shí)踐的若干問題[J].中國翻譯,2009,(3):54-59.
[26]張威.近十年來口譯語料庫研究現(xiàn)狀及發(fā)展趨勢(shì)[J].浙江大學(xué)學(xué)報(bào),2011,(10):38-49.
[27]張威.線性時(shí)間對(duì)齊轉(zhuǎn)寫:口譯語料庫建設(shè)與研究中的應(yīng)用分析[J].外國語,2013,(2): 76-83.
Transcription and Annotation of Paralinguistic Information in Interpreting Corpora: The Status Quo,Problems and Solutions
ZOU Bing1,WANG Bin-h(huán)ua2
(1.School of Interpreting and Translation Studies,Guangdong University of Foreign Studies,Guangzhou 510420,China; 2.Department of Chinese and Bilingual Studies,The Hong Kong Polytechnic University,Hong Kong)
In this paper the authors first define some relevant concepts of paralinguistic information(PI),and then review the status quo of PI transcription and annotation in existing interpreting corpora around the world.It is found that more attention is needed for research into this issue.The authors of this paper then,integrating their experiences in interpreting corpus design and construction,summarize the major problems that need to be considered in transcribing and annotating PI,and explore the methods of PI transcription and annotation in interpreting corpora in terms of tools,procedures and post-construction maintenance.
interpreting corpora;status quo and problems;paralinguistic information;transcription and annotation
H059
A
1002-2643(2014)04-0017-07
2013-12-06
本研究得到香港理工大學(xué)科研項(xiàng)目(G-UA92)和廣東外語外貿(mào)大學(xué)研究生科研創(chuàng)新項(xiàng)目(14GWCXXM-41)的資助。
鄒兵(1986-),男,廣東外語外貿(mào)大學(xué)高級(jí)翻譯學(xué)院博士生。研究方向:翻譯研究。
王斌華(1974-),男,博士,香港理工大學(xué)中文及雙語學(xué)系助理教授(研究)。研究方向:口譯研究、翻譯研究。