陶李春+陸曉蕾
摘 要:對通過平行術語抓取技術所搜集的3852對漢英對照統(tǒng)計學術語展開統(tǒng)計分析,簡要介紹了統(tǒng)計學術語庫的創(chuàng)建過程,并運用漢英分詞統(tǒng)計軟件分析其形式特征,從而對統(tǒng)計學術語的經濟指數進行比較分析,結果顯示統(tǒng)計學術語的主要構成模式是:低頻修飾詞+高頻主體詞;術語構造中的連字符“-”雖然可使術語更容易理解,但是會降低一定的經濟指數;中文術語的經濟指數遠遠高于英語的術語經濟指數。
關鍵詞:統(tǒng)計學術語,術語庫,分詞,經濟指數
中圖分類號:C8;H083文獻標識碼:ADOI:10.3969/j.issn.1673-8578.2017.04.001
Abstract: In this paper, word segmentation techniques are used to analyze the form features of 3852 pairs of statistical terms, which are captured by parallel terms grasping technique. In addition, a model is established to compare the economic rate of statistical terms. Our results show that statistical terms are consisted of lowfrequency modifier and highfrequency main word; that although hyphen will reduce the economic index, it will make the terms easier to understand; and that the economic index of Chinese terms is much higher than that of English. Based on these findings, we put forward two basic principles, and introduce the construction process of terminology database.
Keywords: statistical term, terminology database, word segmentation, economic index
引 言
術語是學科專業(yè)知識在語言中的結晶,其所表征的概念或范疇,以及由這些概念和范疇所構成的學術話語,均為人類物質文明和精神文明延續(xù)傳承的基本條件[1]。統(tǒng)計學術語是統(tǒng)計學概念、原理的重要表征,是該學科及相關領域學術交流的重要媒介,是學術傳承與發(fā)展的重要見證。
隨著信息技術的不斷普及,術語建庫已成為術語學、術語翻譯研究等相關領域的重要手段。南京大學外國語學院魏向清教授主持的國家社科基金重點項目,題為“人文社會科學動態(tài)術語數據庫的構建研究”,涵蓋了22個學科,其中包括統(tǒng)計學漢英術語庫的構建與研究。通過術語建庫,能夠對統(tǒng)計學術語的漢英對照情況做全面而系統(tǒng)的探究。
一 漢英統(tǒng)計學術語形式特征分析
1. 漢英統(tǒng)計學術語的自動抽取介紹
術語抽取的基本理論是基于其結合緊密性和領域性這兩個特征[2]。以“擺動指數”這個統(tǒng)計學術語為例,在前期對初始數據庫分詞之后,這個術語被分為“擺動”和“指數”兩個詞語,結合關聯(lián)挖掘的思想,在統(tǒng)計學的數據庫中,這兩個詞同時出現(xiàn)的概率遠遠大于其他類目的數據庫,所以在這種情況下,數據庫會新增一個名為“擺動指數”的術語,這就是術語結合緊密性和領域性的體現(xiàn)。
具體的提取過程簡要介紹如下:
(1)考慮到初始的統(tǒng)計學數據庫不可能也無法涵蓋所有的文章,所以只選取了一定數量的不同級別的統(tǒng)計學期刊或與統(tǒng)計學相關的期刊,并以論文題目為參考標準,選擇了各期刊不同年份的一定數量的論文,形成統(tǒng)計學數據庫。
(2)然后對統(tǒng)計學數據庫進行分詞,統(tǒng)計出各個單詞的出現(xiàn)頻率,將出現(xiàn)頻率較多(達到一定的閾值)的單詞作為抽取出的簡單術語。
(3)結合上述的結合緊密性和領域性的特征,通過比對不同學科之間復合詞出現(xiàn)頻率的不同來抽取復合術語。
(4)將簡單術語和復合術語整理歸類,通過專家討論會的形式篩選出最終確定的統(tǒng)計學術語列表。
(5)通過相關匹配技術,匹配出漢英雙語對應的統(tǒng)計學術語列表。
2. 英文統(tǒng)計學術語的形式特征
對通過上述過程抽取到的3852條英文統(tǒng)計學術語進行簡單的文本分析,英文的文本分析主要使用R語言編程進行,主要是使用“tm”包構建語料庫(corpus對象),實際的操作過程中,因為要用之前抓取的英文術語向量構建語料庫,所以使用“corpus”和“VectorSource”函數配合使用,從而創(chuàng)建一個corpus對象(語料庫對象,即每個單詞出現(xiàn)的次數),為了避免與術語沒有實際聯(lián)系的噪聲,使用參數“Remove Punctuation”移除標點等符號,本次主要是在去除左右括號、連字符、引號等符號的影響后對每個單詞的出現(xiàn)頻率進行分析。
從中提取到2558個單詞,總頻數是9035,可見每個統(tǒng)計學術語的長度大約是3.53個單詞;其中1465個單詞只出現(xiàn)了一次;2403個單詞出現(xiàn)的次數小于10次(對corpus對象進行按照出現(xiàn)次數進行匯總排序);其中出現(xiàn)次數超過70次的有10個單詞(如表1所示),將其稱為統(tǒng)計學的主體詞,分別是distribution、test、model、sampling、design、estimator、regression、method、function、analysis;其中distribution(分布)和test(檢驗)出現(xiàn)的次數最高,可見統(tǒng)計學是一個研究數據的分布和進行假設檢驗的學科;從中還可以發(fā)現(xiàn),這10個單詞都是名詞,并且大都處在各個術語的末尾部分,有一部分處在頭部(比如一部分的sampling),剩余的單詞都是對這些單詞的具體補充,稱為修飾詞。而出現(xiàn)頻率較低的單詞中,具有名字屬性的單詞較多,由于名字翻譯并沒有標準的翻法,這就給統(tǒng)計學術語的中英互譯造成了一定的困難。
3. 中文統(tǒng)計學術語的形式特征
對上述英文相對應的3852條漢語統(tǒng)計學術語進行分析,其中268條是“英文+中文”的形式,仔細觀察后發(fā)現(xiàn),英文部分大多是人名詞,所以在下面分析的時候不考慮這部分。
對剩下的3584條中文術語進行中文分詞,本次中文分詞分析直接借助了大數據語義分析平臺,最后得到2154個中文詞,總頻數10 899,其中1054個中文詞只出現(xiàn)了一次;1937個中文詞出現(xiàn)的次數小于10次;其中出現(xiàn)次數超過90次的有10個單詞(如表2所示,對從平臺中得到的結果使用R語言進行進一步的清洗和分析),分別是“檢驗”“-”(連字符)“量”“模型”“差”“回歸”“估計”“圖”“多”等參數,其中“檢驗”(test)和“-”出現(xiàn)的次數最高,在出現(xiàn)頻率較低的單詞中,具有名字和地點屬性的單詞較多,這一點與英文術語是一致的,由于中文分詞技術的欠缺性,分詞的結果并不理想,比如“差”和“多”這兩個詞應該以詞語的形式體現(xiàn)出才更好。
通過對中英術語的分詞分析,發(fā)現(xiàn)如下兩點規(guī)律:
(1)統(tǒng)計學術語的長度特點:在去除中英混雜的3584個漢語術語中,67.94%的中文術語長度是4~6個字,其中4個漢字的最多,占了32.48%;在3854個英文統(tǒng)計學術語中,83.94%的術語由2~3個英文單詞組成(連字符相連的單詞視作一個單詞),其中59.03%的術語只由兩個單詞構成。(2)統(tǒng)計學術語形成模式特點:對于中文的統(tǒng)計學復合術語,主要由一個名詞充當形容詞(低頻修飾詞)加一個名詞(高頻主體詞)。
二 漢英統(tǒng)計學術語互譯策略及方法描述
基本原則是分而譯之,往往先將術語拆分為兩部分,術語的主體詞往往比較容易找到對應的譯文,而且對應的譯文往往就是英語術語分析中出現(xiàn)頻率最高的幾個單詞之一,例如“分布”對應distribution,“檢驗”對應test,“模型”對應model,“抽樣”對應sampling,“估計量”對應estimator,“回歸”對應regression,“設計”對應design,等等,剩下的便是修飾詞,可能是數量詞、人名、慣用法等等。
1. 直譯法
直譯法是將意義上與英語術語中相同或相似的詞語或短語直接翻譯過來,這是術語英譯的主要途徑[3]。譯者只要準確把握中文術語的意義,就可以找到對應詞。直譯法能夠充分忠實于原文,使譯語和原語的信息密度保持高度一致,如下幾點情況下直譯法較為常見:
(1)術語構成詞的表意和其實際意義相似或者一致;(2)可拆分的復合術語,拆分后的單詞滿足情況(1);(3)約定而成的特定含義的單詞。比如“單純形”和simplex的互譯,“因子”與factor的互譯。
術語的高頻主體詞部分往往符合狀況(1),可以直接使用直譯,而低頻修飾詞部分情況比較復雜,需要多種譯法綜合考慮。
2. 音譯法
音譯法是借詞的一種重要手段和表現(xiàn)形式。趙元任提出,語言甲借用語言乙的詞匯,通過自身與之相當的音來當一個詞使用[4]。術語翻譯中音譯法十分常見,尤其是在語言差異和文化差異十分明顯的情況下,音譯法占比較大,因此有必要對音譯進行統(tǒng)計分析和深入研究。
三 漢英統(tǒng)計學術語系統(tǒng)經濟指數對比分析
1. 術語形成的經濟律簡介
馮志偉先生提出了術語形成的經濟律,這是我國學者對術語學基本理論研究的一個重要貢獻。術語形成的經濟律反映了術語系統(tǒng)內的術語構詞規(guī)律,是語言經濟機制的一種體現(xiàn)。在一個術語系統(tǒng)中,系統(tǒng)的經濟指數E與術語的平均長度L的乘積,恰恰等于單詞的術語構成頻率F[5]。用公式表示為:
在術語經濟指數的公式中,F(xiàn)表示單詞的術語構成頻率,E表示術語系統(tǒng)的經濟指數,L表示術語的平均長度,通過相關公式能給上述公式中的每一個變量進行界定和計算,具體可以表述為:單詞的術語構成頻率F=R/W(其中R是指術語系統(tǒng)中的單詞總數,W是指不同的單詞數量);術語系統(tǒng)的經濟指數公式為:E=T/W(其中T指系統(tǒng)的術語數量,W的指稱同上);術語的平均長度計算公式為:L=R/T(R和T同上,分別指單詞總數及術語數量)[6]。對于一個術語系統(tǒng)而言,其經濟指數越大,系統(tǒng)的經濟效應就越高,因此提高系統(tǒng)的經濟指數的最好辦法是在盡量不過大改變術語的平均長度L 的情況下,增加單詞的術語構成頻率,所以在術語形成的過程中,將會產生大量的詞組型術語,使詞組型術語的數量大大超過單詞型術語的數量[5]。在實際的術語系統(tǒng)中,詞組型術語一般都占據大部分,這個事實正是術語形成的經濟指數作用結果。
2. 中英統(tǒng)計學術語的經濟指數分析
這里通過R語言中的tm包和reshape2包對相關指標進行了測算,其中tm包負責文本挖掘,用來進行多種情況分詞比較,形成相應的語料庫對象,reshape2包是進行數據整合的,以特定的形式輸出數據,結果如下所示:
從表中可以看出,對于英語統(tǒng)計學術語來說,由于主體詞占比比較高,停用詞(如“of”和“the”)等雖然都會使得系統(tǒng)的經濟指數下降,但是下降得并不明顯,然而對于“”來說,去除連字符的影響之后,整個術語系統(tǒng)的經濟指數從1.48上升到1.506,產生了巨大的提高,由此可見英語中的“”雖然能將兩個概念之間的聯(lián)系緊密化,讓人更容易理解,但是可能會降低一定的經濟指數。
將平行的兩個漢英統(tǒng)計學術語系統(tǒng)進行對比,中文術語的經濟指數遠遠高于英語的術語經濟指數,這一方面是不同的語言的表現(xiàn)力的差異,另一方面是中文分詞規(guī)則所致,比如“窗寬”這個術語,其對應的英文術語是windows width,“傳染期”對應的是infectious period,這兩個詞的T=1,而中文的R=1,英文的R=2,這就導致了中文的經濟指數較大,體現(xiàn)了中文對術語表達的一定的優(yōu)越性。
四 漢英動態(tài)術語庫編撰說明
術語數據庫(terminology database),簡稱術語庫,用以存儲術語數據[7]。術語庫也被稱作“存儲在電子計算機中記錄概念和術語的自動化電子詞典”[1]。在信息技術飛速發(fā)展和日益推廣的今天,創(chuàng)建術語庫并利用術語庫來支撐翻譯實踐和開展語言研究已成為現(xiàn)實。術語庫最大的特點是能快速檢索相關信息,并在使用術語庫的同時及時更新術語庫,開展相關研究,有效促進術語標準化與規(guī)范化,杜絕術語使用混亂等情況,進而確保翻譯質量。下文以統(tǒng)計學漢英動態(tài)術語庫為例,簡要介紹由統(tǒng)計學術語構建的漢英動態(tài)術語庫。
1. 動態(tài)術語庫數據項說明
本說明參考南京大學“人文社會科學漢英動態(tài)術語數據庫的構建研究”項目語料庫編撰說明,下文針對統(tǒng)計學術語庫構建中比較重要的幾項指標項進行一定的解釋。
(1)詞性
為防止中英詞性的混亂,統(tǒng)一以 n.、v.、adj.、adv.等英文縮寫來標記詞性;如有多重詞性,用“/” 隔開,事實上統(tǒng)計學術語庫中以名詞性的術語為主,所以詞性默認標記為n.。
(2)漢語語境/英文語境
本庫的“漢語語境”與“英文語境”均為學術語境,且原則上要求是平行語境,在統(tǒng)計學術語庫的構建中要求術語的漢英語境應選自統(tǒng)計學的權威期刊、雜志、會議,且中英文應表達同一個意思;為了便于理解術語,語境不能為簡短單句或傳統(tǒng)定義模式,應達到一定數量的字數或字符要求。
(3)庫內關聯(lián)術語
即在該學科總術語表中與該術語有語義關聯(lián),或屬于同一術語系統(tǒng)的參見術語,或是常常一起出現(xiàn)在同一個語境的術語。比如“回歸”和“殘差”“方差分析”和“方差齊次性”應該屬于庫內關聯(lián)術語。
2. 術語庫數據項編撰心得匯總
在本次統(tǒng)計學術語庫的編撰過程中,遇到一些困難和問題,通過項目團隊研討和專家評審等途徑加以處理。本次動態(tài)術語庫原則上應該以“漢英”為主,但是統(tǒng)計學諸多的概念都是源于歐美,術語含義應該以英語為主,所以術語庫也應該以“英漢”為主,最后還是通過計算機的平行術語抽取和專家學者的多輪討論、修改、刪減避免了這個問題。
對于上述的諸多字段來說,語境信息的查找與修改是最大的問題,也是本次編著的主要難點與重點。首先并沒有一個途徑可以找到所有或者是大部分的術語的平行語境信息。其次,在大部分找到的平行語境中有一部分的中文或者英文的語言表述有一定的問題,難以直接使用,這時我們還需要理解語境,并且對其表述的語言進行一定的修改。
通過各種方式的嘗試,我們發(fā)現(xiàn)通過以下幾個途徑尋找到一定的平行語境:
(1)庫內檢索
這是應“人文社會科學漢英動態(tài)術語數據庫的構建研究”項目的需要,在前期準備階段構建的一個數據庫,主要包括一定的相關論文的摘要,可供參考檢索。
(2)碩博論文摘要
通過國內學術電子資源如“中國知網”“萬方”等,查找含有相關中文術語或對應英文術語的碩博論文摘要,可獲取漢英平行語境信息,其中學科領域、檢索條件可細化。
(3)谷歌學術/百度學術
推薦檢索方式如下:檢索“英文術語”(對英文字符加雙引號,以增加檢索的準確性),在界面左側選擇“中文網頁”,便于查找雙語信息。
(4)CNKI翻譯助手
不同于一般的英漢互譯工具,CNKI翻譯助手是以CNKI總庫所有文獻數據為依據,匯集從CNKI系列數據庫中挖掘整理出的800余萬常用詞、專業(yè)術語、成語、俚語、固定用法、詞組等中英文詞條以及1500余萬雙語例句、500余萬雙語文摘,形成海量中英在線詞典和雙語平行語料庫。
(5)相關實體書籍查閱
主要有上海外語教育出版社的《英漢漢英統(tǒng)計詞匯使用手冊》和劍橋大學出版社(Cambridge University Press)的THE CAMBRIDGE DICTIONARY OF STATISTICS(THIRD EDITION)(《劍橋統(tǒng)計學詞典》(第三版))兩本比較權威的書。
(6)其他學術信息網站
統(tǒng)計學術語的檢索還可以參考以下網站(詳見表4)。
此外,在參與編撰的過程中,還遇到了一些其他問題,并通過組內討論交流等方式處理了這些問題,總結如下:
(1)編撰期間可以通過“新建一個TXT文本”進行過渡來自動過濾文本格式,保證所粘貼的信息在平臺上能夠識別,否則容易保存失??;
(2)確保每個數據項中所填信息的第一個和最后一個字符不是空格,否則會引起保存失??;
(3)在英文語境中,對于某些符號,比如“%”,由于平臺無法識別而無法保存,所以要避免這類符號的出現(xiàn)。
從統(tǒng)計學語境搜索反觀統(tǒng)計學術語庫建設現(xiàn)狀,在國內擁有資源最豐富的術語庫或許是CNKI翻譯助手,不僅涉獵各個領域,而且還提供了譬如英漢詞語、短語,甚至是整句的翻譯檢索,并提供相關的固定用法、俚語等諸多用法。筆者主要關注翻譯這個功能,它的翻譯主要是由計算機直接抓取的,在翻譯的合適度、準確度和專業(yè)精確度上尚有一定的偏差。
五 結 語
術語的標準化有利于翻譯實踐和術語學的相關研究,有必要開展面向翻譯的術語庫建設及相關研究[8]。術語翻譯作為翻譯研究的重要領域,其重要性不言而喻,由于術語定名應當遵循專業(yè)性、單義性、理據性、透明性及約定俗成等原則,所以建立一個漢英動態(tài)術語庫是必不可少的[9]。在逐漸完善這個術語庫之后,一方面可以加速術語在漢英雙語之間的交流,另一方面可以逐漸達到規(guī)范術語的目的,避免由翻譯所造成的損失。
本數據庫通過初始的自動抽取一定量的平行漢英雙語的術語進行構建,通過對術語的形式分析,明確基本的翻譯策略,提出兩種基本的翻譯方法。在數據庫逐漸充實的過程中,始終堅持一一對應的原則,保持較高的系統(tǒng)經濟指數,在進行術語翻譯時,應該充分地考慮術語系統(tǒng)的經濟效應,同時,術語形成的經濟指數也能在一定程度上指導術語的翻譯和定名。
參考文獻
[1] 馮志偉.現(xiàn)代術語學引論\[M\].增訂本.北京:商務印書館,2011.
[2] 王可為.基于統(tǒng)計的雙語術語自動抽取\[D\].南京:南京理工大學碩士論文,2007.
[3] 陳戰(zhàn).淺析中醫(yī)藥術語英譯策略\[J\].吉林省教育學院學報,2013(4):123-124.
[4] 趙元任.論翻譯中“信達雅”的幅度\[C\]//吳宗濟,趙新那.趙元任語言學論文集.北京:商務印書館,2002.
[5] 童毅見.也談術語形成的經濟率\[J\].中國科技術語,2012(2):17-18.
[6] 馮志偉.FEL公式——術語形成的經濟律\[J\].情報科學,1988(5):8-15.
[7] 中國國家質檢總局.GB/T 19101—2003 建立術語語料庫的一般原則與方法\[S\].北京:中國標準出版社,2003.
[8] 李健民.從科技翻譯的角度探討術語學建設\[J\].中國科技術語,2008(3):16-21.
[9] 陶李春,殷健.論社科術語翻譯研究的多層次與多維度\[J\].中國科技術語,2015(5):35-35.