自然語言處理是一門時下十分火熱、在國內(nèi)外都備受關(guān)注的交叉學(xué)科,其文本具有專業(yè)性強、用詞簡潔、合成詞多等特點,而其漢譯研究尚不充分。本文將自然語言處理專業(yè)英語歸納為專業(yè)術(shù)語、次專業(yè)術(shù)語、縮略語和合成詞四類,并對相應(yīng)的漢譯策略提出了筆者自己的見解。
自然語言處理NLP是人工智能領(lǐng)域近年來火熱的研究方向,聊天機器人、人工智能翻譯軟件等都是NLP技術(shù)的具體應(yīng)用。其中,OpenAI于2022年11月30日發(fā)布的ChatGPT由于具有驚人的自然語言理解和生成能力,引起全社會廣泛關(guān)注,并很快被廣泛應(yīng)用于各個行業(yè),各種基于ChatGPT的應(yīng)用層出不窮,僅用兩個月,ChatGPT的月活躍用戶數(shù)便達1億。
ChatGPT的火熱給自然語言處理領(lǐng)域帶來了更多的關(guān)注,越來越多的人希望了解或參與到自然語言處理研究中來。但很多自然語言處理領(lǐng)域的文章由英文寫成,且專業(yè)術(shù)語和新造詞較多,理解難度較大,而現(xiàn)在對該領(lǐng)域漢譯的研究還不夠充分。筆者通過本文對自然語言處理英語的詞匯特征加以總結(jié),將自然語言處理專業(yè)英語歸納為專業(yè)術(shù)語、次專業(yè)術(shù)語、縮略語和合成詞四類,并提出相應(yīng)的漢譯策略。
自然語言處理英語的詞匯特征
根據(jù)全國科學(xué)技術(shù)名詞審定委員會的定義,專業(yè)術(shù)語是各門學(xué)科的專門用語,在專業(yè)范圍內(nèi)表示單義的專門概念。自然語言處理英語作為科技文本,其中存在大量專業(yè)術(shù)語,又因為自然語言處理是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的交叉學(xué)科,很多專業(yè)術(shù)語和這三個學(xué)科共用。
另外,自然語言處理領(lǐng)域還存在不屬于以上三個學(xué)科的專業(yè)術(shù)語。
次專業(yè)術(shù)語是借用普通詞匯來表達專業(yè)含義,發(fā)生術(shù)語化的詞匯。術(shù)語化即當(dāng)一些普通詞匯在被應(yīng)用到專業(yè)領(lǐng)域時,成為具有嚴格科學(xué)含義的專業(yè)術(shù)語。在自然語言處理領(lǐng)域有很多這樣的次專業(yè)術(shù)語。
縮略語。經(jīng)濟性原則是人類語言交流的重要原則之一。在自然語言處理領(lǐng)域很多需要頻繁使用的專業(yè)術(shù)語如果使用全稱,不僅會破壞行文的簡潔性,還不利于讀者閱讀和理解,例如Transformation and Discourse Analysis Project (TDAP,轉(zhuǎn)換和話語分析課題)。在不造成誤解的前提下,自然語言處理英語會使用這些術(shù)語的縮略語。
自然語言處理英語中的縮略語可以分為以下三種。
單詞首字母縮略,即保留短語中各單詞的首字母,再用這些字母組成一個單詞,如MLE(Maximum Likelihood Estimation,最大似然估計)、HMM(Hidden Markov Models,隱馬爾可夫模型)、SVM(Support Vector Machine,支持向量機)。術(shù)語中的介詞和連詞等成分在縮略時一般可以省略,如NIST(National Institute of Standards and Technology,國家標準與技術(shù)研究院),但有些情況下為了保留詞義的完整性也可以保留介詞成分,如POS tagging(Part-of-Speech tagging,詞性標注)。復(fù)數(shù)名詞性短語的縮略語,有時會保留尾部的-s,如PPMVs(Pairs of Potential Morphological Variants,潛在形態(tài)變體偶對)、NNs(Neural Networks,神經(jīng)網(wǎng)絡(luò))。還有些特殊情況下,為了避免混淆或便于理解,短語中的部分單詞可能不是僅保留首字母,而是保留前幾個字母,如TREC(Text REtrieval Conference,文本檢索會議)、NOR(Noisy-OR,“噪音或”模型)。
截短詞即對原來完整的詞進行加工,截取其中一部分字母,構(gòu)成新詞。一般截取前幾個字母,如Det(determiner,限定詞)、cat(category,范疇)、agr(agreement,一致)。有時,為了避免混淆會多截取幾個字母,如comp(complement)。還有的時候,會提取單詞中各詞根的首字母,如sg(single,單數(shù))。另外,短語也可以縮略為截短詞,如MaxEnt(Maximum Entropy),取短語中每個單詞的前幾個字母,將它們組合成一個單詞。
自然語言處理英語中還存在半縮略詞或稱混合縮略詞,即一個短語或組合詞中部分單詞縮略,部分不縮略,如E-step(Expectation-step,期望步)、M-step(Max-step,最大步)、EM Algorithm(Expectation-Maximization Algorithm,EM算法、最大期望算法)。這類縮略詞的共同點是,省略部分一般是修飾成分,未省略部分通常是名詞性結(jié)構(gòu)中的中心語。但在有些情況下,尤其是在一些應(yīng)用名稱中,為了突出應(yīng)用的特點,可能會保留修飾成分,而縮略被修飾成分,如AutoML(Auto Machine Learning,自動機器學(xué)習(xí));或者選取修飾成分中最突出的字母,而非首字母縮略,如XGBoost(eXtreme Gradient Boosting,極限提升樹)。
合成詞。英語單詞派生法,按照詞根是否加詞綴以及在何種詞根上加詞綴,可以分為三級:零級派生、一級派生和二級派生。這里主要探討由零級派生產(chǎn)生的復(fù)合詞,以及由二級派生產(chǎn)生的二次派生詞,以及使用連字符的情況。
復(fù)合詞(compound word)由自由詞根+自由詞根+零派生詞綴合成,如benchmark(基準)、headword(中心語)、treebank(樹庫)、downstream(下游)等。
自由詞根加詞綴為二級派生。其基本派生方式為“自由詞根 + 派生詞綴”,二次派生詞(Secondary Derivative),如semilattice(半格)由前綴semi-加自由詞根lattice組成,monotone(單音調(diào))由前綴mono-和自由詞根tone組成,hyperplane由前綴hyper-和自由詞根plane組成。
連字符只與自由詞根連用,可添加在自由詞根之間,也可添加在自由詞根與派生詞綴之間,基本發(fā)生在二級派生的情況下。在自然語言處理中,主要用在臨時綴合或尚未得到公認的復(fù)合詞或二次派生詞中。
一些固定短語表達為了和普通短語做區(qū)分,會使用連字符,如“state-of-the-art”(最先進的)、“Part-of-Speech”(詞性、詞類)。另外,還有些不屬于復(fù)合詞或二次派生詞的結(jié)構(gòu)也可能使用連字符,如“feature-value”(特征-值)使用連字符來表示特征和值一一對應(yīng)。
自然語言處理英語作為科技文本,具有專業(yè)性強的特點,由于自然語言處理屬于交叉學(xué)科,在翻譯其專業(yè)術(shù)語和次專業(yè)術(shù)語時,往往需要先判斷其學(xué)科所屬,然后采用直譯或直譯配合增譯和引申的方法進行翻譯。自然語言處理文本還具有用詞簡潔的特點,多使用縮略語,本文將這些縮略語總結(jié)歸納為三類:單詞首字母縮略、截斷式縮略和部分縮略,其漢譯法包括直譯法、結(jié)合上下文加范疇詞、意譯等,在很多情況下可以使用零翻譯法。作為時下熱門的新興學(xué)科,自然語言處理領(lǐng)域每年都會產(chǎn)生很多新的術(shù)語,其中以各種合成詞居多,筆者主要探討了復(fù)合詞、二次派生詞以及使用連字符的情況。其主要翻譯方法為直譯法,有時需要辨析使用的是其原意還是引申義。對于連字符,首先要判斷其使用情況,再進行翻譯。
(作者單位:桂林電子科技大學(xué)外國語學(xué)院)