栗娜
【摘要】眾所周知,建立語料庫對加速推進語言研究的進程具有非常重大的意義。本文對英語語料庫的建設(shè)方法以及反思,進行了深入的探討,從英語語料庫的設(shè)計、語料的收集以及文本的整理等很多內(nèi)容進行了詳細闡述。
【關(guān)鍵詞】英語語料庫 建設(shè) 應(yīng)用
可以說,語料庫的建設(shè)并不是一件簡單的事情,因為,建設(shè)者僅僅是對相關(guān)語料進行收集是不夠的,還要對所收集到文本進行整理和加工,又由于語料所覆蓋的范圍很廣,這就導(dǎo)致他們巨大的工作量,給建設(shè)者的工作增加了一定難度。因此,如何有效的開展英語語料庫的建設(shè)工作成為擺在建設(shè)者面前急需解決的問題?;诖朔N情況,筆者對英語語料庫建設(shè)及應(yīng)用提出了自己的幾點看法。
一、關(guān)于英語語料庫建設(shè)的思路和方法
建設(shè)英語語料庫是一項系統(tǒng)、繁瑣的工程,它涉及到英語語料的采集、分析、整理、標(biāo)注等內(nèi)容,同時,其建設(shè)過程也需按照繁復(fù)的程序循序漸進的完成。英語語料庫建設(shè)的重點和難點是語料庫的代表性、實用性和權(quán)威性。即英語語料能否對英語起到代表作用,其實用效果是否理想,英語語料是否標(biāo)準(zhǔn)、規(guī)范、權(quán)威。這就需要在英語語料采集環(huán)節(jié)前進行取樣論證,根據(jù)語料的來源、獲得途徑以及相關(guān)的法律法規(guī)明確取樣的標(biāo)準(zhǔn)和原則。然后,根據(jù)取樣的分析和論證來進行英語語料庫工作計劃和流程的制定。
1.英語語料庫的設(shè)計思路和方法。英語語料庫的設(shè)計工作需明確以下內(nèi)容:明確建設(shè)英語語料庫目的。建設(shè)英語語料庫的目的,是為了滿足英語教學(xué)、英語語言研究、英語應(yīng)用的需要。明確英語語料庫建設(shè)規(guī)模。比如,根據(jù)取樣分析明確取樣時間跨度,英語語料庫是否為開放性語料庫,初步的設(shè)計規(guī)模為多少詞匯容量等。并根據(jù)實際需要按照設(shè)計要求繼續(xù)拓展。明確英語語料庫構(gòu)成方向。通過確定英語語料庫建設(shè)是屬實用領(lǐng)域還是研究領(lǐng)域,明確其構(gòu)成方向。比如,實用領(lǐng)域可以以英語理論、英語基礎(chǔ)知識、語言運用等內(nèi)容為主要組成結(jié)構(gòu)。明確英語語料采集范圍構(gòu)成。比如,英語語料采集可由英語書籍、英語報紙、英語期刊、英語視頻等組成,明確各個范圍采集的英語語料組成結(jié)構(gòu)和限制條件。
2.英語語料庫建設(shè)的思路和方法
(1)英語語料的采集。英語語料采集需要投入大量的人力和物力來進行下載、掃描、錄入、壓縮、拷貝等工作,是一項系統(tǒng)而繁瑣的工程。這就需要大量的人力和物力。
(2)文本的整理工作。文本的整理工作,可以說是在語料庫建設(shè)中的重要環(huán)節(jié)。它涉及到文本的清潔整理、備份以及語料元信息的標(biāo)注等內(nèi)容。對于收集的語料,特別是通過掃描識別以及網(wǎng)絡(luò)下載等方法獲得的那些文本,多多少少都會存在一些問題,比如,符號用法不符合規(guī)范、文本格式不正確等等。由此可見,文本的整理工作是十分必要的。
(3)文本的加工工作。文本的加工工作涉及的主要有分詞、對詞性的標(biāo)注以及對其他語言信息進行的標(biāo)注。一般來說,需要標(biāo)注的主要有詞性標(biāo)注和元信息標(biāo)注。值得注意的是,元信息的標(biāo)注,主要是用于語料庫的檢索、分析、查詢,可以說,它是子語料庫構(gòu)建的重要依據(jù)。
二、英語語料庫建設(shè)及應(yīng)用的反思
1.體現(xiàn)英語語料庫的跨學(xué)科性。 所謂英語語料庫的跨科學(xué)性,也就是在英語語料庫研究和建設(shè)過程中須注重跨學(xué)科的融合,將計算機科學(xué)、詞典學(xué)等學(xué)科與語言學(xué)進行有機的融合。以促進英語語料庫建設(shè)科學(xué)系統(tǒng)的發(fā)展。
2.規(guī)范英語語料庫的建設(shè)。對于英語語料庫建設(shè)應(yīng)有統(tǒng)一嚴(yán)謹?shù)囊?guī)范,以避免重復(fù)建設(shè)造成的資源浪費,促進語料庫資源的共建和共享,提高英語語料庫的使用效率,最大程度上發(fā)揮語料庫建設(shè)的作用。
3.加大多模態(tài)英語語料庫研究力度。在英語語料庫研究和建設(shè)過程中,除了要關(guān)注文本因素以外,還需將更多的注意力集中在語境、語速、語調(diào)、表情、動作、位置等非語言因素的研究。以多維度、多角度的構(gòu)建更加科學(xué)系統(tǒng)的英語語料庫。
4.研究和開發(fā)智能化、動態(tài)化的監(jiān)控語料庫功能。通過現(xiàn)代化的科技手段使英語語料庫具備自動監(jiān)控和更新的能力。使其能夠自動的發(fā)現(xiàn)、報告和更新新語料,以豐富和完善英語語料庫內(nèi)容。
5.細化英語語料庫組成結(jié)構(gòu)和內(nèi)容。通過開發(fā)多種類的有針對性的英語語料庫,來滿足特定研究者的特定研究需要。例如,通過建設(shè)建筑工程英語語料庫、化學(xué)實驗研究英語語料庫等豐富英語語料庫結(jié)構(gòu),便于特定人群的使用,從而提高語料庫使用效率。與此同時,還需普及英語語料庫建設(shè)和使用技巧,提高使用效率。
6.注重英語語料庫建成后的管理和維護。注重英語語料庫建成后的管理和維護,主要是對英語語料庫在使用中出現(xiàn)的問題要及時有效的解決,以保障語料庫合理健康的應(yīng)用。
總而言之,英語語料庫的建設(shè)對推進相關(guān)領(lǐng)域的語言研究具有非常重要的意義。雖然,現(xiàn)階段在建設(shè)英語語料庫的過程中還面臨著諸多的問題,但是,只要建設(shè)者創(chuàng)新工作模式,并借鑒國外先進經(jīng)驗、同時,還要結(jié)合建設(shè)的實際情況進行語料庫的相關(guān)建設(shè),只要這樣,才能加速推進英語語料庫的建設(shè)進程,提高了其建設(shè)的質(zhì)量。
參考文獻:
[1]王建新.介紹當(dāng)代三個英語語料庫[J].外語教學(xué)與研究,1996, (03).
[2]吳菲.國內(nèi)外英語語料庫的建設(shè)和發(fā)展述評[J].山東外語教學(xué),2007,(06).
[3]何中清,彭宣維.英語語料庫研究綜述:回顧、現(xiàn)狀與展望[J].外語教學(xué),2011(01).
[4]王立非,孫曉坤.國內(nèi)外英語學(xué)習(xí)者語料庫的發(fā)展:現(xiàn)狀與為一法[J].外語電化教學(xué),2005,(10).