陳 瑋
摘要:隨著計算機和網(wǎng)絡技術的發(fā)展,語料庫語言學成為新的研究領域。本文從語域語言的研究入手,以體育語域為例,研制體育語域語料庫,利用語料庫進行定性和定量的分析,通過詞匯統(tǒng)計和詞頻分級,探討體育語言的特點,并提取專用詞匯,制成詞表,以此為基礎進行更深層次的研究。而研究的成果則可以應用于語言教學、詞典編撰等領域,也為機器翻譯提供了一定的參考。
關鍵詞:語料庫語言學語域研究應用
語料庫(corpus或corpora,corpuses(復))是指按照一定的語言學原則,運用隨機抽樣的方法,收集自然出現(xiàn)的連續(xù)語言運用文本或話語片段而建成的具有一定容量的大型電子文本庫。語料庫語言學就是在文本語料的基礎上進行語言研究的一門學科。語料庫是作為信息載體的大量語言資料的集合。以語料庫為手段研究語言的主要目的是描寫和解釋語言中的詞匯和句法的各種問題,以及處理自然語言的各種課題。語言研究者可以根據(jù)研究課題的要求,使用“標注”手段(即給語料的詞匯和其它形式加上識別和分類標記)和檢索工具,分析語料庫中的語料,對語言現(xiàn)象進行定量和定性的分析。
一、語料庫語言學研究的現(xiàn)狀
語料庫方法應用于特殊用途英語的研究在國外已具規(guī)模。英國學者運用以語料庫和計算機技術為基礎的多維度分析法(multi-dimensional analysis)調(diào)查了生物學論文與歷史學論文兩種特殊用途英語的語言特征。(B1bin,Conrad,Reppen,《語料庫語言學》(Corpus Linguisttcs),2000目前已建成了幾個較大的語料庫,如SEU語料庫、布朗語料庫、LOB語料庫等。其中LOB語料庫不僅進行了詞性的標注,而且進行了句法標注。在國內(nèi),利用語料庫研究漢語也得到了一批學者的支持。從20世紀70年代末開始,我國陸續(xù)建成了一批大規(guī)模的用于漢語計量分析研究的語料庫,如北京語言文化大學建立的漢語詞頻統(tǒng)計語料庫、臺灣中央研究院平衡語料庫、國家語委現(xiàn)代漢語語料庫等。20世紀90年代以來語料庫語言學快速發(fā)展。大規(guī)模語料庫的建成和對語料庫的深加工都反映了這種研究方法的廣泛運用,將語料庫廣泛應用于與語言相關的各個領域逐漸成了現(xiàn)在研究的趨勢。
二、語言的分層性及語域性研究
李葆嘉先生(2003)將人的語言分為三個層面:思維方式差異的語層性、應用領域差異的語域性和文本范式差異的語體性。他指出:“盡管言語思維成為現(xiàn)代人的本質(zhì),但是精神世界中仍然積淀著早期意識方式的孑遺,言語行為中也同樣包含著相應表達方式的層壘。人類思維交際符號演變的連續(xù)統(tǒng)積淀在現(xiàn)時言語中并進一步典型化,由此形成言語的層壘包容性或分層性,即語言內(nèi)部存在確實有別但相互滲透的不同層級?!彼麑⑷祟愓Z言分為六個語層,由高到低分別為:思辨性語層、藝術性語層、行業(yè)性語層、日常性語層、含混性語層、體態(tài)性語層,并分析了各個語層的作品形態(tài)、主要特征和思維傾向。這是從橫向思維方式上的分層級,他繼而認為,言語系統(tǒng)還存在縱向應用功能的分領域。這里所說的“語域”是專指社會不同應用領域所造成的“社會方言”,即植根于社會分工的不同專門領域的言語表現(xiàn)。這一語域并非社會語言學意義上的社會方言。(李葆嘉,2003)因此依據(jù)社會分工的不同,可以劃分出一系列的語域。如日常性語層可以劃分為家庭交流語域和社會交往語域。而行業(yè)性語層則可以劃分為“經(jīng)濟語域(生產(chǎn)性、流通性、服務性和管理性)、公務語域(政務性、政論性)、法律語域、傳媒語域(新聞傳媒、出版?zhèn)髅?、影視傳?、教育語域、競技語域等”。在語域的基礎上,他又進一步提出“語體”的概念。這里所說的“語體”“不是通常的泛指性語體或言語的功能變體,而是限定在某一語域基礎上所形成的專門性用語、慣用表達式和篇章規(guī)范性的文本范式總和,接近于通常所說文體”。簡單地講,“語體就是在某一語域基礎上形成的文本范式,其顯著特征就是固定體裁”。如體育語域的體育規(guī)則、法律語域的法律文書、經(jīng)濟語域的商務文書等都屬于語體的范疇。基于語層性、語域性和語體性的三級劃分,李葆嘉先生進一步提出了分領域言語研究的具體步驟,提出了建立各個特定語域語料庫的構(gòu)想,并制定了比較詳細的技術路線。
比如搜集以體育、商務、法律等為主題的涵蓋社會各個方面的真實語料制成語料庫,并在此基礎上進行一定的語言研究,如詞性的標注、詞匯的提取和搭配,專用詞表的建立,詞匯的語義分類及義征分析等,這些研究成果可以廣泛應用于語言教學、詞典編撰等領域,也為機器翻譯提供了一定的參考。下面就以體育語域為例,在運用語料庫語言學基礎上進行體育賽事語言的研究。
三、體育語域語料庫的研制
所謂“語域”,這里“專指社會不同應用領域所造成的‘社會方言,即植根于社會分工的不同專門領域的言語表現(xiàn)”。(李葆嘉,2003)應用于體育領域的言語即“體育語域”,“體育語言”包含于“體育語域”,體育賽事語域是體育語域中的重要部分。本文所指的體育語域的研究包括體育賽事活動各個方面的研究,既包括了體育賽事(競技)項目,體育競賽規(guī)則中使用的語言,又包括了有關體育賽事活動的信息傳播和和對體育活動進行評價的語言。體育語域語料庫涵蓋了體育賽事活動各個方面的語料的搜集、統(tǒng)計和處理。
體育語域語料庫的研制,首先要確定語料庫的建設目標、標本的分布原則和采樣的途徑。這是語料庫建設的準備階段,在這一階段中,我們需要對體育語域語料庫的建設目標和體育賽事活動的基本環(huán)節(jié)有一個清楚的認識,在此基礎上確立語料庫的體例、規(guī)模及語料采集原則。此次建立的體育競技語域語料庫分為兩大部分,共80A萬字。分類的主要依據(jù)是語料所產(chǎn)生的體育賽事活動的不同環(huán)節(jié)。第一部分“競技賽事”和“競賽規(guī)則”,“競技賽事”語料主要產(chǎn)生于體育競技的各個項目的定義和分類,“競賽規(guī)則”包括在各個體育競技項目中所產(chǎn)生的競賽規(guī)則和裁判法。這兩個部分都屬于“體育賽事”;第二部分“賽事傳播”,主要產(chǎn)生于新聞媒體對體育賽事活動和體育信息的報道評論,其中包括少量的解說,即直播評論。
在語料搜集完成后,對于所涉及的文本進行編目,并設計分詞和詞性標注程序進行機器自動分詞和詞性標注,再進行人工校對,形成附碼語料庫。語料庫的建設歷時一年。最終建成的體育語域語料庫包含文件814個,規(guī)模為80.4萬字
四、體育語域詞匯的統(tǒng)計和分析
體育語域語料庫的分詞校對工作完成之后,要使用詞頻統(tǒng)計軟件對其進行詞頻統(tǒng)計。由于體育語域語料庫涉及體育語域的各個方面,不同的領域使用的詞匯有一定的特殊性,因此,將語料分為兩大部分,即體育賽事和賽事傳播,分別進行統(tǒng)計和研究。
1體育語域詞匯的統(tǒng)計
體育語域語料庫規(guī)模為80.4萬字。其中體育賽事運動部分初次統(tǒng)計,包含不同詞語16204條,總詞次283522;
賽事傳播部分初次統(tǒng)計,包含不同詞語21239條,總詞次245088。經(jīng)過整理和校改之后,體育賽事部分剩余11883條詞語,共計頻次222674條。
2體育語域中體育賽事的語言特點及專用詞匯的提取
要在體育語域語料庫中研究賽事語言的特點,單憑對統(tǒng)計詞表的研究是遠遠不夠的,孤立地看待一個專業(yè)的語料庫,并不能發(fā)現(xiàn)它的特點,因此,將其與一個通用語料庫統(tǒng)計出來的詞匯進行比較是必要的。這里我們只選取體育賽事詞表的前200詞與通用詞表《現(xiàn)代漢語頻率詞典·表二(2)頻率最高的前8000個詞詞表》(以下簡稱《表二》)的前200個詞進行比較。之所以選擇這個詞表,是因為其統(tǒng)計的語料具有通用語料庫的特點,體現(xiàn)一般交際語言的詞匯情況,符合比較的要求。
通過比較結(jié)果顯示,共有詞為一些語法功能詞(助詞、介引詞、限制詞等)。除此之外,表示動作的詞最多。共有詞匯中有8個詞是體育賽事200詞的前10位,可見體育賽事部分的最高頻詞語多為日常用語中的常用詞,而并不具有明顯的體育競技特色,與日常語域有著一定的共同性。但是我們也必須看到,共同詞只占總詞數(shù)的32%,比例相對較小,體育賽事詞匯大部分的詞是有別于日常語域的。賽事200詞中有136個是現(xiàn)漢200詞所沒有的,占到總數(shù)的68%,這說明體育賽事和日常語域有一定的差異性。
以上比較的規(guī)模雖然不大,但已經(jīng)充分顯示出兩表在詞匯上存在較大的差別,體育賽事部分的語料中含有大量的體育競技專用詞匯,造成這種差別的原因是它們所屬的語域不同。體育賽事200詞屬于體育賽事語域,因此詞匯必然體現(xiàn)體育賽事的競技特點。而《表二》統(tǒng)計的語料屬于交際語域,語料涉及報刊政論文章及專著、科普書刊、劇本和日常用語、各類體裁的文學作品等四類。它們比較結(jié)果的不同,恰好證明了語域不同所帶來的詞匯的差異,以及各自表現(xiàn)出的不同特點,反映出語域的獨特模式和規(guī)則。
五、體育賽事詞匯的其他研究
在前200詞比較的基礎上,我們提取了體育賽事的專用詞匯。下面我們可以運用同樣的方法,擴大研究的范圍,將所有體育賽事語料中的體育賽事專用詞匯提取出來,制成詞表。提取出來的詞表將為體育教學、體育語言詞典編撰和體育語言學的建立提供參考。
同時,我們還可以對體育賽事專用詞匯進行語義分類和義征分析。比如從體育賽事專用詞匯的語義出發(fā),我們可以將其分類,如組織、場地、項目等。每個大類下面,根據(jù)不同的意義,又分成了不同的小類。比如體育賽事的組織,下面又可以分為不同的義類。在語料庫的基礎上,我們可以繼續(xù)探究體育語域的語義網(wǎng)絡的關系。
這種研究的方法還可以推廣到其他的特定語域中。隨著研究的深入,可以發(fā)現(xiàn)詞匯間隱藏的語義聯(lián)系,從而有利于建構(gòu)不同的語義場體系,探尋一個完整的語義系統(tǒng)。
參考文獻:
[1]Biber等.CorpusLinguistics[M].外語教學與研究出版社.劍橋大學出版社,2000.
[2]北京語言學院語言教學研究所.現(xiàn)代漢語頻率詞典[M].北京語言學院出版社,1986.
[3]陳安槐等.體育大辭典[M].上海辭書出版社,2000.
[4]段慧明等.大規(guī)模漢語標注語料庫的制作與使用[J].語言文字應用,2002,(2).
[5]董振東,董強.面向信息處理的詞匯語義研究中的若干問題[J].語言文字應用,2001,(3).
[6]黃昌寧,李涓子.語料庫語言學[M].商務印書館,2002.
[7]李葆嘉.論言語的語層性、語域性和語體性[J].語文研究,2003,(1).
[8]衛(wèi)乃興等.語料庫應用研究[M].上海外語教育出版社.2005.