中圖分類號(hào):H319.3 文獻(xiàn)標(biāo)識(shí)碼:A
摘要:計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅速發(fā)展和一些優(yōu)秀的電子語(yǔ)料庫(kù)索引分析軟件的出現(xiàn)使電子文本的收集變得簡(jiǎn)便而快捷,也使對(duì)語(yǔ)料庫(kù)的分析和深入研究成為可能。近年來(lái),已有個(gè)別教師開(kāi)始嘗試?yán)秒娮诱Z(yǔ)料庫(kù)工具來(lái)輔助教學(xué)和科研。本文簡(jiǎn)單介紹了電子語(yǔ)料庫(kù)的發(fā)展歷程、常用統(tǒng)計(jì)分析參數(shù)和原理以及幾個(gè)常用的語(yǔ)料庫(kù)索引分析軟件。
關(guān)鍵詞:電子語(yǔ)料庫(kù);語(yǔ)料庫(kù)索引分析軟件
電子語(yǔ)料庫(kù)是指按照一定的語(yǔ)言學(xué)原則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的連續(xù)的語(yǔ)言運(yùn)用文本或話語(yǔ)片段而建成的具有一定容量的大型電子文庫(kù)。電子語(yǔ)料庫(kù)最重要的特點(diǎn)是能迅速且精確地呈現(xiàn)出與輸入關(guān)鍵詞有關(guān)的海量真實(shí)語(yǔ)言情境,并以KWIC(Key Words In Context)等形象的方式呈現(xiàn)。目前電子語(yǔ)料庫(kù)已廣泛應(yīng)用于詞典編纂、語(yǔ)言學(xué)研究以及大規(guī)模語(yǔ)言測(cè)試的命題中,有些教師也開(kāi)始嘗試將其運(yùn)用于教學(xué)和科研。
一、語(yǔ)料庫(kù)的發(fā)展歷程
20世紀(jì)50年代以前,語(yǔ)料庫(kù)這個(gè)概念就已經(jīng)存在。但是,這一時(shí)期的語(yǔ)料庫(kù)主要是人工收集起來(lái)的紙質(zhì)文本材料,與今天所說(shuō)的電子語(yǔ)料庫(kù)有很大的區(qū)別。這一時(shí)期主要是用人工方法對(duì)大量的紙質(zhì)文本材料進(jìn)行索引和統(tǒng)計(jì),因而需要耗費(fèi)大量的人力和時(shí)間,速度非常慢,效率低下。
20世紀(jì)50年代以后,計(jì)算機(jī)已經(jīng)在一些科學(xué)研究領(lǐng)域得到應(yīng)用。這一時(shí)期,計(jì)算機(jī)成為研究語(yǔ)料庫(kù)的有力工具。計(jì)算機(jī)和電子語(yǔ)料有機(jī)結(jié)合形成了效率較高的電子語(yǔ)料庫(kù)管理索引系統(tǒng)。
20世紀(jì)90年代以來(lái),計(jì)算機(jī)的性能有了極大的提高,價(jià)格逐步下降,因特網(wǎng)的應(yīng)用日趨廣泛,網(wǎng)絡(luò)上的電子文本材料數(shù)量飛速增長(zhǎng),將紙質(zhì)文本材料電子化的各種設(shè)備逐漸普及,一些優(yōu)秀的電子語(yǔ)料庫(kù)分析統(tǒng)計(jì)軟件也被開(kāi)發(fā)出來(lái),這使電子文本的收集和分析變得簡(jiǎn)便而快捷,一些較為知名的大型語(yǔ)料庫(kù)也開(kāi)始出現(xiàn)。近年來(lái),隨著計(jì)算機(jī)在教育領(lǐng)域的迅速普及,有個(gè)別語(yǔ)言教師特別是英語(yǔ)教師也開(kāi)始嘗試?yán)秒娮诱Z(yǔ)料庫(kù)工具來(lái)輔助教學(xué)和科研。
二、電子語(yǔ)料庫(kù)的常用統(tǒng)計(jì)分析參數(shù)
1、標(biāo)準(zhǔn)化類符形符比
形符數(shù)指語(yǔ)料中的單詞總數(shù),同一個(gè)單詞出現(xiàn)多次需要多次計(jì)數(shù)。類符數(shù)指語(yǔ)料中的單詞形態(tài)數(shù)目,若同一個(gè)單詞出現(xiàn)多次只能計(jì)數(shù)一次。將研究分析范圍內(nèi)的語(yǔ)料分成等長(zhǎng)的若干部分,先計(jì)算出各個(gè)部分的類符數(shù)與形符數(shù)的比值,再將這些比值取算術(shù)平均值,就得到研究范圍內(nèi)語(yǔ)料的標(biāo)準(zhǔn)化類符形符比。該參數(shù)可以較好地反映出研究范圍內(nèi)語(yǔ)料的用詞變化性,標(biāo)準(zhǔn)化類符形符比越高則用詞變化性越強(qiáng)。
2、平均詞長(zhǎng)與平均句長(zhǎng)
平均詞長(zhǎng)是指語(yǔ)料中出現(xiàn)的形符的詞長(zhǎng)的算術(shù)平均值。平均句長(zhǎng)是指語(yǔ)料中全部句子中所包含形符數(shù)值的算術(shù)平均值。這兩個(gè)參數(shù)在語(yǔ)料分析與研究中也有重要參考意義。
3、詞頻、關(guān)鍵詞和關(guān)鍵性
詞頻是指語(yǔ)料中每一個(gè)類符出現(xiàn)的頻率。關(guān)鍵詞是指與某一標(biāo)準(zhǔn)相比其頻率明顯偏高的詞看,偏高的程度就是其關(guān)鍵性。僅因?yàn)槟骋惶囟惙谡Z(yǔ)料中的詞頻顯著地高就將其判定為關(guān)鍵詞是不可取的,還要看其在參照語(yǔ)料庫(kù)中的詞頻,而參照語(yǔ)料庫(kù)的規(guī)模要足夠大。
一般來(lái)說(shuō),我們用x2值來(lái)表示某一特定關(guān)鍵詞的關(guān)鍵性:
x2=(|fn-cm|-(f+c+m+n)/2)(f+c+m+n)/((f+n)(f+m)(f+c)(m+n))
其中,f代表某一單詞在研究范圍內(nèi)的語(yǔ)料中的詞頻,c代表該單詞在參照語(yǔ)料庫(kù)中的詞頻,m代表研究范圍內(nèi)的語(yǔ)料的形符總數(shù), c代表參照語(yǔ)料庫(kù)的形符總數(shù)。
一般來(lái)說(shuō),如果一個(gè)單詞的x。2值大于3.8,我們便可認(rèn)定其在研究范圍內(nèi)的語(yǔ)料中具有較為顯著的關(guān)鍵性。
4、搭配詞與搭配力
英國(guó)伯明翰大學(xué)的辛克萊教授認(rèn)為搭配是兩個(gè)或兩個(gè)以上的詞在文本中很短距離內(nèi)的共現(xiàn)。這一定義使得設(shè)計(jì)程序判斷某一特定單詞的搭配詞及兩者的搭配力變得可能。
我們一般用Z值來(lái)表征搭配力。表1是通過(guò)檢索得到的某單詞在某語(yǔ)料庫(kù)中的語(yǔ)境塊。每個(gè)單元格是一個(gè)形符,行數(shù)為t,左右跨距均為s,假設(shè)該語(yǔ)料庫(kù)的形符數(shù)目為n。Lij在該語(yǔ)料庫(kù)中共出現(xiàn)m次,則Lij的形符在該語(yǔ)料庫(kù)全部形符中的占比是r=m/n。Lij在該語(yǔ)境塊中的期望出現(xiàn)次數(shù)為e=mt(2s+1)/n。假設(shè)語(yǔ)境塊中一共有c個(gè)與Lij相同的形符,則我們可以求出Lij在表1所示的語(yǔ)境塊中分布的標(biāo)準(zhǔn)差SD=(r(1-r)t(2s+1))1/2。Z=(c-e)/SD。如果Z大于或等于2,則可以認(rèn)為L(zhǎng)ij與W之間的搭配力顯著。