孫若紅,劉 巖
(沈陽(yáng)師范大學(xué) 外國(guó)語(yǔ)學(xué)院,遼寧 沈陽(yáng) 110034;沈陽(yáng)工程學(xué)院 公共外語(yǔ)教學(xué)部,遼寧 沈陽(yáng) 110136)
語(yǔ)料庫(kù)研究的常用方法
孫若紅1,劉 巖2
(沈陽(yáng)師范大學(xué) 外國(guó)語(yǔ)學(xué)院,遼寧 沈陽(yáng) 110034;沈陽(yáng)工程學(xué)院 公共外語(yǔ)教學(xué)部,遼寧 沈陽(yáng) 110136)
語(yǔ)料庫(kù)語(yǔ)言學(xué)中的量化不僅僅是語(yǔ)言特征的簡(jiǎn)單計(jì)數(shù),而是對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行精確的數(shù)學(xué)分析,從雜亂的數(shù)據(jù)中尋找規(guī)律,力求比較確切地揭示不同體裁的文本、甚至是不同語(yǔ)言之間真正存在的差異。語(yǔ)料庫(kù)相關(guān)研究中應(yīng)用的基本方法主要有詞語(yǔ)索引以及頻數(shù)的標(biāo)準(zhǔn)化、卡方檢驗(yàn)、Z值、T值和M I值計(jì)算等常用的統(tǒng)計(jì)方法。
詞語(yǔ)索引;頻數(shù)的標(biāo)準(zhǔn)化;卡方檢驗(yàn);Z值;T值;M I值
語(yǔ)料庫(kù)語(yǔ)言研究的主要特點(diǎn)是定量與定性分析相結(jié)合,因?yàn)檎Z(yǔ)料庫(kù)收集了大量的自然語(yǔ)言文本,能夠?yàn)槎ㄐ苑治鎏峁┛陀^的數(shù)據(jù)支持。但語(yǔ)料庫(kù)語(yǔ)言學(xué)中的量化不僅僅是語(yǔ)言特征的簡(jiǎn)單計(jì)數(shù),而是對(duì)復(fù)雜的數(shù)據(jù)進(jìn)行精確的數(shù)學(xué)分析,從雜亂的數(shù)據(jù)中尋找規(guī)律,力求比較確切地揭示不同體裁的文本、甚至是不同語(yǔ)言之間真正存在的差異,而不是因抽樣導(dǎo)致的偶然現(xiàn)象,這就要用到各種不同的研究方法。因此,本文主要介紹語(yǔ)料庫(kù)相關(guān)研究中應(yīng)用的基本方法,如詞語(yǔ)索引以及頻數(shù)的標(biāo)準(zhǔn)化、卡方檢驗(yàn)、Z值、T值和MI值計(jì)算等常用的統(tǒng)計(jì)方法。
詞語(yǔ)索引是最基本的語(yǔ)料庫(kù)分析手段,大多數(shù)研究都是通過(guò)觀察和分析導(dǎo)出的索引行來(lái)找出語(yǔ)言規(guī)律并對(duì)其進(jìn)行解釋的。那么,常用的語(yǔ)料庫(kù)檢索工具有哪些?索引行是如何呈現(xiàn)的?從索引行提供的語(yǔ)言數(shù)據(jù)中我們能觀察到什么?
(一)常用的語(yǔ)料庫(kù)檢索工具
建成語(yǔ)料庫(kù)僅僅是完成了語(yǔ)料的收集、整理和加工,基于語(yǔ)料庫(kù)的調(diào)查研究必須依靠各種檢索工具。目前,我國(guó)語(yǔ)料庫(kù)研究者應(yīng)用較多的檢索工具主要有WordSmith Tools和AntConc,當(dāng)然還有很多功能各異的專用工具或針對(duì)專門(mén)語(yǔ)料庫(kù)設(shè)計(jì)的檢索軟件。WordSmith是英國(guó)利物浦大學(xué)語(yǔ)料庫(kù)語(yǔ)言學(xué)家M.Scott在MicroConcord基礎(chǔ)上重新設(shè)計(jì)的檢索工具,由英國(guó)牛津大學(xué)出版社出版。該工具主要有詞表(WordList)、檢索(Concord)和主題詞提取(KeyWord)等三大功能,提供單詞或短語(yǔ)出現(xiàn)的語(yǔ)境和頻率、文本的主題意義等信息,使研究者可以從不同角度分析詞匯的運(yùn)用。WordSmith受版權(quán)保護(hù),如不購(gòu)買(mǎi),只能使用功能受到限制的演示版。AntConc則是一款免費(fèi)軟件,設(shè)計(jì)者為日本早稻田大學(xué)的Laurence Anthony,其功能與WordSmith類(lèi)似,既支持簡(jiǎn)單檢索,也支持利用正則表達(dá)式進(jìn)行的復(fù)雜檢索。
(二)索引行及其提供的語(yǔ)言信息
詞語(yǔ)索引是一個(gè)被搜索詞語(yǔ)及其所處語(yǔ)境的集合[1]。索引軟件一般以被搜索詞語(yǔ)為中心將索引行顯示在電腦屏幕上,出現(xiàn)在屏幕中間的被搜索詞語(yǔ)稱作節(jié)點(diǎn)詞(node word),有時(shí)也被稱作關(guān)鍵詞(key word)或搜索詞(search word),它們左邊和右邊的詞匯構(gòu)成了它們所處的語(yǔ)境(見(jiàn)圖1)。索引行能為我們提供關(guān)于語(yǔ)言使用的多種信息:如“典型性”“中心性”、近義詞意義的差別以及意義與型式之間的關(guān)系等。
圖1 詞語(yǔ)索引行樣本
傳統(tǒng)的語(yǔ)言描述注重區(qū)分某種語(yǔ)言中“正確的”和“不正確的”話語(yǔ),但卻很少關(guān)注實(shí)際語(yǔ)言運(yùn)用中哪些話語(yǔ)經(jīng)常出現(xiàn),哪些話語(yǔ)極少出現(xiàn)。語(yǔ)料庫(kù)雖然不能而且也無(wú)法決定哪些話語(yǔ)是“正確的”或“不正確的”,但它能夠提供關(guān)于語(yǔ)言使用的“中心性”(centrality)和“典型性”(typicality)方面的信息。所謂典型性是指某個(gè)單詞或短語(yǔ)常用的意義、搭配或用法,如recipe for的典型意義是其隱喻意義,而不是字面意義。介詞for后面的詞匯多為名詞或名詞短語(yǔ),它們的意義既有消極的(如disaster、trouble等),也有積極的(如successful learning、happiness、successful relationship等)或中性的(如game-bird stuffings),而且含有消極意義的名詞或短語(yǔ)略多一些。當(dāng)recipe for具有隱喻意義時(shí),其前面的詞匯通常是BE和限定詞a。可見(jiàn),雖然短語(yǔ)recipe for有一系列不同的意義、搭配和語(yǔ)法語(yǔ)境,但它的典型用法是用于“something is a recipe for something bad/good/neutral”這一型式中。
“中心性”是指某一范疇的最常用的用法,而不是單個(gè)的詞匯。例如:在英語(yǔ)中,現(xiàn)在進(jìn)行時(shí)表示現(xiàn)在(如he is listening to music at the moment)、未來(lái)(如he is leavingfor NewYork tomorrow)或不表示具體的時(shí)間(如she is always complaining)。但是,現(xiàn)在進(jìn)行時(shí)表示未來(lái)或不表示具體時(shí)間的用法相對(duì)較少出現(xiàn),所以指“現(xiàn)在”才是該時(shí)態(tài)的中心用法。
除了“典型性”和“中心性”等語(yǔ)言規(guī)律外,觀察語(yǔ)料庫(kù)中近義詞的典型用法可以澄清它們之間意義上的差別。這是詞典無(wú)法辦到的,因?yàn)樵~典是分別定義詞語(yǔ)的,而不是采用對(duì)比的方法。例如:詞典對(duì)big、large和great三個(gè)近義詞的定義是類(lèi)似的,甚至用其中的一個(gè)詞去定義另外兩個(gè)詞。雖然這些詞表面看來(lái)意義相似,但它們的典型搭配卻在很大程度上存在差異。Biber利用Longman-Lancaster Corpus對(duì)上述三個(gè)詞右1搭配詞的研究證明了這一點(diǎn)。big常用于表示實(shí)際大小,large最常用于表示數(shù)量,而great除與deal搭配表示數(shù)量外,還表示“強(qiáng)度”、“大小”等更廣泛的意義[2]。
(三)索引行的抽樣
語(yǔ)料庫(kù)研究的優(yōu)勢(shì)之一是樣本量大,客觀性強(qiáng)。但是,由于語(yǔ)料庫(kù)的規(guī)模不斷擴(kuò)大,我們也面臨著如何處理大量語(yǔ)料的問(wèn)題。例如:DISCUSSION在BNC中出現(xiàn)的頻數(shù)為8 356次,索引行數(shù)為8 349行;在COCA中,其出現(xiàn)的頻數(shù)和索引行數(shù)同為33 945,而逐一分析成千上萬(wàn)個(gè)索引行是不可能實(shí)現(xiàn)的。這時(shí),我們需要借鑒Sinclair所倡導(dǎo)的對(duì)索引行進(jìn)行抽樣的方法。首先,任意抽取30個(gè)索引行,觀察詞語(yǔ)的使用型式;然后,再抽取30行,觀察是否有新的使用型式出現(xiàn);以此類(lèi)推,直到?jīng)]有新的型式出現(xiàn)為止。
BNC中DISCUSSION的前30個(gè)索引行顯示,緊跟在其后面出現(xiàn)的詞為event,of,with,by,paper;在之后的 30行中,又出現(xiàn)了 on,about,to,that;在61-90行中,除了已出現(xiàn)的部分詞語(yǔ)外,又增加了in,document,whether。仔細(xì)分析上述90個(gè)索引行,可以總結(jié)出下面的規(guī)律:當(dāng)DISCUSSION后面出現(xiàn)名詞時(shí)(如event,paper,document),DISCUSSION作定語(yǔ),限定后面的名詞;DISCUSSION后面的of,on,about介詞短語(yǔ)說(shuō)明討論的對(duì)象;with短語(yǔ)說(shuō)明討論的參與者;by短語(yǔ)引出的是討論的主體;that和whether引導(dǎo)同位語(yǔ)從句,說(shuō)明討論的具體內(nèi)容。另外兩個(gè)詞to與in的出現(xiàn)與DISCUSSION無(wú)關(guān),to的出現(xiàn)是動(dòng)詞cut的要求,“cut…to…”表示“縮減到何種程度”,而in則出現(xiàn)在了短語(yǔ)in principle(原則上,基本上)當(dāng)中。請(qǐng)看圖1中的索引行例證。
以上分析表明,Sinclair提出的索引行抽樣方法是切實(shí)可行的。我們可以通過(guò)觀察少量的索引行形成初步的假設(shè),之后再增加索引行的數(shù)量反復(fù)驗(yàn)證并修正假設(shè),直到最終得出符合語(yǔ)言事實(shí)的結(jié)論。
基于語(yǔ)料庫(kù)的對(duì)比中介語(yǔ)分析(CIA)主要有兩個(gè)研究維度:一是中介語(yǔ)與目的語(yǔ)之間的對(duì)比分析,二是中介語(yǔ)之間的對(duì)比分析。那么,在進(jìn)行對(duì)比中介語(yǔ)分析時(shí)如何將定性與定量分析技術(shù)結(jié)合起來(lái),以使研究結(jié)果更科學(xué)、更有說(shuō)服力呢?
(一)描述統(tǒng)計(jì)
語(yǔ)料庫(kù)中樣本的存儲(chǔ)方式是非常靈活的,可以把每個(gè)文本作為一個(gè)獨(dú)立的文件存儲(chǔ),也可以對(duì)文本進(jìn)行分類(lèi),把屬于同一類(lèi)型的文本作為一個(gè)文件存儲(chǔ)。因此,對(duì)語(yǔ)料庫(kù)所做的描述統(tǒng)計(jì)是指對(duì)其中每個(gè)文本、每一類(lèi)文本或整個(gè)語(yǔ)料庫(kù)的總體特征的統(tǒng)計(jì)。這些特征包括:文件的大?。╞ytes,字節(jié)數(shù))、文件的形符數(shù)(tokens,單詞的數(shù)量)、類(lèi)符數(shù)(types,不同單詞的數(shù)量)、類(lèi)符形符比(type/token ratio)、平均詞長(zhǎng)(average word length)、句子數(shù)(sentences)、句長(zhǎng)(paragraph length)、句長(zhǎng)標(biāo)準(zhǔn)差(standard deviation of sentence length)、段落數(shù)(paragraphs)、段落長(zhǎng)度(paragraph length)、段落長(zhǎng)標(biāo)準(zhǔn)差(standard deviation of paragraph length)以及按字母數(shù)計(jì)算的單詞數(shù)量(如1字母單詞、2字母單詞)等。應(yīng)用Wordsmith的詞表工具可以進(jìn)行上述統(tǒng)計(jì)分析。
(二)頻數(shù)統(tǒng)計(jì)的標(biāo)準(zhǔn)化
運(yùn)用語(yǔ)料庫(kù)的方法統(tǒng)計(jì)不同文本中某些語(yǔ)言特征的頻率時(shí),確保數(shù)據(jù)的可比性是非常重要的。例如:DISCUSSION一詞在英國(guó)國(guó)家語(yǔ)料庫(kù)(BNC)中出現(xiàn)的頻數(shù)為8 356次,而在美國(guó)當(dāng)代英語(yǔ)語(yǔ)料庫(kù)(COCA)中出現(xiàn)的頻數(shù)為33 945次。那么,是否可以說(shuō)DISCUSSION在美國(guó)當(dāng)代英語(yǔ)語(yǔ)料庫(kù)中更常用呢?顯然,這樣的結(jié)論是錯(cuò)誤的,因?yàn)镃OCA的容量約為BNC的4.5倍,DISCUSSION出現(xiàn)的機(jī)會(huì)更多,簡(jiǎn)單地比較原始數(shù)據(jù)無(wú)法準(zhǔn)確地描述該詞在兩個(gè)語(yǔ)料庫(kù)中的使用情況。這時(shí),我們可以將原始數(shù)據(jù)“標(biāo)準(zhǔn)化”,也就是計(jì)算DISCUSSION在兩個(gè)語(yǔ)料庫(kù)中出現(xiàn)的“標(biāo)準(zhǔn)化頻數(shù)”,之后就可以比較了。標(biāo)準(zhǔn)化頻數(shù)的計(jì)算方法為:用檢索項(xiàng)的實(shí)際觀察頻數(shù)(如8 356、33 945)除以總體頻數(shù)(文本或語(yǔ)料庫(kù)的總詞數(shù)),然后再乘以1百(1千、1萬(wàn)、百萬(wàn))得到檢索項(xiàng)平均每百(千、萬(wàn)、百萬(wàn))詞的出現(xiàn)頻率。
(三)頻數(shù)差異檢驗(yàn)
在基于語(yǔ)料庫(kù)的對(duì)比中介語(yǔ)分析中還常常需要檢驗(yàn)數(shù)據(jù)之間的差異是偶然的,還是具有顯著性。在語(yǔ)料庫(kù)語(yǔ)言學(xué)中,最常用的方法是卡方檢驗(yàn)(chi-squared test或x2)。與其他顯著性檢驗(yàn)相比,卡方檢驗(yàn)的主要優(yōu)勢(shì)在于它無(wú)需假定數(shù)據(jù)是正態(tài)分布的,而多數(shù)語(yǔ)言數(shù)據(jù)也恰恰不服從正態(tài)分布[3]。卡方檢驗(yàn)的主要缺點(diǎn)是:當(dāng)頻數(shù)很小時(shí),它的可靠性很差。所以,在計(jì)算卡方值時(shí)不能用比例數(shù)據(jù),如百分?jǐn)?shù)等。
卡方檢驗(yàn)比較的是某個(gè)語(yǔ)言特征在語(yǔ)料庫(kù)中的實(shí)際觀察頻數(shù)和預(yù)期頻數(shù)之間的差異。預(yù)期頻數(shù)與觀察頻數(shù)越接近,觀察頻數(shù)為偶然結(jié)果的可能性越大。相反,預(yù)期頻數(shù)與觀察頻數(shù)之間的差異越大,觀察頻數(shù)越可能受到了非偶然因素的影響。
計(jì)算卡方值非常方便、實(shí)用的工具是梁茂成、李文中、許家金等開(kāi)發(fā)的 Chi-Square Calculator。DISCUSSION在BNC和COCA中分別出現(xiàn)8 356次和33 945次,那么,這兩個(gè)頻數(shù)之間是否存在顯著差異呢?只要打開(kāi)上述工具的工作表,分別輸入BNC和COCA的總字?jǐn)?shù),然后在數(shù)據(jù)表中輸入DISCUSSION在兩個(gè)語(yǔ)料庫(kù)中的頻數(shù),就會(huì)得到如圖2所示的卡方值及其對(duì)應(yīng)的顯著性水平的p值。
圖2 DISCUSSION在BNC和COCA中出現(xiàn)的頻數(shù)比較
圖中的卡方值為70.2619,p值為0.000,說(shuō)明DISCUSSION在兩個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率具有顯著差異。
(四)Z值、T值和MI值
學(xué)習(xí)者的心理詞匯不僅僅由單個(gè)的詞組成,還包括更大的短語(yǔ)單位。因此,識(shí)別語(yǔ)篇中詞語(yǔ)的共現(xiàn)形式和短語(yǔ)對(duì)自然語(yǔ)言處理和語(yǔ)言教學(xué)具有重要意義。但是,在連續(xù)的語(yǔ)篇中,每個(gè)詞都是與其他詞一起出現(xiàn)的,如何確認(rèn)哪些共現(xiàn)的詞語(yǔ)屬于顯著搭配而不是偶然共現(xiàn)呢?最常用的三個(gè)計(jì)算搭配顯著性的方法是互信息值(MI值)、Z值(Z-score)和T值(T-score)。
在語(yǔ)料庫(kù)中,一個(gè)詞與另外一個(gè)詞的互信息值表明兩個(gè)詞關(guān)系的緊密程度。換句話說(shuō),一個(gè)詞只與某個(gè)詞共現(xiàn),而不會(huì)出現(xiàn)在其他詞附近時(shí),其互信息值就會(huì)非常大。反之,一個(gè)詞與另外一個(gè)詞共現(xiàn)頻率很高,但與其他詞的共現(xiàn)頻率也很高,其互信息值就會(huì)很小。例如:solve與problem的共現(xiàn)頻率高,互信息值也高,但the與problem的共現(xiàn)頻率很高,互信息值卻很低,說(shuō)明the也以很高的頻率出現(xiàn)在其他詞附近[4]。Hunston提出互信息值大于“3”的搭配詞為顯著搭配詞[5]。在BNC中,與suggestion一詞構(gòu)成強(qiáng)搭配的部分動(dòng)詞及其互信息值如下:refutes(9.20)、refuted(7.52)、refute(7.15)、rejects(6.15)、reject(5.11)、rejected(4.82)。這表明refute和reject的各種形式都是suggestion的顯著搭配詞。
圖3 按Z值高低排序的搭配結(jié)果
Z值比較的是被研究詞匯(節(jié)點(diǎn)詞)周?chē)欢ㄕZ(yǔ)境范圍內(nèi)(例如:節(jié)點(diǎn)詞右各5個(gè)詞)所有搭配詞的實(shí)際出現(xiàn)頻數(shù)與它們的期望頻數(shù)之間的差距。Z值越高,某一詞匯與節(jié)點(diǎn)詞之間的搭配力就越強(qiáng)。研究者通常把Z值定為“2”,也就是說(shuō),Z值超過(guò)2的搭配詞是有顯著意義的搭配詞。圖3是利用BFSUCollocator提取的LOCNESS語(yǔ)料庫(kù)(TheLouvainCorpusofNative EnglishEssays)中that一詞的搭配情況。
從圖中可以看到,Z值較高的that的搭配詞主要是動(dòng)詞,如argue,agree,assume,admit等,再觀察含節(jié)點(diǎn)詞和搭配詞的索引行,我們發(fā)現(xiàn)這些動(dòng)詞都出現(xiàn)在節(jié)點(diǎn)詞that的左側(cè),體現(xiàn)了that作為連接詞引出賓語(yǔ)從句這一常見(jiàn)用法。
通過(guò)計(jì)算互信息值和Z值可以從語(yǔ)料庫(kù)中提取“多詞單位”,即我們通常所說(shuō)的慣用語(yǔ)和多詞名詞短語(yǔ)?;バ畔⒅岛蚙值的另外一個(gè)作用是提取語(yǔ)料庫(kù)中詞語(yǔ)的一般搭配形式,進(jìn)而將某一詞語(yǔ)的不同搭配進(jìn)行分組,以便確定該詞的不同意義。例如:在BNC中,strong的顯著搭配詞主要有winds,swimmer,supporter,ties,resemblance,attachment,correlation和形容詞immensely等,這些詞與strong的共現(xiàn)頻率相對(duì)較高,MI值均大于3。powerful的顯著搭配詞主要有l(wèi)obby,tool,weapon,ally,header,locomotives和形容詞immensely等,它們與powerful的共現(xiàn)頻率和MI值也相對(duì)較高。除了形容詞immensely是strong和powerful的共同搭配詞外,其他搭配詞似乎沒(méi)有規(guī)律可循。盡管如此,上述搭配詞還是體現(xiàn)了strong和powerful的一些細(xì)微差別,有助于提高學(xué)習(xí)者詞語(yǔ)使用的準(zhǔn)確性和地道性。
如果說(shuō)MI值測(cè)量的是兩個(gè)詞語(yǔ)之間聯(lián)系的密切程度,那么T值測(cè)量的是詞語(yǔ)搭配的確定性,因?yàn)門(mén)值計(jì)算出的搭配詞以高頻詞為主。T值約定俗成的臨界值為“2”。Z值和T值的差異則體現(xiàn)在以下兩個(gè)方面:1.兩者在計(jì)算方法上有細(xì)小的差異,前者更為簡(jiǎn)單。2.Z值用于檢驗(yàn)小樣本時(shí)不夠準(zhǔn)確,只適用于大樣本的檢驗(yàn);T值即可用于小樣本的檢驗(yàn)也可用于大樣本的檢驗(yàn)。但是,在語(yǔ)料庫(kù)語(yǔ)言學(xué)研究中,個(gè)體數(shù)量小于30的小樣本非常少見(jiàn),屬于大樣本。所以,Z值在實(shí)際研究中更為常用。
MI值、Z值和T值都可用于計(jì)算詞語(yǔ)的搭配強(qiáng)度,但它們有各自的優(yōu)缺點(diǎn)。MI值和Z值容易將低頻詞視作某一詞語(yǔ)的強(qiáng)搭配詞,即偏重低頻詞,而T值有偏重高頻詞的問(wèn)題。因此,我們很難說(shuō)哪種搭配統(tǒng)計(jì)方法更合理。在實(shí)際運(yùn)用中,應(yīng)結(jié)合研究的需要選擇適當(dāng)?shù)慕y(tǒng)計(jì)方法,或兼顧不同的統(tǒng)計(jì)方法。
[1]Sinclair,J.Corpus,Concordance,Collocation[M]. Oxford:Oxford UniversityPress,1991:32.
[2]Biber,D.et al.Corpus Linguistics[M].北京:外語(yǔ)教學(xué)與研究出版社,2000:44-52.
[3]McEnery,T.&A.Wilson.Corpus Linguistics[M]. Edinburgh:Edinburgh UniversityPress,1996:61-84.
[4]衛(wèi)乃興,李文中,濮建忠.語(yǔ)料庫(kù)應(yīng)用研究[M].上海:上海外語(yǔ)教育出版社,2005:121.
[5]Hunston,S.Corpora in Applied Linguistics[M].北京:世界圖書(shū)出版公司北京公司,2006:71.
Methodology of Corpus Research
Sun Ruohong1,Liu Yan2
(1.College ofForeign Languages,ShenyangNormal University,ShenyangLiaoning110034;2.Department ofForeign Languages ShenyangInstitute ofEngineering,ShenyangLiaoning110136)
The quantitative research of corpus linguistics doesn’t mean the simple counting of language characteristics.Rather,it refers to the precise mathematical analysis of data.The purpose of such research is to reveal the differences in language use between different genres oftext or even different languages.The frequentlyused research methods include concordancing and statistical methods like standardized frequency,chi-square test,Z-score,T-score and MI-score.Concordance lines provide a variety of information about language use like“centrality”,“typicality”and the sense differences between synonyms.MI-score,Z-score and T-score are usually used to calculate the strength of collocation,but they have their own advantages and disadvantages.MI-score and Z-score are biased towards low-frequency words,while T-score are biased towards high-frequency words.Therefore,in practice,research needs should be taken into account in the selection of statistical methods,and another way out is to employ different statistical methods.
concordancing;standardizedfrequency;chi-squaretest;Z-score;T-score;MI-score
H 313
A
1674-5450(2016)02-0072-04
2015-10-25
教育部人文社會(huì)科學(xué)研究規(guī)劃基金項(xiàng)目(11YJA740078)
孫若紅,女,天津人,沈陽(yáng)師范大學(xué)教授,主要從事語(yǔ)料庫(kù)語(yǔ)言學(xué)及英語(yǔ)教學(xué)研究。
【責(zé)任編輯:趙踐責(zé)任校對(duì):詹麗】