【摘要】語料庫間多特征相似性比較可采用的統(tǒng)計方法包括卡方檢驗、秩相關(guān)檢驗和卡方相似性檢驗。以350個常用詞匯為例的語料庫統(tǒng)計實驗研究表明,在較大樣本的多特征語言研究中,卡方檢驗很容易得出語料庫之間具有顯著性差異的結(jié)論,秩相關(guān)檢驗同樣容易得出參與比較的文體具有顯著相關(guān)的結(jié)論,而卡方相似性檢驗采用統(tǒng)計量相對值作為推斷的根據(jù),可得到較為細致的語料庫之間相似程度的研究結(jié)果。
【關(guān)鍵詞】語料庫;多特征相似性比較;卡方相似性檢驗
【中圖分類號】G420【文獻標識碼】A 【論文編號】1009—8097(2010)08—0083—05
“語料庫語言學是一種方法論,它幾乎可以應(yīng)用于語言學研究的所有領(lǐng)域”[1],而語料庫研究離不開統(tǒng)計方法。目前,國內(nèi)基于語料庫的語言研究大多是對某一項特征或者多個特征中的每一項在不同語料庫之間的比較研究,采用的統(tǒng)計方法主要是卡方檢驗[2][3],很少涉及多個特征或者說一組特征作為一個整體在不同語料庫之間的比較。單項特征的分析可以發(fā)掘出不同語體中某個語言點的異同,但只有把多項特征作為一個整體來研究,才可能發(fā)現(xiàn)不同語體在某一個較大方面的總體差異,從而在更宏觀的層次上進行語言研究。本研究通過語料庫統(tǒng)計的實驗研究,探討語料庫之間多特征相似性比較的不同統(tǒng)計方法,并分析其各自的優(yōu)勢和不足。
一 文獻綜述
語料庫之間多個特征的比較,首先可用的是通過卡方檢驗(Chi-square test),觀察數(shù)據(jù)之間分布的擬合狀況,從而判斷是否存在差異;第二個可選方案是Spearman秩相關(guān)檢驗(Rank correlation analysis),觀察兩組數(shù)據(jù)間的相關(guān)性如何,高相關(guān)意味著兩組數(shù)據(jù)分布相似度較高;另外一個方法是Kilgarriff[11]在語料庫比較研究中提出的卡方相似性檢驗,即CBDF(chi by degrees of freedom)檢驗,結(jié)合語料庫中的詞頻信息比較多特征之間的相似度[4]。
1 卡方檢驗
卡方檢驗是利用隨機樣本對總體分布與某種特定分布擬合程度的檢驗,也就是檢驗測量值與理論值之間的緊密程度[5]。語料庫研究中經(jīng)常采用的是兩語料庫中某特征是否存在差異的2×2列聯(lián)表檢驗。2×2列聯(lián)表可推廣到具有r行c列的列聯(lián)表,即r×c列聯(lián)表,用以檢驗不同語料庫中多項特征總體分布是否具有顯著性差異。
但卡方檢驗用于語言研究存在一個問題,就是隨著樣本量的增大,零假設(shè)會越來越容易推翻,即卡方檢驗的樣本量相關(guān)性[4]。一個比較極端的例子就是,兩個對比的語料庫容量加倍,如果所研究的詞匯數(shù)量在兩個庫中同時加倍,得到的統(tǒng)計量就近乎加倍。這樣,原來不具有顯著性差異的可能就有差異了,原來差距較小的變得顯著了,但實際上該詞匯在兩個語料庫中的使用并沒有變化。雖然真實語料中的詞匯數(shù)量并不會隨語料量的增長而同比增長,但二者之間確實是有聯(lián)系的,研究[6]表明,某個詞匯一旦在文檔中出現(xiàn),那么它再次在該文檔中出現(xiàn)的可能性就較大,即詞匯的出現(xiàn)并不是完全隨機或者是獨立的,而觀察獨立性是卡方檢驗必要的前提條件之一[7][8]。由于該條件的違反,我們應(yīng)該對卡方檢驗結(jié)果的解釋持謹慎態(tài)度。
2 Spearman秩相關(guān)檢驗
相關(guān)檢驗用于發(fā)掘數(shù)據(jù)中的關(guān)系模式[9],是一種應(yīng)用廣泛的測定變量關(guān)聯(lián)程度的方法。最常用的相關(guān)系數(shù)是簡單相關(guān)系數(shù),即Pearson相關(guān)系數(shù),其計算需要變量為定距或定比變量[10],而且變量中的所有特征值均需獨立,并呈正態(tài)分布[4]。雖然語言研究中以計數(shù)數(shù)據(jù)為多,能夠符合定距數(shù)據(jù)的標準,但詞匯等語言現(xiàn)象出現(xiàn)卻并不是獨立的;另外,語言中很多特征的分布不符合正態(tài)分布,這都會對相關(guān)系數(shù)的計算產(chǎn)生一定的影響。Pearson相關(guān)系數(shù)在語言研究應(yīng)用中的另外一個比較嚴重的問題就是極端值的影響,一個嚴重的極端值甚至能夠改變整個相關(guān)的方向,對Pearson相關(guān)系數(shù)產(chǎn)生極強的破壞力。
因此,在語言現(xiàn)象研究中,往往不能直接使用簡單相關(guān)系數(shù),而是使用秩相關(guān)檢驗,即Spearman相關(guān)系數(shù)rs,通過把變量進行排序,然后利用變量的秩次大小作線性相關(guān)分析。該檢驗可以較好地解決極端值影響的問題,因為原始數(shù)據(jù)轉(zhuǎn)換為秩以后,其影響就小得多。一個變量中的最大值可能比第二大的值要高很多,但從秩而言,只不過高一個等級而已。另外,秩相關(guān)檢驗對原始變量的分布不作要求,屬于非參數(shù)統(tǒng)計方法,更適用于語言研究。
McEnery[1]利用Spearman秩相關(guān)系數(shù)研究了一定時間段內(nèi)人工標注詞性的速度與準確率的關(guān)系,表1是其研究數(shù)據(jù)的一個片段,X欄是每個研究對象在2小時內(nèi)標注詞性的詞匯數(shù)量,Y欄是準確率(%)。
利用公式或者統(tǒng)計軟件計算可得到Spearman相關(guān)系數(shù)rs為0.26。該結(jié)果顯示兩個變量存在較弱的正相關(guān)。但這僅是樣本的相關(guān)系數(shù),要據(jù)此判斷抽樣總體中兩個變量之間的相關(guān)關(guān)系,需要在確定的顯著性水平上,以樣本容量n查找統(tǒng)計表格,確定關(guān)鍵值。在5%的顯著性水平上,n=6時,關(guān)鍵值為0.886。由于樣本相關(guān)系數(shù)遠小于該關(guān)鍵值,因此,在5%的顯著性水平上,目前的數(shù)據(jù)難以說明詞性標注速度與標注準確率有相關(guān)關(guān)系。
Spearman相關(guān)系數(shù)的計算簡單,對樣本量沒有要求。但是,有研究者指出,該方法用于多詞匯特征相似性研究存在一定的問題。Kilgarriff[11]認為,對于非常高頻的詞匯,如在不同文本間有著不同的秩,這個差異就是非常顯著的。比如the在語料庫X中是用得最多的詞匯,但在語料庫Y中排第3,這表明了兩種體裁的高度差異。但是對于尺度的另一端,情況卻完全相反。比如bread在語料庫X中排號為400,在Y中為500,從中看不出文體的差異。然而,Spearman相關(guān)系數(shù)中后者的分量遠大于前者。因此,Kilgarriff[11]提出了基于卡方和語料庫詞匯信息的相似性檢驗(CBDF)方法,用以檢驗語料庫之間的相似性。該方法同樣可用于語料庫間多特征相似性比較研究。
3 CBDF檢驗
CBDF的提出是為了比較語料庫的異同,而語料庫之間的相似程度是相對的,參照的標準就是語料庫自身的情況。因此,Kilgarriff[11]首先界定了語料庫的相似性(similarity)和一致性(homogeneity)兩個概念,并指出相似性的度量只能通過一致性來解釋,而且這兩個概念都是通過語料庫距離來衡量的。表2(Kilgarriff [11)列出了相似性和一致性的關(guān)系。
在表2中,“高”分意味著某語料庫內(nèi)部距離較大或者兩語料庫之間的距離較大,因此,某語料庫是異質(zhì)的或者兩語料庫不相似;“低”分意味著距離較小,因此,某語料庫是同質(zhì)的或者兩語料庫是相似的?!案摺?、“低”和“相等”是相對于同一行其他列來說的。如在第一行,所有三個分值都是“相等”,意味著兩個語料庫是同一文本類型。第二行,前兩列的“相等”說明語料庫1的內(nèi)部距離(一致性)與語料庫2的內(nèi)部距離大致相等,而“距離”一列的“高”說明兩個語料庫之間的距離顯著地高于兩個語料庫的內(nèi)部距離。因此,兩個語料庫之間的對比可以得到很直觀的解釋:由于兩個語料庫各自在內(nèi)部一致性方面沒有根本性的差異,而二者比較的結(jié)果說明它們之間明顯屬于不同的語言變體。
第3和第4行展示了一個相對異質(zhì)的語料庫(語料庫1)與一個相對同質(zhì)的語料庫(語料庫2)比較的兩種可能的結(jié)果。兩個語料庫之間的距離不可能比相對異質(zhì)的語料庫1的內(nèi)部距離低很多。如果這個距離(兩語料庫之間的距離)大致等于語料庫1的內(nèi)部距離,其解釋就是語料庫2居于語料庫1的范圍內(nèi);如果這個距離較大,(語料庫2)就居于(語料庫1的范圍)之外。
最后兩行展示了通用語料庫與專用語料庫之間的差異。前兩列中高和低的分值是相對于語言規(guī)范來解釋的。特別是語料庫內(nèi)部距離的高分值表示了包括多種語言變體的通用語料庫。通用語料庫之間的相似性展示的實際上是各自語料庫所代表的語言變體是否相同,以及在多大程度上相同。語料庫內(nèi)部距離分值較低的比較典型的情況是:語料庫只包含單獨一種語言變體。因此這里的分值可以解釋為兩種語言變體之間距離的度量。
Kilgarriff的距離度量是通過計算兩個語料庫中N個詞匯特征的卡方值,然后除以自由度得到的。因為自由度等于所研究詞匯的數(shù)量N加上剩余詞匯(reminder)減一,因此,實際上就等于要研究的詞匯特征數(shù)量N。Kilgarriff[11]的實驗表明,采用320個到640個詞匯特征,比較的效果較為理想。語料庫一致性度量步驟如下:1)語料庫切分成“塊”;2)把所有的塊隨機地分派到兩個集合,構(gòu)成兩個子語料庫;3)測量兩個子語料庫的相似性;4)重復2和3;5)計算所有測量的均值和標準差。語料庫相似性的計算方法類似,只是第2)步的兩個子語料庫分別由語料庫1隨機分出的一半和語料庫2隨機分出的一半構(gòu)成。
Kilgarriff[11]通過相似度已知的語料庫集合的比較證明,該方法比其他方法都更適用于語料庫差異性的比較。這里所謂的“語料庫差異性”比較的實際上就是代表語料庫性質(zhì)的特征集合的差異性,因此,可以直接用以衡量語料庫之間的多個特征的相似程度。
二 研究設(shè)計
1 研究問題
本研究以詞匯特征為研究對象,力圖回答下列兩個問題:
(1)卡方檢驗、秩相關(guān)檢驗和CBDF檢驗對語料庫之間多特征差異的統(tǒng)計結(jié)果有什么區(qū)別?
(2)在語料庫之間多詞匯特征差異比較方面,三種方法哪一種更適合?其優(yōu)勢是什么?各種方法的局限性有哪些?
2語料來源及預(yù)處理
本研究使用的語料庫是中國學習者語料庫CLEC(Chinese Learners English Corpus)[12]。為了確保統(tǒng)計方法評測的準確性,本研究僅統(tǒng)計文本中的詞形(token),不對詞匯做任何變換,所有縮寫都保持原形。編程過濾掉所有標注和標點(保留縮寫標點)之后,統(tǒng)計語料庫詞匯數(shù)量列于表3。
桂詩春、楊惠中[12]對CLEC詞匯的統(tǒng)計數(shù)量為1,070,602個,與本研究稍有差別,其原因可能是本研究對漢語拼音和英語縮寫詞的處理不夠精細,但這些詞匯顯然不屬于常用詞匯,數(shù)量也較少,對本研究不會構(gòu)成較大的負面影響。
為了采用CBDF方法,編程對五個子語料庫進行切塊處理,每塊包含2000至2100個詞匯。切塊首先以每篇作文為單位,但如果加入一篇作文超過上限,不加入又低于下限,則拆散該篇作文,以句子為單位加入,剩下的句子加入下一個切塊。最后得到527個切塊。各子語料庫的切塊情況見表4。
3 統(tǒng)計數(shù)據(jù)收集
根據(jù)Kilgarriff[11]的研究和本研究所用語料庫的情況,確定選取的詞匯特征為350個,即選取CLEC中最常用,并且在各子庫中的出現(xiàn)均不低于5次的詞匯350個,作為本研究中的高頻詞匯,其他詞匯作為非高頻詞匯。
對于卡方統(tǒng)計,編程統(tǒng)計5個子語料庫中高頻詞匯各自出現(xiàn)的次數(shù),并結(jié)合子語料庫詞匯總數(shù),計算非高頻詞匯總數(shù),最后計算5個子語料庫兩兩之間的卡方擬合統(tǒng)計量。
秩相關(guān)統(tǒng)計所需數(shù)據(jù)與卡方檢驗基本相同,只是不需要非高頻詞匯數(shù)量。編程計算5個子語料庫兩兩之間的秩相關(guān)統(tǒng)計量。
對于CBDF統(tǒng)計方法,按照Kilgarriff[11]的算法,編程進行計算。首先把每個子庫的所有切塊隨機分為兩部分,然后計算兩部分之間的卡方相似度,最后每個子庫各取一部分計算兩兩之間的卡方相似度。該過程進行30次,得到的結(jié)果計算均值和標準差。
三 結(jié)果與討論
對CLEC五個子庫兩兩之間的350個常用詞匯的卡方擬合統(tǒng)計數(shù)據(jù)列于表5。
表5中所有檢驗的自由度均為350,經(jīng)估算,在p為0.95時,關(guān)鍵值為394.34,在p為0.99時,關(guān)鍵值為413.70。表中所有數(shù)值均遠遠超過這兩個關(guān)鍵值。這說明由卡方統(tǒng)計量來看,所有CLEC的5個子庫在350個常用詞的使用上,在0.99的顯著性水平上均存在差異。但各個子庫之間差異的大小卻是不盡相同,這可以從卡方統(tǒng)計量的數(shù)值大小看出。這其中最明顯的如st6與其他幾個子庫之間的統(tǒng)計數(shù)據(jù)。st6與st5之間的卡方統(tǒng)計量最小,與st4、st3、st2之間的統(tǒng)計量逐漸增大。這從一定程度上說明了英語專業(yè)高年級英語的代表子庫st6在這350個基本詞匯的使用上與英語專業(yè)低年級子庫st5最相像,盡管它們之間也存在顯著性差異,而與高中英語的st2差異最大,非專業(yè)的大學英語子庫居于二者之間。st3和st4有著同樣的規(guī)律,即與其相鄰的子庫間卡方統(tǒng)計量較小,距離越遠,統(tǒng)計量逐漸增大。這說明st3和st4與其相鄰子庫較為相像,距離越遠,差異越大。這都比較符合人們的預(yù)期。
但是到了st2和st5情況就復雜的多了。對于st5,它與st6和st4的統(tǒng)計量差異不大,說明英語專業(yè)低年級子庫在這350個詞匯的使用上可能居于非英語專業(yè)高年級與英語專業(yè)高年級之間,而與非英語專業(yè)低年級的st3子庫差異較大。這都比較容易理解。但是st5與st2之間的統(tǒng)計量卻是所有卡方統(tǒng)計量中的最小值,該統(tǒng)計量的解釋就需要對語料庫進行詳細的探究。對于st2,它與st5有著最小的卡方統(tǒng)計量,但與其他3個子庫有著最大的三個卡方統(tǒng)計量。這說明在這350個常用詞匯的使用上,高中英語子庫st2與英語專業(yè)低年級子庫st5最是相近,但與其他子庫差距甚遠。對CLEC語料庫的深入檢索發(fā)現(xiàn),st2和st5主要是以學生日常寫作,如日記和信件為多,而其他子庫均以議論文為主。這也從一個側(cè)面說明,雖然有研究[13]表明,英語學習者書面語存在較強的口語化傾向,但這些書面語之間語體差異在一定程度上存在的。
雖然從表5可以得到更多結(jié)論,但如上所述,由于詞匯特征并非隨機出現(xiàn),卡方檢驗應(yīng)用于語言現(xiàn)象的統(tǒng)計檢驗時,具有一定的局限性,所以對表5中的統(tǒng)計結(jié)果的解釋需持謹慎態(tài)度。為確保檢驗的科學性,以下是其他統(tǒng)計方法進行同樣的檢驗的結(jié)果。首先是秩相關(guān)檢驗結(jié)果,列于表6。
表6列出的是CLEC中5個子庫之間350個常用詞匯的秩相關(guān)統(tǒng)計量rs(350),并且檢驗結(jié)果顯示,在0.01的顯著性水平上,所有統(tǒng)計量均具有顯著性。即所有5個子庫之間在這350個詞匯的使用上都具有顯著相關(guān)。這里是對350個常用詞匯的統(tǒng)計,即特征量為350。由于大特征量使得相關(guān)性統(tǒng)計更容易變得顯著,即使統(tǒng)計量的絕對值并不是很大(Cohen 2008:271),所以對這種相關(guān)性的解釋,意義不是很大。然而,我們可以通過不同子庫間相關(guān)性的比較,看出哪些子庫之間在常用詞匯的使用上更加相近。
在這一點上,秩相關(guān)檢驗結(jié)果與卡方檢驗結(jié)果較為類似,即除了最明顯的st2和st5之間,各子庫基本上都是與其相鄰的子庫較為相似,距離越遠,相關(guān)性越低。當然,這其中還存在一個特例就是st4與st6比st4與st5更為相近,但是其差異的絕對值(0.05)并不是很大,所以這個反例不能夠否定總體的趨勢。
最后再看CBDF的檢驗結(jié)果。
表7是采用Kilgarriff[11]的方法對CLEC的5個子庫一致性和相似性的比較。比較進行了30次,表中所列結(jié)果為30次的平均值,括號中的數(shù)字是30個測量結(jié)果的標準差。參照表2可以看出,所有測量結(jié)果基本都屬于表2第二行的情況,即各子語料庫的內(nèi)部距離大致相等,各子庫之間的距離顯著地高于各子庫的內(nèi)部距離。因此,各子庫之間的對比可以得到很直觀的解釋:由于各子庫在常用詞匯的使用上,各自在內(nèi)部一致性方面沒有根本性的差異,而相互之間比較的結(jié)果說明它們之間在這些詞匯的使用上明顯屬于不同的語言變體。
當然,這種相同或不同存在程度上的差異。在內(nèi)部一致性方面,5個子庫中,st2最高,st6、st5、st4逐漸降低,st3內(nèi)部一致性最低。但所有子庫的內(nèi)部一致性均屬于一個數(shù)量級,并且與各個子庫之間對比,差異不大,所以我們認為各個子庫內(nèi)部一致性沒有根本性的差異。但是各子庫之間的相似性度量差異較大,差異最小的st2與st5CBDF統(tǒng)計量為24.90,差異最大的st2與st6高達62.93。
表7的總體趨勢類似于表5和表6,都是子語料庫與其相鄰的子庫較為相近或相似,距離越遠,相似度越低,而且st2與st5的關(guān)系較為特殊。仔細觀察表7可以發(fā)現(xiàn),各子庫與其相鄰子庫的CBDF統(tǒng)計量基本上都是30多,每隔一個子庫,統(tǒng)計量會增加10點左右。這種變化較為符合我們的預(yù)期,即中國英語學習者在350個常用詞匯的使用上,在各個學習階段有所不同,并且這種不同會隨著學習階段的提高有所增加。但是這里也有例外,即st2與st3和st2與st4。按照規(guī)律,前者應(yīng)該是30余點,后者應(yīng)該是40余點,但實際上后者超過50點,前者更是高達60點。對這個例外的解釋一方面涉及到語體的差異,其原因類似于st2與st5的較高相似度,即st2主要是日常寫作,以日記和信件為主,而st3和st4的大部分文章都是考試作文,這就使得口語化詞匯,如I、was、my、the等在st2中更為頻繁地出現(xiàn)。另一個更重要的方面是st3和st4兩個子庫的作文題目較為集中,使得涉及作文題目的常用詞使用頻度極高,但卻很少在st2中出現(xiàn)。
四 結(jié)論與建議
采用3種不同統(tǒng)計方法對中國學習者語料庫(CLEC)中5個子庫在350個常用詞匯使用差異的統(tǒng)計分析得到以下結(jié)論:
1)傾向于測量樣本間差異的統(tǒng)計方法,如卡方檢驗,對于多特征差異性檢驗,由于特征數(shù)量較大,以及詞匯特征獨立性要求難以滿足,統(tǒng)計量很容易超過較高顯著性標準上的關(guān)鍵值,從而得出樣本所代表的語言變體之間在這些特征方面存在顯著性差異。
2)傾向于測量樣本間相關(guān)性的統(tǒng)計方法,如秩相關(guān)檢驗,對于多特征差異性檢驗,同樣由于特征數(shù)量較大,統(tǒng)計量很容易超過較高顯著性標準上的關(guān)鍵值,從而得出樣本所代表的語言變體之間在這些特征方面存在顯著相關(guān)。
3)由于多特征差異性檢驗的特殊性,上述兩種統(tǒng)計方法所得到的統(tǒng)計量相對于關(guān)鍵值的解釋(即在某一顯著性水平上存在差異)意義不大,而統(tǒng)計量之間相對數(shù)量差異的解釋卻能夠說明一定的問題。這也是CBDF統(tǒng)計檢驗所采用的策略。
4)CBDF檢驗實際上是卡方檢驗的變形,去除了統(tǒng)計量絕對值與關(guān)鍵值的比較,代之以樣本內(nèi)部和樣本之間統(tǒng)計量的相對值比較得出統(tǒng)計結(jié)論。該方法從設(shè)計上就比較符合樣本間多特征差異性比較。但卡方和秩相關(guān)檢驗統(tǒng)計量的相對解釋基本也可以達到同樣的檢驗效果。
對比卡方、秩相關(guān)和CBDF檢驗的結(jié)果可以看出,前兩者統(tǒng)計量的相對解釋與CBDF檢驗結(jié)果非常相似,只是后者得到的數(shù)據(jù)更為整齊,規(guī)律性更強,從而能夠揭示樣本間較為細微的差異。這主要是由于CBDF檢驗需要拆散樣本、隨機組合、多次檢驗,所以其結(jié)果更細致。其代價就是設(shè)計更復雜、操作難度較大,而前兩者都屬于常用統(tǒng)計方法,可以利用很多統(tǒng)計軟件包,如SPSS,輕易地實現(xiàn)。因此,在語言研究中,可視情況采用不同的統(tǒng)計方法。如果樣本量足夠大,并且要求的檢驗結(jié)果較為細致,研究人員有編程實現(xiàn)文本操作的能力,采用CBDF檢驗效果較好;如果粗略的檢驗即可達到要求,或者研究人員不具有這方面的能力,常用統(tǒng)計方法基本上也可以達到研究目標。
參考文獻
[1] McEnery, T. Wilson, A. Corpus Linguistics [M]. Britain: Edinburgh University Press, 1996.
[2] 王春艷. 基于語料庫的中國學習者英語近義詞區(qū)分探討[J].
外語與外語教學,2009(6): 27-31.
[3] 王立非,錢娟. 我國學生英語演講中的語塊特點:基于語料庫的考察[J]. 外語學刊,2009(2):115-120.
[4] Oakes, M.P. Statistics for Corpus Linguistics Edinburgh Textbooks in Empirical Linguistics [M]. Edinburgh: Edinburgh University Press, 1998.
[5] 劉漢良. 統(tǒng)計學教程[M].上海:上海財經(jīng)大學出版社,1999.
[6] Church, K. and Gale, W. Poisson mixtures [J]. Journal of Natural Language Engineering, 1995, 1(2): 163–190.
[7] Larson, R Farber, B. 基礎(chǔ)統(tǒng)計學[M]. 北京:清華大學出版社,2003.
[8] Cohen, B.H. Explaining Psychological Statistics [M]. NJ: John Wiley Sons, 2008.
[9] Larson-Hall, J. A Guide to Doing Statistics in Second Language Research Using SPSS [M]. New York: Taylor Francis, 2009.
[10] Boslaugh, S. Watters, P.A. Statistics in a Nutshell: A Desktop Quick Reference [M]. CA: O’Reilly Media, Inc., 2008.
[11] Kilgarriff, A. Comparing Corpora [J]. International Journal of Corpus Linguistics, 2001, 6(1): 97–133.
[12] 桂詩春,楊惠中. 中國學習者英語語料庫[M]. 上海:上海外語教育出版社,2002.
[13] 文秋芳,丁言仁,王文宇. 中國大學生英語書面語中的口語化傾向—高水平英語學習者語料對比分析[J]. 外語教學與研究,2003,35(4): 268-274.