任 慧
(上海大學(xué),上海 200444)
語域是與特定使用情境相聯(lián)系的一種語言變體[1]。英國語言學(xué)家Halliday將語域定義為可以按照使用情況劃分的語言變體。
語域變異分析,即對(duì)不同語域進(jìn)行對(duì)比研究,包括語場(field)、語旨(tenor)和語式(mode)三個(gè)社會(huì)變量。語言變異主要分三類:一是語內(nèi)變異,指由語言內(nèi)部音系、形態(tài)、句法層面的因素引起的語言變異。例如從wes和west end的發(fā)音差異可知輔音會(huì)導(dǎo)致前面輔音簇中個(gè)別發(fā)音的省略,元音一般則不會(huì)。二是社會(huì)變異,指與社會(huì)特征相關(guān)的、說話人之間的語言變異。例如Labov發(fā)現(xiàn),在發(fā)this等詞的第一個(gè)音時(shí),社會(huì)階層高的紐約人總體上發(fā)標(biāo)準(zhǔn)音[e]的頻率更高[2]。三是語體變異,指同一個(gè)說話人自身的語言變異。例如隨著場合漸趨正式,同一說話人的發(fā)音可能會(huì)漸趨標(biāo)準(zhǔn)[3]。
2001年前的語域?qū)Ρ妊芯慷嗉杏诜治稣Z域在某一參數(shù)上的差異[4],其他方面的差異則被認(rèn)為是派生的。對(duì)語篇語言特征的功能分類往往只依靠研究者的直覺,帶有很大主觀性。
但自從美國語料庫語言學(xué)家Douglas Biber提出一種量化分析方法——多維度分析法(multidimensional analysis,簡稱MDA)以來,語域變異研究得到了補(bǔ)充和擴(kuò)大。多維度分析法是研究學(xué)術(shù)語域語言變異的重要量化途徑,其思路是:首先要在一種語言中選定一套語言學(xué)特征(即Biber所謂的詞匯語法項(xiàng)目),然后利用因子分析的統(tǒng)計(jì)方法得到這些語言學(xué)特征在語料中的若干聚合模式。根據(jù)Biber的觀點(diǎn),因子分析時(shí)語言學(xué)特征之所以會(huì)呈現(xiàn)聚合模式,是因?yàn)樗酆系恼Z言特征可實(shí)現(xiàn)某種相同/近似的語言交際功能,這些聚合常被稱作維度。語域差異是多個(gè)維度同時(shí)作用的結(jié)果,任何一個(gè)維度都不足以解釋語域間的差異。多維度變異研究可以同時(shí)觀察數(shù)十、上百個(gè)語言特征,將其降到幾個(gè)不同的維度,加以量化分析,從整體上把握語體差異,通過多特征微觀對(duì)比實(shí)現(xiàn)多維度宏觀考察。這種基于統(tǒng)計(jì)分析的研究方法,強(qiáng)調(diào)語言特征的共現(xiàn)以及多維度的概念(co-occurring),重視語言特征之間的聯(lián)系,大大提高了分析的客觀性和準(zhǔn)確性。同時(shí)根據(jù)情境框架(參與者、渠道、生成環(huán)境等)提取的語體不存在重復(fù)現(xiàn)象,可以幫助研究者走出文體與語體的混淆狀態(tài),從而還原語體的真正特征。
文章選取了近幾年國內(nèi)兩篇應(yīng)用多維度分析法進(jìn)行定量研究的漢語文本和一篇英語文本。其中朱宇、胡曉丹考察了漢語連詞在6個(gè)學(xué)術(shù)語域的4個(gè)聚合維度和語言功能,發(fā)現(xiàn)人文和社科論文中的連詞在“文/白風(fēng)格”和“條理與層次”的表現(xiàn)上有明確區(qū)別[5]。劉艷春通過對(duì)72項(xiàng)語言特征的深度考察,識(shí)別了漢語語體變異的多維度特征,不僅證實(shí)了Biber提出的維度,也反映了漢語語體變異的獨(dú)有特征[6]。而江進(jìn)林、許家金通過比較商務(wù)英語與通用英語、新聞?dòng)⒄Z和學(xué)術(shù)英語的語體差異得到了區(qū)別性特征[7]。
多維度分析模式是一種基于大型語料庫和計(jì)算機(jī)統(tǒng)計(jì)技術(shù)的語域分析方法,它的優(yōu)點(diǎn)是毋庸置疑的。以下將從語料庫的優(yōu)點(diǎn)、數(shù)據(jù)獲取、數(shù)據(jù)分析軟件和統(tǒng)計(jì)方法闡述使用語料庫進(jìn)行多維度分析的優(yōu)勢,并結(jié)合所選的三篇文獻(xiàn)加以驗(yàn)證。
首先,基于語料庫的多維度分析法將研究方法由質(zhì)向量轉(zhuǎn)變。定量研究要求樣本足夠大,且有良好的代表性。Brown、LOB等標(biāo)準(zhǔn)化語料庫規(guī)模大、語料全面、代表性好,能夠進(jìn)行大量快速的數(shù)據(jù)處理,為變異研究提供了理想的語料來源。多維度分析使用語料庫從全新的視角對(duì)語言變異進(jìn)行了宏觀描寫,提出了關(guān)于英語及其他語言的變異規(guī)律假設(shè)。相較而言,傳統(tǒng)變異研究能夠涉及的語料和語言特征都非常有限。盡管Ervin-Tripp等人早就認(rèn)識(shí)到語言特征之間存在共現(xiàn)關(guān)系,即一些語言特征同時(shí)出現(xiàn)在某個(gè)語域中使得此語域區(qū)別于彼語域,但在擁有強(qiáng)大的計(jì)算機(jī)和語料庫技術(shù)之前卻沒有方法證實(shí)這種關(guān)系[8]。
就第一篇文獻(xiàn)來說,在此前連詞的相關(guān)研究一直以質(zhì)性為主,即使是周剛窮盡式列舉的連詞也僅有246個(gè),其中還包含了一些現(xiàn)代漢語基本不使用的古語詞[9]。而從第二篇文獻(xiàn)中也可得知,國內(nèi)外在2019年之前都沒有出現(xiàn)基于大規(guī)模漢語語體語料庫的語體變異多維度分析。至于第三篇文獻(xiàn)中更是直言商務(wù)英語的相關(guān)研究多是基于個(gè)別語言特征(如用詞、時(shí)態(tài)等)的描述性統(tǒng)計(jì)分析,缺少基于大規(guī)模商務(wù)英語語料,全面考察商務(wù)英語語言特色的推斷性與探索性統(tǒng)計(jì)分析。
數(shù)據(jù)獲取采用了現(xiàn)有數(shù)據(jù)法。三篇文獻(xiàn)中的數(shù)據(jù)多來源于官方或權(quán)威文本;數(shù)據(jù)的取樣模式或按比例隨機(jī)取樣,或使用Brown語料庫的取樣模式;所建語料庫內(nèi)容均很豐富。
在第一篇文獻(xiàn)中,作者研究的語料是特定年份CSSCI收錄的人文和社科領(lǐng)域的六個(gè)學(xué)科的所有學(xué)術(shù)論文(去除札記、書訊等),以25%的比例隨機(jī)抽樣得到六個(gè)學(xué)科各190篇語料。在第二篇文獻(xiàn)中,作者自建了一個(gè)超過210萬詞含17個(gè)語體1112個(gè)文本的語體語料庫。文本多取自“國家語委現(xiàn)代漢語通用平衡語料庫”和“中國傳媒大學(xué)有聲媒體文本語料庫”。而第三篇文獻(xiàn)選取的商務(wù)英語文本均源自對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)建立的大型商務(wù)英語語料庫,按照分層隨機(jī)方法抽取2003~2010年中的200萬詞子庫。用作對(duì)比的通用英語語料庫則由英國英語BE06和美國英語AmE06兩部分組成。語料庫按布朗家族語料庫的取樣模式,具體包括15個(gè)子語域。
三篇文獻(xiàn)均使用現(xiàn)存分詞和標(biāo)注系統(tǒng)。如需檢索頻數(shù),則選擇內(nèi)部開發(fā)程序,機(jī)器結(jié)合人工進(jìn)行識(shí)別。統(tǒng)計(jì)軟件均為SPSS。
第一篇文獻(xiàn)以中科院計(jì)算技術(shù)研究所發(fā)布的NLPIR漢語分詞系統(tǒng)作為分詞和標(biāo)注詞性的工具,利用自編計(jì)算程序TextAnalysis統(tǒng)計(jì)語料中每一個(gè)連詞檢索項(xiàng)的頻數(shù),并人工校對(duì)以免出現(xiàn)兼類現(xiàn)象。隨后歸一化處理數(shù)據(jù),即將連詞的原始頻數(shù)換算成每千字的出現(xiàn)頻率。第二篇文獻(xiàn)采用史曉東分詞系統(tǒng)進(jìn)行標(biāo)注,結(jié)合機(jī)器和人工識(shí)別方法提取特征,采用內(nèi)部開發(fā)的Debug程序統(tǒng)計(jì)頻率,最后將出現(xiàn)頻率統(tǒng)一換算成語篇為1000詞的標(biāo)準(zhǔn)頻率。第三篇文獻(xiàn)采用Nini開發(fā)的多維標(biāo)注與分析工具M(jìn)AT進(jìn)行標(biāo)注,并使用該軟件內(nèi)嵌的Stanford POSTagger進(jìn)行詞性賦碼。
前兩篇文獻(xiàn)均先得出KMO值再進(jìn)行分析,第三篇文獻(xiàn)因目的不同,采用了獨(dú)立樣本t檢驗(yàn)的方法??梢钥闯?,SPSS在進(jìn)行數(shù)據(jù)統(tǒng)計(jì)與分析時(shí)作用巨大。
在第一篇文獻(xiàn)中,作者對(duì)歸一化處理后的數(shù)據(jù)進(jìn)行了因子分析,所得KMO值為0.894,Bartlett球形檢驗(yàn)顯著(p<0.001),說明數(shù)據(jù)適用因子分析。接著進(jìn)行因子提取、因子旋轉(zhuǎn),根據(jù)因子的方差解釋率最終確定研究語料所使用的連詞形成了四個(gè)主要的因子/聚合維度(累計(jì)方差解釋約為58.9%)。各維度的得分則是結(jié)合SPSS輸出的荷載值得出。隨后以學(xué)科分組,即可計(jì)算某組語料在各維度的平均得分。在第二篇文獻(xiàn)中,作者采用探索性因子分析法,利用SPSS進(jìn)行因子分析獲取語言特征的共現(xiàn)模式。KMO取樣適切性數(shù)量值為0.907,說明非常適合因子分析。然后作者抽取因子數(shù)量,先根據(jù)總方差解釋和碎石圖結(jié)果進(jìn)行初步研判,隨后綜合考量各因子,確定7因子為最佳方案。隨后采用Biber的最大載荷法計(jì)算出每個(gè)文本的維度分和語體的平均維度分,從而獲取各維度的語體分布模式。在第三篇文獻(xiàn)中,作者使用SPSS對(duì)兩個(gè)語料庫的維度分進(jìn)行獨(dú)立樣本t檢驗(yàn),對(duì)比發(fā)現(xiàn)兩個(gè)語料庫的語言具有顯著差異特征。
三篇文獻(xiàn)均使用多維度分析方法這一涉及語料庫與SPSS分析軟件的分析方法,以驗(yàn)證為導(dǎo)向,證明維度分類和共性維度,均屬于定量分析。
在定量分析中,信度指衡量的一致性。信度誤差大部分是系統(tǒng)性的常數(shù)誤差,此處不予考慮;而隨機(jī)性誤差可能來自回應(yīng)者、情境因素、衡量者和衡量工具。在這三篇文獻(xiàn)中,數(shù)據(jù)標(biāo)注和分析使用的軟件均是權(quán)威或官方軟件,按照特定標(biāo)準(zhǔn)進(jìn)行人工校對(duì),極大地降低了誤差。信度分為內(nèi)部信度和外部信度。內(nèi)部信度指數(shù)據(jù)收集、分析和解釋的一致性,即別人分析這些數(shù)據(jù)得到同樣結(jié)果。因?yàn)槲墨I(xiàn)的創(chuàng)新性,基本沒有人對(duì)已有實(shí)驗(yàn)做過重復(fù)分析,但是從使用的分析工具及分析過程可以看出其合理性。外部信度指獨(dú)立研究人員能夠重現(xiàn)一項(xiàng)研究并獲得與原始研究相似結(jié)果的程度,這也可以從文章第二部分的實(shí)驗(yàn)選材、設(shè)計(jì)、分析中得來。
在定量分析中,效度指衡量的工具是否能真正衡量到研究者想要衡量的問題。前兩篇文獻(xiàn)中使用SPSS軟件進(jìn)行因子分析前所得的顯著性小于0.05,KMO值高于0.8,適合因子分析,說明效度較高。此外,在第二篇文獻(xiàn)中使用了碎石圖并找出了圖中的陡坡和緩坡的臨界點(diǎn),看出每個(gè)因子代表的特征值,避免提取多余的因子,效度較高。具體來講,效度也分為內(nèi)部效度和外部效度。內(nèi)部效度指研究的可解釋性,即結(jié)果源于實(shí)驗(yàn)。多維度分析的結(jié)果均由數(shù)據(jù)庫和SPSS分析軟件得出,因此內(nèi)部效度高。外部效度指結(jié)果從樣本推廣到總體的程度,這在第一篇文獻(xiàn)中明確提到:“差別均達(dá)到統(tǒng)計(jì)顯著水平,表明這些論斷的適用性不局限于本研究所抽樣的語料,而是一個(gè)帶有普遍性的規(guī)律?!?/p>
雖然國內(nèi)多數(shù)相關(guān)文獻(xiàn)僅止步于定量分析,但文章選取的第一篇文獻(xiàn)除了定量考察了連詞在學(xué)術(shù)漢語語料的聚合規(guī)律與語言功能表現(xiàn),說明了學(xué)術(shù)語域的連詞分布不均質(zhì)[10],還通過定性分析豐富了該方向的實(shí)證研究案例;第三篇文獻(xiàn)中雖無實(shí)證研究,但是其分析出來的商務(wù)英語的互動(dòng)性、勸說性和專業(yè)性特色對(duì)商務(wù)英語課程設(shè)置、測試評(píng)估和教學(xué)實(shí)踐建立相應(yīng)的實(shí)證基礎(chǔ)都有益處。
建立語料庫的時(shí)采集語料、整理文本費(fèi)時(shí)費(fèi)力暫且不提,多維度分析方法仍存在一些問題。
首先,研究者在分析英文文本時(shí)多基于MAT分析結(jié)果對(duì)各維度包含的語言特征和語域風(fēng)格進(jìn)行語言學(xué)研究,但是MAT在很大程度上只是一個(gè)驗(yàn)證性工具,而非探索性工具。利用此工具不能提取根據(jù)需要設(shè)計(jì)的語言特征,更不可能得出與Biber不同的維度。在這一點(diǎn)上,學(xué)者分析漢語文本時(shí)使用的標(biāo)注工具更多樣。
但是,這也造成了第二個(gè)問題:國內(nèi)目前對(duì)漢語文本的研究很少,對(duì)漢語語言特征的確定缺少扎實(shí)的本體研究。因?yàn)檎Z言學(xué)特征不是一個(gè)封閉的類,在特征選取時(shí)各種主觀因素的干擾在所難免,因此或多或少會(huì)影響研究結(jié)果的有效性和可靠性。第一篇文獻(xiàn)在進(jìn)行多維度分析的語言特征選取限于連詞,也是因?yàn)檫B詞相對(duì)封閉??梢哉f,Biber確定的語言特征是在分析英文文本的基礎(chǔ)上確立,這也是漢語文本發(fā)展難的原因之一。但我相信,隨著國內(nèi)學(xué)者目前在這方面的研究逐漸增多,漢語文本不僅會(huì)解決這一問題,在第一個(gè)問題上也會(huì)有很大突破。
第三個(gè)問題是國內(nèi)的研究領(lǐng)域相比國外要狹窄,局限于口筆語體、領(lǐng)域語體、學(xué)習(xí)者英語等研究[11]。
第四個(gè)問題是研究成果需要進(jìn)一步定性研究,這在文章第三部分定量定性分析中有所提及。榮紅提出可以與民族志等定性研究方法結(jié)合[12]。
總體而言,在多維度分析法的操作中研究者面臨語言特征的選取、標(biāo)注、統(tǒng)計(jì)技術(shù)運(yùn)用問題,針對(duì)漢語文本的多維度實(shí)證研究更是有入門難、可用語料庫小、維度的理論分析不足等問題,但是后續(xù)的研究值得期待。