潘 筱,樊 淵
(安徽大學(xué) a.外語學(xué)院;b.計算智能與信號處理教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230601)
當(dāng)前英文期刊已成為國際學(xué)者傳播和了解科學(xué)知識的主要渠道,越來越多的非英語本族語者需要在國際期刊上發(fā)表英文學(xué)術(shù)論文,包括中國學(xué)者在內(nèi)。因此,國內(nèi)學(xué)者有必要了解英語母語使用者在發(fā)表學(xué)術(shù)論文時所遵守的語言習(xí)慣。Graesser[1]指出同一學(xué)科領(lǐng)域的專家學(xué)者通常會明示或暗示其專業(yè)領(lǐng)域內(nèi)的學(xué)術(shù)文章寫作需要遵循一定的言語或話語規(guī)則。因此,某一特定學(xué)科領(lǐng)域內(nèi)的非英語本族語者如果在撰寫英文學(xué)術(shù)論文時誤用或誤解了這些規(guī)則,顯然不利于其文章被領(lǐng)域內(nèi)學(xué)者認(rèn)可和接收。
關(guān)于英語學(xué)術(shù)論文寫作與發(fā)表方面的研究國內(nèi)研究起步較晚,研究內(nèi)容主要包括以下幾個方面:一是介紹國外的相關(guān)學(xué)術(shù)英語研究成果,如齊曦[2]回顧過去30年以來國際學(xué)術(shù)英語寫作評估研究,穆從軍[3]從理論框架、研究方法和研究內(nèi)容等方面整理歸納20世紀(jì)80年代以來的科研發(fā)表英語相關(guān)研究;二是關(guān)于學(xué)術(shù)英語的語篇體裁研究,其中鞠玉梅[4]用體裁分析理論比較英漢學(xué)術(shù)論文摘要的宏觀語篇結(jié)構(gòu),韓萍、賀宏[5]運(yùn)用批評性體裁分析方法研究了二語習(xí)得方面學(xué)術(shù)論文摘要和引言的體裁關(guān)系;三是心理認(rèn)知角度的學(xué)術(shù)英語寫作研究,如丁展平[6]指出遁言是用語言形式體現(xiàn)作者心理取向的產(chǎn)物且成功的學(xué)術(shù)英語寫作需要借助遁言以達(dá)到交際目的,徐昉[7]分析學(xué)術(shù)寫作身份語塊的使用和變化特點(diǎn);四是基于計算機(jī)和語料庫的學(xué)術(shù)英語寫作研究,如康勤、孫萍[8]比較不同學(xué)科論文摘要部分的宏觀結(jié)構(gòu)及其對情態(tài)動詞和語態(tài)的影響,婁寶翠[9]基于研究生學(xué)術(shù)英語語料庫考察研究生學(xué)術(shù)英語語篇中外殼名詞的使用特點(diǎn)。由此可見,國內(nèi)學(xué)者在考察學(xué)術(shù)文本特征時多側(cè)重詞匯和句子層面,如連接詞、外殼名詞、立場標(biāo)記、學(xué)術(shù)詞塊等,比較少見的是對學(xué)術(shù)文本語篇連貫的分析,尤其是英漢學(xué)術(shù)文本的對比研究。考慮到摘要是學(xué)術(shù)論文的第一項重要組成部分,它傳遞出論文最濃縮和最有價值的信息,是讀者了解一篇論文是否值得關(guān)注或研究的基礎(chǔ)。因此,對中美學(xué)者所撰寫的論文摘要部分言語特征進(jìn)行量化比較研究,對理解英語母語作者的語篇連貫性具有代表性意義。本研究通過Coh-Metrix在線工具測量中外學(xué)術(shù)論文摘要部分的文本特征并運(yùn)用計算機(jī)分析,從詞匯難度、句法復(fù)雜度和語篇連貫性三個層面量化比較中國學(xué)者和美國母語使用者在話語特征上的差異性,以期利用得出的客觀結(jié)果對中國學(xué)者的學(xué)術(shù)英語寫作提供理論指導(dǎo)。
美國孟菲斯大學(xué)Graesser等[10]設(shè)計并開發(fā)的自然語言處理軟件Coh-Metrix是一項可以測量文本銜接性和文章難度的自動分析工具,可以在線同時測量文本特征、銜接手段、詞匯多樣性、句法復(fù)雜度和文本可讀性等106個文本特征。Coh-Metrix的運(yùn)行主要基于句法分析器、潛伏語義分析和其他計算語言模塊,其中潛伏語義分析技術(shù)挖掘深層次文本變量的方式是通過輸入大量的文本,構(gòu)建詞項和文本之間龐大的term-by-article矩陣,再通過奇異值分解實(shí)現(xiàn)減維降噪,最后獲得包含有詞項向量和文本向量的向量空間,并根據(jù)向量間的廣義距離如余弦值等求取向量之間的相關(guān)性。潛伏語義分析的結(jié)果不再是簡單的詞條出現(xiàn)頻率和分布關(guān)系,而是文本中各部分之間的語義相關(guān)性,因而改善了以往傳統(tǒng)技術(shù)僅限于對文章表層形式特征統(tǒng)計的局限性。
Coh-Metrix自從2002年問世以來被廣泛應(yīng)用,國外學(xué)者利用Coh-Metrix進(jìn)行的研究主要包括兩個方面:一是發(fā)現(xiàn)不同英語變體之間的具體差異,并通過對這些差異的量化統(tǒng)計分析較為準(zhǔn)確地進(jìn)行文本分類,如口語和筆語[11]、不同作者的作品[12]、原著和簡寫本[13]、美式和英式英語文本[14]等;另一類是考察連貫性和語篇質(zhì)量之間的關(guān)系,如文本連貫性與英語母語寫作者作文成績的相關(guān)性[15]、連貫性與二語寫作文本質(zhì)量之間的相關(guān)性[16]。國內(nèi)利用Coh-Metrix對英語寫作文本的語言特征進(jìn)行分析的研究相對較少,如梁茂成[17]分析了語篇連貫?zāi)芰妥魑某煽冎g的關(guān)系,桂林[18]比較了L1和L2作文中蘊(yùn)涵的語義關(guān)系等。本文試圖利用Coh-Metrix提供的文本數(shù)據(jù)比較中國學(xué)者和母語使用者在話語特征上的差異性,試圖讓更多的中國學(xué)者了解如何調(diào)整自己的語言使用來與該行業(yè)領(lǐng)域內(nèi)母語使用者的習(xí)慣保持一致。
本研究主要回答以下問題:
1.中國理工科類學(xué)者發(fā)表在中國學(xué)術(shù)期刊上論文的英文摘要部分與美國學(xué)者發(fā)表在國際知名期刊上的論文摘要部分從詞匯、句法和語篇角度分析是否存在語言上的顯著差異?
2.中國理工科類學(xué)者發(fā)表在國際學(xué)術(shù)期刊上論文的英文摘要部分與美國學(xué)者發(fā)表在國際知名期刊上的論文摘要部分從詞匯、句法和語篇角度分析是否存在語言上的顯著差異?
3.美國學(xué)者發(fā)表在國際知名期刊上的論文語言具有哪些特征可以供中國理工科類學(xué)者借鑒和模仿?
本研究采用對比分析的方法對自建的小型語料庫進(jìn)行分析。選取中美學(xué)者近五年來發(fā)表在地理信息科學(xué)領(lǐng)域?qū)W術(shù)論文摘要150篇,其中包括中國學(xué)者發(fā)表的中文核心期刊論文摘要50篇(以下簡稱CC),中國學(xué)者發(fā)表在該學(xué)科領(lǐng)域的頂級SCI期刊論文摘要50篇(以下簡稱CE),以及美國學(xué)者發(fā)表的頂級SCI期刊論文摘要50篇(以下簡稱AE)。選取的標(biāo)準(zhǔn)參考:
1.第一作者和導(dǎo)師來自同一所大學(xué)或研究機(jī)構(gòu);
2.第一作者和導(dǎo)師的姓名均為美國國家姓名典型格式。
本研究選取的論文主要來源期刊有《地理與地理信息科學(xué)》、《地球信息科學(xué)》、InternationalJournalofGeographicalInformationScience、AppliedGeography等。
對150篇中美學(xué)者的學(xué)術(shù)論文英文摘要部分從詞匯難度、句法復(fù)雜度和語篇連貫性三個層面進(jìn)行判別功能分析。具體操作方法是先將150篇論文摘要分為兩個部分,即90篇訓(xùn)練集和60篇測試集。首先使用訓(xùn)練集中的數(shù)據(jù)找到在Coh-Metrix給出的多項指標(biāo)中最能區(qū)分中美兩國學(xué)者在學(xué)術(shù)英語中使用的語言差異所在,再利用這些差異度最大的變量創(chuàng)建模型,生成判別函數(shù),最后再由測試集中的數(shù)據(jù)去檢驗(yàn)?zāi)P偷挠行浴?/p>
根據(jù)選擇的數(shù)據(jù)庫樣本大小,為了避免過度擬合,對訓(xùn)練集中三組數(shù)據(jù)的比較分析僅限于五個變量。由于從Coh-Metrix網(wǎng)站上獲得的指標(biāo)遠(yuǎn)超過本研究需要的五個變量,因此我們決定先從總計108項指標(biāo)中挑選出理論上更相關(guān)以及更能引起學(xué)者關(guān)注的指標(biāo)。Haberlandt & Graesser[19]指出絕大部分讀者閱讀文章時會從以下三個不同的層面分析文章:詞匯、句子和語篇。其中詞匯層面主要包括將單詞的視覺特征編碼成抽象的字素或音素單位以及從長期記憶中檢索單詞含義;句子層面包括從語義上翻譯從句并將一句話中的所有信息整合為一體;而語篇層面會利用文本提示及讀者對世界的認(rèn)識將從不同語句中獲得的信息相互關(guān)聯(lián)起來。參照這個標(biāo)準(zhǔn)版本研究將Coh-Metrix在線網(wǎng)站上提供的指標(biāo)分為三大類別:詞匯指標(biāo)、句法指標(biāo)和語篇連貫指標(biāo)。
為了從這三大類別中找出最具代表性的五個變量,我們首先從這三類指標(biāo)中各選取一個區(qū)分度最大的變量。對三個類別的變量分別進(jìn)行ANOVA分析,不同語言類型作為組間變量,Coh-Metrix指標(biāo)作為因變量,所產(chǎn)生的F-值按照效應(yīng)值大小排列。選擇每一組中擁有最高F-值得變量代表其組別。為了得到剩下的兩個變量,將所有剩余的變量按照F-值大小排列。為了避免共線性問題,不能簡單的選取F-值最高的兩個變量。參照Duran[20]的做法,首先確保所有變量之間相關(guān)性r<.70,若任意兩個變量間的相關(guān)性r≥.70,則先刪除那個單變量關(guān)系值較小的變量,按F-值從大到小的順序依次取得剩余的兩個變量,結(jié)果如表1所示。
表1 按F值大小排列的五個區(qū)分度最大的變量
我們首先對三組數(shù)據(jù)的五個變量分別進(jìn)行獨(dú)立樣本t檢驗(yàn),結(jié)果如表2所示。
表2 獨(dú)立樣本t檢驗(yàn)結(jié)果
從表2可以看出,第一組AE和第二組CC五個變量的t檢驗(yàn)結(jié)果顯著性均為.000,因?yàn)?000的p值小于0.05,所以可判定中國理工科類學(xué)者發(fā)表在中國學(xué)術(shù)期刊上論文的英文摘要部分與母語使用者發(fā)表在國際知名期刊上的論文摘要部分在這五個指標(biāo)上均存在語言上的顯著差異。而第一組AE和第三組CE在五個變量的t檢驗(yàn)結(jié)果顯著性p值均大于0.05,所以可判定中國理工科類學(xué)者發(fā)表在國際學(xué)術(shù)期刊上論文的英文摘要部分與英語本族語使用者發(fā)表在國際知名期刊上的論文摘要部分在這五個指標(biāo)上不存在語言上的顯著差異。詳細(xì)的比較結(jié)果如下。
1.所有單詞類符/形符比(Type-token ratio for all words,LDTTRa)
類符/形符比(TTR)是衡量文本中詞匯密度的常用方法,可以輔助說明文本的詞匯難度。TTR比值越高,該文本用詞越豐富,反之則越貧乏。實(shí)驗(yàn)結(jié)果顯示,美國學(xué)者論文摘要部分TTR稍高于中國學(xué)者發(fā)表在國際期刊上的論文摘要部分TTR,且明顯高于中國學(xué)者發(fā)表在中文核心期刊上的論文英文摘要部分TTR。TTR數(shù)據(jù)高可能有兩個原因:其一,美國學(xué)者詞匯使用較豐富,在國際頂級期刊上發(fā)表論文的中國學(xué)者英文詞匯豐富性略低于母語使用者,而大部分在中文期刊上發(fā)表中文學(xué)術(shù)論文的中國學(xué)者的詞匯使用多樣性較低;其二,中國學(xué)者寫作的英文摘要部分可能有大量功能詞出現(xiàn),文本每增加一個詞,形符就會增加一個,但類符卻未必隨之增加。這樣文本越長,功能詞重復(fù)次數(shù)越多,TTR會越低。
2.動詞銜接度(Text Easability PC Verb cohesion,z score,PCVERBz)
動詞在構(gòu)成英語的銜接機(jī)制中主要表現(xiàn)為“復(fù)現(xiàn)”和“同現(xiàn)”,且較多地體現(xiàn)在近義詞的復(fù)現(xiàn)、同現(xiàn)。動詞銜接度越高,說明文本中動詞本身或其近義詞的重復(fù)率越高,語篇連貫性也就越高,文本越容易被理解。實(shí)驗(yàn)結(jié)果顯示,美國學(xué)者論文摘要部分動詞銜接度稍低于中國學(xué)者發(fā)表在國際期刊上的論文摘要部分動詞銜接度,但明顯低于中國學(xué)者發(fā)表在中文核心期刊上的論文英文摘要部分動詞銜接度。這一結(jié)果說明美國學(xué)者使用動詞或其近義詞的機(jī)率相對較低,文本難度較高,而在中文期刊上發(fā)表中文學(xué)術(shù)論文的中國學(xué)者使用動詞或其近義詞的幾率最高,文本難度最低。
3.動名詞發(fā)生率(Gerund density,DRGERUND)
Halliday[21]發(fā)現(xiàn)科學(xué)語篇最顯著的特征之一是大量使用以名詞化形式出現(xiàn)的語法隱喻,因?yàn)槊~化結(jié)構(gòu)能夠代替小句使表達(dá)更加簡潔、專業(yè)和客觀。名詞化是語篇正式程度的一個標(biāo)志,語篇的程度越高,名詞化越多,信息含量也越高。實(shí)驗(yàn)結(jié)果顯示,美國學(xué)者論文摘要部分動名詞發(fā)生率稍高于中國學(xué)者發(fā)表在國際期刊上的論文摘要部分動名詞發(fā)生率,且明顯高于中國學(xué)者發(fā)表在中文核心期刊上的論文英文摘要部分動名詞發(fā)生率。這一結(jié)果說明美國學(xué)者論文中語篇名詞化最多,正式程度最高,信息含量也越高,而中國學(xué)者發(fā)表在中文核心期刊上的論文英文摘要部分名詞化結(jié)構(gòu)最少,信息含量也最少。
4.因果類動詞重疊率(LSA verb overlap,SMCAUSlsa)
因果類動詞在科技英語中使用較為普遍,這類動詞可以表示主語“會發(fā)生什么”或“期待可能發(fā)生什么”,他們的作用除了連接其他成分構(gòu)成完整的句子以外,還可以表示句子間的因果關(guān)系,這種關(guān)系對于幫助我們閱讀理解整句話甚至是整篇文章大有裨益。實(shí)驗(yàn)結(jié)果顯示,美國學(xué)者論文摘要部分因果動詞重疊率稍低于中國學(xué)者發(fā)表在國際期刊上的論文摘要部分動名詞發(fā)生率,且明顯低于中國學(xué)者發(fā)表在中文核心期刊上的論文英文摘要部分動名詞發(fā)生率。這一結(jié)果說明中國學(xué)者在學(xué)術(shù)論文中傾向于使用更多的因果類動詞,這些動詞的使用可以幫助讀者理解上下文間的邏輯關(guān)系,也從某種程度上降低了文本難度。
5.實(shí)義詞重疊率(Content word overlap,all sentences,CRFCWOa)
實(shí)義詞重疊是詞匯共指關(guān)系中的一個主要衡量指標(biāo),這里我們參考的指標(biāo)是文中所有句子間的實(shí)義詞重疊。Kintsch&Van Dijk[22]指出詞匯共指可以幫助讀者理解文章并提高閱讀速度。Crossley[23]研究發(fā)現(xiàn)越簡單的文章使用的共指關(guān)系更多,因?yàn)樵~匯的重復(fù)可以幫助讀者建立語篇不同部分之間的關(guān)系。實(shí)驗(yàn)結(jié)果顯示,美國學(xué)者論文摘要部分實(shí)義詞重疊率低于中國學(xué)者發(fā)表在國際期刊上的論文摘要部分實(shí)義詞重疊率,且明顯低于中國學(xué)者發(fā)表在中文核心期刊上的論文英文摘要部分實(shí)義詞重疊率。這一結(jié)果表明中國學(xué)者的學(xué)術(shù)論文中實(shí)義詞重疊出現(xiàn)的機(jī)會更大,也從某種程度上說明中國學(xué)者的學(xué)術(shù)論文難度更低。
首先,基于訓(xùn)練集中的數(shù)據(jù),取按F值大小排列的五個指標(biāo)作為自變量,不同語言水平(AE,CC和CE)作為因變量,得出的分類函數(shù)系數(shù)如表3所示。
表3 Fisher線性判別式函數(shù)
為了檢驗(yàn)?zāi)P偷臏?zhǔn)確性,我們利用測試集中的數(shù)據(jù)進(jìn)行判別功能分析。利用已知測試集中的60篇文章,可以依據(jù)判別分析的預(yù)測結(jié)果判斷其準(zhǔn)確性。參考的度量值有三項:召回率、準(zhǔn)確率和F值。其中:
召回率=提取出的正確信息條數(shù)/樣本中的信息條數(shù),
正確率=提取出的正確信息條數(shù)/提取的信息條數(shù),
F值=正確率*召回率*2/(正確率+召回率)。
正確率和召回率兩者取值在0和1之間,數(shù)值越接近1,查準(zhǔn)率或查全率就越高(見表4)。
表4 原組別和預(yù)測組別
對于測試集中的60篇論文摘要,判別分析成功預(yù)測了其中46篇的組別,總體準(zhǔn)確率達(dá)到76.667%。每一組別的準(zhǔn)確性判斷如表5所示。
表5 三個組別判別分析準(zhǔn)確率、召回率和F值
本文研究結(jié)果表明,AE和CC差異顯著,而AE與CE差異較小。這個結(jié)果說明在國際知名期刊上發(fā)表論文的中國理工科學(xué)者更好地學(xué)習(xí)和應(yīng)用學(xué)術(shù)英語的使用規(guī)則,他們的語言更符合英語母語使用者在發(fā)表學(xué)術(shù)論文時所遵守的語言習(xí)慣。相較之下,在國內(nèi)期刊上發(fā)表論文的中國理工科學(xué)者在撰寫英文學(xué)術(shù)論文時需要更深層次地理解英語母語使用者的習(xí)慣和規(guī)則。具體來說,在國際知名期刊上發(fā)表的英文學(xué)術(shù)論文具有以下特點(diǎn)值得中國學(xué)者學(xué)習(xí):(1)類符/形符比較高,(2)動詞銜接度較低,(3)動名詞發(fā)生率較高,(4)因果類動詞重疊率較低,(5)實(shí)義詞重疊率較低。
考慮到中國理工科類學(xué)者發(fā)表在國內(nèi)學(xué)術(shù)期刊上論文的英文摘要部分與母語使用者發(fā)表在國際知名期刊上的論文摘要部分從詞匯、句法和語篇連貫分析三個層面均存在語言上的顯著差異,英語母語使用者在評審、編輯或閱讀中國理工科類學(xué)者發(fā)表在中國學(xué)術(shù)期刊上論文的英文摘要部分時可能會認(rèn)為這些學(xué)者并不了解其專業(yè)領(lǐng)域內(nèi)的學(xué)術(shù)文章寫作需要遵循的語言或話語規(guī)則,這顯然不利于中國理工科類學(xué)者在國際知名期刊上發(fā)表英文論文。因而中國理工科類學(xué)者若希望在國際知名期刊上發(fā)表高水平英文論文,必須進(jìn)一步學(xué)習(xí)和掌握英語母語使用者在發(fā)表學(xué)術(shù)論文時所遵守的語言習(xí)慣,進(jìn)一步縮小本研究中反映出的中美學(xué)者在語篇連貫性上的差異。