張 惠
(武漢軟件工程職業(yè)學院,湖北 武漢 430205)
寫作是職場中的重要工作,書信、通知、電子郵件等應用文是現(xiàn)代職場中常見的書面溝通形式。一方面,作為重要的語言輸出能力,英語應用文寫作能力是高職生在校期間重點培養(yǎng)的諸項能力之一;另一方面,受漢語環(huán)境的影響,中國學生的整體英語寫作情況并不樂觀,就高職生群體來講,其英語水平相較偏低,他們寫出的英語應用文質(zhì)量總體堪憂,引人思索解決之道。
語料庫語言學為高職英語應用文寫作教學提供了一種思路。在某種意義上,語料庫語言學是一種研究方法,此方法借助計算機來實現(xiàn)。它以大量精心采集而來的真實文本為研究素材,主要通過概率統(tǒng)計的方法得出結(jié)論,其本質(zhì)是實證性的。外語學習者語料庫根據(jù)Granger所指,是“根據(jù)明確的設計標準,為了某種二語習得或外語教學的目的,以電子形式收集的真實二語或外語文本數(shù)據(jù)庫”,它為重建學習者的輸出提供大量可靠的數(shù)據(jù),使實證分析了解學習者語言的運用成為可能,可使英語教學的針對性和實效性更強,為語言習得研究和外語教學研究提供巨大的潛力。
為了給高職生英語應用文寫作習得研究和相關教學研究提供真實可靠的數(shù)據(jù),建設這類學習者語料庫是有必要的。根據(jù)筆者所了解的信息,目前中國大陸影響較大的英語學習者書面語語料庫有桂詩春、楊慧中主持建設的《中國學習者英語語料庫(CLEC)》和南京大學建設的《中國學生英語口筆語語料庫(SWECCL)》,前者的語料采自高中到大學各年級各專業(yè)的試卷作文和自由作文,后者的書面語語料采集高校英語專業(yè)1-4年級的課堂限時和課外非限時作文,兩者的語料文體主要為議論文、記敘文和說明文。另外,知名學者許家金團隊創(chuàng)建于2015年的《中國學生萬篇英語作文語料庫(V1.1)(TECCL)》中的作文涵蓋大學、中學、小學三個學段,其中以大學為最多,但主要也是本科類院校的語料樣本,語料文體同樣主要是議論文、記敘文和說明文。因此,還沒有針對中國高職生群體,且語料為英語應用文文體的中國英語學習者語料庫可以獲取。鑒于此,筆者及其團隊設計和建設了一個高職生英語應用文寫作語料庫,英文名全稱為Vocational College Students'Practical English Writings Corpus,縮寫為 VCSPEWC。
基于本研究中的語料庫開發(fā)目的是針對高職生的英語應用文寫作教學與研究,學習者集中為高職一年級非英語專業(yè)學生,所以語料主要采集他們所寫的不同主題的應用文,有詢問信、通知、求職信、邀請信和電子郵件,并分別命名為 pw1、pw2、pw3、pw4 和 pw5。為了避免抄襲,采取課堂指定題目并限時25分鐘寫作的形式進行采集,允許學生使用紙質(zhì)詞典,不能使用智能手機。因為客觀條件的限制,該語料庫在規(guī)模上設計得比較小,約15000詞,作文數(shù)量共計不少于200篇。表1為該語料庫的語料分布情況:
表1 VCSPEWC的語料分布
VCSPEWC語料樣本來源于學習者的手寫文字,需要筆者及其團隊收集紙質(zhì)作文后,分工進行人工輸入,在輸入前,團隊進行了輸入工作培訓,統(tǒng)一了輸入標準,輸入后由專人進行了校對。語料處理程序借鑒了CLEC語料庫的樣本處理程序,但略有不同。具體如下:
a.選好樣本:首先將作文題目印制成試卷形式,然后,將不同的寫作任務指定給專人在一定的時間周期內(nèi)組織學生完成,最后將學生完成的試卷在指定的時間上交給總負責人對其進行分類、編號和復印存檔。
b.輸入樣本。
c.校對。
d.確定失誤類型和標注碼。
e.根據(jù)失誤分類表對言語失誤和格式失誤進行標注。
f.指定專人對標注進行核查。
g.選定語料庫處理工具。
h.利用工具對言語失誤進行統(tǒng)計分析。
對VCSPEWC中的語料進行失誤標注是建設該語料庫的初衷,也是其主要特點。在參考了CLEC語料庫的言語失誤分類方法后,筆者及其團隊將VCSPEWC中的語料失誤分為兩大類:言語失誤和格式失誤。
對于言語失誤,直接借用CLEC語料庫的失誤分類體系,采取兩級分類:第一級包括11類(詞形、動詞短語、名詞短語、代詞、形容詞短語、副詞、介詞短語、連詞、詞匯、搭配、句法),第二級為第一級11類的細分,細分后同一大類下的小類用阿拉伯數(shù)字標識以示不同。如[fm]為詞形類失誤,細分后,[fm1]表示拼寫失誤,包括字母拼寫錯誤、學生自造詞錯誤、縮寫錯誤、省略符號使用錯誤;[fm2]表示構(gòu)詞失誤,包括詞語派生的錯誤、屈折變化的錯誤、復合詞錯誤、名詞復數(shù)變化錯誤、動詞不規(guī)則變化錯誤、第三人稱謂語動詞單數(shù)形式錯誤、音節(jié)劃分錯誤、斷字錯誤、字的分解和融合錯誤;[fm3]表示字母大小寫失誤。CLEC語料庫中言語失誤分類表的確定辦法是對常見的失誤從細,對少見的失誤從粗,共有61個失誤碼。
對于格式失誤,由于CLEC語料庫沒有此類失誤標注,因此筆者及其團隊為了保持VCSPEWC語料庫整套失誤標注體系的完整和統(tǒng)一性,依據(jù)兩級分類標準,在研究討論的基礎上,編制了格式失誤分類表,格式失誤這一類的賦碼確定為[ft],細分為8個小類,依次用阿拉伯數(shù)字1-8標識,即[ft1]-[ft8]。
因此,VCSPEWC語料庫的整套失誤分類確定為12大類69小類,表2列出其中的“格式”類失誤表。
表2 VCSPEWC“格式”類失誤表
語料庫建好后,需要相應的處理工具才能發(fā)揮作用。語料庫語言學從20世紀60年代至今的迅速發(fā)展,在很大程度上得益于計算機技術的進步和支持。在語料庫語言學的發(fā)展中,很多工具和軟件的開發(fā)起著至關重要的作用。WordSmith是當今語料庫語言學中公認的權(quán)威工具之一。它由英國利物浦大學開發(fā),牛津大學出版社出版。然而盡管它功能強大,但它是一種商業(yè)軟件,而且在某種程度上代價高昂。日本學者Laurence Anthony開發(fā)了一款免費的檢索軟件AntConc,其界面和操作簡單方便。它的版本不斷更新,基本上實現(xiàn)了WordSmith的所有功能,用戶可以在http://www.laurenceanthony.net/software下載后直接使用。它包含了許多工具,包括索引(Concordance)、索引定位(Concordance Plot)、文件查看(File View)、詞叢(Clusters)、N元模式(部分詞叢)(N-Grams(part of Clusters))、搭配(Collocates)、單詞列表(WordList)和關鍵字列表(KeywordList),可以滿足本研究的需求。本研究使用的是目前最新的AntConc3.5.7版本。
為了了解高職生英語應用文中的失誤情況,本研究通過前文介紹的AntConc軟件的“索引”工具進行了統(tǒng)計,具體步驟如下:
a.雙擊運行AntConc3.5.7,選擇界面上的“索引(Concordance)”工具;
b.依次選擇“文件(File)”菜單、“打開文件(Open File(s))”選項,打開VCSPEWC語料庫的txt文件;
c.在界面上的搜索框內(nèi)輸入失誤碼(如“fm1”);其他選項選擇默認設置;
d.點擊“開始(Start)”按鈕,軟件開始自動檢索并在主窗口內(nèi)顯示失誤碼所對應的檢索行;
e.失誤碼對應的檢索行全部顯示完畢后,主窗口上端會顯示一個總的頻數(shù)(Concordance Hits),見圖 1。
通過檢索,得出高職生英語應用文寫作中出現(xiàn)的12大類69小類失誤的頻數(shù),通過比較這些數(shù)據(jù),發(fā)現(xiàn)頻數(shù)最高的前十位失誤類別由高到低依次是:fm3字母大小寫錯誤、fm1拼寫錯誤、fm2構(gòu)詞錯誤、sn9標點符號錯誤/標點法錯誤、wd3選詞不對(詞性正確,但不應選擇用該詞)、sn8句子的語法結(jié)構(gòu)錯誤、ft4日期錯誤(形式錯誤、缺失、位置錯誤)、np6名詞“數(shù)”的錯誤、ft7落款錯誤、wd5單詞的冗余,具體頻數(shù)可見表3。對它們做進一步歸類分析發(fā)現(xiàn),高職學生在詞形、詞語使用、句子結(jié)構(gòu)和應用文格式這四個方面的問題最為突出,而其中的詞形和應用文格式是基本的英語語言學習內(nèi)容,也是比較容易掌握的,但失誤比例卻依然很高,說明高職英語應用文寫作教學仍然要重基礎。高職學生擅長圖式思維和實例思維,將學生自己的作文實例放到他們面前,使他們對失誤的印象更深,降低今后再次犯錯的可能性。
表3 VCSPEWC失誤頻數(shù)前十位列表
提高高職英語應用文寫作的教學質(zhì)量,首先必須了解教學對象,了解高職生在語言使用中的各種言語失誤,并且找出產(chǎn)生這些言語失誤的原因,以便改進教學,幫助學生掌握規(guī)范的、地道的英語。筆者及其團隊設計建設了《高職生英語應用文寫作語料庫(VCSPEWC)》,對語料進行了失誤標注,為研究高職生學習英語的中間語提供了科學的依據(jù)。另外,利用先進的檢索軟件對語料庫進行檢索,初步掌握了高職生在英語應用寫作方面發(fā)生失誤的情況,如學生英語應用文寫作中出現(xiàn)的12大類69小類失誤頻數(shù),高頻失誤類型是哪些,針對這類型失誤應設置怎樣的教學重點等,對高職英語應用文寫作教學是一大支撐。