李文良,付海辰
(唐山學(xué)院a.外語(yǔ)系;b.計(jì)算機(jī)系,河北唐山 063000)
英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)的設(shè)計(jì)和技術(shù)實(shí)現(xiàn)
李文良a,付海辰b
(唐山學(xué)院a.外語(yǔ)系;b.計(jì)算機(jī)系,河北唐山 063000)
主要從語(yǔ)料庫(kù)的建設(shè)前提、語(yǔ)料庫(kù)的設(shè)計(jì)和技術(shù)實(shí)現(xiàn)以及語(yǔ)料庫(kù)的檢索三個(gè)方面分析了英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)的建設(shè)問題。
語(yǔ)料庫(kù);設(shè)計(jì);技術(shù)實(shí)現(xiàn);檢索
隨著計(jì)算機(jī)技術(shù)的發(fā)展,英語(yǔ)語(yǔ)料庫(kù)在中國(guó)也得到了迅速的發(fā)展。語(yǔ)料庫(kù)方法在詞典編纂、語(yǔ)言研究和語(yǔ)言教學(xué)等方面得到了越來越多的應(yīng)用。英語(yǔ)語(yǔ)料庫(kù)在英語(yǔ)語(yǔ)言教學(xué)和研究方面有著十分重要的作用。它可以提供真實(shí)語(yǔ)料,提供數(shù)據(jù)的統(tǒng)計(jì),根據(jù)數(shù)據(jù)驗(yàn)證現(xiàn)行的語(yǔ)言學(xué)習(xí)理論并能據(jù)此建立新的理論。英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)通過語(yǔ)料庫(kù)和語(yǔ)料庫(kù)索引工具把語(yǔ)境共現(xiàn)、語(yǔ)料庫(kù)的文本展現(xiàn)和網(wǎng)絡(luò)互動(dòng)進(jìn)行有機(jī)結(jié)合,為外語(yǔ)學(xué)習(xí)者提供一種自然的語(yǔ)言學(xué)習(xí)環(huán)境,從而促進(jìn)學(xué)習(xí)者對(duì)外語(yǔ)詞匯的自主學(xué)習(xí)。適合學(xué)習(xí)者多樣化的語(yǔ)料庫(kù)的建立,還能改變單純依靠教材進(jìn)行外語(yǔ)學(xué)習(xí)的被動(dòng)局面,解決了語(yǔ)言學(xué)習(xí)材料的真實(shí)性和多元化問題,適應(yīng)立體化、網(wǎng)絡(luò)化、個(gè)性化外語(yǔ)教學(xué)和學(xué)習(xí)的實(shí)際需要,使外語(yǔ)教學(xué)朝著個(gè)性化學(xué)習(xí)、不受時(shí)間和地點(diǎn)限制的學(xué)習(xí)、主動(dòng)式學(xué)習(xí)的方向發(fā)展。利用語(yǔ)料庫(kù)對(duì)英語(yǔ)專業(yè)學(xué)生進(jìn)行四級(jí)詞匯自主學(xué)習(xí)和研究,首先需要建立英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)。本文主要針對(duì)語(yǔ)料庫(kù)技術(shù)的發(fā)展和語(yǔ)料庫(kù)建設(shè)問題中出現(xiàn)的關(guān)鍵問題進(jìn)行逐一探討。
語(yǔ)料庫(kù)技術(shù)的發(fā)展大致經(jīng)歷了四個(gè)階段。
第一階段:人工采集語(yǔ)料階段。語(yǔ)料靠人工閱讀采集而來。在當(dāng)時(shí)的技術(shù)條件下,研究者會(huì)花大量時(shí)間閱讀書籍、報(bào)刊,搜集語(yǔ)料。但此種方法費(fèi)時(shí)、費(fèi)力,效率低,而且資料的質(zhì)量無法保證。
第二階段:計(jì)算機(jī)語(yǔ)料庫(kù)的建立與 KW IC(上下文關(guān)鍵詞)檢索階段。計(jì)算機(jī)語(yǔ)料庫(kù)的建立和檢索工具的開發(fā),在語(yǔ)料庫(kù)的規(guī)模、覆蓋面、典型性上,都優(yōu)于人工搜集。人們可以把更多精力投入到更有意義的語(yǔ)料庫(kù)技術(shù)實(shí)現(xiàn)上。多種英語(yǔ)語(yǔ)料庫(kù)檢索工具得以開發(fā),如WordSmith,Sara,TACT等。這些檢索工具的一個(gè)共同特點(diǎn)是通過 KW IC形式,將被檢索詞置于上下文中,顯示其用法。但通過 KW IC檢索時(shí),檢索得到的語(yǔ)料行數(shù)不能太多,否則就難以觀察。對(duì)語(yǔ)料的概括和小結(jié)仍存在一定缺陷。
第三階段:Word Sketch Engine(簡(jiǎn)稱WSE,詞匯描述引擎)檢索階段。英國(guó)Brighton大學(xué)的 Kilgrarriff和 Tugwell等人開發(fā)的軟件“Wo rd Sketch Engine”可較直觀地顯示詞的常見搭配以及出現(xiàn)頻率和顯著度(salience)。用 WSE檢索結(jié)果分三欄排列:第一欄顯示被檢索詞的搭配或句法結(jié)構(gòu);第二欄為每一搭配或結(jié)構(gòu)在英國(guó)國(guó)家語(yǔ)料庫(kù)(British Na-tional Corpus)中的頻數(shù);第三欄則是搭配或結(jié)構(gòu)的顯著度。WSE檢索工具已經(jīng)商業(yè)化,進(jìn)行詞典的編纂,還輔助開發(fā)了英語(yǔ)義類詞典。
第四階段:FrameNet(框架網(wǎng))檢索階段。此種檢索繼承了前兩代檢索工具的優(yōu)點(diǎn),而且對(duì)詞義更敏感。
綜上所述,各個(gè)階段的語(yǔ)料庫(kù)技術(shù)都有自身的特點(diǎn)。就目前我們建立英語(yǔ)專業(yè)四級(jí)詞匯自主學(xué)習(xí)語(yǔ)料庫(kù)而言,主要還是使用第二階段的英語(yǔ)語(yǔ)料檢索工具。
英語(yǔ)語(yǔ)料庫(kù)研究的發(fā)展經(jīng)歷了三個(gè)階段。運(yùn)用語(yǔ)料庫(kù)進(jìn)行語(yǔ)言研究最早可以追溯到19世紀(jì)末,當(dāng)時(shí)的研究手段還只停留在卡片制作和人工檢索的階段,其成果也僅用作編纂語(yǔ)法書或詞典的參考;20世紀(jì)60年代至90年代是語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展的第二個(gè)階段,世界各地都開始建設(shè)自己的語(yǔ)料庫(kù)并且開始跨國(guó)聯(lián)合建立國(guó)際性的語(yǔ)料庫(kù),20世紀(jì)90年代中期是語(yǔ)料庫(kù)語(yǔ)言學(xué)發(fā)展的第三個(gè)階段。語(yǔ)料庫(kù)語(yǔ)言學(xué)一般被認(rèn)為是20世紀(jì)60年代初期發(fā)展起來的一門新興的語(yǔ)言研究科學(xué)。我們目前是利用自己開發(fā)的英語(yǔ)專業(yè)四級(jí)詞匯學(xué)習(xí)語(yǔ)料庫(kù)進(jìn)行四級(jí)詞匯自主學(xué)習(xí)的研究。
2.1 語(yǔ)料庫(kù)的建設(shè)前提
研究學(xué)生利用英語(yǔ)專業(yè)四級(jí)詞匯學(xué)習(xí)語(yǔ)料庫(kù)進(jìn)行學(xué)習(xí)的前提,便是要建立四級(jí)詞匯學(xué)習(xí)的語(yǔ)料庫(kù)。語(yǔ)料庫(kù)的建設(shè)主要包括兩大方面:一是語(yǔ)料庫(kù)文本,二是語(yǔ)料庫(kù)檢索軟件。在具體選擇語(yǔ)料庫(kù)文本和語(yǔ)料庫(kù)檢索軟件之前,需要明確幾個(gè)問題:
(1)語(yǔ)料庫(kù)研究的目的和設(shè)計(jì)。針對(duì)的主要是即將參加英語(yǔ)專業(yè)四級(jí)考試,需要通過大量語(yǔ)料來鞏固、完善詞匯學(xué)習(xí)的英語(yǔ)專業(yè)學(xué)生。在此基礎(chǔ)上,根據(jù)學(xué)生利用語(yǔ)料庫(kù)進(jìn)行詞匯學(xué)習(xí)的過程和結(jié)果,對(duì)詞匯自主學(xué)習(xí)模式進(jìn)行探討。
(2)語(yǔ)料庫(kù)的整體設(shè)計(jì)。英語(yǔ)專業(yè)四級(jí)是指英語(yǔ)專業(yè)的學(xué)生在大學(xué)階段英語(yǔ)專業(yè)學(xué)習(xí)第四個(gè)學(xué)期所應(yīng)達(dá)到的水平。所以語(yǔ)料庫(kù)中的文本包括現(xiàn)行英語(yǔ)專業(yè)前四個(gè)學(xué)期的教材和專業(yè)四級(jí)閱讀文章、網(wǎng)上相關(guān)四級(jí)詞匯內(nèi)容、各種英文電子期刊雜志等等。
(3)語(yǔ)料庫(kù)文本的整理。語(yǔ)料來源于課本、輔導(dǎo)材料和電子文本,但要把這些材料應(yīng)用到語(yǔ)料庫(kù),還需要做相應(yīng)的加工和處理,我們把這個(gè)過程稱作清潔。文本不清潔會(huì)導(dǎo)致在日后的使用和分析上的不準(zhǔn)確。因此這一過程非常重要。
取樣的平衡、設(shè)計(jì)容量、語(yǔ)料來源等都會(huì)對(duì)日后的研究產(chǎn)生一定的影響。在建庫(kù)之后,我們可以借助語(yǔ)料庫(kù)進(jìn)行學(xué)習(xí)或者帶著問題進(jìn)行研究,并在此基礎(chǔ)上進(jìn)行數(shù)據(jù)統(tǒng)計(jì)和分析。整個(gè)工作流程見圖1。
2.2 語(yǔ)料庫(kù)的設(shè)計(jì)和技術(shù)實(shí)現(xiàn)
(1)建庫(kù)所需工具和軟件。在語(yǔ)料庫(kù)建設(shè)前,要確保有一些好用的文本編輯器,如 EditPad、EditPlus等;建庫(kù)所需文本掃描得到的圖形文件,需要相應(yīng)的識(shí)別軟件,如 AB-BYYFineReader等;如果來源于網(wǎng)絡(luò),可能需要解壓縮軟件W in RAR,W inZIP,如果是CAJ或是PDF格式文件,則需要AdobeReader或是CAJViewer,還需要相應(yīng)的轉(zhuǎn)換軟件把格式改為文本格式。
圖1 流程圖
(2)語(yǔ)料庫(kù)的設(shè)計(jì)。語(yǔ)料庫(kù)的設(shè)計(jì)首先包括語(yǔ)料的類型問題,以及確定各種語(yǔ)料所占的比例:對(duì)于英語(yǔ)專業(yè)四級(jí)詞匯學(xué)習(xí)語(yǔ)料庫(kù)來說,語(yǔ)料類型豐富,包括人文、地理、歷史、科技、邏輯、新聞等多種類型。設(shè)計(jì)時(shí)可以大概有一比例,在語(yǔ)料庫(kù)建成后可以再進(jìn)行詳細(xì)統(tǒng)計(jì)。對(duì)于語(yǔ)料的大小,由于此語(yǔ)料庫(kù)語(yǔ)料來源有課本、考試和網(wǎng)絡(luò),所以語(yǔ)料長(zhǎng)短會(huì)有差別,但按照《英語(yǔ)專業(yè)四級(jí)考試大綱》的要求,一般語(yǔ)料長(zhǎng)度都應(yīng)在500個(gè)單詞以上。
語(yǔ)料庫(kù)語(yǔ)料的獲取方法問題:此語(yǔ)料庫(kù)獲取語(yǔ)料的主要渠道為英語(yǔ)專業(yè)所用教材、專業(yè)四級(jí)考試材料和網(wǎng)絡(luò)。因?yàn)閷I(yè)所用教材是按照《英語(yǔ)專業(yè)四級(jí)考試大綱》所要求的詞匯進(jìn)行編寫,所以涉及到了大部分專業(yè)四級(jí)詞匯。而《英語(yǔ)專業(yè)四級(jí)考試大綱》按照《高等學(xué)校英語(yǔ)專業(yè)教學(xué)大綱》要求編寫而成,并且根據(jù)歷年考試實(shí)際情況進(jìn)行微調(diào),所以試題存在代表性和平衡性。而從網(wǎng)絡(luò)獲取部分語(yǔ)料則是考慮到了英語(yǔ)的實(shí)時(shí)更新性和與時(shí)俱進(jìn)性。語(yǔ)料是活的,是在不斷更新和進(jìn)步的。但網(wǎng)絡(luò)獲取我們主要選取了一些權(quán)威網(wǎng)站的語(yǔ)料,這些網(wǎng)站均為英、美主要報(bào)刊和雜志,以確保語(yǔ)料的真實(shí)性和有效性。
文本的整理和清潔:整理清潔文本的原因是由于通過鍵盤錄入、掃描識(shí)別、網(wǎng)絡(luò)下載或是PDF文件等方式得到的文本,在單詞拼寫、文字符號(hào)、空格段落和標(biāo)點(diǎn)符號(hào)等方面都存在著一定的問題。如果文本不干凈,會(huì)導(dǎo)致后期分析結(jié)果不準(zhǔn)確。圖2和圖3通過文本片段說明這個(gè)問題。
圖2 問題文本
在圖2問題文本中,可以看到文本格式存在很多問題:單詞間空格多余、有空段、出現(xiàn)硬回車、出現(xiàn)全角符號(hào)等。這樣的文本在后期應(yīng)用中存在諸多問題,通過文本清潔后如圖3所示。
圖3 清潔文本
由于建庫(kù)需要大量文本,對(duì)于文本出現(xiàn)的格式問題,也可使用軟件“文本整理器”進(jìn)行批量整理,清潔文本。文本處理器的功能如圖4所示。但仍有可能存在文本不清潔的問題。這時(shí)候則需要借助正則表達(dá)式進(jìn)行進(jìn)一步清理。
(1)在AntConc主界面File菜單中Open File中瀏覽并選定文本。如果需要選擇某一文件夾下所有文本,則在File菜單中選擇“Open Dir…”,瀏覽并選定文件夾。如圖 5所示。
圖5 操作頁(yè)面一
圖4 文本處理器的功能
文本的標(biāo)注。語(yǔ)料庫(kù)標(biāo)注的深度,取決于語(yǔ)料庫(kù)建設(shè)的設(shè)計(jì)目標(biāo)和研究需求。語(yǔ)料庫(kù)既可以不加任何標(biāo)注,也可以添加多層次標(biāo)注。標(biāo)注信息的復(fù)雜程度決定了技術(shù)要求和研發(fā)成本的提高。目前的標(biāo)注語(yǔ)言多采用Extensible Mark-up Language(簡(jiǎn)稱XML)。此語(yǔ)言靈活度高、擴(kuò)展性強(qiáng)、句法嚴(yán)謹(jǐn)。由于篇幅所限,標(biāo)注問題另行撰文。
2.3 語(yǔ)料庫(kù)的檢索
語(yǔ)料庫(kù)建設(shè)完成后??梢岳?AntConc進(jìn)行簡(jiǎn)單檢索。激活軟件后,按以下步驟操作:
(2)點(diǎn)擊AntConc主界面上方的Conco rdance選項(xiàng),在檢索項(xiàng)中輸入需要檢索的四級(jí)詞匯。如圖6所示。在檢索項(xiàng)輸入框上方的檢索模式區(qū)域進(jìn)行選擇。如只想了解選定詞的準(zhǔn)確形式,就選擇“wo rds”模式下檢索;如想檢索詞綴則在“Regex”模式下能得到較為理想的結(jié)果?;蛘?可以利用通配符來滿足多種檢索需要。如需進(jìn)行復(fù)雜檢索,仍需使用正則表達(dá)式進(jìn)行。
圖6 操作頁(yè)面二
語(yǔ)料庫(kù)在外語(yǔ)教學(xué)和研究中發(fā)揮著越來越重要的作用。相應(yīng)的對(duì)于語(yǔ)料庫(kù)的設(shè)計(jì)、軟件開發(fā)和應(yīng)用也會(huì)得到促進(jìn)和發(fā)展。這需要英語(yǔ)專業(yè)和計(jì)算機(jī)專業(yè)人員相結(jié)合,共同進(jìn)行語(yǔ)料庫(kù)開發(fā)和建設(shè)。
(責(zé)任編校:李聰明)
The Design and Techn ical Realization of TEM 4 Vocabulary Corpus Based on Autonomous Learn ing
LIWen-lianga,FU Hai-chenb
(a.Department of Foreign Languages Tangshan College,Tangshan 063000,China;b.Department of Computer Sciences Tangshan College,Tangshan 063000,China)
The paper analyzes the construction of TEM 4 vocabulary corpus from the perspectives of the p recondition,the design and technical realization and the searching based on autonomic learning.
corpus;design;technical realization;searching
H319.3
A
1672-349X(2010)05-0090-02
2010-08-20
河北省教育廳立項(xiàng)課題(SZ091120)
李文良(1962-),男,教授,碩士,主要從事英語(yǔ)語(yǔ)言文學(xué)教學(xué)與研究。