祁繼香
【摘要】本文主要討論用語料庫來輔助學(xué)前教育雙語教學(xué)、幼兒園英語語料庫的創(chuàng)立和它的重大意義。
【關(guān)鍵詞】幼兒園英語 語料庫
一、《幼兒園英語語料庫建設(shè)》的意義
語料庫為學(xué)習(xí)、工作等提供一種資源,對于學(xué)生,可幫助大家挖掘?qū)I(yè)的深度和廣度。在外語研究和教學(xué)方面,語料庫語言學(xué)為其提供豐富真實的資料供參考,例如,通過語料庫,教師可設(shè)計課堂實例、考卷;可以從學(xué)習(xí)者語料庫發(fā)現(xiàn)過量使用的詞,對其進行重點關(guān)注;學(xué)生可以通過語料庫加深對生詞的理解、使用規(guī)則等,進行自學(xué);也可以發(fā)現(xiàn)書面、口頭英語間的差別,挖掘語言背后的文化內(nèi)涵等。此外,通過對語料庫的研究,不僅有利于加深對文章體裁方面的研究,而且有助于推動機器翻譯的飛躍發(fā)展。
目前國際國內(nèi)幼兒園教育基本上都是圍繞五大領(lǐng)域主題活動展開。幼兒園英語語料庫(Kindergarten English Corpus,簡稱KEC)正是基于五大領(lǐng)域主題活動進行研究和建設(shè),該語料庫為學(xué)前英漢雙語專業(yè)學(xué)生、幼兒園英語教師以及其他幼兒英語愛好者提供了接觸幼兒園情真實景英語的途徑。學(xué)習(xí)者在學(xué)習(xí)過程中需要積極主動地思考、質(zhì)疑、探索。在這一過程中,英語學(xué)習(xí)者不僅可以學(xué)會英語知識,更學(xué)會學(xué)習(xí)技巧,同時熟悉幼兒園各大領(lǐng)域活動特征和內(nèi)容,并掌握如何用雙語進行幼兒園教學(xué)活動,為勝任將來任職崗位打下堅實的基礎(chǔ)。
二、《幼兒園英語語料庫建設(shè)》的目標(biāo)
本課題研究的主要目標(biāo)是建設(shè)一個符合高等教育學(xué)前教育學(xué)生及廣大幼兒英語工作者的幼兒園英語專用語料庫。該幼兒園英語語料庫是根據(jù)可靠的理論依據(jù)和明確的設(shè)計原則建立的幼兒園英語的電子文庫,幫助幼兒園英語從教者更為全面地掌握幼兒園英語的內(nèi)容,為幼兒園英語教學(xué)提供強大的平臺,為廣大幼兒園英語教師和高校學(xué)前教育雙語專業(yè)學(xué)生以及廣大幼兒英語教學(xué)研究者提供強有力工具和手段。
三、《幼兒園英語語料庫》的內(nèi)容
建設(shè)一個小型的“幼兒園英語語料庫”單語語料庫,具體內(nèi)容涉及如下:
1.設(shè)計和規(guī)劃。主要考慮語料庫的用途、類型、規(guī)模、實現(xiàn)手段、質(zhì)量保證、可擴展性等。
2.語料的采集。主要考慮語料獲取、數(shù)據(jù)格式、字符編碼、語料分類、文本描述,以及各類語料的比例以保持平衡性等。
3.語料的加工。包括標(biāo)注項目(詞語單位、詞性、句法、語義、語體、篇章結(jié)構(gòu)等)標(biāo)記集、標(biāo)注規(guī)范和加工方式。
4.語料管理系統(tǒng)的建設(shè)。包括數(shù)據(jù)維護(語料錄入、校對、存儲、修改、刪除及語料描述信息項目管理)、語料自動加工(分詞、標(biāo)注、文本分割、合并、標(biāo)記處理等)、用戶功能(查詢、檢索、統(tǒng)計、打印等)。
《幼兒園英語語料庫》整體上由兩部分組成:Audio(語音庫)和TEXTS(文本庫)。Audio(語音庫)中的任務(wù)1任務(wù)2子庫(英文兒歌和英文兒童故事)包括英文兒歌視頻語料和音頻語料。其中視頻語料以imvb的格式播放,音頻語料以mp3的格式播放。
TEXTS(文本)全部則采用純文本格式,即“文本名.txt”的格式,如:Childrens Poems.txt。任務(wù)1子庫包含2個文本2萬詞容;任務(wù)2子庫包含14個文本9萬詞容;任務(wù)3子庫包含2兩文本1萬6千詞容;任務(wù)4子庫包含6個文本14萬詞容;任務(wù)5子庫包含19個文本18萬詞容;任務(wù)6子庫包含12個文本10萬詞容;任務(wù)7子庫包含16個文本25萬詞容;任務(wù)8子庫包含7個文本6萬詞容。
四、《幼兒園英語語料庫》制作過程
1.文本采集。
(1)基本準(zhǔn)備。工具準(zhǔn)備:課題組主持人和成員于2012年12月初參加了由教育部承辦、外研社主辦的、由梁茂成、李文中、徐家金三位老師主講的“雙語平行語料庫研究”研修學(xué)習(xí),獲得了好幾款預(yù)料建設(shè)和研究方面的軟件。如EditPad Pro、UltraEdit、ABBY FineReader等。
文獻(xiàn)準(zhǔn)備:建庫前,閱讀了一些語料庫建設(shè)的基本的書籍,如Martin Wynne編寫的Developing Linguistic Corpora: A Guide to Good Practice、CHILDES、梁茂成主編的《語料庫應(yīng)用教程》、文秋芳寫的《中國學(xué)生英語口筆語語料庫》、王克非寫的《報刊英語語料庫》及其它語料庫方面的書籍。
物質(zhì)準(zhǔn)備: 準(zhǔn)備了兩個專門用語語料備份的移動硬盤和優(yōu)盤,另外還準(zhǔn)備了幾張光盤,定期把語料刻寫到光盤上,以備長期存儲。
(2)語料庫設(shè)計。
1)預(yù)料的來源及獲取語料的方法。本課題組獲取語料的主要渠道為:網(wǎng)絡(luò)下載,包括網(wǎng)絡(luò)圖書館、幼兒英語數(shù)據(jù)庫、可供下載的自由百科全書、幼兒英語方面的網(wǎng)頁、電子書及其它資源。具體包括幼兒園日常英語;幼兒英文兒歌、幼兒園手指謠、律動操、手工、詩歌、童話故事等為原始語料,收錄文字資料和音像資料進行轉(zhuǎn)寫。
2)根據(jù)國際國內(nèi)語料庫建設(shè)的實踐經(jīng)驗,制定幼兒園英語語料庫轉(zhuǎn)寫和賦碼方案,組織人員進行轉(zhuǎn)寫工作。
3)語料庫中的文件格式:文字文件一律采用文本文檔,音頻文件采用兼容性較好,更為通用的mp3格式。
2.文本整理。
(1)清潔文本。對建好的電子文本進行加工和處理,包括文本的處理、語料元信息的標(biāo)注等。比如英語文本應(yīng)當(dāng)由半角字符構(gòu)成。除單詞之間、句間,其它位置通常不應(yīng)該有空格。文本處理可以借助于PowerGREP或其它文本編輯工具,本課題組采用的是一款梁茂成老師介紹的“文本整理器”的免費軟件。
(2)元信息標(biāo)注。元信息(metadata)課分為如下:
文本說明信息:包括文件序號、文本分類、其他分類、文本統(tǒng)計信息、版權(quán)聲明等。
文獻(xiàn)信息:包括作者、時間、標(biāo)題、來源、出版者等。
文本結(jié)構(gòu)信息:標(biāo)題、章節(jié)、段落、句子,以及其它特殊文本內(nèi)部結(jié)構(gòu)的標(biāo)注,如兒童英文詩歌、兒童英文童話劇等。
五、《幼兒園英語語料庫》的研究方法
1.文獻(xiàn)研究法。搜集和整理關(guān)于語料庫建設(shè)方面的文獻(xiàn)資料和幼兒園英語方面的資料,舉辦講座,用以指導(dǎo)課題研究。
2.調(diào)查研究法。調(diào)查幼兒園、家庭、科學(xué)、語言、自然健康等方面課程資源的狀況,將其有效地開發(fā)整合為幼兒園英語課程資源。
3.行動研究法。利用幼兒園、家庭、自然、健康等方面的課程資源開展語言實踐活動,實現(xiàn)幼兒教師課程資源開發(fā)利用和學(xué)前教學(xué)的有效整合。
4.定量研究法。定量研究主要是指利用語料庫方法對研究對象進行客觀而真實的調(diào)查,在此基礎(chǔ)上,做出綜合性的分析與評價,形成定性研究。
建設(shè)和開發(fā)幼兒園英語語料庫的預(yù)期價值在于:幼兒園用于語料庫建成后,將是國內(nèi)首個同類型的語料庫。該項目的完成,將對我國幼兒園英語教學(xué)提供強大的平臺,為廣大幼兒園英語教師和高校學(xué)前教育雙語專業(yè)學(xué)生以及廣大幼兒英語教學(xué)研究者體供強有力工具和手段。幼兒園英語語料庫是根據(jù)可靠的理論依據(jù)和明確的設(shè)計原則建立的幼兒園英語的電子文庫,幫助英語學(xué)習(xí)者更為全面地掌握幼兒園英語的內(nèi)容。
參考文獻(xiàn):
[1]胡群.幼兒雙語教師口語教程[M].北京:開明出版社.2004.
[2]梁茂成,李文中,許家金.語料庫應(yīng)用教程[M].北京:外語教學(xué)與研究出版社.2010.
[3]劉霞.幼兒園英語口語大全[M].北京:清華大學(xué)出版社.2004.
[4]王克非.雙語對應(yīng)語料庫:研制與應(yīng)用[M].北京:外語教學(xué)與研究出版社.2007.