吳福煥,林進(jìn)展,周紅霞
(1.2.3.南洋理工大學(xué)新加坡華文教研中心,新加坡 279623)
?
新加坡教育專用語料庫的建設(shè)與應(yīng)用①
吳福煥1,林進(jìn)展2,周紅霞3
(1.2.3.南洋理工大學(xué)新加坡華文教研中心,新加坡 279623)
教育專用語料庫;書面語;口語;語料庫應(yīng)用
重點介紹了新加坡華文教研中心開發(fā)的兩個教育專用語料庫,分別是“新加坡學(xué)生日常華文書面語語料庫”以及“新加坡小學(xué)生日常華語口語語料庫”。這兩個語料庫盡可能從課程開發(fā)與語言教學(xué)的需要出發(fā),進(jìn)行語料采樣和處理。同時,還介紹了為讓語料庫在新加坡華語文教學(xué)得到充分運用而開發(fā)的基于語料庫的華文教學(xué)資源平臺,以期協(xié)助華語文教師備課和出題。
語料庫語言學(xué)與語言教學(xué)一直被認(rèn)為是可以相輔相成的兩個學(xué)科。然而,不少語料庫卻往往無法起到輔助語言教學(xué)的功能。(林進(jìn)展等,2015;余國良,2009)其主要原因在于這些語料庫在建設(shè)時多從語言本體的研究角度出發(fā),而忽略了課程開發(fā)和語言教學(xué)的需要。(Braun,2007;Cook,1998;Gavioli&Aston,2001;McEnery&Xiao,2010)為了讓語料庫更加緊密地與華語文教學(xué)配合,新加坡華文教研中心自2011年就致力于華文教育專用語料庫的開發(fā)和建設(shè)。
所謂教育專用語料庫,顧名思義,就是專為語言教學(xué)目的而開發(fā)的語料庫,而教育的專用性主要體現(xiàn)在兩個方面:一是在建設(shè)的過程中盡可能從課程與教學(xué)需要方面去進(jìn)行采樣和建構(gòu);二是在完成建庫后進(jìn)一步開發(fā)出實用的功能,讓教育界人士能直接使用庫里的信息或借助語料庫的信息為教育工作者提供切實、有用的功能或應(yīng)用程式。
新加坡華文教研中心在新加坡教育部資助下,建設(shè)了兩個教育專用語料庫,分別是“新加坡學(xué)生日常華文書面語語料庫”以及“新加坡小學(xué)生日常華語口語語料庫”。前者旨在找出學(xué)生應(yīng)該學(xué)習(xí)的日常詞匯和句型;后者則旨在探索不同年齡層學(xué)生所能基本具備的詞匯與句型。這兩個語料庫的建設(shè)可以分為3個階段,一是語料采集,二是語料處理,三是語料分析。本文將對這兩個語料庫的建設(shè)過程和特點進(jìn)行介紹,并總結(jié)他們初步提供的語言信息。結(jié)合這兩個語料庫所提供的信息,課程開發(fā)者將能定位課程所應(yīng)涵蓋的漢字、詞匯和句型范圍,并預(yù)期不同年齡層與不同家庭背景學(xué)生所能達(dá)到的基本語言水平。
除了為課程開發(fā)者提供信息外,相關(guān)研究團(tuán)隊在2013年還于書面語語料庫的基礎(chǔ)上,為前線老師開發(fā)了一個教學(xué)資源平臺,這個平臺除了具備讓教師搜索字、詞、句等語言信息的功能外,還專為教師開發(fā)了一個文本分集功能,協(xié)助老師鑒定課外閱讀材料與閱讀測驗題目的適切程度和難易程度。
如上所述,上述兩個語料庫建設(shè)基本經(jīng)歷了3個階段。在第一個階段,兩個項目都進(jìn)行了學(xué)生問卷調(diào)查。書面語語料庫的學(xué)生調(diào)查主要針對學(xué)生接觸語料的范圍和頻率,以此界定采集語料的方向后才開始語料的收集;口語語料庫的調(diào)查則主要針對學(xué)生的家庭語言背景以及不同年齡層學(xué)生的愛好和興趣,以便設(shè)計訪談的話題和課堂活動。在第二個階段,書面語語料庫以“靈玖數(shù)據(jù)挖掘&語義分析智能開發(fā)平臺”(Lingioin Text Mining&Semantic Parser Development Platform),對語料進(jìn)行了分詞和詞性標(biāo)注,并采用新加坡華文教研中心自行開發(fā)的句型標(biāo)注系統(tǒng)對句子的類型進(jìn)行人工標(biāo)注;口語語料庫的語料處理過程與書面語語料庫類似,但在這之前多了一個轉(zhuǎn)寫環(huán)節(jié),所有收集到的錄音都轉(zhuǎn)寫成文字才入庫進(jìn)行語料處理,并反復(fù)進(jìn)行人工校對。在第三個階段,項目組對兩個語料庫的字、詞、句的分布情況進(jìn)行了總結(jié),并產(chǎn)出了字表、詞表和句型表。結(jié)合這兩個語料庫所提供的語言信息,課程開發(fā)者將能定位課程所應(yīng)涵蓋的詞匯和句型范圍,以及不同年齡層與不同家庭背景學(xué)生所應(yīng)達(dá)到的基本語言水平。
在建設(shè)上述兩個語料庫時,語料的處理有一些共同的流程。簡單來說,我們需要對收集來的語料進(jìn)行處理、建庫和加工。由于上述兩個語料庫的語料在來源和格式上有所不同,不同的語料需要采取不同的處理工序,使用不同的應(yīng)用軟件和語料處理平臺來進(jìn)行一系列的預(yù)處理工作。在語料預(yù)處理過程中所使用到的軟件就包括:轉(zhuǎn)寫錄音的專用工具Transcriber、用于處理文本的專用軟件或文本整理器(如:PowerGREP、AntConc和UltraEdit)以及由新加坡華文教研中心語料庫項目組自行開發(fā)的語料校對與標(biāo)注系統(tǒng)。以下是這兩個語料庫所涉及語料的處理方式:
報章語料的處理:由于報章語料絕大部分直接下載自新加坡報業(yè)控股的《Newslink》檔案庫,在下載過程中出現(xiàn)了亂碼、標(biāo)點符號不一致以及非自然斷句的現(xiàn)象。對這些有問題的語料,我們進(jìn)行了人工校對,并將少量無法核對的語料加以刪除。同時,我們也借助上述不同的應(yīng)用軟件,集中處理標(biāo)點符號及非自然斷句的問題;
兒童讀物、漫畫和雜志的處理:對于收集到的小說、故事、漫畫、圖書以及雜志,我們進(jìn)行了掃描、文字識別及格式轉(zhuǎn)換,并對提取出來的文字進(jìn)行校對;
口語的處理:口語的處理過程基本包括:錄音和轉(zhuǎn)寫,之后統(tǒng)一轉(zhuǎn)換格式,并進(jìn)行人工校對;
網(wǎng)頁的處理:網(wǎng)頁資料的處理雖然較為直觀,但由于內(nèi)碼和編碼的不同,在下載后仍需要經(jīng)過格式轉(zhuǎn)換及人工校對的工序。
經(jīng)過預(yù)處理的語料會通過“靈玖數(shù)據(jù)挖掘&語義分析智能開發(fā)平臺”進(jìn)行語料加工處理。加工的程序如下:
首先是對語料進(jìn)行查重分析,將重復(fù)的文本文件剔除。
其次,由于兩個語料庫所收集的語料包含了大量本地特色詞匯及慣用搭配,這些詞匯和配搭并未收入“靈玖”平臺,因此需要研究人員在“靈玖”平臺上識別新詞,并標(biāo)注其詞性,以便系統(tǒng)之后依據(jù)確認(rèn)的新詞切分語料。
再者,“靈玖”平臺會對語料進(jìn)行自動化分詞和詞性標(biāo)注,進(jìn)而生成詞表初稿,供研究人員以新加坡華文教研中心的語料校對與標(biāo)注系統(tǒng)逐詞進(jìn)行校對。之后根據(jù)本課題組研制的句型與句類標(biāo)注體系對庫內(nèi)的句子再進(jìn)行標(biāo)注。
最后,在完成詞匯校對與句型標(biāo)注后,即可使用新加坡教研中心開發(fā)的語料提取與數(shù)據(jù)分析工具,生成所需要的詞表和句型表,并提取詞頻、詞匯豐富度、詞匯密集度、詞匯覆蓋率、句頻、句長等信息。
總的來說,書面語和小學(xué)口語語料庫的建庫流程基本包括:語料采集、語料預(yù)處理、語料入庫、語料分詞和校對,以及數(shù)據(jù)產(chǎn)出。以下是這5個步驟的示意圖,見圖1。
圖1:語料處理流程
為確保所采集的語料具備代表性,語料庫課題組首先展開了一個學(xué)生閱讀興趣問卷調(diào)查,以了解學(xué)生在日常生活中會接觸到的文本或媒介類型,以及這些文本或媒體的具體名稱。這個調(diào)查涉及大約1700名中小學(xué)生,覆蓋各個年級與學(xué)?;绢愋?。在分析了學(xué)生的閱讀興趣后,我們展開了語料的采集工作,所采集的范圍相當(dāng)廣:在文體方面包括了學(xué)生報、故事書、教輔材料、歌詞、劇本、網(wǎng)絡(luò)資源等;在內(nèi)容和主題方面涵蓋了學(xué)生專題報道、時事、體育、娛樂、旅游和休閑等。這些語料按學(xué)生們接觸的比例收集,力求文本類型與生活主題的平衡,以盡可能涵蓋不同書面媒體和主流文體中各種題材和領(lǐng)域的用詞與句型。表1 (P39)是書面語語料庫中語料的文本分布情況。
如表1所示,書面語語料庫共2,637,990字次,覆蓋報章和非報章兩種語料。為了貼近學(xué)生接觸報章和非報章文體的實際情況,報章文本的收集比例略少,占全庫的44.38%,且以兩份學(xué)生報為主,即《逗號》和《大拇指》,共占報章類語料的近乎一半(20.14%)。非報章語料部分,根據(jù)學(xué)生文本接觸的比例,在收集的比例上略多,共收集了1,467,367字次,占全庫的55.62%。在非報章語料中,占比例較多的是故事書與文學(xué)作品及參考書,分別占全庫的15.04%和13.73%。這里值得注意的一種語料是非報章中的其它文本,它所占的比例雖然不高(僅3.23%),但卻和學(xué)生的日常生活更為密切。它包括了學(xué)生平日在學(xué)??吹降谋趫?、街上拿到的傳單,以及在一些本地名勝景點所能取得的文物介紹或歷史事件說明。
上述200多萬字次的語料經(jīng)“靈玖”分詞軟件切分,以及相關(guān)課題組的人工校對后,共得詞次(型符數(shù),Token)1,695,214,詞條(類符數(shù),Type)53,230個。為便于教材編寫者參考,該課題組以覆蓋全庫95%的覆蓋率為限,將53,230個詞條的前10,290個高頻詞視為新加坡學(xué)生最常接觸的詞匯。表2是這些常接觸詞條的分布情況。
表1:書面語語料庫的語料分布
表2:書面語語料庫的詞條分布
這一萬余個詞條分布于21個詞類,分別是:普通名詞、時間詞、方位詞、處所詞、地名、機(jī)構(gòu)團(tuán)體名、動詞、形容詞、副詞、量詞、代詞連詞、介詞、數(shù)詞、助詞、擬聲詞、感嘆詞、語氣詞、成語及習(xí)用語塊、前綴及后綴。在這些詞類中,實詞類(即名詞、動詞、形容詞、數(shù)詞、量詞和代詞)所占的比例最大,共有9,299個詞條,約占詞表詞條數(shù)的90.37%。虛詞類的詞條則最少,共991個,僅占詞表詞條數(shù)的9.63%。
為更具體地鎖定新加坡學(xué)生應(yīng)該掌握的基本詞匯,課題組分別設(shè)計出該語料庫中兩個子庫的個別詞表,分別是小學(xué)子庫詞表和中學(xué)子庫詞表,并對它們之間共有的詞匯進(jìn)行對比,如表3(P40)所示。對比結(jié)果顯示,兩個子庫中共有的詞條為17,039個,其中94.21%是實詞(共16,052個),5.79%是虛詞(共987個)。這兩個子庫共有的詞匯可以被視為學(xué)生由小學(xué)至中學(xué)間必須學(xué)會的基本詞匯。
除詞匯外,課題組也對書面語語料庫中的句子進(jìn)行了句型的標(biāo)注和計算。在全庫118,956個句子中,在單句方面以動詞謂語句、無主句和形容詞謂語句較為常見,分別占句子總數(shù)的77.33%、13.03%和7.79%。至于復(fù)句方面,較常見的3種句型包括承接復(fù)句中的“……就……”、并列復(fù)句中的“……也……”和轉(zhuǎn)折復(fù)句中的“雖然……但是……”,分別占全庫句數(shù)的0.06%、0.04%及0.03%。
表3:書面語語料庫小學(xué)與中學(xué)子庫的詞條分布與共有詞條
表4:口語語料庫取樣對象的分布
新加坡小學(xué)生日常華語口語語料庫的建設(shè)工作較書面語語料庫復(fù)雜。該庫首先設(shè)定了3種數(shù)據(jù)收集的方法,以求全面捕捉小學(xué)生的口語情況或能力。這3種數(shù)據(jù)收集方法包括一對一訪談、課堂實錄和家庭對話。一對一訪談主要采取研究員誘導(dǎo)學(xué)生說話的方法來采集語料。這種方法能較為直接有效地取得大量的口語語料,然而它相對不自然,屬于非自然的口語語料。課堂實錄則是通過老師組織口語活動的方法讓學(xué)生在活動中自發(fā)地產(chǎn)出口語語料。這種方法能提供相對自然的語料,因為課堂上的互動原就是學(xué)生使用口語的一種情景。家庭對話則是在家長配合下錄制學(xué)生于家庭活動中以華語交談的做法。這種數(shù)據(jù)最自然,因為學(xué)生是在一種自己熟悉的氛圍下,隨需要產(chǎn)出華語的。表4是這3種數(shù)據(jù)收集方法所收集的大致數(shù)量。
如表4所示,該語料庫預(yù)計收集720名學(xué)生的一對一訪談?wù)Z料,然而因為學(xué)生缺席和錄音設(shè)備故障,最終只收集到699名學(xué)生的一對一訪談?wù)Z料。在課堂實錄方面,該庫收集到所預(yù)計之48堂課的語料,而在收集上數(shù)量最少且最珍貴的家庭對話也如預(yù)期的,完成了72名學(xué)生和家人的生活對話語料收集。這里必須一提的是在進(jìn)行語料收集前,課題組向?qū)W生發(fā)放了兩份問卷,第一份是一個有關(guān)學(xué)生家庭語言使用情況的調(diào)查,這個調(diào)查將最終為每名學(xué)生計算出他所屬的家庭語言背景類型(分別為:主講華語家庭、雙語家庭和主講英語家庭)。另一份問卷則主要調(diào)查學(xué)生們所喜愛的話題,調(diào)查的結(jié)果則用于設(shè)計一對一訪談中的誘導(dǎo)題目和課堂實錄中所會進(jìn)行的口語活動,這是為了讓學(xué)生在最熟悉的話題里,最大限度地發(fā)揮自己的口語能力。
表5:兒童家庭語言背景與其詞匯豐富度的關(guān)系
在完成語料的收集后,所有的語料都被轉(zhuǎn)寫成文字(即逐字稿)并根據(jù)先前提到的語料庫進(jìn)行建庫。該語料庫最終得詞次1,285,096,詞條8,371個。這8,000余詞條中,普通詞匯(即漢語中有的詞匯)7,358個,包括成語的語塊164個,人名、地名專名等849個。這些詞外,課題組還發(fā)現(xiàn)了290個新加坡、馬來西亞及港臺地區(qū)才使用的特有詞匯(也可視為未規(guī)范的詞匯),這些詞匯有些仍應(yīng)保留在華語中,有些則應(yīng)該有所揚棄或進(jìn)行規(guī)范。
在句類與句型方面,全庫共有299,394個句子。其中,絕大部分是陳述句,占全庫句子數(shù)的90.46%;其次是疑問句,占全庫句子數(shù)的6.91%;再者為感嘆句和祈使句,分別占全庫句子數(shù)的2.20%和0.41%。在單句方面以動詞謂語句、簡略句和獨詞句較為常見,分別占句子總數(shù)的28.55%、22.80%和9.73%。至于復(fù)句方面,較常見的3種句型包括因果復(fù)句中的“因為……所以……”、承接復(fù)句中的“……然后……”和假設(shè)復(fù)句中的“如果……就……”,分別占全庫句數(shù)的3.15%、0.97%及 0.77%。
除分析口語語料庫的分詞與句型結(jié)果外,該語料庫還根據(jù)上述學(xué)生家庭語言使用情況調(diào)查,給每位參與調(diào)查的學(xué)生換算出一個代表其家庭語言背景類型的“華語接觸指數(shù)(Chinese Exposure Index,簡稱CEI)”。該指數(shù),介于1到-1之間。指數(shù)越接近“1”代表兒童來自主講華語的家庭,趨于“0”則代表兒童來自雙語并行的家庭,而接近“-1”則代表兒童來自主講英語的家庭。該課題組以這一指數(shù)對比了不同家庭語言背景兒童在詞匯豐富度(lexical diversity)、語法復(fù)雜程度(syntactic complexity)和語碼轉(zhuǎn)換頻率(code-switching frequency)上的表現(xiàn)。表5到表8為初步比較的結(jié)果。
在詞匯豐富度上,課題組計算了幾個豐富度指標(biāo),分別是每名兒童在一對一訪談中的總詞條數(shù)、總詞條數(shù)對總詞次的比例(即Type-Token Ratio,TTR值)、華語詞條數(shù)以及華語詞條數(shù)對華語詞次的比例。這些指標(biāo)的數(shù)值越高就意味兒童的詞匯越豐富。所以,根據(jù)表5,參與研究之兒童的家庭語言背景和幾個詞匯豐富度指標(biāo)的相關(guān)系數(shù)雖然不高,但仍呈現(xiàn)一些顯著的正相關(guān)趨勢。CEI與總詞條數(shù)的相關(guān)系數(shù)為0.152,與華語詞條數(shù)的相關(guān)系數(shù)為0.231。CEI與總TTR值和華語TTR值則未呈現(xiàn)顯著的相關(guān)性。換言之,部分詞匯豐富度的指標(biāo)(如:總詞條數(shù)、華語詞條數(shù))顯示,主講華語家庭的兒童,其總詞匯量和華語詞匯量較為豐富,反之,主講英語家庭的兒童則較低。然而,有部分詞匯豐富度指標(biāo)(如:TTR)則未顯示出顯著的相關(guān)性。
在語法復(fù)雜程度上,課題組計算了以下幾個指標(biāo),分別是每名兒童在一對一訪談中的獨詞話輪數(shù)、短語話輪數(shù)、單句話輪數(shù)、復(fù)句話輪數(shù)、單句話輪句長、復(fù)句話輪句長以及他們使用的連詞詞條數(shù)。據(jù)表6顯示,與兒童家庭語言背景產(chǎn)生顯著相關(guān)性的是獨詞話輪數(shù)和復(fù)句話輪數(shù),相關(guān)系數(shù)r值分別為-0.113和0.101。值得注意的是,家庭語言背景與獨詞話輪數(shù)呈現(xiàn)了負(fù)相關(guān),這意味主講英語家庭的兒童較常使用語法復(fù)雜度較低的獨詞話輪與人溝通。相反的,主講華語家庭的兒童較常使用語法復(fù)雜度較高的復(fù)句話輪與人溝通。
表6:兒童家庭語言背景與其話輪類型的關(guān)系
此外,表7則顯示,家庭語言背景與單句話輪句長和復(fù)句話輪句長皆產(chǎn)生顯著的正相關(guān),相關(guān)系數(shù)r值分別為0.163和0.168。這意味著主講華語家庭的兒童能夠產(chǎn)出較長的單句與復(fù)句話輪。相反地,主講英語家庭的兒童則會產(chǎn)出較短的單句與復(fù)句話輪。在連接詞的使用方面,主講華語家庭的兒童能使用的連詞較多,而主講英語家庭的兒童所能使用的連詞則較少,因此家庭背景指數(shù)CEI與連詞詞條數(shù)就呈現(xiàn)了正相關(guān),r值為0.172。換言之,主講華語家庭的兒童能用較多的連詞產(chǎn)出較為復(fù)雜的話輪,而主講英語家庭的兒童,由于較少接觸華語,無法自如地使用連接詞,因此只能產(chǎn)出語法較為簡單的話語。
表7:兒童家庭語言背景與其單復(fù)句平均句長的關(guān)系
除了觀察兒童家庭語言背景和詞匯豐富度與語法復(fù)雜程度的關(guān)系,課題組還標(biāo)注和計算了每名兒童轉(zhuǎn)換語碼的情況,所使用的觀察指標(biāo)包括英語詞條數(shù)、語碼轉(zhuǎn)換話輪數(shù)、話際語碼轉(zhuǎn)換數(shù)以及話內(nèi)語碼轉(zhuǎn)換數(shù)。表8顯示,家庭語言背景與這些指標(biāo)基本形成顯著的負(fù)相關(guān),相關(guān)系數(shù)r值分別為-0.179、-0.196、-0.197以及-0.147。這表示主講英語家庭的兒童更傾向于在進(jìn)行華語溝通時使用語碼轉(zhuǎn)換,而他們所使用的語碼轉(zhuǎn)換類型(即在同一個話輪內(nèi)切換語碼)。這種語碼轉(zhuǎn)換意味著說話人無法連貫地用華語表達(dá),而需要借助英語語塊完成溝通??偟膩碚f,上述相關(guān)系數(shù)意味著較少接觸華語的兒童會在需要用華語溝通時,使用其替代資源(即英語)。綜合口語語料庫的統(tǒng)計結(jié)果,預(yù)計兒童家庭背景所展現(xiàn)的語言使用特點,教材編寫者和語言教師將能更好地把握語言學(xué)習(xí)的焦點,以及所要解決的問題。
表8:兒童家庭語言背景與其語碼轉(zhuǎn)換傾向
上述兩個語料庫的核心產(chǎn)出(按照相關(guān)要求)僅是為課程編寫者提供所參考的詞表與句型表。然而,這類產(chǎn)出對教學(xué)前線未必有直接的貢獻(xiàn)。實際上,語料庫的用途并不僅限于標(biāo)準(zhǔn)詞表或句型表的擬定,它在教學(xué)上有3大主要的用途或應(yīng)用方式,這里簡要陳述并談?wù)務(wù)n題組對于這3大應(yīng)用方式所做出的努力。
首先,建設(shè)語料庫的其中一項核心用途就是梳理和描述語言的基本使用規(guī)律,找出語言成分(如:字、詞、句、篇)的基本形態(tài)、搭配、使用范圍和使用方法等。這些規(guī)律既要彰顯語言成分間存在的共性,也要顯示個別成分的特性。上述兩個語料庫中的書面語語料庫基本完成字、詞和句的共性梳理,并已把這些共性特征以頻率字典、頻率詞典和句型索引的形式發(fā)布(請參考《新加坡學(xué)生日常華文用語調(diào)查系列》),而對于詞匯與句子的個性特征則尚在整理。
其次,語料庫的另一用途是整理和了解不同學(xué)習(xí)者在學(xué)習(xí)同一語言時所產(chǎn)生的語言現(xiàn)狀,尤其是學(xué)習(xí)者在學(xué)習(xí)過程中所形成的中介語(Inter-language)或所面臨的問題及慣性錯誤等。對這些現(xiàn)象的整理將有助于教師開發(fā)針對性的教學(xué)。在這方面,上述所提到的小學(xué)口語語料庫正在進(jìn)行這方面的整理。該語料庫將從學(xué)生的口語轉(zhuǎn)寫語料中找出新加坡不同年齡層、不同家庭語言背景學(xué)生的普遍口語特點和偏誤并予以標(biāo)記,同時提供相應(yīng)的教學(xué)建議。這個語料庫將最終開發(fā)成一個教師培訓(xùn)資源,讓有需要的教師能在線了解學(xué)生的口語問題,并找到相應(yīng)的解決方法。
圖2:新加坡華文教學(xué)資源平臺的六個模塊
圖3:新加坡華文教學(xué)資源平臺的詞匯查詢功能模塊
第三,建成的語料庫還可進(jìn)行后續(xù)開發(fā),以期作為教學(xué)的資源。所能開發(fā)的資源,既可作為教師教學(xué)的素材(如進(jìn)行真實語料的導(dǎo)讀、基于數(shù)據(jù)庫的詞匯或語法教學(xué)),也可作為學(xué)生自學(xué)的材料,如進(jìn)行數(shù)據(jù)驅(qū)動的學(xué)習(xí)(Data Driven Learning)。在這方面,上述的書面語語料庫已開發(fā)出新加坡首個基于語料庫的平臺——新加坡華文教學(xué)資源平臺。該平臺共分6個功能模塊(見圖2),其中“單字查詢”“詞語查詢”(見圖3)和“句型查詢”是一般的語料檢索功能,方便老師查詢字詞和句型的定義,并找到合適教學(xué)的例句?!拔谋倦y度分級”(見圖4)和“全文查詢”則是專為教師備課而開發(fā)的核心功能模塊?!拔谋倦y度分級”模塊能幫助老師鑒定課外閱讀材料的適用級別并標(biāo)示超綱字、詞,“全文查詢”模塊則提供經(jīng)過語言加工處理過的全文材料,方便老師說明文中的字、詞或句型特征。該平臺還開放了教師論壇,供教師對教學(xué)課題展開討論,教師們甚至可以為個別字、詞的教學(xué)提供建議并分享教學(xué)心得。
圖4:新加坡華文教學(xué)資源平臺的文本難度分級功能模塊
綜上所述,本文簡介了新加坡華文教研中心自2011年開發(fā)的兩個語料庫,分別為“新加坡學(xué)生日常華文書面語語料庫”以及“新加坡小學(xué)生日常華語口語語料庫”。這兩個語料庫的誕生主要對應(yīng)于新加坡華文學(xué)習(xí)者素質(zhì)與要求的改變。這兩個語料庫的結(jié)果除了能對課程編寫有所貢獻(xiàn)外,他們的后續(xù)開發(fā)將有助于前線教師與學(xué)習(xí)者的教與學(xué)。在今后的科研工作中,教研中心將繼續(xù)探索語料庫的其他教學(xué)用途,如以書面語語料庫為基礎(chǔ)進(jìn)行試題難易度鑒定以及以口語語料庫為基礎(chǔ)建設(shè)一個培訓(xùn)口語教學(xué)的資源平臺。
華文課程與教學(xué)法檢討委員會2004華文課程與教學(xué)
法檢討委員會報告書[M].新加坡:華文課程與教學(xué)法檢討委員會.//CLCPRC(Chinese Language Curriculum and Pedagogy Review Committee)2004Report of the Chinese Language Curriculum and Pedagogy Review Committee[M].Singapore:Chinese Language Curriculum and Pedagogy Review Committee.
林進(jìn)展,趙春生,洪瑞春,吳福煥,王志豪2015基于語料庫的新加坡華文教學(xué)資源平臺開發(fā)[J].華文學(xué)刊,卷13,第1期,1-15.新加坡:南大-新加坡華文教研中心出版社.//Lin,J.,C.Zhao,S.C.Ang,H.H. Goh&C.H.Wong2015Development of a corpusbased resource platform for Chinese language teaching in Singapore[J].Journal of Chinese Language Education,13(1):1-15.Singapore:NTU-SCCL Press.
母語檢討委員會2010樂學(xué)善用[M].新加坡:新加坡教育部.//MTLRC(Mother Tongue Language Review Committee)2010Nurturing Active Learners and Proficient Users[M].Singapore:Ministry of Education.
謝澤文2003教學(xué)與測試[M].新加坡:新加坡華文教師總會.//Cheah,C.M.2003Teaching and Testing[M].Singapore:Singapore Chinese Teachers'Union.
吳福煥,郭秀芬,趙春生,周紅霞,高月華,楊斯琳2012新加坡小學(xué)一年級華語口語詞匯表(階段性報告)[Z].新加坡:南洋理工大學(xué)新加坡華文教研中心.//Goh,H.H.,S.H.Kwek,C.Zhao,H.Zhou,G. H.Ko&S.Yang2012Singapore Primary One Chinese Oral Wordlist(Preliminary Report)[Z].Singapore:Singapore Centre for Chinese Language,Nanyang Technological University.
吳福煥,黃雪霞,林進(jìn)展,趙春生,李志賢2012新加坡小學(xué)常用詞匯與句型報告(階段性報告)[Z].新加坡:南洋理工大學(xué)新加坡華文教研中心.//Goh,H. H.,S.H.Ng,J.Lin,C.Zhao&C.H.Lee2012 Singapore Primary School Daily Vocabulary and Sentence-Types Report(Preliminary Report)[Z].Singapore:Singapore Centre for Chinese Language,Nanyang Technological University.
姚劍鵬2005語料庫研究與語言教學(xué)[J].全球教育展望(12).//Yao Jianpeng2005Corpus research and language teaching[J].Global Education(12).
余國良2009語料庫語言學(xué)的研究與應(yīng)用[M].成都:四川大學(xué)出版社.//Yu Guoliang2009Research and Application of Corpus Linguistics[M].Chengdu:Sichuan University Press.
Braun,S.2007Integrating corpus work into secondary education:from data-driven learning to needs-driven corpora[J].ReCALL 19(3):307-328.
Cook,G.1998The uses of reality:a reply to Ronald Carter[J].ELT Journal 52(1):57-64.
Gavioli,L.&G.Aston2001Enriching reality:language corpora in language pedagogy[J].ELT Journal 55(3):238-246.
Kaplan,R.B.&R.B.Baldauf1997Language Planning:From Practice to Theory[M].Clevedon:Multilingual Matters.
Liu,Y.&S.Zhao2007Chinese language education research in Singapore:making a case for alternative research orientation[A].In V.Vaish,S.Gopinathan& Y.Liu(eds.)Language,Capital,Culture:Critical Studies of Language in Education in Singapore[C]. Amsterdam:Sense Publishers:133-153.
McEnery,T.&R.Xiao2010What corpora can offer in language teaching and learning[A].In E.Hinkel (ed.),Handbook of Research in Second Language Teaching and Learning[Z].(Vol.2:364-380).London&New York:Routledge.
Pakir,A.1991The status of English and the question of “standard”in Singapore:a sociolinguistic perspective [A].In Tickoo,M.L.(ed.),Languages&Standards:Issues,Attitudes,Case Studies[C].Singapore:SEAMEO Regional Language Centre:109-130.
Shepherd,J.2005Striking a Balance:the Management of Languages in Singapore[M].Frankfurt am Main:Peter Lang.
Silver,R.E.2005The discourse of linguistic capital:language and economic policy planning in Singapore [J].Language Policy 4(1):47-66.
Tan,C.2006Change and continuity:Chinese language policy in Singapore[J].Language Policy 5(1):41-62.
Zhao,S.&Y.Liu2007The home language shift and its implications for language planning in Singapore[J]. The Asia-Pacific Education Researcher 16(2):111-126.
Construction and Application of Education-Specific Corpora in Singapore
Goh Hock Huan1,Lin Jinzhan2,Zhou Hongxia3
(1.2.3.Singapore Centre for Chinese Language,Nanyang Technological University,279623 Singapore)
education-specific corpus;written language;oral language;corpus application;
This article will focus on introducing the development of the two education-specific corpora,namely the“Singapore Daily Written-Chinese Corpus”and the“Singapore Primary School Children Spoken-Chinese Corpus”.Being educationoriented corpora,these two corpora take into consideration the requirements of curriculum development and language teaching,especially in the sampling and processing of language materials.To fully applied corpus in language teaching,the research team also developed a corpus-based Chinese language teaching resources platform to help Chinese language teacher in preparation of lessons and assessments.
H195
A
1674-8174(2016)03-0036-10
【責(zé)任編輯劉文輝】
2015-10-15
吳福煥(1975-),男,新加坡人,新加坡南洋理工大學(xué)新加坡華文教研中心研究科學(xué)家、院長室研究參謀,香港大學(xué)教育學(xué)院榮譽副教授,博士,主要從事社會語言學(xué)、語料庫語言學(xué)、雙語教育學(xué)、兒童語言發(fā)展、中小學(xué)華語文課堂研究。電子郵箱:hockhuan.goh@sccl.sg。林進(jìn)展(1982-),男,福建廈門人,新加坡南洋理工大學(xué)新加坡華文教研中心高級副研究員、研究組長,博士,主要從事語料庫語言學(xué)、詞匯語義學(xué)、詞典學(xué)、語言測試研究。電子郵箱:jinzhan.lin@sccl.sg。周紅霞(1969-),女,新加坡人,新加坡南洋理工大學(xué)新加坡華文教研中心高級副研究員,碩士,主要研究方向為二語習(xí)得和華語文教學(xué)。電子郵箱:hongxia.zhou@sccl.sg。
新加坡教育部課程規(guī)劃與發(fā)展司資助項目:“新加坡日常華文書面語語料庫建構(gòu)與常用詞匯語法研究”(ERC-RD-2011/01-GHH)//Singapore Ministry of Education Curriculum Planning and Development Division funded project:“An investigation of Daily Lexicon and Syntax in Singapore Written Chinese:Constructing a Specialised-Dynamic-Balanced Corpus”(ERC-RD-2011/01-GHH);新加坡教育部課程規(guī)劃與發(fā)展司資助項目:“新加坡小學(xué)華語口語語料庫的建構(gòu)及口語詞匯語法研究”(ERC-RD-2011/02-GHH)//Singapore Ministry of Education Curriculum Planning and Development Division funded project:“An Investigation of Daily Lexicon and Syntax in Spoken Chinese of Singapore Primary School Children:Constructing a Specialised-Balanced-Dynamic Corpus”(ERC-RD-2011/02-GHH);新加坡教育部課程規(guī)劃與發(fā)展司資助項目:“基于語料庫的新加坡華文教學(xué)資源平臺開發(fā)”(ERG-2013/03-JZ)// Singapore Ministry of Education Curriculum Planning and Development Division funded project:“Building a Corpora-Based Chinese Language Teaching Resources Platform for Singapore CL Teachers”(ERG-2013/03-JZ)
①本文所采用的資料是新加坡教育部資助之“新加坡學(xué)生日常華文書面語語料庫”“新加坡小學(xué)生華語口語語料庫” 與“基于語料庫的新加坡華文教學(xué)資源平臺開發(fā)”項目的部分研究成果。本研究得到了新加坡教育部、華文教師、學(xué)生、家長和相關(guān)人士的大力支持,在此一并表示感謝。