【摘要】小學(xué)語文教學(xué)語料庫主要是借助前人提出的建設(shè)原則和檢索功能,使用ASP程序設(shè)計(jì)語言,SQL SEKVER2000數(shù)據(jù)庫服務(wù)器來采集、加工語料以及開發(fā)語料庫檢索功能等,并規(guī)定小學(xué)語文語料庫的建設(shè)目的和樣本大小等,來解決小學(xué)語文擴(kuò)展閱讀資源中的篇章檢索、句子檢索和詞語檢索中存在的問題。這個(gè)語料庫資料豐富,包括各種各類的文章、小學(xué)語文閱讀材料中的兒歌、謎語等內(nèi)容。在教師的備課和學(xué)生的自主學(xué)習(xí)中應(yīng)用方便。
【關(guān)鍵詞】小學(xué)語文教學(xué);語料庫;設(shè)計(jì)開發(fā)
【中圖分類號(hào)】G623 【文獻(xiàn)標(biāo)識(shí)碼】A
小學(xué)語文教學(xué)語料庫的檢索主要是為了在小學(xué)語文的教學(xué)和研究中能夠高效方便的檢索所需的信息而進(jìn)行設(shè)計(jì)研究的,這主要有檢索小學(xué)語文整體或者某部分的總字?jǐn)?shù)及字頻、總詞數(shù)以及詞頻、按詞類大類和小類提取總清單、特種詞語和語法格式的檢索等。設(shè)計(jì)合理的檢索系統(tǒng)可以提高小學(xué)語文的教學(xué)和研究的效率和知識(shí)廣闊面。
一、關(guān)于小學(xué)語文教學(xué)語料庫的相關(guān)的概念
小學(xué)語文的教學(xué)語料庫是為了研究和應(yīng)用于小學(xué)教學(xué)而搜集的并且用電子的形式保存下來的語言材料,這些內(nèi)容主要是由書面語或者口語的樣本匯集起來的,它代表著小學(xué)語文中的語言。在這一語料庫有了足夠的規(guī)模時(shí),能夠反映和記錄小學(xué)的語言在實(shí)際使用中的情況。這有利于相關(guān)人員對(duì)于語料庫的把握和研究,借助語料庫可以分析小學(xué)學(xué)習(xí)的語言的系統(tǒng)的規(guī)律。它無論對(duì)教學(xué)還是對(duì)研究都是極其有利的。
二、小學(xué)語文教學(xué)語料庫的建立
小學(xué)語料庫的建立有其特定的目的,根據(jù)這一目的以及中外專家的觀點(diǎn),筆者總結(jié)了以下語料庫建庫的原則和方法:
首先,明確小學(xué)語文教學(xué)語料庫建立的目的。我們這里所說的語料庫主要是小學(xué)語文的語料庫。小學(xué)語文的語料庫就是為小學(xué)語文的教學(xué)和研究服務(wù)的,這屬于專用型語料庫,這就決定了我們所建立的語料庫不必過于廣泛的表現(xiàn)現(xiàn)代漢語的語言事實(shí)全貌,這一閱讀資源的語料庫主要有兩個(gè)特點(diǎn),就是突出趣味性和盡量的選擇名家大作。所以筆者這里論述的語料庫所收集的主要是兒童文學(xué)作品中的內(nèi)容,比如說兒歌、謎語、寓言和童話等。當(dāng)然對(duì)于那些政治、經(jīng)濟(jì)、文學(xué)等深?yuàn)W一些的內(nèi)容可以較少的涉及一些。對(duì)于語料庫,因?yàn)橛糜谛W(xué)的語文所以控制字?jǐn)?shù)在1000萬字左右就可以了,資料庫過大,用戶就會(huì)相應(yīng)的增多,就會(huì)影響檢索資料的速度,這樣用戶就沒法正常的使用這一數(shù)據(jù)庫了。
其次,關(guān)于語料庫的容量方面的問題。因?yàn)槲覀兯⒌恼Z料庫是小學(xué)語文的教學(xué)語料庫,所以主要采集的是整個(gè)原始文本作為樣本的形式比較合理,可以另外建立數(shù)據(jù)庫存儲(chǔ)由原始文本分解得來的句子樣本。這樣比采取把原始語料切分為片段的方式要好。
再次,在建立小學(xué)語文語料庫的時(shí)候要注意語料庫樣本的多樣性。小學(xué)語文語料庫屬于文學(xué)的門類,這有其自身的教學(xué)目的的特性,文學(xué)類的樣本的多樣性主要是文學(xué)門類下的子門類的多樣性。
最后,做好小學(xué)語文教學(xué)語料庫的語料樣本的處理。根據(jù)小學(xué)語文語料庫在教學(xué)和研究方面的需求,應(yīng)該建立比較適于使用的語料庫檢索方式和儲(chǔ)存方式,筆者主要采用的是兩種不同方法的語料庫樣本處理方式:第一,是把每個(gè)語料庫的樣本當(dāng)作一條數(shù)據(jù)記錄存放在數(shù)據(jù)表中,這樣有利于查找擴(kuò)展閱讀所需要的篇章,方式是通過關(guān)鍵詞來進(jìn)行全文的檢索。第二,是把要處理的所有語料劃分成句子,再把每個(gè)句子當(dāng)作數(shù)據(jù)記錄放在數(shù)據(jù)表中,這樣做的好處是利用子串、詞語和句子來進(jìn)行檢索,方式是利用關(guān)鍵詞進(jìn)行句子的檢索。
三、小學(xué)語文教學(xué)語料庫的開發(fā)研究
這個(gè)過程主要包括采集語料、加工原料庫和開發(fā)語料庫的檢索功能等這些環(huán)節(jié),我們就其中的一些環(huán)節(jié)來進(jìn)行論述。小學(xué)語文教學(xué)語料庫主要是采用的ASP語言寫程序,采用SQL SElKVElK2000數(shù)據(jù)庫服務(wù)器做數(shù)據(jù)存儲(chǔ)服務(wù)以及采用IIS6.0 Web服務(wù)器發(fā)布語料庫檢索網(wǎng)站。
首先,要注意語料的采集。語料的來源可以是在因特網(wǎng)上的眾多的讀書網(wǎng)站,設(shè)計(jì)人員可以從上面下載小學(xué)語文所需要的文章、書籍等,這是這一語料庫的主要來源。也可以從六年跨越式實(shí)驗(yàn)項(xiàng)目實(shí)行的過程中積累下來的并且制作完成眾多閱讀文章中進(jìn)行搜索。
其次,在小學(xué)語文教學(xué)語料庫的設(shè)計(jì)時(shí)必然會(huì)遇到難點(diǎn)。在建設(shè)資料庫時(shí)需要收集的資料并不是匯集在一起的,需要設(shè)計(jì)者進(jìn)行搜集,要把這些結(jié)構(gòu)多樣的資源轉(zhuǎn)化為結(jié)構(gòu)統(tǒng)一的語料庫并不是一件簡(jiǎn)單的事,而且很多資源都是網(wǎng)頁形式的,而語料庫的全文確是文本形式的,這樣就要求設(shè)計(jì)者進(jìn)行處理,這也是一項(xiàng)比較困難繁雜的工作。
再次,對(duì)于小學(xué)語文教學(xué)語料庫所遇到問題的解決方法,大多數(shù)網(wǎng)站的資源格式基本上都是一樣的。這樣我們就可以利用這些相同點(diǎn)來進(jìn)行解決,我們可以去發(fā)現(xiàn)各個(gè)網(wǎng)站的對(duì)于文章的標(biāo)題、作者等的標(biāo)記的規(guī)則,將其轉(zhuǎn)化為我們需要的文本格式,運(yùn)用到我們的語料庫中。但是在有些情況下某一個(gè)網(wǎng)站的不同的頁面中對(duì)文章的同一部分所用的標(biāo)記也不相同,這些地方我們的解決方法是尋找兩者之間的共性,尤其是在標(biāo)記部分的共性,利用這些共性對(duì)這兩種標(biāo)記方式進(jìn)行統(tǒng)一的表達(dá)。
最后,注意結(jié)果的統(tǒng)計(jì)。小學(xué)的語料庫中共收集了一萬零六百六十五篇,這些結(jié)果的收集對(duì)教學(xué)和研究是非常有益的。小學(xué)語文教學(xué)語料庫的加工要注意句子層次的加工和篇章層次的加工,句子層次的加工主要是將篇章分割成若干句子,同時(shí)確定每句話的長(zhǎng)度,而后將這些句子數(shù)據(jù)存入句子數(shù)據(jù)表中。篇章層次的加工在語料采集過程已經(jīng)部分的完成,包括對(duì)標(biāo)題、作者、體裁和字?jǐn)?shù)等屬性。
四、結(jié)語
本文從幾個(gè)方面對(duì)小學(xué)語文教學(xué)語料庫的設(shè)計(jì)和開發(fā)進(jìn)行了簡(jiǎn)要的敘述,其主要是以篇章為單位,收集適合小學(xué)語文教學(xué)的語料庫,目的是為研究和教學(xué)提供方便。
參考文獻(xiàn)
[1]何克抗.兒童思維發(fā)展新論和語文教育的深化改革——對(duì)皮亞杰“兒童認(rèn)知發(fā)展階段論”的質(zhì)疑[J].教育研究,2009(02).
[2]中華人民共和國(guó)教育部.全日制義務(wù)教育語文課程標(biāo)準(zhǔn)(實(shí)驗(yàn)稿)[M].北京:北京師范大學(xué)出版社,2009(02).
[3]顧益軍,樊孝忠,于江德,李良富.受限領(lǐng)域中文文本主題標(biāo)引系統(tǒng)研究[I].計(jì)算機(jī)應(yīng)用,2009(14).
(責(zé)任編輯:龍大為)