梁少麗 宋繼華
【摘要】在對外漢語教材的編著過程中,用詞頻度和難度直接影響教材編著的質(zhì)量。根據(jù)《漢語水平詞匯與漢字等級大綱》(以下簡稱《大綱》)8000多等級用詞目、詞性、難度等級三個屬性,設(shè)計并實現(xiàn)對外漢語教材編著系統(tǒng)難度等級詞頻統(tǒng)計模塊,并在20萬教材語料基礎(chǔ)上,進(jìn)行實驗。實驗證明,在速度上取得了較為良好的效果。
【關(guān)鍵詞】對外漢語教材編著系統(tǒng);詞頻檢索統(tǒng)計;漢語詞匯等級;鍵樹
【中圖分類號】G40-057 【文獻(xiàn)標(biāo)識碼】A 【論文編號】1009—8097(2009)07—0086—04
一 引言
教材編寫是對外漢語教學(xué)資源建設(shè)的重要環(huán)節(jié),如何提升教材編寫的速度和質(zhì)量,使人們從教材編寫過程中那些諸如查找生詞、控制詞匯、加注拼音等費時費力而且容易出錯的繁瑣工作中擺脫出來,現(xiàn)代技術(shù)手段的有機(jī)融入是非常必要的。正如崔永華教授所說的那樣:“只有語言學(xué)、語言教學(xué)和現(xiàn)代技術(shù)的完美結(jié)合,才能讓編寫教材變得這么方便、快捷、準(zhǔn)確、得心應(yīng)手?!薄?】對外漢語教材編著系統(tǒng)應(yīng)運而生,陳鋒在其碩士論文《對外漢語教材編寫輔助系統(tǒng)的設(shè)計與實現(xiàn)》[2]中提到編寫教材的流程圖如圖1所示。隨著計算機(jī)、網(wǎng)絡(luò)、語料庫等技術(shù)的飛速發(fā)展,現(xiàn)代教育技術(shù)在對外漢語教學(xué)中的應(yīng)用范圍不斷拓展,這為對外漢語教材編著系統(tǒng)的技術(shù)實現(xiàn)提供了可靠的保障。
如何控制教材編寫難度等級以適應(yīng)不同水平教材使用者的需要,同時避免漢語教學(xué)內(nèi)容的盲目性和隨意性,一直是教材編寫者面對的重要問題。編寫者控制教材難度,主要是通過量化語言點,即對詞匯、語法、功能、文化進(jìn)行分級,檢查教材語料分級語言點覆蓋以及分布情況,并反復(fù)修改教材內(nèi)容,來達(dá)到控制教材水平的目的。在實際操作中,由于詞匯的可控制性最強,所以,水平等級教材主要是在詞匯上控制難度[1]。
基于以上論述,本文將嘗試著設(shè)計并實現(xiàn)對外漢語教材編著系統(tǒng)中的難度等級詞頻統(tǒng)計模塊。以《大綱》[3] 8000多等級詞匯為難度等級依據(jù),統(tǒng)計模塊將分別統(tǒng)計出漢語教材語料詞匯中甲、乙、丙、丁、超綱詞頻率,以及這些詞在教材各處的分布情況,以確定教材的用詞難度,教材編寫者可依據(jù)該模塊得出的統(tǒng)計結(jié)果對教材用詞進(jìn)行相應(yīng)的調(diào)整以控制教材的難度水平。
二 難度等級詞頻統(tǒng)計模塊設(shè)計與實現(xiàn)
目前,出現(xiàn)了一些輔助對外漢語教材編著工具,主要有儲誠志博士設(shè)計的《中文助教》[4]和廈門大學(xué)盧偉等人開發(fā)的“基于WEB的對外漢語教材編著系統(tǒng)”?!吨形闹獭吠ㄟ^8000多萬字的現(xiàn)代漢語平衡語料庫處理分析得出常用度等級生詞,提供了使用頻度分析[1];盧偉等人開發(fā)的對外漢語編著系統(tǒng)中,利用《大綱》對教材語料進(jìn)行等級詞語檢索統(tǒng)計以實現(xiàn)教材的定量分析與控制[5]。這兩類工具的教材難度定量分析任務(wù),主要還是通過詞匯難度劃分來實現(xiàn)的,因此,本文將借鑒此思路,使用《大綱》作為教材難度等級詞頻分析的重要依據(jù)。
《大綱》(1992年)由國家對外漢語教學(xué)領(lǐng)導(dǎo)小組辦公室修訂完成,它不僅為對外漢語教學(xué)詞匯量的界定、等級的劃分、詞性的確定等方面提供了較為科學(xué)的依據(jù)。同時它也是現(xiàn)階段國內(nèi)對外漢語教學(xué)設(shè)計、教材編寫、課堂教學(xué)的主要依據(jù),有著嚴(yán)謹(jǐn)?shù)慕Y(jié)構(gòu)和權(quán)威性[6]。本文難度等級詞頻統(tǒng)計模塊設(shè)計將直接參考《大綱》中的詞匯的詞性、難度等級等信息。
1設(shè)計思路
本文的設(shè)計思路如下圖2所示:
漢語是以字為單位,詞與詞之間沒有明顯的邊界信息。當(dāng)句子長度和句子結(jié)構(gòu)復(fù)雜性增加,句中出現(xiàn)的詞數(shù)量隨之增多,除了檢索過程中詞匯歧義問題將越發(fā)突出外,詞檢索次數(shù)也越發(fā)頻繁。為了解決這些問題,本文首先使用分詞模塊對教材語料做分詞處理,讓處理后的語料得到精確的邊界、詞性信息;然后,在檢索統(tǒng)計模塊中,根據(jù)分詞后語料攜帶的各種信息,參考《大綱》中給出的詞匯、詞匯難度等級、詞性三者對應(yīng)關(guān)系,做歸類統(tǒng)計操作,獲得詞頻、詞性詞頻、詞等級難度詞頻、超綱詞數(shù)目以及等級詞匯和超綱詞匯在不同語篇中分布等各類信息。其中,詞匯、詞匯難度等級、詞性對應(yīng)關(guān)系如圖3所示:
2 檢索統(tǒng)計模塊實現(xiàn)
文本檢索依賴于關(guān)鍵詞模式匹配。多關(guān)鍵詞模式匹配是從目標(biāo)文本中一次查找匹配多個關(guān)鍵詞的過程。文獻(xiàn)[7]中借用鍵樹結(jié)構(gòu)[8](圖4所示)的雙鏈樹形式保存關(guān)鍵字,使用了多關(guān)鍵詞模式匹配進(jìn)行檢索。它的具體做法是:將所有待搜索關(guān)鍵詞保存在鍵樹結(jié)構(gòu)中,用葉子結(jié)點標(biāo)志關(guān)鍵詞結(jié)束,并且在葉子結(jié)點中也保存了關(guān)鍵詞的頻率信息;檢索統(tǒng)計時,使用廣度優(yōu)先搜索來匹配目標(biāo)文本串和樹中多個關(guān)鍵詞,如果目標(biāo)文本串在鍵樹中存在一條從根到葉子節(jié)點的路徑,統(tǒng)計頻率加一,否則,放棄對當(dāng)前的操作,繼續(xù)處理下一個詞。
本文在文獻(xiàn)[7]的基礎(chǔ)上,以《大綱》詞匯作為關(guān)鍵詞集,在深入分析《大綱》中8000詞的基本特征規(guī)律、存儲特征及詞首字在區(qū)位碼中的分布情況基礎(chǔ)上,設(shè)計哈希表與鍵樹相結(jié)合的存儲結(jié)構(gòu),實現(xiàn)對外漢語教學(xué)編著系統(tǒng)中的詞匯等級難度檢索統(tǒng)計功能。
(1)基于哈希表與鍵樹相結(jié)合的存儲結(jié)構(gòu)
受關(guān)鍵詞首字取值以及關(guān)鍵詞詞長影響,《大綱》關(guān)鍵詞存入鍵樹后,形成了一棵根節(jié)點孩子兄弟分支深度達(dá)到2000多層,而其它分支深度不超過5層的鍵樹結(jié)構(gòu)。如果能將關(guān)鍵詞的首字以某種方式進(jìn)行分類,重新組織鍵樹結(jié)構(gòu),將能有效的縮短最長分支的長度。由此,我們考慮到了漢字區(qū)位碼,利用《大綱》關(guān)鍵詞首字在區(qū)碼的均勻分布情況,解決以上問題。
漢字在區(qū)位碼中占72區(qū),其中16區(qū)到55區(qū)為一級漢字;56區(qū)到87區(qū)為二級漢字?!洞缶V》中關(guān)鍵詞首詞有2057個,一級漢字有2495個,二級漢字只有8個,絕大部分首字分布在一級漢字中。對這2495個首字在一級漢字區(qū)的深入分析,我們發(fā)現(xiàn)這些漢字幾乎是等概率分布于各區(qū)中,數(shù)據(jù)如圖5所示。
本文采用哈希表和鍵樹相結(jié)合的存儲結(jié)構(gòu),利用關(guān)鍵詞首字區(qū)碼分割《大綱》關(guān)鍵詞鍵樹,將其轉(zhuǎn)化為多顆子鍵樹存儲在哈希表中,使每個子鍵樹和哈希表中唯一的存儲位置相對應(yīng)。改造后的結(jié)構(gòu)如圖6所示:
(2)構(gòu)建存儲結(jié)構(gòu)步驟:
①采用漢字GB-2312碼與區(qū)號的對應(yīng)關(guān)系,作為哈希映射函數(shù)。插入前,找出關(guān)鍵詞首字,使用首字的GB-2312碼計算出區(qū)碼,獲得哈希表中當(dāng)前關(guān)鍵詞待插入位置。漢字區(qū)位碼與GB-2312碼對應(yīng)關(guān)系為:GB-2312碼每個字符都用兩個字節(jié)表示,第一字節(jié)為“高字節(jié)”,由字符的區(qū)號值加上32而形成;第二字節(jié)為“低字節(jié)”,由字符的位號值加上32。
②確定子鍵樹在哈希表中位置后,查找子鍵樹中是否已存在該關(guān)鍵字,如果不存在,則將關(guān)鍵字插入子鍵樹中;如果存在,直接轉(zhuǎn)入步驟③
③檢查關(guān)鍵字葉子的結(jié)點中,相關(guān)的詞性、難度等級信息是否建立。如果不存在相關(guān)信息,就建立詞性、難度等級間的對應(yīng)關(guān)系;否則,繼續(xù)插入下一關(guān)鍵詞。例如:“把”字在難等級詞表中出現(xiàn)了兩次,一次為甲級,對應(yīng)介詞、量詞;第二次為丙級,對應(yīng)動詞。檢查“把”字時,也需要兩次確認(rèn)詞性、難度等級間的對應(yīng)關(guān)系。
3 實驗
我們的檢索統(tǒng)計實驗語料來自于《新實用漢語課本》、《菲律賓華語課本》、《今日漢語》、《當(dāng)代中文》、《基礎(chǔ)商務(wù)漢語》等5部漢語教材,語料多達(dá)20萬字。以《現(xiàn)代漢語語法信息詞典詳解》[9]基本詞類中定義的18個詞性,附加詞類中定義的5個詞性(前接成分、后接成分、成語、習(xí)用語、簡稱略語)為標(biāo)準(zhǔn),使用中科院ICTCLAS分詞系統(tǒng)(研究版)進(jìn)行分詞,對單獨使用鍵樹結(jié)構(gòu)和哈希表與鍵樹相結(jié)合存儲結(jié)構(gòu),在語料量和關(guān)鍵字?jǐn)?shù)量上,進(jìn)行檢索統(tǒng)計對比。硬件環(huán)境為Inter Pentium(R) D CPU 3.0 Hz,內(nèi)存2.0 G;軟件環(huán)境為Window XP,MyEclipse 6.0,JRE1.6。實驗結(jié)果如表1所示。
上表對比分析,語料量大小直接影響檢索速度;而在語料量相同的情況下,使用改進(jìn)后的哈希表與鍵樹相結(jié)合存儲結(jié)構(gòu)分別存儲《大綱》4000詞和8000詞作為關(guān)鍵詞進(jìn)行檢索,兩者耗時相差不大。
此外,我們選用暢銷海內(nèi)外的《實用漢語課本》第一冊到第五冊教材課文,進(jìn)行詞頻、詞性詞頻、詞等級難度詞頻、超綱詞數(shù)目等統(tǒng)計操作。經(jīng)過重疊詞、地名、人名、時間詞、數(shù)量詞過濾后,得到如表2所示數(shù)據(jù)。
通過對《新實用漢語課本》1-5冊的定量分析,總體來看,隨著教材水平層次的加深,甲級占比例逐漸減少,乙、丙、丁級則逐漸上升。一般情況下,對外漢語教學(xué)大綱根據(jù)教學(xué)目標(biāo)將教材分為初級、中級、高級,按照對外漢語教學(xué)領(lǐng)域經(jīng)驗,初級教材超綱詞包括《大綱》丙、丁級詞,中級教材超綱詞包括《大綱》丁級詞。文獻(xiàn)[10]給出對外漢語教材編寫和選用的一些參考值,如下表3所示。我們借用這種標(biāo)準(zhǔn)來衡量《新實用漢語課本》?!缎聦嵱脻h語課本》1-2冊為基礎(chǔ)水平,第一冊詞匯總體上符合難度要求、第二冊的詞匯超綱量超出標(biāo)準(zhǔn)9個百分點;第三冊、四冊作為初級到中級銜接,我們將其按中級標(biāo)準(zhǔn)做處理,第三冊、第四冊、第五冊的超綱詞匯比例分別為:25.7%、23.4%、31%。因此,《新實用漢語課本》3-5冊存在超綱情況,并且是略高于標(biāo)準(zhǔn)中的超綱范圍。
最后,我們選定了一些《大綱》詞匯和超綱詞匯,測試了這些詞匯在《新實用漢語課本》系列教材課文語料中的分布情況,來檢驗教材循序漸進(jìn)性(系統(tǒng)性)。如《大綱》甲級詞匯“比較”,以動詞詞性在第4冊50課和第5冊55課中各出現(xiàn)1次,以副詞詞性在8篇課文中出現(xiàn),其中第4冊48課6次,第3冊36課和第4冊45課各3次;再如超綱詞匯“聊天”共出現(xiàn)了4次,第3冊27課2次,32課1次,第4冊39課1次。這些也體現(xiàn)了該教材在詞匯方面采取了螺旋式的安排方式,有利于學(xué)習(xí)者的掌握。
三 結(jié)論
本文基于《大綱》資源,利用現(xiàn)代教育技術(shù)對教材中詞匯進(jìn)行系統(tǒng)的計量分析,通過構(gòu)建了輔助對外漢語教材詞頻等級統(tǒng)計模塊,為教材中語料詞匯難度定量分析提供了基礎(chǔ)。今后,隨著外漢語詞匯教學(xué)中對詞匯常用義項日益重視,要求我們下一步工作主要集中在一個方面,即參考其它詞匯教學(xué)大綱或詞典,用已有的模塊統(tǒng)計大規(guī)模教材語料,確定詞匯的常用義項,人工對詞義項劃分難度等級,將詞義級的詞匯頻度統(tǒng)計引入到我們的系統(tǒng)中。
參考文獻(xiàn)
[1]王飆.編教軟件《中文助教》評述[J] .國際漢語教學(xué)動態(tài)與研究,2006,2:98-102.
[2]陳峰,對外漢語教材編寫輔助系統(tǒng)的設(shè)計與實現(xiàn)[D].南京:南京師范大學(xué),2008.
[3]國家漢語水平考試委員會辦公室考試中心.漢語水平詞匯與漢字等級大綱[S] .北京:經(jīng)濟(jì)科學(xué)出版社,2001.
[4]《中文助教》網(wǎng)站[EB/OL].
[5]盧偉.基于WEB的對外漢語教材編著系統(tǒng)理論依據(jù)與設(shè)計開發(fā)[J].外語電化教學(xué),2006,6:30-35.
[6]李泉.對外漢語課程、大綱與教學(xué)模式研究[M].北京:商務(wù)出版社,2006:113-114.
[7]馬志柔,葉屺.一種有效的多關(guān)鍵詞詞頻統(tǒng)計方法[J] .計算機(jī)工程,2006,32(10):190-193 .
[8]嚴(yán)蔚敏,吳傳民.數(shù)據(jù)結(jié)構(gòu)(C語言版)[M].北京:清華大學(xué)出版社,1996:247-248.
[9]俞士汶.現(xiàn)代漢語語法信息詞典詳解[M](第二版).北京:清華大學(xué)出版社,2003:41-42.
[10]國家對外漢語領(lǐng)導(dǎo)小組辦公室,高等學(xué)校外國留學(xué)生漢語教學(xué)大綱(長期進(jìn)修) (第三版) [M],北京:北京語言大學(xué)出版社,2007:18.