仇鑫奕
(上海外國語大學(xué) 國際文化交流學(xué)院,上海200083)
“中文助教TM”的語料難度測量問題和改進(jìn)建議*
仇鑫奕
(上海外國語大學(xué) 國際文化交流學(xué)院,上海200083)
“中文助教TM”是一個(gè)專門針對對外漢語教材編寫需要和日常備課需要而開發(fā)設(shè)計(jì)的現(xiàn)代化工具軟件。本文就“中文助教TM”在語料難度測量方面存在的問題提出意見并就改進(jìn)這一軟件提出建議。
中文助教TM;詞匯等級;語料難度
語料難度測量是對外漢語教材編寫和教學(xué)輔助語料篩選過程中的必要環(huán)節(jié)。語料難度過大,會使學(xué)生的興趣驟減。因此把握好語料的難度才能保證語料的有效性。另外,標(biāo)明閱讀難度等級的語料也更有利于開展個(gè)性化教學(xué)和自主學(xué)習(xí)。
一般來說,文本難易度與以下四方面的因素有關(guān):語言的難度(詞匯語法的難度);概念的清晰度、抽象度、密度和常見度;圖文特征(文章的字符、行距、頁面格式、插圖、篇章組織);讀者理解語料所需知識圖式。其中,語言難度尤其是詞匯難度是文本難易度測量的主要指標(biāo)。
表1 《漢語水平等級標(biāo)準(zhǔn)》中的閱讀等級數(shù)量界定
1.對外漢語語料詞匯難度測量尺度
(1)《漢語水平詞匯與漢字等級大綱》多年來一直是漢語水平考試的主要命題依據(jù),也是對外漢語教學(xué)總體設(shè)計(jì)、教材編寫、課堂教學(xué)和教學(xué)測試的重要依據(jù)?!禜SK考試大綱》規(guī)定:HSK基礎(chǔ)水平的學(xué)生大體上應(yīng)當(dāng)掌握甲級常用詞1022個(gè)和部分乙級常用詞,初等水平的學(xué)生大體上應(yīng)當(dāng)掌握甲、乙兩級常用詞3051個(gè);中等水平的學(xué)生大體上應(yīng)當(dāng)掌握甲、乙、丙三級常用詞5253個(gè);高等水平的學(xué)生大體上應(yīng)當(dāng)掌握甲、乙、丙、丁四級常用詞8822個(gè)。因此,可以之為依據(jù),標(biāo)注語料的詞匯理解難度。
(2)《漢語水平等級標(biāo)準(zhǔn)》(1996)作為一種規(guī)范性的等級標(biāo)準(zhǔn)和水平大綱,過去一直是對外漢語教學(xué)總體設(shè)計(jì)、教材編寫、課堂教學(xué)、課程測試以及中國國家級漢語水平考試(HSK)命題的主要依據(jù)。其中關(guān)于閱讀理解的等級量化標(biāo)準(zhǔn),對于把握文本語料的難度等級具有重要參考價(jià)值,如表1所示。
從中不難發(fā)現(xiàn),難度適中的閱讀文本,必須嚴(yán)格限制生詞的比例。如果有很多詞匯超出了學(xué)生所應(yīng)掌握的詞匯等級的范圍,或者純粹屬于超綱詞,那么將意味著語料難度超標(biāo)。
2.對外漢語語料詞匯難度測量程序
對外漢語教學(xué)語料的詞匯難度測量步驟具體包括:
(1)計(jì)算機(jī)(比如采用“中文助教TM”)統(tǒng)計(jì)文本部分的漢語水平詞匯(漢字)等級;
(2)根據(jù)統(tǒng)計(jì)結(jié)果,對超綱詞進(jìn)行二次統(tǒng)計(jì)——統(tǒng)計(jì)構(gòu)詞語素的等級(漢字等級);
(3)根據(jù)詞的常用度、詞義的透明度、構(gòu)詞語素的等級(漢字的所屬等級),確定此超綱詞的理解難度等級。
“中文助教TM(Chinese TATM)”是儲誠志博士在美國針對對外漢語教師編寫教材和日常備課的實(shí)際需要開發(fā)設(shè)計(jì)的一個(gè)現(xiàn)代化工具軟件,由美國硅谷語言技術(shù)有限責(zé)任公司 (Silicon Valley Language Technologies,LLC)制作,北京語言大學(xué)出版社出版發(fā)行。利用“中文助教TM”不僅可以迅速完成原本費(fèi)時(shí)費(fèi)力而且容易出錯(cuò)的做生詞表、注音、翻譯詞語、標(biāo)注詞性等工作,還可以輕松實(shí)現(xiàn)對教材中字詞的分布控制、縱向連貫和橫向比較,因此這套軟件自發(fā)行以來獲得了海內(nèi)外對外漢語教學(xué)工作者的一致贊譽(yù)。
“中文助教TM”有一項(xiàng)功能是評估教材難度。實(shí)現(xiàn)這一功能的主要途徑是,用“中文助教TM”標(biāo)注文本詞匯的HSK等級。然而筆者在將“中文助教TM”用于語料難度測評時(shí),卻發(fā)現(xiàn)存在以下兩方面問題。
1.分詞錯(cuò)誤導(dǎo)致詞匯等級標(biāo)注失誤
“中文助教TM”的使用說明中專門有一節(jié)談到“分詞校對”,認(rèn)為“校對分詞的方法很簡單”,用戶只要在認(rèn)為該合起來的地方取消空格,該分的地方加空格分開就行了,并針對“該合但被分開了的詞”介紹了補(bǔ)充分詞底表的辦法。筆者在使用中發(fā)現(xiàn),這些“該合但被分開了的詞”主要是些專有名稱,如“馬天笑”、“馬小跳”。由于測算語料難度時(shí),專有名詞是被排除在外的,因此,“該合但被分開了的詞”對文章閱讀難度影響不大。相反,倒是“該分但被合起來了的詞”對文章閱讀難度測量形成了很大干擾。單從統(tǒng)計(jì)結(jié)果來看,這是一些超綱詞語。然而,就在這些超綱詞語中實(shí)際上卻包含著大量非超綱詞,其中大多數(shù)為甲級詞和乙級詞。因此,將“中文助教TM”用于語料難度測評時(shí),總是需要再花費(fèi)較多時(shí)間查詞典逐一確認(rèn)字符串的身份,人工分詞校對,在此基礎(chǔ)上再進(jìn)行二次統(tǒng)計(jì)。
下文是筆者從《淘氣包馬小跳 貪玩老爸》之《幫兒子寫作業(yè)被罰寫一百遍》中隨機(jī)抽取的兩則語料。每一則長度都限制在200字以內(nèi)。
語料 1(147 字):
馬天笑先生從小玩到大,現(xiàn)在更好玩了。做了玩具廠的廠長,工廠里到處是玩具,各種各樣的玩具,隨時(shí)隨地,隨便他玩。
馬天笑先生白天在廠里玩,回到家里就想跟他兒子玩,但馬小跳不跟他玩,因?yàn)樗麤]時(shí)間玩。
馬小跳每天放學(xué)回家,沒時(shí)間踢足球,沒時(shí)間看動(dòng)畫片,沒時(shí)間喂金魚,放下書包就做作業(yè)。做呀做呀,總也做不完。
用“中文助教TM”統(tǒng)計(jì)全部詞匯等級,出現(xiàn)了“每天”、“玩具廠”、“好玩”、“家里”、“回到”、“動(dòng)畫片”、“各種各樣”、“隨時(shí)隨地”8個(gè)超綱詞語,如圖1所示。
但事實(shí)上真正需要二次統(tǒng)計(jì)的超綱詞只有 “廠”、“動(dòng)畫片”、“各種各樣”、“隨時(shí)隨地”。其余的皆為一般詞組,其中所包含的詞匯之所以等級失注,完全是由于分詞錯(cuò)誤造成的。這些“該分但被合起來了的詞”,增加了超綱詞語的數(shù)量,如不進(jìn)行二次統(tǒng)計(jì),就會使語料難度測評結(jié)果失實(shí)。例如:
每天 {每[代詞](甲) 天[名詞](甲)}
玩具廠 {玩具[名詞](?。?廠[名詞](超綱)}
好玩 {好[動(dòng)詞](乙) 玩[動(dòng)詞](甲)}
家里 {家[名詞](甲) 里[名詞](甲)}
回到 {回[動(dòng)詞](甲) 到[動(dòng)詞](甲)}
語料 2(200 字):
第二天下午放學(xué)的時(shí)候,語文老師把馬小跳叫到辦公室去,翻開他的作業(yè)本:“昨天抄寫的生字,你寫錯(cuò)了一個(gè)字,拿去重寫一百遍?!?/p>
秦老師教學(xué)經(jīng)驗(yàn)豐富,她最好的經(jīng)驗(yàn),便是學(xué)生寫錯(cuò)一個(gè)字,讓學(xué)生重寫一百遍。
“你怎么會把‘認(rèn)真’的‘真’字寫錯(cuò)?”語文老師用手指點(diǎn)著馬小跳的腦門兒,一副恨鐵不成鋼的樣子,“我在課堂上一再強(qiáng)調(diào),‘真’字里面是三橫,千萬不要寫成兩橫,可是你還是寫成兩橫了。馬小跳,你的耳朵長到哪里去了?”
用“中文助教TM”統(tǒng)計(jì)詞匯等級,出現(xiàn)了“二天”、“作業(yè)本”、“重寫”、“耳朵長”、“生字”、“恨鐵不成鋼”6 個(gè)超綱詞。如圖2、3、4所示。
事實(shí)上真正需要二次統(tǒng)計(jì)的超綱詞只有 “恨鐵不成鋼”和“生字”。其余的4個(gè)皆非超綱詞,而是由于分詞錯(cuò)誤造成的字符串,其中包含著一般詞匯。例如:
二天 {二[數(shù)詞](甲) 天[名詞](甲)}
作業(yè)本 {作業(yè)[名詞](甲) 本[名詞](甲)}
重寫 {重 [副詞](乙) 寫[動(dòng)詞](甲)}
耳朵長 {耳朵[名詞](甲) 長[動(dòng)詞](甲)}
因此,在將“中文助教TM”用于語料的詞匯難度測評時(shí),必須在文本自動(dòng)分詞的基礎(chǔ)上先人工分詞校對。當(dāng)然,逐一查詞典進(jìn)行校對,是一件費(fèi)時(shí)費(fèi)力的事;如果不查詞典,僅憑經(jīng)驗(yàn)作校對,則容易出錯(cuò)。
2.詞匯等級標(biāo)注的備選項(xiàng)多、跨度大,人工篩選任務(wù)重
從詞匯等級標(biāo)注的角度來看,人工分詞校對同時(shí)也是對上下文語境中詞匯義項(xiàng)的進(jìn)一步明確,因而有助于確定詞匯等級。但用“中文助教TM”對人工分詞校對過的語料進(jìn)行詞匯等級標(biāo)注后,卻仍然需要人工查對《漢語水平詞匯與漢字等級大綱》確定詞匯的真正等級。圖5是用“中文助教TM”在人工分詞的基礎(chǔ)上對第二則語料的全部用詞按HSK等級排序,得到的統(tǒng)計(jì)結(jié)果,從中不難發(fā)現(xiàn),“好”“重”“長”等11個(gè)詞每一個(gè)都對應(yīng)著多個(gè)詞匯等級,至于“在此則語料”中應(yīng)對的是哪一個(gè)等級,則不可得而知之,需要人工對照《漢語水平詞匯與漢字等級大綱》來確定。尤其是序號1~3和8~11的這7個(gè)詞,等級跨度很大,對確定語料等級影響嚴(yán)重。
3.多音詞注音錯(cuò)誤,用戶不得不對詞匯等級進(jìn)行人工比對
多音詞“好”、“重”、“長”在“馬天笑先生從小玩到大,現(xiàn)在更好玩了?!薄白蛱斐瓕懙纳?,你寫錯(cuò)了一個(gè)字,拿去重寫一百遍?!薄榜R小跳,你的耳朵長到哪里去了?”中有確定的讀音。在人們的心理詞典中,多音詞的音和義也是相互聯(lián)系的。但“中文助教TM”給多音詞的注音卻只有一個(gè),即使是人工分詞校對之后,所標(biāo)注的拼音也還是老樣子,如上圖中第2個(gè)詞和第9個(gè)詞的注音。統(tǒng)計(jì)詞匯等級時(shí),用戶看到錯(cuò)誤的注音會懷疑詞匯等級標(biāo)注失誤,只得費(fèi)時(shí)費(fèi)力再查閱《漢語水平詞匯與漢字等級大綱》對詞匯等級進(jìn)行人工比對。而事實(shí)上多音詞的不同讀音,的確對應(yīng)不同的詞性和詞匯等級。
表2 多音詞的不同讀音對應(yīng)不同的詞性和詞匯等級
上文只是從對外漢語教師的實(shí)際需要出發(fā),提出使用“中文助教TM”進(jìn)行語料難度測評時(shí)發(fā)現(xiàn)的問題。希望這一多功能、高效、實(shí)用的教學(xué)軟件經(jīng)過信息技術(shù)專家的改進(jìn),能夠?yàn)橛脩籼峁└颖憬莸姆?wù)。在此,筆者想為有志于改進(jìn)“中文助教TM”的專家們推薦用于分詞和詞匯等級標(biāo)注的兩部詞典。
1.《現(xiàn)代漢語詞典》
盡管我們不知道“中文助教TM”采用的是什么分詞方法,但從分詞結(jié)果來看,“中文助教TM”沒有采用基于詞典的分詞方法,或者更確切地說,沒有以新版《現(xiàn)代漢語詞典》為依據(jù),建立機(jī)器可讀詞典,進(jìn)行分詞匹配和多音字詞的語音匹配。否則,上文所說的“作業(yè)本”“耳朵長”“重寫”“每天”“回到”“家里”“玩具廠”這樣的字符串,就不會成為分詞系統(tǒng)輸出的結(jié)果了。
我們推薦《現(xiàn)代漢語詞典》的理由是,對外漢語教學(xué)語料主要產(chǎn)自國內(nèi),語言難度不大,詞匯方面以規(guī)范的現(xiàn)代漢語常用詞為主;句法簡單典范,嚴(yán)格遵守現(xiàn)代漢語基本語法;話題多為常見的生活內(nèi)容;其中很多語料在生成和改寫過程中都要參照《現(xiàn)代漢語詞典》。因此,從詞目的選擇、詞條的數(shù)量、詞語搭配的典型性、分詞詞表與待切分的中文文本中詞匯的匹配關(guān)系來看,《現(xiàn)代漢語詞典》很適合作為對外漢語教學(xué)語料的分詞依據(jù),成為機(jī)器可讀詞典的核心。
事實(shí)上,無論哪一種分詞系統(tǒng)都不可能完全依賴某一種分詞方法,都要綜合不同的算法。建議在改進(jìn)“中文助教TM”的分詞方法時(shí)充分考慮《現(xiàn)代漢語詞典》對建立分詞詞表的重要意義。
2.《漢語8000詞詞典》
《漢語水平詞匯等級大綱》是詞匯等級標(biāo)注的依據(jù)。但由于《漢語水平詞匯等級大綱》缺乏對多義詞不同義項(xiàng)的等級標(biāo)注,而有些自由語素具有多種義項(xiàng),不同義項(xiàng)的常用度差異顯著,不可一概而論,所以筆者在此建議以《漢語8000詞詞典》作為詞匯等級標(biāo)注的基本依據(jù)。
《漢語8000詞詞典》是北京語言大學(xué)漢語水平考試中心根據(jù)《漢語水平詞匯與漢字等級大綱》編寫的。收入了《漢語水平詞匯與漢字等級大綱》中的所有詞匯,并在征求有關(guān)專家的意見的基礎(chǔ)上,經(jīng)過認(rèn)真分析歸納,將8000詞中多義詞的眾多義項(xiàng)亦均劃分等級,此外還對詞性進(jìn)行了標(biāo)注、補(bǔ)充和修正。所以,詞匯理解難度檢測實(shí)際上應(yīng)主要以《漢語8000詞詞典》和《漢語水平漢字等級大綱》為依據(jù),建立機(jī)器可讀詞(字)典,進(jìn)行詞匯、語素的等級匹配。
[1]劉英林.關(guān)于“漢語水平等級標(biāo)準(zhǔn)”的幾個(gè)問題[R],漢語水平等級標(biāo)準(zhǔn)和語法等級大綱[S],北京:高等教育出版社,1996:5-6.
[2]劉英林,宋紹周.論漢語教學(xué)字詞的統(tǒng)計(jì)與分級(代序)[R],漢語水平詞匯與漢字等級大綱[S],北京:北京語言學(xué)院出版社,1992:1-22.
(編輯:金冉)
G434
A
1673-8454(2010)23-0069-04
*本文是上海外國語大學(xué)學(xué)科建設(shè)規(guī)劃項(xiàng)目“外國人學(xué)漢語需要的多媒體語料庫”(項(xiàng)目編號:XK00007CXY)的階段性研究成果。