楊冰冰,趙慧周,王治敏
(1. 北京語言大學(xué) 漢語國(guó)際教育研究院,北京 100083;2. 北京語言大學(xué) 信息科學(xué)學(xué)院,北京 100083)
新冠肺炎在全世界的蔓延使得在線學(xué)習(xí)成為一種趨勢(shì)。在線學(xué)習(xí)資源如何滿足學(xué)習(xí)者的學(xué)習(xí)需要,如何為學(xué)習(xí)者提供豐富的、可供選擇的個(gè)性化學(xué)習(xí)素材,如何聯(lián)通漢語學(xué)習(xí)者與教師這兩部分群體,是目前特殊大環(huán)境下亟待解決的問題,也將是語言教育創(chuàng)新發(fā)展、適應(yīng)互聯(lián)網(wǎng)時(shí)代發(fā)展面臨的問題。
本文面向在線學(xué)習(xí)中的漢語口語教材自動(dòng)定制,對(duì)其所需要的學(xué)習(xí)素材進(jìn)行研究。教材自動(dòng)定制需要聯(lián)通詞匯、場(chǎng)景、話題等模塊,構(gòu)建相應(yīng)的推理模式。關(guān)于詞匯資源的研究,目前很多詞匯知識(shí)庫的研究主要分基于規(guī)則和基于統(tǒng)計(jì)兩種,也有學(xué)者利用文本分類中特征提取的方法在大規(guī)模分類語料中自動(dòng)獲取領(lǐng)域詞語[1]?;谠~語聚類,一些學(xué)者對(duì)不同話題領(lǐng)域的詞表進(jìn)行了研究[2-4]。關(guān)于對(duì)外漢語教學(xué)中的話題分類,《國(guó)際漢語教學(xué)通用教程大綱》[5]列出了包括22個(gè)話題以及其下的小話題與常用表達(dá),一些學(xué)者構(gòu)建了漢語話題庫[6]和漢語教學(xué)資源庫[7-8],目前對(duì)漢語交際場(chǎng)景的研究有楊寄洲在《對(duì)外漢語教學(xué)初級(jí)階段教學(xué)大綱》[9]中列舉的36個(gè)交際場(chǎng)景,其后劉華等[10]根據(jù)影視片段,總結(jié)了63個(gè)交際場(chǎng)景。現(xiàn)有研究對(duì)該研究具有一定的參考作用,但是目前學(xué)界對(duì)生活類話題下的二級(jí)話題的研究還不夠深入,且缺少對(duì)交際場(chǎng)景和話題關(guān)聯(lián)的相關(guān)研究,對(duì)漢語口語的特點(diǎn)也缺少分析。
因此本文以適用于漢語教材自動(dòng)推送的教材素材為研究對(duì)象,通過對(duì)口語詞匯特點(diǎn)的分析以及詞語聚類,總結(jié)口語話題及場(chǎng)景,構(gòu)建話題-場(chǎng)景對(duì)應(yīng)的口語素材庫,為在線口語教材自動(dòng)推送提供資源支持。
本文以漢語生活類口語為切入點(diǎn),收集了10 341句生活類語料。語料來源于《英語會(huì)話8000句》中生活類話題下的句子共4 152句以及真實(shí)場(chǎng)景的對(duì)話錄音共6 189句?!队⒄Z會(huì)話8000句》作為英語口語的代表教材,經(jīng)過長(zhǎng)期的使用可以證明其話題覆蓋面較寬,句子實(shí)用性較強(qiáng),且與漢語口語教材有一定的差異,經(jīng)過篩選與改寫后可以作為漢語口語教材的原始語料。關(guān)于口語錄音,本文對(duì)生活中常見話題、場(chǎng)景進(jìn)行了真實(shí)場(chǎng)景的錄音,通過機(jī)器轉(zhuǎn)寫與人工校對(duì)形成本文的另一部分基礎(chǔ)語料。筆者所處語言環(huán)境為北京的高校,錄音場(chǎng)所為北京內(nèi)的交際場(chǎng)所。通過對(duì)全部語料進(jìn)行機(jī)器分詞和人工校對(duì)[11],去除數(shù)字、英文字母后共提取出詞匯6 803個(gè)。
在對(duì)全部詞匯進(jìn)行分詞與詞性標(biāo)注的基礎(chǔ)上,我們發(fā)現(xiàn)在口語會(huì)話中各類詞匯分布如圖1所示。
圖1表示在所有口語語料中各詞類豐富度情況,總體來看,在口語會(huì)話中名詞種類最多,數(shù)量為3 279個(gè),占全部詞匯的49%。其次為動(dòng)詞,數(shù)量為1 741個(gè),占比26%,再者為形容詞,數(shù)量為496個(gè),占比7%,副詞數(shù)量為278個(gè),占比4%。這四種詞類包含的詞語種類最多,共占全部詞匯的85%,與漢語詞類構(gòu)成相符。時(shí)間詞、量詞、代詞數(shù)量豐富,數(shù)量分別為139個(gè)、135個(gè)、115個(gè),體現(xiàn)出口語對(duì)話中用詞的特點(diǎn)。在口語對(duì)話中存在一部分固定短語,如“不好意思、沒關(guān)系、可不”等,數(shù)量為78個(gè)。在口語語料中也有一部分成語,但是數(shù)量不多,為44個(gè)。另外助詞、語氣詞、擬聲詞,其他詞類,因詞條種類數(shù)量較少在圖中不予展示。從各詞類豐富度來看,名詞、動(dòng)詞、形容詞依舊是口語學(xué)習(xí)的重點(diǎn),語氣詞、助詞等屬于封閉類詞類,數(shù)量不多,但是重點(diǎn)詞語較多,如語氣詞中的“吧、呢”;助詞中的“的、了”等。
詞頻反映一定范圍內(nèi)詞語的常用度,下文將對(duì)口語對(duì)話中各詞類的詞頻進(jìn)行統(tǒng)計(jì)分析。
由圖2可知,各詞類詞頻與各詞類詞語數(shù)量不一致,在口語語料中,實(shí)詞的出現(xiàn)頻率高于虛詞。在所有詞類中,動(dòng)詞的詞頻最高,總詞頻為19 718次,因?yàn)榭谡Z小句較多,動(dòng)詞常用度高。其次為代詞,代詞雖數(shù)量不多,但是出現(xiàn)的頻次很高,口語對(duì)話大多是兩人之間的對(duì)話,因此進(jìn)行自我闡述與詢問對(duì)方時(shí)人稱代詞出現(xiàn)的頻率很高。詞頻第三為名詞,總頻次為10 909次,名詞數(shù)量為3 191個(gè),這反映出大部分名詞出現(xiàn)頻次較低,常用度較高的名詞不多。詞頻第四為語氣詞,頻次為6 132次,語氣詞是虛詞中頻率最高的詞類。語氣詞雖數(shù)量不多,但是出現(xiàn)頻率很高,語氣詞的高頻使用反映了漢語口語的特點(diǎn)。其次為助詞,頻次為4 598次,使用頻率較高。另外在口語語料中,連詞、固定短語、區(qū)別詞、成語等詞類的詞頻較低,在圖2中沒有展示。因口語對(duì)話中多為短小的句子,因此連詞的使用較少,成語書面色彩較濃,在口語中不經(jīng)常使用。
口語中的高頻詞可以體現(xiàn)口語詞匯特點(diǎn),在口語中詞頻最高的詞為: “我、的、你、了、是、好、嗎、不、吧、您”等。在口語中代詞“我”的頻次最高,這與《中國(guó)語言生活狀況報(bào)告》[12]中“的”詞頻第一不一致,在口語對(duì)話中多為表達(dá)自己觀點(diǎn)的句子,因此代詞“我”的詞頻比書面語等語體中高。另外,其他人稱代詞“你”“您”“我們”的詞頻也很高。
從音節(jié)數(shù)量來看,在詞頻為前50的詞中,大多為單音節(jié)詞,數(shù)量為41個(gè),雙音節(jié)詞數(shù)量較少,僅為9個(gè)。單音節(jié)詞的數(shù)量遠(yuǎn)多于雙音節(jié)詞及多音節(jié)詞,且最高頻的詞均為單音節(jié)詞。從難易程度上看,高頻口語詞匯中大部分屬于漢語低水平詞匯,通俗性較強(qiáng)。
為了對(duì)高頻詞的詞類分布進(jìn)行下一步的研究,我們對(duì)詞頻前50各詞類數(shù)量進(jìn)行了統(tǒng)計(jì),如圖3所示。
圖3 頻率前50詞類統(tǒng)計(jì)圖
由圖3可知,在高頻詞中動(dòng)詞數(shù)量最多,共15個(gè),其次為代詞,數(shù)量為10個(gè),副詞和語氣詞的數(shù)量也較多。助詞、介詞、數(shù)詞中各有兩個(gè)高頻詞,形容詞、方位詞、名詞、量詞、時(shí)間詞中各有一個(gè)高頻詞,高頻詞數(shù)量較少。其他沒有列出的詞類表示頻次前50的高頻詞中不包括這些詞類。
詞語聚類可以把語義特征相似的詞語聚在一起,自動(dòng)推送的漢語教材需要提供各話題、場(chǎng)景的常用詞及常用句,詞語聚類結(jié)果可為話題和場(chǎng)景下常用詞的匯總提供參考。本文對(duì)全部10 341條語料進(jìn)行話題的場(chǎng)景的標(biāo)注,在詞語聚類和標(biāo)注的基礎(chǔ)上歸納生活類話題和場(chǎng)景。
文本的向量化即把文本轉(zhuǎn)化為N維的向量。本研究使用騰訊AL LAB 公開的中文詞向量數(shù)據(jù)[13],包含800萬詞匯,每個(gè)詞對(duì)應(yīng)一個(gè)200維的詞向量,該詞向量數(shù)據(jù)包含很多現(xiàn)有公開的詞向量數(shù)據(jù)所欠缺的短語,所計(jì)算的語義相似度較高,且采用了Directional Skip-Gram(DSG)算法作為詞向量的訓(xùn)練算法,DSG算法基于廣泛采用的詞向量訓(xùn)練算法Skip-Gram(SG),在文本窗口中詞對(duì)共現(xiàn)關(guān)系的基礎(chǔ)上,額外考慮了詞對(duì)的相對(duì)位置,所生成的詞向量能夠更好地表達(dá)詞之間的語義關(guān)系。
K-means算法是最經(jīng)典的基于劃分的聚類方法,首先確定經(jīng)過聚類得到若干集合的K值,我們將K值設(shè)置為500、800和1 000。從全部的詞匯向量中隨機(jī)選擇K個(gè)數(shù)據(jù)點(diǎn)作為質(zhì)心。計(jì)算所有向量數(shù)據(jù)與聚類中心的相似度,離質(zhì)心越近,相似度越高,計(jì)算如式(1)所示。
(1)
計(jì)算完成后將數(shù)據(jù)分配給與其最相似的聚類中心代表的類,并計(jì)算下一輪聚類的中心。如果新計(jì)算出來的質(zhì)心和原來的質(zhì)心之間的距離小于某一個(gè)設(shè)置的閾值,我們可以認(rèn)為聚類已達(dá)到期望的效果,算法終止。如果新質(zhì)心和原質(zhì)心距離變化很大,需要繼續(xù)迭代。本文實(shí)驗(yàn)將各話題詞匯聚類為500類、800類及1 000類,以生病就醫(yī)類詞語為例,該話題下詞語分別聚類為10組、15組和21組,實(shí)驗(yàn)結(jié)果如下:
由表1可知,聚類數(shù)為500、800、1 000的每類平均詞語數(shù)量分別為: 10.08個(gè)、7.87個(gè)、5.62個(gè),聚類總數(shù)越多,同一話題內(nèi)詞匯的聚類數(shù)也越多,分類越細(xì)致,每類之間的區(qū)分度越弱。在聚類數(shù)為500的詞語聚類中,對(duì)藥物名稱、藥物效果及大夫等的劃分包含在了一個(gè)類里,而在聚類數(shù)為800的聚類中,藥物名稱單獨(dú)為一類,在聚類數(shù)為1 000的聚類中,藥物名稱根據(jù)種類又分為了兩個(gè)類。因此對(duì)于口語話題來說,對(duì)于大話題的劃分,參考聚類數(shù)為500的詞語聚類,對(duì)于下級(jí)話題和場(chǎng)景的劃分參考聚類數(shù)為1 000和800的詞語聚類結(jié)果。
表1 500類、800類、1 000類詞語聚類情況
續(xù)表
基于詞語聚類結(jié)果,在對(duì)12本常用口語教材、《國(guó)際漢語教學(xué)通用教程大綱》[5]、呂榮蘭[2]、劉華[10]等話題庫以及英語教材的話題進(jìn)行總結(jié)的基礎(chǔ)上,本文總結(jié)出生活類一級(jí)話題15個(gè),分別為個(gè)人信息、日常交際、居家生活、運(yùn)動(dòng)健身、生病就醫(yī)、交通出行、購(gòu)物、飲食就餐、天氣、日期時(shí)間、資金管理、生活服務(wù)、休閑娛樂、意外與事故和住宿。每個(gè)一級(jí)話題下又有若干個(gè)二級(jí)話題,根據(jù)語料的場(chǎng)景標(biāo)注,每個(gè)二級(jí)話題都有其對(duì)應(yīng)的場(chǎng)景。以“生病就醫(yī)”話題為例,其二級(jí)話題、場(chǎng)景如表2所示。
表2 “生病就醫(yī)”二級(jí)話題、場(chǎng)景
參考詞語聚類結(jié)果,我們總結(jié)出上表在一級(jí)話題“生病”中有二級(jí)話題9個(gè),二級(jí)話題排列順序基本遵循去醫(yī)院看病流程??傮w來看,關(guān)于“生病就醫(yī)”話題的對(duì)話場(chǎng)景較為固定,幾乎所有的二級(jí)話題中涉及到的場(chǎng)景都有“醫(yī)院”。
通過對(duì)全部一級(jí)話題對(duì)話及詞語聚類的考察,本文總結(jié)出15個(gè)一級(jí)話題下共102個(gè)二級(jí)話題,每個(gè)話題下有其對(duì)應(yīng)的交際場(chǎng)景;根據(jù)對(duì)話內(nèi)容,總結(jié)出每個(gè)話題和場(chǎng)景下的口語常用句。
不同話題下詞匯具有不同的特點(diǎn),教材自動(dòng)推送資源需要提供各個(gè)話題、場(chǎng)景下常用度高、代表性強(qiáng)的詞匯。為提高話題詞匯相關(guān)性,突出各話題詞匯特點(diǎn),本文對(duì)各級(jí)話題詞匯特點(diǎn)及常用詞的研究去除總詞頻中頻次最高的前15個(gè)詞,分別是“我、的、你、了(語氣詞)、是、好、嗎、不、吧、您、這、有、就、我們、在”,且去除一些無意義的虛詞,分別是助詞、介詞、連詞和語氣詞。我們對(duì)每個(gè)一級(jí)話題下的詞匯特點(diǎn)進(jìn)行了分析(以“生病就醫(yī)”為例),如表3所示。
表3 “生病就醫(yī)”話題高頻詞統(tǒng)計(jì)
通過統(tǒng)計(jì)發(fā)現(xiàn)在“生病就醫(yī)”話題中高頻動(dòng)詞數(shù)量很多,其中“休息、開、手術(shù)、感冒”等話題相關(guān)性較強(qiáng),名詞中“藥、醫(yī)生、大夫”話題相關(guān)性較強(qiáng),形容詞中“疼、舒服、嚴(yán)重”具有話題代表性,可作為“生病就醫(yī)”一級(jí)話題下的常用詞參考。
在對(duì)每個(gè)一級(jí)話題進(jìn)行詞頻統(tǒng)計(jì)的基礎(chǔ)上,我們提取出二級(jí)話題中的話題高頻詞,并參考高頻詞的詞語聚類結(jié)果,總結(jié)各二級(jí)話題下的常用詞,如表4所示。
表4 “生病就醫(yī)”二級(jí)話題常用詞
通過對(duì)語料場(chǎng)景的標(biāo)注以及對(duì)話題的考察,我們統(tǒng)計(jì)出81個(gè)生活類場(chǎng)景,相比較《對(duì)外漢語教學(xué)初級(jí)階段情景大綱》,涵蓋的生活范圍進(jìn)一步增加,場(chǎng)景是口語交際發(fā)生的場(chǎng)所,培養(yǎng)學(xué)習(xí)者根據(jù)場(chǎng)景進(jìn)行交際是培養(yǎng)口語交際能力的關(guān)鍵。口語素材庫需要盡可能多的交際場(chǎng)景來滿足學(xué)習(xí)者的交際需求。具體生活類場(chǎng)景如表5所示。
表5 生活類場(chǎng)景表
以上是根據(jù)話題所總結(jié)出的場(chǎng)景,共81個(gè)生活類場(chǎng)景。對(duì)于一些常見場(chǎng)景,我們進(jìn)行了更深一層的細(xì)分,如“醫(yī)院”是一個(gè)大的場(chǎng)景,主要是“生病就醫(yī)”一級(jí)話題的交際場(chǎng)景,“生病就醫(yī)”一級(jí)話題下又有多個(gè)二級(jí)話題,那么本文在“醫(yī)院”這一大場(chǎng)景下又細(xì)分了“診室、病房”這些常見的小場(chǎng)景。另外,本文增加了手機(jī)平臺(tái)場(chǎng)景,如“購(gòu)物”話題中的網(wǎng)店,“外賣”話題中涉及到的外賣平臺(tái)。目前網(wǎng)絡(luò)平臺(tái)在我們?nèi)粘I钪姓紦?jù)了很重要的位置,這些平臺(tái)上的對(duì)話雖不是常規(guī)的口語,但是具備口語色彩。對(duì)留學(xué)生來說,有必要學(xué)習(xí)常用的網(wǎng)絡(luò)平臺(tái)的交際用語。
通過對(duì)話題下場(chǎng)景的分析,我們發(fā)現(xiàn)一些場(chǎng)景幾乎包含了所有話題,如“家、宿舍”這些固定生活場(chǎng)所,而大部分場(chǎng)景下話題受限制較大,在我們收集到的語料中一般只包含一個(gè)話題,如“醫(yī)院診室、病房、手術(shù)室外”場(chǎng)景一般只涉及“生病就醫(yī)”話題、“音樂廳、游樂場(chǎng)”等場(chǎng)景一般只涉及“休閑娛樂”話題。這些場(chǎng)景內(nèi)人們的對(duì)話通常是針對(duì)某一話題展開,話題延展性不強(qiáng)。由此可知大多話題和場(chǎng)景的關(guān)聯(lián)性較強(qiáng)。
基于上文口語話題-場(chǎng)景素材庫的研究,本文對(duì)素材庫的實(shí)現(xiàn)進(jìn)行了前期的測(cè)試,可根據(jù)場(chǎng)景類型進(jìn)行場(chǎng)景的選擇,如圖4所示。
圖4 場(chǎng)景選擇模式測(cè)試
在場(chǎng)景選擇模式中,用戶可根據(jù)場(chǎng)景關(guān)鍵詞進(jìn)行學(xué)習(xí)場(chǎng)景的選擇,圖4為場(chǎng)所類別選擇為“醫(yī)”,場(chǎng)景,即為“生病就醫(yī)”相關(guān)場(chǎng)景,為“藥店、醫(yī)院”等。當(dāng)用戶選擇場(chǎng)景為“醫(yī)院”時(shí),學(xué)習(xí)內(nèi)容推送如圖5所示。
圖5 場(chǎng)景為“醫(yī)院”的學(xué)習(xí)內(nèi)容推送
在場(chǎng)景“醫(yī)院”下,涉及到一級(jí)話題“日常交際”“生病就醫(yī)”及其下的二級(jí)、三級(jí)話題,圖5中“句子組序”號(hào)表示該句為所在話輪的第幾句。此測(cè)試可以根據(jù)學(xué)習(xí)者的場(chǎng)景特定需求為其推送學(xué)習(xí)素材。
另外我們對(duì)用戶的學(xué)習(xí)界面進(jìn)行了設(shè)計(jì),以學(xué)習(xí)者的就醫(yī)需求為例進(jìn)行口語素材推送分析,學(xué)習(xí)內(nèi)容包括話題常用詞、會(huì)話及常用句(圖6)。
圖6 學(xué)習(xí)模塊頁面設(shè)計(jì)
在學(xué)習(xí)內(nèi)容界面,常用詞是口語素材庫中歸納出的各低級(jí)話題的常用詞,對(duì)常用詞的學(xué)習(xí)配備相應(yīng)的拼音、詞語發(fā)音、詞語朗讀糾音以及圖片展示??谡Z會(huì)話學(xué)習(xí)內(nèi)容也保留了口語會(huì)話的特點(diǎn),在會(huì)話范讀中保留口語的語音語調(diào),但語速不宜過快。最后,在常用句的學(xué)習(xí)中,淺色詞語是可以被替換的內(nèi)容,如第二句中,“頭疼、嗓子疼”中的“頭、嗓子”可以替換為“牙、肚子”等身體部位。常用句是對(duì)口語會(huì)話的總結(jié),來源于上文口語素材研究中的資源。
本文基于10 341條口語語料,對(duì)適合在線教材自動(dòng)推送的漢語口語素材進(jìn)行了分析。本文在分詞與詞頻統(tǒng)計(jì)的基礎(chǔ)上對(duì)漢語口語詞匯特征進(jìn)行了深入描寫,總結(jié)各詞類分布特點(diǎn),同時(shí)根據(jù)騰訊AL LAB 公開的中文詞向量數(shù)據(jù),使用K-means算法對(duì)口語詞匯進(jìn)行詞語聚類,將全部詞語分別聚類為500類、800類和1 000類,通過對(duì)聚類結(jié)果的分析,發(fā)現(xiàn)聚類總數(shù)越多,同一話題內(nèi)詞匯的聚類數(shù)也越多,分類越細(xì)致,每類之間的區(qū)分度越弱,因此本文參考500類的分類結(jié)果對(duì)大話題進(jìn)行劃分,參考800類和1 000類的結(jié)果對(duì)下級(jí)話題和場(chǎng)景進(jìn)行歸納。其次,基于詞語聚類,在對(duì)語料場(chǎng)景話題及現(xiàn)有話題庫的考察下,本文構(gòu)建了一個(gè)包含15個(gè)一級(jí)話題、102個(gè)二級(jí)話題以及81個(gè)交際場(chǎng)景的話題-場(chǎng)景框架體系,并對(duì)各級(jí) 話 題下的常用詞及常 用 句進(jìn)行了總結(jié)。本文最后對(duì)口語素材庫在教材自動(dòng)推送中的實(shí)現(xiàn)進(jìn)行了前期測(cè)試,并且對(duì)用戶的學(xué)習(xí)界面進(jìn)行了設(shè)計(jì),口語素材庫可以實(shí)現(xiàn)根據(jù)學(xué)習(xí)者所處的場(chǎng)景為其推送學(xué)習(xí)素材。下一階段的研究將針對(duì)素材庫的推送進(jìn)行更深層次的分析,制作具有實(shí)用價(jià)值的漢語教材自動(dòng)推送產(chǎn)品,服務(wù)于漢語學(xué)習(xí)者與漢語教師。