孫皓 王晨萱 郭洋
【摘 要】本文在回顧二語(yǔ)習(xí)得相關(guān)研究的基礎(chǔ)上,強(qiáng)調(diào)了詞匯學(xué)習(xí)的重要性,簡(jiǎn)單介紹了主題在現(xiàn)代外語(yǔ)詞匯教學(xué)中的作用,并就此提出了利用LDA模型自動(dòng)生成主題詞表進(jìn)行外語(yǔ)教學(xué)的模式,以及在教學(xué)應(yīng)用中的不足。
【關(guān)鍵詞】主題模型 ? ?LDA ? ?詞匯學(xué)習(xí) ? ? 二語(yǔ)習(xí)得
一、二語(yǔ)習(xí)得與詞匯學(xué)習(xí)
英國(guó)著名語(yǔ)言學(xué)家D.A.Wilkins(1972曾說(shuō):“沒(méi)有語(yǔ)法,人們不能表達(dá)很多東西,而沒(méi)有詞匯,人們則無(wú)法表達(dá)任何東西。”詞匯作為語(yǔ)言的核心內(nèi)容,受到越來(lái)越廣泛的關(guān)注,詞匯教學(xué)的重要地位得到普遍認(rèn)可,各種詞匯教學(xué)研究受到教育界學(xué)者的青睞。徐密娥、李炯英(2007)在回顧及總結(jié)1994至2005年國(guó)內(nèi)英語(yǔ)詞匯教學(xué)研究概況的基礎(chǔ)上,指出國(guó)內(nèi)英語(yǔ)詞匯研究總體上呈明顯的上升趨勢(shì),且研究視角多元化。隨著研究的深入,二語(yǔ)詞匯習(xí)得逐漸成為二語(yǔ)習(xí)得研究的熱點(diǎn),并取得了豐碩的成果。教育技術(shù)學(xué)吸取了二語(yǔ)詞匯習(xí)得方面的新成果,并將二語(yǔ)詞匯習(xí)得理念應(yīng)用到英語(yǔ)詞匯教學(xué)研究中,不斷拓展研究范圍,深化研究方向,取得了一定進(jìn)展。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)的發(fā)展,英語(yǔ)詞匯教學(xué)與現(xiàn)代教育技術(shù)逐漸融合,利用技術(shù)輔助英語(yǔ)詞匯教學(xué)的研究越來(lái)越多,英語(yǔ)詞匯教學(xué)逐漸成為教育技術(shù)領(lǐng)域密切關(guān)注的問(wèn)題。
二、主題模型與詞匯學(xué)習(xí)
Nation(1998)提出,在詞匯習(xí)得中,需要采用利于學(xué)習(xí)者記憶的單詞呈現(xiàn)方式。然而,目前一般的詞匯習(xí)得方法主要是依靠強(qiáng)化記憶,即很多學(xué)習(xí)者通過(guò)詞匯表的死記硬背來(lái)提高詞匯能力。但是詞匯表中缺乏詞匯使用的語(yǔ)境,所以學(xué)習(xí)者并不能深刻理解詞匯的內(nèi)涵,在一定程度上阻礙了詞匯習(xí)得過(guò)程。
李文中(2003)認(rèn)為,圍繞某一主題,以語(yǔ)義聯(lián)想為中心的詞匯教學(xué)比孤立、離散的詞匯學(xué)習(xí)更加有效。王秀(2006)通過(guò)實(shí)驗(yàn)研究發(fā)現(xiàn),對(duì)于EFL學(xué)習(xí)者按主題排列的詞匯比按非主題排列的詞匯更易于學(xué)習(xí)。
張紅巖(2012)在《詞以類記:IELTS詞匯》中在將雅思詞匯分為28個(gè)學(xué)科、8個(gè)意群,在學(xué)科和意群中詞匯的排列遵循一定的邏輯順序。此書(shū)的姐妹篇《詞義類記:TOEFL iBT詞匯》自06年底面世以來(lái)也迅速成為同類詞匯書(shū)中的冠軍,證實(shí)了“詞義類記”——即根據(jù)主題記憶單詞方法的科學(xué)性與有效性。
人工對(duì)詞匯進(jìn)行主題分類固然可以很好地提高詞匯學(xué)習(xí)效果,但是隨著語(yǔ)料規(guī)模的擴(kuò)大,很難對(duì)人工所有領(lǐng)域的主題詞進(jìn)行分類收集,且需要花費(fèi)大量精力、物力。
近年來(lái),主題模型(topic model)在自然語(yǔ)言處理(natural language process,NLP)領(lǐng)域受到了越來(lái)越多的關(guān)注。在該領(lǐng)域中,主題可以看成是詞項(xiàng)的概率分布,主題模型通過(guò)詞項(xiàng)在文檔級(jí)的共現(xiàn)信息抽取出語(yǔ)義相關(guān)的主題集合,并能夠?qū)⒃~項(xiàng)空間中的文檔變換到主題空間,得到文檔在低維空間的表達(dá),從而間接達(dá)到文本分類的效果。主題模型分析大量無(wú)標(biāo)記文本提供了一種簡(jiǎn)單方法,主題模型計(jì)算得出的每個(gè)“主題”由一些經(jīng)常一起出現(xiàn)的詞構(gòu)成,使用上下文作為線索,主題模型可以將具有相似意義的單詞聯(lián)系在一起,并且對(duì)使用多重含義的詞進(jìn)行區(qū)分。
三、主題模型LDA介紹與實(shí)例分析
主題模型是一種文本表示范式,其典型代表是LDA模型。LDA模型首先由Blei等于2003年提出,目前在文本主題識(shí)別、文本分類以及文本相似度計(jì)算等方面都有廣泛應(yīng)用。LDA模型可以將文檔集中每篇文檔的主題按照概率分布的形式給出,同時(shí)它是一種無(wú)監(jiān)督學(xué)習(xí)算法,在訓(xùn)練時(shí)不需要手工標(biāo)注的訓(xùn)練集,需要的僅僅是文檔集以及指定主題的數(shù)量即可。一篇文檔可以包含多個(gè)主題,文檔中每一個(gè)詞都由其中的一個(gè)主題生成。
選用美聯(lián)社2246篇文檔作為語(yǔ)料,利用LDA模型進(jìn)行主題詞統(tǒng)計(jì)。假定整個(gè)語(yǔ)料庫(kù)有100個(gè)主題,每個(gè)主題用20個(gè)單詞描述。LDA模型可以根據(jù)給定的語(yǔ)料庫(kù),通過(guò)計(jì)算得出主題以及描述相應(yīng)主題的單詞。
四、總結(jié)與展望
每一列詞匯均由計(jì)算機(jī)自動(dòng)生成,每列詞匯中有內(nèi)在的主題上的相關(guān)性。LDA模型在計(jì)算過(guò)程中,需要對(duì)文檔中的單詞進(jìn)行詞頻統(tǒng)計(jì),所以LDA模型不僅可以提供具有主題相關(guān)性的單詞,還可以被應(yīng)用于文本分類,根據(jù)學(xué)習(xí)者的需要提供個(gè)性化的閱讀材料,并進(jìn)行附帶詞匯習(xí)得。利用計(jì)算機(jī)自動(dòng)生成同一主題的相關(guān)詞匯,這對(duì)于構(gòu)建基于主題模型的詞匯學(xué)習(xí)模式是十分重要的,能夠有效支持基于主題的詞匯習(xí)得研究。
但是LDA生成的主題詞表還有許多不足之處,如LDA模型不能表示主題間的相關(guān)性;對(duì)于主題數(shù)目K過(guò)于敏感;主題詞表中含有大量語(yǔ)義無(wú)關(guān)詞且詞形不規(guī)范等。在今后需要對(duì)LDA模型的產(chǎn)出加以改進(jìn),以達(dá)到更好的詞匯習(xí)得效果。
【參考文獻(xiàn)】
[1]Wilkins D A.Linguistics in language Teaching[M].London: Edward Amold, 1972.
[2]徐密娥, 李炯英.國(guó)內(nèi)英語(yǔ)詞匯教學(xué)研究:回顧和前瞻[J].外語(yǔ)界,2007(03).
[3]Paul Nation .Helping learners take control of their vocabulary learning[J].GRETA,1998,6(1):9-1.
[4]張紅巖.詞以類記:IELTS詞匯[M].西安:西安交通大學(xué)出版社,2012.
[5]張紅巖.詞以類記——TOEFL iBT 詞匯[J].新東方英語(yǔ) (大學(xué)版), 2006(12).