• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      語料庫自動提取詞匯信息技術(shù)研究

      2023-01-11 15:24:48呂劍濤姚銀燕
      現(xiàn)代計算機 2022年20期
      關(guān)鍵詞:母語英語詞匯語料庫

      呂劍濤,姚銀燕

      (廣東外語外貿(mào)大學(xué)英語教育學(xué)院,廣州 510006)

      0 引言

      語料庫包含大量詞匯在自然語境中的真實使用記錄,其應(yīng)用價值從上世紀(jì)初就受到了學(xué)界的關(guān)注[2]。就詞匯教學(xué)而論,語料庫蘊含兩方面的重要信息:需要學(xué)習(xí)的詞匯和詞匯在各種語境下的使用方法。語料庫中的文本不是人為創(chuàng)造,乃是日常生活的各種真實交際需求產(chǎn)出的自然話語,與傳統(tǒng)詞典刻板的注釋相比,更容易啟發(fā)學(xué)習(xí)者掌握詞義和配搭[3],使學(xué)習(xí)者從被動記憶詞匯信息轉(zhuǎn)化為主動揣摩詞匯的含義,以及在真實語境下的各種使用方式[4-5]。

      現(xiàn)有文獻(xiàn)大多通過語料庫軟件搜索和詞頻統(tǒng)計功能得到服務(wù)于英語詞匯教學(xué)的信息。依靠這種人工搜索統(tǒng)計的方式耗時耗力,且人工方式往往未能窮盡語料庫中的所有學(xué)習(xí)者信息,一定程度局限了語料庫在英語詞匯教學(xué)中的效力。使用自然語言處理技術(shù)中的文本對比技術(shù)可以解決以上兩點不足。由計算機自動找出學(xué)習(xí)者語料庫和本族語者語料庫中類似的文本,就可以直接當(dāng)作詞匯教學(xué)學(xué)習(xí)資料,讓學(xué)習(xí)者不但可以結(jié)合自然話語的上下文學(xué)習(xí)生詞,且可以比較二語學(xué)習(xí)者文本和本族語者文本間的語篇、句法、詞匯差異,教師也可以幫助學(xué)習(xí)者分析兩種文本間的語言差異,并鼓勵學(xué)習(xí)者按照本族語者文本的語言使用策略習(xí)慣對二語學(xué)習(xí)者文本進(jìn)行改編改寫,以此引導(dǎo)學(xué)習(xí)者嘗試就所學(xué)詞匯作即時產(chǎn)出。

      此外,現(xiàn)有文獻(xiàn)大多通過詞頻和共現(xiàn)規(guī)律抽取出需掌握的詞匯[6-7],或直接從語料庫中搜索出已有詞匯出現(xiàn)過的文本[8-9],甚少研究能夠以各種不同英語交際能力為出發(fā)點抽取出相關(guān)的詞匯。中國英語能力等級量表(China’s Stan?dards of English language ability,CSE)全面地描述了各種語言交際能力。以CSE為出發(fā)點搜索語料庫中每種能力對應(yīng)的詞匯,能避免以統(tǒng)計為導(dǎo)向?qū)W習(xí)詞匯帶來的盲目性,使所學(xué)詞匯與某一交際能力對應(yīng),加強學(xué)習(xí)詞匯的動力,使詞匯學(xué)習(xí)真正滿足各種日常生活工作的交際需求。

      本文提出使用文本對比技術(shù)和中國英語能力等級量表發(fā)掘語料庫中的詞匯信息,減少教師使用語料庫時人工搜索、文本分析的工作量,同時使基于語料庫的詞匯教學(xué)更系統(tǒng)化,實現(xiàn)詞匯學(xué)習(xí)以提升語言交際能力為導(dǎo)向。

      1 語料庫對英語詞匯教學(xué)的潛在價值

      語料庫(corpus)是將一定量的真實話語(書面或口語)收集起來的語言文本數(shù)據(jù)集[10]。語料庫的應(yīng)用價值在于其可借鑒性,為各種學(xué)習(xí)自然語言為目的的活動提供客觀真實的語言使用情況統(tǒng)計數(shù)據(jù)。

      在英語詞匯的教學(xué)中,教師一般靠經(jīng)驗教授詞匯的相關(guān)知識,教師對詞匯的掌握熟練運用程度往往不如母語說話者。同時,無論是中國教師或?qū)W生,都或多或少受到母語負(fù)遷移的影響,將母語(中文)的詞匯使用習(xí)慣帶到英語詞匯教學(xué)中,很難將注意力放到學(xué)習(xí)非母語習(xí)慣的詞匯和用法上。這造成了中國英語學(xué)習(xí)者經(jīng)常需要問母語說話者:“這個意思你們一般會怎么表達(dá)?”或者母語對話人有時聽懂了英語學(xué)習(xí)者想表達(dá)的內(nèi)容后,會用更地道的語言說出同一內(nèi)容,并會解釋到,他們一般不會用某個詞匯,或該詞匯一般不會在這種情況使用等。

      可見,進(jìn)行詞匯學(xué)習(xí)一個較理想的條件是,英語學(xué)習(xí)者即使在沒有母語說話人詢問的情況下仍能了解到詞匯兩方面的重要信息:第一,在某一交際需求下應(yīng)該使用哪些特定詞匯?第二,這些詞匯具體是怎么使用的,如何與其它詞匯配搭使用?在何種語法結(jié)構(gòu)中使用?雖然現(xiàn)有英語教材一般已給出以上兩方面詞匯信息,但大多不夠系統(tǒng),且一般依靠教材編寫人的經(jīng)驗給出,非語料庫驅(qū)動。語料庫中包含豐富的以上兩種詞匯信息,對詞匯教學(xué)有絕對的參考指導(dǎo)作用。

      2 使用文本對比技術(shù)讓學(xué)習(xí)者向目標(biāo)詞匯遷移

      雖然語料庫包含豐富的、有教學(xué)價值的詞匯信息,但語料庫本身只是大量真實語料的聚積,一般并未預(yù)先加工處理提取出任何詞匯信息,需要借助語料庫分析軟件進(jìn)行人工分析和歸納,某種程度上制約了語料庫大范圍應(yīng)用到英語詞匯教學(xué)中。如語料庫的詞匯信息挖掘能實現(xiàn)智能化、自動化,就可以極大降低提取詞匯信息所需的時間和勞動力成本。

      文本對比就是比較兩個文本的相似度,廣泛應(yīng)用于文本信息檢索領(lǐng)域[11]。文本對比技術(shù)就“查重”這一目的大致可分為語句重復(fù)和內(nèi)容重復(fù)兩類。語句重復(fù)就是比較兩個文本間的句子中重復(fù)使用的單詞和按同一順序重復(fù)出現(xiàn)的單詞的數(shù)量,數(shù)量越高表示文本相似度越高。然而,語句重復(fù)對比技術(shù)太過注重語言的形式,忽略了語言中裝載的內(nèi)容:兩個文本可以在用詞完全不相同的情況下表達(dá)類似的內(nèi)容,文本間從內(nèi)容上看相似度依然極高。

      內(nèi)容重復(fù)檢索更適用于語料庫詞匯信息篩選。如上所說,中國英語學(xué)習(xí)者受母語負(fù)遷移的影響,英語詞匯的使用習(xí)慣與英語作為母語的說話人有較大區(qū)別。尤其是已習(xí)得一定詞匯量的學(xué)習(xí)者,困難之處并不是表達(dá)出某一內(nèi)容,而是用較地道的詞匯表達(dá)出同一內(nèi)容。因此,如果對比英語學(xué)習(xí)者語料庫和母語說話人語料庫間同一話題的語料,就可發(fā)現(xiàn)兩者想表達(dá)的內(nèi)容是類似的,只是用詞有所區(qū)別。使用內(nèi)容重復(fù)檢索技術(shù)即可自動檢測出分別來自兩個語料庫的相似度較高的文本,并將其作為教學(xué)資料。兩個文本間相似的詞匯也可以自動標(biāo)注出來,幫助教師和學(xué)習(xí)者將注意力放到中英詞匯使用習(xí)慣差異上。

      較接近內(nèi)容重復(fù)檢索性質(zhì)的文本對比技術(shù)是語義相似度計算。其主要思想是通過語義建立起詞匯間的遠(yuǎn)近親疏關(guān)系,作為計算文本相似度的依據(jù)。常用語義詞典有WordNet、FrameNet和MindNet。WordNet的語義關(guān)系比較適合用來辨認(rèn)學(xué)習(xí)者和母語說話人表達(dá)同一語義時詞匯使用習(xí)慣差異,而FrameNet和MindNet的優(yōu)勢在于能通過詞語使用搭配識別出內(nèi)容相似的文本,從而為學(xué)習(xí)者提供表達(dá)類似語義更為地道的詞語組合。下面簡單介紹一下這三個語義詞典的語義關(guān)系建構(gòu)方式。

      2.1 WordNet的語義關(guān)系建構(gòu)

      WordNet主要將同一詞類(parts of speech)的詞匯建立語義鏈接[12]。如名詞標(biāo)注頻率最高的是層級關(guān)系(super-subordinate relation)。層級自上而下為比上一層級更進(jìn)一步細(xì)化的名詞,如bed為furniture的下一層級,bunkbed為bed的下一層級。反過來,bunkbed和bed是furniture這一名詞大類的組成部分。同一層級內(nèi)的詞匯(syn?sets)之間是同義詞關(guān)系(synonymy),如car和au?tomobile。對動詞也同樣建立層級結(jié)構(gòu)的語義關(guān)系,這些層級由動作不同的方面或組成部分決定,如talk的一個特點是聲量,所以其下一層級的單詞為whisper,同時talk作為communicate語義的一部分,上一層級的單詞為communicate。

      WordNet建立詞匯語義關(guān)系的方法對搜索比對語料庫相似內(nèi)容文本,以及標(biāo)注出相似內(nèi)容文本間語義關(guān)系接近詞匯,作為英語詞匯教學(xué)資料都有極高的實用價值,因為英語學(xué)習(xí)者往往不會交替使用同一層級的詞匯,或者不會使用下一層級的詞匯。

      2.2 FrameNet的語義關(guān)系建構(gòu)

      FrameNet通過框架語義學(xué)理論進(jìn)行語義關(guān)系建構(gòu)[13]。一個語義框架描述的是某種事件、關(guān)系、實體和參與者。比如,烹飪這一概念常包含某人、食物、餐具和廚具等要素。在FrameNet中,烹飪這個概念就作為一個框架,其要素就是該框架的元素(frame elements)。能激活框架的單詞稱作詞匯單元(lexical units)??蚣芘c框架之間再通過繼承、使用、部分、視覺等層級關(guān)系連接。借助建立框架,詞匯被框架以及框架間的關(guān)系連接。

      英語學(xué)習(xí)者和母語說話人使用詞匯的差異也體現(xiàn)在框架的差異上,有些是同一框架內(nèi)要素使用的差異,有些則是框架間層級關(guān)系的差異,如英語學(xué)習(xí)者表達(dá)類似內(nèi)容可能使用了母框架要素中的單詞,而母語說話人則使用了子框架要素中的單詞,或者相反。這些信息對詞匯學(xué)習(xí)十分有意義,是通過簡單的單詞共現(xiàn)統(tǒng)計而得到的詞匯搭配信息所不能比擬的。

      2.3 MindNet的語義關(guān)系建構(gòu)

      MindNet是通過邏輯結(jié)構(gòu)(logical form)分析得到兩個單詞間的語義關(guān)系[14]。邏輯結(jié)構(gòu)分析由語法分析器(parser)執(zhí)行,執(zhí)行對象是詞典、百科全書和自由文本中用來注釋詞匯的句子。MindNet的邏輯結(jié)構(gòu)分析是自動進(jìn)行的,得到這些邏輯結(jié)構(gòu)后,將其匯聚成一個更大的邏輯結(jié)構(gòu),并根據(jù)各個邏輯結(jié)構(gòu)在語料庫中出現(xiàn)的頻率給其賦予概率化的權(quán)重。

      由于MindNet是基于詞典中的語句建構(gòu)語義關(guān)系,其應(yīng)用到自然話語內(nèi)容對比判別的適用性受到了一定的局限。

      3 使用中國英語能力等級量表系統(tǒng)挖掘?qū)W習(xí)者詞匯信息

      中國英語學(xué)習(xí)者往往喜歡脫離語境,單純透過記憶中文解釋去學(xué)習(xí)詞匯。語料庫為學(xué)習(xí)者提供了豐富的詞匯固定搭配、常用語法方面的信息。與普通詞典相比,這些信息不是直接用文字呈現(xiàn)給讀者,而是隱含在大量的真實話語中,從而為學(xué)習(xí)者自主總結(jié)詞匯使用規(guī)律提供條件,使學(xué)習(xí)者從過去將詞匯當(dāng)作知識去記憶變成透過觀察掌握詞匯的使用方法,這種以使用為目的的詞匯學(xué)習(xí)行為更符合語言學(xué)習(xí)的規(guī)律。許多研究已表明,使用語料庫進(jìn)行詞匯教學(xué)的效果比傳統(tǒng)詞匯知識灌輸更理想,且提高了學(xué)習(xí)者的自主學(xué)習(xí)能力[5,15]。

      然而,要進(jìn)一步提高學(xué)習(xí)詞匯的動力,必須將詞匯學(xué)習(xí)和語言交際能力提高聯(lián)系起來。也就是說,詞匯學(xué)習(xí)應(yīng)該是以提高交際能力為目的。實施某種交際能力到底有可能要使用哪些詞匯?在開展詞匯教學(xué)前必須向?qū)W習(xí)者交待清楚,才能明確目標(biāo),有的放矢。這里涉及兩個問題:第一,中國英語學(xué)習(xí)者需掌握的語言交際能力有哪些?第二,如何就某一語言交際能力在語料庫中搜索出與該能力對應(yīng)的詞匯信息?第一個問題可以參照中國英語能力等級量表[1]解決。第二個問題的解決可以通過自然語言處理技術(shù)中的文本關(guān)鍵詞提取技術(shù)。先提取出語料庫中文本的關(guān)鍵詞,然后與能力量表的描述語進(jìn)行匹配[16],就可找到與某一能力描述語對應(yīng)的文本,作為提高該交際能力的詞匯學(xué)習(xí)資料。

      4 融入能力量表和文本對比技術(shù)的英語詞匯教學(xué)資料生成框架

      融入兩個部件后的英語詞匯教學(xué)資料生成步驟如圖1所示。首先,先分別提取出學(xué)習(xí)者語料庫和母語說話者語料庫中文本的關(guān)鍵詞,作為選取文本的依據(jù);然后,將兩個語料庫中文本關(guān)鍵詞與英語量表描述語進(jìn)行匹配,選中匹配成功的文本組成與特定描述語對應(yīng)的對比語料庫;接著,使用文本對比技術(shù)將對比語料庫中類似的文本抽出,作為詞匯教學(xué)資料,將兩個類似文本中語義相近的詞匯自動標(biāo)注,母語說話人產(chǎn)出的文本中被標(biāo)注出來的單詞就是學(xué)習(xí)者改變原來詞匯使用習(xí)慣需要學(xué)習(xí)使用的詞匯。

      圖1 英語詞匯教學(xué)資料生成步驟

      5 結(jié)語

      本文在探討語料庫在英語詞匯教學(xué)中優(yōu)勢的基礎(chǔ)上,進(jìn)一步提出了拓寬語料庫應(yīng)用前景要融入的兩個語言學(xué)和人工智能部件,即中國英語能力等級量表和文本對比技術(shù)。這兩個部件可以免去許多手動分析語料庫工作量的同時,進(jìn)一步使詞匯教學(xué)向交際能力為導(dǎo)向的方向發(fā)展。

      猜你喜歡
      母語英語詞匯語料庫
      母語
      草原歌聲(2020年3期)2021-01-18 06:52:02
      《語料庫翻譯文體學(xué)》評介
      母語
      草原歌聲(2017年3期)2017-04-23 05:13:47
      把課文的優(yōu)美表達(dá)存進(jìn)語料庫
      高中英語詞匯學(xué)習(xí)之我見
      初中英語詞匯教學(xué)初探
      人間(2015年10期)2016-01-09 13:12:54
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      我有祖國,我有母語
      擴大英語詞匯量的實踐
      散文百家(2014年11期)2014-08-21 07:16:56
      母語寫作的宿命——《圣天門口》未完的話
      普兰县| 曲松县| 嘉鱼县| 古田县| 大宁县| 调兵山市| 根河市| 孝昌县| 长泰县| 二连浩特市| 渑池县| 久治县| 汤阴县| 新建县| 页游| 南昌县| 德州市| 东安县| 宣汉县| 扎鲁特旗| 哈巴河县| 安义县| 云龙县| 安塞县| 威远县| 都兰县| 鲁甸县| 全州县| 健康| 卓资县| 昌乐县| 柳河县| 通山县| 盘山县| 高青县| 乐山市| 鹤壁市| 监利县| 宿松县| 无锡市| 揭东县|