摘要:文章通過運用Part-Of-Speech Tagging詞性標(biāo)注工具,使計算機(jī)能夠?qū)ξ粗⒄Z句子的語法錯誤、句法錯誤等淺層詞性特征信息進(jìn)行評判。同時,通過建立詞性錯誤特征數(shù)據(jù)庫來提高計算機(jī)對英語句子的判斷準(zhǔn)確性,從而將其應(yīng)用于現(xiàn)實教學(xué)研究。
關(guān)鍵詞:詞性標(biāo)注;英語語法;應(yīng)用
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)19-0074-04
1 研究背景
詞性標(biāo)注(Part-Of-Speech tagging, POS tagging) 是機(jī)器學(xué)習(xí)的一種方法,也是自然語言處理(NaturalLanguage Processing, NLP) 研究的內(nèi)容之一。它又被稱為語法標(biāo)注(grammatical tagging) 或詞類消疑(wordcategorydisambiguation) ,是一種通過將語料庫內(nèi)單詞的詞性根據(jù)其內(nèi)涵意義以及上下文內(nèi)容關(guān)系進(jìn)行標(biāo)注的文本數(shù)據(jù)處理技術(shù)。
詞性標(biāo)注作為語法分析器(parser) 的組件之一隨著語料庫的建立而提出。早期,在賓夕法尼亞大學(xué)(University of Pennsylvania) TDAP(Transformations andDiscourse Analysis Project) 項目中,詞性標(biāo)注作為一種語法結(jié)構(gòu)模型被提出,并通過人工指定的上下文規(guī)則建立了自動化詞性標(biāo)注系統(tǒng)CGC(Computational Gram?mar Coder) 。1971 年,Barbara B. Greene 和Gerald M.Rubin以CGC為基礎(chǔ)開發(fā)了詞性標(biāo)注系統(tǒng)TAGGIT,并首次對大規(guī)模詞庫Brown Corpus進(jìn)行了詞性標(biāo)注。隨著統(tǒng)計學(xué)習(xí)方法的成功和更大規(guī)模語料庫BritishNational Corpus的出現(xiàn),為詞性標(biāo)注研究中機(jī)器學(xué)習(xí)方法的引入奠定了基礎(chǔ)。其中,隱馬爾可夫模型(Hid?den Markov Model, HMM) 作為一種統(tǒng)計分析模型創(chuàng)立于20世紀(jì)70年代。20世紀(jì)80—90年代,HMM被應(yīng)用于語音識別并取得重大成功[1],學(xué)界開始嘗試使用隱馬爾可夫模型進(jìn)行詞性標(biāo)注,并也取得了成功。之后,以HMM為代表的詞性標(biāo)注方法被廣泛應(yīng)用于各類大規(guī)模語料庫的NLP和文本挖掘。
關(guān)于詞性標(biāo)注的研究在國內(nèi)外的相關(guān)文獻(xiàn)比較多,但絕大部分文獻(xiàn)基本圍繞構(gòu)建對目標(biāo)文本的詞性標(biāo)注進(jìn)行研究,如莫禮平等[2]提出的湘西苗文詞性標(biāo)注知識庫系統(tǒng)的構(gòu)建,唐文[3]研究了融合多特征的老撾語詞性標(biāo)注方法。這些研究大多基于語料庫,探討如何準(zhǔn)確地進(jìn)行語料詞性的標(biāo)注。以知網(wǎng)為例,搜索關(guān)鍵詞“詞性標(biāo)注”,可以發(fā)現(xiàn)相關(guān)的期刊文章有903 條記錄,然而大部分文章都是研究漢語、古漢語、少數(shù)民族語言,以及其他國家語言的詞性標(biāo)注方法。在搜索結(jié)果的基礎(chǔ)上進(jìn)行二次搜索以“英語語法”為關(guān)鍵詞,發(fā)現(xiàn)只有彭濤等[4]研究的一種基于規(guī)則的無監(jiān)督詞性標(biāo)注方法,該篇文章提出當(dāng)英語句子進(jìn)行詞性標(biāo)注時如何既準(zhǔn)確又快速的方法,而直接利用詞性標(biāo)注工具進(jìn)行英語語法計算機(jī)判斷研究的文章幾乎沒有。同樣,在百度學(xué)術(shù)文庫中以“詞性標(biāo)注 英語語法”為關(guān)鍵詞進(jìn)行搜索,搜索到173條記錄,其中大部分與英語語法沒有關(guān)系,只有吳坤[5]寫的英文作文智能評改中詞性標(biāo)注技術(shù)的研究與實現(xiàn)的碩士論文中談到了關(guān)于詞性標(biāo)注在英語作文評閱中的應(yīng)用。
2 設(shè)計思路
詞性是代表同一類單詞的語法分類。對于不同的英語句子,只要語句結(jié)構(gòu)相同,其對應(yīng)的詞性組合就是一致的。鑒于這個特點,利用詞性標(biāo)注來分析英文句子可以大大簡化英文單詞在句法、語法分析上的障礙。通過判斷詞性的組合來分析英語句子存在的語法錯誤,從而進(jìn)行淺層文本分析,得到相應(yīng)的錯誤組合結(jié)果,并將其錄入錯誤詞性數(shù)據(jù)庫中。這類似于殺毒軟件的原理,只要增加病毒庫信息就可以對未知病毒進(jìn)行查殺,從而提高英語語法判斷的能力和速度。
2.1 標(biāo)注工具
本文采用的詞性標(biāo)注工具是由The Stanford Natu?ral Language Processing Group 開發(fā)的Stanford POSTagger v.3.0,該軟件基于Java 工作平臺。根據(jù)PennTreebank標(biāo)注集(表1) ,其中:NN表示名詞-單數(shù),VB 表示動詞,RB表示副詞,PRP表示人稱代詞等。