陳 波,孫 樂,韓先培
(中國(guó)科學(xué)院 軟件研究所 中文信息處理實(shí)驗(yàn)室,北京 100190)
語(yǔ)義解析是把自然語(yǔ)言句子解析成完整的、計(jì)算機(jī)可識(shí)別的、可計(jì)算的或可執(zhí)行的語(yǔ)義表示。通常使用邏輯形式來表示語(yǔ)義,如Lambda—表達(dá)式。語(yǔ)義解析是實(shí)現(xiàn)自然語(yǔ)言理解的核心技術(shù),也是實(shí)現(xiàn)人機(jī)交互應(yīng)用[1-2]、智能機(jī)器人[3]所必需的技術(shù),還對(duì)自然語(yǔ)言處理的其他領(lǐng)域(如機(jī)器翻譯、問答、知識(shí)抽取等)具有促進(jìn)作用。
現(xiàn)階段的語(yǔ)義解析技術(shù)大都基于組合語(yǔ)義,而組合語(yǔ)義基于一條基本原則: 句子的意思是句子中各個(gè)成分的意思的組合。通常,基于組合語(yǔ)義的語(yǔ)義解析系統(tǒng)都包含兩個(gè)重要的模塊: 詞典和文法,詞典對(duì)應(yīng)上述原則中各個(gè)成分的意思,而文法對(duì)應(yīng)成分的意思如何組合。詞典和文法是基于組合語(yǔ)義的語(yǔ)義解析系統(tǒng)的核心和基礎(chǔ)。文法一般是從語(yǔ)言現(xiàn)象中提煉出來的若干條組合規(guī)則。而詞典通常都是需要學(xué)習(xí)的。隨著語(yǔ)義解析技術(shù)逐漸面向開放域,目標(biāo)知識(shí)庫(kù)本體中的謂詞(predicate)數(shù)目也越來越多,而自然語(yǔ)言本身表達(dá)具有豐富性: 每一個(gè)意思可以由多個(gè)不同的詞語(yǔ)來表達(dá),這使得詞典學(xué)習(xí)越來越困難,其中詞典中詞匯覆蓋度問題尤其顯著。如何加強(qiáng)詞典學(xué)習(xí),提高詞典中詞匯覆蓋度成了語(yǔ)義解析領(lǐng)域的一大研究難點(diǎn)和重點(diǎn)。
詞典學(xué)習(xí)一方面是語(yǔ)義解析任務(wù)中不可或缺的一部分,另一方面它本身也可作為自然語(yǔ)言處理中一項(xiàng)十分重要的任務(wù),詞典可用于機(jī)器翻譯、信息抽取等。近年來,語(yǔ)義解析領(lǐng)域開始有很多工作著手于詞典學(xué)習(xí),Cai[4]等提出了基于模板的詞典學(xué)習(xí)方法,該方法利用文本語(yǔ)料和知識(shí)庫(kù)中實(shí)體對(duì)的共現(xiàn),以及特定模板的約束來學(xué)習(xí)詞語(yǔ)到謂詞之間的映射,這種方法使用遠(yuǎn)距離(distant)監(jiān)督學(xué)習(xí)算法能夠?qū)W習(xí)到新的詞匯來擴(kuò)充詞典,一定程度上提高了詞典的覆蓋度。但由于謂詞數(shù)目實(shí)在太多,有很多謂詞都無法依靠這種方法得到準(zhǔn)確的詞語(yǔ)與之匹配。Berant[5]等在此基礎(chǔ)上提出橋連接的方法,該方法在沒有詞語(yǔ)觸發(fā)二元謂詞的情況下,也就是詞典中的詞匯沒有覆蓋到的情況下,能夠利用當(dāng)前的解析結(jié)果信息(如已識(shí)別實(shí)體)和知識(shí)庫(kù)本體的約束,自動(dòng)引入二元謂詞。該方法雖然沒有學(xué)習(xí)新的詞匯,但是橋連接充當(dāng)了詞匯的功能,在一定程度上能夠紓解詞典覆蓋度不夠的問題。然而,橋連接方法并沒有學(xué)習(xí)到真正的詞匯。
針對(duì)語(yǔ)義解析中詞典中詞匯覆蓋度不夠的問題,本文在現(xiàn)有工作的基礎(chǔ)上提出了基于橋連接的詞典學(xué)習(xí)方法。該方法在橋連接方法的基礎(chǔ)上,在訓(xùn)練的過程中,每自動(dòng)引入一個(gè)二元謂詞,我們就從句子中抽取非實(shí)體性的內(nèi)容詞語(yǔ)(疑問詞、形容詞、名詞和動(dòng)詞),并與該二元謂詞配對(duì),作為新的詞匯加入到模型中。隨著新詞匯的大量加入,詞典中會(huì)存在很多帶“歧義”的詞匯,同時(shí)也存在很多無用的甚至錯(cuò)誤的詞匯。為了讓模型選擇更好的詞匯,我們?cè)O(shè)計(jì)了新的詞語(yǔ)—二元謂詞特征模板,該特征模板能夠更好地捕捉詞語(yǔ)和二元謂詞之間的映射關(guān)系。為了截取無用的、錯(cuò)誤的詞匯,我們?cè)O(shè)計(jì)了基于投票機(jī)制的核心詞匯獲取方法,核心詞匯雖然犧牲了一點(diǎn)語(yǔ)義解析系統(tǒng)的召回率,但是能夠大大提升語(yǔ)義解析的效率,還能提高語(yǔ)義解析的準(zhǔn)確率。
本文的主要工作總結(jié)如下:
(1) 針對(duì)語(yǔ)義解析任務(wù)中詞典覆蓋度不夠的問題,我們?cè)诂F(xiàn)有工作的基礎(chǔ)上提出了基于橋連接的詞典學(xué)習(xí)方法。
(2) 我們?cè)O(shè)計(jì)了新的詞語(yǔ)—二元謂詞的模板特征,來消除新詞典中容易出現(xiàn)歧義的問題。
(3) 我們?cè)O(shè)計(jì)了基于投票機(jī)制的核心詞典獲取方法來紓解新詞典中存在無用詞匯或者錯(cuò)誤詞匯所帶來的影響。
一直以來語(yǔ)義解析任務(wù)都吸引了大批學(xué)者,也涌現(xiàn)了很多工作。從方法層面這些工作大致可以劃分為如下幾類: ①基于傳統(tǒng)組合語(yǔ)義的方法; ②基于語(yǔ)義圖的方法; ③基于序列到序列的方法?;趥鹘y(tǒng)組合語(yǔ)義的語(yǔ)義解析系統(tǒng)[6]一般由5個(gè)模塊組成: 文法、分析器、模型、學(xué)習(xí)器和執(zhí)行器。其中文法包括詞典和組合規(guī)則?,F(xiàn)階段常用的文法有組合范疇文法(CCG)[6-7]和基于依存的組合語(yǔ)義文法(DCS)[8]?;谡Z(yǔ)義圖的方法[9-10]借用語(yǔ)義圖來表示句子的語(yǔ)義,一般依靠句法樹、依存樹、特定模板或者啟發(fā)式算法來獲取語(yǔ)義圖。基于序列到序列的方法[11-12]首先將邏輯表達(dá)式序列化,然后把語(yǔ)義解析問題轉(zhuǎn)化為自然語(yǔ)言句子詞語(yǔ)序列到邏輯表達(dá)式序列的翻譯問題,并且可以使用遞歸神經(jīng)網(wǎng)絡(luò)模型來建模序列的生成。
圖1 基于組合語(yǔ)義的語(yǔ)義解析的例子
詞典是基于組合語(yǔ)義的語(yǔ)義解析方法的核心組件。詞典是詞匯的集合,每一個(gè)詞匯表示一個(gè)自然語(yǔ)言中的詞語(yǔ)到知識(shí)本體中謂詞的映射。詞匯一般分為三類: 實(shí)體詞匯、類別詞匯和關(guān)系詞匯。實(shí)體詞匯對(duì)應(yīng)知識(shí)本體中的實(shí)體;類別詞匯對(duì)應(yīng)知識(shí)本體中的一元謂詞;關(guān)系詞匯對(duì)應(yīng)知識(shí)本體中的二元謂詞。這三類詞匯的實(shí)例分別對(duì)應(yīng)圖1中的詞匯2、詞匯1和詞匯3。詞典也是基于組合語(yǔ)義的語(yǔ)義解析方法的基礎(chǔ)。圖1展示了一個(gè)語(yǔ)義解析的例子,從例子中我們可以看到,詞匯作用于解析過程中的最底層,可以說沒有詞匯,就無法自底向上地解析。由此引申出來詞典學(xué)習(xí)這一項(xiàng)重要的任務(wù)。詞典學(xué)習(xí)就是學(xué)習(xí)詞匯,學(xué)習(xí)映射關(guān)系,一般實(shí)體詞匯直接利用實(shí)體鏈接技術(shù)來獲取,需要學(xué)習(xí)的是類別詞匯和關(guān)系詞匯,其中關(guān)系詞匯尤其重要,也是最難的部分。
這一節(jié)介紹我們用于對(duì)比系統(tǒng)的基準(zhǔn)系統(tǒng),我們采用基于傳統(tǒng)組合語(yǔ)義的語(yǔ)義解析系統(tǒng)作為基準(zhǔn)系統(tǒng)。具體的,我們的系統(tǒng)基于SEMPRE[5]系統(tǒng)而搭建。該系統(tǒng)總共由5個(gè)模塊[13]組成: 文法、模型、解析器、學(xué)習(xí)器和執(zhí)行器(如圖2所示)。其中文法模塊是該系統(tǒng)的基礎(chǔ),也是核心,該模塊包括詞典和組合文法;解析器模塊負(fù)責(zé)利用文法對(duì)句子進(jìn)行解析;模型模塊負(fù)責(zé)對(duì)解析器所得到的候選解析結(jié)果進(jìn)行打分排序;學(xué)習(xí)器模塊負(fù)責(zé)利用訓(xùn)練數(shù)據(jù)對(duì)模型模塊中的模型參數(shù)進(jìn)行學(xué)習(xí);執(zhí)行器模塊負(fù)責(zé)利用知識(shí)庫(kù)對(duì)得到的邏輯表達(dá)式進(jìn)行求值,得到句子所對(duì)應(yīng)的答案。
圖2 基于組合語(yǔ)義的語(yǔ)義解析方法的基本框架圖
Berant[5]等提出了橋連接方法來充當(dāng)詞匯的功能。具體的,當(dāng)句子中的詞語(yǔ)沒有觸發(fā)任何謂詞的時(shí)候,該方法可以根據(jù)當(dāng)前的解析結(jié)果自動(dòng)引入二元謂詞,如圖3例子所示,二元謂詞Currency(通用貨幣)并不是由關(guān)系詞匯觸發(fā)而來,而是利用當(dāng)前所得到的實(shí)體SriLanka(斯里蘭卡,一個(gè)國(guó)家)自動(dòng)引入的(所有與這個(gè)實(shí)體關(guān)聯(lián)的二元謂詞都會(huì)引入,模型再利用特征來選擇最合適的)。該方法也是用來解決詞匯覆蓋度不夠的問題。
圖3 橋連接方法示例
Berant[13]等針對(duì)橋連接設(shè)計(jì)了一個(gè)詞語(yǔ)—二元謂詞的特征模板(lemmaAndBridge),該特征模板在使用橋連接的時(shí)候激活,該特征模板用來描述句子中非實(shí)體性內(nèi)容詞(疑問詞、動(dòng)詞、形容詞和名詞)與橋連接所引入的二元謂詞之間的映射關(guān)系。橋連接與該特征模板的聯(lián)合使用可以說是充當(dāng)了隱式詞匯的功能。
這一節(jié)介紹我們提出的基于橋連接的詞典學(xué)習(xí)的語(yǔ)義解析方法,首先我們介紹基于橋連接的詞典學(xué)習(xí)方法,然后再介紹我們所采用的用于提高詞典準(zhǔn)確度的兩個(gè)策略: 新的詞語(yǔ)—二元謂詞的特征模板和基于投票機(jī)制的核心詞匯獲取。圖4展示了我們方法的框架圖。
圖4 我們方法的框架圖
為了解決詞匯覆蓋度不夠的問題,我們?cè)诂F(xiàn)有工作的基礎(chǔ)上,提出基于橋連接的詞典學(xué)習(xí)方法。Berant[5]等提出的橋連接方法,能自動(dòng)引入二元謂詞,但他們的方法并沒有學(xué)習(xí)到新的詞匯,只是利用橋連接來充當(dāng)詞匯的角色。我們的方法在他們方法的基礎(chǔ)上加以改進(jìn),可以引入新的詞匯,并加以學(xué)習(xí)。
具體的,在解析的過程中,當(dāng)橋連接被激活的時(shí)候,會(huì)有一個(gè)二元謂詞被自動(dòng)引入,而這個(gè)二元謂詞并不是由句子中的某個(gè)詞語(yǔ)觸發(fā)的。實(shí)際上,這個(gè)二元謂詞本應(yīng)該由句子中的某個(gè)詞語(yǔ)觸發(fā),也就意味著應(yīng)該存在一個(gè)類別詞匯,這個(gè)詞匯是句子中某個(gè)詞語(yǔ)到這個(gè)二元謂詞的映射(圖3中的例子,本應(yīng)該存在money∷Currency這個(gè)詞匯),而正因?yàn)樵~典的覆蓋度不夠,詞典缺失了很多詞匯,使得在解析的過程中,不能夠利用詞匯觸發(fā)來引入謂詞。為此,我們?cè)谶@個(gè)過程中引入新的詞匯,并把新的詞匯加入到當(dāng)前的詞典中。當(dāng)一個(gè)橋連接激活的時(shí)候,我們從句子中抽取非實(shí)體性的內(nèi)容詞語(yǔ)(疑問詞、動(dòng)詞、名詞和形容詞),把這些詞語(yǔ)分別與引入的二元謂詞配對(duì),形成若干新的詞匯,圖3的例子中會(huì)加入3個(gè)新詞匯,分別是:
what∷ Currency
money∷ Currency
take∷ Currency
這些詞匯中肯定包含了本應(yīng)該存在的能夠觸發(fā)該二元謂詞的詞匯。我們把這些詞匯加到現(xiàn)有詞匯中,通過一定的樣例訓(xùn)練以后,新加入的詞匯中那些有效的詞匯就會(huì)被模型通過特征“挑選”出來,并可用于后面的對(duì)其他例子的解析。
詞典中加入了新的詞匯,并且基于橋連接加入的詞匯中只有一部分是準(zhǔn)確的,而其他部分是不準(zhǔn)確的,這部分不準(zhǔn)確的詞匯不僅影響語(yǔ)義解析系統(tǒng)的準(zhǔn)確性,還影響其效率。為此,我們?cè)O(shè)計(jì)了新的詞語(yǔ)—二元謂詞的特征模板,還設(shè)計(jì)了基于投票機(jī)制的核心詞匯獲取方法,用來提高詞典的準(zhǔn)確率和解析系統(tǒng)的效率。
Berant[14]等設(shè)計(jì)的詞語(yǔ)—二元謂詞的特征模板僅在通過橋連接引入二元謂詞的情況下激活,實(shí)際上,這個(gè)特征模板對(duì)所有的二元謂詞都是十分有效的,不管這個(gè)二元謂詞是通過關(guān)系詞匯引入的,還是通過橋連接方法引入的。我們的方法在通過橋連接方法學(xué)習(xí)到新詞匯以后,在解析的時(shí)候?qū)⒉辉偈褂脴蜻B接方法,具體的,第一輪訓(xùn)練的時(shí)候啟用橋連接方法,用于引入新詞匯,之后的訓(xùn)練和測(cè)試,都不再啟用橋連接方法,這樣就可以測(cè)試我們新學(xué)到的詞匯的效果。為了讓這個(gè)特征模板發(fā)揮更大的功效,我們?cè)O(shè)計(jì)了可用于所有二元謂詞的詞語(yǔ)—二元謂詞的特征模板(lemmaAndBinary),該模板只要有二元謂詞引入就會(huì)激活。
由于我們現(xiàn)在使用的詞典很大,特別是采用了基于橋連接的詞匯引入方法之后,詞典中的很多詞匯都是錯(cuò)誤的,這給語(yǔ)義解析帶來很大的困擾,不僅大大影響解析的效率,也影響解析的性能。為此,我們提出了基于投票機(jī)制的核心詞匯獲取方法,該方法旨在獲取當(dāng)前詞典中有用的、準(zhǔn)確度高的核心詞匯。Artzi[15]等也提出了類似的方法,用來壓縮詞典。
具體的,在訓(xùn)練的時(shí)候,對(duì)于每一個(gè)樣例,模型利用當(dāng)前的詞典對(duì)此樣例進(jìn)行解析。對(duì)于在正確的解析中所使用到的類別詞匯和關(guān)系詞匯,我們做記一票處理,由于模型可以利用這些詞匯得到準(zhǔn)確的解析結(jié)果,我們認(rèn)為這些詞匯是重要的且準(zhǔn)確的詞匯。經(jīng)過若干輪的訓(xùn)練,詞匯票數(shù)越多,代表詞匯越重要、越準(zhǔn)確。為了抽取核心詞匯,又為了保障每一個(gè)謂詞都存在它的核心詞匯,首先我們從詞典中抽取票數(shù)超過1的詞匯,然后對(duì)這些詞匯以謂詞為基準(zhǔn)進(jìn)行分組,并按照投票數(shù)進(jìn)行排序,最后我們對(duì)每一個(gè)謂詞都抽取投票數(shù),topK的詞匯用來組成我們的核心詞典。在這里我們沒有使用概率的因素,而是直接利用硬性條件來進(jìn)行篩選。我們認(rèn)為一個(gè)詞匯的投票數(shù)超過1就表明該詞匯在某個(gè)例子的解析中充當(dāng)了正確的角色,應(yīng)該納入到核心詞典的考慮范圍;之所以為每一個(gè)謂詞選擇topK(實(shí)驗(yàn)中K=5)的詞匯,是因?yàn)槲覀冋J(rèn)為有K(K=5)個(gè)不同的詞語(yǔ)來表達(dá)一個(gè)謂詞的意思,就算自然語(yǔ)言表達(dá)具有豐富性的特點(diǎn),也已經(jīng)具有一定的覆蓋度了。測(cè)試的時(shí)候,模型就使用核心詞典來對(duì)測(cè)試樣例進(jìn)行解析。
我們?cè)趦蓚€(gè)公開數(shù)據(jù)集上都進(jìn)行了對(duì)比實(shí)驗(yàn): WebQuestions和Free917。
WebQuestions數(shù)據(jù)集是由Berant[5]等收集而來。該數(shù)據(jù)集總共有5 800個(gè)樣例,每個(gè)樣例由問句及其答案組成。按照標(biāo)準(zhǔn),3 778個(gè)樣例用于訓(xùn)練,2 032個(gè)樣例用于測(cè)試。
Free917數(shù)據(jù)集由Cai[4]等收集而來。該數(shù)據(jù)集總共有917個(gè)樣例,每個(gè)樣例由問句及其邏輯表達(dá)式組成。按照標(biāo)準(zhǔn),641個(gè)樣例用于訓(xùn)練,276個(gè)樣例用于測(cè)試。
兩個(gè)數(shù)據(jù)集都使用Freebase作為知識(shí)本體。
在兩個(gè)數(shù)據(jù)集上, 我們都采用標(biāo)準(zhǔn)的訓(xùn)練/測(cè)試數(shù)據(jù)分割,若進(jìn)行開發(fā)測(cè)試,則將訓(xùn)練數(shù)據(jù)按0.8/0.2的比例切分,其中80%的數(shù)據(jù)用來訓(xùn)練,剩下20%的數(shù)據(jù)用來測(cè)試。系統(tǒng)評(píng)價(jià)指標(biāo)同樣采用公認(rèn)的標(biāo)準(zhǔn)[5]: 平均準(zhǔn)確率。我們的實(shí)驗(yàn)都是基于SEMPRE系統(tǒng)完成。我們所使用的解析算法(除了橋連接部分)、模型的其他參數(shù)和學(xué)習(xí)算法都與基準(zhǔn)系統(tǒng)相同。訓(xùn)練的迭代次數(shù)分別是3和6。在第一次迭代訓(xùn)練的時(shí)候開啟橋連接功能,在其他訓(xùn)練輪次和測(cè)試環(huán)節(jié)關(guān)閉橋連接功能。用于獲取核心詞匯的閾值K都設(shè)置為5。
4.3.1 對(duì)比不同的特征模板(A組實(shí)驗(yàn))
首先,我們來對(duì)比我們提出的新的特征模板lemmaAndBinary(記為FT2)和Berant[14]等提出的特征模板lemmaAndBridge(記為FT1)。由于lemmaAndBridge僅在使用橋連接的情況下生效,所以我們?cè)诨鶞?zhǔn)系統(tǒng)上面驗(yàn)證兩個(gè)特征模板的效果(都開啟橋連接功能)。我們都在開發(fā)集上進(jìn)行測(cè)試,在兩個(gè)數(shù)據(jù)集上的結(jié)果如表1和表2所示。從結(jié)果中我們可以看到,特征模板FT1和FT2都非常有效,F(xiàn)1值都提升了4%~6%, FT2比FT1更加有效。實(shí)際上,F(xiàn)T2特征模板是包含F(xiàn)T1特征模板的。在后面的實(shí)驗(yàn)中我們都在系統(tǒng)中使用lemmaAndBinary特征模板。
表1 在WebQuestions數(shù)據(jù)集上的A組實(shí)驗(yàn)
表2 在Free917數(shù)據(jù)集上的A組實(shí)驗(yàn)
4.3.2 檢驗(yàn)獲取核心詞典的作用(B組實(shí)驗(yàn))
為了驗(yàn)證獲取核心詞典的作用,我們對(duì)比了不獲取核心詞典而直接使用整個(gè)新詞典的系統(tǒng)和使用獲取到的核心詞典的系統(tǒng)。我們都在開發(fā)集上進(jìn)行測(cè)試,實(shí)驗(yàn)中都使用lemmaAndBinary特征模板,關(guān)閉橋連接功能,此外我們還在原始詞典的基礎(chǔ)上測(cè)試了獲取核心詞典的效果,在兩個(gè)數(shù)據(jù)集上的結(jié)果如表3和表4所示。從結(jié)果中我們可以看到,基于投票機(jī)制的核心詞典獲取方法可以提高系統(tǒng)的準(zhǔn)確率,雖然會(huì)犧牲一點(diǎn)召回率,但是對(duì)系統(tǒng)整體性能起到提高的作用。另外我們還發(fā)現(xiàn)獲取核心詞典的方法能夠大大壓縮詞典的大小。系統(tǒng)所利用的核心詞匯是很少的,只占用了原始詞匯的1/500不到(在WebQuestions數(shù)據(jù)集,原始詞匯中類別詞匯和關(guān)系詞匯的數(shù)量分別是282 005和132 111,而核心詞匯的數(shù)量分別是66和335)。在后面的實(shí)驗(yàn)中,我們都在系統(tǒng)中使用基于投票機(jī)制的核心詞典獲取方法。
表3 在WebQuestions數(shù)據(jù)集上的B組實(shí)驗(yàn)
4.3.3 主要結(jié)果(C組實(shí)驗(yàn))
我們?cè)谧罱K的系統(tǒng)中使用了新的特征模板lemmaAndBinary和獲取核心詞匯的策略,并與基準(zhǔn)系統(tǒng)在測(cè)試集上進(jìn)行對(duì)比實(shí)驗(yàn),在基準(zhǔn)系統(tǒng)中,我們開啟了橋連接功能,并選擇使用了lemmaAndBridge特征模板,在我們的系統(tǒng)中,我們使用了lemmaAndBinary特征,并同時(shí)使用基于投票機(jī)制的核心詞典獲取方法,設(shè)置實(shí)驗(yàn)再次測(cè)試這兩種策略帶來的效果。在兩個(gè)數(shù)據(jù)集上的結(jié)果如表5和表6所示。從結(jié)果中我們可以看到,基于橋連接的詞典學(xué)習(xí)方法在使用lemmaAndBinary特征模板和基于投票機(jī)制的核心詞典獲取的情況下,比橋連接方法更有效。更重要的是,我們的方法能夠?qū)W習(xí)到新的詞匯,可提供后續(xù)分析和使用。表7展示了幾個(gè)我們新學(xué)習(xí)到的詞匯。這些詞匯都是原始詞典中不存在的詞匯,而是在訓(xùn)練過程中,基于橋連接方法,自動(dòng)引入的詞匯,并加以學(xué)習(xí)而得來的,我們可以看到這些詞匯也符合我們的直覺,是我們所需要的,有了這些新詞匯,能夠有效提高語(yǔ)義解析器的性能。
表5 在WebQuestions數(shù)據(jù)集上的C組實(shí)驗(yàn)
表6 在Free917數(shù)據(jù)集上的C組實(shí)驗(yàn)
表7 新學(xué)習(xí)到的幾個(gè)詞匯
本文提出了基于橋連接的詞典學(xué)習(xí)的語(yǔ)義解析方法。該方法利用橋連接方法自動(dòng)引入新的詞匯,并加以學(xué)習(xí),為了提高詞匯的準(zhǔn)確度,本文還設(shè)定了新的詞語(yǔ)—二元謂詞的模板。為了壓縮詞典的大小,獲取到核心詞典,進(jìn)一步提高詞匯的有效性,本文還提出了基于投票機(jī)制的核心詞典獲取方法。實(shí)驗(yàn)結(jié)果表明,我們的方法相比基準(zhǔn)系統(tǒng)有很大的提升。
目前,我們的詞匯獲取方法還僅僅局限于利用訓(xùn)練語(yǔ)料,而訓(xùn)練語(yǔ)料是有限的,也就意味著還有很大的局限性,也導(dǎo)致詞典覆蓋度問題不能徹底地得以解決。下一步我們將利用大量文本資料來擴(kuò)充詞典,進(jìn)一步解決詞典覆蓋度不夠的問題。