任 函
(廣東外語(yǔ)外貿(mào)大學(xué) 語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510006)
基于推理現(xiàn)象識(shí)別的答案抽取
任 函
(廣東外語(yǔ)外貿(mào)大學(xué) 語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510006)
答案抽取是問(wèn)答系統(tǒng)的核心任務(wù)之一。為了改進(jìn)答案抽取性能,本文提出一種基于推理現(xiàn)象的答案抽取方法,該方法通過(guò)分析問(wèn)句和檢索候選句間的推理現(xiàn)象,進(jìn)而判斷兩個(gè)句子間的蘊(yùn)涵關(guān)系,并據(jù)此抽取候選答案。該方法的特點(diǎn)在于,首先從局部上把握兩者所包含的推理關(guān)系,然后基于此從整體上分析問(wèn)題與答案句的關(guān)系,以此作為答案抽取的依據(jù)。實(shí)驗(yàn)表明,本文方法能夠在一定程度上改進(jìn)答案抽取的性能。
答案抽取; 推理現(xiàn)象; 文本蘊(yùn)涵識(shí)別; 支持向量機(jī)
答案抽取(Answer Extraction)是問(wèn)答式檢索系統(tǒng)(又稱問(wèn)答系統(tǒng),Question Answering)的核心任務(wù)之一,是指從檢索到的相關(guān)信息中抽取出和答案類型一致的部分,并根據(jù)某種原則選擇最有可能的候選答案返回給用戶[1]。傳統(tǒng)的問(wèn)答系統(tǒng)一般采用句法語(yǔ)義分析、相似度計(jì)算和模式匹配等方法抽取候選答案[2],然而,對(duì)于那些在詞匯和句子結(jié)構(gòu)上存在較大差異的問(wèn)題和答案,這類系統(tǒng)往往難以獲得理想的性能,其原因在于,這類問(wèn)題和答案涉及復(fù)雜的語(yǔ)義關(guān)系,需要進(jìn)行深度的語(yǔ)義分析和推理。
為此,一些研究者利用文本蘊(yùn)涵識(shí)別(Recognizing Textual Entailment)方法進(jìn)行答案抽取。該方法將答案抽取問(wèn)題轉(zhuǎn)化為問(wèn)題和答案的蘊(yùn)涵關(guān)系判斷問(wèn)題,從而提供了一種分析問(wèn)題和答案之間語(yǔ)義關(guān)系的有效途徑[3]。作為一種語(yǔ)義推理的通用框架,文本蘊(yùn)涵識(shí)別能夠應(yīng)用在問(wèn)答系統(tǒng)、多文檔自動(dòng)摘要、信息抽取等眾多自然語(yǔ)言處理應(yīng)用中[4, 5]。
然而,盡管文本蘊(yùn)涵識(shí)別能夠改進(jìn)問(wèn)答系統(tǒng)的性能,現(xiàn)有文本蘊(yùn)涵識(shí)別研究仍集中于針對(duì)某一特定類型的推理問(wèn)題設(shè)計(jì)精確的解決方案,這種方式雖然能夠提高針對(duì)這類問(wèn)題的推理能力,然而由于文本蘊(yùn)涵識(shí)別涉及的推理關(guān)系眾多,使得這種方式對(duì)于文本蘊(yùn)涵識(shí)別的整體性能提升非常有限[6]。為此,一些研究嘗試對(duì)推理中涉及的推理關(guān)系進(jìn)行分類,稱之為推理現(xiàn)象,并據(jù)此建立推理現(xiàn)象的標(biāo)注方法和資源[7, 8, 9]。例如:
Q1:上下文無(wú)關(guān)文法的創(chuàng)立者是誰(shuí)?
A1:?jiǎn)棠匪够岢隽诵问秸Z(yǔ)法理論。
其中,“上下文無(wú)關(guān)文法”和“形式語(yǔ)法理論”屬于“領(lǐng)屬”現(xiàn)象,“創(chuàng)立者”和“提出”屬于“詞義蘊(yùn)涵”現(xiàn)象。顯然,獲取這些推理現(xiàn)象有助于對(duì)問(wèn)題和答案間的蘊(yùn)涵關(guān)系進(jìn)行判斷?;诖耍疚奶岢鲆环N基于推理現(xiàn)象的答案抽取方法,該方法通過(guò)分析問(wèn)句和檢索候選句間的推理現(xiàn)象,來(lái)判斷兩個(gè)句子間的蘊(yùn)涵關(guān)系,并據(jù)此抽取候選答案。與現(xiàn)有方法相比,本文方法能夠深入分析問(wèn)題和答案之間的語(yǔ)義關(guān)系,即首先從局部上把握兩者所包含的推理關(guān)系,然后基于此從全局上進(jìn)行分析判斷,得到包含了問(wèn)題所表達(dá)的意思的答案候選句,以此作為答案抽取的依據(jù)。實(shí)驗(yàn)表明,本文方法能夠在一定程度上改進(jìn)答案抽取的性能。
1.系統(tǒng)架構(gòu)
本文利用基于推理現(xiàn)象識(shí)別的方法對(duì)文檔搜索得到句子進(jìn)行分析,找出可能包含了答案的候選句,并抽取其中的答案,總體架構(gòu)如圖1所示。具體而言:首先,對(duì)問(wèn)句進(jìn)行分析,得到期望答案類型(Expected Answer Type, EAT),并對(duì)問(wèn)句進(jìn)行擴(kuò)展以進(jìn)行檢索;在答案抽取階段,分析檢索到的句子與問(wèn)句之間的推理現(xiàn)象;之后,利用文本推理方法對(duì)句子與問(wèn)句進(jìn)行推理判斷,即將句子看作T,問(wèn)題看作H,判斷T是否蘊(yùn)含了H,若存在蘊(yùn)涵關(guān)系,則表明問(wèn)題所表示的意思包含在句子中,則該句可能為包含答案的候選句;最后,按照蘊(yùn)涵度進(jìn)行排序,并利用EAT進(jìn)行答案驗(yàn)證以抽取答案。
圖1 系統(tǒng)總體架構(gòu)
以前述(Q1,A1)為例,系統(tǒng)首先分析問(wèn)題,得到EAT為人物名稱,然后,利用本文提出的推理現(xiàn)象識(shí)別方法分析Q1和A1中涉及的推理現(xiàn)象,包括“領(lǐng)屬”、“詞義蘊(yùn)涵”和“指代”。之后,利用推理現(xiàn)象識(shí)別結(jié)果進(jìn)行文本蘊(yùn)涵識(shí)別,得出A1蘊(yùn)涵了Q1的判斷。最后,根據(jù)EAT,從A1中抽取出答案“喬姆斯基”。
2.答案抽取模型
答案抽取的任務(wù)是,利用推理現(xiàn)象識(shí)別結(jié)果對(duì)問(wèn)句和答案句進(jìn)行文本蘊(yùn)涵識(shí)別,找出與問(wèn)題最相關(guān)的答案句,并進(jìn)行排序和驗(yàn)證。如果將答案句看作T,問(wèn)題看作H,則這一問(wèn)題可轉(zhuǎn)化為文本蘊(yùn)涵識(shí)別問(wèn)題,即判斷T是否蘊(yùn)含了H,若存在蘊(yùn)涵關(guān)系,則表明問(wèn)題所表示的意思包含在句子中,則該句可能為包含答案的候選句。由此,答案排序可分為兩個(gè)子任務(wù),第一是推理現(xiàn)象識(shí)別,第二是文本蘊(yùn)涵識(shí)別。
在之前的工作中,我們提出了一種推理現(xiàn)象識(shí)別方法[10],該方法選取了NTCIR RITE-3評(píng)測(cè)任務(wù)中的22類推理現(xiàn)象,并利用隨機(jī)森林建立了一個(gè)推理現(xiàn)象和文本蘊(yùn)涵識(shí)別的聯(lián)合識(shí)別方法。實(shí)驗(yàn)表明,該方法在一定程度上改進(jìn)了文本蘊(yùn)涵識(shí)別的性能。
然而,這一工作存在一定的局限性:在NTCIR的文本推理語(yǔ)料中,部分推理現(xiàn)象,如同義詞、同位語(yǔ)等推理現(xiàn)象的語(yǔ)料比較豐富,而列舉、指代等推理現(xiàn)象的語(yǔ)料則較為缺乏,即語(yǔ)料存在不平衡問(wèn)題,這將導(dǎo)致學(xué)習(xí)模型存在性能偏置,從而影響總體性能。黃衍等也指出,隨機(jī)森林在不平衡問(wèn)題的分類性能上要顯著低于支持向量機(jī)(SVM)[11]。為此,本文提出一種基于支持向量機(jī)的推理現(xiàn)象識(shí)別方法,并應(yīng)用于文本蘊(yùn)涵聯(lián)合,其架構(gòu)如圖2所示。
圖2 基于推理現(xiàn)象的文本蘊(yùn)涵識(shí)別架構(gòu)
在該方法中,我們采用一對(duì)多識(shí)別方法(1 vs rest),即為每一類推理現(xiàn)象指派一個(gè)支持向量機(jī),每個(gè)支持向量機(jī)識(shí)別一種推理現(xiàn)象。然后,將每個(gè)推理現(xiàn)象識(shí)別結(jié)果作為特征放入一個(gè)基于支持向量機(jī)的蘊(yùn)涵識(shí)別模型,用于最終判斷。這一方案的好處在于,能夠在一定程度上避免不平衡問(wèn)題導(dǎo)致的性能下降,同時(shí)保證了模型的泛化性能。
基于推理現(xiàn)象識(shí)別的答案抽取算法如圖3所示。
算法:答案抽取算法輸入:問(wèn)句q,檢索句子集S輸出:答案文本步驟:1.對(duì)于每一:1)根據(jù)問(wèn)句類型分析,將q及s中符合條件的片斷用占位符代替;2)使用每一推理現(xiàn)象識(shí)別模型SVMi(i,∈[1,n]n為推理現(xiàn)象個(gè)數(shù))分析其中是否存在第i類推理現(xiàn)象,并將識(shí)別結(jié)果作為特征放入SVMF中;3)將SVMF輸出結(jié)果利用Sigmoid映射到[0,1],作為蘊(yùn)涵度;2.對(duì)于全部句子,根據(jù)其蘊(yùn)涵度分值進(jìn)行排序,對(duì)于排名在前K位的檢索句子,找出句子中被占位符替換的原始文本,作為答案候選。
圖3答案抽取算法
Sigmoid函數(shù)計(jì)算方法為:
(1)
這里x即為SVMF的輸出結(jié)果,s(x)即為蘊(yùn)涵度分值。
在答案驗(yàn)證階段,我們將答案填入問(wèn)句中,然后對(duì)問(wèn)句與答案句進(jìn)行文本蘊(yùn)涵識(shí)別,即判斷答案句是否在意義上包含了問(wèn)句。這一過(guò)程仍可利用答案抽取模型中的文本蘊(yùn)涵識(shí)別模型。
3.特征集合
本文采用三類特征應(yīng)用于答案抽取模型。第一類是推理現(xiàn)象專用特征,其中每一個(gè)特征用于識(shí)別一類推理現(xiàn)象。例如,上位詞特征用于識(shí)別(T, H)文本對(duì)中存在上下位關(guān)系的詞,其具體方法為:若H中某個(gè)詞為T中某個(gè)詞的上位詞,則該特征值加1;若不存在這樣的詞,該特征值為0。第二類是推理現(xiàn)象通用特征,這類特征與推理現(xiàn)象專用特征一起用于識(shí)別文本中的推理現(xiàn)象。采用這類特征的動(dòng)機(jī)是,推理現(xiàn)象本質(zhì)上是復(fù)雜語(yǔ)義關(guān)系的組合,準(zhǔn)確描述推理現(xiàn)象不僅需要利用人工總結(jié)的知識(shí),如詞典和匹配規(guī)則,還需要考慮推理現(xiàn)象所在文本片斷與上下文的關(guān)系。例如,為識(shí)別修飾語(yǔ)省略現(xiàn)象,需要從句法角度考察修飾成分和中心詞的關(guān)系。第三類是蘊(yùn)涵識(shí)別特征,這類特征與推理現(xiàn)象識(shí)別結(jié)果一起用于識(shí)別總體蘊(yùn)涵關(guān)系。采用這類特征的動(dòng)機(jī)是,推理現(xiàn)象特征僅是局部特征,其識(shí)別結(jié)果不能作為最終的推理判斷,而是需要與各類蘊(yùn)涵識(shí)別全局特征一起進(jìn)行總體蘊(yùn)涵識(shí)別。
表1 推理現(xiàn)象通用特征
推理現(xiàn)象專用特征采用[10]中提出的特征,共22種,包括16種蘊(yùn)涵現(xiàn)象特征和6種矛盾現(xiàn)象特征。通用蘊(yùn)涵識(shí)別特征采用[12]中提出的特征,共15種,包括字串重疊特征、相似度特征、結(jié)構(gòu)特征和語(yǔ)言學(xué)特征。對(duì)于推理現(xiàn)象通用特征,我們定義了10種特征,主要用于考察局部字串和結(jié)構(gòu)上下文的一致性和相似性,如表1所示。其中, 和 分別為T和H中的成分, 為布爾值,表示 和 是否一致, 為取值范圍在[0,1]的重疊度,計(jì)算方法為集合 和 中相同元素的個(gè)數(shù)與 和 中全部元素(去重)的個(gè)數(shù)之比。
本文實(shí)驗(yàn)數(shù)據(jù)選取NTCIR-5提供的中文問(wèn)答語(yǔ)料,包括200個(gè)中文問(wèn)題。文檔集來(lái)自NTCIR提供的CIRB040r中文語(yǔ)料,共901,446篇文檔。測(cè)試集中包含9類陳述型問(wèn)題。實(shí)驗(yàn)還選取了NTCIR國(guó)際評(píng)測(cè)會(huì)議提供的RITE-3中文評(píng)測(cè)語(yǔ)料,用于推理現(xiàn)象識(shí)別的訓(xùn)練和測(cè)試。該語(yǔ)料包括581對(duì)訓(xùn)練數(shù)據(jù)和1200對(duì)測(cè)試數(shù)據(jù)。每條數(shù)據(jù)包括一個(gè)語(yǔ)段T和一個(gè)假設(shè)H,并標(biāo)注了一個(gè)推理現(xiàn)象和整體蘊(yùn)涵關(guān)系(蘊(yùn)涵/非蘊(yùn)涵)。
本實(shí)驗(yàn)采用NTCIR-5的評(píng)測(cè)指標(biāo),即正確率(Acc.)和MRR值。正確率的評(píng)價(jià)標(biāo)準(zhǔn)是排名第一的候選答案的正確率,MRR值則用于評(píng)價(jià)前n個(gè)結(jié)果的排序是否正確。R表示答案正確,且該答案所在的文檔能夠讓用戶正確得出該答案;U表示答案正確,但該答案所在的文檔不支持該答案,即該文檔提供的信息不足以讓用戶得出正確答案。
實(shí)驗(yàn)設(shè)置了三個(gè)系統(tǒng),第一個(gè)系統(tǒng)(svm)直接利用通用特征和SVM分類器進(jìn)行答案抽取;第二個(gè)系統(tǒng)(svm+lpf+gf)利用一個(gè)SVM分類器對(duì)全部推理現(xiàn)象進(jìn)行識(shí)別,并進(jìn)行文本蘊(yùn)涵識(shí)別以獲取答案句;第三個(gè)系統(tǒng)(this paper)首先利用多個(gè)SVM分類器對(duì)每一推理現(xiàn)象進(jìn)行識(shí)別,再利用一個(gè)SVM分類器進(jìn)行答案抽取,即本文方法。為進(jìn)行比較,實(shí)驗(yàn)還設(shè)置了一個(gè)基準(zhǔn)系統(tǒng)(baseline),該系統(tǒng)為NTCIR參賽系統(tǒng)[13],采用模式匹配方法抽取答案,并為每個(gè)類型的問(wèn)題定義了一系列模板。
表2 答案抽取結(jié)果
本實(shí)驗(yàn)中,我們分別測(cè)試了第一個(gè)答案和前五個(gè)答案的正確率和MRR,實(shí)驗(yàn)結(jié)果如表2所示。
實(shí)驗(yàn)結(jié)果表明:
1)推理現(xiàn)象識(shí)別能夠有效改進(jìn)答案抽取的性能。當(dāng)考慮答案和所在文檔均正確時(shí),本文方法比基準(zhǔn)系統(tǒng)的正確率高出7.5%,MRR值高出8.42%;當(dāng)僅考慮答案正確時(shí),前者比后者的正確率高出7%,MRR值高出7.57%,顯示出本文方法顯著優(yōu)于基準(zhǔn)系統(tǒng)。從svm+lpf+pf和svm兩個(gè)實(shí)驗(yàn)系統(tǒng)的性能對(duì)比上看,當(dāng)考慮答案和所在文檔均正確時(shí),前者的正確率比后者高出2%,MRR值高出2.05%;當(dāng)僅考慮答案正確時(shí),前者的正確率比后者高出1.5%,MRR值高出1.68%,說(shuō)明僅在現(xiàn)有模型中加入推理現(xiàn)象識(shí)別過(guò)程也能夠在一定程度上改進(jìn)答案抽取的性能。
2)基于文本蘊(yùn)涵識(shí)別的答案抽取方法優(yōu)于基于模式匹配的方法。從svm和baseline兩個(gè)系統(tǒng)的性能對(duì)比上看,當(dāng)考慮答案和所在文檔均正確時(shí),前者比后者的正確率高出4%,MRR值高出1.07%;當(dāng)僅考慮答案正確時(shí),前者比后者的正確率高出5%,MRR值高出5.63%。
3)與整體識(shí)別方案相比,分步識(shí)別推理現(xiàn)象和文本蘊(yùn)涵關(guān)系效果更好。這一結(jié)論體現(xiàn)在本文方法和svm+lpf+gf兩個(gè)實(shí)驗(yàn)系統(tǒng)的性能對(duì)比,當(dāng)考慮答案和所在文檔均正確時(shí),前者比后者的正確率高出1.5%,MRR值高出1.07%;當(dāng)僅考慮答案正確時(shí),前者比后者的正確率高出0.5%,MRR值高出0.26%。另一方面,從性能上看,兩個(gè)系統(tǒng)的差異并不十分明顯,其原因在于,盡管采用了串行方法有助于更好地識(shí)別推理現(xiàn)象,但這一過(guò)程可能存在錯(cuò)誤擴(kuò)散問(wèn)題,導(dǎo)致性能提升比較有限。
本文提出一種基于推理現(xiàn)象識(shí)別的答案抽取方法。該方法通過(guò)分析問(wèn)句和檢索候選句間的推理現(xiàn)象,來(lái)判斷兩個(gè)句子間的蘊(yùn)涵關(guān)系,并據(jù)此抽取候選答案。在推理現(xiàn)象識(shí)別階段,我們?yōu)槊恳煌评憩F(xiàn)象設(shè)置一個(gè)分類器,并利用推理現(xiàn)象特征進(jìn)行識(shí)別;在答案排序和驗(yàn)證階段,我們將推理現(xiàn)象識(shí)別結(jié)果作為特征,同時(shí)加入文本蘊(yùn)涵識(shí)別特征,對(duì)問(wèn)句和答案句進(jìn)行蘊(yùn)涵分類。實(shí)驗(yàn)結(jié)果表明,識(shí)別推理現(xiàn)象能夠有效提高答案抽取的性能;同時(shí),采用串行方案識(shí)別推理現(xiàn)象與文本蘊(yùn)涵類別,能夠在一定程度上改進(jìn)總體蘊(yùn)涵識(shí)別性能。
[1] 任函. 文本蘊(yùn)涵識(shí)別及其在問(wèn)答系統(tǒng)中的應(yīng)用[D]. 武漢: 武漢大學(xué)計(jì)算機(jī)學(xué)院, 2011.
[2] 吳友政, 趙軍, 段湘煜, 等. 問(wèn)答式檢索技術(shù)及評(píng)測(cè)研究綜述[J]. 中文信息學(xué)報(bào), 2005, 19(3): 1~13.
[3] Harabagiu S and Hickl A. Methods for Using Textual Entailment in Open-Domain Question Answering//In proceedings of ACL 2006. 2006.
[4] Androutsopoulos I and Malakasiotis P. A Survey of Paraphrasing and Textul Entailment Methods[J]. Journal of Artificial Intelligence Research, 2010, 38(1): 135~187.
[5] Dagan I and Dolan B. Recognizing textual entailment: Rational, evaluation and approaches[J]. Natural Language Engineering, 2009, 15(4): i-xvii.
[6] Magnini B and Cabrio E. Combining Specialized Entailment Engines[M]. Proceedings of LTC'09. 2009.
[7] Bentivogli L, Cabrio E, Dagan I, et al. Building textual entailment specialized data sets: a methodology for isolating linguistic phenomena relevant to inference[J]. Proceedings of the International Conference on Language Resources and Evaluation. 2010: 3542~3549.
[8] Kaneko K, Miyao Y and Bekki D. Building Japanese Textual Entailment Specialized Data Sets for Inference of Basic Sentence Relations. In proceedings of the 51st Annual Meeting of the Association of Computational Linguistics 2013.273~277.
[9] Sammons M, Vydiswaran V G V and Roth D. "Ask not what Textual Entailment can do for you..."http://Proceedings of the Annual Meeting of the Association for Computational Linguistics. 2010: 1119~1208.
[10] 任函, 馮文賀, 劉茂福, 等. 基于語(yǔ)言現(xiàn)象的文本蘊(yùn)涵識(shí)別[J]. 中文信息學(xué)報(bào), 2017, 31(1): 184~191.
[11] 黃衍, 查偉雄. 隨機(jī)森林與支持向量機(jī)分類性能比較[J]. 軟件, 2012, 2012(6): 107-110.
[12] Ren H, Wu H, Tan X, et al. The WHUTE System in NTCIR-11 RITE Task//Proceedings of the 11th NTCIR Conference. 2014.
[13] Ren H, Ji D, He Y, et al. Multi-Strategy Question Answering System for NTCIR-7 C-C Task//Proceedings of the 7th NTCIR Workshop. 2008: 49~53.
責(zé)任編輯:吳惠娟
TP391
:A
2095-4654(2017)04-0132-04
2017-03-10