徐飛 陳浩
摘 要 在問答系統(tǒng)中,根據(jù)問題從給定答案文本材料中抽取包含的答案?;谔卣鞯膫鹘y(tǒng)方法費時費力,本文提出雙向長短記憶結(jié)合注意力機制的網(wǎng)絡(luò)模型,提升給定文本中的答案抽取效果。
關(guān)鍵詞 Bi-LSTM;注意力機制
引言
當(dāng)前,基于非結(jié)構(gòu)化文本的問答系統(tǒng)的研究方法主要是基于遞歸神經(jīng)網(wǎng)絡(luò),通過將文檔和問題進行編碼來獲取答案。這種方法沒有有效利用上下文信息,語義提取較差。本文利用Bi-LSTM 能夠捕捉時序信息的特點,創(chuàng)建網(wǎng)絡(luò)模型,并引入注意力機制。實驗表明,僅用少量特征即可實現(xiàn)較好的答案抽取效果。
1模型構(gòu)建
模型主要分為四層,如下所述。
(1)輸入層
輸入層(Embedding)主要為兩部分,模型左側(cè)為question長度為m的輸入序列,模型右側(cè)為answer長度為n的輸入序列。
本文使用200維的Glove詞向量初始化Embedding層,在訓(xùn)練過程中進行微調(diào)。
(2)Encoder層
在Encoder層我們使用Bi-LSTM作為提取句子序列特征的編碼器,原因在于這種結(jié)構(gòu)相比于CNN,可以提取句子時序特征,主要步驟如下公式所示:
(3)交互層
問題句與答案句匹配,實驗進一步使用問題對段落進行編碼,計算問題編碼器輸出和答案句編碼器輸出的相關(guān)分?jǐn)?shù),如下公式所示
在模型中利用向量平均操作表示問題語義向量,根據(jù)實踐經(jīng)驗,我們使用self-attention對問題向量編碼進行改進,如下公式:
(4)Answer層
我們將問題的Bi-LSTM編碼層輸出進一步整理,對輸出采用簡單平均計算,表示問題最后的向量編碼,如下公式所示,其中Z表示Bi-LSTM編碼層的輸出矩陣,Y表示平均句子向量:
Answer層使用Bi-LSTM結(jié)構(gòu)對段落語義進一步提取特征,如下公式所示:
在Answer層,答案結(jié)束的位置與答案起始位置和問題語義都是相關(guān)的,我們將繼續(xù)使用問題的語義向量Y和起始位置i的隱藏層向量hi參與計算,定義以i為起始位置,j為結(jié)束位置的條件概率,如下公式所示 :
最后計算以i為起始,j為結(jié)束的整體概率,將兩個概率相乘,如公式下公式所示:
通過最大化的概率進行訓(xùn)練和預(yù)測。
2實驗結(jié)果
2.1 數(shù)據(jù)集
InsuranceQA數(shù)據(jù)集提供訓(xùn)練集,驗證集和兩個測試集。下列列出表中數(shù)據(jù)集的問題和答案的數(shù)量。
2.2 實驗結(jié)果比較
使用TensorFlow深度學(xué)習(xí)框架編寫網(wǎng)絡(luò),輸入詞向量使用200維度的Glove詞向量初始化Embedding層,訓(xùn)練過程進行微調(diào),編碼層LSTM隱藏層維度設(shè)置為128維度,我們在兩層雙向LSTM的基礎(chǔ)上,分別增加了”qa-Attention”和”q-Attention”,對句子語義向量表示。
引入雙向 LSTM 和注意力機制進行實驗,得到對比結(jié)果,如下表所示
3結(jié)束語
本文基于Bi-LSTM的深度學(xué)習(xí)模型進行候選答案句抽取,并對已有問題提出了相應(yīng)的改進措施,將句內(nèi)注意力機制應(yīng)用于答案抽取,實驗結(jié)果表明相較于 CNN和 LSTM 模型,提升了答案抽取效果。
參考文獻
[1] 欒克鑫,孫承杰,劉秉權(quán),等.基于句內(nèi)注意力機制的答案自動抽取方法.智能計算機與應(yīng)用,2017, 7(5):87-91 .
[2]? LIUYang,SUN Chengjie,LIN Lei,et al.Learning natural language inference using bidirectional LSTM model and inner-attention.arXiv preprint arXiv: 1605.09090
作者簡介
徐飛(1994-),男,安徽省桐城市人,學(xué)歷:研究生,沈陽理工大學(xué)在讀,研究方向:自然語言處理。
陳浩(1981-),男,河北省灤縣人;畢業(yè)院校:中國地質(zhì)大學(xué),專業(yè):項目管理專業(yè),學(xué)歷:碩士研究生,現(xiàn)就職單位:沈陽市教育研究院,研究方向:項目管理領(lǐng)域工程。