• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種面向問答系統(tǒng)的多標(biāo)簽答案檢索模型

      2022-06-24 07:38:24李珊如周巖喬曉輝楊丹青王志剛
      電子制作 2022年10期
      關(guān)鍵詞:解碼器編碼器注意力

      李珊如,周巖,喬曉輝,楊丹青,王志剛

      (1.河北漢光重工有限責(zé)任公司,河北邯鄲,056017;2.河北省雙介質(zhì)動(dòng)力技術(shù)重點(diǎn)實(shí)驗(yàn)室,河北邯鄲,056017)

      0 引言

      智能聊天機(jī)器人模仿人類的交流能力,使用對(duì)話系統(tǒng)技術(shù)[1-2]使機(jī)器與人類互動(dòng)?;诓煌袠I(yè)的不同需求,聊天機(jī)器人的使用框架也不盡相同。一般來說,聊天機(jī)器人必須了解人類的意圖,然后預(yù)測(cè)人類的行為,并做出相應(yīng)的反應(yīng)。

      聊天機(jī)器人的日益普及也導(dǎo)致了這個(gè)研究方向在自然語言處理社區(qū)中成為熱門課題。例如Facebook人工智能發(fā)布了他們最大的開放領(lǐng)域聊天機(jī)器人BlenderBot,并將其開源,它包含了更像人類的對(duì)話技能,如個(gè)性、同理心和常識(shí)識(shí)別等能力[3]。此外,像XiaoIce、Mitsuku和MILABOT這樣的聊天機(jī)器人基于規(guī)則[1-2]、基于知識(shí)的[3-4]或基于檢索的系統(tǒng)[5-6]的對(duì)話管理器來執(zhí)行類人的屬性。盡管這種對(duì)話機(jī)器人在過去幾年中取得了顯著的進(jìn)步,但在對(duì)話系統(tǒng)中,距離人類水平的智能還有很長(zhǎng)的路要走。在實(shí)際應(yīng)用中,局限于特定知識(shí)庫的面向任務(wù)的對(duì)話系統(tǒng)更為常用。通過與開放域代理集成,構(gòu)建具有更自然和域外響應(yīng)的面向任務(wù)的聊天機(jī)器人更有意義且更合理。除此之外,問答系統(tǒng)[4,10,2]是聊天機(jī)器人的核心部件,它需要自動(dòng)地從檢索到的文檔中獲取用戶詢問的答案。

      在本文中,我們提出的模型包括一個(gè)了基于注意力的五層編碼器和一個(gè)基于標(biāo)簽的解碼器。具體來說,我們首先將上下文和用戶查詢數(shù)據(jù)分別提供給字符級(jí)和詞級(jí)的嵌入層。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)將應(yīng)用于嵌入層的頂部,這是對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種改進(jìn)。BiLSTM的優(yōu)點(diǎn)是可以在存儲(chǔ)單元中獲取過去的信息。具體來說,我們使用sigmoid函數(shù)來確定保留信息的比例,以及需要忘記信息的比例,并使用它來決定RNN的輸出。在第四層,雙向注意力層將上下文向量和用戶查詢向量連接起來,產(chǎn)生查詢感知的表示向量。雙向注意機(jī)制是指我們使用context2query和query2context的注意力機(jī)制來最小化訓(xùn)練過程中的語義信息損失。建模層再次利用了BiLSTM對(duì)輸入文本進(jìn)行語義和位置信息建模。為了獲得更高的預(yù)測(cè)精度,輸出層采用了基于標(biāo)記的解碼器。

      同時(shí),受到文獻(xiàn)[9]的啟發(fā),我們將文檔中的每個(gè)詞標(biāo)記為二進(jìn)制分類,以確定答案的起始和結(jié)束位置。在我們的模型中,我們使用指針網(wǎng)絡(luò)[10],根據(jù)輸入數(shù)據(jù)計(jì)算輸出的條件概率。我們的任務(wù)是僅從給定的上下文查找標(biāo)記,并從原始上下文使用標(biāo)記生成答案,在這種情況下,將指針網(wǎng)絡(luò)用于我們的任務(wù)是一個(gè)潛在的理想方案。

      1 相關(guān)工作

      Amrita Saha等人[1]引入了復(fù)雜順序問答(CSQA)系統(tǒng),該系統(tǒng)將問答和對(duì)話結(jié)合在一起,因此,它可以學(xué)習(xí)在大規(guī)模知識(shí)圖的基礎(chǔ)上通過一系列連貫的問題進(jìn)行聊天。但這個(gè)系統(tǒng)在復(fù)雜問題上有局限性。為了解決這一問題,作者探索了推理聚合或邏輯函數(shù)以及能夠解析復(fù)雜問題的更有效的編碼器。在處理間接問題時(shí),可以利用顯性的監(jiān)督注意力機(jī)制。

      Sen Hu等人[2]提出了一種狀態(tài)轉(zhuǎn)換框架,將復(fù)雜的自然語言問題轉(zhuǎn)換為語義查詢圖,并通過知識(shí)圖將問題的答案與查詢圖匹配,以解決目前在回答復(fù)雜問題時(shí)存在的局限性。具體來說,首先,作者從問題中識(shí)別出實(shí)體和變量等節(jié)點(diǎn)作為初始狀態(tài)。其次,他們提出了連接、合并、擴(kuò)展和折疊原語操作的條件,以促進(jìn)狀態(tài)轉(zhuǎn)換過程。再次,利用所提出的MCCNN模型提取實(shí)體和關(guān)系。最后,利用支持向量機(jī)排序的獎(jiǎng)勵(lì)函數(shù)進(jìn)行狀態(tài)轉(zhuǎn)換,選擇下一個(gè)狀態(tài)。實(shí)驗(yàn)結(jié)果表明,他們的框架比現(xiàn)有的方法在復(fù)雜問題上表現(xiàn)更好。但是,在使用折疊操作時(shí),有時(shí)會(huì)出現(xiàn)一些結(jié)構(gòu)失效、實(shí)體鏈接失效、關(guān)系提取失效、復(fù)雜聚合問題性能低下等問題。

      Anusri Pampari等人[3]提出了一種在特定領(lǐng)域和大規(guī)模生成問答數(shù)據(jù)集的方法。該方法將專家現(xiàn)有的注釋用于其他NLP任務(wù)。它們?yōu)榈谝粋€(gè)具有大規(guī)模的問答對(duì)和問題-邏輯形式對(duì)的患者特定電子醫(yī)療記錄(EMR) 問答數(shù)據(jù)集做出了貢獻(xiàn),允許用相應(yīng)的邏輯形式驗(yàn)證答案。研究表明,具有符號(hào)表示的邏輯形式有助于語料庫的生成。未來的工作可能是使用原始實(shí)體的詞匯變體來生成問題-邏輯形式,更多的多重句子推理問題和生成沒有內(nèi)容相關(guān)實(shí)體的問題。

      Lisa Bauer等人[4]提出了一個(gè)問答系統(tǒng)框架,該框架可以有效地執(zhí)行多跳推理,并使用雙向注意和指針發(fā)生器解碼器產(chǎn)生準(zhǔn)確和一致的答案。他們還提出了一種算法,可以利用常識(shí)知識(shí)填補(bǔ)問答系統(tǒng)推理的空白。

      Xinya Du和Claire Cardie[6]研究了一種利用共指信息訓(xùn)練問題生成系統(tǒng)的方法。為了更好地編碼用于段落級(jí)問題生成的語言知識(shí),他們提出了用于神經(jīng)問題生成的門控關(guān)聯(lián)知識(shí)(CorefNQG)。對(duì)于問題生成,該生成器將文本輸入作為位置特征嵌入、答案特征嵌入和詞嵌入的連接。

      圖1 模型結(jié)構(gòu)與流程

      2 模型與方法

      ■ 2.1 總覽

      我們的模型是一個(gè)分層的多階段結(jié)構(gòu),其中包括了基于注意力機(jī)制的編碼器和基于標(biāo)簽的解碼器。作為一種層次結(jié)構(gòu),我們的注意力編碼器首先將輸入上下文和用戶問題用字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)映射每個(gè)字符到一個(gè)字符向量。然后,我們通過預(yù)先訓(xùn)練的詞嵌入模型將每個(gè)單詞映射到一個(gè)詞向量。在上下文嵌入層,我們通過BiLSTM網(wǎng)絡(luò)獲取每個(gè)給定單詞的上下文表示。之后,在注意力流層,模型可以同時(shí)獲取上下文和用戶提問向量,并將它們轉(zhuǎn)換為每個(gè)單詞的問題感知特征向量。在模型編碼器部分,首先是建模層,該層部署了一個(gè)BiLSTM來進(jìn)一步提取高級(jí)語義特征,并將相應(yīng)的輸出作為基于標(biāo)簽的解碼器的輸入,用于我們答案范圍的預(yù)測(cè)。

      ■ 2.2 基于注意力機(jī)制的編碼器

      (1)字符嵌入層。利用神經(jīng)網(wǎng)絡(luò)將每個(gè)單詞的字符嵌入到高維向量空間中。其中輸入文本是一維的,輸出是固定大小的向量。輸入上下文的表示形式是{c1,c2,… ,cT}和{q1,q2,… ,qJ}用于輸入用戶問題。

      (2) 詞嵌入層。使用預(yù)先訓(xùn)練好的向量進(jìn)行詞級(jí)嵌入。

      (3) 上下文嵌入層。取C表示上下文的d維向量序列,Q表示查詢的d維向量序列作為該層的輸入,是以前兩層公路網(wǎng)的輸出。由于我們生成上下文詞向量F和查詢?cè)~向量來服務(wù)于下一個(gè)雙向注意層,所以在它們的頂部使用了兩個(gè)LSTM。

      (4) 雙向注意力層。通過將C和S作為輸入上下文標(biāo)記和輸出上下文標(biāo)記作為查詢感知向量W來實(shí)現(xiàn)雙向注意力機(jī)制。這種注意力機(jī)制使用Softmax計(jì)算權(quán)重 w =softmax ((maxcol(S) )∈RT,從而確定用戶問題和上下文之間的最高概率的單詞,生成新的用戶問題向量和上下文向量。

      (5) 建模層。使用W作為輸入。使用雙向LSTM,輸出發(fā)送到解碼器進(jìn)行最終的答案預(yù)測(cè)。

      ■ 2.3 基于標(biāo)簽的解碼器

      基于標(biāo)簽的解碼器旨在提取上下文中的文本跨度作為我們的預(yù)測(cè)答案。傳統(tǒng)上,以往的工作[5]主要把這個(gè)問題看作是整個(gè)上下文范圍內(nèi)的多分類任務(wù),模型需要預(yù)測(cè)上下文概率分布上的開始和結(jié)束索引。在我們的工作中,我們提出了一種新穎的方法,將該問題重新建模為多個(gè)二元分類任務(wù),并對(duì)給定上下文的每個(gè)單詞施加一個(gè)分類器。

      為了實(shí)現(xiàn)這一點(diǎn),給定上下文中的一個(gè)單詞,我們使用一個(gè)指針網(wǎng)絡(luò)[10]來預(yù)測(cè)當(dāng)前令牌是否屬于開始索引。類似地,我們建立了一個(gè)相同的二進(jìn)制分類器來預(yù)測(cè)當(dāng)前標(biāo)記是否屬于結(jié)束索引。具體來說,給定基于注意的編碼器建模層的輸M,我們通過以下公式計(jì)算每個(gè)單詞的概率:

      其中pi

      start和piend表示上下文中預(yù)測(cè)第i個(gè)單詞的概率作為答案文本的開始和結(jié)束位置。如果概率超過某個(gè)閾值,則將相應(yīng)的標(biāo)記賦值為標(biāo)記1,同樣,如果沒有,則將標(biāo)記賦值為0。通常,我們將閾值設(shè)置為0.5。im是來自建模層的第i個(gè)單詞的上下文表示。W為可訓(xùn)練權(quán)矩陣,b為偏置矩陣。

      如上所述,不難推測(cè)我們的模型是通過交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練優(yōu)化的。具體來說,該模型優(yōu)化下方的似然函數(shù)來識(shí)別給定上下文表示C和查詢表示Q的預(yù)測(cè)答案S的范圍。

      3 實(shí)驗(yàn)

      ■ 3.1 數(shù)據(jù)集

      我們?cè)赟QuAD數(shù)據(jù)集[9]上評(píng)估我們的模型,SQUAD是閱讀理解和問答系統(tǒng)的常用研究性數(shù)據(jù)集,由超過10萬對(duì)問題和答案組成,這些問題和答案是通過在500多篇維基百科文章上的眾包手工創(chuàng)建的。每個(gè)問題的答案都在相應(yīng)的文章中,以一段文本[9]的形式出現(xiàn)。創(chuàng)建這個(gè)數(shù)據(jù)集的目的是讓機(jī)器能夠讀取上下文并相應(yīng)地回答問題。

      ■ 3.2 模型細(xì)節(jié)

      我們的模型的參數(shù)設(shè)置基本上與基線模型[9]一致,這樣保證了效果對(duì)比的公平性。如表1所示,我們將CNN LSTM的隱層大小設(shè)為100。詞嵌入維度為100。訓(xùn)練集以0.5學(xué)習(xí)率進(jìn)行學(xué)習(xí),并訓(xùn)練64個(gè)輪次。我們使用AdaDelta[2]進(jìn)行優(yōu)化。在訓(xùn)練過程中,保持模型各權(quán)重的移動(dòng)平均,并設(shè)定指數(shù)衰減率為0.999。在環(huán)境配置方面,我們使用一個(gè)特斯拉P100 GPU對(duì)模型進(jìn)行了大約8小時(shí)的訓(xùn)練。另外,我們的操作系統(tǒng)是Linux Ubuntu 16.04, Python版本是3.6。

      表1 模型細(xì)節(jié)與實(shí)驗(yàn)設(shè)置

      ■ 3.3 實(shí)驗(yàn)結(jié)果

      值得注意的是,在我們的實(shí)驗(yàn)中,所有的基線都是單一模型,而不是集成模型。由表2所示,由于缺乏處理高維語義特征的能力,樸素機(jī)器學(xué)習(xí)方法,即邏輯回歸獲得了最低的性能。其他基線模型在EM和F1-score指標(biāo)方面實(shí)現(xiàn)了差不多的實(shí)驗(yàn)結(jié)果。先前的最先進(jìn)的基線模型BiDAF,獲得了68.0 EM和77.3 F1-score。我們的模型分別優(yōu)于BiDAF的0.5 EM和0.5 F1-score,這有力地證明了我們的模型的有效性。我們的模型取得較好性能的原因是多個(gè)二進(jìn)制分類器能夠在更細(xì)粒度的層次上區(qū)分特征多樣性。

      表2 在SQUAD數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果

      BiDAF 68.0 77.3我們的模型 68.9 78.0

      4 分析與驗(yàn)證

      ■ 4.1 不同的閾值設(shè)置

      我們?cè)?.3~0.7的范圍內(nèi)選擇閾值。從表3可以看出,當(dāng)閾值設(shè)置為0.5時(shí),模型的效果最好。說明訓(xùn)練樣本相對(duì)均衡。

      表3 不同閾值設(shè)定下模型結(jié)果

      ■ 4.2 超參數(shù)微調(diào)

      我們選取了幾個(gè)超參數(shù)用于模型微調(diào)。具體地,我們選擇了不同的LSTM隱層大小和學(xué)習(xí)率進(jìn)行參數(shù)優(yōu)化。如表4所示,當(dāng)LSTM隱層大小為256,學(xué)習(xí)率為0.5時(shí),模型得到了最先進(jìn)的結(jié)果,這與基線模型的結(jié)果一致。

      表4 超參數(shù)微調(diào)

      5 結(jié)語

      本文旨在通過對(duì)現(xiàn)有方法的探索和改進(jìn)來提供問答系統(tǒng)的性能。本文首先從現(xiàn)有文獻(xiàn)中列舉了一些基線框架作為相關(guān)工作。之后我們提出了一個(gè)多標(biāo)簽解碼器,這是我們的框架的基本結(jié)構(gòu)?;诰幋a器-解碼器模型的改進(jìn)可能是未來研究中提高性能的一個(gè)有前景的方向。在SQUAD數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果驗(yàn)證了我們模型的有效性。

      猜你喜歡
      解碼器編碼器注意力
      讓注意力“飛”回來
      科學(xué)解碼器(一)
      科學(xué)解碼器(二)
      科學(xué)解碼器(三)
      線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
      基于FPGA的同步機(jī)軸角編碼器
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
      A Beautiful Way Of Looking At Things
      JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
      電子器件(2015年5期)2015-12-29 08:42:24
      昌黎县| 伊金霍洛旗| 东方市| 凤阳县| 宁强县| 缙云县| 博乐市| 永新县| 邢台市| 岐山县| 黄冈市| 朝阳区| 鄂托克前旗| 开封市| 安康市| 襄樊市| 扎囊县| 广昌县| 赫章县| 闻喜县| 连江县| 锦屏县| 临漳县| 手机| 大连市| 嘉定区| 汉寿县| 水城县| 玉树县| 孟连| 石楼县| 巴林左旗| 濮阳市| 雷州市| 沅陵县| 岳阳市| 来凤县| 枣阳市| 贵港市| 衡阳市| 政和县|