• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于度量學習和層級推理網(wǎng)絡的抽取式摘要方法

    2023-01-12 01:45:40勾智楠
    河北科技大學學報 2022年6期
    關鍵詞:度量編碼器層級

    成 悅,趙 康,勾智楠,高 凱

    (1.河北科技大學信息科學與工程學院,河北石家莊 050018;2.河北經(jīng)貿(mào)大學信息技術學院,河北石家莊 050061)

    抽取式摘要是從源文本中選擇突出句或其他語義單位生成摘要,保證摘要的語法正確性以及與相應文檔的語義相關性。傳統(tǒng)方法主要采用基于圖的方法[1]、子模函數(shù)[2]或整數(shù)線性規(guī)劃[3]對句子進行評分,再加上手工特征。由于深度學習方法在捕獲文本語義和語法信息方面表現(xiàn)出了突出的能力[4-5],因此,最近出現(xiàn)了使用深度神經(jīng)網(wǎng)絡提取突出句子的方法[6]。這些方法雖然可以從文檔中識別出重要的句子,但因為模型會選擇語義上相互獨立的句子來組成摘要,缺乏確保摘要連貫的能力,所以使人對文檔的理解造成困難。

    基于自注意力的體系結構,尤其是Transformer,已成為自然語言處理(NLP)任務中的常用模型。主要方法是在大型文本語料庫上進行預訓練,然后在較小的特定任務的數(shù)據(jù)集上進行微調。Transformer在機器翻譯中是有效的,但對文本摘要來說,由于其在編碼時不包含句子的位置信息,對句子級上下文的建模能力較差,因此直接應用到文本摘要任務有不足之處,為文本摘要建模長距離依賴的上下文仍然具有挑戰(zhàn)[7]。

    為了解決這個問題,大部分工作試圖探索不同的神經(jīng)組件或組合來構建端到端的學習模型。CHOWDHURY等[8]提出了一個基于結構注意的層次編碼器,來建模句子間和文檔間的依賴關系。JIA等[9]提出了分層注意異構圖模型,能很好地模擬不同層次的信息,包括單詞和句子,并強調句子間的冗余依賴關系,通過消息傳遞標簽依賴關系。YUAN等[10]提出了提取事實級語義單位,基于BERT[11]模型結合使用一個層次圖掩碼,將文本信息的多層次粒度合并到模型中,以便更好地抽取摘要。WANG等[12]提出了一種基于異構圖的抽取式摘要神經(jīng)網(wǎng)絡,該神經(jīng)網(wǎng)絡包含除句子外不同粒度級別的語義節(jié)點,豐富了句子間的關系。這些方法的性能在很大程度上取決于機器對文檔的理解,也就是文檔表示。為了使文本能夠學習到更深層次的數(shù)據(jù)之間的關系以及更好的文檔表示,有學者對度量學習方法開展了相關研究。

    和傳統(tǒng)分類目標損失函數(shù)不同,度量學習目標損失函數(shù)能夠使同一類別的數(shù)據(jù)在幾何空間分布更加緊湊,不同類別的數(shù)據(jù)彼此遠離,因此特征向量具有較強的區(qū)分能力。深度度量學習方法在人臉識別領域取得了突出效果[13],證明了方法的有效性。對比損失(contrastive loss)[14]是深度度量學習的開篇之作,首次將深度神經(jīng)網(wǎng)絡引入度量學習。對比損失僅約束類內(nèi)對的特征盡量近,而類間對的特征盡量遠,三元組損失(triplet loss)[15]在對比損失的基礎上,進一步考慮了類內(nèi)對與類間對之間的相對關系。由于三元組損失一次采樣3個樣本,雖然能夠同時考慮類內(nèi)距、類間距以及二者的相對關系,但該損失沒有充分利用訓練時每個batch內(nèi)的所有樣本。因此,SONG等[16]提出在一個batch內(nèi)建立稠密的成對(pair-wise)的連接關系。由于三元組損失在錨點選取時具有任意性,因此,有些不滿足類間距>(類內(nèi)距+間隔)的樣本,可能并沒有被挖掘到。MISHCHUK等[17]提出成對聚類損失函數(shù)(coupled clusters loss,CCL)為同類樣本估計了一個類內(nèi)中心,從而希望所有的正樣本到聚類中心的距離間隔小于其他類間樣本到聚類中心的距離。度量學習為衡量句間相似性提供了新的解決思路。

    本文針對抽取式文本摘要任務提出一種基于度量學習的層級推理模型(metric learning based hierarchical inference network ,MLHIN),由句子編碼器、文檔編碼器和度量損失構成。模型使用Bi-GRU網(wǎng)絡結合上下文信息來編碼文檔中每一個句子為一個向量,并將所有句子向量和一個可訓練的文檔向量輸入到Transformer中,輸出文檔表示和句子表示。然后,將度量學習概念遷移到文本摘要任務中,計算文檔表示和句子表示的相似性度量,利用度量得分選擇摘要句。最后,在英文摘要數(shù)據(jù)集CNN/DailyMail[18]上對其進行測試,并進行消融實驗對測試結果進行驗證。

    1 基于度量學習的層級推理模型

    1.1 抽取式摘要任務

    MLHIN模型主要由句子編碼器、文檔編碼器和度量學習3大模塊組成。首先,利用句子編碼器將每個句子si轉換為一個句子表示si。然后,這些句子表示將由文檔編碼器編碼。最后,通過計算句子與文檔表示之間的相似度來選擇摘要句。

    1.2 層級推理編碼器

    由于抽取摘要模型的目的是從文檔中選擇句子,因此對文檔進行良好的建模至關重要。文檔是分層結構的,一個文檔是由多個句子組成,每個句子都由單詞組成。因此利用層次結構,設計一個層級神經(jīng)模型,原理如圖1所示。層級推理結構由句子編碼器、文檔編碼器構成。句子編碼器的目的是學習文檔中的每個句子的表示,文檔編碼器的目的是學習文檔的表示。本文將詳細描述模型的每個組件。

    圖1 基于度量學習和層級推理網(wǎng)絡的原理圖Fig.1 Schematic diagram of MLHIN

    1) 句子編碼器

    句子編碼器的作用是讀取句子中的每一個單詞并對每個詞產(chǎn)生一個向量表示,經(jīng)過最大池化后組成句子表示。為了能高效地對輸入序列進行編碼,模型使用了基于雙向門控循環(huán)單元(bidirectional gated recu-rrent unit,簡稱Bi-GRU)的編碼器,其相對循環(huán)神經(jīng)網(wǎng)絡,不需要逐詞處理輸入序列,而是通過門控機制同時計算每個詞的上下文向量,因此有著良好的并行能力,計算復雜度較低,對長距離依賴友好。

    給定一個句子si={x1,…,x|si|},xi為序列當中的一個詞。首先,將序列詞依次進行詞嵌入得到詞向量;然后,使用門控循環(huán)單元(gated recurrent unit,簡稱GRU)網(wǎng)絡編碼句子,GRU定義如下:

    zi=σ(Wz[xi,hi-1]),

    (1)

    ri=σ(Wr[xi,hi-1]),

    (2)

    (3)

    (4)

    2) 文檔編碼器

    由句子編碼器編碼得到句子表示si,將文檔中每一個句子向量拼接起來,并在開頭加上可學習的初始化的文檔向量表示clsD。然后,與可學習的句子位置編碼相加。

    H=Ew+Ep,

    (5)

    式中:Ew=[s1,s2…,sn],表示所有的句子向量;Ep=[pos1,pos2,…,posN]是一個可學習的位置嵌入矩陣,表示句子在文檔中的位置。最后,將其輸入到Transformer中進行編碼,更新句子向量和文檔向量。

    文檔編碼器的目的是從輸入文本中提取文檔語義特征,并映射到特征空間中。在Transformer模型中,編碼器由L個編碼層堆疊而成,每個編碼層包括多頭自注意力子層(MultiHeadAtt)以及按位置的前饋網(wǎng)絡子層組成。另外,在每2個子層之間,使用殘差連接(Residual connection),最后歸一化(Layer normalization)。多頭注意力通過將輸入文本特征映射到不同的特征空間,可以提取到不同的語義特征信息。每一個編碼層的最后的隱藏狀態(tài)都會通過前饋神經(jīng)網(wǎng)絡。第l層編碼層的計算公式如下:

    (6)

    (7)

    (8)

    1.3 基于度量學習的損失函數(shù)

    本文提出使用度量學習的方法來選擇摘要。首先,通過余弦距離計算文檔表示和句子表示的相似度:

    (9)

    以交叉熵損失作為整個模型的訓練目標,為了使摘要句向量與文檔向量更近,非摘要句與文檔更遠,摘要句和文檔向量的相似性更大,模型通過優(yōu)化以下?lián)p失函數(shù)進行學習:

    (10)

    式中:yi∈{0,1}表示參考摘要中是否包括第i句;N為文檔中包含的句子個數(shù)。在推理階段,模型通過計算句子與文檔表示之間的相似度選擇摘要句。

    2 實驗部分

    2.1 環(huán)境及參數(shù)設置

    模型在一個GPU(GeForce GTX TITAN X,12G)上訓練。根據(jù)驗證集上的評估,選擇結果最好的模型參數(shù),并報告測試集上的結果。使用Adam[19]作為優(yōu)化器,epoch設置為20,學習率時間表遵循前1 000步熱身的策略。

    參數(shù)方面,基于CNN/DailyMail訓練集的源文本和摘要文本建立詞表,大小為5 000,使用維度大小為50的GloVe詞向量。文檔編碼器的層數(shù)設置為4,每層的注意力頭數(shù)設置為4,隱藏層神經(jīng)元個數(shù)為100。使用位置編碼,以利用序列的順序信息,編碼維度和句向量維度相同,設置為200。學習率設置為0.000 5,批大小設為32。

    2.2 實驗測度

    Trigram blocking啟發(fā)于PAULUS等[20]和LIU等[21]所提出的方法,模型使用Trigram Blocking進行解碼,這是一個簡單但功能強大的Maximal Marginal Relevance[22]方法。具體地說,在選取摘要句時,根據(jù)句子與文檔的相似性分數(shù)來排列句子,并且丟棄那些與前句有3個詞重疊的句子。

    按照慣例,在接下來的實驗中使用了Rouge-1(uni-gram),Rouge-2(bi-gram)和Rouge-L(最長公共子序列)評估本文的模型。通過計算人類創(chuàng)建的候選摘要和參考摘要之間的重疊單元(如n-gram、單詞序列和單詞對)的數(shù)量,自動評估摘要的質量。Rouge-N[23]的計算公式為

    (11)

    式中:分子為模型生成的摘要與參考摘要之間共有的n-gram的個數(shù);分母為參考摘要n-gram的總個數(shù)。

    2.3 基線模型

    Lead-3即抽取文檔的前3句作為文章的摘要。Lead-3方法雖然簡單直接,但卻是非常有效的方法。

    RAMESH等[24]提出了一個基于序列分類器的循環(huán)神經(jīng)網(wǎng)絡模型,采用GRU-RNN結構,由單詞級別的循環(huán)神經(jīng)網(wǎng)絡得到句子表示,又經(jīng)過句子級別的循環(huán)神經(jīng)網(wǎng)絡得到文檔表示。該模型表述簡單,可解釋性強,并提出新的訓練機制,使用生成式摘要的模式來訓練抽取式任務。

    DONG[25]提出了一種新的方法來訓練神經(jīng)網(wǎng)絡執(zhí)行單文檔抽取摘要,而不需要啟發(fā)式生成提取標簽。采用策略梯度強化學習算法對模型進行訓練,以選擇最大Rouge分數(shù)的句子序列。

    NEUSUM[26]模型將選擇策略集成到打分模型中,解決了此前抽取式文本摘要中句子打分和句子選擇這2部分割裂的問題。通過MLP網(wǎng)絡學習Rouge和F1的評分,把打分和句子選擇整合在同一個網(wǎng)絡中,最終訓練出來的模型通過選擇不同的句子得到盡可能高的Rouge評分。

    2.4 主體實驗

    本文在抽取式任務上提出了基于度量學習和層級推理的抽取式摘要模型(metric learning based hierarchical inference network ,MLHIN),該模型由3部分組成,分別是句子編碼器、文檔編碼器和度量損失。句子編碼器由Bi-GRU構成,將文檔中每個句子編碼為一個向量,將這些向量組合起來輸入到文檔編碼器中,文檔編碼器由Transformer構成,輸出文檔表示和句子表示。度量損失計算句子和文檔的相似度,抽取摘要句。

    本文使用CNN/DailyMail數(shù)據(jù)集進行模型評估。該數(shù)據(jù)集包含新聞文檔及其對應的摘要,通常用于抽取式摘要和生成式摘要。本文使用WANG等[12]提供的腳本來下載數(shù)據(jù)集。其中訓練集、驗證集和測試集中分別包含287 226,13 368和11 490份文檔。

    模型在英文摘要數(shù)據(jù)集CNN/DailyMail上進行測試,并報告各個模型對應的 Rouge-1,Rouge-2,Rouge-L的得分,使用封裝了Rouge腳本的pyRouge工具計算得分。

    2.5 消融實驗

    本文提出的模型(MLHIN模型)中的句子編碼器使用GRU,文檔編碼器使用Transformer,句子選擇部分使用度量損失。為了證明本文所提方法的有效性,進行消融實驗,將3部分組件分別進行替換研究。

    MLHIN模型 為GRU-Transformer-metric結構,即句子編碼器使用GRU,文檔編碼器使用Transformer,句子選擇部分使用度量損失。

    GGM模型 為GRU-GRU-metric結構,即句子編碼器和文檔編碼器均使用GRU,句子選擇使用度量損失。

    CTM模型 為CNN-Transformer-metric結構,即句子編碼器使用CNN,文檔編碼器使用Transformer,句子選擇部分使用度量損失。

    CTS模型 為CNN-Transformer-sigmoid結構,即句子編碼器使用CNN,文檔編碼器使用Transformer,句子選擇部分使用sigmoid函數(shù)。

    GTS模型 為GRU-Transformer-sigmoid結構,即句子編碼器使用GRU,文檔編碼器使用Transformer,句子選擇部分使用sigmoid函數(shù)。

    TTM模型 為Transformer-Transformer-metric結構,即句子編碼器使用Transformer,文檔編碼器使用Transformer,句子選擇部分使用度量損失。

    首先,分析其他抽取式摘要模型中不同句子編碼器的性能。其次,為了進一步分析其他抽取式摘要模型中不同文檔編碼器的性能,將本文的文檔編碼器開展替換研究。最后,本文對度量損失進行2個替換研究實驗,替換實驗如下。

    1)僅將本文提出的度量損失metric替換為其他模型中的sigmoid。

    2)在第1)步的基礎上,將層級推理模型中的句子編碼器替換為CNN。

    3 實驗結果與分析

    3.1 主體實驗結果與分析

    表1 MLHIN與其他模型的實驗結果對比Tab.1 Comparison of experimental results between MLHIN and other models

    表1展示了各個模型在CNN/DailyMail數(shù)據(jù)集上的Rouge指標得分。

    由表1可以看出,本文提出的MLHIN在Rouge-1,Rouge-2,Rouge-L3個指標上的得分都明顯優(yōu)于其他模型,相對于已有的模型Lead-3,得分分別提升了0.84%,1.29%,2.43%;而相對于SummaRuNNer模型,得分分別提升了1.66%,2.71%,3.8%;相比GRU模型NEUSUM,在Rouge-L的得分提升了1.12%;對比BANDITSUM模型,在Rouge-2和Rouge-L上分別提升了0.21%和1.5%。MLHIN模型相對Lead-3和SummaRuNNer,在Rouge-2和Rouge-L得分上有明顯提升。相對于BANDITSUM和NEUSUM模型,所提模型的效果在Rouge-L的評分更高。以上結果表明,本文所提方法能夠有效抽取摘要。

    由上述結果可以看出,模型在CNN/DailyMail數(shù)據(jù)集上關于Rouge-1和Rouge-2的分值提升較少,在Rouge-L上的得分提升較多。Rouge-L表示模型生成的摘要和參考摘要之間相似的最長公共子序列,Rouge-L分值越高,最長公共子序列越長,表明模型生成的摘要與參考摘要越接近。度量學習用來衡量當前句子為摘要句的概率,說明度量學習能夠較好地選取摘要句,證明MLHIN模型能夠提升摘要抽取的效果。同時,模型在Rouge-1和Rouge-2上的分數(shù)相比基線模型也有一定的提高,進一步證明了所提方法在抽取式摘要任務上的效果有整體提升。

    3.2 消融實驗結果與分析

    表2 消融實驗結果對比Tab.2 Comparison of ablation experiment results

    表2展示了不同模型在CNN/DailyMail數(shù)據(jù)集上的得分。

    從表2可以看出,CTM使用CNN作為句子編碼器,將CNN替換為本文提出的層級推理網(wǎng)絡中的GRU句子編碼器后,模型性能有了很大提升。CTM中使用CNN作為句子編碼器,將CNN替換為本文提出的層級推理網(wǎng)絡中的GRU句子編碼器后,模型性能有了很大提升,表明本文提出的層級推理網(wǎng)絡中的句子編碼器GRU性能優(yōu)于其他模型中的句子編碼器CNN。GGM模型中使用了GRU作為文檔編碼器,將該文檔編碼器替換為本文提出的層級推理網(wǎng)絡中的Transformer,從結果可以看出,層級推理網(wǎng)絡中的文檔編碼器Transformer大大提高了模型的性能。通過替換實驗,將本文提出的度量損失metric替換為其他模型中的sigmoid,可以看出3個指標分別有不同程度的下降,說明了本文提出的度量損失的有效性。將層級推理模型中的句子編碼器替換為CNN,可以看出模型性能也有不同程度的下降,證明了本文提出的層級推理網(wǎng)絡和度量損失的有效性。

    4 結 語

    本文提出了一種基于度量學習和層級推理網(wǎng)絡的抽取式文本摘要方法(MLHIN),層級推理網(wǎng)絡由句子編碼器和文檔編碼器構成,文檔編碼器的輸入為句子編碼器的輸出,結合句子的位置信息,編碼器不僅能編碼句子信息,也能夠對包含上下文的文檔進行編碼,增強了對編碼器的訓練。同時引入度量學習,對編碼后的文檔和句子信息進行篩選,保留關鍵信息,使得模型能根據(jù)原文的關鍵信息來抽取出摘要。在摘要數(shù)據(jù)集CNN/DailyMail上的實驗表明,提出的MLHIN方法能明顯提升模型抽取摘要的質量。

    本研究在探索算法有效性的過程中,發(fā)現(xiàn)文檔編碼器存在一定的局限性,即文檔編碼器的輸入依賴于句子編碼,若句子編碼不夠準確,會導致后續(xù)的訓練出現(xiàn)誤差。在學習過程中發(fā)現(xiàn),更強大且更有效的算法框架能夠幫助模型獲得更好的抽取結果。強化學習能夠將參考摘要作為信號來激勵句子向量編碼。未來,將繼續(xù)探索將抽取式摘要方法與強化學習相結合,以此來提升模型性能,得出更好的抽取式摘要模型。

    猜你喜歡
    度量編碼器層級
    有趣的度量
    模糊度量空間的強嵌入
    軍工企業(yè)不同層級知識管理研究實踐
    基于軍事力量層級劃分的軍力對比評估
    迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
    基于FPGA的同步機軸角編碼器
    基于PRBS檢測的8B/IOB編碼器設計
    任務期內(nèi)多層級不完全修復件的可用度評估
    地質異常的奇異性度量與隱伏源致礦異常識別
    JESD204B接口協(xié)議中的8B10B編碼器設計
    電子器件(2015年5期)2015-12-29 08:42:24
    屏边| 台南县| 通州区| 富平县| 吉木萨尔县| 遂川县| 河北区| 府谷县| 安乡县| 竹溪县| 福安市| 高州市| 乌拉特后旗| 阜新市| 浦北县| 蛟河市| 慈溪市| 谢通门县| 微山县| 都兰县| 凭祥市| 宁晋县| 嘉鱼县| 乡城县| 儋州市| 都昌县| 铅山县| 杭锦后旗| 曲阜市| 壶关县| 泽库县| 喀什市| 旌德县| 上高县| 灵山县| 吉隆县| 苗栗县| 农安县| 贵德县| 拉萨市| 巫溪县|