摘 要:[目的/意義]旨在利用大模型生成學(xué)術(shù)文本的高質(zhì)量同義句,通過實(shí)施語義增強(qiáng)策略,以優(yōu)化自然語言推理模型的性能。[方法/過程]在利用大語言模型生成學(xué)術(shù)文本同義句的基礎(chǔ)上,提出語義增強(qiáng)的自然語言推理模型SENLI,該模型包括表示模塊、語義增強(qiáng)模塊和推理模塊。其中,表示模塊負(fù)責(zé)獲取學(xué)術(shù)文本及其對(duì)應(yīng)同義句的語義特征;語義增強(qiáng)模塊將同義句的語義特征融合到學(xué)術(shù)文本的原始語義特征,獲取語義增強(qiáng)特征;推理模塊則基于學(xué)術(shù)文本的原始語義特征和語義增強(qiáng)特征,預(yù)測(cè)學(xué)術(shù)文本對(duì)的語義關(guān)系。將本文模型應(yīng)用到SciTail、SciNLI和ZwNLI數(shù)據(jù)集上,開展實(shí)證研究。[結(jié)果/結(jié)論]實(shí)驗(yàn)結(jié)果顯示,SENLI模型在SciTail、SciNLI和ZwNLI這3個(gè)基準(zhǔn)數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到了95.11%、79.20%和98.43%,相較于基線模型,提升幅度至少為1.27%、1.08%和0.92%,彰顯了本文模型的有效性。應(yīng)用大語言模型生成的學(xué)術(shù)文本同義句進(jìn)行語義增強(qiáng)可以提高自然語言推理模型的效果,研究有助于推動(dòng)自然語言推理領(lǐng)域的發(fā)展,并為信息檢索、學(xué)術(shù)文獻(xiàn)挖掘等相關(guān)應(yīng)用提供潛在的技術(shù)支持。
關(guān)鍵詞:自然語言推理;學(xué)術(shù)文本;語義增強(qiáng);深度學(xué)習(xí);大語言模型
DOI:10.3969/j.issn.1008-0821.2025.08.002
〔中圖分類號(hào)〕TP391.1;TP181 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2025)08-0018-13
A Semantic-Enhanced Natural Language Inference Model for Academic Texts
Zhang Zhengang Yu Chuanming* Wang Jingnan
(School of Information Engineering,Zhongnan University of Economics and Law,Wuhan 430073,China)
Abstract:[Purpose/Significance]The paper aims to generate high-quality synonymous sentences for academic texts utilizing large language models and enhance the performance of natural language inference model through the implementation of semantic enhancement strategies.[Method/Process]Based on the utilization of large language model to generate synonymous sentences for academic texts,the paper proposed a semantic-enhanced natural language inference model,SENLI.The model consisted of a representation module,a semantic enhancement module,and an inference module.Specifically,the representation module was responsible for capturing the semantic features of academic texts and their corresponding synonymous sentences.The semantic enhancement module integrated the semantic features of the synonymous sentences into the original semantic features of the academic texts,thereby obtaining semantic-enhanced features.Finally,the inference module predicted the semantic relationship between pairs of academic texts based on both the original semantic features and the semantic-enhanced features.The study conducted an empirical study by applying the proposed model to the SciTail,SciNLI,and ZwNLI datasets.[Result/Conclusion]The experimental results show that the SENLI model achieves accuracy rates of 95.11%,79.20%,and 98.43% on the SciTail,SciNLI,and ZwNLI datasets,respectively.Compared to the baseline models,the improvements are at least 1.27%,1.08%,and 0.92%,demonstrating the effectiveness of the proposed model.The utilization of synonymous sentences generated by large language models for semantic enhancement can enhance the performance of natural language inference model.The research contributes to advancing the field of natural language inference and provides potential technical support for applications such as information retrieval and academic literature mining.
Key words:natural language inference;academic text;semantic enhancement;deep learning;large language model
自然語言推理的核心目標(biāo)是判斷兩段文本在語義上的關(guān)系,包含蘊(yùn)含、矛盾或中立等[1]。自然語言推理技術(shù)已經(jīng)在信息檢索[2-3]、技術(shù)管理[4-5]、數(shù)據(jù)挖掘[6-7]等多個(gè)領(lǐng)域中獲得了廣泛應(yīng)用。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[8]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[9]以及Transformer[10]等神經(jīng)網(wǎng)絡(luò)模型已被廣泛應(yīng)用于自然語言推理任務(wù)。上述神經(jīng)網(wǎng)絡(luò)模型通過獲取文本的語義特征,提高了自然語言推理的準(zhǔn)確性,尤其是對(duì)于通用語言理解,但針對(duì)特定領(lǐng)域,特別是面向?qū)W術(shù)文獻(xiàn)文本的定制化需求仍未充分滿足。學(xué)術(shù)文獻(xiàn)作為記錄和傳播科學(xué)技術(shù)知識(shí)的重要載體,面向?qū)W術(shù)文獻(xiàn)的數(shù)據(jù)治理[11]、關(guān)鍵詞提?。?2]以及知識(shí)組織[13]等方面的研究已經(jīng)獲得了學(xué)術(shù)界的廣泛關(guān)注。同樣的,學(xué)術(shù)文獻(xiàn)包含了眾多具有專業(yè)術(shù)語和復(fù)雜表達(dá)的學(xué)術(shù)文本,這要求自然語言推理模型具備高度的領(lǐng)域適應(yīng)性和深度語義理解能力。在此背景下,構(gòu)建面向?qū)W術(shù)文本的自然語言推理模型顯得尤為重要,這不僅能夠促進(jìn)學(xué)術(shù)文獻(xiàn)的高效檢索,還能加強(qiáng)知識(shí)關(guān)聯(lián)和智能推薦。然而,將視角轉(zhuǎn)向?qū)W術(shù)文本時(shí),可以發(fā)現(xiàn)現(xiàn)有研究在以下兩方面依然存在局限性:第一,面向?qū)W術(shù)文本的自然語言推理數(shù)據(jù)集相對(duì)較少,這限制了模型訓(xùn)練的有效性和泛化能力;第二,學(xué)術(shù)文本經(jīng)常使用專業(yè)術(shù)語和復(fù)雜表達(dá),這些術(shù)語和表達(dá)在不同語義背景下可能具有不同的表述方式,學(xué)術(shù)文本的多樣性表達(dá)給模型推理造成了一定的挑戰(zhàn),需要模型具備更強(qiáng)的語義理解能力。
基于上述背景,鑒于同義句在保持語義一致性的同時(shí),展現(xiàn)了語言的多樣性和復(fù)雜性。因此,本研究聚焦同義句在語義增強(qiáng)自然語言推理模型的應(yīng)用,以期為更廣泛的語義增強(qiáng)研究提供啟示。大語言模型已經(jīng)在學(xué)界獲得了廣泛的研究[14-15],鑒于已有研究證明了BERT模型[16]在自然語言理解任務(wù)上相較于大語言模型仍存在一定優(yōu)勢(shì)[17],但大語言模型在自然語言生成上的優(yōu)秀表現(xiàn)已經(jīng)獲得了廣泛驗(yàn)證?;诖?,本文嘗試通過大語言模型生成的高質(zhì)量學(xué)術(shù)文本同義句實(shí)施語義增強(qiáng),提出一個(gè)語義增強(qiáng)的自然語言推理模型(Semantic-Enhanced Natural Language Inference Model,SENLI),有效緩解了模型在學(xué)術(shù)文本表達(dá)多樣性背景下的語義理解不足挑戰(zhàn),從而提高了模型在復(fù)雜語境下的推理準(zhǔn)確率。此外,為了解決學(xué)術(shù)文本自然語言推理數(shù)據(jù)集過少的問題,本文聚焦圖書館學(xué)與情報(bào)學(xué)領(lǐng)域,使用該領(lǐng)域期刊論文的結(jié)構(gòu)式摘要構(gòu)建了一個(gè)自然語言推理數(shù)據(jù)集。本研究有效提升了學(xué)術(shù)文本情境下的自然語言推理準(zhǔn)確率,為大語言模型驅(qū)動(dòng)的自然語言推理研究提供了新視角。
1 相關(guān)研究工作
基于是否使用同義詞典、知識(shí)圖譜等額外資源增強(qiáng)自然語言推理模型效果,本文將自然語言推理領(lǐng)域的研究工作劃分為兩類進(jìn)行探討,即基于深度學(xué)習(xí)的自然語言推理模型和基于增強(qiáng)的自然語言推理模型。此外,鑒于本文聚焦學(xué)術(shù)文本,同時(shí)探討了學(xué)界面向?qū)W術(shù)文本的句子分類與結(jié)構(gòu)信息抽取方法的相關(guān)研究工作。
1.1 基于深度學(xué)習(xí)的自然語言推理模型
基于深度學(xué)習(xí)的自然語言推理模型主要使用深度學(xué)習(xí)方法(如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、Transformer等)?;谀P偷膬?nèi)在結(jié)構(gòu),將其分為基于表示的自然語言推理模型、基于交互的自然語言推理模型以及基于預(yù)訓(xùn)練模型的自然語言推理模型的三類方法進(jìn)行論述。
1)基于表示的自然語言推理模型。該模型通常采用孿生網(wǎng)絡(luò)架構(gòu)以對(duì)文本對(duì)進(jìn)行編碼,從而提取它們的深層語義特征,并通過計(jì)算余弦相似度或歐幾里得距離等方式來預(yù)測(cè)兩者之間的語義關(guān)系。以DSSM模型[15]為例,該模型利用深度神經(jīng)網(wǎng)絡(luò)技術(shù)將成對(duì)的文本轉(zhuǎn)換為同一語義空間內(nèi)的向量,并通過向量間的點(diǎn)積來評(píng)估文本對(duì)的相關(guān)性。ARCI模型[19]通過卷積神經(jīng)網(wǎng)絡(luò)獲取文本的語義特征,并進(jìn)一步應(yīng)用多層感知機(jī)來預(yù)測(cè)文本間的語義關(guān)系,以彌補(bǔ)DSSM模型對(duì)上下文信息建模的不足。Palangi H等[20]提出了一種使用LSTM-RNN的方法,該方法專注于獲取文本中的順序信息,以便更精確地建模詞序信息?;诒硎镜哪P陀捎诮Y(jié)構(gòu)簡(jiǎn)單,因此擁有高效率和較強(qiáng)的泛化能力。然而,基于表示的模型由于未能充分獲取文本對(duì)之間的交互細(xì)節(jié),因而限制了其在自然語言推理任務(wù)中的深度語義理解能力。
2)基于交互的自然語言推理模型。該模型通過獲取文本對(duì)之間的交互信息來提升預(yù)測(cè)的準(zhǔn)確性。例如,DIIN[21]模型基于創(chuàng)建的三維交互張量,利用DenseNet[22]網(wǎng)絡(luò)來提取文本對(duì)之間的交互信息。BiMPM模型[23]引入了雙向多視角的匹配方法,利用4個(gè)不同的配對(duì)方式來全面獲取文本間的交互信息。ESIM模型[1]通過Bi-LSTM獲取文本的上下文信息,并采用注意力機(jī)制來進(jìn)行局部推理以抽取文本對(duì)之間的交互信息,之后使用LSTM對(duì)這些局部推理進(jìn)行增強(qiáng),最終通過聚合特征來預(yù)測(cè)文本對(duì)的語義關(guān)系。RE2模型[24]通過反復(fù)的循環(huán)交互過程,成功地保留了詞嵌入的初始信息、文本之間的交互信息以及上下文信息這3個(gè)關(guān)鍵要素,有效提高了模型推理效率。此外,也有研究從動(dòng)態(tài)注意力重讀[25]、共注意力[26]等角度提升文本交互效果??傮w來說,基于交互的模型相對(duì)于基于表示的模型建模了文本交互信息,能夠獲取更深層次的語義關(guān)聯(lián)。
3)基于預(yù)訓(xùn)練模型的自然語言推理模型。該方法主要使用預(yù)訓(xùn)練模型獲取文本對(duì)的語義信息。例如,BERT[16]通過疊加的Transformer[27]單元來深化對(duì)文本語義的理解,顯著增強(qiáng)了模型在自然語言推理任務(wù)中的性能。RoBERTa模型[28]提出了改進(jìn)的模型訓(xùn)練技巧,包括動(dòng)態(tài)掩碼、更大的批處理大小、更長(zhǎng)的序列等。ALBERT模型[29]則引入?yún)?shù)精簡(jiǎn)技術(shù),提升了模型的運(yùn)行效率。SciBERT模型[30]則針對(duì)科學(xué)文獻(xiàn)進(jìn)行了預(yù)訓(xùn)練,增強(qiáng)了模型在處理專業(yè)科學(xué)文本時(shí)的理解能力和準(zhǔn)確性。由于能夠獲取長(zhǎng)距離依賴和復(fù)雜的句法、語義關(guān)系以及預(yù)訓(xùn)練—微調(diào)范式,基于預(yù)訓(xùn)練模型的自然語言推理方法顯著提升了模型的語義理解能力與任務(wù)適應(yīng)性。
上述模型在自然語言推理任務(wù)中已經(jīng)取得了積極的進(jìn)展。然而,上述模型未能充分整合對(duì)外部資源的利用,這些資源對(duì)獲取文本語義至關(guān)重要,能夠提供豐富的背景知識(shí)和相關(guān)語義,涵蓋知識(shí)圖譜、同義表達(dá)及詞匯歧義等方面。鑒于此,深入研究如何在自然語言推理任務(wù)框架內(nèi)實(shí)施增強(qiáng)策略,以期增強(qiáng)模型性能,顯得尤為迫切和重要。
1.2 基于增強(qiáng)的自然語言推理模型
基于增強(qiáng)的自然語言推理模型已經(jīng)獲得了廣泛研究,根據(jù)模型增強(qiáng)方式,將其分為基于數(shù)據(jù)增強(qiáng)的自然語言推理模型、基于知識(shí)增強(qiáng)的自然語言推理模型以及基于語義增強(qiáng)的自然語言推理模型進(jìn)行論述。
1)基于數(shù)據(jù)增強(qiáng)的自然語言推理模型。該模型主要通過對(duì)原始數(shù)據(jù)集進(jìn)行變換,增加新訓(xùn)練樣本以提升模型效果,包括替換方法[31]、回譯方法[32]等。例如,Wei J等[31]使用同義詞替換、隨機(jī)插入、隨機(jī)互換和隨機(jī)刪除4種方法進(jìn)行數(shù)據(jù)增強(qiáng),對(duì)原數(shù)據(jù)集進(jìn)行擴(kuò)充。Xie Q等[32]使用將英文翻譯成法語后再翻譯回英語等方法擴(kuò)充訓(xùn)練集。上述數(shù)據(jù)增強(qiáng)模型通過變換原始數(shù)據(jù)集創(chuàng)造額外訓(xùn)練樣本,有效提升了模型泛化能力。然而,盡管有效增強(qiáng)了模型的泛化能力,數(shù)據(jù)增強(qiáng)技術(shù)仍面臨語義偏差、語法錯(cuò)誤、信息損失等挑戰(zhàn),尤其是在處理復(fù)雜句式或?qū)I(yè)術(shù)語時(shí),同義詞替換、回譯等方法產(chǎn)生的文本可能變得不通順或有明顯的語法問題。
2)基于知識(shí)增強(qiáng)的自然語言推理模型。該模型關(guān)注如何將實(shí)體、三元組等外部知識(shí)整合進(jìn)模型中,以提升模型的知識(shí)水平。例如,IKAAS模型[33]通過將詞匯與知識(shí)圖譜中的實(shí)體相連,并采用TransE[34]算法來提取實(shí)體特征,進(jìn)而將其融入詞匯表示中,有效地實(shí)現(xiàn)了實(shí)體信息的集成。Jiang K X等[35]使用單詞定義和文本三元組信息作為外部知識(shí)來增強(qiáng)模型的語義理解能力。ExBERT模型[36]將知識(shí)三元組轉(zhuǎn)換為文本描述,然后將其融合到BERT輸出的文本語義中。ERNIE[37]通過預(yù)測(cè)整個(gè)屏蔽短語和命名實(shí)體來訓(xùn)練模型學(xué)習(xí)本地上下文和全局上下文中的依賴信息,并在此基礎(chǔ)上通過結(jié)構(gòu)感知和語義感知任務(wù)獲取語料庫的句法和語義信息。K-BERT模型[38]將三元組形式的領(lǐng)域知識(shí)嵌入至語言模型內(nèi)部,并運(yùn)用軟定位機(jī)制與可見性矩陣來篩選并減少知識(shí)噪聲的影響?;谥R(shí)增強(qiáng)的模型通過融入實(shí)體和三元組等外部知識(shí),有效提升了模型的語義理解與知識(shí)水平,但也面臨知識(shí)過載可能扭曲語義信息及知識(shí)噪聲等問題。
3)基于語義增強(qiáng)的自然語言推理模型。該模型主要通過利用文本的相關(guān)內(nèi)容,包括單詞詞義、詞語關(guān)系等內(nèi)容,增強(qiáng)模型的文本語義能力。例如,LET模型[39]利用HowNet知識(shí)庫提供的單詞詞義和構(gòu)成要素信息進(jìn)行語義增強(qiáng),通過結(jié)合上下文信息來消除詞義的不明確性,顯著降低了詞義模糊對(duì)模型性能的負(fù)面影響。BERTsim[40]利用WordNet來捕捉單詞間的相似度,并將這一信息注入BERT模型的多頭注意力機(jī)制里,從而有效地增強(qiáng)了BERT模型的性能。Yu C M等[41]提出了一種輕量級(jí)的文本匹配模型SEIN,集成了來自WordNet數(shù)據(jù)庫的單詞描述,以豐富文本語義信息。PICSO模型[42]通過實(shí)體感知適配器將多域上下文同義詞注入預(yù)訓(xùn)練語言模型中,解決了同義詞歧義性和語義理解一致性問題?;谡Z義增強(qiáng)的模型通過融入詞匯語義及語境關(guān)系等信息,提升了文本理解的精確度,有效解決了詞義模糊等問題,增強(qiáng)了模型在復(fù)雜語境下的性能。盡管如此,現(xiàn)有模型的語義增強(qiáng)機(jī)制存在偏重微觀詞匯層面的局限性,未能充分考慮文本的整體語境。
上述增強(qiáng)策略通過直接擴(kuò)展數(shù)據(jù)集、整合外部知識(shí)或深化語義理解,共同推動(dòng)了自然語言推理任務(wù)性能的提升。然而,上述研究也面臨著語法錯(cuò)誤、知識(shí)噪聲以及側(cè)重微觀詞匯語義增強(qiáng)等挑戰(zhàn)。
1.3 面向?qū)W術(shù)文本的句子分類與結(jié)構(gòu)信息抽取方法
近年來,學(xué)術(shù)界在面向?qū)W術(shù)文本的自然語言處理研究中呈現(xiàn)出多元化和深入化的趨勢(shì),尤其是在句子分類、結(jié)構(gòu)信息抽取等方面。例如,謝林蕾等[43]構(gòu)建了融合出版領(lǐng)域的未來工作句識(shí)別與分類語料庫,并利用支持向量機(jī)和樸素貝葉斯等方法對(duì)學(xué)術(shù)論文中描述未來研究工作的句子進(jìn)行自動(dòng)識(shí)別與分類。Zhang Y Y等[44]使用公式化表達(dá)脫敏和上下文增強(qiáng)提取學(xué)術(shù)論文中的問題句和方法句,通過數(shù)據(jù)增強(qiáng)和上下文整合策略,該研究提升了模型對(duì)問題句和方法句提取的性能。張恒等[45]采用SciBERT模型,結(jié)合ChatGPT對(duì)學(xué)術(shù)文本采取同義詞替換、隨機(jī)插入等策略進(jìn)行數(shù)據(jù)增強(qiáng),實(shí)現(xiàn)了對(duì)學(xué)術(shù)論文研究流程段落的有效識(shí)別。陸偉等[46]系統(tǒng)性地探究了大語言模型在學(xué)術(shù)文本分類、信息抽取等任務(wù)中的應(yīng)用,構(gòu)建了一個(gè)包含文本分類、信息抽取、文本推理和文本生成4個(gè)能力維度的評(píng)測(cè)框架,并通過實(shí)驗(yàn)分析了不同指令策略對(duì)模型性能的影響。李楠等[47]以醫(yī)學(xué)、圖書情報(bào)、經(jīng)濟(jì)、數(shù)據(jù)和出版5個(gè)學(xué)科的6 452篇結(jié)構(gòu)式摘要作為語料庫,探討了學(xué)術(shù)文本結(jié)構(gòu)功能分類的學(xué)科適用性。通過采用自然語言處理技術(shù)和大語言模型,研究者們提升了模型對(duì)學(xué)術(shù)論文文本的提取與理解能力。上述研究不僅促進(jìn)了學(xué)術(shù)知識(shí)的有效提取,也為研究者提供了精準(zhǔn)和高效的智能工具,進(jìn)一步推動(dòng)了科學(xué)研究的發(fā)展。
本研究聚焦學(xué)術(shù)文本,提出了一種新的語義增強(qiáng)自然語言推理模型——SENLI。該模型利用大語言模型生成的高質(zhì)量學(xué)術(shù)文本同義句,從文本的整體語境出發(fā),通過語義增強(qiáng)方法進(jìn)一步提升模型在自然語言推理任務(wù)上的準(zhǔn)確率。
2 研究問題與方法
2.1 研究問題
本研究通過學(xué)術(shù)文本的同義句實(shí)施語義增強(qiáng),以期為語義增強(qiáng)的自然語言推理任務(wù)提供新的視角和方法。在此背景下,將面向?qū)W術(shù)文本的語義增強(qiáng)自然語言推理任務(wù)形式化定義如下,即給定學(xué)術(shù)文本對(duì)Ta={wa1,wa2,…,wal_a}和Tb={wb1,wb2,…,wbl_b},以及Ta和Tb對(duì)應(yīng)的同義句T={w1,w2,…,wl_}和T={w1,w2,…,wl_},其中,wji代表文本j的第i個(gè)詞匯項(xiàng),lj代表文本的詞匯數(shù)量。本文的任務(wù)是設(shè)計(jì)一個(gè)函數(shù)f,以Ta、Tb、T和T為輸入,預(yù)測(cè)學(xué)術(shù)文本對(duì)Ta和Tb的語義關(guān)系?;谏鲜霰尘埃疚奶岢隽艘环N語義增強(qiáng)的自然語言推理模型,并在此基礎(chǔ)上探究以下幾個(gè)研究問題:
1)在自然語言推理任務(wù)中,SENLI模型是否能夠超越現(xiàn)有的深度學(xué)習(xí)模型?
2)同義句的增強(qiáng)和生成方式對(duì)SENLI模型效果是否有影響?具體來說,主要探究:①進(jìn)行語義增強(qiáng)時(shí)同義句數(shù)量是否對(duì)模型效果有影響;②數(shù)據(jù)增強(qiáng)和語義增強(qiáng)哪種方式對(duì)SENLI模型更加有效?③同義句生成方式對(duì)模型效果是否有影響?
2.2 研究方法
為探究上述研究問題,本文在使用大語言模型生成學(xué)術(shù)文本同義句的基礎(chǔ)上,提出了語義增強(qiáng)的自然語言推理模型SENLI,并在此基礎(chǔ)上開展實(shí)證研究。如圖1所示,SENLI模型包含表示模塊、語義增強(qiáng)模塊和推理模塊。其中,表示模塊用來抽取學(xué)術(shù)文本Ta與Tb及其同義句T與T的語義特征,此步驟確保了學(xué)術(shù)文本原始句及其同義句的語義特征均得以有效編碼。語義增強(qiáng)模塊用來將同義句語義特征融合到學(xué)術(shù)文本的原始語義特征中,獲取學(xué)術(shù)文本的語義增強(qiáng)特征,為模型提供更全面和深層次的語義理解。推理模塊使用學(xué)術(shù)文本對(duì)特征和語義增強(qiáng)特征,使用兩層的前饋神經(jīng)網(wǎng)絡(luò)獲取預(yù)測(cè)結(jié)果。通過所提的3個(gè)模塊,SENLI模型實(shí)現(xiàn)了從基礎(chǔ)語義表示到語義增強(qiáng)再到語義關(guān)系推理的全過程。
2.2.1 同義句生成
學(xué)術(shù)文本同義句的生成質(zhì)量至關(guān)重要,本文采用Qwen1.5-72B-Chat模型輸出了學(xué)術(shù)文本的同義句。Qwen1.5-72B-Chat是一種由Transformer解碼器堆疊而成的神經(jīng)網(wǎng)絡(luò)架構(gòu),同時(shí)加入了SwiGLU[48]、RoPE[49]等技術(shù),實(shí)現(xiàn)了對(duì)自然語言的深入理解,并具有較好的多語言能力。Qwen1.5-72B-Chat在多項(xiàng)評(píng)測(cè)任務(wù)中的性能與GPT-4非常接近,綜合考慮易用性、穩(wěn)定性和模型性能等因素,本文選擇將其作為同義句生成工具。具體來說,對(duì)于中文數(shù)據(jù)集,提示詞為“{學(xué)術(shù)文本},對(duì)于上面的句子,請(qǐng)給我6個(gè)意義相同但表達(dá)不同的同義句。請(qǐng)用中文回答,請(qǐng)直接輸出,不要輸出其他任何無關(guān)內(nèi)容”。對(duì)于英文數(shù)據(jù)集,提示詞則是“{Academic Text}.For the above sentence,please give me six synonymous sentences with the same meaning but different expressions.Please answer in English.Please output directly and do not output any other irrelevant content.”。
為了驗(yàn)證大模型獲取的學(xué)術(shù)文本同義句的有效性,隨機(jī)選擇了一個(gè)樣例進(jìn)行測(cè)試,結(jié)果如圖2所示??梢园l(fā)現(xiàn),Qwen1.5-72B-Chat模型生成的學(xué)術(shù)文本同義句顯示出了與原始句在語義上的高度一致性;使用BERT模型獲取了學(xué)術(shù)文本原始句和同義句的語義相似度矩陣并進(jìn)行可視化,如圖3所示。可以發(fā)現(xiàn),原始句和同義句的語義相似度均在0.95以上,表明Qwen1.5-72B-Chat生成的學(xué)術(shù)文本同義句在語義相似度維度下的可用性。
2.2.2 表示模塊
表示模塊用來獲取學(xué)術(shù)文本原始句及其同義句的語義特征。對(duì)于學(xué)術(shù)文本原始句的語義特征獲取,將學(xué)術(shù)文本對(duì)和兩段學(xué)術(shù)文本分別輸入到BERT模型[16],使用BERT輸出的最后一層隱藏狀態(tài)作為其語義特征,分別為Tab、Ta和Tb,如式(1)~(3)所示:
Tab=BERT([cls],wa1,wa2,…,wal_a,[sep],wb1,wb2,…,wbl_b),Tab∈
為了獲取學(xué)術(shù)文本同義句的語義特征,本文采用GloVe[50]對(duì)學(xué)術(shù)文本同義句進(jìn)行表示,并將其輸入到BiLSTM中以獲取同義句的上下文信息,其計(jì)算方法如式(4)和式(5)所示:
其中,l是學(xué)術(shù)文本a同義句的詞匯數(shù)量,l是學(xué)術(shù)文本b同義句的詞匯數(shù)量,d2是設(shè)置的BiLSTM的隱藏層維度。
2.2.3 語義增強(qiáng)模塊
語義增強(qiáng)模塊主要是將學(xué)術(shù)文本同義句的語義特征融合到原始句的語義特征中,以通過學(xué)術(shù)文本的不同表達(dá)方式增強(qiáng)模型對(duì)學(xué)術(shù)文本的語義理解能力。參考Jiang K X等[51]的工作,本文設(shè)計(jì)了一個(gè)融合策略,旨在將學(xué)術(shù)文本原始句特征Ta和同義句特征T融合以獲得語義增強(qiáng)特征T,為了確保融合過程既能夠充分利用同義句的語義信息,又能減少可能引入的噪聲,本文在語義增強(qiáng)模塊中引入門控機(jī)制,通過神經(jīng)網(wǎng)絡(luò)來控制原始文本特征和同義句特征的融合比例。具體而言,本文定義了一個(gè)融合函數(shù),該函數(shù)以原始句特征Ta和同義句特征T為輸入,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的門控向量G和中間狀態(tài)向量X,動(dòng)態(tài)地調(diào)整原始文本特征和同義句特征在融合過程中的貢獻(xiàn)度,從而獲取語義增強(qiáng)特征T,融合函數(shù)的定義如式(6)~(8)所示。同樣的,本文采用相同方式獲取學(xué)術(shù)文本b的語義增強(qiáng)特征T。
2和d3是設(shè)置的隱藏層維度。
2.2.4 推理模塊
推理模塊旨在使用學(xué)術(shù)文本對(duì)的語義特征和語義增強(qiáng)特征,預(yù)測(cè)學(xué)術(shù)文本對(duì)的語義關(guān)系。具體而言,使用文本對(duì)特征Tab、語義增強(qiáng)特征T和T,經(jīng)過池化拼接后輸入到兩層前饋神經(jīng)網(wǎng)絡(luò),最后經(jīng)過一層Softmax后獲取模型的預(yù)測(cè)結(jié)果,如式(9)所示:
Out=Softmax(GeLU([Pooling(Tab);Pooling(T);Pooling(T)]W4+b4)W5+b
Loss=-1M∑Mi=1∑Nj=1yji·log(ji)(10)
其中,M代表測(cè)試集中樣本的總數(shù),N代表數(shù)據(jù)集中類別的數(shù)量;yji表示第i個(gè)樣本是第j個(gè)類別的標(biāo)簽,ji表示模型預(yù)測(cè)的第i個(gè)樣本是第j個(gè)類別的概率值(取值范圍是0~1)。
3 實(shí) 驗(yàn)
3.1 數(shù)據(jù)集
為了驗(yàn)證本文模型的效果,使用SciTail[52]、SciNLI[53]和本文構(gòu)建的ZwNLI數(shù)據(jù)集。其中,SciTail是一個(gè)專注于科學(xué)領(lǐng)域的數(shù)據(jù)集,其核心任務(wù)是判斷兩段文本的語義關(guān)系,包括蘊(yùn)含和中立兩種關(guān)系。該數(shù)據(jù)集設(shè)計(jì)了一系列源自科學(xué)問題的假設(shè),而對(duì)應(yīng)的前提文本則是從互聯(lián)網(wǎng)上選取的相關(guān)內(nèi)容。SciNLI數(shù)據(jù)集包括從自然語言處理和計(jì)算語言學(xué)領(lǐng)域?qū)W術(shù)論文中提取的107 412個(gè)句子對(duì),包含對(duì)比、推理、蘊(yùn)含和中立4種語義關(guān)系。為了彌補(bǔ)中文學(xué)術(shù)文本自然語言推理數(shù)據(jù)集較少的問題,本文構(gòu)建了ZwNLI數(shù)據(jù)集,包括從圖書館學(xué)與情報(bào)學(xué)領(lǐng)域期刊論文結(jié)構(gòu)式摘要中抽取的47 983個(gè)文本對(duì)。為了構(gòu)建文本對(duì)語義關(guān)系的標(biāo)簽,對(duì)于結(jié)構(gòu)式摘要中的內(nèi)容,在前人研究基礎(chǔ)[52-53]上做如下假設(shè):①目的引導(dǎo)了方法的選擇;②方法的實(shí)施產(chǎn)生了結(jié)果;③文章標(biāo)題內(nèi)容通常蘊(yùn)含了方法;④不同論文摘要的任意兩段文本在語義上是獨(dú)立的?;谏鲜黾僭O(shè),本文構(gòu)建的ZwNLI數(shù)據(jù)集包括引導(dǎo)、產(chǎn)生、蘊(yùn)含和中立4種語義關(guān)系。數(shù)據(jù)集的詳細(xì)信息如表1所示。
3.2 實(shí)驗(yàn)參數(shù)設(shè)置
本文模型使用的超參數(shù)如表2所示,將模型的訓(xùn)練輪次設(shè)定為20輪,選擇Adam優(yōu)化器來調(diào)整網(wǎng)絡(luò)權(quán)重,學(xué)習(xí)率設(shè)置為1e-5,在訓(xùn)練過程中,設(shè)置批次大小為16,為了減少模型過擬合的風(fēng)險(xiǎn),將隨機(jī)失活率設(shè)為0.2。此外,將神經(jīng)網(wǎng)絡(luò)的隱藏層維度分別設(shè)置為300、512和256。所有實(shí)驗(yàn)在配備兩張3090TI顯卡的服務(wù)器上運(yùn)行,使用PyTorch實(shí)現(xiàn)模型。
3.3 模型與基線方法的實(shí)驗(yàn)結(jié)果對(duì)比分析
為了驗(yàn)證所提模型的效果,本文選取ESIM[1]、RE2[24]、SciBERT[30]、BERT[16]、RoBERTa[28]、ALBERT[29]和Qwen1.5-72B-Chat作為基線方法,采用準(zhǔn)確率、宏平均的精確率、召回率和F1值作為評(píng)價(jià)指標(biāo),對(duì)比本文模型和基線方法在SciTail、SciNLI和ZwNLI這3個(gè)數(shù)據(jù)集上的效果差異,表3~5展示了SENLI模型與基線方法的實(shí)驗(yàn)結(jié)果。
總體來說,SENLI模型在SciTail、SciNLI和ZwNLI這3個(gè)基準(zhǔn)測(cè)試集上的效果均優(yōu)于基線方法,相比于基線方法,SENLI模型在SciTail、SciNLI和ZwNLI數(shù)據(jù)集的準(zhǔn)確率指標(biāo)上至少提升了1.27、1.08和0.92個(gè)百分點(diǎn),在精確率、召回率和F1值的絕大多數(shù)指標(biāo)上也均取得了最優(yōu)結(jié)果,顯示出其在自然語言推理任務(wù)上的優(yōu)越性能。具體來說,與經(jīng)典模型ESIM、RE2以及預(yù)訓(xùn)練模型ALBERT、BERT相比,SENLI在所有3個(gè)數(shù)據(jù)集上均取得了更高的準(zhǔn)確率、精確率、召回率和F1值;與使用科學(xué)文獻(xiàn)作為訓(xùn)練語料的SciBERT模型相比,實(shí)驗(yàn)結(jié)果也證明了SENLI在理解和推理學(xué)術(shù)文本的優(yōu)秀性能;與Qwen1.5-72B-Chat大模型相比,雖然SENLI模型在SciTail數(shù)據(jù)集的精確率上略低于Qwen1.5-72B-Chat模型,但SENLI模型在準(zhǔn)確率、召回率和F1值指標(biāo)上均遠(yuǎn)優(yōu)于Qwen1.5-72B-Chat模型。可以發(fā)現(xiàn),Qwen1.5-72B-Chat在自然語言推理任務(wù)上的準(zhǔn)確率、召回率和F1值指標(biāo)上效果相對(duì)較差,但其擁有較優(yōu)的自然語言生成能力,借助于其生成的高質(zhì)量學(xué)術(shù)文本同義句,本文通過實(shí)施同義句語義增強(qiáng)提升了模型的自然語言推理性能??偟膩碚f,SENLI模型的優(yōu)越性能表明了其在面向?qū)W術(shù)文本的自然語言推理任務(wù)中的廣泛應(yīng)用前景。
3.4 同義句數(shù)量對(duì)模型效果的影響分析
為了驗(yàn)證使用不同數(shù)量的同義句進(jìn)行語義增強(qiáng)對(duì)模型效果的影響,本文在SciTail、SciNLI和ZwNLI這3個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),同義句數(shù)量區(qū)間為0~6,步長(zhǎng)為1,探究同義句數(shù)量對(duì)模型性能的影響,實(shí)驗(yàn)結(jié)果如圖4~6所示,采用準(zhǔn)確率作為實(shí)驗(yàn)指標(biāo)。
使用同義句進(jìn)行語義增強(qiáng)要優(yōu)于不使用同義句進(jìn)行語義增強(qiáng)的方式,這表明語義增強(qiáng)在自然語言推理任務(wù)上的有效性。具體來說,在SciTail數(shù)據(jù)集上,無語義增強(qiáng)的基線準(zhǔn)確率為93.41%,而實(shí)驗(yàn)1~6的準(zhǔn)確率范圍為94.78%~95.11%,這表明在SciTail數(shù)據(jù)集上,語義增強(qiáng)對(duì)于模型性能有著積極的效果。在類別數(shù)更多的SciNLI數(shù)據(jù)集上,模型的3的79.20%,這表明語義增強(qiáng)對(duì)于復(fù)雜推理任務(wù)依然有效。對(duì)于ZwNLI數(shù)據(jù)集,基線準(zhǔn)確率為97.51%,而實(shí)驗(yàn)1~6的準(zhǔn)確率均在98.35%以上,最高達(dá)到98.43%,這一結(jié)果表明即使在準(zhǔn)確率已經(jīng)相對(duì)較高的情況下,語義增強(qiáng)仍能進(jìn)一步提升模型的性能。值得注意的是,當(dāng)同義句達(dá)到一定數(shù)量時(shí),對(duì)于SciTail和SciNLI數(shù)據(jù)集是3,對(duì)于ZwNLI數(shù)據(jù)集是4,隨著同義句數(shù)量的進(jìn)一步提升,模型效果未能進(jìn)一步繼續(xù)提升,反而可能因信息冗余干擾原始語義理解,這表明存在一個(gè)最優(yōu)的同義句數(shù)量,超過此量將不利于模型性能。綜上所述,使用同義句進(jìn)行語義增強(qiáng)能夠提高模型對(duì)于給定學(xué)術(shù)文本的理解深度,這對(duì)于提升自然語言推理任務(wù)的性能具有積極的作用。
3.5 同義句增強(qiáng)方式對(duì)模型效果的影響分析
為了驗(yàn)證同義句增強(qiáng)方式對(duì)模型效果的影響,本文對(duì)比了如下兩種方式:①數(shù)據(jù)增強(qiáng),即在訓(xùn)練集直接增加樣本的同義句作為訓(xùn)練樣本;②語義增強(qiáng),即在原樣本上使用樣本的同義句進(jìn)行語義增強(qiáng)。實(shí)驗(yàn)結(jié)果如圖7~9所示,采用準(zhǔn)確率作為實(shí)驗(yàn)指標(biāo)。
總體來說,語義增強(qiáng)的方式要優(yōu)于數(shù)據(jù)增強(qiáng)的方式,這表明在處理具有較為豐富語義結(jié)構(gòu)的文本對(duì)時(shí),語義增強(qiáng)能夠提供更加深入的語義理解,從而提高模型的性能。在SciTail和SciNLI數(shù)據(jù)集上,語義增強(qiáng)展現(xiàn)出一致的性能優(yōu)勢(shì)。對(duì)于ZwNLI數(shù)據(jù)集,兩種方法的性能非常接近,語義增強(qiáng)策略并沒有顯示出顯著的優(yōu)勢(shì)。這可能是因?yàn)閆wNLI數(shù)據(jù)集本身的難度較低,模型即使在直接訓(xùn)練情況下也能達(dá)到非常高的準(zhǔn)確率。然而,值得注意的是,語義增強(qiáng)在每次實(shí)驗(yàn)中都略優(yōu)于或等于數(shù)據(jù)增強(qiáng)的結(jié)果,表明即使在較易的數(shù)據(jù)集上,語義增強(qiáng)也對(duì)模型性能產(chǎn)生積極的作用。
3.6 同義句生成方式對(duì)模型效果的影響分析
為了驗(yàn)證不同的同義句生成方式對(duì)模型效果的影響,對(duì)比了以下幾種方式,包括同義詞替換、隨機(jī)插入、隨機(jī)交換、隨機(jī)刪除、回譯和大語言模型等方式,為了更加公平地探究不同的同義句生成方式對(duì)模型性能的影響,以上方式均產(chǎn)生1個(gè)同義句進(jìn)行語義增強(qiáng)。其中,同義詞替換是從句子中隨機(jī)選擇一個(gè)非停用詞單詞,用其隨機(jī)選擇的同義詞替換該單詞,對(duì)于英文語境使用的是WordNet的同義詞庫,中文語境則是采用構(gòu)建的同義詞庫。隨機(jī)插入是在句子中隨機(jī)找到一個(gè)非停用詞的單詞的隨機(jī)同義詞,將該同義詞插入句子中的任意位置。隨機(jī)交換則在句子中隨機(jī)選擇兩個(gè)單詞,并交換它們的位置。隨機(jī)刪除則是對(duì)于句子中的每個(gè)單詞,設(shè)置概率p將其隨機(jī)刪除,參考EDA方法[31]的研究,將概率p設(shè)置為0.1?;刈g是將句子首先翻譯為俄語,隨后再將其翻譯為英文或者中文,本文采用的是t5模型進(jìn)行回譯。大語言模型采用的是Qwen1.5-72B-Chat,采用2.2.1節(jié)(同義句生成)輸出的樣本的一個(gè)同義句,實(shí)驗(yàn)結(jié)果如表6所示,采用準(zhǔn)確率作為實(shí)驗(yàn)指標(biāo)。
總體來說,不同的同義句生成方式對(duì)模型效果的影響呈現(xiàn)出顯著差異,大語言模型在所有的同義句生成方法中表現(xiàn)最優(yōu)。具體而言,同義詞替換和回譯策略相較于無同義句增強(qiáng)的基線表現(xiàn)出一定的性能提升,表明這兩種方法在保持句子語義完整性的同時(shí),有效增加了學(xué)術(shù)文本表達(dá)的多樣性,從而增強(qiáng)了模型的泛化能力。相比之下,隨機(jī)交換單詞、隨機(jī)插入同義詞和隨機(jī)刪除單詞在英文語境下導(dǎo)致模型性能下降,這可能是由于這些方法在處理句子時(shí)未能充分考慮到詞匯間的語義關(guān)聯(lián)和句子結(jié)構(gòu)的完整性,從而引入了噪聲,干擾了模型的語義理解能力。值得注意的是,大語言模型Qwen1.5-72B-Chat在所有數(shù)據(jù)集上都顯著優(yōu)于其他同義句生成方法,這表明大模型在理解和生成學(xué)術(shù)文本方面具有較好的能力,能夠?yàn)镾ENLI模型提供更高質(zhì)量的增強(qiáng)效果。
4 討 論
4.1 研究討論
在上述實(shí)證研究的基礎(chǔ)上,針對(duì)2.1節(jié)的研究問題展開討論。
1)針對(duì)研究問題1(在自然語言推理任務(wù)中,SENLI模型是否能夠超越現(xiàn)有的深度學(xué)習(xí)模型?),對(duì)比了不同的基線方法,例如BERT、RoBERTa、SciBERT等,實(shí)驗(yàn)結(jié)果表明,SENLI模型在自然語言推理任務(wù)上的性能顯著優(yōu)于基線方法。此外,所提模型在英文數(shù)據(jù)集SciTail、SciNLI以及中文數(shù)據(jù)集ZwNLI上均展現(xiàn)出優(yōu)越的性能,驗(yàn)證了其在跨語言場(chǎng)景下的廣泛適用性和有效性。
2)針對(duì)研究問題2(同義句的增強(qiáng)和生成方式對(duì)SENLI模型效果是否有影響?),本文從同義句的數(shù)量、數(shù)據(jù)增強(qiáng)與語義增強(qiáng)方式的有效性對(duì)比,以及同義句的生成方式這3個(gè)維度,全面探究它們對(duì)SENLI模型性能的影響。實(shí)驗(yàn)結(jié)果表明,首先,進(jìn)行語義增強(qiáng)時(shí)同義句的數(shù)量對(duì)模型性能存在一定影響,采用同義句增強(qiáng)機(jī)制相較于未采用此策略顯著提升了模型性能,然而,當(dāng)同義句的引入量達(dá)到某一閾值后,模型性能的提升趨于平緩,表明存在一個(gè)最優(yōu)的同義句數(shù)量。其次,本文證實(shí)了同義句增強(qiáng)方式的選擇至關(guān)重要,本研究框架內(nèi)的語義增強(qiáng)方法相較于傳統(tǒng)數(shù)據(jù)增強(qiáng)方法,展現(xiàn)了更高的性能提升,凸顯了語義增強(qiáng)在本文模型中的重要作用。最后,驗(yàn)證了同義句生成方式對(duì)模型效果的影響,發(fā)現(xiàn)不同的同義句生成方式對(duì)模型效果確實(shí)存在顯著影響,其中大語言模型的生成方式展現(xiàn)出了最優(yōu)的性能。
4.2 研究局限
盡管本文在面向?qū)W術(shù)文本的自然語言推理任務(wù)中已經(jīng)取得了較好的效果,然而本文依然存在以下三方面的研究局限性:其一,本研究主要聚焦模型在自然語言推理任務(wù)上的表現(xiàn),缺乏對(duì)模型在不同下游任務(wù)中的泛化能力的系統(tǒng)性評(píng)估。其二,本文主要使用學(xué)術(shù)文本的同義句進(jìn)行語義增強(qiáng),未能融合詞語關(guān)系、單詞詞義等其他類型的信息,這可能導(dǎo)致模型在深層次語義理解方面的性能受限。其三,本研究未能充分利用學(xué)術(shù)文獻(xiàn)的多模態(tài)特性(如文本與圖像的結(jié)合),從而限制了模型在綜合理解多模態(tài)信息方面的能力。
在未來的研究中,將致力于以下3個(gè)方面:第一,探究如何將本文模型應(yīng)用到下游任務(wù)的技術(shù)路徑。第二,探索在自然語言推理模型中融合詞語關(guān)系、單詞詞義等信息的語義增強(qiáng)方法,以提升模型對(duì)學(xué)術(shù)文本的語義理解能力。第三,鑒于學(xué)術(shù)文獻(xiàn)的多模態(tài)特征,計(jì)劃將研究視野拓寬至多模態(tài)信息處理領(lǐng)域,整合文本、圖像等多種模態(tài)的信息,通過構(gòu)建統(tǒng)一的多模態(tài)表示與推理框架,為學(xué)術(shù)文獻(xiàn)的綜合語義分析提供更為全面的技術(shù)工具。
4.3 研究啟示
本文主要有以下研究啟示。第一,本文驗(yàn)證了不同的同義句生成方式對(duì)模型效果的影響,發(fā)現(xiàn)大語言模型生成方式展現(xiàn)出最優(yōu)性能,啟示研究者在選擇同義句生成策略時(shí),應(yīng)考慮生成模型的生成性能;第二,本文探討了同義句增強(qiáng)對(duì)模型性能的影響,發(fā)現(xiàn)在自然語言推理任務(wù)中,語義增強(qiáng)方法相較于直接增加訓(xùn)練樣本的數(shù)據(jù)增強(qiáng)方法能更顯著提升模型性能,這啟示研究者在進(jìn)行模型訓(xùn)練時(shí),應(yīng)重視語義層面的增強(qiáng)策略。
5 總 結(jié)
本文面向?qū)W術(shù)文本提出了一種語義增強(qiáng)的自然語言推理模型,旨在使用大語言模型生成的高質(zhì)量學(xué)術(shù)文本同義句,通過語義增強(qiáng)的方式提升模型的推理性能。鑒于學(xué)術(shù)文本領(lǐng)域自然語言推理數(shù)據(jù)集的稀缺性,本文特別構(gòu)建了一個(gè)面向圖書館學(xué)與情報(bào)學(xué)領(lǐng)域論文的自然語言推理數(shù)據(jù)集ZwNLI。將所建模型應(yīng)用于SciTail、SciNLI和ZwNLI數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果表明所建模型在自然語言推理任務(wù)中取得了較好的結(jié)果。本文不僅驗(yàn)證了SENLI模型在自然語言推理任務(wù)中的優(yōu)秀性能,而且深入探討了同義句的增強(qiáng)和生成方式對(duì)其性能的影響,為未來模型優(yōu)化和語義增強(qiáng)的自然語言推理研究提供了有價(jià)值的參考,也為學(xué)術(shù)文獻(xiàn)的高效檢索、知識(shí)關(guān)聯(lián)和智能推薦等潛在應(yīng)用提供了有力工具。
參考文獻(xiàn)
[1]Chen Q,Zhu X D,Ling Z H,et al.Enhanced LSTM for Natural Language Inference[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACL,2017:1657-1668.
[2]Li R H,Cheng L L,Wang D P,et al.Siamese BERT Architecture Model with Attention Mechanism for Textual Semantic Similarity[J].Multimedia Tools and Applications,2023,82(30):46673-46694.
[3]Wang X,Yang H M.MGMSN:Multi-Granularity Matching Model Based on Siamese Neural Network[J].Frontiers in Bioengineering and Biotechnology,2022,10:839586.
[4]李綱,余輝,毛進(jìn).基于多層語義相似的技術(shù)供需文本匹配模型研究[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2021,5(12):25-36.
[5]余輝,夏文蕾,黃煒,等.基于文本匹配-組態(tài)優(yōu)化的兩階段技術(shù)供需匹配方法研究[J].情報(bào)學(xué)報(bào),2024,43(3):261-273.
[6]Abu-Salih B,Alweshah M,Alazab M,et al.Natural Language Inference Model for Customer Advocacy Detection in Online Customer Engagement[J].Machine Learning,2024,113(4):2249-2275.
[7]Wu L W,Liu P S,Zhao Y Q,et al.Human Cognition-Based Consistency Inference Networks for Multi-Modal Fake News Detection[J].IEEE Transactions on Knowledge and Data Engineering,2024,36(1):211-225.
[8]Song Y,Hu Q V,He L.P-CNN:Enhancing Text Matching with Positional Convolutional Neural Network[J].Knowledge-Based Systems,2019,169:67-79.
[9]Yu X M,Shen Y D,Ni Y,et al.CapsTM:Capsule Network for Chinese Medical Text Matching[J].BMC Medical Informatics and Decision Making,2021,21(Suppl 2):94.
[10]Gan L,Hu L H,Tan X D,et al.TBNF:A Transformer-Based Noise Filtering Method for Chinese Long-Form Text Matching[J].Applied Intelligence,2023,53(19):22313-22327.
[11]范萌,常志軍,錢力,等.面向結(jié)構(gòu)化篇級(jí)科技文獻(xiàn)數(shù)據(jù)治理的高性能分布式計(jì)算框架研究[J].情報(bào)雜志,2024,43(3):182-189,121.
[12]程芮,張海軍.一種基于數(shù)據(jù)增強(qiáng)的科技文獻(xiàn)關(guān)鍵詞提取模型[J].情報(bào)雜志,2024,43(1):135-141,120.
[13]蘇新寧.傳統(tǒng)知識(shí)組織方法的智能力[J].科技情報(bào)研究,2024,6(1):1-9.
[14]劉細(xì)文,孫蒙鴿,王茜,等.DIKIW邏輯鏈下GPT大模型對(duì)文獻(xiàn)情報(bào)工作的潛在影響分析[J].圖書情報(bào)工作,2023,67(21):3-12.
[15]張強(qiáng),王瀟冉,高穎,等.ChatGPT生成與學(xué)者撰寫文獻(xiàn)摘要的對(duì)比研究——以信息資源管理領(lǐng)域?yàn)槔跩].圖書情報(bào)工作,2024,68(8):35-47.
[16]Devlin J,Chang M W,Lee K,et al.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[C]//Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Volume 1(Long and Short Papers).Minneapolis,Minnesota:ACL,2019:4171-4186.
[17]Zhong Q H,Ding L,Liu J H,et al.Can ChatGPT Understand Too?A Comparative Study on ChatGPT and Fine-Tuned BERT[J].arXiv Preprint arXiv:2302.10198,2023.
[18]Huang P S,He X D,Gao J F,et al.Learning Deep Structured Semantic Models for Web Search Using Clickthrough Data[C]//Proceedings of the 22nd ACM International Conference on Information amp; Knowledge Management.New York:ACM Press,2013:2333-2338.
[19]Hu B T,Lu Z D,Li H,et al.Convolutional Neural Network Architectures for Matching Natural Language Sentences[C]//Proceedings of the Advances in Neural Information Processing Systems.Cambridge:MIT Press,2014:2042-2050.
[20]Palangi H,Deng L,Shen Y L,et al.Deep Sentence Embedding Using Long Short-Term Memory Networks:Analysis and Application to Information Retrieval[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2016,24(4):694-707.
[21]Gong Y C,Luo H,Zhang J.Natural Language Inference Over Interaction Space[J].arXiv Preprint arXiv:1709.04348,2017.
[22]Huang G,Liu Z,Van Der Maaten L,et al.Densely Connected Convolutional Networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Hawaii,USA:IEEE,2017:4700-4708.
[23]Wang Z G,Hamza W,F(xiàn)lorian R.Bilateral Multi-Perspective Matching for Natural Language Sentences[C]//Proceedings of the Twenty-Sixth International Joint Conference on Artificial Intelligence.San Francisco:Morgan Kaufmann Press,2017:4144-4150.
[24]Yang R Q,Zhang J H,Gao X,et al.Simple and Effective Text Matching with Richer Alignment Features[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics,Stroudsburg:Association for Computational Linguistics,2019:4699-4709.
[25]Zhang K,Lv G Y,Wu L,et al.LadRa-Net:Locally Aware Dynamic Reread Attention Net for Sentence Semantic Matching[J].IEEE Transactions on Neural Networks and Learning Systems,2023,34(2):853-866.
[26]Hu Z,F(xiàn)u Z,Peng C,et al.Enhanced Sentence Alignment Network for Efficient Short Text Matching[C]//Proceedings of the Sixth Workshop on Noisy User-generated Text(W-NUT 2020),2020:34-40.
[27]Vaswani A,Shazeer N,Parmar N,et al.Attention is All You Need[C]//Proceedings of the Advances in Neural Information Processing Systems.Cambridge:MIT Press,2017:5998-6008.
[28]Liu Y H,Ott M,Goyal N,et al.RoBERTa:A Robustly Optimized BERT Pretraining Approach[EB/OL].[2022-06-11].https://arxiv.org/pdf/1907.11692.pdf.
[29]Lan Z Z,Chen M D,Goodman S,et al.ALBERT:A Lite BERT for Self-Supervised Learning of Language Representations[EB/OL].[2022-06-11].https://arxiv.org/pdf/1909.11942.pdf.
[30]Beltagy I,Lo K,Cohan A.SciBERT:A Pretrained Language Model for Scientific Text[C]//Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP).Hong Kong,China:Association for Computational Linguistics,2019:3615-3620.
[31]Wei J,Zou K.EDA:Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks[J].arXiv Preprint arXiv:1901.11196,2019.
[32]Xie Q Z,Dai Z H,Hovy E,et al.Unsupervised Data Augmentation for Consistency Training[J].Advances in Neural Information Processing Systems,2020,33:6256-6268.
[33]Huang W Y,Qu Q,Yang M.Interactive Knowledge-Enhanced Attention Network for Answer Selection[J].Neural Computing and Applications,2020,32(15):11343-11359.
[34]Bordes A,Usunier N,Garcia-Duran A,et al.Translating Embeddings for Modeling Multi-Relational Data[C]//Proceedings of the Neural Information Processing Systems.Cambridge,MA:MIT Press,2013,26:2787-2795.
[35]Jiang K X,Jin G Z,Zhang Z G,et al.Incorporating External Knowledge for Text Matching Model[J].Computer Speech amp; Language,2024,87:101638.
[36]Gajbhiye A,Moubayed N A,Bradley S.ExBERT:An External Knowledge Enhanced BERT for Natural Language Inference[C]//Artificial Neural Networks and Machine Learning-ICANN 2021:30th International Conference on Artificial Neural Networks,Bratislava,Slovakia,September 14-17,2021,Proceedings,Part V 30.Springer International Publishing,2021:460-472.
[37]Sun Y,Wang S H,Li Y K,et al.ERNIE 2.0:A Continual Pre-Training Framework for Language Understanding[C]//Proceedings of the AAAI Conference on Artificial Intelligence.New York,USA:AAAI,2020,34(5):8968-8975.
[38]Liu W J,Zhou P,Zhao Z,et al.K-BERT:Enabling Language Representation with Knowledge Graph[C]//Proceedings of the AAAI Conference on Artificial Intelligence.New York,USA:AAAI,2020,34(3):2901-2908.
[39]Lyu B,Chen L,Zhu S,et al.LET:Linguistic Knowledge Enhanced Graph Transformer for Chinese Short Text Matching[C]//Proceedings of the AAAI Conference on Artificial Intelligence.Online:ACL,2021,35(15):13498-13506.
[40]Xia T Y,Wang Y,Tian Y,et al.Using Prior Knowledge to Guide BERTs Attention in Semantic Textual Matching Tasks[C]//Proceedings of the Web Conference 2021.Ljubljana Slovenia:ACM,2021:2466-2475.
[41]Yu C M,Xue H D,An L,et al.A Lightweight Semantic-Enhanced Interactive Network for Efficient Short-Text Matching[J].Journal of the Association for Information Science and Technology,2023,74(2):283-300.
[42]Li Y N,Chen J Y,Li Y H,et al.Embracing Ambiguity:Improving Similarity-Oriented Tasks with Contextual Synonym Knowledge[J].Neurocomputing,2023,555:126583.
[43]謝林蕾,向熠,章成志.面向融合出版前沿主題發(fā)現(xiàn)的學(xué)術(shù)論文未來工作句挖掘研究[J].情報(bào)工程,2023,9(5):123-138.
[44]Zhang Y Y,Zhang C Z.Extracting Problem and Method Sentence from Scientific Papers:A Context-Enhanced Transformer Using Formulaic Expression Desensitization[J].Scientometrics,2024,129(6):3433-3468.
[45]張恒,趙毅,章成志.基于SciBERT與ChatGPT數(shù)據(jù)增強(qiáng)的研究流程段落識(shí)別[J].情報(bào)理論與實(shí)踐,2024,47(1):164-172,153.
[46]陸偉,劉寅鵬,石湘,等.大模型驅(qū)動(dòng)的學(xué)術(shù)文本挖掘——推理端指令策略構(gòu)建及能力評(píng)測(cè)[J].情報(bào)學(xué)報(bào),2024,43(8):946-959.
[47]李楠,方麗,張逸飛.學(xué)術(shù)文本結(jié)構(gòu)功能深度學(xué)習(xí)識(shí)別方法的多學(xué)科對(duì)比分析[J].現(xiàn)代情報(bào),2019,39(12):55-63,87.
[48]Shazeer N.GLU Variants Improve Transformer[J].arXiv Preprint arXiv:2002.05202,2020.
[49]Su J L,Ahmed M,Lu Y,et al.RoFormer:Enhanced Transformer with Rotary Position Embedding[J].Neurocomputing,2024,568:127063.
[50]Pennington J,Socher R,Manning C.Glove:Global Vectors for Word Representation[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing(EMNLP).Doha,Qatar:Association for Computational Linguistics,2014:1532-1543.
[51]Jiang K X,Zhao Y H,Jin G Z,et al.KETM:A Knowledge-Enhanced Text Matching Method[C]//2023 International Joint Conference on Neural Networks(IJCNN).IEEE,2023:1-8.
[52]Khot T,Sabharwal A,Clark P.SciTaiL:A Textual Entailment Dataset from Science Question Answering[C]//Proceedings of the 32th AAAI Conference on Artificial Intelligence.Palo Alto:AAAI Press,2018:5189-5197.
[53]Sadat M,Caragea C.SciNLI:A Corpus for Natural Language Inference on Scientific Text[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).Dublin,Ireland:Association for Computational Linguistics,2022:7399-7409.
(責(zé)任編輯:郭沫含)