• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    中醫(yī)古文相似度計算研究:一種以生成式AI融合領域知識的SimCSE方法

    2025-03-27 00:00:00張君冬劉江峰鄧景鵬劉艷華黃奇
    現(xiàn)代情報 2025年4期

    關鍵詞:中醫(yī)古籍;相似度計算;預訓練語言模型;SimCSE;AIGC

    中醫(yī)古籍,中華文化之瑰寶,載千年醫(yī)道之精粹,古籍所書,不獨醫(yī)藥方劑,更含養(yǎng)生之術,辯證之法,治病之經(jīng),皆以不朽之經(jīng)典,傳承至今。文本相似度技術對古籍整理、文獻溯源、文獻查找等方面具有重要意義:①集注集釋整理,可精準比對不同古籍中的相似文段,極大提升整理古籍時的效率和準確性,從而為研究者呈現(xiàn)更為清晰、完整的中醫(yī)知識體系;②文本生成溯源方面,則助力追蹤和分析特定醫(yī)學理論或治療方法的發(fā)展歷程,揭示中醫(yī)學術思想的演變和流變:③對于重出文獻的追尋和查找,文本相似度計算能有效識別并對比古籍中的相似或重復內(nèi)容,便利版本比較與校勘工作。然而,中醫(yī)古籍的文本內(nèi)容涵蓋多個世紀的醫(yī)學知識和實踐經(jīng)驗,包含了大量特殊術語和古代漢字,這也使得傳統(tǒng)的自然語言處理(NLP)方法不能勝任,因此,如何構建適用于中醫(yī)古籍領域的相似度計算模型已成為一個重要的研究問題。

    SimCSE(Supervised and Unsupervised ImprovedContrastive Sentence Embedding)作為主流的相似度計算方法,已在多個領域文本相似度計算任務中取得顯著效果,主要分為有監(jiān)督和無監(jiān)督兩種。有監(jiān)督的SimCSE相較于無監(jiān)督能夠更準確地捕捉語義信息,效果也更為可靠,但需標注一定規(guī)模的高質量數(shù)據(jù)作為訓練集,而對于本文的中醫(yī)古文相似度任務,其痛點在于,一方面,市面上并無開源的中醫(yī)古文相似數(shù)據(jù)集,若采取人工標注則需標注者在具備古文理解力的同時具備強大的中醫(yī)知識基礎,速度慢,產(chǎn)能低;另一方面,SimCSE方法基于預訓練語言模型,而現(xiàn)有的語言模型多以通用古籍類為主,針對中醫(yī)古籍這一細分領域,尚未有相關的模型。

    隨著以ChatGPT、ChatGLM為代表的生成式大語言模型取得飛速突破,自然語言處理也迎來新的研究范式和多樣化選擇。大語言模型能夠根據(jù)用戶輸入的Prompt提示詞,利用自身強大的語言理解和生成能力給出流暢通順的回答。在此情境下,采用AI生成的自監(jiān)督標注(Automated Supervision byAI)方法來取代傳統(tǒng)有監(jiān)督人工標注下游任務訓練集成為一大可能。

    結合上述情況,本文在多個通用古籍模型增量預訓練的基礎上,利用AIGC技術生成全部下游任務數(shù)據(jù),在此基礎上結合SimCSE對比學習方法,設計出一種針對中醫(yī)古籍領域的古文相似度計算模型。本文主要貢獻在于:①對現(xiàn)有多個通用古籍BERT模型進行增量預訓練,獲得適用于中醫(yī)古籍領域的BERT模型,以更好地表示中醫(yī)古籍語義文本特征。②針對中醫(yī)古籍領域暫無公開數(shù)據(jù)集且標注成本高的情況,利用生成式AI技術,構建適用于中醫(yī)古籍領域對比學習的正負樣本訓練集,極大地減輕了人工標注工作量。③首次提出針對中醫(yī)古籍領域的古文相似度計算模型,實驗比較了不同訓練方式、不同預訓練語言模型、不同種類Prompt提示詞構建的正負樣本進行對比學習的效果,探討了不同正樣本混合方式對模型性能的提升策略,證明了在零樣本訓練集條件下,基于AIGC的樣本訓練數(shù)據(jù)構造方法具備一定的可行性,效果顯著優(yōu)于傳統(tǒng)的無監(jiān)督對比學習。

    1相關研究

    1.1從淺層距離到深度語義探索:文本相似度研究歷程

    文本相似度是一種用于確定兩個或多個文本之間語義或結構相似性的任務。早期的文本相似度方法大多是通過度量文本間的距離進行計算,如Sim-Hash、BM25等。隨著特征工程的興起,文本相似度領域開始通過構建合適的特征來將文本表示為詞向量或句向量,并使用向量之間的距離或相似性度量來衡量文本的相似程度,如詞袋模型、TF-IDF、N-gram等。這類方法在一定程度上提高了文本相似度的效果,但難以表示文本中的全部語義信息,因此實際效果并不顯著。再后來,利用諸如Word2vec、GloVe等詞向量模型進行文本表示更具便捷性,可以自動學習語義特征表示,逐漸取代了相對繁瑣的特征工程方法。近年來,隨著預訓練語言模型技術的迅猛發(fā)展,研究者們開始利用BERT模型提取文本的上下文語義信息,并使用其生成的語義向量進行相似度量,這也使得文本相似計算效果得到進一步提高。已有實驗證實,相較于利用BERT直接獲取語義向量表示的方法,SimCSE方法可有效解決向量表達存在各向異性以及向量分布不均勻的情況,能更好地學習到句向量表征,可進一步優(yōu)化BERT模型在文本相似度計算中的應用效果,提高模型的魯棒性和泛化能力,這也為文本相似度計算提供了更為強大和可靠的工具。

    1.2零樣本資源下的智慧啟迪:AIGC賦能NLP經(jīng)典任務

    自ChatGPT問世以來,憑借其深厚的語義理解和智能推理能力,實現(xiàn)了對復雜語境的準確把握與敏銳回應,從而在對話生成和智能問答中顯露出獨特優(yōu)勢,同時也為NLP經(jīng)典任務注入了新的活力與可能。當前,就生成式AI技術能否直接應用于NLP經(jīng)典任務,相關學者以此為契機進行了探索。如,張華平等在零樣本資源情況下使用9個數(shù)據(jù)集評估ChatGPT的中文表現(xiàn)性能,發(fā)現(xiàn)在NLP經(jīng)典理解式任務上表現(xiàn)較好,在情感分析上具有85%以上的準確率,在閉卷問答上出現(xiàn)事實性錯誤的概率較高。鮑彤等評估ChatGPT在典型中文信息抽取任務中的性能,發(fā)現(xiàn)ChatGPT在事件抽取中具有較好的表現(xiàn),在命名實體識別、關系抽取中的效果與中文預訓練模型存在較大差距。

    上述研究表明,生成式AI技術在傳統(tǒng)理解式任務上表現(xiàn)出優(yōu)異性能,但對于復雜場景下特定領域的判別式、抽取式任務上,效果并不領先,此后部分學者開始嘗試利用AIGC技術簡化傳統(tǒng)NLP方法處理流程,如,張恒等針對研究流程段落識別任務,在SciBERT模型的基礎之上,利用ChatGPT通過數(shù)據(jù)增強,顯著提高了分類的準確率和F1值。因而,本研究認為,在大語言模型無法很好地勝任且傳統(tǒng)NLP處理方法又缺少標注數(shù)據(jù)的情境下,利用生成式AI技術構建樣本訓練集具備一定的可行性。

    2研究介紹

    2.1研究框架

    本文的研究框架,如圖1所示,主要分為語料收集及預處理、融合領域知識的繼續(xù)預訓練、基于對比學習的SimCSE相似度計算3個部分:①語料收集及預處理,通過模擬鼠標鍵盤點擊的方式爬取《中華醫(yī)典》數(shù)據(jù)庫中的所有數(shù)據(jù),之后通過進行數(shù)據(jù)清洗以形成繼續(xù)預訓練所需的中醫(yī)古籍純文本語料;②融合領域知識的繼續(xù)預訓練,選擇多個通用古籍語言模型進行繼續(xù)預訓練,采用10%的中醫(yī)古籍語料作為驗證集,使用困惑度指標(PPL,Per-plexity)初步評估模型的性能;③基于對比學習的SimCSE相似度計算,通過設計不同的Prompt模板,采用AI技術構建不同種類的正負樣本對作為訓練集,在多個模型繼續(xù)預訓練的基礎上結合SimCSE方法進行多次實驗對比,同時探討不同正樣本混合策略對模型性能的提升。

    2.2融合領域知識的繼續(xù)預訓練

    BERT模型作為一種自監(jiān)督學習的語言表示模型,已在許多自然語言處理任務中取得顯著的成就。然而,當被應用到具有特定領域知識的任務時,其通用的預訓練框架可能不足以捕獲領域特有的語義細節(jié),領域知識融合則是將任務相關的數(shù)據(jù)或特定領域的知識引入預訓練模型,使其能夠更好地理解語境和上下文,從而提升其特定任務的性能表現(xiàn)。如,趙一鳴等將醫(yī)學信息查詢相關的語料對BERT模型進行繼續(xù)預訓練,在較低的資源和時間成本下獲得預訓練模型MQ-BERT,使其更好地表征醫(yī)學信息查詢式的詞向量,以適應意圖強度識別任務。

    2.3基于對比學習的SimCSE相似度計算

    SimCSE是一種在預訓練語言模型的基礎上,通過對比學習來提高相似度計算效果的方法,其訓練主要分為無監(jiān)督和有監(jiān)督兩種方式。無監(jiān)督的SimCSE采用Dropout作為簡單的數(shù)據(jù)增強技術,通過對同一個輸入句子進行兩次前向傳播以產(chǎn)生兩個略有差異的正樣本,同時使用與輸入句子長度不同的負樣本來進行訓練,其弊端在于訓練完成的模型傾向于認為長度相近的句子在語義上也更為相似。有監(jiān)督的SimCSE需要一定規(guī)模的精加工標簽數(shù)據(jù)集,使用預先定義的正樣本對和負樣本對來訓練。由于直接從標記數(shù)據(jù)中學習,有監(jiān)督的SimCSE能夠更準確地捕捉語義信息,與無監(jiān)督相比,效果更為可靠。

    3融合中醫(yī)古籍知識的繼續(xù)預訓練實驗

    3.1實驗語料收集

    本文所進行的繼續(xù)預訓練實驗語料來源為“九五”國家重點電子出版規(guī)劃項目的重要成果《中華醫(yī)典》數(shù)據(jù)庫。該數(shù)據(jù)庫按圖書館分類法將歷代中醫(yī)古籍分為醫(yī)經(jīng)、診法、本草等12個大類,條理清晰、涇渭分明,涵蓋到民國為止的中國傳統(tǒng)醫(yī)學文化建設的主要成就,卷帙上萬,是目前市面上規(guī)模最為宏大的中醫(yī)古籍類電子叢書。

    表1列出《中華醫(yī)典》各類目具體數(shù)量及字數(shù)。從字數(shù)統(tǒng)計結果來看,共67346246個漢字,單本古籍字數(shù)最少的為臨證各科類目,最多的為方書;不重復漢字共8628個,各個類目不重復漢字數(shù)均占50%以上,反映出中醫(yī)古籍用詞凝練度高,專業(yè)術語集中性強。

    3.2實驗評測指標

    困惑度(PPL,Perplexity)作為一種衡量語言模型預測樣本概率的指標,被廣泛應用于各類預訓練任務的評測中。理論上來講,困惑度越低,模型的性能越好,對數(shù)據(jù)的不確定性越小,如式(1)所示:

    3.3基線模型介紹

    盡管現(xiàn)有的古籍語言模型在古籍領域表現(xiàn)出一定的普適性,但應用于更加專業(yè)和細分的自然語言處理任務日寸,其性能往往受到限制。因此,面對中醫(yī)專業(yè)知識密集的中醫(yī)古籍領域,有必要在通用古籍模型的基礎上進行繼續(xù)預訓練。

    基線模型選擇方面,筆者綜合考察了現(xiàn)有古籍方面的NLP任務所用模型,發(fā)現(xiàn)guwenbert-base、SikuBERT、SikuRoBERTa這三類模型所用居多,如劉江峰等對典籍文本進行命名實體識別,張逸勤等針對跨語言典籍進行跨語言風格計算,均采用了上述3種模型進行對比。與前人已有研究略有區(qū)別的是,本文在選擇前面三類模型的基礎上新增Gujibert、Gujiroberta兩種模型進行對比,其主要原因在于這兩種模型在繼續(xù)預訓練過程中語料類型較為特殊,為簡繁混合型,而本研究的中醫(yī)古籍語料分布年代各異,簡繁體眾多,若采用現(xiàn)有軟件全部統(tǒng)一為簡體或繁體,難免出現(xiàn)遺漏。考慮到上述情況,本研究最終選擇以下5種基線模型,如表2所示,在此基礎上進行繼續(xù)預訓練,旨在開發(fā)出更加適應中醫(yī)古籍的預訓練模型,以在下游文本相似度計算場景中取得更好的性能表現(xiàn)。

    GuwenBERT-base基于RoBERTa模型,由北京理工大學閻覃開發(fā)構建古漢語預訓練語言模型。該模型使用的訓練數(shù)據(jù)為殆知閣古代文獻數(shù)據(jù)集,包含15694本古典中文書籍,涵蓋佛教、儒家、歷史等多個領域,總共有大約17億個字符,同時在繼續(xù)預訓練過程中,所有傳統(tǒng)字符都經(jīng)過簡體轉換處理。SikuBERT和SikuRoBERTa是由南京農(nóng)業(yè)大學信息管理學院開發(fā)的針對古文文本自然語言處理的預訓練語言模型,采用校驗后的高質量《四庫全書》總共約5.36億字繁體語料作為訓練集,其中,SikuBERT基于BERT中文模型框架預訓練,SikuRoBERTa則在RoBERTa模型的基礎上繼續(xù)預訓練。Gujibert和Gujiroberta兩類模型與SikuBERT和SikuRoBERTa訓練過程基本相似,但與Siku系列模型相比,兩者的訓練來源有所不同,與gu-wenbert-base模型相比,其不同點則是在于訓練語料類型為簡繁混合型。

    3.4實驗參數(shù)設置

    研究設置了一系列超參數(shù),如表3所示,其中,學習率(Learning Rate)決定了模型權重更新的速度,將其設置為Se-05,有助于模型在學習過程中穩(wěn)定地調整和優(yōu)化;訓練輪數(shù)(num_train_epochs)設定為3,確保模型有足夠的時間學習古籍文本的細微特征,防止因過多訓練輪次而引起過擬合;設置梯度累積策略(gradient_accumulation_ steps)為4,可有效批量訓練,從而優(yōu)化內(nèi)存使用并提升模型性能。

    3.5繼續(xù)預訓練實驗結果

    針對不同模型訓練所需的語料類型,通過OpenCC包對訓練語料進行簡繁互換后,在5種通用古籍BERT模型上進行繼續(xù)預訓練,并在相應的驗證數(shù)據(jù)集上進行了性能評估。繼續(xù)預訓練所獲得的模型分別命名為TCM-guwenbert-base、TCM-Siku-BERT、TCM-SikuRoBERTa.TCM-Guibert、TCM-Gujiroberta。從表4實驗結果看,各個預訓練模型都取得了相對不錯的效果,TCM-SikuBERT最好,為5.928,TCM-guwenbert-base最差,為6.495。

    4中醫(yī)古文相似度計算實驗

    4.1實驗樣本來源

    古籍中的普通語句較為通俗,缺乏深層次的哲理內(nèi)涵,這可能不利于模型捕捉語言的深層含義:而古籍名言因其深刻的意義和精辟的表達,往往被后世頻繁引用,具有很高的辨識度和豐富的文化背景。因此,本文選擇《中華醫(yī)典》數(shù)據(jù)庫lt;辭典gt;類目下的所有古籍名言作為實驗樣本,使模型更加集中于理解中醫(yī)古文的語義特征和文化內(nèi)涵上,而非僅僅是語言形式上的相似性,以增強模型在實際應用中的識別力。

    為保證匹配的粒度相對統(tǒng)一,減少句長差異帶來的干擾,本研究將名言長度大致限定在8~30字的范圍內(nèi)。如果長度超過30,那么按照句子中間較大語義停頓的標點符號(如句號、感嘆號、問號等)進行分句,最終獲得3036條中醫(yī)古籍名言。表5列出部分中醫(yī)古籍名言示例及出處。

    4.2基于AIGC的正負樣本對生成

    4.2.1正負樣本對構造方式

    正樣本對:在不改變語義的情況下,基于AIGC的方式通過同義詞替換(Chat_SR)、隨機插入(Chat_RI)、隨機交換(Chat_RS)、隨機刪除(Chat_RD)、混合改寫(Chat_RW)5種方式生成相似樣本。

    負樣本對:當前主流的負樣本構造方式往往采用隨機選取樣本中句子作為負例,其問題在于隨機選的負樣本太容易區(qū)分,無法最大程度提升模型性能,因此本研究采用這一方法的同日寸新增一種方式進行對比,即通過AIGC生成一個句式相同但語義不同的低相似樣本。

    4.2.2Prompt提示詞構建步驟

    盡管以ChatGPT為代表的AIGC技術功能強大,但其效能的發(fā)揮仍然依賴于精心設計的Prompt提示詞。Prompt提示詞可以被視為一種機器人響應的指令或問題,引導AI沿著用戶的意圖進行思考,以生成用戶期望的回答。一個優(yōu)質Prompt提示詞可以減少歧義,提升答復的相關性與準確性,使AI機器能夠精準把握用戶意圖,生成包含洞察力的回答。

    在Prompt提示詞工程中,需要考慮問題的背景、語境,以及問題的明確性、信息的完整性、關鍵詞的使用、邏輯的清晰性.期望的回答類型等諸多方面。在多數(shù)情況下,Prompt的性能上限與對“好結果”的理解程度成正比,只有充分理解所謂的“好結果”具體好在哪些“點”,才能將這些“點”形式化為Prompt,從而把用戶的意圖更準確地傳達給模型?;谝陨弦?,本文基于種子樣本,在不同的任務需求下,根據(jù)ChatGPT-4構建用于古文正負樣本對生成的Prompt,主要分為以下五步工作,圖2列出AI機器基于“l(fā)t;同義詞替換gt;”這一構建方式生成相似古文樣本。

    1)指定模型所扮演的角色(Role):指定模型扮演的角色/身份以幫助模型更好地定位答復的內(nèi)容與風格。

    2)提供代表性的樣例(One-shot Prompt):為ChatGPT提供一個答案的參考,使其充分理解要求,提升模型性能表現(xiàn)。

    3)提供任務說明和要求(Demand):提供給ChatGPT語句流暢、意圖清晰、表達精簡的任務描述。

    4)指定生成結果的格式(Format):通過顯示規(guī)定模型返回結果的格式,以便于后續(xù)統(tǒng)計分析。

    5)設置拒答策略(Refusal Strategy):雖然Chat-GPT設置了諸如“我的知識截至2021年9月…”“作為一個人工智能模型…”這樣的拒答策略,但仍舊無法完全避免大模型胡說八道。本文嘗試手動設置拒答策略,即讓模型在沒有把握的時候拒絕回答問題,提高生成數(shù)據(jù)的質量。

    4.2.3基于AIGC的正負樣本對生成結果

    在正負樣本對生成結束后,通過AI的方式對所有句子對進行排序打分,賦值范圍為0~5,其中0代表完全不相似,5代表完全相似。研究對每對句子進行5次評估打分并取平均值,以此抵消單次評估中的隨機波動或偏好傾向,在此基礎上結合人工2次評估調整得到最終評分。表6、表7列出了不同構建方式下正負樣本的生成示例,表8為訓練數(shù)據(jù)集AI打分結果示例。

    4.3文本相似度計算評估指標

    斯皮爾曼相關系數(shù)(Sperman

    Correlation)被用來衡量模型產(chǎn)生的排序結果與數(shù)據(jù)集中標注的參考排序之間的相關程度。取值范圍在-1~1之間,1表示完全正相關,-1表示完全負相關,0表示沒有相關性。其主要優(yōu)勢在于直接從排序角度評價模型的性能,不依賴于具體的閾值設置,避免閾值選擇的主觀性和不確定性。具體來講,通過將模型輸出的相似度分數(shù)轉換為一個等級序列,而將數(shù)據(jù)集中預先標注的“正確”排序作為另一個等級序列,然后通過計算這兩個序列之間的相關性,以評估模型排序結果的準確性,如式(2)所示。

    4.4實驗參數(shù)設置

    文本相似度實驗參數(shù)設置,如表9所示,除學習率(learning_rate)、批量大?。╞atch_size)等常見指標外,設置Dropout比率為0.1,以減少過擬合的風險,增強模型對未見數(shù)據(jù)的泛化能力;設置最大長度(max_len)為100,保證模型可以處理不同長度的文本,同時優(yōu)化內(nèi)存利用率和計算效率;設置隨機種子(seed)為42,確保模型訓練過程的可重復性,該指標影響著數(shù)據(jù)集的分割、權重初始化以及模型訓練過程中的任何隨機性決策,通過固定這個值,確保每次實驗在相同的初始條件下進行,從而使不同實驗間的比較成為可能。

    4.5文本相似度結果與分析

    4.5.1不同訓練方式、不同預訓練語言模型、不同正負樣本構造方法對比學習實驗結果

    鑒于各個模型的困惑度指標值差距不大,因此,將上述5個繼續(xù)預訓練后的模型全部納入,以更好地比對在下游古文相似度任務中的效果。本研究采用精確的人工標注方法來創(chuàng)建一個測試集,包含了500對真實中醫(yī)古籍中的相似文本及相似得分(0分~5分)。表10列出了不同訓練方式、不同預訓練語言模型、不同正負樣本構造方法對比學習結果。

    1)不同訓練方式對比:從實驗結果來看,無監(jiān)督學習中,模型性能普遍最低,表明模型在缺乏明確的正負樣本指導時難以捕捉到古文的深層語義信息。相對而言,當引入AI自監(jiān)督學習,特別是結合隨機負樣本時,性能得到明顯的提升。此外,基于AIGC技術生成構建語義不同的低相似度樣本日寸,模型的性能得到最大程度的提升。這表明,通過AIGC構建的高質量負樣本可顯著提高模型的區(qū)分能力,在提升模型性能方面起到?jīng)Q定性的作用。

    2)不同預訓練語言模型對比:不同的模型展現(xiàn)出了性能差異,揭示了它們在處理古文語義上的不同能力。與其他模型相比,TCM-Gujiroberta模型性能往往更好,這可能是由于RoBERTa架構在面對AIGC生成的高質量負樣本時優(yōu)化了對內(nèi)部語義關系的捕捉,從而對古文有更深刻的理解。TCM-SikuBERT和TCM-SikuRoBERTa模型雖然也顯示出良好的性能,但相比Guji系列模型略顯不足,TCM-guwenbert-base性能最低,這可能意味著該模型的結構、預訓練數(shù)據(jù)或訓練策略相對較簡單,不足以充分捕捉中醫(yī)古文的語義復雜性。

    3)不同正負樣本對構造方式對比:基于AIGC的正樣本構建方式同樣顯著影響模型性能,同義詞替換和混合改寫,在所有模型上都表現(xiàn)出較高的性能,其主要原因在于這兩種方法能夠在保持原文語義的同時引入適當?shù)淖兓?,可有效幫助模型學習理解不同表達形式下的相同意義。隨機插入策略的性能較低,可能因為它在古文中引入額外的噪聲,從而降低模型的理解能力。相對而言,隨機刪除雖然也引入了一定的隨機性,但由于它在減少原文內(nèi)容的時候主要以無實際意義的虛詞為主,對模型性能的影響較小。隨機交換其性能則介于隨機插入和隨機刪除之間,但這種策略有時可能擾亂文本原有的語義結構。

    4.5.2低相似負樣本情況下不同正樣本混合策略對各類模型效果的提升

    從表10實驗結果來看,高質量的負樣本可顯著提升模型的性能,而單一的正樣本類型顯然不能最大程度提升模型的性能,因此在低相似負樣本情況下,選擇上述結果較優(yōu)的同義詞替換(Chat_SR)、隨機刪除(Chat_RD)、混合改寫(Chat_RW)3種正樣本構建方式,按照20%、30%、50%的比例隨機抽取混合,形成新的樣本訓練集進行實驗,以更好地探討不同正樣本混合方式對模型性能的提升,具體結果如表11所示。

    實驗結果表明,選擇低相似負樣本,并隨機混合不同正樣本后,各個模型的性能得到了進一步提升。其中,繼續(xù)預訓練后的TCM-Gujibert模型在20%(隨機刪除)+30%(同義詞替換)+50%(混合改寫)的樣本組合下效果最好,達到0.932。此外,相同的混合策略下,各個模型性能表現(xiàn)差異顯著,如混合改寫(Chat_RW)占據(jù)主導地位(50%比例)時,TCM-Gujibert模型在這種組合下分數(shù)最高,分別為0.924和0.932,而TCM-guwenbert-base僅為0.878和0.864。

    5總結與展望

    文本相似度計算為古籍研究之要點。以此技藝,辨識古文之同異,窮盡文獻之深意,如行云流水,得以串聯(lián)歷代典籍之相互關聯(lián),揭示古代學術之綿延不絕。相似度之運用,宛如慧眼,洞察文辭之微妙變化,觀歷史文化之深遠脈絡。由此覽古今之變遷,探思想文化之演進,昭示人文社科研究之新徑,開拓中醫(yī)學術研究之新天地。

    本研究設計出一種針對中醫(yī)古籍領域的古文相似度計算模型,同時解決了通用BERT模型在中醫(yī)古籍領域語義表征困難和下游數(shù)據(jù)標注成本高昂的問題。研究在現(xiàn)有五類通用古籍模型增量預訓練的基礎上,結合SimCSE方法,對不同訓練方式、不同預訓練語言模型、不同正負樣本構造方法進行對比實驗,并探討低相似負樣本情況下不同正樣本混合策略對模型性能的提升。實驗結果表明,無監(jiān)督學習中,模型性能普遍偏低,當引入AI自監(jiān)督生成的正負樣本對后,模型性能得到明顯的提升。其中,AIGC驅動的語義不同的低相似負樣本結合同義詞替換的正樣本構成訓練集后,TCM-Gujiroberta模型表現(xiàn)最佳,為0.909。此外,選擇低相似負樣本,并隨機混合不同正樣本,可進一步提升模型效果,如TCM-Gujibert模型在20%(隨機刪除)+30%(同義詞替換)+50%(混合改寫)的樣本組合下效果最好,達到0.932。

    本文設計了一種巧妙的數(shù)據(jù)標注方法,其優(yōu)點在于無需人工標注任何訓練數(shù)據(jù),并通過大量對比實驗驗證了該方法的有效性。當然,由于實驗和篇幅的限制,本研究仍然存在一些不足,后續(xù)將繼續(xù)開展以下研究以補充和完善本文的工作。

    1)在繼續(xù)預訓練語料的選取上,設計自動化的算法,如實施動態(tài)選擇機制,根據(jù)模型在訓練過程中的表現(xiàn)反饋調整語料選擇,有效識別和選擇那些對模型性能提升最有幫助的語料,同時減少對無效或低效語料的依賴,以提高預訓練的效果。

    2)數(shù)據(jù)構建策略方面,目前實驗僅選擇了5種AI生成的正樣本構造方式,雖然這些構造方式有效,但可能無法覆蓋中醫(yī)古文的所有語義復雜性。后續(xù)將探索更多樣化的AI數(shù)據(jù)構建技術,如針對不同朝代特定語言風格構建等,以更全面地覆蓋中醫(yī)古文的語義特點。

    3)目前的分析主要集中在模型的表現(xiàn)層面,對于模型為何在特定數(shù)據(jù)組合策略下表現(xiàn)更佳的內(nèi)部機制探索仍不夠深入。未來將通過模型可視化和解釋性分析,如注意力機制可視化等方法,觀察模型在不同數(shù)據(jù)組合策略下的關鍵依賴點。

    男女视频在线观看网站免费 | 日日爽夜夜爽网站| www日本在线高清视频| 亚洲三区欧美一区| 1024香蕉在线观看| 日韩高清综合在线| 在线播放国产精品三级| 亚洲一区二区三区不卡视频| 亚洲真实伦在线观看| 亚洲精品粉嫩美女一区| 亚洲成av人片免费观看| 最新美女视频免费是黄的| 中文字幕精品免费在线观看视频| 亚洲美女黄片视频| 国产伦人伦偷精品视频| 日韩一卡2卡3卡4卡2021年| 国产精品电影一区二区三区| 久久精品人妻少妇| 国产一区二区激情短视频| 午夜福利视频1000在线观看| 99精品在免费线老司机午夜| 大型黄色视频在线免费观看| 一个人免费在线观看的高清视频| 黄色片一级片一级黄色片| 午夜免费鲁丝| 久久久久久九九精品二区国产 | 久久久久九九精品影院| 黄色a级毛片大全视频| 777久久人妻少妇嫩草av网站| 国产在线观看jvid| av视频在线观看入口| 在线av久久热| 一级毛片精品| 女人高潮潮喷娇喘18禁视频| 日日干狠狠操夜夜爽| 国产区一区二久久| 国产精品乱码一区二三区的特点| www日本黄色视频网| 久久久精品欧美日韩精品| 午夜老司机福利片| 色播在线永久视频| 美女大奶头视频| 制服丝袜大香蕉在线| 97超级碰碰碰精品色视频在线观看| 亚洲av中文字字幕乱码综合 | 性欧美人与动物交配| 9191精品国产免费久久| 美女大奶头视频| 51午夜福利影视在线观看| 十分钟在线观看高清视频www| 色播在线永久视频| 亚洲国产毛片av蜜桃av| 日韩欧美免费精品| 国产成人啪精品午夜网站| 国产熟女xx| 免费观看精品视频网站| 国内毛片毛片毛片毛片毛片| 中文字幕另类日韩欧美亚洲嫩草| 久久性视频一级片| svipshipincom国产片| 成人欧美大片| 日本黄色视频三级网站网址| 欧美av亚洲av综合av国产av| 国产三级黄色录像| 久久天躁狠狠躁夜夜2o2o| 国产av又大| 99在线视频只有这里精品首页| 亚洲免费av在线视频| 99精品久久久久人妻精品| 男人的好看免费观看在线视频 | 久久精品aⅴ一区二区三区四区| 国产精品二区激情视频| 久久精品aⅴ一区二区三区四区| 中文字幕人妻丝袜一区二区| 91av网站免费观看| 国产亚洲精品久久久久5区| 免费搜索国产男女视频| 嫁个100分男人电影在线观看| 后天国语完整版免费观看| 久久久久国产一级毛片高清牌| 丰满人妻熟妇乱又伦精品不卡| 精品第一国产精品| 怎么达到女性高潮| 精品少妇一区二区三区视频日本电影| 欧美激情 高清一区二区三区| www.www免费av| 欧美大码av| 757午夜福利合集在线观看| 伦理电影免费视频| 正在播放国产对白刺激| 精品午夜福利视频在线观看一区| 国产成人啪精品午夜网站| 日韩大尺度精品在线看网址| 一区二区三区国产精品乱码| 亚洲va日本ⅴa欧美va伊人久久| 婷婷亚洲欧美| 在线观看www视频免费| 国产午夜福利久久久久久| 国产视频一区二区在线看| 身体一侧抽搐| 波多野结衣av一区二区av| 搡老妇女老女人老熟妇| 欧洲精品卡2卡3卡4卡5卡区| 亚洲人成网站在线播放欧美日韩| 老汉色av国产亚洲站长工具| 午夜激情福利司机影院| 国产成+人综合+亚洲专区| 欧美av亚洲av综合av国产av| 最近最新免费中文字幕在线| 黄色毛片三级朝国网站| 欧美av亚洲av综合av国产av| 久久精品91无色码中文字幕| 可以在线观看毛片的网站| 此物有八面人人有两片| cao死你这个sao货| 99久久无色码亚洲精品果冻| 成年女人毛片免费观看观看9| 老司机在亚洲福利影院| 亚洲成av片中文字幕在线观看| 欧美日韩福利视频一区二区| 99国产精品一区二区三区| 99re在线观看精品视频| 给我免费播放毛片高清在线观看| 亚洲av成人一区二区三| 美女午夜性视频免费| 免费看十八禁软件| 亚洲午夜理论影院| 色综合亚洲欧美另类图片| 国产精华一区二区三区| 好看av亚洲va欧美ⅴa在| 丁香欧美五月| 一本久久中文字幕| 中文资源天堂在线| 丰满的人妻完整版| 午夜老司机福利片| 白带黄色成豆腐渣| 亚洲,欧美精品.| 一进一出抽搐动态| 美女国产高潮福利片在线看| 久久中文看片网| 麻豆成人午夜福利视频| 欧美国产精品va在线观看不卡| 精品久久久久久,| 变态另类成人亚洲欧美熟女| 久久中文字幕人妻熟女| a级毛片在线看网站| 精品无人区乱码1区二区| 久久性视频一级片| 两性夫妻黄色片| 成人国语在线视频| 免费一级毛片在线播放高清视频| 成人特级黄色片久久久久久久| 黑人操中国人逼视频| 国产亚洲欧美精品永久| 日日摸夜夜添夜夜添小说| 在线观看免费视频日本深夜| 国产成人系列免费观看| 露出奶头的视频| 在线观看日韩欧美| 亚洲欧洲精品一区二区精品久久久| 老司机深夜福利视频在线观看| 久久精品人妻少妇| 国产成年人精品一区二区| 欧美黑人巨大hd| 99久久综合精品五月天人人| 中文字幕精品免费在线观看视频| 一区二区日韩欧美中文字幕| 国产麻豆成人av免费视频| 天天一区二区日本电影三级| 99在线人妻在线中文字幕| 亚洲成国产人片在线观看| 午夜激情av网站| 亚洲国产欧洲综合997久久, | 色哟哟哟哟哟哟| av在线天堂中文字幕| 欧洲精品卡2卡3卡4卡5卡区| 91字幕亚洲| 欧美在线一区亚洲| netflix在线观看网站| 男人舔女人下体高潮全视频| 两性夫妻黄色片| 国产伦一二天堂av在线观看| 一二三四社区在线视频社区8| 日韩一卡2卡3卡4卡2021年| 亚洲色图av天堂| 老汉色av国产亚洲站长工具| 成人18禁在线播放| 国产三级在线视频| 亚洲成av人片免费观看| 亚洲av五月六月丁香网| 亚洲av成人av| 欧美丝袜亚洲另类 | 又黄又粗又硬又大视频| 19禁男女啪啪无遮挡网站| 99久久综合精品五月天人人| 欧美亚洲日本最大视频资源| 男女视频在线观看网站免费 | 国产精品久久久久久亚洲av鲁大| 国产精品 国内视频| 看免费av毛片| 美女大奶头视频| 制服诱惑二区| 精品福利观看| 极品教师在线免费播放| 午夜免费鲁丝| 欧美在线黄色| 精品一区二区三区四区五区乱码| 亚洲 欧美 日韩 在线 免费| 大型av网站在线播放| 免费在线观看日本一区| 成人三级黄色视频| 热99re8久久精品国产| 婷婷精品国产亚洲av| 女性生殖器流出的白浆| 制服人妻中文乱码| 国产真人三级小视频在线观看| 久久午夜亚洲精品久久| 777久久人妻少妇嫩草av网站| 亚洲av日韩精品久久久久久密| 精品日产1卡2卡| 亚洲一区二区三区色噜噜| 一夜夜www| 看免费av毛片| 午夜福利欧美成人| 国产区一区二久久| 久久精品人妻少妇| 麻豆国产av国片精品| 美女国产高潮福利片在线看| 久久久久久大精品| 亚洲欧美日韩高清在线视频| 黄色女人牲交| 性欧美人与动物交配| 亚洲精品国产区一区二| 色精品久久人妻99蜜桃| 两性午夜刺激爽爽歪歪视频在线观看 | 成人三级黄色视频| 别揉我奶头~嗯~啊~动态视频| 国产精品乱码一区二三区的特点| 欧美日韩中文字幕国产精品一区二区三区| 最新美女视频免费是黄的| 欧美av亚洲av综合av国产av| 非洲黑人性xxxx精品又粗又长| 亚洲专区国产一区二区| 日日干狠狠操夜夜爽| 中文字幕av电影在线播放| 日韩欧美一区视频在线观看| 久久精品国产99精品国产亚洲性色| 亚洲一区二区三区色噜噜| 大型av网站在线播放| 亚洲中文日韩欧美视频| 在线天堂中文资源库| √禁漫天堂资源中文www| 成人国产一区最新在线观看| 别揉我奶头~嗯~啊~动态视频| 国产乱人伦免费视频| 90打野战视频偷拍视频| 亚洲人成网站高清观看| 国产精品久久久人人做人人爽| 欧美三级亚洲精品| 听说在线观看完整版免费高清| 欧美日韩亚洲国产一区二区在线观看| 午夜视频精品福利| 久久午夜亚洲精品久久| 精品福利观看| 少妇裸体淫交视频免费看高清 | 韩国av一区二区三区四区| 国产私拍福利视频在线观看| 色尼玛亚洲综合影院| 亚洲真实伦在线观看| 1024手机看黄色片| 婷婷精品国产亚洲av| 欧美日韩亚洲综合一区二区三区_| 久久久久久久久免费视频了| 午夜免费观看网址| 国产亚洲欧美精品永久| 18禁黄网站禁片免费观看直播| 中文字幕人妻熟女乱码| 老汉色∧v一级毛片| 啪啪无遮挡十八禁网站| 色综合婷婷激情| 亚洲国产欧洲综合997久久, | 国产一区二区激情短视频| 一本精品99久久精品77| 日韩欧美一区二区三区在线观看| 欧美另类亚洲清纯唯美| 亚洲国产精品sss在线观看| 一级作爱视频免费观看| 亚洲成人久久性| 1024视频免费在线观看| 亚洲欧美精品综合一区二区三区| 啪啪无遮挡十八禁网站| 在线十欧美十亚洲十日本专区| 19禁男女啪啪无遮挡网站| 久久午夜亚洲精品久久| 精品午夜福利视频在线观看一区| 久热爱精品视频在线9| 久久中文看片网| 桃红色精品国产亚洲av| 91在线观看av| 久久精品夜夜夜夜夜久久蜜豆 | 亚洲中文av在线| 又大又爽又粗| 成人亚洲精品av一区二区| 国产乱人伦免费视频| 宅男免费午夜| 欧美日韩一级在线毛片| 亚洲av片天天在线观看| 美女午夜性视频免费| 午夜免费激情av| 久久 成人 亚洲| 搡老岳熟女国产| 免费看十八禁软件| 可以在线观看毛片的网站| 国产成人系列免费观看| 亚洲精品久久国产高清桃花| 国产99久久九九免费精品| 午夜福利在线在线| 亚洲黑人精品在线| 黄片播放在线免费| 免费在线观看影片大全网站| 久久久水蜜桃国产精品网| 一进一出抽搐动态| 在线十欧美十亚洲十日本专区| 国产私拍福利视频在线观看| 级片在线观看| 1024香蕉在线观看| 黄色丝袜av网址大全| 在线观看一区二区三区| 国产激情久久老熟女| 18禁黄网站禁片免费观看直播| 97超级碰碰碰精品色视频在线观看| 91字幕亚洲| 一级作爱视频免费观看| 久久久久久九九精品二区国产 | 我的亚洲天堂| 免费高清视频大片| 观看免费一级毛片| 久久精品国产清高在天天线| 制服人妻中文乱码| 国产成年人精品一区二区| 中文字幕最新亚洲高清| 国产精品久久久久久精品电影 | 一二三四社区在线视频社区8| 国产又黄又爽又无遮挡在线| 一区二区日韩欧美中文字幕| 精品久久久久久成人av| 久久99热这里只有精品18| 婷婷丁香在线五月| 久久精品夜夜夜夜夜久久蜜豆 | 精品国产乱子伦一区二区三区| 在线免费观看的www视频| 中文字幕最新亚洲高清| 国产精品,欧美在线| 美女扒开内裤让男人捅视频| 亚洲片人在线观看| 国产激情久久老熟女| 日韩精品免费视频一区二区三区| svipshipincom国产片| 一区福利在线观看| 高清在线国产一区| 18禁国产床啪视频网站| 精品一区二区三区av网在线观看| 亚洲精品美女久久av网站| 亚洲欧美日韩高清在线视频| 女生性感内裤真人,穿戴方法视频| 精品一区二区三区av网在线观看| 日韩三级视频一区二区三区| 热re99久久国产66热| 成人亚洲精品一区在线观看| 中文资源天堂在线| 51午夜福利影视在线观看| 99国产精品一区二区三区| 黄频高清免费视频| 亚洲av五月六月丁香网| 18美女黄网站色大片免费观看| 精品福利观看| 午夜免费激情av| 亚洲专区国产一区二区| 大香蕉久久成人网| 国产精品综合久久久久久久免费| 午夜精品久久久久久毛片777| 色哟哟哟哟哟哟| 99在线视频只有这里精品首页| 悠悠久久av| 男人操女人黄网站| 男人舔奶头视频| 99久久精品国产亚洲精品| 亚洲精品一区av在线观看| 黄色片一级片一级黄色片| 欧美一区二区精品小视频在线| 操出白浆在线播放| 久久久久亚洲av毛片大全| xxxwww97欧美| www日本黄色视频网| 亚洲avbb在线观看| 色综合亚洲欧美另类图片| 欧美大码av| 99精品欧美一区二区三区四区| 我的亚洲天堂| 91成年电影在线观看| 在线观看舔阴道视频| 欧美激情高清一区二区三区| 亚洲av五月六月丁香网| 国产黄色小视频在线观看| 窝窝影院91人妻| 欧美午夜高清在线| 99久久综合精品五月天人人| 神马国产精品三级电影在线观看 | 国产精品久久电影中文字幕| 91麻豆精品激情在线观看国产| 最新在线观看一区二区三区| 91字幕亚洲| 在线观看免费午夜福利视频| 男女午夜视频在线观看| 一级作爱视频免费观看| 亚洲 欧美 日韩 在线 免费| 麻豆国产av国片精品| 成人国产一区最新在线观看| 免费看日本二区| 搡老岳熟女国产| 法律面前人人平等表现在哪些方面| 他把我摸到了高潮在线观看| 人妻丰满熟妇av一区二区三区| 亚洲精品粉嫩美女一区| 国产亚洲精品av在线| 51午夜福利影视在线观看| 欧美不卡视频在线免费观看 | 欧美久久黑人一区二区| 国产亚洲欧美在线一区二区| 欧美日本视频| 99久久无色码亚洲精品果冻| 999久久久精品免费观看国产| 91成年电影在线观看| 亚洲av片天天在线观看| 午夜亚洲福利在线播放| 久热爱精品视频在线9| 久久精品91无色码中文字幕| 欧洲精品卡2卡3卡4卡5卡区| 午夜福利欧美成人| www.精华液| 色综合亚洲欧美另类图片| 91大片在线观看| 亚洲精品美女久久久久99蜜臀| 亚洲精品av麻豆狂野| 黄色视频,在线免费观看| 欧美精品啪啪一区二区三区| 一边摸一边抽搐一进一小说| 老司机靠b影院| 亚洲人成伊人成综合网2020| 午夜a级毛片| xxx96com| 精品久久久久久久毛片微露脸| 两性午夜刺激爽爽歪歪视频在线观看 | 中国美女看黄片| 老汉色∧v一级毛片| 精品一区二区三区四区五区乱码| av在线播放免费不卡| 观看免费一级毛片| 90打野战视频偷拍视频| 曰老女人黄片| 99在线视频只有这里精品首页| 亚洲精品在线观看二区| 成人三级做爰电影| 久久中文看片网| 一级毛片高清免费大全| 亚洲一码二码三码区别大吗| 精品一区二区三区视频在线观看免费| 很黄的视频免费| 搡老岳熟女国产| 亚洲天堂国产精品一区在线| 亚洲av日韩精品久久久久久密| 亚洲一区二区三区不卡视频| 免费看十八禁软件| 91字幕亚洲| 欧美成人免费av一区二区三区| 国产免费av片在线观看野外av| 一级毛片女人18水好多| 91av网站免费观看| 久久香蕉精品热| 99久久国产精品久久久| 国产不卡一卡二| 制服人妻中文乱码| 久久久精品欧美日韩精品| 老熟妇乱子伦视频在线观看| 亚洲av熟女| 女性被躁到高潮视频| 亚洲精品中文字幕一二三四区| 中文字幕高清在线视频| 琪琪午夜伦伦电影理论片6080| 亚洲 欧美一区二区三区| 亚洲国产欧洲综合997久久, | 91成人精品电影| 成人国语在线视频| 无遮挡黄片免费观看| 免费在线观看成人毛片| 亚洲 国产 在线| 麻豆成人午夜福利视频| 亚洲中文字幕一区二区三区有码在线看 | 黄色毛片三级朝国网站| 欧美激情极品国产一区二区三区| 午夜日韩欧美国产| 夜夜爽天天搞| 免费在线观看影片大全网站| www国产在线视频色| 久久中文看片网| 9191精品国产免费久久| 亚洲精华国产精华精| 精品电影一区二区在线| 色综合欧美亚洲国产小说| 宅男免费午夜| 久久久久免费精品人妻一区二区 | 亚洲专区字幕在线| 久久久久国内视频| 精品人妻1区二区| 日本在线视频免费播放| 90打野战视频偷拍视频| 久热爱精品视频在线9| 国产国语露脸激情在线看| 在线观看一区二区三区| 日日爽夜夜爽网站| 一个人观看的视频www高清免费观看 | 欧美色欧美亚洲另类二区| 国产av一区二区精品久久| 丁香六月欧美| 久久久久久久精品吃奶| 日本免费一区二区三区高清不卡| 国产精品久久电影中文字幕| 色综合站精品国产| 国产精品免费视频内射| 免费在线观看成人毛片| 18禁国产床啪视频网站| 搡老熟女国产l中国老女人| 99riav亚洲国产免费| 午夜免费成人在线视频| 亚洲欧洲精品一区二区精品久久久| 国产精品爽爽va在线观看网站 | 狠狠狠狠99中文字幕| 亚洲精品中文字幕在线视频| 老司机福利观看| 黄色视频不卡| 成人国产综合亚洲| 国产麻豆成人av免费视频| 婷婷六月久久综合丁香| 精品久久久久久久人妻蜜臀av| 老鸭窝网址在线观看| 嫩草影视91久久| 成人18禁在线播放| 听说在线观看完整版免费高清| 亚洲熟女毛片儿| 最新在线观看一区二区三区| 亚洲成av片中文字幕在线观看| 欧美国产精品va在线观看不卡| 欧美色视频一区免费| 久久狼人影院| 成人欧美大片| 国产精品久久视频播放| 婷婷精品国产亚洲av在线| 国产av一区在线观看免费| 国产一区二区三区在线臀色熟女| 女同久久另类99精品国产91| 欧美丝袜亚洲另类 | 国产av一区二区精品久久| 在线国产一区二区在线| www.www免费av| 天天躁狠狠躁夜夜躁狠狠躁| 脱女人内裤的视频| 国产精品 国内视频| 久久久久亚洲av毛片大全| 久久午夜综合久久蜜桃| 久久中文字幕一级| 999久久久精品免费观看国产| 色综合欧美亚洲国产小说| 后天国语完整版免费观看| 神马国产精品三级电影在线观看 | 精品高清国产在线一区| 精品免费久久久久久久清纯| 两性午夜刺激爽爽歪歪视频在线观看 | 每晚都被弄得嗷嗷叫到高潮| bbb黄色大片| 一级a爱片免费观看的视频| 日本在线视频免费播放| 亚洲av成人av| 国产伦一二天堂av在线观看| 18禁裸乳无遮挡免费网站照片 | 久久香蕉国产精品| 亚洲 欧美一区二区三区| 美女高潮到喷水免费观看| 精品国产国语对白av| 在线天堂中文资源库| 国产又黄又爽又无遮挡在线| 国产精品久久久人人做人人爽| 国产久久久一区二区三区| 一级a爱片免费观看的视频| 亚洲欧美激情综合另类| 午夜福利欧美成人| 国产精品一区二区免费欧美| 国产精品九九99| 欧美绝顶高潮抽搐喷水| 日本 欧美在线| 欧美亚洲日本最大视频资源| 欧美色欧美亚洲另类二区| av欧美777| 两个人看的免费小视频| 琪琪午夜伦伦电影理论片6080| 欧美绝顶高潮抽搐喷水| 又大又爽又粗| 好男人电影高清在线观看| 欧美成人免费av一区二区三区| 久久中文看片网| 成人精品一区二区免费| 18禁美女被吸乳视频| 麻豆成人av在线观看| 国产极品粉嫩免费观看在线| 美女大奶头视频| xxx96com|