關鍵詞:中醫(yī)古籍;相似度計算;預訓練語言模型;SimCSE;AIGC
中醫(yī)古籍,中華文化之瑰寶,載千年醫(yī)道之精粹,古籍所書,不獨醫(yī)藥方劑,更含養(yǎng)生之術,辯證之法,治病之經(jīng),皆以不朽之經(jīng)典,傳承至今。文本相似度技術對古籍整理、文獻溯源、文獻查找等方面具有重要意義:①集注集釋整理,可精準比對不同古籍中的相似文段,極大提升整理古籍時的效率和準確性,從而為研究者呈現(xiàn)更為清晰、完整的中醫(yī)知識體系;②文本生成溯源方面,則助力追蹤和分析特定醫(yī)學理論或治療方法的發(fā)展歷程,揭示中醫(yī)學術思想的演變和流變:③對于重出文獻的追尋和查找,文本相似度計算能有效識別并對比古籍中的相似或重復內(nèi)容,便利版本比較與校勘工作。然而,中醫(yī)古籍的文本內(nèi)容涵蓋多個世紀的醫(yī)學知識和實踐經(jīng)驗,包含了大量特殊術語和古代漢字,這也使得傳統(tǒng)的自然語言處理(NLP)方法不能勝任,因此,如何構建適用于中醫(yī)古籍領域的相似度計算模型已成為一個重要的研究問題。
SimCSE(Supervised and Unsupervised ImprovedContrastive Sentence Embedding)作為主流的相似度計算方法,已在多個領域文本相似度計算任務中取得顯著效果,主要分為有監(jiān)督和無監(jiān)督兩種。有監(jiān)督的SimCSE相較于無監(jiān)督能夠更準確地捕捉語義信息,效果也更為可靠,但需標注一定規(guī)模的高質量數(shù)據(jù)作為訓練集,而對于本文的中醫(yī)古文相似度任務,其痛點在于,一方面,市面上并無開源的中醫(yī)古文相似數(shù)據(jù)集,若采取人工標注則需標注者在具備古文理解力的同時具備強大的中醫(yī)知識基礎,速度慢,產(chǎn)能低;另一方面,SimCSE方法基于預訓練語言模型,而現(xiàn)有的語言模型多以通用古籍類為主,針對中醫(yī)古籍這一細分領域,尚未有相關的模型。
隨著以ChatGPT、ChatGLM為代表的生成式大語言模型取得飛速突破,自然語言處理也迎來新的研究范式和多樣化選擇。大語言模型能夠根據(jù)用戶輸入的Prompt提示詞,利用自身強大的語言理解和生成能力給出流暢通順的回答。在此情境下,采用AI生成的自監(jiān)督標注(Automated Supervision byAI)方法來取代傳統(tǒng)有監(jiān)督人工標注下游任務訓練集成為一大可能。
結合上述情況,本文在多個通用古籍模型增量預訓練的基礎上,利用AIGC技術生成全部下游任務數(shù)據(jù),在此基礎上結合SimCSE對比學習方法,設計出一種針對中醫(yī)古籍領域的古文相似度計算模型。本文主要貢獻在于:①對現(xiàn)有多個通用古籍BERT模型進行增量預訓練,獲得適用于中醫(yī)古籍領域的BERT模型,以更好地表示中醫(yī)古籍語義文本特征。②針對中醫(yī)古籍領域暫無公開數(shù)據(jù)集且標注成本高的情況,利用生成式AI技術,構建適用于中醫(yī)古籍領域對比學習的正負樣本訓練集,極大地減輕了人工標注工作量。③首次提出針對中醫(yī)古籍領域的古文相似度計算模型,實驗比較了不同訓練方式、不同預訓練語言模型、不同種類Prompt提示詞構建的正負樣本進行對比學習的效果,探討了不同正樣本混合方式對模型性能的提升策略,證明了在零樣本訓練集條件下,基于AIGC的樣本訓練數(shù)據(jù)構造方法具備一定的可行性,效果顯著優(yōu)于傳統(tǒng)的無監(jiān)督對比學習。
1相關研究
1.1從淺層距離到深度語義探索:文本相似度研究歷程
文本相似度是一種用于確定兩個或多個文本之間語義或結構相似性的任務。早期的文本相似度方法大多是通過度量文本間的距離進行計算,如Sim-Hash、BM25等。隨著特征工程的興起,文本相似度領域開始通過構建合適的特征來將文本表示為詞向量或句向量,并使用向量之間的距離或相似性度量來衡量文本的相似程度,如詞袋模型、TF-IDF、N-gram等。這類方法在一定程度上提高了文本相似度的效果,但難以表示文本中的全部語義信息,因此實際效果并不顯著。再后來,利用諸如Word2vec、GloVe等詞向量模型進行文本表示更具便捷性,可以自動學習語義特征表示,逐漸取代了相對繁瑣的特征工程方法。近年來,隨著預訓練語言模型技術的迅猛發(fā)展,研究者們開始利用BERT模型提取文本的上下文語義信息,并使用其生成的語義向量進行相似度量,這也使得文本相似計算效果得到進一步提高。已有實驗證實,相較于利用BERT直接獲取語義向量表示的方法,SimCSE方法可有效解決向量表達存在各向異性以及向量分布不均勻的情況,能更好地學習到句向量表征,可進一步優(yōu)化BERT模型在文本相似度計算中的應用效果,提高模型的魯棒性和泛化能力,這也為文本相似度計算提供了更為強大和可靠的工具。
1.2零樣本資源下的智慧啟迪:AIGC賦能NLP經(jīng)典任務
自ChatGPT問世以來,憑借其深厚的語義理解和智能推理能力,實現(xiàn)了對復雜語境的準確把握與敏銳回應,從而在對話生成和智能問答中顯露出獨特優(yōu)勢,同時也為NLP經(jīng)典任務注入了新的活力與可能。當前,就生成式AI技術能否直接應用于NLP經(jīng)典任務,相關學者以此為契機進行了探索。如,張華平等在零樣本資源情況下使用9個數(shù)據(jù)集評估ChatGPT的中文表現(xiàn)性能,發(fā)現(xiàn)在NLP經(jīng)典理解式任務上表現(xiàn)較好,在情感分析上具有85%以上的準確率,在閉卷問答上出現(xiàn)事實性錯誤的概率較高。鮑彤等評估ChatGPT在典型中文信息抽取任務中的性能,發(fā)現(xiàn)ChatGPT在事件抽取中具有較好的表現(xiàn),在命名實體識別、關系抽取中的效果與中文預訓練模型存在較大差距。
上述研究表明,生成式AI技術在傳統(tǒng)理解式任務上表現(xiàn)出優(yōu)異性能,但對于復雜場景下特定領域的判別式、抽取式任務上,效果并不領先,此后部分學者開始嘗試利用AIGC技術簡化傳統(tǒng)NLP方法處理流程,如,張恒等針對研究流程段落識別任務,在SciBERT模型的基礎之上,利用ChatGPT通過數(shù)據(jù)增強,顯著提高了分類的準確率和F1值。因而,本研究認為,在大語言模型無法很好地勝任且傳統(tǒng)NLP處理方法又缺少標注數(shù)據(jù)的情境下,利用生成式AI技術構建樣本訓練集具備一定的可行性。
2研究介紹
2.1研究框架
本文的研究框架,如圖1所示,主要分為語料收集及預處理、融合領域知識的繼續(xù)預訓練、基于對比學習的SimCSE相似度計算3個部分:①語料收集及預處理,通過模擬鼠標鍵盤點擊的方式爬取《中華醫(yī)典》數(shù)據(jù)庫中的所有數(shù)據(jù),之后通過進行數(shù)據(jù)清洗以形成繼續(xù)預訓練所需的中醫(yī)古籍純文本語料;②融合領域知識的繼續(xù)預訓練,選擇多個通用古籍語言模型進行繼續(xù)預訓練,采用10%的中醫(yī)古籍語料作為驗證集,使用困惑度指標(PPL,Per-plexity)初步評估模型的性能;③基于對比學習的SimCSE相似度計算,通過設計不同的Prompt模板,采用AI技術構建不同種類的正負樣本對作為訓練集,在多個模型繼續(xù)預訓練的基礎上結合SimCSE方法進行多次實驗對比,同時探討不同正樣本混合策略對模型性能的提升。
2.2融合領域知識的繼續(xù)預訓練
BERT模型作為一種自監(jiān)督學習的語言表示模型,已在許多自然語言處理任務中取得顯著的成就。然而,當被應用到具有特定領域知識的任務時,其通用的預訓練框架可能不足以捕獲領域特有的語義細節(jié),領域知識融合則是將任務相關的數(shù)據(jù)或特定領域的知識引入預訓練模型,使其能夠更好地理解語境和上下文,從而提升其特定任務的性能表現(xiàn)。如,趙一鳴等將醫(yī)學信息查詢相關的語料對BERT模型進行繼續(xù)預訓練,在較低的資源和時間成本下獲得預訓練模型MQ-BERT,使其更好地表征醫(yī)學信息查詢式的詞向量,以適應意圖強度識別任務。
2.3基于對比學習的SimCSE相似度計算
SimCSE是一種在預訓練語言模型的基礎上,通過對比學習來提高相似度計算效果的方法,其訓練主要分為無監(jiān)督和有監(jiān)督兩種方式。無監(jiān)督的SimCSE采用Dropout作為簡單的數(shù)據(jù)增強技術,通過對同一個輸入句子進行兩次前向傳播以產(chǎn)生兩個略有差異的正樣本,同時使用與輸入句子長度不同的負樣本來進行訓練,其弊端在于訓練完成的模型傾向于認為長度相近的句子在語義上也更為相似。有監(jiān)督的SimCSE需要一定規(guī)模的精加工標簽數(shù)據(jù)集,使用預先定義的正樣本對和負樣本對來訓練。由于直接從標記數(shù)據(jù)中學習,有監(jiān)督的SimCSE能夠更準確地捕捉語義信息,與無監(jiān)督相比,效果更為可靠。
3融合中醫(yī)古籍知識的繼續(xù)預訓練實驗
3.1實驗語料收集
本文所進行的繼續(xù)預訓練實驗語料來源為“九五”國家重點電子出版規(guī)劃項目的重要成果《中華醫(yī)典》數(shù)據(jù)庫。該數(shù)據(jù)庫按圖書館分類法將歷代中醫(yī)古籍分為醫(yī)經(jīng)、診法、本草等12個大類,條理清晰、涇渭分明,涵蓋到民國為止的中國傳統(tǒng)醫(yī)學文化建設的主要成就,卷帙上萬,是目前市面上規(guī)模最為宏大的中醫(yī)古籍類電子叢書。
表1列出《中華醫(yī)典》各類目具體數(shù)量及字數(shù)。從字數(shù)統(tǒng)計結果來看,共67346246個漢字,單本古籍字數(shù)最少的為臨證各科類目,最多的為方書;不重復漢字共8628個,各個類目不重復漢字數(shù)均占50%以上,反映出中醫(yī)古籍用詞凝練度高,專業(yè)術語集中性強。
3.2實驗評測指標
困惑度(PPL,Perplexity)作為一種衡量語言模型預測樣本概率的指標,被廣泛應用于各類預訓練任務的評測中。理論上來講,困惑度越低,模型的性能越好,對數(shù)據(jù)的不確定性越小,如式(1)所示:
3.3基線模型介紹
盡管現(xiàn)有的古籍語言模型在古籍領域表現(xiàn)出一定的普適性,但應用于更加專業(yè)和細分的自然語言處理任務日寸,其性能往往受到限制。因此,面對中醫(yī)專業(yè)知識密集的中醫(yī)古籍領域,有必要在通用古籍模型的基礎上進行繼續(xù)預訓練。
基線模型選擇方面,筆者綜合考察了現(xiàn)有古籍方面的NLP任務所用模型,發(fā)現(xiàn)guwenbert-base、SikuBERT、SikuRoBERTa這三類模型所用居多,如劉江峰等對典籍文本進行命名實體識別,張逸勤等針對跨語言典籍進行跨語言風格計算,均采用了上述3種模型進行對比。與前人已有研究略有區(qū)別的是,本文在選擇前面三類模型的基礎上新增Gujibert、Gujiroberta兩種模型進行對比,其主要原因在于這兩種模型在繼續(xù)預訓練過程中語料類型較為特殊,為簡繁混合型,而本研究的中醫(yī)古籍語料分布年代各異,簡繁體眾多,若采用現(xiàn)有軟件全部統(tǒng)一為簡體或繁體,難免出現(xiàn)遺漏。考慮到上述情況,本研究最終選擇以下5種基線模型,如表2所示,在此基礎上進行繼續(xù)預訓練,旨在開發(fā)出更加適應中醫(yī)古籍的預訓練模型,以在下游文本相似度計算場景中取得更好的性能表現(xiàn)。
GuwenBERT-base基于RoBERTa模型,由北京理工大學閻覃開發(fā)構建古漢語預訓練語言模型。該模型使用的訓練數(shù)據(jù)為殆知閣古代文獻數(shù)據(jù)集,包含15694本古典中文書籍,涵蓋佛教、儒家、歷史等多個領域,總共有大約17億個字符,同時在繼續(xù)預訓練過程中,所有傳統(tǒng)字符都經(jīng)過簡體轉換處理。SikuBERT和SikuRoBERTa是由南京農(nóng)業(yè)大學信息管理學院開發(fā)的針對古文文本自然語言處理的預訓練語言模型,采用校驗后的高質量《四庫全書》總共約5.36億字繁體語料作為訓練集,其中,SikuBERT基于BERT中文模型框架預訓練,SikuRoBERTa則在RoBERTa模型的基礎上繼續(xù)預訓練。Gujibert和Gujiroberta兩類模型與SikuBERT和SikuRoBERTa訓練過程基本相似,但與Siku系列模型相比,兩者的訓練來源有所不同,與gu-wenbert-base模型相比,其不同點則是在于訓練語料類型為簡繁混合型。
3.4實驗參數(shù)設置
研究設置了一系列超參數(shù),如表3所示,其中,學習率(Learning Rate)決定了模型權重更新的速度,將其設置為Se-05,有助于模型在學習過程中穩(wěn)定地調整和優(yōu)化;訓練輪數(shù)(num_train_epochs)設定為3,確保模型有足夠的時間學習古籍文本的細微特征,防止因過多訓練輪次而引起過擬合;設置梯度累積策略(gradient_accumulation_ steps)為4,可有效批量訓練,從而優(yōu)化內(nèi)存使用并提升模型性能。
3.5繼續(xù)預訓練實驗結果
針對不同模型訓練所需的語料類型,通過OpenCC包對訓練語料進行簡繁互換后,在5種通用古籍BERT模型上進行繼續(xù)預訓練,并在相應的驗證數(shù)據(jù)集上進行了性能評估。繼續(xù)預訓練所獲得的模型分別命名為TCM-guwenbert-base、TCM-Siku-BERT、TCM-SikuRoBERTa.TCM-Guibert、TCM-Gujiroberta。從表4實驗結果看,各個預訓練模型都取得了相對不錯的效果,TCM-SikuBERT最好,為5.928,TCM-guwenbert-base最差,為6.495。
4中醫(yī)古文相似度計算實驗
4.1實驗樣本來源
古籍中的普通語句較為通俗,缺乏深層次的哲理內(nèi)涵,這可能不利于模型捕捉語言的深層含義:而古籍名言因其深刻的意義和精辟的表達,往往被后世頻繁引用,具有很高的辨識度和豐富的文化背景。因此,本文選擇《中華醫(yī)典》數(shù)據(jù)庫lt;辭典gt;類目下的所有古籍名言作為實驗樣本,使模型更加集中于理解中醫(yī)古文的語義特征和文化內(nèi)涵上,而非僅僅是語言形式上的相似性,以增強模型在實際應用中的識別力。
為保證匹配的粒度相對統(tǒng)一,減少句長差異帶來的干擾,本研究將名言長度大致限定在8~30字的范圍內(nèi)。如果長度超過30,那么按照句子中間較大語義停頓的標點符號(如句號、感嘆號、問號等)進行分句,最終獲得3036條中醫(yī)古籍名言。表5列出部分中醫(yī)古籍名言示例及出處。
4.2基于AIGC的正負樣本對生成
4.2.1正負樣本對構造方式
正樣本對:在不改變語義的情況下,基于AIGC的方式通過同義詞替換(Chat_SR)、隨機插入(Chat_RI)、隨機交換(Chat_RS)、隨機刪除(Chat_RD)、混合改寫(Chat_RW)5種方式生成相似樣本。
負樣本對:當前主流的負樣本構造方式往往采用隨機選取樣本中句子作為負例,其問題在于隨機選的負樣本太容易區(qū)分,無法最大程度提升模型性能,因此本研究采用這一方法的同日寸新增一種方式進行對比,即通過AIGC生成一個句式相同但語義不同的低相似樣本。
4.2.2Prompt提示詞構建步驟
盡管以ChatGPT為代表的AIGC技術功能強大,但其效能的發(fā)揮仍然依賴于精心設計的Prompt提示詞。Prompt提示詞可以被視為一種機器人響應的指令或問題,引導AI沿著用戶的意圖進行思考,以生成用戶期望的回答。一個優(yōu)質Prompt提示詞可以減少歧義,提升答復的相關性與準確性,使AI機器能夠精準把握用戶意圖,生成包含洞察力的回答。
在Prompt提示詞工程中,需要考慮問題的背景、語境,以及問題的明確性、信息的完整性、關鍵詞的使用、邏輯的清晰性.期望的回答類型等諸多方面。在多數(shù)情況下,Prompt的性能上限與對“好結果”的理解程度成正比,只有充分理解所謂的“好結果”具體好在哪些“點”,才能將這些“點”形式化為Prompt,從而把用戶的意圖更準確地傳達給模型?;谝陨弦?,本文基于種子樣本,在不同的任務需求下,根據(jù)ChatGPT-4構建用于古文正負樣本對生成的Prompt,主要分為以下五步工作,圖2列出AI機器基于“l(fā)t;同義詞替換gt;”這一構建方式生成相似古文樣本。
1)指定模型所扮演的角色(Role):指定模型扮演的角色/身份以幫助模型更好地定位答復的內(nèi)容與風格。
2)提供代表性的樣例(One-shot Prompt):為ChatGPT提供一個答案的參考,使其充分理解要求,提升模型性能表現(xiàn)。
3)提供任務說明和要求(Demand):提供給ChatGPT語句流暢、意圖清晰、表達精簡的任務描述。
4)指定生成結果的格式(Format):通過顯示規(guī)定模型返回結果的格式,以便于后續(xù)統(tǒng)計分析。
5)設置拒答策略(Refusal Strategy):雖然Chat-GPT設置了諸如“我的知識截至2021年9月…”“作為一個人工智能模型…”這樣的拒答策略,但仍舊無法完全避免大模型胡說八道。本文嘗試手動設置拒答策略,即讓模型在沒有把握的時候拒絕回答問題,提高生成數(shù)據(jù)的質量。
4.2.3基于AIGC的正負樣本對生成結果
在正負樣本對生成結束后,通過AI的方式對所有句子對進行排序打分,賦值范圍為0~5,其中0代表完全不相似,5代表完全相似。研究對每對句子進行5次評估打分并取平均值,以此抵消單次評估中的隨機波動或偏好傾向,在此基礎上結合人工2次評估調整得到最終評分。表6、表7列出了不同構建方式下正負樣本的生成示例,表8為訓練數(shù)據(jù)集AI打分結果示例。
4.3文本相似度計算評估指標
斯皮爾曼相關系數(shù)(Sperman
Correlation)被用來衡量模型產(chǎn)生的排序結果與數(shù)據(jù)集中標注的參考排序之間的相關程度。取值范圍在-1~1之間,1表示完全正相關,-1表示完全負相關,0表示沒有相關性。其主要優(yōu)勢在于直接從排序角度評價模型的性能,不依賴于具體的閾值設置,避免閾值選擇的主觀性和不確定性。具體來講,通過將模型輸出的相似度分數(shù)轉換為一個等級序列,而將數(shù)據(jù)集中預先標注的“正確”排序作為另一個等級序列,然后通過計算這兩個序列之間的相關性,以評估模型排序結果的準確性,如式(2)所示。
4.4實驗參數(shù)設置
文本相似度實驗參數(shù)設置,如表9所示,除學習率(learning_rate)、批量大?。╞atch_size)等常見指標外,設置Dropout比率為0.1,以減少過擬合的風險,增強模型對未見數(shù)據(jù)的泛化能力;設置最大長度(max_len)為100,保證模型可以處理不同長度的文本,同時優(yōu)化內(nèi)存利用率和計算效率;設置隨機種子(seed)為42,確保模型訓練過程的可重復性,該指標影響著數(shù)據(jù)集的分割、權重初始化以及模型訓練過程中的任何隨機性決策,通過固定這個值,確保每次實驗在相同的初始條件下進行,從而使不同實驗間的比較成為可能。
4.5文本相似度結果與分析
4.5.1不同訓練方式、不同預訓練語言模型、不同正負樣本構造方法對比學習實驗結果
鑒于各個模型的困惑度指標值差距不大,因此,將上述5個繼續(xù)預訓練后的模型全部納入,以更好地比對在下游古文相似度任務中的效果。本研究采用精確的人工標注方法來創(chuàng)建一個測試集,包含了500對真實中醫(yī)古籍中的相似文本及相似得分(0分~5分)。表10列出了不同訓練方式、不同預訓練語言模型、不同正負樣本構造方法對比學習結果。
1)不同訓練方式對比:從實驗結果來看,無監(jiān)督學習中,模型性能普遍最低,表明模型在缺乏明確的正負樣本指導時難以捕捉到古文的深層語義信息。相對而言,當引入AI自監(jiān)督學習,特別是結合隨機負樣本時,性能得到明顯的提升。此外,基于AIGC技術生成構建語義不同的低相似度樣本日寸,模型的性能得到最大程度的提升。這表明,通過AIGC構建的高質量負樣本可顯著提高模型的區(qū)分能力,在提升模型性能方面起到?jīng)Q定性的作用。
2)不同預訓練語言模型對比:不同的模型展現(xiàn)出了性能差異,揭示了它們在處理古文語義上的不同能力。與其他模型相比,TCM-Gujiroberta模型性能往往更好,這可能是由于RoBERTa架構在面對AIGC生成的高質量負樣本時優(yōu)化了對內(nèi)部語義關系的捕捉,從而對古文有更深刻的理解。TCM-SikuBERT和TCM-SikuRoBERTa模型雖然也顯示出良好的性能,但相比Guji系列模型略顯不足,TCM-guwenbert-base性能最低,這可能意味著該模型的結構、預訓練數(shù)據(jù)或訓練策略相對較簡單,不足以充分捕捉中醫(yī)古文的語義復雜性。
3)不同正負樣本對構造方式對比:基于AIGC的正樣本構建方式同樣顯著影響模型性能,同義詞替換和混合改寫,在所有模型上都表現(xiàn)出較高的性能,其主要原因在于這兩種方法能夠在保持原文語義的同時引入適當?shù)淖兓?,可有效幫助模型學習理解不同表達形式下的相同意義。隨機插入策略的性能較低,可能因為它在古文中引入額外的噪聲,從而降低模型的理解能力。相對而言,隨機刪除雖然也引入了一定的隨機性,但由于它在減少原文內(nèi)容的時候主要以無實際意義的虛詞為主,對模型性能的影響較小。隨機交換其性能則介于隨機插入和隨機刪除之間,但這種策略有時可能擾亂文本原有的語義結構。
4.5.2低相似負樣本情況下不同正樣本混合策略對各類模型效果的提升
從表10實驗結果來看,高質量的負樣本可顯著提升模型的性能,而單一的正樣本類型顯然不能最大程度提升模型的性能,因此在低相似負樣本情況下,選擇上述結果較優(yōu)的同義詞替換(Chat_SR)、隨機刪除(Chat_RD)、混合改寫(Chat_RW)3種正樣本構建方式,按照20%、30%、50%的比例隨機抽取混合,形成新的樣本訓練集進行實驗,以更好地探討不同正樣本混合方式對模型性能的提升,具體結果如表11所示。
實驗結果表明,選擇低相似負樣本,并隨機混合不同正樣本后,各個模型的性能得到了進一步提升。其中,繼續(xù)預訓練后的TCM-Gujibert模型在20%(隨機刪除)+30%(同義詞替換)+50%(混合改寫)的樣本組合下效果最好,達到0.932。此外,相同的混合策略下,各個模型性能表現(xiàn)差異顯著,如混合改寫(Chat_RW)占據(jù)主導地位(50%比例)時,TCM-Gujibert模型在這種組合下分數(shù)最高,分別為0.924和0.932,而TCM-guwenbert-base僅為0.878和0.864。
5總結與展望
文本相似度計算為古籍研究之要點。以此技藝,辨識古文之同異,窮盡文獻之深意,如行云流水,得以串聯(lián)歷代典籍之相互關聯(lián),揭示古代學術之綿延不絕。相似度之運用,宛如慧眼,洞察文辭之微妙變化,觀歷史文化之深遠脈絡。由此覽古今之變遷,探思想文化之演進,昭示人文社科研究之新徑,開拓中醫(yī)學術研究之新天地。
本研究設計出一種針對中醫(yī)古籍領域的古文相似度計算模型,同時解決了通用BERT模型在中醫(yī)古籍領域語義表征困難和下游數(shù)據(jù)標注成本高昂的問題。研究在現(xiàn)有五類通用古籍模型增量預訓練的基礎上,結合SimCSE方法,對不同訓練方式、不同預訓練語言模型、不同正負樣本構造方法進行對比實驗,并探討低相似負樣本情況下不同正樣本混合策略對模型性能的提升。實驗結果表明,無監(jiān)督學習中,模型性能普遍偏低,當引入AI自監(jiān)督生成的正負樣本對后,模型性能得到明顯的提升。其中,AIGC驅動的語義不同的低相似負樣本結合同義詞替換的正樣本構成訓練集后,TCM-Gujiroberta模型表現(xiàn)最佳,為0.909。此外,選擇低相似負樣本,并隨機混合不同正樣本,可進一步提升模型效果,如TCM-Gujibert模型在20%(隨機刪除)+30%(同義詞替換)+50%(混合改寫)的樣本組合下效果最好,達到0.932。
本文設計了一種巧妙的數(shù)據(jù)標注方法,其優(yōu)點在于無需人工標注任何訓練數(shù)據(jù),并通過大量對比實驗驗證了該方法的有效性。當然,由于實驗和篇幅的限制,本研究仍然存在一些不足,后續(xù)將繼續(xù)開展以下研究以補充和完善本文的工作。
1)在繼續(xù)預訓練語料的選取上,設計自動化的算法,如實施動態(tài)選擇機制,根據(jù)模型在訓練過程中的表現(xiàn)反饋調整語料選擇,有效識別和選擇那些對模型性能提升最有幫助的語料,同時減少對無效或低效語料的依賴,以提高預訓練的效果。
2)數(shù)據(jù)構建策略方面,目前實驗僅選擇了5種AI生成的正樣本構造方式,雖然這些構造方式有效,但可能無法覆蓋中醫(yī)古文的所有語義復雜性。后續(xù)將探索更多樣化的AI數(shù)據(jù)構建技術,如針對不同朝代特定語言風格構建等,以更全面地覆蓋中醫(yī)古文的語義特點。
3)目前的分析主要集中在模型的表現(xiàn)層面,對于模型為何在特定數(shù)據(jù)組合策略下表現(xiàn)更佳的內(nèi)部機制探索仍不夠深入。未來將通過模型可視化和解釋性分析,如注意力機制可視化等方法,觀察模型在不同數(shù)據(jù)組合策略下的關鍵依賴點。