摘 要: [目的/ 意義] 中醫(yī)文本中包含了大量領域相關知識, 可為準確診斷和有效的疾病防治提供指導。本文對中醫(yī)文本命名實體識別(NER)研究進行系統(tǒng)性綜述。[方法/ 過程] 從中醫(yī)文本的特征出發(fā), 探討了中醫(yī)文本NER 在知識體系、語料構建和技術算法層次面臨的挑戰(zhàn); 梳理中醫(yī)文本NER 語料構建中可用的術語標準、實體類型和標注原則與方法; 歸納中醫(yī)文本NER 技術的一般框架、常用方法和近期趨勢, 并總結評估指標。[結果/ 結論] 建議未來研究可從以下方向開展: 在語料層面制定標注規(guī)范并構建高質量數據集, 在算法層面探索針對小樣本問題的數據優(yōu)化、針對復雜實體的識別模型和增強模型解釋性, 以提高中醫(yī)NER 的效果。
關鍵詞: 命名實體識別; 中醫(yī); 深度學習; 自然語言處理; 綜述
DOI:10.3969 / j.issn.1008-0821.2025.02.001
〔中圖分類號〕G250. 2; TP291. 1 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2025) 02-0004-13
中醫(yī)學是在中華幾千年的歷史長河中形成的獨具特色的醫(yī)學體系, 對中華民族的繁衍昌盛起到積極作用。信息技術的發(fā)展推動了中醫(yī)知識的現代化應用。隨著對中醫(yī)知識深度研究的需求日益增長,命名實體識別技術(NER)越來越多的應用于中醫(yī)文本挖掘。
中醫(yī)文本NER 屬于領域NER 范疇。不同領域的文本通常包含特定的專業(yè)術語、實體類型和上下文信息, 因此領域NER 需要根據這些特征進行模型的優(yōu)化, 以提高實體識別的準確性。中醫(yī)文本不僅涉及傳統(tǒng)醫(yī)學知識, 還融合了哲學、文化和歷史背景。同時, 中醫(yī)文本常以古文或半文言文形式呈現, 其語法結構與現代漢語有顯著差異。由于缺乏標準化的術語規(guī)范, 不同文獻可能對同一概念有不同的表達。此外, 中醫(yī)領域的高質量標注數據相對稀缺。這些因素共同導致了中醫(yī)文本NER 研究面臨諸多挑戰(zhàn)。中醫(yī)NER 是典型的交叉課題, 受到中醫(yī)藥、計算機、數字人文等多領域學者的關注,積累了較多的研究成果。在其發(fā)展過程中, 不乏一些從不同視角進行歸納總結的綜述性論文, 例如,中醫(yī)術語研究文獻計量分析[1] 、實體抽取在中醫(yī)藥領域的應用綜述[2] 、中醫(yī)癥狀信息抽取研究進展[3]等。然而, 當前中醫(yī)文本NER 缺乏系統(tǒng)性綜述, 這阻礙了研究人員對已有工作的全面理解和對未來研究方向的把握。本文旨在填補這一空白, 為該領域的發(fā)展提供有價值的參考。
本文在分析中醫(yī)文本特征的基礎上, 提出中醫(yī)文本NER 在知識體系、語料構建和技術算法層次的研究挑戰(zhàn); 系統(tǒng)性地梳理中醫(yī)文本NER 語料構建中的術語標準、實體類型和標注原則與方法; 從基于詞典和規(guī)則的模式匹配方法、基于統(tǒng)計原理的機器學習方法和基于深度學習的方法3 個方面介紹中醫(yī)文本NER 的技術發(fā)展歷程, 并詳細介紹基于深度學習的中醫(yī)文本NER 方法的一般框架和3 種主流架構; 最后, 基于研究現狀, 對未來發(fā)展進行展望, 以期為該領域的進一步研究提供參考。
1 中醫(yī)文本特征及命名實體識別挑戰(zhàn)
中醫(yī)文本形式多樣, 不同類型的文本具有共同之處, 也不乏差異性。本節(jié)首先梳理不同類型中醫(yī)文本的通用特征, 然后針對典型的中醫(yī)文本形式進行各自特征的剖析, 最后提出中醫(yī)文本NER 的挑戰(zhàn)。
1. 1 中醫(yī)文本通用特征
中醫(yī)文本具有抽象性、經濟性和復雜性等特點。中醫(yī)包含的部分概念無法對應到客觀世界的具體事物, 且常使用隱喻、象征等修辭手法。例如, “臟腑” 并不僅僅指現代醫(yī)學的某個具體器官, 而是涵蓋了人體內臟的功能、相互關系以及與外界環(huán)境的互動等多個層面的系統(tǒng)概念[4] 。這種獨特的表達方式使中醫(yī)文本較為抽象且模糊, 常常給人深奧晦澀之感。中醫(yī)語言的經濟性與其抽象性是高度一致的。中醫(yī)行文傾向于刪繁去冗, 省略某些詞句的情況比比皆是?!吨貜V補注黃帝內經素問》序認為: “其文簡, 其意博, 其理奧, 其趣深。” 凸顯的就是中醫(yī)語言的經濟性。這種經濟性使其信息密度較高, 某些字、詞甚至句子的語義極度依賴于上下文語境。
此外, 中醫(yī)語言的字詞含義在其發(fā)展歷程中不斷擴充, 經常存在一詞多義和多詞一義的現象, 同名異物和同物異名情況也較為普遍。中醫(yī)用語繼承了古漢語的特點, 保留了較多生僻字和通假字。這些特征使中醫(yī)語言具有高度的復雜性。
1. 2 不同類型中醫(yī)文本的特征
1.2. 1 中醫(yī)診療文本
中醫(yī)診療文本是中醫(yī)臨床實踐的重要記錄形式。中醫(yī)診療文本的內容較為完整、有相對穩(wěn)定的結構、要素結構也相對簡單。在內容上, 診療文本力求簡明, 只記錄關鍵信息, 如重要的癥狀、診斷等。在語言上, 診療文本古今漢語混用情況十分常見, 具有敘事性強、口語化重等特點[5] 。
1.2.2 中醫(yī)古代文獻
在各類中醫(yī)文本中, 中醫(yī)古代文獻的書寫風格最為晦澀難懂。中醫(yī)古代文獻使用的古漢語在詞匯、句法和語法結構上與現代漢語存在顯著差異。此類文獻另一顯著特征是流傳版本繁多, 呈現出同書異本、同書異名同版、同書異名異版等繁雜現象。一般認為, 應選擇底本優(yōu)良且經過專家校注的權威版本, 以保障數據標注和語料庫的建設質量。
1.2.3 中醫(yī)科技文獻
中醫(yī)科技文獻包括專利、學術論文和專著等形式。在結構上, 中醫(yī)科技文獻通常遵循一定的研究框架, 其結構嚴謹、邏輯清晰, 系統(tǒng)性記錄了研究背景、方法、過程和結果等部分。在語言上, 中醫(yī)科技文獻可能同時使用傳統(tǒng)醫(yī)學和現代醫(yī)學專業(yè)術語, 且不少文獻包括大量的數據。
1.2.4 網絡開放資源
網絡開放中醫(yī)資源來自于各醫(yī)療機構、研究機構和普通公眾, 相關文本語言風格多樣化, 不可一概而論。例如, 社交媒體中的數據信息密度極低,而在線問診數據則更為專業(yè)化。隨著中醫(yī)藥國際化的推進, 還出現了多語言的中醫(yī)文本。這些資源不僅為公眾提供了學習中醫(yī)藥知識的平臺, 也為研究人員提供了豐富的數據來源。
1.3 中醫(yī)文本命名實體識別挑戰(zhàn)
1.3.1 知識體系層次
中醫(yī)知識體系是一個錯綜復雜的系統(tǒng), 融合了古代哲學思想、自然科學理論以及長期的實踐經驗。中醫(yī)基于陰陽五行學說闡釋人體與自然之間的和諧關系, 以臟腑經絡理論為核心, 構建了生理病理模型。從縱向來看, 中醫(yī)學不斷演化, 知識體系也隨之擴展。中醫(yī)學深刻的哲學內涵、精細的理論架構以及不斷發(fā)展使其知識體系呈現高度的復雜性, 是中醫(yī)文本NER 研究在知識體系層次面臨的重要挑戰(zhàn)。
1.3.2 語料構建層次
語料庫建設是中醫(yī)藥領域的一項重要工作, 取得了顯著的研究成果。然而, 由于資源私有化、數據孤島等問題, 相關資源以個案形式分散分布, 尚未整合成一個全面的語料庫系統(tǒng), 難以滿足大規(guī)模數據驅動的中醫(yī)文本NER 需求。此外, 中醫(yī)領域長期以來面臨術語規(guī)范化不足的問題。相關術語標準無法覆蓋所有的實體, 仍有許多實體缺乏明確的規(guī)范名稱。在實際應用中, 標準的實施和推廣面臨困難, 也制約了語料庫建設的進程。受限于上述多種現實因素, 高質量的中醫(yī)語料庫依舊相對稀缺, 直接限制了中醫(yī)文本NER 模型的效果。
1.3.3 技術算法層次
中醫(yī)文本中常存在實體嵌套、實體序列分散和實體過長等現象, 導致實體邊界較為模糊。實體嵌套情況要求NER 算法具備層次化的區(qū)分能力, 例如, “麻黃桂枝湯” 中同時包含方劑名“麻黃桂枝湯”, 又包含藥物名“麻黃” 和“桂枝”, 識別結果應根據需要精準把握不同層級實體的邊界。實體序列分散問題則需要算法具備足夠的上下文信息利用能力。例如, 在“脈沉無力” 中, 算法應識別出“脈沉” 和“脈無力” 兩個獨立實體。上述問題對中醫(yī)NER 算法的語義理解能力提出了極高的要求。
2 中醫(yī)文本命名實體識別語料構建
2.1 中醫(yī)文本命名實體識別術語標準
構建高質量的中醫(yī)語料庫, 可以為NER 模型提供豐富的訓練數據。中醫(yī)術語規(guī)范化是中醫(yī)藥標準化的基礎性工作。本節(jié)對中醫(yī)文本NER 可參考的現行術語標準進行總結, 如表1 所示。在實際應用中, 應優(yōu)先以法典與國家標準為參照, 其次以行業(yè)標準、工具書與教材為準?,F有標準所收錄的詞,原則上不應進行切分。
2.2 中醫(yī)文本命名實體識別實體類型
中醫(yī)文本NER 的實體類型劃分以中醫(yī)理論為基礎, 圍繞辨證論治的核心思想展開。相關研究中包含的實體類型, 主要包括疾病、癥狀、治法、方劑、藥物等, 如表2 所示。此外, 部分研究抽取了中醫(yī)認知方法、陰陽五行、運氣學說等基礎理論相關的實體。針對中醫(yī)文本中蘊含的民俗、倫理觀念及文化內涵等人文相關實體的研究則相對較少。
不同研究者往往根據各自的背景和需求, 采用不同的實體分類體系。這一方面是由于中醫(yī)文本具有多種類型, 不同類型文本中包含的實體本身就存在較大差異。例如, 針灸多涉及經絡、腧穴等特定術語, 而本草則主要涉及性味歸經等。另一方面,即便是對同一類中醫(yī)文本, 不同學者在實體類型劃分上也存在差異, 特別是在實體的粒度的選擇上。如表3 所示, 同樣是針對中醫(yī)古籍《神農本草經》的命名實體識別, 各研究選擇的實體類型存在顯著的差異。這一差異主要源于中醫(yī)領域缺乏公認的、系統(tǒng)化的實體標準。NER 方法可以在沒有實體標準的情況下開發(fā)和實現, 這允許研究者根據需求進行快速迭代和靈活調整。然而, 缺乏實體標準使不同數據集和標注方案之間不可融合, 導致了知識的孤島化與碎片化問題, 阻礙了模型之間的遷移。同時, 研究者在進行模型評估時, 無法采用一致的標準進行算法比較, 影響了研究的可重復性。
2. 3 中醫(yī)文本命名實體識別實體標注
2. 3. 1 標注原則
命名實體標注應遵循可分性、不可分性和一致性等原則, 保障標注的準確性和可靠性??煞中栽瓌t指的是具備相對獨立語義的詞組應作為獨立的實體進行標注。例如, “清熱解毒” 是中藥常用治療方法, 其含義可以拆分為“清熱” 和“解毒” 兩個部分。不可分性原則強調某些專業(yè)術語和組合詞應視為不可分割的整體。諸如《黃帝內經》和《神農本草經》等篇章名, 作為中醫(yī)領域廣為接受的專業(yè)術語, 在NER 過程中不應被拆分。由兩個或多個構詞要素組成的組合詞, 如方劑名“四時加減柴胡飲子” 和證型名“陰虛陽亢證” 等, 拆分將導致概念的喪失, 無法準確傳達其所承載的專業(yè)知識。因此,必須確保它們在標注和識別過程中的完整性。此外,應確保同一個實體在不同上下文中被一致地標注。一致性原則涵蓋了多個方面, 包括實體定義的一致性、標注規(guī)則的一致性和上下文應用的一致性等。
2.3.2 標注方法
目前, 中醫(yī)文本NER 標注方法與通用領域NER的標注方法大致相同, 主要包括BIO、BIOS、BMES、BIESO 等。其中, 最常使用的是BIO 和BIOS 標注。各標注方法的具體含義總結如表4 所示。
3 中醫(yī)文本命名實體識別方法
中醫(yī)文本NER 技術沿著通用領域NER 技術的發(fā)展路線演進, 經歷了基于詞典和規(guī)則的模式匹配方法、基于統(tǒng)計原理的傳統(tǒng)機器學習方法和基于神經網絡的深度學習算法等發(fā)展階段。
3.1 傳統(tǒng)方法
3.1.1 基于詞典和規(guī)則的模式匹配方法
在早期階段, 中醫(yī)文本NER 主要依賴于構建預定義的專業(yè)詞典和規(guī)則進行模式匹配。領域詞典包含的是準確的已知知識, 為NER 提供了可靠的參考依據?;谝?guī)則的方法在分析文本規(guī)律的基礎上, 制定規(guī)則集, 利用最大匹配算法[10] 、正則表達式[11] 等進行實體抽取。模式匹配方法展現出了較高的準確率, 但其局限性也不容忽視。領域詞典需要不斷更新和完善, 以適應新出現的術語和概念,對于未登錄實體的識別效果往往不佳。規(guī)則的制定依賴于領域專家的經驗, 在自由文本處理方面的能力相對較弱, 且可擴展性有限。隨著中醫(yī)文本數據的不斷增加和多樣化, 單純依靠詞典和規(guī)則的方法難以滿足實際應用的需求。
盡管存在這些問題, 基于詞典和規(guī)則的模式匹配方法具有可解釋性強、易于理解的優(yōu)點。對于規(guī)模較小且結構化程度較高的中醫(yī)文本, 該方法具有簡單、準確的優(yōu)勢。當前, 一種新的研究范式是詞典、規(guī)則與深度學習技術相結合, 在語料準備階段,利用詞典與規(guī)則進行自動標注, 有效減少了人工標注的工作量, 且提升了標注的準確性。
3.1.2 基于統(tǒng)計原理的傳統(tǒng)機器學習方法
基于統(tǒng)計原理的傳統(tǒng)機器學習方法是基于概率性的非確定性模型, 依賴于數據的統(tǒng)計學特征進行預測。該方法的核心是特征工程, 通過構造特征模板進行文本特征提取, 然后由機器學習模型預測命名實體的概率。機器學習算法能夠從數據中自動學習特征, 往往比基于詞典和規(guī)則的確定性信息抽取模型效果要好。在中醫(yī)文本NER 任務中常用的統(tǒng)計機器學習方法包括條件隨機場(CRF)、隱馬爾科夫模型(HMM)、支持向量機(SVM)、最大熵模型(ME)等。2009 年, 王世昆等[12] 率先提出基于CRF的中醫(yī)文本NER 方法, 在醫(yī)案數據上效果明顯優(yōu)于ME 和SVM 方法。自此, CRF 成為這一時期中醫(yī)文本NER 的主流模型, 應用到網絡信息[13] 和古籍[14]等多種文本。
在文本規(guī)模相對有限的情況下, 機器學習模型往往能取得較好的效果。機器學習算法的首要問題在于特征工程的復雜性, 設計恰當的特征以從原始數據中有效提取代表性信息是一大挑戰(zhàn)。此外, 機器學習模型的泛化能力有限, 在面對未見過的數據時, 模型表現可能會大幅下降。
3.2 深度學習方法
基于神經網絡的深度學習方法突破了傳統(tǒng)機器學習算法的局限性, 能夠有效的利用深層次語義信息。本節(jié)首先介紹基于深度學習的中醫(yī)文本NER模型的一般框架; 隨后分別詳細探討3 種架構: 基于序列標注的方法、基于跨度的方法和基于大語言模型的方法。
3.2.1 基于深度學習的中醫(yī)文本NER 模型的一般框架
基于深度學習的NER 模型通常由3 個主要部分構成: 嵌入層(Embedding Layer)、編碼層(En?coding Layer)和預測層(Prediction Layer), 其總體架構如圖1 所示。
1) 嵌入層: 主要任務是將原始文本轉化為可供模型處理的低維稠密表示。嵌入向量的生成方法主要分為兩類: 基于特征的實現和基于微調的實現。在基于特征的實現中, 嵌入向量在模型訓練期間中不參與參數更新, 如One-hot、Word2Vec 和GloVe等?;谖⒄{的方法使用上下文相關的嵌入表示,在訓練模型過程中不斷優(yōu)化參數, 動態(tài)調整表示向量, 其典型代表是BERT 嵌入。BERT 基于Trans?former 架構, 通過自注意力機制捕捉序列中的長距離依賴關系, 能夠有效捕捉語言的上下文信息和語義特征。
BERT 等通用預訓練模型得到的文本嵌入結果攜帶的是通用語料中的語義信息, 難以充分理解中醫(yī)領域的專業(yè)術語。近年來, 構建更為貼近中醫(yī)領域的預訓練模型逐漸受到重視。謝靖等[15] 使用基于繁體《四庫全書》的SikuBERT 和SikuRoBERTa,以Flat-Lattice Transformer(FLAT)結構為微調模型,驗證了基于古文的預訓練模型在中醫(yī)NER 任務中明顯優(yōu)于通用BERT 模型。更進一步的, 直接利用中醫(yī)領域數據訓練模型, 能更有效捕捉中醫(yī)文本中獨特的語義信息。王亞強等[16] 構建了中醫(yī)臨床記錄語料庫, 對MC-BERT 進行領域微調, 驗證了專有預訓練模型對中醫(yī)文本NER 效果的提升作用。
2) 編碼層: 編碼層對嵌入層輸出的向量進行處理, 捕捉輸入序列中的上下文信息。常見模型包括多卷積神經網絡(CNN)、循環(huán)神經網絡(RNN)和雙向長短期記憶神經網絡(BiLSTM)等。BiLSTM 網絡在中醫(yī)NER 任務中得到最為廣泛的應用。BiLSTM由兩個LSTM 層組成, 同時捕捉序列的正向和反向信息, 通過門控機制保留長距離依賴關系, 能克服傳統(tǒng)RNN 在處理長期依賴時存在的梯度消失問題。然而, BiLSTM 在局部特征建模上的能力往往不如CNN。Ma Y 等[17] 認為, 古代中醫(yī)文本中一些知識的表達式是以短語的形式呈現出來的, 且缺乏完整的語法結構, 在構建中醫(yī)古籍NER 模型時應該同時考慮輸入文本的上下文語義特征和局部語義特征,增強模型的語義判別能力。
近年來, 除了基于CNN 和RNN 的編碼方法外,還涌現了一些新的方法。例如, 基于條件生成對抗網絡(cGAN)的NER 模型能夠應對中醫(yī)NER 標注數據較少的問題[18] 。該模型通過改進的U-Net 結構, 從單詞、句子、段落和章節(jié)中提取多粒度的語法和語義特征, 并通過跳躍連接結合低層和高層特征, 增強了生成過程中的特征表達。
3) 預測層: 負責將經過編碼處理后的特征映射到具體的實體類別。中醫(yī)文本NER 最常采用CRF作為邏輯回歸層, 在標簽之間建立關聯性約束, 保證預測標簽的合理性, 使模型生成全局最優(yōu)序列標注[19] 。此外, 預測層還可以結合多種模型優(yōu)化策略。Zhao Z 等[20] 提出的基于動態(tài)優(yōu)化的集成學習方法根據預測損失調整模型集成學習的實體類別和融合權重, 并在實體稀疏時減少參數更新的幅度, 防止模型受到非實體信息的不當干擾。Feng Y 等[21] 提出的ANeTCM 模型將序列標注轉換為機器閱讀理解任務, 結合門控線性單元(GLU)提高模型的特征學習能力, 在預測層利用正態(tài)分布來調整樣本的權值, 以解決實體類的不平衡問題。
3.2.2 基于序列標注的方法
基于序列標注的NER 方法根據上下文為輸入序列中的每個元素分配一個標簽, 表示其是否屬于某個實體及其在實體中的位置。BERT-BiLSTM-CRF是應用最為廣泛的基于序列標注NER 架構。該方法通過BERT 將輸入文本轉換為嵌入向量, 使用BiLSTM 進行編碼, 通過全連接層進行分類, 最后利用CRF 最大化標簽序列的聯合概率。部分研究基于這一架構進行算法的局部改進。Hou J 等[22] 提出的Dyn-AttNet 模型引入了動態(tài)注意力和并行結構。針對中醫(yī)領域存在的生僻詞識別率較低的問題,Jin Z 等[23] 提出的TCMKG-LSTM-CRF 模型利用知識圖譜信息進行增強學習, 引入知識注意力向量模型, 增強模型學習和識別生僻詞的能力。此外, 還有結合殘差網絡和歸一化模型的BERT-BiLSTMCRF醫(yī)案癥狀及藥物實體抽取模型[24] 、基于自適應詞嵌入RoBERTa-WWM-BiLSTM-CRF 的名中醫(yī)臨床病例NER 模型[25] 等。
基于序列標注的NER 模型能夠充分利用上下文信息, 識別準確性較高, 并且適用于多種文本類型, 具有較好的通用性。這種方法存在的問題是在處理長文本、復雜邊界實體和類型不平衡等問題方面可能受到挑戰(zhàn)。
3.2.3 基于跨度的方法
基于跨度的NER 方法將實體識別視為一個跨度分類任務。具體而言, 該方法通過定義最長跨度L 或使用某種策略生成可變長度跨度, 列舉所有可能的文本跨度(即連續(xù)的字符序列), 生成候選實體。對每個跨度進行特征提取, 生成表示向量。在解碼階段, 利用跨度分類器預測跨度的實體類別?;诳缍鹊姆椒]有明確的邊界監(jiān)督, 可能導致邊界信息利用不足的問題。Xu W 等[26] 在跨度內部的詞嵌入基礎上, 將跨度的起始和結束位置的隱藏特征作為顯式特征加入到跨度表示中; 同時, 使用BiLSTM捕捉跨度上下文信息增強特征表示; 最后使用多關系圖卷積網絡(CompGCN)進行跨度預測。
基于跨度的模型適應性較強, 能夠靈活處理嵌套實體等復雜實體類型。然而, 枚舉所有可能的跨度復雜性較高, 導致大量低質量候選跨度, 從而需要較多的計算資源來訓練高性能的分類器。
3.2.4 基于大語言模型的方法
大語言模型(LLM)對NLP 的發(fā)展產生了深遠的影響。大語言模型的語義理解和常識推理能力較強,有助于充分分析上下文信息, 從而更準確的進行實體抽取。大語言模型在NER 中的應用仍然處于探索階段。張穎怡等[27] 的研究表明, 基于ChatGPT的學術論文實體識別F1 值高于由少量樣本訓練得到的神經網絡模型。鮑彤等[28] 在MSRA 等常用數據集上測評了ChatGPT 的信息抽取能力, 結果其在NER 中的表現不及GlyceBERT 和ERNIE3. 0 模型,表明ChatGPT 在典型的中文信息抽取任務上還有很大改進空間。
在中醫(yī)NER 研究中, 李盼飛等[29] 調用文言一心API 進行了醫(yī)案命名實體的自動化抽取, 對結果進行了初步探索, 但并未進行系統(tǒng)的效果評價。何宇浩等[30] 則對比了CasRel、GPLinker 與GPTs 在抽取《中華醫(yī)方》中“太陽病” 方劑名、書名、中藥名和劑量實體上的效果, 結果顯示, ChatGPT4. 0的表現最佳, 其綜合F1 值達到97. 48%。在大語言模型的研究熱潮下, 許多研究團隊、機構和企業(yè)相繼推出了一系列中醫(yī)領域專用的大語言模型, 如“岐黃問道·大模型” “神農中醫(yī)藥大模型” “本草”等。盡管這些模型在中醫(yī)NER 中尚未有公開的研究成果, 但它們仍然展現出巨大的潛力, 有望在中醫(yī)知識抽取上實現更高的效率。
LLM 可減少人工標注語料的工作, 并且無需繁瑣的訓練過程和大量的計算資源。在使用時ChatG?PT 等LLM 時, 用戶主要通過設計提示詞(Prompt)來發(fā)出指令, 引導模型關注特定的實體類型。提示詞的優(yōu)劣直接影響到模型的性能, 如何設計出合適的提示詞是LLM 產生高質量回答的關鍵。
3. 3 中醫(yī)文本NER 研究熱點
3. 3. 1 多特征融合模型
多特征融合模型是近年中醫(yī)文本NER 研究的主要方向之一, 相關研究如表5 所示。多特征融合模型在字符的基礎上, 以詞匯、拼音和形態(tài)學特征等作為補充, 從模型底層減少中醫(yī)語義信息的丟失。由于現有的分詞技術對中醫(yī)文本的處理效果不佳,中醫(yī)文本NER 通常以字作為基本的標記單元, 避免分詞帶來的歧義性問題。詞匯增強的算法引入高質量的領域詞典, 彌補基于字符向量的特征可能會導致文本序列中蘊含的詞匯語義信息丟失的缺陷。詞匯增強方法主要有適應嵌入和動態(tài)框架兩種范式。適應嵌入范式僅在嵌入層對詞匯信息進行自適應嵌入, 不改變模型本身的結構, 典型代表為基于Soft-Lexicon 的詞典匹配方法[46] 。動態(tài)框架范式則通常需要設計相應的模型結構, 以融入詞匯信息,典型代表為Lattice LSTM。Lattice LSTM 在基于字的LSTM 模型上加入了詞匯輸入單元, 可以有效地利用詞的先驗知識[31] 。受到Lattice LSTM 和Trans?former 的啟發(fā), Flat-Lattice Transformer 構建位置編碼重構原有的Lattice 結構。葉青等[32] 采用Flat-Lattice Transformer 模型融合了字、詞和跨度特征,提高了模型對邊界模糊實體的處理能力。
此外, 漢語作為象形文字, 其字形具有一定的規(guī)律性。具有相似偏旁或部首的漢字在語義上往往存在一定的相關性, 例如, 帶有“艸” 或“木” 部首的字通常與本草相關(“芝” “藿” 等), 而“疒”部首的字一般與疾病相關(“瘧” “痛” 等)。融合字形特征, 能夠使具有關聯的字符在向量空間中更為接近。胡為等[33] 通過融合漢字筆畫、部首和詞根等字形特征為字符賦予更豐富的語義特征, 相比以往方法F1 值提高了3.0%。
3.3.2 面向低資源問題的模型
目前的中醫(yī)文本NER 方法仍然對大規(guī)模的標記訓練數據有很強的依賴性。中醫(yī)領域的公開語料庫較少。因此, 解決低資源環(huán)境下的中醫(yī)文本NER問題具有一定的挑戰(zhàn)性。通用領域解決這一問題的主流方法是遷移學習, 利用源域中已有的知識來幫助目標域的學習任務。中醫(yī)文本與通用文本之間存在顯著的差異, 增大了將其他領域知識遷移到中醫(yī)NER 任務的難度, 因此基于遷移學習的中醫(yī)文本NER 研究較少。目前, 低資源環(huán)境下的中醫(yī)文本NER 相關研究主要包括數據增強、半監(jiān)督學習和遠程監(jiān)督學習等方法。
數據增強在原始數據集的基礎上, 通過同義詞替換、變換語序、隨機刪除、添加擾動等方法生成更多的訓練樣本。楊延云等[41] 采用EDA 數據增強方法進行數據擴充, 結合半監(jiān)督自訓練學習, 解決中醫(yī)文本NER 標注數據集較小的問題。Zhao Z 等[42]設計了一系列采樣和數據增強策略, 以緩解實體不平衡帶來的挑戰(zhàn)。遠程監(jiān)督方法利用領域實體詞典和原始文本來自動生成“銀標準” 數據集(Silver Stand?ard Datasets), 可以快速獲得大規(guī)模標注數據, 解決“黃金標準” 數據集(Gold Standard Datasets) 標注成本較高的問題。遠程監(jiān)督方法最關鍵的問題是假陰性樣本的存在。Jia Q 等[43] 將遠程監(jiān)督中醫(yī)文本NER 任務視作跨度檢測任務, 提出了一種針對銀標準數據集的負采樣策略。在訓練階段, 該方法在每個周期隨機選擇一定數量的非實體文本作為負樣本,通過標簽平滑減少假陰樣本對訓練的不良影響。
3.4 評價指標
中醫(yī)文本NER 的評價指標主要包括準確率、精確率、召回率和F1 均值。假定TP 表示模型成功識別的標記實體(真正例); TN 表示模型未識別的非標記實體(真負例); FP 表示模型錯誤識別的非標記實體(假正例); FN 表示模型未識別的標記實體(假負例)。則評價各指標的定義如下:
準確率指模型正確識別的實體數占所有實體總數的比例, 即式(1):
Accuracy = TP+TN/TP+TN+FP+FN (1)
精確率指模型正確識別的實體數占識別實體總數的比例, 即式(2):
Precision = TP/TP+FP (2)
召回率指模型正確識別的實體數占標記實體總數的比例, 即式(3):
Recall = TP/TP+FN (3)
F1 均值兼顧準確率和召回率之間的平衡, 即式(4):
F1=2×Precision×Recall/Precision+Recall (4)
各指標越接近于1, 表示NER 模型的識別性能越好。
4 討論與展望
深度學習算法的不斷發(fā)展提升了中醫(yī)文本NER的效果。然而, 中醫(yī)文本NER 依然面臨許多挑戰(zhàn)?;谶@些分析, 我們建議未來研究可以從下述幾個方面展開。
4.1 語料庫建設
中醫(yī)藥領域可用于NER 及其相關任務的高質量標注數據集相對匱乏, 相關研究通常依賴于自行標注的小規(guī)模數據集進行封閉訓練。新的NER 研究往往需要重建語料庫, 導致模型缺乏可比性、可移植性和通用性。解決這一問題需要制定標注規(guī)范, 并構建高質量數據集。
1) 制定標注規(guī)范。缺乏統(tǒng)一的標注規(guī)范已成為制約領域數據遷移與融合的關鍵因素。制定公認的、系統(tǒng)化的實體規(guī)范, 需要構建中醫(yī)術語映射字典, 確保標注的一致性。相應的, 需合理的設計嵌套實體、不連續(xù)實體等復雜問題的標注方案, 增強NER 模型在真實場景中的適應性和魯棒性。一種可能的方案是在標注上突破單一參數, 構建多層次的標注結構。這不僅應包括兼容粗細粒度的分層標注,還可結合詞性、句法功能與短語規(guī)則, 利用多層次信息約束實體識別過程[44] 。
2) 構建高質量標注數據集。深度學習模型,特別是監(jiān)督學習模型, 需要大規(guī)模、高質量的標注數據集, 構建普遍認可的標準數據集的重要性程度不言而喻。生物醫(yī)學領域的數據集構建方式具有較強的參考價值。生物醫(yī)學領域擁有豐富的公開資源,如CCKS 數據集、CLUENER 數據集、NCBI-Disease數據集以及瑞金醫(yī)院糖尿病數據集等。這些數據集大多源于自然語言處理測評比賽任務, 由專業(yè)團隊進行數據的整理與標注, 確保了數據的可靠性。相關數據集覆蓋多種類型的實體, 例如, CHIP 數據集支持嵌套實體的標注, 而ShARe 數據集則面向非連續(xù)實體的識別。相較而言, 中醫(yī)NER 數據集的數量和質量均顯著不足。2020 年, 中醫(yī)藥天池大數據競賽發(fā)布了中醫(yī)藥說明書實體識別數據集,共包含1 997份藥品說明書, 涵蓋藥品、藥物成分、疾病、癥狀等13 類實體。未來中醫(yī)NER 研究將依托高質量的標注數據集, 進一步推動中醫(yī)藥信息化的發(fā)展。
4. 2 小樣本學習中的數據優(yōu)化
在數據有限的情況下, 利用數據優(yōu)化技術能夠提升模型的學習能力和泛化性能。
1) 基于GPT 的數據增強。GPT 模型的發(fā)展為數據增強提供了一種新的解決方案。GPT 模型能夠對輸入文本進行修改或重構, 生成符合上下文邏輯的新樣本。2023 年, Dai H 等[45] 提出, 基于GPT的增強算法AugGPT, 將訓練樣本中的每個句子重述為多個概念相似但語義不同的樣本, 該方法在測試精度和增強樣本分布方面優(yōu)于最先進的文本數據增強方法。2024 年, 許欽亞等[46] 應用ChatGPT 對學術論文語步數據進行增強, 提出GPT 數據增強提示工程的角色設定與任務描述、任務要求描述、制定返回格式、設置任務示例和輸入與評估六大步驟?;冢牵校?的數據增強是未來中醫(yī)NER 數據增強研究的一個可能方向。
2) 主動學習。主動學習算法通過選擇價值密度最高的數據樣本, 篩選合適的候選集, 再進行人工標記, 減少所需標注數據量, 降低標注成本。標注后的數據通過增量或重新學習的方式融入模型,再循環(huán)往復中提高模型的學習效果。Li T 等[47] 提出一個對抗性的主動學習框架來選擇最有價值的標注實例, 結合LSTM、BiLSTM 和注意力機制進行網絡安全文本中的命名實體檢測, 以較低的標注成本增強了模型的效果。Tran V 等[48] 使用基于實例的上下文和內容的多樣性來選擇信息最為豐富的實例,結合自學習算法篩選高度可靠的實例, 在Twitter 數據集NER 中取得了較好的效果。這些研究證實了主動學習的有效性, 主動學習與深度學習相結合可能是降低中醫(yī)NER 數據標注成本的一種可行方案。
4.3 針對復雜實體的識別模型
中醫(yī)NER 中嵌套實體、非連續(xù)實體和易混淆實體等復雜實體依然是主要的挑戰(zhàn)。
1) 嵌套實體。嵌套實體是命名實體中的一種特殊現象, 指某個實體內部包含另一個實體的情況。假設輸入文本序列X = {x1,x2,…,xn }, 其中xi 是序列中的第i 個字, n 為序列的長度。對于非嵌套命名實體而言, 每個字對應一個實體標簽, 標簽集合可表示為Y ={y1,y2,…,yn }。與此不同的是, 嵌套實體中每個字可能對應多個標簽, 標簽集合可表示為Y ={{y11,y21,…,ym1 },{y12,y22,…,ym2 },…,{y1n ,y2n ,…,ymn}}, 其中, n 為序列的長度, m 為嵌套的層數。嵌套實體的嵌套結構復雜多變, 嵌套顆粒度和嵌套層數缺乏規(guī)律性, 例如, “麻黃桂枝湯” 由多個非嵌套實體“麻黃” 和“桂枝” 并列構詞, 而“杏子湯” 則是非嵌套實體“杏子” 的擴展。嵌套實體包含的內部實體之間還可能存在依賴關系。因此, 嵌套實體的識別難度較大, 需要改進現有模型以提高識別準確率。嵌套命名實體識別是各領域信息抽取任務的一個研究熱點, 其他領域相關研究提出了基于超圖表示[49] 、狀態(tài)轉換[50] 、二部平面圖[51]等多種方法。Xu H 等[52] 設計了針對中醫(yī)NER 的兩層標注策略, 對中醫(yī)嵌套命名實體識別做出了探索。未來的研究需要在現有模型的基礎上進行改進, 更好地支持知識庫構建等后續(xù)工作。
2) 非連續(xù)實體。非連續(xù)實體是指在文本中由不相鄰的字或詞組成的實體。傳統(tǒng)的BIO 等標注規(guī)范無法有效支持非連續(xù)命名實體識別。針對這一問題, Tang B 等[53] 提出了BIOHD 標注法, 該方法在BIO 的基礎上增加了HB、HI、DB、DI 4 種標簽,以表示不規(guī)則實體。其中HB 和HI 用于標注重疊實體, DB 和DI 則用于標注非連續(xù)實體, DB 表示非連續(xù)實體的首字, DI 表示不連續(xù)實體的中間和尾部字。這一創(chuàng)新使非連續(xù)實體識別更為清晰和精確。Dai X 等[54] 提出一種端對端的基于轉移的神經編碼模型, 并利用專門的行動和注意力機制來確定特定跨度是否是非連續(xù)實體的組成部分, 該方法能夠在不犧牲連續(xù)實體識別準確性的前提下有效的識別不連續(xù)實體, 對后續(xù)研究產生了極大的影響。中醫(yī)非連續(xù)實體識別的研究較為缺乏, 尤其是超圖等新興方法的有效性尚待驗證。因此, 未來研究應聚焦于這一領域, 以探索更有效的識別策略。
3) 易混淆實體。中醫(yī)文本中不同實體的識別效果差異顯著, 相對而言, 藥物、部位的識別率較高,而癥狀、病名及病癥等實體的識別精度較低。中醫(yī)疾病術語往往散落在癥狀詞中, 且部分實體既可表示疾病, 又可作為癥狀。這種模糊性大大增加了模型的識別難度, 需要高度的上下文理解能力才能做出區(qū)分。癥狀詞的表述極為豐富, 在與不同的程度詞結合后, 表述更為復雜。此外, 這些實體兼有上述的嵌套、不連續(xù)等復雜現象, 實體邊界不清, 極大地影響了識別的精度。針對中醫(yī)易混淆命名實體的識別, 需要建立更為統(tǒng)一的數據標準和有效的標注策略, 同時增強模型對上下文信息的理解能力。
4.4 增強模型解釋性
深度學習方法的“黑箱” 性質限制了相關人員對模型內部工作過程的理解。在臨床診斷和治療的現實過程中, 錯誤的決定可能會產生非常嚴重的后果。模型的可解釋性關系到模型結果的可信度,是確保其在實際應用中被采用的關鍵因素。因此,提升中醫(yī)NER 模型的可解釋性是未來的一個研究重點。這需要從規(guī)則制定、內部模塊解釋、歸因解釋和實例分析等多個角度對模型進行解構。同時,也要制定科學的評價指標, 衡量不同類型模型的解釋程度。
5 結 語
中醫(yī)命名實體識別為中醫(yī)知識組織和智慧醫(yī)療奠定了基礎。由于中醫(yī)文本固有的抽象性、經濟性和復雜性等特征, 中醫(yī)文本NER 面臨知識體系復雜、語料庫稀缺和技術算法效果有待提升等挑戰(zhàn)。中醫(yī)文本NER 技術經歷了從基于詞典和規(guī)則的模式匹配方法、基于統(tǒng)計原理的機器學習方法和基于神經網絡的深度學習方法的發(fā)展路徑。目前, 中醫(yī)文本NER 的主流方法是基于BERT-BiLSTM-CRF 的序列標注方法, 基于跨度的方法也有一定的研究。近年來, 基于大語言模型的中醫(yī)文本NER 技術展現了一定的潛力。此外, 中醫(yī)領域的專有預訓練模型、融合字詞和字形等特征的融合模型和面向低資源問題的模型取得了不錯的效果。未來的中醫(yī)文本NER研究需要著重處理中醫(yī)語料資源匱乏問題, 制定統(tǒng)一的語料標注規(guī)范, 構建高質量中醫(yī)標注數據集;同時, 小樣本學習中的數據優(yōu)化、針對復雜問題的識別模型和深度學習模型的解釋性研究可能成為新的技術發(fā)展趨勢。
參考文獻
[1] 劉麗莉, 李明, 羅曉蘭, 等. 基于自然語言處理智能技術的中醫(yī)術語研究文獻計量分析[J]. 上海中醫(yī)藥雜志, 2024, 58 (7):1-6, 14.
[2] 孔靜靜, 于琦, 李敬華, 等. 實體抽取綜述及其在中醫(yī)藥領域的應用[J]. 世界科學技術-中醫(yī)藥現代化, 2022, 24 (8): 2957-2963.
[3] 易鈞匯, 查青林. 中醫(yī)癥狀信息抽取研究綜述[J]. 計算機工程與應用, 2023, 59 (17): 35-47.
[4] 李虹. 中醫(yī)語言的特點及其對中醫(yī)英語表達的影響[ J]. 上海中醫(yī)藥大學學報, 2006, (1): 69-71.
[5] 丁有偉, 郭坤, 胡孔法, 等. 一種面向中醫(yī)電子病歷的實體抽取算法[J]. 軟件導刊, 2021, 20 (12): 99-104.
[6] 張藝品, 關貝, 呂蔭潤, 等. 深度學習基礎上的中醫(yī)實體抽取方法研究[J]. 醫(yī)學信息學雜志, 2019, 40 (2): 58-63.
[7] 佟琳, 張華敏, 佟旭, 等. 基于命名實體識別的《神農本草經》知識圖譜構建及可視化分析[J]. 中國中醫(yī)藥信息雜志, 2024,31 (8): 37-43.
[8] 周嘉瑋, 王坤, 吳雨璐, 等. 基于BiLSTM-CRF 的《神農本草經》命名實體識別研究[J]. 成都中醫(yī)藥大學學報, 2024, 47(3): 54-59.
[9] 馬月坤, 吳國仲. 基于特征增強的中醫(yī)本草命名實體識別方法[J]. 河北大學學報(自然科學版), 2024, 44 (2): 199-207.
[10] Wang Y, Yu Z, Jiang Y, et al. A Framework and its EmpiricalStudy of Automatic Diagnosis of Traditional Chinese Medicine Utili?zing Raw Free-Text Clinical Records [ J]. Journal of BiomedicalInformatics, 2012, 45 (2): 210-223.
[11] 鄧宇, 張振銘, 陳橙, 等. 基于正則表達式的中醫(yī)醫(yī)案術語抽取方法研究[J]. 湖南中醫(yī)雜志, 2023, 39 (5): 202-207.
[12] 王世昆, 李紹滋, 陳彤生. 基于條件隨機場的中醫(yī)命名實體識別[J]. 廈門大學學報(自然科學版), 2009, 48 (3): 359-364.
[13] 王莉軍, 李旭婕, 劉志輝, 等. 基于開放信息源的實體挖掘方法研究[J]. 情報科學, 2019, 37 (8): 139-144.
[14] 李賀, 祝琳琳, 劉嘉宇, 等. 基于本體的簡帛醫(yī)藥知識組織研究[J]. 圖書情報工作, 2022, 66 (22): 16-27.
[15] 謝靖, 劉江峰, 王東波. 古代中國醫(yī)學文獻的命名實體識別研究———以Flat-lattice 增強的SikuBERT 預訓練模型為例[J].圖書館論壇, 2022, 42 (10): 51-60.
[16] 王亞強, 李凱倫, 舒紅平, 等. 基于批數據過采樣的中醫(yī)臨床記錄四診描述抽取方法[ J]. 中文信息學報, 2024, 38 (2):121-131.
[17] Ma Y, Liu H, Liu Y, et al. A Named Entity Recognition Meth?od Enhanced with Lexicon Information and Text Local Feature [J].Computer Science, Medicine, 2023, 20 (3): 899-906.
[18] Ma Y, Liu Y, Zhang D, et al. A Multigranularity Text DrivenNamed Entity Recognition CGAN Model for Traditional Chinese Med?icine Literatures [J]. Computational Intelligence and Neuroscience,2022: 1495841.
[19] 李明浩, 劉忠, 姚遠哲. 基于LSTM-CRF 的中醫(yī)醫(yī)案癥狀術語識別[J]. 計算機應用, 2018, 38 (S2): 42-46.
[20] Zhao Z, Qian Y, Liu Q, et al. A Dynamic Optimization-BasedEnsemble Learning Method for Traditional Chinese Medicine NamedEntity Recognition [J]. IEEE Access, 2023, 11: 99101-99110.
[21] Feng Y, Zhou Y. ANeTCM: A Novel MRC Framework for Tradi?tional Chinese Medicine Named Entity Recognition [J]. IEEE Ac?cess, 2019, 12: 113235-113243.
[22] Hou J, Saad S, Omar, N. Enhancing Traditional Chinese MedicalNamed Entity Recognition with Dyn-Att Net: A Dynamic AttentionApproach [J]. PeerJ Computer Science, 2024, 10: e2022.
[23] Jin Z, Zhang Y, Kuang H, et al. Named Entity Recognition inTraditional Chinese Medicine Clinical Cases Combining BiLSTM -CRF with Knowledge Graph [J]. Knowledge Science, Engineeringand Management, 2019, 11775: 537-548, 2019.
[24] 王欣宇, 高曉苑, 楊濤, 等. 名老中醫(yī)診治肺癌“癥-藥” 關系自動化提取與分析模型構建及應用[J]. 中華中醫(yī)藥雜志, 2022,37 (11): 6297-6301.
[25] 萬澤宇, 龔慶悅, 李鐵軍, 等. 基于自適應詞嵌入RoBERTawwm的名中醫(yī)臨床病歷命名實體識別研究[J]. 軟件導刊, 2022,21 (12): 58-62.
[26] Xu W, Wang L, Zhang M, et al. A Joint Entity Relation Extrac?tion Method for Document Level Traditional Chinese Medicine texts[J]. Artificial Intelligence In Medicine, 2025, 154: 192015.
[27] 張穎怡, 章成志, 周毅, 等. 基于ChatGPT 的多視角學術論文實體識別: 性能測評與可用性研究[ J]. 數據分析與知識發(fā)現, 2023, 7 (9): 12-24.
[28] 鮑彤, 章成志. ChatGPT 中文信息抽取能力測評———以三種典型的抽取任務為例[J]. 數據分析與知識發(fā)現, 2023, 7 (9):1-11.
[29] 李盼飛, 楊小康, 白逸晨, 等. 基于大語言模型的中醫(yī)醫(yī)案命名實體抽取研究[J]. 中國中醫(yī)藥圖書情報雜志, 2024, 48(2): 108-113.
[30] 何宇浩, 李明, 羅曉蘭, 等. 基于GPTs 的中醫(yī)知識圖譜實體和關系抽取研究[J]. 上海中醫(yī)藥雜志, 2024, 58 (8): 1-6.
[31] 曾江峰, 龐雨靜, 高鵬鈺, 等. 基于Lattice LSTM 的中醫(yī)藥古文獻命名實體識別與應用研究[J]. 情報工程, 2023, 9 (5):112-122.
[32] 葉青, 賴煊, 程春雷, 等. 融合詞匯增強和跨度方法的中醫(yī)藥命名實體識別[J/ OL]. 計算機工程與應用, 1-10 [2024-08-27]. http: / / kns.cnki.net/ kcms/ detail/11.2127.tp.20240824.1025.002.html.
[33] 胡為, 劉偉, 盛威, 等. 融合字形特征的中醫(yī)醫(yī)案命名實體識別研究[J]. 計算機時代, 2023, (7): 66-69, 73.
[34] 胡為, 劉偉, 盛威, 等. TcmYiAnBERT: 基于無監(jiān)督學習的中醫(yī)醫(yī)案預訓練模型[J]. 醫(yī)學信息學雜志, 2023, 44 (7):63-67.
[35] 楊延云, 杜建強, 聶斌, 等. 一種面向中醫(yī)文本的實體關系深度學習聯合抽取方法[J]. 計算機應用與軟件, 2023, 40 (3):217-222, 234.
[36] 李旻哲, 殷繼彬. 融合BERT 模型與詞匯增強的中醫(yī)命名實體識別模型[J]. 計算機科學, 2024, 51 (S1): 134-139.
[37] 劉彬, 肖曉霞, 鄒北驥, 等. 融合漢字部首的BERT-BiLSTMCRF中醫(yī)醫(yī)案命名實體識別模型[J]. 醫(yī)學信息學雜志, 2023,44 (6): 48-53.
[38] 張文東, 吳子煒, 宋國昌, 等. 基于SiKuBERT 與多元數據嵌入的中醫(yī)古籍命名實體識別[J]. 華南理工大學學報(自然科學版), 2024, 52 (6): 128-137.
[39] 王晰, 柯麗娟, 李海燕, 等. 基于“深度學習模型+詞典” 的針刺效應命名實體識別研究[J]. 世界科學技術-中醫(yī)藥現代化, 2024, 26 (7): 1779-1785.
[40] 楊航, 彭葉輝, 楊偉, 等. 基于BRL 神經網絡模型的名家醫(yī)案實體識別[J]. 中國實驗方劑學雜志, 2024, 30 (24): 167-173.
[41] 楊延云, 杜建強, 聶斌, 等. 融合數據增強和注意力機制的中醫(yī)實體及關系聯合抽?。郏剩荩?智能計算機與應用, 2023, 13(8): 186-191, 196.
[42] Zhao Z, Tang Y, Cheng Z, et al. ABL-TCM: An AbductiveFramework for Named Entity Recognition in Traditional ChineseMedicine [J]. IEEE Access, 2024: 3454278.
[43] Jia Q, Zhang D, Xu H, et al. Extraction of Traditional ChineseMedicine Entity: Design of a Novel Span-Level Named Entity Rec?ognition Method With Distant Supervision [J]. JMIR Medical Infor?matics, 2021, 9 (6): e28219.
[44] 聞永毅, 王治梅. 中醫(yī)文獻語料庫建設與頂層設計芻議[J]. 西部中醫(yī)藥, 2018, 31 (7): 62-65.
[45] Dai H, Liu Z, Liao W, et al. AugGPT: Leveraging ChatGPTfor Text Data Augmentation [J]. arXiv: 2302.13007.
[46] 許欽亞, 薛秋紅, 錢力, 等. 融合ChatGPT 數據增強的學術論文語步識別方法研究[J]. 圖書情報工作, 2024, 68 (17):84-94.
[47] Li T, Hu Y, Ju A, et al.. Adversarial Active Learning for NamedEntity Recognition in Cybersecurity [ J]. Computers, Materials &Continua, 2021, 66 (1): 407-420.
[48] Tran V, Nguyen N, Fujita H, et al. A Combination of ActiveLearning and Self-learning for Named Entity Recognition on TwitterUsing Conditional Random Fields [J]. Knowledge-Based Systems,2017, 132 (15): 179-17.
[49] Wang B, Lu W. Neural Segmental Hypergraphs for OverlappingMention Recognition [ C] / / Proceedings of the 2018 Conferenceon Empirical Methods in Natural Language Processing, Brussels,Belgium: Association for Computational Linguistics, 2018: 204-214,
[50] Wang B, Lu W, Wang Y, et al. A Neural Transition-basedModel for Nested Mention Recognition [ C] / / Proceedings of the2018 Conference on Empirical Methods in Natural Language Process?ing, Brussels, Belgium: Association for Computational Linguistics,2018: 1011-1017.
[51] Luo Y, Zhao H. Bipartite Flat-Graph Network for Nested NamedEntity Recognition [C] / / Proceedings of the 58th Annual Meetingof the Association for Computational Linguistics, Online: Associa?tion for Computational Linguistics, 2020: 6408-6418.
[52] Xu H, Liu H, Jia Q, et al. A Nested Named Entity RecognitionMethod for Traditional Chinese Medicine Records [J].
[53] Tang B, Hu J, Wang X, et al. Recognizing Continuous and Dis?continuous Adverse Drug Reaction Mentions from Social Media U?sing LSTM-CRF [J]. Wireless Communications and Mobile Com?puting, 2018: 2379208.
[54] Dai X, Karimi S, Hachey B, et al. An Effective Transition -based Model for Discontinuous NER [C] / / Proceedings of the 58thAnnual Meeting of the Association for Computational Linguistics,Online: Association for Computational Linguistics, 2020: 5860-5870.
(責任編輯: 郭沫含)
基金項目: 國家社會科學基金冷門絕學專項研究項目“本草典籍整理、知識組織與智慧化建設研究” (項目編號: 23VJXT024)。