特約主持人:李福海
摘要:自然語言處理中,實體與關(guān)系抽取是構(gòu)建知識圖譜、設(shè)計問答系統(tǒng)、語義分析等任務(wù)中不可或缺的環(huán)節(jié)。中醫(yī)易水學(xué)派的信息多數(shù)以非結(jié)構(gòu)化文言文本形式儲存,中醫(yī)文本關(guān)鍵信息抽取對挖掘和研究中醫(yī)學(xué)術(shù)流派有重要作用。為了更高效地解決以上問題,研究引入人工智能方法,構(gòu)建自然語言處理技術(shù)架構(gòu)下基于條件隨機(jī)場的分詞和實體關(guān)系抽取模型識別與抽取中醫(yī)文本實體關(guān)系,利用詞頻逆文檔頻率算法的常用加權(quán)技術(shù)提取不同古籍文本中的關(guān)鍵實體信息,并使用基于人工神經(jīng)網(wǎng)絡(luò)依存句法分析技術(shù),深入剖析古籍條文,以揭示其中實體之間復(fù)雜而精確的語法關(guān)系,將其表示為可視化樹形結(jié)構(gòu),為下一步構(gòu)建易水學(xué)派知識圖譜及利用人工智能方法開展中醫(yī)學(xué)術(shù)流派研究奠定基礎(chǔ)。
關(guān)鍵詞:自然語言處理;知識圖譜;易水學(xué)派;句法分析
DOI:10.3969/j.issn.1674490X.2024.04.005
中圖分類號:R2""""" 文獻(xiàn)標(biāo)志碼:A""""" 文章編號:1674490X(2024)04003008
Construction of a syntactic analysis map for Yishui school through text mining and natural language processing research
ZHAO Hanqing, LI Yuehan, ZOU Xinyan
(College of Traditional Chinese Medicine, Hebei University, Baoding 071000, China)
Abstract: Entity and relationship extraction is a crucial component in natural language processing tasks such as knowledge graph construction, question answering system design, and semantic analysis. The information pertaining to Yishui school of traditional Chinese medicine primarily exists in the form of unstructured classical Chinese text, making key information extraction from TCM texts essential for mining and studying TCM academic schools. To efficiently address these challenges using artificial intelligence methods, this paper presents a word segmentation and entity relationship extraction model based on conditional random field within the framework of natural language processing technology to identify and extract entity relationships from TCM texts. Important key
收稿日期:20240604
基金項目:
國家自然科學(xué)基金(82004503);河北省高等學(xué)??茖W(xué)技術(shù)研究項目資助(BJK2024108)
第一作者:趙漢青(1990—),男,山東棗莊人,講師,博士,碩導(dǎo),主要從事中醫(yī)藥大數(shù)據(jù)處理與人工智能應(yīng)用研究。E-mail: zhaohq@hbu.edu.cn
entity information from different ancient books is extracted using commonly employed TF-IDF information retrieval and data mining weighting techniques. Additionally, grammatical relationships between entities in each ancient book article are analyzed using a neural network dependency parsing analyzer, which are then represented as tree structures for visualization purposes. This paper lays the foundation for subsequent steps involving building a knowledge graph for Yishui school and utilizing artificial intelligence methods to conduct research on TCM academic schools.
Key words: natural language processing; knowledge graph; Yishui school; syntactic analysis
0" 引言
人工智能及自然語言處理技術(shù)在中醫(yī)藥數(shù)據(jù)挖掘領(lǐng)域得到了廣泛應(yīng)用,高效挖掘利用中醫(yī)古籍文獻(xiàn)知識已成為推動中醫(yī)藥學(xué)傳承與創(chuàng)新發(fā)展的基石。隨著技術(shù)的進(jìn)步,雖然近年來已在相關(guān)領(lǐng)域取得了一定成果[1],但仍存在巨大挑戰(zhàn),特別是在中醫(yī)學(xué)派的傳承與發(fā)展中較少見到自然語言處理技術(shù)的應(yīng)用研究。
中醫(yī)學(xué)派別的學(xué)術(shù)傳承多依賴于讀經(jīng)典,核心是挖掘古籍知識。這些古籍以非結(jié)構(gòu)化的文本形式保存至今。在處理這些古籍?dāng)?shù)據(jù)時,特別是涉及命名實體等信息的提取,需要投入大量的人力與時間。古籍文獻(xiàn)主要采用文言文撰寫,與現(xiàn)代漢語在詞匯和語義層面存在顯著差異。這導(dǎo)致針對人工智能分析構(gòu)建的標(biāo)準(zhǔn)數(shù)據(jù)集相當(dāng)匱乏,進(jìn)而為計算機(jī)方法從古籍文獻(xiàn)中自動抽取信息設(shè)置了重重障礙。使用自然語言處理技術(shù)進(jìn)行古籍文獻(xiàn)的內(nèi)容識別是解決該問題的方法之一,而命名實體識別(named entity recognition, NER)是自然語言文本處理的常用技術(shù)。中文命名實體識別方法能夠?qū)崿F(xiàn)從文本數(shù)據(jù)中自動提取相關(guān)中文實體,并能夠?qū)嶓w進(jìn)行分類[2]。目前,較為準(zhǔn)確的命名實體方法是使用手工規(guī)則結(jié)合人工標(biāo)注的實體庫,對文本數(shù)據(jù)進(jìn)行分析判斷。這種基于規(guī)則的方法最大的優(yōu)點是具有較高的準(zhǔn)確率,主要缺點是過于依賴人工規(guī)則,泛化能力差。故基于機(jī)器學(xué)習(xí)方法開展命名實體識別的研究逐漸增多。當(dāng)前較為成熟的機(jī)器學(xué)習(xí)方法主要為基于有監(jiān)督學(xué)習(xí)的隱馬爾科夫模型(hidden markovmodel,HMM)、決策樹模型(decision tree)、最大熵模型(the maximum entropy principle)、條件隨機(jī)場(condition random field, CRF)、支持向量機(jī)(support vector machine, SVM)等。這些方法仍需依靠人工標(biāo)注數(shù)據(jù),但對規(guī)則的依賴較少。[3]隨著GPU計算卡性能的大幅提升,基于深度學(xué)習(xí)的NER方法逐漸占據(jù)主導(dǎo)地位,且整體識別效果較基于機(jī)器學(xué)習(xí)方法有較大的提升。目前,基于深度學(xué)習(xí)的方法主要基于人工神經(jīng)網(wǎng)絡(luò)模型,除了常見的圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)、遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)等[4]神經(jīng)網(wǎng)絡(luò)模型外,谷歌發(fā)布的預(yù)訓(xùn)練深度學(xué)習(xí)模型BERT極大提升了命名實體識別的性能[5],但該模型在中醫(yī)古籍文本提取中的表現(xiàn)仍然不佳。在中醫(yī)藥文本的知識關(guān)系提取方法研究中,除了使用自頂向下的抽取方法外,國內(nèi)亦開展了多種基于無監(jiān)督算法的自動抽取研究。廣州中醫(yī)藥大學(xué)陳瑩璇等[6]使用Python Jiayan分詞工具對《黃帝內(nèi)經(jīng)·靈樞》文本進(jìn)行自動實體識別,再對提取的實體利用中醫(yī)藥學(xué)語言系統(tǒng)開展關(guān)系分類以完成整個三元組的提取。張瑩瑩[7]使用中醫(yī)專業(yè)知識來設(shè)計中醫(yī)知識圖譜的模式層,運(yùn)用CRF++算法對電子病歷進(jìn)行命名實體識別,結(jié)合中醫(yī)規(guī)則和Attention-based Bi-directional Long Short-Term Memory機(jī)器學(xué)習(xí)模型來識別和抽取實體之間的關(guān)系,初步完成了一個多源異構(gòu)的中醫(yī)藥知識圖譜構(gòu)建。
本研究通過運(yùn)用經(jīng)典的自然語言處理方法,首先對經(jīng)典古籍文本數(shù)據(jù)進(jìn)行分詞處理,根據(jù)通用PKU方案進(jìn)行命名實體識別,在此基礎(chǔ)上使用詞頻逆文檔頻率(term frequency-inverse document frequency,TF-IDF)算法提取關(guān)鍵實體詞,隨后開展依存句法分析,為后續(xù)知識圖譜構(gòu)建提供數(shù)據(jù)樣本。在具體方案實現(xiàn)中,本研究采用條件隨機(jī)場自然語言處理模型+TF-IDF算法關(guān)鍵實體抽取算法+基于人工神經(jīng)網(wǎng)絡(luò)的依存句法分析器對易水學(xué)派代表文本數(shù)據(jù)進(jìn)行自動分析和可視化展示,為人工智能技術(shù)在中醫(yī)學(xué)派研究應(yīng)用提供參考。
1" 資料與方法
1.1" 實驗數(shù)據(jù)
本研究數(shù)據(jù)為公開通行版本《醫(yī)學(xué)啟源》《脾胃論》《陰證略例》,將全文內(nèi)容轉(zhuǎn)化為txt文檔,去除目錄,僅保留全文標(biāo)題和全部正文部分,去掉空格和空行,不進(jìn)行數(shù)據(jù)清理。
1.2" 條件隨機(jī)場模型
條件隨機(jī)場是一種判別式無向圖模型,一般使用極大似然估計完成文本數(shù)據(jù)的分詞、詞性標(biāo)注等任務(wù)[8]。中文分詞采用BMES詞位法,即詞首、詞中、詞尾、獨立詞,輸入的句子S相當(dāng)于序列X,輸出的標(biāo)簽序列L相當(dāng)于序列Y,我們要訓(xùn)練一個模型,使得在給定S的前提下,找到其最優(yōu)對應(yīng)的L。在模型訓(xùn)練中,特征函數(shù)F的選擇及其權(quán)重W的確定是核心問題。對于每個特征函數(shù),其輸入的文本要素主要包括句子S、單詞i、單詞詞性li,特征函數(shù)的輸出值為0或1,其中0表示觀測到的序列標(biāo)記不符合該特征,而1則表示觀測到的序列標(biāo)記與該特征相符。對于序列L和S,可構(gòu)建條件概率分布模型公式:
P(L,S)=p(l1)Πip(li|ll-1)p(wi|li)
在分詞基礎(chǔ)上采用IOB 標(biāo)注法進(jìn)行命名實體識別,如圖1所示,使用每句話的分詞序列生成的gram,利用tri-gram模型抽取特征,最后輸入到CRF模型中完成標(biāo)注。
1.3" TF-IDF算法
TF-IDF算法,是一種在文本數(shù)據(jù)挖掘領(lǐng)域廣泛應(yīng)用的能夠簡單快速處理語料的加權(quán)技術(shù),尤其適用于從文章中提取關(guān)鍵詞[9]。此方法基于統(tǒng)計分析,用于量化一個詞在特定文件集或語料庫中的重要性。其中TF指的是某個詞在文本數(shù)據(jù)中出現(xiàn)的頻率,如果一個詞在文檔中多次出現(xiàn),那么它可能是一個較為重要的詞匯。該算法的主要計算公式如下:
詞頻(TF)=某個詞在文檔中出現(xiàn)的次數(shù)/文檔的總詞數(shù)
逆文檔頻率(IDF)=log(語料庫的文檔總數(shù)/(包含該詞的文檔數(shù)+1))
TF-IDF=TF×IDF
一個詞的重要性與其在特定文檔中出現(xiàn)的頻次呈正相關(guān)關(guān)系,而與其在整體語料庫中出現(xiàn)的頻次則呈負(fù)相關(guān)關(guān)系。[10]這種計算方法旨在降低高頻通用詞對關(guān)鍵詞的干擾,從而增強(qiáng)關(guān)鍵詞與文章主題之間的關(guān)聯(lián)性和相關(guān)性[11]。
1.4" 基于神經(jīng)網(wǎng)絡(luò)的依存句法分析器
依存句法分析是一種重要的語言學(xué)分析方法,旨在揭示文本中詞與詞之間的主從關(guān)系。這種分析方法將句子中的每個詞語與其所依賴的詞語之間建立起一種明確的依存關(guān)系,從而幫助人們更深入地理解句子的語法結(jié)構(gòu)和含義。通過依存句法分析,可以將復(fù)雜的語言結(jié)構(gòu)轉(zhuǎn)化為清晰易懂的樹形結(jié)構(gòu),為自然語言處理和文本數(shù)據(jù)挖掘研究提供多方位的支持[12]。依存句法分析的應(yīng)用范圍廣泛,可用于分析中醫(yī)藥文本的語法構(gòu)成,探索中醫(yī)經(jīng)典古籍條文與現(xiàn)代中醫(yī)文本的句法差異,對于提高中醫(yī)藥文本自然語言處理技術(shù)的準(zhǔn)確性和效率具有重要意義。
本研究采用基于神經(jīng)網(wǎng)絡(luò)的依存句法分析方法。該方法通過深入分析句子內(nèi)部的語法關(guān)系,將原本線性的詞語序列轉(zhuǎn)換為具有層次結(jié)構(gòu)的圖表示[13]。在此過程中,主要關(guān)注動賓關(guān)系、左附加關(guān)系、右附加關(guān)系、并列關(guān)系、定中關(guān)系以及主謂關(guān)系等常見的語法依賴關(guān)系。依存語法作為一種廣泛應(yīng)用的語法分析框架,通過依存弧連接句子中具有特定語法關(guān)系的詞語,進(jìn)而構(gòu)建一棵完整的句法依存樹。在構(gòu)建依存樹的過程中,采用棧的數(shù)據(jù)結(jié)構(gòu),并以根節(jié)點root作為起始點。隨后,通過移進(jìn)、左規(guī)約、右規(guī)約三種操作狀態(tài),逐步將緩存中的詞匯壓入棧中,從而確保依存關(guān)系的正確性和完整性。在本研究中,采用HanLP工具包[14]來實現(xiàn)本研究的依存句法分析,以提供高效且準(zhǔn)確的句法分析結(jié)果。
1.5" 實驗環(huán)境
該研究在河北大學(xué)中醫(yī)藥信息學(xué)實驗室小型人工智能平臺實施,平臺配置Intel Xeon Gold 6248R CPU@3.00Ghz*96,內(nèi)存256GB,搭載NVIDIA A100 80G*2 GPU計算卡,Ubuntu 18.04.6 LTS,Python 3.9環(huán)境運(yùn)行。
2" 實驗結(jié)果
2.1" 分詞及實體識別結(jié)果
實驗完成對《醫(yī)學(xué)啟源》《脾胃論》《陰證略例》全文的分詞及實體識別,分別獲得語料472項、899項、726項。由于中醫(yī)古籍文本資料實體屬性難以定義,本研究暫以名詞、動詞、形容詞、語氣詞等實體類別進(jìn)行劃分,著重考察研究實體詞匯的含義,相關(guān)自然語言處理提取的詞頻及TF-IDF評價重要度如表1至表3所示。
2.2" 相關(guān)實體詞匯圖譜可視化結(jié)果
將相關(guān)數(shù)據(jù)整理匯總,按照實體詞匯重要度數(shù)據(jù)繪制詞云圖,如圖2所示。
2.3" 依存句法分析結(jié)果
本研究完成三本著作的全部條文部分句法分析,以《醫(yī)學(xué)啟源》中有關(guān)引經(jīng)報使理論的文本描述為例,提取樣本數(shù)據(jù)進(jìn)行關(guān)系提取和圖像繪制。
樣例文本如下:
“各經(jīng)引用太陽經(jīng),羌活;在下者黃柏,小腸、膀胱也。少陽經(jīng),柴胡;在下者青皮,膽、三焦也。陽明經(jīng),升麻、白芷;在下者,石膏,胃、大腸也。太陰經(jīng),白芍藥,脾、肺也。少陰經(jīng),知母,心、腎也。厥陰經(jīng),青皮;在下者,柴胡,肝、包絡(luò)也。以上十二經(jīng)之的藥也?!?/p>
構(gòu)建依存語法樹,如圖3所示。該模型可識別此段文言文本,并根據(jù)實體識別結(jié)果分析其語法結(jié)構(gòu),從中提煉實體之間的關(guān)系,以太陽經(jīng)為例,能明確區(qū)分太陽經(jīng)與羌活及黃柏與小腸、膀胱之間的關(guān)系。
3" 結(jié)論
本研究采用基于條件隨機(jī)場的命名實體識別方法,對中醫(yī)易水學(xué)派經(jīng)典古籍文本數(shù)據(jù)的實體詞匯、語義特征和句法結(jié)構(gòu)等進(jìn)行分析,實現(xiàn)了非結(jié)構(gòu)化文本數(shù)據(jù)中關(guān)鍵命名實體的提取,取得了比較好的效果,對于易水學(xué)派不同醫(yī)家學(xué)術(shù)觀點的總結(jié)、學(xué)術(shù)思想差異的發(fā)現(xiàn)以及傳承脈絡(luò)的梳理研究均具有重要的理論和實踐指導(dǎo)價值。下一步,將在命名實體識別的基礎(chǔ)上,繼續(xù)研究文言文數(shù)據(jù)的中醫(yī)實體關(guān)系抽取,進(jìn)而構(gòu)建易水學(xué)派知識圖譜,為人工智能方法在中醫(yī)學(xué)派研究的應(yīng)用提供參考。
參考文獻(xiàn):
[1]WANG C D,XU J,ZHANG Y. Review of entity relationship extraction[J]. Computer Engineering and Applications, 2022, 56(12): 25-36.
[2]劉瀏,王東波.命名實體識別研究綜述[J].情報學(xué)報, 2018, 37(3): 329-340. DOI: 10.3772/j.issn.1000-0135.2018.03.010.
[3]宮義山,段亞奇.基于不同模型的中文命名實體識別方法研究[J].長江信息通信, 2021, 34(1): 84-86.
[4]趙繼貴,錢育蓉,王魁,等.中文命名實體識別研究綜述[J].計算機(jī)工程與應(yīng)用, 2024, 60(1): 15-27. DOI: 10.3778/j.issn.1002-8331.2304-0398.
[5]DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. arxiv preprint arxiv:1810.04805, 2018.
[6]陳瑩璇,謝煒豪,陳帆,等.中醫(yī)古籍《靈樞》的知識圖譜構(gòu)建與可視化探討[J].廣州中醫(yī)藥大學(xué)學(xué)報, 2024, 41(3): 782-790. DOI: 10.13359/j.cnki.gzxbtcm.2024.03.038.
[7]張瑩瑩.基于知識圖譜的舌像診療系統(tǒng)研究與構(gòu)建[D].成都:電子科技大學(xué), 2019.
[8]閆博.基于HanLP關(guān)鍵詞抽取與句法分析的圖譜構(gòu)建[J].電子元器件與信息技術(shù), 2022, 6(9): 77-80, 84. DOI: 10.19772/j.cnki.2096-4455.2022.9.019.
[9]孫北寧,呂維新,曾俊,等.一種結(jié)合TF-IDF和Simhash的科技項目文本相似性度量方法[J].電子技術(shù)應(yīng)用, 2023, 49(6): 89-93. DOI: 10.16157/j.issn.0258-7998.223379.
[10]高永奇.語料庫與SPSS統(tǒng)計分析方法[M].蘇州:蘇州大學(xué)出版社, 2020: 293.
[11]高佳希,黃海燕.基于TF-IDF和多頭注意力Transformer模型的文本情感分析[J].華東理工大學(xué)學(xué)報(自然科學(xué)版), 2024, 50(1): 129-136. DOI: 10.14135/j.cnki.1006-3080.20221218002.
[12]楊牧,蔡言勝.依存句法分析的回顧與發(fā)展[J].現(xiàn)代語文,2022(1): 89-95.
[13]楊旭華,金鑫,陶進(jìn),等.基于圖神經(jīng)網(wǎng)絡(luò)和依存句法分析的文本分類[J].計算機(jī)科學(xué),2022,49(12): 293-300. DOI: 10.11896/jsjkx.220300195.
[14]HE H, CHOI J D. The stem cell hypothesis: dilemma behind multi-task learning with transformer encoders[C]//Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing. Online and Punta Cana, Dominican Republic. Stroudsburg, PA, USA: Association for Computational Linguistics, 2021: 5555-5577. DOI: 10.18653/v1/2021.emnlp-main.451.