劉 佳 邊俊伊
(吉林大學(xué)商學(xué)與管理學(xué)院,吉林 長春 130012)
藏醫(yī)的研究由來已久,因藏族地區(qū)獨(dú)特的地理人文環(huán)境而充滿神奇的色彩,藏醫(yī)與青藏高原文化生活環(huán)境密切相關(guān),反映了千百年來藏族人民對自然、健康和生命的認(rèn)知、探索,以及戰(zhàn)勝疾病的智慧與經(jīng)驗(yàn)成果。藏醫(yī)不僅在藏族地區(qū)廣泛流傳,更在維吾爾族、蒙古族,甚至在其他的國家和地區(qū)都有傳播,經(jīng)過長期的沉淀,已經(jīng)成為世界傳統(tǒng)醫(yī)學(xué)中不可分割的一部分。藏醫(yī)文獻(xiàn)數(shù)量巨大,在對少數(shù)民族醫(yī)藥文獻(xiàn)整理中,55個(gè)少數(shù)民族的醫(yī)藥古籍一共3 100種,其中藏醫(yī)就占了2 700種。但由于歷史久遠(yuǎn),保存條件簡陋,藏醫(yī)古籍文獻(xiàn)霉變、腐蝕、蟲蛀、損毀、遺失等現(xiàn)象十分嚴(yán)重。2022年4月,中共中央辦公廳國務(wù)院辦公廳印發(fā)的《關(guān)于推進(jìn)新時(shí)代古籍工作的意見》[1],2022年10月全國古籍整理出版規(guī)劃領(lǐng)導(dǎo)小組制定的《2021—2035年國家古籍工作規(guī)劃》[2]等都提出要加強(qiáng)古籍保護(hù)與開發(fā)利用。對藏醫(yī)古籍知識的保護(hù)與傳承,深度開發(fā)與利用,對藏醫(yī)的文化教育、科學(xué)研究、臨床實(shí)踐、藥物開發(fā),對維護(hù)國家文化主權(quán)與安全,弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化,鑄牢中華民族共同體意識,具有重要意義。
本文以藏醫(yī)古籍文獻(xiàn)為對象進(jìn)行命名實(shí)體識別(Named Entity Identification,NER)研究,利用深度學(xué)習(xí)技術(shù)識別、提取藏醫(yī)古籍中具有特定意義的實(shí)體,如疾病、癥狀、病因等,為藏醫(yī)古籍知識的深度挖掘與利用提供基礎(chǔ)與支持。
傳統(tǒng)藏醫(yī)文獻(xiàn)研究主要采用統(tǒng)計(jì)分析、可視化分析和知識組織等方法。在基于統(tǒng)計(jì)規(guī)則的方法中,才讓南加等[4]對《四部醫(yī)典》中治療“痞瘤”方劑配伍規(guī)律進(jìn)行研究,利用統(tǒng)計(jì)和關(guān)聯(lián)規(guī)則的方法,抽取出相關(guān)的高頻次的藥物與方劑,以總結(jié)治療規(guī)律,這種方法對藏醫(yī)藥規(guī)律研究具有重要意義,但傳統(tǒng)的統(tǒng)計(jì)方法無法挖掘出潛在的、豐富的藏醫(yī)古籍文獻(xiàn)知識。文成當(dāng)智等[5]以藏醫(yī)“味性化味”理論對《四部醫(yī)典》的用藥規(guī)律進(jìn)行可視化的分析,詳細(xì)從“味性化味”理論視角,應(yīng)用Gephi v0.8.2可視化軟件等方法梳理3 000余函藏醫(yī)古籍文獻(xiàn),作者從藏醫(yī)更核心的理論對藏醫(yī)古籍內(nèi)容、規(guī)律進(jìn)行梳理與分析,但限于目前藏醫(yī)古籍文獻(xiàn)的數(shù)字化開發(fā)程度,所涉獵的古籍文獻(xiàn)量仍局限于一部古籍。娘本先[6]研究了藏醫(yī)古籍本草知識的描述方法,并利用其所構(gòu)建的知識元和知識體模型,構(gòu)建藏醫(yī)古籍本草知識庫,實(shí)現(xiàn)基于規(guī)則庫的知識檢索功能。上述研究中,對藏醫(yī)知識內(nèi)容的研究多采取人工抽詞與統(tǒng)計(jì)的方式,準(zhǔn)確性高,但是無法為大規(guī)模的藏醫(yī)知識抽取與開發(fā)利用提供支持。
相較于傳統(tǒng)的藏醫(yī)文獻(xiàn)研究方法,基于機(jī)器學(xué)習(xí)的自然語言處理技術(shù)應(yīng)用于傳統(tǒng)醫(yī)學(xué)文獻(xiàn)研究,為藏醫(yī)知識提取、檢索、問答系統(tǒng)構(gòu)建以及元數(shù)據(jù)標(biāo)注等提供了重要的參考。目前,命名實(shí)體識別方法在傳統(tǒng)醫(yī)學(xué)文獻(xiàn)的應(yīng)用多集中在對傳統(tǒng)醫(yī)學(xué)文獻(xiàn)中的疾病、藥物的抽取上。羅計(jì)根等[7]提出,一種融合梯度提升樹的雙向長短期記憶網(wǎng)絡(luò)的關(guān)系識別算法(BiLSTM-GBDT),開始了機(jī)器學(xué)習(xí)方法在識別中醫(yī)文本實(shí)體領(lǐng)域的嘗試。Tao Q等[8]通過構(gòu)建BERT-CNN-LSTM的文本建??蚣?,從上下文中學(xué)習(xí)字符的表示,來進(jìn)行中醫(yī)藥說明書的文本實(shí)體識別。Chen T等[9]利用生物創(chuàng)造與化學(xué)疾病關(guān)系語料庫、中醫(yī)文獻(xiàn)語料庫和i2b2 2012時(shí)間關(guān)系挑戰(zhàn)語料庫,進(jìn)行關(guān)系提取的預(yù)訓(xùn)練模型BERT微調(diào)訓(xùn)練。肖瑞等[10]采用BiLSTM-CRF模型對中醫(yī)文本中的疾病、草藥、癥狀3類實(shí)體進(jìn)行實(shí)體抽取,獲得較高的測試結(jié)果。謝靖等[11]對古代中醫(yī)繁體文獻(xiàn)進(jìn)行增強(qiáng)的SikuBERT預(yù)訓(xùn)練模型研究,有效提高了中醫(yī)命名實(shí)體識別的效率。何家歡等[12]通過中國知網(wǎng)獲取藏藥藥理相關(guān)文獻(xiàn)155篇,構(gòu)建中文藏醫(yī)藥藥理實(shí)體識別語料庫,設(shè)計(jì)基于BiLSTM-CRF深度學(xué)習(xí)模型的藏藥藥理命名實(shí)體識別方法,采用信息抽取技術(shù)從科技文獻(xiàn)中提取并識別藏藥藥理,為藏醫(yī)藥文獻(xiàn)研究提供新途徑。
上述研究為藏醫(yī)古籍的實(shí)體識別研究提供了方法與思路的借鑒。目前基于機(jī)器學(xué)習(xí)的藏醫(yī)古籍文獻(xiàn)研究成果仍較為匱乏。作為世界四大傳統(tǒng)醫(yī)學(xué)之一,藏醫(yī)學(xué)有其獨(dú)特的診療與用藥方案,完全復(fù)用中醫(yī)文獻(xiàn)的研究方法不能夠準(zhǔn)確地反映藏醫(yī)學(xué)的知識特點(diǎn),也不能精準(zhǔn)地識別藏醫(yī)文獻(xiàn)中的實(shí)體與關(guān)系。
綜上,針對藏醫(yī)古籍文獻(xiàn)的內(nèi)容分析仍以統(tǒng)計(jì)分析與共現(xiàn)分析方法為主。藏醫(yī)文獻(xiàn)體例的獨(dú)特性導(dǎo)致藏醫(yī)知識及其關(guān)系呈現(xiàn)分散、不明確等特點(diǎn),無法直接復(fù)用傳統(tǒng)醫(yī)學(xué)文獻(xiàn)的方法進(jìn)行實(shí)體識別。目前收錄藏醫(yī)資源的開放數(shù)據(jù)庫較少,尚未建立專門的藏醫(yī)語料庫,使得利用深度學(xué)習(xí)模型進(jìn)行藏醫(yī)知識提取與深度分析研究方面的進(jìn)展緩慢。而藏醫(yī)古籍文獻(xiàn)作為藏族文化與智慧的載體,包含豐富的傳統(tǒng)醫(yī)學(xué)知識,具有重要的挖掘價(jià)值,因此,基于藏醫(yī)古籍文獻(xiàn)的實(shí)體識別還有待更深入的研究?;诖?,本文以小樣本的藏醫(yī)古籍文獻(xiàn)資源為研究對象,將人工標(biāo)注與深度學(xué)習(xí)方法相結(jié)合,嘗試構(gòu)建ALBERT-BiLSTM-CRF模型對藏醫(yī)古籍《四部醫(yī)典》中的疾病、癥狀、藥物、方劑等進(jìn)行實(shí)體識別實(shí)驗(yàn),并與BERT-BiLSTM-CRF、BiLSTM-CRF、BERT 3種目前普遍使用的實(shí)體識別模型進(jìn)行比較分析,以確定藏醫(yī)古籍文獻(xiàn)實(shí)體識別的最優(yōu)模型,解決傳統(tǒng)命名實(shí)體識別方法準(zhǔn)確率低的問題。
本文利用Albert、BiLSTM、CRF模型等深度學(xué)習(xí)模型與自然語言處理技術(shù)構(gòu)建藏醫(yī)古籍命名實(shí)體識別模型,旨在為藏醫(yī)領(lǐng)域知識圖譜的構(gòu)建、知識檢索、知識推理等提供基礎(chǔ)與方法支持。
2.1.1 ALBERT模型
ALBERT(A Lite BERT)[19]是BERT的改進(jìn)版本,它擁有3個(gè)方面的創(chuàng)新。
首先是參數(shù)共享,降低Transformer Block的整體參數(shù)量級。BERT的Transformer編碼器是一個(gè)包含了Encoder-Decoder結(jié)構(gòu)的編碼器,同時(shí)使用了多頭自注意力層以便處理更長的序列信息[20],而ALBERT模型只保留了Encoder的部分,降低了原來BERT的多層Block的迭代,使參數(shù)降低,從而實(shí)現(xiàn)參數(shù)共享。
其次是詞向量分解,有效降低詞向量層參數(shù)量級。BERT中的隱藏層(H)和編碼層(E)是相等的,如果詞表的大小是V,當(dāng)V很大時(shí),E參數(shù)變大,即V*H=V*E。在ALBERT中通過降低E的緯度進(jìn)行因式分解,當(dāng)H≥E時(shí),即V*E+E*H,降低了模型的參數(shù),提高了模型的性能。
最后是使用句子順序預(yù)測的自監(jiān)督損失(Sentence-Order Prediction,SOP)方法,可以增強(qiáng)文中句子的上下文聯(lián)系。在BERT中使用的是下句話預(yù)測(Next Sentence Predict,NSP),NSP主題預(yù)測任務(wù)會使在學(xué)習(xí)中出現(xiàn)知識重疊的現(xiàn)象。而SOP避免了主題預(yù)測,使句子之間更具有連貫性,提高了ALBERT下游多語句編碼任務(wù)的性能。
2.1.2 BiLSTM模型
BiLSTM(Bidirectional LSTM)雙向長短期記憶網(wǎng)絡(luò)模型是由循環(huán)神經(jīng)網(wǎng)絡(luò)模型LSTM改進(jìn)得到的一種新模型。LSTM(Long Short-Term Memory)是長短期記憶網(wǎng)絡(luò),在RNN(Recurrent Neural Network,RNN)循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上增加了3個(gè)門結(jié)構(gòu),分別為輸入門、遺忘門和輸出門。分別控制變量的輸入、輸出和細(xì)胞單元的狀態(tài)[21]。門結(jié)構(gòu)可以解決對于較長輸入的反向傳播過程中RNN出現(xiàn)梯度消失和梯度爆炸的問題。BiLSTM是雙向的LSTM模型,向前可以獲得輸入序列的上文信息,向后可以獲得輸入序列的下文信息。在Forward層從1時(shí)刻到t時(shí)刻正向計(jì)算一遍,獲得并保存每一個(gè)時(shí)刻向前隱含層的輸出。在Backward層沿著時(shí)刻t到時(shí)刻1反向計(jì)算一遍,獲得并保存每一個(gè)時(shí)刻向后隱含層的輸出[22]。最后在每一個(gè)時(shí)刻結(jié)合Forward層和Backward層的相應(yīng)時(shí)刻輸出的結(jié)果獲得最終的輸出。
2.1.3 CRF模型
針對藏醫(yī)古籍文獻(xiàn)樣本量小、內(nèi)容多樣,且語義復(fù)雜等特點(diǎn),本文的命名實(shí)體識別算法以預(yù)訓(xùn)練模型ALBERT為基礎(chǔ),構(gòu)建ALBERT-BiLSTM-CRF模型進(jìn)行藏醫(yī)古籍文本的命名實(shí)體識別研究。
本文所使用的實(shí)體識別模型共有3層,如圖1所示,第一層是ALBERT層,先將輸入文本進(jìn)行句子標(biāo)記,句首標(biāo)注[CLS],句尾標(biāo)注[SEP],句子的上層抽象信息作為最終的最高隱層輸Softmax中,通過詞向量分解降低參數(shù)量級。ALBERT將每一層Transformer Encoder Block參數(shù)共享,之后學(xué)習(xí)的每一層,通過重用第一層并進(jìn)行共享,使每一層都學(xué)習(xí)到了第一層的信息,相當(dāng)于只學(xué)習(xí)了一層。最后將文本轉(zhuǎn)化為字向量X1、X2、X3…與BiLSTM層相連接。
圖1 ALBERT-BiLSTM-CRF模型
第二層是BiLSTM層,通過學(xué)習(xí)正向的h(h1、h2、h3…)信息和反向的h(h1、h2、h3…),提取出上下文本特征,計(jì)算最大概率值,輸出Y(Y1、Y2、Y3…)。
第三層是CRF層,準(zhǔn)確對BiLSTM輸出內(nèi)容進(jìn)行解碼,做實(shí)體類型的序列標(biāo)注,為每個(gè)字符輸出最可能的實(shí)體標(biāo)簽。
模型實(shí)驗(yàn)之初,需要確定數(shù)據(jù)來源并進(jìn)行數(shù)據(jù)預(yù)處理,構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集;然后針對藏醫(yī)古籍知識特點(diǎn),設(shè)計(jì)、訓(xùn)練、優(yōu)化實(shí)體識別模型。
藏醫(yī)古籍文獻(xiàn)種類繁多、復(fù)雜,多為半結(jié)構(gòu)化的信息文本。目前中醫(yī)領(lǐng)域已經(jīng)建立了不同規(guī)模的中醫(yī)語料庫,極大地推動了人工智能技術(shù)在中醫(yī)文獻(xiàn)知識挖掘、知識關(guān)聯(lián)與深度開發(fā)中的應(yīng)用。然而,藏醫(yī)古籍中記載的藏藥、疾病名稱等有其獨(dú)特的命名規(guī)則與記錄方式,其語料在語法與內(nèi)容編寫方面,與中醫(yī)語料存在較大的差異,因此需要對藏醫(yī)文獻(xiàn)預(yù)先進(jìn)行精確標(biāo)注,構(gòu)建以藏醫(yī)語料為基礎(chǔ)的數(shù)據(jù)集,為后續(xù)智能化處理提供數(shù)據(jù)基礎(chǔ)。
《四部醫(yī)典》是一部藏醫(yī)理論與實(shí)踐相結(jié)合的經(jīng)典著作,也是藏醫(yī)學(xué)的奠基之作,內(nèi)容廣泛,涉及藏醫(yī)理論知識、臨床經(jīng)驗(yàn)、藥物功能、治療方法等。藏醫(yī)學(xué)的診療方法主要以《四部醫(yī)典》為依據(jù),是藏醫(yī)研究中不可或缺的文獻(xiàn),因此,本文選擇1987年出版的,由宇妥·元丹貢布等著、馬世林等譯注的《四部醫(yī)典》[13]為主要語料來源,輔之參考相關(guān)研究論文與參考資料,構(gòu)建藏醫(yī)古籍實(shí)體識別實(shí)驗(yàn)的數(shù)據(jù)集,以確保所構(gòu)建的命名實(shí)體識別模型具有普適性與推廣性。
在確定數(shù)據(jù)來源的基礎(chǔ)上,根據(jù)數(shù)據(jù)集特點(diǎn)來定義實(shí)體類型。命名實(shí)體識別的概念目前還沒有統(tǒng)一的定義,Marrero等總結(jié)了前人對命名實(shí)體的定義,通過分析和舉例等方式,最終得出應(yīng)用方面的需求目的是定義命名實(shí)體唯一可行的標(biāo)準(zhǔn)[14]。本文以此為依據(jù),通過分析《四部醫(yī)典》的內(nèi)容,并參考相關(guān)傳統(tǒng)醫(yī)學(xué)命名實(shí)體研究,確定藏醫(yī)古籍的實(shí)體類型。
《四部醫(yī)典》中記載了許多臨床治療方法,除藥物治療外,還包括藥浴治療法、催吐療法、放血療法、灌腸法、鼻藥療法等特色療法。在藥物性能方面,《四部醫(yī)典》記載了湯劑、丸劑、散劑、膏劑等3 000余種方劑,對草藥的功效、屬性、氣味等都有詳細(xì)的記載。在專家的指導(dǎo)下,根據(jù)文獻(xiàn)內(nèi)容特點(diǎn),本文制定了命名實(shí)體識別模型中的實(shí)體類型及其標(biāo)識,將具有藏醫(yī)特色的實(shí)體類型歸納為6類,疾病、病因、癥狀、藥物、方劑、療法,如表1所示。
表1 《四部醫(yī)典》實(shí)體類型
數(shù)據(jù)標(biāo)注是使未經(jīng)處理的文本能夠被機(jī)器識別和學(xué)習(xí)的信息處理過程,通常包括自動標(biāo)注和人工標(biāo)注兩種方式。自動標(biāo)注是利用機(jī)器和算法對文本內(nèi)容進(jìn)行識別的方式;人工標(biāo)注是標(biāo)注人員利用標(biāo)注工具對文本內(nèi)容進(jìn)行標(biāo)識的方式。人工標(biāo)注與自動標(biāo)注相比具有高效、準(zhǔn)確的優(yōu)勢,但是在標(biāo)注效率上要遠(yuǎn)遠(yuǎn)低于自動標(biāo)注方式。鑒于上文所述藏醫(yī)古籍體例的獨(dú)特性,本文采用人工標(biāo)注方式進(jìn)行數(shù)據(jù)標(biāo)注。
按照上文所制定的實(shí)體類型,對《四部醫(yī)典》進(jìn)行人工標(biāo)注。《四部醫(yī)典》共4部,分別是《總則本》《論述本》《密訣本》和《后序本》,包括基礎(chǔ)理論、生理解剖、疾病診斷治療的原則和方法、預(yù)防、藥物等內(nèi)容。本文主要對《四部醫(yī)典》三、四部中約3萬字內(nèi)容進(jìn)行了人工標(biāo)注,得到4 350條數(shù)據(jù),并邀請具有藏醫(yī)背景的專業(yè)人員對數(shù)據(jù)集進(jìn)行多輪的檢驗(yàn)與修正,構(gòu)建出藏醫(yī)詞表。具體標(biāo)注示例如表2所示。
表2 人工標(biāo)注示例
本文采用BIO標(biāo)注法進(jìn)行隨機(jī)標(biāo)注,其中“B”表示實(shí)體的首部(Begin),“I”表示實(shí)體的中間(Inside),“O”則表示該元素不屬于任何實(shí)體類型(Outside)。在對文本數(shù)據(jù)進(jìn)行分句的基礎(chǔ)上,對分句后的結(jié)果按照標(biāo)注規(guī)則對語料庫中的疾病和藥物等進(jìn)行序列標(biāo)注。對語料中詞語的標(biāo)注采用B/I-XXX的形式,B/I表示此詞是實(shí)體的內(nèi)容,XXX表示實(shí)體的類型。O表示該詞不是實(shí)體中的內(nèi)容。使用Label Studio平臺標(biāo)注《四部醫(yī)典》三、四部,得到24 918個(gè)實(shí)體,其中,疾病類實(shí)體14 049個(gè),病因類實(shí)體506個(gè),癥狀類實(shí)體209個(gè),藥物類實(shí)體8 919個(gè),方劑類實(shí)體236個(gè),療法類實(shí)體999個(gè)。標(biāo)注示例如圖2所示。
本文的實(shí)驗(yàn)平臺為恒源云(GPUSHARE)云服務(wù)器Linux操作系統(tǒng)、2080ti(11G)GPU(顯卡)類型、16G運(yùn)行內(nèi)存、Python3.7.10編程語言、Tensorflow1.15.5深度學(xué)習(xí)框架。主要模型參數(shù)設(shè)置如下:字符向量長度為128,ALBERT隱藏層的大小為768,ALBERT學(xué)習(xí)率為2e-5。為了測試ALBERT-BiLSTM-CRF模型的性能,將標(biāo)注語料按8∶2的比例劃分為訓(xùn)練集和測試集,用于模型的訓(xùn)練與測試,并從訓(xùn)練集當(dāng)中隨機(jī)抽出20%作為驗(yàn)證集來評估模型效果。
本文采用自然語言處理當(dāng)中常用的精確度(Precision,P)、召回率(Recall,R)和F1-score作為度量指標(biāo),檢驗(yàn)各個(gè)模型在命名實(shí)體識別中的效果[23],具體內(nèi)容如下:
為檢驗(yàn)本文所提出的藏醫(yī)古籍命名實(shí)體識別模型的性能,統(tǒng)一使用標(biāo)注好的藏醫(yī)語料數(shù)據(jù)集,對目前命名實(shí)體識別研究中常用的BERT-BiLSTM-CRF、BiLSTM-CRF、BERT模型進(jìn)行訓(xùn)練和比較。4個(gè)模型的F1-score、Precision、Recall值如表3所示。
表3 模型對比結(jié)果
由實(shí)驗(yàn)結(jié)果可知,4種深度學(xué)習(xí)模型在藏醫(yī)古籍文獻(xiàn)實(shí)體識別上存在一定的差異。其中達(dá)到最優(yōu)效果的是ALBERT-BiLSTM-CRF模型,F(xiàn)1-score達(dá)到96.28%,說明該深度學(xué)習(xí)模型在藏醫(yī)古籍文獻(xiàn)這種小樣本數(shù)據(jù)集命名實(shí)體識別中取得的效果較好,可以實(shí)現(xiàn)較優(yōu)性能。此外還觀察到,BERT模型與BiLSTM-CRF模型一起使用時(shí),對F1-score沒有提升作用,反而造成F1-score降低。而BiLSTM與CRF的結(jié)合使用,則會對F1-score和Precision值有一定的提升作用。
如圖3所示,進(jìn)一步分析ALBERT-BiLSTM-CRF、BERT-BiLSTM-CRF、BiLSTM-CRF、BERT 4種深度學(xué)習(xí)模型對不同實(shí)體類型的識別效果。以F1-score作為指標(biāo)進(jìn)行比較,由實(shí)驗(yàn)結(jié)果可見,藥物(RES)類型的實(shí)體在各模型中識別效果最優(yōu)。這是因?yàn)樵凇端牟酷t(yī)典》中,對藥物的描述較為集中,并且語義簡單,識別效果較好。而療法(THE)類型實(shí)體的識別結(jié)果在4種模型中的F1-score相對都比較低。在《四部醫(yī)典》中,療法數(shù)據(jù)較為復(fù)雜、分散,有的在介紹藥物效果中出現(xiàn),有的在疾病治療方法中出現(xiàn),療法描述的不規(guī)則性導(dǎo)致模型在識別療法時(shí)的難度增加,因此影響了模型訓(xùn)練的效果。在今后的研究工作中,還需要進(jìn)一步擴(kuò)大訓(xùn)練數(shù)據(jù)規(guī)模,標(biāo)注更多語料來進(jìn)行研究,從而改善和提高模型的識別效果。
圖3 各實(shí)體F1-score對比
運(yùn)用機(jī)器學(xué)習(xí)與人工標(biāo)注相結(jié)合的藏醫(yī)古籍命名實(shí)體識別方法,可以在藏醫(yī)古籍文本中識別出更多的藏醫(yī)知識實(shí)體。本文進(jìn)一步對實(shí)體之間的關(guān)系進(jìn)行分析,構(gòu)建了藏醫(yī)古籍實(shí)體關(guān)系模型,如圖4所示。
圖4 藏醫(yī)古籍實(shí)體關(guān)系模型
以《中醫(yī)藥學(xué)語言系統(tǒng)語義網(wǎng)絡(luò)框架》[24]作為標(biāo)準(zhǔn),并借鑒其他中醫(yī)語義網(wǎng)絡(luò)模型,結(jié)合藏醫(yī)文本自身的特點(diǎn),對藏醫(yī)實(shí)體間的關(guān)系進(jìn)行規(guī)范化定義,如表4所示。
表4 《四部醫(yī)典》關(guān)系類型
本文利用Neo4j圖數(shù)據(jù)庫建立《四部醫(yī)典》知識庫。Neo4j本質(zhì)上是一種由節(jié)點(diǎn)(實(shí)體)和邊(實(shí)體之間的關(guān)系)組成的關(guān)系圖,可以用來揭示知識之間的關(guān)系[25]。將《四部醫(yī)典》中識別出的實(shí)體存儲于圖數(shù)據(jù)庫中,依據(jù)關(guān)系類型表對不同實(shí)體類型進(jìn)行關(guān)系的識別和連接,實(shí)現(xiàn)藏醫(yī)實(shí)體的關(guān)聯(lián),并進(jìn)行可視化展示。圖5是本文所構(gòu)建的部分藏醫(yī)古籍知識圖譜。從該圖可以看出,圖中的節(jié)點(diǎn)向“龍”“赤巴”“培根”3個(gè)節(jié)點(diǎn)聚合,顯示出“龍”“赤巴”“培根”作為藏醫(yī)中的3個(gè)核心因素,在藏醫(yī)病理與診療中的重要地位與作用。對照藏醫(yī)古籍文獻(xiàn)內(nèi)容,“龍”“赤巴”“培根”構(gòu)成了人的生命三要素,疾病也是由于這三要素失衡所致。由此可見,藏醫(yī)古籍知識圖譜能夠反映出藏醫(yī)古籍文獻(xiàn)中的核心知識內(nèi)容與知識關(guān)聯(lián)。
圖6是與疾病“熱癥擴(kuò)散”相關(guān)的部分知識圖譜。圖譜清晰地顯示出,“熱癥擴(kuò)散”包括“心臟熱疾擴(kuò)散”“命脈熱疾擴(kuò)散”“肝臟熱疾擴(kuò)散”等類型的疾病,這類疾病由“赤巴”引起;由“赤巴”導(dǎo)致的疾病多呈現(xiàn)“口渴”“嘔吐膽汁”“口苦”等癥狀,圖譜中的“熱疾擴(kuò)散”類疾病也多呈現(xiàn)出這樣的癥狀。通過觀察各種方劑的藥物構(gòu)成可以發(fā)現(xiàn),“紅花”節(jié)點(diǎn)周圍匯聚了多種方劑,可以初步判斷“紅花”是治療各類“熱癥擴(kuò)散”疾病的核心藥物,可作為供藏醫(yī)研究者進(jìn)一步進(jìn)行實(shí)驗(yàn)研究的依據(jù)。通過知識圖譜還可以對比分析不同疾病的病因與癥狀表現(xiàn),指導(dǎo)方劑與療法的選擇,輔助藏醫(yī)工作者研究病機(jī)、病理,挖掘疾病用藥的規(guī)律等。藏醫(yī)古籍命名實(shí)體識別模型為藏醫(yī)古籍知識的挖掘與知識圖譜的構(gòu)建提供了不可或缺的數(shù)據(jù)支持。
圖6 熱癥擴(kuò)散知識圖譜
本文針對藏醫(yī)古籍知識的特點(diǎn),將人工標(biāo)注與深度學(xué)習(xí)的方法相結(jié)合,構(gòu)建了基于深度學(xué)習(xí)的命名實(shí)體識別模型?;?種深度學(xué)習(xí)模型,選擇具有“藏醫(yī)百科全書”之稱的、集藏醫(yī)理論與實(shí)踐知識于一體的藏醫(yī)古籍《四部醫(yī)典》進(jìn)行實(shí)體識別實(shí)驗(yàn),以確保所構(gòu)建的命名實(shí)體識別模型具有通用有效性。結(jié)果表明,ALBERT-BiLSTM-CRF模型對藏醫(yī)領(lǐng)域的實(shí)體識別效果最優(yōu)。利用實(shí)體識別結(jié)果,構(gòu)建了藏醫(yī)古籍知識庫與知識圖譜,為藏醫(yī)學(xué)的深入研究提供支持,也為藏醫(yī)知識的進(jìn)一步深度開發(fā)與利用提供了語料基礎(chǔ)。
后續(xù)研究可以從以下幾個(gè)方面展開:擴(kuò)大語料規(guī)模,提升藏醫(yī)實(shí)體識別模型的效果;進(jìn)一步擴(kuò)充、細(xì)化數(shù)據(jù)模型,以更全面地挖掘藏醫(yī)古籍文獻(xiàn)中的知識資源,支持藏醫(yī)古籍知識的研究;在已有的數(shù)據(jù)集上進(jìn)一步訓(xùn)練和優(yōu)化模型,以提高模型在藏醫(yī)古籍中命名實(shí)體識別任務(wù)中的性能;對藏醫(yī)古籍命名實(shí)體識別系統(tǒng)進(jìn)行功能模塊的開發(fā),使其能夠被廣泛應(yīng)用于藏醫(yī)潛在知識推理、醫(yī)學(xué)自動問答、輔助決策等領(lǐng)域。