陳晗婷,劉昕妍,王于靜,林子宜,顧元燁,楊曜嘉,王維廣,翟雙慶
(北京中醫(yī)藥大學(xué)中醫(yī)學(xué)院,北京 100029)
中醫(yī)古籍卷帙浩繁,其中醫(yī)案形式多樣,內(nèi)容豐富,記載了海量疾病診療方法與經(jīng)驗(yàn)。但大部分古籍作為文物被各大圖書館、博物館收藏,這對(duì)檢索查閱造成困難。隨著中醫(yī)現(xiàn)代化研究的深入,傳統(tǒng)古籍整理手段與知識(shí)獲取方式已不能滿足當(dāng)前中醫(yī)學(xué)發(fā)展和傳承的需要。對(duì)古籍中的醫(yī)案進(jìn)行知識(shí)元標(biāo)引,不僅能將醫(yī)案信息完整保留,實(shí)現(xiàn)資源共享,也能夠在數(shù)據(jù)深度挖掘方面,如特定證型診療規(guī)律[1]的研究、組方用藥[2]等方面發(fā)揮相應(yīng)作用。
20世紀(jì)70年代后期,弗拉基米爾·斯拉麥卡指出,知識(shí)的控制單位將從文獻(xiàn)深入到其中的數(shù)據(jù)、公式、事實(shí)、結(jié)論等最小的獨(dú)立的“知識(shí)元”[3]。在中醫(yī)古籍標(biāo)引中,柳長華先生提出“知識(shí)元是知識(shí)系統(tǒng)中可以表達(dá)一個(gè)完整概念的不可分解的最小知識(shí)單元。知識(shí)元是由一個(gè)或一個(gè)以上的元概念和構(gòu)建這個(gè)元概念的語義成分(屬性詞)構(gòu)成的”[4]。知識(shí)元標(biāo)引即通過分析文本內(nèi)容邏輯以“知識(shí)元-關(guān)系-知識(shí)元”的方式構(gòu)建知識(shí)圖譜,形成中醫(yī)古籍結(jié)構(gòu)化數(shù)據(jù)庫。
知識(shí)元標(biāo)引通常有兩種模式:一是自上而下的標(biāo)引模式,即以知識(shí)體、知識(shí)元、語義類型、語義關(guān)聯(lián)的順序,知識(shí)體量逐漸縮小進(jìn)行標(biāo)引(下文稱為“模板標(biāo)引方法”)[5];二是自下而上的標(biāo)引模式,即先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,提取關(guān)鍵詞,提取關(guān)鍵句,最后定義知識(shí)元結(jié)構(gòu)(下文稱為“節(jié)點(diǎn)自定標(biāo)引方法”)[6]。
目前根據(jù)模板標(biāo)引方法在中醫(yī)藥領(lǐng)域已構(gòu)建的平臺(tái)有由中國中醫(yī)科學(xué)院研發(fā)的“古籍文獻(xiàn)知識(shí)加工平臺(tái)”[7],國家重點(diǎn)研發(fā)計(jì)劃立項(xiàng)的“中醫(yī)古籍‘病脈證并治’知識(shí)元標(biāo)引系統(tǒng)”[8]。模板標(biāo)引方法有結(jié)構(gòu)清晰、標(biāo)引難度小等優(yōu)點(diǎn),但在標(biāo)引醫(yī)案類文本時(shí),尚存在不足之處。因此,本研究提出基于自下而上標(biāo)引模式的節(jié)點(diǎn)自定標(biāo)引方法,并構(gòu)建了標(biāo)引平臺(tái)“中醫(yī)經(jīng)典知識(shí)挖掘與傳播平臺(tái)”。下文將從標(biāo)引醫(yī)案時(shí)模板標(biāo)引方法標(biāo)引流程及存在的問題,節(jié)點(diǎn)自定標(biāo)引方法的解決對(duì)策,兩方法標(biāo)引同一醫(yī)案的對(duì)比這三方面進(jìn)行詳細(xì)論述。
模板標(biāo)引方法依托“中醫(yī)古籍‘病脈證并治’知識(shí)元標(biāo)引系統(tǒng)”進(jìn)行介紹。系統(tǒng)提前為標(biāo)引者設(shè)立“病脈證并治”“方劑”“本草”“醫(yī)案”等標(biāo)引模板,并結(jié)合中醫(yī)理論與辨證特點(diǎn),在各模板中搭建好固定“知識(shí)體-知識(shí)元”關(guān)系框架。以下為具體操作流程。
2.1.1 確定模板 登錄系統(tǒng)后,標(biāo)引者可依據(jù)自身中醫(yī)理論知識(shí)判斷并選擇需標(biāo)引文本所適用模板。如醫(yī)案類中醫(yī)古籍文本可選擇“醫(yī)案”標(biāo)引模板。
2.1.2 確定知識(shí)元 標(biāo)引者根據(jù)標(biāo)引內(nèi)容,將需標(biāo)引文本劃分至不同的知識(shí)元。在知識(shí)體(即所選模板)標(biāo)引界面,模板提前設(shè)立該知識(shí)體所可能包含的全部知識(shí)元。如病脈證并治模板包含知識(shí)元:病名、病因、病位、病程、鑒別診斷、脈位、主脈、兼脈、死脈、辨證、病機(jī)、治則、治法、方劑、藥物、計(jì)量、炮制、加減法、煎法、制法、服法、中病反應(yīng)、欲解時(shí)、針灸、其他治法、治案、預(yù)后、宜忌、誤治、釋義、其他,共計(jì)31個(gè)知識(shí)元。
2.1.3 確定語義 選定知識(shí)元相應(yīng)內(nèi)容后,標(biāo)引者可對(duì)知識(shí)元進(jìn)一步拆分,對(duì)文本再次碎片化,提取語義并根據(jù)系統(tǒng)推薦選擇需創(chuàng)建的語義關(guān)聯(lián)。平臺(tái)提供釋義關(guān)系、并病關(guān)系、合病關(guān)系、舌機(jī)關(guān)系、傳變關(guān)系、誤治關(guān)系、組成關(guān)系、從屬關(guān)系、鑒別關(guān)系、脈機(jī)關(guān)系、癥機(jī)關(guān)系、病脈關(guān)系、病證關(guān)系、藥性功用關(guān)系、病因關(guān)系、病脈關(guān)系、方藥關(guān)系、真臟脈關(guān)系、脈證關(guān)系、藥效關(guān)系、藥證關(guān)系、方效關(guān)系、方證關(guān)系、配伍關(guān)系、癥治關(guān)系、證象關(guān)系、辨治關(guān)系、證因關(guān)系,共28種語義關(guān)系。操作界面如圖1。此標(biāo)引方式具有較強(qiáng)結(jié)構(gòu)性,便于研究人員索引與學(xué)習(xí)。
圖1 中醫(yī)古籍“病脈證并治”知識(shí)元標(biāo)引系統(tǒng)操作界面Fig.1 The "combined treatment based on diagnosed disease, pulse and syndromes" system operation interface
如標(biāo)引文字:“一人久瘧,先間日,后一日一來,早晚不定,皆腎不納氣故也。用人參、茯苓、半夏各一錢,丁香、五味子各五分,益智、甘草各三分,姜水煎服?!盵9]195
根據(jù)文本,可提取知識(shí)元:病名-久瘧;病程-先間日,后一日一來,早晚不定;病機(jī)-腎不納氣;方劑-一人久瘧方劑;藥物-人參、茯苓、半夏,劑量-一錢;藥物-丁香、五味子,劑量-五分;藥物-益智、甘草,劑量-三分;服法-姜水煎服。
相應(yīng)知識(shí)元下提語義并建立語義關(guān)系?!熬茂憽碧嵴Z義為“病癥-瘧”,“先間日,后一日一來,早晚不定”提語義為“癥候表現(xiàn)-瘧先間日”“癥候表現(xiàn)-瘧一日一來”“癥候表現(xiàn)-瘧早晚不定”,“腎不納氣”提語義為“病因病機(jī)-腎不納氣”,“一人久瘧方劑”提語義為“方劑-一人久瘧方劑”,“人參、茯苓、半夏”提語義為“藥物-人參”“藥物-茯苓”“藥物-半夏”,“一錢”提語義為“劑量-一錢”,“丁香、五味子”提語義為“藥物-丁香”“藥物-五味子”,“五分”提語義為“劑量-五分”,“益智、甘草”提語義為“藥物-益智”“藥物-甘草”,“三分”提語義為“劑量-三分”,“姜水煎服”提語義為“用法-姜水煎服”。建立五種語義關(guān)聯(lián),分別為病證關(guān)系、辨治關(guān)系、藥制量關(guān)系、方用關(guān)系、組成關(guān)系。形成知識(shí)圖譜如圖2所示。
圖2 久瘧案知識(shí)圖譜(模板標(biāo)引方法)Fig.2 Knowledge graph of malaria case (Template indexing method)
2.3.1 標(biāo)引復(fù)診醫(yī)案知識(shí)元及語義關(guān)聯(lián)模板數(shù)量不足 中醫(yī)古籍的記敘方式較為自由。由于“中醫(yī)古籍‘病脈證并治’知識(shí)元標(biāo)引系統(tǒng)”僅支持建立其模板預(yù)設(shè)的語義關(guān)聯(lián),因此即使對(duì)于規(guī)范性較強(qiáng)的醫(yī)案類中醫(yī)古籍文本,系統(tǒng)也不能保證其知識(shí)元及語義關(guān)聯(lián)能夠完全適用。如含有復(fù)診過程的醫(yī)案,系統(tǒng)并未給出初診、復(fù)診、三診等知識(shí)元,標(biāo)引時(shí)只能將所有診療過程統(tǒng)一劃分為單一知識(shí)元“癥候表現(xiàn)”或“治則治法”“誤治”等,無法反映出各部分診療過程所包含的邏輯關(guān)系。
且平臺(tái)提前為用戶設(shè)立標(biāo)引模板雖然降低了標(biāo)引難度,但固定的知識(shí)元與語義關(guān)聯(lián)并不利于開展一些探索性、需要自定義建立不同知識(shí)元間關(guān)系的研究。如地理環(huán)境因素對(duì)某一病癥的影響、特定年代與用藥的關(guān)系、特定證型與方藥的聯(lián)系等研究。
2.3.2 語義粒度較大 語義粒度[10]反映了語義文本所包含的信息量,文本包含信息量大,語義粒度便大,反之則小?!爸嗅t(yī)古籍‘病脈證并治’知識(shí)元標(biāo)引系統(tǒng)”中,知識(shí)元為包含同一類中醫(yī)知識(shí)的語料的集合名稱,語義為知識(shí)元的再分,不同語義對(duì)應(yīng)包含不同信息的文本。系統(tǒng)以其提前給出的語義(病證、病因病機(jī)、藥物、劑量等)為基本單位建立語義關(guān)聯(lián)。在實(shí)際標(biāo)引中,用戶往往按知識(shí)元、語義將原文劃分,雖然結(jié)構(gòu)清晰,但在語義粒度方面則有所欠缺。如標(biāo)引病機(jī)“肝木乘脾”,根據(jù)模板標(biāo)引方法應(yīng)建立知識(shí)元病機(jī)-肝木乘脾,并提語義病因病機(jī)-肝木乘脾。但這種標(biāo)引方式并不能表現(xiàn)肝氣疏泄太過,橫逆犯脾胃的病理過程,導(dǎo)致“中醫(yī)古籍‘病脈證并治’知識(shí)元標(biāo)引系統(tǒng)”最終建立的知識(shí)網(wǎng)絡(luò)具有一定局限性,可能不利于中醫(yī)古籍的智能檢索或規(guī)則挖掘等研究的開展。
節(jié)點(diǎn)自定標(biāo)引方法主要從自定義建立語義及語義關(guān)系,并根據(jù)標(biāo)引內(nèi)容選擇性建立附加節(jié)點(diǎn)三個(gè)方面進(jìn)行?!肮?jié)點(diǎn)自定標(biāo)引方法”的使用依托“中醫(yī)經(jīng)典知識(shí)挖掘與傳播平臺(tái)”(http://202.204.35.217/dp/login.html),在標(biāo)引過程中,節(jié)點(diǎn)自定標(biāo)引方法可有效解決模板標(biāo)引方法存在的問題。
節(jié)點(diǎn)自定標(biāo)引方法中知識(shí)元是將原文碎片化后得到的,可以表達(dá)一個(gè)完整概念,且不可拆分的最小知識(shí)單元。語義是對(duì)所屬知識(shí)元的解釋與補(bǔ)充,并取代知識(shí)元作為知識(shí)網(wǎng)絡(luò)中關(guān)系建立節(jié)點(diǎn)。如“杜仲溫腎陽”,為解釋動(dòng)詞中所包含的中醫(yī)信息,我們可提取知識(shí)元“杜仲”“腎陽”。同時(shí),為解釋杜仲溫補(bǔ)的功效,須對(duì)腎陽的屬性進(jìn)行標(biāo)引,即給腎陽標(biāo)注增加這一特征,并以“注釋關(guān)系”標(biāo)注特征和實(shí)體之間的關(guān)系。本句話的語義為“杜仲-杜仲”“腎陽-腎陽”,并在此兩者之間建立語義關(guān)聯(lián)“導(dǎo)致關(guān)系”,在“腎陽”和“增加”之間建立“注釋關(guān)系”。此方法使最終形成的知識(shí)網(wǎng)絡(luò)準(zhǔn)確性大大增加,且能夠極大程度保留原文含義。見圖3。
圖3 “杜仲溫腎陽”知識(shí)圖譜(節(jié)點(diǎn)自定標(biāo)引方法)Fig.3 Knowledge graph of "eucommia ulmoides increases kidney Yang" (Custom node method)
“中醫(yī)經(jīng)典知識(shí)挖掘與傳播平臺(tái)”支持自定義建立語義關(guān)系,自定義主要體現(xiàn)在建立語義聯(lián)系的過程中關(guān)系名稱、建立對(duì)象、建立數(shù)量、建立方向的高度標(biāo)引自由。平臺(tái)支持在任意兩個(gè)語義之間建立語義關(guān)系,關(guān)系名稱可按用戶標(biāo)引需要手動(dòng)輸入;關(guān)系建立有“一對(duì)一”與“一對(duì)多”兩種建立形式,正向、逆向、雙向三種方向,且同一知識(shí)元無關(guān)系建立限制。如下文圖4知識(shí)圖譜中“常溪傷寒第二階段癥狀”,既可與癥狀“渴飲”“不多飲”建立一對(duì)多單向?qū)儆陉P(guān)系,又可與“常溪傷寒第一階段病機(jī)”“常溪傷寒第三階段病機(jī)”分別建立一對(duì)一單向?qū)е玛P(guān)系。在標(biāo)引過程中,標(biāo)引關(guān)系自由建立的實(shí)現(xiàn),對(duì)各團(tuán)隊(duì)根據(jù)自身研究方向與研究內(nèi)容建立符合自身需要的標(biāo)引手冊(cè),并進(jìn)行深度知識(shí)挖掘研究具有重要意義。
節(jié)點(diǎn)自定標(biāo)引方法相對(duì)自由,雖然這有利于探索性研究或指向性研究的開展,但自由標(biāo)引也可能造成標(biāo)引命名不規(guī)范的問題,如同一標(biāo)引內(nèi)容“二陳湯藥物組成”可能會(huì)出現(xiàn)“二陳湯的藥物組成”“二陳湯組成”“二陳湯的組成”等不同標(biāo)引形式。為后續(xù)查找、研究工作造成困難。
由于中醫(yī)古籍目前并無敘詞表,課題組建立了相關(guān)知識(shí)元標(biāo)引規(guī)則[11],規(guī)定非一級(jí)標(biāo)引名稱藥物組成、癥狀、主治病癥、功效、制法、服法、用法、藥后調(diào)理、用藥后表現(xiàn)、應(yīng)用注意事項(xiàng)、應(yīng)用禁忌、治法、治療用藥;并從從屬、因果、空間關(guān)系、方藥、其他五方面規(guī)定標(biāo)準(zhǔn)關(guān)系名稱40個(gè);設(shè)立關(guān)系申報(bào)機(jī)制,由專家討論標(biāo)引關(guān)系的增減與應(yīng)用語境,保證了標(biāo)引的規(guī)范化,以便后期檢索與科學(xué)研究數(shù)據(jù)、深度挖掘整理等工作的開展。
附加節(jié)點(diǎn)是對(duì)有原文對(duì)應(yīng)的節(jié)點(diǎn)的歸納,以增強(qiáng)知識(shí)圖譜的結(jié)構(gòu)性。如標(biāo)引“外感風(fēng)寒,惡寒發(fā)熱”,可將“惡寒”“發(fā)熱”歸納為“傷寒醫(yī)案癥狀”,“風(fēng)邪”“寒邪”歸納為“傷寒醫(yī)案病機(jī)”。附加節(jié)點(diǎn)“傷寒醫(yī)案癥狀”“傷寒醫(yī)案病機(jī)”與有原文對(duì)應(yīng)的節(jié)點(diǎn)“惡寒”“發(fā)熱”“風(fēng)邪”“寒邪”共同作為一個(gè)完整醫(yī)案知識(shí)圖譜的組成部分。同時(shí),附加節(jié)點(diǎn)展示了文本中各節(jié)點(diǎn)之間的邏輯關(guān)系。如麻黃湯的藥物組成為麻黃、桂枝、杏仁、甘草,標(biāo)引時(shí)這四味藥并不直接屬于節(jié)點(diǎn)“麻黃湯”,而是增加一個(gè)附加節(jié)點(diǎn)“麻黃湯藥物組成”,這4味藥屬于這個(gè)附加節(jié)點(diǎn)。
以《續(xù)名醫(yī)類案》中的醫(yī)案為例。該醫(yī)案主要闡述了張子和隨病情變化治療傷寒的用藥及經(jīng)驗(yàn)。原文是“張子和曰:予之常溪,雪中冒寒入浴,重感風(fēng)寒,遂病不起。但使煎通圣散單服之,一二日不食,惟渴飲水,亦不多飲。時(shí)時(shí)使人捶其股,按其腹,凡三四日不食,日飲水一二十度。至六日,有譫語妄見,以調(diào)胃承氣湯下之,汗出而愈。常謂人曰:傷寒勿妄用藥,惟飲水最為妙藥,但不可使之傷,常令揉散,乃大佳耳。至六七日,見有下證,方可下之,豈有變異哉。奈何醫(yī)者禁人飲水,至有渴死者。病患若不渴,強(qiáng)與水飲亦不肯飲也?!盵9]3
圖4、圖5分別為通過節(jié)點(diǎn)自定標(biāo)引方法、模板標(biāo)引方法標(biāo)引后形成的知識(shí)網(wǎng)絡(luò)。
圖4 常溪傷寒案知識(shí)圖譜(節(jié)點(diǎn)自定標(biāo)引方法)Fig.4 Knowledge graph of Changxi typhoid case(Custom node method)
圖5 常溪傷寒案知識(shí)圖譜(模板標(biāo)引方法)Fig.5 Knowledge graph of Changxi typhoid case (Template indexing method)
比較以上兩圖可以發(fā)現(xiàn):
(1)在結(jié)構(gòu)性方面,模板標(biāo)引方法結(jié)構(gòu)性較強(qiáng)。固定設(shè)置的關(guān)系框架使醫(yī)案結(jié)構(gòu)一目了然。
(2)在原文表達(dá)方面,節(jié)點(diǎn)自定標(biāo)引方法能夠更好地還原原文,體現(xiàn)原文中不同診次之間的病機(jī)和用藥變化。通過建立附加節(jié)點(diǎn),節(jié)點(diǎn)自定標(biāo)引方法體現(xiàn)了醫(yī)案的不同診療階段,并保留了早期診療過程中用藥對(duì)后續(xù)癥狀影響的邏輯關(guān)系。
(3)在粒度方面,節(jié)點(diǎn)自定標(biāo)引法在標(biāo)引實(shí)體中,顆粒度更小。節(jié)點(diǎn)自定標(biāo)引方法共產(chǎn)生節(jié)點(diǎn)21個(gè),模板標(biāo)引方法共產(chǎn)生節(jié)點(diǎn)12個(gè)。通過自定義建立語義關(guān)系與提取最小知識(shí)元,節(jié)點(diǎn)自定標(biāo)引方法將“傷寒勿妄用藥,惟飲水最為妙藥,但不可使之傷,常令揉散,乃大佳耳。至六七日,見有下證,方可下之,豈有變異哉。奈何醫(yī)者禁人飲水,至有渴死者。病患若不渴,強(qiáng)與水飲亦不肯飲也”這一治療經(jīng)驗(yàn)簡化為“飲水”“揉散”“不傷之”。更小的粒度將易于后期數(shù)據(jù)挖掘與分析工作的進(jìn)行。
在對(duì)中醫(yī)古籍醫(yī)案的標(biāo)引中,模板標(biāo)引方法操作簡單,結(jié)構(gòu)性強(qiáng),但在完整保留中醫(yī)古籍原文含義與標(biāo)引精度方面有所不足。節(jié)點(diǎn)自定標(biāo)引方法通過規(guī)定知識(shí)元為最小知識(shí)單元,自定義建立標(biāo)引關(guān)系,建立附加節(jié)點(diǎn)的形式,實(shí)現(xiàn)了知識(shí)網(wǎng)絡(luò)的構(gòu)建。解決了模板標(biāo)引方法存在的標(biāo)引復(fù)診醫(yī)案知識(shí)元及語義關(guān)聯(lián)模板數(shù)量不足,語義粒度較大的問題。在保留標(biāo)引原文與邏輯關(guān)系構(gòu)建方面更為完善,并具有一定規(guī)范性。此方法對(duì)保留中醫(yī)古籍原文信息,進(jìn)行中醫(yī)古籍?dāng)?shù)據(jù)挖掘研究具有重要意義。但節(jié)點(diǎn)自定標(biāo)引方法也存在標(biāo)引難度高,結(jié)構(gòu)較為不清晰的問題,仍待進(jìn)一步完善。