中國中醫(yī)科學(xué)院中國醫(yī)史文獻研究所(北京,100700)
丁 侃 張麗君△
中醫(yī)學(xué)術(shù)的傳承,離不開“書”與“人”,即大致依靠了“文獻整理”和“師徒授受”兩種傳承方式。因此我們認為中醫(yī)學(xué)所有的文獻以及知識的源與流,均可以歸結(jié)到這兩大脈絡(luò)上。本研究基于本體的理論和方法,對中醫(yī)學(xué)術(shù)傳承涉及的“書”與“人”的概念和關(guān)系進行知識組織,對概念所涉及的屬性應(yīng)用元數(shù)據(jù)進行語義描述,從而全方位地關(guān)聯(lián)出中醫(yī)學(xué)術(shù)傳承的脈絡(luò),并嘗試通過此脈絡(luò),對異構(gòu)的中醫(yī)古籍?dāng)?shù)字資源進行深度聚合。
中醫(yī)古籍?dāng)?shù)字化工作,起步于20世紀(jì)80年代,經(jīng)過30余年的發(fā)展,積累了相當(dāng)數(shù)量的數(shù)字資源。然而相關(guān)的資源可能分散在異構(gòu)的多個數(shù)據(jù)庫中,難以實現(xiàn)一體化獲取和利用,同一數(shù)據(jù)庫中的資源,也未必做到了合理的“整序”。
以中醫(yī)經(jīng)典著作《傷寒論》相關(guān)的資源為例:①古籍原物衍生的數(shù)字資源,至少包括“明萬歷二十七年己亥(1599年)趙開美校刻仲景全書本”、“日本寬政三年辛亥(1791年)觀理藥室影刻本”、“清光緒二十五年己亥(1899年)石印本”等;②古籍點校本原物衍生的數(shù)字資源,至少包括人民衛(wèi)生出版社、中醫(yī)古籍出版社等出版的眾多點校本;③參照不同底本、校本點校的諸多《傷寒論》全文文本資源;④《注解傷寒論》、《傷寒來蘇集》等《傷寒論》相關(guān)的注釋文獻的資源;⑤從《傷寒論》中抽取出的桂枝湯、小柴胡湯、太陽中風(fēng)證、陽明經(jīng)證等碎片化(結(jié)構(gòu)化)的方劑、病證等資源;⑥《傷寒論》中的病證、方劑知識在后世文獻中被反復(fù)轉(zhuǎn)載、注釋、發(fā)揮、應(yīng)用(可視為《傷寒論》知識的傳承過程)產(chǎn)生的相關(guān)資源;⑦另外還包括與《傷寒論》相關(guān)的人物,如張仲景、王叔和、林億的信息。這些相關(guān)資源如同“孤島”分布在不同的數(shù)據(jù)庫中,難以被有效地利用。只有將組織松散、異地分布的異構(gòu)資源進行有序化再組織,才能實現(xiàn)一體化獲取和利用。
關(guān)于資源的再組織,近年來有學(xué)者提出了“資源聚合”的概念,資源聚合側(cè)重于基于知識的內(nèi)容發(fā)現(xiàn)和數(shù)據(jù)管理,強調(diào)通過概念分析、引證關(guān)系等手段發(fā)現(xiàn)并用可視化手段呈現(xiàn)出數(shù)字資源中蘊含的知識結(jié)構(gòu)[1]。其中所強調(diào)的“引證關(guān)系”,正是中醫(yī)學(xué)術(shù)傳承的表征。
中醫(yī)古籍?dāng)?shù)字資源深度聚合以何種方式展開,聚合的資源、知識如何組織序化,這是領(lǐng)域?qū)<倚枰伎嫉膯栴},由此我們提出了按照傳承脈絡(luò)進行聚合的思路。而傳承脈絡(luò)的構(gòu)建,需要借助本體的理論和方法。
本體(Ontology)一詞源于哲學(xué)領(lǐng)域,是關(guān)于存在的理論。在信息科學(xué)領(lǐng)域,定義為概念體系的明確的、形式化、可共享的規(guī)范說明[2]。元數(shù)據(jù)(Metadata)是描述其他數(shù)據(jù)的數(shù)據(jù),或者說是用于提供某種資源的有關(guān)信息的結(jié)構(gòu)數(shù)據(jù)[3]。
資源的組織在微觀層面都是依據(jù)各種規(guī)范的元數(shù)據(jù)方案,資源之間的宏觀聯(lián)系依據(jù)知識本體所形式化的聯(lián)系模型,知識本體使各類元數(shù)據(jù)方案聯(lián)系成一個立體的知識網(wǎng)絡(luò)[4]。
不同時期、不同主體,在不同理念、參數(shù)、標(biāo)準(zhǔn)指導(dǎo)下建設(shè)起來的諸多中醫(yī)古籍?dāng)?shù)據(jù)平臺,其元數(shù)據(jù)方案設(shè)計、元素設(shè)置各不相同。為此,我們首先參考了《國家圖書館古籍元數(shù)據(jù)規(guī)范與著錄規(guī)則》[5]、“中醫(yī)古籍書目元數(shù)據(jù)”[6]、“中醫(yī)古籍元數(shù)據(jù)”、“中醫(yī)語義元數(shù)據(jù)”[7],張文勇的“人物數(shù)據(jù)庫元數(shù)據(jù)設(shè)計規(guī)范”[8]、王楠定義的“人物概念及屬性”[9]這些已有的元數(shù)據(jù)方案,同時梳理總結(jié)了眾多數(shù)字化平臺、產(chǎn)品的數(shù)據(jù)結(jié)構(gòu)、資源特色,最終確定了本研究文獻、人物本體構(gòu)建中采用的元數(shù)據(jù)方案。
通過構(gòu)建基于元數(shù)據(jù)的本體,對各種現(xiàn)有異構(gòu)的元數(shù)據(jù)規(guī)范進行語義強化,以實現(xiàn)語義層面的資源關(guān)聯(lián)和知識聚合。
在中醫(yī)文獻本體構(gòu)建過程中,我們以《中醫(yī)文獻辭典》作為參考。該書由余瀛鰲先生主編,收錄了重要的中醫(yī)文獻6100余條,對于少數(shù)民族醫(yī)藥文獻亦有收載。每一條目相當(dāng)于該書的內(nèi)容提要,提綱挈領(lǐng),盡舉特長優(yōu)點,敘述十分醇正[10]。該書尤其重視考證文獻學(xué)術(shù)傳承的關(guān)系,對于醫(yī)學(xué)人物之間的關(guān)系,亦有所涉獵。
書名:文獻的名稱,包括異名以及卷數(shù)和存佚情況。
主要責(zé)任者:對創(chuàng)建古籍負主要責(zé)任的實體。此項著錄主要責(zé)任者名稱、別稱、國別、所處時代以及責(zé)任方式。此項可鏈接人物本體。
其他責(zé)任者:對古籍資源的創(chuàng)建有貢獻的實體。此項可鏈接人物本體。
成書時間:古籍結(jié)集成書的時間。此項著錄古籍成書的朝代、年號紀(jì)年、公元紀(jì)年。
主題:使用特定詞匯對古籍資源內(nèi)容的歸納描述。分類參考《中國中醫(yī)古籍總目》,包括:醫(yī)經(jīng)、基礎(chǔ)理論、傷寒金匱、診法、針灸推拿、本草、方書、臨證各科、養(yǎng)生、醫(yī)案醫(yī)話醫(yī)論、醫(yī)史、綜合性著作。有些一級分類下有二級乃至三級分類。
時空范圍:文獻內(nèi)容所涉及的地域范圍和時間范圍。此項著錄地名、年代。
相關(guān)文獻:鏈接與所著錄文獻相關(guān)聯(lián)的其他文獻本體。此項著錄書名及相應(yīng)的文獻關(guān)系。定義的文獻關(guān)系:引錄、選錄、增編、續(xù)編、改編、仿體例、注釋、全注、分類注釋、集注、發(fā)揮、影響、評述、單行、翻譯、歌訣化、圖表化、并稱、比較。
附注:記錄未在其他元素項著錄又有必要補充說明的內(nèi)容。包括著錄附注、叢編附注、子目附注、合刊附注等。
現(xiàn)存資源:鏈接文獻現(xiàn)存的資源。
語種:文獻內(nèi)容所使用的語言種類。
參考:著錄文獻所參考的資料。
通過時代、分類、分科、分級、時空范圍等信息,展示文獻在各個維度上的分布情況。通過文獻之間的關(guān)系,諸如引錄、注釋、發(fā)揮等展示文獻之間的傳承脈絡(luò),以及通過同一文獻的多個責(zé)任者,發(fā)現(xiàn)學(xué)者的合作及傳承關(guān)系。通過一本一本的書,構(gòu)建學(xué)術(shù)傳承的脈絡(luò),其中每本書(文獻本體)作為脈絡(luò)上的節(jié)點。
在中醫(yī)人物本體構(gòu)建過程中,我們以《中醫(yī)人物詞典》作為參考。該書由李經(jīng)緯先生主編,收錄人物多達6200余條,每位醫(yī)家詳述其履歷籍貫、醫(yī)術(shù)淵源及其世系師承、醫(yī)學(xué)思想及貢獻、醫(yī)學(xué)著述及其卷數(shù)存佚等。后附有“人名字號、別名及師徒、后裔索引”、“中醫(yī)書名索引”[11]。
人名:人物的名稱,包括字、號等別稱。
生卒:人物所處的朝代,以及生卒年份。
類別:根據(jù)人物的性別、信仰、民族、專業(yè)、職業(yè)等人物特征進行的分類。通過對《中醫(yī)人物詞典》數(shù)據(jù)的分析,確定的類別包括:女性、儒醫(yī)、釋醫(yī)、道醫(yī)、醫(yī)官、官員、圣賢帝王、藏醫(yī)、維醫(yī)、蒙醫(yī)、巫醫(yī)、法醫(yī)。
里籍:人物籍貫以及經(jīng)?;顒拥牡赜颉I婕暗墓诺孛麉⒖肌吨袊沤竦孛筠o典》。
學(xué)派:人物所屬的學(xué)術(shù)流派。
專科:人物所屬的科別。
專長:人物擅長治療的疾病種類。
著述:人物所著述的文獻。此項可鏈接與人物責(zé)任相關(guān)的文獻本體。
相關(guān)人物:鏈接與所著錄人物相關(guān)聯(lián)的其他人物本體。此項著錄人名及相應(yīng)的人物關(guān)系。定義的人物關(guān)系:師承、門人、推崇、影響、祖先、后人。
收載:收載人物信息的文獻。
通過時代、類別、里籍、學(xué)派、???、專長等信息,展示人物各個維度上的分布情況。通過人物之間的關(guān)系,諸如師承、門人、推崇、影響、祖先、后人等展示人物之間的傳承脈絡(luò)。通過一個一個的人,構(gòu)建學(xué)術(shù)傳承的脈絡(luò),其中每個人(人物本體)作為脈絡(luò)上的節(jié)點,相關(guān)資源、知識聚合到相應(yīng)節(jié)點上。
深度聚合,不僅要揭示概念實體與實例之間、實例與實例之間的關(guān)系,即揭示資源在外延上的相似關(guān)系,特別是同一資源在不同層級的關(guān)系,更要通過共同屬性元素的挖掘,發(fā)現(xiàn)更多相似屬性的內(nèi)部和外部資源,揭示概念實體之間的關(guān)系,實現(xiàn)從資源整合向知識聚合的轉(zhuǎn)變[12]。
基于中醫(yī)學(xué)術(shù)傳承的兩大脈絡(luò)——“人”與“書”,本研究探討如何將不同來源、多種類型、各種模式的中醫(yī)古籍?dāng)?shù)字化資源,尤其是經(jīng)過深度加工碎片化的知識(知識體),在這兩條脈絡(luò)上建立起多層面的關(guān)聯(lián),以實現(xiàn)資源整合與共享(被整合)。從而梳理傳承脈絡(luò),定位各類中醫(yī)知識在學(xué)術(shù)發(fā)展過程中時間、空間、來源坐標(biāo),達到知識序化的目的。
本研究中,本體構(gòu)建采用了循環(huán)獲取法(Cyclic Acquisition Process)[13]。由于中醫(yī)古籍領(lǐng)域數(shù)據(jù)開放程度不高,前期研究過程中未找到合適復(fù)用的本體和敘詞表,因此我們采用了手工構(gòu)建的方式。一般的知識獲取手段不能確保領(lǐng)域知識的完備性,因此選用專業(yè)詞典,利用詞典的定義和分類體系,進行知識獲取,是手工建立本體常采用的方案[14]?!吨嗅t(yī)文獻辭典》與《中醫(yī)人物詞典》互為姐妹篇,前者側(cè)重文獻,后者側(cè)重人物,同時又互為補充,作為領(lǐng)域權(quán)威的資源,可以滿足我們構(gòu)建初級本體的需要。
在文獻本體的構(gòu)建過程中,對于文獻間關(guān)系的定義是本研究的難點;在人物本體的構(gòu)建過程中,人物相關(guān)屬性的定義是本研究的難點,關(guān)于人物間關(guān)系的定義,我們參考了何時希先生的《中國歷代醫(yī)家傳錄》中總結(jié)的“十種關(guān)系”。
本體的開發(fā)和完善是一個反反復(fù)復(fù)不斷補充的迭代過程[15]。IDEF- 5方法和循環(huán)獲取法等經(jīng)典的本體構(gòu)建方法,均提到了本體優(yōu)化的觀點。
本研究僅是提出了基于《中醫(yī)文獻辭典》與《中醫(yī)人物詞典》構(gòu)建文獻和人物初級本體的方案,在此基礎(chǔ)上還要經(jīng)過反復(fù)的迭代過程,才能貼近于專業(yè)領(lǐng)域中的客觀實體和關(guān)系法則。在今后的工作中,我們還需要參考更多的領(lǐng)域內(nèi)權(quán)威的辭典資料,以及復(fù)用可能的相關(guān)本體和敘詞表,更為重要的是在資源聚合的實踐中驗證并修正本體,使得文獻人物本體日臻完善,才能使由此勾畫出的中醫(yī)學(xué)術(shù)傳承的脈絡(luò),日益清晰豐富。