劉亞男,肖 明(北京師范大學政府管理學院)
傳記是記述人物事跡、反映人物思想的作品。凡是包括人物生平與經歷的相關文獻、音頻、視頻等資源都可歸為傳記資源。對傳記資源進行發(fā)掘與研究歷來被研究者們所關注,從傳記資源中發(fā)現(xiàn)的一些事件細節(jié)對于還原歷史真相、豐富人物形象能都起到至關重要的作用,數(shù)量宏豐的傳記資源為當代學者的研究工作提供了極大的幫助。我國歷來有對傳記資源進行發(fā)掘與整理的經驗,面對來源廣泛、類型多樣的傳記資源,探索如何從資源組織的角度進行研究,對于更加充分地利用傳記資源至關重要。
知識地圖是一種組織與管理知識資源的工具,其目的在于用一種通用、直觀的方式來對知識進行獲取與描述,用可視化技術顯示知識及其關系,具有解讀顯性知識和挖掘隱性知識等特點。學術領域的知識地圖最早由英國情報學家布魯克斯于1981年提出,他希望能夠通過知識地圖將相互影響、相互關聯(lián)的知識連接起來,揭示出知識的有機結構。[1]目前,企業(yè)、高校、圖書館等均已對知識地圖的應用展開研究。[2-4]本文通過分析現(xiàn)有的傳記資源組織方式,并結合傳記資源特點,構造了相應的知識地圖模型,在此基礎上,以王重民傳記資料為例,實現(xiàn)了傳記資源知識地圖的構建與可視化。結果表明,傳記資源知識地圖能夠直觀地反映出節(jié)點信息與人物之間的關系,為傳記資源的組織提供了新思路。
傳記資源以人物為核心,是一種圍繞傳主的生平或經歷來進行記述與組織的資源。隨著傳記的發(fā)展,現(xiàn)代傳記家不再滿足于僅敘述傳主的事跡,他們越來越重視展示傳主的個性或人格,并對傳主人格的發(fā)展進行解釋。[5]由于傳記資源的文體類型多樣,具有地域性、時代性等特征,所以整理傳記資源時應該注意從多角度、按照標準化的流程來進行揭示,[6]由傳記資源來探究人物之間的交往、學術往來等關系歷來被研究者們所重視?,F(xiàn)有的關于傳記資源組織方法的研究大多基于圖書館領域對資源的組織方式進行探索,主要可以分為元數(shù)據(jù)法、分類組織法和主題組織法三種。
元數(shù)據(jù)是用來描述信息資源特征、揭示相互關系、實現(xiàn)相應操作的一整套編碼體系。[7]元數(shù)據(jù)通過結構化的表示方式揭示信息資源特征,使無序的信息資源轉變得有序,從而實現(xiàn)對資源的整合、管理和利用。根據(jù)不同領域數(shù)據(jù)的特點和研究者的需要,可以使用多種元數(shù)據(jù)標準對信息資源進行揭示,根據(jù)載體的不同來描述資源特征、揭示其屬性,有利于資源更好地被檢索和利用。李芳等設計了傳記資源元數(shù)據(jù)框架,在描述傳記資源物理和內容特征的基礎上,對傳主的姓名、身份、職業(yè)、國別進行元數(shù)據(jù)標注,以提供傳記資源檢索的多種途徑。[8]
分類組織法是根據(jù)資源內容來分門別類地組織資源的方法。分類號能夠客觀且直觀地反映資源所屬類別,如在《中國圖書館分類法》中,K81為傳記類,而對于馬克思、列寧、毛澤東等人物的相關傳記資源又會單獨分類,同時由于傳記資源本身具有很高的文學性,相當數(shù)量的傳記資源也收錄在“I文學”類目下。在《杜威十進分類法》中,除了“800文學”“900歷史、地理與傳記”之外,對傳記資源的組織則是根據(jù)傳主所研究的學科領域將傳記資源歸類到各個學科中。在具體的傳記資源組織實踐中,按照傳主的國別、身份、地域、學科、時代等特征,也進行了大量的資源組織工作,數(shù)據(jù)庫方面如“中國歷史人物傳記資源庫”按照文獻、姓氏、朝代、地域四個方面來進行分類,紙質文獻方面如《中國文學家傳記》(中央書店,1937)、《世界著名數(shù)學家傳記》(科學出版社,1995)、《宋元明清人物》(華文出版社,2004)等。
主題法是按照信息內容的主題名稱來標引與組織信息的方法,按照主題名稱的字順排列,一般包括標題法、敘詞法和關鍵詞法。[9]標題法是一種以標題詞作為主題標識、以詞表預先確定的組配方式標引和檢索的主題法;敘詞法是通過概念組配方式表達文獻主題的主題法分類;關鍵詞法是隨著計算機而出現(xiàn)的、為適應索引編制自動化的需要而產生的主題法類型。傳記資源的主題法可以以學科主題詞和傳主姓名作為重點標引內容。傳記以傳主為研究和論述的主要對象,一般分為以多人為論述對象和以個人為研究對象兩種類型。在主題標引多人列傳時,應按照傳記資料所覆蓋的范圍或所涉及的領域來進行主題劃分,如某一時代、學科、組織的人物傳記資料匯編,應以時代、學科、組織和人物類型等主題詞為主標題,以傳記資源類型等為副標題。趙萍萍認為,多人列傳主題標引側重群體屬性對應的學科主題詞和國家、地區(qū)、時代對應的主題詞,且多人傳記中應對標引的人物數(shù)量做明確界定,如若達到一定數(shù)量,則可只著錄前數(shù)名傳主信息,但需在“描述”字段中對著錄的規(guī)則加以說明。[10]
知識地圖的構建需根據(jù)一定的原則,采用信息標引、分類聚類等信息組織方式,結合一定的技術手段實現(xiàn)對知識的良好組織與挖掘。前期的信息組織是采用一定的標準對信息進行序化和歸類,完成對信息的整理與準確表達,進而完成信息的提取工作;知識的挖掘則是在信息組織的基礎上,利用元數(shù)據(jù)或關聯(lián)規(guī)則形成知識之間的關聯(lián)。
2.1.1 構建原則
① 主題明確。主題是指所構建知識地圖的性質,如領域專家知識地圖、旅游路線知識地圖、企業(yè)管理知識地圖等。知識地圖的構建應嚴格圍繞所確定的主題,明確的主題能夠使用戶更清晰地了解整個知識地圖。② 以需求為導向。構建知識地圖應充分考慮用戶需求,具有良好的實用性,確定所構建的知識地圖用于什么目的、要達到什么樣的目標。③ 結構清晰。設計知識地圖應明確其基礎結構,明確其構成成分、節(jié)點關系及相關屬性,結構清晰的知識地圖對于用戶更好地理解內容至關重要。④ 可擴展性與可維護性。知識地圖的構建并不是一成不變的,隨著相關信息的不斷完善,仍需要對其進行擴展和維護,因此知識地圖在使用過程中應具有良好的可擴展性和維護性,以保證其時效性和準確性。
2.1.2 構建方法與工具
知識地圖的構建方法主要是指在利用信息組織相關理論的基礎上,結合描述語言或本體相關技術來構建知識地圖。信息組織相關理論主要包括信息標引、分類聚類、數(shù)據(jù)挖掘等。其中,信息標引可以采用人工標引和自動標引等方式從文獻中提取出標引項,如標題、作者、關鍵詞等字段,借助信息組織理論可以使資源更加規(guī)范化,有利于知識地圖的交流和共享。Ontolingua、OIL、OWL和XML是常用的知識地圖描述語言,其中XML由于具有良好的可擴展性,更適合于構建網(wǎng)絡知識地圖。[11]目前,可用于構建知識地圖的軟件主要有 OntolinguaServer、OntoEdit、Protégé等,因本體可以很好地解決信息異構問題,使不同領域的知識地圖實現(xiàn)互聯(lián)與共享,所以越來越多的研究者們開始探索利用本體技術來構建知識地圖的方法,以更好地實現(xiàn)知識的良好組織并提高檢索效率。
按照資源類型,可以將傳記資源劃分為文獻資源、圖片與音視頻資源兩種類型,其中文獻資源包括傳記文、書籍、書信與日記,書信與日記都是由傳主本人所創(chuàng)作的,而其他類型的資源大都是由其后人或研究者們所創(chuàng)作、整理而來的。為了在對傳記資源進行組織的基礎上更好地展示人物之間的關系,筆者認為,傳記資源的組織應以傳主為核心元素,以傳記類型為組織元素,以作傳者或相關人物為特征元素來對傳記資源進行整理。針對不同的資源類型,作傳者的標識符可能有所不同,如書籍與傳記文應為其著者、書信應為收信人、圖片及音視頻資源應為其制作者,其元素之間的關系見圖1。
圖1 傳記資源元素關系
傳主是傳記資源整理組織中的核心元素,以傳主為核心能夠更為清晰地展示傳主的所有傳記資料,有利于讀者全面地了解和把握人物情況。本文將傳記資源按照類型劃分為傳記文、書籍、書信、日記、圖片與音視頻文件,不同類型的資源其描述元素會有所不同,如書籍的“出版地”元素,在傳記文中是“來源刊”,在音視頻文件中則是“發(fā)行方”,可見按照類型來對傳記資源進行組織具有其合理性與有效性。特征元素可以進一步描述傳記資源的特點,可以更好地體現(xiàn)人物之間的關系,其種類有很多,如傳記文中對“著者”“來源刊”“卷次”“期次”“日期”等元素的描述。
知識地圖采用形象、直觀的方式為用戶提供服務,而本體則能夠通過明確、規(guī)范的概念體系和關系網(wǎng)絡為知識地圖的構建與維護提供堅實的基礎。[12]隨著本體技術在知識地圖構建中的應用,結合本體構建模型來建立傳記資源知識地圖模型能夠更好地規(guī)范傳記資源知識地圖的構建與應用。如圖2所示,基于本體的傳記資源知識地圖模型一共分為三個層次。① 資源層是傳記資源知識地圖的底層,也是構建整個知識地圖的基礎,本文按照人工劃分資源類型的方式來對其進行組織,其來源主要包括相關數(shù)據(jù)庫、文獻資源以及網(wǎng)絡資源。② 本體層在劃分資源類型的基礎上對傳記資源進行知識提取,主要涉及RDF和知識描述兩部分:在RDF中,所有資源都能通過一個統(tǒng)一資源識別碼(Uniform Resource Identifier,URI)進行唯一標識;知識描述采用元數(shù)據(jù)等形式來描述資源的內容或結構等信息。③ 展示層將構建完成的本體進行可視化展示,在可視化界面與知識描述之間建立知識鏈接,為用戶提供多種形式的展示方式。展示層主要涉及知識節(jié)點與知識節(jié)點之間的關聯(lián),知識節(jié)點一般是某領域知識通用的概念或術語,用戶可以通過知識節(jié)點之間的關聯(lián)來了解知識結構的交流和演化情況。
圖2 基于本體的傳記資源知識地圖模型
依據(jù)上文構建的傳記資源知識地圖模型,本文選取王重民先生作為傳主,對其傳記資料進行整理與組織。王重民(1903-1975),字有三,號冷廬主人,河北高陽縣人,現(xiàn)代著名目錄學家、考據(jù)學家、敦煌學家、圖書館學教育家,是具有廣泛影響力的國學大師,在目錄學、版本學、??睂W、敦煌學等領域都有高深的造詣。
通過對知識地圖構建方法與工具的分析,結合傳記資源的元素特征,本文選擇本體構建工具Protégé來構建傳記資源知識地圖。首先,Protégé具有良好的工作界面和一定的擴展功能,用戶利用插件可以實現(xiàn)可視化等功能;其次,Protégé屬于開源軟件,有較為詳細的使用教程且能夠較好地支持中文的使用。其構建過程主要包括以下步驟。
(1)創(chuàng)建類與子類,明確類與類之間的關系。本文在組織傳記資源中構建了“人物”和“傳記資源”兩個大類?!叭宋铩庇脕泶娣刨Y源中涉及到的所有人物,包括傳主及作傳者;“傳記資源”包括書籍、傳記文、圖片與音視頻資源、書信、日記五個子類。在傳記資源之外另設“人物”類主要是因為傳記資源是以人物為核心進行組織的,隨著傳記資源的增加,“人物”類中的人名必定會越來越多?,F(xiàn)有傳記資料除傳主本身所作的以外,大部分是由其家人、師友或后學所作,往往流露著對傳主本身或其成就的某種情感,因此,將作傳者歸入“人物”類能更直觀的體現(xiàn)人物關系。本文以王重民為傳主進行組織,故“人物”類中包含王重民及與其相關的人物。
(2)添加實體,設置實體的屬性。實體主要包括人物及各種傳記資源,如傅振倫曾為王重民撰寫傳記文“王重民別傳”,故“傅振倫”應歸入人物類、“王重民別傳”應歸入傳記文類。人物類的屬性主要有名、字、號、生卒年、籍貫、曾任職、配偶等。不同的傳記資源類具有不同的屬性,如傳記文類屬性主要包括題名、著者、期刊名、卷號、期號、出版時間等。
(3)創(chuàng)建實體之間的關系。以三元組的形式來定義實體之間的關系,如“王重民”的“配偶”是“劉修業(yè)”、“王重民別傳”的“著者”是“傅振倫”等,通過實體之間的關聯(lián)可以更加明確各實體之間的關系。按照以上所列的步驟構建知識地圖,將所搜集到的傳記資源進行分類,然后逐一進行實例添加。由于傳記資源來源廣泛,所以本文采用人工方式對搜集到的資源進行初步的類別分析與實例化。
3.2.1 傳記資源的可視化
將相關人物及傳記資源進行實例化之后,可以將傳記資源知識地圖以可視化的形式進行展示。Protégé軟件自帶的OntoGraf插件可以很好地呈現(xiàn)知識節(jié)點與知識關聯(lián),它不僅能夠展示類目之間的層次結構,還可以顯示實例之間的關系。圖3展示了王重民傳記文資源的知識地圖,圖中包含人物及傳記文,人物與傳記文之間通過“著者”屬性進行關聯(lián),如人物類的實體“崔文印”與傳記文類的實體“王重民先生略傳”的“著者”是人物類的實體“崔文印”。將鼠標放置在圖中的某個節(jié)點上,就能夠以框架的形式展示該節(jié)點的詳細信息,如“王重民先生略傳”節(jié)點的相關信息如下:著者為人物類實體“崔文印”,出版時間為“1983年”,期刊名為“晉陽學刊”,期號為“1期”(見圖 4)。
圖3 王重民傳記文資源可視化展示
圖4 “王重民先生略傳”節(jié)點信息展示
3.2.2 相關人物檢索
OntoGraf能夠通過語詞匹配來進行檢索,本文以“劉修業(yè)”為檢索詞,發(fā)現(xiàn)與劉修業(yè)相關的關聯(lián)有3個:一是在傳記文中有5篇為劉修業(yè)所撰,二是與王重民之間存在配偶關系,三是劉修業(yè)本身屬于人物類(見圖5)。OntoGraf在檢索中不要求完全匹配,只要節(jié)點中包含檢索的信息就能夠被檢索到,這種方式能提高檢全率。
由于傳記資源類型多樣,本文在傳記資源搜集與整理的基礎上,探析基于知識地圖的傳記資源組織方法,構建傳記資源知識地圖模型,并結合王重民傳記資源進行實例化構建與展示。結果表明,知識地圖在資源組織與關系揭示上具有良好的適用性,能夠為傳記資源的組織提供較好的借鑒作用。但同時,本文基于資源類型的不同對傳記資源進行劃分,以人物來體現(xiàn)傳記資源與傳主之間的關系,只體現(xiàn)了對不同類型資源的組織以及人物之間的簡單關系,并未對傳記資源的內容進行提取和分析。對于知識地圖而言,如何利用可視化的工具表示、挖掘資源的內部特征,仍將是未來深入研究的重點內容。