孫紹丹,鄧 君,張子姝,鐘楚依,盛盼盼
(吉林大學(xué)管理學(xué)院,長春 130022)
近代報(bào)紙作為中國近代史研究的寶貴資料,具備極高的史料價(jià)值和文獻(xiàn)價(jià)值。目前諸多公立圖書館及其他商業(yè)機(jī)構(gòu)等都在積極推進(jìn)近代報(bào)紙資源的數(shù)字化建設(shè)。其中有代表性的有國家圖書館建設(shè)的 《中國歷史文獻(xiàn)總庫·近代報(bào)紙數(shù)據(jù)庫》、上海圖書館開發(fā)的《全國報(bào)刊索引》、中國臺灣得泓公司等開發(fā)的 《申報(bào)》和 《大公報(bào)》 等數(shù)據(jù)庫、中國社科院等聯(lián)合建設(shè)的抗日戰(zhàn)爭與近代中日關(guān)系文獻(xiàn)數(shù)據(jù)平臺、愛如生中國近代報(bào)刊庫等。這些報(bào)紙數(shù)據(jù)庫項(xiàng)目開啟了國內(nèi)近代報(bào)紙數(shù)字化建設(shè)的先河,通過數(shù)字加工、縮微復(fù)制、知識庫構(gòu)建等方式,為近代報(bào)紙的長期保存和高效利用奠定了基礎(chǔ)。隨著數(shù)字技術(shù)的更新迭代,近代報(bào)紙資源的數(shù)字化開發(fā)有了更多可能性,資源利用更加高效。同時(shí),用戶也不再滿足于單一表層的資源檢索,迫切需要多樣深層關(guān)聯(lián)的資源檢索與發(fā)現(xiàn)。目前,國內(nèi)近代報(bào)紙資源庫具有一定的實(shí)踐,但總體來說這些報(bào)紙資源庫的組織多以傳統(tǒng)樹狀結(jié)構(gòu)為主,通過正文檢索和圖片檢索獲取報(bào)紙內(nèi)容,資源關(guān)聯(lián)程度低,資源“孤島”現(xiàn)象嚴(yán)重,且檢索形式單一,尚未構(gòu)成完整的知識體系和架構(gòu),導(dǎo)致用戶在檢索時(shí)無法快速定位目標(biāo)內(nèi)容,致使報(bào)紙資源利用率相對低下。本文將知識元概念融入到近代報(bào)紙資源主題知識組織研究中,在主題層和資源層之間引入知識元及其關(guān)聯(lián)關(guān)系,構(gòu)建以主題為核心的近代報(bào)紙資源主題圖,圍繞主題組織內(nèi)容,深層標(biāo)引報(bào)紙?jiān)獢?shù)據(jù)特征,深度揭示報(bào)紙資源知識結(jié)構(gòu),并挖掘報(bào)紙資源之間的語義關(guān)聯(lián)性,實(shí)現(xiàn)資源鏈?zhǔn)酵卣购椭R聚合,為報(bào)紙資源的深度組織與開發(fā)提供參考路徑。
近代報(bào)紙資源知識組織研究現(xiàn)狀可以從實(shí)踐和理論兩個(gè)層面進(jìn)行梳理。在實(shí)踐工作方面,目前,近代報(bào)紙數(shù)字化工作主要以構(gòu)建專題報(bào)紙數(shù)據(jù)庫為主,如美國國會(huì)圖書館建設(shè)的數(shù)字報(bào)紙計(jì)劃(NDNP),旨在創(chuàng)造一個(gè)在線歷史報(bào)紙知識庫,實(shí)現(xiàn)全文檢索目標(biāo)[1];荷蘭國家圖書館構(gòu)建了1922—1994 年160 萬個(gè)報(bào)紙數(shù)據(jù)的數(shù)字化報(bào)紙檔案庫[2],包含注釋豐富的歷史報(bào)紙收藏和分面搜索界面;歐洲圖書館聯(lián)盟Europeana 收錄了1 000 多萬份報(bào)紙資源,尤其是第一次世界大戰(zhàn)期間出版的報(bào)紙,借助OCR、布局分析、文章分割、命名實(shí)體識別(NER)和頁面類識別等細(xì)化技術(shù),構(gòu)筑成報(bào)紙知識庫,并對細(xì)化步驟進(jìn)行質(zhì)量評測[3];中國國家圖書館于2014 年開啟民國報(bào)紙縮微化和數(shù)字化工作[4],利用OCR 技術(shù),建設(shè)了近代報(bào)紙數(shù)據(jù)庫,提供檢索下載服務(wù)。以上近代報(bào)紙數(shù)字化項(xiàng)目一定程度上推動(dòng)了報(bào)紙資源的利用和開發(fā),但在知識組織方面略顯不足,其數(shù)據(jù)庫檢索方式大多以單一匹配內(nèi)容為主,缺乏對資源進(jìn)行關(guān)聯(lián)分析、鏈?zhǔn)浇M織,限制了報(bào)紙資源隱性知識的挖掘。
理論研究方面,目前主要聚焦于報(bào)紙搶救及長期保存、報(bào)紙數(shù)字化過程中數(shù)據(jù)質(zhì)檢、數(shù)據(jù)噪音等問題以及報(bào)紙資源元數(shù)據(jù)及內(nèi)容挖掘等研究。如KRAHMER 以北德克薩斯大學(xué)和斯坦福大學(xué)的合作項(xiàng)目The Texas Digital Newspaper Program(TDNP)為例,闡述報(bào)紙數(shù)字化保存策略[5];陳桂香則以地方近代報(bào)紙數(shù)字化建設(shè)為例,探討其數(shù)字化技術(shù)和工具、分析數(shù)字化報(bào)紙的必要性和優(yōu)勢,并提出搶救近代報(bào)紙的相關(guān)建議[6];JARLBRINK 等分析了瑞典國家圖書館在歷史報(bào)紙數(shù)字化過程中的數(shù)字噪音問題[7],如光學(xué)字符識別(OCR)識別質(zhì)量參差不齊、載體形態(tài)轉(zhuǎn)換價(jià)值丟失、數(shù)字外包質(zhì)量控制風(fēng)險(xiǎn)等。元數(shù)據(jù)研究方面,F(xiàn)AFALIOS 等以1987—2007 年紐約時(shí)報(bào)為數(shù)據(jù)源,采用檔案描述元數(shù)據(jù)和語義信息構(gòu)建RDF 圖,試圖解決報(bào)紙檔案資源的語義信息檢索問題[8];BOGAARD 等通過日志分析法探討了荷蘭國家圖書館歷史報(bào)紙?jiān)獢?shù)據(jù)在用戶搜索行為方面的效用,識別用戶的搜索模式[9]。內(nèi)容挖掘技術(shù)方面,學(xué)者們主要借助自然語言處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法,首先對報(bào)紙資源進(jìn)行OCR 識別[10],改進(jìn)OCR 算法,提高文本識別準(zhǔn)確率,進(jìn)而從主題角度挖掘報(bào)紙內(nèi)容特征,如報(bào)紙中記錄的洪水內(nèi)容、自動(dòng)識別報(bào)紙中關(guān)于詩歌記載[11]、透過報(bào)紙的新聞報(bào)道觀摩城市動(dòng)態(tài)演變[12]、報(bào)紙報(bào)道中性別偏見量化研究[13]、報(bào)紙中對野生動(dòng)物保護(hù)觀念歷時(shí)性分析[14]等。
綜上,國內(nèi)外學(xué)者在近代報(bào)紙資源知識組織理論和實(shí)踐方面有較多探索,但在如何實(shí)現(xiàn)報(bào)紙資源多維關(guān)聯(lián)檢索方面探討不足。為了充分發(fā)揮報(bào)紙資源的珍貴史料價(jià)值,彌補(bǔ)當(dāng)前研究空白,本文引入知識元概念,知識元是知識的基本組分,是構(gòu)造知識系統(tǒng)的核心,是知識在微觀領(lǐng)域的存在形態(tài),通過將知識元與主題圖結(jié)合,能夠從多層次和多粒度視角構(gòu)建以主題為核心要素的近代報(bào)紙資源主題圖,以此揭示報(bào)紙資源之間的深層關(guān)聯(lián)性,實(shí)現(xiàn)報(bào)紙資源多維檢索,提高報(bào)紙資源利用率。
主題圖是ISO/IEC13250 國際標(biāo)準(zhǔn)規(guī)范中用于組織大量非結(jié)構(gòu)化信息的工具,通過整合信息資源,揭示資源特征,實(shí)現(xiàn)知識元之間的鏈接,構(gòu)建領(lǐng)域知識體系,提高知識的集約化利用效率。目前,主題圖在多個(gè)領(lǐng)域都有所應(yīng)用,主要以知識組織和管理為主。①在傳統(tǒng)文化領(lǐng)域:以京劇、昆曲為例,借助主題圖可視化直觀展示京劇和昆曲的歷史淵源、傳承脈絡(luò)等屬性[15];探討邯鄲地方文獻(xiàn)、土家學(xué)地域知識的主題及主題關(guān)聯(lián)[16,17]。②在圖書館信息資源領(lǐng)域:構(gòu)建數(shù)字圖書館信息資源主題圖模型[18]或圖書館特色資源知識地圖[19],揭示圖書館信息資源之間的關(guān)聯(lián)路徑,助力資源組織,提高資源利用效率。③在電子政務(wù)領(lǐng)域:聚焦于政務(wù)信息主題地圖門戶建設(shè)[20]、隱性政務(wù)信息資源開發(fā)[21]、政務(wù)信息資源組織[22]等研究。此外,主題圖在旅游文化信息[23]、教育信息[24]、消防應(yīng)急信息[25]、健康信息[26]等方面都有所應(yīng)用。
綜上,主題圖技術(shù)較為成熟,應(yīng)用領(lǐng)域廣泛,但對近代報(bào)紙資源尚未有所應(yīng)用。考慮到近代報(bào)紙資源分布分散、資源類型多樣、且缺少規(guī)范的知識組織體系等特征。本文嘗試將主題圖引入到近代報(bào)紙資源知識組織中,以揭示報(bào)紙主題概念之間的關(guān)聯(lián)關(guān)系,聚合報(bào)紙資源相關(guān)內(nèi)容,查詢定位知識概念所在位置,進(jìn)而整合報(bào)紙知識,實(shí)現(xiàn)報(bào)紙資源的個(gè)性化導(dǎo)航和高效利用。
主題圖作為一種知識組織方式,與索引思想密切相關(guān),其前身是主題導(dǎo)航地圖(Topic Navigation Maps),包含主題(Topic)、關(guān)聯(lián)(Associations)、資源指引(Occurrence)、范圍(Scope)、標(biāo)記(Identity)、分面(Facet)等組成要素。主題泛指實(shí)體、概念等能引起討論的對象,主題類型是主題所歸屬的類別,同一主題可以有多個(gè)主題名稱;關(guān)聯(lián)是指主題之間關(guān)系,可以是一對一、一對多和多對多關(guān)系,相同關(guān)聯(lián)關(guān)系可以歸結(jié)為一個(gè)關(guān)聯(lián)類型,每個(gè)主題在關(guān)聯(lián)關(guān)系中扮演的角色被稱為“角色類型”(Role Type);資源指引是指每個(gè)主題具有的屬性特征,用來描述資源特性,可以是圖片、視頻、主題評論等;范圍用來限制主題概念的定義范圍;身份識別主要用于主題圖合并。在主題圖中,最關(guān)鍵的三要素分別是主題、相關(guān)關(guān)系和資源指引(圖1),每個(gè)圓形節(jié)點(diǎn)表示一個(gè)主題,圓形節(jié)點(diǎn)之間連線表示主題之間相關(guān)關(guān)系,下方橢圓形內(nèi)不同形狀節(jié)點(diǎn)表示主題所具備的資源屬性,整個(gè)圖形表達(dá)了主題之間復(fù)雜的網(wǎng)狀關(guān)系。
圖1 主題圖三要素構(gòu)成[27]Fig.1 Construction of three elements of a topic map
本文使用挪威Ontopia 公司開發(fā)的主題映射工具Ontopia 構(gòu)建主題圖,該工具既可以顯示文本主題映射,如主題、關(guān)聯(lián)和相關(guān)主題以及資源屬性,也可以提供清晰靈活的圖形可視化工具,顯示主題間的關(guān)聯(lián)類型和主題類型。Ontopia 廣泛應(yīng)用于主題圖引擎、主題圖編輯器、主題圖瀏覽工具、主題圖可視化工具、Web 編輯框架、主題圖導(dǎo)航框架和Web 服務(wù)接口等場景。本文在創(chuàng)建近代報(bào)紙資源主題圖時(shí)主要使用了主題圖編輯器Ontopoly 和主題圖可視化工具Vizigator,其中Ontopoly 包括4 個(gè)模塊:Description(說明)、Admin(管理)、Ontopoly(本體編輯器)及Instances(實(shí)例編輯器)。
筆者調(diào)研了國內(nèi)比較知名且應(yīng)用較為廣泛的8 個(gè)近代報(bào)紙資源平臺,梳理其報(bào)紙資源檢索模式(表1)。由表1 可知,各個(gè)平臺主要以近代報(bào)紙資源形式特征檢索為主,如題名、作者、出版時(shí)間、出版年等基礎(chǔ)信息。在報(bào)紙內(nèi)容特征方面的揭示,《全國報(bào)刊索引》深入到報(bào)紙正文和圖片信息,南京大學(xué)CCAA 將報(bào)紙廣告內(nèi)容單獨(dú)建庫。因此,可以看出,尚未有一個(gè)平臺完整地解構(gòu)了近代報(bào)紙資源內(nèi)容,往往以單一化檢索模式為主,缺乏完整的資源檢索體系,且資源之間缺少關(guān)聯(lián)和耦合。鑒于此,本文將結(jié)合表1 內(nèi)容,從近代報(bào)紙資源形式和內(nèi)容特征兩大方面來描述報(bào)紙資源。
表1 國內(nèi)近代報(bào)紙資源平臺Table 1 The platform of Chinese modern newspaper resources
本小節(jié)將參考3.1 近代報(bào)紙資源平臺調(diào)研情況,并閱讀平臺所呈現(xiàn)的近代報(bào)紙內(nèi)容,提煉出22 個(gè)近代報(bào)紙資源形式特征(表2)。在近代報(bào)紙資源內(nèi)容特征方面,將報(bào)紙資源分為政治主題、經(jīng)濟(jì)主題、軍事主題、社會(huì)活動(dòng)主題、詩詞歌賦主題、自然災(zāi)害主題六大主題類型,并融入“知識元”概念構(gòu)建近代報(bào)紙資源主題-知識元-資源指引圖(圖2),即在主題和資源層加入知識元及其關(guān)聯(lián)關(guān)系(圖3),不同主題類型均涉及五大知識元相關(guān)內(nèi)容,且知識元實(shí)體之間存在關(guān)聯(lián),如人物與機(jī)構(gòu)、時(shí)間、空間、職官等。在資源指引層,主要揭示知識元實(shí)體的屬性特征,如人物知識元具備姓名、字、性別、出身、突出業(yè)績、任職方式和個(gè)人圖片等屬性特征,通過將知識元引入主題圖構(gòu)建過程中,旨在揭示不同主題類型下近代報(bào)紙資源內(nèi)容多維語義特征。
圖2 近代報(bào)紙資源主題-知識元-資源指引圖Fig.2 Topic-knoweldge element-resource occurrence map of modern newspaper resources
圖3 近代報(bào)紙知識元層關(guān)聯(lián)關(guān)系Fig.3 Relation associaitons of modern newspapers at the level of knowledge elements
表2 近代報(bào)紙資源形式特征Table 2 Characteristics of the forms of modern newspaper resources
本文抽取報(bào)紙資源主題類型,構(gòu)建主題關(guān)系及確定主題資源指引,形成完整系統(tǒng)的近代報(bào)紙資源主題圖。具體構(gòu)建流程如圖4 所示。
圖4 近代報(bào)紙資源主題圖構(gòu)建流程Fig.4 Process of topic map construction of modern newspaper resources
4.3.1 確定主題類型
近代報(bào)紙資源內(nèi)容包羅萬象,且具有濃厚的時(shí)代印記和地域特色,其主題類型也呈現(xiàn)多樣化特征。本文參照表2 和圖2 內(nèi)容來定義近代報(bào)紙資源主題類型,并從近代報(bào)紙資源形式特征和內(nèi)容特征兩大方面描述其內(nèi)容(表3)。其中形式特征包含:報(bào)紙所屬類別、語種、出版周期、國別、版次、保存格式和欄目,說明字段是對主題類型值做進(jìn)一步地解釋。內(nèi)容特征方面將近代報(bào)紙內(nèi)容主題劃分為政治、經(jīng)濟(jì)、軍事、社會(huì)活動(dòng)、詩詞歌賦、自然災(zāi)害六大類,并抽取人物、機(jī)構(gòu)、時(shí)間、空間、職官五大知識元,梳理其關(guān)系及屬性,以揭示近代報(bào)紙內(nèi)容特征。
表3 近代報(bào)紙資源主題類型定義Table 3 Definitions of types of topics of modern newspaper resources
4.3.2 確定關(guān)聯(lián)類別
近代報(bào)紙資源主題類型確定后,需要考慮主題之間的關(guān)聯(lián)關(guān)系,將分散獨(dú)立的主題聚合關(guān)聯(lián),建立近代報(bào)紙資源知識網(wǎng)絡(luò),實(shí)現(xiàn)近代報(bào)紙知識互聯(lián)。關(guān)聯(lián)類別同樣從報(bào)紙形式和內(nèi)容特征兩方面來描述(表4),其中形式特征包括報(bào)紙與歸屬類別、國別、語種、出版周期、版次、保存格式和欄目關(guān)聯(lián)。內(nèi)容特征中,主要指人物、機(jī)構(gòu)、時(shí)間、空間、職官知識元實(shí)體之間的關(guān)聯(lián)關(guān)系(表4)。
表4 近代報(bào)紙資源主題之間關(guān)聯(lián)關(guān)系說明Table 4 Association between topics of modern newspaper resources
4.3.3 確定資源指引
主題圖通過資源指引功能鏈接到特定主題的相關(guān)信息,方便用戶查找瀏覽。資源指引主要描述了資源所具有的屬性特性,類型往往以文字描述、圖像、日期、視頻和鏈接等為主。本文從近代報(bào)紙資源形式和內(nèi)容特征兩方面總結(jié)歸納了多種近代報(bào)紙資源指引類型(表5)。
表5 報(bào)紙資源指引描述Table 5 Occurrence type description of newspaper resources
本小節(jié)在3.3 基礎(chǔ)上采用Ontopia 工具中Ontopoly本體編輯器,錄入近代報(bào)紙資源主題類型(Topic Types)、關(guān)聯(lián)關(guān)系(Association Types)、資源指引(Occurence Types),生成主題圖元素構(gòu)造圖(圖5)。利用Instances 實(shí)例編輯器將近代報(bào)紙實(shí)例數(shù)據(jù)依次添加到元素構(gòu)造圖中,生成相應(yīng)的主題圖。
圖5 主題圖編輯器構(gòu)造主題圖元素Fig.5 Elements of a topic map constructed by an editor tool
采用Ontopia 中Vizigator 可視化工具,生成報(bào)紙資源主題連接圖,非線性地呈現(xiàn)網(wǎng)絡(luò)的主題及其關(guān)系,讓用戶自由探索主題空間。Vizigator 提供局部控制參數(shù)供用戶選擇,設(shè)定主題圖中圍繞焦點(diǎn)主題展示的關(guān)聯(lián)維度,即主題之間的層級關(guān)系深度,如以近代報(bào)紙為核心焦點(diǎn),報(bào)紙到政治主題屬于1 級關(guān)聯(lián),近代報(bào)紙到政治主題-機(jī)構(gòu)知識元屬于2 級關(guān)聯(lián)。在主題圖中,用戶也可以實(shí)現(xiàn)主題詞檢索,搜索結(jié)果會(huì)以核心主題為軸心,輻射直接關(guān)聯(lián)的主題和關(guān)系,從而將圍繞某一主題的所有關(guān)聯(lián)主題聚合,便于用戶精準(zhǔn)定位資源信息。例如,以近代報(bào)紙為核心焦點(diǎn)主題,可視化主題圖(圖6),周圍輻射與近代報(bào)紙1 級關(guān)聯(lián)的主題、關(guān)系及資源指引,形成一個(gè)網(wǎng)狀結(jié)構(gòu)的近代報(bào)紙資源主題圖,直觀再現(xiàn)了近代報(bào)紙資源形式和內(nèi)容特征之間的關(guān)聯(lián)性,使報(bào)紙資源知識內(nèi)容得以優(yōu)化組織,實(shí)現(xiàn)資源的鏈?zhǔn)酵卣购屯瑢傩灾R的聚合。主題標(biāo)簽上方數(shù)值表示未顯示的與該主題1 級關(guān)聯(lián)的主題數(shù)量,連線表示主題之間的關(guān)系,鼠標(biāo)放置連線處會(huì)顯示關(guān)系類別,且同一主題類型顏色一致,方便用戶區(qū)分識別。
圖6 以近代報(bào)紙為核心焦點(diǎn)主題的主題圖Fig.6 A topic map with modern newspapers as the core
《盛京時(shí)報(bào)》 是日本人中島真雄于1906 年10 月18日在沈陽創(chuàng)辦的中文報(bào)紙,于1944 年???。該刊以國內(nèi)時(shí)事和評論為主,主要匯聚了東北地區(qū)金融、商貿(mào)、交通、教育、文學(xué)等許多方面的信息,是研究東北軍民抗日史、北洋軍閥史以及中國近代史彌足珍貴的史料。本章節(jié)以 《盛京時(shí)報(bào)》 為例,構(gòu)建主題圖模型,旨在實(shí)現(xiàn)《盛京時(shí)報(bào)》 知識內(nèi)容的組織和聚合。
5.2.1 《盛京時(shí)報(bào)》 主題圖元素生成
采用Ontopoly 編輯工具生成 《盛京時(shí)報(bào)》 主題圖元素(圖7)。圖7 揭示了 《盛京時(shí)報(bào)》 報(bào)名、目錄信息、關(guān)鍵詞、出版者、出版地、出版日期等基礎(chǔ)性信息,以及六大類主題類型,即政治、經(jīng)濟(jì)、軍事、社會(huì)活動(dòng)、詩詞歌賦及自然災(zāi)害,此外也列舉了報(bào)紙相關(guān)形式特征主題類型,如報(bào)紙欄目、所屬國別、出版周期、版次、及語種等。
圖7 《盛京時(shí)報(bào)》 主題圖元素Fig.7 Elements of a topic map of Shengjing Times
5.2.2 《盛京時(shí)報(bào)》 主題圖繪制
采用Vizigator 繪制以 《盛京時(shí)報(bào)》 為起始點(diǎn)的主題圖(圖8),檢索以 《盛京時(shí)報(bào)》 為核心軸點(diǎn)的主題圖,中心黃色高亮部分表示起始節(jié)點(diǎn) 《盛京時(shí)報(bào)》,同一顏色表示同一類別,點(diǎn)擊 《盛京時(shí)報(bào)》 所屬“近代報(bào)紙”主題類型后,近代報(bào)紙相關(guān)主題類型、主題關(guān)系顯示。圖8 展現(xiàn)了報(bào)紙實(shí)例化后 《盛京時(shí)報(bào)》 主題知識的聚合和延展,清晰直觀地凸顯出主題圖對于信息組織的優(yōu)勢。
圖8 《盛京時(shí)報(bào)》 主題圖Fig.8 Topic map of Shengjing Time
如果將圖8 《盛京時(shí)報(bào)》 為核心節(jié)點(diǎn)的其他信息與近代報(bào)紙對應(yīng)屬性整合,可以得到圖9。同一顏色表示同一類別,如 《盛京時(shí)報(bào)》 報(bào)紙欄目、報(bào)紙所屬類別、報(bào)紙版次、報(bào)紙歸屬國別、報(bào)紙出版周期、報(bào)紙保存格式、報(bào)紙語種所有屬性信息均以“聚合”方式展現(xiàn),方便查看。與圖8 相比,圖9 對信息進(jìn)行深層整合處理,同類別主題聚合在一起,雖然圖形看起來較為復(fù)雜,但在操作界面中用戶可以自由選擇目標(biāo)主題,點(diǎn)擊標(biāo)簽實(shí)現(xiàn)收放功能,獲取目標(biāo)信息。該主題圖揭示了 《盛京時(shí)報(bào)》 形式和內(nèi)容特征,將相似主題內(nèi)容聚合成簇,實(shí)現(xiàn)資源的鏈?zhǔn)酵卣梗瑵M足用戶瀏覽、查看、檢索需求,推動(dòng) 《盛京時(shí)報(bào)》 的組織利用與共享。圖10 是將《盛京時(shí)報(bào)》 中“政治主題”類型單獨(dú)檢索出,可以看出圍繞五大知識元及其關(guān)聯(lián)關(guān)系展開,如實(shí)例“開放北滿商埠電文”涉及機(jī)構(gòu)“東三省電報(bào)總局”、人物“孟憲彝”、職官“太守”、時(shí)間“光緒三十二年十一月初三日”,地點(diǎn)是“長春”。
圖9 《盛京時(shí)報(bào)》 擴(kuò)展主題圖Fig.9 Expanded topics'map of Shengjing Times
圖10 《盛京時(shí)報(bào)》“政治主題”為核心的主題圖Fig.10 A topic map of political topics of Shengjing Times
5.2.3 《盛京時(shí)報(bào)》 主題圖輸出
本文通過添加 《盛京時(shí)報(bào)》 實(shí)例,將構(gòu)建好的主題地圖以XTM2.0 格式輸出,輸出部分代碼如圖11所示。Ontopia 支持LTM、XTM1.0、XTM2.0、XTM2.1或RDF 格式輸出主題地圖。LTM(Linear Topic Map Notation)是由Ontopia 公司開發(fā)的一種主題地圖語法,也被其他主題地圖程序使用。XTM(XML Topic Maps)語法是主題地圖的ISO 標(biāo)準(zhǔn),RDF 是一種用于表示萬維網(wǎng)中有關(guān)資源信息的語言。主題圖以特定格式如XTM、RDF 輸出后,可以在互聯(lián)網(wǎng)上實(shí)現(xiàn)資源共享和互操作,在知識管理、知識組織與信息檢索、知識導(dǎo)航領(lǐng)域進(jìn)行應(yīng)用。主題圖以結(jié)構(gòu)化方式呈現(xiàn)知識內(nèi)容,為用戶提供一個(gè)標(biāo)準(zhǔn)的技術(shù)方法來分享知識,使得報(bào)紙資源的獲取、加工和存儲(chǔ)更加便捷高效。此外,主題圖可以揭示知識本身及知識資源之間的關(guān)聯(lián)性,為報(bào)紙資源的鏈?zhǔn)酵卣沟於ɑA(chǔ)。
圖11 主題圖XTM2.0 格式(節(jié)選)Fig.11 XTM2.0 format of a topic map(Partially)
中國近代報(bào)紙記載了豐富的歷史文化內(nèi)容,是中國歷史的生動(dòng)縮影,其新聞價(jià)值和史料價(jià)值日益凸顯。本文基于主題圖方法,通過調(diào)研國內(nèi)近代報(bào)紙資源庫網(wǎng)站,對近代報(bào)紙資源主題類型、主題之間關(guān)系及資源指引進(jìn)行設(shè)定,從近代報(bào)紙形式特征和內(nèi)容特征兩方面構(gòu)建主題模型,采用Ontopia 工具建立近代報(bào)紙資源主題圖,并以 《盛京時(shí)報(bào)》 作為實(shí)例,展示具體實(shí)例下主題圖生成、可視化及知識組織過程,為近代報(bào)紙資源知識導(dǎo)航、檢索及知識庫構(gòu)建提供參考路徑。
主題圖技術(shù)作為一種知識組織工具,可以靈活定義主題類型及概念之間關(guān)系,并以可視化方式展示知識信息,為用戶提供查詢和檢索功能。因此,本文通過在主題層和資源層之間融入知識元概念,構(gòu)建近代報(bào)紙資源主題圖以實(shí)現(xiàn)近代報(bào)紙的知識組織和聚合,是對近代報(bào)紙資源組織方式的一種嘗試和探索。相較于本體技術(shù),主題圖在主題類型定義上較為自由開放,不受標(biāo)準(zhǔn)約束,更具有伸展性;在主題關(guān)系定義上,相比本體和語義網(wǎng)絡(luò)中抽象語義關(guān)系,主題關(guān)系表達(dá)更為具體實(shí)用,契合于用戶需求;在資源指引方面,可以鏈?zhǔn)酵卣怪黝}信息,設(shè)定主題屬性和資源類型,豐富主題網(wǎng)絡(luò)圖;在知識可視化方面,主題圖能直觀展示近代報(bào)紙資源知識結(jié)構(gòu),支持復(fù)雜的主題詞語義檢索,提供標(biāo)簽收放功能,提高用戶的檢索效率,對近代報(bào)紙資源組織和導(dǎo)航具有重要的實(shí)際應(yīng)用價(jià)值。此外,本文由于篇幅所限,僅以 《盛京時(shí)報(bào)》 作為實(shí)例數(shù)據(jù)進(jìn)行演示,在實(shí)際工作場景中,主題圖遠(yuǎn)不止一個(gè),根據(jù)實(shí)踐需要實(shí)現(xiàn)多個(gè)主題圖合并也是未來工作的趨勢和方向。
農(nóng)業(yè)圖書情報(bào)學(xué)刊2022年4期