冉從敬,郭曉婉
面向數(shù)字動態(tài)出版的主題詞系統(tǒng)實現(xiàn)*
冉從敬,郭曉婉
隨著出版產(chǎn)業(yè)與數(shù)字技術(shù)、信息網(wǎng)絡技術(shù)加速融合,傳統(tǒng)出版與數(shù)字出版并重發(fā)展格局逐步形成,解決數(shù)字出版知識庫建設(shè)不規(guī)范和數(shù)據(jù)內(nèi)容片段及其相互關(guān)系描述不完整等問題成為數(shù)字出版的重要課題。文章聚焦于信息技術(shù)領(lǐng)域,編制《信息技術(shù)領(lǐng)域分類主題詞表》,開發(fā)主題詞分類處理系統(tǒng)軟件,介紹主題詞分類處理系統(tǒng)從設(shè)計到實現(xiàn)的全部過程。
信息技術(shù)領(lǐng)域 數(shù)字動態(tài)出版 主題分類詞表
1.1 研究背景
隨著互聯(lián)網(wǎng)的發(fā)展,目前理念與技術(shù)的融合使數(shù)字出版愈加重要[1]。圖書、雜志、報紙、音像等傳統(tǒng)出版產(chǎn)品一般以單一媒體、單一渠道進行分銷和傳播[2],數(shù)字革命則改變了傳統(tǒng)出版的供應鏈[3]。在此背景下,國內(nèi)外涌現(xiàn)出不少數(shù)字出版服務模式,如以電子書為主要出版形式的單品種服務模式、按需印刷服務模式、以數(shù)據(jù)庫出版為主的知識服務模式和在線教育服務模式。這些數(shù)字出版服務模式的主要特點包括:出版正在轉(zhuǎn)型為基于細顆粒度的知識挖掘和信息服務;數(shù)字出版物傳播渠道和終端閱讀呈現(xiàn)多樣性;用戶的個性化和可定制化需求越來越強烈;數(shù)字出版物的跨媒體應用越來越廣泛,數(shù)字出版消除了紙質(zhì)出版物生產(chǎn)和銷售中的金融壁壘[4]。這些特征要求出版單位能夠利用知識主題或本體對數(shù)字內(nèi)容進行結(jié)構(gòu)化的組織和管理,實現(xiàn)多種媒體、多種形式、多種渠道的數(shù)字出版物同步生成,進一步根據(jù)用戶的不同需求快速形成不同形式和內(nèi)容的產(chǎn)品及服務。
面對這種新型數(shù)字出版模式應用需求,出版單位亟待改造自身的技術(shù)裝備,構(gòu)建滿足數(shù)字出版需求的內(nèi)容生產(chǎn)系統(tǒng),建立可重用的結(jié)構(gòu)化內(nèi)容資源庫,并以此為基礎(chǔ)進行數(shù)字內(nèi)容的多渠道發(fā)布和內(nèi)容的重組利用,最終形成跨媒體、專業(yè)性、分層次的數(shù)字出版發(fā)展格局,為出版單位的內(nèi)容產(chǎn)品樹立競爭優(yōu)勢。然而,我國傳統(tǒng)出版單位在發(fā)展道路上還存在種種問題,主要包括數(shù)字出版行業(yè)標準不規(guī)范、專業(yè)知識分類體系不完善、不能滿足日益增長的跨媒體多終端閱讀應用需求、大量非結(jié)構(gòu)化文檔資源處理成本高、傳統(tǒng)出版流程數(shù)字化改造過程復雜、數(shù)字出版的商業(yè)模式難以確定[5]。本研究聚焦于信息技術(shù)領(lǐng)域,根據(jù)中文主題詞表、英漢信息詞典、簡繁對照詞典、簡繁對照詞表,抽取對照詞表,抽取對應的中文、英文、繁體和拼音的主題詞,輸出包含以上信息的主題詞表,制定面向動態(tài)數(shù)字出版的主題詞分類處理系統(tǒng)。在信息時代,主題詞表依然是重要的檢索工具,《漢語主題詞表》《中國分類主題詞表》在中文檢索語言的標準化過程中發(fā)揮了關(guān)鍵作用,促進了現(xiàn)代知識組織和信息處理的發(fā)展[6]。本研究在借鑒眾多相關(guān)詞表的基礎(chǔ)上編制《信息技術(shù)領(lǐng)域分類主題詞表》(以下簡稱《分類主題詞表》)。
1.2 研究目標、成果和技術(shù)框架
本研究的主要目標是建立動態(tài)數(shù)字出版系統(tǒng),實現(xiàn)內(nèi)容的“一次制作、多渠道發(fā)布、跨媒體出版”,面向廣大用戶提供個性化的按需出版服務。研究成果是10萬個主題詞已經(jīng)完成提取,初步建立了中文、繁體、拼音、英文的對應關(guān)系,并開發(fā)軟件系統(tǒng)對中英文繁體拼音的對應關(guān)系進行自動化處理;并將研究領(lǐng)域限定在科技出版中最活躍的信息技術(shù)出版物領(lǐng)域,調(diào)研和采集已有的知識組織體系及其相關(guān)元數(shù)據(jù)集,從已有的數(shù)據(jù)庫中抽取的關(guān)鍵詞和用戶檢索詞等構(gòu)成來源素材;利用設(shè)計的數(shù)字內(nèi)容類型規(guī)范(詞形規(guī)范、詞義規(guī)范)等遴選規(guī)范形成概念;在借鑒綜合性詞表和專業(yè)詞表概念語義關(guān)系的基礎(chǔ)上,借助詞共現(xiàn),建立概念間相關(guān)屬性關(guān)系;建立涵蓋全學科的范疇體系,并對概念進行相應范疇體系歸類[7],最終編制《分類主題詞表》。主題詞表作為信息組織工具,能有效地組織和使用數(shù)字文件資源,因此其編制仍然是一項重要工作[8]。本研究分類詞表的構(gòu)建框架見圖1。
圖1 面向信息技術(shù)領(lǐng)域主題詞表的技術(shù)流程圖
2.1《分類主題詞表》定位及范圍
《分類主題詞表》是電子工業(yè)出版社內(nèi)部使用的、面向信息技術(shù)領(lǐng)域的專業(yè)主題詞表,帶有主題詞范疇索引,該詞表可以起到規(guī)范標引用詞的作用,給出版社所有的內(nèi)容編輯人員提供了一套統(tǒng)一的標引參考標準,保證標引用詞的規(guī)范性、一致性和科學性,可以有效防止自由標引帶來的凌亂化,有利于文獻聚類和數(shù)據(jù)挖掘,也為未來實現(xiàn)自動標引奠定了基礎(chǔ)?!斗诸愔黝}詞表》不僅適用于文本類信息分類標引標準,還適用于數(shù)據(jù)、圖片、聲視頻信息的分類和標引;不僅適用于傳統(tǒng)出版物的分類標引,還適用于電子書、數(shù)據(jù)庫等各種新型出版物和數(shù)字內(nèi)容資源的分類標引,是出版社所有內(nèi)容資源的基礎(chǔ)性加工參考標準。
2.2 《分類主題詞表》參考文件
《分類主題詞表》在編制過程中綜合多方力量,參考眾多相關(guān)文件而形成,這些文件主要包括信息技術(shù)中文編碼字符集、信息交換用漢字編碼字符集、信息分類編碼的基本原則和方法、信息與文獻術(shù)語、語種名稱代碼、中華人民共和國法定計量單位、中國分類主題詞表、中國圖書館分類法、計算機科學技術(shù)名詞、計算機科學技術(shù)名詞、信息技術(shù)術(shù)語詞典、最新電子名詞辭典等多種分類工具和信息技術(shù)領(lǐng)域術(shù)語表。
2.3 《分類主題詞表》介紹
2.3.1 概況
《分類主題詞表》是帶有范疇索引的主題詞表。所謂范疇索引,是按照主題詞的學科含義聚類并建立索引,以便于族性檢索。分類主題詞表靈活性高,維護復雜度低,還能在一定程度上說明不同主題詞在概念和語義上的關(guān)聯(lián)。
(1)編制原則。電子工業(yè)出版社出版的《信息技術(shù)領(lǐng)域分類主題詞表》是在參考《中國分類主題詞表》《中國圖書館分類法》《中國科學院圖書館圖書分類法》《中國人民大學圖書館圖書分類法》的基礎(chǔ)上,充分考慮電子工業(yè)出版社的圖書出版情況而編制?!斗诸愔黝}詞表》可以實現(xiàn)分類和主題一體化標引,為文獻和數(shù)字內(nèi)容加工工作創(chuàng)造了良好的條件。
(2)分類方法與類目體系編制原則?!斗诸愔黝}詞表》根據(jù)實際需要分為13個一級類,其中前7個一級類目主要針對內(nèi)容,稱為內(nèi)容類目;后6個一級類目主要針對非內(nèi)容要素,稱為非內(nèi)容類目。內(nèi)容類目分別是計算機技術(shù)、自動化技術(shù)、電子工程、電信工程、電工技術(shù)、機械和儀表、交通運輸;非內(nèi)容類目包括出版物、機構(gòu)、物理媒介、人物與角色、讀者和計量單位。一級類目下面可細分成二級類目、三級類目和四級類目。類目具體的層級根據(jù)實際需要進行設(shè)置,主題詞一般位于最細一級類目之下。
(3)編碼方法。詞表中的每一級類目以及主題詞類均由類目編碼和類目詞組成。一級類目采用數(shù)字字符順序和字母順序編碼,如01、02,A、B。二、三、四級類目分別采用兩位數(shù)字編碼,均采用順序編號法。二、三、四級類目的數(shù)字編碼均采用順序編號法。類目編碼的長度可以體現(xiàn)出類目的等級和次序。內(nèi)容類目的一級類目編碼分別用01、02、03、04、05、06、07表示。非內(nèi)容類目的一級類目編碼分別用類目詞中具有代表意義的漢字的拼音首字母C(出)、D(度)、J(機)、M(媒)、R(人)表示,并按字母順序排序。
2.3.2 《分類主題詞表》維護方法與流程
近年來,隨著信息科學技術(shù)的快速發(fā)展,新型信息技術(shù)及理論不斷涌現(xiàn),新的主題和概念隨之產(chǎn)生。為能夠及時對這些新的內(nèi)容進行主題標引,就必須對《分類主題詞表》進行周期性的更新和維護,以保證詞表能夠涵蓋信息領(lǐng)域最新的概念和主題?!斗诸愔黝}詞表》的維護包括類目下主題詞的增加、修改和刪除,類目的增加、修改和刪除。
在修訂主題詞時,必須依據(jù)科學性與使用性相結(jié)合的原則選詞,注意詞的學名與俗名的關(guān)系處理和詞形的選擇。在新增主題詞時,選定的主題詞要符合漢語的結(jié)構(gòu)特點以及各學科的通用性,對外來語詞要注意選用較通用的譯名。選定的主題詞必須一詞一義,不選用概念容易混淆、詞義不清的語詞作為正式主題詞。新選定的主題詞盡量同國內(nèi)外主題詞表兼容。主題詞的增加應盡量放置于專指性強的類目下,若無,則考慮“其他”類目。
在修改或刪除主題詞時,主要考慮該詞內(nèi)涵具有時代局限性,詞義不清,則可以刪除該詞。該詞不規(guī)范、不通用,已被另一詞性代替,則選擇另一詞為正式主題詞。該詞有錯別字或詞義錯誤,則修改更正該詞,若不能更正,則刪除。增加、修改和刪除主題詞都可以在《分類主題詞表》中直接進行,但需要追主題詞增加、修改和刪除后必須通知所有信息編輯人員開始使用、修改使用或停止使用這些主題詞。
《分類主題詞表》的分類體系實質(zhì)上是具有分類意義的主題詞的范疇索引。隨著《分類主題詞表》中的主題詞的增加,新的主題詞可能會重新聚類形成新的類目,這時就要求增加、刪除和修改類目。
2.4 《分類主題詞表》的功能與應用
2.4.1 規(guī)范出版物或內(nèi)容單元的標引用詞
《分類主題詞表》的各級類目和主題詞可以直接用于各種出版物、數(shù)字資源及內(nèi)容單元的標引。對出版物或內(nèi)容標引單元的標引分為分類標引和主題標引兩種。分類標引以出版物或內(nèi)容單元的學科或?qū)I(yè)屬性為主要依據(jù),進行類目劃分。在進行分類標引時,必須對出版物進行仔細的主題分析,而不能單憑題名進行分類。必須符合專指性和實用性要求,將其分入適當?shù)念惸?,而不能分入范圍大于或小于實際內(nèi)容的類目。主題標引是針對出版物所論及或涉及的主題進行標引,而不是對出版物內(nèi)容的學科性質(zhì)進行標引。進行主題標引時,必須選用詞表中最切合主題的詞匯標引,一般不選用其上位詞或下位詞標引。若無專指詞,則選用一個最直接的上位詞或最近義的、最相關(guān)的主題詞。該分類主題詞表可以實現(xiàn)分類與主題標引的一體化。
2.4.2 提高檢索性能
通過掌握《分類主題詞表》,出版物編輯可以使用規(guī)范的主題詞作為數(shù)字內(nèi)容的標引用詞,提高主題標引的質(zhì)量,便于實現(xiàn)文章自動關(guān)聯(lián)和內(nèi)容挖掘?!斗诸愔黝}詞表》是簡單的本體,借助層級語義關(guān)系,可在一定程度上實現(xiàn)語義檢索,有利于提高檢準率和檢全率。
2.4.3 過濾非法標引詞
將《分類主題詞表》與標引系統(tǒng)關(guān)聯(lián),可實現(xiàn)出版物內(nèi)容標引用詞的校驗和過濾功能。如果出現(xiàn)不規(guī)范的標引詞進入標引系統(tǒng),機器可自動報警,并將非法標引詞過濾出來。
2.4.4 《分類主題詞表》的應用
《分類主題詞表》與《科技類圖書結(jié)構(gòu)化處理規(guī)范》都是電子工業(yè)出版內(nèi)部的基礎(chǔ)性標準規(guī)范,既可以用于圖書的分類主題標引,還可用于可重用內(nèi)容單元的分類主題標引。
在圖書結(jié)構(gòu)化處理過程中,對于整體圖書和所有的可重用單元,必須給與詳細的元數(shù)據(jù)標注,這些元數(shù)據(jù)信息借助兩種形式存在:一是主題信息,編輯加工人員需要選擇主題詞,對圖書或內(nèi)容單元涉及的主題進行揭示;二是元素屬性,比如對所有圖書和可重用單元都可以增加“讀者對象”這個屬性,其選值包括“初學者”“熟練者”“精通者”等三種。在編輯加工人員對圖書內(nèi)容進行結(jié)構(gòu)化處理的時候,可以從該《分類主題詞表》中選擇規(guī)范的主題詞作為元素的屬性值進行設(shè)置。
《分類主題詞表》編制完成后,最終開發(fā)出面向動態(tài)數(shù)字出版的主題詞分類處理系統(tǒng),該系統(tǒng)是經(jīng)過系統(tǒng)架構(gòu)設(shè)計、系統(tǒng)功能設(shè)計、系統(tǒng)界面設(shè)計這一完整的設(shè)計流程構(gòu)成的,旨在實現(xiàn)利用主題詞支持數(shù)字動態(tài)出版的“一次輸入,多次使用”。
3.1 系統(tǒng)架構(gòu)設(shè)計
系統(tǒng)架構(gòu)設(shè)計是指該主題詞分類處理系統(tǒng)的總體結(jié)構(gòu),該系統(tǒng)能夠?qū)崿F(xiàn)數(shù)據(jù)的輸入、處理、查詢、展示、輸出整個完整的流程,系統(tǒng)的整體架構(gòu)包括數(shù)據(jù)入庫、數(shù)據(jù)預處理、主題詞分類、主題詞查看、主題詞編輯、主題詞輸出。
實現(xiàn)這一系統(tǒng)架構(gòu)包括三方面的準備:一是搭建一個主題詞數(shù)據(jù)庫,采用數(shù)據(jù)采集分析與理論研究相結(jié)合的方式,搭建一個集中、統(tǒng)一管理的主題詞數(shù)據(jù)庫,建設(shè)面向主題詞分類的原始數(shù)據(jù)表、工作表等,統(tǒng)一主題詞數(shù)據(jù)管理,為后續(xù)的數(shù)據(jù)應用和數(shù)據(jù)共享提供有效支撐;二是實現(xiàn)主題詞一體化處理流程,各模塊功能相互配合,共同為主題詞分類與展示提供技術(shù)支撐,完成業(yè)務流的配合實現(xiàn);三是建設(shè)面向主題詞分類的業(yè)務應用,主題詞分類包括自動分類、半自動分類和手動分類。
3.2 系統(tǒng)功能設(shè)計
主題詞分類處理系統(tǒng)功能模塊包括數(shù)據(jù)入庫、預處理、處理、查看、編輯、輸出等,每個功能模塊根據(jù)業(yè)務不同又細分子業(yè)務功能,以下就各模塊的功能性需求進行介紹。
數(shù)據(jù)入庫的基本功能包括分類編碼入庫、主題詞入庫、參考詞入庫、英漢詞典入庫、簡繁詞典入庫。分類編碼入庫是從參考詞中抽取分類編碼的目錄,包括簡體名與編碼;主題詞入庫是把未分類的主題詞加入到工作表中,以便后續(xù)的分類處理;參考詞入庫是將參考主題詞入庫,包括編碼與簡體名,該表是自動分類表的參考基礎(chǔ);英漢詞典入庫是將英文名與其對應的簡體名輸入到數(shù)據(jù)庫中;簡繁詞典入庫則是將簡體名與其對應的繁體名輸入至數(shù)據(jù)庫中;簡繁英詞典入庫先整理信息技術(shù)領(lǐng)域分類主題詞表(簡體繁體對應表),將其簡體、繁體、英文一一對應并輸入數(shù)據(jù)庫中。
預處理包含的功能依次為中文轉(zhuǎn)換拼音、復制英語名、查找英漢詞典、查找簡繁詞典、簡體英文提取、繁體字首字處理、查找參考英文、繁體數(shù)據(jù)清洗、數(shù)據(jù)來源標記、繁體手動糾錯、新詞重新過濾、復制簡繁英詞表和繁體字去重。
處理是利用開發(fā)出來的程序調(diào)用未處理的詞,根據(jù)已分類詞,按照一定的算法處理,人工干預確定未分類的分類編碼。處理包括自動分類、半自動分類和手動分類三個模塊。
自動分類是將工作表里的記錄與參考表里的記錄匹配,獲取參考表的分類編碼,賦值給工作表里的分類編碼字段。半自動分類主要包括四個方面的內(nèi)容,一是查詢待處理詞;二是設(shè)置關(guān)鍵詞,系統(tǒng)根據(jù)關(guān)鍵詞查找已分類的詞,用以作為未處理分類的依據(jù);三是根據(jù)關(guān)鍵詞,系統(tǒng)查找未分類詞,供用戶選擇,以便同待處理詞合并一起分類;四是用戶根據(jù)參考詞,選擇并設(shè)置待處理詞的編碼,同時選擇其他未分類詞。手動分類是通過手動輸入的方式給未分類詞進行類別劃分,并提交到數(shù)據(jù)庫。
查看菜單主要提供查詢工作表、參考表、分類表的查詢功能,包括查看未分類詞、已分類詞和高級查詢。
編輯功能可以對工作表進行清空、修改、刪除和添加等操作。清空分類編碼,操作后不可恢復,所以在使用該功能的時候要謹慎。修改可以按照“簡體名”“繁體名”“漢語名”“英文名”“編碼”“標記”等進行條件選擇,然后進行“范圍限定”,并進行相應字段的修改。刪除則分為批量刪除和選擇刪除兩種。
輸出主要包括輸出參考詞表、未分類詞表、已分類詞表和分類詞文檔,以Excel表格的格式輸出。
3.3 系統(tǒng)界面設(shè)計
登錄界面和功能界面,見圖2、圖3和圖4。
圖2 登錄界面
圖3 功能界面1
圖4 功能界面2
3.4 數(shù)據(jù)結(jié)構(gòu)設(shè)計
本研究主要對數(shù)據(jù)結(jié)構(gòu)設(shè)計的原則性內(nèi)容及設(shè)計思路、建庫內(nèi)容與流程進行介紹。根據(jù)詞庫涉及內(nèi)容,建立相應的數(shù)據(jù)庫,包含CodeExcel表、EnglishChinese表、FanDic表、FanDic-Sec表、FanDicThird表、ReferExcel表、Work-Excel表、WorkExcelBefore表、WorkExcel-Refer表。以CodeExcel表為例,具體表結(jié)構(gòu)見表1。建立以上表結(jié)構(gòu)后,將數(shù)據(jù)導入,并存在統(tǒng)一的*mdb文件中,以供系統(tǒng)讀取、寫入使用。
表1 CodeExcel表
本研究聚焦信息技術(shù)領(lǐng)域,先通過整合多方資料,制定《分類主題詞表》,包含10萬個從現(xiàn)存標準中提取的信息技術(shù)領(lǐng)域的詞語,既有中文、英文、拼音,還有繁體。在詞表基礎(chǔ)上開發(fā)出主題詞分類處理系統(tǒng)軟件,該軟件能夠?qū)崿F(xiàn)數(shù)據(jù)的輸入、處理、查詢、展示、輸出整個完整的流程和相應的對應關(guān)系,容許批量主題詞的導入和規(guī)定格式主題詞的導出。本研究理論與實際相結(jié)合,開發(fā)出實用軟件,這個過程體現(xiàn)出來的特點和意義包括:形成一套完整的標識體系;兼容分類法和主題法等重要的信息組織方法;分類體系兼顧分面分類法和等級分類法,將二者融為一體;完成中文簡體與繁體主題詞在信息領(lǐng)域的對照;實現(xiàn)中英文主題詞在信息領(lǐng)域的對照;完成主題詞全周期軟件開發(fā);成功實現(xiàn)計算機輔助分類和人工分類相結(jié)合,利用主題詞支持了數(shù)字動態(tài)出版的“一次輸入,多次使用”。
[1]姚柏年.數(shù)字出版商業(yè)模式研究[D].上海:華東師范大學,2012.
[2]葛存山,張志林,黃孝章.數(shù)字出版運作模式研究[J].科技與出版,2008(9):51-55.
[3]Ho H Y,Wang LW,Cheng H J.Authors,Publishers,and Readers in Publishing Supply Chain:The Contingency Model of Digital Contents Production,Distribution,and Consumption[J].SystemsEngineering Procedia,2011(2):398-405.
[4]Ben Hunter.The Effect ofDigitalpublishingon Technical service in University libraries[J].Journal of Academic Librarianship,2013,39(1):84-93.
[5]Hong Cheng W,Li Ren S,Rousseau R.Digital publishing and China’s core scientific journals:a position paper[J].Scientometrics,2014,98(1):11-22.
[6]ZhangW.ThedevelopmentandstructureoftheChinese Thesaurusforsubject indexing[J].InternationalInformation&LibraryReview,2004,36(1):47-54.
[7]曾建勛,常春,吳雯娜,等.網(wǎng)絡環(huán)境下新型《漢語主題詞表》的構(gòu)建[C]//2011年全國知識組織與知識鏈接學術(shù)交流會.2011:43-49.
[8]Zeng W.Exploration and study of multilingual thesauri automation construction for digital libraries in China[J]. ElectronicLibrary,1983,30(2):233-247.
(責任編輯:何燕)
Implementation of Subject Headings System Based on Digital Dynamic Publishing
RAN Cong-jing,GUO Xiao-wan
As the integration with digital technology and information network technology speeding up,traditional publishing and digital publishing develop simultaneously.It is important for digital publishing to solve problems such as non-standard construction of knowledge base,fragmented data content and incomplete description of relationship among data.This paper focuses on the compilation of Classified Information Technology Thesaurus and the development of classification processing system of subject headings;then gives an introduction of the entire process of designing and implementing the system.
information technology field;digital dynamic publishing;subject headings
格式 冉從敬,郭曉婉.面向數(shù)字動態(tài)出版的主題詞系統(tǒng)實現(xiàn)[J].圖書館論壇,2016(9):79-84.
分類處理系統(tǒng)軟件設(shè)計
冉從敬,武漢大學信息資源研究中心、武漢大學信息管理學院教授;郭曉婉,武漢大學信息管理學院碩士研究生。
2016-05-05
*本文系國家科技支撐課題“面向科技教育領(lǐng)域的動態(tài)數(shù)字出版標準規(guī)范研究”(項目編號:2012BAH88F00)和博士后特別資助課題“基于信息可視化技術(shù)的知識產(chǎn)權(quán)學術(shù)演化規(guī)律研究”(項目編號:2014T70199)研究成果之一