□王文清 劉春彤 張?jiān)孪?陳凌
?
PUBO:面向出版的數(shù)字資源本體建模
□王文清 劉春彤 張?jiān)孪?陳凌
隨著信息技術(shù)的高速發(fā)展,出版業(yè)在出版載體和出版方式等方面都發(fā)生了很大變化。對(duì)于出版機(jī)構(gòu)而言,出版物不再是單一的資源,不僅包含文字、圖片、音頻、視頻、光盤(pán)、附件、元數(shù)據(jù)等多種資源的集合,還包含出版過(guò)程中的相關(guān)資源,如結(jié)構(gòu)信息、排版信息、設(shè)計(jì)信息、字體信息等。如何對(duì)所有這些資源及其關(guān)系進(jìn)行建模,以實(shí)現(xiàn)這些出版資源的統(tǒng)一表示和復(fù)用,是數(shù)字出版面臨的問(wèn)題。文章詳細(xì)介紹了基于OWL-DL標(biāo)準(zhǔn)的出版物數(shù)字內(nèi)容資源本體模型PUBO,包括內(nèi)容結(jié)構(gòu)、內(nèi)容特征、表現(xiàn)形式、載體方式以及資源之間的關(guān)系,最后介紹了該模型的應(yīng)用方式和應(yīng)用前景。
出版物數(shù)字出版本體 OWL 對(duì)象復(fù)用
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和數(shù)字出版技術(shù)的逐步成熟,傳統(tǒng)出版與信息科技融合的步伐加快,傳統(tǒng)出版機(jī)構(gòu)陸續(xù)應(yīng)用信息技術(shù)開(kāi)展數(shù)字出版[1]。很多出版社將自有的紙本圖書(shū)、期刊等資源進(jìn)行了數(shù)字化加工,對(duì)新的出版物直接進(jìn)行數(shù)字出版。出版社大量出版物的數(shù)字加工任務(wù)大都委托給專(zhuān)業(yè)加工公司完成,而由于出版行業(yè)缺少統(tǒng)一標(biāo)準(zhǔn),不同的出版社、加工公司以及電子書(shū)城所用的出版物數(shù)字資源格式彼此不同,許多資源格式之間難以有效轉(zhuǎn)換。這使得資源的交換、復(fù)用和共享存在很大困難,轉(zhuǎn)換成本很高。
在出版過(guò)程中,出版單位所出版的普通圖書(shū)、期刊等內(nèi)容資源不僅包括可交付印刷或電子出版的數(shù)據(jù)文件(如整書(shū)、章節(jié)等PDF文件)、排版或加工過(guò)程中產(chǎn)生的數(shù)據(jù)文件(如書(shū)刊排版文件、媒體資源文件等),還包括封面、篇章節(jié)、參考文獻(xiàn)、術(shù)語(yǔ)表等文檔構(gòu)件和內(nèi)容單元。對(duì)于所有這些出版內(nèi)容資源,出版行業(yè)需要建立一個(gè)統(tǒng)一的數(shù)字資源模型,以表示和記錄這些資源的內(nèi)容結(jié)構(gòu)、內(nèi)容特征、表現(xiàn)形式、載體方式以及資源之間的關(guān)系,并能按不同粒度進(jìn)行封裝、復(fù)用和交換。
本體(Ontology)技術(shù)針對(duì)上述問(wèn)題提供了一個(gè)有效的解決方案。本體最初是個(gè)哲學(xué)概念,是對(duì)世界上客觀存在物的系統(tǒng)地描述。在計(jì)算機(jī)科學(xué)領(lǐng)域,本體被定義為概念化的明確的規(guī)范說(shuō)明[2]。本體的使用可以使人與人之間、計(jì)算機(jī)系統(tǒng)與計(jì)算機(jī)系統(tǒng)之間、人與計(jì)算機(jī)系統(tǒng)之間的知識(shí)處理和知識(shí)交換更加方便和順暢。與元數(shù)據(jù)技術(shù)相比,本體具備以下優(yōu)勢(shì):1. 強(qiáng)大的詞匯、術(shù)語(yǔ)、實(shí)體和關(guān)系的描述能力,可以對(duì)不同知識(shí)體系、不同粒度的資源進(jìn)行描述;2.提供了不同元數(shù)據(jù)之間的相互映射機(jī)制,可實(shí)現(xiàn)異構(gòu)系統(tǒng)之間的互操作;3. 靈活性高,擴(kuò)展方便;4. 支持推理,以獲取新的知識(shí)。
筆者參與制定的新聞出版行業(yè)《數(shù)字內(nèi)容對(duì)象存儲(chǔ)、復(fù)用和交換標(biāo)準(zhǔn)》[3](Specification of digital content object storage, reuse and exchange,OSRE)采用本體技術(shù),制定了多層次的出版物內(nèi)容資源本體模型(PUBlication Ontology,PUBO),能對(duì)普通圖書(shū)、叢書(shū)、多卷書(shū)、雜志、期刊、多媒體電子書(shū)等出版物的數(shù)字內(nèi)容資源予以統(tǒng)一建模和描述,使得同一本圖書(shū)和期刊中的各個(gè)階段的數(shù)字資源構(gòu)成一個(gè)有機(jī)的整體,支持出版內(nèi)容資源在不同出版社、加工公司、印刷公司、電商等機(jī)構(gòu)之間的資源交換和復(fù)用,支持面向數(shù)字出版的數(shù)字內(nèi)容管理系統(tǒng)和相關(guān)工具的開(kāi)發(fā)和應(yīng)用,以便實(shí)現(xiàn)對(duì)多種類(lèi)型資源全生命周期的統(tǒng)一的語(yǔ)義化管理。
在PUBO本體提出之前,國(guó)內(nèi)外數(shù)字圖書(shū)館領(lǐng)域、數(shù)字出版領(lǐng)域已有很多針對(duì)電子圖書(shū)、數(shù)字對(duì)象、圖書(shū)目次等方面的數(shù)據(jù)標(biāo)準(zhǔn)研究。較有代表性的有電子出版物表(Electronic publication,EPUB[4])、基于混合XML的公共電子文檔(Common e-Document of Blending XML,CEBX[5])、元數(shù)據(jù)編碼和傳輸標(biāo)準(zhǔn)(Metadata Encoding and Transmission Standard,METS[6])、圖書(shū)本體(Bibliographic Ontology,BIBO[7])、Schema[8]、開(kāi)放存檔計(jì)劃-對(duì)象復(fù)用和交換標(biāo)準(zhǔn)(Open Archives Initiative-Object Reuse and Exchange,OAI-ORE[9])等。
EPUB是由國(guó)際數(shù)字出版論壇提出的標(biāo)準(zhǔn)。它針對(duì)數(shù)字出版物元數(shù)據(jù)制定了一系列的規(guī)范:EPUB Publications 3.0規(guī)定了與包裹文檔相關(guān)的內(nèi)容,包括電子書(shū)元數(shù)據(jù)、資源清單、結(jié)構(gòu)順序;EPUB Content Documents 3.0對(duì)電子書(shū)的內(nèi)容予以說(shuō)明,包括電子書(shū)的章節(jié)、CSS樣式表、圖像嵌入等;EPUB Open Container Format 3.0規(guī)定了文件存儲(chǔ)格式;EPUB Media Overlays 3.0規(guī)定了媒體層的建立,描述了媒體的播放方式,并支持文字的語(yǔ)音朗讀功能。EPUB標(biāo)準(zhǔn)在國(guó)內(nèi)外的平板電腦、手機(jī)等移動(dòng)閱讀終端上有著廣泛應(yīng)用。
CEBX標(biāo)準(zhǔn)是由北大方正阿帕比公司提出的一種獨(dú)立于軟件、硬件、操作系統(tǒng)、呈現(xiàn)/打印設(shè)備的文檔格式標(biāo)準(zhǔn)。它建立在一個(gè)概念性的成像模型上,使上層數(shù)據(jù)獨(dú)立于平臺(tái)。同時(shí),它具有原版原式的呈現(xiàn)特點(diǎn),即閱讀顯示與印刷一致。這使CEBX文件可以在不同的平臺(tái)上呈現(xiàn)同樣的版式效果。CEBX標(biāo)準(zhǔn)在國(guó)內(nèi)電子書(shū)領(lǐng)域得到廣泛應(yīng)用,支持多種終端,包括個(gè)人電腦和移動(dòng)終端。
EPUB和CEBX主要用于描述電子書(shū)的組成和封裝,支持在線閱讀,不能對(duì)出版過(guò)程中所涉及的各類(lèi)數(shù)字內(nèi)容資源及其各種元數(shù)據(jù)進(jìn)行封裝和管理。
METS規(guī)范用于描述由元數(shù)據(jù)和對(duì)象文件組成的復(fù)合數(shù)字對(duì)象,它規(guī)定了數(shù)字對(duì)象的描述性元數(shù)據(jù)、管理性元數(shù)據(jù)、文件組、結(jié)構(gòu)關(guān)系等方面的內(nèi)容,為數(shù)字對(duì)象的組織和封裝提供標(biāo)準(zhǔn)。但METS所能描述的結(jié)構(gòu)關(guān)系較為簡(jiǎn)單,沒(méi)有完整的語(yǔ)義關(guān)系,所描述的文件對(duì)象本身也缺乏屬性信息。這難以表示復(fù)雜的數(shù)字內(nèi)容對(duì)象的屬性、組成結(jié)構(gòu)及其關(guān)系。
BIBO是由加拿大一家公司提出的面向書(shū)目信息的本體,在2009年11月推出1.3版后不再更新。BIBO定義了類(lèi)和屬性,用于描述圖書(shū)、期刊、文章等資源,并側(cè)重于描述出版物之間的關(guān)系,如不同版本關(guān)系、引用關(guān)系等。BIBO的描述對(duì)象為出版物成品,且重點(diǎn)描述各個(gè)出版物之間的關(guān)系。Schema給出了一組常用的本體定義,共業(yè)界參考。但針對(duì)出版領(lǐng)域而言,BIBO和Schema都沒(méi)有考慮出版加工過(guò)程中所涉及到的各類(lèi)資源。
OAI-ORE是由開(kāi)放存檔計(jì)劃組織OAI提出的用于開(kāi)放存檔對(duì)象的復(fù)用和交換的標(biāo)準(zhǔn),其目標(biāo)是建立標(biāo)準(zhǔn)的、可互操作的、機(jī)器可讀的機(jī)制來(lái)表達(dá)復(fù)合數(shù)字對(duì)象資源,描述復(fù)合數(shù)字對(duì)象內(nèi)部組件之間的邏輯關(guān)系以及網(wǎng)絡(luò)信息空間中復(fù)合對(duì)象與其他資源之間的關(guān)系。但對(duì)于資源的具體屬性,沒(méi)有給出具體定義。
中國(guó)科技出版?zhèn)髅焦煞萦邢薰?原科學(xué)出版社)與中國(guó)高等教育文獻(xiàn)保障系統(tǒng)管理中心合作,基于OAI-ORE標(biāo)準(zhǔn),對(duì)圖書(shū)、期刊等資源制定了統(tǒng)一封裝格式[10],建成了基于OAI-ORE標(biāo)準(zhǔn)的出版資源內(nèi)容管理系統(tǒng),對(duì)各類(lèi)數(shù)字資源進(jìn)行統(tǒng)一存儲(chǔ)和管理,并具有資源的驗(yàn)證、展現(xiàn)、審核、發(fā)布等功能。該系統(tǒng)初步解決了圖書(shū)、叢書(shū)、期刊等出版物數(shù)字內(nèi)容資源的加工驗(yàn)證、存儲(chǔ)和管理需求,但并未建立完整的數(shù)字內(nèi)容對(duì)象模型,對(duì)出版過(guò)程中涉及到的其他類(lèi)型的數(shù)字內(nèi)容資源也缺少完整的語(yǔ)義描述。其他出版社所采用的面向數(shù)字出版的內(nèi)容管理系統(tǒng)以及面向數(shù)字出版內(nèi)容的各個(gè)數(shù)字化加工公司也都存在類(lèi)似的問(wèn)題。
出版機(jī)構(gòu)所涉及的數(shù)字內(nèi)容資源既包括出版過(guò)程中的各類(lèi)資源,也包括正式出版的相關(guān)資源。
出版過(guò)程中的數(shù)字資源包括以下四種劃分角度:①?gòu)拿襟w格式角度,分為音頻、視頻、圖片、字符貼圖、文本文檔、光盤(pán)映像等資源;②從設(shè)計(jì)排版過(guò)程角度,分為音視頻的設(shè)計(jì)文件、文本排版文件、圖像設(shè)計(jì)文件等資源;③從出版物內(nèi)容角度,圖書(shū)可拆分成目錄、前言、序、章節(jié)、跋、參考文獻(xiàn)、索引等內(nèi)容單元,期刊可以拆分成篇章、參考文獻(xiàn)等資源;④從出版物構(gòu)成角度,圖書(shū)和期刊可拆分為封面、外包裝、隨書(shū)光盤(pán)等資源,電子版出版物還包含樣式表文件等資源。
圖書(shū)和期刊等正式出版物所涉及的各類(lèi)數(shù)字資源包括以下三類(lèi):①紙版和電子版出版物所涉及的完整的數(shù)字內(nèi)容資源包,以供紙質(zhì)書(shū)印刷出版或電子書(shū)的發(fā)布;②用于描述出版物的各類(lèi)元數(shù)據(jù),如中國(guó)機(jī)讀目錄(CNMARC),中國(guó)出版物在線信息交換元數(shù)據(jù)(CNONIX),圖書(shū)流通信息交換規(guī)則元數(shù)據(jù)(CY/T 39)等。③集合類(lèi)出版物。比如,一種期刊由多期組成,一期由多篇文章組成;多卷書(shū)由多本圖書(shū)構(gòu)成。這些關(guān)系也需要描述。
針對(duì)上述各類(lèi)資源,需要建立統(tǒng)一的數(shù)據(jù)模型,不僅支持出版機(jī)構(gòu)內(nèi)部資源的復(fù)用,也支持出版機(jī)構(gòu)之間、出版機(jī)構(gòu)與加工公司之間的資源交換和共享。PUBO本體應(yīng)運(yùn)而生。
本體是共享概念模型的明確形式化規(guī)范說(shuō)明[2],是在語(yǔ)義層次上解決領(lǐng)域內(nèi)信息共享、復(fù)用和交換的基礎(chǔ),其標(biāo)準(zhǔn)化和形式化的表示方式能很好表達(dá)領(lǐng)域中的復(fù)雜知識(shí)和資源的組織方式,有效解決領(lǐng)域中各個(gè)異構(gòu)資源之間的互操作。Web本體語(yǔ)言(Web Ontology Language,OWL[11])是由萬(wàn)維網(wǎng)聯(lián)盟于2004年提出的一種網(wǎng)絡(luò)本體描述語(yǔ)言。OWL 2于2009年發(fā)布,具有更多的元語(yǔ)和更豐富的語(yǔ)義,更好地支持推理。OWL分為三個(gè)子語(yǔ)言:OWL-Lite、OWL-DL、OWL-Full,其表達(dá)能力由弱到強(qiáng);其中,只有OWL-DL(描述邏輯)支持推理,能保證計(jì)算的完全性和可判定性。
PUBO本體采用OWL-DL描述,其完整定義包括類(lèi)、屬性、枚舉類(lèi)、約束等方面的內(nèi)容,具有嚴(yán)謹(jǐn)?shù)尿?yàn)證和推理能力。本章著重介紹前3個(gè)方面的內(nèi)容。
4.1 類(lèi)
PUBO本體將出版過(guò)程和出版結(jié)果所涉及的數(shù)字資源歸納為3個(gè)大類(lèi):集合類(lèi)、文檔資源類(lèi)、代理者類(lèi),具體共定義了60個(gè)類(lèi),同時(shí),為了規(guī)范某些屬性的取值,PUBO還定義了8個(gè)枚舉類(lèi)。PUBO本體中各個(gè)類(lèi)的層次關(guān)系如圖1所示。
圖1 PUBO 類(lèi)層次圖
4.1.1 集合類(lèi)
集合類(lèi)包括文檔容器和文檔集兩個(gè)類(lèi)。其中,文檔容器類(lèi)用于將已出版的各類(lèi)數(shù)字資源和加工過(guò)程中的相關(guān)資源聚合為一體,形成一個(gè)完整的出版物數(shù)據(jù)包,文檔集是對(duì)圖書(shū)等文檔內(nèi)容的邏輯聚合,如由多期期刊組成的期刊集、由多本圖書(shū)組成的多卷書(shū)等。
文檔容器類(lèi)用于將正式出版的圖書(shū)或期刊(文檔產(chǎn)品)及其相關(guān)的所有資源(包括媒體文檔、內(nèi)容單元、文檔構(gòu)件、設(shè)計(jì)排版文檔、元數(shù)據(jù)文檔等)聚合起來(lái),以便對(duì)相關(guān)資源實(shí)現(xiàn)統(tǒng)一管理和交換。
文檔集類(lèi)用于表示有一定聯(lián)系的多個(gè)出版物的集合,如叢書(shū)、多卷書(shū)、期刊等。每個(gè)文檔集由多個(gè)文檔產(chǎn)品構(gòu)成,如叢書(shū)由多個(gè)圖書(shū)產(chǎn)品構(gòu)成,期刊由多個(gè)期構(gòu)成,每期由多篇文章構(gòu)成。如圖2所示。
圖2 文檔集的邏輯結(jié)構(gòu)
4.1.2 文檔資源類(lèi)
文檔資源類(lèi)由文檔類(lèi)及其子類(lèi)構(gòu)成。文檔類(lèi)用于表示各個(gè)出版環(huán)節(jié)所涉及的各類(lèi)資源,根據(jù)這些資源的不同用途和媒體格式,文檔類(lèi)被進(jìn)一步劃分為一系列不同層次的子類(lèi),分別代表不同類(lèi)型和不同粒度的數(shù)字資源,由此形成分類(lèi)體系。文檔類(lèi)包括以下子類(lèi):
媒體文檔類(lèi)用于表示以計(jì)算機(jī)文件格式(如mp3, mp4, pdf, doc, ceb, indd, psd等)表示的各種資源。這些資源都是出版物必不可少的,一般都有相應(yīng)的數(shù)據(jù)文件(用MIME編碼),并采用專(zhuān)用的元數(shù)據(jù)對(duì)其描述和管理。媒體文檔類(lèi)又分為以下幾個(gè)子類(lèi):文本文檔、音頻、發(fā)音文檔、視頻、圖形、圖像、字符貼圖、動(dòng)畫(huà)、光盤(pán)映像。
文檔構(gòu)件類(lèi)用于表示文檔印刷或發(fā)行所必要的構(gòu)件。文檔構(gòu)件一般都有對(duì)應(yīng)的編碼文檔對(duì)象,用于關(guān)聯(lián)至媒體文檔,如一個(gè)封面類(lèi)個(gè)體,關(guān)聯(lián)至一個(gè)圖像類(lèi)個(gè)體,表示該圖像即為該封面。文檔構(gòu)件又分為以下幾個(gè)子類(lèi):封面、包裝、光盤(pán)、網(wǎng)頁(yè)、單頁(yè)、附件、插圖、字體文件、腳本程序、樣式表文件。
文檔內(nèi)容單元類(lèi),用于表示用于內(nèi)容復(fù)用的文檔內(nèi)容片段。內(nèi)容單元類(lèi)分為以下幾個(gè)子類(lèi):摘要、章節(jié)、輔文、參考文獻(xiàn)、參考文獻(xiàn)項(xiàng)、導(dǎo)讀、精彩篇章、目次、目次項(xiàng)、注釋、術(shù)語(yǔ)表。
設(shè)計(jì)排版文檔,用于表示生成文檔產(chǎn)品的設(shè)計(jì)或排版文件。如用InDesign工具排版好的排版文件、用PhotoShop設(shè)計(jì)制作的圖像設(shè)計(jì)文件等。這些文件可以與對(duì)應(yīng)的文檔產(chǎn)品有機(jī)關(guān)聯(lián),表明二者之間的生成關(guān)系。
元數(shù)據(jù)文檔,用于單獨(dú)存放與圖書(shū)和期刊出版物配套的元數(shù)據(jù)信息,如CNMARC, MARC21,中國(guó)出版物在線信息交換圖書(shū)產(chǎn)品信息格式規(guī)范CNONIX,圖書(shū)流通元數(shù)據(jù)標(biāo)準(zhǔn),保存元數(shù)據(jù)標(biāo)準(zhǔn)PREMIS和都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)DC等。
文檔產(chǎn)品類(lèi)用于表示可用于印刷或在線服務(wù)的出版產(chǎn)品,比如一個(gè)完整的CEBX文件包。文檔產(chǎn)品可以嵌入或關(guān)聯(lián)音頻和視頻文件,形成有聲圖書(shū)或多媒體出版物。文檔產(chǎn)品類(lèi)又分為以下幾個(gè)子類(lèi):圖書(shū)產(chǎn)品、圖書(shū)章節(jié)產(chǎn)品、文章產(chǎn)品、圖片產(chǎn)品、期刊產(chǎn)品。
4.1.3 代理者類(lèi)
代理者類(lèi)由代理者類(lèi)及其子類(lèi)構(gòu)成,用于描述與出版物相關(guān)的各類(lèi)作者信息,包括個(gè)人作者、機(jī)構(gòu)作者或團(tuán)體作者等信息,也用于表示出版內(nèi)容資源的加工者和管理者等信息。從兼容性和復(fù)用性角度,該代理者類(lèi)等同采用了國(guó)際互聯(lián)網(wǎng)社區(qū)中主流的“朋友的朋友”本體(Friend of a Friend,F(xiàn)OAF)[12],以此作為基礎(chǔ)性的作者規(guī)范檔,并支持該類(lèi)的進(jìn)一步擴(kuò)展。
4.1.4 枚舉類(lèi)
枚舉類(lèi)是指該類(lèi)的所有個(gè)體均被聲明。當(dāng)某個(gè)屬性的值域是某枚舉類(lèi)時(shí),表示其取值只能是該枚舉類(lèi)的個(gè)體之一。枚舉類(lèi)的使用可以約束并規(guī)范某個(gè)屬性的取值。
在PUBO中,定義了8個(gè)枚舉類(lèi):
元數(shù)據(jù)類(lèi)型用于描述元數(shù)據(jù)類(lèi)型,包含CNONIX、圖書(shū)流通元數(shù)據(jù)、Marc21、CNMarc、DC、METS等類(lèi)型。
文檔狀態(tài)類(lèi)型用于描述文檔的各種狀態(tài),如收錄、審核、拒絕、出版、草稿、即將出版、未出版、未審核等文檔狀態(tài)。
輔文類(lèi)型用于描述各種輔文類(lèi)型,如縮略詞表、致謝、跋(后記)、附錄、版權(quán)說(shuō)明、獻(xiàn)辭、版本記錄、編輯委員會(huì)、勘誤表、凡例、前言,卷首語(yǔ)、索引、內(nèi)容簡(jiǎn)介、插圖列表、圖表列表、導(dǎo)航、緒言、符號(hào)表等。
封面類(lèi)型用于描述封面類(lèi)文檔的類(lèi)型,如封一、封二、封三、封四、勒口、書(shū)脊等。
包裝類(lèi)型用于描述包裝類(lèi)文檔的類(lèi)型,如腰封、護(hù)封、環(huán)襯、外包裝、套盒、封套。用于描述包裝類(lèi)文檔的類(lèi)型。
單頁(yè)文檔類(lèi)型用于描述單頁(yè)類(lèi)文檔的類(lèi)型,如扉頁(yè)、版權(quán)記錄頁(yè)、襯頁(yè)、插頁(yè)、附書(shū)名頁(yè)、口號(hào)頁(yè)等。
類(lèi)型用于描述參考文獻(xiàn)的類(lèi)型,遵循GB/T 7714 文后參考文獻(xiàn)著錄規(guī)則,如計(jì)算機(jī)程序(CP)、會(huì)議錄(C)、數(shù)據(jù)庫(kù)(DB)、學(xué)位論文(D)、電子公告(EB)、匯編(G)、期刊(J)、普通圖書(shū)(M)、報(bào)紙(N)、專(zhuān)利(P)、報(bào)告(R)、標(biāo)準(zhǔn)(S)等。
產(chǎn)品類(lèi)型用于描述文檔產(chǎn)品的用途,如電子圖書(shū)、按需出版。
對(duì)于上述各個(gè)枚舉類(lèi)中的具體類(lèi)型,可以根據(jù)需要對(duì)其擴(kuò)展,以滿(mǎn)足實(shí)際需求。
4.2 屬性
屬性可以分為對(duì)象屬性和數(shù)值屬性?xún)纱箢?lèi)。對(duì)象屬性負(fù)責(zé)描述資源之間的關(guān)系,數(shù)值屬性負(fù)責(zé)描述資源本身。對(duì)象屬性的定義域及值域都為對(duì)象。在形式化表示中,按照關(guān)聯(lián)數(shù)據(jù)的表示方法,各個(gè)對(duì)象實(shí)例的唯一標(biāo)識(shí)符均采用統(tǒng)一資源標(biāo)識(shí)符統(tǒng)一表示。數(shù)值屬性的取值為文本,具體分為字符串型、整數(shù)型、實(shí)數(shù)型,日期等文本類(lèi)型。
4.2.1 對(duì)象屬性
PUBO中定義了48個(gè)對(duì)象屬性,從多個(gè)方面描述資源對(duì)象之間的關(guān)系。
文檔容器負(fù)責(zé)封裝與出版物相關(guān)的資源,文檔容器包含兩個(gè)導(dǎo)航類(lèi)屬性,一個(gè)是productManifest屬性,描述出版物的具體構(gòu)成,其取值為文檔構(gòu)件的有序列表,表示出版物的組成部分,如一個(gè)簡(jiǎn)單的圖書(shū)出版物由封一、封二、封三、扉頁(yè)、第二頁(yè)、插圖頁(yè)……封四、隨書(shū)光盤(pán)組成;另一個(gè)是readingOrder屬性,描述出版物閱讀順序,其取值為內(nèi)容單元的有序列表,表示出版物內(nèi)容的閱讀順序,如一本簡(jiǎn)單的圖書(shū)出版物,其內(nèi)容單元包括序、目次、第一章、第二章……后記。同時(shí),文檔容器還應(yīng)包括一個(gè)可直接用于按需出版或電子書(shū)發(fā)布的文檔產(chǎn)品。文檔容器與這些文檔構(gòu)件、文檔產(chǎn)品、內(nèi)容單元之間,均存在contains關(guān)聯(lián),以便于通過(guò)簡(jiǎn)單的檢索得到所有與某出版物相關(guān)的資源。
媒體文檔類(lèi)負(fù)責(zé)管理物理文件,當(dāng)其他資源使用了某物理文件時(shí),如圖書(shū)的正文為一個(gè)文本文件,或圖書(shū)的封面為一張圖片,需要建立該資源到相應(yīng)的媒體文件的關(guān)聯(lián)。這種關(guān)聯(lián)用屬性associatedMedia來(lái)表示。特別的,對(duì)于電子書(shū)的內(nèi)嵌音頻、視頻、字體文件,可以通過(guò)屬性embeddedAudio,embeddedVideo,embeddedFont來(lái)關(guān)聯(lián)至相應(yīng)的媒體文檔。
文檔內(nèi)容單元的個(gè)體會(huì)與文檔構(gòu)件和文檔產(chǎn)品類(lèi)個(gè)體產(chǎn)生關(guān)聯(lián),如一個(gè)單頁(yè)類(lèi)個(gè)體,其內(nèi)容可以通過(guò)某個(gè)內(nèi)容單元個(gè)體描述,則可利用isContentSection屬性關(guān)聯(lián)這兩個(gè)個(gè)體。
當(dāng)一個(gè)文檔構(gòu)件構(gòu)成了一個(gè)文檔產(chǎn)品時(shí),可以通過(guò)isComponentOf屬性關(guān)聯(lián)文檔構(gòu)件及文檔產(chǎn)品。
設(shè)計(jì)排版展現(xiàn)文件利用屬性generates關(guān)聯(lián)通過(guò)其生成的文檔。
資源類(lèi)個(gè)體間的關(guān)系可以用圖3來(lái)描述。圖3中的方框代表大類(lèi),連線代表類(lèi)的個(gè)體之間的關(guān)系。
4.2.2 數(shù)值屬性
PUBO標(biāo)準(zhǔn)共定義107個(gè)數(shù)值屬性。對(duì)部分屬性,采用子屬性方式表示屬性之間的繼承或派生關(guān)系。
日期屬性,包含與出版物相關(guān)的版權(quán)年、創(chuàng)辦日期、首版年月、本次印刷年月、本版年月、出版日期、修改日期;以及與代理者相關(guān)的生年、卒年、創(chuàng)辦時(shí)間。
文件格式屬性,用于描述文件信息,包括校驗(yàn)值、校驗(yàn)方法、影音文件時(shí)長(zhǎng)、排版軟件版本、文件大小、文件高度、軟件版本、播放器類(lèi)型、精度、比特率、是否雙層pdf、是否內(nèi)嵌字體、是否包含邏輯結(jié)構(gòu)信息。
標(biāo)識(shí)符屬性,用于描述圖書(shū)或期刊的標(biāo)識(shí)符,包括ISBN和ISSN等;
圖3 文檔類(lèi)之間的關(guān)系
位置符屬性,用于描述順序關(guān)系,如章節(jié)的起始頁(yè)碼,目錄的順序號(hào),期號(hào)和卷號(hào)等;
產(chǎn)品格式屬性,用于描述文檔產(chǎn)品的特征,如重量和厚度等;
標(biāo)題屬性,用于描述文檔的標(biāo)題,如并列題名、叢書(shū)名和交替題名等;
代理者信息屬性,用于描述人、機(jī)構(gòu)、團(tuán)體的名字、地址和聯(lián)系方式等;
其他屬性,如摘要和描述等。
4.2.3 學(xué)科分類(lèi)、語(yǔ)種的表示方法
在對(duì)象屬性中,學(xué)科分類(lèi)、語(yǔ)種兩個(gè)屬性比較特殊。由于有多種學(xué)科分類(lèi)方法和語(yǔ)種分類(lèi)方法,所以這兩個(gè)屬性的取值需要提供分類(lèi)法和分類(lèi)號(hào)兩方面信息。PUBO中規(guī)定,學(xué)科分類(lèi)和語(yǔ)種兩個(gè)屬性的取值均使用簡(jiǎn)單知識(shí)組織系統(tǒng)(Simple Knowledge Organization System,SKOS)標(biāo)準(zhǔn)來(lái)表示[13][14]。如:表示使用杜威分類(lèi)法,分類(lèi)號(hào)為296.67,其OWL/RDF代碼如右。
使用SKOS表示學(xué)科需要使用skos:inScheme和skos:notation屬性,前者的取值為分類(lèi)法(用URI表示),后者的取值為分類(lèi)號(hào)。
我國(guó)出版行業(yè)已有的分類(lèi)法和出版機(jī)構(gòu)內(nèi)部的分類(lèi)表,在用于PUBO本體之前,需要將其SKOS化,即將分類(lèi)法中的概念及概念之間的上下位關(guān)系利用SKOS表示,并為每個(gè)概念分配統(tǒng)一的URI標(biāo)識(shí),這樣就能應(yīng)用于PUBO的學(xué)科分類(lèi)。
圖4 一個(gè)圖書(shū)產(chǎn)品的示例
PUBO本體可以表示多種出版物,如普通圖書(shū)、叢書(shū)、多卷書(shū)、雜志、期刊、多媒體電子書(shū)等。經(jīng)過(guò)類(lèi)和屬性的擴(kuò)展,PUBO還可以表示百科全書(shū)、工具書(shū)等。
將出版機(jī)構(gòu)現(xiàn)有資源轉(zhuǎn)換成本體是PUBO的最基本應(yīng)用。以某圖書(shū)產(chǎn)品為例,文檔容器負(fù)責(zé)將與該圖書(shū)產(chǎn)品相關(guān)的資源組織起來(lái),如圖4所示,橢圓形代表個(gè)體,灰色橢圓是PUBO中定義的枚舉類(lèi)個(gè)體。文檔構(gòu)件(圖4左側(cè))負(fù)責(zé)出版物的組裝,內(nèi)容單元(圖4右側(cè))負(fù)責(zé)出版物的內(nèi)容管理,還可用于內(nèi)容復(fù)用。為了簡(jiǎn)潔,圖4中省略了associatedMedia屬性,大部分內(nèi)容單元類(lèi)、文檔構(gòu)件類(lèi)、圖書(shū)產(chǎn)品類(lèi)個(gè)體均會(huì)具有該屬性,以關(guān)聯(lián)至某物理文件。
出版機(jī)構(gòu)可以根據(jù)需要對(duì)PUBO的類(lèi)和屬性進(jìn)行擴(kuò)展??蓴U(kuò)展的內(nèi)容包括:類(lèi)、對(duì)象屬性、數(shù)值屬性、枚舉類(lèi)個(gè)體、約束。通過(guò)對(duì)類(lèi)、屬性和個(gè)體的擴(kuò)展,進(jìn)一步豐富PUBO的表達(dá)能力,滿(mǎn)足出版社的個(gè)性化需要。通過(guò)對(duì)約束的擴(kuò)展,使PUBO的推理機(jī)制更加完善,自動(dòng)校驗(yàn)?zāi)芰屯茖?dǎo)新知識(shí)的能力更強(qiáng)。
圖5 基于 PUBO的數(shù)字內(nèi)容管理系統(tǒng)參考架構(gòu)
關(guān)聯(lián)數(shù)據(jù)[15]是本體的一種應(yīng)用,如可將出版社的本體數(shù)據(jù)與現(xiàn)有的本體庫(kù)通過(guò)異構(gòu)本體映射算法進(jìn)行關(guān)聯(lián),以獲得新的知識(shí)?,F(xiàn)有的本體庫(kù)有DBPedia,CYC,YAGO等。除了關(guān)聯(lián)現(xiàn)有的知識(shí)庫(kù),出版社與圖書(shū)館、網(wǎng)上書(shū)店之間均可進(jìn)行數(shù)據(jù)關(guān)聯(lián),以降低人工處理數(shù)據(jù)的成本,并為用戶(hù)提供更多的數(shù)據(jù)或知識(shí)服務(wù)。
PUBO本體可以與OAI-ORE結(jié)合,用后者對(duì)本體實(shí)例進(jìn)行數(shù)據(jù)封裝。PUBO提供了一個(gè)聚合類(lèi)屬性列表,在本體到OAI-ORE轉(zhuǎn)換的過(guò)程中,可利用聚合類(lèi)屬性生成OAI-ORE圖,進(jìn)一步用于數(shù)據(jù)交換。有文獻(xiàn)采用OAI-ORE對(duì)PUBO本體實(shí)例進(jìn)行系統(tǒng)封裝,給出針對(duì)出版領(lǐng)域各種數(shù)字對(duì)象的封裝、存儲(chǔ)和交換的格式和規(guī)范[15]。
基于PUBO本體,可以設(shè)計(jì)和開(kāi)發(fā)下一代數(shù)字出版資源內(nèi)容管理系統(tǒng)(如圖5所示)。出版社可以通過(guò)該平臺(tái)實(shí)現(xiàn)碎片化數(shù)字出版,如按篇章印刷出版、圖片印刷出版、文章印刷出版等。通過(guò)提供可視化等輔助工具和管理手段,用戶(hù)無(wú)須掌握復(fù)雜的詞匯、術(shù)語(yǔ),更加便捷地進(jìn)行本體或知識(shí)加工,通過(guò)PUBO服務(wù)器來(lái)維護(hù)本體數(shù)據(jù)的一致性。PUBO服務(wù)器可以實(shí)現(xiàn)代理者信息管理(作者、出版社、圖書(shū)館、書(shū)店等)、出版物信息管理(題名、分類(lèi)、ISBN、頁(yè)數(shù)、版次、印次等)、出版物構(gòu)件管理(封面、單頁(yè)、隨書(shū)光盤(pán)、樣式表文件等)、出版物內(nèi)容單元管理(摘要、輔文、正文章節(jié)等)、多媒體文件管理(文檔構(gòu)件與內(nèi)容單元關(guān)聯(lián)文件、多媒體出版物內(nèi)嵌文件等)、元數(shù)據(jù)文件管理、設(shè)計(jì)排版文件管理、出版物資源封裝等多方面的功能。
數(shù)字出版是當(dāng)前出版業(yè)的重要發(fā)展方向。支撐數(shù)字出版的核心是建立數(shù)字資源的形式化描述方法。本文所介紹的PUBO本體模型具備更加完整的語(yǔ)義,具備邏輯推理能力——可自動(dòng)驗(yàn)證模型的邏輯完整性,具有可擴(kuò)展。這使得PUBO可以很好地描述圖書(shū)、期刊等各類(lèi)出版物,為出版機(jī)構(gòu)更方便地實(shí)現(xiàn)資源的管理、關(guān)聯(lián)和復(fù)用奠定了統(tǒng)一的基礎(chǔ)。
在PUBO本體基礎(chǔ)上,OSRE標(biāo)準(zhǔn)的第2部分[16]給出了基于開(kāi)放檔案信息系統(tǒng)(Open Archive Information System,OAIS)標(biāo)準(zhǔn)的面向出版過(guò)程的數(shù)據(jù)交換信息包的具體封裝規(guī)范,第3部分[17]給出了基于OSRE標(biāo)準(zhǔn)的數(shù)字對(duì)象驗(yàn)證規(guī)范。OSRE標(biāo)準(zhǔn)的三個(gè)部分[3][16][17]共同構(gòu)成了較為完整的OSRE系列標(biāo)準(zhǔn)。
國(guó)家新聞出版廣電總局于2014年底正式啟動(dòng)了國(guó)家復(fù)合出版工程項(xiàng)目建設(shè)工作。基于PUBO本體及其數(shù)字內(nèi)容對(duì)象封裝交換標(biāo)準(zhǔn)(即OSRE標(biāo)準(zhǔn))[2][16]的數(shù)字資源交換池系統(tǒng)被列入了該項(xiàng)工程的核心系統(tǒng)之一,支持一對(duì)一和一對(duì)多的交換方式,具有對(duì)OSRE信息包的攝取、驗(yàn)證、預(yù)覽、抽取、重組、映射、轉(zhuǎn)換、傳輸、加載等一系列功能,用于實(shí)現(xiàn)出版機(jī)構(gòu)內(nèi)部和出版機(jī)構(gòu)之間的各類(lèi)數(shù)字資源的交換。PUBO本體將會(huì)隨著該工程的實(shí)施得到進(jìn)一步完善和深入應(yīng)用。
參考文獻(xiàn)
1 中國(guó)新聞出版研究院中國(guó)數(shù)字出版產(chǎn)業(yè)年度報(bào)告課題組. 2012~2013中國(guó)數(shù)字出版產(chǎn)業(yè)年度報(bào)告(摘要)[J]. 出版參考,2013,21:15.
2 鄧志鴻,唐世渭,張銘,楊冬青,陳捷. Ontology研究綜述[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2002(5):730-738
3 新聞出版行業(yè)標(biāo)準(zhǔn)CY/T102.1-2014. 數(shù)字內(nèi)容對(duì)象存儲(chǔ)、復(fù)用與交換規(guī)范 第1部分:對(duì)象模型[S]
4 Electronic Publication[EPUB][EB/OL]. [2009-7-4]. http://idpf.org/epub
5 CEBX標(biāo)準(zhǔn)[EB/OL]. [2009-7-4].http://www.apabi.cn/download/index.html
6 Gartner R. METS as an’Intermediary’Schema for a Digital Library of Complex Scientific Multimedia[J]. Information Technology and Libraries, 2012, 31(3): 24-35
7 Bibliographic Ontology[BIBO][EB/OL].[2013-3-12]. http://bibliontology.com/
8 Schema.org [SCHEMA][EB/OL].[2013-3-12]. http://schema.org/
9 Open Archives Initiative Object Reuse and Exchange[OAI-ORE][EB/OL].[2009-7-3].http://www.openarchives.org/ore
10 陳鵬飛,王文清等. 針對(duì)科學(xué)出版社的基于OAI-ORE標(biāo)準(zhǔn)的圖書(shū)和期刊相關(guān)格式規(guī)范 [R]. 北京:北京大學(xué)中國(guó)高等教育文獻(xiàn)保障系統(tǒng)管理中心, 2010.
11 Web Ontology Language[OWL][EB/OL].[2008-4-15].http://www.w3.org/TR/2012/REC-owl2-syntax-20121211
12 FOAF Language[FOAF][EB/OL].[2013-3-15].http://xmlns.com/foaf/spec/
13 Miles A, Bechhofer S. SKOS simple knowledge organization system reference[R]. Technical report, W3C, 2009
14 段榮婷. 基于簡(jiǎn)約知識(shí)組織系統(tǒng)的主題詞表語(yǔ)義網(wǎng)絡(luò)化研究——以《中國(guó)檔案主題詞表》為例[J]. 中國(guó)圖書(shū)館學(xué)報(bào),2011(03):54-65
15 Bizer C, Heath T, Berners-Lee T. Linked data-the story so far[J]. International journal on semantic web and information systems, 2009, 5(3): 1-22
16 新聞出版行業(yè)標(biāo)準(zhǔn)CY/T102.2-2014. 數(shù)字內(nèi)容對(duì)象存儲(chǔ)、復(fù)用與交換規(guī)范 第2部分:對(duì)象封裝、存儲(chǔ)與交換[S]
17 新聞出版行業(yè)標(biāo)準(zhǔn)CY/T102.3-2014. 數(shù)字內(nèi)容對(duì)象存儲(chǔ)、復(fù)用與交換規(guī)范 第3部分:對(duì)象驗(yàn)證換[S]
PUBO: Construction of Publication Ontology of Digital Resource
Wang Wenqing Liu Chuntong Zhang Yuexiang Chen Ling
With rapid development of information technology, the medium, forms and means of publication have changed greatly. For publishing organizations, publication is not a single resource, but a combination of multiple resources not only including text, images, audio, video, CD data, attachments, metadata, etc., but also including publishing process related resources such as structures, typesetting, layout design, font, etc.. How to design a unified data model of these resources in order to realize the unified representation of their attributes and relation is a key issue of digital publishing. This paper introducesPUBlication Ontology (PUBO) based OWL-DL standard, details its structures, content features, forms of representation, media types, and relations among them. At last, the application and prospect of PUBO are discussed.
Publications; Digital Publishing; Ontology; OWL; Object Reuse
王文清,ORCID:0000-0003-2038-1659,wangwq@calis.edu.cn。
北京大學(xué)圖書(shū)館CALIS管理中心,北京,100871
2014年12月25日
大學(xué)圖書(shū)館學(xué)報(bào)2015年3期