李嬌,寇遠(yuǎn)濤,黃永文,薛歡歡,鮮國(guó)建
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
國(guó)內(nèi)外語(yǔ)義出版實(shí)踐研究*
李嬌,寇遠(yuǎn)濤,黃永文,薛歡歡,鮮國(guó)建
(中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081)
本文介紹多種國(guó)內(nèi)外重要語(yǔ)義出版機(jī)構(gòu)/平臺(tái)的實(shí)踐進(jìn)展,并從數(shù)字資源描述模型、語(yǔ)義知識(shí)增強(qiáng)形態(tài)、語(yǔ)義出版發(fā)布形式三方面對(duì)其進(jìn)行比較分析,對(duì)比國(guó)內(nèi)外語(yǔ)義出版的發(fā)展現(xiàn)狀,總結(jié)現(xiàn)有實(shí)踐研究的共性特征及其存在問(wèn)題,并探討我國(guó)科技期刊語(yǔ)義出版模式的發(fā)展對(duì)策,以期為我國(guó)語(yǔ)義出版的研究和實(shí)踐提供參考。
語(yǔ)義出版;描述模型;語(yǔ)義知識(shí)增強(qiáng);發(fā)布形式
數(shù)字網(wǎng)絡(luò)環(huán)境下,作為數(shù)字出版、復(fù)合出版的高級(jí)形態(tài),尤其在科學(xué)、技術(shù)和醫(yī)學(xué)等領(lǐng)域進(jìn)行了一系列試驗(yàn)并逐步推出正式服務(wù)后,語(yǔ)義出版成為學(xué)術(shù)期刊的主流出版形式。語(yǔ)義出版最早由Shotton于2009年提出[1],他將語(yǔ)義出版定義為一種語(yǔ)義增強(qiáng)的期刊出版形式,指出語(yǔ)義出版是一種增強(qiáng)已出版期刊文獻(xiàn)內(nèi)涵意義的過(guò)程,通過(guò)語(yǔ)義標(biāo)記來(lái)豐富出版物的知識(shí)內(nèi)容和表現(xiàn)形式,提高出版物信息的可操作性、交互性和關(guān)聯(lián)性,最終實(shí)現(xiàn)智能化出版;他還系統(tǒng)化地提出科技期刊論文語(yǔ)義出版的表現(xiàn)形式,分析了DOI、超鏈接、支持排序的參考文獻(xiàn),以及可語(yǔ)義標(biāo)注的術(shù)語(yǔ)、基于上下文引用關(guān)系等語(yǔ)義出版形式的可行性[2]。
語(yǔ)義出版實(shí)踐者通常借助語(yǔ)義技術(shù)、網(wǎng)絡(luò)服務(wù)協(xié)議(如語(yǔ)義出版及引用本體[3]),從出版平臺(tái)、出版物、閱讀終端三個(gè)層面增強(qiáng)語(yǔ)義[4]。語(yǔ)義出版對(duì)文獻(xiàn)知識(shí)內(nèi)容的結(jié)構(gòu)化發(fā)布和呈現(xiàn),為科研用戶提供更加精確、高效的閱讀體驗(yàn),同時(shí)也給信息服務(wù)商、圖書(shū)館等機(jī)構(gòu)的傳統(tǒng)服務(wù)流程帶來(lái)沖擊,因此,近來(lái)年語(yǔ)義出版已成為國(guó)際學(xué)術(shù)界在學(xué)術(shù)出版與信息管理領(lǐng)域的研究熱點(diǎn)。
目前,出版機(jī)構(gòu)、信息服務(wù)商、圖書(shū)館等建設(shè)主體正積極開(kāi)展語(yǔ)義出版實(shí)踐,雖然成果較豐富,但關(guān)于國(guó)內(nèi)外語(yǔ)義出版實(shí)踐對(duì)比分析的研究很少。本文選取目前國(guó)內(nèi)外語(yǔ)義出版實(shí)踐成果相對(duì)成熟的出版機(jī)構(gòu)/平臺(tái)Nature、PMC、RSC、Elsevier和中華醫(yī)學(xué)會(huì)雜志社等,結(jié)合學(xué)科領(lǐng)域發(fā)展?fàn)顟B(tài)從數(shù)字資源描述模型、語(yǔ)義知識(shí)增強(qiáng)形態(tài)、語(yǔ)義出版發(fā)布形式等方面分別進(jìn)行比較分析,總結(jié)國(guó)內(nèi)外語(yǔ)義出版發(fā)展現(xiàn)狀、現(xiàn)有實(shí)踐研究的共性特征及其存在的問(wèn)題,以期為我國(guó)語(yǔ)義出版的研究和實(shí)踐提供參考。
Nature在語(yǔ)義出版方面的嘗試始于關(guān)聯(lián)數(shù)據(jù),2013年,Nature發(fā)布一款科學(xué)學(xué)科術(shù)語(yǔ)動(dòng)態(tài)頁(yè)面產(chǎn)品[5],使其作為語(yǔ)義出版架構(gòu)的簡(jiǎn)單概述,并構(gòu)建了依據(jù)出版核心工作流的關(guān)聯(lián)數(shù)據(jù)架構(gòu),形成用owl本體定義的通用元數(shù)據(jù)模型。此后,Nature開(kāi)啟了基于本體實(shí)踐語(yǔ)義出版的新篇章。2015年,Nature發(fā)布自然本體門戶“nature.com ontologies portal”,提供支撐Nature語(yǔ)義出版的核心模型、領(lǐng)域模型等主要語(yǔ)義模型,以及文章和貢獻(xiàn)者等實(shí)例數(shù)據(jù)集[6]。
Nature語(yǔ)義出版模型架構(gòu)如圖1所示,基礎(chǔ)層由RDF語(yǔ)言族提供,用于對(duì)核心本體進(jìn)行編碼。該語(yǔ)義本體模型通過(guò)繼承SKOS模型的標(biāo)準(zhǔn)化語(yǔ)義,定義多個(gè)領(lǐng)域?qū)哟晤悇e的基礎(chǔ)概念,由于它們是對(duì)企業(yè)內(nèi)部特定應(yīng)用或領(lǐng)域知識(shí)的編碼,故稱為領(lǐng)域本體。
圖1 Nature語(yǔ)義出版模型架構(gòu)
2015年,Nature出版集團(tuán)與Springer合并后在語(yǔ)義出版方面的探索進(jìn)一步深入,2017年Springer·Nature推出SciGraph(科研圖譜)服務(wù),整合科研界的各種信息[7],SciGraph的數(shù)據(jù)集由Springer·Nature和Digital Science共同合作完成,包含1.5億—2億條學(xué)術(shù)界關(guān)注對(duì)象的信息(三元組)。Nature將傳統(tǒng)集中式、以文獻(xiàn)為中心的、XML為基礎(chǔ)的企業(yè)出版平臺(tái)轉(zhuǎn)換為分布式、以事件為中心和RDF為基礎(chǔ)的復(fù)合語(yǔ)義架構(gòu),保證語(yǔ)義出版產(chǎn)品的質(zhì)量和穩(wěn)健性。
PubMed Central是由NIH/NLM創(chuàng)建并維護(hù)的生物醫(yī)學(xué)和生命科學(xué)文獻(xiàn)資源整合中心,隸屬于美國(guó)國(guó)家生物技術(shù)中心,其在OA期刊的數(shù)字化出版技術(shù)遠(yuǎn)超其他平臺(tái)[8]。PMC在語(yǔ)義出版過(guò)程中的主要做法是實(shí)現(xiàn)文獻(xiàn)全文XML格式轉(zhuǎn)換及動(dòng)態(tài)呈現(xiàn)[9]。
2012年,美國(guó)國(guó)家生物技術(shù)中心基于PMC和各出版商的實(shí)踐開(kāi)發(fā)期刊文檔標(biāo)簽套件(the Journal Article Tag Suite,JATS),一組定義XML元素、期刊文獻(xiàn)標(biāo)記屬性的NLM DTD(National Library of Medicine Document Typing Definitions)標(biāo)準(zhǔn)[10],用于對(duì)文獻(xiàn)格式進(jìn)行統(tǒng)一描述。JATS規(guī)定期刊文章分為四部分:前置部分(front),存儲(chǔ)期刊論文的元數(shù)據(jù)內(nèi)容;主體部分(body),存儲(chǔ)文章正文部分的內(nèi)容信息,細(xì)分為內(nèi)容、章節(jié)及簽名欄三部分,由與數(shù)學(xué)公式、表格、圖片、文本內(nèi)容、其他輔助信息相關(guān)的26種元素組成;后置部分(back),存儲(chǔ)術(shù)語(yǔ)表、參考文獻(xiàn)或附錄等輔助信息;浮動(dòng)部分(floats-group),包括文章主體和后置部分引用的圖和表、對(duì)文章的評(píng)論、編輯的總結(jié)、讀者反饋、作者對(duì)同行評(píng)議內(nèi)容的反饋、文章的次級(jí)論文等[11-12]。同時(shí),JATS標(biāo)準(zhǔn)兼容多方使用需求,根據(jù)不同的應(yīng)用場(chǎng)景對(duì)標(biāo)簽集進(jìn)行分類,包括存檔和交換標(biāo)簽集[13]、期刊出版標(biāo)簽集[14]和文章作者文檔標(biāo)簽集[15]。
另外,JATS提供了一種通用的期刊數(shù)據(jù)交換文檔格式,是推動(dòng)PMC語(yǔ)義出版發(fā)展的核心技術(shù),由于其良好的適用性與可操作性,目前廣泛應(yīng)用于出版商、科技期刊、知識(shí)庫(kù)和圖書(shū)館等機(jī)構(gòu),并且已成為美國(guó)的國(guó)家標(biāo)準(zhǔn)和科技期刊界的行業(yè)標(biāo)準(zhǔn)[11]。
RSC是全球知名的化學(xué)科學(xué)出版社之一,目前已出版44個(gè)同行評(píng)議期刊,提供一系列在線數(shù)據(jù)庫(kù)和文獻(xiàn)更新服務(wù),是語(yǔ)義出版領(lǐng)域的重要范例[16]。2007年,RSC提出“Science Come Alive”并進(jìn)行積極探索[17],設(shè)立的RSC Prospect項(xiàng)目旨在通過(guò)語(yǔ)義增強(qiáng)實(shí)現(xiàn)期刊文章的機(jī)器可讀,豐富RSC期刊在線出版的功能。RSC語(yǔ)義出版模式的關(guān)鍵是利用本體和唯一的化合物標(biāo)識(shí)符,使文章可被計(jì)算機(jī)識(shí)別。RSC的技術(shù)編輯在文章中標(biāo)識(shí)出化合物、概念和數(shù)據(jù),將其鏈接至相關(guān)的學(xué)術(shù)環(huán)境,極大增強(qiáng)了RSC文章(HTML格式)對(duì)學(xué)科知識(shí)的揭示和關(guān)聯(lián)能力。
由圖2可見(jiàn),RSC語(yǔ)義出版的核心要素包括對(duì)化學(xué)學(xué)科知識(shí)環(huán)境的關(guān)聯(lián)、科技期刊論文的結(jié)構(gòu)化描述與標(biāo)記以及全文嵌入式HTML的呈現(xiàn)方式[18]。
(1)關(guān)聯(lián)化學(xué)學(xué)術(shù)環(huán)境。為更好地實(shí)現(xiàn)化學(xué)學(xué)科相關(guān)內(nèi)容和數(shù)據(jù)的讀取、對(duì)比,RSC將本體與自建的基于Web的化學(xué)結(jié)構(gòu)數(shù)據(jù)庫(kù)(ChemSpider)關(guān)聯(lián),形成RSC語(yǔ)義出版自有的基礎(chǔ)信息系統(tǒng)。
(2)結(jié)構(gòu)化描述與標(biāo)記?;玖鞒贪╔ML預(yù)處理、XML編輯與修正、結(jié)合語(yǔ)境和主題領(lǐng)域?qū)?yīng)的XML標(biāo)注。
(3)嵌入式HTML的呈現(xiàn)。RSC語(yǔ)義出版的學(xué)術(shù)期刊以Rich HTML形式發(fā)布,且標(biāo)記為Rich HTML的文章可實(shí)現(xiàn)全文嵌入式HTML標(biāo)記,并以不同顏色突出顯示定義的詞匯,實(shí)現(xiàn)語(yǔ)義分類。
圖2 RSC語(yǔ)義出版核心要素
Elsevier作為全球領(lǐng)先的多媒體出版集團(tuán)和科學(xué)、技術(shù)、醫(yī)學(xué)信息產(chǎn)品和服務(wù)提供商[19],提出語(yǔ)義出版的發(fā)展路線圖[20],闡釋語(yǔ)義出版的內(nèi)涵和實(shí)現(xiàn)路徑,通過(guò)一系列技術(shù)對(duì)期刊論文進(jìn)行加工,使得原始文本附加值得以提升,最終變成富含語(yǔ)義知識(shí)的智能內(nèi)容。
Elsevier在語(yǔ)義出版方面進(jìn)行積極的嘗試與開(kāi)發(fā),2009年首次在Cell出版社實(shí)施“Article of the Future項(xiàng)目”[21-22],從呈現(xiàn)形式、內(nèi)容和上下文三個(gè)方面創(chuàng)新傳統(tǒng)的學(xué)術(shù)文獻(xiàn)服務(wù)。隨后,Elsevier旗下FEBS Letters與MINT合作,對(duì)發(fā)表在FEBS Letters上的論文提供結(jié)構(gòu)化摘要[23]。2012年,Elsevier發(fā)布醫(yī)學(xué)信息平臺(tái)ClinicalKey[24],將“智能內(nèi)容”引入臨床領(lǐng)域,實(shí)現(xiàn)檢索人性化、可定制的內(nèi)容服務(wù)。ClinicalKey擁有豐富的學(xué)科信息資源,包括國(guó)際性綜合生物醫(yī)學(xué)信息書(shū)目數(shù)據(jù)庫(kù)、期刊、圖書(shū)、圖片、醫(yī)療操作等13種門類[23],其與Healthline合作開(kāi)發(fā)愛(ài)思唯爾合并醫(yī)學(xué)分類法(Elsevier’s Merged Medical Taxonomy,EMMeT),并根據(jù)EMMeT進(jìn)行深度標(biāo)引,將信息資源轉(zhuǎn)換成核心醫(yī)學(xué)概念、同義詞、等級(jí)關(guān)系、本體關(guān)系的分類系統(tǒng)體系和本體庫(kù),支持語(yǔ)義檢索,為檢索請(qǐng)求提供具有針對(duì)性且具體的答案。Elsevier作為知名出版機(jī)構(gòu),其在語(yǔ)義出版方面的實(shí)踐真正意義上呈現(xiàn)了國(guó)際語(yǔ)義出版發(fā)展全歷程,尤其是ClinicalKey作為語(yǔ)義出版在醫(yī)學(xué)領(lǐng)域的經(jīng)典應(yīng)用實(shí)例,為數(shù)據(jù)庫(kù)語(yǔ)義化發(fā)展及學(xué)科語(yǔ)義出版平臺(tái)構(gòu)建提供了寶貴經(jīng)驗(yàn)。目前,Elsevier旗下的ScienceDirect平臺(tái)已經(jīng)在7個(gè)學(xué)科領(lǐng)域建立語(yǔ)義出版模型[25]。
隨著語(yǔ)義出版在知識(shí)點(diǎn)聚類上的優(yōu)勢(shì)逐漸顯現(xiàn),我國(guó)出版領(lǐng)域也進(jìn)行積極的嘗試與開(kāi)發(fā)。2009年彭?,B等率先提出Journal 3.0模型,從豐裕化結(jié)構(gòu)化語(yǔ)義化內(nèi)容(Enriched Content)、關(guān)聯(lián)與融匯發(fā)現(xiàn)技術(shù)(Linked & Mashed-up Discovery)、開(kāi)放與交互的傳播利用方法(Open & Collaborative Communication)三個(gè)維度揭示期刊數(shù)字化發(fā)展模型[20]。
隨后,國(guó)內(nèi)大的數(shù)據(jù)庫(kù)商(如萬(wàn)方數(shù)據(jù)庫(kù))、期刊采編系統(tǒng)提供商(如瑪格泰克)和部分期刊也開(kāi)始逐步嘗試語(yǔ)義出版模式。2014年,中華醫(yī)學(xué)會(huì)雜志社在研究JATS的基礎(chǔ)上推出中華醫(yī)學(xué)會(huì)期刊文檔交換和存儲(chǔ)標(biāo)準(zhǔn)CMA JATS,依此指導(dǎo)期刊數(shù)據(jù)的生產(chǎn),邁出資源整合關(guān)鍵的一步,推動(dòng)全文數(shù)字出版[26]。2016年,樂(lè)小虬等開(kāi)發(fā)了一種面向語(yǔ)義出版的機(jī)構(gòu)化論文寫(xiě)作工具DPaper,實(shí)現(xiàn)論文在寫(xiě)作階段的結(jié)構(gòu)化、對(duì)象化[27]。2017年,國(guó)內(nèi)首個(gè)學(xué)術(shù)期刊動(dòng)態(tài)語(yǔ)義出版與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室成立,定位以應(yīng)用為導(dǎo)向促進(jìn)學(xué)術(shù)期刊動(dòng)態(tài)語(yǔ)義出版和知識(shí)服務(wù)技術(shù)及產(chǎn)業(yè)發(fā)展。
目前國(guó)內(nèi)語(yǔ)義出版仍處于探索階段,由于語(yǔ)義技術(shù)與檢索技術(shù)在具體領(lǐng)域?qū)嵺`方面的欠缺,及出版體制、資源權(quán)屬等問(wèn)題,與國(guó)外還存在一定差距,語(yǔ)義分類與檢索系統(tǒng)還不夠成熟[28]。目前國(guó)內(nèi)語(yǔ)義出版主要形式是排版軟件開(kāi)發(fā)商與各期刊采編系統(tǒng)提供商合作,實(shí)現(xiàn)編輯平臺(tái)到排版軟件的直接對(duì)接,部分期刊/機(jī)構(gòu)與其達(dá)成三方合作,最終實(shí)現(xiàn)以中文全文HTML或Rich HTML的形式發(fā)布。其中,依托于中國(guó)作物學(xué)會(huì)和中國(guó)農(nóng)業(yè)科學(xué)院作物科學(xué)研究所的期刊《作物學(xué)報(bào)》是由Rich HTML發(fā)布的典型案例,其技術(shù)支持歸屬于瑪格泰克。
李楠等在大量的語(yǔ)義出版研究文獻(xiàn)基礎(chǔ)上歸納出語(yǔ)義出版的兩條基本技術(shù)路線:(1)借助本體技術(shù)實(shí)現(xiàn)文獻(xiàn)對(duì)象及其知識(shí)內(nèi)容的語(yǔ)義描述;(2)采用關(guān)聯(lián)數(shù)據(jù)為出版物連接更多外部開(kāi)放的數(shù)據(jù)資源提供技術(shù)框架[25]。由于學(xué)科領(lǐng)域發(fā)展和技術(shù)路線的差異性,上述各機(jī)構(gòu)/平臺(tái)對(duì)數(shù)字資源內(nèi)容描述模型不盡相同(見(jiàn)表1)。
表1 數(shù)字資源描述
從描述語(yǔ)言來(lái)看,語(yǔ)義出版描述語(yǔ)言常用的是XML和RDF,兩者在一定程度上是互補(bǔ)的。XML是一種完全面向數(shù)據(jù)語(yǔ)義的標(biāo)記語(yǔ)言,具有易控制、易擴(kuò)展、易綜合等特性,但在數(shù)據(jù)含義交換正確性等方面還存在一定問(wèn)題。RDF以XML作為編碼和傳輸?shù)恼Z(yǔ)法,其模型描述能力非常強(qiáng)大,可以全面地描述任意復(fù)雜資源,但使用技術(shù)門檻較高[29]。應(yīng)用場(chǎng)景上,XML主要用于出版內(nèi)容的結(jié)構(gòu)化、碎片化和形式化描述,RDF三元組更適用于后期發(fā)布和應(yīng)用階段。
從描述模型來(lái)看,Nature、RSC語(yǔ)義出版均采用本體技術(shù),極大地提高了出版物檢索效率,使信息服務(wù)更加具有針對(duì)性和專業(yè)性。PMC采用的JATS已成為應(yīng)用較廣泛的文獻(xiàn)資源描述模型之一,三種針對(duì)不同應(yīng)用場(chǎng)景的標(biāo)簽集可供使用者選擇以完成文檔的轉(zhuǎn)換、存儲(chǔ)及管理,優(yōu)化工作流程。
2012年,Shotton歸納了語(yǔ)義出版的實(shí)踐形式,并定義了語(yǔ)義出版的8項(xiàng)語(yǔ)義增強(qiáng)功能[30]:(1)豐富對(duì)在線論文有機(jī)內(nèi)容的描述,如交互式圖形、數(shù)據(jù)表格、參考文獻(xiàn)列表等;(2)增強(qiáng)對(duì)論文內(nèi)容描述的語(yǔ)義標(biāo)注,如通過(guò)命名實(shí)體的語(yǔ)義標(biāo)記,鏈接術(shù)語(yǔ)和概念的描述性定義及有關(guān)實(shí)體的附加信息;(3)提供與文獻(xiàn)相關(guān)的其他信息來(lái)源鏈接,如文獻(xiàn)作者個(gè)人主頁(yè)、相關(guān)的國(guó)際機(jī)構(gòu)網(wǎng)址等;(4)提供參考文獻(xiàn)的鏈接;(5)以可操作形式提供文獻(xiàn)實(shí)驗(yàn)數(shù)據(jù)的訪問(wèn),如可下載的電子表格或CSV等;(6)提供對(duì)支持該文獻(xiàn)研究的全數(shù)據(jù)集的訪問(wèn);(7)實(shí)現(xiàn)語(yǔ)義相關(guān)文獻(xiàn)的信息集成;(8)發(fā)布文獻(xiàn)信息采用通用的數(shù)據(jù)描述規(guī)范,實(shí)現(xiàn)開(kāi)放訪問(wèn),如內(nèi)容摘要、文獻(xiàn)的詳細(xì)題錄信息,以及參考文獻(xiàn)題錄信息等。
作者分別從Nature、Elsevier、RSC等選取部分期刊進(jìn)行調(diào)研,語(yǔ)義增強(qiáng)實(shí)現(xiàn)情況如表2所示。
四種期刊均實(shí)現(xiàn)了(1)(4)(8)功能,其他功能發(fā)展則相對(duì)不平衡,這表明針對(duì)文獻(xiàn)的章節(jié)圖表、基本題錄信息等內(nèi)容的結(jié)構(gòu)化、規(guī)范化描述已成為業(yè)界公認(rèn)的語(yǔ)義出版基本形式,而涉及部分語(yǔ)義特征描述的語(yǔ)義化功能則有待加強(qiáng)。
表2 語(yǔ)義增強(qiáng)功能實(shí)現(xiàn)情況
此外,本文對(duì)上述期刊/機(jī)構(gòu)已實(shí)現(xiàn)的語(yǔ)義出版基本形式范圍內(nèi)的多模態(tài)數(shù)字資源發(fā)布程度進(jìn)行對(duì)比分析,發(fā)現(xiàn)國(guó)內(nèi)外存在區(qū)別。(1)國(guó)外期刊/機(jī)構(gòu)提供文本、圖、表的形式更加多元化。如Nature允許將圖像以PPT文檔或其他格式導(dǎo)出使用,而《作物學(xué)報(bào)》的圖、表僅提供圖片格式的下載方式。(2)Nature、RSC等提供多媒體、計(jì)算機(jī)算法等附加資料,而國(guó)內(nèi)目前未有實(shí)踐案例。究其原因,附加資料的存儲(chǔ)、發(fā)布、傳播、管理涉及復(fù)雜的技術(shù)、知識(shí)產(chǎn)權(quán)、標(biāo)準(zhǔn)以及管理機(jī)制[20],國(guó)內(nèi)外發(fā)展水平不一,其本身也存在一系列有待研究的問(wèn)題,如鏈接機(jī)制,存檔及長(zhǎng)期保存機(jī)制,復(fù)雜技術(shù)環(huán)境下的封裝、交換和傳遞機(jī)制等[31]。
語(yǔ)義出版發(fā)布形式是語(yǔ)義檢索、展示、存儲(chǔ)和傳播等知識(shí)服務(wù)層面的直觀產(chǎn)物,不同的發(fā)布形式各有側(cè)重。如表3所示,Nature、Elsevier、RSC和瑪格泰克的語(yǔ)義出版發(fā)布形式是Rich HTML(也被稱為Enhanced HTML),指以HTML標(biāo)準(zhǔn),即網(wǎng)頁(yè)形式呈現(xiàn)文章內(nèi)容,并在文章原文基礎(chǔ)上進(jìn)行內(nèi)容分析、知識(shí)標(biāo)引,以達(dá)到富媒體出版的目的,為讀者提供便利、輕量級(jí)、具有互動(dòng)性的閱讀方式。值得指出的是,RSC是最早推出Rich HTML形式語(yǔ)義出版服務(wù)的。Rich HTML是科技期刊出版的重要發(fā)展方向,國(guó)際上一些優(yōu)秀期刊出版平臺(tái)已相繼開(kāi)展Rich HTML風(fēng)格及功能特點(diǎn)的完善工作。
表3 語(yǔ)義出版發(fā)布形式
PMC的發(fā)布形式是基于HTML5及CSS3技術(shù)的PubReader[32]和基于XML的開(kāi)放格式ePub。PubReader可適應(yīng)任意尺寸的顯示屏,增強(qiáng)用戶閱讀體驗(yàn);ePub則對(duì)復(fù)雜格式支持較好。
除上述發(fā)布形式外,語(yǔ)義出版物發(fā)展過(guò)程中還存在兩個(gè)基于知識(shí)單元的關(guān)鍵模型——納米出版物模型和微型出版物模型。納米出版物模型在開(kāi)展知識(shí)資源的自動(dòng)搜集、分析和語(yǔ)義檢索、過(guò)濾時(shí),可以定位到某一觀點(diǎn)、結(jié)論/實(shí)驗(yàn)數(shù)據(jù)的相關(guān)信息或資源,粒度更小,層次更深,可以提高知識(shí)的共用、共享程度[33];微型出版物模型具有明顯的模塊化、結(jié)構(gòu)化、形式化和網(wǎng)絡(luò)化特點(diǎn),但在知識(shí)表示能力和內(nèi)容組織架構(gòu)上仍存在不足[34]。
在語(yǔ)義技術(shù)和數(shù)字出版行業(yè)的推動(dòng)下,語(yǔ)義出版正穩(wěn)步向?qū)嵗统墒旎~進(jìn),這一趨勢(shì)不可逆轉(zhuǎn),傳統(tǒng)出版服務(wù)將成為學(xué)術(shù)期刊數(shù)字化生存形態(tài)的一種補(bǔ)充。
本文對(duì)國(guó)內(nèi)外重要語(yǔ)義出版機(jī)構(gòu)/平臺(tái)的發(fā)展實(shí)踐進(jìn)行梳理,通過(guò)多角度對(duì)比分析得出結(jié)論:(1)從語(yǔ)義技術(shù)和本體技術(shù)的發(fā)展來(lái)看,國(guó)內(nèi)語(yǔ)義出版應(yīng)用實(shí)踐相對(duì)滯后于國(guó)外,作為語(yǔ)義出版的基礎(chǔ),對(duì)中文本體庫(kù)的建立顯得尤為迫切;(2)本體技術(shù)對(duì)語(yǔ)義出版的發(fā)展有非常重要的作用,但由于學(xué)科領(lǐng)域本體發(fā)展的不均衡性,目前語(yǔ)義出版應(yīng)用主要分布在語(yǔ)義技術(shù)應(yīng)用廣泛且實(shí)踐成果豐富的醫(yī)學(xué)、生物、化學(xué)等領(lǐng)域;(3)語(yǔ)義增強(qiáng)功能方面,絕大多數(shù)期刊/文獻(xiàn)資源已基本實(shí)現(xiàn)題錄信息、章節(jié)圖表、參考文獻(xiàn)等內(nèi)容的規(guī)范化、結(jié)構(gòu)化描述,涉及語(yǔ)義特征自動(dòng)抽取的技術(shù)內(nèi)容需進(jìn)一步研究實(shí)踐。
總之,語(yǔ)義出版改變了文獻(xiàn)出版和學(xué)術(shù)傳播的形態(tài),為學(xué)術(shù)資源帶來(lái)全新的組織發(fā)布方式,其在高效利用數(shù)據(jù)集、提高自動(dòng)化程度及增強(qiáng)用戶體驗(yàn)等方面面臨的挑戰(zhàn)是適應(yīng)語(yǔ)義及大數(shù)據(jù)時(shí)代發(fā)展的新契機(jī)。只有針對(duì)性地解決語(yǔ)義網(wǎng)、出版和學(xué)科領(lǐng)域現(xiàn)有問(wèn)題,才能更好地促進(jìn)語(yǔ)義出版發(fā)展。本文認(rèn)為,在推動(dòng)語(yǔ)義出版研究與實(shí)踐過(guò)程中,可在多模態(tài)數(shù)字資源內(nèi)容結(jié)構(gòu)化、碎片化和形式化等知識(shí)表示技術(shù),細(xì)粒度知識(shí)單元識(shí)別與抽取、知識(shí)組織,多維多源知識(shí)語(yǔ)義關(guān)聯(lián)等語(yǔ)義增強(qiáng)方面繼續(xù)深入研究。同時(shí),還需要出版商、科技期刊和圖書(shū)情報(bào)服務(wù)機(jī)構(gòu)在出版機(jī)制、知識(shí)產(chǎn)權(quán)和開(kāi)放共享等方面開(kāi)展研究協(xié)作,共同推動(dòng)語(yǔ)義數(shù)據(jù)驅(qū)動(dòng)的新型學(xué)術(shù)交流體系的形成。
[1] SHOTTON D.Semantic publishing: the coming revolution in scientific journal publishing[J].Learned Publishing,2009,22(2):85-94.
[2] SHOTTON D,PORTWIN K,KLYNE G,et al.Adventures in semantic publishing: exemplar semantic enhancements of a research article[J].PLos Computational Biology,2009,5(4):1-17.
[3] SPAR-semantic publishing and reference[EB/OL].[2017-10-19].http://sempublishing.sourceforge.net/.
[4] 王曉光,陳孝禹.語(yǔ)義出版的概念與形式[J].出版發(fā)行研究,2011(11):54-58.
[5] HAMMOND T,PASIN M.Linked data experience at Macmillan:building discovery services for scientific and scholarly content on top of a semantic data model[C]//13th International Semantic Web Conference,2014.
[6] HAMMOND T,PASIN M.The nature.com ontologies portal[C]//5th Workshop on Linked Science 2015,Colocated with International Semantic Web Conference 2015.Bethlehem:2015.h
[7] Springer Nature SciGraph: A linked open data platform for the scholarly domain[EB/OL].[2017-10-20].http://www.springernature.com/gp/researchers/scigraph.
[8] 鄒強(qiáng),袁慶,康林,等.PubMed Central的數(shù)字化出版簡(jiǎn)介[J].中國(guó)科技期刊研究,2014,25(2):240-242.
[9] National Center for Biotechnology Information.PubReader? view of articles[EB/OL].[2017-10-20].http://www.ncbi.nlm.nih.gov/pmc/about/pubreader/.
[10] JATS.Main Page[EB/OL].[2017-10-20].http://webservices.itcs.umich.edu/mediawiki/jats/index.php/Main_Page.
[11] 包靖玲,李敬文,沈錫賓,等.美國(guó)NLM DTD3.0期刊存儲(chǔ)和交換標(biāo)簽集中文章正文部分標(biāo)記解讀[J].中國(guó)科技期刊研究,2014,25(4):515-519.
[12] 康宏宇,侯震,李姣.基于JATS數(shù)據(jù)標(biāo)準(zhǔn)的全文文獻(xiàn)管理[J].中國(guó)科技期刊研究,2015,26(11):1171-1175.
[13] National Center for Biotechnology Information.Journal Archiving and Interchange Tag Set[EB/OL].[2017-10-20].http://jats.nlm.nih.gov/archiving/rationale.html.
[14] National Center for Biotechnology Information.Journal Publishing Tag Set[EB/OL].[2017-10-20].http://jats.nlm.nih.gov/publishing.
[15] National Center for Biotechnology Information.Article Authoring Tag Set[EB/OL].[2017-10-20].http://jats.nlm.nih.gov/articleauthoring/rationale.html.
[16] The Royal Society of Chemistry’s[EB/OL].[2017-10-20].http://pubs.rsc.org/.
[17] Molecular BioSystems Group.Science come alive[J].Molecular BioSystems,2007,3(1):B8-0.
[18] 翁彥琴,李苑,彭希珺.英國(guó)皇家化學(xué)會(huì)(RSC)——科技期刊語(yǔ)義出版模式的研究[J].中國(guó)科技期刊研究,2013,24(5):825-829.
[19] Elsevier.Take on challenges facing the world’s medical students[EB/OL].[2017-10-20].https://www.elsevier.com/about.
[20] 彭?,B,張曉林.國(guó)際學(xué)術(shù)期刊的數(shù)字化發(fā)展趨勢(shì)[J].中國(guó)科技期刊研究,2013,24(6):1033-1038.
[21] RYLEY J.Article of the future[J].American Journal of Orthodontics &Dentofacial Orthopedics,2015,148(6):888-889.
[22] SOUZA E P,CABRERA E M,BRAILE D M.The article of the future[J].Revista Brasileira De Cirurgia Cardiovascular Orgao Oficial Da Sociedade Brasileira De Cirurgia Cardiovascular,2010,25(2):141.
[23] 翁彥琴,彭?,B.愛(ài)思唯爾(Elsevier)語(yǔ)義出版模式研究[J].中國(guó)科技期刊研究,2014,25(10):1256-1261.
[24] ClinicalKey[EB/OL].[2017-10-20].https://www.clinicalkey.com/#!/.
[25] 李楠,孫濟(jì)慶,馬卓.面向?qū)W術(shù)文獻(xiàn)的語(yǔ)義出版技術(shù)研究[J].出版科學(xué),2015,23(6):85-92.
[26] 沈錫賓,李鵬,王紅劍,等.中華醫(yī)學(xué)會(huì)系列期刊全文電子文檔交換和存儲(chǔ)標(biāo)準(zhǔn)初探[J].中國(guó)科技期刊研究,2015,26(5):475-479.
[27] 樂(lè)小虬,王子璇,張曉林,等.DPaper:一種面向語(yǔ)義出版的結(jié)構(gòu)化論文寫(xiě)作工具設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2016,32(11):76-81.
[28] 胡澤文.基于WordNet和SUMO本體集成的自動(dòng)語(yǔ)義檢索及可視化模型[J].國(guó)家圖書(shū)館學(xué)刊,2012,21(2):23-32.
[29] 馬福誠(chéng),劉保良,張明亮,等.XML與RDF的比較分析[C].天津:海軍海洋測(cè)繪研究所,2008.
[30] SHOTTON D.The Five Stars of Online Journal Articles,an article evaluation framework[J/OL].D-Lib Magazine,2012,18(1/2)[2017-10-20].http://www.dlib.org/dlib/january12/shotton/01shotton.html.
[31] MARTINSEN D.Strategic Integration of Article Content: Managing Supplemental Materials(part B)[EB/OL].[2017-10-21].http://www.stm-assoc.org/2011_04_26_Spring_Conference_Martinsen_Strategic_Integration_of_Article_Content_Part_B.pdf.
[32] U.S. National Library of Medicine.NCBITools/PubReader[EB/OL].[2017-10-21].https://github.com/NCBITools/PubReader.
[33] 吳思竹,李峰,張智雄.知識(shí)資源的語(yǔ)義表示和出版模式研究——以Nanopublication為例[J].中國(guó)圖書(shū)館學(xué)報(bào),2013,39(4):102-109.
[34] 王曉光,宋寧遠(yuǎn).語(yǔ)義出版物的內(nèi)容組織架構(gòu)研究——基于納米出版物和微型出版物的比較分析[J].出版科學(xué),2017,25(4):20-27.
Research on Semantic Publishing Practice
LI Jiao, KOU YuanTao, HUANG YongWen, XUE HuanHuan, XIAN GuoJian
(Agricultural Information Institute, Chinese Academy of Agricultural Sciences, Beijing 100081, China)
This paper introduces the practice progress of a few major semantic publishing institutions or platforms, compares them from three aspects of digital resource description model, semantic enhancement and semantic publication form, and then summarizes the gaps in semantic publishing situation between domestic and foreign, the common characteristics and problems of existing practice research. Moreover, this paper discusses the development strategy of semantic publishing model of sci-tech periodicals to provide reference for the research and practice of semantic publishing in China.
Semantic Publish; Description Model; Semantic Enhancement; Publication Form
2017-10-31)
G274
10.3772/j.issn.1673-2286.2017.12.004
* 本研究得到公益性科研院所基本科研業(yè)務(wù)費(fèi)項(xiàng)目(編號(hào):JBYW-AII-2016-17)和中國(guó)農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程項(xiàng)目(編號(hào):CAAS-ASTIP-2017-AII)資助。
李嬌,女,1989年生,碩士,助理館員,研究方向:知識(shí)組織、關(guān)聯(lián)數(shù)據(jù)、語(yǔ)義檢索。
寇遠(yuǎn)濤,男,1982年生,博士,副研究館員,碩士生導(dǎo)師,研究方向:數(shù)字圖書(shū)館理論與技術(shù)、信息管理與信息系統(tǒng)。
黃永文,女,1975年生,博士,副研究館員,研究方向:語(yǔ)義檢索、關(guān)聯(lián)數(shù)據(jù)。
薛歡歡,女,1994年生,碩士研究生,研究方向:信息資源管理。
鮮國(guó)建,男,1982年生,博士,副研究館員,通訊作者,研究方向:知識(shí)組織、關(guān)聯(lián)數(shù)據(jù)、語(yǔ)義出版、信息系統(tǒng)開(kāi)發(fā),E-mail:xianguojian@caas.cn。