■沈錫賓 李 鵬 王紅劍 劉 冰 姜永茂
1)中華醫(yī)學(xué)會雜志社新媒體部,北京東四西大街42號 100710
2)中華醫(yī)學(xué)會雜志社,北京東四西大街42號 100710
隨著信息技術(shù)和數(shù)字技術(shù)的迅猛發(fā)展,傳統(tǒng)的專業(yè)學(xué)術(shù)出版領(lǐng)域正被逐步顛覆。近年來,科技期刊出版人頗為深切的感受到,讀者的閱讀行為逐漸轉(zhuǎn)至PC端和移動端[1-3],紙本的訂閱總體呈現(xiàn)萎縮的趨勢[4]。面對這些困境,同仁們在苦尋各種方式以吸引讀者。2013年的調(diào)研數(shù)據(jù)顯示,中國科協(xié)1056種科技期刊建設(shè)網(wǎng)站的有812種,占76.9%[5]。這些網(wǎng)站起到了期刊宣傳窗口的功能,但服務(wù)窗口的功能尚待提升。如何聯(lián)合學(xué)術(shù)期刊、整合現(xiàn)有資源、共建專業(yè)性平臺、垂直服務(wù)于讀者、精準化營銷,創(chuàng)造一種可持續(xù)的盈利模式,成為當前業(yè)界學(xué)者廣泛探討的問題??墒侵袊萍计诳霭嫔纾ň庉嫴浚┬《⒌奶攸c,使得同仁們在數(shù)字出版時代的努力捉襟見肘。首當其沖的是數(shù)據(jù)整合的標準,慶幸的是,在資源整合和數(shù)據(jù)質(zhì)量方面國外數(shù)字出版已有十多年經(jīng)驗積累可以借鑒,并形成了一批現(xiàn)成的規(guī)范和標準[6-8]。據(jù)筆者所知,國際大型出版商一直推薦使用XML作為數(shù)據(jù)交換和存儲的基礎(chǔ),國內(nèi)很多同行也認為XML是作為科技期刊內(nèi)容交換和存儲的不二法門[9]。
中華醫(yī)學(xué)會(CMA)雜志社從2006年開始接觸NLM DTD規(guī)范(現(xiàn)已升級為美國國家標準NISO JATS),2013 年對 NLM JATS 3.0 進行剖析[6-8],并開始研制符合中國科技期刊特點的全文結(jié)構(gòu)化文檔標準,2014年10月初版成型,制作了Schema并進行了發(fā)布,命名為CMA JATS 0.1版本。據(jù)筆者了解,該標準為國內(nèi)第一個由雜志社發(fā)起制定并用于實際應(yīng)用的全文層面的數(shù)據(jù)標準。本文將詳細介紹此標準,以期對同行有所借鑒。
出于對不同時間段內(nèi)文獻標引質(zhì)量和成本-效益比的考量,CMA JATS 0.1準備起初設(shè)計了兩套不同顆粒度的標準。一套用于全文信息點標引的標準,主要包括了文前信息(<font>),正文信息(<body>)和文后信息(<back>)3大部分。另一套用于文檔元數(shù)據(jù)標引,包括了論文的摘要信息和全文PDF的信息。前者改編自美國NLM JATS3.0,繼承了NLM JATS的大部分元素和屬性,然后基于中文科技期刊的特性和CMA系列期刊的需求做了一些增刪。摘要信息的標引標準盡可能的保留論文的元數(shù)據(jù)(metadata),同時在英文數(shù)據(jù)的標引上能與國外的數(shù)據(jù)庫進行銜接。本文主要提及全文的標引標準,所以下文中提及的CMA JATS均特指用于標注全文信息的數(shù)據(jù)標準。
實踐應(yīng)用中,尋求合適的顆粒度是標準制訂的難點之一。過于繁復(fù),對于制定者來說,提高了標準推行的門檻;對于標準的執(zhí)行者來說,提高了標準認知的難度,加重了整個數(shù)據(jù)流程鏈上各環(huán)節(jié)人財物的投入;有可能導(dǎo)致標準落地難,出現(xiàn)被束之高閣的尷尬結(jié)局。反之,過于簡略、粗線條化,會限制標準的適應(yīng)性和生命力,削弱文獻的知識深度;有可能為后續(xù)文檔的重利用、知識挖掘和提升和商業(yè)產(chǎn)品的設(shè)計埋下隱患。所以避免兩個極端,獲得適合的平衡點是在標準制定中貫徹全程的主線之一。
CMA JATS 0.1的全文標準定義了168個元素和88個屬性。元素可以理解為期刊論文的顆粒度或知識點,屬性是對各元素中共性內(nèi)容的提煉,可理解為對這些元素的擴展。比如在定義參考文獻(<ref>)這一知識點時,將其下的<mixed-citation>(混合類型參考文獻)元素定義了52個元素(這可以理解為每條參考文獻的內(nèi)容可以拆分成哪些信息點),篇幅問題,我們就幾個較常見的信息點進行舉例,比如 <article-title>(文題)、<name>(作者)、<source>(期刊名稱或出處)、<year>(出版年)、<volume>(出版卷)、<issue>(出版期)、<fpage>(起始頁)、<lpage>(終止頁)等等。 <mixed-citation>本身也定義了幾個屬性作為擴展,其中@publication-format和@publication-type是兩個比較重要的屬性。@publication-format指明了出版的媒介,比如“print”(紙媒)、 “electronic”(電子)、“video”(視頻)、 “audio”(音頻)、 “ebook”(電子書)、 “online-only”(僅在線)。 @publication-type指明了出版的類型,比如“journal”(期刊)、 “book”(書)、“l(fā)etter”(信件)、“patent”(專利)、“report”(報告)、“standard”(標準)等等。通過這兩個屬性就可以完整的標注參考文獻的來源和類型。
由上可見,CMA JATS 0.1標注全文的顆粒度是相對較深的,可能是目前國內(nèi)科技期刊數(shù)據(jù)規(guī)范設(shè)計中顆粒度最高的,這一規(guī)范脫胎于美國的標準,所以可與國際標準進行接軌,適當?shù)霓D(zhuǎn)化就可以直接向國際知名數(shù)據(jù)庫上傳數(shù)據(jù),當然前提是他們認可并收錄中文科技期刊。
中華醫(yī)學(xué)會雜志社制定的標準首先考慮是否能為數(shù)據(jù)交換的國際化提供必要的支持,所以反復(fù)研究后認為以NISO JATS作為母版最能獲得國際認可。當然,國外十多年的實踐經(jīng)驗也驗證了該套標準在期刊數(shù)據(jù)的交換和存儲、甚至出版中的穩(wěn)定性和通用性。所以中華醫(yī)學(xué)會雜志社首先繼承了NISO JATS的絕大部分元素、屬性和實體,然后對部分的元素和屬性做刪減,產(chǎn)生了CMA JATS 0.1。做出刪減的原因部分是考慮到顆粒度過深,但價值有限;部分是因為中文語言不存在的情形;但這些刪減不影響數(shù)據(jù)的準確性和與國外數(shù)據(jù)庫的對接。當然更重要的是考慮到初版標準的可行性,不至于影響數(shù)據(jù)加工商的加工效率,加重數(shù)據(jù)加工的成本。
為適應(yīng)中國科技期刊,尤其是生物醫(yī)學(xué)期刊的特點,中華醫(yī)學(xué)會雜志社也在細節(jié)上做了調(diào)整。
NISO JATS的定義者和使用者幾乎均為英語系國家,所以,英語成為該標準的默認選項或主導(dǎo)語種。雖然NISO JATS也允許在大部分的元素上附帶“xml:lang”的屬性來區(qū)別標注內(nèi)容的語言,但對于中國的期刊來說,母語還是中文為主,出于使用上的習慣考慮,直接將語言的默認值進行了調(diào)整,同時在雙語的內(nèi)容標注時,將中文內(nèi)容作為第一選項,英語成為了第二語言(翻譯版本,前面冠上trans-)。
部分中文期刊還有較純英文期刊不同的地方是同一內(nèi)容同時存在兩種語言的描述。比如圖表的標題或注解,某些期刊使用了中文和英文同時說明。還有一些期刊對于中文的參考文獻在其下附上了英文的翻譯。CMA JATS標準也考慮到了這些情況。
中文的科技期刊在不少方面有其特殊的內(nèi)容。這些是國外期刊不具備的信息。比如,很多期刊有分類號和中圖分類法。某些計算機無法輸入的特殊漢字,在排版輸出時一般會啟用“補字”,所以在一些國際標準中不可能出現(xiàn)插入圖片的內(nèi)容中增加了行內(nèi)圖(<inline-graphic>)這一元素。
XML本身具有可擴展的特點,所以標準的特性之一便是其具有一定的靈活性。為能使得數(shù)據(jù)的知識附加值得到一定的提升,我們在參考文獻的信息點上做了兩項擴展。其一是增加被引文獻期刊當年的影響因子(<cur-if>),關(guān)聯(lián)的數(shù)據(jù)源可以是JCR或CJCR。其二是該參考文獻的摘要信息(<abstract>)。通過這2個元素可極大擴展論文的信息量,再結(jié)合引文鏈接的方式進行原文跳轉(zhuǎn),讓讀者最大限度的獲取論文相關(guān)的知識點,追溯研究的來龍去脈。
前文已述,標準的制訂最終需落實到實際應(yīng)用中。中華醫(yī)學(xué)會雜志社在2014年10月推出該標準前,已將CMA JATS標準與上流和下流企業(yè)進行了深入溝通。在數(shù)字出版上流,我們跟數(shù)據(jù)加工商進行了商討,以便讓他們準確地認知我們的標準及其顆粒度,并指導(dǎo)他們依照統(tǒng)一的規(guī)格來制作數(shù)據(jù)。同時雜志社根據(jù)加工商的反饋信息進行修訂,在標準與加工效率之間取得平衡,盡可能提高計算機輔助識別的比例,降低人工標識的成本和人為失誤。同時基于此標準開發(fā)了Schema,以此為準繩,對生產(chǎn)商的數(shù)據(jù)進行基于計算機的形式審查,可初步對數(shù)據(jù)的質(zhì)量進行排查,避免不合法數(shù)據(jù)的入庫。在數(shù)字出版下流,跟平臺開發(fā)商合作,以此標準作為數(shù)據(jù)入庫的依據(jù),在對數(shù)據(jù)做先期驗證后將合法的數(shù)據(jù)進行解析、關(guān)鍵信息入庫、編制索引、正文內(nèi)容編譯成HTML,然后在網(wǎng)站進行展示。
截止2015年3月,中華醫(yī)學(xué)會雜志社已超過15種期刊啟用全文數(shù)據(jù)標準進行數(shù)據(jù)加工,并可以通過后臺資源管理系統(tǒng)打包上傳至網(wǎng)刊發(fā)布系統(tǒng),解析后統(tǒng)一發(fā)布至各編輯部的官網(wǎng)上。
眾所周知,實現(xiàn)數(shù)字出版的第一要務(wù)是資源整合。中華醫(yī)學(xué)會雜志社利用CMA JATS標準指導(dǎo)期刊數(shù)據(jù)的生產(chǎn),走出了資源整合的第一步,即便是后端產(chǎn)品還不成熟,但通過資源管理平臺對這些數(shù)據(jù)進行管理和存儲,本身就為后期的應(yīng)用打下重要的基礎(chǔ)。
從研究美國標準開始,到2014年6月開始起草國內(nèi)標準,到10月份交付使用,撰寫標準的簡版說明、編制Schema、編寫樣例,不斷的測試、修訂。此項工作史無前例,中國科技期刊界經(jīng)驗相對不足,國內(nèi)同行對此相對陌生,專業(yè)人才更是欠缺,未在更大范圍內(nèi)征求同行意見,所以初版標準肯定存在一些不盡如人意的地方,筆者抱著開放的心態(tài),歡迎同行加入和利用該標準體系,通過更多的實踐來發(fā)現(xiàn)該標準的不足,通過更多的討論來完善它。
現(xiàn)階段,筆者認為存在的問題更多來自數(shù)據(jù)的生產(chǎn)鏈條。
雖然復(fù)合出版的理念深入人心,但國內(nèi)科技期刊數(shù)字出版相對落后,成事者寥寥,對于基于學(xué)科特點的數(shù)據(jù)加工更顯得力不從心。而作為勞動密集型的產(chǎn)業(yè),中國數(shù)據(jù)加工的企業(yè)不能算不多,但實際上傳統(tǒng)的數(shù)據(jù)加工過程僅限于文獻摘要信息的提取,做全文層面上的加工商不多。國內(nèi)也有幾家對外服務(wù)的數(shù)據(jù)服務(wù)商能理解國外的數(shù)據(jù)標準,并制作符合要求的結(jié)構(gòu)化數(shù)據(jù)。但這些企業(yè)對于國內(nèi)流行的排版文檔無能為力,加工的工具或軟件一般購自國外,無法適應(yīng)中文的環(huán)境,而且這些軟件和服務(wù)的價格可能超過了一般期刊社能承擔的范圍。
所以,培養(yǎng)合格的數(shù)據(jù)加工商是國內(nèi)科技期刊出版社面臨的一大難題。
若能結(jié)合當前的國內(nèi)外實踐進展,創(chuàng)造出基于XML的結(jié)構(gòu)化排版的科技期刊數(shù)字化生產(chǎn)流程模式,在排版的同時解決文檔結(jié)構(gòu)化問題將是一個一勞永逸的方案[10]。筆者以國外成熟的復(fù)合出版流程為例(圖1),簡要的說明結(jié)構(gòu)化排版的重要性。
圖1 國際科技期刊數(shù)字出版的簡化生產(chǎn)鏈
圖1中可以發(fā)現(xiàn)一個明顯的區(qū)別在于XML數(shù)據(jù)生產(chǎn)的前置,國外的期刊是先期在定稿后的文檔中進行結(jié)構(gòu)化預(yù)處理,然后生成XML,再導(dǎo)入排版軟件進行自動輸出[11]。大部分工作均在前期完成,排版的工作明顯弱化。同時,輸出的文件也比較多樣,可以直接輸出多平臺需要的多種格式文檔,比如kindle用的ePub、印刷用的PDF、手機端用的HTML等。XML數(shù)據(jù)可以通過轉(zhuǎn)化直接生成國際知名數(shù)據(jù)庫需要的文檔,比如PMC、PubMed、CrossRef等。很多出版商不是直接使用NISO JATS作為其標準,是因為各出版社的數(shù)據(jù)均有自己的特點,顆粒度上基本等同甚至超過NISO。所以不直接搬用這個標準還是考慮到了自身期刊的特定需求。
中國科技期刊的普遍狀況是,很多出版社還停留在傳統(tǒng)出版的思維模式中,首先考慮的是期刊的紙面呈現(xiàn)方式,實現(xiàn)紙質(zhì)出版,對期刊數(shù)據(jù)的后續(xù)應(yīng)用關(guān)注不多,所以導(dǎo)致論文的元數(shù)據(jù)信息無法自動提取,需要數(shù)據(jù)加工商在后續(xù)再行整理和加工。因此,國內(nèi)各家中文期刊社使用的排版軟件很少有基于結(jié)構(gòu)化排版思路的,生產(chǎn)的排版數(shù)據(jù)重利用價值相當有限。
國內(nèi)科技期刊對于期刊數(shù)據(jù)的管理經(jīng)驗相對匱乏,也缺乏這種意識,啟用資源管理平臺居指可數(shù),而基于XML文檔的資源管理系統(tǒng)更是欠缺。理想中的資源管理平臺應(yīng)能在理順科技期刊出版流程的基礎(chǔ)上,將期刊的采編、預(yù)格式化、自動排版、校對、拼版組版、按需出版和資源發(fā)布有機貫穿起來。尤其在采編后的過程中應(yīng)全程基于標準的XML數(shù)據(jù)作為核心中樞,讓數(shù)據(jù)制作、檢驗、管理和輸出一氣呵成。
未來基于全文標準格式的生產(chǎn)流程,需要重新梳理科技期刊的出版流程,摒棄不適合全媒體時代的傳統(tǒng)出版流程。從中國科技期刊自身的特點出發(fā),基于自身研發(fā)的數(shù)據(jù)標準,研發(fā)符合刊情的數(shù)據(jù)加工流程,是中國科技期刊走上復(fù)合出版的必由之路。
如前所述,基于中國科技期刊的XML排版軟件將適時出現(xiàn),為科技期刊的數(shù)字出版助力。排版的專業(yè)化程度和使用門檻會降低,普通的編輯或具有一定計算機常識的工人就能自如的掌握。因為新型排版流程的工作重點不在于版面樣式的排版和設(shè)計,而集中于源文檔(比如Word文檔)的預(yù)格式化。操作人員的工作在于標記內(nèi)容,而非關(guān)心樣式。預(yù)格式化的文檔通過轉(zhuǎn)化成為標準的XML數(shù)據(jù),而后進入排版引擎,依照設(shè)定的模板進行自動輸出。因此,整個排版工作變得相對簡單而高效。
不僅如此,由于數(shù)據(jù)的生產(chǎn)可直接用于數(shù)據(jù)出版,節(jié)省了大量的數(shù)據(jù)加工成本,而這些工作很多為高勞動密集型,比如編輯部在期刊平臺展示前的數(shù)據(jù)加工、各數(shù)據(jù)服務(wù)商的數(shù)據(jù)加工、為適配國際各收錄數(shù)據(jù)庫的數(shù)據(jù)加工(比如PubMed、PMC)等,上述過程一般會消耗期刊社一定的人力和財力。
對于未通過結(jié)構(gòu)化排版軟件生產(chǎn)的數(shù)據(jù),若想加入全文數(shù)據(jù)庫,對文檔進行全文數(shù)據(jù)加工也是個必經(jīng)的過程,雖然目前國內(nèi)尚缺類似的數(shù)據(jù)加工商,但未來可能有一批數(shù)據(jù)加工商迎合市場的需求,開發(fā)個性化的工具,對不同格式的文檔進行分析、提取、拆解、拼接成合格的XML文檔。前期可能會花費一定的時間和經(jīng)濟成本,但未來的利用和增值服務(wù)會讓其物超所值。
未來可能會圍繞行業(yè)內(nèi)的數(shù)據(jù)標準構(gòu)建起中國科技期刊的各個生態(tài)系統(tǒng),與以往不同的是,該生態(tài)系統(tǒng)的主體權(quán)利把握在各期刊社的手中,利用統(tǒng)一的數(shù)據(jù)格式創(chuàng)作通用的可交換的全文數(shù)據(jù)。這一定會打破目前數(shù)據(jù)提供商和服務(wù)商的利益格局,為科技期刊社的發(fā)展提供契機。傳統(tǒng)的數(shù)據(jù)服務(wù)商理應(yīng)端正態(tài)度,回歸角色,發(fā)展自身的技術(shù)優(yōu)勢,搭建更符合編輯部需求的數(shù)據(jù)平臺和交互平臺。
隨之而變的可能還有各大圖書館和倉儲機構(gòu),基于標準的全文格式的數(shù)據(jù)將更好地提升他們的服務(wù),甚至于擴展了檢索的方式,提升了論文的展示樣式,對于各專業(yè)數(shù)據(jù)庫來說,可能更多基于本行業(yè)特點的信息會被有效地整合。
筆者認為,目前中國與國外數(shù)據(jù)庫一個很明顯的差別,在于國內(nèi)的數(shù)據(jù)同質(zhì)化顯著,各數(shù)據(jù)庫拼的是期刊收錄的數(shù)量而非質(zhì)量。很大原因在于,目前理應(yīng)把握行業(yè)方向和讀者需求的期刊社無力改變這一現(xiàn)實,將資源賣給了數(shù)據(jù)服務(wù)商,而各編輯部又不愿與數(shù)據(jù)服務(wù)商進行更深入的合作,因為他們不能成為該平臺的直接受益者。這種淺合作模式,使得數(shù)據(jù)服務(wù)商在垂直領(lǐng)域的服務(wù)能力下降。未來的平臺應(yīng)當將服務(wù)者的角色讓位于各期刊社,讓他們成為利益的主體方,只有這種模式,編輯部才更有效而主動地發(fā)揮專業(yè)優(yōu)勢,發(fā)揮專家優(yōu)勢,為讀者提供更直接、更個性化的產(chǎn)品和服務(wù)。譬如對圖像數(shù)據(jù)更為敏感的地理、天文、氣象等領(lǐng)域,可以將圖表信息進行深度標引以便于能提供該信息的增值服務(wù)。
中國現(xiàn)已成為期刊大國,但要成為期刊強國,還有很長的一段路要走,扶持中國期刊走出去是條出路,幫扶中國期刊立足中國、服務(wù)好中國的讀者亦是相當重要的任務(wù)[12]。多年來,在數(shù)字出版領(lǐng)域,科技期刊一直未能找到合適的道路,在傳統(tǒng)出版市場日益萎縮的情況下,要有所突破更顯得空間狹小,一些獲得基金支持的期刊社也希望發(fā)展數(shù)字出版事業(yè),但能以此作為經(jīng)濟增長點,并能持續(xù)發(fā)展的乏善可陳。目前國內(nèi)已有期刊社探索出以專科或?qū)I(yè)期刊集群化建設(shè)的道路,聚合該領(lǐng)域科技期刊,以自有和加盟的方式在平臺上進行統(tǒng)一運營,形成行業(yè)影響力,吸引精準用戶群,帶來潛在商業(yè)價值。所以筆者呼吁國家有關(guān)部門能夠引導(dǎo)和支持期刊集群化程度相對高的期刊社推進轉(zhuǎn)企改制,加快市場化步伐,同時以支持專業(yè)化平臺為切入點加大基礎(chǔ)工程的投入力度,扶持專業(yè)化平臺的建設(shè)。
綜上,CMA JATS 0.1貫穿了中華醫(yī)學(xué)會系列部分期刊從排版文檔數(shù)據(jù)加工成標準XML文檔,再上傳至期刊的官方網(wǎng)站進行統(tǒng)一發(fā)布的全流程。截止2015年3月,超過15種期刊實現(xiàn)了在線全文出版,在實踐中,筆者認為該標準能適應(yīng)醫(yī)學(xué)科技期刊的絕大部分內(nèi)容標記情況,從而有效地整合了中華醫(yī)學(xué)會雜志社的期刊資源,推動了中華醫(yī)學(xué)會雜志社的數(shù)字出版進程,但該標準的全面落實還需跟數(shù)字出版產(chǎn)業(yè)鏈的上下流公司進行通力協(xié)作。
[1] 鄭筱梅.移動終端對科技期刊閱讀行為模式的影響及策略研究[J].科技與出版,2014 (2):73-75.
[2] 胡曉強,李勇,王軍.數(shù)字化閱讀方式對綜合性學(xué)術(shù)期刊的影響[J].中國科技期刊研究,2014,25(8):1026-1029.
[3] 李偉,關(guān)衛(wèi)屏,游蘇寧,等.醫(yī)學(xué)期刊讀者閱讀需求調(diào)查分析[J].中國科技期刊研究,2012,23(3):419-422.
[4] 王家榮.從學(xué)術(shù)交流角度比較網(wǎng)絡(luò)期刊與紙質(zhì)期刊[J].圖書館學(xué)刊, 2007(5):103-105.
[5] 程維紅,任勝利,沈錫賓,等.中國科協(xié)科技期刊數(shù)字出版及傳播力建設(shè)[J].中國科技期刊研究,2014,25(3):340-345.
[6] 包靖玲,李敬文,沈錫賓,等.美國NLM DTD 3.0期刊存儲和交換標簽集中文章正文部分標記解讀[J].中國科技期刊研究,2014,25(4):515-519.
[7] 包靖玲,霍永豐,顧佳,等.美國國立醫(yī)學(xué)圖書館期刊文檔標簽集概述[J].中國科技期刊研究,2013,24(4):624-627.
[8] 沈錫賓,顧佳,包婧玲,等.美國NLM DTD 3.0期刊存儲和交換標簽集中參考文獻的標記解讀[J].中國科技期刊研究,2013, 24(2): 233-237.
[9] 沈錫賓,顧佳,包靖玲,等.中國科技期刊文檔格式標準化任重道遠[J].編輯學(xué)報, 2013,25(1):27-30.
[10] 劉冰,游蘇寧.我國科技期刊應(yīng)盡快實現(xiàn)基于結(jié)構(gòu)化排版的生產(chǎn)流程再造[J].編輯學(xué)報,2010,(3):262-266.
[11] 沈錫賓,顧恬,呂小東,等.國外一基于XML的科技期刊出版工作流個案剖析[J].中國科技期刊研究,2011,22(4):581-583.
[12] 游蘇寧,王海燕.立足本土的國際化戰(zhàn)略[J].中華內(nèi)科雜志,2005, 44(4):241.