艾 紅,徐澤智,章麗萍
(中國水產(chǎn)科學(xué)研究院南海水產(chǎn)研究所,廣東 廣州 510300)
PDF(portable document format)是Adobe公司開發(fā)的一種文檔格式,可內(nèi)嵌圖文,完整保留原文件的格式與風(fēng)貌,具有文件較小、閱讀方便、適于網(wǎng)絡(luò)傳播等優(yōu)點(diǎn),是目前在網(wǎng)絡(luò)、出版、產(chǎn)品說明等領(lǐng)域廣泛使用的一種電子文件格式。
國內(nèi)很多科技期刊都采用方正書版系統(tǒng)排版,由于方正的PS文件與Adobe的PS標(biāo)準(zhǔn)不一致,無法直接轉(zhuǎn)換為PDF文件。采用方正文易、方正Creator等專業(yè)軟件可將大樣PS直接轉(zhuǎn)換為PDF文件,但因操作系統(tǒng)、性價(jià)比等限制了其使用;方正書版2008新增了轉(zhuǎn)PDF功能,轉(zhuǎn)換后部分方正字符如1/3空格、外文連字符等復(fù)制出來的是亂碼,用其發(fā)排低版本書版(如9.X)文件會(huì)出現(xiàn)排版格式變化,且系統(tǒng)升級成本較高,故采用新版軟件排版并出片的期刊還不多。
目前越來越多的期刊編輯部采取制作PDF文件實(shí)現(xiàn)遠(yuǎn)程校對[1-2],并自建網(wǎng)站提供 PDF全文下載。因此,如何生成清晰、可注釋修改的PDF校樣以及制作具有搜索、復(fù)制功能的PDF文件成為編輯部普遍關(guān)注和探索的問題。有關(guān)方正大樣轉(zhuǎn)PDF的方法已有一些報(bào)道[3-5],但這些方法在原文重現(xiàn)、文本復(fù)制或全文檢索等方面仍有欠缺。而專業(yè)期刊網(wǎng)絡(luò)數(shù)據(jù)庫系統(tǒng)如萬方和維普,對用方正軟件排版的期刊均采用掃描后經(jīng)OCR識別生成PDF文件的方法,也存在頁面顯示效果稍差、文字識別有差錯(cuò)等缺點(diǎn)。筆者通過對比多種轉(zhuǎn)換方法,總結(jié)出方正PS轉(zhuǎn)PDF文件方法的特點(diǎn),并提出一種制作雙層PDF文件的新方法。
主要轉(zhuǎn)換軟件有方正文易、方正Creator、大樣轉(zhuǎn)PDF專家等。
方正Creator的功效與方正文易相似,優(yōu)點(diǎn)是可以在XP操作系統(tǒng)下使用,轉(zhuǎn)換速度快,轉(zhuǎn)出的PDF文件文本可以復(fù)制,但復(fù)制出的英文、數(shù)字與標(biāo)點(diǎn)是全角字符,且原英文單詞之間的空格消失,生成的PDF文件僅可進(jìn)行中文字符的搜索,適用于外文字符較少的期刊。
大樣轉(zhuǎn)PDF專家軟件(ps22pdf)是一款將方正二掃文件(PS2,MPS)轉(zhuǎn)為PDF的專業(yè)軟件。用該軟件生成的PDF文件復(fù)制出的文本幾乎是原文,英文單詞因換行自動(dòng)生成連字符,復(fù)制出來仍是完整的單詞,圖片清晰。缺點(diǎn)是,因使用替代字庫,頁面顯示效果欠佳,常出現(xiàn)標(biāo)點(diǎn)符號與字符擠壓的現(xiàn)象,部分方正特有字符(如比例號)無法顯示和復(fù)制。
通過安裝文杰A5000打印機(jī)驅(qū)動(dòng)程序,將方正PS文件經(jīng)虛擬打印生成標(biāo)準(zhǔn)PS文件,然后用Adobe Distiller轉(zhuǎn)成 PDF格式[6]。雖然多一道轉(zhuǎn)換步驟,但轉(zhuǎn)換速度較快,生成文本型PDF文件,文件小,圖片清晰,其顯示效果與常規(guī)文本型PDF文件基本一致,但因其字體的字符映射方式與標(biāo)準(zhǔn)Unicode不同,復(fù)制出的文本全是亂碼,無法進(jìn)行檢索。
(1)通過pdfFactory或Adobe PDF虛擬打印機(jī)轉(zhuǎn)為PDF文件[7]。這是最常用的一種轉(zhuǎn)換方法。該方法是通過方正發(fā)排軟件PSP Pro中將大樣PS文件虛擬打印為PDF文件。轉(zhuǎn)換較耗時(shí),生成圖像型PDF文件,文字清晰,但圖片質(zhì)量稍差,文件稍大,無法復(fù)制文本。
(2)利用微軟 Office Document Image Writer虛擬打印法[8]。需在書版10.0中生成ceb文件,通過Apabi Reader軟件用Microsoft Office Document Image Writer虛擬打印機(jī)生成圖像格式文件,最后用Adobe虛擬打印成PDF文件。轉(zhuǎn)換后的圖像精度尚可。
(3)利用書生公文閱讀器軟件,將二掃文件虛擬打印成PDF。轉(zhuǎn)出的文字和圖片的清晰度尚可,但文字的顯示效果欠佳,不能顯示斜體,并且標(biāo)點(diǎn)符號與字符常擠壓在一起。
為了促進(jìn)學(xué)術(shù)交流,擴(kuò)大期刊的顯示度和學(xué)術(shù)影響力,越來越多的科技期刊通過互聯(lián)網(wǎng)實(shí)現(xiàn)了開放存取。開放存取期刊,尤其是多種語言混排的科技期刊,應(yīng)考慮與國際接軌,不僅要求制作的文檔具有可讀性,能清晰重現(xiàn)原文,而且還應(yīng)有文本復(fù)制和全文檢索功能,這也是期刊編輯部數(shù)字化加工水平的體現(xiàn)。將方正書版大樣轉(zhuǎn)為雙層PDF文件是實(shí)現(xiàn)這些功能與要求的有效途徑之一。
雙層PDF是指文件內(nèi)容既包含文本層,也包含圖像層,且其位置上下一一對應(yīng)的一種PDF文件格式。這種文件可完全保留原始版面效果(圖像層),并且支持選擇、復(fù)制與檢索等功能(文本層)。
與標(biāo)準(zhǔn)的農(nóng)民專業(yè)合作社相比較,農(nóng)機(jī)合作社更強(qiáng)調(diào)入社的股份(包括農(nóng)機(jī)折價(jià)形成的股份),這是由于農(nóng)機(jī)的價(jià)值較大,同時(shí)合作社股份構(gòu)成較為復(fù)雜(農(nóng)機(jī)、土地、資金等),但在管理方式上依然強(qiáng)調(diào)民主,強(qiáng)調(diào)民辦、民管、民受益。農(nóng)機(jī)合作社是中國農(nóng)民對于世界合作社運(yùn)動(dòng)的重要貢獻(xiàn)。
目前關(guān)于方正大樣轉(zhuǎn)雙層PDF的報(bào)道尚未見到。李宗紅[9]總結(jié)了利用Acrobat 8.0的OCR文本識別將圖像型PDF轉(zhuǎn)為文本型PDF文件的方法,轉(zhuǎn)換后因文字可選擇,生成的PDF文件可用于遠(yuǎn)程校對。使用Acrobat軟件操作簡單、轉(zhuǎn)換快,缺點(diǎn)是因OCR文字識別率與圖像的分辨率、選擇的語言等密切相關(guān),識別文字的出錯(cuò)率可能偏高。對于外文字符且二級漢字較少的文件,圖像清晰,其文本識別的正確率可達(dá)90%以上。而對于中、英文混排,公式、符號較多,或者二級漢字稍多的文件,識別出錯(cuò)率偏高。OCR識別功能僅適用于圖像型PDF文件,對文本型或轉(zhuǎn)曲文字型PDF文件無效。
為了有效解決這一問題,筆者摸索出一種雙層PDF文件的制作方法。其實(shí)現(xiàn)思路是利用大樣轉(zhuǎn)PDF專家軟件生成的文本型PDF與圖像型PDF進(jìn)行組合,生成文本層在上、圖像層在下的雙層PDF文件。生成的PDF文件充分利用了二者的文本復(fù)制與檢索、具有圖像清晰以及精確重現(xiàn)原文等優(yōu)點(diǎn),雖然步驟略復(fù)雜,但熟練操作后可以較快完成整本期刊的轉(zhuǎn)換。
基本軟件為大樣轉(zhuǎn)PDF專家軟件ps22pdf,書版9.X,F(xiàn)oxit PDF Editor 2.0(編輯、修改 PDF),Advanced PDF Tools 2.0(用于改變PDF文件顯示頁面的大小),Acrobat 7.0以上版本。其操作步驟如下:
(1)運(yùn)行大樣轉(zhuǎn)PDF專家軟件,在字體設(shè)置中選系統(tǒng)字體,將大樣PS直接轉(zhuǎn)為PDF文件(文件名為p.pdf)。因該文件的頁面偏大,將頁面縮小到原來的70%即可與圖像層的文字完全重合。故用Advanced PDF Tools將p.pdf一次性縮小到原頁面的70%,其操作界面如圖1所示。如不用Advanced PDF Tools,可在 Foxit PDF Editor的屬性窗口每頁修改比例X(%)和Y(%)為70%。
圖1 Advanced PDF Tools縮小頁面的操作界面
(2)在書版發(fā)排時(shí)選“忽略所有圖片”,另生成一個(gè)僅含文字的PS文件,如圖2所示,使圖片位置為空白,通過虛擬打印法生成清晰的圖像型PDF文件(文件名為v.pdf)。
圖2 生成純文字大樣的輸出選項(xiàng)
(3)用 Foxit分別打開 p.pdf和 v.pdf,翻到相同頁面。
(4)在p.pdf文件窗口,按Ctrl+A全選后,再按住Ctrl鍵并用鼠標(biāo)點(diǎn)擊不想復(fù)制的內(nèi)容(如橫線)后再按Ctrl+C復(fù)制。
(5)轉(zhuǎn)到v.pdf文件窗口,按Ctrl+V粘貼所選文字和圖片,通過光標(biāo)鍵整體移動(dòng)粘貼的內(nèi)容,直至與下面的圖像層文字全部重合,然后在屬性窗口Text欄,將文本模式由“填充文本”改為“沒有填充和筆畫的文本(不可見)”,其界面圖如圖3所示,完成后上層的文本便全部隱藏了。
3 Foxit Editor PDF文本屬性界面
重復(fù)上述步驟(3)~步驟(5),完成所有頁面的組合。采用這種方法生成的雙層PDF文件,不僅清晰顯示與原文一致的效果,而且具有全文復(fù)制和搜索功能。但是,由于它是兩種文件的組合,文件稍偏大??稍诓襟E(1)后用Acrobat對p.pdf減少文件大小后保存(基本不影響顯示效果);最后用Acrobat將生成的PDF文件“另存為”,可進(jìn)一步減少文件大小。
如用Acrobat 9.0操作,可在步驟(2)之后,先用OCR識別保存,然后在Foxit PDF Editor中刪除識別的文本層,處理后文件大小可減少20% ~30%且保持顯示效果不變。
提出了一種制作高質(zhì)量雙層PDF文件的方法。所生成的PDF文件兼具文本型PDF和圖像型PDF文件的優(yōu)點(diǎn)。與專業(yè)掃描生成的PDF文件相比,用該方法制作的PDF文件基于打印生成的圖像PDF,顯示效果好,清晰度高,優(yōu)于掃描的效果,而文本層除造字和特殊符號外,不存在文字差錯(cuò)率的問題。因此,在精確重現(xiàn)原文、文本復(fù)制和全文檢索上完全優(yōu)于用其他方法生成的PDF文件,能夠較好地滿足開放存取期刊的需要。
[1] 王燕萍,臧慶軍,辛明紅,等.用Adobe Acrobat將北大方正大樣文件制成作者校樣的新方法[J].編輯學(xué)報(bào),2004,16(5):354 -356.
[2] 王昌棟,陳翔.利用方正書版10.0和Apabi Reader實(shí)現(xiàn)遠(yuǎn)程校樣[J].中國科技期刊研究,2005,16(2):211-212.
[3] 李學(xué)軍.方正書版文件轉(zhuǎn)PDF文檔兩種常用方法使用中應(yīng)注意的問題[J].中國科技期刊研究,2008,19(5):828-830.
[4] 付中林,龔曉寧,陳小平.一種快速將方正大樣轉(zhuǎn)為PDF格式校樣的方法[J].武漢工程大學(xué)學(xué)報(bào),2007,29(5):55 -56.
[5] 周虹,歐陽賤華,王竑.如何將方正小樣文件轉(zhuǎn)換成PDF 格式文件[J].編輯學(xué)報(bào),2007,19(1):45-46.
[6] 何知宇.方正書版文件轉(zhuǎn)換PDF文檔的幾種方法比較[J].中國科技期刊研究,2006,17(4):609 -613.
[7] 熊水斌,胡新宇,馬敏峰,等.科技期刊方正大樣轉(zhuǎn)為PDF文檔的一種快捷方法[J].中國科技期刊研究,2007,18(1):86 -88.
[8] 王重洋.由方正低成本、高效轉(zhuǎn)換為PDF的方法[J].中國科技期刊研究,2007,18(3):457 -458.
[9] 李宗紅.利用Adobe Acrobat Professional 8.0軟件實(shí)現(xiàn)圖片型PDF文件到文本型PDF文件的轉(zhuǎn)換[J].中國科技期刊研究,2010,21(1):69-70.