丁筠 官鑫
1,吉林大學(xué)仿生工程學(xué)報(bào)(英文)編輯部,長(zhǎng)春 130022 2,吉林大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)編輯部,長(zhǎng)春 130021
Universty, Changchun, 130022, P. R. China 2 Department of Medicine Edition, Journal of Jilin University,Changchun 130021, China
快速編輯和提取PDF文件信息
丁筠1官鑫2
1,吉林大學(xué)仿生工程學(xué)報(bào)(英文)編輯部,長(zhǎng)春 130022 2,吉林大學(xué)學(xué)報(bào)(醫(yī)學(xué)版)編輯部,長(zhǎng)春 130021
Universty, Changchun, 130022, P. R. China 2 Department of Medicine Edition, Journal of Jilin University,Changchun 130021, China
簡(jiǎn)要介紹PDF文件的功能、特點(diǎn)和在互聯(lián)網(wǎng)傳播中的重要性,詳細(xì)闡述如何盡可能快速、有效、簡(jiǎn)便地提取PDF文件中的文字、圖片等信息。
PDF;圖片信息;文字信息;信息提取
PDF;picturie nformation;teixnt formation;information extraction
仿生工程學(xué)報(bào)(Journal of Bionic Engineering)是全英文的仿生學(xué)專業(yè)期刊,于2007年被美國(guó)《科學(xué)引文索引》(SCI)收錄,2011年影響因子達(dá)到了1.032,學(xué)報(bào)作者群已涵蓋世界所有科技發(fā)達(dá)國(guó)家,所發(fā)國(guó)外稿件已占全部發(fā)稿量的50%。然而,我們?cè)谌粘9ぷ髦邪l(fā)現(xiàn),各國(guó)作者目前使用的文章寫作軟件五花八門,包括Word 2003版、Word 2007版、LaTeX、WPS等文章編譯軟件,這給編輯和審稿專家對(duì)文章的審讀造成了很大的麻煩。因此,編輯部借鑒一些國(guó)際性期刊的經(jīng)驗(yàn),將PDF文件用作論文提交及與審稿專家電子文件交流使用。
PDF文件在提供相同的信息容量的情況下,文件更小,更便于文件傳輸,在網(wǎng)絡(luò)時(shí)代的今天越來(lái)越多的收到用戶的青睞。但是在上傳提交PDF格式論文時(shí),由于PDF文檔是面向顯示的,無(wú)法對(duì)其內(nèi)容進(jìn)行直接編輯處理。如果能找到一套簡(jiǎn)單實(shí)用,又能獲得PDF文檔中準(zhǔn)確的文字信息和清晰的圖片信息的方法,將極大的推動(dòng)PDF文件在各個(gè)科技期刊編輯工作中的應(yīng)用,提高工作效率。本文介紹幾種準(zhǔn)確提取PDF文檔中文字和圖片信息的方法,供參考。
PDF格式的文檔資源由于其本身具有操作平臺(tái)的無(wú)關(guān)性、文檔的視覺(jué)顯示信息和數(shù)據(jù)信息之間的獨(dú)立性以及良好的安全性,逐漸地受到了人們的青睞,正慢慢地發(fā)展成為電子文檔資源在信息系統(tǒng)中共享的主流文檔格式[1]。它能保持原文件的排版格式和創(chuàng)建風(fēng)格,能高保真壓縮,可不依賴原創(chuàng)應(yīng)用程序和操作平臺(tái)顯示和打印[2]。目前,PDF在網(wǎng)絡(luò)出版業(yè)的應(yīng)用越來(lái)越多,國(guó)外的幾大著名的網(wǎng)絡(luò)出版集團(tuán)Elsevier,Spring,IEEE等均采用PDF向網(wǎng)絡(luò)用戶提供原版的期刊論文文件,國(guó)內(nèi)著名的萬(wàn)方數(shù)據(jù)網(wǎng)絡(luò)中心也采用PDF向用戶提供期刊論文文件,CNKI數(shù)據(jù)庫(kù)也在向用戶提供CAJ文件的同時(shí),提供PDF文件的下載,使用者可深切感受到PDF帶來(lái)的便利。隨著網(wǎng)絡(luò)的普及,電子郵件的廣泛利用,網(wǎng)絡(luò)用戶對(duì)信息保真?zhèn)魉偷男枨笾鸩皆龆郲3]。相比其它傳輸文件,PDF文件更小,所能提供的信息容量更大,因此使其受到越來(lái)越多人的青睞。PDF文件的使用也給編輯的日常工作帶來(lái)了極大的便利。但PDF文件的一個(gè)弊端是用戶不能直接提取該文檔中的文字或圖片信息,下面介紹提取PDF文件中的文字和圖片信息的幾種簡(jiǎn)便的方法。
PDF文件的文本信息提取相對(duì)容易,其中最簡(jiǎn)便的是直接將其轉(zhuǎn)換成Word文檔文件,隨后只要用Word等文本編輯工具將轉(zhuǎn)換的文本文件打開(kāi)即可繼續(xù)編輯。能夠?qū)DF轉(zhuǎn)換成Word文檔的工具很多[4,5],在編輯部的日常工作中,本文推薦使用以下兩種方法:
2.1 在線轉(zhuǎn)換
將PDF轉(zhuǎn)換成Word文檔可以通過(guò)PDF to Word網(wǎng)站在線完成,不需安裝專門的軟件,進(jìn)入網(wǎng)站即可看到該操作是100%免費(fèi)的,該方法的優(yōu)勢(shì)還在于其得到的Word文檔能夠很好的保持原有的格式。
(1) 在瀏覽器地址欄輸入http://www. pdftoword.com/,按下回車鍵,進(jìn)入PDF to Word Converter網(wǎng)站首頁(yè),在首頁(yè)左側(cè)會(huì)出現(xiàn)如圖1所示的操作界面。
(2) 點(diǎn)擊“瀏覽”,找到需要進(jìn)行轉(zhuǎn)換的PDF文件,填寫郵箱地址,單擊“Convert to Word”,系統(tǒng)會(huì)自動(dòng)上傳PDF文件,上傳完成后,會(huì)顯示如圖2所示的界面。
(3) 文件轉(zhuǎn)換完成后,查看郵箱,系統(tǒng)會(huì)以附件的形式發(fā)送轉(zhuǎn)換完成的Word文檔,生成的文檔為Word 2003版文件。
圖1 PDF to Word 轉(zhuǎn)換界面
圖2 文件轉(zhuǎn)換界面
2.2 使用轉(zhuǎn)換軟件
2.2.1 軟件的安裝
(1) 軟件名稱:VeryDOC PDF To Word Converter V2.5 漢化版
(2) 雙擊“ha_VeryDOC-pdf2word25_ cz.exe”文件,運(yùn)行安裝程序,按照提示逐步點(diǎn)擊“前進(jìn)(N)”進(jìn)行安裝。安裝完成后,在計(jì)算機(jī)的“開(kāi)始”菜單下,“程序”欄中會(huì)出現(xiàn)“VeryDOC PDF To Word Converter V2.5 漢化版”欄,單擊“VeryDOC PDF2Word”圖標(biāo)即可運(yùn)行該軟件。
2.2.2 軟件的操作
(1) 進(jìn)入主程序后,會(huì)顯示如圖3所示的操作界面。點(diǎn)擊“添加PDF文件”,瀏覽文件夾所在位置,添加需要轉(zhuǎn)換的PDF文件,在右側(cè)“輸出選項(xiàng)”欄中選擇“僅文本(無(wú)圖像)”,在“輸出格式”欄中選擇“微軟Word文檔(*.Doc)”,“頁(yè)碼范圍”選擇“所有的頁(yè)”即可;如原始PDF文件有密碼保護(hù),則需要在“PDF密碼”輸入欄中填入密碼。
(2) 以上設(shè)置完成后,點(diǎn)擊“轉(zhuǎn)換”按鈕,會(huì)出現(xiàn)如圖4所示的界面,建立一個(gè)新的Word文檔(在文件名處鍵入新的文件名)并選擇轉(zhuǎn)換后文檔的存放位置,轉(zhuǎn)換完成后,會(huì)自動(dòng)顯示得到的Word文檔。該方法僅得到文檔中的文字信息,便于編輯和排版。
圖3 主程序操作界面
圖4 操作界面2
PDF文件中圖片信息的提取方法很多,但不同方法所得到的圖片的清晰度不盡相同,本文推薦以下兩種使用方便且提取圖片效果較好的方法。
3.1 使用“PDF Extract TIFF”軟件
使用“PDF Extract TIFF”軟件可以將PDF文檔中的所有圖標(biāo)提取出來(lái)并保存為TIFF圖片格式。
3.1.1 軟件的安裝
(1) 軟件名稱:PDF Extract TIFF綠色漢化版 V2.0
(2) 該軟件是綠色漢化版,不需安裝,直接找到“pdf2tif.exe”文件,雙擊進(jìn)入主操作界面,如圖5所示。
圖5 PDF Extract TIFF主操作界面
3.1.2 軟件的操作
用PDF Extract TIFF提取PDF中圖片時(shí),啟動(dòng)PDF Extract TIFF,在主界面中單擊“打開(kāi)”按鈕,在彈出的窗口中選擇需提取圖片的PDF文件。
隨后打開(kāi)“另存為”對(duì)話框,在此選擇好圖片文件保存的路徑和圖片文件名。單擊“保存”按鈕,對(duì)PDF文件中的所有圖片進(jìn)行提取,并保存的指定的文件夾中。
3.2 使用“Some PDF Image Extract”軟件
3.2.1 軟件的安裝
(1) 軟件名稱:Some PDF Image Extract V1.5
(2) 該軟件雖然是全英文版,但是安裝簡(jiǎn)單,雙擊“pdf2word.exe”圖標(biāo),進(jìn)入自動(dòng)安裝程序,按照提示按“Next”鍵即可完成安裝,安裝完成會(huì)運(yùn)行該程序,進(jìn)入到如圖6所示的操作主界面。
圖6 Some PDF Image Extract主操作界面
3.2.2 軟件的操作
(1) 點(diǎn)擊Some PDF Image Extract界面里的第一個(gè)“打開(kāi)文件”按鈕,在“打開(kāi)”對(duì)話框里選擇欲提取圖片的PDF文件。如果有多個(gè)PDF文件待提取,可以將它們放在一個(gè)文件夾下,點(diǎn)擊界面里的第二個(gè)“輸入目錄”按鈕,選定整個(gè)文件夾,把整個(gè)文件夾下的PDF直接導(dǎo)入。
(2) 默認(rèn)的提取出來(lái)的圖片保存位置是在PDF文件所在的相同目錄下的同名文件夾下。默認(rèn)提取的圖片格式是JPG,可以在軟件界面的右側(cè)的“輸出模式”后的下拉列表里重新設(shè)置提取的圖片格式(bmp、gif、png、tiff、tga、pcx)。默認(rèn)的圖片質(zhì)量是70%,一般需要將其改成100%,這樣輸出的圖片更清晰,但圖片體積要大些。點(diǎn)擊“輸出目錄”可以重新設(shè)置提取圖片的輸出目錄。
(3) 設(shè)置完成后,點(diǎn)擊最左下方的“播放按鈕”,開(kāi)始提取操作,當(dāng)進(jìn)度條顯示“Convert Finished”時(shí)提取完畢。
在學(xué)術(shù)期刊編輯工作中,異地審稿和校對(duì)是例行程序。為了實(shí)現(xiàn)稿樣及其他圖文資料從編輯部向?qū)徃迦思白髡叩目焖贉?zhǔn)確的傳送,保證審稿人、作者、編輯看到的文檔信息(文字、圖形)完全相同,編輯部在日常工作中越來(lái)越多的使用了PDF文檔。本文針對(duì)如何從PDF文件中準(zhǔn)確、快速地提取文檔信息(文字、圖形)用于編輯出版的方法進(jìn)行了闡述,為PDF文檔在編輯工作中的進(jìn)一步應(yīng)用奠定了基礎(chǔ)。
[1] 任林濤. PDF格式中文科技論文的有效信息提取方法及分類研究[D], 吉林大學(xué), 2011.
[2] 張紅林, 胡昌平. PDF在編輯工作中的應(yīng)用[J].編輯學(xué)報(bào), 2001, 13(5), 284 286.
[3] 張紅林. PDF在編輯工作中應(yīng)用的探討[J]. 中國(guó)科學(xué)技術(shù)期刊編輯學(xué)會(huì)2001年會(huì)綜合學(xué)術(shù)年會(huì)論文集, 99 102.
[4] 陳永杰, 邢寶山, 張祥合, 李桃. 利用Adob e Acrobat7.0實(shí)現(xiàn)PDF格式文件的轉(zhuǎn)換[J]. 編輯學(xué)報(bào), 2006, 18(6), 437 438.
[5] Office2003實(shí)現(xiàn)PDF文件轉(zhuǎn)Word文檔電[J]. 力信息化, 2005, 3(12), 85.
Rapidly Editing and Extracting of the Information of PDF Documents
Ding Yun1Guan Xin2
1 Editorial Department of Journal of Bionic Engineering, Jilin
The functionsf, eatures and the importanocef communicaitnio tn he network of PDF documenwts ere briefly introducedIn. additio n, how to extractingt he picturei nformatioan nd text informatioinn PDF documernat pidly, effectively and simply, were described in detail.
10.3969/j.issn.1001-8972.2012.12.135
丁筠(1982-),女,編輯,博士畢業(yè),主要從事英文科技期刊的編輯和出版發(fā)行工作。