摘 要:隨著標(biāo)準(zhǔn)電子文件在各個(gè)領(lǐng)域的廣泛應(yīng)用,文件格式的轉(zhuǎn)換及其后續(xù)校驗(yàn)工作變得日益重要。本研究聚焦于探討標(biāo)準(zhǔn)文檔格式轉(zhuǎn)換為Word格式的過程中所面臨的挑戰(zhàn),并提出了一個(gè)全面的校驗(yàn)流程,以確保轉(zhuǎn)換的準(zhǔn)確性和高效性。闡述了標(biāo)準(zhǔn)電子文件在石油等領(lǐng)域的廣泛應(yīng)用以及轉(zhuǎn)換為Word格式的必要性,強(qiáng)調(diào)了校驗(yàn)過程的重要性,旨在確保轉(zhuǎn)換后的文件與原始文件在錯(cuò)誤率萬分之五以內(nèi)的一致性。
關(guān)鍵詞:標(biāo)準(zhǔn)行業(yè),標(biāo)準(zhǔn)電子文件轉(zhuǎn)換,Word校驗(yàn),OCR識(shí)別,文件質(zhì)量控制
DOI編碼:10.3969/j.issn.1002-5944.2024.16.005
0 引 言
近年來,隨著數(shù)字化轉(zhuǎn)型,標(biāo)準(zhǔn)電子文件準(zhǔn)確轉(zhuǎn)換至Word格式變得至關(guān)重要,尤其是在石油等關(guān)鍵行業(yè)。本研究針對(duì)455個(gè)標(biāo)準(zhǔn)PDF文件的轉(zhuǎn)換過程,探討在格式丟失、排版錯(cuò)誤等問題中保持原始內(nèi)容和格式的一致性的挑戰(zhàn)。這些問題不僅影響文件可讀性,也妨礙有效信息傳遞。
我們提出一套包括初驗(yàn)、復(fù)驗(yàn)和終驗(yàn)在內(nèi)的全面校驗(yàn)流程,并運(yùn)用OCR識(shí)別與專業(yè)文檔處理工具。通過這一流程,本研究旨在提高文件轉(zhuǎn)換的準(zhǔn)確性,確保關(guān)鍵信息的正確傳遞,為標(biāo)準(zhǔn)電子文件的質(zhì)量控制和管理提供可靠指導(dǎo)。
1 研究背景
Word校驗(yàn)研究旨在探索和發(fā)展一種方法或技術(shù),以驗(yàn)證標(biāo)準(zhǔn)電子文件在轉(zhuǎn)換為Word格式時(shí)的準(zhǔn)確性和一致性。在本次研究中,主要針對(duì)于國家標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)三種標(biāo)準(zhǔn)類型,合計(jì)455個(gè)PDF文件,轉(zhuǎn)化成為的455個(gè)Word文件,共25,052頁標(biāo)準(zhǔn)正文進(jìn)行Word校驗(yàn)的研究分析。
1.1 標(biāo)準(zhǔn)電子文件的廣泛應(yīng)用
標(biāo)準(zhǔn)電子文件在各個(gè)領(lǐng)域和行業(yè)中廣泛應(yīng)用,如標(biāo)準(zhǔn)文件、法律文件、科技報(bào)告、學(xué)術(shù)論文、技術(shù)規(guī)范等。這些文件的正確轉(zhuǎn)換和準(zhǔn)確呈現(xiàn)至關(guān)重要,以確保信息的傳遞和共享的有效性[1]。本次研究涵蓋的方向主要為石油相關(guān)的標(biāo)準(zhǔn)文件。Word作為主流的文件格式,Microsoft Word是一個(gè)常用的文件處理工具,廣泛用于創(chuàng)建、編輯和共享文件。因此,將標(biāo)準(zhǔn)電子文件轉(zhuǎn)換為Word格式是很常見的需求,但轉(zhuǎn)換過程中可能會(huì)引入錯(cuò)誤或?qū)е赂袷綋p失。
1.2 轉(zhuǎn)換過程中潛在的問題
在將標(biāo)準(zhǔn)電子文件轉(zhuǎn)換為Word格式的過程中,可能會(huì)遇到多種問題,如格式丟失、排版錯(cuò)誤、內(nèi)容損失、圖像失真以及特殊公式及符號(hào)的展示問題等。這些問題可能會(huì)導(dǎo)致文件與原版PDF內(nèi)容的不一致性和錯(cuò)誤[2],從而大大降低標(biāo)準(zhǔn)文件的可讀性和可用性。
1.3 校驗(yàn)的重要性
針對(duì)上述的轉(zhuǎn)換過程中存在的一些潛在的問題,對(duì)于重要的標(biāo)準(zhǔn)電子文件,確保轉(zhuǎn)換后的文件與原始文件一致非常重要。校驗(yàn)過程可以幫助發(fā)現(xiàn)潛在的問題和錯(cuò)誤,并提供修復(fù)或改進(jìn)的機(jī)會(huì),從而提高文件轉(zhuǎn)換的質(zhì)量和準(zhǔn)確性,并保障校驗(yàn)后的Word內(nèi)容的錯(cuò)誤率在萬分之五以內(nèi)。
2 校驗(yàn)過程
校驗(yàn)過程是為了驗(yàn)證轉(zhuǎn)換后的Word文件與原始文件的一致性和準(zhǔn)確性。本次研究在將標(biāo)準(zhǔn)的PDF電子文件轉(zhuǎn)化為Word的過程中,針對(duì)于Word文件的準(zhǔn)確性校驗(yàn)主要分為三個(gè)步驟,分別為初驗(yàn)、復(fù)驗(yàn)、終驗(yàn)。
初驗(yàn)過程是對(duì)于標(biāo)準(zhǔn)的PDF格式電子文件在進(jìn)行OCR識(shí)別轉(zhuǎn)換的過程中有錯(cuò)誤標(biāo)識(shí)提示內(nèi)容進(jìn)行初步糾改,包含且不局限于文字錯(cuò)誤、符號(hào)錯(cuò)誤、圖片錯(cuò)誤以及表格識(shí)別錯(cuò)誤等;
復(fù)驗(yàn)過程是對(duì)于所有進(jìn)行OCR識(shí)別轉(zhuǎn)換后的Word文件進(jìn)行統(tǒng)一的全內(nèi)容復(fù)審,包含且不局限于文本內(nèi)容格式錯(cuò)誤、列表及編號(hào)錯(cuò)誤、頁眉頁腳錯(cuò)誤等;
終驗(yàn)是對(duì)于復(fù)驗(yàn)結(jié)果進(jìn)行抽查驗(yàn)證的過程,針對(duì)復(fù)驗(yàn)后的文件選擇抽查多組標(biāo)準(zhǔn)電子文件樣本,確保抽查出來的樣本具有不同的特征和復(fù)雜性水平,以覆蓋潛在的識(shí)別問題,是對(duì)復(fù)驗(yàn)后Word文件的可讀性和正確性的最終核對(duì)評(píng)判。
以此三個(gè)環(huán)節(jié)來對(duì)文件的正確性和規(guī)范性進(jìn)行審核并修改,用以保障標(biāo)準(zhǔn)Word文件內(nèi)容的錯(cuò)誤率低于萬分之五的標(biāo)準(zhǔn)。
3 校驗(yàn)方法步驟
3.1 校驗(yàn)工具選擇
在本次標(biāo)準(zhǔn)電子文件轉(zhuǎn)Word的校驗(yàn)研究過程中,主要使用的文件準(zhǔn)確性校驗(yàn)工具如下文所示:
Micr osof t Wor d:Micr osof t O f f ice Word是微軟公司的一個(gè)文字處理器應(yīng)用程序。它最初是由R icha rd Brodie為了運(yùn)行DO S的I BM計(jì)算機(jī)而在1983年編寫的。隨后的版本可運(yùn)行于AppleM a c i n t o s h(19 8 4年)、S C O U N I X和M i c r o s o f tWindows(1989年),并成為了Microsoft Office的一部分。一直以來,Microsoft Office Word 都是最流行的文字處理程序。
Microsoft Edge PDF Document:Microsoft Edge是由微軟開發(fā)的一款網(wǎng)頁瀏覽器,它內(nèi)置了許多功能,其中之一是對(duì)PDF(Portable Document Format,便攜式文件格式)文件的支持。Microsoft Edge可以作為一個(gè)PDF文件查看器,并提供了一些基本的PDF 閱讀和操作功能。
ABBYY FineReader PDF 15:ABBYY FineReaderPDF 15是一款功能強(qiáng)大的PDF軟件,由ABBYY公司開發(fā)。它提供了廣泛的PDF處理和管理功能,使用戶能夠更輕松地編輯、轉(zhuǎn)換、注釋和管理PDF文件。該軟件集成了強(qiáng)大的OCR(光學(xué)字符識(shí)別)技術(shù),可以將掃描的紙質(zhì)文件和圖像文件轉(zhuǎn)換為可編輯的文本和可搜索的PDF文件。這使得處理紙質(zhì)文件更加便捷,并提高了文件的可搜索性[3]。
Ma t hTy p e:Ma t hTy p e是一款專業(yè)的數(shù)學(xué)公式編輯器,它可以在各種文件中創(chuàng)建和編輯高質(zhì)量的數(shù)學(xué)公式和數(shù)學(xué)符號(hào),包括Microsoft Word、PowerPoint、Google Docs、LaTeX等。MathType具有強(qiáng)大的數(shù)學(xué)編輯功能,提供豐富的數(shù)學(xué)符號(hào)、表達(dá)式和結(jié)構(gòu),為本次標(biāo)準(zhǔn)研究中存在的數(shù)學(xué)公式及符號(hào)編撰提供有效幫助。
3.2 OCR識(shí)別初驗(yàn)校正
標(biāo)準(zhǔn)電子文件PDF格式需要通過軟件ABBYYFineReader PDF 15來進(jìn)行OCR識(shí)別并轉(zhuǎn)換為Word格式標(biāo)準(zhǔn)。在進(jìn)行OCR的過程對(duì)標(biāo)準(zhǔn)電子文件轉(zhuǎn)Word的初驗(yàn),將掃描過后的PDF格式文件包含文字、圖片、表格等信息轉(zhuǎn)換為可編輯的文本和可搜索的Word文件中存在的部分存疑字符進(jìn)行標(biāo)識(shí),以及對(duì)文字、圖片、表格進(jìn)行分色域的標(biāo)注區(qū)分。通過左側(cè)欄目框的PDF格式的原文本與右側(cè)欄目框中識(shí)別出的可編輯文本格式內(nèi)容做參照對(duì)比,對(duì)識(shí)別過后文件的可編輯文本內(nèi)容進(jìn)行初步校對(duì)核驗(yàn)以及修改。
3.3 Word文本復(fù)驗(yàn)校正
3.3.1 建立校驗(yàn)標(biāo)準(zhǔn)
建立校驗(yàn)標(biāo)準(zhǔn)是確保文件質(zhì)量和一致性的重要步驟,以下是本次研究中針對(duì)OCR識(shí)別轉(zhuǎn)換后的Word文件建立校驗(yàn)標(biāo)準(zhǔn)的相關(guān)內(nèi)容:
校驗(yàn)?zāi)康模罕敬涡r?yàn)標(biāo)準(zhǔn)的目的是為了確保標(biāo)準(zhǔn)電子文件轉(zhuǎn)Word文件后標(biāo)準(zhǔn)內(nèi)容的規(guī)范性和正確性檢驗(yàn)。保障識(shí)別轉(zhuǎn)換后的Word文件正文內(nèi)容的準(zhǔn)確性、格式的正確性以及對(duì)于復(fù)雜數(shù)學(xué)公式的可編輯性。在標(biāo)準(zhǔn)電子文件的PDF原文本與轉(zhuǎn)換后的Word文本整體的基本一致性下,保證兩者相參照對(duì)比后,識(shí)別轉(zhuǎn)換后的Word文件內(nèi)容的錯(cuò)誤率在萬分之五以內(nèi)。
創(chuàng)建文件標(biāo)準(zhǔn)模板:針對(duì)PDF格式標(biāo)準(zhǔn)電子秤文件轉(zhuǎn)換成的Word標(biāo)準(zhǔn),特邀請(qǐng)?jiān)诒拘袠I(yè)的標(biāo)準(zhǔn)方面專家對(duì)于轉(zhuǎn)換后的Word文本文件進(jìn)行審查糾改,并提出專業(yè)性的修改意見,確保識(shí)別后標(biāo)準(zhǔn)的正確性與準(zhǔn)確性。并基于這一修改意見對(duì)Word文件進(jìn)行不斷糾改、版本迭代、再進(jìn)行專家審核,直至形成準(zhǔn)確性與一致性兼容的標(biāo)準(zhǔn)文件模板,并在此基礎(chǔ)上對(duì)其它標(biāo)準(zhǔn)電子文件轉(zhuǎn)換后的Word文件進(jìn)行校驗(yàn)。
創(chuàng)建校驗(yàn)清單及檢查表:針對(duì)本次研究課題中共455個(gè)PDF標(biāo)準(zhǔn)電子文件轉(zhuǎn)換后的Word文本文件,合計(jì)25,052頁內(nèi)容建立在線文件,進(jìn)行各標(biāo)準(zhǔn)文件的明細(xì)錄入,包含標(biāo)準(zhǔn)類型、名稱、頁數(shù)、審核情況、審核日期、審核人、問題清單等字段注明。
3.3.2 格式一致性校驗(yàn)
由標(biāo)準(zhǔn)電子文件轉(zhuǎn)換的Word文件中可能存在一些文件格式的錯(cuò)誤,在Word文件的審核過程中,使用上文專家定義好的文件標(biāo)準(zhǔn)模板中的文本樣式,在標(biāo)題、段落、正文、引用等方面,確保每種樣式的字體、字號(hào)、行距、縮距等屬性的一致性。
文件中包含的標(biāo)題和子標(biāo)題,確保他們按照正確的層次結(jié)構(gòu)進(jìn)行排列展示。使用Word中的標(biāo)題展示(例如標(biāo)題1、標(biāo)題2等)來定義不同級(jí)別的標(biāo)題,并確保這些標(biāo)題與原PDF文件一直且按照正確的順序出現(xiàn)。
審核文件中的段落格式,包括對(duì)齊方式、縮進(jìn)、行距和間距等。確保同一類型的段落采用相同的格式設(shè)置,并保持與原PDF文件的一致性。
3.3.3 文本內(nèi)容校驗(yàn)
針對(duì)標(biāo)準(zhǔn)電子文件轉(zhuǎn)換而成的Word文件,對(duì)于轉(zhuǎn)換后的文本內(nèi)容的正確性以及與原PDF文件的一致性的校驗(yàn)審查。對(duì)于正文文本內(nèi)容的拼寫和語法檢查,啟用Word自帶的拼寫與檢查功能,用以捕捉在文本內(nèi)容中存在的一些拼寫錯(cuò)誤、語法問題和錯(cuò)誤的用法。Word會(huì)在文件中標(biāo)記存在的一些潛在問題和錯(cuò)誤,并針對(duì)這些問題提出相應(yīng)的修改建議。
對(duì)于Wor d文本中存在的數(shù)據(jù)和數(shù)字進(jìn)行一致性檢查。若文件中涉及數(shù)字和一些數(shù)據(jù)信息,為確保數(shù)據(jù)信息的準(zhǔn)確性和與原文件的一致性,故針對(duì)于數(shù)據(jù)格式、數(shù)值的內(nèi)容進(jìn)行必要的驗(yàn)證流程。
3.3.4 圖片和表格校驗(yàn)
對(duì)于轉(zhuǎn)換后的Word文本文件,對(duì)于包含圖片和表格的文本要對(duì)圖片信息和表格信息進(jìn)行校驗(yàn)。
圖片的準(zhǔn)確性校驗(yàn)要確保插入的圖片與文件內(nèi)容相符合,并且展示的圖片與原文件一致。要對(duì)圖片的清晰度校驗(yàn),檢查插入的圖片是否高清可辨識(shí),避免圖片過于模糊失真等問題。對(duì)于圖片的大小校驗(yàn),要確認(rèn)插入的圖片大小適合當(dāng)前文件的排版布局,保證文件的美觀性和可讀性。對(duì)于圖片的對(duì)齊校驗(yàn),要檢查圖片的對(duì)齊方式,避免圖片與文本折疊從而影響文件的完整性。
對(duì)于表格內(nèi)容正確性的校驗(yàn),要注意表格結(jié)構(gòu),檢查表格結(jié)構(gòu)是否完整準(zhǔn)確,包括列數(shù)、行數(shù)、表頭等關(guān)鍵信息內(nèi)容是否缺失。確保表格的布局清晰,并與原文件保持一致。表格邊框和間距確保保持一致,使整體外觀統(tǒng)一。確保數(shù)據(jù)一致性,檢驗(yàn)表格信息數(shù)據(jù)是否完整、準(zhǔn)確,避免出現(xiàn)混亂和錯(cuò)誤的現(xiàn)象。
3.3.5 列表和編號(hào)校驗(yàn)
確保整個(gè)文件采用相同的列表格式、檢查列表的縮進(jìn)和對(duì)齊方法一致,且與原PDF文件保持一致。針對(duì)于編號(hào)順序和層次結(jié)構(gòu),要檢查編號(hào)列表的順序是否一致以及編號(hào)的層次結(jié)構(gòu)正確和對(duì)齊,并與原PDF文件保持一致。
3.3.6 特殊符號(hào)及公式校驗(yàn)
若文件中存在特殊符號(hào)以及數(shù)學(xué)公式,要確保整個(gè)Word文件中的所有特殊格式符號(hào)正確性及準(zhǔn)確性,避免存在亂碼問題,且利用MathType軟件對(duì)公式及特殊符號(hào)進(jìn)行編碼,以保證每個(gè)公式的可編輯性。
3.3.7 文件結(jié)構(gòu)校驗(yàn)
檢查轉(zhuǎn)換后文件的結(jié)構(gòu)是否與原始文件相同,包括章節(jié)標(biāo)題、目錄、分頁等,保證轉(zhuǎn)換后的Word文件與原PDF文件保持一致。
3.4 Word文本終驗(yàn)校正
Word文本的終驗(yàn)校正環(huán)節(jié)是確保文件質(zhì)量和準(zhǔn)確性的最終步驟。
3.4.1 檢驗(yàn)樣本選擇
本次研究采用分層抽樣的抽樣方法,將總體劃分為國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)三個(gè)模塊,然后從三個(gè)模塊中進(jìn)行等比的隨機(jī)抽樣,以確保每個(gè)層級(jí)的代表性在最終審核的樣本中得到體現(xiàn)。檢驗(yàn)標(biāo)準(zhǔn)同復(fù)驗(yàn)的檢驗(yàn)標(biāo)準(zhǔn)。
3.4.2 兼容性校驗(yàn)
將轉(zhuǎn)換后的Word文件在不同版本的Word軟件中打開,確保文件能夠正確顯示并保持格式不變,且保障文本內(nèi)容的完整性和準(zhǔn)確性。
4 記錄和結(jié)果分析
根據(jù)上述對(duì)于標(biāo)準(zhǔn)電子文件轉(zhuǎn)Word的校驗(yàn)方法和校驗(yàn)流程,記錄校驗(yàn)過程中的結(jié)果和發(fā)現(xiàn)的問題,并進(jìn)行分析。如果發(fā)現(xiàn)問題,可以追蹤問題的原因,并采取適當(dāng)?shù)拇胧┻M(jìn)行修復(fù)或改進(jìn)。并通過三位一體的審查體系,最終保障轉(zhuǎn)換后的Word文件的準(zhǔn)確性和與原PDF文件的一致性標(biāo)準(zhǔn),確保上述校驗(yàn)標(biāo)準(zhǔn)的PDF電子文件轉(zhuǎn)換為Word文件后錯(cuò)誤率在萬分之五以內(nèi)。
參考文獻(xiàn)
[1]許芳,周庶江,張樹梅,等.電子文件格式轉(zhuǎn)換及歸檔[J].中國檔案,2004(9):40-41.
[2]孫文順,趙秀萍.PDF文件轉(zhuǎn)換的問題探討[J].印刷質(zhì)量與標(biāo)準(zhǔn)化,2011(6):59-61.
[3]張秀常.中英文混合識(shí)別的利器——ABBYY FineReader[J].中國教育信息化,2012(18):64-65.
作者簡(jiǎn)介
譚笑,碩士研究生,高級(jí)工程師,從事標(biāo)準(zhǔn)研究工作。
王海虹,碩士研究生,教授級(jí)高工,從事標(biāo)準(zhǔn)研究工作。
楊萌,碩士研究生,教授級(jí)高工,從事產(chǎn)品質(zhì)量檢驗(yàn)及標(biāo)準(zhǔn)化研究工作。
張勁松,本科,高級(jí)工程師,從事標(biāo)準(zhǔn)化工作。
梅朗一,??疲砉こ處?,從事標(biāo)準(zhǔn)化工作。
(責(zé)任編輯:張瑞洋)