數(shù)字出版經(jīng)歷了20多年的發(fā)展已經(jīng)日漸成熟,各種產(chǎn)品和軟件讓大家感受到了數(shù)字內(nèi)容資源應(yīng)用的便捷和強(qiáng)大,而作為數(shù)字出版基礎(chǔ)的內(nèi)容資源加工也伴隨著一起走過了一段艱苦的發(fā)展之路。在此期間由于標(biāo)準(zhǔn)和規(guī)范的缺失與信息溝通的不便,造成了不同地域和領(lǐng)域?qū)?shù)據(jù)加工的技術(shù)、文檔規(guī)格和質(zhì)量要求等形成了不同的理解和認(rèn)知[1]。進(jìn)而在溝通時產(chǎn)生了歧義,對行業(yè)的發(fā)展起到了一定的負(fù)面影響。
因此,對內(nèi)容資源數(shù)據(jù)加工領(lǐng)域的重要概念進(jìn)行分析和溯源是非常必要的,本文意在通過對一些關(guān)鍵概念的解讀和辨析來推動對概念、術(shù)語的統(tǒng)一認(rèn)知。
數(shù)據(jù)加工是一個廣泛的概念,所有對不同形態(tài)、類型和載體的數(shù)據(jù)的處理過程都可以稱之為數(shù)據(jù)加工。具體到數(shù)字出版領(lǐng)域,主要針對圖書、報紙、期刊、古籍、音視頻等形式的內(nèi)容資源,通過專業(yè)化的解決方案,加工成文本文檔、音視頻文檔和專業(yè)內(nèi)容文檔格式等多種可編輯電子文件格式的過程。一般通常細(xì)分為數(shù)字化加工、結(jié)構(gòu)化加工和知識化加工。
顧名思義,數(shù)字化加工指的是從非數(shù)字形態(tài)到數(shù)字形態(tài)的加工過程。通常的非數(shù)字形態(tài)包括紙質(zhì)、照片、模擬信號磁帶和錄像帶等,將這些資源通過“光—電”和“磁—電”等技術(shù)手段轉(zhuǎn)換成為二進(jìn)制的數(shù)字信號并存儲起來,以便后續(xù)的加工和利用。對于紙質(zhì)資源通常采用掃描儀等設(shè)備先轉(zhuǎn)換為數(shù)字圖像,再經(jīng)過OCR軟件將其中的文字轉(zhuǎn)換為數(shù)字編碼;對于磁帶和錄像帶等資源往往采用專用的“模-數(shù)”轉(zhuǎn)換設(shè)備將模擬信號轉(zhuǎn)換為數(shù)字信號,再根據(jù)需要轉(zhuǎn)成特定的編碼數(shù)據(jù)。數(shù)字化加工是數(shù)據(jù)加工的基礎(chǔ)環(huán)節(jié),為后續(xù)深加工提供了數(shù)據(jù)基礎(chǔ),同時其成品數(shù)據(jù)也可以作為低端數(shù)字內(nèi)容產(chǎn)品使用[2]。
在日常的交流中大家往往把“數(shù)據(jù)加工”和“數(shù)據(jù)化加工”混淆使用。雖不至于造成太大的困擾,但在不明確加工要求的時候也容易產(chǎn)生先入為主的歧義。
“結(jié)構(gòu)化加工”的概念相對“數(shù)字化加工”使用的較少,以至于有些人不是特別清楚其中的含義。結(jié)構(gòu)化加工是在數(shù)字內(nèi)容基礎(chǔ)之上進(jìn)行的加工,是通過技術(shù)手段揭示和描述內(nèi)容資源的體例結(jié)構(gòu)和屬性的處理過程。對于圖書、期刊等的結(jié)構(gòu)化加工就是拆分篇章節(jié);對于音視頻則可拆分到語句或鏡頭。加工時還要根據(jù)需要提取不同層級的屬性元數(shù)據(jù)。結(jié)構(gòu)化加工揭示了內(nèi)容的結(jié)構(gòu)和組織方式,成果物通常使用XML語言來描述。成品數(shù)據(jù)可以支持多種數(shù)字內(nèi)容產(chǎn)品的應(yīng)用,同時也可用于知識體系建設(shè)和知識服務(wù),或者作為人工智能探索和應(yīng)用的高級素材[3]。
在實(shí)際工作中往往有人用數(shù)字化加工一詞代替結(jié)構(gòu)化加工,或者不分場景的混用數(shù)字化加工和結(jié)構(gòu)化加工,這樣很容易產(chǎn)生歧義和誤解。
結(jié)構(gòu)化加工的概念提出時期,行業(yè)中還流行著另一個概念“碎片化加工”,而且至今還有一定范圍的使用。從字面上看碎片化加工是將內(nèi)容進(jìn)行細(xì)粒度的拆分,和結(jié)構(gòu)化加工有些相似之處,都是對內(nèi)容的分析和拆解。但碎片化加工只強(qiáng)調(diào)了內(nèi)容的細(xì)化拆解,而結(jié)構(gòu)化加工強(qiáng)調(diào)的是梳理內(nèi)容的體例結(jié)構(gòu)和層級。碎片化的概念只描述了細(xì)化加工的粒度,割裂了內(nèi)容的結(jié)構(gòu);而結(jié)構(gòu)化在描述體例結(jié)構(gòu)的同時可以實(shí)現(xiàn)內(nèi)容細(xì)粒度的應(yīng)用。所以碎片化加工的說法有些片面,不能完整表達(dá)結(jié)構(gòu)化所具有的含義,況且行業(yè)內(nèi)似乎也沒有只做內(nèi)容拆分不做結(jié)構(gòu)描述的加工要求。
轉(zhuǎn)碼的概念出現(xiàn)在電子書日漸盛行的時期,其大意是指從各種紙書、排版文件或圖像PDF文件經(jīng)過處理后生成Epub、Mobi(亞馬遜的早期格式)或矢量PDF的加工過程[5]。轉(zhuǎn)碼這個概念在互聯(lián)網(wǎng)內(nèi)容運(yùn)營商中較為普遍,但第一次接觸的人卻很難從字面中理解其含義。隨著結(jié)構(gòu)化等概念的逐漸流傳,轉(zhuǎn)碼這個術(shù)語使用的范圍也慢慢變小。在實(shí)際工作中,轉(zhuǎn)碼可以改用更直接的說法來特指某類成品數(shù)據(jù)的加工,例如:Mobi加工、Epub加工或者PDF加工等。這樣可以清晰準(zhǔn)確地說明加工需求。
知識化加工是近兩三年才逐漸明確含義的一條術(shù)語。隨著知識服務(wù)和知識體系建設(shè)等數(shù)字出版方向的不斷興起,如何應(yīng)用知識體系成為數(shù)字出版人面臨的難題。近幾年摸索出了內(nèi)容資源與知識體系建立關(guān)聯(lián)關(guān)系的應(yīng)用方式,而這種將知識體系與內(nèi)容資源進(jìn)行關(guān)聯(lián)的加工方式稱之為知識化加工。知識化加工不僅盤活了內(nèi)容資源,實(shí)現(xiàn)內(nèi)容重組和聚類;也讓知識體系得到了內(nèi)容資源的支撐,提高了知識體系的應(yīng)用價值[7]。
數(shù)據(jù)加工的成品數(shù)據(jù)包括很多類型,以適用于不同的產(chǎn)品和應(yīng)用環(huán)境。對于書報刊等圖文類內(nèi)容資源,主要的包括版式文件和流式文件兩類數(shù)據(jù)。
版式文件指的是在版面中,文字、圖片等內(nèi)容對象在版面中的位置相對于版面坐標(biāo)原點(diǎn)(通常是版面的左上角)是固定的,不因版面大小、長寬比的變化或用戶的操作而發(fā)生位移。版式文件的呈現(xiàn)效果和紙質(zhì)資源是一致的,這樣可以確保版面位置及布局所要表達(dá)的信息可以準(zhǔn)確的傳遞給閱讀者。常見的版式文件類型包括:PDF文件、InDesign文件、CEB文件、OFD文件[8]、方正排版文件等。
版式文件比較適合于科技類、兒童、生活類圖書和期刊,可以讓版面信息豐富、活潑。但版式文件也有使用不便的時候。當(dāng)版面較大而屏幕較小時,版式文件的呈現(xiàn)就必須選擇呈現(xiàn)局部版面或者壓縮版面呈現(xiàn),不論哪種方式都會造成閱讀上的不適。
版式文件在應(yīng)用上的限制引出了流式文件。與版式文件不同,流式文件中內(nèi)容的位置不是固定的,而是可以根據(jù)版面大小和長寬比的變化而調(diào)整充滿整個版面的。這一調(diào)整的過程稱之為“版面重排”。支持版面重排的流式文件可以提供更多版式文件不具備的功能,例如字體大小調(diào)整、版面背景調(diào)整等。常見的流式文件類型包括:Epub、Mobi、TXT等。(Epub文件中有一種特殊的子類“Fix-Epub”是版式文件,是通過技術(shù)手段將版面固定下來的Epub文檔。)
流式文件比較適合小屏幕閱讀器或閱讀軟件使用。經(jīng)過重排的圖文內(nèi)容可以自動適應(yīng)版面的尺寸,提供最佳的呈現(xiàn)效果。
半流式文件是介于版式文件和流式文件之間的文檔類型。其特點(diǎn)是文檔的整體表現(xiàn)出流式文檔的特點(diǎn),而內(nèi)容的局部卻表現(xiàn)出版式文檔的特點(diǎn)。具體來說就是文檔整體是流式存儲,除文字外的其他內(nèi)容對象卻保持其相對位置關(guān)系不變,呈現(xiàn)效果與版式文件非常接近。半流式文件在字體、字號和版面大小變化時也可以進(jìn)行“版面重排”,但不會像流式文件那樣徹底的重排,還會具有版式文件的版面布局特點(diǎn)。
半流式文件的常見類型是MicrosoftWord文件。其版式的特點(diǎn)讓W(xué)ord文件既適合做紙書排版又適合做網(wǎng)絡(luò)發(fā)布,在小屏幕上閱讀時也有不錯的表現(xiàn)。
PDF文件(全稱Portable Document Format,是Adobe公司開發(fā)的電子文件格式)作為版式文件中最重要的文檔類型,是數(shù)據(jù)加工業(yè)務(wù)的一種重要成品數(shù)據(jù)類型。但由于PDF構(gòu)成的復(fù)雜性和靈活性造成大家對PDF只關(guān)注其呈現(xiàn)效果而不重視其生成方式,使得對PDF的認(rèn)知和理解有較大的差異性。
PDF是一種對象堆砌型的文檔結(jié)構(gòu)。直觀的講就是把版面看成一塊畫布,將內(nèi)容對象放置到畫布上形成版面效果。內(nèi)容對象可以疊加放置也可以錯開放置,上面的對象會影響下面對象的呈現(xiàn)和選?。ㄒ妶D1)。PDF文檔的這種結(jié)構(gòu)特點(diǎn)使得同一種版式效果可以用多種方式來實(shí)現(xiàn)和展示。
圖1 PDF文檔結(jié)構(gòu)示意圖
矢量PDF指的是PDF文檔中的字符都是以編碼的方式存儲和顯示的,并且字符的字形數(shù)據(jù)已經(jīng)嵌入到PDF中。這種PDF的優(yōu)點(diǎn)是可以拷貝和檢索、顯示美觀、文件尺寸較小。矢量PDF中的插圖和線條等內(nèi)容對象如果和字符發(fā)生重疊,一般情況會放在字符的下方。例如文字下面的底圖等。
矢量PDF是版式文件中應(yīng)用最廣的一種格式,也是數(shù)據(jù)加工領(lǐng)域輸出最常見的版式文件。規(guī)范的PDF文件在應(yīng)用和后期加工處理的質(zhì)量控制上起到重要的基礎(chǔ)性作用。
亂碼PDF也是矢量PDF的一種,它與規(guī)范的矢量PDF的差別就在于編碼的正確性上。矢量PDF中的字符都是以正確編碼方式存儲的,但有一種特殊情況是編碼可能是錯誤的。不論是人為的原因還是系統(tǒng)的原因使得部分或者全部字符的編碼是錯誤的,無法檢索和正??截?,這種PDF稱之為亂碼PDF。亂碼PDF可以在某種程度上防止文檔內(nèi)容的丟失,但也給應(yīng)用和后續(xù)加工帶來不少的麻煩和困難。
轉(zhuǎn)曲PDF也是矢量PDF的一種,它的特點(diǎn)是文檔中的字符不是以編碼的方式存儲的,而是直接存儲的是字形數(shù)據(jù),換言之就是PDF文檔中沒有編碼。這樣的PDF在顯示上和規(guī)范的矢量PDF沒有什么區(qū)別,但是無法檢索和拷貝。轉(zhuǎn)曲PDF由于無法對內(nèi)容進(jìn)行修改,并且其中的所有字符和圖像的形狀和位置都是固定的,所以特別適合作為出版物終稿的載體,或者在CTP印刷、POD印刷和桌面印刷上應(yīng)用。
在數(shù)據(jù)處理行業(yè),圖像PDF一般指的是整個版面以圖片的形式作為PDF一頁的PDF文件。通常情況下PDF的每一頁只有一張整版圖,沒有其他的字符和線條。圖像PDF的制作通常也是將紙質(zhì)文檔經(jīng)掃描后打包在一起生成PDF文件。圖像PDF文件和掃描圖像在應(yīng)用上沒有太大的區(qū)別,內(nèi)容無法檢索和拷貝。同時文檔所占的空間也較大,不利于存儲和傳輸。
圖像PDF是數(shù)據(jù)加工領(lǐng)域中較初級的加工成果物,如果后續(xù)要提供更好的產(chǎn)品功能則需要對圖像PDF進(jìn)行二次加工,生成雙層PDF或者矢量PDF。
雙層PDF通常被視為是圖像PDF的二次加工成果。所謂的雙層指的是在原有圖像PDF的圖像層上面再疊加一層文字層,并把文字層的屬性置為透明,這樣在應(yīng)用時就可以檢索和拷貝了,同時不影響對圖像層的閱讀。文字層可以通過OCR加工得到的,在加工中要求字符與圖像相應(yīng)的對位要精準(zhǔn),不能偏差太大。用戶實(shí)際看到的圖像層,而選擇和拷貝的則是文字層。這樣既能保證原版面的精準(zhǔn)呈現(xiàn),又能滿足檢索和拷貝的功能需求。
雙層PDF往往用在既注重版面樣式又希望實(shí)現(xiàn)檢索和拷貝功能的存量內(nèi)容資源。
通過上述數(shù)據(jù)加工方面的術(shù)語辨析,可以看出不同概念的混淆確實(shí)會影響加工需求和成品數(shù)據(jù)規(guī)格,產(chǎn)生溝通上的歧義。希望大家都能通過理解術(shù)語的準(zhǔn)確含義,盡量使用規(guī)范的概念稱謂,推動數(shù)據(jù)加工領(lǐng)域術(shù)語標(biāo)準(zhǔn)化的進(jìn)程。