【摘 要】在信息技術(shù)快速演進的當下,尤其是生成式人工智能技術(shù)的飛速發(fā)展下,圖書的數(shù)字化處理尤顯關鍵。圖書數(shù)字化涉及的關鍵環(huán)節(jié),包括掃描技術(shù)、圖像處理、字符識別、內(nèi)容編輯與校對、元數(shù)據(jù)生成及數(shù)據(jù)存儲與發(fā)布。在生成式人工智能必將獲得廣泛應用的未來,圖書版本數(shù)字化將朝著數(shù)字化技術(shù)的發(fā)展、跨界融合、社會化參與的方向發(fā)展。為了使圖書版權(quán)持有者、圖書館及數(shù)字化服務提供者可以充分利用生成式AI的優(yōu)勢,出版社需要基于不同技術(shù)的應用成效,大幅提升圖書版本數(shù)字化的效率和質(zhì)量,提供更加豐富多樣的數(shù)字化產(chǎn)品和服務。
【關 鍵 詞】圖書數(shù)字化;版本數(shù)字化;圖像處理;生成式人工智能
【作者單位】李重,西安交通大學出版社。
【基金項目】陜西省社科基金資助項目“版本數(shù)字化的理論與實踐”(2023BB02)。
【中圖分類號】G230.7 【文獻標識碼】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2024.13.006
隨著信息技術(shù)的迅猛發(fā)展,數(shù)字化已成為當代社會不可逆轉(zhuǎn)的大趨勢。在出版領域,數(shù)字版圖書正逐步取代傳統(tǒng)紙質(zhì)書,成為人們獲取和傳播知識的主要媒介。這一轉(zhuǎn)變不僅是技術(shù)革新的結(jié)果,也是信息時代應對海量數(shù)據(jù)處理需求的迫切現(xiàn)實。因此,圖書數(shù)字化已成為圖書館、出版社等相關機構(gòu)刻不容緩的關鍵任務。
生成式人工智能(Generative Artificial Intellige
nce,以下簡稱“GAI”)技術(shù)的飛速發(fā)展,為圖書數(shù)字化進程注入了新的動力。GAI技術(shù)具有數(shù)字化、規(guī)?;突ネㄐ缘忍攸c,是大數(shù)據(jù)環(huán)境下技術(shù)變革和業(yè)態(tài)轉(zhuǎn)型升級的助推劑。因此,基于GAI技術(shù)對圖書數(shù)字化進行探索,無疑將為出版業(yè)的數(shù)字化轉(zhuǎn)型提供堅實的理論基礎和技術(shù)支撐,也為智能化知識服務體系的構(gòu)建鋪平道路。
一、版本數(shù)字化加工方法的發(fā)展現(xiàn)狀
版本數(shù)字化加工方法是將紙質(zhì)文獻轉(zhuǎn)換為數(shù)字化文獻的過程,包括文獻的掃描、文字識別、圖像處理、文本挖掘等多個環(huán)節(jié)。近年來,隨著互聯(lián)網(wǎng)技術(shù)的普及和數(shù)字出版業(yè)的興起,版本數(shù)字化加工方法在圖書、期刊、檔案等文獻領域得到了廣泛應用。版本數(shù)字化不僅有利于保護文獻資源、提高文獻利用效率,還可以為讀者提供便捷、高效的文獻服務。在國外,版本數(shù)字化加工方法的研究已經(jīng)取得了顯著成果,學者們針對數(shù)字化加工過程中的關鍵技術(shù)進行了深入探討,如光學字符識別技術(shù)、圖像處理技術(shù)、文本挖掘技術(shù)等。這些研究成果在實際應用中取得了良好的效果,推動了數(shù)字化出版業(yè)的發(fā)展。然而,在國內(nèi),版本數(shù)字化加工方法的研究尚處于起步階段,許多技術(shù)難題尚未得到解決。因此,對我國版本數(shù)字化加工方法進行深入研究,既是順應國際發(fā)展趨勢的需要,也具有重要的現(xiàn)實意義。當前,圖書版本數(shù)字化的發(fā)展呈現(xiàn)以下幾個主要特點。
1.版本數(shù)字化的速度不斷提升
圖書版本數(shù)字化高度依賴先進技術(shù),包括光學字符識別、圖像處理、自然語言處理以及當前迅猛發(fā)展的GAI。光學字符識別技術(shù)能夠“讀取”掃描的紙質(zhì)圖書頁面上的文字并轉(zhuǎn)換為可編輯和搜索的文本格式。自然語言處理技術(shù)能進一步對這些文本數(shù)據(jù)進行深入處理和理解。值得一提的是,隨著GAI技術(shù)的不斷進步,文本生成和校對的自動化程度顯著提升,這不僅極大地提高了數(shù)字化的效率,還顯著提高了數(shù)字化的質(zhì)量和速度,為圖書版本數(shù)字化帶來了積極影響。
2.版本數(shù)字化的范圍不斷擴大
當前,從古籍善本到現(xiàn)代出版物,各類圖書的數(shù)字化工作正如火如荼地開展。在這場數(shù)字化的盛宴中,許多國家和地區(qū)的圖書館、檔案館以及科研機構(gòu)都投入了大量資金和人力來進行文獻數(shù)字化工作。例如:英國圖書館的“Turning the Pages”項目,利用先進的3D技術(shù),數(shù)字化展示館藏的珍貴手稿;中國國家圖書館啟動了“中華數(shù)字書苑”數(shù)據(jù)庫,逐步將館藏圖書和檔案數(shù)字化,為用戶提供在線訪問服務。
3.版本數(shù)字化的應用場景不斷豐富
圖書版本數(shù)字化并不局限于將紙質(zhì)圖書簡單地轉(zhuǎn)化為電子版,還是一個涵蓋多種增值服務和創(chuàng)新應用的綜合過程。例如,借助元數(shù)據(jù)標注和全文搜索功能,用戶可以更加便捷地查找和獲取所需的信息資源。此外,許多數(shù)字圖書館和電子書平臺還提供文本轉(zhuǎn)語音、多語言翻譯以及個性化推薦等一系列功能,極大地提升了用戶的使用體驗。
4.版本數(shù)字化的標準和規(guī)范不斷強化
為了確保數(shù)字化圖書的質(zhì)量與互操作性,業(yè)界廣泛采納了各類國際標準和規(guī)范。例如,國際數(shù)字出版論壇推出的EPUB標準、PDF/A標準,以及各種元數(shù)據(jù)標準(如DublinCore),在現(xiàn)代圖書數(shù)字化進程中扮演著舉足輕重的角色。這些標準不僅為數(shù)字化流程提供了明確的規(guī)范,還確保了數(shù)字化產(chǎn)品能夠長期保存并易于訪問。
我國在數(shù)字化加工技術(shù)領域已經(jīng)取得令人矚目的進展,特別是在中文光學字符識別和圖像處理等方面的研發(fā)成果上,更是展現(xiàn)了非凡實力。然而,與國際上的先進水平相比,我國仍然存在一定的差距。為了縮小這一差距,我國需要積極借鑒國外的成功經(jīng)驗,不斷加大研發(fā)投入力度,持續(xù)創(chuàng)新并優(yōu)化相關技術(shù)。與此同時,國內(nèi)學者在版本數(shù)字化加工研究中也展現(xiàn)了獨特的視角和深度,其主要聚焦于三個方面:項目的組織與管理,致力于探索如何有效協(xié)調(diào)各個環(huán)節(jié),以提高整體工作效率,確保項目順利進行;質(zhì)量控制,致力于確保數(shù)字化過程中的文獻質(zhì)量,提升文獻的可用性和可讀性,讓數(shù)字化成果更加貼近用戶需求;成本核算,主要研究如何降低加工成本,提高項目的經(jīng)濟效益,為數(shù)字化加工技術(shù)的可持續(xù)發(fā)展注入經(jīng)濟活力。
總的來說,圖書版本數(shù)字化是一項復雜而系統(tǒng)的工程,它如同一座橋梁,連接著傳統(tǒng)與現(xiàn)代、技術(shù)與文化。在這個過程中,技術(shù)、法律、資金等多方面的問題相互交織,共同構(gòu)成了這一領域的豐富內(nèi)涵。盡管我們面臨諸多挑戰(zhàn),每一步都充滿了未知和困難,但正是這些挑戰(zhàn),激發(fā)了我們不斷前行的動力。隨著技術(shù)的不斷進步,我們有理由相信,圖書版本數(shù)字化的發(fā)展前景將變得更加廣闊。
二、版本數(shù)字化加工方法的技術(shù)分析
圖書版本數(shù)字化是一個復雜的過程,旨在將各類不同版本的文字資料(包括紙質(zhì)書籍、手稿、平版印刷、圖像、古籍等)轉(zhuǎn)換為數(shù)字格式,以便于存儲、檢索、傳播和保護。
1.文獻采集
文獻采集是圖書版本數(shù)字化加工的第一個環(huán)節(jié),其目的是獲取需要進行數(shù)字化轉(zhuǎn)換的文獻資源。圖書版本數(shù)字化加工的文獻采集主要包括以下步驟。一是確定加工范圍,根據(jù)項目需求,確定需要進行數(shù)字化加工的文獻類型、數(shù)量和主題范圍。例如,針對某個學科領域的圖書版本數(shù)字化項目,確定具體的出版社、出版年份和圖書種類等。二是文獻獲取。通過各種途徑獲取需要進行數(shù)字化轉(zhuǎn)換的文獻資源,常見的文獻獲取途徑包括圖書館、出版社、網(wǎng)絡書店等。在獲取文獻過程中,出版社需要關注文獻的版權(quán)問題,確保數(shù)字化加工的合法性。三是文獻整理。對獲取的文獻資源進行整理,包括去重、分類、編目等。對于同一本書的不同版本,需要進行版本識別和區(qū)分,以便后續(xù)更好地進行數(shù)字化轉(zhuǎn)換和質(zhì)量控制。四是文獻存儲。將整理好的文獻資源存儲到指定的服務器或數(shù)據(jù)庫中。在存儲過程中,需要保證文獻資源的完整性和安全性,防止數(shù)據(jù)丟失或被篡改。
2.數(shù)字化轉(zhuǎn)換
數(shù)字化轉(zhuǎn)換是版本數(shù)字化加工的核心環(huán)節(jié),目的是將文獻資源由其他格式轉(zhuǎn)換為數(shù)字格式,便于存儲、檢索和共享。圖書版本數(shù)字化加工的數(shù)字化轉(zhuǎn)換主要包括以下步驟。一是光學字符識別。對紙質(zhì)文獻進行掃描,使用光學字符識別技術(shù)將圖像中的文字轉(zhuǎn)換為可編輯的文本格式。在光學字符識別技術(shù)的識別過程中,出版社需對識別結(jié)果進行校驗和糾錯,以提高文本的準確性和可讀性。二是圖像處理。將紙質(zhì)文獻掃描得到的數(shù)字圖像進行處理,包括圖像去噪、圖像增強、圖像裁剪等,以提高圖像的質(zhì)量和可用性。三是文本處理。對光學字符識別得到的文本進行進一步處理,包括文本編輯、格式轉(zhuǎn)換、去重、分詞、詞性標注等。文本處理的目標是提高文本的準確性和可用性,以便后續(xù)的檢索和分析。四是文獻存儲。將處理好的文本格式存儲到指定的數(shù)據(jù)庫或文件夾中,以便后續(xù)的檢索和共享。在存儲過程中,同樣需要保證文獻資源的完整性和安全性,防止數(shù)據(jù)丟失。
3.質(zhì)量控制
質(zhì)量控制是版本數(shù)字化加工中至關重要的環(huán)節(jié),它直接關系到數(shù)字化文獻的質(zhì)量,并對數(shù)字化文獻的可用性和保存周期具有決定性的影響。因此,質(zhì)量控制需要貫穿整個數(shù)字化加工過程,包括文獻采集、數(shù)字化轉(zhuǎn)換和數(shù)據(jù)庫構(gòu)建等各個環(huán)節(jié)。通過制定并嚴格執(zhí)行質(zhì)量控制標準,可以確保數(shù)字化文獻的質(zhì)量達到預期標準,提高數(shù)字化文獻的可用性和長期保存能力。一是根據(jù)項目需求,制定質(zhì)量標準,包括文本的準確性和可讀性、圖像的質(zhì)量和清晰度等。二是對光學字符識別得到的文本進行質(zhì)量控制,包括文本校驗、糾錯、格式檢查等,以確保文本的準確性和可用性。三是對數(shù)字圖像進行質(zhì)量控制,包括圖像去噪、增強、裁剪等,以提高圖像的質(zhì)量和可用性。四是將處理好的文本和數(shù)字圖像進行整合,形成完整的數(shù)字化文獻資源。在數(shù)據(jù)整合的過程中,需要保證數(shù)據(jù)的完整性和一致性。五是對數(shù)字化文獻進行質(zhì)量評估,包括文本和圖像的質(zhì)量評估,以確保數(shù)字化文獻的質(zhì)量達到預期標準。
4.數(shù)據(jù)庫構(gòu)建
數(shù)據(jù)庫構(gòu)建是版本數(shù)字化加工的最后一步,是將數(shù)字化文獻資源進行有效存儲、管理和檢索的關鍵。數(shù)據(jù)庫構(gòu)建的質(zhì)量直接影響數(shù)字化文獻的可用性和易用性,對數(shù)字化加工的質(zhì)量控制具有決定性影響。
以西安交通大學出版社的圖書版本數(shù)字化項目為例。在數(shù)據(jù)庫構(gòu)建過程中,首先,需要選擇合適的數(shù)據(jù)庫管理系統(tǒng)(DBMS),如MySQL、PostgreSQL等。其次,需要根據(jù)數(shù)字化文獻的特征,設計合適的數(shù)據(jù)結(jié)構(gòu),如書籍信息表、作者信息表、出版社信息表等(見表1)。再次,選擇合適的數(shù)據(jù)存儲方式,如關系型數(shù)據(jù)庫存儲、分布式文件存儲等。最后,對數(shù)字化文獻數(shù)據(jù)庫進行有效的管理和維護,包括數(shù)據(jù)備份、恢復、安全、性能優(yōu)化等。
在表1的示例中,我們設計了一個包含三張表的數(shù)據(jù)庫:books、authors和publishers。books表包含了書籍信息,包括書籍ID、書名、作者、出版社、出版年份和ISBN號;authors表包含了作者信息,包括作者ID、姓名、出生年份和去世年份;publishers表包含了出版社信息,包括出版社ID、名稱和所在地。這個示例中的數(shù)據(jù)結(jié)構(gòu)簡單明了,易于維護和擴展。當然,在實際的數(shù)據(jù)庫設計過程中,示例中的數(shù)據(jù)結(jié)構(gòu)還是相對簡單,需要根據(jù)具體的需求和數(shù)字化文獻的特征,進行更加復雜和精細的數(shù)據(jù)結(jié)構(gòu)設計。
不同的方法各有優(yōu)缺點,適用于不同的應用場景。表2是幾種常見的數(shù)字化加工方法及其優(yōu)缺點分析。
總的來說,各種數(shù)字化加工方法都有其優(yōu)缺點。在實際應用中,出版社需要根據(jù)具體需求和條件選擇合適的數(shù)字化加工方法,同時也需要關注數(shù)字化加工技術(shù)的發(fā)展趨勢,以期在實際應用中取得更好的效果。特別是近年來,隨著GAI技術(shù)的快速發(fā)展,其成為數(shù)字化加工領域的新興力量。GAI技術(shù)能夠通過自學習和演化算法顯著提高數(shù)字化加工的效率和精準度,使得復雜的數(shù)據(jù)處理步驟和內(nèi)容生成方式變得更加智能化和自動化。隨著GAI技術(shù)的不斷進步,我們可以預見其在數(shù)字化加工領域的廣泛應用和巨大潛力。
三、GAI技術(shù)在版本數(shù)字化中的應用
出版本質(zhì)上是一種知識生產(chǎn)方式[1],與生產(chǎn)技術(shù)息息相關。在圖書出版領域,盡管各出版社對人工智能技術(shù)的應用情況和應用程度不盡相同,但數(shù)字化和智能化已成為大勢所趨,這是出版界的共識。隨著 ChatGPT 的推出,GAI技術(shù)的快速發(fā)展引發(fā)了行業(yè)內(nèi)關于GAI技術(shù)對圖書出版影響的廣泛討論。學術(shù)界和業(yè)界不僅專注于文獻的掃描與存儲,也在積極探索更為先進的AI技術(shù)應用,以提升數(shù)字化水平。特別是在圖書版本數(shù)字化領域,GAI技術(shù)能夠大幅提升數(shù)字化文獻的質(zhì)量和可訪問性。這不僅為文化傳播和知識共享奠定了堅實基礎,也為未來出版業(yè)開辟了更廣闊的空間。
眾所周知,GAI是一類旨在生成新數(shù)據(jù)的模型,能夠?qū)W習一系列輸入數(shù)據(jù)的分布規(guī)律,然后基于學習的分布規(guī)律生成類似的新數(shù)據(jù)。隨著深度學習的發(fā)展,神經(jīng)網(wǎng)絡已成為GAI的主要工具之一[2]?;谏窠?jīng)網(wǎng)絡的生成模型如生成對抗網(wǎng)絡、變分自編碼器和生成預訓練變換器,在圖像生成、文本生成和其他生成任務中表現(xiàn)出色。生成式模型需要在大量數(shù)據(jù)上進行訓練,學習數(shù)據(jù)的分布規(guī)律和特征。在訓練過程中,模型通過迭代優(yōu)化參數(shù),逐漸提高生成數(shù)據(jù)的質(zhì)量。訓練完成后,使用者可以通過輸入特定條件或隨機噪聲來生成新的數(shù)據(jù)。例如,在文本生成任務中,使用者輸入一個初始句子或關鍵詞,模型能夠生成一段連貫的文本;在圖像生成任務中,使用者輸入隨機噪聲,模型能生成一幅逼真的圖像。GAI技術(shù)利用概率模型和深度學習神經(jīng)網(wǎng)絡,通過設計合適的損失函數(shù)和優(yōu)化方法,在大量數(shù)據(jù)上進行訓練,從而生成高質(zhì)量的新數(shù)據(jù)。
為了有效地將GAI技術(shù)應用于圖書版本數(shù)字化,我們可以制定技術(shù)路線圖(見表3)。路線圖分為幾個階段,每個階段都有明確的目標和實現(xiàn)步驟。
該技術(shù)路線圖從數(shù)據(jù)采集、處理,到生成多語言內(nèi)容、開展智能檢索和互動,再到最終系統(tǒng)部署,構(gòu)成了一個全面的技術(shù)流程。通過逐步實現(xiàn)各個階段的目標,出版社可以充分利用生成式AI的優(yōu)勢,大幅提升圖書版本數(shù)字化的效率和質(zhì)量,為用戶提供更加豐富多樣的數(shù)字化產(chǎn)品和服務。例如,美國國會圖書館實驗室于2022年提出了《美國國會圖書館實驗室人工智能規(guī)劃框架》,并于2023年11月進行了更新發(fā)布[3]。該框架旨在為圖博檔機構(gòu)提供實用的指導和戰(zhàn)略方針,以應對迅速發(fā)展的人工智能技術(shù)帶來的挑戰(zhàn)和機遇。框架中明確提出了三個規(guī)劃階段,即了解、實驗、實施,并對支持機器學習的數(shù)據(jù)、模型和人員三要素進行了詳細評估。
盡管GAI技術(shù)在圖書出版領域的應用為出版業(yè)帶來了諸多便利和優(yōu)勢,但也使出版業(yè)面臨多種挑戰(zhàn),主要包括隱私保護、知識產(chǎn)權(quán)保護、算法歧視、信息準確度和透明度等方面的問題。為了規(guī)范和管理GAI技術(shù)在版本數(shù)字化方面的應用,保障知識產(chǎn)權(quán)和用戶權(quán)益,未來關于規(guī)范GAI技術(shù)的一些措施有待研究與施行。
四、版本數(shù)字化的發(fā)展趨勢
回顧出版史,我們可以清晰地看到,新技術(shù)已經(jīng)深刻影響了圖書的形態(tài)和發(fā)展。在GAI必將獲得廣泛應用的未來,這些技術(shù)將為圖書的數(shù)字化版本帶來更多可能性,從而推動知識生產(chǎn)和知識傳播的不斷創(chuàng)新。展望圖書版本數(shù)字化的發(fā)展前景,其可能會在以下幾個方向?qū)崿F(xiàn)新突破。
1.數(shù)字化技術(shù)的發(fā)展
隨著科技的進步,人工智能技術(shù)可以在圖書版本數(shù)字化過程中應用于文本挖掘、自動分類、關鍵詞提取等方面。通過自然語言處理技術(shù),出版社可以對大量文本數(shù)據(jù)進行快速處理與分析,提高數(shù)字化圖書的質(zhì)量和效率,進而對讀者的閱讀習慣、偏好等進行深入挖掘,為圖書版本數(shù)字化提供有針對性的建議,從而提高數(shù)字圖書的市場競爭力。物聯(lián)網(wǎng)技術(shù)可以實現(xiàn)實體圖書與數(shù)字圖書的深度融合,為讀者提供更加豐富的閱讀體驗??傊?,在未來的發(fā)展中,圖書版本數(shù)字化將繼續(xù)在數(shù)字化技術(shù)的推動下不斷優(yōu)化和創(chuàng)新,滿足多樣化的需求,促進數(shù)字出版產(chǎn)業(yè)的發(fā)展。
2.跨界融合
未來,圖書版本數(shù)字化將與其他領域進行更深入的跨界融合,形成多元化的數(shù)字出版產(chǎn)品和服務,滿足讀者多樣化的需求。例如:圖書版本數(shù)字化與教育領域的融合,可以為教育領域提供豐富的數(shù)字化教學資源,幫助學生和教師更好地進行教學和學習;圖書版本數(shù)字化與文化領域的融合,能夠?qū)鹘y(tǒng)圖書數(shù)字化,并與文化展覽、文化活動等相結(jié)合,形成具有文化特色的數(shù)字出版產(chǎn)品,吸引更多讀者關注和了解文化知識。
3.社會化參與
隨著圖書版本數(shù)字化的發(fā)展,更多的社會力量將參與其中,如個人創(chuàng)作者、小型出版社等。這將推動圖書版本數(shù)字化的創(chuàng)新,豐富數(shù)字圖書市場的內(nèi)容和形式。越來越多的個人創(chuàng)作者開始進入數(shù)字圖書市場,為讀者提供豐富多樣的數(shù)字圖書內(nèi)容。這些個人創(chuàng)作者的加入,不僅豐富了數(shù)字圖書市場的作品類型,還提高了圖書版本數(shù)字化的創(chuàng)新水平。隨著開放獲取資源的普及,越來越多的學術(shù)機構(gòu)和組織開始將圖書資源分享給公眾。這為圖書版本數(shù)字化提供了豐富的內(nèi)容資源,有利于推動圖書版本數(shù)字化的創(chuàng)新和發(fā)展。
|參考文獻|
[1]范軍. 出版本質(zhì)上是一種知識生產(chǎn)[J]. 出版科學,2022(3):1.
[2]LV ZHIHAN. Generative artificial intelligence in the metaverse era[J]. Cognitive Robotics,2023(3):208-217.
[3]Introducing Chat GPT[EB/OL]. (2022-11-30)[2024-06-25]. https://openai.com/blog/chatgpt.