卷帙浩繁的中華古籍凝結(jié)著先人的智慧,記載著璀璨的文化,訴說著綿延不絕的中華文明。由于所述所記年代的久遠,古籍在今天很多人的印象中往往晦澀難懂、深藏高閣。好在數(shù)字技術(shù)與新媒體平臺正在有力地改變這一印象,古籍數(shù)字化、智慧化應(yīng)用的持續(xù)推進不僅讓各種古籍的面貌煥然一新,還解決了“藏”與“用”的問題,不斷激發(fā)著古籍的生命力。隨著古籍數(shù)字化進程的不斷加快,尚古匯典·古籍數(shù)字服務(wù)平臺(以下簡稱“尚古匯典”平臺)等數(shù)字化平臺的涌現(xiàn)讓不可再生的古籍獲得了數(shù)字生命,在“云端”安家永駐,成為大眾共享的文化資源。
除了將“書”放到網(wǎng)上方便查閱,古籍數(shù)字化的另一項重要任務(wù)是深入發(fā)掘古籍中的內(nèi)容,創(chuàng)新古籍的更多打開方式。作為由上海世紀出版集團規(guī)劃設(shè)計、上海古籍出版社具體實施、全力打造的古籍數(shù)字化綜合服務(wù)平臺,“尚古匯典”平臺聚合了優(yōu)質(zhì)的古籍資源,在光學(xué)文字識別、大數(shù)據(jù)、人工智能等數(shù)字技術(shù)基礎(chǔ)上,不僅可以為古籍整理出版者、古籍專業(yè)研究者及傳統(tǒng)文化愛好者提供數(shù)字服務(wù),還能夠賦能古籍整理出版、學(xué)術(shù)研究和國學(xué)傳習。面對古籍中蘊藏著的龐大的知識體系和大量的歷史故事,以及豐厚的哲學(xué)思想、人文精神、價值理念和道德規(guī)范,只有把這些文化資源開掘出來,與當下生活實踐相結(jié)合,與當下受眾審美趣味相契合,才能全面實現(xiàn)從知識共享到知識服務(wù),讓古籍的內(nèi)容真正“活”起來,從而讓更多人走近古籍、了解古籍。在采訪中,上海古籍出版社副社長兼副總編輯吳長青分享了“尚古匯典”平臺應(yīng)用的先進數(shù)字技術(shù)和目前取得的成果,在解決古籍數(shù)字化過程中格式多樣的問題和古籍OCR(Optical Character Recognition,意為光學(xué)字符識別)識別引擎訓(xùn)練上獲得的寶貴經(jīng)驗,“尚古匯典”平臺對于古籍OCR工具個人版和機構(gòu)版進行的針對性設(shè)計,以及“尚古匯典”平臺正在探索的領(lǐng)域和未來的發(fā)展方向。
《全國新書目》:歷經(jīng)四年的計劃和建設(shè),目前“尚古匯典”平臺取得了哪些成果?
吳長青:從去年8月“尚古匯典”平臺正式發(fā)布以來,我們將權(quán)威、優(yōu)質(zhì)、全面的古籍數(shù)字化資源輸送到學(xué)界,并為用戶提供了舒適的閱讀、精準的檢索等功能,不僅使平臺上的古籍資源更易于得到,也使這些資源更方便利用。目前平臺開通試用的機構(gòu)有200余家,包括高校、公共圖書館、研究機構(gòu)、黨政系統(tǒng)、出版機構(gòu)等,覆蓋大陸、港澳臺地區(qū)和海外。
我們已完成開發(fā)并上線的數(shù)據(jù)庫有“典籍整理文獻數(shù)據(jù)庫”,目前上線共4期,收錄圖書3800余種,一共10億字,內(nèi)容主要以我社的核心整理文獻為主,比如很有代表性的“中國古典文學(xué)叢書”“十三經(jīng)譯注”“商周青銅器銘文暨圖像集成”系列等;還有“上海文獻數(shù)據(jù)庫”下的“府縣舊志”和“上海市志”子庫,它們一共收書130余種,共0.84余億字。
同時,“尚古匯典”平臺的古籍數(shù)據(jù)庫常見、必備功能已達到目前國內(nèi)行業(yè)的領(lǐng)先水平。以閱讀功能為例,除了圖文對讀閱讀模式等多種閱讀常用功能,“尚古匯典”平臺在閱讀界面還可以使用個人筆記、查詢字典。在設(shè)計上,我們會更關(guān)注古籍的特點,并進行針對性的功能開發(fā)。比如專業(yè)學(xué)者可以使用引用復(fù)制功能,快捷便利地完成引用注釋工作。
古籍數(shù)據(jù)庫另一不可或缺的核心基礎(chǔ)功能是檢索功能?!吧泄艆R典”平臺目前提供普通檢索、高級檢索和圖書檢索三種模式,檢索方案掃除了繁簡體字、異體字,同義詞、字圖字等檢索障礙。此外,目前平臺還配備了聯(lián)機字典、紀年換算工具、適配于古籍的OCR(個人版)工具等,力爭給用戶帶來更便利、優(yōu)質(zhì)的使用感受。
《全國新書目》:為了幫助古籍研究者提高效率,獲得更高質(zhì)量的古籍資源,“尚古匯典”平臺目前利用了哪些先進數(shù)字技術(shù)?
吳長青:“尚古匯典”平臺是集資源展示、資源檢索、技術(shù)服務(wù)為一體的古籍數(shù)字服務(wù)平臺。在資源展示上,“尚古匯典”平臺利用國內(nèi)目前最先進的排印本OCR技術(shù),輔以優(yōu)質(zhì)專業(yè)的人工校對,使得數(shù)字資源錯誤率低于萬分之一,達到國家《圖書質(zhì)量管理規(guī)定》中對紙質(zhì)書的同等要求水平;在資源檢索上,“尚古匯典”平臺使用分布式、高擴展的ES搜索引擎,并配合獨有的搜索方案,提供了海量數(shù)據(jù)高速檢索能力,百億字檢索響應(yīng)時間低于0.5秒;在技術(shù)服務(wù)上,“尚古匯典”平臺使用了最新的人工智能模型,以古籍OCR工具為例,不僅能在1秒鐘以內(nèi)完成單張圖片的版式和文字識別,且平均識別準確率達到98%以上。
《全國新書目》:古籍版式繁多而且復(fù)雜,密集的文字和圖文混排都會給自動識別和標注帶來困難,請問“尚古匯典”平臺是如何解決古籍數(shù)字化過程中格式多樣的問題的?在古籍OCR識別引擎的訓(xùn)練上獲得了哪些寶貴經(jīng)驗?
吳長青:近十來年,隨著人工智能深度學(xué)習技術(shù)的突飛猛進,現(xiàn)代書籍、文檔的識別已經(jīng)達到相當高的水平,古籍領(lǐng)域相對小眾,但是學(xué)界、業(yè)界對于古籍識別的嘗試一直在進行中。
正如大家所知道的,與現(xiàn)代書籍相比,古籍的時間跨度更長,載體也更豐富,年代、地域、印制機構(gòu)的不同都會極大地影響古籍的展現(xiàn)形式,這些都給古籍OCR帶來了很大的困難。“尚古匯典”平臺在最新人工智能模型的加持下,在專業(yè)編輯提供的高質(zhì)量、大規(guī)模的古籍標準化標注數(shù)據(jù)基礎(chǔ)上,利用原版古籍數(shù)據(jù)進行了針對性訓(xùn)練,目前已經(jīng)可以實現(xiàn)對古籍中版心、正文、注釋、標題、表格、插圖、眉批、夾注等格式的識別,達到了國內(nèi)領(lǐng)先水平。
對于古籍來說,不管是文字還是格式的識別,最大的困難都在于訓(xùn)練數(shù)據(jù)的標注。古籍的訓(xùn)練數(shù)據(jù)標注工作對于標注人員的古籍專業(yè)知識儲備和古籍編校經(jīng)驗要求都很高,如果不是對古籍有相當程度的了解,是無法準確標注出各種復(fù)雜的版式和不同情況的文字的。好在我社在此領(lǐng)域有天然優(yōu)勢,近一年時間里,我們組織了大量古籍編校經(jīng)驗豐富的標注人員對訓(xùn)練數(shù)據(jù)進行了專業(yè)、精細的文字和版式標注工作,從而確保了訓(xùn)練數(shù)據(jù)的準確性和權(quán)威性。
與此同時,人工智能模型的選擇也是影響最終識別效果的重要因素之一。我們調(diào)研了大量學(xué)術(shù)界的代表性模型,并最終選擇了2023年發(fā)布的sota模型進行文字識別和版式識別,以期在準確率和速度上達到較優(yōu)的平衡。
回顧古籍OCR功能開發(fā)的一年時間里,我們收獲良多。一方面,我們實現(xiàn)了大量優(yōu)質(zhì)基礎(chǔ)數(shù)據(jù)的積累;另一方面,我們進行了技術(shù)上的探索,在探索過程中我們始終保持開放的視野,緊跟最新技術(shù)發(fā)展的動態(tài)。這些對于有著悠久歷史的上海古籍出版社來說都有極大的價值,不忘初心,活用積累的資源,發(fā)揮專業(yè)的優(yōu)勢,接納最新的技術(shù)等等,這些必將在未來給我們帶來更加廣闊的發(fā)展前景。
《全國新書目》:相對于其他古籍數(shù)字化平臺,“尚古匯典”平臺在閱讀功能的開發(fā)中進行了哪些突破和創(chuàng)新?
吳長青:我們從用戶習慣出發(fā),基于古籍特性,對平臺的閱讀功能做了針對性優(yōu)化,以期為用戶提供更好的體驗。比如,古籍文本中有較多的注釋性文字,我們?yōu)榱颂嵘脩舻捏w驗,開發(fā)了注釋性文字的一鍵跳轉(zhuǎn)功能。用戶可以點擊注號,在彈窗中查看注文,或者跳轉(zhuǎn)到對應(yīng)注釋頁面查看,再點擊注號就可以回轉(zhuǎn)到正文繼續(xù)閱讀。又如,古籍中文字的情況較為復(fù)雜,對于一些生僻字、甲骨文、金文、少數(shù)民族文字等只能處理為字圖,為了讓用戶的閱讀更加順暢,我們對字圖做了一定處理,以便它們能夠自然融入正文,并支持與其他文字同時、同比放大縮小。
《全國新書目》:如果為讀者提供更多結(jié)構(gòu)化、圖譜化、智能化數(shù)據(jù)的話,目前存在哪些難點,您認為有哪些值得探索的解決方案?
吳長青:知識圖譜是近些年比較引人矚目的數(shù)字化概念,尤其是在中國傳統(tǒng)文化方面,涌現(xiàn)出了一大批專題知識圖譜產(chǎn)品,在這個過程中知識圖譜的相關(guān)技術(shù)也在不斷成熟。目前我社在積累結(jié)構(gòu)化、知識化數(shù)據(jù)的同時,也在積極探索這些數(shù)據(jù)的應(yīng)用場景和商業(yè)落地模式。
知識圖譜實現(xiàn)的難點首先與古籍OCR的開發(fā)類似,提供結(jié)構(gòu)化、知識化的數(shù)據(jù)需要大量相關(guān)專業(yè)背景的成熟標注人員。這些標注人員不僅要對古籍知識有所了解,本身還需要對中國傳統(tǒng)文化有深入的理解和敏銳度,才能在標注工作中對知識點、知識關(guān)聯(lián)性等保持精準的判斷。不可否認可視化動態(tài)產(chǎn)品確實拉近了古籍和大眾的距離,然而目前知識圖譜相關(guān)的產(chǎn)品在落地方面還沒有形成成熟的商業(yè)模式,其價值的實現(xiàn)途徑仍不明朗。知識圖譜的標注工作和最終呈現(xiàn)都需要前期巨大的投入,但如何讓用戶買單仍是難題。在數(shù)據(jù)層面上,我社依靠成立以來歷年的優(yōu)質(zhì)權(quán)威出版資源積累和經(jīng)驗豐富的優(yōu)秀編輯團隊,已經(jīng)完成了部分結(jié)構(gòu)化知識的積累,比如《歷代職官表》《古今人物別名索引》、各類年譜著作等。在產(chǎn)品層面上,我們正積極探索與研究機構(gòu)、高校等的項目合作,希望利用資源互補,形成在學(xué)界有競爭力的產(chǎn)品,為學(xué)術(shù)研究助力,并以此為窗口,逐步打開知識圖譜的市場需求。
《全國新書目》:“尚古匯典”平臺目前主要服務(wù)的讀者(或用戶)群體有哪些?對于“尚古匯典”古籍OCR工具的個人版和機構(gòu)版,平臺進行了哪些針對性設(shè)計?
吳長青:“尚古匯典”平臺目前主要服務(wù)的用戶集中在古籍整理出版者和古籍專業(yè)研究者中,隨著平臺的不斷完善,我們希望未來能為傳統(tǒng)文化愛好者提供優(yōu)質(zhì)全面的服務(wù)。
針對“尚古匯典”古籍OCR(個人版)工具,我們從個人用戶的需求和習慣出發(fā),圍繞識別、校正、文本導(dǎo)出三大核心功能提供優(yōu)質(zhì)便利的使用體驗。第一,在識別功能方面,我們在高質(zhì)量、大規(guī)模的古籍標準化標注數(shù)據(jù)基礎(chǔ)上,利用原版古籍數(shù)據(jù)進行了針對性訓(xùn)練,行識別與字識別兩相對照,目前版式和文字的平均識別準確率均達98%。第二,在校正方面,不僅支持用戶將原文與識別文字列對列逐字校正,還支持用戶進行版式校正。第三,在文本導(dǎo)出方面,考慮到古籍文本復(fù)雜的版面情況,比如有眉批、夾注等,對導(dǎo)出的識別文本我們會在格式顯示上區(qū)分出不同的版式。
“尚古匯典”古籍OCR(機構(gòu)版)工具在繼承了古籍OCR(個人版)工具優(yōu)勢的同時,更貼合實際項目管理需求,不但為機構(gòu)用戶配備了項目管理后臺,還提供了更加全面、高效的文字識別體驗。首先是易錯字提醒,在高質(zhì)量、大規(guī)模的古籍標準化標注數(shù)據(jù)基礎(chǔ)上,利用大數(shù)據(jù)算法在OCR識別時將易錯字高亮提醒。其次是字聚類功能,支持在選定的文本范圍內(nèi)進行以識別字為單位的關(guān)聯(lián)字圖聚合,并支持實時修正。該功能打破了文本本身的壁壘,通過同一字圖的統(tǒng)一聚類維度來進行識別,在大體量的識別文本中極具優(yōu)勢。再次是文本對比功能,在高質(zhì)量、大規(guī)模的古籍標準化標注,以及古籍訓(xùn)練的海量數(shù)據(jù)中,憑借人工智能技術(shù)的相似文本篩選功能,對識別結(jié)果進行比對驗證,為專業(yè)化、精細化的古籍項目保駕護航。
《全國新書目》:“尚古匯典”平臺對改進目前古籍整理出版作坊化的生產(chǎn)模式有哪些貢獻?平臺會從哪些方面進一步推動古籍知識生產(chǎn)模式、知識服務(wù)模式的升級?
吳長青:當前高質(zhì)量的古籍數(shù)字化內(nèi)容依賴人工校對以提高準確率,但這也帶來了人力和時間成本的增加。據(jù)統(tǒng)計,現(xiàn)存的20多萬種古籍中,只有8萬種完成了影像數(shù)字化掃描,僅4萬種完成文本數(shù)字化?!吧泄艆R典”平臺的古籍OCR工具能夠提高古籍數(shù)字化的效率,讓古籍從業(yè)者從重復(fù)性工作中擺脫出來,專注于知識性、技術(shù)性、內(nèi)容性的處理,并保護作為文物的古籍原本。同時,數(shù)字化后的古籍更便于傳播利用,也更便于為古籍人工智能技術(shù)的發(fā)展提供基礎(chǔ)資料。
古籍數(shù)字化的展開不僅是直接利用和開發(fā)傳統(tǒng)出版的編校成果,還需要利用新的技術(shù)手段,提高傳統(tǒng)編輯的效率,與傳統(tǒng)編輯形成紙、電之間的配合與支持,并為作者乃至古籍整理行業(yè)提供便利。未來,“尚古匯典”平臺將繼續(xù)探索人工智能在古籍領(lǐng)域的應(yīng)用,開發(fā)古籍的識別、標點和標引工作,簡化古籍整理出版流程。在自然語言處理和機器智能學(xué)習技術(shù)的加持下,“尚古匯典”平臺還將對古籍文本進行進一步的語義分析和主題挖掘,并在AI識別關(guān)鍵概念、主題和關(guān)系的基礎(chǔ)上,幫助研究者發(fā)現(xiàn)隱藏在古籍中的知識和見解。借助這些技術(shù),我們能夠從中華傳統(tǒng)文化的寶庫中提煉題材、獲得靈感,為智慧城市、文化旅游等領(lǐng)域提供知識服務(wù),如根據(jù)地方志挖掘地方古跡、人物、藝文資源等等。
《全國新書目》:近兩年熱度越來越高的自然語言處理、大規(guī)模語料庫和機器學(xué)習標點等智能算法技術(shù)可以為“尚古匯典”平臺的發(fā)展帶來哪些新的機遇?您覺得還有哪些先進技術(shù)可以應(yīng)用到古籍數(shù)字化領(lǐng)域當中?
吳長青:目前中文的現(xiàn)代漢語語料庫已經(jīng)趨近完善,各個開源的語料庫為中文信息處理提供了源源不斷的動力。相較之下,古籍語料庫在規(guī)模、質(zhì)量上都處于初級階段,往往局限于高校的專項研究,開源語料庫也少之又少。
“尚古匯典”平臺目前擁有約10億字高質(zhì)量點校本古籍,可以支撐今后在自然語言處理上的探索。預(yù)計近幾年平臺會陸續(xù)推出自動標點、自動標引等古籍技術(shù)工具,與古籍OCR工具無縫銜接,再配合“尚古匯典”平臺的快速建庫功能,可以實現(xiàn)古籍資源從圖像到數(shù)據(jù)庫的一站式解決方案。
就先進技術(shù)而言,大語言模型是近兩年最熱門的技術(shù)話題之一,它對于古籍數(shù)字化發(fā)展的助力可以體現(xiàn)在方方面面。在它的加持下,OCR、語義理解、關(guān)系抽取等功能都有望通過一個模型來實現(xiàn),后續(xù)我們也會持續(xù)關(guān)注和探索大語言模型在古籍領(lǐng)域的應(yīng)用。
《全國新書目》:古籍數(shù)字化經(jīng)歷了從將紙質(zhì)書變?yōu)殡娮訏呙璋娴綄㈦娮訏呙璋孀優(yōu)槲淖职娴陌l(fā)展階段,要想以平臺為載體、將文字版進一步發(fā)展為古籍研學(xué)系統(tǒng)的話,您認為有哪些關(guān)鍵因素?
吳長青:在我看來,古籍研學(xué)系統(tǒng)的建設(shè)深度依賴于“尚古匯典”平臺現(xiàn)有的資源和技術(shù)積累。除了OCR、自動標點、自動標引之外,需要做的工作大致還涉及以下幾點:
首先是保持古籍版本的多樣性。除了繼續(xù)收錄整理本社古籍資源,擴充“典籍整理文獻數(shù)據(jù)庫”外,“尚古匯典”平臺計劃在今年開啟“匯編文獻數(shù)據(jù)庫”版塊,并且上線“四庫全書”子庫,未來還會陸續(xù)收錄《續(xù)修四庫全書》和《清代詩文集匯編》等大型影印類古籍叢書,實現(xiàn)典籍整理類古籍和影印類古籍交相輝映的局面。古籍版本多樣性的建設(shè)對于“尚古匯典”平臺的發(fā)展至關(guān)重要,因為高質(zhì)量、可征引并且支持版本比對的古籍一直都是學(xué)術(shù)研究界的剛需。
其次是交互系統(tǒng)的建設(shè)。目前“尚古匯典”平臺的功能專注于閱讀、檢索等核心基礎(chǔ)功能,與用戶之間少有互動,而一個優(yōu)質(zhì)的研學(xué)系統(tǒng)需要建立在大量高效、優(yōu)質(zhì)的互動之上。無論是論壇、群組、共享筆記,還是視頻課程、直播、AI問答等,都可以增強用戶體驗,加大用戶黏性。
最后也是最關(guān)鍵的因素,是打通系統(tǒng)流程。研學(xué)系統(tǒng)需要在“尚古匯典”平臺各個模塊的基礎(chǔ)上開發(fā)新模塊、新功能,并且建立一整套完整的流程。這里以古籍整理出版為例,用戶選擇整理對象后,即可設(shè)定底本、校本,之后利用OCR、自動標點、自動標引、AI理校等功能輸出粗文本和各版本差異比對,利用“尚古匯典”平臺中的海量可征引資源進行進一步??保罱K完成??焙螅桓渡虾9偶霭嫔邕M入出版流程。這一流程中不僅離不開各環(huán)節(jié)的穩(wěn)定功能輸出,更加離不開各環(huán)節(jié)的順暢銜接配合。
《全國新書目》:您認為除了服務(wù)專業(yè)機構(gòu)和研究人員之外,有哪些方式可以讓更多古代名著通過“尚古匯典”平臺以更平易近人的方式走進普通讀者的生活?
吳長青:提到“古籍”二字,很多讀者會覺得這一領(lǐng)域是有著天然存在的門檻的,事實上也確實如此,要閱讀古籍大抵是不能什么都不做的,需要有初步選擇版本的能力,最好還要配一些相關(guān)文字類、歷史掌故類、文獻資料類的工具書才行。從以上幾點出發(fā),很多讀者在這一過程中大概都會遇到“找不到、不會用、讀不懂”這三大難關(guān)。在這三大難關(guān)面前,讓人提起興趣就更難了。所以要讓“尚古匯典”平臺以更平易近人的方式走進普通讀者的生活,首先要解決的就是這三大難關(guān)。為此,我們設(shè)計了與“尚古匯典”平臺配套的“尚古匯典”品牌下的小程序,它是用來解決這些問題的一個嘗試,可以把它看作一位“古籍智能助手”。在內(nèi)容上,小程序多選擇權(quán)威經(jīng)典的譯注類著作,這樣讀者們就不用再為讀什么、讀不懂而憂慮。同時,與“尚古匯典”平臺相同的檢索配置可以讓小程序有更敏銳、更善于發(fā)現(xiàn)的“眼睛”,既便于普通讀者解決“找不到的問題”,也便于普通讀者發(fā)現(xiàn)興趣點,從而對古籍產(chǎn)生探索欲。
《全國新書目》:“尚古匯典”平臺未來的發(fā)展規(guī)劃是什么?
吳長青:首先,我們會始終堅持“內(nèi)容為王”的原則,持續(xù)為用戶提供優(yōu)質(zhì)海量的古籍資源。上海古籍出版社每年出版的優(yōu)質(zhì)核心古籍是我們平臺資源的基石,也將引導(dǎo)我們未來持續(xù)展開古籍數(shù)字化工作的方向。同時,上海世紀出版集團旗下除了上海古籍出版社外,還有上海辭書出版社、中西書局、上海書店、上??萍汲霭嫔绲瘸霭鏅C構(gòu),均出版了各種優(yōu)秀、權(quán)威、稀缺的古籍資源。我們還將放眼全國乃至全球,積極和各大出版社、高校、圖書館等尋求合作。維持平臺古籍資源的可持續(xù)積累發(fā)展,這是平臺得以走得更遠的基礎(chǔ)保障。
其次,平臺的應(yīng)用場景和業(yè)務(wù)價值的提升依賴于平臺的業(yè)務(wù)邏輯,包括內(nèi)容資源、技術(shù)架構(gòu)和具體的功能設(shè)計。我們采用了微服務(wù)架構(gòu)和模塊化技術(shù),實現(xiàn)了平臺架構(gòu)的靈活可擴展性,能夠滿足后續(xù)業(yè)務(wù)的快速復(fù)用、升級和迭代需求,便于應(yīng)對不同業(yè)務(wù)場景,可以很好地為學(xué)術(shù)研究機構(gòu)、圖書館等快速定制個性化數(shù)據(jù)庫的需求提供服務(wù)。
再次,古籍數(shù)字化不僅是直接利用和開發(fā)傳統(tǒng)出版的編校成果,還需要利用新的技術(shù)手段,提高傳統(tǒng)編輯的效率。未來,“尚古匯典”平臺將繼續(xù)探索人工智能在古籍領(lǐng)域的應(yīng)用,更好地助推原版古籍的識別、標點和標引工作,簡化古籍整理出版流程。在自然語言處理和機器智能學(xué)習技術(shù)的加持下,平臺還將進一步推進對古籍中寶貴傳統(tǒng)文化財富的探索和利用,助力我國文化產(chǎn)業(yè)的發(fā)展。