王雪霞 劉曉立
智能信息環(huán)境為古籍工作帶來多方面利好
北京大學數(shù)字人文研究中心主任、中國古籍保護協(xié)會古籍智能開發(fā)與利用專業(yè)委員會主任委員王軍是此次研討會籌辦人。他在3月12日“古籍智能”系列研討會第一講中率先談道,智能信息環(huán)境將為古籍保護帶來六大利好:一是深化古典文獻學研究,加快古籍整理出版;二是便于古籍文獻的知識抽取和信息集成;三是加速學科跨界融合,利于高校復合型人才培養(yǎng);四是利于古籍閱讀文化推廣,提升民眾人文素養(yǎng);五是有助于構(gòu)建人類命運共同體,利用中華古籍智慧促進世界和平;六是促進政府、企業(yè)、古籍愛好者等多方協(xié)作,促成各方面、各領域的共享、開發(fā)與合作。
北京大學中文系教授楊海崢認為,古籍整理和古籍文獻的研究與教學在智能信息環(huán)境下正面臨著一場深刻而廣泛的變革,凝聚多方社會力量推動古籍數(shù)字化、智能化平臺的建設以及相關標準規(guī)范的形成,促進古籍資源在智能信息環(huán)境下的深度開發(fā)、利用與傳播是古典文獻學在智能時代進一步發(fā)展的需要。
智能時代古典文獻學的機遇和挑戰(zhàn)
中國在5000多年歷史長河中,創(chuàng)造了燦爛輝煌的華夏文明,留下了眾多珍貴的文化遺產(chǎn)。古代典籍是這些文化遺產(chǎn)最直接與最重要的載體形式,也是先賢們留下的寶貴精神財富和歷史見證。古籍文獻屬于文化資源,具有不可再生的屬性,必須在妥善保護基礎上加以利用。古籍文獻數(shù)字化為實現(xiàn)這一目標提供了可能。
古籍智能化是當今信息技術(shù)時代人文學科新的學術(shù)增長點,亟需來自不同學科領域、擁有多元文化和研究背景的專家學者展開跨學科、跨地域乃至跨國別的協(xié)同研究。在3月12日“古籍智能”系列研討會第一講中,與會專家圍繞智能時代古典文獻學面臨的機遇和挑戰(zhàn),系統(tǒng)討論了古籍智能信息處理所涉及的各個子領域的發(fā)展源流、基本知識、技術(shù)架構(gòu)和未來趨勢,大范圍普及和傳播了古籍智能領域的知識和關鍵技術(shù)。
清華大學中文系教授劉石談到,大數(shù)據(jù)技術(shù)引發(fā)了文獻生產(chǎn)的創(chuàng)革、文本形態(tài)的新變和知識獲取的拓展,最終促進了傳統(tǒng)文獻學的現(xiàn)代轉(zhuǎn)型,包括革新傳統(tǒng)文獻學的實踐路徑、增強傳統(tǒng)文獻研究的整體性、促進傳統(tǒng)文獻研究的實證化、催生新的研究范式等。同時,他也指出,大數(shù)據(jù)技術(shù)在古典文獻研究中存在著局限和問題,應警惕技術(shù)方法的局限性和負面影響。
浙江大學中文系教授徐永明以“古典文獻面臨的機遇和挑戰(zhàn)”為題,介紹了目前數(shù)字人文所涉的技術(shù)、工具、平臺,探討了傳統(tǒng)古籍整理與大數(shù)據(jù)背景下古籍整理的異同,說明了后者在多個方面的優(yōu)勢,展示了智慧古籍平臺的樣式和使用方法。復旦大學中國歷史地理研究所教授張曉虹從開創(chuàng)、進展、前景等方面對CHGIS 進行了全面介紹,說明了 CHGIS 相較于傳統(tǒng)《中國歷史地圖集》的優(yōu)勢,討論了CHGIS 對數(shù)字人文研究的貢獻。四川大學中國文化全球傳播大數(shù)據(jù)中心教授王兆鵬指出,古籍智能化的兩個面向是古籍整理(文本轉(zhuǎn)化的智能化)和古籍利用(功能提升的智能化),集中探討了2.0版古籍數(shù)據(jù)庫的三大進展。華南理工大學電子與信息學院金連文教授從數(shù)據(jù)、方法、應用三個方面對深度學習時代的古籍OCR進行了全面的介紹,并在此基礎上討論了目前尚未解決或未徹底解決好的問題,強調(diào)了跨學科合作的重要性。中國古籍的影響不止局限于中華文化圈,韓國慶星大學韓國漢字研究所許喆教授在跨文化視野下考察了東亞古文獻數(shù)字研究的相關問題,介紹了韓國古籍數(shù)字化的有關情況,展示了具體的數(shù)據(jù)庫、檢索目錄等網(wǎng)絡資源,說明了所涉及的某些新技術(shù)。上海圖書館上??茖W技術(shù)情報研究所劉煒研究員介紹了基于聯(lián)盟鏈技術(shù)的古籍整理研究平臺,說明了聯(lián)盟鏈技術(shù)的優(yōu)越性,展示了上海圖書館區(qū)塊鏈平臺;希望所有古籍元數(shù)據(jù)和原文永遠在線,永不刪除,永久保存,可按權(quán)限訪問。
信息技術(shù)為古籍智能化、信息化提供了良好的發(fā)展機遇,而由此產(chǎn)生的古籍智能化圖像識別、句讀標點、命名實體識別、數(shù)字化檢索等一系列問題都成為了數(shù)字時代古籍研究領域新的挑戰(zhàn),與會專家圍繞智能時代古典文獻學面臨的機遇和挑戰(zhàn)的相關探討,對促進智能信息環(huán)境下古籍整理與研究學的跨學科人才培養(yǎng),拓寬古典文獻學的研究方法等具有積極的作用。
古籍數(shù)字化平臺的建設帶來的轉(zhuǎn)變與便利
“古籍數(shù)字化平臺的建設”作為“古籍智能”系列研討會的首個專題研討會于3月26日,以騰訊會議的方式在線舉辦。作為主辦方,王軍教授在開場詞中表示,古籍數(shù)字平臺具有基礎地位和作用,在數(shù)字時代,古籍的整理與研究都依托平臺展開。隨后,北京大學中文系教授楊海崢、浙江大學文學院教授徐永明、四川大學文科講席教授王兆鵬、上海外國語大學圖書館研究館員歐陽劍、中華書局古聯(lián)公司總經(jīng)理洪濤、元引科技有限公司創(chuàng)始人朱厚權(quán)等進行了主題匯報。
此次研討會重點對四個議題進行了研討,分別為:對古籍數(shù)字化平臺的理解、古籍數(shù)字化平臺從傳統(tǒng)數(shù)據(jù)庫到結(jié)構(gòu)化數(shù)據(jù)庫再到智能數(shù)據(jù)庫的歷史溯源、相關技術(shù)工具介紹等;古籍數(shù)字化平臺的使用、應用,以實例說明古籍數(shù)字平臺的知識化建設模式以及古籍文獻的數(shù)字人文研究模式的構(gòu)建等;古籍數(shù)字化平臺的可持續(xù)化發(fā)展及商業(yè)探索;古籍數(shù)字化平臺如何在人才培養(yǎng)中發(fā)揮作用。會議認為,隨著數(shù)字人文理念的出現(xiàn),從傳統(tǒng)古籍數(shù)據(jù)平臺到智能古籍大數(shù)據(jù)平臺,從數(shù)字化古籍的傳統(tǒng)使用模式到智能化使用模式,古籍的數(shù)字化平臺不僅可以實現(xiàn)古籍的自動???、自動標點、自動編纂、自動注釋、自動索引、自動排版等功能,還可以提供分析、挖掘、知識服務等功能。
徐永明教授作了題為“從傳統(tǒng)古籍數(shù)據(jù)平臺到智能古籍大數(shù)據(jù)平臺”的主題匯報。他首先介紹了古代文獻所具備的價值與當前文獻正經(jīng)歷的形態(tài)轉(zhuǎn)變,然后通過分析傳統(tǒng)數(shù)字古籍平臺的功能和特點,講述了從傳統(tǒng)數(shù)據(jù)庫到結(jié)構(gòu)化數(shù)據(jù)庫再到智慧化數(shù)據(jù)平臺的演進路徑。傳統(tǒng)數(shù)據(jù)庫的缺點是缺乏后臺數(shù)據(jù)支撐、關聯(lián)功能差、不能定位、附加值低;結(jié)構(gòu)化數(shù)據(jù)庫可進行定量數(shù)據(jù)分析、定位等,彌補了傳統(tǒng)數(shù)據(jù)庫的部分不足;而如今的智慧化數(shù)據(jù)和平臺以結(jié)構(gòu)化數(shù)據(jù)作為后臺支撐,能更大程度地解決先前的難點。徐永明教授以自己設計、建造的浙江大學“智慧古籍平臺”為例,分享了智能化古籍數(shù)字平臺的理念與實踐情況,詳盡展示了平臺的各種功能,指出智能化古籍數(shù)字平臺的“智能”表現(xiàn)在智能OCR、智能標點、智能標引、智能搜索、眾包技術(shù)、圖數(shù)據(jù)庫等方面,同時需要學者們的高度參與。他表示,古籍整理任重而道遠,期望智能數(shù)據(jù)平臺的建設能夠加快這一進程。楊海崢教授在點評中指出,古籍數(shù)字平臺的演化給古籍整理帶來了重大變化,還帶來了思維方式和研究范疇的新變,在研究、教學的諸多方面都會產(chǎn)生深刻的影響。
王兆鵬教授分享了關于“古籍數(shù)智化的意義”的相關內(nèi)容?!皵?shù)智化”即數(shù)字化和智能化的結(jié)合,這一概念具有雙重意義,即功能性提升與結(jié)構(gòu)性轉(zhuǎn)變。功能性提升意味著古籍的自動識別、自動標引及自動校注得以實現(xiàn),結(jié)構(gòu)性轉(zhuǎn)變包括學術(shù)創(chuàng)新和應用的創(chuàng)造性轉(zhuǎn)化。學術(shù)創(chuàng)新基于知識的貫通化發(fā)展。在此之前,知識被有序地隔開,以后則會打通——打通古今、連通各地、部類貫通,從零散到聚合。大數(shù)據(jù)會帶來數(shù)據(jù)的聚類化研究,會驗證、修正我們平常的知識,還可以轉(zhuǎn)化為文創(chuàng)產(chǎn)品的開發(fā)。
歐陽劍研究館員介紹了數(shù)字人文視域下的古籍基礎數(shù)據(jù)應用平臺實踐,指出人文學者的研究模式正從讀文獻向分析文獻轉(zhuǎn)變,向基于古籍大數(shù)據(jù)的多元化、整體化研究轉(zhuǎn)變。他提出了古籍文獻的數(shù)字人文研究應用模式,即將描述性內(nèi)容轉(zhuǎn)變?yōu)閿?shù)據(jù),在此基礎上進行研究。隨后,他分享了目前自己在古籍基礎數(shù)據(jù)建設、文本分析和典籍知識服務實踐等方面的工作。
洪濤總經(jīng)理首先對“籍合網(wǎng)”做了簡要介紹?!凹暇W(wǎng)”是由隸屬于中華書局的古聯(lián)公司建設和運營的國家級古籍整理出版資源平臺,于2018年上線。籍合網(wǎng)面向多類型用戶,集合了多種功能,包含專題數(shù)據(jù)庫、在線眾包整理平臺、大數(shù)據(jù)中心、自動開發(fā)工具等諸多資源。洪濤還介紹了“籍合網(wǎng)”的古籍智能整理出版技術(shù)研發(fā)工作、出版社編輯使用的古籍整理工作平臺,并展示了古籍整理數(shù)字化的工作流程。
朱厚權(quán)總經(jīng)理以“引得CBDB”平臺為例,介紹了人文書籍類學術(shù)成果轉(zhuǎn)化的探索與實踐情況。他首先介紹了“引得CBDB”項目的建設過程及現(xiàn)有成果,指出數(shù)字人文平臺的業(yè)態(tài)正在不斷演進。隨后,他在總結(jié)以往經(jīng)驗的基礎上,展示了自己關于目前數(shù)字人文平臺體系建設的構(gòu)想,并演示了元引科技為清華大學數(shù)字人文學院開發(fā)的“文本功能平臺”的相關功能。他特別指出,學術(shù)研究的獨創(chuàng)性與工程實踐的可復制性既相輔相成又差異顯著。
在專家討論階段,王軍教授提出,古籍文獻的數(shù)字化、結(jié)構(gòu)化、圖譜化,在分析過程中需要借助外部知識庫,相關版權(quán)問題如何得到解決?開放的資源庫、版權(quán)能否得到授權(quán)?是否可以開放API,平臺互聯(lián)互通?對此,專家們均發(fā)表了積極的意見,一致認為需要形成一種良好的機制,一種學界和業(yè)界良性循環(huán)的生態(tài);需要建立平臺,讓大家了解學術(shù)界的成果,也使得學術(shù)研究成果可以返回到企業(yè),從而形成日益開放、資源有效整合的良好趨勢。
信息技術(shù)與人文學科結(jié)合的展望與討論
如今,以大數(shù)據(jù)、人工智能為代表的信息技術(shù)方興未艾。那些停留在金石、竹簡和紙張上的先哲智慧也期待著能夠插上數(shù)字化的翅膀、踏上信息技術(shù)發(fā)展的高速列車,由此產(chǎn)生的古籍智能化圖像識別、句讀標點、命名實體識別、數(shù)字化檢索等都將成為數(shù)字時代古籍研究領域的關注重點。本次研討會圍繞大數(shù)據(jù)、人工智能等為代表的信息技術(shù)的發(fā)展所開展的討論,必將為古籍傳承與保護等人文學科的發(fā)展提供新的方法、注入新的活力。
關于“古籍智能”系列研討會已成功舉辦兩場,接下來還將陸續(xù)舉辦歷史地理信息系統(tǒng)的建設與發(fā)展“古籍OCR技術(shù)概述與發(fā)展趨勢”“古籍目錄數(shù)據(jù)庫”“古代年表與時間本體知識庫”“古籍標注語料庫建設”“古文自然語言處理技術(shù)”“古代歷史人物數(shù)據(jù)庫”“古籍資料庫建設”“古典文獻大數(shù)據(jù)分析”“智能時代古典文獻學教育、研究與人才培養(yǎng)”九項專題研討。此系列研討會由北京大學數(shù)字人文研究中心、北京大學—字節(jié)跳動數(shù)字人文開放實驗室、北京大學人工智能研究院主辦,全國高等院校古籍整理研究工作委員會、中國古籍保護協(xié)會古籍智能專業(yè)委員會為指導單位,并得到了字節(jié)跳動公益的支持。研討會通過騰訊會議舉辦,并在 Bilibili網(wǎng)站上直播和回放。