范晨曉
摘要2017年6月15-16日,“基于CADAL平臺的資源共享與應用”國際研討會在浙江大學成功舉辦。與會專家圍繞數(shù)字資源共享與應用主題開展了深入討論,探討了數(shù)字時代圖書館的挑戰(zhàn)和機遇,分享了國內(nèi)外在資源數(shù)字化、數(shù)字資源整合、合作共享、數(shù)字人文等方面的經(jīng)驗。會議不僅有技術(shù)上的創(chuàng)新,更有大量的實踐案例,為如何建設(shè)更好的數(shù)字圖書館及提供數(shù)字資源服務提出了實踐方向和創(chuàng)新思路。
關(guān)鍵詞
數(shù)字化 數(shù)字資源整合 合作共享 數(shù)字人文 CADAL
2017年6月15-16日,“基于CADAL平臺的資源共享與應用”國際研討會在浙江大學紫金港校區(qū)召開。會議由大學數(shù)字圖書館國際合作計劃(China Academic Digital Associative Library,簡稱“CADAL”)項目管理中心、數(shù)字圖書館教育部工程研究中心、中國工程科技數(shù)據(jù)和知識技術(shù)研究中心聯(lián)合主辦。來自哈佛大學、牛津大學、北京大學、清華大學等國內(nèi)外高校的100余位代表參加了會議。浙江大學副校長、圖書館館長羅衛(wèi)東,教育部高等學校圖書情報工作指導委員會主任、北京大學圖書館館長朱強,哈佛大學燕京圖書館館長鄭炯文,CADAL管理中心副主任莊越挺在開幕式上分別致辭。
CADAL作為國家投資建設(shè)的教育部“211工程”重點工程,由浙江大學聯(lián)合國內(nèi)外高等院校、科研機構(gòu)共同承擔。自2002年啟動至今,共建立了8個數(shù)據(jù)中心、33個服務中心、2個數(shù)字化加工基地和40余個數(shù)字化加工中心,形成了全世界最大的資源數(shù)字化網(wǎng)絡,建成的全文數(shù)據(jù)庫總量達250萬冊(件),囊括中外文圖書、音視頻資料以及報刊論文等重要文獻。羅衛(wèi)東在會議開幕式上致辭指出,CADAL項目已取得豐碩成果,未來還將進一步與中國工程院及其他機構(gòu)合作共建,共謀發(fā)展。
會議以CADAL資源為基礎(chǔ),以合作和共享為切入點,進行了跨文化、跨地區(qū)的學術(shù)交流與研討,報告主題涵蓋了數(shù)字資源組織揭示、合作共享、數(shù)字人文等熱點問題。
1當前數(shù)字資源建設(shè)背景的變化
信息化浪潮風起云涌、席卷全球。高校信息環(huán)境和知識服務方式都隨之發(fā)生了急劇的變化,高校圖書館事業(yè)也因此進入一個新的發(fā)展階段。
全國政協(xié)外事委員會主任、中國工程院潘云鶴院士作了題為“數(shù)字圖書館的智能化浪潮”報告。潘院士在報告中指出,當前數(shù)字資源建設(shè)背景巨變,圖書館面臨眾多挑戰(zhàn),因此,數(shù)字圖書館的建成只是一系列巨變的一個開端。它將隨著信息基礎(chǔ)設(shè)施升級、數(shù)據(jù)資源膨脹和人工智能技術(shù)的巨變而繼續(xù)變化。計算機圖靈獎獲得者、卡內(nèi)基梅隆大學計算機與機器人學教授、CADAL創(chuàng)始人之一的美方代表雷伊·雷蒂(Raj Reddy)作題為“為子孫后代保存我們的過去和現(xiàn)在”的報告。雷伊·雷蒂在報告中強調(diào)了數(shù)字保存的重要性與可能性,他強烈呼吁一個世界范圍內(nèi)的新版權(quán)保護規(guī)則的出現(xiàn),并建議成立中國國家數(shù)字檔案館以保存國家文化遺產(chǎn)。
兩位教授的思考和見解深邃獨特、高瞻遠矚。圖書館智能化浪潮和數(shù)字保存的重要性也讓大家思索下一步數(shù)字圖書館應走向何方。
2數(shù)字資源組織揭示
數(shù)字資源是數(shù)字圖書館建設(shè)的核心內(nèi)容、立足之本,其重要性不言而喻。長期以來,圖書館都非常重視數(shù)字資源建設(shè)。會上多位國內(nèi)外圖書館館長分享了各自館內(nèi)數(shù)字資源組織揭示的經(jīng)驗。
2.1特藏資源數(shù)字化
中國現(xiàn)存最早的私家藏書樓——天一閣,曾經(jīng)為保護藏書樓而制定了極為森嚴的規(guī)定。很長一段時間內(nèi)封閉甚嚴,幾絕人跡。如今的圖書館自然不比古時藏書樓,但是如要將古籍珍本深藏館中,且隔著山高水遠,讀者恐也不覺得十分便利。所幸圖書館人在努力,通過善本數(shù)字化、特藏電子化等將古籍珍本化身千百,傳本揚學。
哈佛大學燕京圖書館館長鄭炯文作題為“CADAL數(shù)字圖書館與哈佛燕京圖書館之合作及其他”的報告。哈佛燕京圖書館用10年時間完成了4200種52000冊善本的數(shù)字化并免費上網(wǎng)公開。報告中還介紹了2011年至今已經(jīng)做了30多項數(shù)字化項目,接下來還要進行更多數(shù)字化項目,如費吳生檔案等。斯坦福大學東亞圖書館中國研究館員薛昭慧作題為“從資源數(shù)字化到數(shù)字人文:斯坦福大學圖書館的實踐”的報告,向大家展示了斯坦福大學東亞圖書館特藏資源的數(shù)字化情況,并與大家分享了在資源發(fā)現(xiàn)和分享上的創(chuàng)新,如一些開放源代碼軟件的使用,與第三方機構(gòu)的合作經(jīng)驗等。
梵蒂岡圖書館東亞館員余東女士作題為“梵蒂岡圖書館中國和遠東地區(qū)古籍寫本文獻及其電子化現(xiàn)狀”的報告。梵蒂岡圖書館的中國古籍文獻的電子化工作在2008年正式展開,目前已基本完成?,F(xiàn)在梵蒂岡圖書館電子化項目的網(wǎng)站上(http://di—gi.vatlib.it/),已有6000余種電子化的善本和寫本供參閱。
廈門大學圖書館館長蕭德洪作題為“東南亞研究文獻的訪求”的報告。蕭德洪館長探討了如何發(fā)揚傳統(tǒng)優(yōu)勢和抓住時代機遇,以案例分享的方式來討論東南亞地區(qū)研究相關(guān)文獻的采集和訪求的路徑,進一步加強研究型館藏的建設(shè)。清華大學圖書館竇天芳副館長作題為“在圖書館里講述清華故事一以‘清華印記互動體驗區(qū)建設(shè)為例”的報告?!扒迦A印記”互動體驗空間包括數(shù)字學術(shù)、瀑布流圖書借閱、歷史長廊、數(shù)字人文等。該空間體現(xiàn)了數(shù)字化技術(shù)、視覺傳達、圖書館服務三者有機結(jié)合的實施經(jīng)驗和建設(shè)模式。
2.2從數(shù)字化到數(shù)據(jù)化
美國計算機科學家、圖靈獎獲得者吉姆·格雷(Jim Gray)提出了科學研究的“第四范式”?!暗谒姆妒讲粌H是研究方法的變化,更是人類思維方式的重大變化。在這種研究范式中,研究者面對浩如煙海的數(shù)據(jù),不再抽取少量的樣本進行分析,而是把所有數(shù)據(jù)作為一個整體,利用數(shù)據(jù)挖掘、計算、分析等技術(shù),直接從數(shù)據(jù)中探尋所需要的信息、知識和智慧?!?/p>
杜克大學圖書館國際與地區(qū)研究部的中國研究館員周珞從照片元數(shù)據(jù)的角度切入,作題為“建立一個國際歷史照片數(shù)據(jù)庫的元數(shù)據(jù)考慮”的報告,介紹了現(xiàn)在兩個主要國際數(shù)據(jù)的標準:一是歐洲數(shù)字圖書館的數(shù)據(jù)模型(Europeana Data Model,EDM)。二是北美主要采用的美國公共數(shù)字圖書館數(shù)據(jù)模型(Digital Public Library of America,DPLA)。CADAL現(xiàn)在采用的是都柏林核心元素集(DublinCore Element Set,DC)。她強調(diào)了數(shù)據(jù)的一致性和靈活性以便實現(xiàn)“數(shù)據(jù)鏈接”的可能。endprint
牛津大學中國中心圖書館館長邵玉書作題為“Serica,牛津大學中文古籍數(shù)字化項目與未來的資源共享”的報告。邵玉書館長向大家介紹了牛津大學博德利圖書館目前正在進行的中文編目和數(shù)字化項目(Cataloguing and Digitization Proi ect of theBodleian's Pre-modern Chinese Collections,簡稱“Serica”),該項目對館藏海內(nèi)外的孤本、手稿進行數(shù)字化,以及元數(shù)據(jù)結(jié)構(gòu)化等工作,并免費開放給公眾。報告中還介紹了一些手稿數(shù)字化工具,如清單編輯器(IIF Manifest Editor),該編輯器可以編輯元數(shù)據(jù),新建圖像順序等。
上海師范大學副教授孫紅杰作題為“數(shù)字化藝術(shù)藏品的增值服務個案:基于CADAL資源的‘數(shù)字人文中英合作項目”的報告,孫紅杰老師曾作為CADAL項目的“境外協(xié)調(diào)員”,在英國牛津大學開展“數(shù)字文化遺產(chǎn)”方面的中英合作研究。報告圍繞藝術(shù)品瀏覽系統(tǒng)和中國音樂文物數(shù)據(jù)庫介紹了已開展的數(shù)據(jù)關(guān)聯(lián)試驗及為數(shù)字化藝術(shù)藏品提供系統(tǒng)化增值服務的意義、潛能和途徑。藝術(shù)品瀏覽系統(tǒng)是薈萃1萬余幅高清分辨率數(shù)字繪畫和書法圖像的數(shù)據(jù)庫,以中國作品為主,涵蓋了西晉以來各個歷史時期、涉及各個藝術(shù)題材的藝術(shù)品資源。對于這些藝術(shù)品,CADAL除了做整體的元數(shù)據(jù)標注之外,還對一些畫作上的基本元數(shù)據(jù)進行優(yōu)化。中國音樂文物數(shù)據(jù)庫以CADAL數(shù)百萬冊電子圖書中涉及到的中國傳統(tǒng)音樂的海量圖片、圖書、樂譜資源為依托,對這些音樂文物的元數(shù)據(jù)進行標注。
3數(shù)字資源合作共享
在數(shù)字資源日益豐富、讀者需求不斷更新的大背景下,圖書館間、數(shù)字資源項目間建立資源共享聯(lián)盟是解決單個圖書館或項目資源匱乏及避免重復建設(shè)的有效途徑,也是圖書館界的大勢所趨。“合則強,孤則弱”,千年前的話同樣適用于當今數(shù)字時代的圖書館。圖書館資源共建共享,是未來圖書館可持續(xù)發(fā)展的重要方向。
3.1館際合作
伯克利加州大學東亞圖書館館長周欣平作題為“從收藏到鏈接:數(shù)字時代伯克利加州大學圖書館與亞洲及太平洋地區(qū)圖書館之間的合作與資源共享”的報告。伯克利加州大學東亞圖書館在館藏數(shù)字化方面與國內(nèi)外積極合作,如與臺灣中央圖書館合作數(shù)字化掃描,與中華書局合作趙元任檔案數(shù)字化項目,與日本國文學研究資料館合作2800種日本江戶時代寫本目錄和圖錄項目等。
哥倫比亞大學東亞圖書館館長程健作題為“哥倫比亞大學圖書館的數(shù)字化資源多重分享模式”的報告,與大家分享了數(shù)個合作典型案例,如中國門神紙馬收藏數(shù)字化項目、甲骨收藏3D數(shù)字化項目、顧維鈞檔案數(shù)字化項目等。
上海交通大學圖書館館長陳進作題為“從資源共享平臺建設(shè)到特色文化建設(shè)”的報告。陳進館長的報告以上海交通大學參與CADAL建設(shè)的若干項目為例,包括特色資源數(shù)字化、數(shù)據(jù)中心建設(shè)、讀者服務立體化協(xié)同工作平臺建設(shè)等,詳盡分析了資源共建共享體系為圖書館發(fā)展帶來的深遠影響。
3.2聯(lián)盟共享
機構(gòu)知識庫是一種有效和積極的知識保存、組織、管理機制,也是促使學術(shù)健康發(fā)展、自由開放的重要手段。北京大學圖書館朱強館長作題為“高校機構(gòu)知識庫聯(lián)盟的建設(shè)與發(fā)展”的報告。朱強館長在報告中回顧了2011-2017年中國高校機構(gòu)知識庫的發(fā)展,并介紹了中國高校機構(gòu)知識庫聯(lián)盟進展,朱強館長還特別就“2C一大數(shù)據(jù)合作”即中國高等教育文獻保障系統(tǒng)(CALIS)和CADAL兩者間的數(shù)據(jù)合作進行了闡述。
超星集團副總經(jīng)理葉艷鳴作題為“‘聯(lián)盟+一互聯(lián)網(wǎng)環(huán)境下的共享聯(lián)盟服務推廣”的報告,他在報告中指出,以“共建、共知、共享”為核心的圖書館共享聯(lián)盟是圖書館發(fā)展中的重要思想,但在發(fā)展過程中,“重建設(shè)、輕應用、約束多、傳播差”的現(xiàn)象普遍存在。報告以“互聯(lián)網(wǎng)+”的開放視角,探討了圖書館共享聯(lián)盟如何借助具有廣泛社會影響力的互聯(lián)網(wǎng)學術(shù)傳播渠道擴大聯(lián)盟的社會認同和共享服務的思路。
4數(shù)字人文
數(shù)字人文是目前國際上的新興學科和前沿研究領(lǐng)域,具有創(chuàng)新性強、多學科交叉、實用性突出的特點。近10余年來,北美、歐洲和亞洲的重要高校和研究機構(gòu),如哈佛大學、斯坦福大學、牛津大學等開始涉足并深入數(shù)字人文研究領(lǐng)域。國內(nèi)外圖書館界也積極響應,展開數(shù)字人文研究??梢哉f,數(shù)字人文是目前圖書館為數(shù)字學術(shù)開展服務的一個重點領(lǐng)域。
浙江大學人文學院徐永明教授應邀為大會作題為“數(shù)字資源、人文數(shù)字地圖與文史研究”的報告,從人文學者的角度來思考數(shù)字人文。徐永明教授在數(shù)字人文研究方面已有不少學術(shù)產(chǎn)出。如使用中國歷代人物傳記資料庫、中國歷史地理信息系統(tǒng)、哈佛大學世界地圖計劃(World Map)等進行學術(shù)研究,對全元文作者、明清女性作者、云南清代作者的地理分布進行了可視化研究。
4.1人文數(shù)據(jù)庫或數(shù)據(jù)集的建設(shè)
北京大學圖書館朱本軍和聶華在《跨界與融合:全球視野下的數(shù)字人文——首屆北京大學“數(shù)字人文論壇”會議綜述》一文中指出,“數(shù)字人文的內(nèi)容主要集中在四個層次:一是人文數(shù)據(jù)庫或數(shù)據(jù)集的建設(shè)。這一層次主要表現(xiàn)為兩個方面:其一是將非數(shù)字的人文資料加工轉(zhuǎn)化為數(shù)字內(nèi)容……其二是對非結(jié)構(gòu)化的數(shù)字文本內(nèi)容按照某種使用目的進行規(guī)范化標注著錄的數(shù)據(jù)集(Dataset)建設(shè)……”。
一是將人文資源數(shù)字化,形成特色資源數(shù)據(jù)庫,方便學者進行史料或文本的深度挖掘。浙江大學求是特聘教授、蔣介石與近現(xiàn)代中國研究中心主任陳紅民作題為“蔣介石資料數(shù)據(jù)庫的建設(shè)構(gòu)想”的報告。蔣介石資料數(shù)據(jù)庫是浙江大學蔣介石研究中心與CADAL合作項目,力求做到資料完備、內(nèi)容豐富、使用便捷、共建共享。國家圖書館出版社民國文獻編輯室副主任、數(shù)字出版部主任助理李強作題為“國家圖書館出版社歷史文獻數(shù)字化的探索與實踐”的報告,李強副主任與大家分享了國圖出版社的三個重要數(shù)據(jù)庫,分別是中華再造善本數(shù)據(jù)庫、民國時期文獻總庫·民國圖書數(shù)據(jù)庫和中國歷史人文傳記資源庫。endprint
二是將人文資源數(shù)據(jù)化,形成數(shù)據(jù)集,方便多學科學者進行交叉研究。中國歷代人物傳記資料庫(China Biographical Database,CBDB)就是這一類型的數(shù)據(jù)集。北京大學歷史學系、CBDB北大小組項目經(jīng)理楊光作題為“中國歷代人物傳記資料庫(CBDB)的數(shù)據(jù)建設(shè)與網(wǎng)絡基礎(chǔ)設(shè)施建設(shè)”的報告。CBDB作為一個關(guān)系型數(shù)據(jù)庫,致力于將中國歷史上的人物傳記資料根據(jù)不同方面的內(nèi)容進行分類和編碼,把這些古籍當中的內(nèi)容作為一些數(shù)據(jù)來存儲到數(shù)據(jù)庫當中。報告從數(shù)據(jù)建設(shè)與網(wǎng)絡基礎(chǔ)設(shè)施建設(shè)的實踐出發(fā),總結(jié)CBDB在數(shù)據(jù)庫建設(shè)及其他數(shù)字人文項目合作等方面的經(jīng)驗,并對項目未來的發(fā)展方向、與其他數(shù)字人文項目的合作設(shè)想作了展望。
4.2人文數(shù)字工具的開發(fā)使用
在文字識別、文本挖掘方面,哈佛大學東亞語言與文明系講師、哈佛費正清中國研究中心博士后德龍作題為“數(shù)字人文與數(shù)字圖書館:中國歷代文獻的文字識別、群眾外包及文本挖掘”的報告。報告介紹了中國哲學書電子化計劃(http://ctext.org/zhs)中的主要技術(shù),可歸類為三種:一是前現(xiàn)代中文資料的文字識別技術(shù)(OCR),該系統(tǒng)已處理2500多萬頁資料,其結(jié)果已在網(wǎng)上公開;二是群眾外包、公眾參與,世界各地的用戶可以參與數(shù)字化過程并積極協(xié)助內(nèi)容的擴展;三是使用既可以實現(xiàn)與其他線上工具之間的整合,又能提供文本挖掘途徑的開放式應用程式界面(API),從而有效地借用日益增長的資料庫文本內(nèi)容來達到數(shù)字人文研究和教學的目的。
在特藏文物數(shù)字化技術(shù)層面,浙江大學圖書館技術(shù)總監(jiān)徐建剛作題為"CADAL淺刻文物特藏的數(shù)字化技術(shù)”的報告。為了真實記錄和還原CADAL項目中的部分淺刻文物特藏,需要探索有別于傳統(tǒng)掃描的數(shù)字化技術(shù)。浙江大學圖書館、哥倫比亞大學圖書館等成員單位經(jīng)過調(diào)研選擇了反射變換成像技術(shù)對甲骨等淺刻文物進行數(shù)字化加工和展示,獲得了很好的效果。
5結(jié)語
圖書館的數(shù)字化進程已歷20余載,數(shù)字化、數(shù)據(jù)化對教學科研的影響日益深遠,美國信息技術(shù)與創(chuàng)新基金會曾于2013年11月發(fā)布報告“數(shù)據(jù)創(chuàng)新101:支持數(shù)據(jù)驅(qū)動創(chuàng)新的技術(shù)和政策介紹”,強調(diào)數(shù)據(jù)的重要性,如果說石油是20世紀經(jīng)濟發(fā)展的“助推劑”,那么數(shù)據(jù)將成為21世紀經(jīng)濟發(fā)展的“助推劑”。文本數(shù)字化,元數(shù)據(jù)規(guī)范化,都是為知識服務的智能化鳴起的前奏。
通過這次會議,全球視野下的資源合作共享途徑得以拓寬,特色館藏數(shù)字化、數(shù)據(jù)化的經(jīng)驗得以分享,數(shù)字人文的內(nèi)涵與實踐得以豐富。學者們精彩的報告和交流也必將對數(shù)字時代的圖書館建設(shè)起到積極的推動作用。endprint