• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向數(shù)字人文的特藏資源揭示研究*
      ——以方志數(shù)據(jù)庫建設(shè)為例

      2019-06-24 06:32:42
      圖書館 2019年6期
      關(guān)鍵詞:特藏高德方志

      張 毅 李 欣

      (華東師范大學(xué) 上海 200241)

      引言

      特藏資源對于圖書館有重要的意義,當(dāng)前圖書館館藏同質(zhì)化現(xiàn)象非常嚴(yán)重,一個圖書館最大的價值應(yīng)該是其具有的獨特學(xué)術(shù)館藏,他是圖書館在信息爆炸時代競爭力的體現(xiàn)[1],也是現(xiàn)代圖書館或數(shù)字圖書館內(nèi)容建設(shè)的基礎(chǔ)和開展特色服務(wù)的根基。圖書館一直以來都非常重視特藏資源的保存與建設(shè),很多圖書館都擁有非常珍貴的特藏資源,但是傳統(tǒng)特藏資源的保存與服務(wù)模式并不能滿足人文學(xué)者的需要,人文學(xué)者迫切需要一種可以對大規(guī)模特藏資源進(jìn)行智能分析的數(shù)字人文平臺,特別是在古籍、地理、歷史等人文特藏資源研究方面。

      隨著技術(shù)的迅速發(fā)展,新的媒介不斷涌現(xiàn),深刻影響著知識的呈現(xiàn)與組織形式,特別是近年來大數(shù)據(jù)、GIS(Geographic Information System,地理信息系統(tǒng))[2]、可視化、虛擬現(xiàn)實、機(jī)器視覺以及人工智能等技術(shù)的不斷成熟與應(yīng)用,給圖書館特藏資源的揭示提供了全新的研究思路。數(shù)字人文(Digital Humanities)概念就是在這種機(jī)緣下出現(xiàn)的[3]。數(shù)字人文概念最早起源于20世紀(jì)60年代的人文計算,到2001年,由于技術(shù)對人文研究各個領(lǐng)域的滲透,數(shù)字人文取代了人文計算(Humanities Computing)[4],成為一個新興的跨學(xué)科研究領(lǐng)域,其研究團(tuán)隊通常由傳統(tǒng)的人文學(xué)者和計算機(jī)專家組成。圖書館可以依托數(shù)字人文研究思路對其特藏資源進(jìn)行重新開發(fā),為學(xué)者研究特藏資源提供全新的視角,將人文研究者從繁瑣的資料整理統(tǒng)計分析中解放出來,利用全新的特藏資源系統(tǒng)就可以減少以前需要耗費大量精力與時間的重復(fù)勞動,利用GIS、可視化、文本挖掘以及關(guān)聯(lián)數(shù)據(jù)等新的計算機(jī)技術(shù)與特藏資源整合,再通過友好的用戶界面提供給研究者,挖掘特藏資源所蘊藏的深層次知識,給研究者提供全新的研究思路。文章將闡述數(shù)字人文的內(nèi)涵與現(xiàn)狀,并且通過介紹華東師范大學(xué)方志數(shù)據(jù)庫的建設(shè)過程,詳細(xì)說明如何利用數(shù)字人文思維重構(gòu)圖書館特藏資源揭示,使方志數(shù)據(jù)更直觀、有序地呈現(xiàn)。

      1 特藏資源數(shù)字人文建設(shè)調(diào)研

      1.1 國外特藏資源數(shù)字人文研究現(xiàn)狀調(diào)研

      數(shù)字人文重構(gòu)特藏資源的理論最先出現(xiàn)在國外,到今天已經(jīng)形成了比較清晰的研究思路,有一大批基于數(shù)字人文的特藏資源研究項目在開展,同時也形成了各種數(shù)字人文研究學(xué)會和機(jī)構(gòu),其中數(shù)字人文聯(lián)盟(the Alliance of Digital Humanities Organizations)是數(shù)字人文領(lǐng)域影響力最大的一個研究學(xué)會[5],比較知名的研究機(jī)構(gòu)還有麻省理工學(xué)院的Hyper studio、美國斯坦福大學(xué)的人文實驗室和計算機(jī)輔助人文研究中心、倫敦國王學(xué)院的人文計算研究中心等。這些機(jī)構(gòu)在文學(xué)、歷史學(xué)、藝術(shù)等多個領(lǐng)域開展了很多數(shù)字人文項目,知名的項目包括:美國和英國的Walt Whitman Archive、Valley of the Shadow、East London Theater Archive、Mark Twain Project、The Monastic Wales Project,西歐的The World of Dante、The Complete Writings and Pictures of Dante Gabriel Rossetti、French and Francophone Digital Humanities Projects等[6]。除了這些特藏資源數(shù)字人文項目之外,國外的數(shù)字人文研究在軟件工具、數(shù)據(jù)庫、專業(yè)協(xié)會等方面都有很多成果值得我們借鑒,如表1所示。

      表1 國外數(shù)字人文研究調(diào)查

      1.2 國內(nèi)特藏資源數(shù)字人文研究現(xiàn)狀調(diào)研

      國內(nèi)利用數(shù)字人文技術(shù)對人文特藏資源進(jìn)行研究起步比較晚,但是由于國內(nèi)的移動互聯(lián)網(wǎng)技術(shù)發(fā)展十分迅速,所以在技術(shù)上我們并不算落后,尤其在特藏資源的移動端發(fā)現(xiàn)方面。目前,大陸的數(shù)字人文特藏資源研究主要集中在GIS、可視化、文本挖掘以及關(guān)聯(lián)數(shù)據(jù)等領(lǐng)域,如上海交通大學(xué)人文學(xué)院歷史系的交大新藏地方歷史文獻(xiàn)數(shù)字化項目,將雜亂無章的歷史文獻(xiàn)經(jīng)過修補、掃描、標(biāo)注等工作程序后,再利用數(shù)字人文技術(shù),對文獻(xiàn)進(jìn)行分析,發(fā)現(xiàn)隱藏在文獻(xiàn)當(dāng)中的價值,為歷史學(xué)研究提供了新的方法與思路;復(fù)旦大學(xué)歷史地理研究中心構(gòu)建了絲綢之路精準(zhǔn)復(fù)原與地理信息系統(tǒng),強調(diào)了數(shù)據(jù)可靠性研究,在地理信息系統(tǒng)中不僅可以呈現(xiàn)圖片,還添加了視頻等;上海圖書館利用關(guān)聯(lián)數(shù)據(jù)開發(fā)的家譜數(shù)據(jù)庫系統(tǒng),為研究家譜提供了一個全新的在線平臺,同時上海圖書館還開發(fā)了很多數(shù)字人文研究工具,免費對外提供服務(wù);北京大學(xué)圖書館利用數(shù)字人文方法提升讀者服務(wù)質(zhì)量,探索圖書館在數(shù)字人文實踐中的橋梁作用。筆者對國內(nèi)有關(guān)機(jī)構(gòu)在基于數(shù)字人文的特藏資源建設(shè)方面有代表性的研究項目做了一下總結(jié),如表2所示。

      表2 國內(nèi)有關(guān)機(jī)構(gòu)數(shù)字人文研究項目分析

      2 數(shù)字人文給特藏資源揭示帶來新視角

      2.1 挖掘人文學(xué)者的深層次需求

      在互聯(lián)網(wǎng)浪潮的推動下,圖書館的服務(wù)方式和服務(wù)內(nèi)容處于快速的變革中,短短幾年間圖書館就由以紙質(zhì)資源為中心發(fā)展到以電子資源和空間為中心的服務(wù)模式,電子資源總量和增加量都已經(jīng)遠(yuǎn)遠(yuǎn)超過了紙質(zhì)資源,這些資源都是體系化、經(jīng)過圖書館嚴(yán)格篩選的、高質(zhì)量的數(shù)字資源。但是圖書館卻發(fā)現(xiàn),耗費巨大人力財力構(gòu)建的數(shù)字資源,并沒有發(fā)揮出應(yīng)用的價值。原因在于圖書館沒有挖掘出人文學(xué)者的深層次需求,導(dǎo)致讀者很少訪問圖書館構(gòu)建的數(shù)字資源,反而是利用搜索引擎等工具開展科研活動。但通過搜索引擎獲得的文獻(xiàn)存在著質(zhì)量參差不齊、碎片化嚴(yán)重、無法辨別真?zhèn)蔚热秉c。文章引入數(shù)字人文的研究理念,通過對人文學(xué)者閱讀習(xí)慣進(jìn)行大數(shù)據(jù)分析,提煉出人文學(xué)者對文獻(xiàn)資料的深層次需求,進(jìn)而有針對性的創(chuàng)新圖書館自身服務(wù)內(nèi)容。

      2.2 破除信息技術(shù)的局限性

      圖書館擁有的資源是其開展服務(wù)的基礎(chǔ),然而信息技術(shù)則決定著圖書館服務(wù)的廣度與深度。圖書館為了保證信息化平臺可以為讀者提供服務(wù),不得不花費巨大的人力物力去運維這些信息化平臺,而無法專注于資源建設(shè)與讀者服務(wù)方面的工作。由于圖書館在信息技術(shù)方面的局限性,導(dǎo)致圖書館無法有效將自身資源與服務(wù)提供給需要的讀者。針對這種情況,數(shù)字人文的研究成果為圖書館提供了全新的解決方案,利用開放的數(shù)字人文工具,圖書館不必關(guān)心IT系統(tǒng)的實現(xiàn),而只需要關(guān)注圖書館的讀者服務(wù)。同時,數(shù)據(jù)的存儲與程序開發(fā)也可以利用現(xiàn)有數(shù)字人文研究成果實現(xiàn)。

      2.3 提高圖書館的創(chuàng)新意識

      圖書館無法有效揭示特藏資源,不僅有客觀原因,其主觀因素也不可忽視。隨著技術(shù)的進(jìn)步,媒介的更迭,從紙媒到電子媒介的轉(zhuǎn)變,導(dǎo)致知識的組織形式與內(nèi)容也要與時俱進(jìn),要求圖書館不斷更新知識,跟隨時代潮流的發(fā)展。當(dāng)讀者都在電子終端上開展學(xué)術(shù)研究時圖書館的服務(wù)也應(yīng)該適應(yīng)這種變化,這需要圖書館通過不斷的學(xué)習(xí)與創(chuàng)新,不僅在技術(shù)上可以對海量的數(shù)據(jù)進(jìn)行處理,利用大數(shù)據(jù)與人工智能為讀者提供更加便捷的服務(wù),還需要在元數(shù)據(jù)管理與建設(shè)方面與世界接軌,參與全球數(shù)據(jù)格式標(biāo)準(zhǔn)的制定。

      3 數(shù)字人文在華東師范大學(xué)方志數(shù)據(jù)庫建設(shè)中的實踐

      華東師范大學(xué)擁有豐富的特色館藏,而且成立了數(shù)字化部,專門負(fù)責(zé)館藏特色資源的數(shù)字化掃描與編目。經(jīng)過十幾年的努力,已經(jīng)積累了大量高質(zhì)量的數(shù)字特藏資源,通過傳統(tǒng)數(shù)據(jù)庫的方式對全校師生提供服務(wù),并且開放了特藏資源的元數(shù)據(jù)接口,可以將數(shù)據(jù)共享給學(xué)校的其他部門,提高數(shù)據(jù)的使用效率。2016年開始,華東師范大學(xué)圖書館成立項目組,準(zhǔn)備以特藏方志資源為突破口,推進(jìn)特藏方志資源服務(wù)深度,并使方志資源整理與采購有章可循。

      3.1 確定需求

      3.1.1 統(tǒng)一檢索與主題詞檢索

      華東師范大學(xué)擁有兩種類型的方志資源,其中紙本資源有23 224種,電子資源有7 233種,這些資源分布在OPAC、超星、CADAL等不同的系統(tǒng)當(dāng)中,讀者在使用這些方志資源時需要在不同的平臺之間來回切換,導(dǎo)致利用方志非常不便。為了解決這個問題,筆者嘗試?yán)脭?shù)字人文思維對分散在圖書館各個系統(tǒng)中的方志數(shù)據(jù)進(jìn)行重新揭示,首先利用不同方志平臺之間的接口在元數(shù)據(jù)層面實現(xiàn)數(shù)據(jù)整合,為讀者提供統(tǒng)一的檢索接口,然后再通過開源的分詞軟件對方志標(biāo)題和摘要進(jìn)行分詞,進(jìn)而生成主題詞檢索接口。

      3.1.2 GIS可視化

      由于方志資源本身還具有時間和空間兩個特性,正好與在數(shù)字人文領(lǐng)域應(yīng)用非常廣泛的GIS技術(shù)吻合,所以對方志資源進(jìn)行GIS揭示很有必要。華東師范大學(xué)圖書館收藏的方志庫數(shù)據(jù)元數(shù)據(jù)有3萬多條,如果將這些方志信息都顯示在地圖上,當(dāng)?shù)貓D縮小時整個頁面上就會布滿地方志的點,導(dǎo)致看不清楚地圖。針對這種情況可采用點聚合的方法實現(xiàn),將地圖上臨近的幾個地方志的點聚合成為一個大的點,這樣可以保證用戶有良好的可視化體驗。圖書館的方志庫數(shù)據(jù)有兩種,一種是既有電子全文又有紙質(zhì)全文,還有一種是只有紙質(zhì)全文,這兩種數(shù)據(jù)都通過點的方式在地圖上呈現(xiàn)。如果讀者發(fā)現(xiàn)有些坐標(biāo)點上的方志信息有些有電子全文,有些沒有電子全文,會給讀者帶來糟糕的體驗,所以在地圖上對這兩種數(shù)據(jù)進(jìn)行了區(qū)別:有電子全文的在方志坐標(biāo)的彈出窗口中顯示對應(yīng)方志庫的全文和對應(yīng)圖書館的紙質(zhì)資源鏈接,沒有電子全文的,只給出一個圖書館的紙質(zhì)資源鏈接。方志地圖系統(tǒng)還需具有根據(jù)朝代篩選功能,測距、計算面積、劃定區(qū)域顯示功能,還具有切換圖層的功能,以及對外提供Web Widget調(diào)用功能。

      3.1.3 引入D2RQ實現(xiàn)數(shù)據(jù)的語義化發(fā)布

      館藏方志資源本身的元數(shù)據(jù)包含巨大的價值,雖然可以通過OAI-PMH、Web Service的方式實現(xiàn)數(shù)據(jù)共享與融合,但也存在明顯的局限性,機(jī)器無法理解其意義、無法實現(xiàn)推理學(xué)習(xí),最終還是會淪落為一個個信息孤島。本系統(tǒng)探索采用D2RQ組件[7],在不影響原有方志庫系統(tǒng)服務(wù)模式的情況下實現(xiàn)方志數(shù)據(jù)的語義化發(fā)布,D2RQ Engine可以將MySql數(shù)據(jù)庫映射為具有RDF格式的關(guān)聯(lián)數(shù)據(jù),利用D2RQ server可以提供SPARQL查詢接口和URI地址瀏覽,D2RQ Mapping可以將SPARQL查詢轉(zhuǎn)化為Sql查詢語句。能夠使數(shù)據(jù)被機(jī)器理解與推理的關(guān)鍵不僅是RDF數(shù)據(jù)發(fā)布與查詢,其采用的詞表類型也很重要,只有采用國際通用的標(biāo)準(zhǔn)詞表,才能將自己的數(shù)據(jù)融入到世界互聯(lián)網(wǎng)中。常用的詞表有DC、Schema.org、BIBIFRAME等[8],本系統(tǒng)采用Google、Bing、Yahoo聯(lián)合發(fā)的Schema.org詞表,它具有語義豐富、可擴(kuò)展性好、各大搜索引擎都支持的特點,而且2012年OCLC的Worldcat數(shù)據(jù)也是采用Schema.org來發(fā)布的。

      3.1.4 知識圖譜

      知識圖譜(Knowledge Graph)是通過可視化手段顯示知識內(nèi)部結(jié)構(gòu)與發(fā)展進(jìn)程的一系列圖形[9],比如通過知識圖譜顯示唐代各位詩人之間的關(guān)系、遷徙、家族等信息的圖形,其最核心的要素是文本語義標(biāo)注技術(shù)的成熟。文章利用國際通用的TEI(Text Encoding Initiative)標(biāo)準(zhǔn)對方志資源進(jìn)行數(shù)字化編碼[10],添加機(jī)器可理解的語義編碼,挖掘方志資源包含的深層次知識,并通過圖形方式呈現(xiàn)。

      3.1.5 整合外部開放數(shù)據(jù)

      方志數(shù)據(jù)包含有豐富的人名與地點等信息,將中國歷代人物傳記資料庫(CBDB)與我校的方志庫融合[11],可以豐富方志庫的人物信息。上海圖書館的人名規(guī)范庫也是對外開放的人名數(shù)據(jù)庫[12],不僅包含人名信息還擁有地點信息,并且提供RDF、NT、XML等格式數(shù)據(jù),方志庫的地點信息與人名信息,也可以從上海圖書館人名規(guī)范庫獲取。通過整合外部權(quán)威開放數(shù)據(jù),可極大豐富我校方志庫的內(nèi)容,提高方志庫的價值。

      3.1.6 引入眾包理念,完善數(shù)據(jù)

      方志館藏包含的信息非常豐富,但是方志館藏元數(shù)據(jù)質(zhì)量參差不齊,雖然在做方志數(shù)字化時可以添加很多元數(shù)據(jù)信息,但是并不是每本方志都包含我們需要的元數(shù)據(jù),很多數(shù)據(jù)需要從方志內(nèi)容中確定。然而圖書館缺少方志研究方面的專家,而且即使有這方面的專家,也沒有足夠的精力與時間去一本一本的查看每本方志內(nèi)容。所以我們在設(shè)計方志數(shù)據(jù)庫時引入了眾包理念,為讀者提供添加、修改方志元數(shù)據(jù)的接口,通過匯聚整個互聯(lián)網(wǎng)的力量進(jìn)而提高方志數(shù)據(jù)的準(zhǔn)確性與豐富性。

      3.2 以GIS功能為例介紹具體技術(shù)開發(fā)過程

      3.2.1 GIS平臺選擇與使用

      GIS系統(tǒng)由于其廣泛的應(yīng)用性,國內(nèi)外有很多平臺可以采用,筆者在實踐過程中充分分析了各種平臺的優(yōu)缺點以及圖書館的技術(shù)儲備,最終選擇云開放平臺的GIS接口與圖書館特藏資源整合來實現(xiàn)。采用這種方式可以快速方便的達(dá)到所需要的效果,而且對技術(shù)的要求不高,圖書館自己的技術(shù)人員就可以快速做出來,不需要專業(yè)的GIS技術(shù)人員。由于云開放平臺一般都是專業(yè)地圖公司作技術(shù)支持,他們產(chǎn)品的穩(wěn)定性與用戶體驗都很好,是圖書館實現(xiàn)數(shù)字人文服務(wù)的一個很好的工具。

      常見的GIS云開放平臺有百度、高德、谷歌、騰訊等,筆者通過對這幾個平臺的測試后選擇了高德地圖的GIS云開放平臺作為開發(fā)工具。高德地圖云開放平臺是一款為用戶提供基于自有數(shù)據(jù)構(gòu)建位置服務(wù)的免費在線地圖工具,提供海量位置數(shù)據(jù)存儲、檢索、展現(xiàn)一體化服務(wù)方案,能讓圖書館快速構(gòu)建基于自有數(shù)據(jù)的地圖檢索應(yīng)用[13]。結(jié)合高德地圖的API接口,可以非常簡單的將具有地理位置屬性的數(shù)字資源通過地圖呈現(xiàn),具體技術(shù)過程如圖1所示。

      圖1 特藏方志數(shù)據(jù)與高德地圖接口整合框圖

      3.2.2 地圖數(shù)據(jù)存儲

      方志數(shù)據(jù)與高德地圖整合有兩種方式。一種是方志數(shù)據(jù)存放在本地數(shù)據(jù)庫中,通過程序調(diào)用高德地圖接口操作本地數(shù)據(jù)庫,在高德地圖上呈現(xiàn)方志信息。這種方式需要搭建本地數(shù)據(jù)庫,而且需要自己開發(fā)程序,雖然對數(shù)據(jù)的處理比較靈活,但是開發(fā)難度比較大,不便于維護(hù)。第二種方式是采用高德地圖提供的云圖功能,按照高德地圖的EXCEL數(shù)據(jù)模板,將數(shù)據(jù)直接導(dǎo)入高德地圖中,這樣就不用在本地構(gòu)建數(shù)據(jù)庫,也不用進(jìn)行地圖的開發(fā),直接可以生成方志地圖,再通過簡單的JavaScript API調(diào)用即可實現(xiàn)數(shù)據(jù)與地圖的底圖融合,渲染效果更好,加載更快,并覆蓋Web、H5、Android、IOS等平臺。高德地圖有一個非常大的優(yōu)點,就是導(dǎo)入的數(shù)據(jù)不需要提供經(jīng)緯度坐標(biāo),直接寫地名就可以被高德地圖轉(zhuǎn)化為經(jīng)緯度坐標(biāo),這個功能對于不懂GIS的人來說非常實用。導(dǎo)入高德地圖的地理信息一般是按照“省市縣鄉(xiāng)鎮(zhèn)”的格式導(dǎo)入,由于古代的地名和現(xiàn)代的地名會有一些差別,但是一般可以定位到省或者市,高德地圖在定位時,按照先尋找省份,再尋找省份下面的市,以此類推逐級解析坐標(biāo),如果發(fā)現(xiàn)有一級找不到,就定位到可以找到的一級,確保了每一條記錄的解析。

      3.2.3 地圖數(shù)據(jù)呈現(xiàn)以及檢索

      方志數(shù)據(jù)在高德地圖上的呈現(xiàn)與檢索,都可以利用其提供的JavaScript API完成,其中數(shù)據(jù)呈現(xiàn)用的接口是AMap.CloudDataLayer,它可以讓開發(fā)者將存儲在云數(shù)據(jù)管理平臺中的數(shù)據(jù)表格作為一個圖層疊加到地圖上,這個接口通過Map與TableId屬性調(diào)用存放在高德地圖上面的方志數(shù)據(jù),然后通過Clickable與Query方式實現(xiàn)數(shù)據(jù)的呈現(xiàn)與相應(yīng)的事件。最終效果如圖2所示。

      圖2 利用GIS實現(xiàn)地方志在地圖上的呈現(xiàn)

      4 取得的效果與存在的問題

      4.1 取得的效果

      開辟了讀者利用圖書館特藏資源的新方式,創(chuàng)新利用地圖和云標(biāo)簽作為讀者檢索圖書館特藏資源的入口,更便于讀者發(fā)現(xiàn)蘊藏在特藏資源數(shù)據(jù)背后的知識。讀者可以利用新方志庫系統(tǒng)提供的地圖工具,直觀分析不同地區(qū)的方志數(shù)據(jù),以及這些方志之間的聯(lián)系。地圖系統(tǒng)還提供了測距、計算面積等輔助功能,同時還提供了基于時間的分析工具,可以根據(jù)不同朝代,在地圖上顯示不同時期的方志數(shù)據(jù),讓讀者可以從時間維度對方志進(jìn)行研究。云標(biāo)簽技術(shù)的使用可以智能分析讀者的研究內(nèi)容,精確推送相關(guān)內(nèi)容給讀者,使讀者找到自己真正的研究方向。這些強大的可視化分析功能,在傳統(tǒng)特藏資源系統(tǒng)中是無法實現(xiàn)的,需要花費讀者大量的時間進(jìn)行整理收集,但是使用數(shù)字人文理念開發(fā)的系統(tǒng),就可以方便得到,讓讀者把更多的精力放在自己的研究領(lǐng)域。

      4.2 存在的問題與解決方案

      缺少古代地圖:由于缺少古代地圖數(shù)據(jù),所以所有的方志數(shù)據(jù)都是在現(xiàn)代地圖上呈現(xiàn)。而最佳的狀態(tài)應(yīng)該是要做到地圖根據(jù)方志時間段變化而變化,實現(xiàn)不同時期的方志顯示在不同時期地圖上,這樣讀者在分析古代方志數(shù)據(jù)時就可以很好的考慮到人文地理信息對方志的影響。解決方案是引入古代不同時期的地圖數(shù)據(jù),整合到我們的系統(tǒng)中。

      分詞不夠精細(xì):我們的方志系統(tǒng)只有題名和摘要數(shù)據(jù),沒有目錄與全文數(shù)據(jù),導(dǎo)致可供分析的原始數(shù)據(jù)比較少,這樣會錯過很多隱藏在全文和目錄中的數(shù)據(jù)。解決方案是對原始的方志資料進(jìn)行數(shù)字化,并提取出目錄和全文數(shù)據(jù)?,F(xiàn)在的OCR技術(shù)已經(jīng)比較成熟,可以利用OCR技術(shù)實現(xiàn)全文識別,提高分詞的精細(xì)度。

      時間地點不夠精確:方志數(shù)據(jù)中的時間、地點等實體的考證,都是從方志數(shù)據(jù)原文中獲取,但是有些方志并沒有明確的時間地點信息,而且古今地名信息也存在很大的差別,有很多還存在著爭議,這涉及到史書語料信息,難度較大。對于古今地名問題可以引入古代史書語料庫進(jìn)行比對,得到新的地理位置,在地圖上重新定位就可以解決,但對于志書中沒有明確地點和撰寫時間的問題,就比較棘手,可以采用眾包的方式實現(xiàn)。

      5 結(jié)語

      雖然數(shù)字人文在國內(nèi)的研究還處于起步階段,數(shù)字人文研究內(nèi)涵與邊界還在不斷完善,但是已經(jīng)給人文學(xué)者的研究注入了全新的活力,也為圖書館服務(wù)模式的創(chuàng)新提供了思維與工具。在特藏資源數(shù)字化過程中可以充分利用文本挖掘、GIS、可視化等技術(shù)手段以及新的思維方式,更好的揭示特藏資源,創(chuàng)新讀者服務(wù)。文章通過對華東師范大學(xué)方志庫平臺建設(shè)過程的介紹,希望以實踐的方式為數(shù)字人文的研究帶來一些啟示,雖然技術(shù)可以輔助人文研究,但也不應(yīng)過于依賴技術(shù),而是應(yīng)該在技術(shù)與人文研究之間找到契合點,利用技術(shù)挖掘出隱藏在海量非結(jié)構(gòu)化人文資料背后的知識。

      (來稿時間:2018年12月)

      猜你喜歡
      特藏高德方志
      Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
      數(shù)字環(huán)境下高校圖書館特藏資源建設(shè)探析
      黑龍江民國方志所刊名家墨跡選
      書法賞評(2019年2期)2019-07-02 12:10:50
      江蘇高德液壓機(jī)械有限公司
      資源再生(2019年3期)2019-04-29 03:44:34
      江蘇高德液壓機(jī)械有限公司
      資源再生(2019年1期)2019-03-04 01:57:02
      高校圖書館特藏建設(shè)工作探微
      嘉絨藏族地區(qū)的舊方志編纂
      西藏研究(2017年1期)2017-06-05 09:26:11
      美國康奈爾大學(xué)圖書館特藏發(fā)展與實踐研究*
      高德貿(mào)易有限公司
      西部皮革(2015年22期)2015-02-28 18:15:17
      Average Incremenral Correlarion Analysis Model and Irs Applicarion in Faulr Diagnosis
      信阳市| 玉龙| 潼南县| 嘉峪关市| 漳州市| 项城市| 荥经县| 高邑县| 长海县| 平原县| 扎囊县| 隆尧县| 怀宁县| 南丰县| 叙永县| 延长县| 平谷区| 阿荣旗| 双鸭山市| 石城县| 万载县| 青岛市| 抚宁县| 鲁山县| 柞水县| 敦煌市| 凤冈县| 安丘市| 通道| 华亭县| 宜州市| 新郑市| 山西省| 苗栗市| 石嘴山市| 茶陵县| 高密市| 米易县| 沈阳市| 通江县| 淮安市|