• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    淺議地方志文獻(xiàn)數(shù)字化技術(shù)規(guī)范建設(shè)

    2015-04-11 08:52:22趙海良
    黑龍江史志 2015年20期
    關(guān)鍵詞:全文檢索志書要素

    趙海良

    (浙江省人民政府地方志辦公室 浙江 杭州 310012)

    地方志緣起于何時(shí),學(xué)術(shù)界一直爭議頗多,各學(xué)者也是眾說紛紜。《山海經(jīng)》《周官》《史記》等各類古籍均被認(rèn)為是方志之起源。劉緯毅所著《中國地方志》一書更是詳細(xì)列舉了多種關(guān)于方志起源的說法。不管方志起源于何時(shí),有一點(diǎn)是眾人公認(rèn)的,就是中國地方志歷史悠久,地方志文獻(xiàn)卷帙浩繁、種類繁多、內(nèi)容豐富。各類地方志文獻(xiàn)不僅僅是記載某一時(shí)期某一地域的自然、社會、政治、經(jīng)濟(jì)、文化等方面情況或特定事項(xiàng)的書籍文獻(xiàn),更是地方歷史文化的積淀。而如何合理利用地方志資源,充分發(fā)揮其“存史、資政、教化”的作用,是地方志工作者面臨的難題。

    現(xiàn)代信息技術(shù)的迅猛發(fā)展,改變了人們傳統(tǒng)的通過紙質(zhì)文獻(xiàn)來獲取信息、傳播信息的方式。據(jù)調(diào)查,以互聯(lián)網(wǎng)為代表的信息化手段,已成為人們獲取信息的主要方式[1]。地方志文獻(xiàn)的數(shù)字化建設(shè)也日益被重視,全國各地方志工作機(jī)構(gòu),都在建設(shè)自己的“文獻(xiàn)數(shù)據(jù)庫”、“省情數(shù)據(jù)庫”,“自20世紀(jì)90年代以來,我國地方志網(wǎng)絡(luò)建設(shè)在各地逐步開展起來。據(jù)有關(guān)方面統(tǒng)計(jì),目前全國已建地情庫(網(wǎng))省級7個(gè),市級63個(gè),縣級154個(gè)。在建地情庫(網(wǎng))省級4個(gè),市級21個(gè),縣級54個(gè)。籌建地情庫(網(wǎng))省級2個(gè),市級28個(gè),縣級42個(gè)”[2]。同時(shí),隨著新一輪修志工作的深入開展,信息化已成為重要的手段,以作者所在的浙江省為例,為《浙江通志》編纂工作專門開發(fā)了編纂信息系統(tǒng),從資料收集一直到審稿均在網(wǎng)上完成,這些信息化的手段為地方志文獻(xiàn)的數(shù)字化建設(shè)提供了基礎(chǔ)。

    一、地方志文獻(xiàn)數(shù)字化技術(shù)規(guī)范現(xiàn)狀

    地方志文獻(xiàn)資源的數(shù)字化,不是簡單的將志書通過技術(shù)化手段放在計(jì)算機(jī)上進(jìn)行瀏覽,其本質(zhì)是對方志文獻(xiàn)資源利用手段的深度開發(fā),這需要全國方志工作者的共同努力,但目前各地方志工作機(jī)構(gòu)的數(shù)字化建設(shè)都是“各自為戰(zhàn)”、“單打獨(dú)斗”,沒有統(tǒng)一的標(biāo)準(zhǔn)。

    (一)文獻(xiàn)存儲格式不統(tǒng)一

    目前數(shù)字化后的地方志文獻(xiàn)資源存儲格式種類繁多,有常見的 txt、doc、pdf等,也有 chm、hlp、exe、html、txt、xml等較少見的格式。這些不同格式的文件格式,往往都需要各自專門的閱讀器才能進(jìn)行瀏覽,相互之間難以兼容。即使同一種文件,也因編碼風(fēng)格的不同,導(dǎo)致無法兼容。例如txt格式的文件,既有用ANSI編碼的,也有用Unicode、UTF-8編碼的。不同的編碼風(fēng)格導(dǎo)致了即使看上去是同一種文件類型,也無法實(shí)現(xiàn)資源共享。

    (二)文獻(xiàn)數(shù)字化程度不統(tǒng)一

    地方志文獻(xiàn)種類繁多,時(shí)間跨度大,既有舊志古籍,又有通志、年鑒,既有繁體字,又有簡體字、異體字。這導(dǎo)致各地對地方志文獻(xiàn)的數(shù)字化程度不一樣,有的在數(shù)字化的過程中,簡單的將地方志文獻(xiàn)數(shù)字化成全文格式,這樣方便于做志書的全文檢索,但無法有效展示志書的原貌,有些因?yàn)榧夹g(shù)經(jīng)費(fèi)等原因,將部分難以數(shù)字化,或者數(shù)字化技術(shù)要求高的舊志古籍簡單的做成圖片格式,這樣做雖然保留了志書的原貌,但無法做志書的全文檢索。

    (三)存儲數(shù)據(jù)庫不統(tǒng)一

    各類完成數(shù)字化的地方志文獻(xiàn)資源,需要一個(gè)專門的數(shù)據(jù)庫來存儲。而目前數(shù)據(jù)庫軟件種類繁多,有免費(fèi)開源的數(shù)據(jù)庫軟件,例如MySQL,有需要付費(fèi)的數(shù)據(jù)庫軟件,例如Oracle、MS SQL Server等,各地因?yàn)榻?jīng)費(fèi)、數(shù)據(jù)庫容量、技術(shù)難度等各方面情況不同,所采用的數(shù)據(jù)庫軟件也不盡相同。

    (四)全文檢索平臺不統(tǒng)一

    地方志文獻(xiàn)資源數(shù)字化后,如何將其有效的利用起來是關(guān)鍵,志書的全文檢索是重要的手段之一,其可以將存儲于數(shù)據(jù)庫中整本志書的任意內(nèi)容快速準(zhǔn)確的查找出來。但目前各地的全文檢索平臺也各自為用,有自己開發(fā)的、有購買第三方平臺的,雖然各全文檢索平臺的技術(shù)實(shí)現(xiàn)大同小異,但底層數(shù)據(jù)的存儲方式卻截然不同,這為不同檢索平臺的數(shù)字資源共享帶來了障礙。

    以上幾個(gè)地方志文獻(xiàn)數(shù)字化關(guān)鍵技術(shù)規(guī)范的不統(tǒng)一,已然成為全國方志資源信息共享,自動化網(wǎng)絡(luò)系統(tǒng)建立,文獻(xiàn)資源廣泛傳播的重要阻礙。

    二、地方志文獻(xiàn)數(shù)字化技術(shù)規(guī)范建設(shè)思路

    在地方志文獻(xiàn)數(shù)字化技術(shù)規(guī)范的建設(shè)中,存儲格式、數(shù)字化程度、數(shù)據(jù)庫軟件、全文檢索平臺等幾個(gè)要素,看似毫無關(guān)系,其實(shí)是密切相聯(lián)系的,一個(gè)要素技術(shù)規(guī)范的建設(shè),涉及其他幾個(gè)要素。這幾個(gè)要素之間,即相互支持,又相互制約。

    (一)數(shù)據(jù)存儲格式規(guī)范的建設(shè)

    地方志文獻(xiàn)數(shù)字化后,該存儲為何種格式,這是數(shù)字化規(guī)范建設(shè)的關(guān)鍵,上文提到過,在存儲格式上,有常見的 txt、doc、pdf等,也有 chm、hlp、exe、html、txt、xml等較少見的格式。每種格式都有其特點(diǎn),各有優(yōu)劣,對于數(shù)據(jù)存儲格式的標(biāo)準(zhǔn),筆者認(rèn)為不能一刀切的說一定要采用某一種格式,而是應(yīng)該根據(jù)所要數(shù)字化的地方志文獻(xiàn)的類型來選擇。

    對于新編志書,年鑒等可以采用txt、doc等格式,因?yàn)榇祟愇墨I(xiàn)基本都是當(dāng)代所編,無需對文獻(xiàn)外觀原貌進(jìn)行真實(shí)還原,只需確保文獻(xiàn)內(nèi)容準(zhǔn)確無誤即可,且當(dāng)代所編志書基本都有電子版本,無需繁瑣的數(shù)字化過程,即節(jié)約成本又節(jié)省時(shí)間。

    對于文獻(xiàn)原貌保存要求較高,不需要全文檢索的舊志古籍,可以采用圖片、pdf或者DjVu格式。但長久以來,圖像類文件都有一個(gè)清晰度與文件大小之間的平衡關(guān)系,就是如果要保證文字和影像的清晰效果,就必須要用較高的分辨率來進(jìn)行掃描,其所得文件往往十分巨大,需要占用很大的存儲空間。想要減小文件的大小,就不得不降低分辨率,這也意味著圖像質(zhì)量和可辨性得不到保證。pdf又稱便攜文件格式,是由Adobe公司所開發(fā)的獨(dú)特的跨平臺文件格式,其主要特點(diǎn)是會忠實(shí)地再現(xiàn)原稿的每一個(gè)字符、顏色以及圖象[3]。DjVu是由AT&T實(shí)驗(yàn)室自1996年起開發(fā)的一種圖像壓縮技術(shù),已發(fā)展成為標(biāo)準(zhǔn)的圖像文檔格式之一,國際上大量應(yīng)用實(shí)例已證明,DjVu可替代PDF成為網(wǎng)絡(luò)傳輸掃描文檔、數(shù)碼照片、圖像文件的主流技術(shù)[4]。相對于pdf格式,DjVu格式即保證了文件的清晰度,又可以減少文件的大小,例如一份60頁A4大小公司報(bào)告用PDF格式來發(fā)布,其大小大概在4MB左右,而掃描之后以 DjVu格式保存,其文件大小則不超過 800K[5]。

    對于文獻(xiàn)原貌保存要求較高,同時(shí)又要進(jìn)行全文檢索的部分舊志古籍,可以采用雙層pdf格式。所謂雙層pdf是指將文獻(xiàn)掃描成jpg、png等圖像格式,然后加工輸出為雙層(圖象層和文字層)PDF文件。雙層PDF文件其圖文位置上下一一相對應(yīng),既可以完整保留原始版面效果,又可以通過下層的文字信息支持選擇、復(fù)制、全文檢索等功能。雙層pdf相較于單層圖片形式的pdf文件,其主要優(yōu)點(diǎn)是可以提供全文檢索功能,但工序是最為繁瑣的。

    (二)數(shù)據(jù)庫軟件的規(guī)范建設(shè)

    相對于數(shù)據(jù)存儲格式的五花八門,數(shù)據(jù)庫軟件的選擇性就比較單一,目前主流的數(shù)據(jù)庫軟件基本就 MySQL、Oracle、MS SQL Server三分天下,其中MySQL和Oracle同屬于甲骨文公司,MSSQL Server屬于微軟公司。各有各的優(yōu)點(diǎn)和缺點(diǎn),且最重要的是,存儲在這三種數(shù)據(jù)庫中的數(shù)據(jù),可以通過技術(shù)手段互相導(dǎo)入和導(dǎo)出。但實(shí)現(xiàn)這一功能的前提,就是文獻(xiàn)數(shù)字化后存儲在數(shù)據(jù)庫中的字段需統(tǒng)一。所謂字段,可以理解為對文獻(xiàn)的一種描述要素,例如作者為一個(gè)要素,出版社為一個(gè)要素,出版時(shí)間為一個(gè)要素,將所有要素集合在一起,就可以詳細(xì)的描述一本文獻(xiàn)。同時(shí),當(dāng)我們提供準(zhǔn)確、詳細(xì)的要素后,即可以快速的定位一本文獻(xiàn)。北京大學(xué)數(shù)字圖書館研究所曾專門對中文元數(shù)據(jù)標(biāo)準(zhǔn)做過研究[6],參照其研究成果,筆者認(rèn)為地方志文獻(xiàn)的要素(字段)設(shè)計(jì)規(guī)范,可以如表1所示。

    表1 地方志文獻(xiàn)的要素(字段)設(shè)計(jì)規(guī)范

    規(guī)范、統(tǒng)一的要素設(shè)計(jì),是不同數(shù)據(jù)庫數(shù)據(jù)互導(dǎo)的關(guān)鍵,以上設(shè)計(jì)規(guī)范,只是筆者本人粗略的設(shè)計(jì),如何借鑒中文圖書電子數(shù)據(jù)的要素設(shè)計(jì)規(guī)范,制定一套符合地方志文獻(xiàn)特色的要素規(guī)范,需要全國方志工作者的共同努力。

    (三)全文檢索平臺的規(guī)范建設(shè)

    地方志文獻(xiàn)數(shù)字化一個(gè)重要的目的是為了更加方便的“用志”,而志書的全文檢索平臺,是最便捷的手段。一套優(yōu)秀的檢索平臺,不僅需要提供全庫或分庫、單本圖書的全文檢索功能,同時(shí)還需提供基于文章標(biāo)題、文章內(nèi)容、作者等的智能分項(xiàng)檢索功能。同時(shí)由于方志文獻(xiàn)的特點(diǎn),需要滿足大字符集支持。

    目前全文檢索平臺種類很多,有地方志工作機(jī)構(gòu)自己研發(fā)的,也有專門軟件公司研發(fā)的,常見的有清華同方異構(gòu)統(tǒng)一檢索平臺、CALIS統(tǒng)一檢索平臺、TRS資源整合門戶、復(fù)鑫跨庫檢索平臺、天宇異構(gòu)資源統(tǒng)一檢索平臺等[7]。因?yàn)槔?、技術(shù)整合難度等各方面原因,全文檢索平臺的標(biāo)準(zhǔn)是最難統(tǒng)一的。對于此項(xiàng)規(guī)范的建立,應(yīng)遵循以下幾個(gè)原則:

    1.開放性

    在全文檢索平臺的標(biāo)準(zhǔn)的制定過程中,應(yīng)首先考慮采用已經(jīng)成熟的、被用戶廣泛接受的開放標(biāo)準(zhǔn)。此舉既可以有效避免無用的重復(fù)勞動,又能保證較高的技術(shù)水平。

    2.實(shí)用性

    地方志數(shù)字化后,最終還是需要給人“用”,全文檢索平臺是“用”的關(guān)鍵手段,系統(tǒng)在開發(fā)的時(shí)候,應(yīng)注重實(shí)用性,易用性,在滿足基本基礎(chǔ)上,應(yīng)根據(jù)地方志文獻(xiàn)的自身特點(diǎn),設(shè)置符合實(shí)際需求的功能。

    3.前瞻性

    科技的發(fā)展日新月異,同樣,全文檢索平臺在制定的過程中,也應(yīng)充分跟上時(shí)代的步伐,為以后新技術(shù)的支持提供預(yù)留的接口。

    三、結(jié)束語

    近些年來,圖書館界的文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)制定工作在一定程度上受到了重視。從2002年開始,由科技部委托國家科技圖書文獻(xiàn)中心協(xié)調(diào)中國科學(xué)院文獻(xiàn)情報(bào)中心、中國科學(xué)技術(shù)信息研究所、國家圖書館、中國高等教育文獻(xiàn)保障系統(tǒng)管理中心、北京大學(xué)圖書館、上海圖書館等21家單位聯(lián)合進(jìn)行了圖書文獻(xiàn)數(shù)字化的相關(guān)標(biāo)準(zhǔn)規(guī)范研究[8]。作為與地方志工作部門類似的檔案部門,很早就注意到了檔案文獻(xiàn)數(shù)字化標(biāo)準(zhǔn)建設(shè)的重要性,相繼出臺了《電子文件歸檔與管理規(guī)范》《紙質(zhì)檔案數(shù)字化技術(shù)規(guī)范》《縮微膠片檔案數(shù)字化技術(shù)規(guī)范》等規(guī)范性的文件。但目前在全國的方志系統(tǒng)內(nèi)尚未形成一個(gè)統(tǒng)一的強(qiáng)制性文獻(xiàn)數(shù)據(jù)化的標(biāo)準(zhǔn),一些信息化建設(shè)走在前列的省份已經(jīng)建設(shè)成了規(guī)模龐大的文獻(xiàn)數(shù)據(jù)庫,形成了自己的一套數(shù)據(jù)庫標(biāo)準(zhǔn)。國務(wù)院辦公廳于2007年1月發(fā)布了《關(guān)于進(jìn)一步加強(qiáng)古籍保護(hù)工作的意見》,文件明確指出:“進(jìn)一步加強(qiáng)古籍整理、出版和研究利用、制訂古籍?dāng)?shù)字化標(biāo)準(zhǔn),規(guī)范古籍?dāng)?shù)字化工作,建立古籍?dāng)?shù)字資源庫”,對全國地方志志工作機(jī)構(gòu)而言,建立一套全國性的地方志文獻(xiàn)資源數(shù)字化標(biāo)準(zhǔn),已經(jīng)是迫在眉睫的事情。

    [1]《中國互聯(lián)網(wǎng)絡(luò)發(fā)展統(tǒng)計(jì)報(bào)告》2014年7月.

    [2]《中國新編地方志二十多年輝煌成就》,《中國地方志》.2006年第6期.

    [3]百度百科,http://baike.baidu.com/view/15963.htm?fr=aladdin.

    [4]百度百科,http://baike.baidu.com/view/69557.htm?fr=aladdin.

    [5]梁民,王北.《DJVU格式與PDF格式的比較》,《電腦知識與技術(shù)》.2009年第1期.

    [6]肖瓏,陳凌等.《中文元數(shù)據(jù)標(biāo)準(zhǔn)框架及其應(yīng)用》,《大學(xué)圖書館學(xué)報(bào)》.2001年第5期.

    [7]胡娟.《數(shù)據(jù)庫統(tǒng)一檢索平臺的功能比較》,《現(xiàn)代情報(bào)》.2005年第4期.

    [8]周琳結(jié).《我國古籍書目數(shù)據(jù)庫建設(shè)標(biāo)準(zhǔn)規(guī)范探討》,《圖書館建設(shè)》.2010年第2期.

    猜你喜歡
    全文檢索志書要素
    王志書
    自治區(qū)地方志辦公室召開特色志書編纂專題會議
    廣西地方志(2021年1期)2021-02-25 07:57:14
    掌握這6點(diǎn)要素,讓肥水更高效
    談編譯出版《西藏七大藝術(shù)集成志書》藏文版的必要性
    觀賞植物的色彩要素在家居設(shè)計(jì)中的應(yīng)用
    論美術(shù)中“七大要素”的辯證關(guān)系
    Oracle數(shù)據(jù)庫全文檢索性能研究
    也談做人的要素
    山東青年(2016年2期)2016-02-28 14:25:36
    淺談提高第二輪志書的可讀性
    基于KySou的全文檢索系統(tǒng)的分析與優(yōu)化
    井冈山市| 云安县| 尚志市| 和龙市| 顺义区| 册亨县| 渑池县| 翁牛特旗| 石景山区| 高安市| 纳雍县| 双鸭山市| 吉林市| 凌云县| 高台县| 西林县| 东乌珠穆沁旗| 和静县| 剑川县| 曲麻莱县| 志丹县| 宜宾县| 驻马店市| 彭泽县| 襄垣县| 武鸣县| 江孜县| 益阳市| 北安市| 邮箱| 九江市| 忻城县| 沂源县| 镇宁| 栾川县| 清河县| 东莞市| 兴山县| 祁门县| 盐池县| 阿巴嘎旗|