宋鴻運
(國家基礎地理信息中心,北京 100048)
歷史地圖(Historical Map),是反映人類歷史時期自然和政治、經(jīng)濟、軍事、文化狀況及其變化的地圖,是顯示有史以來一切與人類活動有關的具有空間分布和地域差異現(xiàn)象的地圖。歷史地圖檔案資料(Historical Map Archive References),一般是指在歷史上形成的反映各個時期社會經(jīng)濟地理狀況的地圖,在一個關鍵的時間節(jié)點上某一張地圖可能會成為見證一件重大事件的歷史憑證,地圖上的每一個地名、每一條界線都會反映出當時一個地區(qū)的歸屬和制圖人所代表的觀點。
“中國東海、南海及周邊國家歷史地圖資料整編”是國家科技基礎性需求工作項目,項目的主要任務是通過搜集、整理,分析保管在國家測繪檔案資料系統(tǒng)及相關部門的大量古今中外有關東海、南海領域及周邊國家的歷史地圖資料、現(xiàn)代地圖資料及不同國家的歷史地圖資料,為今后的政治外交及軍事活動、科學研究提供有查考價值的參考資料與測繪技術保障。
項目設計了四個課題,其中課題一《中國東海、南海及周邊國家地圖資料的搜集、整理》和課題四《中國東海、南海及周邊歷史地圖數(shù)據(jù)庫建設》都涉及地圖檔案資料元數(shù)據(jù)的分析、利用和再設計等工作。課題一是要利用歷史地圖資料的元數(shù)據(jù),來搜集和整理符合要求的各類地圖資料,而課題四是要求將收集來的各類地圖資料按照新的要求制定元數(shù)據(jù)規(guī)則,進行相關信息的錄入和管理。
那么如何能做到收集到的是有用的,管理起來最科學,使用起來最有效?從分析各類地圖檔案資料的元數(shù)據(jù)入手,找到快速搜索相關地圖資料的元數(shù)據(jù)項,在分析已有的各種地圖檔案資料的元數(shù)據(jù)和相關標準的基礎上,再進行新的針對本項目的元數(shù)據(jù)設計工作,或者進行符合專題需求的元數(shù)據(jù)的設計,建立起針對專題歷史地圖資料的元數(shù)據(jù),為后續(xù)的數(shù)據(jù)建庫管理和提供服務奠定基礎。這些都是本文解決的問題。
本項目選擇歷史地圖資料的來源主要分為:
主要包括國家測繪檔案資料館、中國地圖出版社、海軍出版社等國家級地圖檔案資料收集、管理機構(gòu)多年積累形成的地圖資源,主要包括:各種比例尺的地形圖、海圖、教學用圖、用于編制地圖作品的比較經(jīng)典的各種國內(nèi)外地圖集等,這些地圖資源的優(yōu)點在于,地圖資料比較成系列,地圖資料的編制單位都正規(guī),地圖資料的品質(zhì)比較有保證。更重要的一點是,不同單位對地圖檔案資料都有一定的管理模式,平時為了利于管理和提供服務,已經(jīng)記錄了一些地圖資料的相關的元數(shù)據(jù)信息,對這些元數(shù)據(jù)的定義和充分的分析,提高選取符合要求地圖資料的效率,而且其中一些元數(shù)據(jù)信息經(jīng)過一定的選取處理是可以直接應用的。下面以中國地圖出版社和國家測繪檔案資料館館藏地圖資料的管理元數(shù)據(jù)分析為例進行說明。
地圖出版社的相關工作人員基于一定的項目工作內(nèi)容,對自己館藏的地圖資源進行了逐一的記錄核查。其元數(shù)據(jù)信息是比較詳盡的。其著錄的信息主要分為3大類,24小項的數(shù)據(jù)信息描述。
出版物信息,包括:出版物名稱、出版國、出版者、出版日期、版次印次、收藏機構(gòu)、書號、封底掃描、版權(quán)信息掃描;
地圖基本信息,包括:地圖名稱、地圖類型、文種、原圖尺寸(橫寬×縱高,單位:cm)、比例尺、成圖日期、編繪者、資料類型、地圖掃描;
涉南海表示信息,包括:所涉區(qū)域范圍、斷續(xù)線情況、島礁名情況、島礁歸屬情況、有利情況、備注描述。
由上述信息可以看出地圖出版社所著錄的歷史地圖資料的元數(shù)據(jù)信息偏重于地圖資料的描述信息的記錄,比較方便于資料的使用。
國家測繪檔案資料館管理著大量的測繪地理信息檔案資料,不同類型檔案資料的元數(shù)據(jù)信息采集的模式是不同的,其中地形圖類元數(shù)據(jù)有分為國內(nèi)和國外兩種模式,其中國內(nèi)出版地形圖類資料的元數(shù)據(jù)項共有39項數(shù)據(jù)內(nèi)容,其中涉及檔案管理的有12項,占元數(shù)據(jù)項的30%,而與地圖檔案資料地圖屬性相關的有27項,占元數(shù)據(jù)項條目的70%,而其中真正與選取地圖資料相關的數(shù)據(jù)項只有4項,那就是地形圖檔案資料的左邊經(jīng)度、右邊經(jīng)度、上邊緯度、下邊緯度,僅占元數(shù)據(jù)項的10%。
國外出版的地形圖資料的元數(shù)據(jù)共有37項內(nèi)容,其在快速搜索的元數(shù)據(jù)項的使用率也和上述情況相似。
可以看出,國家測繪檔案資料館藏資料的元數(shù)據(jù)信息偏重于檔案資料管理的內(nèi)容,更注重于管理內(nèi)容的錄入。而項目的目的是要在館藏30多萬條元數(shù)據(jù)記錄信息中快速地找到與項目相關的地圖資料信息,最快捷的辦法就是利用元數(shù)據(jù)中位置信息的記錄內(nèi)容,確定地形圖資料所表達的范圍,從而確定所需資料的范圍。
根據(jù)地形圖類檔案資料記錄的元數(shù)據(jù)項的左邊經(jīng)度、右邊經(jīng)度、上邊緯度、下邊緯度的信息,項目組利用目前空間數(shù)據(jù)轉(zhuǎn)換方面比較領先的FME(Feature Manipulate Engine)軟件,實現(xiàn)了將原來記錄的每幅圖所記錄的坐標元數(shù)據(jù)項,轉(zhuǎn)換成空間地理信息數(shù)據(jù),在ArcMap中對坐標進行空間定位,大大提高了選取符合條件的地圖檔案資料的速度和準確度。利用生成地形圖類檔案資料的空間地理信息數(shù)據(jù),再借助地理信息軟件平臺,可以比較方便地選出與專題研究相關區(qū)域的館藏的國內(nèi)出版和國外出版的符合區(qū)域條件的地圖檔案資料,繪出資料分布區(qū)域的圖形,再根據(jù)資料具體覆蓋區(qū)域的范圍和其他相關地形圖檔案資料元數(shù)據(jù)的內(nèi)容進行精選。
而對于館藏的專題類和地圖集類的資料,也可以通過元數(shù)據(jù)項所屬地區(qū)挑選出相關的檔案資料進行詳細的判讀,以國外地圖集為例,目前已有的元數(shù)據(jù)有29項內(nèi)容,根據(jù)選取資料的要求,進行資料與項目研究內(nèi)容相關性的判定,如根據(jù)項目課題一,資料搜集指標之一的國外較著名的出版商出版的世界地圖冊或相關國家出版的地圖冊等指標,可以選出國家測繪檔案資料館目前館藏的國外地圖集的檔號和相關數(shù)據(jù)項信息,具體見表1。
表1 國家測繪檔案資料館所藏國外圖集的部分元數(shù)據(jù)Tab.1 The selected metadata from foreign atlas in National Surveying and Mapping Archive of China
在挑出了這些地圖集后再對項目相關區(qū)域的圖幅進行仔細的判讀甄別,選取其中適合的圖幅。
以上這些方法說明通過已有的歷史地圖資料的元數(shù)據(jù)信息來選取符合條件的地圖資料是比較高效的辦法。
但是通過這種方法選擇的地圖檔案資料還不能滿足專題的需求,如在時間跨度、出版國的廣度等方面都不能滿足項目的需求,資料的搜集范圍必須要進行擴展,因此需要進行目標收集。
目標收集中又分為采購和網(wǎng)絡獲取等兩種方式。采購,一般是從地圖資料供應商處有目標地購買項目所需的特定資料,如某國在某個時期所出版的海域地形圖。采購獲取的地圖資料一般在品質(zhì)方面比較有保證,但在元數(shù)據(jù)獲取方面,通過人工采集,需要錄入的信息比較多,既需要核實的元數(shù)據(jù)信息比較多。對于網(wǎng)絡獲取方式,一般是使用網(wǎng)絡爬蟲軟件進行數(shù)據(jù)抓取,需要針對不同的網(wǎng)址設置主題管理、下載時間、文件類型等限制條件,盡可能縮小篩選的范圍,通過關鍵字在相關網(wǎng)站上獲取,這種獲取方式獲得的地圖資料的相關性不一定能夠得到保證,但有些網(wǎng)站提供的地圖資料的質(zhì)量比較好,如世界數(shù)字圖書館,美國國會圖書館等。這些大型圖書館所提供的地圖資料,甚至還能提供一些元數(shù)據(jù)信息,但是如何將這些元數(shù)據(jù)信息順利地獲取到,也不是簡單的事。有些地圖圖片元數(shù)據(jù)信息可以通過一些圖片解碼器將元數(shù)據(jù)信息讀取出來,但又存在信息不全的問題,需要逐一補充。有些圖書館還提供相關的軟件,來幫助用戶在下載地圖圖片的同時,進行元數(shù)據(jù)的封裝下載。但是通過這種方式獲取的元數(shù)據(jù)都需要通過特別編程來讀出其元數(shù)據(jù)信息,然后與設計好的特定的元數(shù)據(jù)項進行匹配,其中的試驗過程也許會反復多次。許多與項目相關的元數(shù)據(jù)信息需要逐一地核實錄入,工作效率不一定高。
無論哪種方式獲得的歷史地圖資料對項目的支持沒有區(qū)別,所以在歷史地圖元數(shù)據(jù)的設計方面需要考慮的原則是統(tǒng)一的,即需要核實的元數(shù)據(jù)信息比較多。對于網(wǎng)絡獲取方式,一般是使用網(wǎng)絡爬蟲軟件進行數(shù)據(jù)抓取,需要針對不同的網(wǎng)址設置主題管理、下載時間、文件類型等限制條件,盡可能縮小篩選的范圍,通過關鍵字在相關網(wǎng)站上獲取,這種獲取方式獲得的地圖資料的相關性不一定能夠得到保證,但有些網(wǎng)站提供的地圖資料的質(zhì)量比較好,比如:世界數(shù)字圖書館,美國國會圖書館等。這些大型圖書館所提供的地圖資料,甚至還能提供一些元數(shù)據(jù)信息,但是如何將這些元數(shù)據(jù)信息順利的獲取到,卻也不是簡單的事。有些地圖圖片元數(shù)據(jù)信息可以通過一些圖片解碼器將元數(shù)據(jù)信息讀取出來,但又存在信息不全的問題,需要逐一補充。有些圖書館還提供相關的軟件,來幫助用戶在下載地圖圖片的同時,進行元數(shù)據(jù)的封裝下載。但是通過這種方式的獲取的元數(shù)據(jù)都需要通過特別編程來讀出其元數(shù)據(jù)信息,然后與設計好的特定的元數(shù)據(jù)項進行匹配,其中的試驗過程也許會反復多次。許多與項目相關的元數(shù)據(jù)信息需要逐一的核實錄入,工作效率不一定高。
目前的國內(nèi)外標準化組織制定的空間元數(shù)據(jù)標準和其他個人或組織制定的空間元數(shù)據(jù)標準的主要目標是數(shù)據(jù)共享,而要達到共享的目的,就要求在設計時,盡量滿足主要用戶的需求。在本項目設計立項時,項目成果的用戶被確定主要為對東海、南海海域相關問題感興趣的專家學者,需盡量全面地提供各類信息資源,以滿足用戶的需求。在本項目中除了地圖資料,還涉及了影像照片、文章、專著、視頻等類型的資料,并設計了相應的元數(shù)據(jù)信息。專家們對歷史地圖資料所表示的內(nèi)容,以及歷史地圖資料所反映的時間、地圖資料的數(shù)學基礎、制作單位、地圖資料的語種、資料的受控程度等都應該是比較關心的內(nèi)容,所以這些數(shù)據(jù)項的設定是必須的。
通過符合元數(shù)據(jù)標準而達到“空間元數(shù)據(jù)互操作”是效率最高、最易實施的互操作,因此遵循現(xiàn)有標準對于實現(xiàn)互操作至關重要。在本項目中對于能夠采用相關標準的數(shù)據(jù)項都應用了相關的標準,如地圖關注熱點區(qū)域坐標信息的格式確定和提供單位坐標的數(shù)據(jù)格式都是采用目前通用的地圖坐標數(shù)據(jù)格式,有利于在天地圖等網(wǎng)絡地圖上進行標注或獲取相應的坐標點位信息。而對于時間數(shù)據(jù)項,都要求統(tǒng)一到公元紀年。
檢索資源往往側(cè)重于適用性,而門戶應用則多強調(diào)簡單性。目前主要的國內(nèi)外標準化組織制定的空間元數(shù)據(jù)標準所包含的元數(shù)據(jù)項都非常詳細,比較復雜。而本項目制定元數(shù)據(jù)既能達到門戶應用的簡單性,又能滿足檢索資源的適用性。如地圖資料對于項目主題相關性描述數(shù)據(jù)項和關鍵詞數(shù)據(jù)項的設置,就是為了方便利用關鍵詞,在本項目中關于中國南海、東海、釣魚島等關鍵詞的設置,就是為了讓用戶能夠快速了解地圖資料的相關信息,并快速檢索到相關區(qū)域的地圖資料。
元數(shù)據(jù)制定方案的通用性原則要求考察是否有更一般的概念能夠滿足描述要求,而專指性原則是指滿足特殊領域資源描述所提出的特殊要求。目前主要的國內(nèi)外標準化組織制定的空間元數(shù)據(jù)標準一般來講,滿足用戶一般的數(shù)據(jù)共享需求,通用性較明顯,而在本項目的設計中更多地考慮了項目專題對歷史地圖資料的滿足空間檢索和時間序列以及資料出版方和提供方等信息獲取的要求,所以專指性更為明顯。另外在歷史地圖命名方面也做了具體的要求,原來各單位管理的歷史地圖數(shù)據(jù),有的用檔號來命名,有的用圖名來命名,有的直接是用簡單胡序列號來用名,為了便于管理,針對項目需求,制定了地圖文件的命名規(guī)則是國別+時間+圖名的方式。
對于本項目的資料收集,除了常規(guī)的利用館藏、有目的的購買、交換等方式,通過互聯(lián)網(wǎng)在網(wǎng)上搜集也是一個比較大的搜集來源,必須確定相關資料所在的位置和它所能表述的信息,反映的立場。所以不能沿用傳統(tǒng)的資料檔案目錄管理的模式來進行元數(shù)據(jù)項和數(shù)據(jù)內(nèi)容的設計,要更多地考慮描述信息,通過元數(shù)據(jù)更多地反映歷史地圖資料的內(nèi)容特質(zhì)。另外還要考慮歷史地圖資料知識產(chǎn)權(quán)的有關問題,應該反映出資料所屬個人和機構(gòu)的名稱。由于資料表達立場的敏感性問題,還要考慮資料的受控度問題,在參考了世界數(shù)字圖書館數(shù)字藏品描述元數(shù)據(jù)技術標準(http://project.wdl.org/standards/metadata.html,WDL Descriptive Metadata Element Set)、文書類電子文件元數(shù)據(jù)方案DA/T 46—2009中華人民共和國檔案行業(yè)標準、測繪地理信息成果目錄服務系統(tǒng)元數(shù)據(jù)規(guī)定、美國國會圖書館網(wǎng)站(http://www.loc.gov)、美國威斯康星大學圖書館網(wǎng)站(http://www.library.wisc.edu,University of Wisconsin Digital Collections)等一些元數(shù)據(jù)的設計模型之后,確定了項目的歷史地圖(含地圖集)資料元數(shù)據(jù)的數(shù)據(jù)項,具體見表2。
為更好地錄入和管理歷史地圖數(shù)據(jù)的元數(shù)據(jù),開發(fā)了歷史地圖數(shù)據(jù)元數(shù)據(jù)的錄入系統(tǒng),其界面如圖1所示,可以進行數(shù)據(jù)批量導入,逐個檢查核實修改,以保證數(shù)據(jù)的質(zhì)量。對于必填項都有特殊的提示標識,數(shù)據(jù)的圖形也有縮略圖,可直接檢查歷史地圖數(shù)據(jù)胡圖面情況是否正常。
圖1 歷史地圖元數(shù)據(jù)錄入界面圖Fig.1 The historic map metadata entry interface
表2 項目歷史地圖元數(shù)據(jù)表Tab.2 The project historic map metadata
專項歷史地圖數(shù)據(jù)庫的元數(shù)據(jù)不同于一般數(shù)據(jù)庫的元數(shù)據(jù),因為其數(shù)據(jù)源元數(shù)據(jù)的情況相對復雜。為了更好地提高歷史地圖資料的使用效率,設計歷史地圖描述信息數(shù)據(jù)項可以讓資料的使用者快速了解地圖的背景信息,不需要其從分散的數(shù)據(jù)項信息中提取和綜合。為了歷史地圖資料查詢和使用方便,設計了歷史地圖空間定位的元數(shù)據(jù)項,這樣大大提高了歷史地圖的使用效率,并將拓寬歷史地圖資料應用領域。