李金良,張雪英*,樊曉春
(1.南京師范大學(xué)虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,江蘇南京 210046;2.南京地震監(jiān)測預(yù)警中心,江蘇南京 210008)
漢語地名時(shí)空信息的一體化表達(dá)
李金良1,張雪英1*,樊曉春2
(1.南京師范大學(xué)虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,江蘇南京 210046;2.南京地震監(jiān)測預(yù)警中心,江蘇南京 210008)
地名信息中蘊(yùn)含著豐富的地名時(shí)空信息,而目前已建立的大部分地名數(shù)據(jù)庫,從信息內(nèi)容看,描述了歷史地名信息,但忽略了時(shí)空信息;從信息結(jié)構(gòu)看,存在描述的范圍、完備性和豐富性等方面的差異,缺乏統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)。該文通過分析地名及其相關(guān)信息內(nèi)容,設(shè)計(jì)了能夠較為完善地表達(dá)地名實(shí)體、時(shí)間信息、空間信息、屬性信息和地名空間關(guān)系等時(shí)空一體化的地名數(shù)據(jù)庫規(guī)范,包括地名數(shù)據(jù)庫的結(jié)構(gòu)和數(shù)據(jù)組織。該研究成果有助于拓展地名數(shù)據(jù)庫在公共衛(wèi)生、數(shù)據(jù)信息管理、文化歷史和基于文本的地理參考自動化等領(lǐng)域的應(yīng)用服務(wù)。
漢語地名;時(shí)空信息;一體化表達(dá)
地名地理信息作為常用的社會公共信息之一是不可或缺的基礎(chǔ)信息資源[1],是地理空間信息的重要組成部分。地名信息描述地名名稱、地名所代表的地理實(shí)體等方面的信息,表達(dá)了地名所代表的一定地理范圍內(nèi)的歷史文化、民族特色、風(fēng)俗習(xí)慣、經(jīng)濟(jì)狀況和社會生態(tài)等,具有信息來源范圍廣泛、區(qū)域性差別明顯、時(shí)間尺度變化大、包含內(nèi)容繁多和描述方法多樣等特點(diǎn)。地名隨時(shí)間而演變,有時(shí)空上的連續(xù)性;參照體系差異較大,所代表的地理空間范圍有精確表達(dá)(如經(jīng)緯度)和模糊描述(如山脈)之分。另外,地名也存在多種語言描述方式,受異體字、俗字以及譯名不同的影響,區(qū)域差別性大;漢語地名受傳統(tǒng)文化影響大,地名變遷歷史長,同時(shí)受地貌、環(huán)境和風(fēng)俗等因素的影響。
地名詞典和地名數(shù)據(jù)庫是地名信息有效的存儲、組織和管理方式。地名詞典描述地名實(shí)體信息以及地名、空間位置和要素類型三者之間的關(guān)系[2]。傳統(tǒng)的地名詞典是地理特征名稱、地理位置和其他描述性信息的列表[3],一般以紙質(zhì)形式出版,難以更新維護(hù)和支持復(fù)雜應(yīng)用;數(shù)字地名詞典編碼地名、地理位置、地理描述和地理類型等要素,Wikipedia、Wikimapia和Flickr等網(wǎng)站提供面向網(wǎng)絡(luò)服務(wù)的數(shù)字地名詞典,采用大眾參與的方法對其進(jìn)行豐富和完善。地名數(shù)據(jù)庫是一定區(qū)域內(nèi)的地理要素及其相互聯(lián)系和各種地名特征的數(shù)據(jù)集合[4],具有容量大、更新容易、服務(wù)多樣等優(yōu)點(diǎn),是一個(gè)包含三個(gè)基本特征(地名、類型和位置)和其他信息的列表,即一個(gè)三元組(N,F,T),N對應(yīng)一個(gè)或多個(gè)地名,F代表一個(gè)或多個(gè)地理位置,T代表所描述要素的類型[5]。因此,地名數(shù)據(jù)庫被看做是一個(gè)可以將方言轉(zhuǎn)化為計(jì)算機(jī)語言,并可以讓用戶在人類語言和地理空間位置以及要素類型之間隨意轉(zhuǎn)換的工具?,F(xiàn)有的地名數(shù)據(jù)庫缺乏將面向用戶的地理信息與國家地理信息相融合的能力,且不支持復(fù)雜查詢[6]。
國外地名命名比較規(guī)則,變化較少,而且地名數(shù)據(jù)庫標(biāo)準(zhǔn)和規(guī)則較統(tǒng)一,各種開放的地名數(shù)據(jù)服務(wù)發(fā)展迅速。現(xiàn)有的國外地名數(shù)據(jù)庫有亞歷山大數(shù)字圖書館(ADL)、地名信息系統(tǒng)(GN IS)和澳大利亞地名詞典(GOA)等。作為記錄地名的綜合結(jié)構(gòu),ADL被視為檔案結(jié)構(gòu),但其結(jié)構(gòu)復(fù)雜且缺乏空間關(guān)系; GN IS是美國地理實(shí)體命名規(guī)則的國家標(biāo)準(zhǔn),其描述的地名信息內(nèi)容豐富,但不完整;GOA可以提供地名查詢等服務(wù),但描述范圍較為狹窄。國內(nèi)地名命名較為復(fù)雜,涉及歷史、人文、政治等因素,中文地名數(shù)據(jù)庫沒有統(tǒng)一的內(nèi)容標(biāo)準(zhǔn)。目前比較大型的中文地名數(shù)據(jù)庫有兩個(gè):一是國家地理信息中心建立的1∶5萬和1∶25地名數(shù)據(jù)庫,將國家地形圖上各類地名注記及其漢語拼音、屬性要素等錄入計(jì)算機(jī)建成的數(shù)據(jù)庫,與地形數(shù)據(jù)庫通過技術(shù)結(jié)構(gòu)鏈接進(jìn)行相互訪問,或作為獨(dú)立的關(guān)系型數(shù)據(jù)庫運(yùn)行[7];二是國家民政部開發(fā)的地名信息系統(tǒng)——“地名之星”,實(shí)現(xiàn)地名屬性和空間數(shù)據(jù)的集成管理與應(yīng)用,但不包含空間關(guān)系。其他國內(nèi)地名數(shù)據(jù)庫有古今地名數(shù)據(jù)庫和中國歷史地理信息系統(tǒng)(CHGIS)等。
綜上所述,現(xiàn)有的國內(nèi)外地名數(shù)據(jù)庫的描述內(nèi)容包含了地名及與地名相關(guān)的空間、時(shí)間等信息,但大部分地名數(shù)據(jù)庫描述的地名信息不夠完整,主要表現(xiàn)為:1)未描述完整的空間位置信息,缺乏幾何空間信息和空間關(guān)系;2)未包含豐富的時(shí)間信息,缺乏模糊時(shí)間信息描述;3)屬性信息描述不完整;4)未建立完善、一致的要素分類體系,進(jìn)行地名要素分類。而分析與總結(jié)漢語地名信息的特點(diǎn)、組成、結(jié)構(gòu)與規(guī)律,實(shí)現(xiàn)地名信息的時(shí)間、空間一體化,可以更好地推動地名數(shù)據(jù)庫建設(shè),提高地名數(shù)據(jù)庫的服務(wù)和應(yīng)用水平,推動地名信息建設(shè)的發(fā)展。本文通過對地名信息的研究,整合已有地名數(shù)據(jù)庫的地名時(shí)空信息,建立了表達(dá)地名時(shí)空演變的數(shù)據(jù)模型,包含了完整的地名信息,實(shí)現(xiàn)了漢語地名的時(shí)空一體化表達(dá)。
地名、地名信息隨著時(shí)間而演變。地名的時(shí)空演變方式多樣,一個(gè)地名的產(chǎn)生可以是從無到有,或由其他地名演變而來;地名的結(jié)束可以是演變?yōu)槠渌孛蜃罱K消逝。地名變化的原因可能是地名名稱的改變、地名所代表的地理實(shí)體的變化、或是其他屬性信息的改變。因此,地名時(shí)空演變是一個(gè)復(fù)雜的過程。漢語地名的由來、發(fā)展和變化,反映了漢民族的社會文化風(fēng)貌,體現(xiàn)了漢民族的文化心態(tài)和民間習(xí)俗等[8]。地名時(shí)空演變過程如圖1所示。
圖1 地名時(shí)空演變過程Fig.1 The spatial-temporal evolvement of toponym
地名時(shí)空演變數(shù)據(jù)模型主要包括地名的基本信息、要素分類體系、空間位置信息、時(shí)間信息、屬性信息和空間關(guān)系等,具有完整性、合理性和豐富性。作為一個(gè)具有綜合性的地名時(shí)空信息框架,可為構(gòu)建通用、專用地名時(shí)空數(shù)據(jù)庫提供框架參考。地名時(shí)空演變數(shù)據(jù)模型的框架結(jié)構(gòu)如圖2所示。
圖2 地名時(shí)空演變模型的基本框架Fig.2 Themain framework of spatial-temporal toponym evolvementmodel
地名實(shí)體指簡單的地理位置和可被識別并作為參考的人造地理實(shí)體(社會建筑)。地名源于人們對地理要素或場所進(jìn)行概念化及命名[9],廣義地名是對一個(gè)場所的文本描述[10]。地名實(shí)體的名稱包括行政區(qū)劃名、被識別并作為參考的自然地理實(shí)體和人造地理實(shí)體名稱;同一地名實(shí)體可能有不同的名稱,可能用于特定的目的,只在特定領(lǐng)域中理解與使用。
在地名時(shí)空演變數(shù)據(jù)模型中,地名分為三類:標(biāo)準(zhǔn)名稱、簡稱和別名。標(biāo)準(zhǔn)名稱是使用規(guī)范文字書寫并經(jīng)官方認(rèn)可的地名全稱;簡稱是標(biāo)準(zhǔn)地名的簡單稱謂,如“皖”是安徽的簡稱;別名是除標(biāo)準(zhǔn)名稱和簡稱以外的其他現(xiàn)行的名稱,如南京市又名“石頭城”,成都市又名“蓉城”。地名通常有一個(gè)簡稱,多個(gè)別名,標(biāo)準(zhǔn)名和別名是一對多的關(guān)系。
一般情況下,地理實(shí)體的名稱代表地理實(shí)體的某種特征,它的命名常反映當(dāng)?shù)氐哪承┳匀换蛉宋牡乩硖卣?如反映顏色(丹露山)、形態(tài)(五指山)、氣候(恒春)、方位(海南)、物產(chǎn)(鹽城)、商業(yè)(騾馬市大街)、交通(渡口市)、宗教(雞鳴寺)、職業(yè)(鐵匠營)以至祈求(平安堡)等;其中有些特征一直保存到現(xiàn)在,有的特征雖已消失,但地名仍繼續(xù)流傳(如北京公主墳)。很多地名具有區(qū)域特色,如帶有塬、峁等詞的地名只分布在黃土區(qū)域,帶有涌、滘等詞的地名只分布在廣東水網(wǎng)地區(qū)。
地名中代表該地名含義或地理實(shí)體特征的一些字或詞稱為“地名特征字”。如:南昌市“八一大橋”中的“八一”代表當(dāng)?shù)氐臍v史事件,“黃屋坡”中的“坡”代表當(dāng)?shù)氐牡匦翁卣?溫州市“繼光路”中的“繼光”代表當(dāng)?shù)氐臍v史人物等。通過提煉和總結(jié)地名中的特征字,可以明確探索地名的規(guī)律與命名習(xí)慣。
在歷史文獻(xiàn)和其他描述性文檔中,地名起著聯(lián)系歷史事件、歷史人物及其他描述性信息的作用,地名記錄了民族的變遷與融合等人類歷史文化活動、環(huán)境變化、經(jīng)濟(jì)、文化、風(fēng)俗等信息。通過對地名相關(guān)的描述性信息的記錄與表達(dá),豐富地名所代表的地理實(shí)體的歷史底蘊(yùn),提高地名的信息蘊(yùn)含能力,使地名能夠提供智能化信息查詢以及更多的應(yīng)用服務(wù)。
現(xiàn)有的地名信息應(yīng)用只涉及空間信息的空間維度和屬性維度,大多不具有處理時(shí)間維度的功能,而只是描述數(shù)據(jù)的一個(gè)瞬時(shí)態(tài),因而無法分析地名變化的歷史并預(yù)測未來趨勢。但是現(xiàn)實(shí)世界的信息不僅與空間相關(guān),而且與時(shí)間相聯(lián)系。通過對時(shí)間信息的管理和處理功能,便于根據(jù)時(shí)間維進(jìn)行地名變化的時(shí)空跟蹤,實(shí)現(xiàn)對地名的歷史分析和趨勢分析。
時(shí)空數(shù)據(jù)庫是研究如何存儲歷史和當(dāng)前的時(shí)空數(shù)據(jù),從而跟蹤分析某一區(qū)域的變化,最終實(shí)現(xiàn)時(shí)空模型化和模擬地學(xué)過程[11],是包括時(shí)間和空間要素在內(nèi)的數(shù)據(jù)庫系統(tǒng)[12]。時(shí)空數(shù)據(jù)模型是一種有效組織和管理時(shí)態(tài)地理數(shù)據(jù)、屬性、空間和時(shí)間語義更完整的地理數(shù)據(jù)模型[13]。將空間數(shù)據(jù)和時(shí)間信息按一定的數(shù)據(jù)結(jié)構(gòu)方式有機(jī)組織進(jìn)行集成管理,完善時(shí)態(tài)地理數(shù)據(jù)、屬性、空間和時(shí)間語義,以便重建歷史狀態(tài)、跟蹤變化和預(yù)測未來[14]。時(shí)空數(shù)據(jù)庫由于其動態(tài)性和全面性成為真正意義上的數(shù)據(jù)庫[15]。
3.1.1 地名空間位置信息表達(dá) 地名數(shù)據(jù)庫最基本的組成是地理實(shí)體的名稱和空間位置的映射[16],地名的意義包含要素和具有模糊位置及邊界的地理位置(如橫斷山脈和中國東部)。地名還可以被描述成與經(jīng)驗(yàn)相關(guān)的位置,如“河流的下游”,是具有特殊性的地名空間位置參考信息,只有在識別為某個(gè)特定空間語義中的河流或地區(qū)時(shí),這些地名才有特定的空間位置。目前大部分地名都建立在地名機(jī)構(gòu)提供的已有數(shù)字化文件基礎(chǔ)上,因此不能識別官方未確認(rèn)的其他類型的地名;而且使用點(diǎn)、或多邊形邊界來表現(xiàn)要素的地名數(shù)據(jù)庫,不易用于特定類型的信息抽取。因此,應(yīng)包含描述性的地理空間信息以及高度抽象化的空間位置信息,使地名空間信息表達(dá)的方式多樣化,提高其表達(dá)能力。
在地名空間信息表達(dá)中需要著重關(guān)注時(shí)空表達(dá)抽象的程度,不同尺度的時(shí)空抽象可以滿足不同類型的應(yīng)用需求。如在一般的地名空間信息表達(dá)中,使用河口點(diǎn)的空間位置區(qū)別不同的河流,以簡單的點(diǎn)的空間位置進(jìn)行地圖顯示;在地理信息抽取中,使用最小約束矩形框表示一個(gè)地名的空間范圍,易于進(jìn)行疊置分析和復(fù)雜匹配。因此,在地名空間信息表達(dá)中,若可以精確表達(dá)地名所代表的地理實(shí)體的空間位置,如某個(gè)點(diǎn)狀地理實(shí)體坐標(biāo)的經(jīng)緯度或某個(gè)區(qū)域的確定邊界,則使用點(diǎn)(如經(jīng)緯度)、線、面等形式存儲;若模糊表達(dá)地名所代表的地理實(shí)體的空間位置信息,則采用空間幾何描述,即包含該地理范圍南北向的最大、最小緯度和東西向的最大、最小經(jīng)度所組成的封閉的最小約束框。
地理實(shí)體的空間位置信息來源有 GIS數(shù)據(jù)集、地名詞典、從地理信息中抽取等,測量方式有 GPS、CORS、攝影測量等,不同測量方式和不同數(shù)據(jù)來源使得同一地名的空間位置信息具有不一致性。因此,可以描述同一地名的多個(gè)測量結(jié)果,包括該空間位置信息的來源、測量方式等,以便對地名空間信息的檢索和更新。地名實(shí)體與空間位置信息是一對多的關(guān)系。當(dāng)需要對地理實(shí)體的空間位置信息進(jìn)行查詢時(shí),首先通過檢索排序,顯示最精確的地理位置信息,并有相關(guān)的多個(gè)候選檢索結(jié)果,根據(jù)需求在檢索結(jié)果中選擇。在數(shù)據(jù)更新時(shí),若新數(shù)據(jù)與待更新數(shù)據(jù)在精確度上有可比性,可替換待更新數(shù)據(jù)或在檢索結(jié)果中優(yōu)先顯示;若無法進(jìn)行精確度的判斷,則可保留新數(shù)據(jù),并將其作為候選檢索結(jié)果。在地名空間信息表達(dá)中,采用多源融合的方法,并使用多種表達(dá)方式,可以提高地名空間信息表達(dá)能力。
3.1.2 地名空間關(guān)系表達(dá) 空間關(guān)系是指地理實(shí)體之間存在的一些具有空間特性的關(guān)系[17],主要有拓?fù)潢P(guān)系、方向關(guān)系、度量關(guān)系三大類。其中拓?fù)潢P(guān)系是指在拓?fù)渥儞Q(旋轉(zhuǎn)、平移、縮放等)下保持不變的空間關(guān)系,如中部、交叉等;方向關(guān)系是指對象在空間中的某種排序,如往南、在右邊等;度量關(guān)系是用某種度量空間中的度量來描述的對象之間的關(guān)系[18],如60 km、5 min路等。空間關(guān)系具有層次性和不確定性等特征??臻g關(guān)系的語義層次主要體現(xiàn)在語義分辨率上(艾廷華,2000),如8方向關(guān)系中的“南”、“東南”和“西南”3個(gè)概念在4方向關(guān)系中合并為“南”1個(gè)概念。由于人們認(rèn)知的不確定性,使得空間關(guān)系具有不確定性,在漢語中使用模糊描述的方式表達(dá)空間關(guān)系的不確定性??臻g關(guān)系的描述和應(yīng)用離不開空間認(rèn)知。人們對空間關(guān)系的認(rèn)知一般使用自然語言描述,地名是空間關(guān)系中空間位置的最常用表達(dá)。
地名實(shí)體的空間位置和范圍隨著時(shí)間變化,如行政區(qū)劃的分割、合并,由于地名的時(shí)空變化,導(dǎo)致其空間關(guān)系也隨時(shí)間而變化。時(shí)空關(guān)系是在一定時(shí)間間隔內(nèi)或時(shí)間點(diǎn)上時(shí)空對象所表現(xiàn)出的空間關(guān)系序列,這個(gè)序列反映了時(shí)空對象在關(guān)系上的發(fā)展及變化,為用戶提供與時(shí)間有關(guān)的數(shù)據(jù)管理和查詢服務(wù)。
在漢語中,描述空間關(guān)系的語句一般包含以下要素:空間關(guān)系主體、空間謂詞、語氣算子、空間關(guān)系連接詞、空間關(guān)系值、空間關(guān)系參照物和語義描述。空間關(guān)系主體指被描述的地理對象;空間謂詞表示空間方位,如北部、東南部;語氣算子是用以加強(qiáng)或減弱語氣、表示模糊概念的詞語,如大約、很;空間關(guān)系連接詞是指其連接作用的詞語,如在、距;空間關(guān)系參照物指空間位置參考的地理對象;空間關(guān)系的語義是指地理實(shí)體間有哪些空間關(guān)系,這些空間關(guān)系有哪些性質(zhì)[19]。通過記錄自然語言中描述空間關(guān)系的一般要素,以及地名之間的空間關(guān)系,便于空間關(guān)系的定性或定量推理。
行政區(qū)劃中下級單位和上級單位之間的隸屬關(guān)系也是地名之間空間關(guān)系的一種,但行政隸屬關(guān)系又有其特殊性:如行政隸屬中的包含在地理位置上可能是分離的;另外,遞推關(guān)系也不同[20],如東北平原包括吉林省,吉林省包括長白山,而東北平原不包括長白山。因此,需把行政隸屬關(guān)系作為一種特殊的空間關(guān)系。國家標(biāo)準(zhǔn)行政區(qū)劃編碼包含了行政隸屬關(guān)系,地名行政隸屬關(guān)系及其隨時(shí)間的變化體現(xiàn)了行政區(qū)劃歷史變遷過程。
歷史時(shí)期名稱的獲取與存儲可以反映相關(guān)的地理觀念,同一個(gè)時(shí)期可以使用不同的名稱描述,并有時(shí)間范圍。地名的時(shí)間信息是聯(lián)系地名過去與現(xiàn)在的紐帶,通過記錄地名時(shí)間信息可以重現(xiàn)地名演變的歷史過程。漢語中時(shí)間信息的表達(dá)方式多樣,采用多種計(jì)時(shí)、紀(jì)年方式,包含多種不同的數(shù)據(jù)格式,使用多個(gè)名稱描述同一時(shí)期,并有豐富的模糊時(shí)間描述方法。通過分析地名時(shí)間信息的內(nèi)容和特點(diǎn),獲知各種時(shí)間描述所表示的具體或大致范圍,從而獲取更多的時(shí)間參考,為地名的時(shí)間信息表達(dá)提供更多的信息來源。
地名是社會的產(chǎn)物,它的命名、演變始終都受到社會發(fā)展水平的制約,不同歷史時(shí)代都有反映該時(shí)代特征的地名。地名名稱的更改,地名所代表的地理實(shí)體空間范圍的擴(kuò)大、縮小,或該地理實(shí)體的行政等級、行政隸屬變化,都將導(dǎo)致舊地名的結(jié)束和新地名的產(chǎn)生。地名變更涉及政治、歷史、地理、語言文字的發(fā)展變化,涉及人民生活和社會交往[21]。
地名演變的原因可以是自然環(huán)境因素,如揚(yáng)州市的“五福巷”因自然災(zāi)害而改名為“五谷巷”;或人為因素,如城市的建設(shè)導(dǎo)致許多舊地名的消失,新地名的產(chǎn)生。地名隨時(shí)間演變的類型有:新設(shè)、擴(kuò)大、合并、縮小、分離、位置改變、幾何形態(tài)改變、消失、改名、改行政區(qū)劃等級、改屬、改治。在地名時(shí)空演變數(shù)據(jù)模型中,地名的時(shí)間信息和空間位置信息通過地名實(shí)體相聯(lián)系。地名實(shí)體的描述性信息包含該地名的起始時(shí)間和結(jié)束時(shí)間,并與在該時(shí)段內(nèi)所對應(yīng)的特定的地理實(shí)體相聯(lián)系。
通過對地名時(shí)空演變的分析,可以更深入了解地名所代表的地理實(shí)體在歷史進(jìn)程中的演變原因、方式與類型,以及相關(guān)的社會狀態(tài)、環(huán)境等的變化,了解時(shí)代變遷對地名及其所代表區(qū)域的影響和改變,也可從地名的變化來反映時(shí)代特征和社會變化,從而可以重現(xiàn)該區(qū)域的人文、自然的一體化歷史進(jìn)程。
地名數(shù)據(jù)包括空間數(shù)據(jù)和屬性數(shù)據(jù)。地名屬性數(shù)據(jù)是指與空間位置沒有直接關(guān)系的代表地理實(shí)體特定涵義的數(shù)據(jù),其具有以下特點(diǎn):一是信息量大,涵蓋各個(gè)領(lǐng)域的地名以及對地名描述的各個(gè)不同的方面;二是信息變化頻繁,更新速度較快,時(shí)效性較短;三是信息類型復(fù)雜,有數(shù)字、文字等描述性信息以及圖形、聲音、視頻等多媒體信息,多種信息格式使地名屬性數(shù)據(jù)的表現(xiàn)方式多樣、呈現(xiàn)的內(nèi)容更加豐富。
在地名時(shí)空信息中,不但要完整保存地名實(shí)體的各個(gè)方面的屬性信息,還應(yīng)盡量使同一方面的內(nèi)容相對集中,既能全面反映地名的客觀情況,又能集中反映地名屬性信息的每一個(gè)側(cè)面。因此,在地名數(shù)據(jù)庫中對屬性信息的存儲有以下要求:保持?jǐn)?shù)據(jù)的獨(dú)立性;保證數(shù)據(jù)的安全性和完整性;維護(hù)方便,有不斷擴(kuò)充和更新的能力。同時(shí),由于地名屬性數(shù)據(jù)的復(fù)雜性,為了便于查詢和處理,在建立數(shù)據(jù)文件的同時(shí),建立一系列的索引文件,提高訪問速度。
由于地名屬性信息的數(shù)據(jù)量大、有多種數(shù)據(jù)類型,通過對各個(gè)類型的地理實(shí)體的屬性進(jìn)行系統(tǒng)分類,構(gòu)建屬性要素分類體系,可以使屬性信息冗余度低、快捷的檢索、查詢、維護(hù)和管理。屬性要素分類體系共包含49種通用屬性:長度、寬度、高度、面積、容積、海拔、比高、起點(diǎn)、終點(diǎn)、人口、地形、年均溫、年降水量、氣候、主要產(chǎn)業(yè)、用途、類型、形態(tài)、建成時(shí)間、個(gè)數(shù)、所屬朝代、狀態(tài)、編號、GDP、巖石類型、主峰、礦產(chǎn)、植被、性質(zhì)、通行、水質(zhì)、級別、流量、透明度、水溫、組成成分、落差、孔數(shù)、層數(shù)、方向、駐扎月份、年產(chǎn)量、年發(fā)電量、分布、車道數(shù)、所屬水域、承載能力、電壓值等。
地名及其所代表的地理實(shí)體都有要素類型,地理要素是自然界中具有唯一性的自然元素或?qū)ο?。地理要素分類體系中的每一類地理要素對應(yīng)著屬性要素分類體系中的一個(gè)或多個(gè)屬性要素,每種屬性要素都有一個(gè)或多個(gè)具體的屬性描述。地名屬性要素分類體系的建立,便于從多源、海量、多樣化的地理屬性數(shù)據(jù)中抽取出有價(jià)值的信息,豐富地名的屬性信息,服務(wù)于地名的應(yīng)用。
由于漢語地名具有名稱構(gòu)成復(fù)雜、空間位置信息受測量方式的影響并有模糊和精確之分,時(shí)間信息描述方法多樣等特點(diǎn),使得地名實(shí)體的時(shí)空演變分析和時(shí)空一體化表達(dá)具有復(fù)雜性。本文分析了漢語地名名稱的特征與規(guī)律;地名屬性信息的組成、分類與表現(xiàn)方式;空間信息類型與表達(dá)方式;地名之間空間關(guān)系描述與行政隸屬信息以及地名隨時(shí)間的演變等方面,建立了地名時(shí)空演變數(shù)據(jù)模型,完整的表達(dá)了地名各方面的信息,并對地名時(shí)空演變的原因、過程和方式進(jìn)行了探討,實(shí)現(xiàn)了漢語地名的時(shí)空一體化表達(dá)??梢詾榈孛麜r(shí)空數(shù)據(jù)庫的設(shè)計(jì)與構(gòu)建提供較好的依據(jù),使地名數(shù)據(jù)庫具有較好的數(shù)據(jù)結(jié)構(gòu)和良好的可適用性、可擴(kuò)展性,便于地名及其相關(guān)信息的存儲、更新、檢索、查詢、共享和其他應(yīng)用性服務(wù)。
[1] 石若明,陳秀忠.城市大比例尺地名地理信息數(shù)據(jù)庫建設(shè)的探索[J].測繪通報(bào),2004(1):41-43.
[2] GOODCH ILD M F,H ILL L L.Introduction to digital gazetteer research[J].Geographical Information Science,2008,22(10): 1039-1044.
[3] H ILL L,FREW J,ZHENG Q.Geographic Names:The Implementation of a Gazetteer in a Geo referenced Digital Library [R].Corporation for National Research Initiatives:Virginia, 1999.
[4] 鄒利平,杜清運(yùn).省級地名數(shù)據(jù)庫數(shù)據(jù)組織與更新策略探討[J].數(shù)字地名,2007(8):66-67.
[5] H ILL L L.Core elementsof digital gazetteers:Place names,categories,and footp rints[A].Research and Advanced Technology for Digital Libraries[C].Germany:Sp ringer Berlin,2000.280-290.
[6] KEBLER C,JANOW ICZ K,BRISHR M.An Agenda for the Next Generation Gazetteer:Geographic Information Contribution&Retrieval[D].ACM SIGSPA TIAL GIS,2009.
[7] 狄林,歐陽宏斌.全國1∶25萬地名數(shù)據(jù)庫的設(shè)計(jì)與建立[J].測繪通報(bào),2001(10):32-33.
[8] 肖中瓊,戴衛(wèi)平.中國地名與中國文化[J].語言新觀察,2008 (4):102-103.
[9] 陳凱晨,林星,袁一泓,等.數(shù)字地名詞典中的類型表達(dá)和管理[J].地理與地理信息科學(xué),2009,25(5):6-11.
[10] 劉瑜,張毅,田原,等.廣義地名及其本體研究[J].地理與地理信息科學(xué),2007,23(6):1-7.
[11] 黃勇奇,崔偉宏.基于歷史關(guān)系數(shù)據(jù)庫的時(shí)空數(shù)據(jù)庫實(shí)現(xiàn)研究[J].遙感學(xué)報(bào),2008,12(5):759-764.
[12] 唐新明,吳嵐.時(shí)空數(shù)據(jù)模型和時(shí)間地理信息系統(tǒng)框架[J].遙感信息,1999(1):11-15.
[13] 舒紅,陳軍,杜道生,等.面向?qū)ο蟮臅r(shí)空數(shù)據(jù)模型[J].武漢測繪科技大學(xué)學(xué)報(bào),1997,22(3):229-233.
[14] 陳志泊,陸守一.TGIS中的時(shí)空數(shù)據(jù)模型的研究進(jìn)展[J].河北林果研究,2003,18(4):395-400.
[15] 林秀玉,廖磊.基于A rcGIS的時(shí)空數(shù)據(jù)庫的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代測繪,2007,30(5):11-12.
[16] AXELROD E A,M ETACARTA,INC.On building a high performance gazetteer database[A].Human Language Technology Conference.USA:Association for Computational Linguistics.2003.63-68.
[17] 陳軍,趙仁亮.GIS空間關(guān)系的基本問題與研究進(jìn)展[J].測繪學(xué)報(bào),1999,28(2):95-102.
[18] 郭平,劉然,董曉華.二維空間對象空間關(guān)系的定性表示[J].計(jì)算機(jī)工程,2005,31(2):39-41.
[19] 廖楚江,杜清運(yùn).GIS空間關(guān)系描述模型研究綜述[J].測繪科學(xué),2004,29(4):79-82.
[20] MARD IS S,BURGER J.Design fo r an Integrated Gazetteer Database:Technical Description and User Guide for A Gazetteer to Suppo rt Natural Language Processing App lications [R].Virginia:The M ITRE Corpo ration,2005.
[21] 王際桐.論我國地名更名[J].中國測繪,2001(4):11-14.
Spatial-Temporal Expression of Chinese Toponym
L IJin-liang1,ZHANG Xue-ying1,FAN Xiao-chun2
(1.Key L aboratory of V irtua l Geography Environment,N anjing N orm a l University,M inistry of Education, N anjing 210046;2.Center of Earthquake M onitoring and Early W arning of N anjing,N anjing 210008,China)
The toponymic information includes p lace names,geographic named entity and spatial info rmation,and exp resses the history,culture,customs and so on.It has w ide resources,regional differences and changes w ith time.Besides,it is effected by Chinese traditional culture,long histo ry and contains abundant spatial-temporal information.However,most of the toponym databases have their disadvantages in rep resenting the toponym information,the spatial-tempo ral information,the diversity such as the descrip tion extension,comp leteness,co rrectness,granularity,balance and richness have been igno red,and there is no standardization on the fo rmats.Based on the analysisof toponymic and relevant information,a spatial-temporal toponym database content standard is designed in this paper.Its structure and datum o rganization are also included.This research will help toponym databases to expand their app lication service on public health,natural histo ry data management,cultural histo ry,and automated geo referencing of text.
Chinese toponym;spatial-temporal info rmation;integration of exp ression
P208
A
1672-0504(2010)06-0006-05
2010-04-19;
2010-10-06
李金良(1984-),男,碩士研究生,主要研究方向?yàn)榭臻g數(shù)據(jù)挖掘和地理信息系統(tǒng)。*通訊作者E-mail:zhangsnowy@163.com