周 海,杜澤欣,范瑞杰,馬雷雷,梁汝鵬
(1.信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450001;2.西安測繪總站,陜西 西安 710054;3.61206部隊,北京 100042)
?
空間關(guān)系地址模型及其表達(dá)模式分析
周海1,2,杜澤欣1,范瑞杰3,馬雷雷1,梁汝鵬1
(1.信息工程大學(xué) 地理空間信息學(xué)院,河南 鄭州 450001;2.西安測繪總站,陜西 西安 710054;3.61206部隊,北京 100042)
摘要:地址模型是進(jìn)行地址解析和地址匹配的基礎(chǔ)。針對非規(guī)范中文地址,在層級地址模型、有限自動機(jī)模型的基礎(chǔ)上,提出空間關(guān)系地址模型,并分析該模型的優(yōu)勢;闡述空間關(guān)系地址模型的結(jié)構(gòu),分析地址中空間關(guān)系的表達(dá),將地址中的空間關(guān)系劃分為包含關(guān)系、相交關(guān)系、模糊偏移關(guān)系、方向關(guān)系和距離關(guān)系;按照該模型設(shè)計相應(yīng)的地址標(biāo)注體系和規(guī)范,對按照該規(guī)范標(biāo)注的地址標(biāo)注語料進(jìn)行基于HashTable地址模型樹統(tǒng)計分析,分析顧及空間關(guān)系的中文地址的常用表達(dá)模式。
關(guān)鍵詞:空間關(guān)系地址模型;地址模式;中文地址;哈希表
地理編碼(GeoCoding),又稱地址匹配,是將文字描述的地址信息映射到地理空間坐標(biāo)系中的過程[1-3]。通過地理編碼可以將一系列城市生活中的社會經(jīng)濟(jì)信息空間化,以便在空間信息支持下進(jìn)行資源整合、共享、空間分析和決策應(yīng)用。地理編碼首先需要確定地址模型,中文地址模型是中文地址的地址要素構(gòu)成及地址模式。地址模式[4]是地址要素構(gòu)成地址的規(guī)則,其定義地址由何種地址成分組成,地址成分先后的銜接順序如何。地址模型是進(jìn)行地址解析和地址匹配的基礎(chǔ),因此地址模型研究和地址表達(dá)模式分析是地理編碼研究的重要內(nèi)容之一。
1研究背景
在國外,城市建設(shè)重視地址規(guī)劃,尤其重視路網(wǎng)和門牌號,使路網(wǎng)結(jié)合門牌號的地址編碼使用方式十分普遍和便利。而在國內(nèi),由于中文地名、地址體系異常復(fù)雜,地名混亂、無序,缺乏規(guī)律性和統(tǒng)一的標(biāo)準(zhǔn),使得國外地址模型無法直接應(yīng)用于我國。鑒于日文和中文語言處理時的相似性,謝小蕙[1]借鑒日本地址模型依據(jù)Trie樹與地址樹的模型進(jìn)行了中文地理編碼研究,其采用的地址樹模型實際就是層級模型。2004年李軍提出的層級地址模型是目前最常用的中文地址模型,許多研究中地址模式都從層級模型的基礎(chǔ)上歸納,并在此基礎(chǔ)上構(gòu)建地址匹配算法[5-6]。以“鄭州市科學(xué)大道62號”為示例,層次模型表達(dá)如圖1所示。
圖1 地址層級樹狀模型示例
由于在非規(guī)范中文地址中,同一地址可能存在不同描述方式,如地址“鄭州市高新區(qū)科學(xué)大道62號”也可描述為“鄭州市科學(xué)大道62號”。為了適應(yīng)這一情況,便產(chǎn)生了地址有限狀態(tài)機(jī)模型[4,7]。地址有限狀態(tài)機(jī)模型是一個特殊的有向圖(見圖2),包含一些狀態(tài)(節(jié)點為地址要素)和連接這些狀態(tài)的有向弧,狀態(tài)轉(zhuǎn)移即各類地址要素。中文地址有限狀態(tài)機(jī)模型中,開始節(jié)點到終止?fàn)顟B(tài)的一條路徑就是一種地址描述,如上述地址的兩種描述方式分別對應(yīng)狀態(tài)機(jī)中,“開始→市→區(qū)縣→街道→號”和“開始→市→街道→號”兩條路徑。
圖2 地址有限狀態(tài)機(jī)模型
有限狀態(tài)機(jī)模型的缺點是忽略了地址要素之間的空間關(guān)系。日常使用的某些非規(guī)范中文地址包含了空間關(guān)系信息,如信息工程大學(xué)的地址被表述為“鄭州市瑞達(dá)路與科學(xué)大道交叉口向東200 m路北”,不僅包含了地址要素“鄭州市”、“科學(xué)大道”、“瑞達(dá)路”,還包括相交關(guān)系“交叉口”,距離關(guān)系“200 m”和方向關(guān)系“路北”,其結(jié)構(gòu)如圖3所示。
圖3 城市地址中的空間關(guān)系
宋子輝[8]提出空間關(guān)系地址模型的概念,并指出中文非規(guī)范地址中存在包含、相鄰、鄰接、方位及距離五種空間關(guān)系。由于地址的特點,這種劃分并不能完全適應(yīng)地址尺度、空間關(guān)系建模及匹配算法的要求,也沒有給出空間關(guān)系地址模型的標(biāo)注規(guī)范。于煥菊[9]以院落為主體,分析了其內(nèi)部建筑、周圍興趣點以及相鄰街道間存在的包含關(guān)系、鄰近及關(guān)聯(lián)關(guān)系,并通過給院落門牌號增加主副屬性來解決一院多址問題,但沒有全面對各類地址要素之間拓?fù)潢P(guān)系、方向關(guān)系和距離關(guān)系進(jìn)行詳細(xì)分析。
本文結(jié)合鄧敏[10]對自然語言空間關(guān)系的分析,對空間關(guān)系地址模型進(jìn)行了深入分析,詳細(xì)研究了地址中空間關(guān)系表達(dá),設(shè)計空間關(guān)系地址模型的標(biāo)注體系。此外,為了將非規(guī)范中文地址中的空間關(guān)系運用到地址匹配定位中,需要對其地址表達(dá)模式進(jìn)行分析。本文針對中文地址語料進(jìn)行了基于哈希樹的地址模型樹統(tǒng)計分析,挖掘人們?nèi)粘J褂玫刂返谋磉_(dá)模式。
2空間關(guān)系地址模型
空間關(guān)系地址模型克服了層級傳統(tǒng)地址模型的缺陷,針對非規(guī)范化中文地址,不僅包含了地址中各種地址要素和銜接順序,還包括了地址要素之間顯式或隱式表達(dá)的空間關(guān)系。該模型下中文地址包含了地址要素(行政區(qū)劃、道路、門牌號、興趣點等)、地址空間關(guān)系指示詞及其他成分。在層級模型和有限自動機(jī)模型中,通常僅涉及地址要素,地址要素之間的空間關(guān)系被忽略或僅作為附屬成分,無法直接利用。空間關(guān)系地址模型認(rèn)為,地址的功能是空間定位,空間關(guān)系是空間定位目標(biāo)的一種空間約束,能夠被用來確定位置,以減少定位時空間計算的復(fù)雜性和計算量,加快空間查詢速度。在地址匹配時,還可以使用空間關(guān)系進(jìn)行推理,以增強(qiáng)地理編碼準(zhǔn)確性。
地址中的地址要素對應(yīng)空間上的地理實體,因此地址中地址要素間的空間關(guān)系對應(yīng)于地理實體之間的空間關(guān)系。此外由于地址是自然語言的子集,采用自然語言描述,地址中的空間關(guān)系還是一種自然語言空間關(guān)系。為便于地址中空間關(guān)系建模和地址匹配定位,地址中空間關(guān)系劃分不僅要考慮自然語言表達(dá)的特點,還要考慮地址空間關(guān)系建模量化的可行性。文獻(xiàn)[10]將自然語言中的空間關(guān)系分為包含、相鄰、鄰接、方位及距離,文獻(xiàn)[11]將自然語言中的空間關(guān)系歸納為空間拓?fù)潢P(guān)系、空間方位關(guān)系、空間度量關(guān)系及潛在的自然語言空間關(guān)系,并指出空間關(guān)系的描述模式為“[前綴]+空間詞匯+[后綴]”。但這些劃分并不能完全適應(yīng)地址尺度、地址空間關(guān)系建模及匹配算法的要求。
地址中的空間關(guān)系與觀察尺度密切相關(guān)。隨著觀察尺度的變化,空間目標(biāo)形態(tài)也發(fā)生著變化。如居民小區(qū)在大比例下被認(rèn)為是面要素,而在小比例尺下被認(rèn)為是點要素。這使道路與居民小區(qū)之間的空間關(guān)系在大比例尺下是一種面/線相鄰關(guān)系,而在小比例尺中是一種點/線包含關(guān)系。另外,由于觀察者認(rèn)知的不同和數(shù)據(jù)本身原因,空間關(guān)系還存在不確定性,如道路與其兩側(cè)的門牌號既可以認(rèn)為是一種相鄰關(guān)系也可以認(rèn)為是一種包含關(guān)系。
本文綜合考慮以上因素,認(rèn)為地址是一種較為微觀的定位點,其尺度大約在1∶1 000比例上,該尺度能夠滿足大部分應(yīng)用需要。因此可以將地址中空間關(guān)系按照拓?fù)潢P(guān)系、方向關(guān)系和距離關(guān)系劃分為三種,考慮地址空間關(guān)系建模,拓?fù)潢P(guān)系則分為包含關(guān)系、相交關(guān)系和模糊偏移關(guān)系。
2.1拓?fù)潢P(guān)系
在許多研究中,將拓?fù)潢P(guān)系分為相交、相鄰、包含、被包含、相離、覆蓋、被覆蓋和相等8種[10]。而地址自然語言描述中,空間拓?fù)潢P(guān)系的劃分跟語言模型和空間認(rèn)知有關(guān),為便于建模,本文將地址中的拓?fù)潢P(guān)系分為包含關(guān)系、相交關(guān)系和模糊偏移關(guān)系。
圖4 地址中的拓?fù)浒P(guān)系
1)包含關(guān)系。包含關(guān)系是地址描述最常見、最普遍的空間關(guān)系(見圖4)。包含關(guān)系體現(xiàn)在:線包含點,道路包含了興趣點、門牌號等;面包含點,如興趣點、居民小區(qū)包含了單元號、樓層號等;線包含線,如道路包含了路段(隴海路包含了隴海中路);面包含線,如城市包含了道路;面包含面,如不同級行政區(qū)之間的所屬關(guān)系,省包含地級市、市包含區(qū)縣、區(qū)縣包含鄉(xiāng)鎮(zhèn)等。地址中的包含關(guān)系一般隱含在地址要素之間,不通過空間關(guān)系謂詞顯式表達(dá)。需要指出,地址中經(jīng)常出現(xiàn)某個地址點位于某個小區(qū)、院落內(nèi),如“鄭州市晨旭路銀監(jiān)局院內(nèi)”,由于“銀監(jiān)局”已是興趣點地址要素,因此本文將“院內(nèi)”這類表述劃分到模糊偏移關(guān)系中。
2)相交關(guān)系。地址中的相交關(guān)系體現(xiàn)在:線/線相交如道路與道路交叉相連(如地址“鄭州市科學(xué)大道與瑞達(dá)路交叉口”);線/面相交關(guān)系如道路穿過面狀地址要素;面/面相交在地址表達(dá)中不常見。地址中最常見的是道路的交叉口地址,通常表達(dá)成“道路名+道路名+交叉口”、“道路名+并列連詞+道路名+交叉口”等形式(見圖5)。
圖5 地址中拓?fù)湎嘟魂P(guān)系
3)模糊偏移關(guān)系。地址中的模糊偏移關(guān)系包含了地址中的模糊相鄰關(guān)系和相離關(guān)系(見圖6)。地址中相鄰關(guān)系如面狀地址點之間,道路交叉口與興趣點;相離關(guān)系如興趣點與另一興趣點,一個區(qū)縣與另一區(qū)縣內(nèi)興趣點,兩條平行的道路,不相鄰的區(qū)縣等(后三種不常見)。
圖6 地址中模糊相離(相鄰)關(guān)系
地址中相離關(guān)系一般不會用“某地址與另一地址相離”來進(jìn)行描述,這樣的地址無法定位,因此通常將兩個地址點相鄰表達(dá)成一種空間偏移關(guān)系。偏移分為精確偏移和模糊偏移。精確偏移指定了方向和距離,如“科學(xué)大道信息工程大學(xué)向東100 m”,這與包含方向的相鄰關(guān)系(如“信息工程大學(xué)東側(cè)”),都可以采用方向和距離關(guān)系來表達(dá)。模糊偏移未指定方向和距離,一般通過“附近”、“旁邊”、“周圍”等模糊偏移關(guān)鍵詞來表達(dá)。
2.2方向關(guān)系
地址中的方向關(guān)系實際是一種自然語言中的方向偏移關(guān)系,指在一定參考框架下,從一個空間目標(biāo)到另一個空間目標(biāo)的指向,包含參考框架、參考目標(biāo)和源目標(biāo)3個基本要素[10]。地址中的方向關(guān)系是根據(jù)人類空間認(rèn)知經(jīng)驗、意象或觀念通過自然語言表達(dá)出來,是地址要素之間的方向關(guān)系,如信息工程大學(xué)地址可以表述為“鄭州市科學(xué)大道丹尼斯北側(cè)”(見圖7),其中參考目標(biāo)為“丹尼斯”,源目標(biāo)為“信息工程大學(xué)”,該地址采用絕對參考框架,即以地球表面作為參考框架。還有一種參考框架為相對參考框架,表達(dá)相對方向關(guān)系地址,如上述地址還可表述為“鄭州市科學(xué)大道丹尼斯對面”。由于相對參考框架描述的方向表達(dá)起來比較復(fù)雜,且地址匹配過程中使用其進(jìn)行推理比較困難,因此本文將相對參考框架描述的空間方向劃歸到模糊偏移關(guān)系中,通常采用“對面”、“左側(cè)”、“后面”等關(guān)鍵詞進(jìn)行表述。在地址空間方向關(guān)系中只對絕對參考框架描述的方向關(guān)系進(jìn)行分析,由于地址中的絕對方向主要只有8中,每種絕對方向關(guān)系可以用一個方位角來描述。東、西、南、北、東北、東南、西南、西北的八個方位角對應(yīng)為0、π、3π/2、π/2、π/4、7π/4、5π/4、3π/4。除了空間目標(biāo)之間有空間方向關(guān)系,空間目標(biāo)內(nèi)部的不同部分也有空間關(guān)系,延展性空間目標(biāo)本身也有空間方位(方向),道路經(jīng)常使用“中段”、“西段”、“南段”等進(jìn)行描述。
圖7 地址中的方向關(guān)系示例
2.3距離關(guān)系
地址中的距離空間關(guān)系是地址要素之間的距離度量。地址中空間距離關(guān)系分為定性描述和定量描述兩種。定性描述距離可以認(rèn)為是模糊距離關(guān)系,可以通過“程度副詞+遠(yuǎn)(近)”來表述。為了便于建模,將模糊空間相離、相鄰關(guān)系及相對方向關(guān)系也劃分到模糊距離中(如周圍、附近、旁邊、對面等),統(tǒng)一用空間模糊偏移關(guān)系來表達(dá)。本文僅對地址中的定量距離關(guān)系建模,采用“長度+長度單位”的方式來精確表達(dá)。長度描述詞匯存在大寫小寫,因此地址匹配前需要轉(zhuǎn)換,常用的長度度量單位包括了m、km等。如圖8所示,地址“鄭州市科學(xué)大道62號向東200 m”中,“200 m”為距離偏移,其中“100”為長度,“m”為單位。
圖8 地址中的空間距離關(guān)系示例
3空間關(guān)系地址模型的標(biāo)注體系
地址解析將非結(jié)構(gòu)化的中文地址拆分為地址要素并確定了地址要素的類型,地址標(biāo)注可以作為地址解析結(jié)果的表示形式。如“鄭州市科學(xué)大道62號”標(biāo)注后為“鄭州市[CITY]科學(xué)大道[ROAD]62號[BNO]”。地址標(biāo)注體系是將地址模型扁平化,地址標(biāo)注體系要涵蓋地址語句中的所有成分。與漢語語句中的句子成分一樣,在地址中也有地址成分。地址標(biāo)注體系的劃分是根據(jù)詞匯在地址中所擔(dān)任的成分和含義來進(jìn)行劃分的。
文獻(xiàn)[4]針對層級地址模型設(shè)計了相應(yīng)的標(biāo)注體系,其標(biāo)注體系僅包含了8類地址要素,僅符合較為規(guī)范的層級地址。張雪英[12-13]設(shè)計了中文文本的地理命名實體和地理空間關(guān)系標(biāo)注體系,但并不能涵蓋非規(guī)范地址的所有成分及要求。本文地址標(biāo)注體系在參照現(xiàn)有地址要素劃分體系的基礎(chǔ)上,增加了地址中空間關(guān)系關(guān)鍵詞、并列連詞以及標(biāo)點符號等其他成分,以滿足非規(guī)范地址的結(jié)構(gòu)化要求。參照《地名地址標(biāo)注規(guī)范》,本文將地址成分分為3大類,地址要素類、空間關(guān)系類和其他成分類。地址要素類包括了省份、城市、區(qū)縣、街道辦事處、行政村(社區(qū)、居委會)、居民小區(qū)、道路(街巷)、門牌號(樓牌號、樓層、單元號等)、興趣點,其中興趣點可以是地理實體的名稱,也可以是具有代表性的地址點,如“嵩山路環(huán)城高速入口”;空間關(guān)系類包括了相交關(guān)鍵詞(如“交叉口”)、模糊偏移關(guān)鍵詞(如“旁邊”)、包含關(guān)系關(guān)鍵詞、方向關(guān)鍵詞及距離關(guān)鍵詞;其他成分是并列連詞、標(biāo)點符號及地址中的無用成分。該分類標(biāo)注體系如表1所示。
表1 地址標(biāo)注體系分類及其標(biāo)識對應(yīng)表
4基于hash表的地址模式統(tǒng)計分析
4.1基本原理
地址匹配首先要確定地址的表達(dá)模式,因此分析地址表達(dá)模式具有十分重要的意義。顧及空間關(guān)系詞匯的地址表達(dá)模式仍然可以看做是有限狀態(tài)機(jī),這時有限狀態(tài)機(jī)有向圖中的每一個節(jié)點對應(yīng)于地址標(biāo)注中的各成分,既可以是地址要素也可以是空間關(guān)系詞匯。但一般不考慮標(biāo)點符號和無意義成分。文獻(xiàn)[14]中通過關(guān)聯(lián)規(guī)則Apriori算法統(tǒng)計前后地址要素的出現(xiàn)概率來構(gòu)建高頻地址要素組,再利用有限自動機(jī)的方法通過構(gòu)建地址要素遷移表,進(jìn)而抽象出地址模型。但在地址有向圖中,多條地址路徑匯合之后其剩余路徑便合并了,因此無法全面反映各條地址路徑的概率。為此,本文的解決方法是將地址有向圖生成一顆完全生成樹,然后利用地址標(biāo)注語料統(tǒng)計每一條分支路徑的(即一種地址模式)概率,記錄每個節(jié)點的計數(shù),對地址表達(dá)模式進(jìn)行統(tǒng)計識別。其原理如下:
依次從地址語料庫中讀入每一條地址序列,如“鄭州市[CITY]科學(xué)大道[ROAD]62號[BNO]”;然后獲取其標(biāo)注序列(即地址成分序列),如“[CITY]-[ROAD]-[BNO]”;最后以標(biāo)注值作為節(jié)點構(gòu)建一個樹,并在每個節(jié)點賦予經(jīng)過該節(jié)點的計數(shù)(見圖9)。在這棵樹中每一條路徑代表一種地址表達(dá)模式,如“City-Road-And-Road-Junk”代表“城市名+道路名+并列連詞+道路名+交叉口關(guān)鍵詞”的地址表達(dá)模式。每個節(jié)點中的數(shù)字代表樣本地址中行進(jìn)至該節(jié)點的計數(shù),如上述模式中節(jié)點Junk的計數(shù)為109,表示樣本中“城市名→道路名→并列連詞→道路名→交叉口關(guān)鍵詞”模式地址的計數(shù)為109。這樣計數(shù)越大的節(jié)點表示從根節(jié)點行至該節(jié)點的地址越多,即這種地址模式在日常使用時越多。
圖9 地址模式樹
4.2基于hash表的地址模式統(tǒng)計算法
基于統(tǒng)計的地址模式構(gòu)建算法主要借助于C#中HashTable結(jié)構(gòu),利用哈希表構(gòu)建哈希樹,在樹的每一個節(jié)點存儲了經(jīng)過該節(jié)點的次數(shù)。
輸入:地址標(biāo)注語料庫所有記錄lines,其中每行為一條標(biāo)注語料;
輸出:地址哈希樹hash,每一節(jié)點增加“NCount”子節(jié)點存儲該節(jié)點的計數(shù)。
算法如下:
(1)定義哈希表hash并初始化,定義哈希表hash1=null;
(2)將hash賦給hash1,依次從Lines中讀取一行l(wèi)ine,line的結(jié)構(gòu)如“鄭州市[CITY]科學(xué)大道[ROAD]62號[BNO]”,通過空格將line分割成string型的數(shù)組item;
(3)依次從item取出一個元素item[i],其結(jié)構(gòu)如“鄭州市[CITY]”,通過字符串截取獲得地址成分term和成分標(biāo)注tag,如term=“鄭州市”,tag=“CITY”;
(4)判斷hash1中是否包含鍵tag,如果不包含則執(zhí)行hash1.Add(tag,new Hashtable())并繼續(xù)(5),否則繼續(xù)(5);
(5)hash1 = (Hashtable)hash1[tag],判斷hash1是否包含鍵“NCount”,是則將鍵“NCount”的Value計數(shù)+1;否則執(zhí)行hash1.Add(“NCount”,1);
(6)判斷item[i]是否為item最后一個元素,如果否執(zhí)行(3);否則執(zhí)行(7);
(7)判斷l(xiāng)ine是否是標(biāo)注語料集的最后一行,不是則執(zhí)行(2);否則執(zhí)行(8);
(8)返回hash并結(jié)束。
4.3地址模式統(tǒng)計實驗
實驗采用鄭州市5979條百度興趣點地址語料,地址語料按照空間關(guān)系地址模型的標(biāo)注體系標(biāo)注。地址標(biāo)注語料結(jié)構(gòu)如“鄭州市[CITY]科學(xué)大道[ROAD]62號[BNO]”,如圖10所示。
圖10 地址語料庫截圖
為實現(xiàn)較好的可視化效果,將生成的Hashtable借助TreeView進(jìn)行可視化顯示,地址模式樹顯示的層數(shù)為7層。結(jié)果如圖11所示。
圖11 地址模式樹統(tǒng)計結(jié)果可視化效果
分析門牌號、興趣點及標(biāo)志物級別以上的地址要素發(fā)現(xiàn),計數(shù)較多的地址路徑主要有以下幾類:
1)“City-County-Road-BNO”、“Road-BNO”、“City-Road-POI”、“City-County-Road-BNO-POI”、“City-County-Road-POI”等,這類地址為層級模式地址,可以用地址有限狀態(tài)機(jī)來表達(dá);
2)“City-Road-And-Road-Junk”、“City-County-Road-And-Road-Junk”、“Road-And-Road-Junk”、“Road-And-Road-Junk”等,這類地址對應(yīng)道路交叉口模式地址,這說明日常生活中通過兩條道路的交叉口來描述地址點位置也十分普遍;
3)“City-County-Road-POI-ORI-DIS”、“Road-And-Road-Junk-ORI”、“City-Road-And-Road-Junk-ORI-DIS”、“City-County-Road-POI-Beside”等,這類地址在上述兩類地址基礎(chǔ)上增加了地址偏移成分,包括精確偏移(“ORI”+“DIS”)和模糊偏移(“Beside”)兩種。
5結(jié)論
空間關(guān)系地址模型與其他地址模型相比,包含地址中地址要素之間的空間關(guān)系。文中將地址中的空間關(guān)系歸納為包含關(guān)、相交、模糊偏移、方向和距離關(guān)系,以適應(yīng)地址中空間關(guān)系建模。在這基礎(chǔ)上,本文設(shè)計的地址標(biāo)注能夠很好地適應(yīng)地址空間關(guān)系表達(dá)需要。最后本文利用基于hash表的地址模式統(tǒng)計算法對地址語料庫進(jìn)行分析,實驗結(jié)果證明,該統(tǒng)計方法能夠清晰反映日常地址的使用模式,為下一步地址解析與匹配奠定基礎(chǔ)。此外若將地址模式樹的節(jié)點改存地址序列本身及其計數(shù),則可以構(gòu)建起地址語料的地址樹,并進(jìn)行區(qū)域地址構(gòu)成分析研究,以輔助地址標(biāo)準(zhǔn)化。后續(xù)研究中,將在空間地址模型的基礎(chǔ)上利用隱馬爾科夫模型、條件隨機(jī)場模型等統(tǒng)計方法進(jìn)行地址解析,設(shè)計顧及地址空間關(guān)系的地址匹配算法。
參考文獻(xiàn):
[1]謝小蕙.地理編碼原理及方法研究[D].長沙:中南大學(xué),2006.
[2]李軍,李琦,毛東軍,等.北京市地理編碼數(shù)據(jù)庫的研究[J].計算機(jī)工程與應(yīng)用,2004,40(2):1-3.
[3]楊柳.空間數(shù)據(jù)全文檢索方法研究[J].測繪工程,2012,22(6):8-12.
[4]蔣文明,張雪英,李伯秋.基于條件隨機(jī)場的中文地址要素識別方法[J].計算機(jī)工程與應(yīng)用,2010,46(13):129-131.
[5]莊海東,張鴻恩.基于規(guī)則的中文地址匹配系統(tǒng)[J].福建電腦,2013,29(9):130-132.
[6]郭會,宋關(guān)福,馬柳青,等.地理編碼系統(tǒng)設(shè)計與實現(xiàn)[J].計算機(jī)工程,2009,35(1):250-252.
[7]吳軍.數(shù)學(xué)之美[M].北京:人民郵電出版社,2012.
[8]宋子輝.自然語言理解的中文地址匹配算法[J].遙感學(xué)報,2013,17(4):795-801.
[9]于煥菊,李云嶺,齊清文.顧及實體空間關(guān)系的地址編碼方法研究[J].地理與地理信息科學(xué),2013,29(5):49-52.
[10] 鄧敏.空間關(guān)系理論與方法[M].北京:科學(xué)出版社,2012.
[11] 張雪英,閭國年,李伯秋,等.基于規(guī)則的中文地址要素解析方法[J].地球信息科學(xué)學(xué)報,2010,9(6):77-81.
[12] 張雪英,張春菊,朱少楠.中文文本的地理空間關(guān)系標(biāo)注[J].測繪學(xué)報,2012,41(3):468-474.
[13] 張雪英,朱少楠,張春菊.中文文本的地理命名實體標(biāo)注[J].測繪學(xué)報,2012,41(1):115-120.
[14] 朱俊.中文標(biāo)準(zhǔn)地址庫構(gòu)建關(guān)鍵技術(shù)研究[D].南京:南京師范大學(xué),2013.
[15] 胡克新,張求喜,岳淑英.地籍空間對象拓?fù)潢P(guān)系一致性研究[J].測繪與空間地理信息,2015,38(9):115-118.
[16] 周琳,景海濤,賈中星,等.基于GIS的族譜空間信息查詢與可視化研究[J].測繪工程,2015,24(9):48-52.
[17] 施群山,呂亮,藍(lán)朝楨,等.基于特征的空間態(tài)勢一體化數(shù)據(jù)模型[J].測繪工程,2015,24(8):5-7.
[18] 陳換新,孫群,劉雅彬,等.空間數(shù)據(jù)研究的發(fā)展及對策[J].測繪工程,2015,24(2):10-14.
[責(zé)任編輯:路曉鴿]
Address model based on spatial-relation and Its analysis of expression patternsZHOU Hai1,2,DU Zexin1,F(xiàn)AN Ruijie3,MA Leilei1,LIANG Rupeng1
(1.School of Geospatial Information,Information Engineering University,Zhengzhou 450001,China;2.Xi’an station of surveying and mapping,Xi’an 710054,China;3.61206 Troops Beijing 100042,China)
Abstract:Address model is basis of address parsing and address matching.This paper proposes an address model based on spatial-relation and its annotation system,then analyzes its structure and advantage.Spatial-relation of address is divided into five categories:containing,intersection,fuzzy-offset,direction,and distance.Finally a new method of analyzing address statistics based on HashTable is proposed,which is used to build the address-patterns tree to analyze the commonly-used expression-patterns of Chinese address.
Key words:address model based on spatial-relation;Patterns of address;HashTable
中圖分類號:P208
文獻(xiàn)標(biāo)識碼:A
文章編號:1006-7949(2016)05-0025-07
作者簡介:周海(1989-),男,碩士研究生.
基金項目:國家自然科學(xué)基金資助項目(41401463);河南省科技攻關(guān)計劃資助項目
收稿日期:2015-04-14;修回日期:2015-10-08