◎ 戰(zhàn)略支援部隊(duì)信息工程大學(xué) 葛磊 劉海硯 楊瑞杰
隨著網(wǎng)絡(luò)信息資源的不斷豐富,基于網(wǎng)絡(luò)實(shí)現(xiàn)對地理實(shí)體目標(biāo)信息的快速采集和更新成為可能。本文根據(jù)地理實(shí)體相關(guān)信息的分布和結(jié)構(gòu)特點(diǎn),對現(xiàn)有地理目標(biāo)位置數(shù)據(jù)的獲取方法進(jìn)行了分析,提出了通過屬性歸一化、基于規(guī)則匹配抽取半結(jié)構(gòu)化地理目標(biāo)屬性和基于弱監(jiān)督的條件隨機(jī)場模型抽取非結(jié)構(gòu)化文本中地理目標(biāo)屬性的方法,并針對多源地理目標(biāo)數(shù)據(jù)的不一致問題提出了數(shù)據(jù)融合處理的一般方法。
隨著“互聯(lián)網(wǎng)+”概念的提出,網(wǎng)絡(luò)已經(jīng)作為社會的基礎(chǔ)設(shè)施成為人類生活中不可分割的一部分。隨著各種傳統(tǒng)行業(yè)、服務(wù)行業(yè)與互聯(lián)網(wǎng)的深度結(jié)合,互聯(lián)網(wǎng)集聚了各行各業(yè)的信息資源,已成為人類各種信息的主要來源。然而,互聯(lián)網(wǎng)上的原始數(shù)據(jù)都是非結(jié)構(gòu)化或者半結(jié)構(gòu)化的,不能直接作為地理信息產(chǎn)品使用,如何快速準(zhǔn)確獲取結(jié)構(gòu)化的地理實(shí)體目標(biāo)數(shù)據(jù)仍面臨著許多挑戰(zhàn)。
地理空間數(shù)據(jù)獲取的主要手段是Web爬蟲技術(shù),即根據(jù)給定的一個(gè)網(wǎng)頁,通過對網(wǎng)頁中的鏈接進(jìn)行解析發(fā)現(xiàn)其他網(wǎng)頁,然后不斷進(jìn)行迭代爬取,直到完成對所有相關(guān)網(wǎng)頁的爬取。另一類信息獲取技術(shù)是利用一些專業(yè)網(wǎng)站提供的Web開發(fā)接口或者服務(wù)接口獲取特定類型的數(shù)據(jù),這類數(shù)據(jù)通常質(zhì)量較高,數(shù)據(jù)結(jié)構(gòu)良好,比較適合專業(yè)數(shù)據(jù)的獲取。地理空間數(shù)據(jù)獲取主要包括位置數(shù)據(jù)和屬性數(shù)據(jù)的獲取。
位置數(shù)據(jù)獲取方面,目前基于Web的地理信息獲取研究較多,大多集中在對地理實(shí)體位置數(shù)據(jù)的獲取,還存在數(shù)據(jù)獲取不完整、數(shù)據(jù)損失和數(shù)據(jù)冗余等問題,數(shù)據(jù)的準(zhǔn)確度和數(shù)據(jù)結(jié)構(gòu)的完整性不能保證,同時(shí)對多源數(shù)據(jù)的融合和統(tǒng)一轉(zhuǎn)換問題的研究仍相對較少。
屬性數(shù)據(jù)獲取方面,MUC(消息理解會議,Message Understanding Conference)系列會議通過具體的任務(wù)進(jìn)行信息抽取并建立了嚴(yán)格的評價(jià)體系對各個(gè)抽取系統(tǒng)進(jìn)行評測,逐漸完善了基于模板和規(guī)則的信息抽取方案,形成了一套面向領(lǐng)域、基于規(guī)則的信息抽取體系,同時(shí)形成了一套完善的信息抽取結(jié)果評價(jià)指標(biāo)體系。中文信息抽取的研究開始較晚,另外由于中文和英語在母單詞、語法和語義基本單元差別,使很多英文信息抽取方法不能直接應(yīng)用于中文信息抽取。當(dāng)前中文信息抽取在命名實(shí)體識別的基礎(chǔ)上向關(guān)系抽取、關(guān)聯(lián)抽取、屬性抽取等更深層次發(fā)展。中文信息抽取系統(tǒng)目前仍集中在簡單任務(wù)方面,國內(nèi)學(xué)者采用規(guī)則匹配、機(jī)器學(xué)習(xí)等方法對文本信息的抽取進(jìn)行了研究,其中,中科院的ICTCLAS和北大的會議新聞抽取系統(tǒng)實(shí)現(xiàn)了對簡單文本信息的準(zhǔn)確抽取,但完善的中文信息抽取系統(tǒng)尚未成型。
POI(Point of Interest,興趣點(diǎn))是空間信息數(shù)據(jù)最鮮活的“血液”,它通常代表的是一類真實(shí)的地理實(shí)體。互聯(lián)網(wǎng)信息冗雜,高質(zhì)量的地理信息網(wǎng)站是獲取高質(zhì)量數(shù)據(jù)的最佳來源。百度地圖和高德地圖擁有豐富的國內(nèi)POI資源,并且提供了較為完善的開發(fā)接口,國外開源地圖OSM(Open Street Map)數(shù)據(jù)完全開放,歐洲、北美等地區(qū)的數(shù)據(jù)較為豐富。因此,位置數(shù)據(jù)獲取中國內(nèi)數(shù)據(jù)主要基于百度地圖和高德地圖數(shù)據(jù)進(jìn)行抽取,境外數(shù)據(jù)的獲取將OSM作為數(shù)據(jù)源。
抽取百度地圖POI信息可利用百度地圖JavaScript API的服務(wù)類接口。百度地圖提供的開放接口是有限制的,通過檢索半徑和檢索關(guān)鍵詞限制單次大規(guī)模下載POI數(shù)據(jù)。針對檢索半徑的限制問題,采用多線程思想對任務(wù)區(qū)域進(jìn)行分割,逐塊對每個(gè)任務(wù)區(qū)域進(jìn)行處理,最后將各任務(wù)區(qū)域獲取的數(shù)據(jù)合并,在避免檢索半徑限制的同時(shí)能夠提高任務(wù)處理效率。檢索關(guān)鍵詞限制主要包括單次檢索關(guān)鍵詞數(shù)量的限制和所選關(guān)鍵詞檢索數(shù)據(jù)的完整性限制。單次檢索關(guān)鍵詞數(shù)量限制可通過多次構(gòu)建任務(wù)分批進(jìn)行檢索。針對所選關(guān)鍵詞檢索的數(shù)據(jù)完整性限制,可采用兩種解決方法。一種是使用其提供的GeocoderResult.surroundingPois接口直接獲取數(shù)據(jù),該接口不需要提供關(guān)鍵詞,但獲取數(shù)據(jù)的屬性信息缺失較多;第二種是利用LocalSearch接口提供關(guān)鍵詞檢索。采用“美食”“酒店”“購物”等17個(gè)關(guān)鍵詞對鄭州地區(qū)某一區(qū)域進(jìn)行了數(shù)據(jù)抽取實(shí)驗(yàn),得到POI數(shù)量707個(gè),爬全率為96.717%,數(shù)據(jù)的完整性較好。百度地圖POI的獲取流程如圖1所示。
與百度地圖POI數(shù)據(jù)抽取相比,高德地圖提供的POI數(shù)據(jù)接口只有基于關(guān)鍵詞的周邊搜索方法AMap.PlaceSearch。高德地圖數(shù)據(jù)接口對單次檢索所選關(guān)鍵詞的數(shù)量沒有限制,主要在于單次檢索半徑的限制和檢索關(guān)鍵詞所獲取POI數(shù)據(jù)完整性限制。單次檢索半徑的限制同樣可利用百度POI獲取中的多線程方法進(jìn)行處理。檢索關(guān)鍵詞的選取可參照高德地圖POI分類標(biāo)準(zhǔn),選擇“汽車服務(wù)”“餐飲服務(wù)”“購物服務(wù)”“生活服務(wù)”等23個(gè)關(guān)鍵詞分別進(jìn)行數(shù)據(jù)檢索。經(jīng)對比自動(dòng)檢索與人工檢索、實(shí)地驗(yàn)證相結(jié)合,對鄭州某一區(qū)域POI數(shù)據(jù)檢索的結(jié)果如圖2所示,POI總數(shù)744個(gè),綜合爬全率96.373%,抽取數(shù)據(jù)的完整程度較為可靠。
OSM旨在建立一個(gè)任何人都可以編輯的全球地理數(shù)據(jù)庫,該數(shù)據(jù)庫由Steve Coast在2004年7月建立。近年來,OSM數(shù)據(jù)量增長迅速,截至2014年3月1日,OSM數(shù)據(jù)量的總體情況為:GPS數(shù)據(jù)點(diǎn)總共3,829,201,844個(gè),節(jié)點(diǎn)數(shù)量2,223,977,668個(gè),路徑數(shù)量219,537,496個(gè),關(guān)系數(shù)量2,406,517條,參與編輯的總用戶數(shù)量1,528,868個(gè)。OSM將地理實(shí)體分為30個(gè)要素類,每個(gè)類根據(jù)標(biāo)簽的key和value分為若干小類。
從OSM中抽取POI要素的常用方法是直接將OSM數(shù)據(jù)轉(zhuǎn)換為常用的SHP格式,然后將SHP格式中的點(diǎn)要素作為POI要素。這種方法主要依賴第三方工具,實(shí)現(xiàn)較為簡單,但由于不同數(shù)據(jù)在地理位置和屬性定義等方面的差異,往往會造成POI數(shù)據(jù)缺失,另外該方法存在大量冗余操作,不利于海量數(shù)據(jù)的處理。
圖1 百度地圖POI獲取流程
圖2 高德地圖獲取POI信息
圖3 對OSM中Albania地區(qū)POI數(shù)據(jù)抽取結(jié)果
圖4 基于半結(jié)構(gòu)文本的屬性匹配抽取流程
根據(jù)OSM數(shù)據(jù)的存儲特征,可通過OSM標(biāo)簽中的key和value值直接提取符合要求的信息。首先,建立一個(gè)不同key和value對應(yīng)的POI分類模板,確定需要提取的要素與類別,遍歷數(shù)據(jù)中所有要素標(biāo)簽中的key和value,并與模板進(jìn)行匹配,滿足匹配條件則保存該要素的所有值和坐標(biāo),從而實(shí)現(xiàn)POI信息的提取。采用該方法對Albania 地區(qū)的POI信息進(jìn)行了提取,數(shù)據(jù)為PBF格式,數(shù)據(jù)大小15.24MB。共抽取POI數(shù)據(jù)5252條,用時(shí)3850ms,分別為POI的名稱、OSMID、坐標(biāo)、類別等屬性信息,如圖3所示。該方法效率較高(相同硬件環(huán)境下,利用ArcGIS_Editor_OSM插件對上述數(shù)據(jù)進(jìn)行轉(zhuǎn)換耗時(shí)30秒以上)。
地理目標(biāo)的屬性信息主要包含在網(wǎng)絡(luò)文本數(shù)據(jù)中。網(wǎng)絡(luò)上的文本數(shù)據(jù)按照其結(jié)構(gòu)化程度可分為半結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本兩類。半結(jié)構(gòu)化文本是介于結(jié)構(gòu)化文本與非結(jié)構(gòu)化文本之間的一種文本形式,通常比較簡短,結(jié)構(gòu)特征比較明顯,如百度百科的信息框;非結(jié)構(gòu)化文本中的文字完全是按照自然語言規(guī)則,即按人類的理解方式產(chǎn)生的文本,通常有新聞報(bào)道、文獻(xiàn)資料等,如百度百科的正文部分。網(wǎng)絡(luò)文本數(shù)據(jù)通常以非結(jié)構(gòu)化數(shù)據(jù)為主,半結(jié)構(gòu)化數(shù)據(jù)為輔。百科網(wǎng)站中關(guān)于地理空間目標(biāo)的信息通常比其他網(wǎng)站更為詳細(xì)可靠,且同時(shí)包含半結(jié)構(gòu)化文本和非結(jié)構(gòu)化文本,因此將其作為屬性數(shù)據(jù)獲取研究的基礎(chǔ)。
半結(jié)構(gòu)化文本的屬性數(shù)據(jù)抽取中,首先根據(jù)地理實(shí)體名字獲取所在百科頁面信息框信息,統(tǒng)計(jì)信息框的所有屬性,計(jì)算其與預(yù)定義屬性的相似度,得到同義屬性,進(jìn)而抽取對應(yīng)屬性值,建立地理實(shí)體、屬性、屬性值之間的對應(yīng)關(guān)系,具體流程如下圖4所示。
由于文本語義表達(dá)的多樣化,不同文本在表達(dá)地理實(shí)體的同一個(gè)屬性時(shí)可能采用不同關(guān)鍵詞,稱為同義屬性詞。屬性數(shù)據(jù)獲取中需要對關(guān)鍵詞進(jìn)行識別,將表達(dá)地理實(shí)體同義屬性詞識別出來并合并為同一屬性,建立每個(gè)屬性項(xiàng)對應(yīng)的關(guān)鍵詞集合,這一過程稱為屬性項(xiàng)歸一化。地理實(shí)體屬性項(xiàng)歸一化是實(shí)現(xiàn)半結(jié)構(gòu)化文本屬性數(shù)據(jù)獲取的關(guān)鍵。
屬性項(xiàng)歸一化的實(shí)質(zhì)是判斷屬性項(xiàng)詞之間的同義性,因此需要對屬性項(xiàng)的相似度進(jìn)行度量,可采用字面相似度、語義相似度等指標(biāo)度量屬性項(xiàng)相似度。字面相似度的計(jì)算簡單方便,不需要依賴大量的訓(xùn)練庫和字典,適合計(jì)算簡單、字面相似詞的相似度;采用基于Word2vec的訓(xùn)練模型訓(xùn)練得到的詞向量度量語義相似度,具有維度低、快速、準(zhǔn)確等優(yōu)點(diǎn);基于同義詞的語義距離度量詞語相似度在計(jì)算較短詞語的很有效,但處理長詞語時(shí)會有偏差??蓪⑷哌M(jìn)行結(jié)合,采用三個(gè)相似度中的最大值作為最終屬性項(xiàng)相似度。
非結(jié)構(gòu)化文本中目標(biāo)屬性數(shù)據(jù)的獲取通常采用基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法。傳統(tǒng)的有監(jiān)督學(xué)習(xí)需要大量的人工標(biāo)注語料進(jìn)行模型訓(xùn)練,海量的文本數(shù)據(jù)所需的人工標(biāo)注工作量巨大。基于弱監(jiān)督學(xué)習(xí)可以利用一些已有知識庫的實(shí)體關(guān)系生成訓(xùn)練數(shù)據(jù),減少人工標(biāo)注量。在半結(jié)構(gòu)化文本屬性抽取的基礎(chǔ)上,采用基于弱監(jiān)督的條件隨機(jī)場抽取地理目標(biāo)屬性,利用實(shí)體屬性關(guān)系對非結(jié)構(gòu)化文本進(jìn)行自動(dòng)標(biāo)注產(chǎn)生訓(xùn)練語料,基于條件隨機(jī)場模型對訓(xùn)練語料進(jìn)行學(xué)習(xí)生成地理目標(biāo)屬性模型,根據(jù)訓(xùn)練語料訓(xùn)練的地理實(shí)體屬性模型可實(shí)現(xiàn)對非結(jié)構(gòu)化文本中的地理實(shí)體屬性的抽取?;谌醣O(jiān)督條件隨機(jī)場的屬性數(shù)據(jù)提取流程如圖5所示。
語料預(yù)處理是保證文本信息抽取準(zhǔn)確性的基礎(chǔ),尤其是中文文本,其基本的語義單元可能是一個(gè)或者多個(gè)字,直接抽取根本得不到預(yù)期結(jié)果。語料預(yù)處理時(shí),首先剔除百科文檔中包含的圖片標(biāo)簽和廣告標(biāo)簽,按照結(jié)構(gòu)化的信息框和非結(jié)構(gòu)化文本分割存儲;采用3.1的方法將結(jié)構(gòu)化信息框中相關(guān)的地理目標(biāo)屬性提取出來;而后將非結(jié)構(gòu)化文檔中的HTML標(biāo)簽去除得到純文本內(nèi)容,根據(jù)標(biāo)點(diǎn)符號將非結(jié)構(gòu)化文本拆分成單個(gè)句子,依據(jù)開放分類對提取的信息進(jìn)行分類,為基于地理實(shí)體類別訓(xùn)練模型抽取屬性數(shù)據(jù)提供基礎(chǔ)。
圖5 基于弱監(jiān)督的條件隨機(jī)場地理目標(biāo)屬性提取流程
基于條件隨機(jī)場模型抽取地理目標(biāo)屬性實(shí)質(zhì)是利用統(tǒng)計(jì)學(xué)模型學(xué)習(xí)自由文本中某個(gè)實(shí)體屬性的觸發(fā)詞特征、屬性值特征和分布特征,根據(jù)這些特征去預(yù)測并抽取輸入文本中包含的地理實(shí)體屬性信息。特征選擇的好壞直接影響條件隨機(jī)場模型的識別準(zhǔn)確度,可采用屬性特征標(biāo)注、字特征、詞特征和詞性特征對文本信息進(jìn)行訓(xùn)練,根據(jù)抽取任務(wù)的差異選擇合適的特征以提高信息提取的準(zhǔn)確率和效率。
基于網(wǎng)絡(luò)獲取的地理目標(biāo)數(shù)據(jù)由于來源不同,其坐標(biāo)系統(tǒng)和數(shù)據(jù)表達(dá)方式均有所差別,需對其進(jìn)行轉(zhuǎn)換和融合處理,使數(shù)據(jù)能夠滿足不同應(yīng)用的需求。
坐標(biāo)是空間信息的核心數(shù)據(jù),是POI數(shù)據(jù)準(zhǔn)確性的重要體現(xiàn),是數(shù)據(jù)融合的重要依據(jù)。由于數(shù)據(jù)的采集來源、應(yīng)用需求的不同和數(shù)據(jù)安全原因,通常不同來源POI數(shù)據(jù)的坐標(biāo)系統(tǒng)也是有差異的。其中OSM數(shù)據(jù)使用的坐標(biāo)系是WGS-84地心坐標(biāo)系;高德地圖采用的是中國國家測繪局制定的GCJ-02坐標(biāo)系,該坐標(biāo)系對原始坐標(biāo)加入隨機(jī)偏差,對地理位置信息進(jìn)行加密;百度地圖采用的是自定義的BD-09坐標(biāo)系,該坐標(biāo)系在國家測繪局GCJ-02坐標(biāo)系的基礎(chǔ)上進(jìn)行了二次坐標(biāo)加密。
WGS-84坐標(biāo)系是國外地圖服務(wù)商和數(shù)據(jù)供應(yīng)商常用的地理坐標(biāo)系,GCJ-02是所有國內(nèi)公開發(fā)布的地理信息數(shù)據(jù)必須使用的坐標(biāo)系。WGS-84坐標(biāo)系和GCJ-02坐標(biāo)系兩個(gè)坐標(biāo)系的轉(zhuǎn)換是不可逆的,即WGS-84坐標(biāo)系下的坐標(biāo)可以精確轉(zhuǎn)換至GCJ-02坐標(biāo)系而不發(fā)生隨機(jī)位置偏移;但是GCJ-02坐標(biāo)系下的坐標(biāo)轉(zhuǎn)換至WGS-84坐標(biāo)系下會產(chǎn)生較大的隨機(jī)位置偏移。BD-09和GCJ-02坐標(biāo)系則可以互相進(jìn)行精確轉(zhuǎn)換。
根據(jù)三種坐標(biāo)系的特點(diǎn),從數(shù)據(jù)獲取和應(yīng)用兩方面綜合考慮,對多源POI數(shù)據(jù)的坐標(biāo)系統(tǒng)進(jìn)行統(tǒng)一,境外數(shù)據(jù)采用WGS-84坐標(biāo)系進(jìn)行組織管理,后期應(yīng)用中可根據(jù)需求自由轉(zhuǎn)換;國內(nèi)數(shù)據(jù)統(tǒng)一采用GCJ-02坐標(biāo)系,需將百度地圖數(shù)據(jù)轉(zhuǎn)換為GCJ-02坐標(biāo)與高德地圖數(shù)據(jù)統(tǒng)一進(jìn)行管理。坐標(biāo)轉(zhuǎn)換可以通過百度和高德地圖提供的接口實(shí)現(xiàn),轉(zhuǎn)換精度較高。
多源POI數(shù)據(jù)融合主要有基于空間位置和基于非空間屬性的融合方法。POI數(shù)據(jù)分布密集,空間位置相近,數(shù)據(jù)屬性項(xiàng)較少,可采用空間位置和非空間屬性相結(jié)合的方法進(jìn)行數(shù)據(jù)融合。POI數(shù)據(jù)融合主要包括同名實(shí)體的匹配和屬性字段的融合兩個(gè)方面。
1、同名實(shí)體匹配
同名地理實(shí)體通常具有相同或者相似的名字、地址和相近的地理坐標(biāo),在空間位置和非空間屬性上具有較高的相似度,因此同名實(shí)體的識別主要基于POI名字和地址屬性的相似性和地理位置信息的相似性實(shí)現(xiàn)。
基于非空間屬性的相似度匹配以語義相似度和字符相似度為基礎(chǔ),首先將文本信息劃分為基本語義單元,如“哈爾濱餃子館”劃分為“哈爾濱”和“餃子館”兩個(gè)語義單元,再根據(jù)字符相似度匹配算法對基本語義單元進(jìn)行匹配。該方法既考慮了POI名字和地址中的語義信息,又避免了因過度利用語義信息而可能產(chǎn)生的POI名字誤匹配。
基于空間位置的相似度匹配主要有基于拓?fù)潢P(guān)系和基于度量關(guān)系的匹配方法。本文采用的數(shù)據(jù)源POI為點(diǎn)狀地理實(shí)體,其空間關(guān)系主要為度量關(guān)系,因此采用基于度量關(guān)系進(jìn)行相似度匹配。地理實(shí)體度量關(guān)系的相似性實(shí)際就是兩個(gè)POI點(diǎn)之間的空間距離,當(dāng)該距離小于某一閾值時(shí),可將二者作為匹配對象。
2、屬性字段融合
同名實(shí)體匹配后需將POI屬性字段合并以獲取更加完整的數(shù)據(jù)集。POI屬性字段融合主要包括對多源POI唯一屬性項(xiàng)和共有屬性項(xiàng)的處理。唯一屬性項(xiàng)通常直接加入合并的融合數(shù)據(jù)集中,豐富數(shù)據(jù)集的屬性信息。共有屬性項(xiàng)的處理中通常只保留單一來源數(shù)據(jù)或合并所有來源的數(shù)據(jù)。
百度地圖和高德地圖POI的共有屬性項(xiàng)包括名字、地址、電話、類別等。其中,名字是匹配相似度計(jì)算的重要參考,通常同名實(shí)體的名字和地址相同或者相似,名字相同的可直接合并,名字相似的則要綜合考慮名字的準(zhǔn)確度和描述詳細(xì)程度,可采用式(1)對目標(biāo)的準(zhǔn)確度和詳細(xì)程度進(jìn)行綜合描述,對于同名實(shí)體保留重要性高的名字。POI地址的數(shù)據(jù)特征與名字相似,可采用相同方法進(jìn)行融合。
本文以豐富的網(wǎng)絡(luò)信息為基礎(chǔ),對地理目標(biāo)的獲取與處理方法進(jìn)行了研究,綜合高德地圖、百度地圖和OSM開源數(shù)據(jù)等數(shù)據(jù)源實(shí)現(xiàn)了對地理目標(biāo)位置數(shù)據(jù)的批量式、高爬全率獲取,為全球區(qū)域的地理實(shí)體位置數(shù)據(jù)的快速在線獲取提供了支持;采用屬性歸一化、基于規(guī)則匹配等方法實(shí)現(xiàn)了半結(jié)構(gòu)化地理目標(biāo)屬性數(shù)據(jù)的抽取,基于弱監(jiān)督的條件隨機(jī)場實(shí)現(xiàn)了非結(jié)構(gòu)化地理目標(biāo)屬性數(shù)據(jù)的抽取,完善了地理目標(biāo)的屬性數(shù)據(jù);通過同名實(shí)體匹配和屬性字段融合相結(jié)合的方法實(shí)現(xiàn)了多源數(shù)據(jù)的自動(dòng)融合處理,提高了獲取的地理目標(biāo)數(shù)據(jù)的質(zhì)量。
由于網(wǎng)絡(luò)信息資源過于龐大,本文僅針對部分互聯(lián)網(wǎng)資源和部分關(guān)鍵點(diǎn)對地理目標(biāo)信息的獲取與處理方法進(jìn)行了研究,后續(xù)研究中,如何從更多包含地理空間信息的網(wǎng)站中獲取地理目標(biāo)位置數(shù)據(jù)、基于半結(jié)構(gòu)文本獲取更大規(guī)模的語料、提升非結(jié)構(gòu)文本標(biāo)注的準(zhǔn)確率和召回率、對獲取數(shù)據(jù)質(zhì)量進(jìn)行更為全面準(zhǔn)確的評價(jià)等方面是研究的重點(diǎn)。