閆夢(mèng)宇,鐘志農(nóng),景 寧,吳 燁
(國(guó)防科技大學(xué)電子科學(xué)學(xué)院,湖南 長(zhǎng)沙 410073)
海量新聞及社交媒體消息以不同形式涉及大量地理內(nèi)容,這一特征使得更多非結(jié)構(gòu)化文本可服務(wù)于傳統(tǒng)GIS。同時(shí),多樣的信息檢索用戶(hù)對(duì)以地理位置為導(dǎo)向的檢索需求,將進(jìn)一步推動(dòng)地理信息檢索(GIR)領(lǐng)域發(fā)展,以探索具有空間位置感知的檢索系統(tǒng)。因此,文本信息與現(xiàn)實(shí)地理位置關(guān)聯(lián)是任何GIR系統(tǒng)的核心。解決這一問(wèn)題的關(guān)鍵即文本地理編碼,又稱(chēng)地理解析[1]、地理標(biāo)記[2],是將文本映射到某一經(jīng)緯度坐標(biāo)等唯一編碼的過(guò)程。隨著各領(lǐng)域?qū)Φ乩硇畔⑿枨蟮牟粩嘣鲩L(zhǎng),文本地理編碼作為溝通抽象文本數(shù)據(jù)與真實(shí)空間的橋梁,在各行各業(yè)的技術(shù)支撐作用日益突出,如新聞地圖、基于地域信息的推薦系統(tǒng)、輿情及自然災(zāi)害監(jiān)測(cè)分析等。
本文通過(guò)綜合國(guó)內(nèi)外研究現(xiàn)狀,對(duì)文本地理編碼關(guān)鍵技術(shù)進(jìn)行分類(lèi)總結(jié)分析,提出該領(lǐng)域未來(lái)的研究工作和面臨的挑戰(zhàn),為文本地理編碼進(jìn)一步相關(guān)研究提供了新的思路。
文本地理編碼系統(tǒng)化研究源于1994年的GIPSY[3],利用地名辭典及一系列啟發(fā)式手段解析文本地名等地理信息。典型的地理信息檢索系統(tǒng)如Web-a-Where[4]、SPIRIT[5]、NewsStand[6]等主要針對(duì)新聞或網(wǎng)頁(yè)文本進(jìn)行地理編碼。而社交媒體因時(shí)效性強(qiáng)、內(nèi)容具體,在地理編碼問(wèn)題上也逐漸引起學(xué)者們的關(guān)注??傮w上,當(dāng)前的文本地理編碼主要分為兩種方式:傳統(tǒng)的基于文本分析的地理編碼和基于語(yǔ)言模型的地理編碼?;痉椒蚣苋鐖D1所示。
由于互聯(lián)網(wǎng)中大多文本不具有地理標(biāo)記,需要通過(guò)對(duì)具體內(nèi)容的解析判斷文本位置。因此,長(zhǎng)期以來(lái)基于文本分析的地理編碼成為解決文本與地理信息關(guān)聯(lián)的主要手段。經(jīng)典的基于文本分析的地理編碼系統(tǒng)Web-a-Where采用一種適用于大規(guī)模網(wǎng)頁(yè)文本的地理編碼方法,主要有3個(gè)步驟:地理實(shí)體識(shí)別、地理實(shí)體消歧和文本位置聚焦。系統(tǒng)基于地名辭典實(shí)現(xiàn)網(wǎng)頁(yè)中地名實(shí)體識(shí)別,結(jié)合語(yǔ)境及缺省信息對(duì)候選地理實(shí)體集合進(jìn)行歧義消除,并利用地名詞頻與隸屬關(guān)系進(jìn)一步實(shí)現(xiàn)網(wǎng)頁(yè)位置聚焦。此后的國(guó)內(nèi)外學(xué)者大多由這3個(gè)步驟出發(fā)嘗試不同改進(jìn)策略。
1.1.1 地理實(shí)體識(shí)別
目前,地理實(shí)體識(shí)別對(duì)象多為地名,根據(jù)不同應(yīng)用需求,也有學(xué)者對(duì)其進(jìn)行擴(kuò)展,如文獻(xiàn)[7]將地理實(shí)體識(shí)別的內(nèi)容擴(kuò)展到對(duì)空間關(guān)系描述短語(yǔ)的解釋。地理實(shí)體識(shí)別主要包括3種方法:基于地名辭典的方法、基于規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法。
基于地名辭典的方法即采用字符串匹配思想識(shí)別地名。地名辭典通常包含地區(qū)名稱(chēng)、行政區(qū)劃類(lèi)別及空間坐標(biāo)或空間范圍,常用地名辭典有:GeoName、OSM、GNS、GINS等?;诘孛o典的準(zhǔn)確率在很大程度上取決于辭典完備性,因此很多學(xué)者結(jié)合相似性度量[8]或?qū)嶓w識(shí)別工具[9]等其他方法。目前,較為成熟的地理實(shí)體識(shí)別工具包括在線地理標(biāo)記工具OpenCalais、CLAVIN,以及一些自然語(yǔ)言處理工具包OpenNLP、GATE、LingPipe、ICTCLAS等。
基于規(guī)則的方法選用特征包括統(tǒng)計(jì)信息、標(biāo)點(diǎn)符號(hào)、指示詞等,通過(guò)對(duì)每個(gè)規(guī)則賦予權(quán)重,由權(quán)值判斷命名實(shí)體是否為地理實(shí)體。但地名往往具有模糊性、多樣性和動(dòng)態(tài)性,而且規(guī)則制定依賴(lài)具體語(yǔ)言、領(lǐng)域和文本風(fēng)格,難以覆蓋所有語(yǔ)言現(xiàn)象。因此,基于規(guī)則的方式仍存在較大技術(shù)難點(diǎn)及潛在漏洞,通常作為輔助手段配合其他技術(shù)方法使用。
基于機(jī)器學(xué)習(xí)的方法利用一組地名標(biāo)注文本構(gòu)造地名識(shí)別模型。其中,條件隨機(jī)場(chǎng)(CRF)因具有良好的識(shí)別率而被廣泛使用。文獻(xiàn)[10]基于CRF和篇章地名關(guān)系識(shí)別地名,準(zhǔn)確率達(dá)96.31%;針對(duì)目前已有地名識(shí)別方法未充分考慮地名構(gòu)成和使用習(xí)慣等特征的問(wèn)題,文獻(xiàn)[11]分析了中文地名用字特征,并融入條件隨機(jī)場(chǎng)方法中,召回率、準(zhǔn)確率分別達(dá)到92.69%、96.73%。
3種地理實(shí)體識(shí)別方法比較分析見(jiàn)表1。由于以上3種方法存在各自?xún)?yōu)缺點(diǎn),許多學(xué)者開(kāi)始探索結(jié)合不同方式的地理實(shí)體識(shí)別。主要通過(guò):①方法技術(shù)整體融合,如文獻(xiàn)[12]顧及語(yǔ)言特征,提出了基于CRFs和規(guī)則模型的地名信息抽取方法。②模型、算法分步累加,如文獻(xiàn)[13]使用雙層CRF模型后,利用規(guī)則對(duì)識(shí)別結(jié)果進(jìn)行過(guò)濾修剪和補(bǔ)召。
表1 3種地理實(shí)體識(shí)別方法比較分析
1.1.2 地理實(shí)體消歧
由于人類(lèi)認(rèn)知的逐層抽象和表達(dá)方式的多樣化,地理實(shí)體定位多存在歧義,主要有g(shù)eo/non-geo歧義,即地名同時(shí)具有非地理含義,如人名;geo/geo歧義,即同一地名指稱(chēng)多個(gè)地理實(shí)體。消歧方法可分為:基于數(shù)據(jù)驅(qū)動(dòng)的方法,文獻(xiàn)[14]將多種特征融入地理實(shí)體識(shí)別訓(xùn)練模型消除geo/non-geo歧義;基于外部資源和規(guī)則的方法,利用地名庫(kù)和文本語(yǔ)境線索規(guī)則消歧,與實(shí)際人們理解文本空間語(yǔ)義策略一致,是目前的主流方法,包括利用共現(xiàn)地名之間地理語(yǔ)義關(guān)聯(lián)消歧[15]、地圖和語(yǔ)義相結(jié)合[16]、基于認(rèn)知顯著度[10]。其他消歧方法如文獻(xiàn)[17]提出的垂直geo/non-geo歧義消除方法,利用語(yǔ)境中非地理特征描述確定未出現(xiàn)在文本中的細(xì)粒度地名;文獻(xiàn)[18]針對(duì)微博文本內(nèi)容存在的表達(dá)不規(guī)范問(wèn)題,提出了模糊匹配方式,有效提高召回率。隨著網(wǎng)絡(luò)文本不斷涌現(xiàn),互聯(lián)網(wǎng)作為海量語(yǔ)料庫(kù),提供了表達(dá)豐富、覆蓋廣泛的背景知識(shí),多源知識(shí)融合將為地理實(shí)體消歧提供新的方向。
1.1.3 文本位置聚焦
位置聚焦是利用語(yǔ)境知識(shí)對(duì)已確定地理實(shí)體的進(jìn)一步去噪過(guò)程,優(yōu)化信息提取質(zhì)量以提高可用性。主要由衡量地理實(shí)體在文本中重要性的因素決定,包括詞頻、分布位置和共現(xiàn)實(shí)體之間隸屬關(guān)系,也可綜合多種因素:文獻(xiàn)[6]兼顧詞頻與分布位置;文獻(xiàn)[4]融合頻次和隸屬關(guān)系,解決了不同細(xì)粒度上的聚焦問(wèn)題;文獻(xiàn)[17]利用樹(shù)結(jié)構(gòu)表示地名行政隸屬關(guān)系,結(jié)合覆蓋率和信息熵量化各實(shí)體節(jié)點(diǎn)在文中的重要性。位置聚焦相比消歧更具主觀性,當(dāng)前方法多從語(yǔ)義層面考慮,仍存在片面性和局限性,下一步可將語(yǔ)境知識(shí)與地圖數(shù)據(jù)相結(jié)合,集成多種判斷方法以提升位置聚焦的準(zhǔn)確性和普適性。
自2009年Twitter提出簽到理念后,越來(lái)越多社交媒體為用戶(hù)提供了位置標(biāo)記功能。及時(shí)、廣泛的社交媒體消息將人們所處空間與其相應(yīng)認(rèn)知相結(jié)合,成為空間位置特征的直接表達(dá),為文本地理編碼提供了全新發(fā)展機(jī)遇。為減少對(duì)顯式地理信息的依賴(lài),人們提出數(shù)據(jù)驅(qū)動(dòng)方法,通過(guò)構(gòu)建語(yǔ)言模型對(duì)文本進(jìn)行地理編碼。其思想是將帶有位置標(biāo)記的文本作為訓(xùn)練集構(gòu)建不同區(qū)域語(yǔ)言特征模型,結(jié)合文本分類(lèi)技術(shù)實(shí)現(xiàn)未標(biāo)記文本位置估計(jì)。
基于語(yǔ)言模型的經(jīng)典方法如文獻(xiàn)[19],作者采用規(guī)則正方形格網(wǎng)進(jìn)行區(qū)域劃分,根據(jù)地理標(biāo)記將文本關(guān)聯(lián)至相應(yīng)單元格;計(jì)算各格網(wǎng)中詞匯分布模型,從而將地理編碼轉(zhuǎn)化為文本相似度計(jì)算問(wèn)題;通過(guò)尋找與待編碼文本最相似的分布確定文本所在網(wǎng)格,以單元格中心坐標(biāo)表示文本位置。隨后很多學(xué)者從以下3個(gè)方面進(jìn)行改進(jìn):①模型構(gòu)建方面,包括區(qū)域語(yǔ)言特征表現(xiàn)形式:利用更復(fù)雜的主題模型作為文本及區(qū)域的表示[20];訓(xùn)練數(shù)據(jù)去噪:利用詞語(yǔ)地理分布空間變化模型[21-22]或基于特征選擇[23-24]篩除訓(xùn)練文本中非地理指示詞,構(gòu)造更具地域特征的語(yǔ)言模型,提高模型穩(wěn)健性和編碼準(zhǔn)確性。②格網(wǎng)劃分方面,主要有多級(jí)網(wǎng)格相結(jié)合的判斷方法[25],通過(guò)捕獲不同粒度下語(yǔ)言特征模型,提高地理編碼可靠性;動(dòng)態(tài)格網(wǎng)劃分[26-27],解決固定格網(wǎng)劃分造成的數(shù)據(jù)分布不均問(wèn)題;基于多邊形劃分格網(wǎng)的方法[28]。③坐標(biāo)選取方面,利用區(qū)域質(zhì)心[29]、文本相似度加權(quán)平均的區(qū)域重心[23]等。
基于語(yǔ)言模型的地理編碼始終面臨著模型對(duì)訓(xùn)練數(shù)據(jù)依賴(lài)性較強(qiáng)的問(wèn)題。為提高模型可擴(kuò)展性,利用多源數(shù)據(jù)、融合多方面語(yǔ)言表達(dá)特征構(gòu)建語(yǔ)言模型[30]成為下一步發(fā)展趨勢(shì)。當(dāng)前基于語(yǔ)言模型的地理編碼大多以詞袋模型作為假設(shè),未顧及上下文語(yǔ)境,隨著信息檢索領(lǐng)域不斷出現(xiàn)新技術(shù),各種語(yǔ)言模型的相繼提出[31]為解決這一問(wèn)題提供了更多借鑒。
地名數(shù)據(jù)庫(kù)是研究基于文本分析地理編碼的基礎(chǔ),而已有地名庫(kù)存在的細(xì)粒度地名匱乏、地名屬性等地理語(yǔ)義信息不完善等問(wèn)題亟待解決。傳統(tǒng)地名庫(kù)更新維護(hù)依靠人工測(cè)繪完成,無(wú)法滿(mǎn)足時(shí)效性需求。隨著網(wǎng)絡(luò)資源日益豐富,利用互聯(lián)網(wǎng)采集數(shù)據(jù)為地名庫(kù)更新維護(hù)提供了新思路。一些學(xué)者嘗試基于網(wǎng)絡(luò)爬蟲(chóng)[32]獲取網(wǎng)頁(yè)文本中新地名與地名空間位置信息;眾包與移動(dòng)互聯(lián)結(jié)合,發(fā)動(dòng)更多公眾參與到地理數(shù)據(jù)獲取上來(lái),為地名庫(kù)提供更翔實(shí)的數(shù)據(jù)來(lái)源[33]。另外,網(wǎng)絡(luò)中開(kāi)源地名數(shù)據(jù)質(zhì)量參差不齊、規(guī)范不統(tǒng)一,因此多源地理數(shù)據(jù)一致性處理是利用互聯(lián)網(wǎng)技術(shù)更新維護(hù)地名數(shù)據(jù)庫(kù)的重點(diǎn)研究問(wèn)題。
當(dāng)前文本地理編碼多由單一數(shù)據(jù)源出發(fā)研究,方法之間難以相互擴(kuò)展。大數(shù)據(jù)時(shí)代下,多源異構(gòu)知識(shí)融合作為重要研究領(lǐng)域,為研究者從眾多分散、異構(gòu)數(shù)據(jù)源和知識(shí)源中挖掘出更多隱含、有價(jià)值的信息和知識(shí)提供了有效手段。一些學(xué)者綜合分析用戶(hù)在不同社交媒體上發(fā)布的文本信息[27],有效提高了地理編碼的準(zhǔn)確性。與此同時(shí),隨著近些年多媒體信息技術(shù)多元化、網(wǎng)絡(luò)化、智能化的發(fā)展,已有很多學(xué)者在其他多媒體資源如視頻[34]、圖像[35]等地理編碼工作上取得了一定進(jìn)展,為下一步文本地理編碼提供了更為豐富的可用資源及借鑒方法。
目前,人們對(duì)自然語(yǔ)言多樣性、模糊性缺乏深刻認(rèn)識(shí),地理語(yǔ)義利用尚不完善。盡管越來(lái)越多文本地理編碼采用機(jī)器學(xué)習(xí)完成,但大數(shù)據(jù)的復(fù)雜性使機(jī)器學(xué)習(xí)在學(xué)習(xí)效率等方面遇到新的挑戰(zhàn)。深度學(xué)習(xí)是當(dāng)前大數(shù)據(jù)分析處理的研究熱點(diǎn),已有學(xué)者將其應(yīng)用到文本地理編碼中[36-37],取得了不錯(cuò)的效果。但大量標(biāo)注樣本不可避免,如何基于更少樣本訓(xùn)練模型令人期待。而對(duì)于特定領(lǐng)域,文本采取簡(jiǎn)單的規(guī)則或利用地名辭典就可以取得較為滿(mǎn)意的結(jié)果。因此,應(yīng)將這些技術(shù)方法集成應(yīng)用實(shí)現(xiàn)互補(bǔ),提高文本地理編碼效率使之在實(shí)用性上取得更大突破。
文本地理編碼是地理信息檢索的重要環(huán)節(jié),本文對(duì)當(dāng)前文本地理編碼相關(guān)研究進(jìn)行了全面分析總結(jié),對(duì)存在問(wèn)題提出了研究建議。在互聯(lián)網(wǎng)高度發(fā)達(dá)的今天,文本信息中的地理位置成為檢索關(guān)注點(diǎn),文本地理編碼也由傳統(tǒng)的基于地名數(shù)據(jù)庫(kù)和規(guī)則的方法逐步擴(kuò)展至機(jī)器學(xué)習(xí)甚至深度學(xué)習(xí)領(lǐng)域。根據(jù)語(yǔ)境的地理檢索驅(qū)動(dòng)著地理信息檢索走向智能化、高效化和適用化,也為地理編碼研究工作提供了一個(gè)導(dǎo)向。文本中潛藏的地理位置信息的價(jià)值是巨大的,相信經(jīng)過(guò)研究者不斷的實(shí)踐和探索,文本地理編碼技術(shù)會(huì)逐步趨于成熟和完善,從而更好地為我國(guó)社會(huì)和國(guó)民經(jīng)濟(jì)建設(shè)服務(wù)。