■邊正寧,陳 偉,李永鵬 ■江西省地質(zhì)礦產(chǎn)勘查開發(fā)局贛西地質(zhì)調(diào)查大隊,江西 南昌 330201
地圖上的文字和數(shù)字統(tǒng)稱為地圖注記(Map Label)[1-2]。地圖注記作為地圖不可或缺的內(nèi)容之一,具備豐富地圖信息以及增強(qiáng)地圖認(rèn)知的功能。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,刺激用戶對地圖產(chǎn)生新的要求,用戶需求不在局限于單一、傳統(tǒng)的地圖注記,于是具有專有性和寬泛性的地圖標(biāo)注應(yīng)運(yùn)而生[3-4]。地圖標(biāo)注(Map Annotation)是指以地理要素的信息內(nèi)容對地物進(jìn)行注記。地圖標(biāo)注以地圖為框架,通過用戶將地理要素信息標(biāo)注到電子地圖中。因此,地圖標(biāo)注可以視為深化的地圖注記??焖侔l(fā)展的地圖標(biāo)注逐漸取代地圖注記成為關(guān)注焦點(diǎn)。例如百度地圖和大眾點(diǎn)評網(wǎng)等電商鼓勵用戶進(jìn)行地圖標(biāo)注,并逐步產(chǎn)生了產(chǎn)品描述性質(zhì)的地圖標(biāo)注。
地圖標(biāo)注在滿足用戶需求和促進(jìn)地圖服務(wù)發(fā)展的同時,也給地圖標(biāo)注帶來了更深層次的思考。由于地圖標(biāo)注的用戶廣泛參與性,眾多地圖標(biāo)注存在一定不安全因素,給地圖服務(wù)帶來了新的危機(jī)。例如危害地區(qū)安全信息、違反社會道德等異常地圖標(biāo)注危害著地圖安全。然而目前人們對異常地圖標(biāo)注的識別研究較少,因此從促進(jìn)地圖服務(wù)健康發(fā)展而言,如何自動識別提取異常地圖標(biāo)注信息成為亟需解決的問題。
首先建立異常詞詞庫,包含社會事件和器材廣告類等異常地圖標(biāo)注內(nèi)容,然后提取地圖標(biāo)注內(nèi)容,即分詞處理形成數(shù)據(jù)集,然后利用AC-BM 算法構(gòu)建模式樹、計算字符跳躍函數(shù)、匹配數(shù)據(jù)集,對地圖標(biāo)注的異常信息進(jìn)行識別與提取,并對識別結(jié)果進(jìn)行分析和討論。工作流程如圖2.1 所示:
圖2.1 地圖標(biāo)注異常識別流程圖
(1)異常詞詞庫構(gòu)建:詞庫是把中文信息以詞為基本單位存儲在計算機(jī)中,為信息處理以及詞加工提供規(guī)范,是詞表的計算機(jī)化顯示[5]。結(jié)合網(wǎng)絡(luò)規(guī)范以及地理特征,建立地圖標(biāo)注異常詞詞庫,異常詞詞庫涉及以下11 個內(nèi)容:社會歷史事件、彩民生活、器材廣告、醫(yī)藥廣告、女性詞匯、色情服務(wù)、隱私詞匯、反動事件、軍事安全、政府政治、其它。
(2)地圖標(biāo)注內(nèi)容提取:對地圖標(biāo)注內(nèi)容進(jìn)行分詞處理是異常地圖標(biāo)注識別的重要前提,異常地圖標(biāo)注識別的結(jié)果取決于分詞處理的準(zhǔn)確性。由于本次實驗地圖標(biāo)注內(nèi)容主要為中文,中文多為雙詞語表達(dá),為此選用雙哈希結(jié)構(gòu)的最大逆向分詞法對地圖標(biāo)注分詞。
(3)ACBM 多模式算法匹配:模式匹配算法是異常地圖標(biāo)識的高效識別的關(guān)鍵技術(shù)。在目前使用的算法中,AC 多模式算法的時間復(fù)雜度O(n)最小,但是產(chǎn)生多余比較,甚至導(dǎo)致數(shù)據(jù)膨脹;就效率而言,跳躍思想的BM 單模式匹配算法效率最高[6-7]。為此結(jié)合兩者優(yōu)缺點(diǎn),采用基于BM 跳躍思想的AC-BM 多模式匹配算法。主要過程如下:①模式樹構(gòu)建(AC 自動機(jī));②計算模型樹的字符跳轉(zhuǎn)規(guī)則移位函數(shù)(BM跳躍思想);③使用AC 自動機(jī)和跳轉(zhuǎn)規(guī)則掃描待匹配字符集。
實驗地理注記對象為從美食評論網(wǎng)與百度搜集來的云南省昆明市一環(huán)內(nèi)657 個地圖標(biāo)注,文本漢字個數(shù)為[15,52],平均長度為34。
2.2.1 總體標(biāo)注異常識別效果
按照上述工作流程對實驗對象進(jìn)行處理,識別117 個異常地圖標(biāo)注,如下圖所示。圖中,餅圖面積代表地圖標(biāo)注內(nèi)容異常信息的含量,餅圖面積越大,該地圖標(biāo)注包含的異常詞越多,表示該地圖標(biāo)注存在異常性,需要進(jìn)一步處理;反之亦然。對于多種顏色餅圖,其代表該標(biāo)注存在多種類別的異常信息。
2.2 異常詞識別結(jié)果Fig 2.2 Abnormal word detection result
2.2.2 單標(biāo)注異常發(fā)現(xiàn)與表達(dá)
以“3 月1 日晚9 點(diǎn)的昆明火車站發(fā)生暴動事件”標(biāo)注為例,使用改進(jìn)AC-BM 算法,識別出該標(biāo)注包含異常詞“發(fā)生暴動”,匹配的模型為“發(fā)生暴動|0”,開始位置為13。由于該事件定性為恐怖事件,地圖標(biāo)注為“暴動”,與事實不符,屬于異常標(biāo)注,如圖2.3 所示(紅色高亮為識別的異常詞)。
圖2.3 異常信息查找定位
2.2.3 分類識別結(jié)果
根據(jù)異常詞詞庫中對詞庫的分類,檢測各詞類的異常標(biāo)注分布情況,發(fā)現(xiàn)分類結(jié)果較為滿意。從本次匹配算法的結(jié)果而言,對657 個標(biāo)注檢測結(jié)果分析,標(biāo)注中共檢測到117 個異常標(biāo)注,而其中,含有敏感信息的標(biāo)注總共含有128 個,準(zhǔn)確率W 為91.4%,體現(xiàn)出極高的準(zhǔn)確率。我們對觀察未能正確檢測標(biāo)注,發(fā)現(xiàn)存在大量變異敏感詞條,即多數(shù)為填寫人故意插入特殊符號以逃避算法的檢測,或者將橫向的字條采用特殊字符排版,使出現(xiàn)縱向排列,逃避算法的檢測。針對此類型的敏感信息,本文未能進(jìn)行近一步討論。對于其他非變異敏感詞,通過建立完善的敏感詞庫,其敏感信息都能夠被正確檢測。
本文以昆明地理標(biāo)注為例,采用ACBM 多模式算法識別提取地圖標(biāo)注內(nèi)容中的異常信息,得出總體標(biāo)注異常識別、單標(biāo)注異常識別以及分類識別結(jié)果,通過實驗結(jié)果表明,本文的地圖標(biāo)注異常識別方法能以較高效率準(zhǔn)確發(fā)現(xiàn)異常地圖標(biāo)注,構(gòu)建和諧綠色地圖,滿足用戶不同的應(yīng)用需求。
由于本文從詞義上進(jìn)行對異常地圖標(biāo)注進(jìn)行識別,未涉及到空間位置的適宜性。然而,地圖標(biāo)注在空間上也存在異常,即地圖標(biāo)注是否適宜出現(xiàn)在該位置。在地圖中,標(biāo)注與地物相同,相同類型的標(biāo)注在空間上聚集,基于此特點(diǎn)的標(biāo)注空間適宜性評價是有待進(jìn)一步完善的內(nèi)容。
[1]馬耀峰,胡文亮,張安定,等.地圖學(xué)原理[M].北京:科學(xué)出版社,2004.
[2]樊紅,張祖勛.地圖線狀要素自動注記的算法設(shè)計與實現(xiàn)[J].測繪學(xué)報,1999:86-89.
[3]喬占明,閆浩文.地圖標(biāo)注和地圖注記的探討[J].測繪與空間地理信息,2011(1):205-207.
[4]何麗華,徐之俊.地圖注記設(shè)計若干問題的探討[J].地理空間信息,2011,9(6).
[5]劉耕,方勇,劉嘉勇.基于關(guān)聯(lián)詞和擴(kuò)展規(guī)則的敏感詞庫設(shè)計[J].四川大學(xué)學(xué)報:自然科學(xué)版,2009,46(3):667-667.
[6]BOYER R S,MOORE J S.A fast string searching algorithm[J].Communications of the ACM,1977,20(10):762-772.
[7]Aho A V,Corasick M J.Efficient string matching:an aid to bibliographic search[J].Communications of the ACM,1975,18(6):333-340.