唐忠立 張宏奎 湯 鑫 王 倩
(長沙理工大學(xué) 交通運輸工程學(xué)院, 湖南 長沙 410114)
用戶生成內(nèi)容(User Generated Content)是Web 2.0時代的顯著特征之一[1]。隨著智能手機、相機以及平板電腦等支持全球定位系統(tǒng)(Global Positioning System,GPS)芯片設(shè)備的普及,大眾獲取地理信息的能力持續(xù)增強,越來越多的用戶以高分辨率遙感影像和GPS軌跡為基礎(chǔ),利用Web 2.0創(chuàng)建豐富的矢量地理信息。這一新趨勢在“志愿者地理信息”(Volunteered Geographical Information,VGI)[2]或“眾包地理數(shù)據(jù)”(Crowd-sourced Geodata)[3]的普及下日趨流行。由于眾源數(shù)據(jù)具有免費共享、覆蓋面積廣、準(zhǔn)實時更新等特點,彌補了傳統(tǒng)地理信息更新遲緩等問題[4-5]。當(dāng)前,自發(fā)地理信息已廣泛應(yīng)用于應(yīng)急制圖、災(zāi)后救援、旅游服務(wù)等領(lǐng)域[6-10]。
開放街道地圖(OpenStreetMap,OSM)被認(rèn)為是最成功、最受歡迎的志愿者地理信息項目之一[4,6-7],在Web 2.0環(huán)境下,群體協(xié)作已經(jīng)成為一種新的模式,利用大眾的參與來高效地完成傳統(tǒng)上由少數(shù)專業(yè)人員承擔(dān)的任務(wù)。目前,雅虎地圖、Bing Map等均為其提供了影像數(shù)據(jù)支持。OSM數(shù)據(jù)由大眾自發(fā)標(biāo)報并維護(hù),形成了一種由大眾發(fā)起的“創(chuàng)建-瀏覽-更新”數(shù)據(jù)管理模式,也正是這種自發(fā)性不可避免地導(dǎo)致了OSM的數(shù)據(jù)質(zhì)量問題,例如,用戶基于已有版本新建新版本數(shù)據(jù)造成數(shù)據(jù)冗余問題,嚴(yán)重影響其數(shù)據(jù)的深化應(yīng)用。因此,相對于專業(yè)數(shù)據(jù)而言,OSM的數(shù)據(jù)具有質(zhì)量各異、覆蓋不均勻、缺少統(tǒng)一規(guī)范、冗余而不完整、隱私和安全難以管控等缺點[2,11-13]。建筑物數(shù)據(jù)在矢量數(shù)據(jù)運用中具有極大影響力,OSM建筑物數(shù)據(jù)的冗余直接影響其應(yīng)用,因而建筑物面目標(biāo)冗余清理必不可少。
當(dāng)前學(xué)界對OSM冗余數(shù)據(jù)清理的研究甚少,李德仁等認(rèn)為垃圾信息及惡意內(nèi)容的鑒別與清除、重復(fù)內(nèi)容及數(shù)據(jù)冗余的檢測與清理、涉及隱私與秘密等內(nèi)容的處理是數(shù)據(jù)清理的主要對象[14]。QIAN等提出在添加增量數(shù)據(jù)時通過拓?fù)湟恢滦院Y選出拓?fù)錄_突數(shù)據(jù),利用空間聚類算法清理重復(fù)數(shù)據(jù)[15],采用人工交互方式管理數(shù)據(jù)的屬性信息,但并未進(jìn)一步實現(xiàn)具體的清理算法。NEIS等以維基百科中用戶標(biāo)注的屬性信息作為參考基準(zhǔn),根據(jù)志愿者在地圖上注釋的數(shù)量對用戶信譽進(jìn)行評估,在此基礎(chǔ)上制定多種規(guī)則對數(shù)據(jù)進(jìn)行檢測與篩選,并開發(fā)了基于規(guī)則的OSM惡意破壞數(shù)據(jù)自動檢測系統(tǒng)[16],但其忽略了空間數(shù)據(jù)的幾何特性。MUMMIDI等提出了從在線用戶提供的地圖注釋中提取、清理興趣點(Point Of Interest,POI)的方法[17],該方法針對用戶貢獻(xiàn)的信息內(nèi)容各異的問題,從志愿者在地圖注釋的詳細(xì)信息中鑒別有效的地名,并提取作為興趣點對空間數(shù)據(jù)進(jìn)行清理,但該方法未顧及空間數(shù)據(jù)的幾何因素。此外,Open Watchlist和OSM Mapper兩款工具也是對OSM數(shù)據(jù)管控的有效手段,均使用簡易信息聚合 (Really Simple Syndication,RSS)通知志愿者指定區(qū)域內(nèi)的信息變化,但無法進(jìn)一步識別重復(fù)、虛假及低質(zhì)量等數(shù)據(jù)。雖然OSM已包含部分質(zhì)量保證及驗證方法,但僅向用戶反饋目標(biāo)重復(fù)標(biāo)報等信息,并無實際處理措施??梢?OSM數(shù)據(jù)冗余問題已引起學(xué)者關(guān)注。
為此,本文針對OSM建筑物冗余的問題,在自發(fā)地理信息點、線、面數(shù)據(jù)的檢測與合并、篩選與清理等相關(guān)研究的基礎(chǔ)上,提出了一種基于層次規(guī)則的OSM建筑物面目標(biāo)冗余清理模型:該模型首先采用層次遞進(jìn)的方式對OSM建筑物數(shù)據(jù)進(jìn)行冗余識別,并依據(jù)拓?fù)淠P瓦M(jìn)行冗余分類,將分類后的冗余數(shù)據(jù)通過層次規(guī)則進(jìn)行清理,再將清理后的數(shù)據(jù)重復(fù)2次冗余識別及清理的流程,最后采用OSM長沙市區(qū)建筑物冗余數(shù)據(jù)進(jìn)行實驗分析。
由于大眾對地理對象的認(rèn)知與標(biāo)報目的均不相同,在OSM上的貢獻(xiàn)行為很大程度取決于用戶習(xí)慣與喜好,故貢獻(xiàn)者在添加、修改、刪除等行為上也不相同。概括而言,OSM數(shù)據(jù)存在以下問題較為突出:(1)貢獻(xiàn)者對地理空間對象認(rèn)知經(jīng)驗相異,對現(xiàn)存目標(biāo)進(jìn)行新建操作;(2)相同用戶貢獻(xiàn)連續(xù)版本;(3)有意的破壞行為。圖1所示的“東成大廈”及“體育藝術(shù)館”即為OSM平臺志愿者編輯導(dǎo)致的冗余數(shù)據(jù)。
圖1 OSM平臺冗余數(shù)據(jù)示例
針對OSM建筑物數(shù)據(jù)的特點及存在的問題,借助OSM錯誤數(shù)據(jù)系統(tǒng)篩選規(guī)則[16],綜合考慮建筑物的幾何特征及屬性特征,構(gòu)建了一套由冗余識別、分類及層次規(guī)則清理組合而成體系,進(jìn)而提出基于層次規(guī)則的OSM建筑物面目標(biāo)冗余清理模型。首先該模型根據(jù)拓?fù)潢P(guān)系模型識別存在拓?fù)錄_突的面目標(biāo),然后計算拓?fù)錄_突面目標(biāo)間的面積重疊率,精確識別建筑物冗余,并按拓?fù)錄_突類型將建筑物冗余分類;其次,選取屬性信息完整性、均值面積、閾值面積、面積差、規(guī)則角比差、不規(guī)則角比差、不規(guī)則角差、斜率符合值及綜合值等9項指標(biāo)對不同類型的建筑物冗余構(gòu)建相應(yīng)的層次規(guī)則,并依據(jù)層次規(guī)則清理建筑物冗余;最后,將首次清理后的數(shù)據(jù)重復(fù)進(jìn)行2次冗余識別及清理的操作。該模型從冗余識別到分類再到冗余清理的流程如圖2所示。
圖2 OSM建筑物面目標(biāo)冗余數(shù)據(jù)清理流程圖
不同個體對現(xiàn)實世界中同一地理實體的認(rèn)知差異,導(dǎo)致地理實體與數(shù)據(jù)項之間“一對多”的情況,即常見的重復(fù)標(biāo)報問題,進(jìn)而導(dǎo)致OSM數(shù)據(jù)冗余、不一致性、存儲空間浪費等一系列問題。因此,冗余目標(biāo)清理是提升OSM數(shù)據(jù)質(zhì)量的必要環(huán)節(jié),其前提是冗余識別。冗余目標(biāo)在拓?fù)洹⒕嚯x等空間關(guān)系以及幾何、屬性特征等方面表現(xiàn)明顯,地理實體與OSM空間目標(biāo)的一一映射關(guān)系使得建筑物目標(biāo)及其冗余之間呈相交、包含等拓?fù)潢P(guān)系。為此,引入冗余識別所涉及的拓?fù)潢P(guān)系模型及重疊率等指標(biāo),并采取層次遞進(jìn)的方式進(jìn)行精確識別。
2.1.1拓?fù)潢P(guān)系模型
簡單面/面目標(biāo)之間的基本拓?fù)潢P(guān)系共八種,包括相離(Disjoint)、包含(Contains)、包含于(Inside)、相等(Equal)、相接(Meet)、覆蓋于(CoveredBy)、覆蓋(Covers)、相交(Overlaps)[18],將基本拓?fù)潢P(guān)系組合可表達(dá)復(fù)合的拓?fù)潢P(guān)系。對OSM建筑物目標(biāo)及其冗余而言,實際涉及的拓?fù)漕愋图敖M合包括包含于(Inside)、覆蓋(Co-vers)、相交(Overlaps)及復(fù)合(Complex)共4種,其中,復(fù)合型指多種拓?fù)潢P(guān)系的組合,其組合個數(shù)比例可表述為Inside∶Covers∶Overlap=NInside∶NCovers∶NOverlap,其中NInside、NCovers、NOverlap均為大于或者等于1的整數(shù),且NInside+NCovers+NOverlap≥3。OSM建筑物目標(biāo)冗余識別涉及其中4種拓?fù)潢P(guān)系,如圖3所示。
圖3 OSM建筑物面目標(biāo)冗余中的四種拓?fù)漕愋?/p>
2.1.2面積重疊率
引入面積重疊率主要是定量化精確識別相交冗余,并為識別包含、覆蓋及復(fù)合冗余提供定量化依據(jù)。其計算如式(1):
(1)
式中,FA、FB和FA∩B分別表示建筑物面目標(biāo)A、B以及A∩B的面積。函數(shù)Fmin取兩個建筑物面目標(biāo)A和B中較小的面積值。此外,取S(A,B)最小閾值為20%[19]。
冗余識別是進(jìn)行冗余清理的前提,拓?fù)淇臻g表達(dá)模型是拓?fù)錄_突檢測的基礎(chǔ),面積重疊率指標(biāo)是精確識別的定量化依據(jù)。故選取以上兩個指標(biāo)形成一套由淺入深的層次遞進(jìn)的冗余識別方法,并將其冗余數(shù)據(jù)按拓?fù)漕愋瓦M(jìn)行分類。其冗余識別流程及分類情況如下:
(1) 首先通過拓?fù)潢P(guān)系模型識別發(fā)生拓?fù)錄_突的面目標(biāo)。
(2) 然后根據(jù)式(1)計算面目標(biāo)間的重疊率,精確識別冗余面目標(biāo)。
(3) 最后根據(jù)圖3所示拓?fù)潢P(guān)系類型將建筑物冗余分成包含型、相交型及復(fù)合型,如圖4所示。
圖4 OSM建筑物面目標(biāo)冗余類型示例
層次規(guī)則的構(gòu)建是保障冗余清理的有力支撐,指標(biāo)的選取是規(guī)則構(gòu)建的關(guān)鍵因素。傳統(tǒng)文獻(xiàn)在定義數(shù)據(jù)清理指標(biāo)方面不全,文中提出了8項約束指標(biāo)構(gòu)建層次規(guī)則,具體定義如下:
(1) 屬性信息完整性
(2)
式中,F表示屬性信息完整值,i表示第i個屬性因素(1≤i≤n,n表示屬性因素的數(shù)量),Si表示i個屬性信息的值,Si的取值為{0,1},0代表第i個屬性因素為空,1代表第i個屬性因素存在。
(2) 均值面積
(3)
式中,A為區(qū)域內(nèi)建筑物平均面積,Si為第i個面目標(biāo)面積,N為清理發(fā)生拓?fù)錄_突的面目標(biāo)總個數(shù)。
(3) 面積差ΔS:即包含建筑物面積S包含與被包含建筑物面積S被包含(S被包含=∑Si)。
(4) 閾值面積T:即包含建筑物面積S1與被包含面目標(biāo)個數(shù)I之比。
(5) 規(guī)則角比差ΔXab及不規(guī)則角比差ΔYab:即ΔXab=Ra-Rb,ΔYab=Ia-Ib,分別設(shè)定閾值為δ及?。其中R及I計算式如下:
(4)
(5)
式中,R為規(guī)則角比值,I為不規(guī)則角比值,其中將小于78.6°設(shè)定為不規(guī)則角,將87°~93°設(shè)定為規(guī)則角,Sθ為滿足規(guī)則角的值(Sθ∈{0,1}),Sω為滿足不規(guī)則角的值(Sω∈{0,1}),L為閉合多邊形邊的數(shù)目。
(6) 不規(guī)則角差Δθ:即Δθ=∑θA-∑θB,θA和θB為面目標(biāo)A和B的不規(guī)則角。
(7) 斜率符合值SCv:
(6)
(7)
式中,Sv為斜率符合值;kab為多邊形臨近道路的邊的斜率值;kLH為道路臨近多邊形的線段的斜率值;S為斜率比值;n為多邊形中參與計算的總線段數(shù)。如圖5所示,圖中M、H、L表示道路折點,a~f表示多邊形折點。
圖5 斜率比值示例圖
(8) 綜合值c:根據(jù)清理需求對前7類指標(biāo)按需組合,即包含型c=∑[Fi+Ri-Ii+(Sv)i]/n;相交型c=A+Sv。
根據(jù)以上8項指標(biāo)構(gòu)建包含型及相交型層次規(guī)則,其中包含型層次規(guī)則中以包含面目標(biāo)及被包含面目標(biāo)為例說明,相交型規(guī)則中以面目標(biāo)A、B為例說明。規(guī)則1、規(guī)則2及規(guī)則3為包含型冗余清理的規(guī)則,層次關(guān)系為:規(guī)則1為父級規(guī)則,規(guī)則2為規(guī)則1的子級規(guī)則,規(guī)則3為規(guī)則2的子級規(guī)則;規(guī)則4、規(guī)則5及規(guī)則6為相交型冗余清理規(guī)則,層次關(guān)系為:規(guī)則4及規(guī)則5為父級規(guī)則,規(guī)則6為規(guī)則5的子級規(guī)則。各類型層次規(guī)則如下。
規(guī)則1:若S1≥2A,則清理包含面目標(biāo);若0 規(guī)則2:若{ΔS>T},則清理被包含面目標(biāo);若{ΔS≤T},則輸出至子規(guī)則3。 規(guī)則3:若{c包含>c被包含},則清理被包含面目標(biāo);反之,則清理包含面目標(biāo)。 規(guī)則4:當(dāng)L1=L2=4 時,若Δθ≥0,則保留A清理B;反之,則保留B清理A。 規(guī)則5:當(dāng)L1,L2至少有一個不等于4時,若{δmin≤ΔXab≤δmax,-?min≤ΔYab≤-?max}或{-δmin≤ΔXab≤-δmax,?min≤ΔYab≤?max},則保留A清理B;反之,則保留B清理A;若{-δmax<ΔXab<δmin,-?max<ΔYab 規(guī)則6:若{-7°≤Δθ≤7°且cA>cB},則保留A清理B;若{-7°≤Δθ≤7°且cA 對于包含型冗余數(shù)據(jù),將包含及被包含面目標(biāo)作為兩類清理對象,該冗余類型運用其層次規(guī)則清理冗余面目標(biāo)的流程如圖6所示。 圖6 包含型冗余清理流程 對于相交型冗余數(shù)據(jù),以面目標(biāo)A和B為例,若發(fā)生三個以上面目標(biāo)冗余,則兩兩進(jìn)行清理,該冗余類型運用其層次規(guī)則清理冗余面目標(biāo)的流程如圖7所示。 圖7 相交型冗余清理流程圖 對于復(fù)合型冗余數(shù)據(jù),可將其視為“包含型”和“相交型”冗余的組合,因此,其清理過程可按照先清理包含型冗余再清理相交型冗余順序依次進(jìn)行。 為了評價冗余清理的效果,此處采用精確率P(Precision)、r召回率(Recall)及調(diào)和平均值F1對結(jié)果進(jìn)行分析,各指標(biāo)定義如下: (1) 精確率 (8) 式中,PT是被正確清理且已清理冗余數(shù)據(jù)的實例數(shù);PF是被錯誤清理且已清理冗余數(shù)據(jù)的實例數(shù)。 (2) 召回率 (9) 式中,FN是數(shù)據(jù)冗余且未清理冗余數(shù)據(jù)的實例數(shù)。 (3) 調(diào)和平均值F1 (10) 式中,F1值為精確率和召回率的調(diào)和平均值。F1分?jǐn)?shù)在1處達(dá)到最佳值(精確率和召回率均為1),在0處達(dá)到最差值。 為了驗證本文所提出的基于層次規(guī)則的OSM建筑物冗余清理模型的合理性,選取了OSM真實的歷史數(shù)據(jù)進(jìn)行實驗。實驗采用開源免費數(shù)據(jù)庫(POSTGRES)存儲下載的OSM建筑物歷史數(shù)據(jù),文件格式為XML,由于OSM的總數(shù)量大且數(shù)據(jù)的完整性及完善度受貢獻(xiàn)者活躍程度的影響較大,因此新一線城市或二線城市中建筑物冗余數(shù)量相對較多,故選取長沙市建筑物數(shù)據(jù)進(jìn)行分析,如圖8所示。實驗區(qū)域內(nèi)建筑物面目標(biāo)數(shù)共為30 505個,發(fā)生拓?fù)錄_突的面目標(biāo)為780個,符合冗余數(shù)據(jù)樣本為722個。本文利用ArcMap 10.2及C#程序處理數(shù)據(jù),將冗余清理實驗結(jié)果通過ArcMap 10.2顯示,由于實驗區(qū)域較大且冗余數(shù)據(jù)比較分散,故展示局部區(qū)域清理實驗結(jié)果,如圖9所示。 圖8 實驗區(qū)域示意圖 圖9 局部區(qū)域建筑物冗余清理前后對比圖 依據(jù)層次規(guī)則對三種類型的OSM建筑物冗余進(jìn)行清理,實驗結(jié)果見表1。然后將清理后的目標(biāo)級與天地圖上相對應(yīng)目標(biāo)在形狀及大小方面進(jìn)行比對,將比對的結(jié)果分為符合、基本符合、一般符合、不符合及虛假數(shù)據(jù)5個等級,實驗結(jié)果見表2。最后,基于表1清理后數(shù)據(jù)統(tǒng)計,計算P、r及F1值,并評價清理效果,其結(jié)果如表3。 由表1可知,整體冗余樣本數(shù)滿足實驗要求,其中包含型及相交型樣本數(shù)更是充足。故在此基礎(chǔ)上,其實驗結(jié)果具有較高的可信度。PT值及PF值分別反映冗余清理的正確率及錯誤率,從表1中可看出三種類型冗余清理的正確率均達(dá)到了85%以上,且清理的錯誤率在10%左右,其中包含型及相交型的PF值更是低于10%,表明該模型清理建筑物冗余不僅能達(dá)到其數(shù)據(jù)清理的要求而且其清理的準(zhǔn)確性高。FN值反映的是該模型冗余清理無效的實例數(shù),從表中可看出三種冗余類型的FN值均低于6%,表明本文提出的基于層次規(guī)則的建筑物冗余清理模型能夠清理出絕大部分冗余數(shù)據(jù),是控制管理OSM建筑物冗余數(shù)據(jù)的一種有效方法。 表1 實驗區(qū)冗余數(shù)據(jù)清理實驗結(jié)果 從表2可知,清理后三種類型目標(biāo)級的比對滿足符合及基本符合的等級所占比例均在65%以上,其不符合數(shù)據(jù)及虛假數(shù)據(jù)均在10%左右,根據(jù)定性推理[20]思想,可反映出本文實驗所用的OSM建筑物數(shù)據(jù)質(zhì)量較好。故此,表明該模型對于OSM建筑物冗余數(shù)據(jù)的清理有較高的可靠性。 表2 目標(biāo)級冗余數(shù)據(jù)清理實驗結(jié)果 單位:個 從表3可知,三種冗余類型均有較高的P值及r值,表明該模型清理效果較好。結(jié)合式(8)及式(9)可看出,其精確率與召回率為此消彼長的關(guān)系,在提升一個指標(biāo)的同時必然會使另一個指標(biāo)下降。在精確率與召回率合格條件下,ΔPr(P與r之差的絕對值)越小其清理效果越佳,其中包含型及相交型的ΔPr均較小,表明該模型對包含型及相交型的清理效果較好。其復(fù)合型的ΔPr稍大,這意味著該模型對此類冗余清理效果比其他兩類冗余清理效果稍低一些,由于其實驗樣本數(shù)較少,對此類冗余清理效果評價可能會存在一定的偏差。但是,從整體上看,三類冗余的ΔPr值與F1值均處于一個較好的水平,亦表明該模型的有效性,同時,也為OSM建筑物數(shù)據(jù)的管控提供了一個新的視角。 表3 冗余清理統(tǒng)計分析 單位:% 本文針對OSM平臺上建筑物數(shù)據(jù)冗余問題,基于層次化、規(guī)則化的理論方法,結(jié)合建筑物要素的幾何、屬性、拓?fù)淙愋畔?構(gòu)建了一套從冗余識別到冗余分類再到冗余清理的體系,進(jìn)而提出一種基于層次規(guī)則的OSM建筑物目標(biāo)冗余的清理模型。本模型對于眾源地理信息準(zhǔn)實時的特點來說,能夠很好地解決不活躍地區(qū)建筑物冗余更新遲緩的問題,并且可以高效地清理出冗余數(shù)據(jù),提高數(shù)據(jù)的實用性。相對于一些現(xiàn)有的數(shù)據(jù)清理方法,本文所提模型既考慮了專業(yè)建筑物數(shù)據(jù)管理中存在的問題,又顧及了眾源建筑物數(shù)據(jù)冗余的問題,其清理模式更加符合OSM建筑物數(shù)據(jù)管理的要求。試驗結(jié)果表明,該模型能夠準(zhǔn)確地清理出絕大部分的冗余數(shù)據(jù),亦證明其模型的有效性,為OSM建筑物數(shù)據(jù)清理提供了一個新的視角。 本文所提出建筑物冗余清理模型主要是針對規(guī)則建筑物冗余,尚未過多顧及不規(guī)則建筑物的幾何、屬性及拓?fù)涞刃畔?且建筑物的幾何特征及拓?fù)涮卣髟谠撃P椭姓急容^重,若對于相應(yīng)的不規(guī)則建筑物冗余的清理,該模型的清理效果相對較差,此外,貢獻(xiàn)者信譽度、版本號及編輯時間等因素對冗余清理也會產(chǎn)生一定的影響。如何實現(xiàn)將其他多方面的影響因素納入建筑物冗余清理模型,進(jìn)一步優(yōu)化冗余清理模型,以便更加精確地清理建筑物冗余是后續(xù)工作中需要繼續(xù)探究的問題。3.2 冗余清理
3.3 冗余清理評價
4 試驗與分析
5 結(jié)束語