侯東陽
1. 山東師范大學(xué)地理與環(huán)境學(xué)院,山東 濟南 250014; 2. 國家基礎(chǔ)地理信息中心, 北京 100830; 3. 中國礦業(yè)大學(xué)環(huán)境與測繪學(xué)院,江蘇 徐州 221116
地表覆蓋網(wǎng)絡(luò)化信息發(fā)現(xiàn)方法研究
侯東陽1,2,3
1. 山東師范大學(xué)地理與環(huán)境學(xué)院,山東 濟南 250014; 2. 國家基礎(chǔ)地理信息中心, 北京 100830; 3. 中國礦業(yè)大學(xué)環(huán)境與測繪學(xué)院,江蘇 徐州 221116
地表覆蓋及其變化是全球變化研究、生態(tài)環(huán)境評估以及地理國情監(jiān)測的重要基礎(chǔ)信息。近年來,通過網(wǎng)絡(luò)分發(fā)和共享,形成了由地表覆蓋數(shù)據(jù)、相關(guān)輔助數(shù)據(jù)及與地表覆蓋變化相關(guān)的事件信息組成的地表覆蓋網(wǎng)絡(luò)化信息。地表覆蓋網(wǎng)絡(luò)化信息的發(fā)現(xiàn)是開展相關(guān)領(lǐng)域科學(xué)研究和研制協(xié)作服務(wù)平臺的重要工作。然而,日益增多的地表覆蓋網(wǎng)絡(luò)化信息存在分散、互不聯(lián)通的特點,致使其發(fā)現(xiàn)和獲取較為困難。盡管其他領(lǐng)域已有許多網(wǎng)絡(luò)化信息發(fā)現(xiàn)方法,但是在地表覆蓋領(lǐng)域存在著地名主題詞普通化、時間分布平等化及信息搜索表層化的問題。為此,本文從其地名主題詞特殊化、時間意圖明確化和信息搜索雙層化的特殊要求出發(fā),提出了地表覆蓋網(wǎng)絡(luò)化信息發(fā)現(xiàn)的研究方法。本文的主要研究內(nèi)容如下:
(1) 提出了基于地名空間特征的雙向量主題表示及相關(guān)度計算方法,解決了地名主題詞普通化問題:從地名及其空間關(guān)系的作用出發(fā),將地名從傳統(tǒng)單向量中分離出來,形成由地名和普通關(guān)鍵詞獨立組成的雙向量;然后,借鑒地理信息檢索中分別判斷查詢詞關(guān)鍵詞相關(guān)度和查詢空間范圍相關(guān)度的思想,分步計算和判斷普通主題相關(guān)度、地名相關(guān)度和綜合相關(guān)度;其中,在計算地名主題相關(guān)度時引入了相等、相交、包含、被包含和相離5種空間關(guān)系因子,用于傳遞關(guān)聯(lián)地名的權(quán)重?;诖?,發(fā)展了一種基于地名空間特征的地表覆蓋網(wǎng)絡(luò)化信息發(fā)現(xiàn)方法,實現(xiàn)了地名主題詞特殊化的要求,其查準(zhǔn)率和F-Score值分別提高了約10%和7%。
(2) 提出了顧及時間意圖的主題相關(guān)度計算和URL優(yōu)先級分配方法,解決了時間分布平等化問題:首先,提出了基于Google趨勢數(shù)據(jù)的時間意圖識別方法,用于估算主題的起始時間和量化其時間分布;然后,分步計算時間相關(guān)度和普通主題相關(guān)度,用于強化起始時間的作用;接著,將時間分布量化值以指數(shù)函數(shù)的形式融入到傳統(tǒng)URL優(yōu)先級分配方法中,實現(xiàn)了時間分布優(yōu)先化的要求;并基于此發(fā)展了一種顧及時間意圖的地表覆蓋網(wǎng)絡(luò)化信息搜索方法,其查準(zhǔn)率平均提高了約10%。
(3) 提出了面向深層網(wǎng)絡(luò)的地表覆蓋網(wǎng)絡(luò)化信息獲取方法,解決了信息搜索表層化的問題:其是在傳統(tǒng)主題爬行的基礎(chǔ)上,利用關(guān)鍵詞或規(guī)則匹配來識別和理解腳本信息源及其內(nèi)容,用于獲取隱藏在腳本內(nèi)容中的深層地表覆蓋網(wǎng)絡(luò)化信息;基于此分別提出了面向深層網(wǎng)絡(luò)的地理標(biāo)記文本搜索方法和地表覆蓋Web地圖服務(wù)發(fā)現(xiàn)方法,滿足了地表覆蓋驗證樣本主動采集和地表覆蓋Web地圖服務(wù)發(fā)現(xiàn)的需要;結(jié)果表明,只需修改腳本識別和腳本內(nèi)容理解的關(guān)鍵詞或規(guī)則即可主動發(fā)現(xiàn)不同類型的深層網(wǎng)絡(luò)信息。
(4) 研制了地表覆蓋網(wǎng)絡(luò)化信息發(fā)現(xiàn)系統(tǒng)。根據(jù)GlobeLand30在線信息服務(wù)平臺和全球地理信息協(xié)作平臺的需要,基于論文提出的方法研制了地表覆蓋文本信息搜索子系統(tǒng)和地表覆蓋Web地圖服務(wù)發(fā)現(xiàn)子系統(tǒng),實現(xiàn)了地表覆蓋網(wǎng)絡(luò)化信息的發(fā)現(xiàn)、檢索及地圖可視化的功能。
Author: Hou Dongyang(1986—),male,received his doctoral degree from China University of Mining and Technology on June 2016,majors in spatio-temporal Web data discovery,mining and analysis.
E-mail: houdongyang1986@163.com
Method of Land Cover Web Information Discovery
HOU Dongyang1,2,3
1. College of Geography and Environment, Shandong Normal University, Jinan 250014, China; 2. National Geomatics Center of China, Beijing 100830, China; 3. School of Environment Science and Spatial Informatics, China University of Mining and Technology, Xuzhou 221116, China
侯東陽.地表覆蓋網(wǎng)絡(luò)化信息發(fā)現(xiàn)方法研究[J].測繪學(xué)報,2017,46(1):133.
10.11947/j.AGCS.2017.20160480. HOU Dongyang.Method of Land Cover Web Information Discovery[J]. Acta Geodaetica et Cartographica Sinica,2017,46(1):133. DOI:10.11947/j.AGCS.2017.20160480.
P228
D
1001-1595(2017)01-0133-01
國家自然科學(xué)基金(41231172)
2016-09-28
侯東陽(1986—),男,2016年6月畢業(yè)于中國礦業(yè)大學(xué),獲工學(xué)博士學(xué)位(指導(dǎo)教師:陳軍教授),研究方向為時空網(wǎng)絡(luò)數(shù)據(jù)搜索、挖掘與分析。