張春菊合肥工業(yè)大學(xué)土木與水利工程學(xué)院,安徽合肥230009
面向中文文本的事件時(shí)空與屬性信息解析方法研究
張春菊
合肥工業(yè)大學(xué)土木與水利工程學(xué)院,安徽合肥230009
隨著網(wǎng)絡(luò)與信息技術(shù)的快速發(fā)展,人們作為“傳感器”行走在真實(shí)社會(huì)中制造實(shí)時(shí)的、實(shí)地環(huán)境的、大范圍的地理信息?;ヂ?lián)網(wǎng)逐步發(fā)展為地理信息最大的收藏地。地理信息已步入大數(shù)據(jù)時(shí)代,其中80%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù)(包括自然語言、圖像、視頻等)。文本是人們空間認(rèn)知結(jié)果的自然語言表現(xiàn)形式,也是最重要的地理信息來源和最有潛力的人機(jī)交互手段。事件是人們認(rèn)識(shí)和了解世界的基本單位,包括時(shí)間、空間和主題3個(gè)基本特征,是地理信息的主要內(nèi)容,亦是網(wǎng)絡(luò)文本信息表達(dá)的基本粒度和主要形式。事件成為文本數(shù)據(jù)源中地理信息表達(dá)的紐帶。論文從GIS和自然語言相結(jié)合的角度,較為系統(tǒng)地探討了以“文本描述-規(guī)范化表達(dá)-結(jié)構(gòu)化抽取-可視化重構(gòu)”為主線的中文文本中事件時(shí)空與屬性信息解析方法,采用機(jī)器學(xué)習(xí)方法解決其中的關(guān)鍵問題,搭建了事件時(shí)空信息的定性表達(dá)與GIS定量挖掘分析的“橋梁”,為泛在地理信息動(dòng)態(tài)關(guān)聯(lián)更新,事件時(shí)空模式挖掘分析等奠定數(shù)據(jù)源基礎(chǔ)和技術(shù)支撐。論文主要研究?jī)?nèi)容如下:
(1)歸納總結(jié)了中文文本中事件時(shí)空與屬性信息的語言描述特點(diǎn)和語義結(jié)構(gòu),設(shè)計(jì)了事件時(shí)空與屬性信息的標(biāo)注體系和標(biāo)注模式,形成了較為完善的事件時(shí)空與屬性信息標(biāo)注規(guī)范。該規(guī)范采用了XML schema的標(biāo)記方式,具有與GML、KML和TRML等較好的兼容轉(zhuǎn)換性能。
(2)通過構(gòu)建時(shí)間詞匯詞典和描述模式,研究了基于規(guī)則模型的時(shí)間信息抽取、推理和規(guī)范化方法,開放測(cè)試中準(zhǔn)確率、召回率和F值分別為75.00%、88.24%和40.54%;實(shí)現(xiàn)了基于Bootstrapping弱監(jiān)督學(xué)習(xí)方法的屬性信息抽取,該方法針對(duì)屬性信息描述的復(fù)雜性,可以跳過深層句法分析,降低了抽取難度,特別是對(duì)量詞性的屬性信息,其準(zhǔn)確率和召回率達(dá)80.80%和85.16%;采用條件隨機(jī)場(chǎng)模型,研究了融合時(shí)間、地名、詞性等上下文語言環(huán)境的事件名稱識(shí)別方法,在開放測(cè)試中,準(zhǔn)確率、召回率和F值分別為82.08%、80.18%和81.12%。
(3)結(jié)合事件的時(shí)空表達(dá)特性和文本中事件時(shí)空信息的描述特點(diǎn),提出了一種融合時(shí)間、空間、屬性、事件名稱、觸發(fā)詞匯等多種上下文語義和語境信息的事件分類方法。按照句子、段落、篇章3個(gè)語言單元等級(jí),探討了事件替代性名稱的推理方法。實(shí)驗(yàn)結(jié)果表明,事件分類準(zhǔn)確率在封閉和開放測(cè)試中分別達(dá)到92.30%和80.60%。與已有研究中事件分類方法相比,準(zhǔn)確率提高了3.30%和5.60%。
(4)針對(duì)結(jié)構(gòu)化、定性的事件時(shí)空與屬性信息,以全國地名數(shù)據(jù)庫為數(shù)據(jù)源,基于時(shí)間地理學(xué)理論,采用分級(jí)式、層層匹配的方式實(shí)現(xiàn)了事件時(shí)空信息匹配與可視化表達(dá),研究了基于“時(shí)間-空間-概念類型”三重一致性約束的主題事件判斷方法和時(shí)空過程重構(gòu)方法,實(shí)現(xiàn)了事件信息的各組成要素單元有機(jī)、直觀地可視化表達(dá)在空間和時(shí)間軸上。
論文研究顯示,采用規(guī)則模型和統(tǒng)計(jì)模型結(jié)合的方式可以有效實(shí)現(xiàn)中文文本中事件時(shí)空與屬性信息抽取,但是特征項(xiàng)的設(shè)置在統(tǒng)計(jì)模型的學(xué)習(xí)過程中起到舉足輕重的作用;不同類型事件的時(shí)間、地名、空間關(guān)系、事件名稱和類型等信息抽取模型具有通用性和可移植性,而屬性信息存在較大差異,需要針對(duì)具體類型事件構(gòu)建相應(yīng)知識(shí)庫和學(xué)習(xí)模型;事件類型判斷存在靈活、語義模糊、不確定性特點(diǎn),且屬于多標(biāo)記分類,融合詞性、觸發(fā)詞匯、時(shí)間、空間、屬性和事件名稱等多種上下文語義和語境信息,可以有效提高事件分類效果;空間數(shù)據(jù)的質(zhì)量和覆蓋范圍,以及空間關(guān)系解析模型,對(duì)事件時(shí)空信息匹配、時(shí)空過程重構(gòu)性能具有較大的影響。
Interpretation of Event Spatio-temporaI and Attribute Information in Chinese Text
ZHANG Chunju
SchooI of CiviI Engineering,Hefei University of TechnoIogy,Hefei 230009,China
ZHANG Chunju.Interpretation of Event Spatio-temporal and Attribute Information in Chinese Text[J].Acta Geodaetica et Cartographica Sinica,2015,44(5):590.(張春菊.面向中文文本的事件時(shí)空與屬性信息解析方法研究[J].測(cè)繪學(xué)報(bào),2015,44(5):590.)
10.11947/j.AGCS.2015.20140657
P208
D
1001-1595(2015)05-0590-01
國家863計(jì)劃(2012AA12A403-3);國家自然科學(xué)基金(40971231;41401451)
2014-12-13
張春菊(1984—),女,講師,2013年6月獲南京師范大學(xué)地理科學(xué)學(xué)院地圖學(xué)與地理信息系統(tǒng)專業(yè)理學(xué)博士學(xué)位(指導(dǎo)教師:張雪英教授,吉根林教授),研究方向?yàn)榈乩硇畔⒅悄芴幚砼c服務(wù)。
Author:ZHANG Chunju(1984—),femaIe,received her doctoraI degree from Nanjing NormaI University on June 2014,majors in inteIIigent processing and service of geographic information.
E-maiI:zcjtwz@sina.com