周俊生, 曲維光,許菊紅,龍毅,朱耀邦
(1. 南京師范大學 計算機科學與技術(shù)學院,江蘇 南京 210023;2. 南京師范大學 地理科學學院,虛擬地理環(huán)境教育部重點實驗室,江蘇 南京 210023)
隨著地理信息系統(tǒng)(GIS)應(yīng)用的普及,中文GIS應(yīng)用越來越面向公眾服務(wù),如位置信息服務(wù)、車載地圖導航及旅游景點介紹等。人們可以通過GIS系統(tǒng)查詢一些與日常生活息息相關(guān)的信息,比如“107國道穿越哪幾個縣”、“查詢金陵飯店附近500米范圍內(nèi)的超市”等。但如果在傳統(tǒng)的基于窗口、菜單和對話框等形式的GIS條件界面上執(zhí)行這些GIS操作時,經(jīng)常需要在不同的圖層設(shè)置條件和輸入信息,比較繁瑣與低效。因此,如果在GIS中合理運用自然語言接口實現(xiàn)人機間的通信交互,更符合人們的認知習慣和語言習慣,更有助于GIS的應(yīng)用普及。近些年來,許多研究者在中文GIS的自然語言接口技術(shù)上展開了一系列的研究[1-4],但是目前的研究主要還是基于文法規(guī)則或模式匹配的方法。顯然,這種基于規(guī)則匹配的方法很難解決中文表達的靈活性問題。
另一方面,近些年來語義解析(semantic parsing)已成為自然語言處理領(lǐng)域的一個研究熱點。語義解析的目標是將自然語言形式的句子轉(zhuǎn)換成一種完全形式化的意義表示MR(Meaning Representation)[5]。由于意義表示語言MRL(Meaning Representation Language)是一種無歧義的形式化語言,因而,基于一種形式化的MRL給出的自然語言句子的意義表示可以被計算機直接處理和自動推理。在過去的十來年中,研究者們提出了多種基于統(tǒng)計學習模型的語義解析方法。例如,Wong 提出了一種基于統(tǒng)計機器翻譯技術(shù)的語義解析算法WASP[6],Lu 提出了一種基于生成式模型(generative model)的語義解析方法[7]。Kwiatkowski 則提出了基于組合范疇文法CCG(Combinatory Categorial Grammar)以及高階合一方法的語義解析方法等[8]。
因此,本文將采用語義解析方法對中文GIS自然語言接口實現(xiàn)技術(shù)展開探索性的研究。為了能夠采用有監(jiān)督學習的中文語義解析算法實現(xiàn)中文GIS自然語言接口,我們首先選擇一個GIS具體應(yīng)用領(lǐng)域設(shè)計了一種形式化意義表示語言,并開發(fā)了一個相應(yīng)的語義解析標注語料庫;然后,我們設(shè)計了一種有效的語義解析算法,實現(xiàn)了GIS操作的自然語言輸入到形式化意義表示形式的轉(zhuǎn)換。在所開發(fā)的語料庫上進行的十折交叉驗證實驗結(jié)果顯示,本文所采用的語義解析算法的F1值達到了90.67%,性能明顯優(yōu)于baseline系統(tǒng)。
為了將自然語言的句子轉(zhuǎn)化成一種計算機可理解和執(zhí)行的形式化表示,首先需要定義一種形式化的意義表示語言。具體地,我們以南京市地圖信息查詢作為應(yīng)用領(lǐng)域,設(shè)計了一種函數(shù)式的形式化意義表示語言GISQL,在此基礎(chǔ)上,我們進一步開發(fā)了一個相應(yīng)的中文語義解析標注語料庫。
GISQL是一種函數(shù)式的意義表示語言,之所以選擇函數(shù)式的形式語言表示而沒有選擇更加普遍使用的SQL語言是因為函數(shù)式語言能夠提供一種更加易于實現(xiàn)映射的組合形式將自然語言句子映射到復雜的意義表示形式。意義表示語言中的基本元素與GIS數(shù)據(jù)庫對象的一些術(shù)語之間存在一定的對應(yīng)關(guān)系。這些基本元素包含非終結(jié)符和函數(shù)(或謂詞)。在GIS數(shù)據(jù)庫中,存在很多的實體類型,例如學校、超市、銀行、景點、娛樂場所等,所以對于不同的實體類型定義不同的非終結(jié)符是不切實際的。因此我們引入了一個非終結(jié)符“ENTITYNAME”代表各種不同類型的實體,包括地名、單位名、街道名、行政區(qū)名等。但在每一次引用時它指代的實體是確定和唯一的,例如“夫子廟”、“文苑路”、“玄武區(qū)”等地理命名實體。此外,在自然語言的表達中有一些實體名具有不確定性,比如 “蘇果超市”、“銀行”等并不能代表一個特定位置的超市和銀行。為此,我們引入了另外一種非終結(jié)符“ENTITYTYPENAME”代表不確定的實體類型。在GISQL文法中,我們共設(shè)計了10種不同的非終結(jié)符,如表1所示。
表1 GISQL中的非終結(jié)符
基于以上的非終結(jié)符集合的設(shè)計,我們進一步為GISQL文法設(shè)計和構(gòu)造了一個函數(shù)(或謂詞)集合,共包含54個不同函數(shù),表2中給出了GISQL中的部分函數(shù)實例及其相應(yīng)的意義。GISQL中的函數(shù)和GIS系統(tǒng)本身提供的函數(shù)并不具有直接的對應(yīng)關(guān)系(本文實驗中使用的GIS系統(tǒng)是ArcGis)。簡單地說,GISQL中的單個函數(shù)可能涉及到GIS中多個函數(shù)的嵌套調(diào)用。例如,GISQL中的函數(shù)的contain(Entity, EntityTypeName)函數(shù)是首先由GIS中的QueryEntity(List
表2 GISQL中的一些函數(shù)實例描述
形式文法是由一系列產(chǎn)生式組成的,定義了非終結(jié)符和函數(shù)集合后,就可定義形式化意義表示語言中的產(chǎn)生式。對于每個非終結(jié)符都可以定義一個或多個產(chǎn)生式,而每一個句子意義表示均是由多個產(chǎn)生式組合而成,并且一個特定的產(chǎn)生式組合能確定唯一的MR解析樹。圖1給出了一個自然語言查詢實例和其相應(yīng)的意義表示以及對應(yīng)的MR解析樹。
(a) 自然語言查詢實例: 查詢在人口密度最小的行政區(qū)內(nèi)所有蘇果超市的面積和是多大?
(b) 形式化意義表示: answer(sum(area(contain(smallest_one(density(queryentity('行政區(qū)'))),'蘇果超市'))))
(c) 意義表示(MR)解析樹:
圖1 一個自然語言的查詢實例及其相應(yīng)的的MR解析樹
為了建立基于有監(jiān)督學習的中文語義解析器和實驗測試的需要,我們在GISQL文法設(shè)計的基礎(chǔ)上開發(fā)了一個中文語義解析標注語料庫。為此,我們需要收集大量關(guān)于南京市地圖查詢的中文自然語言查詢實例。為了使收集的查詢問題實例更接近于人們在實際生活中可能提出的真實查詢問題,我們在組織學生收集具體的中文自然語言查詢實例之前,首先全面分析和考慮了涉及南京市地圖查詢的所有可能的問題類型,并設(shè)計了一個實際查詢問題的類型方案。具體的,我們依據(jù)可能的查詢目標將所有可能的真實查詢問題共分為七種類型,如表3所示。其中每種類型下可包含大量不同的查詢實例表達,而且一些類似的問題也可以根據(jù)不同的句式添加不同的實例表達,例如可以根據(jù)人們的表達習慣,將查詢動詞、語氣詞、查詢目標三者之間的位置互換等。針對這七種查詢問題的類型,我們共收集了1 110條自然語言實例。這些自然語言查詢實例表達都是非常常見和靈活的自然語言查詢問句,有些比較口語化,如包含詞語的缺失、詞序的靈活變動等。
表3 自然語言查詢的問題類型與相應(yīng)實例
對于收集的這1 110個自然語言實例,我們根據(jù)GISQL文法對每個實例的意義表示形式都進行人工標注和校對,從而構(gòu)成了1 110個自然語言句子/意義表示(NL/MR)對的語料庫。其中,自然語言句子的平均長度為16.38個字,意義表示的平均長度為7.72。
在英文語義解析研究中,目前廣泛使用的一個實驗語料庫是GEOQUERY[9],它是隨Turbo Prolog 2.0一起發(fā)布的一個小的數(shù)據(jù)集,共包含880條關(guān)于美國簡單地理信息的自然語言查詢實例(例如,“美國最高的山是哪個?”、“有哪些河流經(jīng)德克薩斯州?”等),并對這些實例采用了一種邏輯查詢語言進行了標注。相對于GEOQUERY,本文研究的實際GIS應(yīng)用領(lǐng)域更復雜,因而設(shè)計的GISQL文法也更復雜,包含了更多數(shù)量的函數(shù)和產(chǎn)生式;而且,我們開發(fā)的語料庫規(guī)模也更大。
語義解析任務(wù)是將自然語言句子x轉(zhuǎn)換成形式化的意義表示y,其中,輸入x是詞的序列,輸出y是由形式化意義表示文法中的產(chǎn)生式構(gòu)成的MR樹。顯然,判別式的結(jié)構(gòu)化學習模型非常適合于求解語義解析任務(wù)。但是,句子x中的詞和MR樹y中的結(jié)點之間并不存在直接的對應(yīng)關(guān)系。為了解決這個問題,一種有效的方法是通過引入隱變量h構(gòu)造輸入句子和輸出的意義表示之間的對應(yīng)性[11]。假設(shè)給定輸入句子x,輸出的MR樹y和隱變量h的聯(lián)合特征向量,用F(x,h,y)表示,w表示一組相對應(yīng)的參數(shù)。判別式結(jié)構(gòu)化預測模型f用于返回輸出的得分最高的意義表示y,同時最大化隱變量h[10],如公式(1)所示:
(1)
應(yīng)用隱變量結(jié)構(gòu)化預測模型解決語義解析問題將面臨三個方面的挑戰(zhàn)[11]: 1)如何引入一個合適的隱變量對輸入和輸出之間的對應(yīng)關(guān)系進行建模;2)如何設(shè)計一個有效的學習算法用于直接優(yōu)化最大化問題的模型參數(shù)w;3)在龐大的樹結(jié)構(gòu)搜索空間中,如何設(shè)計一個有效的解碼算法以獲得最優(yōu)輸出。
我們引入混合樹(hybrid tree)作為隱變量構(gòu)造輸入句子和輸出的意義表示樹(MR-tree)的對應(yīng)關(guān)系,因為它提供了一個自然的結(jié)構(gòu)表示自然語言句子中的詞語和意義表示文法中的產(chǎn)生式的相關(guān)性[7]?;旌蠘涫怯勺匀徽Z言詞語作為葉子節(jié)點和文法中的產(chǎn)生式作為內(nèi)部節(jié)點的樹。圖2中給出了在圖1中所示的實例對應(yīng)的一棵混合樹。
圖2 混合樹實例
對于每一對輸入句子x和對應(yīng)的輸出MR樹y,可能存在多個不同的推導能夠建立輸入輸出對(x,y)之間的對應(yīng)關(guān)系,而其中的每一個推導構(gòu)成了一棵混合樹。對每一棵混合樹通過保留其中的產(chǎn)生式中間結(jié)點和地理實體終結(jié)符可派生出唯一的一棵MR樹或一種形式化意義表示。因此,混合樹結(jié)構(gòu)非常適合在判別式結(jié)構(gòu)化模型中充當隱變量結(jié)構(gòu)。
基于效率和收斂性的考慮[12],我們采用隱變量感知器算法學習判別式模型的語義解析器。類似于結(jié)構(gòu)化感知器[13],隱變量感知器算法也是一種通過迭代訓練集的在線學習算法,圖3中描述了語義解析任務(wù)中的隱變量感知器算法。此算法主要通過學習預測混合樹來幫助解決解析任務(wù),在算法中存在以下兩種解碼任務(wù):
其中,h*表示與實例對(xi,yi)對應(yīng)的混合樹。對訓練實例對(xi,yi)我們可以通過應(yīng)用一種約束的隱結(jié)構(gòu)解碼器來預測混合樹h*。約束解碼器是指解碼搜索過程中僅使用正確解析樹yi中的MR產(chǎn)生式作為候選MR產(chǎn)生式集合去搜索得分最高的混合樹,且此混合樹涵蓋了句子xi中的所有詞語。而混合樹h′則可以通過一種非約束的普通解碼器進行預測,并且從混合樹h′中可直接提取預測輸出y′,該操作用運算式Proj(h)表示。受MIRA在線學習算法的啟發(fā)[14],本文采用最大間隔原則更新參數(shù)向量w。
圖3 基于隱變量感知器的語義解析訓練算法
在基于含隱變量的結(jié)構(gòu)化感知器的判別式學習模型中,特征模板的設(shè)計非常重要。在混合樹中,結(jié)點或者對應(yīng)于自然語言(NL)詞,或者對應(yīng)于一個MR產(chǎn)生式,每個NL詞和子MR產(chǎn)生式都是由它的直接父MR產(chǎn)生式產(chǎn)生的。換句話說,混合樹中的所有NL詞和子MR產(chǎn)生式都連接到他們的父MR產(chǎn)生式。為了能全面地描述混合樹的結(jié)構(gòu)特性,我們共設(shè)計了四種類型特征:
1) 詞特征(Word features);
2) 產(chǎn)生式特征(Production features);
3) 詞和產(chǎn)生式的混合特征(Mixture features);
4) 混合模式特征(hybrid pattern features)。
表4中給出了所有類型的特征模板定義。其中,前三種類型特征用于獲取父MR產(chǎn)生式和它所有孩子結(jié)點之間的相關(guān)性。最后一種特征描述由父產(chǎn)生式結(jié)點向下延伸的混合模式,具體地說,對于混合樹中一個給定的MR產(chǎn)生式結(jié)點,混合模式是指該結(jié)點下的自然語言的詞序列和其各個子MR產(chǎn)生式結(jié)點之間組合的形式。為簡化解碼過程,在文法GISQL中我們已約定每個MR產(chǎn)生式的右邊最多有兩個子語義范疇,即含有兩個子MR產(chǎn)生式。
表4 特征模板
其中,w表示自然語言中的詞,w-1表示詞w左邊的第一個詞,p表示子MR產(chǎn)生式,par表示與一個NL詞或者一個子MR產(chǎn)生式直接相關(guān)的父MR產(chǎn)生式,rule表示一個混合模式;isConstant(w)用于檢查w是否是已知常量,例如地理命名實體等;predicate(p)表示從MR產(chǎn)生式p中提取出函數(shù)(或謂詞)。
解碼算法的目標是根據(jù)模型參數(shù)找到分值最高的混合樹。由于前述的所有特征模板均具有局部性,因此我們設(shè)計了一種動態(tài)規(guī)劃解碼算法有效地產(chǎn)生最優(yōu)混合樹。
在動態(tài)規(guī)劃的解碼算法中,首先讓每一個子問題對應(yīng)于混合樹中以某個MR產(chǎn)生式為根的子樹,該子樹派生自然語言句子中的部分詞;然后,根據(jù)每個根MR產(chǎn)生式涵蓋的詞的個數(shù)以及根MR產(chǎn)生式相關(guān)的所有可能混合模式來分解子問題;最后,依照自底向上的次序求解所有子問題。但是,由于算法中可能的混合模式數(shù)量多達21個,從而導致動態(tài)規(guī)劃中的遞歸表達非常復雜,圖4中僅給出了算法的簡要輪廓描述。該動態(tài)規(guī)劃算法的時間復雜度為O(n2T2),其中n為句子的長度,T為候選MR產(chǎn)生式的個數(shù)。
圖4 語義解析中的動態(tài)規(guī)劃解碼算法
由于解碼算法的時間復雜度不僅依賴于句子的長度,而且還與候選MR產(chǎn)生式集合的大小有關(guān)。因此,為了在測試階段能進一步提高解碼的效率和準確率,我們提出了一個基于向量空間模型的MR產(chǎn)生式排序方法來提取相關(guān)的MR產(chǎn)生式用于解碼,而不是簡單地使用所有可能的MR產(chǎn)生式作為候選集合。
類似于文檔排序方法[15],我們利用向量空間模型將相關(guān)MR產(chǎn)生式的提取問題轉(zhuǎn)換為MR產(chǎn)生式排序問題。但是與文檔排序問題不同的是,將每個可能的MR產(chǎn)生式表示成一個向量是非常困難的。對于訓練數(shù)據(jù)集中的每個實例,它的正確MR樹均是給定的,而每個訓練實例的正確MR樹中一般都包含多個不同的MR產(chǎn)生式,如何建立各個MR產(chǎn)生式與自然語言句子中一個詞或多個詞之間可能存在的關(guān)聯(lián)性呢?為了解決這個問題,我們首先設(shè)計了一個簡單有效的方式來構(gòu)建每個MR產(chǎn)生式的向量。
第一步,對于每一個訓練實例通過從其自然語言句子中抽取所有一元、二元、三元詞匯串的方式建立一個相應(yīng)的向量表示;接下來,為了給出每個MR產(chǎn)生式的向量表示,我們對包含該MR產(chǎn)生式的所有訓練實例的向量進行求和,用此和向量作為該MR產(chǎn)生式的對應(yīng)的向量表示。對每個MR產(chǎn)生式的向量表示均按此方法計算獲取。采用這種計算方法的基本理由是: 因為與某個MR產(chǎn)生式密切相關(guān)的一些詞或短語可能會多次出現(xiàn)在其MR樹中包含該MR產(chǎn)生式的訓練實例句子中,因此,對包含相同MR產(chǎn)生式的實例向量進行相加求和可以導致在該MR產(chǎn)生式對應(yīng)的和向量中與這些詞或短語對應(yīng)的項會具有較高的頻度值。
其次,為每個MR產(chǎn)生式構(gòu)建向量表示的另一個重要問題是MR產(chǎn)生式向量中每一項的權(quán)重如何設(shè)置?如果簡單按照上述求和方式直接構(gòu)建每個MR產(chǎn)生式向量將會導致在和向量中必然存在很多噪音,為此我們采用一種修改的tf-idf權(quán)重方案,即通過計算相對詞頻值來替換傳統(tǒng)的詞頻,因為相對詞頻值可以更好地反應(yīng)向量中的各個特征項對于一個MR產(chǎn)生式的重要性。
在測試時,對于一個給定的測試自然語言實例,首先按上述方法構(gòu)造一個向量表示,然后根據(jù)余弦相似度計算提取前n個相似度最高的MR產(chǎn)生式作為該測試實例的相關(guān)MR產(chǎn)生式集合。其中,n的值可由句子中包含詞的個數(shù)確定。
在過去的十來年中,研究者們提出了多種基于有監(jiān)督學習的語義解析模型與算法。Wong提出了一種基于統(tǒng)計機器翻譯技術(shù)的語義解析算法WASP[6]。該算法從成對的標注訓練語料中學習同步上下文無關(guān)文法SCFG形式的轉(zhuǎn)換規(guī)則來捕捉自然語言句子與意義表示之間的關(guān)系。Wong進一步將WASP擴展到處理λ演算意義表示形式,提出了一種語義解析算法λ-WASP[16]。Li通過對統(tǒng)計機器翻譯領(lǐng)域中經(jīng)典的同步文法學習算法GHKM進行了擴展[17],用于從成對的自然語言句子與邏輯形式的標注數(shù)據(jù)集中學習歸納λ-SCFG的規(guī)則集,更好地建立了自然語言句子與邏輯形式的對應(yīng)關(guān)系。然而,這些基于SCFG規(guī)則的語義解析算法主要是在采用基于λ演算的邏輯形式的意義表示類型的語義解析問題中表現(xiàn)了較好的性能,而本文主要聚焦于函數(shù)式(variable-free)的意義表示類型。
Lu提出了一種基于生成式模型的語義解析方法[7],該方法首先定義了一種混合樹結(jié)構(gòu),然后提出一種生成式模型對自然語言句子和其意義表示關(guān)系進行聯(lián)合建模,在利用生成式模型輸出n-best結(jié)果的基礎(chǔ)上,進一步采用一個判別式模型并引入各種非局部特征對n-best結(jié)果進行重排序。本文中的語義解析算法也借鑒了混合樹的結(jié)構(gòu),但我們將混合樹視為一種隱變量,設(shè)計了一種有效的判別式學習模型直接實現(xiàn)了語義解析過程,避免了生成式模型中需要引入各種獨立性假設(shè)的不足。該方法既具有判別式模型能夠方便地嵌入各種靈活的特征組合表示的優(yōu)點,又自然地將解碼算法集成在訓練與推導階段。
近年來,基于組合范疇文法CCG(Combinatory Categorial Grammar)的英文語義解析研究受到了較多的關(guān)注[18]。CCG作為一種能夠耦合語法和語義關(guān)系的有效語言文法形式,能夠?qū)Ω鞣N語言現(xiàn)象進行描述與建模[19]。但采用基于CCG的語義解析方法時,如何獲取一個好的、有效的詞典是一個非常困難的問題。Kwiatkowski則通過使用高階合一(higher-order unification)的方法定義了一個與訓練數(shù)據(jù)一致的包含所有文法的假設(shè)空間,實現(xiàn)了詞項的自動生成,從而避免了人工設(shè)計規(guī)則模板的復雜性[8]。
基于我們開發(fā)的包含1 110條實例的中文語義解析標注語料庫,采用我們提出的含隱變量的感知器模型的語義解析算法進行了十折交叉驗證實驗,并計算其微平均(micro-averaged)結(jié)果。實驗的評價指標采用了傳統(tǒng)的準確率(precision)、召回率(recall)和F1值。其中,對于每個測試實例預測正確性的判定方法是: 當預測產(chǎn)生的MR樹與對該實例標注的正確MR樹完全一致時,才認為該實例的測試輸出是正確的。
為提高測試階段的效率與準確率,我們提出了一種基于排序方法的候選MR產(chǎn)生式集合抽取方法,為了驗證該方法的有效性,我們進行了兩組十折交叉驗證對比實驗,實驗結(jié)果如表5所示。表中第一行(LP)表示采用隱變量感知器模型進行訓練,在測試時使用所有的MR產(chǎn)生式作為候選產(chǎn)生式集合;而第二行(LP+EXT)表示采用同樣的隱變量感知器模型LP進行訓練,但在測試時對每個測試實例分別使用排序訪法抽取一個更小的候選MR產(chǎn)生式集合后進行解碼。從表中的實驗結(jié)果可以看出,通過基于排序法實現(xiàn)更小MR產(chǎn)生式候選集合的抽取明顯改進了時間效率,將總的測試時間縮短了將近2/3。同時,語義解析的準確率也得到了顯著的提高,F(xiàn)1值提高了3.2%,獲得了25.5%的錯誤減少率。
表5 增加候選MR產(chǎn)生式集合提取方法的實驗結(jié)果對比
為了能夠驗證我們的方法在中文GIS自然語言接口實現(xiàn)中的有效性,我們也實現(xiàn)了兩個baseline系統(tǒng)。我們選擇Lu 提出的產(chǎn)生式模型并結(jié)合重排序的后處理過程[7],以及Kwiatkowski 提出的基于CCG文法和采用高階合一方法自動構(gòu)造詞典的的語義解析模型[8]構(gòu)造了兩個baseline系統(tǒng),分別記為baseline-1和baseline-2。因為這兩種方法是目前英文語義解析研究中性能領(lǐng)先的基于有監(jiān)督學習模型,而且它們也不需要任何額外的語法先驗知識,因而這兩種方法和我們的方法具有直接的可比較性。
表6中的實驗結(jié)果顯示,在F1值上,我們的系統(tǒng)比baseline-1系統(tǒng)獲得了4.11%的提高,相對于目前在英文語義解析任務(wù)中具有最佳解析性能的baseline-2系統(tǒng)也高出了1.77%。同時注意到,我們系統(tǒng)的召回率和準確率幾乎相等。這意味著對于幾乎所有的測試實例,我們的系統(tǒng)都能解析出一個意義表示樹結(jié)果。一個可能的原因是因為我們的方法是基于判別式結(jié)構(gòu)化預測模型,它能夠很好地集成各種有效的特征組合,因而對一些訓練數(shù)據(jù)中未見的MR產(chǎn)生式具有一定的平滑作用。
表6 不同方法的實驗結(jié)果對比
本文針對基于語義解析的中文GIS自然語言接口實現(xiàn)技術(shù)與方法進行了探索性的研究。我們選擇南京市地圖查詢作為具體的實際應(yīng)用領(lǐng)域,首先設(shè)計了一個形式化意義表示語言GISQL,并在此基礎(chǔ)上開發(fā)了一個相應(yīng)的中文語義解析標注語料庫。
據(jù)我們所知,這也是第一個中文語義解析語料庫。然后,我們提出了一種基于含隱變量的感知器模型的語義解析算法。在開發(fā)的中文語義解析標注語料庫上的實驗結(jié)果顯示,該算法的F1值達到了90.67%,明顯優(yōu)于兩個baseline系統(tǒng)。更重要的是,本文的研究結(jié)果證明了基于語義解析方法實現(xiàn)中文GIS的自然語言接口是一種有效可行的途徑。
在下一步的工作中,我們將擴展形式化意義表示語言GISQL和語料庫,以覆蓋更廣泛的GIS應(yīng)用領(lǐng)域與問題,包括地圖瀏覽、數(shù)據(jù)采集和空間分析等領(lǐng)域;另外,我們將研究基于啟發(fā)式搜索的結(jié)構(gòu)化學習算法,這樣能夠引入更多非局部化的特征描述混合樹結(jié)構(gòu),從而會產(chǎn)生更好的語義解析性能。
[1] 張連蓬,儲美華,劉國林,江濤. 車載智能地理信息查詢系統(tǒng)及其自然語言接口[J]. 現(xiàn)代測繪, 2005, 28(1): 20-23.
[2] 馬林兵, 龔健雅. 空間信息自然語言查詢接口的研究與應(yīng)用[J]. 武漢大學學報(信息科學版), 2003, 28 (3): 301-305.
[3] S Mador-Haim, Y Winter, A Braun. Controlled language for geographical information system queries[C]//Proceedings of Inference in Computational Semantics, 2006.
[4] 余明朗, 明小娜, 龍毅, 張雪英. GIS環(huán)境下中文命令的規(guī)則匹配與語義解析[J]. 地理與地理信息科學, 2012, 28(6): 7-12.
[5] R J Kate, Y W Wong, R J Mooney. Learning to transform natural to formal languages[C]//Proceedings of AAAI, 2005: 1062-1068.
[6] Y W Wong, R J Mooney. Learning for semantic parsing with statistical machine translation[C]//Proceedings of the HLT-NAACL, 2006: 439-446.
[7] Wei Lu, Hwee Tou Ng, Wee Sun Lee, Luke S. Zettlemoyer. A Generative Model for Parsing Natural Language to Meaning Representations[C]//Procee-dings of EMNLP, 2008: 913-920.
[8] Tom Kwiatkowski, Luke Zettlemoyer, Sharon Goldwater, Mark Steedman. Inducing probabilistic CCG grammars from logical form with higher-order unification[C]//Proceeding of EMNLP, 2010: 1223-1233.
[9] John M. Zelle, Raymond J. Mooney. Learning to parse database queries using inductive logic programming[C]//Proceedings of AAAI, 1996: 1050-1055.
[10] C N J Yu, T Joachims. Learning structural svms with latent variables[C]//Proceedings of ICML, 2009.
[11] Junsheng Zhou, Juhong Xu, Weiguang Qu. Efficient Latent Structural Perceptron with Hybrid Trees for Semantic Parsin[C]//Proceedings of the IJCAI, 2013: 2246-2252.
[12] Michael Collins. Discriminative training methods for hidden Markov models: Theory and experiments with perceptron algorithms[C]//Proceeding of EMNLP, 2002.
[13] Xu Sun, Takuya Matsuzaki, Daisuke Okanohara Jun’ichi Tsujii. Latent Variable Perceptron Algorithm for Structured Classification[C]//Proceedings of IJCAI, 2009: 1236-1242.
[14] Ryan McDonald. Discriminative Training and Spanning Tree Algorithms for Dependency Parsing[D]. University of Pennsylvania, PhD Thesis, 2006.
[15] D L Lee, H Chuang, K Seamons. Document Ranking and the Vector-Space Model[J]. IEEE Software, 1997, 14(2): 67-75.
[16] Yuk Wah Wong, Raymond J. Mooney. Learning Synchronous Grammars for Semantic Parsing with Lambda Calculus[C]//Proceedings of ACL, 2007: 203-210.
[17] Peng Li, Yang Liu, Maosong Sun. An Extended GHKM Algorithm for Inducing -SCFG[C]//Proceedings of AAAI, 2013: 605-611.
[18] L S Zettlemoyer, M Collins. Online learning of relaxed CCG grammars for parsing to logical form[C]//Proceedings of EMNLP-CoNLL, 2007: 678-687.
[19] Mark Steedman. The Syntactic Process[M]. The MIT Press, Cambridge, Mass,2000.