吳 越,張 翎,2*,龍 毅,2
(1.南京師范大學(xué)地理科學(xué)學(xué)院/虛擬地理環(huán)境教育部重點實驗室,江蘇 南京 210023;2.江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇 南京 210023)
自然語言利用文字組合表述地理實體、要素及其相互聯(lián)系[1],隨著大數(shù)據(jù)時代的到來,基于自然語言的地理信息技術(shù)研究的重心逐漸從地理實體、位置等空間信息的提取[2,3]轉(zhuǎn)向地理空間特征、語義特征的挖掘[4-6],而地理實體的重要性評價(即顯著性排序)正是面向自然語言層次化空間認(rèn)知研究[7]的重要內(nèi)容之一。景區(qū)導(dǎo)游詞是對特定景區(qū)的環(huán)境、景點與重要資源(自然與人文資源)進行系統(tǒng)描述的自然語言形式,除統(tǒng)計及信息特征[8-11],導(dǎo)游詞還包含大量實體相關(guān)的地理空間特征。因此,從景區(qū)導(dǎo)游詞出發(fā),探討景區(qū)地理實體的顯著性程度及其排序,有助于進一步了解景區(qū)的資源分布、合理布局游覽線路和實現(xiàn)層次化空間認(rèn)知。
目前,實體排序方法相關(guān)研究主要關(guān)注兩個問題:1)如何精確選擇和提取相關(guān)實體特征。對于非結(jié)構(gòu)化和半結(jié)構(gòu)化文本地理空間特征的提取,核心在于如何從自然語言中有效識別地理實體并提取其空間關(guān)系,但多數(shù)研究[12-15]集中于建立提取框架及特征表示,用于區(qū)分顯著性的地理實體特征,缺乏適用于實體排序的量化表達。2)如何建立合適的模型融合上述特征,并提升模型性能。通過關(guān)鍵詞提取實體(詞項)特征并訓(xùn)練相應(yīng)的學(xué)習(xí)排序模型是常見的實體排序方法。例如:Mihalcea等考慮詞項間的共現(xiàn)關(guān)系,基于Google的PageRank[16]提出對主題敏感的改進排序模型TextRank[17],Liu等通過衡量不同主題下詞項重要性,提出基于詞圖主題的PageRank算法[18],兩者著重分析了實體間特征、實體與文本主題的聯(lián)系,但導(dǎo)游詞中地理實體間特征不僅體現(xiàn)在文本的統(tǒng)計情況上,更突出表現(xiàn)在地理場景空間位置與結(jié)構(gòu)的關(guān)系中。同時,傳統(tǒng)實體排序方法[19-21]忽視了地理空間信息在地理實體顯著性排序中的重要作用,導(dǎo)致特征提取缺乏針對性,丟失了排序模型的關(guān)鍵信息;且基于結(jié)構(gòu)化知識庫訓(xùn)練得到的模型通常無法處理非結(jié)構(gòu)化或半結(jié)構(gòu)化的地理空間特征,導(dǎo)致模型訓(xùn)練過擬合,泛化性能下降。
綜上,地理實體顯著性排序問題的難點在于如何通過學(xué)習(xí)器提升不同地理實體間的可區(qū)分性,而針對文本中非結(jié)構(gòu)化或半結(jié)構(gòu)化地理空間特征,很難獲得預(yù)測精度較高的強學(xué)習(xí)算法[22]。Boosting方法通過集成排序性能高于隨機預(yù)測的弱學(xué)習(xí)器,可生成更精確的集成排序模型[23],然后利用集成學(xué)習(xí)即可實現(xiàn)弱學(xué)習(xí)算法和強學(xué)習(xí)算法的轉(zhuǎn)換[24]。鑒于此,本文將Boosting方法引入景區(qū)地理實體的顯著性排序,研究兼顧文本信息與地理空間信息的實體特征提取方法,構(gòu)建相應(yīng)的弱學(xué)習(xí)器,并結(jié)合具體排序目標(biāo)選取合適的損失函數(shù),進而通過結(jié)合(combining)與剪枝(pruning)進行集成優(yōu)化,以期實現(xiàn)面向?qū)в卧~的地理實體顯著性排序模型構(gòu)建,最后以中文導(dǎo)游詞文本為案例,對模型的可靠性和有效性進行實驗與分析。
面向?qū)в卧~的地理實體顯著性排序是將導(dǎo)游詞中相對顯著的景區(qū)地理實體盡可能排在邊緣實體之前的過程,主要包含文本預(yù)處理、實體特征提取和排序模型構(gòu)建3個部分(圖1)。
圖1 景區(qū)地理實體顯著性排序方法流程Fig.1 Flowchart of geographic entity significance ranking for scenic spots
基于現(xiàn)有地理命名實體標(biāo)注語料庫及相關(guān)匹配規(guī)則,通過人工校正輔助提取景區(qū)地理實體,并將實體劃分為顯著程度較高的正例實體和顯著程度較低的負(fù)例實體進行標(biāo)注。
在導(dǎo)游詞文本中,景區(qū)地理實體通常以表示景點或重要資源的地名詞項出現(xiàn)。在數(shù)量上,通常顯著程度較高的地理實體(如參照物、核心景點等)在導(dǎo)游詞中多次出現(xiàn);在分布上,地名詞項的集聚現(xiàn)象越明顯,用以描述的篇幅越長,地理實體與文本的相關(guān)性也越高[25],顯著程度也較高;此外,有些地理實體數(shù)量不多且分布較分散,但與其他實體因人文、歷史相關(guān)的語義聯(lián)系出現(xiàn)在同一篇章、段落或句子中,且共現(xiàn)次數(shù)越多,顯著程度越高。上述特征僅反映了實體作為詞項的統(tǒng)計與結(jié)構(gòu)特征,沒有考慮地理實體在現(xiàn)實世界中的空間位置及其延伸關(guān)系。
實體順序關(guān)系與導(dǎo)游詞文本序列的描述順序基本一致,可被共現(xiàn)關(guān)系捕捉,而導(dǎo)游詞通常缺乏對空間距離的具體刻畫,無法建立實體群關(guān)系及結(jié)構(gòu)的精確度量。導(dǎo)游詞中的地理實體同屬于一個旅游景區(qū),在空間分布上具有連續(xù)性,因而地理實體間具有明確的空間拓?fù)潢P(guān)系,導(dǎo)游詞對空間拓?fù)潢P(guān)系的描述反映了地理實體對的結(jié)構(gòu)層次,暗含了景區(qū)空間結(jié)構(gòu)上的顯著性差異;同時,不同人使用不同語言表達方式所造成的模糊性程度也不同[26],導(dǎo)游對旅游景區(qū)內(nèi)地物的介紹各有側(cè)重,因而地理實體顯著性越高,導(dǎo)游對其描述越全面、具體。導(dǎo)游詞對地理實體自身特點的描述可以看作文本驅(qū)動的形態(tài)描述,“形”刻畫了景區(qū)地理實體的空間尺度,“態(tài)”展現(xiàn)了實體當(dāng)前的狀態(tài)或態(tài)勢,因此,形態(tài)描述的模糊性程度可以體現(xiàn)地理實體在語言刻畫層面的顯著程度。
綜上,本文選擇出現(xiàn)頻率、聚集系數(shù)、共現(xiàn)關(guān)系、空間拓?fù)潢P(guān)系和模糊形態(tài)描述五方面特征刻畫導(dǎo)游詞中景區(qū)地理實體的顯著性(表1)。
表1 景區(qū)地理實體顯著性特征Table 1 Features of geographic entity significance for scenic spots
圖2 頤和園空間拓?fù)潢P(guān)系示意Fig.2 Spatial topological relations of the Summer Palace
(1)
式中:TS(ei﹤﹤)為當(dāng)前結(jié)點ei的父結(jié)點的權(quán)重;Bcount(ei)為當(dāng)前結(jié)點ei的兄弟結(jié)點數(shù)量。
表2 形狀描述、顏色描述、尺寸描述和方向描述的模糊性程度劃分及得分區(qū)間Table 2 Ambiguity levels and scores of shape description,size description,color description,and direction description
VS(ei)=S(ei)+M(ei)+C(ei)+D(ei)
(2)
式中:S(ei)、M(ei)、C(ei)、D(ei)分別為各類形態(tài)描述的模糊性程度得分。
在特征提取階段,景區(qū)地理實體顯著性排序不同于一般文本的關(guān)鍵詞提取,需重點考慮導(dǎo)游詞文本中蘊含的空間拓?fù)潢P(guān)系和形態(tài)描述,并選取合適的結(jié)構(gòu)與量化函數(shù)進行特征表示,綜合地理實體在文本序列中的統(tǒng)計與結(jié)構(gòu)特征,形成特征矩陣X。以綜合文本信息的實體特征矩陣作為輸入,正負(fù)例結(jié)果作為輸出,從而構(gòu)建排序模型的弱學(xué)習(xí)器。
景區(qū)地理實體顯著性排序問題可定義如下:對于任意給定的導(dǎo)游詞文本d,自動對地理實體集合E(d)中的地理實體進行顯著性排序,使正例實體集合P中地理實體盡可能地排在負(fù)例實體集合N中地理實體的前面,即將復(fù)雜的排序問題看作簡單的二分類問題。為將分類問題還原為排序問題,本文提出一種基于Boosting的景區(qū)地理實體顯著性排序(Geographic Entity Significance Ranking,GESR)模型。GESR模型借鑒了Boosting方法中Adaboost算法[30]的思想,通過每次只訓(xùn)練一個弱學(xué)習(xí)器不斷優(yōu)化模型,不僅可以得到高性能的集成模型H(X),還降低了優(yōu)化問題的復(fù)雜度;對于每輪迭代學(xué)習(xí),只訓(xùn)練一個弱學(xué)習(xí)器,并根據(jù)樣本權(quán)重分布調(diào)整樣本中不同實例的訓(xùn)練強度,最終對弱學(xué)習(xí)器進行集成以獲得更好性能。串行集成方法可以對學(xué)習(xí)器進行合法性檢查,但耗時長、效果差,本文采用降誤差剪枝(reduced-error pruning)[31]獲取獨立學(xué)習(xí)器的子集,使用更小規(guī)??傻玫礁玫募山Y(jié)果。首先依次選取使該輪集成驗證誤差最小的弱學(xué)習(xí)器加入集成,然后通過回填(backfitting)尋找可以降低集成驗證誤差的弱學(xué)習(xí)器替換已有學(xué)習(xí)器,直到集成中所有弱學(xué)習(xí)器均不能被替換為止(圖3)。對于每個弱學(xué)習(xí)器,利用Logistic函數(shù)融合表1中5個特征,構(gòu)建線性加權(quán)形式的排序函數(shù),將損失函數(shù)定義為ROC曲線線下面積(Area Under Curve,AUC)的形式,并使用Sigmoid函數(shù)代替AUC公式中的指示函數(shù),然后采用隨機梯度下降法(Stochastic Gradient Descent,SGD)最小化損失函數(shù),以求解每一個弱學(xué)習(xí)器的最優(yōu)參數(shù)。此外,同一導(dǎo)游詞文本中的不同地理實體之間存在一定程度的語義關(guān)聯(lián),雖然樣本的權(quán)重分布針對訓(xùn)練集中不同的導(dǎo)游詞文本,但必須對同一導(dǎo)游詞中的所有地理實體進行一輪獨立的訓(xùn)練。
圖3 降誤差剪枝流程Fig.3 Flowchart of reduced-error pruning
本文中地理實體及其所屬的導(dǎo)游詞文本不可分割,因此將原有對樣本采用的重加權(quán)方法(re-weighting)改為重采樣方法(re-sampling),樣本的權(quán)重分布將決定某一輪中部分樣本被訓(xùn)練的可能性,困難樣本的權(quán)值更高,在下一輪弱學(xué)習(xí)器的訓(xùn)練中更有可能被采樣。本文中X為地理實體的特征矩陣,Y為地理實體的排序結(jié)果,且可以被分為正例實體集合與負(fù)例實體集合,具體實驗過程見算法1。
算法1 GESR模型算法
輸入:
標(biāo)注導(dǎo)游詞文檔集合DL={dl1(X1,Y1),dl2,…,dlm(Xm,Ym)}
訓(xùn)練的迭代次數(shù)T,采樣比例r,學(xué)習(xí)率lr
輸出:
(1)D1(dl)=1/m% 初始化樣本的權(quán)重分布
(2)fort=1,…,T:
(3)DLt=S(DL,r,Dt(dl)) % 重采樣
(6)ifEt>0.5: % 篩選弱學(xué)習(xí)器
本文使用從互聯(lián)網(wǎng)篩選的30篇中文導(dǎo)游詞文本進行實驗,包括頤和園、故宮、寶塔山等熱門景區(qū)??紤]到不同景區(qū)類型、文本長度等因素對模型訓(xùn)練可能產(chǎn)生影響,數(shù)據(jù)集在篩選時主要從景區(qū)類型、文本長度和地理實體數(shù)量3個方面控制樣本分布均衡:1)從資源景觀的角度將樣本劃分為數(shù)量相近的兩類,自然景觀類樣本包括黃山、九寨溝和玄武湖等景區(qū),人文景觀類樣本包括夫子廟、頤和園和總統(tǒng)府等景區(qū);2)不同長度的導(dǎo)游詞文本對地理實體描述的粒度不一致,根據(jù)字?jǐn)?shù)將樣本劃分為數(shù)量相近的兩個區(qū)間,即500~1 000字的短文本和1 000~3 000 字的長文本;3)景區(qū)類型和文本長度相同的情況下,導(dǎo)游詞文本中的景區(qū)地理實體數(shù)量相近。
由于根據(jù)得分對地理實體進行排序不利于驗證排序模型的效果,無法反映單個地理實體在導(dǎo)游詞文本中的顯著性程度。本文參考Trani等[32]對實體的劃分,根據(jù)地理實體在導(dǎo)游詞文本中的顯著程度,將地理實體劃分為4個顯著性等級(表3),并依據(jù)各等級的描述對數(shù)據(jù)集進行四分類標(biāo)注,生成正例(等級為3、4)、負(fù)例(等級為1、2)的二分類標(biāo)簽。二分類數(shù)據(jù)適用于模型訓(xùn)練中損失函數(shù)構(gòu)建,而四分類數(shù)據(jù)中明確的顯著性程度劃分有利于模型驗證。
表3 地理實體顯著性等級劃分Table 3 Levels of significance of geographic entities
本文依據(jù)四分類和二分類的劃分標(biāo)準(zhǔn),對篩選后的30篇中文導(dǎo)游詞文本進行人工標(biāo)注,并將樣本信息、序位、四分類和二分類標(biāo)簽按照一定的格式進行存儲,圖4為以頤和園導(dǎo)游詞為例的數(shù)據(jù)集標(biāo)注格式。
圖4 數(shù)據(jù)集標(biāo)注格式示意Fig.4 Schematic diagram of annotation format of dataset
相比MRR(Mean Reciprocal Rank)等排序評價指標(biāo),AUC可以更精確、簡便地計算出GESR模型對地理實體顯著性排序的擬合優(yōu)度值,AUC值越大,排序模型越有可能將正例樣本置于負(fù)例樣本前,即模型的有效性越好。本文使用AUC值和歸一化折損累積增益(Normalized Discounted Cumulative Gain,NDCG)(式(3))[33]兩個指標(biāo)對模型排序結(jié)果進行評價。其中,AUC值可以直觀展現(xiàn)模型對顯著實體和邊緣實體的區(qū)分度,NDCG則主要基于地理實體顯著性程度和序位的正相關(guān)對排序效果進行綜合評估。經(jīng)過模型排序后,依據(jù)式(3)可以獲得有序地理實體列表的折損累積增益DCG,并將人工標(biāo)注的地理實體排序結(jié)果作為理想排序,計算得到IDCG。
(3)
式中:log2(1+i)為第i位地理實體按實際排序結(jié)果的位置折損;r(i)為實際情況下第i位地理實體的顯著性等級;log2(1+j)為第j位地理實體按理想排序結(jié)果的位置折損;r(j)為理想情況下第j位地理實體的顯著性等級。
不同特征反映地理實體顯著性的能力不同,本文分別移除表1各個特征,評價模型在缺少該特征情況下的性能(圖5)。可以看出,缺少前3個統(tǒng)計與結(jié)構(gòu)特征的情況下,模型性能表現(xiàn)平穩(wěn),缺少特征四、五時,NDCG和AUC值出現(xiàn)明顯波動,模型性能皆存在明顯下降,因此特征五(模糊形態(tài)描述特征)對于模型的影響最大,其次是特征四(空間拓?fù)潢P(guān)系特征),結(jié)果驗證了地理空間特征在導(dǎo)游詞地理實體顯著性排序中的重要作用。
圖5 不同特征對GESR模型的影響Fig.5 Influence of different features on the GESR model
本文分別在訓(xùn)練過程中逐漸提高訓(xùn)練樣本數(shù)量比例和集成中弱學(xué)習(xí)器數(shù)量,分析預(yù)測精度隨兩者的變化情況。如圖6a所示,線性擬合的擬合優(yōu)度較好,數(shù)據(jù)點圍繞趨勢線分布緊湊,預(yù)測精度與訓(xùn)練集數(shù)量比例呈顯著正相關(guān),說明GESR模型對數(shù)據(jù)量的增加十分敏感;由圖6b可知,當(dāng)學(xué)習(xí)器數(shù)量小于9時,隨著學(xué)習(xí)器數(shù)量的增加,驗證集的預(yù)測精度不斷提高,而當(dāng)學(xué)習(xí)器數(shù)量為10時,驗證集的預(yù)測精度趨于平穩(wěn)。因此,GESR模型在一定范圍內(nèi)對學(xué)習(xí)器數(shù)量較敏感,而后趨于平穩(wěn),且學(xué)習(xí)器的最佳數(shù)量約為9。
圖6 訓(xùn)練集樣本數(shù)量、學(xué)習(xí)器數(shù)量與驗證集預(yù)測精度關(guān)系Fig.6 Relationships between number of training samples,number of learners and prediction accuracy of validation sets
本文選取基于地理實體出現(xiàn)頻率、聚集系數(shù)和實體共現(xiàn)關(guān)系的統(tǒng)計方法作為基線方法,與GESR模型進行性能對比(表4)。可以看出,基于實體共現(xiàn)關(guān)系統(tǒng)計方法的NDCG值相比另外兩種基線方法更高,說明相比單獨的實體頻率統(tǒng)計,應(yīng)用共現(xiàn)頻率統(tǒng)計效果顯著提升;GESR模型的AUC值最大,比基于實體共現(xiàn)關(guān)系的統(tǒng)計方法平均提升了14.6%,說明集成融合特征的弱學(xué)習(xí)器效果更好。
表4 GESR模型與其他基線方法的NDCG值和AUC值對比Table 4 Comparison of NDCG and AUC between the GESR model and other baseline methods
游客在計劃旅行時通常會利用互聯(lián)網(wǎng)搜索并了解目的地的相關(guān)情況,知名度越高的景點客流量越大,關(guān)注度很大程度上反映了人群的偏向。2018年百度搜索在中國PC搜索各平臺中流量份額最高[34],因此,本文選取網(wǎng)絡(luò)獲取的“頤和園”導(dǎo)游詞,采用2011年1月1日至2020年1月1日的日均搜索量反映人群關(guān)注度,分析模型排序結(jié)果與人群關(guān)注度之間的差異性(表5)。從顯著性排序趨勢看,兩個排序結(jié)果中的序位差相對較小,同一序位地理實體的顯著性等級基本相同,排序結(jié)果的相似度較高,但排序模型中結(jié)構(gòu)層次較高的地理實體(如昆明湖、萬壽山)關(guān)注度排名有較大下滑,而一些結(jié)構(gòu)層次較低的地理實體(如十七孔橋、銅牛)關(guān)注度有很大提升。結(jié)構(gòu)層次的高低取決于現(xiàn)實世界中客觀的空間拓?fù)潢P(guān)系,而人群關(guān)注度受到游客偏好、景區(qū)宣傳和景點觀賞性等多方面主觀因素影響,例如,昆明湖在頤和園中屬于大面積景觀,近在眼前卻容易被忽視,而銅牛、十七孔橋作為旅游網(wǎng)站的對外宣傳景點易受大眾關(guān)注。因此,人群的關(guān)注度很難反映地理實體的空間特征,更多體現(xiàn)了社會人文方面的受關(guān)注程度。對于描述特定地理場景的導(dǎo)游詞文本,其地理空間方面特征的研究是不可或缺的,直接影響著景區(qū)場景的構(gòu)建與還原,本文提出的模型正是在嘗試彌補這種不足。
表5 關(guān)注度與GESR模型排序結(jié)果對比Table 5 Comparison of popular attention and results of the GESR model
本文提出一種面向?qū)в卧~的基于Boosting的景區(qū)地理實體顯著性排序(GESR)模型,綜合景區(qū)地理實體特有的地理空間特征構(gòu)建目標(biāo)排序函數(shù),基于樣本誤差分布與隨機梯度下降法迭代生成弱學(xué)習(xí)器,并通過加權(quán)平均法和降誤差剪枝集成獲得用于排序的強學(xué)習(xí)器。以30篇不同主題的導(dǎo)游詞為樣本進行模型的驗證與分析,結(jié)論如下:1)與3種基線方法相比,GESR模型的NDCG達0.8841,AUC值達0.7579,排序性能明顯優(yōu)于基線方法;2)通過分別移除各特征,驗證了地理空間特征在GESR模型中的重要作用;3)數(shù)據(jù)量與學(xué)習(xí)器數(shù)量的敏感性分析表明,訓(xùn)練數(shù)據(jù)量與模型性能呈現(xiàn)正相關(guān),學(xué)習(xí)器的最佳數(shù)量約為9個;4)通過與搜索關(guān)注度進行實例對比分析,發(fā)現(xiàn)關(guān)注度缺乏對客觀空間結(jié)構(gòu)的表達作用,驗證了本文方法對地理空間特征的反映能力。
盡管本文模型及實驗取得了一定效果,但除拓?fù)潢P(guān)系外,空間關(guān)系包含的方位關(guān)系和距離關(guān)系仍存在可以深入挖掘的內(nèi)容;此外,盡管地理實體的語義特征很難描述,但不容忽視,未來需要引入更多類似的空間特征與語義特征進行研究。