陳永佩,杜震洪,劉仁義,張豐*,王煉剛
(1. 浙江大學 浙江省資源與環(huán)境信息系統(tǒng)重點實驗室, 浙江 杭州 310028; 2. 浙江大學 地理信息科學研究所, 浙江 杭州 310027)
隨著地理信息語義層次互操作的日趨頻繁,地理數(shù)據(jù)的語法異構(gòu)與語義異質(zhì)對地理信息互操作過程的影響不可忽視,如何有效度量地理信息的語義相似度顯得越來越重要[1]. 目前,國內(nèi)外對語義相似度計算模型的研究成果大致可分為基于結(jié)構(gòu)的語義相似度計算模型[2-3]、基于內(nèi)容的語義相似度計算模型[4-5]、基于屬性的語義相似度計算模型[6]和混合式語義相似度計算模型[7-8]. 混合式語義計算模型綜合考慮了前3種算法中的影響因素,也是語義相似度模型研究發(fā)展的主要趨勢. 近年來,國內(nèi)外的研究成果基本都是對上述方法的拓展和改進. 文獻[9]將概念層次結(jié)構(gòu)描述為概念向量模型,通過向量間的余弦相似度計算概念間的語義相似度;文獻[1]通過屬性枚舉法描述概念的語義本質(zhì),深入分析不同類別屬性值間相似度的計算方法,提出了一種基于屬性的語義相似度計算模型;文獻[8]通過綜合分析概念的語義距離、屬性和概念間的關(guān)系,得到一種混合式語義相似度模型. 總體來說,現(xiàn)階段的語義相似度計算模型大多是在本體的基礎(chǔ)上,僅通過綜合概念間的關(guān)系、本體結(jié)構(gòu)和概念屬性等因素來度量語義相似度,忽視了實體層次對語義相似度的影響.
在地理空間領(lǐng)域,實體不僅具有屬性特征,還具有很重要的幾何特征. 屬于不同概念下的地理實體通常在幾何特征上具有明顯的差異,例如“河流水面”的條帶狀和“湖泊水面”的坑狀. 當人們在判斷地理概念之間相似度的時候,通常會考慮實體幾何特征之間的差異. 因此,實體幾何特征相似度作為空間認知的一部分,也可作為地理語義相似度計算的一個影響因素. 本文將在現(xiàn)有的對相似度影響因素分析的基礎(chǔ)上,引入實體的幾何特征因素,對地理語義相似度進行綜合評價.
本體因其能夠準確描述概念含義和概念之間的內(nèi)在關(guān)聯(lián),已成為詞語語義相似度研究的基礎(chǔ)[10]. 本體是哲學上的概念,指客觀現(xiàn)實的抽象本質(zhì). 地理信息本體是指地理信息科學領(lǐng)域不同層次、不同應用方向地理空間信息概念的內(nèi)涵和層次關(guān)系及其語義標識[11]. 即將現(xiàn)實世界中的地理現(xiàn)象抽象為概念、概念之間的關(guān)系、概念屬性和屬于概念的實體集合. 在已有研究的基礎(chǔ)上,結(jié)合實體的幾何特征因素,得到本體中影響地理概念間的語義相似度主要因素.
地理概念之間有多種關(guān)系,包括同義關(guān)系、上下位關(guān)系、部分與整體關(guān)系、拓撲關(guān)系、方位關(guān)系等. 一般來說,同義關(guān)系表示2個概念是相同的,即語義相似度為1;上下位關(guān)系體現(xiàn)概念之間的相似度,其他關(guān)聯(lián)關(guān)系體現(xiàn)概念之間的相關(guān)度. RESNIK[5]闡述了語義相似度和相關(guān)度的關(guān)系,認為語義相似度是語義相關(guān)度的一種特例,所以,本文的語義相似度計算不考慮語義相關(guān)性的影響因素,概念間的關(guān)系只考慮同義關(guān)系和上下位關(guān)系. 其中上下位關(guān)系可通過本體結(jié)構(gòu)表達,利用本體結(jié)構(gòu)進行相似度計算.
本體通常以概念樹為組織結(jié)構(gòu),本體層次樹可根據(jù)現(xiàn)有的分類體系進行構(gòu)建. 概念在本體層次樹中的位置可體現(xiàn)該概念的抽象程度和含信息量的大小. 因此,可通過概念的深度和密度進行相似度計算. 概念的深度指概念所在節(jié)點到根節(jié)點的距離. 深度越深,概念所代表的含義越具體. 概念的密度是指概念所在節(jié)點的直接子節(jié)點個數(shù). 密度越大,概念被細分的程度越高.
概念的屬性可直接表達概念代表的含義和特性,2個概念共有屬性越多則越相似,2個概念對于同屬性的取值越接近則越相似.
實體的幾何特征作為地理現(xiàn)象的重要性質(zhì),影響人類對地理概念的認知,也是影響概念間相似度的重要因素. 一般來說,屬于某一地理概念下的實體會以群體形式存在,因此需要對空間群體的幾何特征進行計算和對比. 文獻[12]通過引入空間統(tǒng)計分析的有關(guān)概念,利用空間群體目標幾何特征指標之間的相似度來描述空間群體目標之間的相似度. 本文將結(jié)合文獻[12]中的方法,利用實體群體幾何特征指標的統(tǒng)計值對實體群體的幾何特征進行描述,實體幾何特征相似度越高,則概念間的語義越相似.
概念間深度和密度的相似度計算采用張?zhí)m芳[13]提出的方法,設(shè)有A、B2個概念,C為A、B的公共父節(jié)點,則A、B之間的概念深度和概念密度相似度計算為
(1)
(2)
式(1)中depth(tree)為本體層次樹的深度,即層次樹中所有概念節(jié)點深度的最大值;式(2)中density(max)為層次樹中所有概念節(jié)點密度的最大值.
基于本體結(jié)構(gòu)的相似度計算需綜合概念的深度和密度2個因素的相似度,為
Simstructure(A,B)=αSimdepth(A,B)+(1-α)Simdensity(A,B),
(3)
式(3)中的權(quán)重應根據(jù)本體結(jié)構(gòu)的具體情況確定.
設(shè)A、B2個概念分別擁有屬性集合P(A)和P(B),屬性pi有以下3種情況:
(1) 如果pi∈P(A)且pi?P(B),或者pi∈P(B)且pi?P(A),則屬性pi占據(jù)一定權(quán)重,且A和B在pi屬性上的相似度為0.
(2) 如果pi?P(A)且pi?P(B),則屬性pi不給予考慮,不占有權(quán)重.
(3) 如果pi∈P(A)且pi∈P(B),則對于屬性pi,概念A取值為pai,概念B取值為pbi,相似度Sim(pai,pbi)按照具體屬性類型計算. 基于屬性的相似度公式為
Simproperty(A,B)=ω1Sim(pa1,pb1)+
ω2Sim(pa2,pb2)+…+ωiSim(pai,pbi),
(4)
式(4)中,ω1+ω2+…+ωi=1,權(quán)重大小可根據(jù)層次分析法確定.
2.2.1枚舉型屬性計算
枚舉型屬性表示屬性取值之間無級別、無次序、含義無交集,且一個概念對于該屬性可同時取多個值. 如概念“天然牧草地”對于“功能”屬性可取值“生長植物”和“畜牧”,概念“林地”對于“功能”屬性可取值“生長植物”和“種植植物”等.
結(jié)合RODRIGUEZ等[14]提出的計算模型,枚舉型屬性相似度計算公式為
Sim(pai,pbi)=
(5)
式(5)中,pai和pbi分別表示概念A和B對于第i個屬性取值的集合,|pai∩pbi|表示2個取值集合交集的屬性值數(shù)量,|pai-pbi|和|pbi-pai|分別表示集合pai中不屬于pbi的屬性值個數(shù)和集合pbi中不屬于pai的屬性值數(shù)量.
2.2.2布爾型屬性計算
布爾型屬性指屬性只有2個取值,且含義相反. 如“利用狀態(tài)”屬性有“已利用”和“未利用”2個取值. 若2個概念的布爾型屬性取值相同,則相似度為1,取值不同,則相似度為0.
布爾型屬性相似度計算公式:
(6)
2.2.3層次型屬性計算
層次型屬性是指該屬性的取值有層次關(guān)系,包括上下義關(guān)系和整體部分關(guān)系. 上下義關(guān)系屬性是描述不同邏輯層次上具有共同特征的屬性值之間的語義關(guān)系;而整體部分關(guān)系表達了概念在組成結(jié)構(gòu)上的相關(guān)性[1].
對于層次型屬性,LIU等[9]提出了概念向量相似度計算方法,根據(jù)屬性取值的層次關(guān)系樹,得到對應的向量,通過計算向量間的余弦確定兩者的相似度.
(7)
式(7)中pai和pbi為2個概念屬性值對應的向量.
2.2.4有序型屬性計算
有序型屬性指有序且取值無交集的屬性,如“寬度”屬性有“非常寬”“很寬”“中等”“很窄”“非常窄”5個取值,可以按照程度順序劃分為1~5五個等級,相似度計算公式為
(8)
式(8)中|pai-pbi|為2個概念屬性值所屬等級的差值,m為等級數(shù).
2.2.5數(shù)值型屬性計算
數(shù)值型屬性指該屬性取值為某個數(shù)值或數(shù)值范圍.
(9)
當屬性取值為確定數(shù)時按照式(9)計算;當取值為數(shù)值范圍時,若為有序型,則采取上述有序?qū)傩缘挠嬎惴椒?;若為無序型,或取值范圍有交叉,則用范圍平均值來代替取值,再用式(9)進行計算.
本文主要對地理實體的形狀和大小進行描述和對比,因點群無形狀和大小特征,故不做比較. 為了合理描述實體群體的空間幾何特征,本文引入統(tǒng)計量平均值等概念,參考劉濤[12]對于空間群組目標相似度的研究,得到以下指標.
2.3.1線群幾何特征指標
(1) 平均長度是線狀要素群體的基本空間形狀指標.
(2) 平均曲折度可以用來描述線群總體的彎曲程度. 線的曲折度是指線的實際長度與首尾點直線距離的比值. 曲折度越大,線越彎曲,曲折度值越接近1,彎曲程度越低,即越接近于直線. 概念A的線狀實體平均曲折度計算公式為
(10)
2.3.2面群幾何特征指標
(1) 平均面積和平均周長是面群的基本幾何特征.
(2) 平均緊致度可用來描述面群整體的形狀特征. 緊致度用來描述一個給定的多邊形區(qū)域離某一特定形狀的面(通常是指圓)的偏離程度[8].緊致度越接近1,面越接近于圓. 平均緊致度計算公式為
(11)
式(11)中,n為屬于A概念下的面狀實體的個數(shù),Si為多邊形面積,Pi為多邊形周長.
2.3.3實體幾何特征相似度計算
為保證相似度結(jié)果在[0,1]內(nèi),實體特征指標間的相似度計算公式為歸一化模型:
(12)
式(12)中,ea和eb分別為概念A和B共同擁有的某個特征指標值,emax和emin分別為所有線群或面群中該幾何特征指標的最大值和最小值.
屬于概念A和B的線群和面群之間的幾何特征相似度計算公式分別為:
Simline(A,B)=ωSimave_leng(ea,eb)+
(1-ω)Simave_sinu(ea,eb),
(13)
Simpolygon(A,B)=αSimave_area(ea,eb)+
βSimave_peri(ea,eb)+γSimave_comp(ea,eb),
(14)
式(13)中Simave_leng(ea,eb)和Simave_sinu(ea,eb)分別為線群之間的平均長度相似度和平均曲折度相似度. 式(14)中,α,β,γ滿足α+β+γ=1,其中Simave_area(ea,eb),Simave_peri(ea,eb)和Simave_comp(ea,eb)分別為面群之間的平均面積相似度、平均周長相似度和平均緊致度相似度. 上述實體特征指標間的相似度皆通過式(12)計算得到.
2個概念在實體上的相似度按照其共有的實體幾何特征指標計算,非共有的實體幾何特征指標不予考慮,不占據(jù)權(quán)重. 當概念A和B中某一個在實體庫中無實體或2個概念在實體庫中均無實體時,語義相似度模型不考慮實體相似度. 當2個概念擁有共同幾何要素時,可用下式進行計算:
Simentity(A,B)=αSimline(A,B)+βSimpolygon(A,B),
(15)
為了保證式(15)相似度值域在[0,1]間,權(quán)重必須滿足α+β=1. 考慮到實際計算中數(shù)據(jù)完整性有差異,需要根據(jù)不同情況賦予不同的權(quán)重系數(shù):
(1) 當概念A和B僅共有線狀要素時,則α=1,β=0.
(2) 當概念A和B僅共有面狀要素時,則α=0,β=1.
(3) 當2個概念同時有面和線要素時,應根據(jù)線狀要素和面狀要素的數(shù)據(jù)量和分布情況等來確定權(quán)重系數(shù).
根據(jù)上述語義相似度的影響因素分析和計算方法,采用加權(quán)求和的方式獲得總體相似度計算公式:
Sim(A,B)=
(16)
式(16)中A=B表示概念A與B為同義關(guān)系;A≠B表示非同義關(guān)系. 為了保證相似度結(jié)果在[0,1]內(nèi),必須滿足ω1+ω2+ω3=1,且應根據(jù)本體構(gòu)建成果和實體數(shù)據(jù)情況來決定權(quán)重的大小,使算法更具可調(diào)節(jié)性.
本文以土地利用類型為本體對象進行語義相似度計算試驗,根據(jù)2007年中華人民共和國國土資源部頒發(fā)的《土地利用現(xiàn)狀分類》(GB/T 21010-2007)標準中對土地利用現(xiàn)狀的分類和定義,結(jié)合土地利用調(diào)查中的實際分類方式,構(gòu)建土地利用類型本體. 本體結(jié)構(gòu)如圖1所示.
參考譚永濱等[1]對概念屬性和屬性取值的研究構(gòu)建土地利用類型本體的屬性,表1為部分概念的本體屬性及取值.
3.2.1基于本體結(jié)構(gòu)的相似度計算
選取“耕地-園地”概念對計算結(jié)構(gòu)相似度. 根據(jù)土地利用類型概念中本體的層次結(jié)構(gòu),設(shè)根節(jié)點的深度為0,得到深度和密度數(shù)據(jù),分別使用式(1)和(2)計算深度和密度相似度,再用式(3)計算結(jié)構(gòu)相似度,結(jié)果為0.639,通過試驗調(diào)節(jié),最終權(quán)重取0.5.
3.2.2屬性分析及屬性相似度計算
土地利用現(xiàn)狀類型本體的屬性集包含“覆蓋物”“功能”“成因”“利用狀態(tài)”“形狀”“地域”和“特性”. 其中“覆蓋物”和“成因”為層次型屬性,“利用狀態(tài)”為布爾型屬性,其他都為枚舉型屬性. 屬性權(quán)重通過層次分析法確定,表2為屬性權(quán)重結(jié)果.
根據(jù)表1概念屬性的取值,以“耕地-園地”概念對為例,進行屬性分析和相似度計算:
(1)“耕地”和“園地”兩者對“地域”屬性都無取值,即“地域”屬性不占據(jù)權(quán)重,不參與相似度計算.
圖1 部分土地利用類型概念本體結(jié)構(gòu)圖Fig.1 Ontology structure diagram of concepts about part of land use classification
概念覆蓋物功能成因利用狀態(tài)形狀地域特性耕地農(nóng)作物種植植物人工已利用區(qū)塊狀整齊相接天然牧草地草本植物生長植物、畜牧天然已利用區(qū)塊狀園地植被種植植物人工已利用區(qū)塊狀水庫水面水體控制水、流通水、儲藏水人工已利用坑狀水域內(nèi)裸土裸土天然未利用區(qū)塊狀村莊房屋建筑生活居住、工業(yè)生產(chǎn)、社會服務人工已利用區(qū)塊狀集中
(2)“耕地”擁有“特性”屬性,而“園地”無此屬性,2個概念在“特性”屬性上的相似度為0.
(3) 在“覆蓋物”和“成因”屬性上的相似度用式(3)計算. “覆蓋物”屬性層次關(guān)系如圖2所示,由圖2得屬性值“農(nóng)作物”和“植被”的表達向量分別為p農(nóng)作物=(1,2,0,0,3,0,0,0,0,0,0,0,0,3,0,0,2,2),p植被=(1,2,0,0,3,0,0,0,0,0,0,3,3,3,0,0,0,0),由式(7)計算得相似度為0.65. 同樣可得到2個概念在“成因”屬性上的相似度為1.
(4) 在“功能”和“形狀”屬性上的相似度用式(5)計算,其相似度均為1.
(5) 在“利用狀態(tài)”屬性上的相似度通過式(6)計算,得到相似度為1.
最后,用式(4)計算得Simproperty(耕地,園地)=0.795.
表2 屬性權(quán)重
圖2 “覆蓋物”屬性層次示意圖Fig.2 Hierarchy of “covering” property values
3.2.3空間實體數(shù)據(jù)分析及相似度計算
采用德清縣土地利用數(shù)據(jù)進行相似度計算試驗,其中面狀數(shù)據(jù)56 875條,線狀數(shù)據(jù)86 934條,面狀和線狀數(shù)據(jù)代表的土地利用類型共26種,部分實體幾何特征指標計算結(jié)果如表3所示.
表3 部分實體幾何特征指標計算結(jié)果
根據(jù)上文2.3.3節(jié)所述的計算方法進行概念間實體幾何相似度計算,以“河流水面-鐵路用地”概念對為例,河流水面和鐵路用地僅有共有面狀數(shù)據(jù),因此,河流水面和鐵路用地的幾何特征相似度Simentity(河流水面,鐵路用地)=Simpolygon(河流水面,鐵路用地).面群相似度可通過面積、周長和緊致度的相似度來計算,以面積相似度為例,面群的面積最大值為125 504.07,最小值為1 588.95,根據(jù)式(12)進行河流水面和鐵路用地的面積相似度計算:
Simave_area(河流水面,鐵路用地)=
(17)
通過該方法可算得河流水面和鐵路用地的面積、周長和緊致度的相似度分別為0.50,0.45和0.94.利用式(14)計算面群相似度,通過實驗調(diào)節(jié)本次實驗中面積、周長和緊致度的相似度權(quán)重分別為0.25,0.25和0.5,“河流水面-鐵路用地”概念對的實體幾何特征相似度為:
Simentity(河流水面,鐵路用地)=
0.25×0.50+0.25×0.45+0.5×0.94=0.71.
(18)
部分概念對的幾何特征相似度計算結(jié)果如表4所示(保留3位小數(shù)).
表4 部分實體幾何特征相似度計算結(jié)果
3.2.4語義相似度計算
選取土地利用類型為試驗對象,鑒于(1)土地利用類型本體只有3層結(jié)構(gòu),且分類中含有“其他土地”這種不符合認知的分類方式,本體結(jié)構(gòu)的相似度計算結(jié)果不具有很強的認知特性;(2)采用德清縣土地利用現(xiàn)狀實體數(shù)據(jù),其數(shù)據(jù)多樣性不足;(3)本體構(gòu)建時的屬性設(shè)置合理,根據(jù)定義提取關(guān)鍵信息,剔除不必要的多余屬性. 為此,通過多次試驗和調(diào)節(jié),最終式(16)的權(quán)重賦值情況如下:
當概念之間無實體幾何特征相似度時(即比較雙方某一概念在實體數(shù)據(jù)中無實體),基于本體結(jié)構(gòu)的相似度和基于屬性的相似度權(quán)重分別取0.2和0.8;當概念間有實體幾何特征相似度時,基于本體結(jié)構(gòu)的相似度權(quán)重為0.1,基于屬性的相似度權(quán)重為0.6,實體幾何特征相似度權(quán)重為0.3. 例如,“耕地-園地”概念對的語義相似度為: Sim(耕地,園地)=0.1×0.639+0.6×0.795+0.3×0.847=0.795.
圖3 語義相似度計算結(jié)果統(tǒng)計圖Fig.3 Diagram of semantic similarity calculation results
通過混合計算模型計算土地利用類型所有概念對的語義相似度,其結(jié)果分布如圖3所示. 可見語義相似度主要分布在0.5附近,低相似和高相似的概念對較少.
按照計算結(jié)果分布情況,使用分層抽樣法,按比例從相似度結(jié)果中選取50對概念. 為了保證樣本的典型性,所選概念對覆蓋“幾乎相同”到“完全不相似”區(qū)間,且分布均勻. 邀請20位擁有地理信息知識背景且對土地利用類型有深入了解的專家對50對概念對的相似度進行打分評價,用1~5五等級描述概念間的語義相似程度. 使用克朗巴哈(Cronbachα)系數(shù)描述打分結(jié)果的內(nèi)在信度,計算得到專家打分結(jié)果的α系數(shù)為0.922,內(nèi)在信度非常理想,其結(jié)果可供語義相似度計算參考.
利用皮爾森(Pearson)相關(guān)系數(shù)來驗證,得到本文提出的相似度模型計算結(jié)果(記為Sim)較不引入實體幾何特征的語義相似度計算結(jié)果(記為Sim′)更接近參考結(jié)果. 此外,將同樣以土地利用類型語義相似度計算為研究對象的文獻[11]和[8]的結(jié)果與本文結(jié)果進行對比,得到本文提出的語義相似度計算模型更合理和有效. 表5為部分概念對的試驗結(jié)果.
表5 部分概念對相似度計算結(jié)果對比
根據(jù)試驗結(jié)果,實體混合相似度計算模型與專家打分結(jié)果之間的皮爾森(Pearson)相關(guān)系數(shù)為0.908,兩者對比如圖4所示,實體混合相似度計算模型與專家打分結(jié)果的吻合度較高,且波動幅度小,連續(xù)性較好.
3.3.1與不引入實體的計算結(jié)果對比
將引入實體的語義相似度計算結(jié)果(記為Sim)與不引入實體的語義相似度計算結(jié)果(記為Sim′)進行對比. 相似度結(jié)果趨勢如圖5所示,由圖5知,引入實體的相似度結(jié)果更貼近專家的打分,且波動幅度較小. Sim與專家打分的相關(guān)系數(shù)為0.908,Sim′與專家打分的相關(guān)系數(shù)為0.872,對比看,Sim的準確度有所提高.
3.3.2與文獻結(jié)果對比
文獻[11]僅通過計算屬性差異來判斷概念間的相似度,計算結(jié)果中有較多的概念對相似度值相同,很難進行相似度區(qū)分. 而且,這種計算方法易導致?lián)碛邢嗤瑢傩灾档母拍顚?語義上仍存在差異性)相似度為1. 比如“農(nóng)用地-耕地”概念對,在本體結(jié)構(gòu)中為上下位關(guān)系,且兩者并不能等同,但文獻[11]中其相似度結(jié)果為1. 本文結(jié)果較文獻[11]的區(qū)分度和準確度都高.
圖4 語義相似度結(jié)果對比圖Fig.4 Comparison diagram of semantic similarity calculation results
圖5 趨勢對比圖Fig.5 Comparison diagram of tendency
文獻[8]通過對結(jié)構(gòu)和屬性兩方面相似度計算來判斷概念間的相似度,其屬性的相似度計算依賴相同屬性的個數(shù),對屬性取值的相似度未進行深入探討. 而且,文獻[8]未與專家認知進行對比,例如,“耕地-園地”概念對相似度,專家打分平均分為4.71分(滿分5分),而文獻[8]計算的相似度僅為0.437,明顯不符合專業(yè)認知. 本文對相似度之間的區(qū)分較文獻[8]更細致,概念對之間幾乎無完全等同的相似度,更符合專業(yè)認知.
提出了一種引入實體的地理語義相似度計算模型. 通過綜合分析該模型概念對之間的關(guān)系、本體結(jié)構(gòu)、概念屬性和實體的幾何特征等影響因素,以度量地理概念間的語義相似度. 結(jié)果表明,實體幾何特征相似度因素對地理概念語義相似度進行調(diào)節(jié)是可行的,計算結(jié)果符合專業(yè)認知. 在與已有的土地利用類型概念相似度計算結(jié)果對比中發(fā)現(xiàn),本文方法較為準確,語義相似度結(jié)果的區(qū)分度更高.
由于影響語義相似度的因素較多,且難以用地理實體幾何特征表達,因此本文仍存在一些不足,需進一步研究: (1)本研究部分權(quán)重和調(diào)節(jié)因子的確定依賴于專家經(jīng)驗,易致計算結(jié)果有一定的主觀性. 未來將進一步對權(quán)重分配和調(diào)節(jié)因子的確定進行分析研究;(2)實體的幾何特征相似度計算模型對數(shù)據(jù)要求較為嚴格,只有保證數(shù)據(jù)質(zhì)量才能使計算結(jié)果準確有效. 否則,只在個別特殊實體之間進行相似度計算,無法代表概念普遍的認知. 因此,需要進一步分析實體層次的數(shù)據(jù),加強數(shù)據(jù)質(zhì)量評價,在此基礎(chǔ)上,判斷其是否可用于地理語義相似度計算.
參考文獻(References):
[1]譚永濱,李霖,王偉,等. 本體屬性的基礎(chǔ)地理信息概念語義相似性計算模型[J].測繪學報,2013, 42(5): 782-789.
TAN Y B, LI L, WANG W, et al. Semantic similarity measurement model between fundamental geographic information concepts based on ontological property[J].ACTAGeodaeticaETCartographicaSinica, 2013, 42(5): 782-789.
[2]RADA R, MILI H, BICKNELL E, et al. Development and application of a metricon semantic nets[J].IEEETransactionsonSystemsMan&Cybernetics, 1989, 19(1): 17-30.
[3]WU Z, PALMER M.Verbs semantics and lexical selection[C]//MeetingonAssociationforComputationalLinguisti. Pennsylvania: Association for Computational Linguistics, 1994: 133-138.
[4]LORD P W, STEVENS R D, BRASS A, et al. Investigating semantic similarity measures across the gene ontology: The relationship between sequence and annotation[J].Bioinformatics, 2003, 19(10): 1275-1283.
[5]RESNIK P.Using information content to evaluate semantic similarity in a taxonomy[C]//InternationalJointConferenceonArtificialIntel. Quebec: Morgan Kaufmann Publishers Inc, 1995: 448-453.
[6]TVERSKY A. Features of similarity[J].ReadingsinCognitiveScience, 1988, 84(4): 290-302.
[7]LI Y, BANDAR Z A, MCLEAN D. An approach for measuring semantic similarity between words using multiple information sources[J].IEEETransactionsonKnowledge&DataEngineering, 2003, 15(4): 871-882.
[8]楊娜娜,張青年,牛繼強.基于本體結(jié)構(gòu)的空間實體語義相似度計算模型[J].測繪科學,2015, 40(3): 107-111, 84 .
YANG N N, ZHANG Q N, NIU J Q. Computational model of geospatial semantic similarity based on ontology structure[J].ScienceofSurveyingandMapping, 2015, 40(3): 107-111, 84.
[9]LIU H Z, BAO H, XU D. Concept vector for similarity mesurement based on hierarchical domain structure[J].ComputingandInformatics, 2011, 30(5): 881-900.
[10]孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].現(xiàn)代圖書情報技術(shù), 2010, 26(1): 51-56.
SUN H X, QIAN Q, CHENG Y. Review of ontology-based semantic similarity measuring[J].NewTechnologyofLibraryandInformationService, 2010, 26(1): 51-56.
[11]李紅梅,翟亮,朱熀.基于本體的地理空間實體類型語義相似度計算模型的研究[J].測繪科學,2009, 34(2): 12-14.
LI H M, ZHAI L, ZHU H. Semantic similarities calculative modeling for geospatial entity classes based on ontology[J].ScienceofSurveyingandMapping, 2009, 34(2): 12-14.
[12]劉濤.空間群(組)目標相似關(guān)系及計算模型研究[D]. 武漢: 武漢大學,2011.
LIU T.SimilarityofSpatialGroupObjects[D]. Wuhan: Wuhan University, 2011.
[13]張?zhí)m芳. 一種基于本體的自然語言語義相似度算法[J].桂林理工大學學報, 2012, 32(2): 253-258.
ZHANG L F. Natural language semantic similarity algorithm based on ontology[J].JournalofGuilinUniversityofTechnology, 2012, 32(2): 253-258.
[14]RODRIGUEZ M A, EGENHOFER M J. Comparing geospatial entity classes: An asymmetric and context-dependent similarity measure[J].InternationalJournalofGeographicalInformationScience, 2004, 18(3): 229-256.
英文摘要寫作技巧之善用副詞
例1We found that after induction of ICH, HO-1 proteins werehighlydetectable in the peri-ICH regionpredominantlyin microglia AND macrophages and endothelial cells.Remarkably, the injury volume wassignificantlysmaller in HO-1 knock out (HO-1 AND) mice than in wild-type controls 24 and 72 h after ICH.
分析:在不失客觀性的前提下,作者有意識地運用highly,predominantly,remarkably,significantly等多個副詞,更加準確地呈現(xiàn)研究結(jié)果,更鮮明地表明了自己的立場和態(tài)度,引導讀者快速領(lǐng)會摘要要點。
例2Microsatellite and ribosomal DNA markers revealed thatS.sclerotiorumpopulations in Alaska comprisepredominantly, if notexclusively, nonrecombining clonal lineages.Surprisingly, many diseased plants were found to be infected by the crypticSclerotiniasp.1, acloselyrelated funguspreviouslyreported on wild plant species and cultivated potato from Norway.
分析:predominantly,exclusively,closely和previously等副詞可以在范圍、程度等方面準確界定摘要信息,surprisingly一詞則清晰地表明了研究者的觀點,從而使讀者能夠恰當理解摘要內(nèi)容。
例3We found that the effect of purifying selection onCytbgene was elevated with the decrease of altitudes. Meanwhile, there was a possibility for the adaptive selection in ATP6 gene, which had an enhanced trend with the increase of altitudes. Thus, the geographic environment is the main determinant for selection, namely, different geographic environment has direct effect on selection.
分析:作者似乎不善于運用副詞來加強語氣、強調(diào)觀點,因而表明見解時顯得信心不足,削弱了摘要的表達力度。