薛醒思,耿愛(ài)峰,BENINE Ramzi
(1.福建工程學(xué)院智能信息處理研究中心,福建福州 350118;2.福建技術(shù)師范學(xué)院大數(shù)據(jù)與人工智能學(xué)院,福建福清 350300;3.太原理工大學(xué)電氣與動(dòng)力工程學(xué)院,山西太原 030024)
本體是描述概念和概念之間關(guān)系的術(shù)語(yǔ),涵蓋了相關(guān)領(lǐng)域的知識(shí)和詞匯. 在計(jì)算機(jī)領(lǐng)域中,它指的是“形式化的,對(duì)于共享概念體系的明確而又詳細(xì)的說(shuō)明”[1],通過(guò)對(duì)概念體系中語(yǔ)義的共同理解和語(yǔ)義網(wǎng)的擴(kuò)展,可以實(shí)現(xiàn)計(jì)算機(jī)信息系統(tǒng)語(yǔ)義上的互操作.然而,對(duì)于不同的本體工程師來(lái)說(shuō),一個(gè)相同領(lǐng)域的本體可能有不同的構(gòu)建方法,對(duì)一個(gè)概念的描述可能有不同的方式,這就會(huì)引入本體異構(gòu)的問(wèn)題[2].本體異構(gòu)體現(xiàn)在三個(gè)方面,分別為系統(tǒng)異構(gòu)、語(yǔ)法異構(gòu)和層次異構(gòu).解決本體的異構(gòu)問(wèn)題是實(shí)現(xiàn)語(yǔ)義融合、知識(shí)共享的關(guān)鍵,本體匹配技術(shù)可以有效地消除語(yǔ)義異質(zhì),解決上述問(wèn)題[3].
本體匹配方法研究如何確定兩個(gè)異質(zhì)本體中實(shí)體之間的等價(jià)關(guān)系,大體可以分為兩大類(lèi),即本體元匹配方法和本體實(shí)體匹配方法[4].本體元匹配問(wèn)題研究的是如何組合和調(diào)試不同的相似度度量方法以確定高質(zhì)量的本體匹配結(jié)果,該問(wèn)題是目前本體匹配領(lǐng)域的研究熱點(diǎn).為求解該問(wèn)題,本體元匹配方法首先通過(guò)相似度度量方法來(lái)確定不同的相似度矩陣,然后為這些矩陣賦予合適的權(quán)重和閾值來(lái)獲得最終的匹配結(jié)果[5].由于權(quán)重和閾值的取值范圍是[0,1]的實(shí)數(shù),因此本體元匹配問(wèn)題通常被建模為一類(lèi)連續(xù)優(yōu)化問(wèn)題.
粒子群優(yōu)化算法(particle swarm optimization algorithm, PSO)[6]擁有魯棒性高、收斂速度快等特點(diǎn),是目前數(shù)值優(yōu)化領(lǐng)域的主流優(yōu)化算法之一.PSO 的一些特性使得它適合于求解本體元匹配問(wèn)題:(1)PSO 可以很容易地調(diào)整評(píng)估匹配結(jié)果的目標(biāo)函數(shù);(2)由于可以處理大規(guī)模的輸入,用PSO 來(lái)處理大規(guī)模本體匹配是相對(duì)容易的;(3)PSO 具有高度的潛并行性,有利于提高求解本體元匹配問(wèn)題的效率[7].本體匹配結(jié)果的質(zhì)量通??梢杂脙蓚€(gè)指標(biāo)來(lái)衡量,即查全率和查準(zhǔn)率[8].這兩種指標(biāo)都需要專家事先提供參考匹配結(jié)果,然而在實(shí)際應(yīng)用中,這樣的匹配結(jié)果是不存在的[9].為解決這個(gè)問(wèn)題,提出兩個(gè)近似的查全率和查準(zhǔn)率指標(biāo)來(lái)度量匹配結(jié)果的質(zhì)量.由于這兩個(gè)指標(biāo)在一定程度上是矛盾的,因此為本體元匹配問(wèn)題構(gòu)建了多目標(biāo)優(yōu)化模型以更好地描述該問(wèn)題的本質(zhì).為了求解多目標(biāo)的本體元匹配問(wèn)題,進(jìn)一步提出多目標(biāo)粒子群算法(multi-objective PSO, MOPSO),以確定帕累托前沿解集.本文的貢獻(xiàn)總結(jié)如下.
首先為本體元匹配問(wèn)題建立了一個(gè)全新的優(yōu)化模型,通過(guò)優(yōu)化模型的決策變量為本體元匹配尋找最合適的權(quán)重和閾值,從而獲得質(zhì)量最高的匹配結(jié)果;其次,提出了MOPSO 對(duì)該問(wèn)題進(jìn)行求解;最后,將這些方法與國(guó)際本體匹配競(jìng)賽(Ontology Alignment Evaluation Initiative, OAEI)[10]參與者在benchmark 測(cè)試數(shù)據(jù)集上進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn)MOPSO能夠更有效地匹配不同異質(zhì)本體,從而實(shí)現(xiàn)跨領(lǐng)域的知識(shí)集成.
本體用來(lái)規(guī)范化和形式化異構(gòu)信息,用以解決語(yǔ)義異構(gòu)和語(yǔ)法異構(gòu)的問(wèn)題,是信息互操作的基礎(chǔ).本體由眾多實(shí)體組成,實(shí)體包括代表概念的類(lèi)、概念之間的關(guān)系屬性和概念類(lèi)的實(shí)例,可以用一個(gè)三元組來(lái)表示,即(C,P,I),其中C,P,I分別代表類(lèi)、屬性和實(shí)例.圖1展示了一個(gè)醫(yī)學(xué)本體的例子,其中矩形中的內(nèi)容代表類(lèi),類(lèi)之間的關(guān)系和屬性用矩形之間的單向箭頭表示,每個(gè)類(lèi)下面可以擴(kuò)展屬于它們的實(shí)例.
圖1 關(guān)于新冠肺炎的醫(yī)學(xué)本體
為了衡量不同本體的實(shí)體之間的相似程度,促進(jìn)語(yǔ)義融合,多種相似度度量技術(shù)被提出并運(yùn)用到本體匹配的過(guò)程中.度量實(shí)體之間的相似程度需要從三個(gè)方面考慮,即語(yǔ)言、語(yǔ)義和結(jié)構(gòu),因?yàn)閮H從一個(gè)方面來(lái)考慮實(shí)體的相似度是片面的,缺乏說(shuō)服力[11].文章用到的三種相似度度量技術(shù)在2.1 節(jié)中詳細(xì)介紹. 相似度矩陣由實(shí)體間的相似度值組成,如表1 所示,其中O1和O2分別代表兩個(gè)待匹配的本體,e11,…,e1n代表本體1 中的n個(gè)實(shí)體,e21,…,e2m代表本體2 中的m個(gè)實(shí)體,c11,…,cnm代表每對(duì)實(shí)體對(duì)應(yīng)的相似度值.
表1 相似度矩陣表
本體匹配是解決兩個(gè)本體異質(zhì)問(wèn)題的有效方法,通過(guò)將具有相等語(yǔ)義關(guān)系的實(shí)體進(jìn)行匹配來(lái)實(shí)現(xiàn)知識(shí)的共享和融合,圖2 描述了兩個(gè)異質(zhì)的本體,圖中左右兩側(cè)的圓角矩形及其分支分別代表了兩個(gè)本體中的實(shí)體,“≡”代表了兩個(gè)實(shí)體是等價(jià)關(guān)系,用一個(gè)雙向箭頭連接.這些實(shí)體的名稱可能是不同的,但是它們所代表的含義可能是相同的,由這些實(shí)體組成的兩個(gè)本體就是異質(zhì)的.本體元匹配是本體匹配的一種技術(shù),被定義為如何為相似度矩陣確定一組合適的權(quán)重和閾值,使得本體匹配結(jié)果的質(zhì)量最高.對(duì)于多目標(biāo)的本體元匹配問(wèn)題,匹配結(jié)果質(zhì)量的高低由兩個(gè)目標(biāo)函數(shù)評(píng)估,多目標(biāo)本體元匹配的建模在2.2 節(jié)詳細(xì)說(shuō)明.本體元匹配的每個(gè)權(quán)重對(duì)應(yīng)由一種相似度度量方法獲得的相似度矩陣,這些相似度矩陣通過(guò)權(quán)重組合為一個(gè)綜合相似度矩陣.找到綜合相似度矩陣中同時(shí)為所在行和列的最大值的元素,該元素所對(duì)應(yīng)的兩個(gè)實(shí)體即被認(rèn)為是等價(jià)的.最后,經(jīng)過(guò)閾值過(guò)濾掉置信度低的匹配對(duì),剩下的實(shí)體對(duì)集合就被認(rèn)為是一組本體元匹配結(jié)果.
圖2 兩個(gè)異質(zhì)的本體示意圖
本體元匹配的流程如圖3 所示,其中O1和O2分別代表源本體和目標(biāo)本體,A是部分匹配結(jié)果,R是外部資源(如外部詞典),Matching 是匹配過(guò)程,P是相關(guān)參數(shù),threshold 是閾值,A′是匹配結(jié)果.圖4 是源本體和目標(biāo)本體的匹配結(jié)果的例子,兩個(gè)等價(jià)的實(shí)體通過(guò)雙向箭頭連接.
圖3 本體元匹配流程圖
不同于單目標(biāo)優(yōu)化問(wèn)題一次只優(yōu)化一個(gè)目標(biāo),多目標(biāo)優(yōu)化問(wèn)題(multi-objective optimization problem, MOP)需要同時(shí)優(yōu)化兩個(gè)以上矛盾的目標(biāo),該問(wèn)題的定義如式(1)所示.
其中:Vmax表示向量極大化,fk(x)(k=1,2,…,n)表示向量目標(biāo)函數(shù)f(x)的子目標(biāo),各個(gè)子目標(biāo)向量都盡可能達(dá)到最大值;x是問(wèn)題的解,x∈Rm是多目標(biāo)優(yōu)化問(wèn)題的限制條件和約束.
求解多目標(biāo)優(yōu)化問(wèn)題需要確定一組非支配的解集,解的支配關(guān)系定義如下.
1)如果有解x1,x2∈X, 對(duì)于任意的k=1,2,…,n,都有fk(x1)>fk(x2),則稱解x1支配解x2,記為x1≤x2;
2) 如 果 有 解x1,x2∈X對(duì) 于 任 意 的k=1,2,…,n,不全有fk(x1)>fk(x2),則稱解x1與解x2互不支配,記為x1≠x2.
由支配的解集擬合的目標(biāo)空間的曲線稱為帕累托前沿(pareto front, PF),圖5 描述了多目標(biāo)優(yōu)化問(wèn)題的帕累托前沿.假設(shè)是最大化問(wèn)題,圖中橫軸和縱軸分別代表了兩個(gè)優(yōu)化目標(biāo),實(shí)心點(diǎn)代表處于支配地位的非劣解,空心點(diǎn)表示被支配的解,由實(shí)心點(diǎn)擬合的曲線表示帕累托前沿.由于帕累托前沿上的解有無(wú)窮多個(gè),曲線上的拐點(diǎn)被認(rèn)為是多目標(biāo)優(yōu)化問(wèn)題的代表解.當(dāng)帕累托前沿曲線拐點(diǎn)解的一個(gè)目標(biāo)有些許增強(qiáng)時(shí),另一個(gè)目標(biāo)會(huì)迅速被削弱,因此拐點(diǎn)解就是潛在的最優(yōu)解.
圖5 多目標(biāo)優(yōu)化問(wèn)題的帕累托前沿
文章所使用的三大類(lèi)相似度度量技術(shù)如下.
1)基于語(yǔ)言學(xué)的相似度技術(shù)N-Gram[12],其計(jì)算公式如下.
其中s1和s2分別是兩個(gè)字符串,C(s1,s2)是它們的共同子串個(gè)數(shù),ns1和ns2分別是兩個(gè)字符串的長(zhǎng)度.
2)基于語(yǔ)義的相似度技術(shù)Wu&Palmer[13],其計(jì)算公式如下.
其中depth( )表示字符串所代表的單詞在WordNet[14]的層次語(yǔ)義結(jié)構(gòu)中的深度,lcs(s1,s2)是s1和s2最接近的共同父概念.
3)基于結(jié)構(gòu)的相似度技術(shù)Out&InDegree,其計(jì)算公式如下.
其中e1和e2表示兩個(gè)待匹配的實(shí)體,ns( )代表實(shí)體的父子類(lèi)數(shù)量總和.
由上述三種相似度度量方法得到的三個(gè)關(guān)于待匹配本體的相似度矩陣需要由一組權(quán)重集成為一個(gè)相似度矩陣,該矩陣被稱為綜合相似度矩陣,用以得到匹配結(jié)果,即實(shí)體對(duì)的集合.
評(píng)價(jià)一個(gè)匹配結(jié)果的質(zhì)量通常采用的度量指標(biāo)是查全率(recall)和查準(zhǔn)率(precision),它們的定義如下.
其中R代表由專家給出的標(biāo)準(zhǔn)匹配結(jié)果,A代表匹配系統(tǒng)獲得的匹配結(jié)果.然而在現(xiàn)實(shí)中,本體之間的匹配是沒(méi)有參考結(jié)果的,而且對(duì)于一些大規(guī)模本體來(lái)說(shuō),參考結(jié)果的構(gòu)建需要很高的成本,近似評(píng)估指標(biāo)的引入可以有效解決這一問(wèn)題,其應(yīng)用在本體匹配的優(yōu)化過(guò)程中,用于匹配過(guò)程中結(jié)果的評(píng)估,引導(dǎo)匹配結(jié)果向最優(yōu)方向靠近.文章的兩個(gè)近似評(píng)估指標(biāo)為approRecall 和approPrecision,分別用來(lái)近似評(píng)估查全率和查準(zhǔn)率,其計(jì)算公式分別如下:
其中,M 為綜合相似度矩陣,numpairs表示綜合相似度矩陣中所有滿足閾值條件且置信度值在所在的行和列中均為最大值的元素對(duì)應(yīng)的實(shí)體對(duì)個(gè)數(shù),n和m分別為源本體和目標(biāo)本體包含的實(shí)體個(gè)數(shù).
其中,τ為滿足閾值條件且置信度值在所在的行和列中均為最大值的元素對(duì)應(yīng)的實(shí)體對(duì)的索引,Simτ表示上述第τ個(gè)實(shí)體對(duì)的相似度值.
在此基礎(chǔ)上,多目標(biāo)的本體元匹配問(wèn)題的優(yōu)化模型定義如下.
其中,wi(i=1, …,n)代表相似度權(quán)重,代表閾值.
圖6給出了用MOPSO 優(yōu)化本體元匹配模型的流程圖. MOPSO 由三個(gè)主要部分組成:主函數(shù),外部存儲(chǔ)庫(kù)和變異算子,其中主函數(shù)包括外部存儲(chǔ)庫(kù)的更新和變異算子的計(jì)算,在圖6 中分別用點(diǎn)狀和網(wǎng)狀陰影標(biāo)出.它們?cè)趦?yōu)化本體元匹配模型時(shí)的描述如下.
圖6 多目標(biāo)粒子群算法優(yōu)化本體元匹配模型流程圖
2.3.1 主函數(shù)
主函數(shù)包括以下幾個(gè)步驟:1)初始化種群中粒子的位置,每個(gè)位置代表了本體元匹配問(wèn)題的一種解;2)初始化每個(gè)粒子的速度(均為0)和記憶(即個(gè)體歷史最優(yōu)解);3)分別利用公式(2)、(3)、(4)計(jì)算三個(gè)相似度矩陣,每個(gè)粒子通過(guò)其位置信息將三個(gè)相似度矩陣集成為一個(gè)綜合相似度矩陣;4)根據(jù)綜合相似度矩陣和公式(7)、(8)計(jì)算種群中每個(gè)粒子的兩個(gè)目標(biāo)函數(shù)值;5)初始化外部存儲(chǔ)庫(kù),在存儲(chǔ)庫(kù)中存儲(chǔ)表示非支配向量的粒子;6)生成搜索空間的超立方體(即將目標(biāo)函數(shù)空間劃分為等分的網(wǎng)格);7)開(kāi)始迭代,直到滿足如下結(jié)束條件. a)用公式(10)計(jì)算每個(gè)粒子的速度,其中i是粒子的索引,w是慣性權(quán)重,r1、r2是[0,1]之間的隨機(jī)數(shù),參數(shù)的取值會(huì)在3.1 節(jié)中說(shuō)明,pbest[i]是粒子i的歷史最優(yōu)位置,rep[h]是從存儲(chǔ)庫(kù)中選擇的粒子的位置,通過(guò)輪盤(pán)賭的方式首先選擇粒子密度最小的超立方體,h是在這個(gè)超立方體中隨機(jī)選擇的粒子的索引,pop[i]是當(dāng)前粒子的位置. b)用公式(11)計(jì)算粒子的新位置,保證粒子的位置不超過(guò)搜索空間的邊界. c)分別利用公式(2)、(3)、(4)計(jì)算三個(gè)相似度矩陣,將三個(gè)相似度矩陣集成為一個(gè)綜合相似度矩陣. d)用公式(7)、(8)計(jì)算每個(gè)粒子新的目標(biāo)函數(shù)值. e)根據(jù)支配關(guān)系更新存儲(chǔ)庫(kù)中的內(nèi)容以及網(wǎng)格內(nèi)的粒子的位置表示,當(dāng)存儲(chǔ)庫(kù)被填滿時(shí),目標(biāo)空間中密度低的網(wǎng)格中的粒子被優(yōu)先保存. f)根據(jù)粒子的兩個(gè)目標(biāo)函數(shù)值更新粒子的記憶解. g)循環(huán)次數(shù)加1;8)滿足結(jié)束條件時(shí)結(jié)束循環(huán).
2.3.2 外部存儲(chǔ)庫(kù)
外部存儲(chǔ)庫(kù)用來(lái)存儲(chǔ)搜索過(guò)程中發(fā)現(xiàn)的非劣解,由歸檔控制器和網(wǎng)格(超立方體)組成.
1)歸檔控制器.決定是否應(yīng)該將某個(gè)解添加到存儲(chǔ)庫(kù)中:如果a)存儲(chǔ)庫(kù)為空,新解直接加入到存儲(chǔ)庫(kù);b)存儲(chǔ)庫(kù)不為空,新解被存儲(chǔ)庫(kù)中的解支配,則丟棄新解;c)存儲(chǔ)庫(kù)不為空,新解與存儲(chǔ)庫(kù)中的解互不支配,則將新解加入到存儲(chǔ)庫(kù)中;d)存儲(chǔ)庫(kù)不為空,新解支配存儲(chǔ)庫(kù)中的解,則用新解取代存儲(chǔ)庫(kù)中被新解支配的解;e)存儲(chǔ)庫(kù)已滿,則自適應(yīng)調(diào)整網(wǎng)格.
2)網(wǎng)格.用網(wǎng)格將目標(biāo)函數(shù)空間劃分為各個(gè)區(qū)域,如果加入的新解在當(dāng)前網(wǎng)格的邊界外則必須重新計(jì)算網(wǎng)格.
2.3.3 變異算子
文章采用的變異算子[15]是一個(gè)非線性的函數(shù),代表變異的范圍.在迭代開(kāi)始時(shí)所有的粒子都進(jìn)行變異操作,之后迅速減小變異粒子的數(shù)量(相對(duì)于迭代次數(shù)而言),即隨著時(shí)間的推移變異的范圍逐漸縮小,種群最終趨于收斂.這種變異操作不僅作用于粒子,同時(shí)還作用于粒子的各個(gè)維度.變異算子range 由公式(12)確定.
其中currgen 表示當(dāng)前迭代次數(shù),totgen 為迭代總數(shù),即變異率.
國(guó)際競(jìng)賽OAEI 致力于評(píng)估各種本體對(duì)齊算法的性能.文章采用OAEI 提供的benchmark數(shù)據(jù)集,通過(guò)5 類(lèi)不同的異質(zhì)本體匹配任務(wù)來(lái)測(cè)試MOPSO 的性能.表2 給出了OAEI 的benchmark 數(shù)據(jù)集的相關(guān)描述.
表2 OAEI 的benchmark 測(cè)試本體的相關(guān)描述
將MOPSO 的結(jié)果同OAEI 上的參與者AML, edna, LogMap, LogMapLt, XMap 和LogMapBio 進(jìn)行比較,表3 和表4 給出了實(shí)驗(yàn)結(jié)果,用無(wú)參考匹配方法得到的匹配結(jié)果與這些參與者的結(jié)果都統(tǒng)一用公式(5)和(6)的recall 和precision 指標(biāo)來(lái)評(píng)估.其中,MOPSO的實(shí)驗(yàn)結(jié)果是算法獨(dú)立運(yùn)行30 次的平均值.
表3 OAEI 的參與者與本文方法在benchmark 軌道上的recall 值比較
表4 OAEI 的參與者與本文方法在benchmark 軌道上的precision 值比較
MOPSO 的參數(shù)配置如下:其中包括慣性權(quán)重,學(xué)習(xí)因子和,種群規(guī)模,迭代次數(shù),網(wǎng)格等分?jǐn)?shù)量,存儲(chǔ)庫(kù)閾值和變異率.其中慣性權(quán)重和變異率采用文獻(xiàn)[15]給出的數(shù)值,分別為0.4 和0.5,經(jīng)過(guò)實(shí)驗(yàn)測(cè)試,改變慣性權(quán)重和變異率的數(shù)值,得到的匹配結(jié)果的質(zhì)量均未能優(yōu)于當(dāng)兩個(gè)參數(shù)分別為0.4 和0.5 時(shí).其他的參數(shù)經(jīng)過(guò)參數(shù)敏感性實(shí)驗(yàn)得到的參數(shù)配置結(jié)果如表5 所示.
表5 MOPSO 的參數(shù)配置
從表3 和表4 中可以看出:
1)101~104. 對(duì)于這些測(cè)試用例,先進(jìn)的OAEI 系統(tǒng)都能夠?qū)崿F(xiàn)它們的最大目標(biāo)值,包括LogMapLt 和LogMapBio, 可以解釋為在這些本體中, 詞法、語(yǔ)義和結(jié)構(gòu)信息的類(lèi)和屬性不是異質(zhì)的, 基于詞法、語(yǔ)義和結(jié)構(gòu)的匹配器都可以有效地匹配這些本體.
2)201~210. 這些本體具有相同的結(jié)構(gòu)特征和不同的詞匯及語(yǔ)義特征.因此,基于更有效的詞匯和語(yǔ)義匹配器的匹配系統(tǒng)在這些測(cè)試用例中表現(xiàn)良好.由表3 和表4 可以看出,由于本方法更好地結(jié)合了基于詞匯、語(yǔ)義和結(jié)構(gòu)的匹配器,并進(jìn)行了適當(dāng)?shù)念A(yù)處理,所以本方法的目標(biāo)平均值明顯優(yōu)于其他的OAEI 參與者,只是在查準(zhǔn)率上略低于AML.
3)221~247. 由表3 和表4 可以看出,本方法和edna在recall目標(biāo)上取得了最好的結(jié)果,而與AML 在precision 目標(biāo)上的結(jié)果優(yōu)于其他匹配系統(tǒng).因?yàn)檫@些測(cè)試本體具有相同的詞匯和語(yǔ)義特征,但結(jié)構(gòu)特征不同,因此對(duì)基于結(jié)構(gòu)的匹配器要求較高.本方法通過(guò)減少結(jié)構(gòu)匹配器的權(quán)值來(lái)獲得更好的匹配結(jié)果.
4)248~266. 這些本體的特征在詞匯、語(yǔ)義和結(jié)構(gòu)上都不同,即本體之間的異質(zhì)性非常高,很難得到滿意的匹配結(jié)果.由表3 和表4可以看出,本方法在recall 目標(biāo)上相對(duì)于OAEI的其他先進(jìn)系統(tǒng)具有顯著優(yōu)勢(shì).同時(shí),這些匹配系統(tǒng)在這些測(cè)試用例中性能較差,原因如下:雖然本方法使用的匹配器可以有效地結(jié)合詞匯、語(yǔ)義和結(jié)構(gòu)匹配器,但這些本體的詞匯、語(yǔ)義和結(jié)構(gòu)信息被完全打亂,從而降低了最終匹配結(jié)果的質(zhì)量.在這些測(cè)試案例中,本方法的結(jié)果是可以接受的.
5)301~304. 這些本體來(lái)自現(xiàn)實(shí)世界,由不同的本體工程師構(gòu)建,OAEI 的參與者沒(méi)有測(cè)試這些測(cè)試用例.
本體匹配是實(shí)例共享、查詢重寫(xiě)、本體集成、輔助翻譯等應(yīng)用的基礎(chǔ),可以實(shí)現(xiàn)知識(shí)的融合與信息的交互.對(duì)于匹配問(wèn)題來(lái)說(shuō),相似度度量方法的選擇是關(guān)鍵,如何集成多種度量方法以獲得最優(yōu)的本體匹配結(jié)果是本體元匹配問(wèn)題的核心. 本體匹配結(jié)果質(zhì)量的高低需要兩個(gè)目標(biāo)來(lái)評(píng)估,為了避免專家構(gòu)造標(biāo)準(zhǔn)匹配結(jié)果的不便,兩個(gè)近似評(píng)估指標(biāo)被提出來(lái)代替?zhèn)鹘y(tǒng)的查全率和查準(zhǔn)率.為了獲得高質(zhì)量的匹配結(jié)果,首先將本體元匹配問(wèn)題建模為多目標(biāo)優(yōu)化問(wèn)題,目標(biāo)函數(shù)為近似查全率和近似查準(zhǔn)率;其次,通過(guò)一個(gè)加入變異算子的MOPSO 來(lái)優(yōu)化這兩個(gè)目標(biāo)函數(shù),MOPSO 具有收斂速度快,粒子并行探索的特征,適合于解決本體匹配問(wèn)題;最后,將MOPSO 的尋優(yōu)結(jié)果輸出,即找到一組最合適的權(quán)重和閾值.在實(shí)驗(yàn)階段,本方法通過(guò)與OAEI 的參與者在benchmark 測(cè)試集上進(jìn)行結(jié)果比較來(lái)證明其有效性.實(shí)驗(yàn)結(jié)果表明,本方法比其他的參與者在兩個(gè)目標(biāo)上都具有優(yōu)勢(shì),這說(shuō)明本方法可以有效地結(jié)合不同特征的相似度度量方法,有助于更好地實(shí)現(xiàn)本體融合.
如何選擇和集成相似度度量技術(shù)仍然是本體元匹配面臨的主要挑戰(zhàn)之一,在未來(lái)的工作中,更準(zhǔn)確、更合適的相似度度量技術(shù)需要被發(fā)掘和應(yīng)用.另一方面,MOPSO 也需要進(jìn)一步改進(jìn)來(lái)克服早熟收斂的問(wèn)題,在其他的測(cè)試數(shù)據(jù)集上,MOPSO 的性能還需被進(jìn)一步驗(yàn)證,未來(lái)會(huì)將MOPSO 應(yīng)用于求解大規(guī)模本體匹配的問(wèn)題中,MOPSO 快速的收斂速度對(duì)于解決此類(lèi)問(wèn)題會(huì)有幫助.
福建技術(shù)師范學(xué)院學(xué)報(bào)2022年2期