摘 要:不同本體之間的異構(gòu)問題成為各種應(yīng)用之間實(shí)現(xiàn)更智能化、高效的知識(shí)共享和通信的障礙。本體匹配是解決上述問題的有效方法。為了獲取高質(zhì)量匹配結(jié)果,提出了基于部分參考匹配結(jié)果(partial reference alignment,PRA)的混合遺傳算法,該方法采用分層選擇方法解決傳統(tǒng)PRA構(gòu)建過程中的語義丟失問題,并提出了一種新的適應(yīng)度函數(shù)進(jìn)一步充分利用PRA中的潛在信息,從另一個(gè)角度解決語義丟失問題。此外,該算法結(jié)合了遺傳算法(GA)和隨機(jī)爬山算法兩種方法,以在全局和局部范圍內(nèi)尋找最優(yōu)的本體匹配方案。實(shí)驗(yàn)結(jié)果表明,該算法在不同的本體匹配任務(wù)中均能有效地獲得高質(zhì)量的匹配結(jié)果,并且和其他前沿的方法比較也有出色的表現(xiàn)。
關(guān)鍵詞:本體匹配;部分參考匹配集合;異質(zhì)性;混合遺傳算法
中圖分類號(hào):TP301.6 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2024)11-017-3323-06
doi:10.19734/j.issn.1001-3695.2024.03.0089
Optimizing ontology matching through hybrid genetic algorithm based on partial reference alignment
Qiao Yubo, Lyu Qing?, Xu Zhaoyun
(College of Electrical amp; Power Engineering, Taiyuan University of Technology, Taiyuan 030024, China)
Abstract:The problem of heterogeneity between different ontologies becomes an obstacle to more intelligent and efficient knowledge sharing and communication between various applications. Ontology matching is an effective way to solve the above problems. In order to obtain high quality matching results, this paper proposed a hybrid genetic algorithm (HGA) based on PRA. The method adopted a stratified selection approach to utilize the heterogeneity feature among ontologies to solve the issue of semantic loss in the traditional PRA construction process, and proposed a new fitness function to further fully utilize the potential information in the PRA to solve the semantic loss problem from another perspective. In addition, the algorithm combined both genetic algorithm and stochastic hill climbing algorithm in order to find the optimal ontology matching solution in both global and local scales. Experimental results show that the algorithm is effective in obtaining high-quality matching results in different ontology matching tasks, and it also performs well in comparison with other cutting-edge methods.
Key words:ontology matching; partial reference alignment; heterogeneity; hybrid genetic algorithm
0 引言
本體作為人工智能領(lǐng)域中的一種最新知識(shí)建模工具,定義了一系列領(lǐng)域概念及其相互關(guān)系[1],以形式化的、機(jī)器可理解的方式描述領(lǐng)域知識(shí)。隨著人工智能的飛速進(jìn)步,促進(jìn)了不同領(lǐng)域間的互動(dòng)與合作,各種本體被開發(fā)出來,為智能家居[2]、智能醫(yī)療[3]和智慧交通[4]等應(yīng)用提供領(lǐng)域知識(shí)支持。然而,由于信息的分散性和人類的主觀性,數(shù)據(jù)實(shí)體的描述可能會(huì)在不同的本體中有所差異,這導(dǎo)致了本體異構(gòu)問題[5]。為了克服這一挑戰(zhàn),需要利用本體匹配技術(shù)[6]確定兩個(gè)不同本體之間語義相關(guān)的實(shí)體。
在本體匹配過程中,通常利用相似度量技術(shù)計(jì)算實(shí)體的語義相似度。由于實(shí)體之間異構(gòu)特征的多樣性,單一的相似度量方法很難確保在復(fù)雜匹配場景中的通用有效性。因此,需要通過聚合多個(gè)相似度量方法來提高匹配結(jié)果的質(zhì)量[7]。本體匹配是一種非常具有挑戰(zhàn)性的優(yōu)化問題:首先,集成參數(shù)在[0,1]之間是連續(xù)變化的,故其搜索空間是巨大的;其次,聚合各類相似度矩陣參數(shù)的組合有無窮多種,故其是一個(gè)多峰尋優(yōu)問題[7];最后,本體匹配的目標(biāo)函數(shù)沒有梯度信息,使用傳統(tǒng)數(shù)學(xué)方法更容易受到局部最優(yōu)解的影響。一個(gè)強(qiáng)大的搜索算法是解決本體匹配中上述三個(gè)難點(diǎn)的關(guān)鍵。遺傳算法(GA)由于具有處理復(fù)雜搜索空間問題的能力以及全局搜索能力[8],被廣泛用于解決本體匹配問題。GA還可以通過遺傳算子逐步改進(jìn)解的質(zhì)量,這些操作不需要梯度信息,這也是其與傳統(tǒng)數(shù)學(xué)規(guī)劃方法相區(qū)別的顯著優(yōu)勢[9]之一。
目前基于遺傳算法的本體匹配技術(shù)取得了一定成功,但仍存在以下缺陷。首先,在實(shí)際情況中,自動(dòng)匹配工具無法避免出現(xiàn)錯(cuò)誤的匹配結(jié)果[10]。理想情況下,為了保證對(duì)齊質(zhì)量,需要專家提供參考對(duì)齊(reference alignment,RA)來引導(dǎo)匹配方向。然而,可能實(shí)體對(duì)數(shù)量與本體內(nèi)部的實(shí)體數(shù)量是二次方關(guān)系,獲取全部的RA是昂貴的。因此,Ritze等人[11]選取一個(gè)與RA“相似”的子集PRA來調(diào)整系統(tǒng)參數(shù)。文獻(xiàn)[11]隨機(jī)從本體中選擇部分實(shí)體,確認(rèn)其匹配關(guān)系后加入PRA。Xue等人[12]使用聚類算法將本體中的實(shí)體劃分為語義相對(duì)獨(dú)立的小集群,然后從中隨機(jī)選擇實(shí)體,在專家確定其匹配關(guān)系后構(gòu)建出PRA。這兩種方法都存在一個(gè)共同的問題,即它們都是從源本體出發(fā)來構(gòu)建PRA,忽略了源本體和目標(biāo)本體之間的語義關(guān)系,弱化了本體匹配知識(shí)共享的能力。其次,現(xiàn)有的利用PRA引導(dǎo)算法進(jìn)化的技術(shù)只關(guān)注PRA中的正確信息,而忽略了其中隱含的錯(cuò)誤信息。錯(cuò)誤的信息同樣蘊(yùn)涵有價(jià)值的信息,它們能夠提供額外的線索和背景知識(shí)。因此,導(dǎo)致適應(yīng)度函數(shù)難以準(zhǔn)確地反映真實(shí)的數(shù)據(jù)分布,無法有效地區(qū)分異構(gòu)實(shí)體。最后,傳統(tǒng)的遺傳算法在解決這種復(fù)雜的連續(xù)優(yōu)化問題時(shí),往往會(huì)遇到早熟收斂的問題[13],從而降低了匹配結(jié)果的準(zhǔn)確性。
針對(duì)上述問題,提出一種基于部分參考匹配集合的混合遺傳算法(HGA-PRA)。首先,為了構(gòu)建出一個(gè)更具代表性的PRA,采用一種分層選擇的方法將整體上異質(zhì)的信息劃分為語義同質(zhì)的子組,更好地展現(xiàn)本體之間的聯(lián)系。然后,提出一個(gè)新的適應(yīng)度函數(shù),綜合考慮了PRA中專家已驗(yàn)證的匹配對(duì),以及可能對(duì)這些匹配對(duì)產(chǎn)生干擾的候選匹配對(duì)。兩者共同引導(dǎo)算法的進(jìn)化,以最大化糾正和優(yōu)化匹配過程。最后,為了降低陷入局部最優(yōu)的可能性,提出一種混合遺傳算法,將隨機(jī)爬山算法[14]引入遺傳算法中進(jìn)行局部優(yōu)化。
1 匹配框架
為了高質(zhì)量完成本體匹配任務(wù),提出HGA-PRA算法,其框架如圖1所示。
整個(gè)匹配過程分為初始化、PRA構(gòu)建和優(yōu)化三個(gè)階段。在初始化階段,將源本體和目標(biāo)本體.rdf文件轉(zhuǎn)換為有向圖形式,圖中的節(jié)點(diǎn)代表各個(gè)本體包含的實(shí)體。然后,使用基于術(shù)語(syntax-based)、語義(linguistic-based)和結(jié)構(gòu)相似度度量方法(structure-based)[15]計(jì)算源本體和目標(biāo)本體之間的相似度矩陣。第二階段構(gòu)建PRA來評(píng)估個(gè)體質(zhì)量。首先,通過可行性過濾策略定義樣本的總體;然后,針對(duì)本體不同特征,采用多樣性分層策略進(jìn)行分層;最后,通過收斂性選擇策略有目的地從各分組中提取樣本,并在專家確認(rèn)后將其加入PRA集合中(具體見第2章)。
第三階段使用HGA確定集成參數(shù)來生成最優(yōu)的匹配結(jié)果。首先,隨機(jī)初始化群體,并評(píng)估每個(gè)初始個(gè)體。在整個(gè)進(jìn)化過程中會(huì)保留一個(gè)精英個(gè)體,并在每一代之后對(duì)其進(jìn)行更新。然后,在每一代中,新的后代從當(dāng)前種群中產(chǎn)生。具體地,首先通過錦標(biāo)賽選擇從種群中選擇親代。然后,對(duì)選定的親代個(gè)體使用交叉和變異算子生成子代。之后,評(píng)估生成的后代,并更新精英個(gè)體。最后,在精英個(gè)體附近執(zhí)行局部搜索以找到更優(yōu)的新個(gè)體并更新種群。當(dāng)精英個(gè)體的最優(yōu)適應(yīng)度為1.0或達(dá)到最大迭代次數(shù)時(shí),算法停止(具體見第3章)。
2 分層選擇方法構(gòu)建PRA
所提出的分層選擇方法構(gòu)建PRA主要是為了解決優(yōu)化過程中的兩個(gè)難題:a)如何構(gòu)建更具代表性的PRA;b)為了減輕專家工作負(fù)擔(dān),盡量減少其介入次數(shù),即PRA中已驗(yàn)證匹配對(duì)數(shù)量越少越好。如何使數(shù)量有限的PRA在優(yōu)化中發(fā)揮更大的作用。在問題a)中,如果構(gòu)建的PRA不具有代表性,算法可能會(huì)無法找到最優(yōu)解;而在問題b)中,如果PRA中已驗(yàn)證的匹配對(duì)數(shù)量一定,但包含的有用信息量相對(duì)較少,算法將難以跳出局部最優(yōu)解,從而浪費(fèi)計(jì)算資源在無效的解決方案上。這個(gè)方法主要由三部分組成,細(xì)節(jié)描述如下。
2.1 基于可行性過濾策略確定總體
在本體匹配領(lǐng)域中,隨著實(shí)體數(shù)量的增加,可能的映射數(shù)量會(huì)以指數(shù)形式增長,列出所有可能的映射成為一項(xiàng)不可行的任務(wù)。因此,提出了一種基于可行性的過濾策略來構(gòu)造原始樣本集(Ω),以便專注于那些最有可能是正確匹配的候選對(duì),減少低質(zhì)量或不相關(guān)匹配對(duì)的干擾。
如圖2所示,給出了基于可行性的過濾策略構(gòu)造原始樣本集示例。矩陣中展示了三種不同的相似度度量方法的結(jié)果。矩陣中深灰色部分表示的是相似度排名位居前兩位的候選匹配對(duì),三個(gè)虛線框各自代表三種不同的相似度計(jì)算方法。矩陣中行代表源本體的概念,記作OS={OS1,OS2,…,OSm},列代表目標(biāo)本體的概念,記作OT={ OT1,OT2,…,OTn}。這些矩陣的特點(diǎn)是非零元素很少而大部分元素為零?;谙嗨贫染仃嚨倪@一特點(diǎn),將與源本體的概念最相似的目標(biāo)本體概念(sim-Best)和次相似的目標(biāo)概念(simSubOptimal)放入Ω。在構(gòu)建過程中,任何重復(fù)出現(xiàn)的候選匹配對(duì)將不會(huì)被納入考慮。高相似度值是實(shí)際對(duì)齊的良好指示器,通過選擇重要的候選匹配對(duì),可以最大程度地保留數(shù)據(jù)的原始語義。
2.2 基于多樣性分層策略劃分子組
每個(gè)本體匹配任務(wù)都有其特殊性,為了使PRA最大程度地保留原始語義,提出了基于多樣性分層策略。根據(jù)以下兩個(gè)特征進(jìn)行分層:
a)異質(zhì)性,分為三個(gè)階層(syntax-based、linguistic-based、structure-based)。綜合考慮多個(gè)異質(zhì)性特征,可以從不同的角度揭示實(shí)體之間的差異性,進(jìn)而提供更綜合、準(zhǔn)確的分層依據(jù)。
b)相似度值,分為兩個(gè)階層(simBest和simSubOptimal)。在本體匹配過程中,相似度矩陣融合是不同相似度方法的加權(quán)和,這會(huì)使得聚合結(jié)果的大小總是介于已有的適應(yīng)度值中間,對(duì)算法的尋優(yōu)造成阻礙。通過比較這兩個(gè)值,可以更直觀地捕捉整個(gè)數(shù)據(jù)的分布特性,從而抵抗測試集的變化。假設(shè)e1和e2的相似度值為{0.54,0.33,0.88},而e1和e2′的相似度值為{0.46,0.25,1.00};當(dāng)權(quán)重分配為x=0.5,y=0.3,z=0.2時(shí),第二組加權(quán)求和結(jié)果0.505大于第一組0.545;當(dāng)權(quán)重分配為x=0.3,y=0.5,z=0.2時(shí),第二組加權(quán)求和0.463結(jié)果小于第一組0.503。如果正確的匹配對(duì)e1和e2′的加權(quán)和值較低,算法可能會(huì)傾向于選擇錯(cuò)誤的匹配對(duì),從而影響最終的匹配結(jié)果。因此,這兩個(gè)值在引導(dǎo)算法進(jìn)化過程中有著重要作用。
通過上述特征將總體分為23=8個(gè)類別,目的是讓同一組內(nèi)的實(shí)體或概念在語義上是相似的。如果一個(gè)候選匹配對(duì)在三種相似度方法中都得到最高相似度得分,加權(quán)求和后它仍將是最高的;反之亦然。因此,最終的分類數(shù)量少于預(yù)期,只分成了如圖3所示的6個(gè)不同類別。總的來說,分層劃類增大了同一類別內(nèi)各單位之間的共同性,有助于選擇具有代表性的樣本。
2.3 基于收斂性選擇策略提取樣本
基于收斂性選擇的核心思想旨在將難以聚合的匹配對(duì)轉(zhuǎn)換為可操作的爭議性大小的比較。爭議性越大,對(duì)種群的收斂過程貢獻(xiàn)越顯著。爭議性大小計(jì)算方式如式(1)所示。在計(jì)算完?duì)幾h性大小后,采用輪盤賭的方法在每個(gè)子組中選擇了15%源本體概念,這樣具有較大爭議性的映射更有可能被選中。最后,經(jīng)專家確認(rèn)后,放入PRA中。
Contention(eS,eT)=NM(1)
其中:eS、eT分別為源本體和目標(biāo)本體的概念;M為分層策略得到的子組數(shù)量;N為源實(shí)體在這些子組中重復(fù)出現(xiàn)的次數(shù)。
3 HGA-PRA算法
本體元匹配是一個(gè)多峰優(yōu)化問題。傳統(tǒng)的GA在解決這種復(fù)雜的優(yōu)化問題時(shí),往往容易陷入局部最優(yōu)。針對(duì)這一問題,提出一種混合遺傳算法,該算法將GA與隨機(jī)爬山算法結(jié)合。遺傳算法具有穩(wěn)健性和高效性,在全局搜索方面表現(xiàn)出色;而隨機(jī)爬山算法是一種貪心算法,能夠快速收斂到局部最優(yōu)解,具有較強(qiáng)的局部搜索能力。兩者優(yōu)勢互補(bǔ),從而提高優(yōu)化能力。
3.1 優(yōu)化模型
給定兩個(gè)本體OS和OT,基于部分參考匹配結(jié)果的本體匹配問題的優(yōu)化模型定義如下:
max f-measureP(X)s.t. X=(x1,x2,…,xn-1,xn)T
∑ni=1xi=1, xi∈[0,1]xn+1∈[0,1](2)
其中:n表示使用相似度度量方法的數(shù)量;X為優(yōu)化模型的參數(shù)集合,xi (i=1,…,n) 表示第i個(gè)相似度方法的權(quán)重,將用于執(zhí)行相似性聚合任務(wù),且權(quán)重之和為1;xn+1表示閾值,用來過濾掉不正確的實(shí)體對(duì)應(yīng)關(guān)系,目標(biāo)函數(shù)f-measurep(X)綜合考慮了PRA匹配結(jié)果的recallP(查全率)和precisionP(查準(zhǔn)率)。用于計(jì)算由參數(shù)集合X聚合產(chǎn)生的匹配結(jié)果與PRA的符合程度,公式為
f-measureP=2×precisionP×recallPprecisionP+recallP(3)
recallP=|R′∩A′||R′|(4)
precisionP=|R′∩A′||A′|(5)
其中:A′代表最終找到的對(duì)齊集;R′代表部分參考對(duì)齊集。
f-measureP對(duì)搜索過程起著關(guān)鍵的引導(dǎo)作用。傳統(tǒng)方法利用PRA確定源本體子集OPS和目標(biāo)本體子集OPT,以構(gòu)建相似度矩陣,得到匹配結(jié)果,并計(jì)算f-measureP。在這個(gè)過程中,沒有充分利用與PRA不一致的候選匹配對(duì),導(dǎo)致信息不完整。這種不周全考慮導(dǎo)致無法得到準(zhǔn)確的決策邊界。因此,本文在這方面作出了改進(jìn),如圖4所示,在已經(jīng)確定的OPT中補(bǔ)充了容易混淆的目標(biāo)實(shí)體以提高辨別力,逐漸優(yōu)化自身。
3.2 編碼方案
在這項(xiàng)工作中,編碼信息包括了用于集成相似度度量結(jié)果的權(quán)重集合和用于過濾匹配結(jié)果的閾值。對(duì)于權(quán)重部分,在 [0,1] 中定義分割點(diǎn)表示權(quán)重。假設(shè)p是所需的權(quán)重?cái)?shù)量,即相似度度量方法的個(gè)數(shù),則分割點(diǎn)的集合可以被表示為c′={c1′,c2′,…,cp-1′}。個(gè)體的解碼過程是先將c′中的元素以升序得到c={ c1,c2,…,cp-1},然后通過式(6)計(jì)算相應(yīng)的權(quán)重:
wk=c1
k=1ck-ck-1 1lt;klt;p1-ck-1 k=p (6)
由于需要p-1位表示分割點(diǎn)和1位表示閾值,所以個(gè)體編碼長度為p。圖5給出了一個(gè)示例來說明這項(xiàng)工作的編碼機(jī)制。假設(shè)p=5,生成的五個(gè)隨機(jī)數(shù)分別為0.33、0.71、0.59、0.15和0.88,其中0.88作為閾值,其余四個(gè)數(shù)字(分割點(diǎn))按升序排列,對(duì)應(yīng)的五個(gè)權(quán)重分別為0.15、0.18、0.26、0.29和0.12。
3.3 遺傳算子
遺傳算子用于模擬自然進(jìn)化過程中的遺傳機(jī)制,幫助算法搜索問題的解空間。通過不斷地進(jìn)行交叉和變異操作,引導(dǎo)種群向著更優(yōu)解的方向演化[16]。如圖6所示,該算法使用兩點(diǎn)交叉算子[17]和位變異算子[18]來生成子代。兩點(diǎn)交叉算子在兩個(gè)親代個(gè)體parent 1和parent 2上隨機(jī)設(shè)置了兩個(gè)切割點(diǎn)(交叉點(diǎn)),然后進(jìn)行基因片段的交換,生成新的個(gè)體child 1和child 2。位變異算子則是對(duì)個(gè)體進(jìn)行微調(diào),根據(jù)變異率對(duì)待變異基因進(jìn)行數(shù)值反轉(zhuǎn),例如待變異基因的值為1,則將該基因值變?yōu)?。
3.4 基于隨機(jī)爬山算法的局部搜索過程
爬山算法是一種迭代的局部搜索算法,它主要針對(duì)當(dāng)前種群中的精英個(gè)體進(jìn)行操作。在迭代過程中,該算法通過隨機(jī)地變異當(dāng)前個(gè)體以試圖在當(dāng)前解鄰域內(nèi)找到更好的個(gè)體。如果變異操作產(chǎn)生的新個(gè)體優(yōu)于當(dāng)前精英個(gè)體,則將新個(gè)體取代當(dāng)前精英個(gè)體;反之,返回當(dāng)前精英個(gè)體。該算法一直重復(fù)執(zhí)行,直到無法再進(jìn)一步改進(jìn)當(dāng)前個(gè)體,或是達(dá)到最大迭代次數(shù)。
4 實(shí)驗(yàn)結(jié)果及分析
在實(shí)驗(yàn)中,在OAEI的Benchmark數(shù)據(jù)集上驗(yàn)證了HGA-PRA算法的有效性。Benchmark是一個(gè)通用測試數(shù)據(jù)集,其中包含多種異構(gòu)匹配任務(wù)。每個(gè)Benchmark案例由兩個(gè)本體和一個(gè)參考配準(zhǔn)組成,用于評(píng)估匹配技術(shù)確定的配準(zhǔn)質(zhì)量。表1詳細(xì)概述了Benchmark數(shù)據(jù)集的相關(guān)信息。
4.1 實(shí)驗(yàn)配置
根據(jù)以往相關(guān)本體匹配研究[19],HGA-PRA的參數(shù)設(shè)置如表2所示。將種群大小設(shè)定為30,交叉率和突變率設(shè)定為0.8和0.02,最大迭代次數(shù)被設(shè)置為250。局部搜索過程的種群規(guī)模設(shè)定為50,即局部搜索算法會(huì)執(zhí)行50次,以產(chǎn)生50個(gè)新個(gè)體。為了保證產(chǎn)生多樣性高的局部搜索群體,局部搜索過程所需的變異概率要高于GA的變異概率。通過實(shí)驗(yàn)發(fā)現(xiàn),變異率的取值為0.5時(shí)結(jié)果較好。
4.2 分層選擇方法構(gòu)建PRA的有效性驗(yàn)證
在表3中,展示了使用不同方法構(gòu)建的PRA在Benchmark數(shù)據(jù)集上引導(dǎo)算法進(jìn)化所獲得的f-measure結(jié)果。每個(gè)方法結(jié)果旁邊的“(+) / (-) / (=)”符號(hào)表示方法在統(tǒng)計(jì)學(xué)上相對(duì)于比較方法表現(xiàn)更好、更差或相當(dāng)。最后一行顯示了方法在多少個(gè)測試集中展現(xiàn)出更好、相當(dāng)或更差的性能。
根據(jù)表3的結(jié)果,分層選擇方法在引導(dǎo)算法進(jìn)化方面明顯優(yōu)于隨機(jī)選擇和聚類選擇方法。具體而言,在25個(gè)測試用例中,分層選擇方法表現(xiàn)出比隨機(jī)選擇方法更有優(yōu)勢,并且在其余11個(gè)用例上沒有顯著差異。與聚類選擇方法相比,在19個(gè)測試用例中,分層選擇方法表現(xiàn)出比聚類選擇方法有更好的性能,并且在其余17個(gè)用例上沒有顯著差異。從表3也可以看出,分層選擇方法對(duì)應(yīng)的方差最小,而隨機(jī)選擇方法則表現(xiàn)出最大的方差。這種差異主要源于隨機(jī)選擇方法忽視了本體的語義信息,導(dǎo)致生成的PRA可能無法準(zhǔn)確地代表完整的RA,使數(shù)據(jù)結(jié)果呈現(xiàn)出明顯的不穩(wěn)定性。因此,通過f-measure和方差的分析結(jié)果,驗(yàn)證了采用分層選擇方法構(gòu)建的PRA更具代表性。
4.3 適應(yīng)度函數(shù)和局部搜索的有效性驗(yàn)證
HGA-PRA中一個(gè)重要的新組件是適應(yīng)度函數(shù)。本文提出了一個(gè)具有決策邊界的適應(yīng)度函數(shù)解決權(quán)重集合難以量化的問題。HGA-PRA另一個(gè)重要部分是局部搜索策略,將GA和SHC結(jié)合,降低了陷入局部最優(yōu)的可能性,提高了匹配質(zhì)量。為了驗(yàn)證這兩部分的有效性,將HGA-PRA與對(duì)照組a)b)和c)進(jìn)行比較。
a)HGA-PRA1:只利用PRA中正確的信息,以此來驗(yàn)證適應(yīng)度函數(shù)糾錯(cuò)的有效性。
b)HGA-PRA2:用全部的參考匹配集合引導(dǎo)算法進(jìn)化,驗(yàn)證了PRA的有效性。由于參考匹配對(duì)獲取昂貴,這使得HGA-PRA2在實(shí)際中不適用。
c)GA-PRA:通過傳統(tǒng)的GA解決本體匹配問題,以此來驗(yàn)證局部搜索的有效性。
表4顯示了HGA-PRA1、HGA-PRA2和HGA-PRA在測試集上的比較結(jié)果。從表中可以清楚地看到,HGA-PRA在31個(gè)測試集上的性能都明顯優(yōu)于HGA-PRA1。HGA-PRA優(yōu)于HGA-PRA1,證明了在適應(yīng)度函數(shù)中使用與現(xiàn)有PRA不一致的信息是有效的。另一方面可以看到,HGA-PRA在36個(gè)測試集中的12個(gè)上顯示出統(tǒng)計(jì)學(xué)上差于HGA-PRA2的性能,而在其余24個(gè)測試用例上與HGA-PRA2沒有顯著差異。HGA-PRA在所有測試用例上獲得的平均f-measure為0.81,僅略低于HGA-PRA2(0.82)。同時(shí),再一次證明分層選擇方法構(gòu)建的PRA可以在很大程度上代表RA。此外,通過GA-PRA和HGA-PRA的比較,在25個(gè)測試用例中,HGA-PRA明顯優(yōu)于GA-PRA,并且在其余11個(gè)用例上沒有顯著差異,驗(yàn)證了局部搜索的有效性。
4.4 OAEI參與者比較
表5顯示了HGA-PRA和最先進(jìn)的5種本體匹配方法在OAEI的Benchmark數(shù)據(jù)集上的結(jié)果比較。選擇這些比較方法不僅是因?yàn)樗鼈兪荗AEI基準(zhǔn)測試中表現(xiàn)最好的方法,而且它們涵蓋了廣泛的本體匹配技術(shù)。OAEI參與者描述如下:
AML[20]利用外部資源進(jìn)行對(duì)齊,采用貪婪選擇算法進(jìn)行映射選擇。匹配完成后,專家介入進(jìn)行對(duì)齊修復(fù),以確保對(duì)齊的一致性。LogMap[21]利用每個(gè)實(shí)體的詞匯信息初始化一個(gè)可控制大小的候選映射集。在專家的參與下,通過復(fù)雜的推理技術(shù),最大限度地保證本體對(duì)齊的邏輯一致性。XMap[22]利用多種相似性度量生成候選映射,并設(shè)定兩個(gè)閾值:一個(gè)用于直接添加到最終匹配映射,另一個(gè)供專家驗(yàn)證。ICHEA[10]在匹配過程中自動(dòng)選擇最需要用戶介入的時(shí)間點(diǎn),并呈現(xiàn)最具有問題的映射供專家判斷,以引導(dǎo)算法的進(jìn)化方向。Lily[23]是一種基于機(jī)器學(xué)習(xí)的本體匹配技術(shù),從預(yù)先給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)聚合權(quán)重。
從表5中可以看出,HGA-PRA的f-measure平均值約為0.79,排名第二,僅次于排名第一的Lily。進(jìn)一步分析,Lily 組合了大量的匹配策略,并且考慮了幾乎全部的本體信息,如領(lǐng)域、范圍、相關(guān)實(shí)例等,而且采取了本體映射調(diào)試技術(shù)對(duì)映射進(jìn)一步檢測、診斷和改進(jìn)。相比之下,HGA-PRA使用的實(shí)體信息較少,工作量遠(yuǎn)小于Lily系統(tǒng)。盡管HGA-PRA在整體匹配質(zhì)量上低于Lily系統(tǒng),但相對(duì)于其他方法來說具有一定的優(yōu)越性。相較于LogMap,HGA-PRA有著顯著的優(yōu)勢,是因?yàn)榍罢咴趯<移ヅ浣Y(jié)束后介入,沒有影響匹配過程,導(dǎo)致錯(cuò)誤在匹配過程中持續(xù)存在,影響對(duì)齊質(zhì)量。HGA-PRA也顯著優(yōu)于XMap,其原因是本體的語義復(fù)雜,通過閾值篩選實(shí)體對(duì)供專家驗(yàn)證,這個(gè)過程可能導(dǎo)致一些有價(jià)值的信息被遺漏,從而使專家發(fā)揮的作用受到限制,對(duì)匹配結(jié)果的提升效果有限。此外,HGA-PRA優(yōu)于ICHEA,原因在于ICHEA在進(jìn)化的過程中隨著迭代的進(jìn)行增加PRA的數(shù)量,這樣會(huì)有一個(gè)缺點(diǎn),即進(jìn)化初期PRA信息量太少,而導(dǎo)致尋優(yōu)方向錯(cuò)誤。
4.5 HGA-PRA在傳感器本體的應(yīng)用
為了驗(yàn)證HGA-PRA算法在實(shí)際場景中的效果,在傳感器本體上進(jìn)行了測試。表6為傳感器本體的簡要描述,這些本體對(duì)傳感器設(shè)備、系統(tǒng)、過程、觀測以及環(huán)境知識(shí)進(jìn)行建模,已經(jīng)在傳感器社區(qū)中獲得廣泛的應(yīng)用[24,25]。
圖7為本文方法與其他匹配系統(tǒng)在傳感器本體測試集中的比較。從表中可以看出,HGA-PRA的結(jié)果優(yōu)于其他方法,證明了該方法在匹配傳感器本體時(shí)的有效性。此外,由于匹配過程使用的一些外部資源沒有涵蓋傳感器領(lǐng)域的一些專業(yè)術(shù)語,如濕度計(jì)和濕度調(diào)節(jié)器等,導(dǎo)致了部分映射未被檢測到,所以匹配結(jié)果無法達(dá)到理想狀態(tài)。
5 結(jié)束語
為了實(shí)現(xiàn)高質(zhì)量的本體對(duì)齊,提出了一種 HGA-PRA方法。首先,提出了分層選擇方法,利用兩個(gè)本體之間的聯(lián)系來構(gòu)建更具代表性的PRA,以解決語義丟失現(xiàn)象。其次,設(shè)計(jì)了新的適應(yīng)度函數(shù),充分利用PRA中潛在的不一致信息,進(jìn)一步提高了語義信息的利用率,并引入局部搜索策略進(jìn)一步優(yōu)化解決方案。大量的實(shí)證研究表明,HGA-PRA可以在各種異構(gòu)場景中有效地找到高質(zhì)量的對(duì)齊。此外,進(jìn)一步分析驗(yàn)證了HGA-PRA中分層選擇方法、新的適應(yīng)度函數(shù)和局部搜索的有效性。未來工作將繼續(xù)探索如何構(gòu)建一個(gè)很好地描述本體數(shù)據(jù)庫的代表性小集合,同時(shí)繼續(xù)對(duì)優(yōu)化算法的性能進(jìn)行改進(jìn)和提升。
參考文獻(xiàn):
[1]Ibrahim S, Fathalla S, Lehmann J, et al. Toward the multilingual semantic Web: multilingual ontology matching and assessment [J]. IEEE Access, 2023, 11: 8581-8599.
[2]Huang Bing, Dong Hai, Bouguettaya A. Conflict detection in IoT-based smart homes [C]// Proc of IEEE International Conference on Web Services. Piscataway, NJ: IEEE Press, 2021: 303-313.
[3]Wu Xuehong, Duan Junwen, Pan Yi, et al. Medical knowledge graph: data sources, construction, reasoning, and applications [J]. Big Data Mining and Analytics, 2023, 6(2): 201-217.
[4]Qiu Guoying, Tang Guoming, Li Chuandong, et al. A complete and comprehensive semantic perception of mobile travelling for mobile communication services [J]. IEEE Internet of Things Journal, 2024,11(3): 5467-5490.
[5]Mohamad U H, Ahmad M N, Zakaria A M U. Ontologies application in the sharing economy domain: a systematic review [J]. Online Information Review, 2022, 46(4): 807-825.
[6]呂青, 周欣, 李鳳蓮. 動(dòng)態(tài)分塊調(diào)節(jié)機(jī)制下的大規(guī)模解剖學(xué)本體匹配 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(1): 136-140,146. (Lyu Qing, Zhou Xin, Li Fenglian. Large scale anatomical ontology matching under dynamic partition adjustment [J]. Application Research of Computers, 2023, 40(1): 136-140,146.)
[7]Zhou Xin, Lyu Qing, Geng Aifeng. Matching heterogeneous ontologies based on multi-strategy adaptive co-firefly algorithm [J]. Know-ledge and Information Systems, 2023, 65(6): 2619-2644.
[8]王永, 呂致為. 基于基因庫求解旅行商問題的遺傳算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(11): 3262-3268. (Wang Yong, Lyu Zhiwei. Novel genetic algorithm based on genes pool for traveling salesman problem [J]. Application Research of Computers, 2023, 40(11): 3262-3268.)
[9]Jiao Ruwang, Nguyen B H, Xue Bing, et al. A survey on evolutionary multiobjective feature selection in classification: approaches, applications, and challenges [J]. IEEE Trans on Evolutionary Computation, 2024, 28(4): 1156-1176.
[10]Xue Xingsi, Yao Xin. Interactive ontology matching based on partial reference alignment [J]. Applied Soft Computing, 2018, 72: 355-370.
[11]Ritze D, Paulheim H. Towards an automatic parameterization of ontology matching tools based on example mappings [C]// Proc of the 6th ISWC Ontology Matching Workshop. Washington DC: IEEE Computer Science, 2011: 37-48.
[12]Xue Xingsi, Wang Yuping, Ren Aihong. Optimizing ontology alignment through memetic algorithm based on partial reference alignment [J]. Expert Systems with Applications, 2014, 41(7): 3213-3222.
[13]Xue Xingsi, Liu Jianhua. Collaborative ontology matching based on compact interactive evolutionary algorithm [J]. Knowledge-Based Systems, 2017, 137: 94-103.
[14]Ryma G, Mohamed-Khireddine K. Genetic algorithm with hill clim-bing for correspondences discovery in ontology mapping [J]. Journal of Information Technology Research, 2019, 12(4): 153-170.
[15]Geng Aifeng, Lyu Qing. A multi-objective particle swarm optimization with density and distribution-based competitive mechanism for sensor ontology meta-matching [J]. Complex amp; Intelligent Systems, 2023, 9(1): 435-462.
[16]Xue Xingsi, Tan Wenbin, Lyu Jianhui. Integrating large-scale ontologies for economic and financial systems via adaptive co-evolutionary NSGA-Ⅱ [J]. Fractals, 2023, 31(6): 2340105.
[17]Wang Jiquan, Cheng Zhiwen, Ersoy O K, et al. Multi-offspring genetic algorithm with two-point crossover and the relationship between number of offsprings and computational speed [J]. Journal of Computers, 2019, 30(5): 111-127.
[18]Tanabe R, Ishibuchi H. Review and analysis of three components of the differential evolution mutation operator in MOEA/D-DE [J]. Soft Computing, 2019, 23: 12843-12857.
[19]Acampora G, Loia V, Salerno S, et al. A hybrid evolutionary approach for solving the ontology alignment problem [J]. International Journal of Intelligent Systems, 2012, 27(3): 189-216.
[20]Lima B, Faria D, Couto F M, et al. OAEI 2020 results for AML and AMLC [C]// Proc of the 19th International Semantic Web Confe-rence. Washington DC: IEEE Computer Science, 2020: 154-160.
[21]Amrouch S, Mostefai S. Ascendant hierarchical clustering for instance matching [C]// Proc of the 22nd International Arab Conference on Information Technology. Piscataway, NJ: IEEE Press, 2021: 1-6.
[22]Lyu Qing, Shi Jinyuan, Shi Huanting, et al. A novel compact fireworks algorithm for solving ontology meta-matching [J]. Applied Intelligence, 2023, 53(5): 5784-5807.
[23]Zou Shiyi, Liu Jiajun, Yang Zherui, et al. Lily results for OAEI 2021 [EB/OL].(2021). https://api.semanticscholar.org/CorpusID:231636485.
[24]Xue Xingsi, Pan J S. A compact co-evolutionary algorithm for sensor ontology meta-matching [J]. Knowledge and Information Systems, 2018, 56(2): 335-353.
[25]Lian Wenwu, Fu Lingling, Niu Xishuan, et al. Solving sensor ontology metamatching problem with compact flower pollination algorithm [J]. Wireless Communications and Mobile Computing, 2022, 2022(1): 9662517.