摘 要:本體異質性阻礙了知識交互和數(shù)據(jù)共享。本體匹配通過整合相似度特征解決多種異質問題。為提高匹配結果的質量,提出了基于部分標準對齊(PSA)的協(xié)同遺傳規(guī)劃算法。該算法利用基于自適應概率的交叉策略和基于語義相似度的變異策略,平衡局部開發(fā)和全局探索,尋找高質量的相似度表示;其次,提出了一種新的適應度函數(shù),引導算法的尋優(yōu)方向,全面挖掘PSA中的信息價值;最后,提出了一種新的PSA修正方法,通過多維度識別可疑匹配對,并結合隨機森林分類器聚合專家投票,優(yōu)化PSA來構建更可靠的相似度特征。實驗結果表明,該方法在不同的專家錯誤率和本體匹配任務中均能獲得高質量的匹配結果,優(yōu)于先進的匹配技術。
關鍵詞:本體匹配;部分標準對齊;協(xié)同遺傳規(guī)劃;適應度函數(shù);PSA修正
中圖分類號:TP301.6"" 文獻標志碼:A""" 文章編號:1001-3695(2025)04-017-1095-07
doi: 10.19734/j.issn.1001-3695.2024.09.0328
Solving ontology matching through collaborative genetic programming algorithm based on partial standard alignment
Jiang Zhaohang, Lyu Qing, Dai Ketao, Sun Donglei
(College of Electrical amp; Power Engineering, Taiyuan University of Technology, Taiyuan 030024, China)
Abstract:Heterogeneity in ontologies hinders knowledge interaction and data sharing, while ontology matching addresses various heterogeneity issues by integrating similarity features. To improve the quality of matching results, this paper proposed a collaborative genetic programming algorithm based on partial standard alignment (PSA). The algorithm employed an adaptive probability-based crossover strategy and a semantic similarity-based mutation strategy to balance local exploitation and global exploration, aiming to discover high-quality similarity representations. Additionally, a new fitness function guided the optimization direction of the algorithm, fully leveraging the informational value of PSA. Finally, a novel PSA correction method identified suspicious matching pairs through multiple dimensions and aggregated expert votes using a random forest classifier, optimizing the PSA to construct more reliable similarity features. Experimental results demonstrate that the proposed method achieves high-quality matching results across different expert error rates and ontology matching tasks, outperforming state-of-the-art matching techniques.
Key words:ontology matching; partial standard alignment; collaborative genetic programming; fitness function; PSA correction
0 引言
語義網(wǎng)[1]通過為萬維網(wǎng)中的數(shù)據(jù)賦予有意義的上下文信息,增強了機器對數(shù)據(jù)的理解和處理能力。其核心概念是本體,即知識的結構化表示,包含特定領域的概念及其相互關系。隨著跨學科的交流與合作,本體在語義搜索[2]、數(shù)據(jù)集成[3]、智能決策[4]和生物醫(yī)學[5]等多個領域得到了廣泛應用。然而,由于知識表達方式的不同和數(shù)據(jù)源的多樣性,本體中的同一實體可能產生不同的描述,導致本體異質性問題,阻礙了基于本體的知識交互和數(shù)據(jù)共享。本體匹配[6]通過識別兩個異質本體中語義相關實體之間的對應關系,很大程度上解決了這一問題。本體匹配判斷來自不同本體的兩個實體是否相同,要用相似度量技術計算實體間的相似度,單一的相似度量方法難以準確區(qū)分所有異質概念,需要選擇和聚合多種相似度特征來構建高級的相似度表示[7]。遺傳規(guī)劃(GP)因其靈活的表示方式、卓越的全局搜索能力以及進化解決方案的可解釋性[8],在特征構建、符號回歸和分類等任務中表現(xiàn)出顯著優(yōu)勢[9],因此,GP可以用于本體匹配,它能夠有效聚合相似度特征并提升匹配質量[10]。部分標準對齊PSA是手動構建的標準對齊的子集[11],用于評估匹配質量,影響算法的尋優(yōu)方向。自動本體匹配方式經(jīng)常出現(xiàn)錯誤的匹配對,會產生“連鎖效應”導致后續(xù)錯誤的累計,因此在使用自動本體集成方法時,領域專家的干預至關重要。通過交互,領域專家可以在匹配過程中貢獻其專業(yè)知識,實時修正生成的PSA,動態(tài)調整適應度景觀,使算法在復雜的解空間中更有效地搜索最優(yōu)解。
盡管交互式本體匹配技術取得了一定進展,但仍面臨諸多挑戰(zhàn):a)相似度量方法的聚合方式有無窮多種,導致搜索空間極其龐大,算法易陷入局部最優(yōu)解,如何提高算法的全局尋優(yōu)能力,有效構建高級的相似度特征,成為待解決的首要問題;b)在匹配過程中,真實的參考對齊信息是未知的,如何設計一種不依賴真實度量的適應度函數(shù),有效評估匹配結果的質量并引導算法的尋優(yōu)方向,成為第二個待解決的問題;c)專家知識在修正PSA中至關重要,由于獲取完備的PSA成本高昂,如何在最小化專家工作負擔的同時,最大化其貢獻價值,并有效整合多位專家的知識,成為第三個待解決的問題。
文獻[12]使用緊湊的協(xié)同進化算法來改善匹配結果的質量并提高算法效率。然而,該方法缺乏種群間的交互作用,未能充分發(fā)揮協(xié)同進化的性能。文獻[13]將協(xié)同進化與遺傳規(guī)劃算法相結合,實現(xiàn)了種群間個體的轉移,但其交互策略缺乏明確規(guī)則,遺傳信息的利用尚不充分,增加破壞種群多樣性的風險。文獻[14]提出了基于部分參考對齊的交互式本體匹配,建立了基于PSA的適應度函數(shù)。然而,該適應度函數(shù)未考慮已找到匹配對的質量,削弱了個體間的差異,導致優(yōu)秀個體難以被發(fā)掘,影響了算法的尋優(yōu)能力。文獻[15]通過提交可疑匹配集合給專家判斷來引入專家知識,并通過輪盤賭方法確定可疑匹配對,使高相似度的匹配對更有可能被選擇。然而,該方法具有較強的隨機性,低相似度的匹配對可能同等重要,削弱了專家工作的價值。文獻[16]提出了一種基于自適應選擇壓力的選擇方法,在迭代過程中自適應地調整選擇概率,克服了種群過早收斂的問題,保持了種群多樣性。文獻[17]通過制定選擇樣本的標準,選擇盡可能少的樣本進行標注來訓練出一個好的學習模型,為專家知識修正PSA提供了理論基礎。文獻[18]比較的機器學習分類器能夠處理多種類型的數(shù)據(jù),不同的分類算法各有優(yōu)劣,具有聚合多名專家知識的潛力。
針對上述問題,本文提出了一種改進的基于PSA的協(xié)同遺傳規(guī)劃算法(CGP-PSA),采用了基于自適應概率的交叉策略(APBC)和基于語義相似度的變異策略(SSBM)兩種新策略。APBC通過自適應調控機制,在優(yōu)化過程中動態(tài)識別豐富遺傳信息的最佳時機,克服了維持種群多樣性與收斂速度之間的矛盾。SSBM通過精確量化GP樹的語義距離,在確保變異導向的同時保留適度的隨機性,提高了算法的搜索能力;其次,提出了一種新的基于PSA的適應度函數(shù)(PSAAF),突破了傳統(tǒng)查準率的局限,更全面地評估了匹配結果的質量。PSAAF綜合考慮了相似度水平以及一對多(或多對一)匹配對的影響,在不依賴真實參考對齊的情況下,有效地優(yōu)化匹配過程并減少專家介入的頻次;同時,提出了一種新的PSA修正方法,從邏輯關系、相似度值和上下文概念三個維度確定可疑匹配對,將最重要的匹配對提交給專家判斷,最大限度地降低了專家工作量并提升其判斷價值。為了進一步增強專家決策的準確性,采用隨機森林(RF)分類器[19]聚合投票,有效平衡了專家錯誤判斷的影響,推動PSA的良性更新。
1 改進的基于PSA的協(xié)同遺傳規(guī)劃算法(CGP-PSA)
1.1 算法流程
CGP-PSA算法流程如圖1所示,主要步驟包括:
PSA的初始化是根據(jù)上下文概念的數(shù)量,對源本體OS和目標本體OT中的實體分別進行排序,從大到小選取排名靠前的實體作為PSA候選集合SetS={eS1,eS2,…,eSm}和SetT={eT1,eT2,…,eTn}。再依次計算源實體(eSi∈SetS)和目標實體(eTj∈SetT)之間的SMOA相似度,若SMOA(eSi,eTj)=1,則將實體對(eSi,eTj)添加到PSA。所有實體判斷完,PSA初始化完成。
初始化兩個種群后,使用PSAAF計算每個個體的適應度,見第2章,通過比較兩個種群中的精英解,選擇適應度較高的精英解所屬的種群作為優(yōu)勢種群,另一個則作為劣勢種群。優(yōu)勢種群只執(zhí)行基于自適應概率的交叉策略APBC,見1.3節(jié),以強化局部開發(fā);劣勢種群只執(zhí)行基于語義相似度的變異策略SSBM,見1.4節(jié),以促進全局探索。兩個種群均采用精英保留機制,避免優(yōu)秀個體的退化和流失。計算新生成個體的PSAAF適應度,采用輪盤賭[20]選擇個體并更新種群,再次比較兩個種群中的精英解。若劣勢種群的精英解適應度超過優(yōu)勢種群,則交換兩個種群的優(yōu)劣地位。
若優(yōu)勢種群的精英解在經(jīng)過δ代后保持不變,將當前的可疑匹配對提交給專家判斷。激活專家介入,實現(xiàn)PSA的更新,見第3章,改變算法的尋優(yōu)方向。最后,判斷算法是否已達到最大迭代次數(shù),若已達到,則返回優(yōu)勢種群的精英解,并解碼獲得最終的匹配結果;否則,繼續(xù)進行下一次迭代。
1.2 個體表示
通過優(yōu)化樹結構,GP能夠有效地發(fā)掘和進化個體,自動構建出相似度量方法和分類方法的最佳組合。圖2展示了個體表示的示例。表1列出了GP樹各層節(jié)點的組成和功能。輸入層輸入不同相似度量方法計算得到的相似度矩陣SFi。函數(shù)層通過函數(shù)運算實現(xiàn)對多種相似度矩陣的組合優(yōu)化,生成一個綜合相似度矩陣。輸出層通過分類方法,將綜合相似度矩陣轉換為二進制矩陣,該矩陣的行代表源實體,列代表目標實體,矩陣中的1值表示匹配,0值表示不匹配。通過采用三層編碼結構和自下而上的樹狀個體解碼方式,確保了GP樹能夠靈活地組合高水平的相似度量方法和分類方法。
1.3 基于自適應概率的交叉策略(APBC)
優(yōu)勢種群僅執(zhí)行交叉操作,專注于改進當前精英解,通過APBC機制更新優(yōu)勢種群。種群的遺傳多樣性通常會隨著交叉操作的累積而逐漸減少,增加陷入局部最優(yōu)解的風險。當優(yōu)勢種群陷入局部最優(yōu)時,盡管劣勢種群的精英解表現(xiàn)不及優(yōu)勢種群,但其中的個體可能包含潛在的優(yōu)良基因。適時引入這些遺傳信息,可以增強優(yōu)勢種群的多樣性,擺脫次優(yōu)解的限制,推動不同種群解決方案的互補與融合,從而進一步探索潛在的解空間。在進化初期,APBC充分發(fā)揮優(yōu)勢種群的基因特性,確保個體遺傳信息的充分利用。當優(yōu)勢種群的精英解在多代中保持不變,種群多樣性逐漸降低時,APBC會根據(jù)優(yōu)勢種群每一代的進化效果,自適應地增加劣勢種群個體的選擇概率,豐富遺傳信息,進一步提高算法的性能。
APBC更新種群的偽代碼如算法1所示,在個體交互過程中擯棄了固定概率或基于簡單規(guī)則的設定,通過自適應概率probabilitya進行動態(tài)調整,其計算公式為
probabilitya=1exp(|E(Gnew)-E(Gold)|genbeu·T)+θ
(1)
其中:E(Gnew)表示當前優(yōu)勢種群的總適應度;E(Gold)表示上一代優(yōu)勢種群的總適應度;|E(Gnew)-E(Gold)|越大,劣勢種群個體的選擇概率越小,抑制外界遺傳信息的引入;genbeu表示優(yōu)勢精英解保持不變的代數(shù),genbeu越大,劣勢種群個體的選擇概率越大,促進外界遺傳信息的引入;|E(Gnew)-E(Gold)|genbeu表示對種群進化效果的綜合考量;T是比例因子,用于調整probabilitya的變化速度;θ是偏移因子,用于限制probabilitya的最大值。
算法1 APBC算法
輸入:優(yōu)勢種群;劣勢種群。
輸出:更新后的優(yōu)勢種群。
for i = 0; i lt;種群規(guī)模2; i++ do
a)兩階段錦標賽選擇:
錦標賽選擇優(yōu)勢種群待交叉?zhèn)€體parentInd1;
利用式(1)計算自適應概率probabilitya;
if random(0,1) gt; probabilitya
錦標賽選擇優(yōu)勢種群待交叉?zhèn)€體parentInd2;
else
錦標賽選擇劣勢種群待交叉?zhèn)€體parentInd2。
b)交叉操作:
隨機選取parentInd1和parentInd2函數(shù)層節(jié)點并截取節(jié)點之下的子樹,交換parentInd1和parentInd2的子樹,生成兩個新的子代spring1和spring2。
end for
1.4 基于語義相似度的變異策略(SSBM)
劣勢種群僅執(zhí)行變異操作,專注于開拓解空間,通過SSBM機制更新劣勢種群。SSBM計算個體與優(yōu)勢精英解的語義相似度,若語義相似度大于設定閾值,表明該個體與優(yōu)勢精英解之間存在潛在的相似性,應注重局部的擴展,以較大概率執(zhí)行節(jié)點變異,并以較小概率執(zhí)行子樹變異;相反,若語義相似度小于閾值,表明該個體與優(yōu)勢精英解之間存在顯著的語義距離,應注重大規(guī)模的探索,以較大概率執(zhí)行子樹變異,并以較小概率執(zhí)行節(jié)點變異。SSBM能夠適度引入優(yōu)勢精英解的遺傳信息,避免了劣勢種群過度偏離進化軌跡。為合理分配不同變異類型的執(zhí)行概率,并減少語義相似度計算的頻次,降低算法的復雜度,SSBM更新種群的偽代碼如算法2所示。以50%概率執(zhí)行隨機變異,包括等概率的節(jié)點變異和子樹變異;另50%概率執(zhí)行條件變異,通過語義相似度semSim確定執(zhí)行節(jié)點變異或子樹變異。semSim的計算公式如下:
semSim(ind1,ind2)=1-∑(M1i,j-M2i,j)2|M|
(2)
其中:M表示GP個體對應的二進制矩陣,即GP個體的語義;|M|表示矩陣元素的總數(shù);M1i,j和M2i,j分別表示GP個體1和2對應的二進制矩陣在第i行、第j列的元素。
算法2 SSBM算法
輸入:劣勢種群;優(yōu)勢精英解。
輸出:更新后的劣勢種群。
for 劣勢種群中的每一個個體 do
a)if random(0,1) gt; 0.5
50%概率執(zhí)行節(jié)點變異:隨機選取當前個體的一個節(jié)點,將其替換為同類型的另一節(jié)點,得到新的個體newInd;
50%概率執(zhí)行子樹變異:隨機選取當前個體函數(shù)層節(jié)點并刪除節(jié)點之下的子樹,從該節(jié)點開始重新生成一棵新的子樹,得到新的個體newInd。
b)else if senSim(indj, betterElite) gt; threshold
執(zhí)行節(jié)點變異;
else
執(zhí)行子樹變異。
end for
2 改進的PSA近似度量指標(PSAAF)
部分標準對齊(PSA)是交互式本體匹配過程中手動構建的參考對齊,用于評估個體質量和引入專家知識。給定部分標準對齊PSA和個體解碼得到的對齊A,A基于PSA的近似查全率定義如下:
recall(A)=|A∩PSA||PSA|
(3)
近似查準率定義如下:
precision1(A)=|A∩PSA||A|
precisionw(A)=3precisionα1×precisionβ2×precisionγ3
(5)
其中:α+β+γ=3。該函數(shù)引入了兩個全新的組成部分:
precision2(A)=(|PAO1|,|PAO2|)min(|PAO1|,|PAO2|)max
(6)
其中:PA是A的子集;PAO1包含于A中的所有元素且與PSA中的匹配對共享一個源實體,其定義為PAO1={(e1,e2)∈A|e′2:(e1,e′2)∈PSA};PAO2包含于A中的所有元素且與PSA中的匹配對共享一個目標實體,其定義為PAO2={(e1,e2)∈A|e′1:(e′1,e2)∈PSA};e1和e′1是來自同一本體的兩個實體,e2和e′2是來自另一本體的兩個實體。precision2(A)用于評估對齊A中一對多(或多對一)匹配對的影響,避免概念之間的交叉和重復引用。
precision3(A)=∑(ei,ej)∈A∩PSAsimValue(ei,ej)|A∩PSA|
(7)
其中:simValue(ei,ej)表示匹配對(ei,ej)在綜合相似度矩陣中對應的相似度值;precision3(A)用于衡量已找到匹配對的平均相似度水平,旨在獲取高質量的匹配結果。precisionw(A)綜合考察了三種精度指標,拓展了傳統(tǒng)精度,實現(xiàn)了個體查準率的多角度評估。最后,A的近似f-measure值定義如下:
F(A)=2×recall(A)×precisionw(A)recall(A)+precisionw(A)
(8)
該公式平衡了近似查全率和近似查準率的重要性。給定兩個本體OS和OT,基于PSA評估的本體匹配問題的優(yōu)化模型定義如下:
given F:E→Afind xbest|F(xbest)≥F(x),x∈E
(9)
其中:F()表示近似度量指標;E表示搜索空間;x表示空間中的候選解。
3 PSA更新框架
基于自適應概率的交叉和基于語義相似度的變異能夠提高算法的搜索性能,但由于GP龐大的搜索空間,算法有時仍會陷入困境。當優(yōu)勢種群的精英解在多代保持不變時,專家介入更新PSA,會改變個體的適應度評價,調整算法的搜索方向,引導算法規(guī)避當前的局部最優(yōu)解,繼續(xù)在解空間中進行更深入的探索。
3.1 更新流程
PSA的更新框架如圖3所示,主要步驟包括:
a)訓練階段。利用PSA的正負樣本構建訓練數(shù)據(jù)集,正樣本由PSA中已有的匹配對構成,負樣本通過打亂正樣本中源實體和目標實體的對應關系生成。專家對這些實例進行驗證,獲取訓練集{Xi,yi},其中Xi={xi1,xi2,…,xij},xij表示第j名專家對第i個實例的投票,xij=1表示贊成該實例,xij=0表示反對該實例;yi表示實例的種類,yi=1表示正樣本,yi=0表示負樣本。在此基礎上,最大化分類準確率ACC來訓練分類器C,ACC定義如下:
ACC=|(Xi,yi)∈PSA+-|yi=C(Xi)||PSA+-|
(10)
其中:||表示集合中實例的個數(shù);yi=C(Xi)表示實例Xi的分類結果。式(10)表示匯總專家投票與實際驗證結果正確匹配的實例數(shù)占PSA中正負實例總數(shù)的比例。投票聚合機制是專家校驗的核心,隨機森林(RF)集成多個決策樹(DT)進行分類,通過平均化預測結果來減少方差并提高模型的泛化能力,有效減輕了錯誤投票的影響。因此,采用RF分類器聚合投票,平衡專家錯誤率。
b)測試階段。確定可疑匹配對并交由專家判斷,構建測試集{vi1,vi2,…,vij}作為RF分類器的輸入,其中vij表示第j名專家對第i個可疑匹配對的投票,RF分類器輸出聚合后的投票結果。該過程視為二元分類問題,將分類為“1”的正確匹配對添加到PSA,完成PSA的更新。
3.2 確定可疑匹配對
本文提出了一種新的篩選機制,通過精確識別和邏輯比對,將最重要的匹配對提交給專家判斷,從而最小化專家工作量和最大化專家工作價值,相關偽代碼如算法3所示。通過PSA源實體和目標實體的上下文信息擴展,識別匹配過程中未發(fā)現(xiàn)的潛在正確匹配對:將PSA已有的源實體添加到集合Csrc中,遍歷Csrc中每個元素的上下文信息來獲取新的概念Nsrc,將Nsrc合并到Csrc并再次進行擴展,直至無法進一步擴展子概念,返回最終的Csrc。計算Csrc和Ctgt概念之間的相似度值,選擇高置信度的匹配對添加到QMS。第二類可疑匹配對由部分對齊(PA)確定,識別匹配過程中已發(fā)現(xiàn)的潛在錯誤匹配對,其中,PA=PAO1∪PAO2。通過驗證PA中一對多和多對一的映射關系,把可能出錯的匹配對從PSA中移除并添加到QMS,確保了一個本體中的每個實體與另一個本體中的實體保持正確對齊。
算法3 確定可疑匹配對
輸入:PSA;PA。
輸出:可疑匹配對集合QMS。
a)基于PSA的可疑匹配對:
創(chuàng)建候選源實體集合Csrc;
for i = 0; i lt; |PSA|; i++ do
Csrc.i=PSAsrc.i.concepts;
end for
for i = 0; i lt; |Csrc|; i++ do
根據(jù)Csrc.i的直接上下文信息擴展新的概念Nsrc;
Csrc=Csrc∪Nsrc;
end for
以相同的擴展方式創(chuàng)建候選目標實體集合Ctgt;
for i = 0; i lt; |Csrc|; i++ do
for j = 0; j lt; |Ctgt|; j++ do
if Sim(Csrc.i,Ctgt.j)gt; threshold
QMS.add((Csrc.i,Ctgt.j));
end for
end for
b)基于PA的可疑匹配對:
for每一個匹配對(ei,ej)∈PA
for其他匹配對(em,en)∈PA amp;amp; (em,en) != (ei,ej)
if ei=em‖ej=en
PSA.remove(ei,ej);
QMS.add(em,en);
end for
end for
c)刪除QMS中的重復元素,返回QMS。
4 實驗結果及分析
4.1 實驗設計
為了評估所提CGP-PSA的有效性,本文采用了OAEI官網(wǎng)提供的交互式匹配任務,涉及會議數(shù)據(jù)集(conference)和解剖數(shù)據(jù)集(anatomy)兩個公共測試數(shù)據(jù)集,兩者均源于實際應用中不同領域的本體建模。其中,conference是一個異質性較強的測試集,由16個描述會議組織領域的本體構成;anatomy是一個生物醫(yī)學領域的大規(guī)模測試集,由成年小鼠解剖學(adult mouse anatomy, AMA)本體(2 744類)和部分描述人體解剖學的國家癌癥研究所詞庫(national cancer institute thesaurus, NCI)本體(3 304類)構成。CGP-PSA的參數(shù)設置如下:種群規(guī)模為50;最大迭代次數(shù)為2 000;比例因子T為100;偏移因子θ為10;激活專家介入閾值δ為50;確定可疑匹配對的相似度閾值為0.6;RF中DT的數(shù)量為9;RF中DT的最大深度為4。
4.2 CGP-PSA的有效性驗證
表2比較了CGP-PSA與OAEI參與者在交互式匹配任務中的表現(xiàn)。OAEI參與者代表了當前最先進的本體匹配方法,涵蓋了廣泛的本體匹配技術。具體的OAEI參與者信息描述如下:
a)JarvisOM[28]:采用委員會查詢的主動學習策略,識別分類器意見分歧最顯著的部分,重點關注高投票熵和低平均歐氏距離,從而實現(xiàn)本體對齊。b)SerOMBI[28]:該方法包括術語和上下文兩個階段。利用多種相似性度量將結果呈現(xiàn)給用戶,再結合用戶輸入與機器學習技術完成匹配。c)XMap[29]:該方法使用兩個閾值來計算各種相似性度量,一個用于直接映射,另一個用于用戶驗證。此設計最大限度地減少了對oracle請求的次數(shù)和被拒絕的候選映射數(shù)量。d)AML[30]:在選擇和修復階段與用戶交互以過濾映射。該方法跟蹤已提出的問題并使用策略恢復到非交互模式。e)ALIN[31]:基于六個字符串相似性度量和穩(wěn)定婚姻算法生成候選映射。該方法確保不會重復詢問同一問題,并在確定批準的映射后刪除反模式。f)LogMap[32]:生成候選映射,在評估階段使用不同的技術篩選掉一些不合適的映射。對于不確定的映射,該方法會提交給用戶進行判斷,從而確保高質量的對齊。
表2展示了各個測試集上所有測試案例的平均結果。其中,f-measure和f-measure′分別表示方法在交互和非交互版本下的f-measure值,實驗結果驗證了CGP-PSA在不同錯誤率和數(shù)據(jù)集上的優(yōu)越性。對于conference數(shù)據(jù)集,CGP-PSA相比其他方法具有更高的f-measure值,并且在每次交互中的平均改進程度顯著。在anatomy測試集中,CGP-PSA同樣以較少的交互次數(shù)實現(xiàn)了顯著的f-measure提升。盡管JarvisOM在每次交互中的平均改進程度最高,但其結果質量嚴重依賴于交互過程,在交互和非交互狀態(tài)下的f-measure值均為最低。進一步分析表明,JarvisOM和SerOMBI依賴專家的參與,在探索解空間時效率較低。而CGP-PSA通過兩個獨立的種群平衡了開發(fā)與探索,在自動本體匹配階段顯著提升了算法的全局尋優(yōu)能力。相比之下,Xmap和ALIN等其他方法要么僅為專家驗證提供固定數(shù)量的映射,要么限制了專家介入的時機,并采用相對簡單的聚合策略來整合專家的投票結果。CGP-PSA則從多個維度確定可疑匹配對,通過優(yōu)勢精英解的變化自適應地確定專家介入的時機,并結合RF分類器平衡專家錯誤率。該方法不僅有效減少了專家的工作量,還保持了較高的分類準確性。
4.3 CGP-PSA的先進性驗證
為了驗證CGP-PSA的先進性,本實驗將CGP-PSA與過去五年內最先進的基于進化算法(EA)的本體匹配技術[10,15,33,34]進行了比較。實驗展示了30次獨立運行后的均值,每種方法結果旁邊的符號“+/-/=”分別表示CGP-PSA在統(tǒng)計學上[35]顯著優(yōu)于、劣于或等同于對比方法。表格最后一行總結了CGP-PSA表現(xiàn)優(yōu)于、劣于或等同于對比方法的次數(shù)。
表3展示了各測試集在不同錯誤率下的所有測試案例的平均結果。實驗結果表明,無論是面對高異質性的conference數(shù)據(jù)集,還是面對大規(guī)模的anatomy數(shù)據(jù)集,CGP-PSA的表現(xiàn)始終顯著優(yōu)于或等同于其他先進技術,凸顯了其在本體匹配領域的領先地位。
4.4 CGP-PSA的收斂性驗證
為了驗證CGP-PSA的收斂性和跳出局部最優(yōu)的能力,本實驗限定了0.0錯誤率,選擇具有代表性的cmt-conference和confOf-edas測試案例,將CGP-PSA與傳統(tǒng)的基于GP的本體匹配方法進行比較。圖4展示了CGP-PSA和GP的收斂曲線。在cmt-conference測試案例中,CGP-PSA的f-measure值在120 s內收斂至0.812 5,精英解改進了13次,較GP多出3次;在confOf-edas測試案例中,CGP-PSA的f-measure值在200 s內收斂至0.914 3,精英解改進了6次,較GP多出3次。結果表明,本文CGP-PSA在收斂速度和跳出局部最優(yōu)能力上顯著優(yōu)于GP,同時保持了較高的收斂精度。這一優(yōu)勢歸因于算法中優(yōu)勢種群和劣勢種群的不同機制,優(yōu)勢種群通過交叉操作充分發(fā)揮了局部開發(fā)的潛力,提升了算法的尋優(yōu)效率;改進的PSA近似度量更精細地評估了個體,進一步提高了收斂精度。此外,APBC與SSBM策略保持了種群間的協(xié)作,有效避免了算法陷入局部最優(yōu)解。
4.5 交叉和變異策略的有效性驗證
為了驗證自動化部分交叉和變異策略的有效性,本實驗限定了0.0錯誤率,將CGP-PSA與對照組a、b和c進行比較。a)CGP-PSA1:采用無種群信息交互的CGP;b)CGP-PSA2:僅采用基于自適應概率的交叉策略的CGP;c)CGP-PSA3:僅采用基于語義相似度的變異策略的CGP。
根據(jù)表4的結果,CGP-PSA相較于CGP-PSA1,在18個測試案例中表現(xiàn)出更高的f-measure值,在引導算法尋優(yōu)方面顯著優(yōu)于無種群信息交互的CGP。此外,CGP-PSA在9個測試案例中顯著優(yōu)于變體CGP-PSA2,并在13個測試案例中表現(xiàn)與之持平,驗證了其在節(jié)點變異和子樹變異概率設定中的準確性;在15個測試案例中顯著優(yōu)于變體CGP-PSA3,并在7個測試案例中表現(xiàn)與之持平,驗證了交叉操作中概率自適應調整的合理性。CGP-PSA的優(yōu)勢在于其采用基于自適應概率的交叉策略,能夠動態(tài)平衡種群多樣性與收斂速度,并通過基于語義相似度的變異策略減少了進化過程中過多的低效變異。兩者共同促進了遺傳信息的交互,增強了探索解空間的能力。
4.6 改進PSA近似度量的有效性驗證
CGP-PSA中另一個重要組件是新的適應度函數(shù),它進一步考慮了相似度水平和一對多(或多對一)匹配對的影響,提升了匹配結果的質量。為了驗證這兩部分的有效性,本實驗限定了0.0錯誤率,將CGP-PSA與對照組a、b和c進行比較。a)CGP-PSA1:采用傳統(tǒng)精度precision1(A)作為近似查準率;b)CGP-PSA2:考慮一對多(或多對一)匹配對的影響,采用precision1(A)和precision2(A)的幾何平均值作為近似查準率;c)CGP-PSA3:考慮已找到匹配對的相似度水平,采用precision1(A)和precision3(A)的幾何平均值作為近似查準率。
根據(jù)表5的結果,與僅使用傳統(tǒng)精度的CGP-PSA1相比,進一步考慮一對多(或多對一)匹配對的影響或已找到匹配對的相似度水平,對個體的評價過程均具有顯著的促進作用。此外,當同時引入這兩個新的組成部分時,在6個測試案例中顯著優(yōu)于變體CGP-PSA2,在11個測試案例中顯著優(yōu)于變體CGP-PSA3,并在其他測試案例中未出現(xiàn)性能下降的情況。這一結果驗證了改進的PSA近似度量指標的有效性,強調了precision2(A)與precision3(A)在實現(xiàn)更均衡和準確的本體匹配結果中的關鍵作用。
4.7 專家投票聚合的有效性驗證
基于RF的投票聚合在CGP-PSA中發(fā)揮著關鍵作用,為驗證該聚合方法的有效性,本實驗對CGP-PSA的多種變體進行了比較分析。這些變體分別采用不同的分類器進行投票聚合,包括邏輯回歸(LR)、樸素貝葉斯(NB)、支持向量機(SVM)和決策樹(DT)。
在圖5中,CGP-PSA及其變體的比較結果展示了RF投票聚合方法的有效性。在不同的錯誤率和數(shù)據(jù)集中,基于RF的CGP-PSA始終保持較高的f-measure值,且隨著錯誤率的增加,f-measure值的變化幅度較小。這表明RF分類器通過整合多個決策樹的優(yōu)勢,更好地平衡了專家錯誤率,提高了分類性能。
5 結束語
為了實現(xiàn)高質量的本體對齊,本文提出了一種CGP-PSA方法。首先,在GP中引入?yún)f(xié)同進化機制,通過基于自適應概率的交叉策略和基于語義相似度的變異策略來增強種群多樣性,確保開發(fā)與探索之間的平衡;其次,設計了一種基于PSA的新適應度函數(shù),以增強個體間的差異,進一步指導尋優(yōu)方向;最后,提出了一種新的PSA修正方法,提高了專家工作價值,實現(xiàn)了專家驗證的有效聚合。大量實證研究表明,CGP-PSA在不同的專家錯誤率和異質場景下均能找到高質量的匹配結果,并進一步驗證分析了CGP-PSA各組件的有效性。未來工作將繼續(xù)致力于算法性能的改進,提高模型的魯棒性,并研究多種學習策略在聚合專家投票以進行協(xié)作驗證方面的潛力。
參考文獻:
[1]Lan Gongjin, Liu Ting, Wang Xu,et al. A semantic Web technology index [J]. Scientific Reports, 2022, 12(1): 3672.
[2]Belabed M, Dennai A. A double meta n-semantic search model based on ontology and semantic similarity: Asthma disease [J]. Journal of Information amp; Knowledge Management, 2023, 22(2): 2250082.
[3]Pascazio L, Rihm S, Naseri A,et al. Chemical species ontology for data integration and knowledge discovery [J]. Journal of Chemical Information and Modeling, 2023, 63(21): 6569-6586.
[4]Smirnov A V, Levashova T V. Multi-aspect user ontology for intelligent decision support based on digital footprints [J]. Scientific and Technical Information Processing, 2022, 49(6): 486-496.
[5]Humm J. Being-opposite-illness:phenomenological ontology in medical education and clinical practice [J]. Teaching and Learning in Medicine, 2023, 35(1): 108-116.
[6]Shvaiko P, Euzenat J. Ontology matching: state of the art and future challenges [J]. IEEE Trans on Knowledge and Data Enginee-ring, 2013, 25(1): 158-176.
[7]Xue Xingsi, Wang Haolin, Zhou Xin,et al. Matching heterogeneous ontologies with adaptive evolutionary algorithm [J]. Connection Science, 2022, 34(1): 811-828.
[8]Banzhaf W, Koza J R, Ryan C, et al. Genetic programming [J]. IEEE Intelligent Systems and Their Applications, 2000, 15(3): 74-84.
[9]Al-Sahaf H, Bi Ying, Chen Qi,et al. A survey on evolutionary machine learning [J]. Journal of the Royal Society of New Zea-land, 2019, 49(2): 205-228.
[10]Xue Xingsi, Sun Donglei, Shankar A,et al. Efficient large-scale biomedical ontology matching with anchor-based biomedical ontology partitioning and compact geometric semantic genetic programming [J]. Journal of Industrial Information Integration, 2024, 41: 100637.
[11]Xue Xingsi, Wu Xiaojing, Chen Junfeng. Optimizing ontology alignment through an interactive compact genetic algorithm [J]. ACM Trans on Management Information Systems, 2021, 12(2): article No. 14.
[12]Xue Xingsi, Liu Jianhua. Collaborative ontology matching based on compact interactive evolutionary algorithm [J]. Knowledge-Based Systems, 2017, 137: 94-103.
[13]Maua G, Galinac G T. Co-evolutionary multi-population genetic programming for classification in software defect prediction: an empi-rical case study [J]. Applied Soft Computing, 2017, 55: 331-351.
[14]Xue Xingsi, Yao Xin. Interactive ontology matching based on partial re-ference alignment [J]. Applied Soft Computing, 2018, 72: 355-370.
[15]Lyu Zhaoming, Peng Rong. A novel periodic learning ontology matching model based on interactive grasshopper optimization algorithm [J]. Knowledge-Based Systems, 2021, 228: 107239.
[16]Lyu Qing, Jiang Chengcai, Li He. Solving ontology meta-matching problem through an evolutionary algorithm with approximate evaluation indicators and adaptive selection pressure [J]. IEEE Access, 2020, 9: 3046-3064.
[17]Johnson D W, Johnson R T. Cooperative learning:the foundation for active learning[M]// Brito S M. Active Learning. London: IntechOpen, 2019.
[18]Ul Hassan C A, Khan M S, Ali Shah M. Comparison of machine learning algorithms in data classification[C]// Proc of the 24th International Conference on Automation and Computing. Piscataway, NJ: IEEE Press, 2018: 1-6.
[19]Biau G, Scornet E. A random forest guided tour [J]. TEST, 2022, 25: 197-227.
[20]Lipowski A, Lipowska D. Roulette-wheel selection via stochastic acceptance [J]. Physica A: Statistical Mechanics and Its Applications, 2012, 391(6): 2193-2196.
[21]Stoilos G, Stamou G, Kollias S. A string metric for ontology alignment[M]// Gil Y, Motta E, Benjamins V R, et al. The Semantic Web-ISWC 2005. Berlin: Springer, 2005: 624-637.
[22]Winkler W. String comparator metrics and enhanced decision rules in the Fellegi-Sunter model of record linkage[C]// Proc of Survey Research Methods Sections.[S.l.]: American Statistical Association, 1990: 354-359.
[23]Barrón-Cedeo A, Rosso P, Agirre E, et al. Plagiarism detection across distant language pairs[C]// Proc of the 23rd International Conference on Computational Linguistics. New York: ACM Press, 2010: 37-45.
[24]Wu Zhibiao, Palmer M. Verb semantics and lexical selection[C]// Proc of the 32nd Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 1994: 133-138.
[25]Bulskov H, Knappe R, Andreasen T. On measuring similarity for conceptual querying[M]// Carbonell J G, Siekmann J, Andreasen T, et al. Flexible Query Answering Systems. Berlin: Springer, 2002: 100-111.
[26]Melnik S, Garcia-Molina H, Rahm E. Similarity flooding:a versatile graph matching algorithm and its application to schema matching[C]// Proc of the 18th International Conference on Data Enginee-ring. Piscataway, NJ: IEEE Press, 2002: 117-128.
[27]Todorov K, Geibel P. Ontology mapping via structural and instance-based similarity measures[C]// Proc of the 3rd International Confe-rence on Ontology Matching.[S.l.]: CEUR-WS.org, 2008: 224-228.
[28]Cheatham M, Dragisic Z, Euzenat J, et al. Results of the ontology alignment evaluation initiative 2015[C]// Proc of the 10th ISWC Workshop on Ontology Matching. 2015: 60-115.
[29]Achichi M, Cheatham M, Dragisic Z,et al. Results of the ontology alignment evaluation initiative 2017[C]// Proc of the 12th International Workshop on Ontology Matching. 2017: 61-113.
[30]Pour M A N, Algergawy A, Buche P, et al. Results of the ontology alignment evaluation initiative 2023[C]// Proc of the 18th International Workshop on Ontology Matching. 2023: 97-139.
[31]Da Silva J, Revoredo K, Baio F,et al. ALIN: improving interactive ontology matching by interactively revising mapping suggestions [J]. The Knowledge Engineering Review, 2020, 35: e1.
[32]Jiménez-Ruiz E. LogMap family participation in the OAEI 2021 [C/OL]// Proc of the 16th International Workshop on Ontology Matching. (2021-10-25). https://openaccess.city.ac.uk/id/eprint/27581.
[33]Xue Xingsi, Lin J C W. Sensor ontology matching with compact firework algorithm [J]. IEEE Sensors Journal, 2024, 24(20): 33751-33762.
[34]Xue Xingsi. Complex ontology alignment for autonomous systems via the compact co-evolutionary brain storm optimization algorithm [J]. ISA Trans, 2023, 132: 190-198.
[35]Kim T K. T test as a parametric statistic [J]. Korean Journal of Anesthesiology, 2015, 68(6): 540-546.