孫留倩,魏玉良,王佰玲
基于圖卷積網絡的多源本體相似度計算方法
孫留倩,魏玉良,王佰玲
(哈爾濱工業(yè)大學(威海)計算機科學與技術學院,山東 威海 264209)
在信息時代,數據量呈指數式增長,而不同數據源存在難以統(tǒng)一表示的異構問題,給數據共享、重用造成不便。語義網絡的迅速發(fā)展,使本體映射成為解決該問題的有效手段,其核心是本體相似度計算,提出了一種基于圖卷積網絡的計算方法。將本體建模為異構圖網絡,再使用圖卷積網絡學習文本嵌入規(guī)則,得到全局統(tǒng)一表示,完成多源數據的融合。實驗結果表明,所提方法計算準確性高于其他傳統(tǒng)方法,有效地提高了多源數據融合的準確度。
多源數據融合;圖卷積網絡;本體映射;相似度計算
隨著信息技術的發(fā)展和數據庫技術的普及,越來越多的領域開始使用信息技術來管理數據信息,這在一定程度上提高了工作效率,但不同領域獨立管理數據源,不同管理者對數據的描述存在差別,導致信息只能在內部交換,給數據共享和信息交流方面帶來極大不便[1]。由于數據量巨大且分散,為了建立多源數據的全局統(tǒng)一表示,提高數據利用率和集成度,數據融合工作成為亟待解決的問題[2]。
語義網絡和集成技術的不斷發(fā)展,使本體映射成為多源數據融合的有效手段。本體映射的過程如圖1所示,通過相似度計算方法得到與目標本體相似的源本體,形成映射關系,進而得到統(tǒng)一的全局表示,從而實現(xiàn)多源數據的有效融合。本體映射的核心是本體語義相似度計算,相似度結果的準確性決定著本體映射工作的科學性,因此,如何提高其準確性逐漸成為本體映射、數據融合等領域的研究熱點,具有重要的研究意義和價值。
圖1 本體映射的過程
Figure 1 The flow chart of ontology mapping
本文在對傳統(tǒng)本體語義相似度計算方法進行分析研究的基礎上,提出一種基于圖卷積網絡(GCN,graph convolution network)進行實體相似度計算方法。該方法將要處理的本體建模為異構圖網絡,并使用GCN學習文本及文檔的嵌入規(guī)則。該方法在不使用預先訓練的文本和外部知識的情況下,相似度準確性優(yōu)于目前的語義相似度計算方法。
基于本體的相似度計算方法的研究,大體上可以分為5類:基于語義距離的相似度計算方法;基于信息內容的相似度計算方法;基于概念屬性的相似度計算方法;混合式語義相似度計算方法[3];基于深度學習的相似度計算方法[4]。
2.1.1 基于語義距離的相似度計算方法
Rada[5]提出一種基于語義距離的相似度計算方法,它的基本思想是預設本體結構樹中的權重大小相等,根據概念節(jié)點詞在本體結構樹中的位置語義距離來衡量相似度,語義距離越大說明相似度越低,語義距離越小說明相似度越大,該方法計算公式如下:
其中,sim()表示概念節(jié)點和之間的相似度,dis(,)表示概念節(jié)點和之間的語義距離。該方法的優(yōu)點是計算復雜度不高,計算速度快,不足之處在于該方法有個前提是本體結構樹中的每條邊的權重大小是相等的,沒有考慮到邊的類型、位置信息等因素的影響。
2.1.2 基于信息內容的相似度計算方法
基于信息內容的相似度計算方法的主要思想是求概念節(jié)點之間的熵,熵值越大,代表節(jié)點之間共享信息越多,相似度也就越大。在一棵本體結構樹中,任意一個子概念節(jié)點都可以包含其祖父節(jié)點的全部信息內容。故Sun[6]提出任意兩個概念節(jié)點的相似度可以通過計算最鄰近祖父概念節(jié)點的信息量和出現(xiàn)頻率來求得,本體中任意兩個概念節(jié)點之間的語義相似度計算公式如下:
其中,Lcan (c, c)表示本體結構樹中概念節(jié)點c,c的最近鄰公共祖先節(jié)點,IC(c)IC(c)分別表示概念節(jié)點c,c的信息量。
算法的不足之處在于當兩個概念次節(jié)點屬于同一個本體結構時,不僅需要計算被比較概念次節(jié)點的共享信息,還要計算兩個概念本身的信息熵之和。
2.1.3 基于概念屬性的相似度計算方法
基于概念屬性的相似度計算方法的主要思想是根據概念節(jié)點的屬性來說明概念節(jié)點的特征,Tversky[7]提出可以通過計算兩個概念節(jié)點公共屬性對的數量來計算相似度,具體公式如下。
2.1.4 混合式語義相似度計算方法
單一的相似度計算方法導致相似度計算結果線性程度低,故混合式語義相似度計算方法成為了研究的一個方向。Zheng[8]針對相似度進行人工加權計算時效率低的問題,設計了一種自適應的主動加權相似度計算方案。Lu[9]提出一種綜合相似度計算模型,構建了一種新的語義相似度度量方法的組合框架和參數調整方案,有效組合了3種相似度度量方法來確定高質量的本體匹配結果。該方法考慮因素比較全面,計算結果比較準確且穩(wěn)定,不足之處在于考慮的因素過多,導致計算復雜度大大增加,降低了計算效率。
隨著語義網絡、知識圖譜等新興技術的發(fā)展,基于語義網的詞語相似度計算方法開始廣泛應用。傳統(tǒng)的語義相似度計算方法并沒有考慮語義和詞語進行有效組合,后來WordNet計算方法被提出,該方法主要通過WordNet義原進行分類,利用義原計算概念之間的相似度。Guo[10]對其進行了一定的優(yōu)化。Li[11]等運用相似實體推薦及知識推理來計算實體間的相似度,實驗效果較好。Xu[12]針對現(xiàn)有本體概念相似度計算模型中存在的精度不高問題,提出了基于模擬退火改進BP(SA-BP,simulated annealing back propagation)神經網絡算法的相似度綜合計算模型,利用BP網絡可以對復雜相似度計算模型的算術因子進行模擬,但一般的神經網絡模型存在收斂速度過慢的問題,導致最后計算結果會陷入局部最優(yōu)解。另外,大多數相似度計算模型的權重對領域專家和歷史數據依賴性較大,存在主觀性、滯后性,且對不同本體適用性較差,不適合拓展。以上所提及不得相似度求解方法的優(yōu)缺點如表1所示。
也有些研究嘗試用GCN進行文本分類、異常檢測[13]相關方面的工作,它們將一份文檔或者一句話視為圖的一個節(jié)點[14],或用不常用的引用關系構建圖網絡[15],而檢索未發(fā)現(xiàn)將GCN應用到本體相似度計算方面的研究。本文將單詞和文檔都視為節(jié)點,構建出大型的異質圖網絡,不需要利用文檔間的關系,有效地提高了相似度計算的準確性。因此,本文提出一種基于GCN的計算模型來計算本體之間的語義相似度。
GCN模型是通過對相鄰節(jié)點的特征進行卷積來對圖進行操作的,最早是由Kipf[16]提出來的,相較于卷積神經網絡,GCN模型計算效率更高,在GCN模型中,輸出的特征與節(jié)點本身及鄰近節(jié)點有密切關系,這體現(xiàn)了GCN模型是在圖的基礎上進行特征的學習并輸出的。
GCN模型的結構包含三層,分別是輸入層、隱藏層、輸出層。輸入層的輸入主要有網絡節(jié)點的特征矩陣和鄰接矩陣,特征矩陣描述了網絡中各個節(jié)點的特征之間的區(qū)別;鄰接矩陣是為了方便網絡節(jié)點之間的信息傳播。隱藏層的作用是線性劃分不同類型的數據,其中,經常使用ReLu作為激活函數,引入dropout是為了防止過擬合。輸出層的作用是將隱藏層學習的抽象特征轉化為預測值輸出[17]。
表1 不同相似度求解方法的優(yōu)缺點對比
GCN模型可以通過層之間的相互疊加來實現(xiàn)不同空間的信息傳播及特征提取[18],提取的特征表示為
基于GCN的本體相似度計算過程如圖2所示,算法具體步驟如下。
圖2 基于GCN的本體相似度計算過程
Figure 2 The process diagram of similarity calculation method multisource ontology based on graph convolution network
輸入 來源于數據庫1的數據集,字段為{1,2,3,…,A};來源于數據庫2的數據集,字段為{1,2,3,…,B}。
輸出 來源于數據庫1的本體與來源于數據庫2的本體的相似度。
步驟1 數據預處理
獲取數據集和數據集之后,將獲取的數據保存在mysql中。為了提高計算的精確度,在計算前對數據進行分詞、停用詞過濾、詞干提取、保留相似屬性字段、刪除不同屬性字段等預處理操作。得到數據集'{1,2,3…},數據集{1,2,3…}。兩個數據集再經protégé處理后分別轉化為本體集{1,2,3,…,x}{1,2,3,…,y},以RDF格式存儲。
步驟2 構建拓撲圖
利用步驟2得到的本體集構建拓撲圖,拓撲圖的節(jié)點數就是本體的數量,用單位矩陣來表示特征矩陣,向量形式采用one-hot稀疏矩陣,這樣的形式擴充了本體的特征,使特征的距離計算更加合理;鄰接矩陣使用點互信息PMI表示,具體公式如下。
點互信息的計算公式如下。
#(,)表示節(jié)點和節(jié)點特征向量相同的個數,#()表示節(jié)點的特征向量在所有本體中出現(xiàn)的個數。
由以上步驟所得的每個節(jié)點的特征矩陣及鄰接矩陣可以構建出兩個無向網絡拓撲圖1=(1,1)、2=(2,2)。
步驟3 實例化張量
對構建好的拓撲圖節(jié)點進行實例化張量,需要實例化的張量包括特征矩陣、鄰接矩陣、節(jié)點的度degree、節(jié)點的標簽label,無向圖1實例化后的張量可以表示為[1,1, degree1, label1],無向圖2實例化后的張量可以表示為[2,2, degree2, label2]。
步驟4 構建GCN
為了防止構建的GCN模型過擬合,特引入dropout層,構建兩層GCN模型,非線性激活函數使用LeakyReLu, 損失函數采用SoftMax函數,優(yōu)化器采用ADAM,如式(9)、式(10)所示,GCN模型如圖3所示。
步驟5 訓練數據集
將無向圖1中的一部分本體概念節(jié)點1和無向圖2中的一部分本體概念節(jié)點2作為訓練數據,將概念節(jié)點通過人工評價得到的相似度以及分別基于語義距離、信息內容、概念屬性、混合式語義、SA-BP算法得到的相似度作為模型的輸入,通過GCN模型的學習計算出針對本訓練集最合適的特征矩陣best和鄰接矩陣best,以此得到最穩(wěn)定的計算模型。
圖3 GCN模型
Figure 3 GCN model
步驟6 測試數據集
得到穩(wěn)定的計算模型后,將之應用于測試數據集中,在本體集中選取需要融合的本體概念節(jié)點作為測試集,分別計算測試數據集基于語義距離、信息內容、概念屬性、混合式語義、SA-BP算法的相似度,將計算結果代入穩(wěn)定的GCN模型,進行正向計算,輸出的結果即本體概念節(jié)點的相似度計算結果。
集成開發(fā)環(huán)境為PyCharm 2020.3,編碼語言為Python 3.0,使用的框架為TensorFlow。
本文的數據獲取分別來自“The Movie Database (TMDb)”和“豆瓣網電影排行榜”經過對數據的去重、去噪、刪除不同屬性、保留相同屬性的處理,共計獲得演員數量1 982位;電影數量91 369部;20類電影類型;人物與電影的關系7 119 287對;電影與類型的關系196 354對。
對以上數據進行概念節(jié)點的構建,構建出的電影本體概念節(jié)點的屬性結構為{電影名稱,參演演員,電影評分,電影發(fā)行日期,電影類型}。根據概念節(jié)點的屬性構建出網絡拓撲如圖4所示。
圖4 網絡拓撲
Figure 4 Network topology
從TMDb數據庫和豆瓣數據庫構建的概念節(jié)點中,如圖4 所示。隨機選取1000個本體概念節(jié)點,組成1 000組概念節(jié)點對,其中700組用作于訓練數據集,剩下的300組作為測試數據集。
實驗共采用了6種算法對300組測試樣本均分為6組進行相應的相似度計算,最后將所得結果進行分析對比,6種算法分別為基于語義距離的相似度計算方法、基于信息內容的相似度計算方法、基于概念屬性的相似度計算方法、基于混合語義式的相似度計算方法、基于SA-BP算法的相似度計算方法和基于GCN的相似度計算方法。實驗結果如表2所示。
以人工評價作為參考標準,分別計算以上幾種算法得出的相似度與人工評價相似度的差值的最大值、最小值、標準差并計算其準確度,得到的結果如表3所示。為了更直觀進行數據展示,將實驗數據繪制成柱狀圖,如圖5所示。
為了評估各種算法得出的相似度與人工評價得出的結果的相關性,本文采用皮爾遜相關系數作為參考指標,它在統(tǒng)計學中用于表征兩個變量之間的相關性,其值介于0~1。值越大代表兩者相關性越大,定義如下。
其中,E( )表示某變量的期望。當皮爾遜的值介于0~0.4,表示兩者極弱相關或者不相關;當皮爾遜的值介于0.4~0.6,表示兩者弱相關;當皮爾遜的值介于0.6~0.8,表示中等程度相關;當皮爾遜的值介于0.8~0.9,表示兩者強相關;當皮爾遜的值介于0.9~1.0,表示兩者極強相關。
表2 不同計算方法求測試樣本的相似度結果對比
表3 不同方法相似度計算結果誤差及皮爾遜相關系數
圖5 6種算法結果對比
Figure 5 Comparison of six algorithms
從以上結果可以看出,本文提出的基于GCN的本體相似度計算方法得出的結果在皮爾遜系數上是最大的,達到了0.960 2,并且誤差最大值、誤差平均值、誤差標準差是最小的。這表明利用本文提出的相似度計算方法的結果收斂性好,穩(wěn)定性強,準確率高。
為了驗證不同體量的多源數據集對算法準確率的影響,將數據大小分別為1 000條、10 000條、100 000條的3組多源數據集作為單獨任務應用進行計算,計算得出的皮爾遜相關系數均在0.94以上,說明面對不同體量的數據,本文方法依然具有很高的準確率,性能良好。
本文分析了幾種計算本體相似度方法存在的缺陷,并針對相應的問題,結合GCN,提出一種基于GCN的本體相似度計算方法,實驗結果表明,本文提出的方法較傳統(tǒng)的計算本體相似度的方法準確率更高。下一步工作是對GCN模型的參數進行優(yōu)化以提高模型的準確性及穩(wěn)定性。
[1] 楊泉. 基于遺傳算法的詞語語義相似度計算研究[J]. 計算機技術與發(fā)展, 2021, 31(2): 8-13.
YANG Q. Research on word semantic similarity calculation based on genetic algorithm[J]. Computer Technology and Development, 2021, 31(2): 8-13.
[2] 丁悅航, 于洪濤, 黃瑞陽, 李英樂. 本體摘要技術綜述[J]. 網絡與信息安全學報, 2018, 4(10): 12-21.
DING Y H. , YU H T, HUANG R Y. Ontology summarization technology survey[J]. Chinese Journal of Network and Information Security, 2018, 4(10): 12-21.
[3] DAO W. Distance learning techniques for ontology similarity measuring and ontology mapping[J]. Cluster Computing, 2017, 20(2) : 959-968.
[4] 周愛武, 翟增輝, 劉慧婷. 基于模擬退火算法改進的BP神經網絡算法[J]. 微電子學與計算機, 2016, 33(4): 144-147.
ZHOU A W, ZHAI Z H, LIU H T. et al. Improved BP neural network based on simulated annealing[J]. Mi-croelectronics and Computer, 2016, 33(4): 144-147.
[5] RADA R, MILI H, BICKNELL E. Development and application of a metric on semantic nets[J]. IEEE, Transactions on Systems, Man and Cybernetics, 1989, 19( 1): 17-30.
[6] 孫麗莉, 張小剛. 基于WordNet的概念語義相似度的計算方法[J]. 統(tǒng)計與決策, 2017(23): 79-82.
SUN L L, ZHANG X G. A novel concept semantic similarity calculation method based on WordNet[J]. Statistics & Decision, 2017(23): 79-82.
[7] TVERSKY A. Feature of similarity[J]. Psychological Review, 1997, 84(4): 222-226.
[8] 鄭志蘊, 阮春陽, 李倫, 等. 本體語義相似度自適應綜合加權算法研究[J]. 計算機科學, 2016, 43(10): 242-247.
ZHENG Z Y, RUAN C Y, LI L, et al. Adaptive ontology semantic similarity comprehensive weighted algorithm[J]. Computer Science, 2016, 43(10): 242-247.
[9] 盧家偉, 薛醒思, 肖祖宇, 等. 一種基于混合語義相似度度量方法的本體元匹配技術[J]. 寶雞文理學院學報(自然科學版), 2020, 40(2): 59-63.
LU J W, XUE X S, XIAO Z G, et al. An ontology meta-matching technique based on the hybrid semantic similarity measure[J]. Journal of Baoji University of Arts and Sciences(Natural Science Edition), 2020, 40(2): 242-247.
[10] 郭小華, 彭琦, 鄧涵, 等. 基于邊權重的WordNet詞語相似度計算[J]. 計算機工程與應用, 2018, 54(1): 172-178.
GUO X H, PENG Q, DENG H, et al. Edge weight-based word similarity computation in WordNet[J]. Computer Engineering and Applications, 2018, 54(1): 172-178.
[11] LI Y, GAO D Q. Research on entity similarity computationin knowledge map[J]. Chinese Journal of Information Science, 2017, 31(1): 145-151.
[12] 許飛翔, 葉霞, 李琳琳, 等. 基于SA-BP算法的本體概念語義相似度綜合計算[J]. 計算機科學, 2020, 47(1): 199-204.
XU F X, YE X, LI L L, et al. Comprehensive calculation of semantic similarity of ontology concept based on SA-BP[J]. Computer Science, 2020, 47(1): 199-204.
[13] 曲強, 于洪濤, 黃瑞陽. 基于圖卷積網絡的社交網絡Spammer檢測技術[J]. 網絡與信息安全學報, 2018, 4(5): 39-46
QU Q YU H T, HUANG R Y. Spammer detection technology of social network based on graph convolution network[J]. Chinese Journal of Network and Information Security[J]. 2018, 4(5): 39-46 .
[14] PENG H, LI J. Large-scale hierarchical text classification with recursively regularized deep graph[J]. International World Wide Web Conference, 2018: 1063-1072.
[15] ROUSSEAU F, KIAGIAS E. Text categorization as a graph classification problem[J]. ACL, 2015, 1: 1702-1712.
[16] KIPF T N. Semi-supervised classification with graph convolutional networks[J]. ICLR, 2017.
[17] 姚佳奇, 徐正國, 燕繼坤, 等. GCN-PU:基于圖卷積網絡的PU文本分類算法[J]. 計算機工程與應用, 2020: 1-8
YAO J Q. XU Z G, YE J K, et al. GCN-PU text classification algorithm based on graph convolutional network[J]. Computer Engineering and Applications. 2020: 1-8.
[18] 李慧, 胡吉霞. 一種基于圖卷積自編碼模型的多維度學科知識網絡融合方法[J]. 圖書情報工作, 2020, 64(18): 114-125.
LI H, HU J X. Multi-dimensional subject knowledge network fusion method based on graph convolution self-encoding model[J]. Library and Information Service, 2020, 64(18): 114-125.
Novel similarity calculation method of multisource ontology based on graph convolution network
SUN Liuqian, WEI Yuliang, WANG Bailing
School of Computer Science and Technology, Harbin Institute of Technology, Weihai 264209, China
In the information age, the amount of data is growing exponentially. However, different data sources are heterogeneous, which makes it inconvenient to share and multiplex data. With the rapid development of semantic network, ontology mapping is an effective method to solve this problem. The core of ontology mapping is ontology similarity calculation. Therefore, a calculation method based on graph convolution network was proposed. Firstly, ontologiesare modeled as a heterogeneous graph network, then the graph convolution network was used to learn the text embedding rules, which made ontologies were definedin global unified representation. Lastly, multisource data fusion was completed. The experimental results show that the accuracy of the proposed method is higher than other methods, and the accuracy of multi-source data fusion was effectively improved.
heterogeneous data fusion, graph convolution network, ontology mapping, similarity calculation
TP393
A
10.11959/j.issn.2096?109x.2021071
2021?03?11;
2021?05?13
王佰玲,wbl@hit.edu.cn
國家重點研發(fā)計劃(2018YFB2004200)
The National Key R&D Program of China (2018YFB2004200)
孫留倩, 魏玉良, 王佰玲. 基于圖卷積網絡的多源本體相似度計算方法[J]. 網絡與信息安全學報, 2021, 7(5): 149-155.
SUN L Q, WEI Y L, WANG B L. Novel similarity calculation method of multisource ontology based on graph convolution network[J]. Chinese Journal of Network and Information Security, 2021, 7(5): 149-155.
孫留倩(1997?),女,山東菏澤人,哈爾濱工業(yè)大學(威海)碩士生,主要研究方向為多源數據融合、網絡大數據安全。
魏玉良(1989?),男,山東壽光人,博士,哈爾濱工業(yè)大學(威海)助理研究員,主要研究方向為自然語言處理、知識圖譜、工業(yè)互聯(lián)網安全。
王佰玲(1978?),男,黑龍江哈爾濱人,哈爾濱工業(yè)大學(威海)教授、博士生導師,主要研究方向為工業(yè)互聯(lián)網安全、信息對抗、信息安全、信息搜索、金融安全。