• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向行業(yè)電商知識圖譜應(yīng)用的實體對齊算法①

      2022-03-23 07:33:20陳富強(qiáng)肖明明韓凱南王文文
      高技術(shù)通訊 2022年12期
      關(guān)鍵詞:知識庫圖譜實體

      陳富強(qiáng) 肖明明 韓凱南 任 毅 王文文 李 克

      (*北京聯(lián)合大學(xué)智慧城市學(xué)院 北京100101)

      (**中鐵物貿(mào)集團(tuán)有限公司 北京102308)

      (***魯班(北京)電子商務(wù)科技有限公司 北京102308)

      0 引言

      隨著電子商務(wù)的興起,電子商務(wù)開始替代傳統(tǒng)貿(mào)易模式,在各個領(lǐng)域內(nèi)快速發(fā)展。作為一種新型的商業(yè)運(yùn)營模式,電商在交易領(lǐng)域生產(chǎn)、供貨和物流等方面經(jīng)常面臨著不同客戶數(shù)據(jù)的多源異構(gòu)問題。在鐵路建設(shè)領(lǐng)域內(nèi)大宗商品的交易過程也面臨著同樣的問題,數(shù)據(jù)的多源異構(gòu)性使得交易過程中數(shù)據(jù)流轉(zhuǎn)不方便、使用困難[1],對數(shù)據(jù)使用的效率產(chǎn)生了極大影響。傳統(tǒng)數(shù)據(jù)管理方式已經(jīng)不能滿足發(fā)展的需要,而基于圖數(shù)據(jù)庫的知識圖譜在數(shù)據(jù)存儲和管理上更為靈活。知識圖譜通過節(jié)點存儲現(xiàn)實世界中的實體,通過邊存儲實體間的關(guān)系,同時在知識圖譜里可以存儲不同類型的數(shù)據(jù)以及復(fù)雜的實體關(guān)系,提升了數(shù)據(jù)流動的速度和使用的效率。一些消費(fèi)類電商已將知識圖譜技術(shù)應(yīng)用到實際生產(chǎn)交易中,以激發(fā)行業(yè)活力,帶動行業(yè)發(fā)展,如阿里巴巴建設(shè)的電商認(rèn)知圖譜“AliCoCo”可認(rèn)知用戶需求實現(xiàn)更加智能的搜索和精準(zhǔn)推薦[2],美團(tuán)構(gòu)建的餐飲娛樂知識圖譜“美團(tuán)大腦”可充分挖掘關(guān)聯(lián)的各個場景數(shù)據(jù)實現(xiàn)智能搜索和商圈美食的個性化推薦[3],京東建立了基于商品知識圖譜的興趣召回等。

      隨著知識圖譜廣泛的應(yīng)用,各個領(lǐng)域都開始建設(shè)屬于自己領(lǐng)域的知識圖譜,統(tǒng)稱為領(lǐng)域知識圖譜。不同領(lǐng)域的知識圖譜因為業(yè)務(wù)的不同使得其從本體到實體都存在較大的差異,而同一領(lǐng)域的知識圖譜也因為規(guī)范不統(tǒng)一存在一定差異,不同來源的知識圖譜無法直接建立起聯(lián)系[4]。因此,需要通過知識融合將不同來源的知識圖譜融合在一起,實體對齊作為知識融合的一部分,可以有效地對不同來源的實體進(jìn)行匹配,在實體層面建立起聯(lián)系。

      中鐵物貿(mào)集團(tuán)供應(yīng)鏈協(xié)同平臺(簡稱協(xié)同平臺)是其大宗鐵路建設(shè)物資采購的核心電商交易平臺,本文將以該平臺為具體場景,嘗試構(gòu)建行業(yè)電商知識圖譜替代傳統(tǒng)的數(shù)據(jù)系統(tǒng),通過知識推理來滿足該電商平臺中跨系統(tǒng)的大宗物資數(shù)據(jù)的匹配等業(yè)務(wù)需求。前文所提消費(fèi)類電商平臺主要是面向普通用戶,為用戶提供搜索和推薦服務(wù)、滿足用戶的消費(fèi)需求;而行業(yè)電商平臺所面向的客戶大多為公司或企業(yè),是一個為特定用戶提供信息流通和交易的平臺,具有行業(yè)特殊性。

      考慮到鋼材類物資是協(xié)同平臺的主要交易品類(占總交易額的80%以上),本文以鋼材類物資數(shù)據(jù)為例。具體來說,基于領(lǐng)域知識圖譜構(gòu)建框架,研究如何從各類結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中,基于已抽取的各類實體和屬性,結(jié)合領(lǐng)域知識建立各類實體尤其是中鐵物資實體與鋼廠產(chǎn)品實體間的匹配關(guān)系。本文基于行業(yè)內(nèi)的領(lǐng)域知識進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)轉(zhuǎn)換、去噪、規(guī)范性校驗等,還包括根據(jù)領(lǐng)域知識建立領(lǐng)域字典,以提高數(shù)據(jù)質(zhì)量、提升數(shù)據(jù)處理的效率和準(zhǔn)確性。結(jié)合鋼材領(lǐng)域知識,過濾非配對實體,縮小實體對齊計算空間,生成高質(zhì)量候選集。將集合相似度的思想應(yīng)用到實體對齊的過程中,綜合實體名稱、屬性和行業(yè)領(lǐng)域信息,定義實體相似度評估函數(shù),有效評估實體對的匹配概率,形成了一種基于領(lǐng)域知識的集合相似度實體對齊算法。應(yīng)用不同數(shù)據(jù)集的實驗結(jié)果表明,本文提出的基于領(lǐng)域知識的集合相似度實體對齊算法對不同鋼廠產(chǎn)品實體和中鐵物資實體間的匹配具有較高的準(zhǔn)確率。

      1 相關(guān)工作

      1.1 行業(yè)電商知識圖譜的構(gòu)建框架

      知識圖譜的構(gòu)建方法可以分為自頂向下構(gòu)建和自底向上構(gòu)建2 種。自頂向下的構(gòu)建方法通常由領(lǐng)域?qū)<以O(shè)計好本體模型或者由行業(yè)內(nèi)固定的知識體系轉(zhuǎn)化成為本體模型,然后依照本體模型從不同來源的數(shù)據(jù)中抽取實體和關(guān)系融入到知識圖譜中;自底向上的構(gòu)建方法先進(jìn)行實體和關(guān)系挖掘然后從實體中抽象出概念和本體模型。自頂向下和自底向上的方法的最大的不同就是本體的由來,自頂向下的方法是先人工提供本體再導(dǎo)入數(shù)據(jù),自底向上的方法是先導(dǎo)入數(shù)據(jù)再從數(shù)據(jù)中抽象出本體。因此,這2 種不同方法的適用對象也是不同的,自頂向下的方法面向的是知識體系比較成熟的領(lǐng)域,而自底向上的方法更多面向的是知識體系欠完備的領(lǐng)域,使用基于數(shù)據(jù)驅(qū)動的方式進(jìn)行構(gòu)建[5]。以自底向上的方法為例,其過程主要包括知識抽取、知識融合和知識加工[6]。知識抽取從各種類型的數(shù)據(jù)源中進(jìn)行實體、屬性和關(guān)系的抽取;知識融合通過融合實體消除矛盾和歧義,通過知識合并融合外部數(shù)據(jù)源;知識加工主要進(jìn)行本體構(gòu)建、知識推理。通過實體的聚合生成上層的概念,逐層抽象形成本體模型。通過知識推理挖掘語義層次的關(guān)聯(lián)信息,發(fā)現(xiàn)新的知識。

      因為協(xié)同平臺所涉及的鋼材類物資信息具有比較確定的上下文結(jié)構(gòu),其知識圖譜可采用自頂向下的方式構(gòu)建。先確定知識圖譜的數(shù)據(jù)模型,再根據(jù)模型去填充具體數(shù)據(jù),最終形成知識圖譜,本文稱之為行業(yè)電商知識圖譜。

      其構(gòu)建框架如圖1 所示。該平臺現(xiàn)有物資數(shù)據(jù)以結(jié)構(gòu)化形式管理存儲,第三方系統(tǒng)(主要指各鋼廠的信息系統(tǒng))則形式比較多樣化,部分鋼廠為結(jié)構(gòu)化數(shù)據(jù),但部分屬性字段為半結(jié)構(gòu)化和非結(jié)構(gòu)化描述。實體對齊是構(gòu)建該圖譜的核心,是實現(xiàn)行業(yè)電商平臺與外部系統(tǒng)之間數(shù)據(jù)柔性對接和順暢流轉(zhuǎn)的基礎(chǔ),可為平臺物資采購交易和交付等業(yè)務(wù)提供底層數(shù)據(jù)支撐。

      圖1 領(lǐng)域知識圖譜構(gòu)建框架

      1.2 實體對齊

      實體對齊是挖掘不同數(shù)據(jù)源中指向現(xiàn)實世界中同一對象的關(guān)鍵技術(shù)[7],其思想最早可追溯至1946年Dunn[8]所提的記錄鏈接,記錄鏈接可以判斷相同或者不同數(shù)據(jù)集中的2 個實體是否指向真實世界中的同一個對象。實體對齊又可以被稱為實體匹配、鏈接預(yù)測、對象識別等,能夠高質(zhì)量鏈接多個現(xiàn)有知識庫,將多來源數(shù)據(jù)建立聯(lián)系,并構(gòu)建一個大規(guī)模統(tǒng)一的知識庫,從而幫助機(jī)器理解底層數(shù)據(jù),實現(xiàn)底層數(shù)據(jù)的有效融合。因此,實體對齊具有廣泛的應(yīng)用,如在電商平臺中進(jìn)行相似商品的推薦,在社交平臺中進(jìn)行好友的推薦,在搜索引擎中進(jìn)行數(shù)據(jù)的搜索等。

      實體對齊的常見方法可以分為2 類,一類是基于實體表示學(xué)習(xí)的實體對齊方法,另一類是基于屬性信息的實體對齊方法?;趯嶓w表示學(xué)習(xí)的實體對齊方法通常先將實體抽象為向量表示,然后在向量空間中學(xué)習(xí)實體的對齊關(guān)系[9]?;跈C(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法在進(jìn)行大規(guī)模實體和關(guān)系的學(xué)習(xí)中進(jìn)行了充分探索,TransE[10]作為一種有效的實體表示方法得到了廣泛使用并衍生出多個模型(如STransH、TransD、NTransGH 等)以實現(xiàn)復(fù)雜的實體和關(guān)系映射,一些基于圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)的方法[11]已被嘗試應(yīng)用于實體對齊以加強(qiáng)實體表示學(xué)習(xí)能力。基于屬性信息的實體對齊方法通過屬性的字符串相似性或者值的相似性判斷2 個實體是否可以對齊。基于字符串的Jaccard 相似度和基于編輯距離的方法在實體對齊中得到了很好的應(yīng)用。

      基于表示學(xué)習(xí)的實體對齊方法通常需要一定的標(biāo)注數(shù)據(jù),但是由于在多個來源的知識圖譜間進(jìn)行標(biāo)注需要較強(qiáng)的專業(yè)性,而這類方法對于標(biāo)注數(shù)據(jù)又有很強(qiáng)的依賴性,在多源異構(gòu)數(shù)據(jù)中學(xué)習(xí)的模型往往不能發(fā)揮很好的效果。在知識融合初期缺乏標(biāo)注數(shù)據(jù)的情況下基于屬性信息的實體對齊方法則具有更強(qiáng)的通用性。

      基于Jaccard 相似度的方法由于其效果顯著、簡單而被廣泛應(yīng)用。該方法已經(jīng)在多種不同知識圖譜的任務(wù)中進(jìn)行了實驗,其適用性、效率、性能得到了驗證。文獻(xiàn)[12]基于Jaccard 和余弦相似度進(jìn)行相似度的度量,在電影推薦系統(tǒng)中起到了較好效果,同時通過實驗證明了基于余弦相似度的方法具有較強(qiáng)的魯棒性。文獻(xiàn)[13]基于Jaccard 相似度和混合優(yōu)化模型進(jìn)行了跨領(lǐng)域的本體構(gòu)建,提出的算法具有較高性能。文獻(xiàn)[14]基于Jaccard 相似度在大規(guī)模知識庫中根據(jù)實體屬性信息進(jìn)行實體對齊,并用實驗證明了該方法具有較高的精確度和效率,但是其算法依賴于鄰域信息,而本文面向的物貿(mào)領(lǐng)域缺乏有效鄰域信息,因而此方法不適用。文獻(xiàn)[15]基于詞頻比改進(jìn)Jaccard 相似度,按照詞頻比確定交集中詞的權(quán)重,在對文本分詞后使用該方法計算文本的相似度,在本文中也使用了該方法進(jìn)行測試。相關(guān)研究已經(jīng)證明了Jaccard 相似度具有較強(qiáng)的適用性,本文針對電商領(lǐng)域相關(guān)數(shù)據(jù)多源異構(gòu)的問題提出了一種新的基于Jaccard 方法,接下來對具體問題和所設(shè)計方法進(jìn)行描述。

      2 問題描述

      行業(yè)電商領(lǐng)域涉及業(yè)務(wù)部門多、上下游產(chǎn)業(yè)規(guī)模大,其智能化電商平臺底層數(shù)據(jù)往往來源廣泛、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、質(zhì)量參差不齊。如圖2 所示,在訂單流轉(zhuǎn)的過程中行業(yè)電商經(jīng)常面臨著數(shù)據(jù)對接的問題,不同供貨方提供的數(shù)據(jù)存在較大的差異,甚至同一供貨方數(shù)據(jù)也存在異構(gòu),電商平臺的數(shù)據(jù)描述規(guī)范和供貨方的數(shù)據(jù)規(guī)范也有很大區(qū)別,現(xiàn)有的方法通常需要人工進(jìn)行數(shù)據(jù)匹配,從而在不同數(shù)據(jù)源間建立映射。如表1 所示,某鋼廠的原始數(shù)據(jù)存在著大量的異構(gòu)問題,如包含屬性字段中復(fù)合字段造成的異構(gòu)、單位描述規(guī)范不統(tǒng)一造成的異構(gòu)、屬性字段冗余造成的異構(gòu)等。人工進(jìn)行數(shù)據(jù)的處理往往需要具備大量專業(yè)背景知識,同時人工處理大批量數(shù)據(jù)的效率較低,并且數(shù)據(jù)處理的準(zhǔn)確性難以把控。

      圖2 訂單生成過程中數(shù)據(jù)流轉(zhuǎn)示意圖

      表1 某鋼廠產(chǎn)品數(shù)據(jù)

      基于知識圖譜的方法對數(shù)據(jù)進(jìn)行處理和存儲,把上述訂單流轉(zhuǎn)過程中的數(shù)據(jù)匹配問題轉(zhuǎn)化成行業(yè)電商知識圖譜中供貨方和電商平臺的實體匹配任務(wù),也即實體對齊。本文以中鐵物貿(mào)集團(tuán)供應(yīng)鏈協(xié)同平臺為具體場景,完成協(xié)同平臺中跨系統(tǒng)的大宗物資數(shù)據(jù)的匹配。

      3 基于領(lǐng)域知識的實體對齊方法

      3.1 算法框架

      本文實體對齊旨在供應(yīng)商提供的產(chǎn)品實體和電商交易平臺的物資實體中找出指向同一個對象的實體對。算法的工作流程如圖3 所示。

      圖3 算法工作流程圖

      實體對齊方法主要包括以下3 個步驟。

      (1)數(shù)據(jù)預(yù)處理。針對多源異構(gòu)知識庫實體屬性數(shù)據(jù)存在的問題進(jìn)行統(tǒng)一處理,根據(jù)領(lǐng)域知識進(jìn)行實體屬性值的原子化分割、統(tǒng)一單位、規(guī)范表示及去除冗余,得到處理后的知識庫。

      (2)生成實體對。在供應(yīng)商產(chǎn)品知識庫的實體和電商交易平臺物資知識庫中的實體間計算笛卡爾積,得到實體對集合。

      (3)實體匹配。遍歷實體對集合,基于領(lǐng)域知識過濾不存在匹配關(guān)系的實體對;計算實體對相似度,根據(jù)不同的實體對之間的相似度進(jìn)行排序,得到與供應(yīng)商產(chǎn)品實體EF= {key_F1:value_F1,key_F2:value_F2,…,key_Fn:value_Fn} 最為匹配的電商平臺物資實體EM= {key_M1:value_M1,key_M2:value_M2,…,key_Mm:value_Mm},輸出存在匹配關(guān)系的實體對(EF,EM)。

      3.2 數(shù)據(jù)預(yù)處理

      行業(yè)電商領(lǐng)域涉及業(yè)務(wù)部門多、上下游產(chǎn)業(yè)模大,信息存在不對稱性,并且各行業(yè)術(shù)語存在特殊性,這些導(dǎo)致行業(yè)電商平臺底層數(shù)據(jù)來源廣泛且異構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、質(zhì)量參差不齊,因此無法直接進(jìn)行實體對齊,需對數(shù)據(jù)進(jìn)行預(yù)處理。以中鐵物貿(mào)集團(tuán)供應(yīng)鏈協(xié)同平臺為例,其數(shù)據(jù)來源有昆明鋼鐵廠鋼產(chǎn)品數(shù)據(jù)、陜西鋼鐵廠鋼產(chǎn)品數(shù)據(jù)、中鐵鋼材物資數(shù)據(jù)等。不同鋼廠有各自對鋼鐵產(chǎn)品數(shù)據(jù)的描述規(guī)范,中鐵也有其對鋼材物資的描述規(guī)范,這必然導(dǎo)致協(xié)同平臺底層數(shù)據(jù)的多源異構(gòu)性,其存在的主要問題有:數(shù)據(jù)的量綱不統(tǒng)一、數(shù)據(jù)中含有的單位描述不規(guī)范以及屬性字段重復(fù)造成冗余。針對上述問題,本文在數(shù)據(jù)預(yù)處理階段,根據(jù)領(lǐng)域知識建立領(lǐng)域字典(產(chǎn)品名稱字典nameDicList、分詞詞典dicList、停用詞典stopDicList、替換詞典replaceDicList和刪除詞典deleteDicList)對數(shù)據(jù)進(jìn)行規(guī)范化處理,包括屬性值原子化、統(tǒng)一單位、規(guī)范表示、去除冗余等,以提高實體對齊的準(zhǔn)確率。具體方法如下。

      (1)屬性值原子化

      知識庫S={S1,S2,…,SN},SN表示電商平臺知識庫,S1,S2,…,SN-1為供應(yīng)商知識庫,每個知識庫包含多個鋼產(chǎn)品實體,知識庫中對鋼產(chǎn)品屬性的劃分不統(tǒng)一,不同知識庫實體屬性的描述存在較大差異。如表1 所示,鋼廠的物料描述字段內(nèi)包含多個關(guān)鍵參數(shù),字段內(nèi)包含的參數(shù)直接影響和這個鋼產(chǎn)品匹配的中鐵物資,如果不對其處理,實體屬性值無法直接進(jìn)行字符串比較,從而導(dǎo)致實體對齊失敗。對于一個屬性融合多類屬性值的屬性值融合異構(gòu)現(xiàn)象,使用自然語言處理中基于規(guī)則的正向最大匹配分詞技術(shù)對不同類別屬性值進(jìn)行劃分,雖然處理的不是自然語言,但是對于這類半結(jié)構(gòu)化數(shù)據(jù)可以通過引入分詞詞典dicList和停用詞典stopDicList進(jìn)行分詞,將屬性值原子化。然后使用替換詞典replaceDicList將表示相同含義的字符進(jìn)行統(tǒng)一替換,對類似表1 中規(guī)格字段的值進(jìn)行拆分,最后刪除多余的字符。經(jīng)過處理的數(shù)據(jù)如圖4 所示。

      圖4 經(jīng)過分詞處理之后的數(shù)據(jù)

      (2)統(tǒng)一規(guī)范

      知識庫S={S1,S2,…,SN} 中數(shù)值型屬性值的單位描述和書寫規(guī)范均不統(tǒng)一。單位描述的不統(tǒng)一將導(dǎo)致數(shù)值型屬性值存在較大差異,單位書寫的不統(tǒng)一將會影響字符串的匹配結(jié)果,因此,直接進(jìn)行屬性匹配將會導(dǎo)致屬性匹配的失敗。對于單位不統(tǒng)一的數(shù)據(jù),統(tǒng)一使用量綱較大的單位,長度的單位使用米、質(zhì)量的單位使用千克。然后,統(tǒng)一去除所有屬性值value中含有的單位,確保相同的數(shù)據(jù)可以進(jìn)行精確匹配。

      (3)去除冗余

      知識庫S={S1,S2,…,SN} 中原始屬性字段中存在冗余,實體屬性值經(jīng)過拆分后變成了一個個獨立的屬性值,從而出現(xiàn)了屬性重復(fù)的現(xiàn)象;同時屬性字段存在多個索引列,冗余的索引值在實體匹配過程中也會被作為一個重要的屬性值。在實體對齊的過程中,冗余的屬性會作為重要的屬性參與屬性值的匹配,從而影響了最終匹配結(jié)果。算法通過比較列的相似性去除具有相似內(nèi)容的列,通過判斷列內(nèi)容的唯一性去除冗余索引列。

      數(shù)據(jù)預(yù)處理具體流程為對屬性值進(jìn)行原子化操作,去除冗余索引列,根據(jù)鋼產(chǎn)品實體名稱將知識庫進(jìn)行劃分,在劃分之后的知識庫中進(jìn)行實體屬性度量單位的轉(zhuǎn)換,刪除重復(fù)屬性和冗余列,相應(yīng)算法偽代碼如算法1 所示。

      3.3 基于集合相似度的實體匹配

      在知識庫間進(jìn)行笛卡爾積得到實體對集合entitySet1(entitySet1= {(EF,EM)| EF∈{?S1,?S2,…,?SN-1},EM∈?SN})?;诩舷嗨贫鹊膶嶓w匹配旨在從entitySet1 中找出指向同一對象的實體對,主要包括3 個步驟,即實體對過濾、匹配度計算以及實體對排序。通過實體對過濾實現(xiàn)實體對篩選,縮小實體對齊規(guī)模,提高實體匹配效率。然后計算實體相似度,以此衡量不同知識庫的2 個實體是否指向了同一個對象。最后,基于實體對的實體相似度排序輸出最匹配的實體對。如圖5 所示,在得到匹配的實體對之后,就可以在實體之間建立匹配關(guān)系,表示2 個實體指向了真實世界中的同一個對象。

      圖5 實體匹配示意圖

      (1)實體對過濾

      為了提高實體對齊效率,可根據(jù)實體關(guān)鍵屬性對實體進(jìn)行劃分,減少無效匹配,以提升匹配效率。在鋼材交易領(lǐng)域,鋼產(chǎn)品名稱和鋼號可以作為判斷2 個實體是否指向同一個對象的關(guān)鍵屬性。因此,通過鋼產(chǎn)品名稱字典找出實體名稱value_name,根據(jù)實體名稱的Jaccard 相似度進(jìn)行排序,過濾掉名稱相似度低于閾值的實體對。如果2 個實體EF和EM滿足匹配條件則記為EF?EM。如果所有的實體對中沒有名稱相似的實體對,則進(jìn)行全局實體對齊。為提高全局匹配效率,使用領(lǐng)域字典抽取出材質(zhì)或鋼號字段value_grade,根據(jù)value_grade進(jìn)行實體對過濾,得出新的實體對集合entitySet2(entitySet2=。

      (2)匹配度計算

      匹配度計算旨在量化實體對(EF,EM) 的相似度(記為sim(EF,EM)),通過匹配度的值sim(EF,EM) 可以對不同實體對進(jìn)行比較找出存在匹配關(guān)系的實體對。鋼廠鋼產(chǎn)品實體和中鐵物資實體的屬性字段具有天然的集合結(jié)構(gòu),屬性的先后順序不影響實體的匹配結(jié)果,因此可用Jaccard 相似度(式(1))來度量2 個實體的匹配度。

      其中A和B是2 個實體屬性集合。由于傳統(tǒng)Jaccard 相似度的計算中分母會隨著實體屬性數(shù)量的變化而變化,算法不能直接利用Jaccard 相似度值進(jìn)行比較。因此,本文在實體匹配方法設(shè)計中,首先統(tǒng)計鋼廠產(chǎn)品實體屬性值與中鐵物資實體屬性值相同的屬性個數(shù),即,其中f(value_Fk) 表示EF的屬性值value_Fk是否出現(xiàn)在EM的屬性值集合Ω 中,其取值如式(3)所示,出現(xiàn)時取值為1、否則為0;然后將相同的屬性個數(shù)除以鋼廠鋼產(chǎn)品屬性個數(shù)(n) 得到實體對匹配度sim(EF,EM)。計算公式如式(2)所示,sim(EF,EM) 表示實體EF和EM的相似度。本算法中對相似度計算的優(yōu)化可保證不同實體對評判標(biāo)準(zhǔn)的統(tǒng)一性,使得相似度計算變得更加合理。

      (3)實體對排序

      由于中鐵物資實體和實體屬性值具有多樣性,2個實體對的匹配度相同不代表這2 個實體對同時匹配。因此,本算法在獲得實體對匹配度之后,針對性設(shè)計有效實體對排序規(guī)則對實體對進(jìn)行排序,對供應(yīng)商任意產(chǎn)品實體EF取排名第一的實體對(EF,EM) 作為最佳匹配,然后將其保存至實體匹配集合entitySet3(entitySet3= {(EF,EM)| EF=EM,EF∈?;陬I(lǐng)域知識的實體對排序規(guī)則具體為:首先計算實體EF的匹配閾值表示實體EF的屬性個數(shù);然后選擇與實體EF匹配時sim(EF,EM) 大于或等于閾值的實體對(EF,EM),通過該閾值的設(shè)定可排除明顯不匹配實體對;最后對所選實體對(EF,EM) 按sim(EF,EM) 值從大到小規(guī)則進(jìn)行排序,當(dāng)sim(EF,EM) 值相同時,按匹配對象EM的屬性字段長度‖EM‖從小到大排序;當(dāng)‖EM‖值相同時,考慮中鐵物資實體EM屬性值越豐富匹配越可靠,按實體EM不同屬性值個數(shù)從大到小排序。

      基于集合相似度實體匹配的具體算法如算法2所示,基于算法可找出存在匹配關(guān)系的實體對,然后在實體對間建立聯(lián)系,建立聯(lián)系后的實體匹配示意圖如圖5 所示。

      4 實驗分析

      在本節(jié)中使用了上文提出的基于領(lǐng)域知識的集合相似度實體對齊算法,在5個不同的鋼鐵廠的鋼材數(shù)據(jù)和中鐵物資數(shù)據(jù)上進(jìn)行了測試。本實驗使用的服務(wù)器的處理器為Intel(R) Xeon(R) CPU E5-2680 v4@ 2.40 GHz,內(nèi)存為256 GB,操作系統(tǒng)為CentOS 7,使用Python 語言進(jìn)行模型的搭建和實驗。

      4.1 數(shù)據(jù)集

      實驗使用協(xié)同平臺的中鐵鋼材類物資數(shù)據(jù)和昆鋼、南鋼等5 個鋼廠的鋼產(chǎn)品數(shù)據(jù),數(shù)據(jù)類別和實體數(shù)量如表2 所示。

      表2 實驗數(shù)據(jù)匯總

      每個鋼鐵產(chǎn)品有多種不同的屬性,不同數(shù)據(jù)源中描述屬性的名稱和屬性字段長度存在較大差異。如昆鋼鋼產(chǎn)品的屬性字段中存在著屬性值融合的字段,同時還存在著冗余的數(shù)據(jù)。由于各個數(shù)據(jù)源的數(shù)據(jù)表述標(biāo)準(zhǔn)不統(tǒng)一,因此同一鋼產(chǎn)品的描述存在較大差異。數(shù)據(jù)中還存在著一些自定義的標(biāo)識數(shù)據(jù),從而影響了數(shù)據(jù)的質(zhì)量。

      4.2 性能評價指標(biāo)

      Hits@k 表示實體對齊的前k個實體中對齊到正確的實體的比例。平均倒數(shù)排名(mean reciprocal rank,MRR)為匹配到正確實體的排名的倒數(shù)的平均值,計算公式如式(4)所示,其中ranki表示在對齊到正確的實體的排名,N為實體的總數(shù)。

      一個鋼產(chǎn)品實體如果存在對應(yīng)的物資實體則說明這個鋼產(chǎn)品實體是一個正例,如果不存在對應(yīng)的物資實體說明這個鋼產(chǎn)品實體是一個負(fù)例。在最大相似度準(zhǔn)則下,如果一個鋼產(chǎn)品的相似度最高的實體對的相似度值超過指定閾值并且準(zhǔn)確匹配到了對應(yīng)的物資實體則說明這個鋼產(chǎn)品的預(yù)測結(jié)果是正例。為了驗證閾值的影響,設(shè)定不同的閾值,比較不同閾值下的各項指標(biāo)的變化,得出最佳的參數(shù)。根據(jù)真實標(biāo)簽和預(yù)測標(biāo)簽可以計算出查全率(recall,簡稱R)、查準(zhǔn)率(precision,簡稱P)和F1 度量。

      4.3 實驗結(jié)果分析

      為驗證本文算法的正確性和有效性,利用5 個不同鋼廠數(shù)據(jù)進(jìn)行實驗。對比算法包括基礎(chǔ)算法(對數(shù)據(jù)采用屬性值原子化處理后直接用Jaccard 相似度計算實體匹配度)、Jaccard 算法(使用3.2 節(jié)所述數(shù)據(jù)預(yù)處理方法處理數(shù)據(jù),采用Jaccard 相似度計算實體匹配度)、詞頻比算法(文獻(xiàn)[15]中使用的算法)和本文所提算法,對比指標(biāo)為Hits@1 和MRR。4 個對比算法中均包含實體屬性值原子化處理,旨在解決實際數(shù)據(jù)中實體單個屬性融合多類屬性值(如表1 所示)而導(dǎo)致的字符串無法直接匹配問題。

      如表3 所示,本文所提算法總體實體對齊的Hits@1 值達(dá)到96.4%,明顯高于其他2 種算法。在表4 中,本文所提算法的MRR 值也均高于其他算法,說明本文算法可以更有效地識別出存在匹配關(guān)系的實體對。文獻(xiàn)[15]提出的基于詞頻比的算法在計算中考慮到了不同詞出現(xiàn)的頻率,但是在相似度計算公式中仍然使用了并集,影響了不同實體間匹配的準(zhǔn)確率,因此也驗證了本文方法的有效性。進(jìn)一步看,對于本文所提算法,南鋼、攀鋼、韶鋼3 個鋼廠實體對齊的Hits@1 均已達(dá)到了100%,由于昆鋼和陜鋼異構(gòu)數(shù)據(jù)較多、數(shù)據(jù)描述復(fù)雜,Hits@1 為93.3%和96.3%,該結(jié)果同樣高于其他2 個算法。此外,從韶鋼的數(shù)據(jù)可以看出,使用僅含普通數(shù)據(jù)預(yù)處理方法的基礎(chǔ)算法,Hits@1 只有49.3%,這也說明了本文所設(shè)計數(shù)據(jù)預(yù)處理算法的有效性。

      表3 不同鋼廠的實體匹配Hits@1 對比

      表4 不同鋼廠的實體匹配MRR 對比

      表3 列出了實體匹配的Hits@1 值。如果放寬查找范圍,在相似度最大的前k個候選實體中如果存在對應(yīng)的物資實體,則視為匹配成功,由此可以得出在不同k值下的實體匹配的Hits@k 值。從圖6可以看出,隨著k值的逐漸增大,實體匹配的準(zhǔn)確率逐漸升高,陜鋼實體匹配的Hits@ 5 已經(jīng)達(dá)到了100%,昆鋼實體匹配的Hits@5 已經(jīng)超過了98%,這個結(jié)果也再次驗證了本文算法的有效性。

      圖6 不同尺度下實體對齊查全率

      進(jìn)一步地,為驗證使用匹配度閾值對實體對齊準(zhǔn)確性的影響,本文比較了不同閾值下模型的各項性能指標(biāo)。以下實驗將針對昆鋼和陜鋼的數(shù)據(jù)進(jìn)行分析。

      根據(jù)實驗的結(jié)果可得出閾值為0.35 時本文算法在昆鋼數(shù)據(jù)中表現(xiàn)出色,閾值為0.28 時本文算法在陜鋼的數(shù)據(jù)上表現(xiàn)良好。

      本文實驗從不同角度對模型的有效性進(jìn)行了驗證。首先比較了最大相似度準(zhǔn)則下的實體對齊Hits@1和MRR,然后在Hits@1 偏低的鋼廠數(shù)據(jù)中又再次比較了不同k值下的Hits@k,通過不同算法對比可以看出本文所提算法達(dá)到了較高的準(zhǔn)確率。然后從相似度值的角度進(jìn)行衡量,探索閾值對于實驗結(jié)果的影響。結(jié)果表明,算法的性能有所下降,原因是鋼廠不同鋼產(chǎn)品屬性描述存在差異,直接使用統(tǒng)一的閾值進(jìn)行實體對齊的衡量導(dǎo)致部分?jǐn)?shù)據(jù)無法有效進(jìn)行匹配。圖7、圖8 為鋼廠數(shù)據(jù)在設(shè)定不同閾值時評價指標(biāo)的變化趨勢圖。圖7 中的查準(zhǔn)率折線隨著閾值的升高出現(xiàn)了明顯的波動,這也反映出基于閾值的實體對齊存在一定問題,后期將會探索更科學(xué)的實體對齊的衡量尺度,從多角度科學(xué)地衡量實體對的匹配關(guān)系,進(jìn)一步提高實體對齊的準(zhǔn)確度。

      圖7 不同閾值下昆鋼的實驗結(jié)果

      圖8 不同閾值下陜鋼的實驗結(jié)果

      5 結(jié)論

      本文面向行業(yè)電商知識圖譜應(yīng)用,將電商平臺底層多源異構(gòu)數(shù)據(jù)中同一對象的匹配問題轉(zhuǎn)化為知識圖譜領(lǐng)域中實體對齊問題,并提出一種基于領(lǐng)域知識的集合相似度實體對齊算法,實現(xiàn)數(shù)據(jù)融合。在算法設(shè)計中,基于領(lǐng)域知識針對性設(shè)計數(shù)據(jù)預(yù)處理技術(shù),以規(guī)范化電商底層多源異構(gòu)數(shù)據(jù)、提升數(shù)據(jù)處理效率和準(zhǔn)確性;結(jié)合鋼材領(lǐng)域知識,過濾非配對實體,縮小實體對齊計算空間,生成高質(zhì)量候選集;應(yīng)用集合相似度思想,綜合實體名稱、屬性和行業(yè)領(lǐng)域信息,定義實體相似度評估函數(shù),有效評估實體對的匹配概率。實驗結(jié)果表明,本文算法可有效提高實體匹配準(zhǔn)確率,實現(xiàn)多源異構(gòu)數(shù)據(jù)的高效融合。本文進(jìn)一步從基于相似度值排序的度量和基于閾值的度量2 個方面比較了實體對齊的匹配標(biāo)準(zhǔn),探索了不同閾值對實體對齊的影響。

      在未來研究中,將會融合不同標(biāo)準(zhǔn)進(jìn)行實體對齊的度量,同時也會從知識圖譜的拓?fù)浣Y(jié)構(gòu)出發(fā),探索基于圖神經(jīng)網(wǎng)絡(luò)等方法進(jìn)行實體對齊,進(jìn)一步提高實體對齊的準(zhǔn)確度,減少人工干預(yù),提高行業(yè)效率。

      猜你喜歡
      知識庫圖譜實體
      繪一張成長圖譜
      前海自貿(mào)區(qū):金融服務(wù)實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計中的應(yīng)用
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
      振興實體經(jīng)濟(jì)地方如何“釘釘子”
      高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
      主動對接你思維的知識圖譜
      基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
      圖書館研究(2015年5期)2015-12-07 04:05:48
      如皋市| 元氏县| 镇巴县| 江永县| 湟中县| 新竹县| 通榆县| 宁化县| 孟津县| 中西区| 涿鹿县| 阿巴嘎旗| 鸡西市| 江山市| 克东县| 蕲春县| 仁怀市| 蓬溪县| 和平县| 丽江市| 璧山县| 祁东县| 红安县| 黄石市| 西峡县| 攀枝花市| 菏泽市| 北流市| 德阳市| 铜鼓县| 定兴县| 庆城县| 将乐县| 平塘县| 平度市| 阿克陶县| 永登县| 微山县| 交口县| 梁山县| 武川县|