陶 冶,郭帥童,丁香乾,侯瑞春,初佃輝
(1.青島科技大學 信息科學技術學院,山東 青島 266071;2.中國海洋大學 信息科學與工程學院,山東 青島 266000;3.哈爾濱工業(yè)大學(威海) 計算機科學與技術學院,山東 威海 264209)
企業(yè)業(yè)務系統(tǒng)普遍存在信息共享程度低、信息與業(yè)務流程和應用相互脫節(jié)等問題,容易導致企業(yè)內(nèi)形成信息孤島[1]。特別是工業(yè)軟件公司為了實現(xiàn)工業(yè)流程和技術的程序化,需要龐大的技術數(shù)據(jù)支撐,這不僅需要企業(yè)內(nèi)部解決信息孤島問題實現(xiàn)數(shù)據(jù)共享,還需要與很多不同的工業(yè)企業(yè)的數(shù)據(jù)進行融合[2]。因此,為了實現(xiàn)企業(yè)內(nèi)部或外部的數(shù)據(jù)融合,一些企業(yè)開始著手搭建數(shù)據(jù)空間,試圖將企業(yè)資源計劃(Enterprise Resource Planning, ERP)、客戶關系管理(Customer Relationship Management, CRM)、制造執(zhí)行系統(tǒng)(Manufacturing Execution System, MES)等工業(yè)軟件進行整合,從而解決“信息孤島”問題。
數(shù)據(jù)空間構建過程中的一個主要問題是如何準確建立實體之間的關聯(lián),即將多源數(shù)據(jù)庫中的異質異構數(shù)據(jù)通過實體匹配整合為一個全面的企業(yè)數(shù)據(jù)空間。盡管可以通過字典或語義庫的屬性列語義匹配、利用列內(nèi)容相似性判斷[3-4]和使用樸素貝葉斯學習算法計算屬性列相似概率等方法發(fā)現(xiàn)實體之間的關聯(lián),但是在應對海量數(shù)據(jù)時,上述方法存在普適性差、響應慢和準確率低等問題。
為提升海量數(shù)據(jù)之間相互關聯(lián)的準確性、完整性和時效性,一方面從數(shù)據(jù)的物理結構入手,通過將數(shù)據(jù)元素的表示和關系抽取出來作為模式信息,通過模式匹配挖掘數(shù)據(jù)之間的相似關系。DOS REIS等[5]從多源異質的大規(guī)模關系型數(shù)據(jù)庫中使用結構化查詢語言提取數(shù)據(jù)庫名、模式名和表名等信息作為元數(shù)據(jù)集,集中保存于數(shù)據(jù)庫中。通過歐式距離分析元數(shù)據(jù)集之間的關聯(lián)性,從而建立源數(shù)據(jù)庫之間的關聯(lián)關系。BERLIN等[6]提出的系統(tǒng)主要基于貝葉斯學習,將領域專家“映射”到屬性知識數(shù)據(jù)庫。對匹配對象的屬性根據(jù)屬性知識數(shù)據(jù)庫的信息一一比較,得到量化值。然后基于最小成本最大流量網(wǎng)絡算法得到對象之間的總體最佳匹配。對于模式匹配中的本體語義相似性問題,孫海霞等[7]通過研究基于距離、信息內(nèi)容、屬性和混合式的語義相似度模型,發(fā)現(xiàn)將比較詞語轉換成本體中的概念詞,進行語義相似度計算,可以對某領域的本體語義實現(xiàn)有針對性的準確的有效衡量,從而提高了本體語義分析在模式匹配中的準確度。模式匹配在處理少量數(shù)據(jù)時能夠根據(jù)所分析的信息有效地區(qū)分數(shù)據(jù)之間的關聯(lián),且由于分析的元素固定,處理速度不會隨數(shù)據(jù)量的改變而顯著變化,以較少的資源就可以實現(xiàn)數(shù)據(jù)之間的關聯(lián)匹配。但是當數(shù)據(jù)量呈指數(shù)增長時,由于模式信息的數(shù)量一定,不同類別數(shù)據(jù)的模型信息相似或相同的概率急劇增大,導致模式匹配分析數(shù)據(jù)的區(qū)分度效果減弱。
另一方面數(shù)據(jù)自身可以作為數(shù)據(jù)的實例信息,從中挖掘數(shù)據(jù)之間的相似關系。如BAKHTOUCHI等[8]針對基于實例的數(shù)據(jù)融合中存在的數(shù)據(jù)沖突問題,提出了將沖突分為不確定沖突和矛盾沖突兩類,并分別給出了解決方案,實現(xiàn)了對同一表示形式的重復數(shù)據(jù)進行融合,同時解決了同一屬性的不同值之間可能存在的沖突等問題。RAHM等[9]給出了如何將模式匹配中的名字和描述匹配等解決方案用于元素級別的實例分析的遷移思路。XU等[10]、SUTANTA等[11]針對實例的不同數(shù)據(jù)類型,提出了如何將實例數(shù)據(jù)進行分類,并對不同類別的數(shù)據(jù)如何建立數(shù)據(jù)關聯(lián)提出了系統(tǒng)性的理論框架。實例分析與模式匹配在處理海量數(shù)據(jù)時,對數(shù)據(jù)融合能夠保持一個較好的區(qū)分度,但是這往往需要耗費較長的分析時間。此外,當數(shù)據(jù)發(fā)生改變,特別是新增數(shù)據(jù)時,實例分析往往要耗費大量的時間和運行資源修正數(shù)據(jù)關聯(lián)關系。
除此之外,隨著深度學習與日志的結合,一些用日志來刻畫用戶與某類物品或某種事情之間關聯(lián)的研究也受到了大量關注。張有等[12]通過連續(xù)采集用戶的各種行為記錄,生成大規(guī)模異構日志數(shù)據(jù),從而挖掘用戶的行為模式,然后通過行為模式是否改變來檢測用戶異于以往的行為特征,實現(xiàn)內(nèi)部威脅檢測這一目標。MOHANTY等[13]使用物聯(lián)網(wǎng)收集網(wǎng)絡日志文件進行清洗和學習,通過建立用戶畫像和保存相似信息,提出了基于粗糙模糊聚類的網(wǎng)頁推薦系統(tǒng),實現(xiàn)了為用戶推薦電子商務購物網(wǎng)站的目的。日志中含有數(shù)據(jù)之間的關聯(lián)關系,但日志通常只涉及部分業(yè)務數(shù)據(jù),缺乏完整性,難以全面反映數(shù)據(jù)間的關聯(lián)關系。
綜上所述,企業(yè)發(fā)展中不斷增加的數(shù)據(jù)源,導致數(shù)據(jù)的規(guī)模和類別不斷增加,而模式匹配、實例分析和日志挖掘等方法從單一維度對數(shù)據(jù)進行分析,可能存在無法充分利用數(shù)據(jù)的多樣性、分析不全面和浪費大量資源等問題,無法高效準確地從海量數(shù)據(jù)中挖掘有價值的信息,幫助企業(yè)更好地發(fā)展。針對這些問題,本文通過整合模式、實例和日志,從多維對數(shù)據(jù)進行分析,充分利用數(shù)據(jù)的多樣性建立實體關聯(lián)。
通過在不同系統(tǒng)的業(yè)務邏輯層與數(shù)據(jù)訪問層之間部署動態(tài)探針,獲取數(shù)據(jù)庫數(shù)據(jù)和日志信息。然后從數(shù)據(jù)結構、實例和日志這3個維度建立相應的模型,刻畫實體之間的相似程度,給出實體之間在不同維度上的相似值。數(shù)據(jù)在多個維度上的相似值之間不具備可比較性,本文采用基于模糊邏輯的方法[14-15],對不同維度上的相似值進行歸一化處理,使其能夠相互比較,從而得到實體之間關聯(lián)的最佳匹配結果。
如圖1所示為實體關聯(lián)映射模型,將企業(yè)業(yè)務系統(tǒng)中A和N等部門的多源數(shù)據(jù)如A1和N1等分別映射為數(shù)據(jù)空間的A1和N1等,屬性aij,nij分別為對應的子節(jié)點。在此前研究中[16],筆者提出一種根據(jù)不同系統(tǒng)的全鏈路訪問日志,并據(jù)此建立了跨域實體間的可視化動態(tài)關聯(lián)模型,以節(jié)點表示數(shù)據(jù)庫中包含有的屬性,線性粗細代表屬性之間關聯(lián)的強弱。在數(shù)據(jù)空間的實體關聯(lián)模型可依照類似模型進行可視化,具體地,根據(jù)可統(tǒng)一衡量的歸一化實體間的相似值,建立實體之間的關聯(lián)關系,并通過線條的粗細體現(xiàn)實體之間關聯(lián)的強弱。如R1:sim=1表示其關聯(lián)的實體a13和n11之間的相似值為1,R2:sim=0.83表示其關聯(lián)的實體a21和n11之間的相似值為0.83,通過線條的粗細直觀清晰地展示了實體a13和n11之間的關聯(lián)比實體a21和n11之間的關聯(lián)強。
如圖2所示,首先在企業(yè)各業(yè)務系統(tǒng)如ERP,CRM等的業(yè)務邏輯層和數(shù)據(jù)訪問層中間分別部署動態(tài)探針,實時監(jiān)聽并獲取業(yè)務執(zhí)行時產(chǎn)生的數(shù)據(jù)。為便于使用需要,將數(shù)據(jù)進行持久化保存,業(yè)務邏輯層以日志的形式保存,其余數(shù)據(jù)使用關系型數(shù)據(jù)庫存儲。企業(yè)數(shù)據(jù)具有規(guī)模巨大和數(shù)據(jù)類型繁多等特點,根據(jù)數(shù)據(jù)的特征和性質對數(shù)據(jù)進行預分類,從而加快數(shù)據(jù)的處理并提高實體間匹配的準確度。動態(tài)探針獲取的數(shù)據(jù)分為數(shù)據(jù)庫模式、數(shù)據(jù)庫實例和SQL日志,分別從以上3個維度進行分析并分別計算實體之間的相似值。從屬性名和約束兩方面進行模式匹配分析;實例分析根據(jù)數(shù)據(jù)類型的不同分為數(shù)值、字符和長文本3種分析方法;日志分析根據(jù)動態(tài)探針所捕獲的SQL語句中包含的屬性關聯(lián)信息計算實體之間的相似值。最后,基于模糊邏輯分析器,根據(jù)實體在不同維度上的相似值,對實體之間的相似性進行歸一化計算,從而在數(shù)據(jù)空間建立有效的實體關聯(lián)。
雖然由于應用場景和命名規(guī)范等因素導致數(shù)據(jù)庫設計人員所開發(fā)的數(shù)據(jù)庫千差萬別,但是數(shù)據(jù)庫設計中一般包含表和字段名、表結構和數(shù)據(jù)類型等內(nèi)容。因此,提取數(shù)據(jù)庫中模式信息的屬性名和約束作為模式相似模型的分析內(nèi)容,衡量實體之間的相似性。
1.1.1 屬性名
屬性名分析分為樸素文本相似度和文本語義相似度分析兩種,屬性名之間的文本相似度計算方式為編輯距離算法,文本語義相似度通過語義庫的方式計算。編輯距離指在兩個單詞w1和w2之間,由單詞w1轉換為單詞w2所需要的最少單字符編輯操作次數(shù)[17-18]。根據(jù)編輯次數(shù)定義樸素文本相似值:
(1)
式中:l1,l2為屬性名w1和w2的字符長度;D為屬性名w1和w2的編輯距離。
對于同一實體的描述可能有不同的表達方式,如企業(yè)數(shù)據(jù)庫中記錄某上游公司的信息,其屬性名由于場景的不同可以命名為CompanyID和SupplierID。針對此種情況,若只通過樸素文本分析很難發(fā)現(xiàn)屬性名之間的相似關系。因此,采用基于語義的相似度分析方法,具體地,對屬性名建立如圖3所示的樹狀語義層級關系,通過屬性名在樹狀圖中對應的位置計算單詞之間的相似性。
基于語義的相似性計算公式為:
(2)
式中:N1和N2分別表示單詞w1,w2與最近公共父節(jié)點詞w間的最短路徑;H表示從w到根節(jié)點的最短路徑。最終屬性名相似值為樸素文本相似度和文本語義相似度中的最大值,如式(3)所示:
Sname=Max(Splain,Ssema)。
(3)
1.1.2 約束
數(shù)據(jù)庫中的列在建立時,設計人員會遵循一定的設計原則,如合適的數(shù)據(jù)類型、是否為空等。通過約束進行列與列之間的相似匹配,需要篩選有代表性的約束,本文從數(shù)據(jù)庫中的眾多數(shù)據(jù)約束信息中篩選出屬性列類型、是否是主鍵或外鍵、是否允許空值和是否有注釋作為特征元素。
表1 模式規(guī)范特征
假設需要進行約束相似度判別的兩列分別為A和B,Ai和Bi分別是兩列屬性對應的第i個候選約束的取值,令:
(4)
式中n為候選約束個數(shù),則列A與列B的屬性約束相似度為
(5)
1.1.3 模式相似值
由于模式分析器中包含屬性名和約束分析兩種,采用加權平均的方式,將式(6)的結果作為模式相似值:
Sschema=α·Sname+(1-α)·Scons,
α∈[0,1]。
(6)
式中α根據(jù)實際情況,調(diào)整參數(shù)屬性名Sname和約束Scons在模式分析中所占的比例。
由于描述同類實體的數(shù)據(jù)集存在相似性,如取值區(qū)間、極值和關鍵詞等,從數(shù)據(jù)集中提取信息刻畫實體的基本特征,根據(jù)數(shù)據(jù)的特征信息判斷數(shù)據(jù)之間的相似性強弱,從而建立實體之間的關聯(lián)。其中數(shù)據(jù)類別是數(shù)據(jù)集的顯著特征,數(shù)據(jù)類別的不同導致選擇的刻畫數(shù)據(jù)集特征的屬性具有差異性。有針對性地對不同類別的數(shù)據(jù)集建立差異化的特征提取方案,可以提高實體間關聯(lián)匹配的準確性。對數(shù)據(jù)庫中的數(shù)據(jù)類型按表2進行歸類,不同類別的數(shù)據(jù)對應不同的處理方案,一般數(shù)據(jù)類別不同的實體之間不相似。
表2 數(shù)據(jù)類型歸類
根據(jù)數(shù)據(jù)類型的不同,實例分析可以分為數(shù)值型、字符型和長文本型3種。其中數(shù)值型指表2中的整型和浮點型,字符型根據(jù)文本的長度不同又分為字符和長文本兩類。對數(shù)據(jù)進行分類聚類后按照圖4所示流程分析數(shù)據(jù)之間的相似性。
1.2.1 數(shù)值型
對于統(tǒng)計性標量,如加和、均值、方差、中位數(shù)等,可以從數(shù)值分布的角度考慮列與列之間的相似性。為了從不同方面體現(xiàn)數(shù)值型標量的特征,重點從以下3個方面考慮特征的選取,能夠界定數(shù)據(jù)范圍的最大值和最小值,反映數(shù)據(jù)主要分布情況的平均值、算數(shù)中位數(shù)和眾數(shù),能夠反映數(shù)據(jù)離散程度的樣本標準偏差,這些指標元素對數(shù)據(jù)量變化不敏感,可以用來作為計算列相似性的特征元素,而對于非空值的數(shù)量和數(shù)據(jù)的累計總和等指標,會隨數(shù)據(jù)量的變化而顯著變化,因此不適合作為特征元素。最后,計算每列對應的特征向量,代入余弦相似度公式,將結果作為數(shù)值型的相似值。
1.2.2 字符型
字符型指短文本內(nèi)容,使用“詞頻—逆文本頻率”作為相似度計算算法。首先,將需要判斷相似度的列內(nèi)容合并,作為單獨的一個數(shù)據(jù)集;然后,求每列的列內(nèi)容對應的向量;最后,將特征向量代入余弦相似度公式,計算字符型的相似值。
1.2.3 長文本型
長文本型指長文本內(nèi)容,將列中的記錄映射為向量,使用自編碼建立模型,根據(jù)模型計算列之間的相似值。假設A、B兩列均為長文本列,如圖5所示,為了防止在根據(jù)數(shù)據(jù)建立模型過程中,數(shù)據(jù)集的數(shù)量相差過大導致模型出現(xiàn)過擬合等問題,需要確保數(shù)據(jù)集的數(shù)量在同一量級上,因此對A、B兩列隨機抽取k條記錄作為抽樣集。自編碼的輸入要求是向量,因此將抽樣集中的文本轉化為向量。然后將其分為訓練集和測試集,自編碼分別使用訓練集建立模型后,根據(jù)測試集的準確率計算A、B列的相似性。
自編碼模型計算長文本列相似度,如算法1所示,自編碼器1中的輸入?yún)?shù)x1、x2和y對應圖5中向量集中1、2和4所代表的數(shù)據(jù),自編碼器2中的x1,x2和y對應圖5中向量集中3、4和2所代表的數(shù)據(jù),輸出參數(shù)分別記為λ1,θ1和λ2,θ2。根據(jù)測試集在自編碼器的準確值來計算兩列相似值為:
(7)
算法1長文本相似度計算方法。
輸入:
訓練自編碼器的數(shù)據(jù)集中的訓練集x1,測試集x2;
用于測試自編碼的測試集y,
文本相似的閾值ω;
輸出:
x2對應的測試準確值λ,
y對應的測試準確值θ。
1.a_train, a_test=x1, x2; s_a_num, s_b_num=0,0
2.b_test=y;
3.a_num, b_num=len(a_test), len(b_test);
4.input=a_train;
5.encoded=Dense(input); //創(chuàng)建編碼器
6.decoded=Dense(encoded); //根據(jù)編碼器創(chuàng)建解碼器
7.autoencoded=Model(input, decoded); //訓練自動編碼器
8.a_test_predict=autoencoded(a_test); //用x2測試訓練過的自動編碼器
9.b_test_predict=autoencoded(b_test); //用y測試訓練過的自動編碼器
10.FOR a, b ina_test, a_test_predict: //成對取測試集x2和自動編碼器處理后的數(shù)據(jù)集
11. IF similarity(a,b)≥ω: //計算數(shù)據(jù)的相似值并與閾值對比,統(tǒng)計大于閾值的數(shù)量
12. s_a_num++
14.FOR a, b inb_test, b_test_predict: //成對取測試集y和自動編碼器處理后的數(shù)據(jù)集
15. IF similarity(a,b)≥ω:
16. s_b_num++
分層架構中的業(yè)務邏輯層主要是對實體的屬性和行為進行封裝,雖然在不同業(yè)務邏輯中實體的表示方式不盡相同,但是同類實體具有類似的屬性和行為。通過分析業(yè)務邏輯層的載體日志中關于實體的信息,計算實體之間的相似值。日志記錄的SQL命令含有列之間的關聯(lián)關系,可以作為衡量列相似度的分析依據(jù)。通過統(tǒng)計日志文件中等價關系的次數(shù)可以得到列與列之間的相似度。
假設a,b為對比列,則a,b列的日志相似值計算公式為:
(8)
式中:Na,Nb為日志中分別包含a,b值的SQL命令出現(xiàn)的次數(shù);Nab為日志中同時包含a,b屬性的SQL命令出現(xiàn)的次數(shù)。
根據(jù)前文所述,用所提模型對數(shù)據(jù)進行計算,能夠得到模式、實例和日志3個維度的相似值,由于不同維度上的相似值不具備直接的可比較性,需要將其統(tǒng)一成可直接比較的值。一般能夠將多維的數(shù)值轉為一個數(shù)值的方法有德爾菲法[19]、加權平均和模糊邏輯等。德爾菲法依賴于特定領域的知識,當數(shù)據(jù)來源不定時其無法與數(shù)據(jù)很好地適配,而加權平均由于其形式固定,對于數(shù)據(jù)處理的方式比較單一,無法充分利用數(shù)據(jù)的特征。模糊邏輯中可以包含專家領域的知識[20]且其對數(shù)據(jù)進行處理時能夠使用多個函數(shù)進行數(shù)據(jù)擬合,其適配性和適應性相對較好,因此選擇模糊邏輯來將多個維度的相似值進行歸一化處理。
設A和B為進行相似性判別的兩列,將上述3個維度的分析結果作為模糊邏輯的輸入,并計算隸屬度。對數(shù)據(jù)進行模糊化后,判斷其是否符合模糊規(guī)則。然后計算所有滿足模糊規(guī)則的情況,將計算結果進行反模糊化后便可以得到歸一化的衡量列與列之間的相似值。以圖6為例,首先A和B經(jīng)過上述模式、實例和日志分析得到其在對應維度上的相似值:scheme, instance, log分別為0.6、0.7和0.8,然后將相似值經(jīng)過一系列的模糊操作,最終得到A和B之間的相似值為0.71。
為驗證所提框架的可行性,收集某企業(yè)供應商的數(shù)據(jù)集進行驗證。將各個供應商根據(jù)企業(yè)要求提供的信息,如產(chǎn)品報價、產(chǎn)品供應等信息整合到一起,通過與人工整合的結果進行對比,驗證模型的可用性,并記錄分析模型在運行過程的表現(xiàn)情況。硬件環(huán)境為:Intel(R) Xeon(R) Silver 4210 CPU @ 2.20 GHz,64 GB RAM,RTX2080Ti*4。
表3 數(shù)據(jù)匹配結果
設計如下實驗:將供應商提供的數(shù)據(jù)使用本節(jié)所設計的模型分析數(shù)據(jù)之間的關聯(lián)關系,實現(xiàn)數(shù)據(jù)自動導入到匯總表中(匯總表中需要預先存在需要導入的屬性及其對應的部分數(shù)據(jù))。表3是分別選取供應商數(shù)據(jù)中3 000條記錄的匹配結果,其中每一行是每個供應商的匹配結果信息。數(shù)據(jù)集屬性總數(shù)指供應商提供的數(shù)據(jù)屬性的總數(shù),有效屬性總數(shù)是指能夠與匯總文件中某一列屬性對應的數(shù)據(jù),正確關聯(lián)的屬性總數(shù)指的是將每個供應商的數(shù)據(jù)通過模型匹配后,正確整合到匯總文件中對應的列數(shù),正確率是正確關聯(lián)屬性的數(shù)目與有效屬性總數(shù)的比值。
由結果可知,數(shù)據(jù)匹配的準確度最佳表現(xiàn)能夠達到89%左右,能夠很好地作為輔助工具進行數(shù)據(jù)的匹配,而對于第二列數(shù)據(jù)匹配的準確度較低的結果進行分析,發(fā)現(xiàn)其供應商提供的數(shù)據(jù)中專有名稱和縮寫使用較多,且由于其業(yè)務涉及比較單一,內(nèi)容相似度較高,導致模型分析中的模式匹配結果準確率不高,從而導致結果不理想,后續(xù)可以通過優(yōu)化模式匹配中的語義分析提高準確性。
抽取收集的供應商數(shù)據(jù)中的有效數(shù)據(jù)作為一個整體,并標注其對應匯總表中的位置,作為計算準確度時的標準,從每個供應商的有效數(shù)據(jù)中等比例抽取相同數(shù)量的列作為樣本,然后分別基于模式、實例和本文所提的基于模糊邏輯的框架進行數(shù)據(jù)匹配實驗,從時間和準確率兩方面比對不同方法之間的優(yōu)劣。
從圖7a中可以看出,在不同數(shù)據(jù)量的情況下,基于模式的實驗所用時間最少,且時間消耗變化不明顯,基于實例的方法由于內(nèi)容分析全面,數(shù)據(jù)匹配時間在相同數(shù)據(jù)量下大幅增加,而本文所提方法雖然包含實例分析,但是由于在對實例分析時會對數(shù)據(jù)分類分析,減少了數(shù)據(jù)之間相互匹配的數(shù)量,從而消耗的時間比只有實例分析的少。
從圖7b中可以發(fā)現(xiàn),在實驗樣本低于600時基于實例的數(shù)據(jù)匹配準確度最高;本文所提方法在800列后一直保持最高準確率;基于模式的方法在數(shù)據(jù)量為1 400列后由于分析元素有限,數(shù)據(jù)規(guī)模變大導致同質數(shù)據(jù)增多容易發(fā)生誤配事件導致數(shù)據(jù)匹配準確率下降。整體而言,隨著數(shù)據(jù)量的增多,所有分析方法的數(shù)據(jù)匹配準確率呈上升趨勢,這是由于在等比例抽樣時,當樣本較少時供應商之間對應的相似數(shù)據(jù)被抽到的數(shù)目較少,導致誤配情況發(fā)生的可能性增大;而當抽樣數(shù)據(jù)增多覆蓋整體數(shù)據(jù)的比例上升時,誤配情況大幅減少,從而數(shù)據(jù)匹配的正確率逐漸提升。
結合圖7的對比實驗可以發(fā)現(xiàn),在數(shù)據(jù)量適中的情況下,本文所提方法可以在短時間內(nèi)得到較高的準確率。
為了研究實例分析中不同維度的長文本在自編碼模型中的表現(xiàn)情況,在本節(jié)實驗中,通過收集企業(yè)簡介作為數(shù)據(jù)集,并將其分為兩列,使用實例分析中的長文本分析方案,通過改變向量維度這一變量進行驗證。
從圖8a可以看出,在相同數(shù)據(jù)量情況下,維度越高,實驗所用時間越多。在數(shù)據(jù)行數(shù)是200 000時,很明顯,維度是1 024所消耗的時間大約是維度是128的10倍。由圖8b可以發(fā)現(xiàn),在數(shù)據(jù)量較少的情況下,若維度過高會降低準確率。這是由于自編碼的原理是通過對數(shù)據(jù)進行降維提取關鍵信息,當數(shù)據(jù)規(guī)模小時,長文本中壓縮提取的數(shù)據(jù)特征有限,則高維的特征向量會混雜大量的噪聲數(shù)據(jù),導致準確率低。隨著數(shù)據(jù)量的增加,從數(shù)據(jù)中可以提取出更多的數(shù)據(jù)特征,高維的特征向量可以更好地表示文本,因此有更高的準確率。結合圖8可以發(fā)現(xiàn),在數(shù)據(jù)行數(shù)為30 000時,維度是128和256的較低維度的數(shù)據(jù)匹配準確率能維持一個較高的值且耗時較短,但是當數(shù)據(jù)量增加到30 000以上時,維度是512和1 024的高維度的數(shù)據(jù)匹配準確度能夠隨數(shù)據(jù)量的增多而顯著變高,但是所耗時間也隨數(shù)據(jù)量的增大而顯著增多。
本文提出一種基于模式、實例和日志的混合實體匹配模型,通過前置探針獲取數(shù)據(jù),采用多層分析框架從模式、實例和日志3個維度完成相似度計算,并基于模糊邏輯推理將多個維度上的相似值進行整合歸一化表示,根據(jù)模糊化得到的最終標準化相似值作為衡量數(shù)據(jù)匹配的標準,從而為數(shù)據(jù)空間構建過程中的實體融合提供參考依據(jù)。實驗結果表明,與先前基于模式或實例的單一匹配方法相比,本文所提出的模型在準確率和處理大規(guī)模數(shù)據(jù)所消耗的時間等方面有更好地效果。后續(xù)研究將聚焦如何建立數(shù)據(jù)和權重之間的映射關系,建立權重分配指導方案,從而更好地處理多源異構數(shù)據(jù)中數(shù)據(jù)的隨機性和多樣性對結果準確度的影響這一問題。