馬耀家 曹揚(yáng) 陳駿 曾藝?yán)?陳珊珊
(江蘇蘇星資產(chǎn)管理有限公司 江蘇省南京市 210000)
多源數(shù)據(jù)集成是指通過(guò)運(yùn)用不同數(shù)據(jù)工具,將不同來(lái)源的數(shù)據(jù)源集成到所用平臺(tái)或系統(tǒng)內(nèi),成為所用平臺(tái)或系統(tǒng)能夠識(shí)別的數(shù)據(jù)形式[1]。由于數(shù)據(jù)在采集過(guò)程中具有明顯的差異,導(dǎo)致數(shù)據(jù)源形式不一,需對(duì)此類多源數(shù)據(jù)實(shí)施集成處理。當(dāng)前與數(shù)據(jù)集成相關(guān)的體系架構(gòu)主要包含數(shù)據(jù)復(fù)制及模式集成等。數(shù)據(jù)復(fù)制是通過(guò)復(fù)制不同數(shù)據(jù)源,對(duì)數(shù)據(jù)源整體的統(tǒng)一性實(shí)施維護(hù)實(shí)現(xiàn)多源數(shù)據(jù)集成;模式集成是通過(guò)轉(zhuǎn)化各個(gè)局部概念模式,實(shí)現(xiàn)多源數(shù)據(jù)集成。但上述方法未能有效解決數(shù)據(jù)集成的數(shù)據(jù)源添加與語(yǔ)義等問(wèn)題。為此,本文運(yùn)用SOA 構(gòu)建多源數(shù)據(jù)集成技術(shù)架構(gòu),對(duì)不同數(shù)據(jù)源實(shí)施集成處理后用于智慧中臺(tái)內(nèi),實(shí)施相應(yīng)的操作與管理等,提升操作與管理的時(shí)效性。
運(yùn)用SOA 體系結(jié)構(gòu)構(gòu)建包含數(shù)據(jù)源服務(wù)層與應(yīng)用服務(wù)層的多源數(shù)據(jù)集成技術(shù)總體架構(gòu),其中數(shù)據(jù)源服務(wù)層主要針對(duì)智慧中臺(tái)的現(xiàn)實(shí)數(shù)據(jù)實(shí)施管理,智慧中臺(tái)的數(shù)據(jù)源主要為關(guān)系數(shù)據(jù)庫(kù)與半結(jié)構(gòu)化數(shù)據(jù)源XML 文件等;應(yīng)用服務(wù)層針對(duì)數(shù)據(jù)源服務(wù)層內(nèi)各個(gè)數(shù)據(jù)源內(nèi)源數(shù)據(jù)實(shí)施集成處理[2]。ESB 經(jīng)服務(wù)注冊(cè)、調(diào)用及查詢等對(duì)應(yīng)用服務(wù)層的不同服務(wù)實(shí)施集中管理,ESB 不但可實(shí)現(xiàn)動(dòng)態(tài)管理服務(wù),同時(shí)可經(jīng)數(shù)據(jù)查詢優(yōu)化模塊與數(shù)據(jù)訪問(wèn)模塊等提升智慧中臺(tái)的性能與安全性。
智慧中臺(tái)運(yùn)用了全局模糊本體,對(duì)通過(guò)消息服務(wù)模塊向語(yǔ)義模塊所傳遞的標(biāo)準(zhǔn)格式源數(shù)據(jù)實(shí)施更正。若用戶定義的擴(kuò)展參數(shù)表與模糊本體創(chuàng)建均表明需實(shí)施語(yǔ)義查詢擴(kuò)展,即對(duì)源數(shù)據(jù)實(shí)施對(duì)應(yīng)的調(diào)整,同時(shí)基于語(yǔ)義擴(kuò)展查詢,提升查全率與查準(zhǔn)率[3]。以查詢?cè)磾?shù)據(jù)為依據(jù),創(chuàng)建匹配規(guī)則,將本體映射文件生成,通過(guò)全局本體庫(kù)將查詢結(jié)果部分轉(zhuǎn)化為通用模式,可以有效解決智慧中臺(tái)的語(yǔ)義問(wèn)題。
1.3.1 基于MC 算法的防御攻擊處理
將執(zhí)行任務(wù)所得結(jié)果內(nèi)不同歸檔文件的副本冗余數(shù)量設(shè)為r,當(dāng)有攻擊發(fā)生時(shí),運(yùn)用RS 編碼(Reed-solomon codes,RS codes)冗余副本與冗余信息,不能恢復(fù)歸檔文件中不同RS 分組fi的概率上限可表示為:
式中,RS 編碼碼距以d 表示;碼組長(zhǎng)度與大規(guī)模數(shù)據(jù)塊數(shù)量分別以g 和n 表示;RS 分組事件以C 表示;數(shù)據(jù)塊損壞比例以σ表示。
將通過(guò)RS 冗余編碼擴(kuò)展之后的不同RS 碼組內(nèi)容設(shè)為 (F1,F2,K,Gg),將不同F(xiàn)i元素視作單獨(dú)隨機(jī)變量。Fi可取為1 或0,當(dāng)Fi為1 時(shí),代表數(shù)據(jù)塊損壞;當(dāng)Fi為0 時(shí),代表數(shù)據(jù)塊完整,記為E(Fi)=σ。當(dāng)存在隨機(jī)變量時(shí),可得到:
圖1:數(shù)據(jù)存儲(chǔ)過(guò)程圖
將不能恢復(fù)的第i 個(gè)具備錯(cuò)誤的RS 分組事件通過(guò)Ci表示,已知分組內(nèi)具備錯(cuò)誤的數(shù)據(jù)塊比閾值高,則事件Ci的Chernoff 上界式為:
在歸檔內(nèi)不同RS 編碼分組為相互獨(dú)立關(guān)系,當(dāng)歸檔D 內(nèi)存在n 塊數(shù)據(jù)塊時(shí),在遭受到攻擊破壞時(shí),無(wú)法恢復(fù)的概率式可表示為:
所獲得的數(shù)據(jù)恢復(fù)概率式可表示為:
綜上所述,當(dāng)執(zhí)行任務(wù)所得結(jié)果內(nèi)待存儲(chǔ)源數(shù)據(jù)遭受攻擊行為時(shí),MC 算法具備的數(shù)據(jù)糾錯(cuò)能力較高,執(zhí)行任務(wù)所得結(jié)果的副本冗余數(shù)據(jù)、大規(guī)模數(shù)據(jù)塊數(shù)量以及RS 編碼碼距均對(duì)MC 算法的糾錯(cuò)性能具有決定性作用。
1.3.2 數(shù)據(jù)存儲(chǔ)過(guò)程
經(jīng)MC 算法對(duì)執(zhí)行任務(wù)所得結(jié)果內(nèi)源數(shù)據(jù)實(shí)施防御攻擊處理后,運(yùn)用增量捕獲工具、Sqoop 及Kafka 等數(shù)種技術(shù)方式,接入執(zhí)行任務(wù)所得結(jié)果安全數(shù)據(jù),依據(jù)統(tǒng)一數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)化格式儲(chǔ)存不同類別數(shù)據(jù)庫(kù)[4]。數(shù)據(jù)存儲(chǔ)過(guò)程如圖1所示。
運(yùn)用Hadoop 的并行加載機(jī)制,對(duì)線上與線下的消息實(shí)施統(tǒng)一處理,提升數(shù)據(jù)向Hadoop 集群內(nèi)存儲(chǔ)的便利性[5];同時(shí)可將數(shù)據(jù)通道格式規(guī)范化,且準(zhǔn)許智慧中臺(tái)各實(shí)施一次數(shù)據(jù)獲取與寫入,有效降低數(shù)據(jù)通道的操作用時(shí)與繁瑣性。
圖2:應(yīng)用本文技術(shù)前后智慧中臺(tái)語(yǔ)義識(shí)別精度對(duì)比
圖3:應(yīng)用本文技術(shù)前后智慧中臺(tái)各項(xiàng)操作用時(shí)對(duì)比
為提升已存儲(chǔ)執(zhí)行任務(wù)所得結(jié)果內(nèi)源數(shù)據(jù)的有效性,應(yīng)將異常數(shù)據(jù)剔除掉。其中異常數(shù)據(jù)重點(diǎn)有重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)及不完整數(shù)據(jù)等,各種異常數(shù)據(jù)的清洗處理方式為:
(1)重復(fù)數(shù)據(jù):導(dǎo)出重復(fù)數(shù)據(jù)的全部字段,選擇性地實(shí)施剔除;
(2)錯(cuò)誤數(shù)據(jù):針對(duì)與全角字符相似及數(shù)據(jù)前后存在不可見字符等問(wèn)題,可采用SQL 語(yǔ)句書寫方式找尋出,并在業(yè)務(wù)系統(tǒng)更正后抽取出;
(3)不完整數(shù)據(jù):過(guò)濾出此類不完整數(shù)據(jù),分別依據(jù)缺失內(nèi)容向各個(gè)文件寫入,需在設(shè)定時(shí)間之內(nèi)全部補(bǔ)全,待補(bǔ)全之后即可向數(shù)據(jù)庫(kù)內(nèi)寫入。
通過(guò)建立多源數(shù)據(jù)集成技術(shù)架構(gòu),采用MC 算法防御攻擊處理數(shù)據(jù),獲得安全存儲(chǔ)數(shù)據(jù),生成統(tǒng)一的XML 格式集成數(shù)據(jù),由此完成多源數(shù)據(jù)集成。
以江蘇蘇星資產(chǎn)管理有限公司的智慧中臺(tái)作為實(shí)驗(yàn)對(duì)象,將本文技術(shù)應(yīng)用于此智慧中臺(tái)內(nèi),檢驗(yàn)本文技術(shù)的實(shí)際應(yīng)用效果。
以人事調(diào)度信息、車輛管理信息、餐飲服務(wù)信息、工程維護(hù)信息以及會(huì)務(wù)接待信息為例,通過(guò)實(shí)驗(yàn)公司智慧中臺(tái)實(shí)施語(yǔ)義識(shí)別,檢測(cè)應(yīng)用本文技術(shù)前后智慧中臺(tái)的語(yǔ)義識(shí)別精度,檢測(cè)結(jié)果如圖2所示。
通過(guò)圖2 能夠看出,在對(duì)不同信息實(shí)施語(yǔ)義識(shí)別過(guò)程中,應(yīng)用本文技術(shù)前智慧中臺(tái)的語(yǔ)義識(shí)別一致度值在54.5%~74.6%之間,而應(yīng)用本文技術(shù)后智慧中臺(tái)的語(yǔ)義識(shí)別一致度值在74.5%~89.6%之間。由此說(shuō)明,本文技術(shù)的語(yǔ)義識(shí)別一致度較高,可提升實(shí)驗(yàn)公司智慧中臺(tái)的語(yǔ)義識(shí)別精度。
記錄應(yīng)用本文技術(shù)前后的智慧中臺(tái)實(shí)施操作操作所用時(shí)間并對(duì)比,結(jié)果如圖3所示。
分析圖3 可得出,應(yīng)用本文技術(shù)后智慧中臺(tái)實(shí)施五項(xiàng)操作的總用時(shí)為88.5ms,而應(yīng)用本文技術(shù)前智慧中臺(tái)實(shí)施五項(xiàng)操作的總用時(shí)為124.8ms,應(yīng)用本文技術(shù)后智慧中臺(tái)實(shí)施五項(xiàng)操作的總用時(shí)比應(yīng)用本文技術(shù)前降低了29.09%。說(shuō)明本文技術(shù)可提升實(shí)驗(yàn)公司智慧中臺(tái)的操作效率,提高了實(shí)驗(yàn)公司的服務(wù)響應(yīng)時(shí)效性。
本文通過(guò)構(gòu)建集成技術(shù)整體架構(gòu),實(shí)現(xiàn)對(duì)數(shù)據(jù)源服務(wù)層內(nèi)多源數(shù)據(jù)的集成處理,將本文技術(shù)應(yīng)用于智慧中臺(tái)內(nèi),能夠有效提升語(yǔ)義識(shí)別精度,本文技術(shù)應(yīng)用后更具時(shí)效性,并以此提升該公司的服務(wù)水平與服務(wù)效率。