• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向智慧中臺(tái)的多源數(shù)據(jù)集成技術(shù)研究

    2020-02-03 02:39:04馬耀家曹揚(yáng)陳駿曾藝?yán)?/span>陳珊珊
    電子技術(shù)與軟件工程 2020年19期
    關(guān)鍵詞:中臺(tái)數(shù)據(jù)源架構(gòu)

    馬耀家 曹揚(yáng) 陳駿 曾藝?yán)?陳珊珊

    (江蘇蘇星資產(chǎn)管理有限公司 江蘇省南京市 210000)

    多源數(shù)據(jù)集成是指通過(guò)運(yùn)用不同數(shù)據(jù)工具,將不同來(lái)源的數(shù)據(jù)源集成到所用平臺(tái)或系統(tǒng)內(nèi),成為所用平臺(tái)或系統(tǒng)能夠識(shí)別的數(shù)據(jù)形式[1]。由于數(shù)據(jù)在采集過(guò)程中具有明顯的差異,導(dǎo)致數(shù)據(jù)源形式不一,需對(duì)此類多源數(shù)據(jù)實(shí)施集成處理。當(dāng)前與數(shù)據(jù)集成相關(guān)的體系架構(gòu)主要包含數(shù)據(jù)復(fù)制及模式集成等。數(shù)據(jù)復(fù)制是通過(guò)復(fù)制不同數(shù)據(jù)源,對(duì)數(shù)據(jù)源整體的統(tǒng)一性實(shí)施維護(hù)實(shí)現(xiàn)多源數(shù)據(jù)集成;模式集成是通過(guò)轉(zhuǎn)化各個(gè)局部概念模式,實(shí)現(xiàn)多源數(shù)據(jù)集成。但上述方法未能有效解決數(shù)據(jù)集成的數(shù)據(jù)源添加與語(yǔ)義等問(wèn)題。為此,本文運(yùn)用SOA 構(gòu)建多源數(shù)據(jù)集成技術(shù)架構(gòu),對(duì)不同數(shù)據(jù)源實(shí)施集成處理后用于智慧中臺(tái)內(nèi),實(shí)施相應(yīng)的操作與管理等,提升操作與管理的時(shí)效性。

    1 面向智慧中臺(tái)的多源數(shù)據(jù)集成技術(shù)

    1.1 多源數(shù)據(jù)集成技術(shù)總體架構(gòu)

    運(yùn)用SOA 體系結(jié)構(gòu)構(gòu)建包含數(shù)據(jù)源服務(wù)層與應(yīng)用服務(wù)層的多源數(shù)據(jù)集成技術(shù)總體架構(gòu),其中數(shù)據(jù)源服務(wù)層主要針對(duì)智慧中臺(tái)的現(xiàn)實(shí)數(shù)據(jù)實(shí)施管理,智慧中臺(tái)的數(shù)據(jù)源主要為關(guān)系數(shù)據(jù)庫(kù)與半結(jié)構(gòu)化數(shù)據(jù)源XML 文件等;應(yīng)用服務(wù)層針對(duì)數(shù)據(jù)源服務(wù)層內(nèi)各個(gè)數(shù)據(jù)源內(nèi)源數(shù)據(jù)實(shí)施集成處理[2]。ESB 經(jīng)服務(wù)注冊(cè)、調(diào)用及查詢等對(duì)應(yīng)用服務(wù)層的不同服務(wù)實(shí)施集中管理,ESB 不但可實(shí)現(xiàn)動(dòng)態(tài)管理服務(wù),同時(shí)可經(jīng)數(shù)據(jù)查詢優(yōu)化模塊與數(shù)據(jù)訪問(wèn)模塊等提升智慧中臺(tái)的性能與安全性。

    1.2 語(yǔ)義模塊功能

    智慧中臺(tái)運(yùn)用了全局模糊本體,對(duì)通過(guò)消息服務(wù)模塊向語(yǔ)義模塊所傳遞的標(biāo)準(zhǔn)格式源數(shù)據(jù)實(shí)施更正。若用戶定義的擴(kuò)展參數(shù)表與模糊本體創(chuàng)建均表明需實(shí)施語(yǔ)義查詢擴(kuò)展,即對(duì)源數(shù)據(jù)實(shí)施對(duì)應(yīng)的調(diào)整,同時(shí)基于語(yǔ)義擴(kuò)展查詢,提升查全率與查準(zhǔn)率[3]。以查詢?cè)磾?shù)據(jù)為依據(jù),創(chuàng)建匹配規(guī)則,將本體映射文件生成,通過(guò)全局本體庫(kù)將查詢結(jié)果部分轉(zhuǎn)化為通用模式,可以有效解決智慧中臺(tái)的語(yǔ)義問(wèn)題。

    1.3 數(shù)據(jù)存儲(chǔ)

    1.3.1 基于MC 算法的防御攻擊處理

    將執(zhí)行任務(wù)所得結(jié)果內(nèi)不同歸檔文件的副本冗余數(shù)量設(shè)為r,當(dāng)有攻擊發(fā)生時(shí),運(yùn)用RS 編碼(Reed-solomon codes,RS codes)冗余副本與冗余信息,不能恢復(fù)歸檔文件中不同RS 分組fi的概率上限可表示為:

    式中,RS 編碼碼距以d 表示;碼組長(zhǎng)度與大規(guī)模數(shù)據(jù)塊數(shù)量分別以g 和n 表示;RS 分組事件以C 表示;數(shù)據(jù)塊損壞比例以σ表示。

    將通過(guò)RS 冗余編碼擴(kuò)展之后的不同RS 碼組內(nèi)容設(shè)為 (F1,F2,K,Gg),將不同F(xiàn)i元素視作單獨(dú)隨機(jī)變量。Fi可取為1 或0,當(dāng)Fi為1 時(shí),代表數(shù)據(jù)塊損壞;當(dāng)Fi為0 時(shí),代表數(shù)據(jù)塊完整,記為E(Fi)=σ。當(dāng)存在隨機(jī)變量時(shí),可得到:

    圖1:數(shù)據(jù)存儲(chǔ)過(guò)程圖

    將不能恢復(fù)的第i 個(gè)具備錯(cuò)誤的RS 分組事件通過(guò)Ci表示,已知分組內(nèi)具備錯(cuò)誤的數(shù)據(jù)塊比閾值高,則事件Ci的Chernoff 上界式為:

    在歸檔內(nèi)不同RS 編碼分組為相互獨(dú)立關(guān)系,當(dāng)歸檔D 內(nèi)存在n 塊數(shù)據(jù)塊時(shí),在遭受到攻擊破壞時(shí),無(wú)法恢復(fù)的概率式可表示為:

    所獲得的數(shù)據(jù)恢復(fù)概率式可表示為:

    綜上所述,當(dāng)執(zhí)行任務(wù)所得結(jié)果內(nèi)待存儲(chǔ)源數(shù)據(jù)遭受攻擊行為時(shí),MC 算法具備的數(shù)據(jù)糾錯(cuò)能力較高,執(zhí)行任務(wù)所得結(jié)果的副本冗余數(shù)據(jù)、大規(guī)模數(shù)據(jù)塊數(shù)量以及RS 編碼碼距均對(duì)MC 算法的糾錯(cuò)性能具有決定性作用。

    1.3.2 數(shù)據(jù)存儲(chǔ)過(guò)程

    經(jīng)MC 算法對(duì)執(zhí)行任務(wù)所得結(jié)果內(nèi)源數(shù)據(jù)實(shí)施防御攻擊處理后,運(yùn)用增量捕獲工具、Sqoop 及Kafka 等數(shù)種技術(shù)方式,接入執(zhí)行任務(wù)所得結(jié)果安全數(shù)據(jù),依據(jù)統(tǒng)一數(shù)據(jù)規(guī)范標(biāo)準(zhǔn)化格式儲(chǔ)存不同類別數(shù)據(jù)庫(kù)[4]。數(shù)據(jù)存儲(chǔ)過(guò)程如圖1所示。

    運(yùn)用Hadoop 的并行加載機(jī)制,對(duì)線上與線下的消息實(shí)施統(tǒng)一處理,提升數(shù)據(jù)向Hadoop 集群內(nèi)存儲(chǔ)的便利性[5];同時(shí)可將數(shù)據(jù)通道格式規(guī)范化,且準(zhǔn)許智慧中臺(tái)各實(shí)施一次數(shù)據(jù)獲取與寫入,有效降低數(shù)據(jù)通道的操作用時(shí)與繁瑣性。

    圖2:應(yīng)用本文技術(shù)前后智慧中臺(tái)語(yǔ)義識(shí)別精度對(duì)比

    圖3:應(yīng)用本文技術(shù)前后智慧中臺(tái)各項(xiàng)操作用時(shí)對(duì)比

    1.4 冗余數(shù)據(jù)處理

    為提升已存儲(chǔ)執(zhí)行任務(wù)所得結(jié)果內(nèi)源數(shù)據(jù)的有效性,應(yīng)將異常數(shù)據(jù)剔除掉。其中異常數(shù)據(jù)重點(diǎn)有重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)及不完整數(shù)據(jù)等,各種異常數(shù)據(jù)的清洗處理方式為:

    (1)重復(fù)數(shù)據(jù):導(dǎo)出重復(fù)數(shù)據(jù)的全部字段,選擇性地實(shí)施剔除;

    (2)錯(cuò)誤數(shù)據(jù):針對(duì)與全角字符相似及數(shù)據(jù)前后存在不可見字符等問(wèn)題,可采用SQL 語(yǔ)句書寫方式找尋出,并在業(yè)務(wù)系統(tǒng)更正后抽取出;

    (3)不完整數(shù)據(jù):過(guò)濾出此類不完整數(shù)據(jù),分別依據(jù)缺失內(nèi)容向各個(gè)文件寫入,需在設(shè)定時(shí)間之內(nèi)全部補(bǔ)全,待補(bǔ)全之后即可向數(shù)據(jù)庫(kù)內(nèi)寫入。

    通過(guò)建立多源數(shù)據(jù)集成技術(shù)架構(gòu),采用MC 算法防御攻擊處理數(shù)據(jù),獲得安全存儲(chǔ)數(shù)據(jù),生成統(tǒng)一的XML 格式集成數(shù)據(jù),由此完成多源數(shù)據(jù)集成。

    2 應(yīng)用結(jié)果分析

    以江蘇蘇星資產(chǎn)管理有限公司的智慧中臺(tái)作為實(shí)驗(yàn)對(duì)象,將本文技術(shù)應(yīng)用于此智慧中臺(tái)內(nèi),檢驗(yàn)本文技術(shù)的實(shí)際應(yīng)用效果。

    2.1 語(yǔ)義識(shí)別精度檢測(cè)

    以人事調(diào)度信息、車輛管理信息、餐飲服務(wù)信息、工程維護(hù)信息以及會(huì)務(wù)接待信息為例,通過(guò)實(shí)驗(yàn)公司智慧中臺(tái)實(shí)施語(yǔ)義識(shí)別,檢測(cè)應(yīng)用本文技術(shù)前后智慧中臺(tái)的語(yǔ)義識(shí)別精度,檢測(cè)結(jié)果如圖2所示。

    通過(guò)圖2 能夠看出,在對(duì)不同信息實(shí)施語(yǔ)義識(shí)別過(guò)程中,應(yīng)用本文技術(shù)前智慧中臺(tái)的語(yǔ)義識(shí)別一致度值在54.5%~74.6%之間,而應(yīng)用本文技術(shù)后智慧中臺(tái)的語(yǔ)義識(shí)別一致度值在74.5%~89.6%之間。由此說(shuō)明,本文技術(shù)的語(yǔ)義識(shí)別一致度較高,可提升實(shí)驗(yàn)公司智慧中臺(tái)的語(yǔ)義識(shí)別精度。

    2.2 操作效率檢測(cè)

    記錄應(yīng)用本文技術(shù)前后的智慧中臺(tái)實(shí)施操作操作所用時(shí)間并對(duì)比,結(jié)果如圖3所示。

    分析圖3 可得出,應(yīng)用本文技術(shù)后智慧中臺(tái)實(shí)施五項(xiàng)操作的總用時(shí)為88.5ms,而應(yīng)用本文技術(shù)前智慧中臺(tái)實(shí)施五項(xiàng)操作的總用時(shí)為124.8ms,應(yīng)用本文技術(shù)后智慧中臺(tái)實(shí)施五項(xiàng)操作的總用時(shí)比應(yīng)用本文技術(shù)前降低了29.09%。說(shuō)明本文技術(shù)可提升實(shí)驗(yàn)公司智慧中臺(tái)的操作效率,提高了實(shí)驗(yàn)公司的服務(wù)響應(yīng)時(shí)效性。

    3 結(jié)論

    本文通過(guò)構(gòu)建集成技術(shù)整體架構(gòu),實(shí)現(xiàn)對(duì)數(shù)據(jù)源服務(wù)層內(nèi)多源數(shù)據(jù)的集成處理,將本文技術(shù)應(yīng)用于智慧中臺(tái)內(nèi),能夠有效提升語(yǔ)義識(shí)別精度,本文技術(shù)應(yīng)用后更具時(shí)效性,并以此提升該公司的服務(wù)水平與服務(wù)效率。

    猜你喜歡
    中臺(tái)數(shù)據(jù)源架構(gòu)
    基于FPGA的RNN硬件加速架構(gòu)
    中臺(tái)是媒體轉(zhuǎn)型必經(jīng)之路嗎?
    ——媒體中臺(tái)建設(shè)的特點(diǎn)和誤區(qū)
    視聽界(2021年2期)2021-11-27 00:30:14
    功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
    汽車工程(2021年12期)2021-03-08 02:34:30
    關(guān)于零售企業(yè)“中臺(tái)”建設(shè)的研究
    汽車制造企業(yè)質(zhì)量中臺(tái)研究
    以技術(shù)開發(fā)中心為中臺(tái),數(shù)字化轉(zhuǎn)型之見解
    Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
    LSN DCI EVPN VxLAN組網(wǎng)架構(gòu)研究及實(shí)現(xiàn)
    基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
    基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
    土默特右旗| 綦江县| 抚宁县| 五寨县| 武陟县| 铁岭市| 兴城市| 沾化县| 万盛区| 新田县| 武宣县| 丁青县| 西吉县| 平果县| 天津市| 昭苏县| 苏州市| 庆城县| 瑞丽市| 额尔古纳市| 永吉县| 汕尾市| 长葛市| 海林市| 邮箱| 潮安县| 林口县| 获嘉县| 包头市| 廉江市| 射阳县| 涞水县| 兴安县| 故城县| 广汉市| 玉田县| 焦作市| 汨罗市| 孟村| 淳安县| 电白县|