• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大數(shù)據(jù)環(huán)境下的領(lǐng)域數(shù)據(jù)體系設(shè)計方法研究

      2015-05-12 13:23:52張婷夏宏雷
      卷宗 2015年4期
      關(guān)鍵詞:服務(wù)化結(jié)構(gòu)化編碼

      張婷 夏宏雷

      1 引言

      隨著我國各類大型集團企業(yè)信息化改革的不斷深入,各大型集團企業(yè)迫切要求提升企業(yè)管控水平。而企業(yè)管控能力的提升,需要對大量的業(yè)務(wù)數(shù)據(jù)進行綜合處理與分析,為管控決策提供支撐。因此,對這類大型集團企業(yè)范圍內(nèi)的領(lǐng)域級數(shù)據(jù)進行深入整合、存儲、發(fā)布和管理是進行高效數(shù)據(jù)利用的前提,也是提升企業(yè)管控水平的基礎(chǔ)。同時,隨著大數(shù)據(jù)、云計算等新技術(shù)的快速發(fā)展和應(yīng)用,各類大型集團企業(yè)也需要制定自身的數(shù)據(jù)體系構(gòu)建策略和數(shù)據(jù)標(biāo)準。

      2 大數(shù)據(jù)環(huán)境下的領(lǐng)域數(shù)據(jù)體系設(shè)計方法

      大數(shù)據(jù)環(huán)境下的領(lǐng)域數(shù)據(jù)體系設(shè)計方法的主要思想是:在大數(shù)據(jù)環(huán)境下,以數(shù)據(jù)體系需求分析階段得到的數(shù)據(jù)資源為基礎(chǔ),參考具體領(lǐng)域的數(shù)據(jù)標(biāo)準(若有),利用已有系統(tǒng)的數(shù)據(jù)資源,分別對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)關(guān)系進行梳理,獲得數(shù)據(jù)分類和編碼。然后根據(jù)數(shù)據(jù)模型定義數(shù)據(jù)存取格式,最后結(jié)合SOA技術(shù)和云計算技術(shù),將數(shù)據(jù)資源服務(wù)化,建立領(lǐng)域統(tǒng)一的數(shù)據(jù)概念定義、分類體系、編碼規(guī)則與數(shù)據(jù)模型,并進一步構(gòu)建大數(shù)據(jù)環(huán)境下的數(shù)據(jù)服務(wù)資源集,實現(xiàn)數(shù)據(jù)的可視、可用、可管理和可信任。其技術(shù)方案如圖1所示。

      2.1 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)關(guān)系梳理

      針對領(lǐng)域數(shù)據(jù)類型多樣性和異構(gòu)性,分別對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)關(guān)系的梳理。對于結(jié)構(gòu)化數(shù)據(jù),首先進行基于形式化本體的領(lǐng)域數(shù)據(jù)概念分類,然后根據(jù)分類進行領(lǐng)域數(shù)據(jù)的層次編碼與代碼設(shè)計,接著分析數(shù)據(jù)關(guān)系,構(gòu)建數(shù)據(jù)邏輯模型。對于非結(jié)構(gòu)化數(shù)據(jù),首先進行實體的識別,然后進行實體關(guān)系抽取。這個階段主要在梳理數(shù)據(jù)關(guān)系的基礎(chǔ)上產(chǎn)生數(shù)據(jù)分類和編碼。

      2.1.1 結(jié)構(gòu)化數(shù)據(jù)的關(guān)系梳理

      (1)基于形式化本體的數(shù)據(jù)分類

      基于形式化本體的數(shù)據(jù)分類步驟如下:

      步驟一:在概念分類的基礎(chǔ)上構(gòu)建數(shù)據(jù)概念庫。

      步驟二:建立數(shù)據(jù)概念庫,根據(jù)漢語詞語的特點,結(jié)合數(shù)據(jù)概念的特點,將數(shù)據(jù)信息概念分為元概念和復(fù)合概念兩大類。

      步驟三:領(lǐng)域數(shù)據(jù)概念的基本特性,引入數(shù)據(jù)元屬性,主要包括抽象性、存在性、統(tǒng)一性、依賴性和拆分性。

      步驟四:對元屬性進行約束和假設(shè)。

      步驟五:分析元屬性之間的組合,不同的組合方案對應(yīng)于數(shù)據(jù)分類中不同的分類層次,完成數(shù)據(jù)概念的形式化分類。

      步驟六:設(shè)定復(fù)合概念約束條件,實現(xiàn)分類中數(shù)據(jù)復(fù)合概念的選取問題。

      步驟七:確定概念之間的同義、上下位、整體部分、屬性-宿主和實例等關(guān)系。

      (2)數(shù)據(jù)的層次編碼

      層次碼能反映編碼對象間的隸屬關(guān)系。層次碼編碼方法以編碼對象集合中的層級分類為基礎(chǔ),將編碼對象編碼成為連續(xù)且遞增的組(類)。位于較高層級上得每一個組(類)都包含并且只能包含它下面較低層級全部的組(類)。每個層級上特性必須互不相容。

      2.1.2 非結(jié)構(gòu)化數(shù)據(jù)的梳理

      (1)實體的識別

      實體識別技術(shù)在處理分析非結(jié)構(gòu)化數(shù)據(jù)時,處理分析的實體主要有名稱、地址、機構(gòu)名、時間、數(shù)量詞等五大類信息。但是對于結(jié)構(gòu)比較隨意、內(nèi)容復(fù)雜多變、長度變幻不定的信息進行識別時,則要通過搜集大量的指示詞和特征詞,根據(jù)上下文進行初始判斷。然后通過統(tǒng)計詞出現(xiàn)的頻率來進行最終的實體結(jié)果判定。

      (2)關(guān)系抽取

      關(guān)系抽取的目標(biāo)是發(fā)現(xiàn)海量數(shù)據(jù)中實體間的語義關(guān)系。考慮針對不同形式的數(shù)據(jù)文件設(shè)計不同的實體關(guān)系抽取任務(wù)。同時也可根據(jù)領(lǐng)域的特點定義具體的關(guān)系模型。在定義關(guān)系模型之前,可以事先分析部分特定語料,由此定義了最有可能出現(xiàn)在這種語料中的基礎(chǔ)關(guān)系類型,然后逐步完善使實體類型與關(guān)系類型的定義通用化。

      2.2 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)描述定義

      針對大數(shù)據(jù)環(huán)境下領(lǐng)域數(shù)據(jù)類型多樣性和異構(gòu)性,分別對結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進行數(shù)據(jù)描述定義。對于結(jié)構(gòu)化數(shù)據(jù),依據(jù)數(shù)據(jù)分類和編碼整理數(shù)據(jù)目錄,構(gòu)建數(shù)據(jù)字典、定義元數(shù)據(jù)。對于非結(jié)構(gòu)化數(shù)據(jù),依據(jù)實體和識別出的關(guān)系整理出非結(jié)構(gòu)化數(shù)據(jù)的目錄,并使用鍵值型數(shù)據(jù)、文檔型數(shù)據(jù)、列式型數(shù)據(jù)或圖形型數(shù)據(jù)模型對非結(jié)構(gòu)化數(shù)據(jù)進行建模。

      2.3 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)存儲格式定義

      根據(jù)在大數(shù)據(jù)環(huán)境下的數(shù)據(jù)描述定義,先對數(shù)據(jù)的存儲格式進行定義,然后基于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的不同類型,分別選擇不同的存儲數(shù)據(jù)庫。最后定義數(shù)據(jù)交換格式,用于規(guī)范不同的數(shù)據(jù)庫之間數(shù)據(jù)的交換。

      在對存儲格式進行定義時主要使用分布式存儲技術(shù),將數(shù)據(jù)文件分塊,然后分別存儲在多臺主機上,以提高數(shù)據(jù)訪問速度和讀寫的效率。利用Hadoop框架中的HDFS文件系統(tǒng)中所使用的分布存儲技術(shù)存儲MB、GB甚至TB級別的超大文件;實現(xiàn)最高效的訪問模式,即一次寫入、多次讀取。

      完成數(shù)據(jù)存儲格式定義后,進行存儲數(shù)據(jù)庫的選擇。使用鍵值型數(shù)據(jù)庫、文檔型數(shù)據(jù)庫、列式數(shù)據(jù)庫或圖形數(shù)據(jù)庫以及XML對非結(jié)構(gòu)化數(shù)據(jù)進行存儲,使用關(guān)系型數(shù)據(jù)庫(RDB)對結(jié)構(gòu)化數(shù)據(jù)進行存儲。

      對于不同的數(shù)據(jù)存儲形式,需要構(gòu)建數(shù)據(jù)交換格式和規(guī)范,對領(lǐng)域數(shù)據(jù)中數(shù)據(jù)元素要制定相關(guān)規(guī)范,用于數(shù)據(jù)交換。

      2.4 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)資源服務(wù)化

      在大數(shù)據(jù)環(huán)境下,梳理數(shù)據(jù)所需要的資源和服務(wù),通過建立服務(wù)數(shù)據(jù)模型,對Web服務(wù)進行封裝,然后對數(shù)據(jù)服務(wù)資源進行發(fā)布,基于SOA技術(shù)和云計算技術(shù),設(shè)計面向大數(shù)據(jù)的數(shù)據(jù)資源的服務(wù)化方法和領(lǐng)域數(shù)據(jù)資源服務(wù)化的架構(gòu),將數(shù)據(jù)資源服務(wù)化,確保用戶對領(lǐng)域數(shù)據(jù)使用的一致性。

      (1)數(shù)據(jù)資源服務(wù)化方法

      數(shù)據(jù)資源服務(wù)化是將各種數(shù)據(jù)資源構(gòu)建形成一個服務(wù)系統(tǒng)。其核心是通過數(shù)據(jù)資源服務(wù)化封裝將數(shù)據(jù)資源虛擬化,形成一個邏輯資源服務(wù),并將服務(wù)注冊到數(shù)據(jù)資源注冊中心,數(shù)據(jù)資源用戶可以通過服務(wù)發(fā)現(xiàn)/查找獲得所需要的數(shù)據(jù)資源信息,綁定相關(guān)服務(wù),通過服務(wù)調(diào)用實現(xiàn)對數(shù)據(jù)資源的訪問。數(shù)據(jù)資源用戶可以通過對不同的數(shù)據(jù)資源服務(wù)的組合、服務(wù)流程的編排實現(xiàn)復(fù)雜的數(shù)據(jù)集成。

      (2)領(lǐng)域數(shù)據(jù)資源服務(wù)化的架構(gòu)設(shè)計

      領(lǐng)域數(shù)據(jù)資源服務(wù)化針對各種異構(gòu)數(shù)據(jù)資源,統(tǒng)一了數(shù)據(jù)訪問接口和數(shù)據(jù)表現(xiàn)形式,形成一個統(tǒng)一的、跨平臺的數(shù)據(jù)訪問模式,實現(xiàn)了異構(gòu)數(shù)據(jù)資源的統(tǒng)一訪問。而數(shù)據(jù)資源提供者可以將可共享的數(shù)據(jù)以服務(wù)接口的形式暴露出來,通過標(biāo)準的服務(wù)描述語言WSDL加以描述,實現(xiàn)了數(shù)據(jù)資源集成的可擴展性以及數(shù)據(jù)資源的動態(tài)集成。

      3 結(jié)語

      在大數(shù)據(jù)時代來臨的今天,如何使數(shù)據(jù)體系和標(biāo)準設(shè)計能夠滿足業(yè)務(wù)發(fā)展和技術(shù)變革的要求,結(jié)合新技術(shù)的發(fā)展使積累的數(shù)據(jù)具有更高的價值,是大型集團企業(yè)信息管理部門所面臨的挑戰(zhàn)和機遇。本文從領(lǐng)域級數(shù)據(jù)體系設(shè)計方面對當(dāng)前和未來信息資源管理和應(yīng)用的技術(shù)架構(gòu)進行了研究探討。根據(jù)數(shù)據(jù)生命周期的規(guī)律和特點,提出了一種領(lǐng)域數(shù)據(jù)體系設(shè)計方法,希望該方法能給各集團企業(yè)數(shù)據(jù)資產(chǎn)的管理和應(yīng)用提供一種可靠和行之有效的方法。

      猜你喜歡
      服務(wù)化結(jié)構(gòu)化編碼
      制造企業(yè)服務(wù)化程度、服務(wù)化模式和服務(wù)化收益研究
      運籌與管理(2022年9期)2022-10-20 12:42:26
      基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
      促進知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      《全元詩》未編碼疑難字考辨十五則
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      計算機教育(2020年5期)2020-07-24 08:53:00
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      Genome and healthcare
      制造業(yè)服務(wù)化發(fā)展戰(zhàn)略研究
      基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
      計算機工程(2015年8期)2015-07-03 12:20:35
      制造服務(wù)化發(fā)展戰(zhàn)略
      玉田县| 南充市| 监利县| 襄汾县| 东港市| 巴中市| 大港区| 珠海市| 甘谷县| 南京市| 胶州市| 高雄市| 滕州市| 丁青县| 安福县| 青川县| 西丰县| 河西区| 临清市| 交城县| 拉萨市| 无为县| 南郑县| 棋牌| 镇赉县| 东乌珠穆沁旗| 通化县| 正蓝旗| 黔南| 黔西| 阿鲁科尔沁旗| 宿松县| 永胜县| 上林县| 南京市| 水富县| 库伦旗| 出国| 个旧市| 喜德县| 鄯善县|