• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于“企業(yè)年度工作報(bào)告”淺析非結(jié)構(gòu)化數(shù)據(jù)的處理和應(yīng)用

      2019-06-13 09:37:16王燁
      經(jīng)濟(jì)師 2019年4期
      關(guān)鍵詞:處理應(yīng)用

      王燁

      摘要:大數(shù)據(jù)時(shí)代,數(shù)據(jù)正在成為一種生產(chǎn)資料,一種稀有資產(chǎn)和新興產(chǎn)業(yè)。數(shù)據(jù)不僅是“副產(chǎn)物”。而是可被再次甚至加工的原料,一種可持續(xù)發(fā)展的生產(chǎn)資料,通過(guò)對(duì)其探索以實(shí)現(xiàn)更大價(jià)值。數(shù)據(jù)作為國(guó)家基礎(chǔ)性戰(zhàn)略資源,受到黨中央、國(guó)務(wù)院的高度重視,在當(dāng)今經(jīng)濟(jì)社會(huì)發(fā)展中大數(shù)據(jù)的作用不可小覷,黨的十八屆五中全會(huì)提出了“實(shí)施國(guó)家大數(shù)據(jù)戰(zhàn)略”.國(guó)務(wù)院也印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,目的在于全面推動(dòng)大數(shù)據(jù)的發(fā)展,意在建設(shè)數(shù)據(jù)強(qiáng)國(guó)。海量存儲(chǔ)空間和高速運(yùn)算速度,將從“樣本數(shù)據(jù)采集”到“全量數(shù)據(jù)采集”變成現(xiàn)實(shí),而這種轉(zhuǎn)變就要求政府及企業(yè)需要對(duì)現(xiàn)有積累的數(shù)據(jù)進(jìn)行重新審視。

      關(guān)鍵詞:非結(jié)構(gòu)化數(shù)據(jù) 處理 應(yīng)用

      一、信息數(shù)據(jù)的分類構(gòu)成及非結(jié)構(gòu)化數(shù)據(jù)特征

      在大數(shù)據(jù)發(fā)展的短短幾十年的時(shí)間中,政府和企業(yè)都積累了大量數(shù)據(jù)。從技術(shù)層面來(lái)分析這些積累的數(shù)據(jù),可以將其分為三種類型:

      結(jié)構(gòu)化數(shù)據(jù):即可以用數(shù)據(jù)庫(kù)存儲(chǔ)的數(shù)據(jù),這類數(shù)據(jù)易于存儲(chǔ),便于進(jìn)行檢索、統(tǒng)計(jì)分析等操作。我們所使用的各類業(yè)務(wù)系統(tǒng)所產(chǎn)生的數(shù)據(jù)多為結(jié)構(gòu)化數(shù)據(jù),最適合進(jìn)行大數(shù)據(jù)分析挖掘。

      半結(jié)構(gòu)化數(shù)據(jù):具有一定的結(jié)構(gòu)性,但是數(shù)據(jù)結(jié)構(gòu)沒(méi)有形成統(tǒng)一的國(guó)際標(biāo)準(zhǔn),沒(méi)有關(guān)系型數(shù)據(jù)庫(kù)的嚴(yán)格規(guī)范限制。半結(jié)構(gòu)化數(shù)據(jù)多應(yīng)用于現(xiàn)在的列式數(shù)據(jù)庫(kù)中,便于對(duì)大文本進(jìn)行搜索。

      非結(jié)構(gòu)化數(shù)據(jù):數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒(méi)有預(yù)定義的數(shù)據(jù)模型。屬于不方便用數(shù)據(jù)庫(kù)二維邏輯表來(lái)表現(xiàn)的數(shù)據(jù)。

      二、非結(jié)構(gòu)化數(shù)據(jù)處理的重要性和技術(shù)難點(diǎn)

      經(jīng)相關(guān)機(jī)構(gòu)調(diào)研發(fā)現(xiàn),無(wú)論是政府還是企業(yè)多年所積累的信息數(shù)據(jù),其中易于分析挖掘的結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)僅占10%,多數(shù)積累的信息為非結(jié)構(gòu)化數(shù)據(jù),且這些數(shù)據(jù)每年都會(huì)按指數(shù)增長(zhǎng)60%。政府投入大量資金用來(lái)分析結(jié)構(gòu)化數(shù)據(jù),卻忽略了其實(shí)非結(jié)構(gòu)化數(shù)據(jù)同樣是蘊(yùn)藏大量信息的寶庫(kù)。但要將其與大數(shù)據(jù)相融合,必須經(jīng)過(guò)專業(yè)技術(shù)的處理、提煉。下圖為非結(jié)構(gòu)化數(shù)據(jù)在處理過(guò)程中所遇到的技術(shù)難點(diǎn):

      可見(jiàn),只有將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),才能獲取到價(jià)值更高、范圍更廣的信息數(shù)據(jù)。

      三、非結(jié)構(gòu)化數(shù)據(jù)處理的技術(shù)原理和主要處理步驟

      非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)是格式多樣,數(shù)據(jù)標(biāo)準(zhǔn)也是多樣性的,在技術(shù)上非結(jié)構(gòu)化信息比結(jié)構(gòu)化信息更難標(biāo)準(zhǔn)化,必須通過(guò)技術(shù)手段將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)并進(jìn)行持久化存儲(chǔ),才可充分挖掘其價(jià)值。根據(jù)數(shù)據(jù)處理的時(shí)效性要求,可以將針對(duì)數(shù)據(jù)處理的技術(shù)體系分為兩大類:

      (一)基于Hadoop、Spark的實(shí)時(shí)流式解析處理方式

      這種處理方式對(duì)數(shù)據(jù)處理的時(shí)效性要求相對(duì)較高。往往在產(chǎn)生數(shù)據(jù)的同時(shí)就要立即對(duì)其進(jìn)行分析計(jì)算,并獲得最終結(jié)果。與這種技術(shù)相伴隨的有分布式處理計(jì)算、分布式存儲(chǔ)、內(nèi)存數(shù)據(jù)庫(kù)等技術(shù),都是用于提升實(shí)時(shí)處理效率所使用的。

      (二)基于大數(shù)據(jù)解析技術(shù)的批量數(shù)據(jù)分析處理技術(shù)

      這種處理方式對(duì)時(shí)效性要求不高,但對(duì)處理結(jié)果的精準(zhǔn)度要求很高。對(duì)于政府及企業(yè)而言,利用第二種技術(shù)手段來(lái)處理留存和新增的非結(jié)構(gòu)化數(shù)據(jù)更能節(jié)省時(shí)間成本并得到高質(zhì)量的分析預(yù)測(cè)結(jié)果。針對(duì)基于大數(shù)據(jù)解析技術(shù)的非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù),其主要處理流程包含了如下步驟:

      步驟一:分析解析,定位有價(jià)值的數(shù)據(jù)信息,明確提取目標(biāo)。

      在對(duì)政府及企業(yè)所積累的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行解析前,先人工進(jìn)行內(nèi)容分析,定位到關(guān)鍵的、高價(jià)值的數(shù)據(jù)后再開(kāi)始進(jìn)行機(jī)器化解析處理,不但可以提升效率,獲取高價(jià)值信息數(shù)據(jù),還降低了工作成本。

      步驟二:確立數(shù)據(jù)標(biāo)準(zhǔn)。并生成對(duì)應(yīng)的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)模型。

      只有高質(zhì)量的數(shù)據(jù)才能夠確保大數(shù)據(jù)分析預(yù)測(cè)結(jié)果的準(zhǔn)確性,因此,在步驟一中確立了需要提取的核心數(shù)據(jù),接下來(lái)就需要為這些核心數(shù)據(jù)建立對(duì)應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn),并依據(jù)標(biāo)準(zhǔn)建立對(duì)應(yīng)的結(jié)構(gòu)化及半結(jié)構(gòu)化數(shù)據(jù)模型,利用關(guān)系型數(shù)據(jù)庫(kù)和NOSQL數(shù)據(jù)庫(kù)的約束關(guān)系來(lái)確保數(shù)據(jù)標(biāo)準(zhǔn)得到執(zhí)行,從而保障數(shù)據(jù)的高質(zhì)量。

      步驟三:利用各類型大數(shù)據(jù)解析工具進(jìn)行核心數(shù)據(jù)提煉存儲(chǔ)。在建立數(shù)據(jù)標(biāo)準(zhǔn)及存儲(chǔ)模型后,對(duì)各類非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行解析,提煉出核心數(shù)據(jù)并保存到相應(yīng)的數(shù)據(jù)庫(kù)中,針對(duì)不同類型的數(shù)據(jù)需要專業(yè)的大數(shù)據(jù)解析工具來(lái)進(jìn)行數(shù)據(jù)的解析與提取。

      步驟四:建立科學(xué)的、可持續(xù)發(fā)展的分析模型,并持久的對(duì)其進(jìn)行優(yōu)化改進(jìn)。

      從大量不毫無(wú)關(guān)聯(lián)、類型各異的數(shù)據(jù)中挖掘出有價(jià)值的數(shù)據(jù),運(yùn)用機(jī)器學(xué)習(xí)方法、人工智能方法或者數(shù)據(jù)挖掘方法進(jìn)行深度分析,從中發(fā)現(xiàn)新的知識(shí)和規(guī)律,并將其運(yùn)用到不同領(lǐng)域,發(fā)揮大數(shù)據(jù)的真正價(jià)值,最終得以改善社會(huì)治理、提高生產(chǎn)效率、推進(jìn)科學(xué)研究。

      四、“企業(yè)年度工作報(bào)告綜合管控平臺(tái)”對(duì)非結(jié)構(gòu)數(shù)據(jù)化處理的應(yīng)用實(shí)踐

      國(guó)務(wù)院國(guó)有資產(chǎn)監(jiān)督管理委員會(huì)(簡(jiǎn)稱:國(guó)資委)所管理的企業(yè)眾多。全國(guó)約有各級(jí)企業(yè)近3萬(wàn)家。根據(jù)國(guó)資委的管理要求,凡國(guó)資委下屬的、擁有獨(dú)立企業(yè)法人的企業(yè)均需填寫(xiě)《企業(yè)年度工作報(bào)告》,并最終在一級(jí)企業(yè)進(jìn)行匯總后統(tǒng)計(jì)交給國(guó)資委,以備國(guó)資委審查及歸檔。

      企業(yè)年度工作報(bào)告一直以來(lái)以多為MSOffce文件形式的非結(jié)構(gòu)化數(shù)據(jù)存在,每年報(bào)告總量近5000套,每份報(bào)告的字?jǐn)?shù)約在20萬(wàn)字。且均為人工手動(dòng)填寫(xiě),無(wú)法生成格式化的信息數(shù)據(jù),審核及統(tǒng)計(jì)工作也均需人工開(kāi)展,耗費(fèi)了大量人力資源,且上報(bào)的內(nèi)容參差不齊,影響了國(guó)資委對(duì)下屬企業(yè)的掌控與了解。

      針對(duì)上述現(xiàn)狀和管理的實(shí)際需要.國(guó)資委和中國(guó)中鐵組織開(kāi)展了《國(guó)資委企業(yè)年度工作報(bào)告綜合管控云平臺(tái)》課題,其利用云技術(shù)為國(guó)資委及其下屬企業(yè)建設(shè)企業(yè)年報(bào)私有云平臺(tái),國(guó)資委下屬企業(yè)可利用該平臺(tái)實(shí)現(xiàn)企業(yè)年度報(bào)告的任務(wù)劃分、填寫(xiě)、審核、校驗(yàn)、提交、匯總及最終上報(bào)工作,而國(guó)資委及一級(jí)企業(yè)可實(shí)現(xiàn)年報(bào)的匯總、審核、統(tǒng)計(jì)、分析工作;通過(guò)云平臺(tái)的建設(shè),還將形成一個(gè)針對(duì)企業(yè)年報(bào)的大數(shù)據(jù)中心,并利用大數(shù)據(jù)技術(shù)對(duì)這些信息進(jìn)行匯總及智能分析,幫助國(guó)資委更高效的管理審查企業(yè)的經(jīng)營(yíng)情況。

      針對(duì)企業(yè)年度工作報(bào)告的內(nèi)容特點(diǎn)和管理的實(shí)際,“企業(yè)年度工作報(bào)告綜合管控平臺(tái)”在技術(shù)手段上選用了基于大數(shù)據(jù)解析技術(shù)的批量數(shù)據(jù)分析處理技術(shù):

      (一)分析解析,定位有價(jià)值的數(shù)據(jù)信息,明確提取目標(biāo)

      一份年報(bào)少則幾百頁(yè),多則上千頁(yè),而每年所采集到的企業(yè)年報(bào)有上千份.如果對(duì)全部?jī)?nèi)容進(jìn)行精準(zhǔn)解析轉(zhuǎn)換。其工作量相當(dāng)巨大。年報(bào)中的核心信息多為企業(yè)年度資金狀況、財(cái)務(wù)經(jīng)營(yíng)狀況等信息表格,這部分內(nèi)容僅僅占年報(bào)體量的十分之一。因此選擇對(duì)該部分內(nèi)容進(jìn)行重點(diǎn)解析,而其余章節(jié)的內(nèi)容轉(zhuǎn)換為半結(jié)構(gòu)化信息進(jìn)行保存以備后用。這種處理不但讓我們獲取了企業(yè)年報(bào)中的高價(jià)值信息數(shù)據(jù),節(jié)省了后期軟件開(kāi)發(fā)制作的成本,還節(jié)約了大量的工作時(shí)間。

      (二)確立數(shù)據(jù)標(biāo)準(zhǔn),并生成對(duì)應(yīng)的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)模型

      全量數(shù)據(jù)采集需要全量數(shù)據(jù)源。但現(xiàn)實(shí)中很多數(shù)據(jù)源會(huì)帶來(lái)大量低質(zhì)量數(shù)據(jù)。政府及企業(yè)必須要在確立數(shù)據(jù)標(biāo)準(zhǔn)的同時(shí),建設(shè)結(jié)構(gòu)化及半結(jié)構(gòu)化的存儲(chǔ)模型對(duì)獲取的數(shù)據(jù)進(jìn)行存儲(chǔ).并利用數(shù)據(jù)清洗整理技術(shù)消除低質(zhì)量數(shù)據(jù),從而確保通過(guò)BI獲得更佳決策。在企業(yè)年度工作報(bào)告綜合管控平臺(tái)中。每年都會(huì)根據(jù)政策及工作方向的變化來(lái)重新對(duì)年報(bào)內(nèi)容進(jìn)行梳理,重新確定填報(bào)內(nèi)容,并在此基礎(chǔ)上建立準(zhǔn)確、兼容的數(shù)據(jù)規(guī)范標(biāo)準(zhǔn),以確保所采集到的各類信息數(shù)據(jù)的質(zhì)量及準(zhǔn)確性。針對(duì)所采集到的歷年年報(bào)數(shù)據(jù),利用平臺(tái)中的數(shù)據(jù)標(biāo)準(zhǔn)監(jiān)測(cè)工具對(duì)數(shù)據(jù)進(jìn)行全面的監(jiān)測(cè)分析,及時(shí)發(fā)現(xiàn)不合規(guī)的低質(zhì)量數(shù)據(jù)并進(jìn)行有效清洗,確保數(shù)據(jù)的高質(zhì)量。

      (三)利用各類型大數(shù)據(jù)解析工具進(jìn)行核心數(shù)據(jù)提煉存儲(chǔ)

      原有企業(yè)年報(bào)大多為MicrosoftOffice格式,平臺(tái)組選擇了Apache的POI開(kāi)源解析器來(lái)對(duì)企業(yè)年報(bào)信息進(jìn)行提煉。POI提供API給Iava程序?qū)υ摳袷綑n案進(jìn)行讀、寫(xiě)的功能,項(xiàng)目團(tuán)隊(duì)在其基礎(chǔ)之上。利用多線程處理技術(shù)開(kāi)發(fā)了批量年報(bào)解析器,針對(duì)不同年份、不同版本的Office文件均可進(jìn)行信息解析和提取。平臺(tái)利用該套工具對(duì)企業(yè)年報(bào)信息進(jìn)行解析和提煉.并最終形成了企業(yè)年報(bào)信息資源庫(kù)。

      (四)建立科學(xué)的、可持續(xù)發(fā)展的分析模型,并持久的對(duì)其進(jìn)行優(yōu)化改進(jìn)

      在“企業(yè)年度工作報(bào)告綜合管控平臺(tái)”中,根據(jù)規(guī)律建立了包括同質(zhì)企業(yè)經(jīng)營(yíng)比對(duì)模型、企業(yè)經(jīng)營(yíng)分析預(yù)測(cè)模型在內(nèi)的多種智能模型,并不斷對(duì)其進(jìn)行優(yōu)化調(diào)整以確保其準(zhǔn)確性。平臺(tái)也在嘗試建立全新的業(yè)務(wù)分析模型以幫助審計(jì)署更好的對(duì)企業(yè)進(jìn)行監(jiān)管。最終.平臺(tái)將實(shí)現(xiàn)在人工智能、分析預(yù)測(cè)模型的基礎(chǔ)之上,利用大數(shù)據(jù)展現(xiàn)技術(shù)通過(guò)圖形化、格式化的方式展現(xiàn)分析結(jié)果,并支持人工二次分析,讓分析過(guò)程更加高效,結(jié)果更加精準(zhǔn),最大化地挖掘出大數(shù)據(jù)的核心價(jià)值。

      通過(guò)“企業(yè)年度工作報(bào)告綜合管控平臺(tái)”的建設(shè),將數(shù)十年累計(jì)的近8萬(wàn)份報(bào)告、約合160億字的非格式化信息數(shù)據(jù)轉(zhuǎn)換成為了半結(jié)構(gòu)及結(jié)構(gòu)化數(shù)據(jù)。其中含企業(yè)經(jīng)營(yíng)、財(cái)務(wù)、人員、會(huì)議、違紀(jì)、項(xiàng)目等相關(guān)格式化數(shù)據(jù)約1.2億條以及半結(jié)構(gòu)化信息數(shù)據(jù)470G,且這些數(shù)據(jù)正在以每年10%的速度增長(zhǎng)。這些數(shù)據(jù)將為政府管理和企業(yè)決策帶來(lái)重要的支撐。

      五、結(jié)語(yǔ)

      企業(yè)年度工作報(bào)告綜合管控平臺(tái),是對(duì)大數(shù)據(jù)技術(shù)的勇敢探索和實(shí)踐。雖然現(xiàn)階段平臺(tái)本身還不完善,但未來(lái)隨著經(jīng)驗(yàn)的積累提升以及系統(tǒng)的不斷優(yōu)化,它必將進(jìn)發(fā)出大數(shù)據(jù)的核心力量.讓相關(guān)工作開(kāi)展變得更加高效智能。

      猜你喜歡
      處理應(yīng)用
      影響油田污水處理水質(zhì)因素分析
      視頻后期剪輯制作中鏡頭時(shí)長(zhǎng)的處理
      戲劇之家(2016年19期)2016-10-31 18:38:40
      聲樂(lè)演唱中藝術(shù)與情感的深入處理
      戲劇之家(2016年19期)2016-10-31 18:04:18
      東風(fēng)4B型內(nèi)燃機(jī)車C6級(jí)維修后冷卻風(fēng)扇不動(dòng)作原因及解決辦法
      橋梁軟土基礎(chǔ)處理應(yīng)用
      多媒體技術(shù)在小學(xué)語(yǔ)文教學(xué)中的應(yīng)用研究
      考試周刊(2016年76期)2016-10-09 08:45:44
      分析膜技術(shù)及其在電廠水處理中的應(yīng)用
      科技視界(2016年20期)2016-09-29 14:22:00
      GM(1,1)白化微分優(yōu)化方程預(yù)測(cè)模型建模過(guò)程應(yīng)用分析
      科技視界(2016年20期)2016-09-29 12:03:12
      煤礦井下坑道鉆機(jī)人機(jī)工程學(xué)應(yīng)用分析
      科技視界(2016年20期)2016-09-29 11:47:01
      氣體分離提純應(yīng)用變壓吸附技術(shù)的分析
      科技視界(2016年20期)2016-09-29 11:02:20
      无棣县| 曲水县| 江山市| 探索| 丽水市| 江安县| 陇南市| 临泽县| 农安县| 疏勒县| 盘山县| 广河县| 确山县| 寿宁县| 勃利县| 汤原县| 玉田县| 台南县| 泸西县| 万州区| 渝北区| 紫云| 临湘市| 甘谷县| 连云港市| 永泰县| 大同市| 米易县| 湖口县| 龙胜| 涞水县| 尤溪县| 宁化县| 库伦旗| 来安县| 常熟市| 阿拉善右旗| 宾阳县| 景谷| 织金县| 盐山县|