• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    電子檔案財(cái)經(jīng)類數(shù)據(jù)采集和整理淺析

    2015-06-25 10:52:31李艷霞
    檔案管理 2015年4期
    關(guān)鍵詞:數(shù)據(jù)項(xiàng)財(cái)經(jīng)類原始數(shù)據(jù)

    李艷霞

    檔案信息化已經(jīng)成為檔案信息服務(wù)社會(huì)的最佳技術(shù)手段和實(shí)現(xiàn)途徑。如何高效地利用爆炸性增長(zhǎng)的數(shù)字化資源,從錯(cuò)綜復(fù)雜的海量信息中提取出有價(jià)值的信息,已成為檔案工作者的重要任務(wù),數(shù)據(jù)挖掘正是解決這一問題的有力工具。各級(jí)財(cái)政和統(tǒng)計(jì)部門多年來積累了大量的財(cái)經(jīng)類檔案數(shù)據(jù),對(duì)其進(jìn)行數(shù)據(jù)采集和預(yù)處理是進(jìn)一步數(shù)據(jù)挖掘和利用的基礎(chǔ)。由于財(cái)經(jīng)類數(shù)據(jù)不同于一般檔案數(shù)據(jù),因此,在數(shù)據(jù)采集、預(yù)處理工作中必須充分注意其特性,采用相關(guān)技術(shù)才能形成高質(zhì)量的數(shù)據(jù),使數(shù)據(jù)的利用(統(tǒng)計(jì)、數(shù)學(xué)建模、數(shù)據(jù)挖掘)等更加有效。

    1??財(cái)經(jīng)類檔案數(shù)據(jù)的特點(diǎn)

    1.1??數(shù)據(jù)表現(xiàn)形式單一。財(cái)經(jīng)類檔案數(shù)據(jù)主要由指標(biāo)體系和對(duì)應(yīng)的數(shù)字構(gòu)成,主要以表格的形式表現(xiàn),也有一些數(shù)據(jù)出現(xiàn)在各類報(bào)告中。早期的財(cái)經(jīng)類檔案數(shù)據(jù)主要是紙質(zhì)、人工填寫的各類報(bào)表。隨著計(jì)算機(jī)技術(shù)的發(fā)展和計(jì)算機(jī)的廣泛應(yīng)用,財(cái)經(jīng)類檔案數(shù)據(jù)經(jīng)歷了一個(gè)從簡(jiǎn)單的電子表格到數(shù)據(jù)庫應(yīng)用發(fā)展過程。

    1.2??數(shù)據(jù)來源繁雜。財(cái)經(jīng)類檔案數(shù)據(jù)的來源主要是各級(jí)政府部門的統(tǒng)計(jì)、財(cái)政決算、預(yù)算數(shù)據(jù)。由于各個(gè)主管部門都有其自己的數(shù)據(jù)來源,加上指標(biāo)體系、部門劃分等因素隨著社會(huì)經(jīng)濟(jì)發(fā)展不斷調(diào)整,往往造成同一指標(biāo)對(duì)應(yīng)的數(shù)據(jù)不一致,或無法進(jìn)行形成一個(gè)對(duì)應(yīng)的、穩(wěn)定的時(shí)間序列數(shù)據(jù),從而使得數(shù)據(jù)的再利用、再加工(如統(tǒng)計(jì)、趨勢(shì)分析)等工作有較大困難。

    1.3??電子數(shù)據(jù)種類繁多。財(cái)經(jīng)類數(shù)據(jù)在從紙質(zhì)到電子化的過程中,幾乎使用了所有的電子表格和數(shù)據(jù)庫軟件,這些軟件的文件格式、數(shù)據(jù)結(jié)構(gòu)互不相同,數(shù)據(jù)源彼此獨(dú)立且相互封閉,多數(shù)無法兼容。有些軟件由于早已退出市場(chǎng),甚至無法找到能夠使用的版本。這給數(shù)據(jù)采集,特別是歷史數(shù)據(jù)的采集帶來了相當(dāng)大的困難。

    1.4??數(shù)據(jù)之間有嚴(yán)格的平衡關(guān)系和邏輯關(guān)系。財(cái)經(jīng)類數(shù)據(jù)之間一般情況下都有嚴(yán)格的平衡關(guān)系,一套報(bào)表往往要求表內(nèi)數(shù)據(jù)通過單表內(nèi)平衡審核、邏輯審核以及表間平衡和邏輯關(guān)系審核。這使得財(cái)經(jīng)類數(shù)據(jù)的整理、校驗(yàn)有一個(gè)嚴(yán)格的要求,數(shù)據(jù)必須通過所有的平衡、邏輯關(guān)系審核。對(duì)于缺失數(shù)據(jù),往往也不能通過插值等統(tǒng)計(jì)方法補(bǔ)充。

    2??數(shù)據(jù)采集

    數(shù)據(jù)源的質(zhì)量是數(shù)據(jù)挖掘質(zhì)量的最重要因素之一。在原始數(shù)據(jù)的獲取過程中,如何針對(duì)財(cái)經(jīng)類數(shù)據(jù)的特點(diǎn),從源頭盡量減少錯(cuò)誤和誤差,尤為重要。在財(cái)經(jīng)類數(shù)據(jù)采集過程中,必須注意以下幾個(gè)方面。

    2.1??了解原始數(shù)據(jù)屬性及對(duì)應(yīng)的指標(biāo)的確切含義。這是采集原始數(shù)據(jù)的基礎(chǔ)。一些數(shù)據(jù)指標(biāo)經(jīng)歷了不斷調(diào)整的過程,因此,必須首先了解原始數(shù)據(jù)的屬性、結(jié)構(gòu)、準(zhǔn)確含義、包含的范圍以及前后時(shí)間階段的調(diào)整關(guān)系,確定所需要的數(shù)據(jù)項(xiàng)和數(shù)據(jù)提取原則。

    2.2??原始數(shù)據(jù)獲取。財(cái)經(jīng)類數(shù)據(jù)的獲取必須按照嚴(yán)格的操作規(guī)范、使用恰當(dāng)?shù)募夹g(shù)手段來完成。對(duì)于紙質(zhì)報(bào)表類的數(shù)據(jù),可采用電子掃描、OCR識(shí)別的方法獲取原始數(shù)據(jù)。對(duì)于電子類多源異質(zhì)異構(gòu)數(shù)據(jù)的獲取,還要考慮數(shù)據(jù)源的連接和數(shù)據(jù)格式的轉(zhuǎn)換問題,必要時(shí)還需要安裝相應(yīng)的軟硬件平臺(tái)。對(duì)于已退出市場(chǎng)、兼容性差且沒有運(yùn)行平臺(tái)的電子表格或數(shù)據(jù)庫類軟件,則需要編寫相應(yīng)的轉(zhuǎn)換工具從原始數(shù)據(jù)文件中讀出數(shù)據(jù)。

    3??數(shù)據(jù)整理

    數(shù)據(jù)整理是數(shù)據(jù)預(yù)處理過程中最花費(fèi)時(shí)間,但也是最為關(guān)鍵的步驟。一般情況下,獲取的原始數(shù)據(jù)都會(huì)有各類問題或缺陷,在下一步處理之前必須進(jìn)行整理。

    3.1??財(cái)經(jīng)類數(shù)據(jù)的問題類型。對(duì)于財(cái)經(jīng)類數(shù)據(jù)來說,原始數(shù)據(jù)一般有以下幾種情況需要進(jìn)行整理。

    數(shù)據(jù)平衡關(guān)系錯(cuò)誤:主要表現(xiàn)是一套報(bào)表或一個(gè)時(shí)間段內(nèi)的數(shù)據(jù)并無缺失遺漏,但數(shù)據(jù)間的各類平衡關(guān)系、邏輯關(guān)系不滿足。

    數(shù)據(jù)缺失:表現(xiàn)為采集的原始數(shù)據(jù)中出現(xiàn)缺失遺漏,有孤立數(shù)據(jù)缺失和系列數(shù)據(jù)缺失兩種情況。

    數(shù)據(jù)冗余:表現(xiàn)為在一個(gè)時(shí)間段或一個(gè)數(shù)據(jù)序列內(nèi),出現(xiàn)指標(biāo)含義相同、數(shù)據(jù)相同的數(shù)據(jù)項(xiàng),或是指標(biāo)名稱不同但含義相同、數(shù)據(jù)相同的數(shù)據(jù)項(xiàng)。

    數(shù)據(jù)不一致:表現(xiàn)為一個(gè)數(shù)據(jù)序列中出現(xiàn)指標(biāo)名稱相同,數(shù)據(jù)不同或是在一個(gè)時(shí)間段內(nèi)由于數(shù)據(jù)統(tǒng)計(jì)范圍調(diào)整、指標(biāo)含義變化引起的數(shù)據(jù)不一致情況出現(xiàn)。

    3.2??數(shù)據(jù)整理:財(cái)經(jīng)類數(shù)據(jù)的整理按存儲(chǔ)媒介不同(紙質(zhì)和電子)有不同的處理方法?,F(xiàn)存的財(cái)經(jīng)類紙質(zhì)報(bào)表數(shù)據(jù)有人工填寫和計(jì)算機(jī)打印兩種形式。手工填寫的報(bào)表是在印刷好的報(bào)表中手工填寫數(shù)據(jù),由人工審核平衡關(guān)系,往往錯(cuò)誤較多。計(jì)算機(jī)打印紙質(zhì)報(bào)表一般是采用電子表格軟件或數(shù)據(jù)庫類軟件填寫數(shù)據(jù),通過數(shù)據(jù)平衡審核后打印出報(bào)表。對(duì)于早期的數(shù)據(jù)庫應(yīng)用,由于原有軟件早已不再使用、數(shù)據(jù)組織結(jié)構(gòu)不清楚,無法重現(xiàn)軟硬件環(huán)境,只能通過原打印的報(bào)表獲取數(shù)據(jù)。

    初始獲得的數(shù)據(jù)根據(jù)實(shí)際情況可采用以下的技術(shù)手段進(jìn)行整理。

    (1)數(shù)據(jù)平衡關(guān)系錯(cuò)誤。對(duì)于此類錯(cuò)誤,關(guān)鍵是要找出平衡關(guān)系中錯(cuò)誤的數(shù)據(jù)項(xiàng)加以修改。一般情況下,以一套報(bào)表中的其他報(bào)表或同時(shí)期的其他數(shù)據(jù)作參考,首先確定正確的數(shù)據(jù)項(xiàng)和錯(cuò)誤數(shù)據(jù)項(xiàng)的位置,例如確定是合計(jì)數(shù)據(jù)錯(cuò)誤還是分項(xiàng)數(shù)據(jù)錯(cuò)誤。然后,通過倒推的方法,確定數(shù)據(jù)平衡關(guān)系中錯(cuò)誤數(shù)據(jù)應(yīng)有的值加以改正。實(shí)際操作中,這種做法要慎之又慎,每一步都要留有記錄供隨時(shí)回到上一步狀態(tài),以免引起更大錯(cuò)誤出現(xiàn)。

    (2)數(shù)據(jù)缺失錯(cuò)誤。數(shù)據(jù)缺失錯(cuò)誤主要原因是由于時(shí)間因素引起的報(bào)表數(shù)據(jù)項(xiàng)丟失,有紙質(zhì)報(bào)表數(shù)據(jù)缺失和電子報(bào)表數(shù)據(jù)缺失兩種情況。紙質(zhì)報(bào)表數(shù)據(jù)缺失一般由于保管不善引起報(bào)表缺頁或表內(nèi)數(shù)據(jù)不清,無法識(shí)別;電子類數(shù)據(jù)缺失一般是由于電子文件讀取錯(cuò)誤引起。紙質(zhì)報(bào)表數(shù)據(jù)缺失如果出現(xiàn)整套報(bào)表中某表缺失,補(bǔ)充數(shù)據(jù)相當(dāng)困難,一般采用以下步驟進(jìn)行:首先需要根據(jù)整套報(bào)表中各表間的對(duì)應(yīng)關(guān)系確定和其他表有關(guān)聯(lián)的數(shù)據(jù)項(xiàng),第二步參考數(shù)據(jù)平衡關(guān)系錯(cuò)誤整理的方法對(duì)表內(nèi)缺失數(shù)據(jù)進(jìn)行填補(bǔ);表內(nèi)數(shù)據(jù)不清,無法識(shí)別的錯(cuò)誤根據(jù)數(shù)據(jù)平衡關(guān)系一般可以確定。電子類數(shù)據(jù)缺失主要由于原保存在存儲(chǔ)介質(zhì)(如軟盤、備份用硬盤、數(shù)據(jù)光盤等)上的備份數(shù)據(jù)文件無法讀出引起,此時(shí)切記不能在存儲(chǔ)介質(zhì)進(jìn)行文件拷貝、創(chuàng)建新文件等寫操作,首先要用數(shù)據(jù)恢復(fù)工具將存儲(chǔ)介質(zhì)的數(shù)據(jù)文件進(jìn)行恢復(fù),盡可能減少缺失部分。對(duì)無法恢復(fù)的數(shù)據(jù)造成的數(shù)據(jù)缺失,再參照紙質(zhì)報(bào)表數(shù)據(jù)缺失處理方法進(jìn)行處理。

    ⑶數(shù)據(jù)冗余。財(cái)經(jīng)類檔案數(shù)據(jù)的數(shù)據(jù)冗余一般是指同一指標(biāo)的數(shù)據(jù)出現(xiàn)多次。由于報(bào)表側(cè)重不同,一套報(bào)表中各表頁之間多有重復(fù)數(shù)據(jù)出現(xiàn)。對(duì)于此類問題,在數(shù)據(jù)整理中需要將冗余數(shù)據(jù)標(biāo)定,以便在下一步構(gòu)建數(shù)據(jù)庫時(shí)進(jìn)行篩選。但是要特別注意的是,表中可能含有數(shù)據(jù)項(xiàng)指標(biāo)類似但含義不同的數(shù)據(jù),在標(biāo)定冗余數(shù)據(jù)時(shí),一般需要在一套報(bào)表或原始數(shù)據(jù)庫中確定,哪些數(shù)據(jù)是基礎(chǔ)數(shù)據(jù),哪些是摘抄來的數(shù)據(jù),對(duì)于后者可標(biāo)定為冗余數(shù)據(jù)。

    ⑷數(shù)據(jù)不一致錯(cuò)誤。此類錯(cuò)誤是財(cái)經(jīng)類檔案數(shù)據(jù)中最難解決的錯(cuò)誤,由于指標(biāo)體系中歷史數(shù)據(jù)無法對(duì)應(yīng),從而造成數(shù)據(jù)分析、趨勢(shì)預(yù)測(cè)等工作無法進(jìn)行。引起這類錯(cuò)誤主要有兩個(gè)原因。一是因?yàn)殡S著經(jīng)濟(jì)的發(fā)展,原有指標(biāo)體系調(diào)整,一些指標(biāo)取消或合并,一些新的指標(biāo)出現(xiàn);二是行政區(qū)劃、部門歸屬改變?cè)斐赡巢块T、某地區(qū)包含范圍改變引起數(shù)據(jù)不能對(duì)應(yīng)。這類問題的解決方法是將數(shù)據(jù)分解,將所有數(shù)據(jù)分解到底層統(tǒng)計(jì)單元(指標(biāo)或單位)后,按照現(xiàn)行指標(biāo)體系、管理范圍或行政區(qū)劃重新組合。對(duì)于無法分解的數(shù)據(jù),可采取統(tǒng)計(jì)方法進(jìn)行估算,如采取歷史數(shù)據(jù)中所占比例或插值算法進(jìn)行計(jì)算,將數(shù)據(jù)進(jìn)行分解。但此類估算數(shù)據(jù)必須嚴(yán)格控制,關(guān)鍵數(shù)據(jù)還應(yīng)結(jié)合其他歷史同期資料加以佐證。

    ⑸在數(shù)據(jù)整理過程中,有四點(diǎn)需要特別注意。一是在數(shù)據(jù)整理過程中注意和財(cái)經(jīng)方面的專家進(jìn)行有效合作。二是一般情況下,報(bào)表系統(tǒng)軟件環(huán)境中會(huì)包含有大量的邏輯審核公式,如原有的軟件環(huán)境仍可重建,電子類數(shù)據(jù)缺失補(bǔ)充或錯(cuò)誤改正應(yīng)在原系統(tǒng)中進(jìn)行,這樣可以有效地減少工作量并提高數(shù)據(jù)準(zhǔn)確性。對(duì)于紙質(zhì)類數(shù)據(jù),也可借助計(jì)算機(jī)電子表格類軟件,在其中建立對(duì)應(yīng)邏輯審核關(guān)系,將紙質(zhì)數(shù)據(jù)輸入到計(jì)算機(jī)中進(jìn)行審核、修改,這樣可大大提高效率。三是財(cái)經(jīng)類數(shù)據(jù)的整理是一個(gè)十分繁瑣的工作,必須有極大的耐心確保數(shù)據(jù)準(zhǔn)確,如果數(shù)據(jù)有誤,整理出來的檔案數(shù)據(jù)便失去了使用價(jià)值或引起負(fù)面作用。四是對(duì)刪除、修改、估算的數(shù)據(jù)必須作備注說明,建立數(shù)據(jù)修改檔案以備查用。

    4??結(jié)語

    在數(shù)據(jù)采集整理的實(shí)際過程中,上述步驟并不是截然分開。很多情況下需要四個(gè)步驟反復(fù)進(jìn)行,或多種方法同時(shí)應(yīng)用以獲得準(zhǔn)確數(shù)據(jù),處理過程中應(yīng)該針對(duì)具體問題詳細(xì)分析后選擇合適的技術(shù)和方法,同時(shí)要注意和同期的其他檔案資料,如文字性資料、各類報(bào)告等中的數(shù)據(jù)進(jìn)行核對(duì),如各類來源的數(shù)據(jù)差別較大,則有必要考慮對(duì)數(shù)據(jù)進(jìn)行二次整理。

    數(shù)據(jù)整理完成后,需將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)(數(shù)據(jù)庫、數(shù)據(jù)立方體或一般文件)結(jié)合起來存放到一個(gè)一致的數(shù)據(jù)存儲(chǔ)中,進(jìn)行數(shù)據(jù)集成和融合工作。由于篇幅有限,將另有專文探討。

    *本文為河南省軟科學(xué)研究項(xiàng)目“非結(jié)構(gòu)化數(shù)據(jù)在電子檔案中的應(yīng)用研究”(142400411042)基金項(xiàng)目。

    (作者單位:中原工學(xué)院??來稿日期:2015-04-16)

    猜你喜歡
    數(shù)據(jù)項(xiàng)財(cái)經(jīng)類原始數(shù)據(jù)
    GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
    受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
    一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
    甘肅科技(2020年19期)2020-03-11 09:42:42
    非完整數(shù)據(jù)庫Skyline-join查詢*
    基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實(shí)現(xiàn)
    “雙平臺(tái)嵌入式”的“糧味”財(cái)經(jīng)類專業(yè)人才培養(yǎng)模式創(chuàng)新與實(shí)踐
    全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
    汽車零部件(2017年4期)2017-07-12 17:05:53
    貼近生活的商業(yè)財(cái)經(jīng)類期刊
    財(cái)經(jīng)類MBA院校案例研發(fā)隊(duì)伍建設(shè)研究
    財(cái)經(jīng)類院校概率論與數(shù)理統(tǒng)計(jì)教學(xué)改革的探索
    河南科技(2014年10期)2014-02-27 14:09:37
    松溪县| 确山县| 万年县| 仪征市| 山东| 绥宁县| 巩留县| 宁都县| 武威市| 久治县| 芜湖县| 前郭尔| 乌兰察布市| 米林县| 海南省| 吉林省| 威远县| 革吉县| 门头沟区| 宁阳县| 涡阳县| 沈丘县| 南木林县| 开原市| 商河县| 汽车| 永福县| 绥棱县| 浪卡子县| 拉萨市| 建德市| 河北省| 武山县| 顺平县| 方城县| 琼海市| 九台市| 富蕴县| 海兴县| 微山县| 石渠县|