• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于工作流的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型構(gòu)建

    2021-12-03 08:51:34李丹丹張玉堯鄭國清
    河南農(nóng)業(yè)科學(xué) 2021年10期
    關(guān)鍵詞:年鑒單元格計(jì)量單位

    張 輝,魏 東,喬 璐,李丹丹,張玉堯,鄭國清,馮 曉

    (1. 河南省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與信息研究所,河南鄭州 450002;2. 河南省智慧農(nóng)業(yè)工程技術(shù)研究中心,河南鄭州 450002)

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)清洗逐漸成為各行各業(yè)數(shù)據(jù)治理中面臨的重要工作[1?4]。統(tǒng)計(jì)年鑒是我國重要的基礎(chǔ)性數(shù)據(jù)資源,涉及眾多行業(yè)和領(lǐng)域,具有權(quán)威性和廣泛性。農(nóng)業(yè)領(lǐng)域宏觀決策及科學(xué)研究往往需要大量多種類統(tǒng)計(jì)年鑒數(shù)據(jù)作為支撐[5?8]。然而,各種類統(tǒng)計(jì)年鑒分年度獨(dú)立成冊,經(jīng)多年積累,具有體量大、文件格式多樣、指標(biāo)名稱不一致等特征,提取跨年鑒、跨年度、多指標(biāo)數(shù)據(jù)工作量大且繁瑣,嚴(yán)重阻礙了統(tǒng)計(jì)年鑒的分析利用效率。目前,運(yùn)用大數(shù)據(jù)理念實(shí)現(xiàn)統(tǒng)計(jì)年鑒傳統(tǒng)功能的突破和拓展已成為年鑒工作者的共識[9?10],數(shù)據(jù)清洗在其中扮演了關(guān)鍵角色。將分散的多年、多種類統(tǒng)計(jì)年鑒數(shù)據(jù)清洗整合成1 套高標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)集,以實(shí)現(xiàn)綜合快速查詢,對于提升統(tǒng)計(jì)年鑒分析利用效率具有重要作用。

    國內(nèi)外很多學(xué)者對結(jié)構(gòu)化數(shù)據(jù)清洗技術(shù)開展了研究,郝爽等[11]深入總結(jié)了數(shù)據(jù)缺失、數(shù)據(jù)冗余、數(shù)據(jù)沖突、數(shù)據(jù)錯誤等數(shù)據(jù)噪音的檢測及消除技術(shù)研究進(jìn)展,已有研究成果表明,統(tǒng)計(jì)年鑒數(shù)據(jù)清洗已具備技術(shù)基礎(chǔ)。但是,統(tǒng)計(jì)年鑒數(shù)據(jù)的清洗涉及多類數(shù)據(jù)噪音的檢測及消除,并需經(jīng)過一系列數(shù)據(jù)抽取、轉(zhuǎn)換、比對,過程繁雜。采用流程化集成清洗是完成過程繁雜清洗任務(wù)的有效手段。工作流建模技術(shù)是實(shí)現(xiàn)業(yè)務(wù)流程優(yōu)化和整合,提高工作效率的核心技術(shù)[12],在網(wǎng)絡(luò)安全漏洞管理[13]、建筑市場監(jiān)管[14]、工業(yè)設(shè)計(jì)過程管理[15]、ERP 實(shí)施流程和業(yè)務(wù)管理[16]等眾多領(lǐng)域得到了成功應(yīng)用。武小平等[17]使用JavaEE 的分層模式和組件技術(shù)構(gòu)建了一個基于工作流程的通用、可擴(kuò)展的數(shù)據(jù)清洗系統(tǒng),但該系統(tǒng)通過編程實(shí)現(xiàn),技術(shù)門檻高。近年來,OpenRefine、Trifacta Wrangler、DataKleenr、Alteryx、KNIME、Rapid Miner、Weka 等非編程式可視化數(shù)據(jù)清洗、挖掘軟件的出現(xiàn),使得不懂編程的業(yè)務(wù)人員零代碼完成數(shù)據(jù)清洗成為可能。其中,OpenRefine、Trifacta Wrangler、DataKleenr 功能較為單一,完成復(fù)雜的數(shù)據(jù)清洗任務(wù)需聯(lián)合多個軟件;Alteryx、KNIME、Rapid Miner、Weka 為綜合型數(shù)據(jù)自助分析平臺,可完成數(shù)據(jù)清洗、挖掘、分析、可視化展示等全過程[18?19]?;谝陨戏治?,提出采用Alteryx 建立基于工作流的數(shù)據(jù)清洗模型的方案清洗統(tǒng)計(jì)年鑒數(shù)據(jù)。

    《中國統(tǒng)計(jì)年鑒》及《河南統(tǒng)計(jì)年鑒》等全國31個?。ㄊ?、區(qū))統(tǒng)計(jì)年鑒是我國最全面、最具權(quán)威性的綜合統(tǒng)計(jì)年鑒,全面反映全國及各省(市、區(qū))經(jīng)濟(jì)和社會發(fā)展情況,被農(nóng)業(yè)領(lǐng)域研究人員廣泛引用。鑒于此,以2000—2018 年上述統(tǒng)計(jì)年鑒為例,研究基于工作流的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型構(gòu)建方法,以期實(shí)現(xiàn)統(tǒng)計(jì)年鑒數(shù)據(jù)的高效整合,并為其他各類復(fù)雜數(shù)值類型結(jié)構(gòu)化數(shù)據(jù)的清洗提供參考。

    1 材料和方法

    1.1 數(shù)據(jù)來源及預(yù)處理

    通過統(tǒng)計(jì)局官網(wǎng)下載、購買等方式收集2000—2018 年《中國統(tǒng)計(jì)年鑒》及《河南統(tǒng)計(jì)年鑒》等全國31 個?。ㄊ小^(qū))統(tǒng)計(jì)年鑒。年鑒數(shù)據(jù)整體情況如下:(1)數(shù)據(jù)體量大。包含33 萬個文件、120 萬張表單,總?cè)萘窟_(dá)21 GB。(2)數(shù)據(jù)更新速度快。每年新增6 萬多張表單。(3)數(shù)據(jù)格式多樣。包含html、xml、xls、xlsx、pdf 等多種格式。(4)文件呈現(xiàn)形式不確定。每個文件包含單張或多張表單,每張表單也可能由單張或多張表組成,例如從河南省統(tǒng)計(jì)局官網(wǎng)下載《河南統(tǒng)計(jì)年鑒(2017)》中“表7-13 河南與國外結(jié)成友好城市一覽表”得到的“0713.xls”文件中包含了1 張表單“Sheet1”,“Sheet1”由左右排列的2張表組成。為便于清洗,采用開源的第三方工具DocToText 和基于Visual Basic 的腳本語言(Microsoft Visual Basic Script Edition,VBS)編程的方式將統(tǒng)計(jì)年鑒原始文件批量轉(zhuǎn)換成xlsx 格式,按省份和年度分類存放于統(tǒng)一目錄。

    1.2 數(shù)據(jù)特征分析

    《中國統(tǒng)計(jì)年鑒》與各?。ㄊ小^(qū))統(tǒng)計(jì)年鑒存在整體架構(gòu)、統(tǒng)計(jì)口徑及數(shù)據(jù)不一致等問題;不同?。ㄊ?、區(qū))統(tǒng)計(jì)年鑒,也存在內(nèi)容設(shè)置、整體架構(gòu)、統(tǒng)計(jì)專題、指標(biāo)內(nèi)容不一致等問題[20]。隨著經(jīng)濟(jì)社會發(fā)展變化,同一年鑒不同年度部分統(tǒng)計(jì)指標(biāo)也發(fā)生了變遷[21]。正確解讀統(tǒng)計(jì)年鑒內(nèi)容架構(gòu)[22]、主體分類[23]、指標(biāo)體系[24]等特征是做好統(tǒng)計(jì)年鑒數(shù)據(jù)清洗工作的前提。另外,統(tǒng)計(jì)年鑒還具有如下特征:指標(biāo)數(shù)值有整數(shù)、科學(xué)計(jì)數(shù)、小數(shù)、分?jǐn)?shù)、比值、字符等多種類型;不同年度、不同種類年鑒同一指標(biāo)的計(jì)量單位可能存在不一致現(xiàn)象;指標(biāo)在時間上包含年鑒年度、統(tǒng)計(jì)年度、指標(biāo)期間、月份數(shù)據(jù)等各種類型;指標(biāo)在空間上除按全國和各省、自治區(qū)、直轄市、市(縣)分組外,還有按東、中、西部及東北地區(qū)分組,按京津冀及長江經(jīng)濟(jì)帶分組等多種分組方式。經(jīng)分析,統(tǒng)計(jì)年鑒數(shù)據(jù)可通過指標(biāo)名稱、計(jì)量單位、指標(biāo)數(shù)值、時間特征、空間特征和數(shù)據(jù)來源6個維度來規(guī)范標(biāo)識。

    對單表數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)范化處理及提取是統(tǒng)計(jì)年鑒數(shù)據(jù)清洗的關(guān)鍵。統(tǒng)計(jì)年鑒典型單表如圖1所示,依據(jù)圖1 中的十字線可將單表拆分為4 個區(qū)域。左上部分為表指標(biāo)區(qū)域,通常包含表名稱、表年度、表單位、表計(jì)算方法、表空間;左下部分為行指標(biāo)區(qū)域,通常包含行名稱、行單位、行年度、行計(jì)算方法、行空間;右上部分為列指標(biāo)區(qū)域,通常包含列名稱、列單位、列年度、列計(jì)算方法、列空間。從以上3 個區(qū)域提取指標(biāo)名稱、計(jì)量單位及數(shù)據(jù)對應(yīng)的時間和空間特征。右下部分為數(shù)值區(qū)域,提取指標(biāo)數(shù)值。

    圖1 《河南統(tǒng)計(jì)年鑒(2013)》典型單表示例Fig.1 Typical sigle table example in Henan Statistical Yearbook(2013)

    指標(biāo)名稱提取較為復(fù)雜,通常涉及到行指標(biāo)、列指標(biāo)甚至表指標(biāo)信息。如《中國統(tǒng)計(jì)年鑒(2017)》中“12—4 主要農(nóng)業(yè)機(jī)械擁有量(年底數(shù))”的指標(biāo)名稱來自行指標(biāo),并被拆分在多個單元格中;“20—18 按國際標(biāo)準(zhǔn)分類的發(fā)明和實(shí)用新型專利申請受理數(shù)與授權(quán)數(shù)”的指標(biāo)名稱需要將表指標(biāo)、行指標(biāo)和列指標(biāo)組合后形成。同一指標(biāo)名稱在不同表中的提取方式也有所不同。如《中國統(tǒng)計(jì)年鑒(2017)》中“12—1 農(nóng)業(yè)生產(chǎn)條件與農(nóng)作物播種面積”和“12—4主要農(nóng)業(yè)機(jī)械擁有量(年底數(shù))”的“大中型拖拉機(jī)”“大中型拖拉機(jī)配套農(nóng)具”等指標(biāo)名稱需分別在行指標(biāo)和列指標(biāo)中提取。不同年度年鑒中同一指標(biāo)名稱的表述也可能不一致。如《中國統(tǒng)計(jì)年鑒(2017)》中“1—2 國民經(jīng)濟(jì)和社會發(fā)展總量與速度指標(biāo)”的指標(biāo)名稱“總?cè)丝冢昴薄俺擎?zhèn)人口”“就業(yè)人員數(shù)”分別等同《中國統(tǒng)計(jì)年鑒(2001)》中“2—3 國民經(jīng)濟(jì)和社會發(fā)展總量與速度指標(biāo)”的指標(biāo)名稱“年底總?cè)丝凇薄笆墟?zhèn)人口”“從業(yè)人員數(shù)”。除上述情況外,還有其他特殊情況導(dǎo)致指標(biāo)名稱提取復(fù)雜。

    1.3 數(shù)據(jù)清洗模型構(gòu)建

    在分析統(tǒng)計(jì)年鑒數(shù)據(jù)特征后,采用Alteryx Designer 2019.2 學(xué)習(xí)版,基于工作流技術(shù)構(gòu)建統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型。Alteryx Designer 的基本工作原理是將數(shù)據(jù)處理過程工具化,將輸入、轉(zhuǎn)換、取樣、模型、匹配、評估、驗(yàn)證、導(dǎo)出等數(shù)據(jù)清洗過程通過其內(nèi)置工具或自定義宏采用流的方式關(guān)聯(lián)起來,實(shí)現(xiàn)數(shù)據(jù)清洗全過程自動化。本研究構(gòu)建的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型如圖2所示。模型包含提取目錄及文件、提取文件中的表單、提取表單中表的內(nèi)容、數(shù)據(jù)清洗及規(guī)范、規(guī)范標(biāo)識數(shù)據(jù)的6個維度、數(shù)據(jù)重組和數(shù)據(jù)輸出共7個步驟。

    圖2 統(tǒng)計(jì)年鑒數(shù)據(jù)清洗工作流模型Fig.2 Workflow model of statistical yearbook data cleaning

    模型建立匹配數(shù)據(jù)字典對統(tǒng)計(jì)年鑒中指標(biāo)名稱、計(jì)量單位及空間區(qū)域表述等不一致問題進(jìn)行了規(guī)范。為實(shí)現(xiàn)數(shù)據(jù)清洗全過程可追溯,模型所有中間步驟及最終清洗結(jié)果均記錄了每條數(shù)據(jù)的文件及表單來源,所在表的行、列等原始信息,建模中可隨時對各階段清洗結(jié)果進(jìn)行驗(yàn)證。為提高數(shù)據(jù)清洗效率,將提取目錄及文件等重復(fù)流程制作成自定義宏,進(jìn)行循環(huán)調(diào)用。

    1.4 數(shù)據(jù)質(zhì)量控制

    1.4.1 重復(fù)指標(biāo)數(shù)據(jù)處理 對于指標(biāo)數(shù)值一致的重復(fù)數(shù)據(jù)刪除重復(fù)即可,對于指標(biāo)數(shù)值不一致的重復(fù)數(shù)據(jù),取值規(guī)則為:(1)出版時間不同,取最新版年鑒的指標(biāo)數(shù)值。(2)同期出版,取高級別年鑒的指標(biāo)數(shù)值。(3)有修訂說明,取修訂后年鑒的指標(biāo)數(shù)值。(4)重復(fù)多次,取出現(xiàn)次數(shù)最多的指標(biāo)數(shù)值。(5)有多個不同指標(biāo)數(shù)值,指標(biāo)數(shù)值取中位數(shù)。

    1.4.2 數(shù)據(jù)清洗質(zhì)量驗(yàn)證 從以下3個方面對數(shù)據(jù)清洗質(zhì)量進(jìn)行驗(yàn)證:(1)模型構(gòu)建過程中的隨機(jī)驗(yàn)證。隨機(jī)驗(yàn)證數(shù)據(jù)清洗階段性成果的正確性及匹配數(shù)據(jù)字典設(shè)置的全面性,隨時修改模型及完善匹配數(shù)據(jù)字典,及時避免錯誤發(fā)生。(2)最終清洗結(jié)果的單指標(biāo)驗(yàn)證。在最終清洗結(jié)果中選擇單個指標(biāo)名稱,從時間和空間2 個維度對統(tǒng)一計(jì)量單位后的指標(biāo)數(shù)值進(jìn)行時序比較驗(yàn)證。如指標(biāo)數(shù)值序列通常隨時間呈規(guī)律性變化,若某一指標(biāo)數(shù)值某年度發(fā)生超出正常范圍的突變,則追溯檢查該指標(biāo)數(shù)值出現(xiàn)質(zhì)量問題的原因,從而修正完善模型。(3)最終清洗結(jié)果中關(guān)聯(lián)關(guān)系指標(biāo)的驗(yàn)證。如人均國民生產(chǎn)總值與國民生產(chǎn)總值和常住人口之間具有關(guān)聯(lián)關(guān)系,當(dāng)由國民生產(chǎn)總值和常住人口計(jì)算得到的人均國民生產(chǎn)總值與清洗提取的人均國民生產(chǎn)總值差距較大時,則需追溯檢查這3 個指標(biāo)數(shù)據(jù)出現(xiàn)偏差或錯誤的原因。

    2 統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型構(gòu)建關(guān)鍵技術(shù)實(shí)現(xiàn)及結(jié)果分析

    2.1 單表數(shù)據(jù)分區(qū)拆分

    單表數(shù)據(jù)分區(qū)拆分的關(guān)鍵是標(biāo)識出數(shù)值區(qū)域,如圖1中十字線右下角第1個數(shù)字(284 152)對應(yīng)的單元格為數(shù)值區(qū)域的起始單元格,即表4 個區(qū)域拆分點(diǎn)所在單元格。單表分區(qū)拆分流程如圖3 所示。首先,提取單表數(shù)據(jù),新增2列用于標(biāo)識表中每個單元格數(shù)據(jù)對應(yīng)的行列序號。然后,取第1 個數(shù)值所在單元格作為初始拆分點(diǎn)進(jìn)行拆分,定位數(shù)值區(qū)域每個單元格數(shù)值對應(yīng)的行和列屬性,將2 維矩陣表按行和列轉(zhuǎn)置為1維表來表達(dá)每個數(shù)值與其對應(yīng)行區(qū)域和列區(qū)域的關(guān)系(圖4)。轉(zhuǎn)置的同時,新增1列對單元格中的數(shù)值進(jìn)行字符轉(zhuǎn)數(shù)值再轉(zhuǎn)字符操作,若新增列值與單元格中的數(shù)值相同,則此單元格中數(shù)值為有效數(shù)值,否則為非數(shù)值區(qū)域數(shù)據(jù)。另外,為區(qū)分行指標(biāo)區(qū)域和列指標(biāo)區(qū)域出現(xiàn)的數(shù)值為年度信息還是指標(biāo)數(shù)值,還需判別整行及整列的數(shù)值是否全在1900—2020內(nèi),若是則標(biāo)識該行或列為年度信息,否則標(biāo)識為指標(biāo)數(shù)值。最后,依據(jù)最終獲取的數(shù)值區(qū)域的行最小值和列最小值所對應(yīng)的單元格作為拆分點(diǎn),將單表拆分為表指標(biāo)、列指標(biāo)、行指標(biāo)、數(shù)值區(qū)域四部分。

    圖3 單表分區(qū)拆分流程Fig.3 Partitioning process of single table

    圖4 單表數(shù)據(jù)矩陣轉(zhuǎn)置Fig.4 Data matrix transposition of single table

    2.2 單表數(shù)據(jù)分區(qū)提取

    首先,提取表指標(biāo)區(qū)域數(shù)據(jù),提取流程如圖5所示。使用正則表達(dá)式(表|d+-d+.*)提取“以數(shù)字開頭+中文”或“表+數(shù)字+中文”的表名稱信息為table_name 列,表名稱中通常含有指標(biāo)名稱、指標(biāo)年度、指標(biāo)所屬區(qū)域等信息。使用正則表達(dá)式(19|20d{2})提取年度信息為table_year 列;使用正則表達(dá)式((?<=單位:).*)提取計(jì)量單位信息為table_unit列。

    圖5 單表表指標(biāo)區(qū)域數(shù)據(jù)提取流程Fig.5 Table indicator regional data extraction process of single table

    其次,提取行、列指標(biāo)區(qū)域數(shù)據(jù)。以列指標(biāo)區(qū)域數(shù)據(jù)提取為例,因列指標(biāo)信息通常分散于同一列的不同行單元格內(nèi),要先將同一列不同行的單元格數(shù)據(jù)進(jìn)行合并,提取列名稱信息為col_name 列;再用正則表達(dá)式提取列年度信息為col_year 列、列計(jì)量單位信息為col_unit 列,若無這些信息則輸出空值null。類似,提取行名稱信息row_name 列、行年度信息row_year列、行計(jì)量單位信息row_unit列。

    最后,以文件名FileName 為關(guān)鍵列,對表指標(biāo)區(qū)域、行指標(biāo)區(qū)域和列指標(biāo)區(qū)域數(shù)據(jù)進(jìn)行交集處理。合并table_name、col_name 和row_name 列為con_name 列,合并table_year、col_year 和row_year 列為con_year 列,合并table_unit、col_unit 和row_unit列為con_unit 列。 再以con_name、con_year 和con_unit 列為關(guān)鍵列與數(shù)值區(qū)域進(jìn)行交集運(yùn)算,初步完成單表提取。圖6為年鑒單表數(shù)據(jù)提取流程。

    2.3 制作單表數(shù)據(jù)提取宏批量提取單表數(shù)據(jù)

    鑒于單表數(shù)據(jù)提取方法基本一致,將單表數(shù)據(jù)提取流程制作成自定義宏,即可將所有類似單表通過循環(huán)調(diào)用宏的方式進(jìn)行數(shù)據(jù)批量提取及合并輸出。圖7為年鑒單表數(shù)據(jù)提取宏的工作流程。為節(jié)約時間,可先隨機(jī)提取33萬個原始文件中的1%,利用制作的宏提取數(shù)據(jù)后追溯驗(yàn)證并修正宏,之后再進(jìn)行所有單表數(shù)據(jù)的正式提取。圖8為隨機(jī)抽取文件循環(huán)調(diào)用宏批量提取單表數(shù)據(jù)的流程。

    圖7 單表數(shù)據(jù)提取宏Fig.7 Data extraction macro of single table

    圖8 隨機(jī)抽取文件循環(huán)調(diào)用宏批量提取單表數(shù)據(jù)Fig.8 Randomly extracting file and recycling macro to extract data of single table

    2.4 建立匹配數(shù)據(jù)字典規(guī)范標(biāo)識數(shù)據(jù)

    2.4.1 指標(biāo)名稱匹配數(shù)據(jù)字典 鑒于不同年度、不同年鑒統(tǒng)計(jì)指標(biāo)名稱表述上略有差別,建立指標(biāo)名稱匹配數(shù)據(jù)字典進(jìn)行規(guī)范(表1)。如將國民生產(chǎn)總值、國內(nèi)生產(chǎn)總值、GDP統(tǒng)一規(guī)范為國民生產(chǎn)總值。

    表1 指標(biāo)名稱匹配數(shù)據(jù)字典(部分內(nèi)容)Tab.1 Indicator name matching data dictionary(partial contents)

    2.4.2 計(jì)量單位匹配數(shù)據(jù)字典 為統(tǒng)一指標(biāo)計(jì)量單位,以基本計(jì)量單位作為清洗后的計(jì)量單位,按照計(jì)量單位與基本計(jì)量單位的換算系數(shù),建立計(jì)量單位匹配數(shù)據(jù)字典進(jìn)行規(guī)范(表2)。如某指標(biāo)計(jì)量單位在某些年度為萬元,而在另一些年度為億元,將基本計(jì)量單位設(shè)置為元,則換算系數(shù)分別是10 000和100 000 000。

    表2 計(jì)量單位匹配數(shù)據(jù)字典(部分內(nèi)容)Tab.2 Measurement unit matching data dictionary(partial contents)

    2.4.3 空間區(qū)域名稱匹配數(shù)據(jù)字典 為統(tǒng)一年鑒空間區(qū)域名稱,建立空間區(qū)域名稱匹配數(shù)據(jù)字典進(jìn)行規(guī)范(表3)。如將內(nèi)蒙、內(nèi)蒙古、內(nèi)蒙古自治區(qū)、內(nèi)蒙自治區(qū)、蒙統(tǒng)一規(guī)范為內(nèi)蒙古自治區(qū)。

    表3 空間區(qū)域名稱匹配數(shù)據(jù)字典(部分內(nèi)容)Tab.3 Spatial region name matching data dictionary(partial contents)

    2.4.4 利用匹配數(shù)據(jù)字典規(guī)范標(biāo)識數(shù)據(jù) 圖9為利用匹配數(shù)據(jù)字典規(guī)范標(biāo)識數(shù)據(jù)的流程。在用匹配數(shù)據(jù)字典對提取的原始數(shù)據(jù)進(jìn)行匹配前,要先對數(shù)據(jù)進(jìn)行預(yù)處理,其中,主要包括將所有全角字符轉(zhuǎn)換為半角,去掉所有空格和非法字符(如換行符、回車符)等。

    圖9 利用匹配數(shù)據(jù)字典規(guī)范標(biāo)識數(shù)據(jù)Fig.9 Identifying data by matching data dictionary

    2.5 年鑒清洗結(jié)果

    利用構(gòu)建的數(shù)據(jù)清洗模型將本研究中分散獲取的容量達(dá)21 GB、包含33 萬個文件和120 萬張表單的統(tǒng)計(jì)年鑒原始數(shù)據(jù)最終整合成1 套包含6 000多萬條指標(biāo)數(shù)據(jù)序列的高標(biāo)準(zhǔn)規(guī)范數(shù)據(jù)集。每條指標(biāo)數(shù)據(jù)都清楚地由指標(biāo)名稱、計(jì)量單位、指標(biāo)數(shù)值等6個維度標(biāo)識,實(shí)現(xiàn)了不同年度、不同年鑒數(shù)據(jù)的綜合快速查詢。圖10 為最終輸出的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗結(jié)果。采用Win10 操作系統(tǒng),16 GB 內(nèi)存的筆記本電腦,構(gòu)建的基于工作流的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型,用時4~5 h 即完成本研究中統(tǒng)計(jì)年鑒數(shù)據(jù)清洗任務(wù),高效便捷。

    圖10 統(tǒng)計(jì)年鑒數(shù)據(jù)最終清洗結(jié)果Fig.10 Final cleaning results of statistical yearbook data

    3 結(jié)論與討論

    目前,對多年度、多種類統(tǒng)計(jì)年鑒數(shù)據(jù)清洗的研究較少。本研究采用Alteryx Designer 2019.2 學(xué)習(xí)版,以拖拽控件到面板并設(shè)置控件屬性的可視化操作方式構(gòu)建了基于工作流的統(tǒng)計(jì)年鑒數(shù)據(jù)清洗模型,實(shí)現(xiàn)了2000—2018 年《中國統(tǒng)計(jì)年鑒》及《河南統(tǒng)計(jì)年鑒》等全國31 個?。ㄊ?、區(qū))統(tǒng)計(jì)年鑒數(shù)據(jù)的清洗。經(jīng)測試,模型同樣勝任《中國城市統(tǒng)計(jì)年鑒》《中國旅游年鑒》等其他統(tǒng)計(jì)年鑒數(shù)據(jù)的清洗。本研究為統(tǒng)計(jì)年鑒數(shù)據(jù)清洗及整合提供了一套易操作且靈活性強(qiáng)的解決方案。

    另外,本研究建立的模型還有如下不足之處有待解決:對于Excel 中的嵌套表和含有多張表的表單,需拆分成單張表處理。不適用于非數(shù)值型數(shù)據(jù)的清洗。數(shù)據(jù)清洗過程高度依賴人工建立的匹配數(shù)據(jù)字典規(guī)范標(biāo)識數(shù)據(jù),字典完備性直接決定數(shù)據(jù)清洗準(zhǔn)確性。下一步計(jì)劃開展Alteryx Designer 掛接人工智能(Artificial intelligence,AI)開展結(jié)構(gòu)化數(shù)據(jù)自動處理方面的研究,以期進(jìn)一步提升數(shù)據(jù)清洗模型構(gòu)建效率。

    猜你喜歡
    年鑒單元格計(jì)量單位
    感謝《年鑒》
    免年鑒
    ——卯年大事件
    源流(2023年2期)2023-03-29 05:46:58
    四川31部年鑒獲全國獎項(xiàng)
    巴蜀史志(2023年6期)2023-03-18 05:11:26
    瘋狂的計(jì)量單位
    瘋狂的計(jì)量單位
    瘋狂的計(jì)量單位
    2016—2019年全國獲得“中國精品年鑒”名錄
    玩轉(zhuǎn)方格
    玩轉(zhuǎn)方格
    淺談Excel中常見統(tǒng)計(jì)個數(shù)函數(shù)的用法
    西部皮革(2018年6期)2018-05-07 06:41:07
    少妇的丰满在线观看| 99热只有精品国产| 夜夜看夜夜爽夜夜摸| 国产aⅴ精品一区二区三区波| 一本久久中文字幕| 国产精品国产高清国产av| 亚洲第一欧美日韩一区二区三区| a级毛片a级免费在线| 日韩 欧美 亚洲 中文字幕| 久久国产精品影院| 国产激情偷乱视频一区二区| 久久精品国产99精品国产亚洲性色| 狠狠狠狠99中文字幕| 欧美黄色片欧美黄色片| eeuss影院久久| 免费在线观看影片大全网站| 男女那种视频在线观看| 99在线视频只有这里精品首页| 国产精品精品国产色婷婷| 亚洲片人在线观看| 精品电影一区二区在线| 成人永久免费在线观看视频| 亚洲在线自拍视频| 亚洲欧美激情综合另类| 午夜福利视频1000在线观看| 老鸭窝网址在线观看| 长腿黑丝高跟| 国产精品免费一区二区三区在线| av中文乱码字幕在线| 国产乱人视频| 亚洲专区国产一区二区| 在线观看舔阴道视频| 亚洲人成网站高清观看| 熟女少妇亚洲综合色aaa.| 无人区码免费观看不卡| 男人和女人高潮做爰伦理| 美女cb高潮喷水在线观看| 亚洲黑人精品在线| 九色成人免费人妻av| 99精品欧美一区二区三区四区| 精品国产三级普通话版| 嫩草影视91久久| 三级国产精品欧美在线观看| 动漫黄色视频在线观看| 白带黄色成豆腐渣| 亚洲欧美日韩东京热| 好看av亚洲va欧美ⅴa在| 午夜视频国产福利| 亚洲欧美日韩高清在线视频| 亚洲天堂国产精品一区在线| 高清在线国产一区| 精品99又大又爽又粗少妇毛片 | 桃色一区二区三区在线观看| 亚洲成av人片免费观看| 久久性视频一级片| 麻豆成人午夜福利视频| 国产欧美日韩一区二区精品| 欧美成人一区二区免费高清观看| 噜噜噜噜噜久久久久久91| 国产国拍精品亚洲av在线观看 | 国产精品精品国产色婷婷| 国产高清视频在线观看网站| 国产成年人精品一区二区| 欧美黑人欧美精品刺激| www.999成人在线观看| 一a级毛片在线观看| 国产午夜精品久久久久久一区二区三区 | 亚洲精品一卡2卡三卡4卡5卡| 麻豆一二三区av精品| 欧美激情久久久久久爽电影| 国产伦在线观看视频一区| 中文字幕av在线有码专区| 免费观看精品视频网站| svipshipincom国产片| 国产主播在线观看一区二区| 国内精品美女久久久久久| 国产精品98久久久久久宅男小说| 成人永久免费在线观看视频| 在线十欧美十亚洲十日本专区| 欧美激情久久久久久爽电影| 国内精品一区二区在线观看| 两性午夜刺激爽爽歪歪视频在线观看| 国产毛片a区久久久久| 欧美日本视频| 成人精品一区二区免费| 99热这里只有是精品50| 精品人妻一区二区三区麻豆 | or卡值多少钱| 国产精品日韩av在线免费观看| 亚洲欧美激情综合另类| 最近最新中文字幕大全免费视频| 日本成人三级电影网站| 可以在线观看毛片的网站| 日韩欧美在线二视频| 成人性生交大片免费视频hd| 19禁男女啪啪无遮挡网站| 99精品欧美一区二区三区四区| 黄片小视频在线播放| 久久99热这里只有精品18| 欧美在线黄色| 国产真实伦视频高清在线观看 | 亚洲七黄色美女视频| АⅤ资源中文在线天堂| 亚洲精品美女久久久久99蜜臀| 亚洲五月天丁香| 色综合站精品国产| 少妇的逼好多水| 国产成人福利小说| 国产精品三级大全| 久久久久久大精品| 噜噜噜噜噜久久久久久91| 免费观看人在逋| 综合色av麻豆| 亚洲无线在线观看| 一个人免费在线观看电影| 母亲3免费完整高清在线观看| 久久6这里有精品| 中亚洲国语对白在线视频| 嫁个100分男人电影在线观看| 欧美xxxx黑人xx丫x性爽| 欧美黑人巨大hd| 18美女黄网站色大片免费观看| 久久久色成人| 国产成人av教育| 日本撒尿小便嘘嘘汇集6| 亚洲国产色片| 国产精品美女特级片免费视频播放器| x7x7x7水蜜桃| 亚洲avbb在线观看| 亚洲男人的天堂狠狠| 成人亚洲精品av一区二区| 久久伊人香网站| 国产色爽女视频免费观看| 国产探花在线观看一区二区| 一级毛片高清免费大全| 内射极品少妇av片p| 欧美区成人在线视频| 亚洲专区中文字幕在线| av天堂在线播放| 亚洲精品一区av在线观看| 一区福利在线观看| 九色成人免费人妻av| 国产精品精品国产色婷婷| 国产高清有码在线观看视频| 久久久久国内视频| 久久久国产成人免费| 久久草成人影院| 男女那种视频在线观看| 在线国产一区二区在线| 国产精品一区二区三区四区免费观看 | a在线观看视频网站| 狂野欧美白嫩少妇大欣赏| 免费看日本二区| xxx96com| 久久久久免费精品人妻一区二区| 日本黄大片高清| ponron亚洲| www日本黄色视频网| www.色视频.com| 国产黄a三级三级三级人| 国产黄色小视频在线观看| 性色avwww在线观看| 无人区码免费观看不卡| 午夜福利成人在线免费观看| 观看免费一级毛片| 韩国av一区二区三区四区| 国语自产精品视频在线第100页| 999久久久精品免费观看国产| 日韩欧美精品v在线| 高清日韩中文字幕在线| or卡值多少钱| 中亚洲国语对白在线视频| 欧美日韩福利视频一区二区| 性欧美人与动物交配| 国产高清三级在线| 国产亚洲精品一区二区www| 一区二区三区激情视频| 精品人妻偷拍中文字幕| 亚洲成人中文字幕在线播放| 国产精品一及| a级毛片a级免费在线| 亚洲aⅴ乱码一区二区在线播放| av女优亚洲男人天堂| 一级黄片播放器| 人妻久久中文字幕网| 窝窝影院91人妻| 一个人看的www免费观看视频| 国产一级毛片七仙女欲春2| 欧美日本亚洲视频在线播放| 国产伦精品一区二区三区视频9 | 99久久无色码亚洲精品果冻| 少妇人妻精品综合一区二区 | 国产乱人伦免费视频| 精品国产亚洲在线| 最好的美女福利视频网| 久久99热这里只有精品18| 90打野战视频偷拍视频| 久久久久久久精品吃奶| 好男人在线观看高清免费视频| 欧美黄色淫秽网站| 欧美最黄视频在线播放免费| 国产探花极品一区二区| 身体一侧抽搐| 少妇丰满av| 午夜福利免费观看在线| 18美女黄网站色大片免费观看| 美女 人体艺术 gogo| 国产精品 欧美亚洲| 看片在线看免费视频| 国产精品98久久久久久宅男小说| 又紧又爽又黄一区二区| 日韩欧美国产一区二区入口| 久久精品国产清高在天天线| 国产精品自产拍在线观看55亚洲| www.www免费av| 性欧美人与动物交配| 人妻丰满熟妇av一区二区三区| 在线国产一区二区在线| 亚洲 欧美 日韩 在线 免费| 日本 av在线| 最近视频中文字幕2019在线8| 高清毛片免费观看视频网站| 少妇的丰满在线观看| 看免费av毛片| 国产精品98久久久久久宅男小说| 亚洲av成人不卡在线观看播放网| 国产91精品成人一区二区三区| 亚洲七黄色美女视频| 亚洲成人久久爱视频| 男女那种视频在线观看| 两性午夜刺激爽爽歪歪视频在线观看| 身体一侧抽搐| 久久亚洲精品不卡| 综合色av麻豆| 久久性视频一级片| 国产成人啪精品午夜网站| 在线播放无遮挡| 91字幕亚洲| 久久久久久久久久黄片| 欧美成人a在线观看| 欧美中文日本在线观看视频| 国产伦精品一区二区三区四那| 欧美精品啪啪一区二区三区| 国产三级中文精品| 国产成年人精品一区二区| 国产精品 国内视频| 国产97色在线日韩免费| 天堂av国产一区二区熟女人妻| 在线天堂最新版资源| 搡女人真爽免费视频火全软件 | 99久久久亚洲精品蜜臀av| www.色视频.com| 午夜亚洲福利在线播放| 午夜激情福利司机影院| 国产激情欧美一区二区| 亚洲成人久久性| 男女床上黄色一级片免费看| 色播亚洲综合网| 色av中文字幕| 国产免费男女视频| 精品人妻1区二区| 国产国拍精品亚洲av在线观看 | 级片在线观看| av天堂中文字幕网| 五月伊人婷婷丁香| 亚洲精品美女久久久久99蜜臀| 亚洲欧美日韩卡通动漫| 美女 人体艺术 gogo| 免费人成在线观看视频色| 国产精品久久久久久久电影 | 人妻久久中文字幕网| 国产探花极品一区二区| 亚洲国产精品sss在线观看| 亚洲狠狠婷婷综合久久图片| 黄色片一级片一级黄色片| 免费观看精品视频网站| 国产午夜福利久久久久久| 久久久成人免费电影| 51午夜福利影视在线观看| 国内精品久久久久久久电影| 国产伦精品一区二区三区四那| av在线蜜桃| 99精品欧美一区二区三区四区| 性色avwww在线观看| 精品久久久久久久久久久久久| 久久久久国产精品人妻aⅴ院| 久久人人精品亚洲av| or卡值多少钱| e午夜精品久久久久久久| 欧美乱码精品一区二区三区| 亚洲精品亚洲一区二区| 国产高清视频在线观看网站| tocl精华| 亚洲欧美日韩高清在线视频| 日本黄大片高清| 亚洲av美国av| 3wmmmm亚洲av在线观看| 国产一区二区在线av高清观看| tocl精华| 精品国内亚洲2022精品成人| 国产午夜福利久久久久久| 欧美黑人欧美精品刺激| 国产精华一区二区三区| 国产又黄又爽又无遮挡在线| 一级黄色大片毛片| 一区福利在线观看| 叶爱在线成人免费视频播放| 最新在线观看一区二区三区| 国产熟女xx| 国产男靠女视频免费网站| 一个人免费在线观看的高清视频| 国产精品美女特级片免费视频播放器| 国产精品电影一区二区三区| 国内精品美女久久久久久| 91麻豆精品激情在线观看国产| 18美女黄网站色大片免费观看| 欧美国产日韩亚洲一区| 国产熟女xx| 午夜影院日韩av| 久久6这里有精品| 亚洲不卡免费看| 国产亚洲精品久久久久久毛片| 99久久精品热视频| 欧美在线一区亚洲| 亚洲欧美精品综合久久99| 成人高潮视频无遮挡免费网站| 色在线成人网| 麻豆国产97在线/欧美| 精品久久久久久久末码| 国产精品永久免费网站| 小说图片视频综合网站| 岛国视频午夜一区免费看| tocl精华| 国产欧美日韩精品一区二区| 日韩人妻高清精品专区| 国产成人福利小说| x7x7x7水蜜桃| 国产精品99久久久久久久久| 美女大奶头视频| 欧美在线一区亚洲| 日本三级黄在线观看| 又紧又爽又黄一区二区| 欧美黑人欧美精品刺激| 精品熟女少妇八av免费久了| 欧美高清成人免费视频www| 亚洲成人精品中文字幕电影| 亚洲欧美一区二区三区黑人| 亚洲av电影不卡..在线观看| 婷婷精品国产亚洲av| 丰满人妻一区二区三区视频av | 欧洲精品卡2卡3卡4卡5卡区| 中文亚洲av片在线观看爽| 亚洲熟妇中文字幕五十中出| 午夜精品久久久久久毛片777| 脱女人内裤的视频| 不卡一级毛片| 午夜福利免费观看在线| xxxwww97欧美| 成人国产综合亚洲| 18禁国产床啪视频网站| 欧美色视频一区免费| 9191精品国产免费久久| 丁香欧美五月| 午夜老司机福利剧场| 精品一区二区三区av网在线观看| 欧美一区二区精品小视频在线| 国产一区二区三区在线臀色熟女| 人妻久久中文字幕网| 女同久久另类99精品国产91| 亚洲av成人av| 中文字幕精品亚洲无线码一区| 无限看片的www在线观看| 国产精品香港三级国产av潘金莲| 一区二区三区免费毛片| 淫妇啪啪啪对白视频| 在线观看av片永久免费下载| 天天添夜夜摸| 亚洲久久久久久中文字幕| 日本黄色视频三级网站网址| 琪琪午夜伦伦电影理论片6080| 久久精品国产99精品国产亚洲性色| 精品福利观看| 岛国视频午夜一区免费看| 国产中年淑女户外野战色| 国产精品一区二区三区四区免费观看 | 国产aⅴ精品一区二区三区波| 一区二区三区高清视频在线| 国产一区二区三区在线臀色熟女| 欧美国产日韩亚洲一区| 免费在线观看影片大全网站| 99国产综合亚洲精品| 国产精品 欧美亚洲| 老汉色∧v一级毛片| 俄罗斯特黄特色一大片| 久久久色成人| 性色av乱码一区二区三区2| 亚洲国产精品久久男人天堂| 女同久久另类99精品国产91| 久久久久久久午夜电影| 成人鲁丝片一二三区免费| 国产精品乱码一区二三区的特点| 日本 av在线| 毛片女人毛片| 亚洲国产欧美网| eeuss影院久久| 在线观看午夜福利视频| xxx96com| 国产精品综合久久久久久久免费| 性色av乱码一区二区三区2| 日本在线视频免费播放| 亚洲成人免费电影在线观看| 免费高清视频大片| 中文字幕精品亚洲无线码一区| 国产伦一二天堂av在线观看| 亚洲,欧美精品.| 免费在线观看亚洲国产| av福利片在线观看| 舔av片在线| 国产在视频线在精品| 日本五十路高清| 国产精品久久视频播放| 免费一级毛片在线播放高清视频| 欧美av亚洲av综合av国产av| 中亚洲国语对白在线视频| 一级毛片女人18水好多| 丁香欧美五月| 午夜精品久久久久久毛片777| 又黄又粗又硬又大视频| 亚洲av美国av| 国产成人av激情在线播放| 此物有八面人人有两片| 日韩欧美精品免费久久 | 熟女少妇亚洲综合色aaa.| av在线蜜桃| 亚洲av熟女| 美女被艹到高潮喷水动态| 国产精品av视频在线免费观看| 18禁黄网站禁片午夜丰满| 激情在线观看视频在线高清| 亚洲欧美日韩无卡精品| 免费观看的影片在线观看| 欧美乱码精品一区二区三区| 久久久久久久久大av| 中文字幕精品亚洲无线码一区| 亚洲专区国产一区二区| 嫩草影院精品99| 两个人看的免费小视频| 99国产极品粉嫩在线观看| 日本一二三区视频观看| 老司机深夜福利视频在线观看| 国产私拍福利视频在线观看| 国产视频内射| 日本黄大片高清| 国产黄色小视频在线观看| 国产色婷婷99| 美女大奶头视频| 国产成人aa在线观看| 国产黄片美女视频| 乱人视频在线观看| 黑人欧美特级aaaaaa片| 在线视频色国产色| tocl精华| 黄色日韩在线| 少妇裸体淫交视频免费看高清| 一本精品99久久精品77| 免费看a级黄色片| 操出白浆在线播放| 变态另类成人亚洲欧美熟女| 国产精品爽爽va在线观看网站| 真实男女啪啪啪动态图| 日韩成人在线观看一区二区三区| 给我免费播放毛片高清在线观看| 少妇熟女aⅴ在线视频| 国产一区二区激情短视频| 黄色丝袜av网址大全| 亚洲专区中文字幕在线| 男人的好看免费观看在线视频| 国内精品一区二区在线观看| 淫秽高清视频在线观看| 夜夜躁狠狠躁天天躁| 婷婷六月久久综合丁香| 两人在一起打扑克的视频| 国内精品美女久久久久久| 欧美激情在线99| netflix在线观看网站| 亚洲精品美女久久久久99蜜臀| 精品久久久久久成人av| 午夜福利在线在线| 午夜福利视频1000在线观看| 丁香六月欧美| 日韩欧美三级三区| 亚洲男人的天堂狠狠| 国产真实伦视频高清在线观看 | 老汉色∧v一级毛片| 亚洲精品久久国产高清桃花| 亚洲一区二区三区不卡视频| 天堂动漫精品| 国产在视频线在精品| 亚洲乱码一区二区免费版| 嫩草影院入口| 亚洲中文日韩欧美视频| 国产一区二区在线观看日韩 | 啦啦啦免费观看视频1| 九九热线精品视视频播放| av女优亚洲男人天堂| 亚洲人成网站高清观看| 一本综合久久免费| 美女免费视频网站| 高清毛片免费观看视频网站| 99热这里只有是精品50| 亚洲精品亚洲一区二区| 国产亚洲精品久久久com| 国产精品1区2区在线观看.| 男女之事视频高清在线观看| 午夜免费男女啪啪视频观看 | 俄罗斯特黄特色一大片| 美女被艹到高潮喷水动态| 亚洲片人在线观看| 一级作爱视频免费观看| 国产视频一区二区在线看| 国产一区二区三区在线臀色熟女| 淫妇啪啪啪对白视频| 香蕉av资源在线| svipshipincom国产片| 久久精品国产自在天天线| 蜜桃亚洲精品一区二区三区| 丁香欧美五月| 狂野欧美激情性xxxx| 日本与韩国留学比较| 狂野欧美白嫩少妇大欣赏| 人妻夜夜爽99麻豆av| 成年人黄色毛片网站| 欧美区成人在线视频| 老鸭窝网址在线观看| www日本在线高清视频| 91在线精品国自产拍蜜月 | www.999成人在线观看| 国产av一区在线观看免费| 欧美又色又爽又黄视频| 中国美女看黄片| av天堂中文字幕网| 母亲3免费完整高清在线观看| 757午夜福利合集在线观看| 欧美性感艳星| 欧美日本视频| 国产一区二区三区在线臀色熟女| 免费在线观看日本一区| 男女床上黄色一级片免费看| 国产成人啪精品午夜网站| 无遮挡黄片免费观看| 欧美丝袜亚洲另类 | 久9热在线精品视频| 亚洲中文字幕日韩| 免费看十八禁软件| 欧美日韩综合久久久久久 | 亚洲第一欧美日韩一区二区三区| 婷婷精品国产亚洲av在线| 免费在线观看亚洲国产| 日韩免费av在线播放| 黄色片一级片一级黄色片| 国产高清视频在线播放一区| 麻豆国产av国片精品| 亚洲成人久久性| 日韩有码中文字幕| 老熟妇仑乱视频hdxx| 久久九九热精品免费| 我的老师免费观看完整版| 午夜影院日韩av| 国产精品嫩草影院av在线观看 | 变态另类丝袜制服| 可以在线观看毛片的网站| 国产精品三级大全| 午夜视频国产福利| 黄色视频,在线免费观看| 国产亚洲精品一区二区www| av在线天堂中文字幕| 欧美绝顶高潮抽搐喷水| 69人妻影院| 婷婷亚洲欧美| 亚洲国产精品成人综合色| 国内精品一区二区在线观看| 夜夜爽天天搞| 又紧又爽又黄一区二区| www.www免费av| 久久香蕉精品热| 欧美xxxx黑人xx丫x性爽| 欧美日韩综合久久久久久 | 黄色丝袜av网址大全| 婷婷六月久久综合丁香| 色尼玛亚洲综合影院| 精品国产美女av久久久久小说| 久久人妻av系列| 在线免费观看的www视频| 观看免费一级毛片| 国产精品,欧美在线| 久久久久久久亚洲中文字幕 | 丰满人妻一区二区三区视频av | 国产乱人伦免费视频| 俺也久久电影网| 午夜福利在线观看免费完整高清在 | 免费看日本二区| 色噜噜av男人的天堂激情| 内地一区二区视频在线| 最新中文字幕久久久久| 丰满人妻熟妇乱又伦精品不卡| 亚洲,欧美精品.| av专区在线播放| 国产精品精品国产色婷婷| 成人永久免费在线观看视频| 成人午夜高清在线视频| 国产精品一区二区三区四区免费观看 | 久久精品国产亚洲av香蕉五月| 欧美大码av| 国产黄a三级三级三级人| 在线国产一区二区在线|