胡 丹 李朝赟
提要目的:整理2005~2006年全國各海關(guān)出口農(nóng)產(chǎn)品監(jiān)測數(shù)據(jù)并匯總。 方法:采用雙人雙機(jī)整理數(shù)據(jù)的方法,首先規(guī)范EXCEL表單格式,應(yīng)用EPIDATA 3.1軟件進(jìn)行比較,應(yīng)用SAS 8.1匯總數(shù)據(jù)。結(jié)果:在整理過程中發(fā)現(xiàn)使用EXCEL軟件填報(bào)數(shù)據(jù)常見的主要問題是填報(bào)格式不規(guī)范,數(shù)據(jù)填寫隨意性較大,數(shù)據(jù)是否缺失標(biāo)記不清。結(jié)論:以EXCEL報(bào)表上報(bào)數(shù)據(jù)需要精心設(shè)計(jì),統(tǒng)一填寫要求,及時(shí)核查上報(bào)數(shù)據(jù)的規(guī)范性與合理性,為后續(xù)的統(tǒng)計(jì)分析提供高質(zhì)量的原始數(shù)據(jù)。
關(guān)鍵詞:EXCEL軟件;數(shù)據(jù)整理;質(zhì)量控制
中圖分類號(hào):F224文獻(xiàn)標(biāo)識(shí)碼:A
EXCEL作為微軟OFFICE系列辦公軟件中王牌的電子表格軟件,可以用來制作電子表格、完成許多復(fù)雜的數(shù)據(jù)運(yùn)算,進(jìn)行數(shù)據(jù)的分析和預(yù)測并且具有強(qiáng)大的制作圖表的功能,已成為國內(nèi)外廣大用戶管理公司和個(gè)人財(cái)務(wù)、統(tǒng)計(jì)數(shù)據(jù)、繪制各種專業(yè)化表格的得力助手。統(tǒng)計(jì)工作者常常需要將各地不同單位的EXCEL報(bào)表進(jìn)行匯總、整理,然后進(jìn)行不同目的的數(shù)據(jù)分析,因此填報(bào)一份高質(zhì)量的表單,準(zhǔn)確、快速地完成數(shù)據(jù)整合是至關(guān)重要的。本文就2005年與2006年部分海關(guān)農(nóng)產(chǎn)品污染物檢測數(shù)據(jù)整理匯總過程中遇到的一些問題進(jìn)行分析,探討提高EXCEL表單數(shù)據(jù)填報(bào)質(zhì)量的途徑以及整理匯總的步驟,為后續(xù)的進(jìn)一步分析提供高質(zhì)量的原始數(shù)據(jù)。
一、材料和方法
1、材料。安裝有Microsoft Office2000、SAS8.1及EPIDATA3.1軟件的計(jì)算機(jī)。研究數(shù)據(jù)來源于2005年和2006年中國各個(gè)城市海關(guān)對(duì)出口農(nóng)產(chǎn)品中二十多種農(nóng)藥及重金屬殘留量監(jiān)測的數(shù)據(jù)。
2、數(shù)據(jù)整理方法。本次數(shù)據(jù)整理的設(shè)計(jì)思路是,先規(guī)范EXCEL報(bào)表格式,包括將EXCEL表中表頭和尾部各種無關(guān)的信息刪去。由于數(shù)據(jù)是由不同城市上報(bào)匯總,并且不同的農(nóng)殘污染物監(jiān)測的濃度和LOD的單位也不盡相同,所以在原表單基礎(chǔ)上增加一單位標(biāo)識(shí)變量LOD_DW,規(guī)定LOD_DW=1為mg/kg,LOD_DW=2為μg/kg。最后應(yīng)用SAS8.1軟件將整理核查好的EXCEL表單連接匯總成一張總表。
3、質(zhì)量控制方法。本次數(shù)據(jù)整理過程的質(zhì)量控制思路是,一方面在整理過程中采用雙人雙機(jī)過錄數(shù)據(jù),完成后在EPIDATA中進(jìn)行一致性檢驗(yàn);另一方面對(duì)整理完成后的數(shù)據(jù)進(jìn)行邏輯性檢驗(yàn),包括對(duì)空值的返回檢查和對(duì)高端
10個(gè)值的返回檢查。
二、結(jié)果
本次海關(guān)數(shù)據(jù)涉及2005年26個(gè)海關(guān),2006年29個(gè)海關(guān),記錄總數(shù)88,947條,因濃度或LOD缺失而刪除133條記錄;總體來講,2006年的數(shù)據(jù)與2005年相比,數(shù)據(jù)格式更為規(guī)范,整理的效率和質(zhì)量較高。在數(shù)據(jù)的整理過程中,我們發(fā)現(xiàn)存在以下幾種數(shù)據(jù)質(zhì)量問題:
1、數(shù)據(jù)缺失。這是最常見的數(shù)據(jù)質(zhì)量問題,包括濃度、檢測依據(jù)、采樣地點(diǎn)、LOD,以及濃度和LOD單位的缺失。其中濃度、LOD、單位的缺失對(duì)統(tǒng)計(jì)分析的影響是最大的,所以當(dāng)一條記錄中缺失上述三個(gè)變量中任意一個(gè)的時(shí)候,就必須向數(shù)據(jù)的提供方去咨詢,如果那邊同樣無法得到正確數(shù)據(jù)的話,這條記錄就只能作廢了。
2、數(shù)據(jù)中的人為錯(cuò)誤。數(shù)據(jù)的人為錯(cuò)誤主要出現(xiàn)在濃度變量的填寫中,因?yàn)檫@個(gè)變量的數(shù)據(jù)大部分是手工輸入的,在記錄條數(shù)很多的情況下,出現(xiàn)人為錯(cuò)誤幾乎是不可避免的。在使用EXCEL軟件作為報(bào)表數(shù)據(jù)收集的今天,人為錯(cuò)誤已經(jīng)得到了很大程度的控制,在這次的海關(guān)數(shù)據(jù)中,人為錯(cuò)誤主要有以下幾種形式:①數(shù)據(jù)中出現(xiàn)空格;②數(shù)據(jù)中出現(xiàn)多個(gè)小數(shù)點(diǎn);③數(shù)據(jù)中出現(xiàn)字母等不規(guī)范的符號(hào);④不規(guī)范的科學(xué)計(jì)數(shù)法等。
三、討論
統(tǒng)計(jì)數(shù)據(jù)質(zhì)量是統(tǒng)計(jì)工作的生命,沒有高質(zhì)量的統(tǒng)計(jì)數(shù)據(jù),科學(xué)研究的根基是不牢固的。統(tǒng)計(jì)數(shù)據(jù)質(zhì)量控制要貫穿于統(tǒng)計(jì)工作的全過程,包括設(shè)計(jì)、收集、整理和分析。其中,每進(jìn)行一步,都要進(jìn)行質(zhì)量控制,需要落實(shí)專人負(fù)責(zé)對(duì)已完成的工作進(jìn)行檢查、對(duì)已發(fā)生的差錯(cuò)及時(shí)進(jìn)行糾正,做到層層把關(guān),防止差錯(cuò)流入下一個(gè)工作環(huán)節(jié),以保證統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量。
1、表單設(shè)計(jì)階段的質(zhì)量控制。在使用EXCEL設(shè)計(jì)需要填寫的表單時(shí),首先需明確表單中應(yīng)該包含的內(nèi)容;其次,需要在表格中添加必要的批注,指導(dǎo)填寫人員恰當(dāng)?shù)奶顚懷芯繑?shù)據(jù);另外,為了使填寫者避免因單位不恰當(dāng)而在填寫過程中使用大量的零而導(dǎo)致的數(shù)據(jù)錯(cuò)誤,在設(shè)計(jì)階段就應(yīng)該運(yùn)用專業(yè)知識(shí)恰當(dāng)?shù)匾?guī)定不同檢測項(xiàng)目的單位;最后,通過條件格式設(shè)定其中單元格之間的邏輯關(guān)系,再使用工作表保護(hù)把公式及表格樣式保護(hù)起來,使填表者無法隨意更改,這樣就從很大程度上規(guī)范了數(shù)據(jù)填報(bào)的格式,提高填寫數(shù)據(jù)的準(zhǔn)確性。
2、表單填寫階段的質(zhì)量控制。表單填寫階段的質(zhì)量控制應(yīng)該做好以下幾個(gè)部分:①數(shù)據(jù)填寫人員應(yīng)做好培訓(xùn),從填寫內(nèi)容、填寫格式、填寫規(guī)范等方面對(duì)其提出要求,從技術(shù)上提高相關(guān)工作人員的水平;②加強(qiáng)相關(guān)人員的職業(yè)道德培訓(xùn),要求每一個(gè)統(tǒng)計(jì)工作者必須堅(jiān)持實(shí)事求是的工作作風(fēng),認(rèn)真對(duì)待每一個(gè)統(tǒng)計(jì)數(shù)據(jù);③盡量運(yùn)用計(jì)算機(jī)填寫統(tǒng)計(jì)數(shù)據(jù),其優(yōu)越性是手工整理無可比擬的,可以從很大程度上減少人為錯(cuò)誤的發(fā)生。通過對(duì)EXCEL表格的種種規(guī)定和限制,以及大量批注的提示,可以時(shí)刻提醒報(bào)表的填寫人員在填寫過程中對(duì)數(shù)據(jù)進(jìn)行規(guī)范的、正確的填報(bào)。
3、表單數(shù)據(jù)上報(bào)階段的質(zhì)量控制。在表單數(shù)據(jù)上報(bào)階段,接收部門需要對(duì)數(shù)據(jù)資料進(jìn)行審查。如果上報(bào)的數(shù)據(jù)資料不全或有疑問,應(yīng)及時(shí)地進(jìn)行核實(shí),避免有質(zhì)量問題的資料進(jìn)入?yún)R總處理階段??傊?對(duì)搜集到的資料,經(jīng)過鑒別推敲、核實(shí)審定、使之準(zhǔn)確無誤,才能使統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量得到保證。
(作者單位:東南大學(xué)公共衛(wèi)生學(xué)院)
主要參考文獻(xiàn):
[1]胡逢蛟,樓麗波,付小紅,于梅,林輝.Excel在衛(wèi)生檢測數(shù)據(jù)管理中的應(yīng)用[J].寧波醫(yī)學(xué),2000.12.11.
[2]劉曉梅.樹立正確的統(tǒng)計(jì)數(shù)據(jù)質(zhì)量概念芻議[J].統(tǒng)計(jì)與信息論壇,2003.18.5.
[3]楊朝英,翁麗玉.關(guān)于統(tǒng)計(jì)數(shù)據(jù)質(zhì)量問題的探討[J].福建農(nóng)林大學(xué)學(xué)報(bào),2003.