住戶調(diào)查作為統(tǒng)計工作的重要組成部分,準確反映城鄉(xiāng)居民收支狀況,而住戶數(shù)據(jù)的處理和審核工作又是城鄉(xiāng)住戶調(diào)查工作的重要環(huán)節(jié)。本文通過分析住戶調(diào)查數(shù)據(jù)的特點和處理難點,進一步探索住戶數(shù)據(jù)處理和審核的原則及可用思路,并選擇利用SAS 軟件作為數(shù)據(jù)處理平臺,列舉了其在住戶數(shù)據(jù)評估、表外審核等方面的幾點應用,為軟件處理提高住戶數(shù)據(jù)質(zhì)量提出思考和建議。
住戶調(diào)查是反映城鄉(xiāng)居民收入消費狀況,監(jiān)測居民收入分配格局和生活質(zhì)量的一項重要基礎性統(tǒng)計調(diào)查,如何提高住戶調(diào)查數(shù)據(jù)處理和審核效率,確保調(diào)查數(shù)據(jù)質(zhì)量一直是住戶調(diào)查工作者十分關(guān)注的重點和難點。從目前國家住戶調(diào)查平臺與iHaps 程序看,原有的審核及匯總功能難以面面俱到,如果利用傳統(tǒng)的人工審核或計算,又要耗費大量的時間與精力,且容易出現(xiàn)必須審核修改的項目未顧及,時間精力浪費在大量僅需簡單復核的項目上。為此,我們在系統(tǒng)分析住戶調(diào)查數(shù)據(jù)處理和審核流程,對審核實踐中遇到的問題歸類和整理基礎上,借助SAS 軟件設計靈活的數(shù)據(jù)審核處理程序,對住戶基礎數(shù)據(jù)加以批量處理和數(shù)據(jù)審核,增強了不同指標、不同區(qū)域間的共性交叉審核,提高了發(fā)現(xiàn)問題的概率,而且排除了國家住戶數(shù)據(jù)處理平臺和iHaps 程序中許多需人工干預的疑似查詢錯誤復核要求,使最終人工干預的審核項目得到精簡,極大地提高了數(shù)據(jù)審核效率。并且拓展了數(shù)據(jù)處理的功能,提升了數(shù)據(jù)分析與評估的應用范圍。
1.數(shù)據(jù)量大。住戶調(diào)查數(shù)據(jù)的基礎是賬頁數(shù)據(jù),賬頁數(shù)據(jù)從每一戶家庭每日的每一筆開支產(chǎn)生,每筆記賬項目包含計量單位、數(shù)量、金額3 個基礎數(shù)據(jù),以每戶家庭月均100 筆的賬頁筆數(shù)計算,每個住戶調(diào)查點每月就要產(chǎn)生1000 筆賬頁數(shù)據(jù)。從市級層面來看,一個月平臺導出的賬頁數(shù)據(jù)就多達上萬條。若要以全年數(shù)據(jù)來進行觀測或處理,則數(shù)據(jù)量更為龐大。龐大的數(shù)據(jù)量使得住戶調(diào)查賬頁數(shù)據(jù)在處理和審核過程中必須借助計算機軟件,而且對數(shù)據(jù)的容納量及數(shù)據(jù)處理速度具有較高要求。
2.表式、指標多。住戶調(diào)查工作中,問卷及報表為我們提供了調(diào)查戶家庭的基本信息及各類匯總數(shù)據(jù)。從問卷來看,季度間需更新A 卷與M 卷,年度還需填報及更新B 卷、E 卷和F 卷等,問卷內(nèi)設指標多且細,各時間段內(nèi)問卷數(shù)據(jù)更新后又有所不同,不能替換。從報表來看,按匯總層級不同可分為市縣級報表、分點報表和分戶報表,按時間段分又可分為年報、季報和月報等,報表輸出方式靈活,各類細項指標多達上百個。眾多的表式和變量使得在數(shù)據(jù)處理時,需要有的放矢,挑選出具有意義和特征的指標進行處理。
3.關(guān)聯(lián)性、規(guī)律性強。在住戶調(diào)查中,無論是賬頁還是問卷數(shù)據(jù)都不能單獨存在,每戶家庭的收支數(shù)據(jù)都與其家庭成員結(jié)構(gòu)及就業(yè)狀況息息相關(guān),這就要求在數(shù)據(jù)審核及處理時需要串聯(lián)多張表式。且住戶數(shù)據(jù)在時間跨度和地域之間都具有其特征和規(guī)律,在提高數(shù)據(jù)質(zhì)量的過程中需要不斷探索和挖掘。
1.平臺與ihaps 審核功能不夠完善。當前住戶調(diào)查采集數(shù)據(jù)依靠的是國家統(tǒng)計局住戶調(diào)查平臺,數(shù)據(jù)審核匯總采用ihaps 程序。但平臺審核功能相對簡單,難以與問卷內(nèi)容關(guān)聯(lián)審核,ihaps 雖能滿足報表輸出及日常審核需要,但審核公式不夠靈活,不能滿足深入數(shù)據(jù)挖掘和復雜邏輯關(guān)系審核需要。
2.樣本變動情況難以把握。住戶樣本在經(jīng)過國家統(tǒng)計局統(tǒng)一制定的抽樣辦法下抽取后,對區(qū)域內(nèi)的家庭收支水平具有一定的代表性。在住戶調(diào)查過程中,樣本戶的人員結(jié)構(gòu)、收入水平總是在不斷變化中,若換戶頻率高或者換戶量大,則現(xiàn)有的樣本更容易與抽樣時的樣本結(jié)構(gòu)出現(xiàn)偏離。如果對樣本結(jié)構(gòu)的變化有動態(tài)監(jiān)管機制,能進一步提高住戶數(shù)據(jù)質(zhì)量。
3.數(shù)據(jù)評估過程復雜,工作量大。數(shù)據(jù)處理包括數(shù)據(jù)審核、加權(quán)、匯總和評估,其中審核、加權(quán)和匯總要求在ihaps 程序中能被基本滿足,但數(shù)據(jù)評估沒有統(tǒng)一的程序運行,手工計算過程復雜,工作量大,容易出錯。對分縣市住戶調(diào)查數(shù)據(jù)進行科學的、實事求是的分析評價,確保最終數(shù)據(jù)可靠性和準確性的要求,又對數(shù)據(jù)評估的結(jié)果提出較高要求,不容出錯。
1.提高數(shù)據(jù)質(zhì)量,保證數(shù)據(jù)真實、準確。數(shù)據(jù)質(zhì)量是統(tǒng)計調(diào)查工作的生命線,提高住戶調(diào)查數(shù)據(jù)質(zhì)量是保障國家制定精準惠民政策的有利支撐,意義重大。在數(shù)據(jù)審核時,必須以提高數(shù)據(jù)質(zhì)量為目標,在數(shù)據(jù)匯總和評估時,既要減小抽樣誤差和調(diào)查誤差,又必須保證數(shù)據(jù)真實、準確。
2.減輕基層負擔,提高工作效率。基層統(tǒng)計工作人員業(yè)務量大,工作時間緊張,但住戶數(shù)據(jù)的結(jié)果匯總等數(shù)據(jù)處理工作,往往卻缺乏省時省力、高效快速的方法,想要提高住戶數(shù)據(jù)質(zhì)量也時常處于有心無力,無從下手的狀態(tài)。在程序設計過程中,須考慮提高數(shù)據(jù)處理效率,不額外增加基層工作負擔。
3.功能延伸,提高數(shù)據(jù)把握度。將原數(shù)據(jù)分析與評估功能由事后環(huán)節(jié),合并至基礎數(shù)據(jù)處理環(huán)節(jié),提前處理,提前報告,動態(tài)跟蹤,強化數(shù)據(jù)質(zhì)量控制的過程管控,將調(diào)查結(jié)果的把握前置于調(diào)查數(shù)據(jù)審核環(huán)節(jié),可以有效地提升住戶調(diào)查的數(shù)據(jù)質(zhì)量。
4.簡化處理結(jié)果,提高可讀性。隨著信息化時代到來,傳統(tǒng)手工計算已經(jīng)不適應時代要求,在進行數(shù)據(jù)處理時,必須借助計算機軟件?;鶎咏y(tǒng)計人員工作量大,素質(zhì)水平參差不齊,在軟件運行過程中,必須考慮其使用的便捷性和結(jié)果可讀性,一個易于理解的程序才能被更好地推廣和使用。
1.住戶調(diào)查所有的問卷、賬頁和報表都可作為數(shù)據(jù)處理的對象,利用ID 進行數(shù)據(jù)關(guān)聯(lián)。每個調(diào)查樣本、調(diào)查點和縣(市、區(qū))都有唯一的sid、小區(qū)id 和coun,利用id 可以將住戶賬頁、問卷和報表數(shù)據(jù)進行關(guān)聯(lián),選出需要的指標,進行篩選、條件處理和計算等操作,達到數(shù)據(jù)處理的目的。
2.利用特征變量進行分組、分類匯總。每類ID,每個問卷、報表指標都可以作為住戶調(diào)查數(shù)據(jù)分類的依據(jù)。通過分類變量的處理可以觀察特定群體,如每個市縣、經(jīng)營戶、退休人群、新?lián)Q戶家庭等分組變量的數(shù)據(jù)。
SAS (Statistical Analysis System)是一個模塊化、集成化的大型應用軟件系統(tǒng),它由數(shù)十個專用模塊構(gòu)成。住戶數(shù)據(jù)處理需要使用的功能模塊主要包括數(shù)據(jù)訪問、數(shù)據(jù)儲存及管理、應用開發(fā)、圖形處理、數(shù)據(jù)分析等。SAS 系統(tǒng)基本上可以分為四大部分:SAS 數(shù)據(jù)庫部分;SAS分析核心;SAS 開發(fā)呈現(xiàn)工具;SAS對分布處理模式的支持及其數(shù)據(jù)倉庫設計。
1.使用簡便,操作靈活。SAS以一個通用的數(shù)據(jù)(DATA)步產(chǎn)生數(shù)據(jù)集,然后以不同的過程調(diào)用完成各種數(shù)據(jù)分析,可在DATA 和PROC 步使用大量的函數(shù)和宏語言。其編程語句簡潔,短小,通常只需很小的幾句語句即可完成一些復雜的運算,得到滿意的結(jié)果。
2.包含SQL 過程。在SAS 數(shù)據(jù)集中使用可以SQL(結(jié)構(gòu)化查詢語言)查詢,配合DATA 步的使用可以將大數(shù)據(jù)處理得很好,拼表以及PROC SQL 也可以減少運行時間。
3.可以同時處理多個數(shù)據(jù)文件。SAS 可以處理的變量數(shù)上限能夠達到32768 個,而數(shù)據(jù)量的大小只受硬盤空間限制。
鑒于SAS 軟件的優(yōu)點,以及目前統(tǒng)計調(diào)查系統(tǒng)使用的硬件平臺都能滿足軟件運行的最低要求,以及SAS 軟件的易用性,我們在常用數(shù)據(jù)平臺的選擇上最終選定SAS 軟件。
1.導出數(shù)據(jù)。從住戶平臺或ihaps 程序?qū)С鲂枰馁~頁、問卷或者報表數(shù)據(jù)。按程序需要重命名,并放入指定的文件夾路徑內(nèi)。
2.運行程序。雙擊編寫好的程序打開SAS 軟件,或者打開SAS 軟件后,將程序拖入Editor 欄內(nèi)。點擊Submit 按鈕,程序?qū)⒆詣舆\行。
3.查看結(jié)果。按照輸出路徑找到結(jié)果文件,打開查看結(jié)果。
1.數(shù)據(jù)步文件管理。數(shù)據(jù)步(data 步)是作為數(shù)據(jù)讀入、處理的主要程序步,data 步創(chuàng)建數(shù)據(jù)集,輸出報告和外部文件。其語句和功能主要為:
例:將某市2019年的報表數(shù)據(jù)集a19 與2018年的報表數(shù)據(jù)集a18按照住戶sid 進行匹配,計算指標n1100 的增速,命名增速指標為zs1100,輸出新的數(shù)據(jù)集a,SAS 語句為:
2.過程步運行過程。過程步(proc 步)通用語句可以分為過程信息語句和變量屬性語句。Proc 語句用于規(guī)定將要運行的SAS 過程。SAS 過程是已經(jīng)寫好的SAS 程序。其語句和功能主要為:
例:找出某市每個縣城鄉(xiāng)居民中收入最高和最低的家庭戶。設收入指標為n1100,城鄉(xiāng)代碼指標為n0003,縣碼指標為coun,SAS 語句為:
1.設計目的。對分市縣住戶調(diào)查數(shù)據(jù)進行科學的、實事求是的分析和評價,為住戶數(shù)據(jù)評估所需指標提供簡便易算的方法,以確保最終數(shù)據(jù)的可靠性和準確性。
2.數(shù)據(jù)處理對象。上期和本期的住戶城鄉(xiāng)居民可支配收入報表數(shù)據(jù)。
3.數(shù)據(jù)處理方法。第一步,將各期報表數(shù)據(jù)按期進行數(shù)據(jù)處理,如對兩期樣本進行對比可篩選出可比戶、換上及換下戶;對本期數(shù)據(jù)進行處理可對調(diào)查戶收支加權(quán),對收支奇高或奇低戶進行剔除或縮放,計算調(diào)查戶的收入均值或中位數(shù)等。第二步,將處理好的兩期數(shù)據(jù)計算其增速、加權(quán)得分等。
4.可獲得的指標。各市縣城鄉(xiāng)居民可比戶、增收戶、奇異值戶、換上戶和換下戶各期的戶數(shù)、加權(quán)可支配收支、增速、經(jīng)營成本率、消費率、中位數(shù)、均值和各類收支細項指標等。
1.設計目的。把握在住戶調(diào)查過程中,住戶樣本因人員變動,換戶換點等原因而發(fā)生的人員結(jié)構(gòu),收支水平變動情況,做好動態(tài)監(jiān)測工作,盡量減小現(xiàn)有樣本與實際住戶水平的偏差(表格略)。
2.數(shù)據(jù)處理對象。住戶樣本每季度的A 表、M 表與可支配收入報表。
3.處理方法。第一步,將M106、M214、A105等數(shù)值指標歸段。第二步,用樣本SID 按期將住戶的A 表、M 表和可支配收入報表數(shù)據(jù)匹配,計算人均住房面積,人均可支配收入等數(shù)據(jù)。第三步,利用proc sql 語句計算如老年人口數(shù)、農(nóng)業(yè)經(jīng)營戶數(shù)、人均凈收入、外市戶口數(shù)、性別和年齡等數(shù)據(jù),再按如年齡、性別、市縣、收入、學歷和就業(yè)狀況等不同類別分類輸出不同的數(shù)據(jù)集。第四步,將不同類別的數(shù)據(jù)集合并,形成不同類別組類的交叉數(shù)據(jù)集。第五步,計算不同期內(nèi)的指標增速,觀察樣本的變動情況。
4.可獲得的指標。住戶樣本在不同期內(nèi)人口、性別、退休居民、老年人口、經(jīng)營戶、租賃戶和不同年齡段下的占比、增速和數(shù)量等變化情況(版面所限,具體表格略)。
1.設計目的。把握住戶調(diào)查數(shù)據(jù)在采集庫與工作庫的一致性。防止平臺數(shù)據(jù)在導入ihaps 程序中發(fā)生數(shù)據(jù)缺失的情況。確保在住戶數(shù)據(jù)審核的過程中修改無誤,并有跡可尋,臺賬完整。
2.數(shù)據(jù)處理對象。同期同域內(nèi)住戶調(diào)查平臺導出的賬頁數(shù)據(jù)和ihaps 程序?qū)С龅馁~頁數(shù)據(jù)。
3.處理方法。第一步,將住戶SID、賬頁年月日、頁碼、行碼組成唯一ID。第二步,將平臺賬頁數(shù)據(jù)和ihaps 程序賬頁數(shù)據(jù)進行匹配,計算出編碼、金額和數(shù)量差。第三步,篩選出不一致的賬頁內(nèi)容。
4.輸出結(jié)果:
1.設計目的。在現(xiàn)有的住戶平臺審核和ihaps 程序?qū)徍送膺M行更加細致的各類問題審核,在國家下發(fā)審核前做好預審和核實工作,努力提高工作效率,加強住戶調(diào)查數(shù)據(jù)質(zhì)量。
2.數(shù)據(jù)處理對象。本期內(nèi)住戶賬頁數(shù)據(jù)、A 卷和M 卷。
3.數(shù)據(jù)處理方法。第一步,將需要的數(shù)據(jù)內(nèi)容按照樣本SID 進行匹配或者篩選。第二步,挑選需要審核的數(shù)據(jù)內(nèi)容進行計算。第三步,輸出異常數(shù)據(jù)。表外審核的內(nèi)容或公式更為靈活,可以按照本地特征和情況進行審核。
4.可進行的各種表外審核舉例:
我們選擇SAS 軟件平臺只是許多數(shù)據(jù)處理平臺的一種,Sql、vpn 或者matlab 等軟件也是可選的平臺之一,選擇可以多元,也可以單一,唯一的使用要求就是方便、易用和高效。最重要的是軟件能在絕大多數(shù)的基層單位中能得到運行。也就是硬件要求要低,適用性要強。其次,學習成本也要低,要保證大多數(shù)從事住戶調(diào)查的同志都能、都會使用,而且都能解讀、應用處理結(jié)果。第三,程序運行時間不能太長,要在盡可能短的時間中,產(chǎn)生處理結(jié)果,并在總隊和國家統(tǒng)計局允許的時期內(nèi)完成審核、查詢、修改和上報等全過程。
住戶調(diào)查的數(shù)據(jù)處理程序一般由國家統(tǒng)計局研制,全國省及省以下使用,考慮到各地的應用要求將會是多元的,因此,建議國家統(tǒng)計局在基礎數(shù)據(jù)輸出上更多地采用標準化格式,統(tǒng)一數(shù)據(jù)元的唯一性,以適應不同數(shù)據(jù)處理的需要。
其次,新增的數(shù)據(jù)處理必須是模塊化,可擴展。因為,數(shù)據(jù)處理的需求將會與時俱進,不斷增加,只有靈活地應用才能不斷實現(xiàn)人工審核向計算機審核的轉(zhuǎn)變,在減少人工審核勞動強度的同時將看似復雜的問題簡單化,將原始化處理問題變得現(xiàn)代化科學化,使得數(shù)據(jù)審核針對性更強,數(shù)據(jù)處理的準確度和效率更高,為更好地完成統(tǒng)計調(diào)查工作打下基礎。
考慮到全國31 個省級單位近300 個地級市2800 個縣數(shù)萬個鄉(xiāng)鎮(zhèn)(街道)都有住戶調(diào)查數(shù)據(jù)審核與質(zhì)量管控要求,而且,我們的數(shù)據(jù)采集正在由縣級直轄向記賬戶自主電子記賬與直接上傳轉(zhuǎn)變,基層設備采購、維護與使用的形式多樣,系統(tǒng)平臺多元,可使用的程序都會受到制約。加之分散裝備的設備要達到程序可運行的最低標準,成本會很高。建議從“云處理”的角度來實現(xiàn)系統(tǒng)集成與升級,最大限度地降低全國住戶調(diào)查的工作手段升級成本。