陳向麗
一、問題的提出
統(tǒng)計分析的工作對象是各種統(tǒng)計數(shù)據(jù)。對其進行有效的管理是統(tǒng)計分析工作的前提和保障。在較大規(guī)模的統(tǒng)計分析工作過程中,一般涉及的統(tǒng)計指標的數(shù)量較多,并且隨著時間推移,統(tǒng)計數(shù)據(jù)的規(guī)模不斷積累擴大;同時,統(tǒng)計指標體系一般會由于統(tǒng)計口徑的經(jīng)常性變動而變得比較復雜。這些都給統(tǒng)計分析的實際工作帶來了許多困難,主要表現(xiàn)為:
1.數(shù)據(jù)組織困難
在進行一般的統(tǒng)計分析時,由于涉及的統(tǒng)計指標個數(shù)比較少,一般的做法是:首先采用手工錄入數(shù)據(jù)的辦法,將數(shù)據(jù)錄入到統(tǒng)計分析軟件中,并以數(shù)據(jù)文件的形式存儲在磁盤上,然后再對它們進行分析。分析任務完成,就將它們放置到一邊存檔。
2.數(shù)據(jù)查詢效率低
在實際統(tǒng)計分析工程中,往往需要從不同角度和不同層次對分析數(shù)據(jù)進行全面深入的分析研究,這就需要對所收集的統(tǒng)計指標在各個層面、各個角度上進行查詢。如果統(tǒng)計指標的數(shù)量極為龐大就必然要花費相當大的精力對已經(jīng)存儲好的數(shù)據(jù)進行重新整理、組織甚至重新錄入,否則就無法滿足統(tǒng)計分析需要。
3.數(shù)據(jù)含義混亂
在統(tǒng)計分析工作中,一方面,要求統(tǒng)計指標盡可能理想,具有全面性、準確性;但同時另一方面,客觀實際情況是,隨著時間的推移,由于各種原因會造成統(tǒng)計指標本身缺乏全面性、準確性。統(tǒng)計指標之間缺乏可比性。這個矛盾是經(jīng)常存在的。
二、數(shù)據(jù)文件的組織方式和存在的問題
統(tǒng)計分析過程中經(jīng)常用到統(tǒng)計分析軟件,它們在統(tǒng)計分析方法和模型方面具有強大的優(yōu)勢和功能。但統(tǒng)計分析軟件是以計算機數(shù)據(jù)文件的方式來組織統(tǒng)計數(shù)據(jù)的。這種方式能夠滿足統(tǒng)計分析模型對數(shù)據(jù)格式的要求,但在數(shù)據(jù)的組織和管理方面功能相對較差。在統(tǒng)計分析中,僅采用數(shù)據(jù)文件的形式存儲統(tǒng)計指標必然會出現(xiàn)很多問題。
1.數(shù)據(jù)文件只是存儲統(tǒng)計數(shù)據(jù)的指標值,不存儲指標名
統(tǒng)計分析軟件一般以電子表格的形式存儲統(tǒng)計數(shù)據(jù),統(tǒng)計數(shù)據(jù)的數(shù)值以變量的形式存放,指標名稱或者作為各列變量的變量名存儲,或者以標簽的形式出現(xiàn),或者根本就不存儲,而被統(tǒng)計分析人員記在心里。
2.數(shù)據(jù)的組織方式不能支持統(tǒng)計分析中對統(tǒng)計數(shù)據(jù)的任意提取
在進行不同層次,不同角度的統(tǒng)計分析中,需要經(jīng)常地對已經(jīng)存儲好的數(shù)據(jù)進行任意提取。但是,正是一般統(tǒng)計分析軟件中數(shù)據(jù)文件的組織方式?jīng)]有完整地存儲統(tǒng)計數(shù)據(jù),致使它無法自動地支持對統(tǒng)計數(shù)據(jù)的任意查詢和提取,更無法談及查詢優(yōu)化,而只能靠人工完成。在數(shù)據(jù)量龐大的情況下,人工操作是極其困難、甚至是無法實現(xiàn)的。雖然ARIMA系統(tǒng)在實現(xiàn)數(shù)據(jù)檢索方面有其一定的優(yōu)勢,但操作過程十分復雜,并且要在創(chuàng)建數(shù)據(jù)集時就要對檢索條件進行確定。
3.數(shù)據(jù)組織方式的隨意性不支持統(tǒng)計分析的長遠要求
利用一般的統(tǒng)計分析軟件組織統(tǒng)計數(shù)據(jù),數(shù)據(jù)究竟按照哪種表格形式存儲完全取決于統(tǒng)計分析人員的習慣和當時分析的需要。因此,具有很大的隨意性和不規(guī)范性。這造成:當新一期數(shù)據(jù)產(chǎn)生時,可能無法有效地支持增加新指標;當分析研究的層次、角度改變時,可能無法滿足靈活多變的統(tǒng)計分析模型對數(shù)據(jù)格式的要求。
4.數(shù)據(jù)的組織方式不能反映統(tǒng)計指標間的相互關(guān)系
由于一般的統(tǒng)計分析軟件僅存指標值,不存指標名。因而無法反應統(tǒng)計指標在結(jié)構(gòu)上的相互關(guān)系,也無法反應統(tǒng)計指標的體系變化。
綜上所述,統(tǒng)計分析軟件中的按數(shù)據(jù)文件方式組織數(shù)據(jù)的方法較難滿足實際統(tǒng)計分析工作的需要。因此,選擇一種全新的、科學的、符合統(tǒng)計分析工作實際要求的數(shù)據(jù)組織方式來管理統(tǒng)計指標成為必然,統(tǒng)計數(shù)據(jù)庫系統(tǒng)無疑是一種理想的選擇。
三、統(tǒng)計數(shù)據(jù)資料的特點
統(tǒng)計數(shù)據(jù)一般具有以下幾個特點:
1.統(tǒng)計數(shù)據(jù)具有系統(tǒng)性
統(tǒng)計數(shù)據(jù)是說明自然和社會總體現(xiàn)象數(shù)量特征的科學概念。一個完整的統(tǒng)計數(shù)據(jù)包括六個部分,即時間范圍、空間范圍、指標名稱、指標數(shù)值、計量單位和計算方法。所謂系統(tǒng)性是指構(gòu)成統(tǒng)計數(shù)據(jù)的各要素是不可分隔、缺一不可的。否則,便會出現(xiàn)不知所云的現(xiàn)象。
2.統(tǒng)計數(shù)據(jù)具有歷史性
統(tǒng)計數(shù)據(jù)是歷史發(fā)展的積累,隨著時間的推移,以往的歷史數(shù)據(jù)不會失去存在的意義、而是進行統(tǒng)計分析、統(tǒng)計預測的基礎。
3.統(tǒng)計數(shù)據(jù)具有廣泛性
統(tǒng)計數(shù)據(jù)所記錄的對象可能橫向涉及到各行各業(yè)的各種事物,而且隨著統(tǒng)計手段的加強和統(tǒng)計能力提高,統(tǒng)計的范圍在不斷拓展。
4.統(tǒng)計數(shù)據(jù)具有大量性
統(tǒng)計數(shù)據(jù)的縱向歷史性和橫向廣泛性造成統(tǒng)計數(shù)據(jù)的大量性。
5.統(tǒng)計數(shù)據(jù)具有多維性和層次性
分析單個統(tǒng)計數(shù)據(jù),可以看出它具有結(jié)構(gòu)多維性。即:完整的統(tǒng)計指標是由六個基本要素構(gòu)成的。
6.統(tǒng)計數(shù)據(jù)具有變化性和不規(guī)范性
歷史性必然造成統(tǒng)計數(shù)據(jù)的變化性和不規(guī)范性。隨著時間的推移和人們對分析問題認識的不斷深入,統(tǒng)計數(shù)據(jù)的核算單位、統(tǒng)計口徑等必然會發(fā)生變化,導致統(tǒng)計數(shù)據(jù)不具有可比性。
研究統(tǒng)計數(shù)據(jù)的自身特點是解決統(tǒng)計數(shù)據(jù)資料管理的基本思路。
四、數(shù)據(jù)管理解決方案
解決統(tǒng)計數(shù)據(jù)管理的方法很多,其中統(tǒng)計數(shù)據(jù)庫是一個較為可行的方案,統(tǒng)計數(shù)據(jù)庫系統(tǒng)的研制是近年來統(tǒng)計學界和計算機界都十分關(guān)注的課題。它是存儲、管理、分析統(tǒng)計數(shù)據(jù)的數(shù)據(jù)庫系統(tǒng),是數(shù)據(jù)采集和數(shù)據(jù)傳送的解決方案,是數(shù)據(jù)存儲和數(shù)據(jù)管理根本手段,是提供數(shù)據(jù)分析和數(shù)據(jù)服務基礎。
由于統(tǒng)計分析所處理的對象是統(tǒng)計數(shù)據(jù),因此,一切工作都應圍繞如何合理地存儲統(tǒng)計數(shù)據(jù),如何方便統(tǒng)計分析人員查詢提取統(tǒng)計數(shù)據(jù)等問題展開。在此基礎上,結(jié)合統(tǒng)計數(shù)據(jù)的自身特點,建立統(tǒng)計數(shù)據(jù)庫可以從以下幾個方面考慮:
1.以統(tǒng)計數(shù)據(jù)為基本存貯單位,放棄以統(tǒng)計表為基本存儲單位的設計思想。
2.統(tǒng)計數(shù)據(jù)的指標名稱和指標數(shù)值分別處理,實現(xiàn)統(tǒng)計數(shù)據(jù)的完整存儲,在這個前提之下,尋求更合理的數(shù)據(jù)組織方式。
3.通過劃分統(tǒng)計數(shù)據(jù)的基本信息實現(xiàn)指標名的存儲。
這種統(tǒng)計數(shù)據(jù)的組織方案能夠較好地克服上面提到的諸多問題。它實現(xiàn)了統(tǒng)計數(shù)據(jù)的完整存儲;能夠使用戶直觀地、方便地了解各指標之間的復雜關(guān)系,有利于統(tǒng)計指標口徑的自動調(diào)整;以統(tǒng)計數(shù)據(jù)為存儲基本單位,極大地提高了數(shù)據(jù)的存儲效率和查詢效率;能夠方便地增加新數(shù)據(jù);能夠方便快捷地滿足統(tǒng)計分析人員對統(tǒng)計數(shù)據(jù)的各種層次和角度提取需求?!?/p>