任 鵬,丁 然,劉 凌
(交通運(yùn)輸部科學(xué)研究院 現(xiàn)代物流研發(fā)中心,北京100013)
交通統(tǒng)計(jì)分析是交通管理部門科學(xué)決策的基礎(chǔ)性工作,涉及6 個(gè)部分近200 個(gè)交通指標(biāo)的采集與分析,其數(shù)據(jù)類型繁多、數(shù)據(jù)關(guān)系復(fù)雜,采用人工統(tǒng)計(jì)手段很難保證統(tǒng)計(jì)數(shù)據(jù)的有效性與可靠性,因此運(yùn)用信息化手段簡(jiǎn)化統(tǒng)計(jì)工作復(fù)雜度、提升統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量是近年來(lái)相關(guān)交通研究機(jī)構(gòu)的重要課題之一[1-3]。為了降低統(tǒng)計(jì)人員的工作強(qiáng)度,保證統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量,交通運(yùn)輸管理部門已開始利用專業(yè)的交通統(tǒng)計(jì)分析完成基本的數(shù)據(jù)匯總、審核和上報(bào)工作?,F(xiàn)有的交通統(tǒng)計(jì)分析系統(tǒng)通常采用傳統(tǒng)的二維數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)統(tǒng)計(jì)數(shù)據(jù),在一定程度上滿足了統(tǒng)計(jì)數(shù)據(jù)的查詢分析工作,但是,由于其數(shù)據(jù)存儲(chǔ)效率低下,數(shù)據(jù)的可擴(kuò)充性、可維護(hù)性較差,很難滿足統(tǒng)計(jì)工作對(duì)于歷史數(shù)據(jù)對(duì)比、復(fù)雜自定義數(shù)據(jù)查詢等功能的需求。因此,引入多維數(shù)據(jù)模型構(gòu)建交通統(tǒng)計(jì)分析系統(tǒng)數(shù)據(jù)庫(kù)成為優(yōu)化統(tǒng)計(jì)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的有效途徑。
多維數(shù)據(jù)模型主要是根據(jù)業(yè)務(wù)分析主題的要求,從事實(shí)、維度、層次等多個(gè)度量角度對(duì)業(yè)務(wù)邏輯活動(dòng)進(jìn)行建模,可以在關(guān)系數(shù)據(jù)庫(kù)、多維數(shù)據(jù)庫(kù)甚至是面向?qū)ο蟮臄?shù)據(jù)庫(kù)上實(shí)現(xiàn)[4]。多維數(shù)據(jù)模型主要由事實(shí)表和維表構(gòu)成。事實(shí)表是多維數(shù)據(jù)模型的中央表,包含聯(lián)系事實(shí)與維度的數(shù)字度量值和鍵,維表則是維度屬性集合。多維數(shù)據(jù)模型主要包含星形模式、雪花模式和事實(shí)星座模式3 種模式,如表1 和圖1 所示。
表1 多維數(shù)據(jù)模型基本形式
圖1 多維數(shù)據(jù)模型基本形式關(guān)系圖
交通統(tǒng)計(jì)制度[5]是交通統(tǒng)計(jì)工作的基礎(chǔ)內(nèi)容,主要由交通運(yùn)輸綜合統(tǒng)計(jì)、港口綜合統(tǒng)計(jì)、交通固定資產(chǎn)投資統(tǒng)計(jì)、城市客運(yùn)統(tǒng)計(jì)和交通運(yùn)輸扶貧統(tǒng)計(jì)6 個(gè)部分構(gòu)成,每個(gè)部分由一系列標(biāo)準(zhǔn)格式的數(shù)據(jù)報(bào)表組成。交通統(tǒng)計(jì)制度報(bào)表根據(jù)統(tǒng)計(jì)周期不同可劃分為年報(bào)和定期報(bào)表兩大類,其中定期報(bào)表又可細(xì)分為月報(bào)、季報(bào)和半年報(bào)等類型。交通統(tǒng)計(jì)數(shù)據(jù)上報(bào)一般采取企業(yè)、縣級(jí)、地市級(jí)、省級(jí)、部級(jí)層層上報(bào)的模式,每個(gè)級(jí)別的行業(yè)主管部門負(fù)責(zé)對(duì)所轄數(shù)據(jù)的收集、整理和分析工作。為了優(yōu)化交通統(tǒng)計(jì)數(shù)據(jù)內(nèi)容,提高交通統(tǒng)計(jì)工作的效率與質(zhì)量,交通統(tǒng)計(jì)制度會(huì)根據(jù)實(shí)際需求進(jìn)行周期性調(diào)整(通常為一年)。交通統(tǒng)計(jì)制度是人工統(tǒng)計(jì)階段下的產(chǎn)物,詳細(xì)規(guī)定了數(shù)據(jù)統(tǒng)計(jì)內(nèi)容和規(guī)則,但由于交通統(tǒng)計(jì)數(shù)據(jù)的多元性、歷史性和易變性,其數(shù)據(jù)關(guān)系需要進(jìn)一步梳理才能轉(zhuǎn)化為數(shù)據(jù)庫(kù)形式。交通統(tǒng)計(jì)報(bào)表數(shù)據(jù)主要有以下幾個(gè)基本特征:
(1)交通統(tǒng)計(jì)數(shù)據(jù)是一種多維數(shù)據(jù)。交通統(tǒng)計(jì)制度中的機(jī)構(gòu)、時(shí)間周期、統(tǒng)計(jì)表格等要素的形式經(jīng)常會(huì)根據(jù)需求不斷變化,因此交通統(tǒng)計(jì)數(shù)據(jù)應(yīng)當(dāng)采用延展性強(qiáng)且可擴(kuò)展的數(shù)據(jù)描述方式。交通統(tǒng)計(jì)數(shù)據(jù)由限定詞和指標(biāo)值兩部分構(gòu)成,指標(biāo)值只是表示具體數(shù)量,沒有實(shí)際意義,而限定詞則是對(duì)指標(biāo)值的具體描述,可以由統(tǒng)計(jì)機(jī)構(gòu)、統(tǒng)計(jì)周期、統(tǒng)計(jì)時(shí)間、統(tǒng)計(jì)分類及統(tǒng)計(jì)單位等維度疊加,因此交通統(tǒng)計(jì)數(shù)據(jù)本質(zhì)上是一種多維數(shù)據(jù)。
(2)交通統(tǒng)計(jì)數(shù)據(jù)之間存在一定關(guān)聯(lián)性。交通統(tǒng)計(jì)數(shù)據(jù)之間并不是完全獨(dú)立的,某項(xiàng)指標(biāo)可由其他數(shù)據(jù)推導(dǎo)得出。交通統(tǒng)計(jì)數(shù)據(jù)間的關(guān)聯(lián)主要表現(xiàn)為兩種:①邏輯性關(guān)聯(lián),即數(shù)據(jù)與數(shù)據(jù)之間存在某種邏輯關(guān)聯(lián)。如由貨運(yùn)車輛總噸位可以推導(dǎo)出貨運(yùn)量的范圍;②合理性關(guān)聯(lián),即數(shù)據(jù)與數(shù)據(jù)之間存在著某種必然的推導(dǎo)關(guān)系。合理性關(guān)聯(lián)包括推導(dǎo)性關(guān)聯(lián)和匯總性關(guān)聯(lián)。推導(dǎo)性關(guān)聯(lián)主要是指統(tǒng)計(jì)數(shù)據(jù)之間存在固定的計(jì)算公式,某項(xiàng)指標(biāo)可根據(jù)具體公式由其他指標(biāo)計(jì)算得來(lái)。匯總性關(guān)聯(lián)主要是指數(shù)據(jù)的匯總是由分項(xiàng)數(shù)據(jù)加和得來(lái),如在時(shí)間維度上的匯總(年報(bào)由月報(bào)匯總)、機(jī)構(gòu)間匯總等。
(3)交通統(tǒng)計(jì)數(shù)據(jù)間存在一定的重復(fù)性。交通統(tǒng)計(jì)的重復(fù)性一方面是由于交通統(tǒng)計(jì)中涉及指標(biāo)較多,數(shù)據(jù)間的關(guān)聯(lián)關(guān)系難以厘清;另一方面是由于在統(tǒng)計(jì)工作中對(duì)數(shù)據(jù)信息獲取需求不同,如公路里程總長(zhǎng)既可以由不同公路技術(shù)等級(jí)建設(shè)情況匯總得出,也可以由不同公路路面類型建設(shè)情況匯總得出。雖然結(jié)果相同,但出于對(duì)建設(shè)情況細(xì)節(jié)數(shù)據(jù)信息獲取的需求,必須分別統(tǒng)計(jì)。
綜上所述,交通統(tǒng)計(jì)數(shù)據(jù)是一種復(fù)雜數(shù)據(jù),其多維性、關(guān)聯(lián)性和重復(fù)性特征使傳統(tǒng)數(shù)據(jù)庫(kù)建模方案難以適用,將多維數(shù)據(jù)模型理論引入交通統(tǒng)計(jì)分析系統(tǒng)數(shù)據(jù)庫(kù)建模之中,對(duì)滿足交通統(tǒng)計(jì)數(shù)據(jù)對(duì)于兼容性、易擴(kuò)展等方面的存儲(chǔ)需求有著積極意義。
交通統(tǒng)計(jì)報(bào)表是統(tǒng)計(jì)數(shù)據(jù)的最終結(jié)果的表現(xiàn)形式,它是多種類型數(shù)據(jù)形式的綜合體。通過(guò)對(duì)交通統(tǒng)計(jì)制度的分析,交通統(tǒng)計(jì)數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)主要應(yīng)考慮以下幾種基本數(shù)據(jù)類型:
(1)輔助類數(shù)據(jù)。輔助類數(shù)據(jù)主要是指交通統(tǒng)計(jì)過(guò)程中所需要的基礎(chǔ)類數(shù)據(jù),這些數(shù)據(jù)雖然在最終報(bào)表較少或沒有直接體現(xiàn),但在統(tǒng)計(jì)過(guò)程中會(huì)使用到,如統(tǒng)計(jì)參與機(jī)構(gòu)數(shù)據(jù)、統(tǒng)計(jì)人員數(shù)據(jù)、交通運(yùn)營(yíng)企業(yè)數(shù)據(jù)、行政區(qū)劃面積人口數(shù)據(jù)等。
(2)操作類數(shù)據(jù)。操作類數(shù)據(jù)主要是指由系統(tǒng)相關(guān)功能操作所生成的數(shù)據(jù),這些數(shù)據(jù)主要記錄用戶的操作過(guò)程及狀態(tài),如數(shù)據(jù)的審核操作。
(3)明細(xì)類數(shù)據(jù)。明細(xì)類數(shù)據(jù)主要是具體的交通設(shè)備設(shè)施的詳細(xì)特征信息,如高速公路明細(xì)、運(yùn)輸船舶名錄等,明細(xì)類數(shù)據(jù)可作為統(tǒng)計(jì)類數(shù)據(jù)的基礎(chǔ)數(shù)據(jù)。
(4)統(tǒng)計(jì)類數(shù)據(jù)。統(tǒng)計(jì)類數(shù)據(jù)是統(tǒng)計(jì)工作所需要的最終結(jié)果,主要是對(duì)各項(xiàng)交通數(shù)據(jù)進(jìn)行匯總或計(jì)算后得到的數(shù)據(jù)。交通統(tǒng)計(jì)報(bào)表制度所收集的數(shù)據(jù)大部分為統(tǒng)計(jì)類數(shù)據(jù)。
交通統(tǒng)計(jì)數(shù)據(jù)間主要存在屬性標(biāo)識(shí)、數(shù)據(jù)匯總和數(shù)據(jù)計(jì)算這3 種基本數(shù)據(jù)關(guān)系(見圖2),各類數(shù)據(jù)通過(guò)這3 種基本數(shù)據(jù)關(guān)系將輔助類數(shù)據(jù)、操作類數(shù)據(jù)和明細(xì)類數(shù)據(jù)最終聚合為統(tǒng)計(jì)類數(shù)據(jù)。需要說(shuō)明的是,統(tǒng)計(jì)類數(shù)據(jù)與明細(xì)類數(shù)據(jù)實(shí)際上存在一定冗余,造成統(tǒng)計(jì)類數(shù)據(jù)與明細(xì)類數(shù)據(jù)同時(shí)存儲(chǔ)的原因主要有兩個(gè)方面:一是統(tǒng)計(jì)工作的實(shí)際需求。統(tǒng)計(jì)類數(shù)據(jù)往往在明細(xì)類數(shù)據(jù)匯總基礎(chǔ)上有所調(diào)整;二是明細(xì)數(shù)據(jù)的不完備性。很多明細(xì)數(shù)據(jù)無(wú)法獲取或獲取成本較高,統(tǒng)計(jì)類數(shù)據(jù)無(wú)法由明細(xì)類數(shù)據(jù)直接推出,往往由統(tǒng)計(jì)工作人員直接上報(bào)。
圖2 交通統(tǒng)計(jì)數(shù)據(jù)基本數(shù)據(jù)關(guān)系
交通統(tǒng)計(jì)數(shù)據(jù)庫(kù)的建模應(yīng)充分考慮交通統(tǒng)計(jì)制度中的數(shù)據(jù)形式,交通統(tǒng)計(jì)數(shù)據(jù)信息通常由數(shù)據(jù)描述信息和數(shù)據(jù)值信息兩部分組成。數(shù)據(jù)值信息本身只是數(shù)字,并無(wú)具體含義,它只表示數(shù)量的大小。而數(shù)據(jù)描述信息則是對(duì)數(shù)據(jù)值信息的描述,交通統(tǒng)計(jì)數(shù)據(jù)主要包含指標(biāo)名稱等7 類限定信息(如表2 所示)。交通統(tǒng)計(jì)數(shù)據(jù)完整的描述形式可采用式(1)表達(dá)形式。
表2 交通統(tǒng)計(jì)數(shù)據(jù)基本限定信息
交通統(tǒng)計(jì)數(shù)據(jù)=指標(biāo)維度+機(jī)構(gòu)維度+周期維度+時(shí)間維度+單位維度+實(shí)體維度+特征維度(屬性1,屬性2,… ,屬性n)+ 指標(biāo)值 (1)
圖3 給出了某交通數(shù)據(jù)描述的具體實(shí)例,這種數(shù)據(jù)組織形式主要有3 個(gè)方面的優(yōu)點(diǎn):①可以與現(xiàn)有的年報(bào)統(tǒng)計(jì)制度表格相對(duì)應(yīng),表格中每一個(gè)單元格數(shù)據(jù)都可以被描述,滿足了后期系統(tǒng)報(bào)表生成的需求;②一旦獲取基本維度信息,數(shù)據(jù)庫(kù)中數(shù)據(jù)可以被唯一確定;③可以實(shí)現(xiàn)靈活的自定義數(shù)據(jù)查詢功能。雖然該數(shù)據(jù)組織形式的數(shù)據(jù)維護(hù)成本較高,但它可以有效地將各種數(shù)據(jù)有機(jī) 融合,滿足系統(tǒng)復(fù)雜的數(shù)據(jù)操作需求。
圖3 交通統(tǒng)計(jì)數(shù)據(jù)描述實(shí)例
根據(jù)數(shù)據(jù)存儲(chǔ)的內(nèi)容及系統(tǒng)功能需求可將整個(gè)交通數(shù)據(jù)多維存儲(chǔ)模型劃分為系統(tǒng)數(shù)據(jù)區(qū)、明細(xì)數(shù)據(jù)區(qū)、統(tǒng)計(jì)數(shù)據(jù)描述區(qū)和統(tǒng)計(jì)值數(shù)據(jù)區(qū)4 個(gè)部分,如圖4 所示。系統(tǒng)數(shù)據(jù)區(qū)主要包含輔助類數(shù)據(jù)和操作類數(shù)據(jù)相關(guān)數(shù)據(jù)實(shí)體,其主要是滿足用戶登錄、數(shù)據(jù)審核等功能的數(shù)據(jù)存儲(chǔ)需求,部分?jǐn)?shù)據(jù)實(shí)體可作為統(tǒng)計(jì)類數(shù)據(jù)的維表;明細(xì)類數(shù)據(jù)區(qū)主要包含一系列具體描述交通設(shè)備及設(shè)施的實(shí)體,可為統(tǒng)計(jì)類數(shù)據(jù)提供數(shù)據(jù)支持;統(tǒng)計(jì)數(shù)據(jù)描述區(qū)主要包含一系列統(tǒng)計(jì)數(shù)據(jù)值限定信息的抽象實(shí)體,對(duì)統(tǒng)計(jì)數(shù)據(jù)值進(jìn)行描述;統(tǒng)計(jì)值數(shù)據(jù)區(qū)只包含一個(gè)事實(shí)表,主要記錄數(shù)字及數(shù)據(jù)提交時(shí)間信息,其數(shù)據(jù)含義通過(guò)統(tǒng)計(jì)數(shù)據(jù)描述區(qū)進(jìn)行解釋。
圖4 交通統(tǒng)計(jì)數(shù)據(jù)多維存儲(chǔ)模型
交通統(tǒng)計(jì)數(shù)據(jù)多維存儲(chǔ)模型可以有效控制統(tǒng)計(jì)數(shù)據(jù)粒度,通過(guò)對(duì)統(tǒng)計(jì)數(shù)據(jù)描述體系的定義,確定統(tǒng)計(jì)數(shù)據(jù)各維度的基本描述單元,為交通統(tǒng)計(jì)分析系統(tǒng)提供動(dòng)態(tài)靈活的數(shù)據(jù)查詢、匯總和分析功能[6-9]。當(dāng)交通運(yùn)輸統(tǒng)計(jì)年報(bào)制度發(fā)生改變時(shí),無(wú)須變更數(shù)據(jù)庫(kù)結(jié)構(gòu),只需新增或修改數(shù)據(jù)描述區(qū)的相關(guān)實(shí)體存儲(chǔ)的數(shù)據(jù)內(nèi)容,即可在保證歷史數(shù)據(jù)含義統(tǒng)一的條件下適應(yīng)新的數(shù)據(jù)存儲(chǔ)需求。交通統(tǒng)計(jì)數(shù)據(jù)存儲(chǔ)模型的基本數(shù)據(jù)查詢?cè)M關(guān)系演算表達(dá)式可參見文獻(xiàn)[10],從中可以看出,一旦確定統(tǒng)計(jì)數(shù)據(jù)的基本維度信息即可確定其相關(guān)聯(lián)的唯一統(tǒng)計(jì)數(shù)值,統(tǒng)計(jì)數(shù)據(jù)的匯總分析也可以通過(guò)控制數(shù)據(jù)描述特征的查詢條件對(duì)結(jié)果集進(jìn)行數(shù)值計(jì)算完成。
交通統(tǒng)計(jì)數(shù)據(jù)多維存儲(chǔ)模型的構(gòu)建需要兼顧系統(tǒng)功能與數(shù)據(jù)優(yōu)化存儲(chǔ)兩方面的需求,其數(shù)據(jù)庫(kù)構(gòu)建有一定難度,運(yùn)用多維數(shù)據(jù)模型理論可以將統(tǒng)計(jì)數(shù)據(jù)信息分解為多個(gè)維度的標(biāo)準(zhǔn)化單元,可有效地滿足系統(tǒng)數(shù)據(jù)挖掘的相關(guān)操作需求,保證交通統(tǒng)計(jì)分析系統(tǒng)功能的擴(kuò)展與實(shí)現(xiàn)。交通統(tǒng)計(jì)數(shù)據(jù)多維存儲(chǔ)模型對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)具有廣泛適用性,相關(guān)技術(shù)對(duì)于交通大數(shù)據(jù)模型的建立也有一定借鑒意義。
[1]張琪.交通運(yùn)輸統(tǒng)計(jì)的現(xiàn)狀與發(fā)展[J]. 中國(guó)統(tǒng)計(jì),2004(4):10 -11.
[2]王珍珍. 交通部加快交通統(tǒng)計(jì)信息系統(tǒng)建設(shè)[N].中國(guó)交通報(bào),2007 -07 -31(A01).
[3]孔凡國(guó),王先進(jìn). 我國(guó)交通統(tǒng)計(jì)信息工作發(fā)展規(guī)劃研究[J].交通世界,2002(7):23 -27.
[4]HAN J W,KAMBER M,PEI J.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰,譯.3 版. 北京:機(jī)械工業(yè)出版社,2012:89 -99.
[5]中國(guó)交通統(tǒng)計(jì)信息網(wǎng).交通統(tǒng)計(jì)制度[EB/OL].[2014-12-18].http://www.jttj.gov.cn /zhidu.asp.
[6]吳薇,李志蜀.多維數(shù)據(jù)建模的設(shè)計(jì)方法[J]. 四川大學(xué)學(xué)報(bào):自然科學(xué)版,2007,44(3):513 -516.
[7]文俊浩,蔣渝,吳紅艷,等.復(fù)雜數(shù)據(jù)的多維數(shù)據(jù)模型應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用研究,2004(4):139-142.
[8]李盛恩,王珊.多維數(shù)據(jù)模型ER(H)[J].計(jì)算機(jī)學(xué)報(bào),2005,28(12):2059 -2067.
[9]湯艷艷,邵偉民,王子紅.數(shù)據(jù)倉(cāng)庫(kù)中的多維數(shù)據(jù)模型及其對(duì)象關(guān)系的實(shí)現(xiàn)[J]. 計(jì)算機(jī)工程,2003,29(9):88 -92.
[10]SILBERSCHATZ A,KORTH H F,SUDARSHAN S.數(shù)據(jù)庫(kù)系統(tǒng)概念[M].楊東青,李紅燕,唐世謂,等,譯.6 版.北京:機(jī)械工業(yè)出版社,2012:123-141.