謝雯
近年來(lái),在大數(shù)據(jù)技術(shù)的推動(dòng)下,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)得到了飛速發(fā)展和廣泛應(yīng)用,對(duì)住房公積金(下稱公積金)行業(yè)來(lái)說(shuō),住房公積金數(shù)據(jù)倉(cāng)庫(kù)的建立和應(yīng)用既是“智慧公積金”發(fā)展轉(zhuǎn)型期的重要方向,也是順應(yīng)大數(shù)據(jù)時(shí)代發(fā)展的一次歷史機(jī)遇。
一、數(shù)據(jù)倉(cāng)庫(kù)的定義及特點(diǎn)概述
隨著各類信息管理系統(tǒng)的建立和運(yùn)行,數(shù)據(jù)處理的重點(diǎn)已經(jīng)從傳統(tǒng)的業(yè)務(wù)處理擴(kuò)展到在線分析處理,并從中得到面向各種主題的統(tǒng)計(jì)信息和決策支持信息。隨著數(shù)據(jù)量越來(lái)越大,現(xiàn)有數(shù)據(jù)存儲(chǔ)形式已經(jīng)不能滿足信息分析的需要,于是建立數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)想應(yīng)運(yùn)而生?!皵?shù)據(jù)倉(cāng)庫(kù)”一詞最早是在1990年,由美國(guó)的William H. Inmon博士提出,他將數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)定義為:“數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、時(shí)變的、非易失的數(shù)據(jù)集合,支持管理者的決策過(guò)程”。不同于數(shù)據(jù)庫(kù)是事務(wù)系統(tǒng)的數(shù)據(jù)平臺(tái),其側(cè)重于在線交易數(shù)據(jù)的存儲(chǔ),數(shù)據(jù)倉(cāng)庫(kù)是分析系統(tǒng)的數(shù)據(jù)平臺(tái),其存儲(chǔ)的一般為歷史數(shù)據(jù),它從事務(wù)系統(tǒng)中獲取數(shù)據(jù),并做匯總、加工,為決策者提供決策依據(jù)。
二、目前住房公積金行業(yè)信息管理存在的主要問(wèn)題
自從1991年建立住房公積金制度以來(lái),各地的住房公積金管理中心一直都致力于信息系統(tǒng)的建設(shè),目前信息系統(tǒng)的建設(shè)基本都是建立在數(shù)據(jù)庫(kù)基礎(chǔ)上的,經(jīng)過(guò)多年的運(yùn)行和數(shù)據(jù)積累,信息系統(tǒng)技術(shù)架構(gòu)已經(jīng)基本成熟,但在日常運(yùn)行和管理的過(guò)程中仍面臨如下問(wèn)題。
1.數(shù)據(jù)缺乏統(tǒng)一管理和分析的能力
對(duì)于以事務(wù)處理為主要目標(biāo)的住房公積金信息系統(tǒng)來(lái)說(shuō),在面對(duì)不同業(yè)務(wù)管理模式和規(guī)則時(shí),通常會(huì)采用以業(yè)務(wù)類型和管理部門進(jìn)行分別設(shè)計(jì)和開(kāi)發(fā)的模式,數(shù)據(jù)庫(kù)的設(shè)計(jì)與存儲(chǔ)也多以業(yè)務(wù)類型分別存儲(chǔ),這樣使得住房公積金信息系統(tǒng)對(duì)于數(shù)據(jù)缺乏統(tǒng)一規(guī)劃和管理。信息不僅容易重復(fù)收集,而且容易形成眾多信息孤島,難以共享,從而造成信息難以分析和價(jià)值挖掘。舉例來(lái)說(shuō),住房公積金業(yè)務(wù)系統(tǒng)中通??蛻舻墓e金賬戶和貸款賬戶是獨(dú)立設(shè)置和管理的,由于信息孤島的存在,在造成查詢和管理不便的同時(shí),也容易使得騙提騙貸的風(fēng)險(xiǎn)增加。
2.歷史數(shù)據(jù)準(zhǔn)確性和完整性很難保證
住房公積金信息系統(tǒng)的建設(shè)目標(biāo)是為了實(shí)現(xiàn)住房公積金業(yè)務(wù)辦理和信息管理的電子化,而各地的業(yè)務(wù)規(guī)則和業(yè)務(wù)流程一直在跟隨房地產(chǎn)市場(chǎng)和科技等的發(fā)展變化在不斷優(yōu)化和改進(jìn)。住房公積金信息收集的過(guò)程中難免會(huì)帶有歷史背景的烙印,同時(shí)早期的信息都是靠人工錄入為主,人為操作失誤在所難免,這些都很難保證歷史數(shù)據(jù)的準(zhǔn)確性和完整性。例如,身份證號(hào)從15位升至18位的改變會(huì)造成系統(tǒng)中部分客戶的信息不準(zhǔn)確;同時(shí)系統(tǒng)中會(huì)存在錄入錯(cuò)誤導(dǎo)致的信息錯(cuò)亂和不一致情況。類似的情況在大多數(shù)的信息系統(tǒng)中幾乎都會(huì)存在,數(shù)據(jù)的準(zhǔn)確性會(huì)給數(shù)據(jù)分析的結(jié)果造成很大的影響。
3.數(shù)據(jù)分析需求增加和系統(tǒng)性能不足的矛盾日益明顯
面對(duì)當(dāng)前瞬息萬(wàn)變的房地產(chǎn)市場(chǎng),住房公積金的使用頻次和利用效率越來(lái)越受到住房公積金管理人員的關(guān)注。隨著住房公積金信息系統(tǒng)的建立與運(yùn)行,大量的基礎(chǔ)性數(shù)據(jù)和業(yè)務(wù)處理信息形成并長(zhǎng)期積累,住房公積金信息系統(tǒng)的發(fā)展方向已從業(yè)務(wù)信息的收集開(kāi)始轉(zhuǎn)向數(shù)據(jù)信息的在線實(shí)時(shí)分析處理,住房公積金管理人員希望能夠從業(yè)務(wù)系統(tǒng)中獲取有效的、一致的決策支持信息,以便及時(shí)準(zhǔn)確地應(yīng)對(duì)市場(chǎng)和外部變化帶來(lái)的影響。然而,由于數(shù)據(jù)量越來(lái)越大,利用已有的數(shù)據(jù)庫(kù)系統(tǒng)做分析查詢應(yīng)用將影響數(shù)據(jù)庫(kù)事務(wù)處理性能,不能滿足數(shù)據(jù)分析的基本需求。此外,隨著住房公積金業(yè)務(wù)系統(tǒng)的全流程電子化推進(jìn),其業(yè)務(wù)系統(tǒng)的各類系統(tǒng)風(fēng)險(xiǎn)和操作風(fēng)險(xiǎn)增加,針對(duì)各類業(yè)務(wù)操作的風(fēng)險(xiǎn)分析需求越來(lái)越受到重視,但基于已有的數(shù)據(jù)庫(kù)進(jìn)行風(fēng)險(xiǎn)分析存在情況多、數(shù)據(jù)量大、變化快、效率低的難題,這給基于系統(tǒng)的風(fēng)險(xiǎn)分析帶來(lái)了工作難度的加大和工作量的增加。綜上所述,現(xiàn)有的數(shù)據(jù)庫(kù)技術(shù)已無(wú)法滿足決策分析和風(fēng)險(xiǎn)分析等各類分析需求。
4.異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)融合困難
眾所周知,住房公積金信息系統(tǒng)都是逐步建立起來(lái)的,基于不同時(shí)期的計(jì)算機(jī)技術(shù)而建立起來(lái)的信息系統(tǒng)有可能會(huì)采用不同的數(shù)據(jù)庫(kù)系統(tǒng)。這些獨(dú)立且自成一體的數(shù)據(jù)庫(kù)系統(tǒng)以不同的數(shù)據(jù)模式描述數(shù)據(jù),使用不同的語(yǔ)言描述數(shù)據(jù)存儲(chǔ)和操縱事務(wù),它們無(wú)法通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)實(shí)現(xiàn)系統(tǒng)間的信息交換和結(jié)合,從而在信息系統(tǒng)中容易形成多個(gè)異構(gòu)的、分散的數(shù)據(jù)庫(kù)系統(tǒng),出現(xiàn)大量的信息孤島。
5.大數(shù)據(jù)挖掘需求無(wú)法滿足和適應(yīng)
近年來(lái),隨著住房公積金事業(yè)的發(fā)展和“互聯(lián)網(wǎng)+政務(wù)服務(wù)”的深入,大數(shù)據(jù)平臺(tái)已經(jīng)成為發(fā)展的必然趨勢(shì)。目前,南京、廈門等多地的住房公積金管理中心已經(jīng)逐步同銀行、房產(chǎn)、民政、人社、公安等多部門實(shí)現(xiàn)了信息共享,信息共享使得住房公積金的數(shù)據(jù)更加多樣和豐富。隨著共享數(shù)據(jù)庫(kù)中的數(shù)據(jù)不斷積累,對(duì)這些數(shù)據(jù)進(jìn)行再利用和深加工不僅有利于各項(xiàng)便捷服務(wù)的開(kāi)展,而且對(duì)住房公積金的管理和決策具有十分重要的指導(dǎo)意義。因此,對(duì)于住房公積金的大數(shù)據(jù)挖掘需求愈發(fā)強(qiáng)烈。然而,住房公積金傳統(tǒng)的基于數(shù)據(jù)庫(kù)的數(shù)據(jù)管理維度單一且以面向應(yīng)用為主,無(wú)法適應(yīng)變化多端的面向不同主題的多維數(shù)據(jù)分析和大數(shù)據(jù)挖掘需求。
三、住房公積金數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系架構(gòu)初步設(shè)想
住房公積金數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基本體系架構(gòu)設(shè)計(jì)如圖1所示,主要由數(shù)據(jù)源、數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器、OLAP服務(wù)器、前端工具與應(yīng)用四部分組成。
數(shù)據(jù)源是數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的基礎(chǔ),即系統(tǒng)的數(shù)據(jù)來(lái)源,包含住房公積金業(yè)務(wù)系統(tǒng)中存儲(chǔ)在內(nèi)部數(shù)據(jù)庫(kù)中的內(nèi)部業(yè)務(wù)信息和從外聯(lián)單位獲取的與住房公積金業(yè)務(wù)相關(guān)的外部信息。
在數(shù)據(jù)源的基礎(chǔ)上,經(jīng)過(guò)數(shù)據(jù)清洗、抽取、變換、加載等過(guò)程,形成數(shù)據(jù)倉(cāng)庫(kù)的元數(shù)據(jù),按照主題進(jìn)行重新組織后,部分元數(shù)據(jù)形成數(shù)據(jù)集市(Data Marts)。數(shù)據(jù)集市是數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,主要面向部門級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題。相比較企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)而言,數(shù)據(jù)集市就是數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)中增加的一種小型部門級(jí)的數(shù)據(jù)倉(cāng)庫(kù),投資規(guī)模比較小,通過(guò)為特定用戶預(yù)先計(jì)算好數(shù)據(jù),從而滿足用戶對(duì)性能的要求,解決了靈活性和性能之間的矛盾。endprint
數(shù)據(jù)OLAP (聯(lián)機(jī)分析處理)是針對(duì)某個(gè)特定主題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問(wèn)、處理、分析,從多個(gè)維度、多種數(shù)據(jù)綜合度對(duì)數(shù)據(jù)進(jìn)行有效分析,最終通過(guò)前端工具和應(yīng)用以直觀的方式展現(xiàn)出來(lái)。
前端工具主要包括數(shù)據(jù)查詢工具、自由報(bào)表工具、風(fēng)險(xiǎn)審計(jì)工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具等各類基于數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集市開(kāi)發(fā)的應(yīng)用。
四、住房公積金數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施意義和未來(lái)價(jià)值探討
根據(jù)住房公積金事業(yè)未來(lái)的發(fā)展趨勢(shì),結(jié)合當(dāng)前公積金信息系統(tǒng)數(shù)據(jù)管理上出現(xiàn)的各類矛盾,住房公積金數(shù)據(jù)倉(cāng)庫(kù)的實(shí)施具有十分重要的意義和價(jià)值,主要體現(xiàn)在如下幾方面。
1.將推動(dòng)住房公積金業(yè)務(wù)管理和信息管理體系的重構(gòu)與整合
住房公積金數(shù)據(jù)倉(cāng)庫(kù)將與現(xiàn)有的公積金信息管理系統(tǒng)一并經(jīng)過(guò)重構(gòu)和整合后形成新的信息管理體系,該體系將具備完整的信息收集、信息處理、信息查詢、信息分析等功能,可實(shí)現(xiàn)高效進(jìn)行大批量信息處理和分析。信息管理體系的整合又將對(duì)住房公積金業(yè)務(wù)管理的改革帶來(lái)積極的影響。以報(bào)表為例,數(shù)據(jù)倉(cāng)庫(kù)將逐步取代現(xiàn)有的各類業(yè)務(wù)管理統(tǒng)計(jì)報(bào)表系統(tǒng),徹底改變現(xiàn)行的業(yè)務(wù)管理統(tǒng)計(jì)報(bào)表管理模式,不僅會(huì)提高各類業(yè)務(wù)管理統(tǒng)計(jì)報(bào)表適時(shí)和準(zhǔn)確性,也將從各類業(yè)務(wù)管理統(tǒng)計(jì)報(bào)表工作崗位上釋放大量的人、物和財(cái)務(wù)資源。
2.將有助于提高對(duì)住房公積金數(shù)據(jù)的價(jià)值認(rèn)識(shí)和分析意識(shí)
長(zhǎng)期以來(lái),住房公積金數(shù)據(jù)信息未能得到深入分析和挖掘,以致于住房公積金的數(shù)據(jù)價(jià)值長(zhǎng)期被低估,一定程度上也阻礙了住房公積金事業(yè)的推廣和發(fā)展。住房公積金數(shù)據(jù)倉(cāng)庫(kù)的建立將為數(shù)據(jù)分析提供強(qiáng)有力的基礎(chǔ)保障和工具支持,可以實(shí)現(xiàn)住房公積金各類業(yè)務(wù)數(shù)據(jù)和共享信息的內(nèi)涵和價(jià)值的深入挖掘,在為廣大繳存對(duì)象提供優(yōu)質(zhì)高效便捷服務(wù)的同時(shí),更好地提升住房公積金的附加增值服務(wù)體驗(yàn)。這不僅可促使住房公積金管理人員跳出對(duì)數(shù)據(jù)長(zhǎng)期“重收集、輕分析”的思維慣性,也有助于提升繳存職工和繳存單位對(duì)住房公積金的價(jià)值認(rèn)知,打破對(duì)住房公積金價(jià)值低估的偏見(jiàn)。
3.將促進(jìn)住房公積金業(yè)務(wù)管理水平的提升和風(fēng)險(xiǎn)防控能力
數(shù)據(jù)倉(cāng)庫(kù)的建立,將推動(dòng)并踐行“以數(shù)據(jù)助服務(wù),用技術(shù)促管理”的實(shí)現(xiàn),在一定程度上解決“數(shù)據(jù)爆炸、知識(shí)貧乏”的問(wèn)題。利用數(shù)據(jù)倉(cāng)庫(kù),住房公積金管理人員可實(shí)現(xiàn)多層次、多角度、全方位地審視住房公積金數(shù)據(jù),加深對(duì)住房公積金業(yè)務(wù)的理解和認(rèn)識(shí),重新梳理住房公積金各類評(píng)價(jià)指標(biāo),形成科學(xué)的住房公積金指標(biāo)評(píng)價(jià)體系,有效提高住房公積金管理決策的科學(xué)性和管理效率;通過(guò)數(shù)據(jù)分析,可以快速發(fā)現(xiàn)日常業(yè)務(wù)數(shù)據(jù)的異常、趨勢(shì)、差異,以便更好地做出管理和決策,有效提升住房公積金信息管理的風(fēng)險(xiǎn)防控水平,確保住房公積金的資金安全。
4.將有效緩解現(xiàn)有住房公積金業(yè)務(wù)系統(tǒng)信息處理的壓力
數(shù)據(jù)倉(cāng)庫(kù)承擔(dān)了面向決策和管理的各類住房公積金業(yè)務(wù)管理活動(dòng)歷史數(shù)據(jù)的存儲(chǔ)和管理工作,這將有效緩解現(xiàn)有以面向事務(wù)處理為主的住房公積金業(yè)務(wù)系統(tǒng)處理各類管理信息分析需求的壓力,使之能更專注于信息收集和信息處理,提升系統(tǒng)性能和數(shù)據(jù)處理效率。同時(shí),由于數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)了業(yè)務(wù)系統(tǒng)信息數(shù)據(jù)的共享,因此在數(shù)據(jù)采集環(huán)節(jié)還可以大量減少信息數(shù)據(jù)的重復(fù)采集工作,提升業(yè)務(wù)系統(tǒng)運(yùn)行的效率。
5.將有效提升住房公積金的數(shù)據(jù)質(zhì)量和存儲(chǔ)安全性
住房公積金的業(yè)務(wù)系統(tǒng)中存儲(chǔ)著大量與日常業(yè)務(wù)管理相關(guān)的歷史數(shù)據(jù),通過(guò)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)清洗功能,可以對(duì)一些重要的錯(cuò)誤數(shù)據(jù)進(jìn)行有效梳理和掌握,在此基礎(chǔ)上提升住房公積金的數(shù)據(jù)質(zhì)量。同時(shí),利用數(shù)據(jù)倉(cāng)庫(kù)的建設(shè)和實(shí)施還將對(duì)這些歷史數(shù)據(jù)進(jìn)行有效保護(hù)和二次備份。
6.將有效解決信息孤島的技術(shù)難題
數(shù)據(jù)倉(cāng)庫(kù)可以從異構(gòu)的數(shù)據(jù)庫(kù)系統(tǒng)中使用統(tǒng)一的全局模式來(lái)描述數(shù)據(jù),并將這些數(shù)據(jù)集成在數(shù)據(jù)倉(cāng)庫(kù)中,通過(guò)數(shù)據(jù)倉(cāng)庫(kù)提供的統(tǒng)一的數(shù)據(jù)接口對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,最終支持決策者的決策過(guò)程。數(shù)據(jù)倉(cāng)庫(kù)可成為連接各業(yè)務(wù)模塊間信息交流的橋梁,將減少甚至消除“信息孤島”現(xiàn)象,有效發(fā)揮現(xiàn)有各類業(yè)務(wù)管理系統(tǒng)的整體效益,并推動(dòng)信息管理標(biāo)準(zhǔn)化建設(shè)工作的進(jìn)程。
五、結(jié)語(yǔ)
目前,國(guó)內(nèi)幾乎所有的商業(yè)銀行都已經(jīng)將數(shù)據(jù)管理作為未來(lái)重點(diǎn)發(fā)展的方向之一,大多數(shù)商業(yè)銀行已經(jīng)建成數(shù)據(jù)倉(cāng)庫(kù)或大數(shù)據(jù)分析平臺(tái),并產(chǎn)生了良好的經(jīng)濟(jì)效益和社會(huì)效益。然而,在住房公積金行業(yè)中僅有少數(shù)幾個(gè)城市建有數(shù)據(jù)倉(cāng)庫(kù),住房公積金數(shù)據(jù)管理水平的提升迫在眉睫。因此,參照目前住房公積金信息管理的發(fā)展趨勢(shì),從為廣大繳存職工實(shí)現(xiàn)更好服務(wù)的角度出發(fā),我們應(yīng)盡快建立起數(shù)據(jù)倉(cāng)庫(kù),重構(gòu)住房公積金的信息管理體系,為“智慧公積金”的實(shí)現(xiàn)構(gòu)建良好的數(shù)據(jù)基石。
李求軍/責(zé)任編輯endprint