余兆力 王華飛 趙二紅
由于歷史進程或各方面原因,各
部門、行業(yè)、領(lǐng)域等都分別保存著不同歷史時期各種各樣的數(shù)據(jù)資料。這些數(shù)據(jù)因為體系結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫、數(shù)據(jù)結(jié)構(gòu)等方面的異構(gòu),導致信息不能自動地實現(xiàn)共享或無法直接用于共享。如何完成不同部門之間的數(shù)據(jù)比對和整合,實現(xiàn)部門之間數(shù)據(jù)資源共享和重復(fù)利用,已經(jīng)成為迫切需要解決的問題。結(jié)合“寧波市法人基礎(chǔ)信息建設(shè)”項目中的數(shù)據(jù)處理案例,深入研究如何對大量異構(gòu)數(shù)據(jù)進行復(fù)雜關(guān)聯(lián)比對,找出盡量多的相同、相似信息,將同源信息整合到一起,打破信息孤島現(xiàn)象,使現(xiàn)有的數(shù)據(jù)信息可以得到更有效的共享、交換、集成和再利用。
異構(gòu)數(shù)據(jù)處理過程
異構(gòu)數(shù)據(jù)處理應(yīng)用于數(shù)據(jù)交換系統(tǒng)和服務(wù)系統(tǒng)、應(yīng)用系統(tǒng)之間,負責將采集到的數(shù)據(jù)進行處理,并返回處理結(jié)果。
由于各種原因,部門數(shù)據(jù)各自符合自身業(yè)務(wù)需求,要將這些數(shù)據(jù)進行共享和重復(fù)利用,需要首先將數(shù)據(jù)進行集中,集中后進行數(shù)據(jù)清洗,將一些不完整或不符合數(shù)據(jù)基礎(chǔ)要求的數(shù)據(jù)進行清洗,從而保證最終形成的數(shù)據(jù)是完整的數(shù)據(jù);然后對數(shù)據(jù)進行預(yù)處理,將不同業(yè)務(wù)環(huán)境、輸入語言等情況下形成的數(shù)據(jù)進行統(tǒng)一后,進入數(shù)據(jù)比對,最終形成完整、準確的中心信息庫。
數(shù)據(jù)預(yù)處理
要將部門數(shù)據(jù)進行比對,需要首先對數(shù)據(jù)進行預(yù)處理,即數(shù)據(jù)初始化,數(shù)據(jù)預(yù)處理主要工作是清理及創(chuàng)建比對過程中所需要的數(shù)據(jù)表并將各部門單位的原始數(shù)據(jù)復(fù)制到臨時表,為數(shù)據(jù)過濾和比對做基礎(chǔ)。
數(shù)據(jù)加工人員選擇要進行處理的原始數(shù)據(jù),處理前需要將數(shù)據(jù)內(nèi)容記入原始數(shù)據(jù)庫。載入所選數(shù)據(jù)后,根據(jù)數(shù)據(jù)唯一標識判斷是否已經(jīng)經(jīng)過處理。數(shù)據(jù)唯一標識可以是一個批次號,由數(shù)據(jù)交換子系統(tǒng)生成,如果發(fā)現(xiàn)此數(shù)據(jù)重復(fù),則轉(zhuǎn)到非法數(shù)據(jù)處理。
數(shù)據(jù)規(guī)范化處理,數(shù)據(jù)規(guī)范化主要針對現(xiàn)有數(shù)據(jù)中存在的大量不規(guī)范現(xiàn)象進行處理,包括去空處理(包括去除前空格、后空格、中間空格)、雙字節(jié)統(tǒng)一轉(zhuǎn)化為單字節(jié)、全角符號,如@、&、%等統(tǒng)一轉(zhuǎn)化為半角符號等。
最后根據(jù)事先約定的數(shù)據(jù)提供格式校驗數(shù)據(jù)格式是否合法。如果發(fā)現(xiàn)此數(shù)據(jù)格式非法,則轉(zhuǎn)到非法數(shù)據(jù)處理,經(jīng)過以上數(shù)據(jù)處理之后,數(shù)據(jù)預(yù)處理完成。
數(shù)據(jù)過濾
目前一些單位提供的法人數(shù)據(jù)存在著一定的質(zhì)量問題,以企業(yè)舉例,主要體現(xiàn)在以下幾個方面。
企業(yè)代碼不一致:每個部門的業(yè)務(wù)系統(tǒng)采用了不同的編碼來表示一個企業(yè),如工商局業(yè)務(wù)系統(tǒng)中的企業(yè)注冊登記號,稅務(wù)系統(tǒng)中的納稅人識別號,質(zhì)監(jiān)系統(tǒng)中的企業(yè)組織機構(gòu)代碼等,這些系統(tǒng)根據(jù)自己的業(yè)務(wù)特征以各自的編碼規(guī)則組織、管理企業(yè)信息,編號僅在本系統(tǒng)中有明確的含義,到了別的系統(tǒng)中則可能沒有意義。
數(shù)據(jù)量不一致:由于目前各個業(yè)務(wù)系統(tǒng)之間尚未實現(xiàn)實時的數(shù)據(jù)交換,存在著企業(yè)注冊后,沒有辦理組織機構(gòu)代碼、稅務(wù)登記等業(yè)務(wù),造成了各系統(tǒng)之間數(shù)據(jù)的差別。
數(shù)據(jù)項數(shù)據(jù)不合法:比如企業(yè)名稱、注冊日期等。
數(shù)據(jù)項數(shù)據(jù)不一致:各個業(yè)務(wù)部門記錄的同一數(shù)據(jù)項的內(nèi)容不同,主要體現(xiàn)在企業(yè)名稱、注冊登記號、注冊地等數(shù)據(jù)項。
代碼標準不一致:比如民族、性別等,在不同的系統(tǒng)中采用不同的代碼。
原始數(shù)據(jù)不真實:比如錄入錯誤、惡意謊報等。
此外,還存在多詞同義、惡意注冊等現(xiàn)象,這些都給信息的數(shù)據(jù)比對工作造成很大困難,使得在將分布的數(shù)據(jù)集中到統(tǒng)一的數(shù)據(jù)平臺后,難以取得數(shù)據(jù)交換的應(yīng)有效果,這就失去了數(shù)據(jù)共享的意義。
通過數(shù)據(jù)過濾可以捕獲有用數(shù)據(jù), 去掉重復(fù)數(shù)據(jù),并將這些異常數(shù)據(jù)放入至異常數(shù)據(jù)表中,可以更有效地進行數(shù)據(jù)的采集和分析,以確保后續(xù)數(shù)據(jù)的有效性和準確性,進一步提高工作效率。
數(shù)據(jù)比對
數(shù)據(jù)比對分為兩種情況,一種是工商的企業(yè)基礎(chǔ)信息的比對,另一種是其他部門企業(yè)基礎(chǔ)信息和總庫的法人基礎(chǔ)信息以組織機構(gòu)代碼、工商注冊碼和法人單位名稱為比對依據(jù)。
第一種情況:工商企業(yè)基礎(chǔ)信息和總庫的企業(yè)基礎(chǔ)信息以工商局企業(yè)注冊號為比對依據(jù)。新接收到的工商企業(yè)基礎(chǔ)信息,與總庫的企業(yè)基礎(chǔ)信息的企業(yè)注冊號進行比對,比對一致,則更新總庫中企業(yè)基礎(chǔ)信息,否則在總庫中增加一條數(shù)據(jù)。
第二種情況:其他部門企業(yè)基礎(chǔ)信息和總庫的企業(yè)基礎(chǔ)信息以組織機構(gòu)代碼、工商注冊碼和企業(yè)名稱為比對依據(jù),分多次比對。
根據(jù)比對規(guī)則,對不同部門的法人數(shù)據(jù)來源進行比對,以形成標準、規(guī)范、準確的法人信息,保證法人數(shù)據(jù)的唯一性和企業(yè)數(shù)據(jù)的唯一性。根據(jù)定制好的比對規(guī)則,對已經(jīng)預(yù)處理完的數(shù)據(jù)進行比對,將比對成功的數(shù)據(jù)插入至中心數(shù)據(jù)庫,并將比對狀態(tài)標識進行更新,比對不成功的繼續(xù)放在預(yù)處理數(shù)據(jù)庫,等待下一次比對。這樣處理的優(yōu)勢如下:一是保證數(shù)據(jù)的準確性、完整性。二是為了增加中心數(shù)據(jù)庫的數(shù)據(jù)量。
數(shù)據(jù)審核
首先,羅列所有無法自動比對的差異數(shù)據(jù),數(shù)據(jù)加工人員選擇要進行處理的差異數(shù)據(jù)。然后載入所選數(shù)據(jù),同時提示差異原因,例如,某企業(yè)在工商的注冊名與在國稅的名稱不同。工作人員進行比對后,如果數(shù)據(jù)為一致信息,系統(tǒng)將數(shù)據(jù)保存到集成數(shù)據(jù)庫中,同時更新差異數(shù)據(jù)之間的映射關(guān)系表;如果數(shù)據(jù)不一致,系統(tǒng)將數(shù)據(jù)保存到差錯數(shù)據(jù)庫中,系統(tǒng)生成一條差錯信息,由數(shù)據(jù)處理人員通知信源單位。
異常處理
將數(shù)據(jù)分析結(jié)果反饋給業(yè)務(wù)部門,業(yè)務(wù)部門對數(shù)據(jù)進行相應(yīng)的處理后,重新進行比對分析,以逐步提高數(shù)據(jù)比對的成功率,降低異常數(shù)據(jù)的錯誤率。
數(shù)據(jù)交換
在數(shù)據(jù)處理過程中,有些需要將信息做轉(zhuǎn)換,如以本項目中工商的地址信息轉(zhuǎn)化為統(tǒng)計局的行政區(qū)劃編碼。將各部門提供的不規(guī)范地址轉(zhuǎn)換為規(guī)范地址的工作,可轉(zhuǎn)換數(shù)據(jù)轉(zhuǎn)換率為100%。
如工商提供的地址信息(xzjd)字段轉(zhuǎn)化為統(tǒng)一的行政區(qū)劃(xzqh)字段,工商的地址信息為地方標準,統(tǒng)計的地理信息為國家標準編碼。
寧波市法人基礎(chǔ)信息庫項目運用上述數(shù)據(jù)處理過程,可以實現(xiàn)法人信息共享,建成全市統(tǒng)一的法人基礎(chǔ)信息庫??梢越⒖绲貐^(qū)、跨部門的法人信息數(shù)據(jù)交換平臺,建立立體開放的聯(lián)合征信服務(wù)體制,收集、整合、查詢、發(fā)布各種政府機構(gòu)、企業(yè)和個人的信用信息,可以初步形成電子政務(wù)信息資源共享平臺。通過交換平臺實時處理各接入單位的數(shù)據(jù),提高了信息的唯一性和時效性,并且基于形成的法人庫,試點了法人庫的在線服務(wù)模式,達到了部門之間數(shù)據(jù)資源共享和重復(fù)利用的目的。實現(xiàn)了法人信用數(shù)據(jù)的交換與共享,為各級政府及其部門和社會公眾提供信用信息服務(wù)??傊ㄈ嗽诰€服務(wù)模式是政府相關(guān)部門決策系統(tǒng)的堅實基礎(chǔ),對提升政府信息化應(yīng)用水平、優(yōu)化環(huán)境、促進經(jīng)濟社會發(fā)展有著重大的意義。
(作者單位:寧波市質(zhì)監(jiān)技術(shù)監(jiān)督局信息中心)