摘 要 電子政務(wù)平臺(tái)旨在服務(wù)于社會(huì)公共事業(yè),本文討論了政務(wù)處理方法的歷程,重點(diǎn)突出了新信息技術(shù)(數(shù)據(jù)挖掘技術(shù))對(duì)政務(wù)的革新作用。最后以檢察院為例提出具體應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)的有效方法,輔助政府獲得潛在的知識(shí)信息。
關(guān)鍵詞 電子政務(wù) 數(shù)據(jù)倉(cāng)庫(kù) 數(shù)據(jù)挖掘
中圖分類號(hào):C931 文獻(xiàn)標(biāo)識(shí)碼:A
在信息時(shí)代,信息技術(shù)的快速發(fā)展對(duì)社會(huì)各個(gè)領(lǐng)域都產(chǎn)生了一定的影響,在電子商務(wù)中反映尤為突出。電子政務(wù)的出現(xiàn)相對(duì)較晚,但據(jù)國(guó)外學(xué)者研究表明大約80%以上的重要信息資源掌握在政府手中,所以許多國(guó)家都將電子政務(wù)作為本國(guó)在信息技術(shù)應(yīng)用領(lǐng)域的首要任務(wù)。
1政務(wù)數(shù)據(jù)處理狀態(tài)分析
政府不僅是處理人民群眾日常事務(wù)的單位,它更重要的作用體現(xiàn)在可以反映群眾的多數(shù)意見和分析社會(huì)大范圍的特征,并以此幫助人民群眾和社會(huì)向更好的方向發(fā)展。政府對(duì)這些事務(wù)的處理到目前為止經(jīng)歷了人工和計(jì)算機(jī)處理的兩大階段。
(1)人工處理階段
為了反映較大范圍人民群眾的整體特征,政府經(jīng)常要付出龐大的人力和物力收集大量數(shù)據(jù)。這個(gè)數(shù)據(jù)的收集通常要經(jīng)歷一個(gè)較長(zhǎng)的時(shí)間,間隔一段時(shí)間還必須重復(fù)執(zhí)行。比如犯罪規(guī)律調(diào)查、經(jīng)濟(jì)普查、群眾意向調(diào)查等。然而,分析收集來的海量數(shù)據(jù)更是政府頭疼的一件事。比如經(jīng)濟(jì)普查,政府需知道近10年、近20年、50年甚至更長(zhǎng)時(shí)間的經(jīng)濟(jì)發(fā)展?fàn)顩r,那么光靠人工去翻閱以前的數(shù)據(jù)就是件很困難的工作了。所以人工處理數(shù)據(jù)階段,有許多政務(wù)受到很大的限制。
(2)計(jì)算機(jī)處理階段
隨著計(jì)算機(jī)在各政府部分的使用,逐漸出現(xiàn)了“電子政務(wù)(Electronic Government,即EG)”。目前為止,電子政務(wù)的發(fā)展大致經(jīng)歷了以下三個(gè)階段:面向數(shù)據(jù)處理的第一代電子政務(wù)、面向信息處理的第二代電子政務(wù)、面向知識(shí)處理的第三代電子政務(wù)。在前兩個(gè)階段中,許多政務(wù)工作確實(shí)提高了效率,但是政府海量數(shù)據(jù)中隱含的價(jià)值仍不能被有效發(fā)掘。正如在一大座金山中,獲取更有價(jià)值的黃金還需更細(xì)致更有效的清理和挖掘。由于信息技術(shù)的發(fā)展,電子政務(wù)逐漸進(jìn)入第三代發(fā)展中,即有效應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)挖掘知識(shí)。
2 DW和DM技術(shù)
數(shù)據(jù)倉(cāng)庫(kù)(DataWare,即DW)是指一個(gè)面向主題的、集成的、非易失的且隨時(shí)間變化的數(shù)據(jù)集合,用來支持管理人員的決策。面向知識(shí)處理的EG系統(tǒng)應(yīng)能夠自動(dòng)剔除掉不需要的數(shù)據(jù),按照用戶的要求整合雜亂的數(shù)據(jù)資源,獲取某些可用的屬性。
數(shù)據(jù)挖掘(Data Mining,即DM)是指從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過程。數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或“挖掘”知識(shí)。
首先,我們要確定數(shù)據(jù)挖掘的對(duì)象有哪些。其次,要有效地應(yīng)用數(shù)據(jù)挖掘技術(shù),就要遵循科學(xué)的應(yīng)用流程。一般的挖掘流程是:(1)確定挖掘?qū)ο?;?)數(shù)據(jù)準(zhǔn)備;(3)數(shù)據(jù)挖掘,即模式提?。唬?)結(jié)果分析,即模式評(píng)估。
3政務(wù)平臺(tái)的數(shù)據(jù)挖掘過程
按照上述數(shù)據(jù)挖掘的基本流程,以檢察院為例介紹如何在EG系統(tǒng)真正實(shí)現(xiàn)數(shù)據(jù)挖掘。
3.1構(gòu)建EG系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)
這部分主要分為以下四個(gè)任務(wù):
(1)確定檢察院EG系統(tǒng)中的數(shù)據(jù)源
檢察院EG系統(tǒng)的數(shù)據(jù)主要從兩個(gè)方面獲得:第一個(gè)是調(diào)研和用戶主動(dòng)提供的數(shù)據(jù)資源;第二個(gè)是EG系統(tǒng)從其門戶網(wǎng)站中獲得數(shù)據(jù)源。
當(dāng)實(shí)施了EG后,政府將從其門戶網(wǎng)站中獲取更多、更豐富的數(shù)據(jù)資源。那么如何對(duì)龐大的Web日志數(shù)據(jù)建立數(shù)據(jù)倉(cāng)庫(kù)呢?
(2)Web日志數(shù)據(jù)的預(yù)處理
Web服務(wù)器日志文件中的數(shù)據(jù)稱之為原始數(shù)據(jù),管理員可根據(jù)需要用某些日志字段記錄相關(guān)數(shù)據(jù)。如:用戶的域名或IP地址,用戶的Login ID,訪問日期和時(shí)間,訪問的方法,被訪問頁(yè)的文件名和參數(shù)等。對(duì)Web日志數(shù)據(jù)的預(yù)處理包括兩步。第一步:清除噪音,即去掉對(duì)知識(shí)挖掘無關(guān)的數(shù)據(jù)。第二步:轉(zhuǎn)化數(shù)據(jù),即將原始數(shù)據(jù)按照挖掘需求通過重新組織或簡(jiǎn)單計(jì)算轉(zhuǎn)換成規(guī)范模式。
(3)多維Web數(shù)據(jù)模式的建立
第一步,選取維。多維數(shù)據(jù)便于我們從多個(gè)角度深入了解數(shù)據(jù)中的信息。N維數(shù)據(jù)矩陣用C(A1, A2, . .., Am ,count)模式表示,其中Ai代表第i維,i=1,2,...,n, count是變量,反映數(shù)據(jù)的實(shí)際意義。
第二步,構(gòu)造檢察院門戶網(wǎng)站訪問數(shù)據(jù)的(下轉(zhuǎn)第78頁(yè))(上接第76頁(yè))多維視圖。先選取data維(按季度組織)、file維(按文件類型組織)用2—D形式表示用戶對(duì)檢察院門戶網(wǎng)站的訪問行為。然后加入第三維location(按用戶所在區(qū)組織),進(jìn)一步構(gòu)建用戶訪問行為的三維視圖。視圖顯示的事實(shí)是visit_count(訪問次數(shù))。
第三步,創(chuàng)建多維數(shù)據(jù)模式。最流行的數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)模型是多維數(shù)據(jù)模型。最常見的模型范例是星型模式。
(4)應(yīng)用OLAP技術(shù)
應(yīng)用OLAP(在線聯(lián)機(jī)處理)技術(shù)可以很方便地從Web日志數(shù)據(jù)矩陣中作出一些簡(jiǎn)單的結(jié)論性分析,如回答一些問題:(1)哪些資源訪問情況最好,哪些最差;(2)用戶的地域分布情況如何。可以應(yīng)用的技術(shù)有:下鉆(drill-down)、上卷(roll-up)、切片分析(slice)和切塊分析(dice)等。
3.2挖掘模式的有效應(yīng)用
應(yīng)用數(shù)據(jù)挖掘技術(shù)可以自動(dòng)發(fā)現(xiàn)用戶的行為特征和系統(tǒng)的訪問模式。
(1)數(shù)據(jù)挖掘技術(shù)應(yīng)用的范圍
檢察院構(gòu)建其門戶網(wǎng)站,需要向公眾、企業(yè)和其他政府部門提供盡可能多相關(guān)信息和服務(wù)。同時(shí),檢察院通過門戶網(wǎng)站也要有能力獲悉訪問用戶的訪問行為和動(dòng)機(jī)、趨勢(shì)。在服務(wù)器以及瀏覽器日志記錄的數(shù)據(jù)中隱藏著模式信息,結(jié)合網(wǎng)絡(luò)技術(shù)應(yīng)用數(shù)據(jù)挖掘技術(shù)可以自動(dòng)發(fā)現(xiàn)系統(tǒng)的訪問模式和用戶的行為特征,從而進(jìn)行預(yù)測(cè)分析。
(2)應(yīng)用挖掘模式提取和分析知識(shí)
根據(jù)不同的應(yīng)用要求,在數(shù)據(jù)挖掘模式中選擇合適的方法進(jìn)行計(jì)算,提取有效數(shù)據(jù),得出知識(shí)。對(duì)于檢察院,可以應(yīng)用聚類方法確定特定用戶的地域分布,從而識(shí)別出一些問題:
①哪些分區(qū)在一段時(shí)間內(nèi)網(wǎng)上舉報(bào)情況較集中;
②網(wǎng)上舉報(bào)較集中的地區(qū)是因?yàn)榘讣l(fā)生頻繁,還是因?yàn)榫W(wǎng)絡(luò)普及范圍廣;
③對(duì)比網(wǎng)上舉報(bào)和非網(wǎng)上舉報(bào)的用戶群,以輔助政府決策對(duì)不同地區(qū)采取不同的情報(bào)收集手段。
電子政務(wù)平臺(tái)中的數(shù)據(jù)還有許多值得繼續(xù)深入研究的。但是,不論從那個(gè)方向進(jìn)行研究,都必須要以提高政務(wù)處理能力為宗旨,讓政府資源發(fā)揮最大的社會(huì)價(jià)值。
參考文獻(xiàn)
[1] Reema Thareja. Data Warehousing [M]. Oxford Univ Pr, 2009.
[2] 張興會(huì). 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].清華大學(xué)出版社,2011.
[3] 黃雯. 數(shù)據(jù)挖掘算法及其應(yīng)用研究[D].南京郵電大學(xué),2013.