康 莉
摘要電子政務的蓬勃發(fā)展,使得如何有效分析和利用信息成為一個最重要的問題。本文介紹了數(shù)據(jù)挖掘技術,探討了數(shù)據(jù)挖掘技術在電子政務中的應用,并指出了電子政務數(shù)據(jù)挖掘的發(fā)展趨勢。
關鍵詞:信息化電子政務數(shù)據(jù)挖掘關聯(lián)規(guī)則決策樹
電子政務是一種基于網(wǎng)絡,符合Internet標準,面向政府機關、企業(yè)和社會公眾的信息服務和信息處理系統(tǒng)。近年來,電子政務在我國得到了快速的發(fā)展,為此,我們利用信息技術生產(chǎn)和搜集數(shù)據(jù)的能力大幅度提高,成千上萬數(shù)據(jù)庫被各級政府、部門開發(fā)建設出來,數(shù)據(jù)量呈指數(shù)增長,這種趨勢還將持續(xù)下去。如何處理大量的、復雜的、歷史的政務數(shù)據(jù)將成為包袱,數(shù)據(jù)挖掘技術就是在這樣一種環(huán)境下應運而生的。
1 數(shù)據(jù)挖掘技術介紹
所謂數(shù)據(jù)挖掘,就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它是一種新型的數(shù)據(jù)處理技術,通過對信息的分析處理,發(fā)現(xiàn)蘊藏在數(shù)據(jù)中的有用信息,挖掘數(shù)據(jù)內(nèi)在聯(lián)系、規(guī)則和模式,幫助領導決策。毋庸置疑,數(shù)據(jù)挖掘技術將為電子政務提供有利的技術支持,極大地促進電子政務的發(fā)展與普及,推動電子政務的應用進程。
1.1數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘的結果體現(xiàn)在知識的發(fā)現(xiàn)上,而知識的發(fā)現(xiàn)是個極其復雜的過程。數(shù)據(jù)挖掘常用的技術有關聯(lián)規(guī)則、決策樹、粗糙集、神經(jīng)網(wǎng)絡、遺傳算法及各種算法的融合等。這里簡單介紹關聯(lián)規(guī)則和決策樹這兩種常用的數(shù)據(jù)挖掘技術。
(1)關聯(lián)規(guī)則方法。用于對大型關系數(shù)據(jù)庫發(fā)現(xiàn)有價值的關聯(lián)模式,也可對半結構化的數(shù)據(jù)庫(如文檔數(shù)據(jù)庫)進行關聯(lián)規(guī)則挖掘。它通過統(tǒng)計方法對數(shù)據(jù)中的IF-THEN規(guī)則進行尋找、歸納和提取。
(2)決策樹方法。利用信息論中的信息增益尋找示例數(shù)據(jù)庫中具有最大信息量的屬性字段,建立決策樹的一個節(jié)點,再根據(jù)該屬性字段的不同取值建立樹的分枝,然后在每個分枝重復遞歸建立樹的下一個節(jié)點和分枝的過程,即可建立決策樹。接著進行剪枝處理,然后把決策樹轉化為規(guī)則,利用這些規(guī)則對新事物進行分析。
1.2數(shù)據(jù)挖掘的應用流程
數(shù)據(jù)挖掘在電子政務中的應用是一個將信息轉化為有用價值的知識的過程??蓪?shù)據(jù)挖掘分為四個步驟:
(1)確定業(yè)務對象。應熟悉應用領域的數(shù)據(jù)、背景知識、清晰地定義出業(yè)務問題,明確所要完成的數(shù)據(jù)挖掘任務,完成數(shù)據(jù)定義工作。
(2)數(shù)據(jù)準備。包括數(shù)據(jù)抽取和預處理工作,主要對數(shù)據(jù)質(zhì)量進行分析,完成消除數(shù)據(jù)噪音,清除不一致數(shù)據(jù),進行多個數(shù)據(jù)庫的集成、組合等工作。然后從數(shù)據(jù)庫中選擇數(shù)據(jù)挖掘的對象,將數(shù)據(jù)轉換成數(shù)據(jù)挖掘系統(tǒng)要求的統(tǒng)一格式等工作。
(3)數(shù)據(jù)挖掘。是知識發(fā)現(xiàn)的核心步驟,包括選擇合適的算法和技術,執(zhí)行挖掘算法,搜索提取數(shù)據(jù)模式等。
(4)結果分析。依據(jù)所要解決的問題,對挖掘出的模式進行確認或者解釋,將發(fā)現(xiàn)的知識以用戶能夠理解的方式提供給用戶。
2數(shù)據(jù)挖掘在電子政務中的應用
電子政務位于世界各國積極倡導的“信息高速公路”五個領域(電子政務、電子商務、遠程教育、遠程醫(yī)療、電子娛樂)之首,說明政府信息化是社會信息化的基礎。將數(shù)據(jù)挖掘技術引入電子政務中,可以大大提高政府信息化水平,促進整個社會的信息化。
數(shù)據(jù)挖掘技術在電子政務中的應用具體體現(xiàn)在以下幾個方面。
2.1降低成本、減少財政支出的需求
電子政務系統(tǒng)的建設帶來的直接經(jīng)濟效益,就是打破了各級政府之間文件傳遞的繁瑣性,用最快捷的電子方式在政府上下級之間傳遞信息,這不僅降低了政府辦公用品及相關開銷,而且無形中也減少了大量的額外開支。通過數(shù)據(jù)挖掘可以了解各個部門的費用開支狀況,并提供可行的減少開支的方案。
2.2分析和決策的需求
電子政務數(shù)據(jù)挖掘對政務系統(tǒng)中的海量數(shù)據(jù)進行開采、挖掘和分析,從中識別和抽取隱含的信息,并利用這些信息為政府部門重大政策、法規(guī)的制定提供決策依據(jù)。例如,通過對政府網(wǎng)站、社會公眾網(wǎng)站數(shù)據(jù)進行收集,然后用數(shù)據(jù)挖掘方法對其進行挖掘,從中得到對提高政府工作效率有益的知識,從而為政府部門工作人員提供科學、實用的輔助決策支持。
2.3實時有效信息的需求
政府部門要充分發(fā)揮政府的職能,進行有效的監(jiān)控和管理,同時增強民眾和政府之間溝通的時效性,及時掌握有效的信息,就必須建立一個可以有效收集、監(jiān)測和分析所獲得的大量數(shù)據(jù)的系統(tǒng)。
2.4政府的電子貿(mào)易
為了發(fā)現(xiàn)政務系統(tǒng)中用戶的訪問模式及行為模式,可以利用數(shù)據(jù)挖掘技術對系統(tǒng)服務器以及瀏覽器上日志記錄中的數(shù)據(jù)進行挖掘操作,從中發(fā)現(xiàn)信息并對其進行預測分析。例如,通過對用戶瀏覽某些信息資源所花費的時間進行挖掘,可以判斷出用戶對哪些信息資源感興趣,從而進行個性化服務。
2.5網(wǎng)站設計
為了有效地組織政府網(wǎng)站信息,可以通過對網(wǎng)站內(nèi)容的挖掘,主要是對文本內(nèi)容的挖掘操作。例如,可以利用聚類技術對網(wǎng)站文本的內(nèi)容進行自動劃分類別,從而實現(xiàn)網(wǎng)站信息的層次性組織,便于文本內(nèi)容的分類瀏覽與檢索,同時,還可以結合對用戶訪問日志記錄信息的挖掘,把握用戶的興趣,從而開展個性化的信息服務和有針對性的電子政務活動,進而吸引更多的用戶。
2.6政務創(chuàng)新能力
創(chuàng)新是政府職能向知識型政府轉變的基本要求,它不僅僅局限于行政方法和政務處理流程層面上的創(chuàng)新,而且也包括政府制定發(fā)展戰(zhàn)略和公共政策的創(chuàng)新。電子政務數(shù)據(jù)挖掘增強了政府應對突發(fā)事件的快速響應能力,提高了政府工作的創(chuàng)新能力和人員素質(zhì)。
3電子政務數(shù)據(jù)挖掘的發(fā)展趨勢
對過去行政管理工作的數(shù)據(jù)進行挖掘,得到更多未知的行政管理經(jīng)驗和知識,是電子政務數(shù)據(jù)挖掘的巨大魅力所在。但是,目前數(shù)據(jù)挖掘技術的研究還不成熟,距離實際應用還有較大的差距,主要表現(xiàn)在以下幾個方面。
3.1源數(shù)據(jù)形式多樣
目前數(shù)據(jù)挖掘工具處理的數(shù)據(jù)形式十分有限,一般只能提供對數(shù)值型的結構化數(shù)據(jù)的處理,面對電子政務系統(tǒng)大量的文本、圖形、圖像、www 資源等結構化、半結構化的數(shù)據(jù)形式,處理難度很大。
3.2知識的表達和解釋機制
對挖掘出的知識如何以用戶能理解的形式表達出來,這要求知識的表達不能局限于數(shù)字或符號,應該以更容易理解的方式。如圖形、自然語言和可視化技術等。所以,能夠提供更好的知識表達和解釋機制,才能使用戶更有效地評價這些知識,區(qū)分出哪些是真正有用的知識,哪些只是常識性知識或異常情況。
3.3挖掘的對象規(guī)模大而復雜
政府信息化的發(fā)生使數(shù)據(jù)挖掘面對著更大的數(shù)據(jù)庫、更高的維數(shù),以及屬性之間的復雜關系,處理的數(shù)據(jù)量更加龐大了,從而導致組合爆炸。目前主要通過利用并行技術或抽取的方法處理大規(guī)模的數(shù)據(jù),以此來獲得較高的挖掘效率。
3.4證實技術的局限
主要體現(xiàn)在兩個方面:一是挖掘出的知識證實;二是參與挖掘的源數(shù)據(jù)抽取、凈化、挖掘算法選擇、算法本身等是否合理的證實。這使得發(fā)現(xiàn)的知識要么沒有普通的適應性,要么就是人們的共識。
3.5知識的維護和更新
新數(shù)據(jù)的快速大量積累并參與數(shù)據(jù)挖掘過程,可能導致以前發(fā)現(xiàn)的知識失效,這些知識需要動態(tài)維護和及時更新,并指導新知識的發(fā)現(xiàn)。
雖然數(shù)據(jù)挖掘存在以上問題,但隨著數(shù)據(jù)量的急劇增加和分析決策難度的增強,以及人們對決策分析工作的智能化、自動化要求的不斷提高,人們將廣泛地接受并使用數(shù)據(jù)挖掘及工具。