韓松 李新宇 丁雪
隨著電子政務(wù)的不斷普及和發(fā)展,越來越多的政務(wù)已經(jīng)電子化,隨之帶來的是龐大的政府數(shù)據(jù)量,以及人們從海量數(shù)據(jù)中發(fā)現(xiàn)有用知識的難度。首先電子政務(wù)的數(shù)據(jù)具有數(shù)量大的特點,因此很多機關(guān)部門選擇應(yīng)用數(shù)據(jù)挖掘解決這個問題。但是隨著各機關(guān)部門的數(shù)據(jù)不斷發(fā)展,數(shù)據(jù)分散,數(shù)據(jù)質(zhì)量不一致的特點顯現(xiàn),傳統(tǒng)的分布式數(shù)據(jù)挖掘已經(jīng)無法解決現(xiàn)有數(shù)據(jù)處理瓶頸問題,急需一種新的數(shù)據(jù)挖掘的手段解決這個問題。而現(xiàn)如今云計算的發(fā)展為分布式數(shù)據(jù)挖掘提供了許多新的解決思路和方案。文中提出的基于云計算架構(gòu)的分布式數(shù)據(jù)挖掘與傳統(tǒng)的分布式數(shù)據(jù)挖掘方法不同,它是基于云計算數(shù)據(jù)存儲架構(gòu)設(shè)計的,它充分利用各個節(jié)點的計算能力并行完成數(shù)據(jù)挖掘過程,在低成本的情況下,可以更好地從大量且分散的政府數(shù)據(jù)中提供有效知識以供參考和決策。