摘要:針對當前金融、證券、保險等行業(yè)數(shù)據(jù)信息管理不規(guī)范的局面,需要運用云計算技術(shù)對數(shù)據(jù)進行存儲管理,提升數(shù)據(jù)信息的存取能力,通過對云計算技術(shù)的應(yīng)用研究,可以提升金融行業(yè)數(shù)據(jù)挖掘能力。具體實施過程中采取開源框架無疑是一條捷徑。但是,借鑒和使用開源框架需要結(jié)合各自的實際需求,通過分析Hadoop的特點。把HDFS作為Hadoop的研究基礎(chǔ),把HDFS的部分特點運用到實際項目中,建立HDFS完全支持的關(guān)系數(shù)據(jù)模型,提升數(shù)據(jù)信息挖掘能力。
關(guān)鍵詞:云計算;數(shù)據(jù)挖掘;存儲管理
中圖分類號:TP311.1 文獻標識碼:A 文章編號:1007-9599 (2012) 18-0000-02
1 分布式數(shù)據(jù)(DDF)的整體架構(gòu)設(shè)計
結(jié)合數(shù)據(jù)挖掘應(yīng)用的需求和目前流行的解決方案的不足,我們設(shè)計出了一個嶄新的架構(gòu)Distributed Data Farm(DDF)。DDF從實際需要出發(fā),并借鑒了MapReduce和HDFS的一些設(shè)計理念。
1.1 DDF的總體架構(gòu)