楊斐,艾曉燕,張永恒,張峰
(榆林學院信息工程學院,陜西榆林719000)
大數(shù)據(jù)精準挖據(jù)處理架構及預測模型研究
楊斐,艾曉燕,張永恒,張峰
(榆林學院信息工程學院,陜西榆林719000)
為了提高大數(shù)據(jù)的精準挖據(jù)與預測能力,解決傳統(tǒng)數(shù)據(jù)挖據(jù)技術無法適應大數(shù)據(jù)處理環(huán)境的問題,利用云計算和大數(shù)據(jù)處理技術,提出了大數(shù)據(jù)精準挖據(jù)處理架構及基于BP神經(jīng)網(wǎng)絡的預測模型。重點研究了大數(shù)據(jù)處理平臺架構、大數(shù)據(jù)分析與表達技術、基于BP神經(jīng)網(wǎng)絡的大數(shù)據(jù)挖據(jù)及預測模型。應用結果表明,該方案結合云計算平臺和大數(shù)據(jù)挖掘技術,能夠高效的處理海量數(shù)據(jù)的處理和表達,對于銷售數(shù)據(jù)具有一定的預測能力。
大數(shù)據(jù);數(shù)據(jù)挖據(jù);預測模型;BP神經(jīng)網(wǎng)絡;銷售數(shù)據(jù)
隨著各種數(shù)據(jù)持續(xù)爆炸式地增長,出現(xiàn)了多源、異構及海量的數(shù)據(jù),如果能夠應用當前大數(shù)據(jù)處理技術來對這些數(shù)據(jù)進行挖據(jù),會產(chǎn)生具大的價值[1-2]。
大數(shù)據(jù)的挖據(jù)和分析當前企業(yè)對信息化的重要組成部分,在2011年第一季度,由Gartner公司的Merv Adrian在Teradata Magazine提出大數(shù)據(jù)的定義和應用范圍,指出大數(shù)據(jù)是超出當前硬件處理和軟件系統(tǒng)處理能力。大數(shù)據(jù)的處理涉及數(shù)據(jù)的收集、存儲、處理及挖據(jù)和分析技術。但是大數(shù)據(jù)的多源、異構和海量的特征,使得當前的數(shù)據(jù)分析與挖據(jù)方法很難適應這種非結構化的數(shù)據(jù)存儲模式[3-4]。
文中在分析大數(shù)據(jù)挖據(jù)需求的基礎上,提出大數(shù)據(jù)挖據(jù)的平臺架構及利用BP神經(jīng)網(wǎng)絡方法進行對大數(shù)據(jù)進行精準挖據(jù)與預測。
1.1大數(shù)據(jù)的特征
大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應用,具有數(shù)據(jù)量大、查詢分析復雜等特點。大數(shù)據(jù)科學關注大數(shù)據(jù)網(wǎng)絡發(fā)展和運營過程中發(fā)現(xiàn)和驗證大數(shù)據(jù)的規(guī)律及其與自然和社會活動之間的關系[5]。大數(shù)據(jù)的特點有4個層面:第一,數(shù)據(jù)體量巨大。從TB級別躍升到PB級別。第二,流動速度快。第三,價值密度低,商業(yè)價值高。以視頻為例,連續(xù)監(jiān)控過程中,有用的數(shù)據(jù)僅僅有一兩秒。第四,數(shù)據(jù)種類繁多,如網(wǎng)絡日志、視頻、圖片、地理位置信息等。業(yè)界將其歸納為4個“V”--volume、velocity、value、variety[6]。物聯(lián)網(wǎng)、云計算、移動互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源或者承載的方式。
1.2大數(shù)據(jù)挖據(jù)處理架構
為了發(fā)掘并利用大數(shù)據(jù)背后隱含的巨大價值,必須對大數(shù)據(jù)進行有效地組合和管理。從結構特征來講,大數(shù)據(jù)可以分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。對于結構化數(shù)據(jù),如網(wǎng)絡上人工建立的知識庫,利用數(shù)據(jù)生成時的層次化對應關系就能夠進行有效地查詢和管理,因而人們總是希望在數(shù)據(jù)生成時就按照特有的結構和模式對數(shù)據(jù)進行整理。大數(shù)據(jù)計算的技術內(nèi)涵包含3個方面:處理海量數(shù)據(jù)的技術、處理多樣化類型的技術、提升數(shù)據(jù)生成與處理速度的技術。為了更好的精準挖據(jù)海量的數(shù)據(jù),本文結合當前流行的大數(shù)據(jù)處理技術,設計了如圖1所示的大數(shù)據(jù)挖據(jù)技術框架。
圖1 大數(shù)據(jù)挖據(jù)處理架構
在圖1所示的大數(shù)據(jù)挖據(jù)平臺架構中,底層處理平臺應用目前成熟的云計算平臺架構,而在大數(shù)據(jù)處理技術方面,本文結合Hadoop處理平臺,對大數(shù)據(jù)進行清洗和管理。傳統(tǒng)的文件存儲系統(tǒng)已不能滿足大數(shù)據(jù)存儲的需求,大數(shù)據(jù)計算需要有特定的文件系統(tǒng)以滿足海量文件的存儲管理、海量大文件的分塊存儲等功能。
Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)是Google GFS的一個高度容錯的分布式文件系統(tǒng),它能夠提供高吞吐量的數(shù)據(jù)訪問,適合存儲海量(PB級)的大文件。整個HDFS系統(tǒng)將由數(shù)百或數(shù)千個存儲著文件數(shù)據(jù)片斷的服務器組成。運行在HDFS之上的應用程序必須流式地訪問它們的數(shù)據(jù)集,它不是典型的運行在常規(guī)的文件系統(tǒng)之上的常規(guī)程序。運行在HDFS之上的程序有很大量的數(shù)據(jù)集。這意味著典型的HDFS文件是GB到TB的大小,所以,HDFS是很好地支持大文件。HDFS體系架構如圖2所示。
圖2 HDFS體系架構
另一個大數(shù)據(jù)存儲技術就是GFS存儲技術,GFS是一個大型的、對大量數(shù)據(jù)進行訪問的、可擴展的分布式文件系統(tǒng)。GFS具有實時監(jiān)測、容錯、自動恢復等特點。GFS能夠支持超大文件,每個文件通常包含很多應用對象。當經(jīng)常要處理快速增長的、包含數(shù)以萬計的對象、長度達TB的數(shù)據(jù)集時,當處理這些超大超長文件集合時,GFS重新設計了文件塊的大小,使其能夠有效管理成千上萬KB規(guī)模的文件塊。GFS體系架構如圖3所示。
圖3 GFS體系架構
在本文提出如圖1所示的大數(shù)據(jù)挖據(jù)平臺架構中,除了大數(shù)據(jù)的存儲技術外,為了進一步分析大數(shù)據(jù)內(nèi)容,還需要實現(xiàn)大數(shù)據(jù)的表達技術。大數(shù)據(jù)的表達技術是指在大數(shù)據(jù)存儲基礎之上,對特定的不同類型結構化數(shù)據(jù)進行表示。在大數(shù)據(jù)時代,NoSQL數(shù)據(jù)庫被大量采用。NoSQL指的是非關系型數(shù)據(jù)庫,是包含大量不同類型結構化數(shù)據(jù)和非結構化數(shù)據(jù)的數(shù)據(jù)存儲。由于數(shù)據(jù)多樣性,這些數(shù)據(jù)存儲并不是通過標準SQL進行訪問的[7]。NoSQL數(shù)據(jù)存儲方法的主要優(yōu)點是數(shù)據(jù)的可擴展性和可用性,以及數(shù)據(jù)存儲的靈活性。典型的NoSQL數(shù)據(jù)庫有Bigtable、HBase等。
BigTable是Google設計的用來處理海量數(shù)據(jù)的一種非關系型的數(shù)據(jù)庫。BigTable采用一個稀疏的、分布式的、持久化存儲的多維度排序圖來存儲數(shù)據(jù)。BigTable雖然不是關系型數(shù)據(jù)庫,但是卻沿用了很多關系型數(shù)據(jù)庫的術語,像表(Table)、行(Row)、列(Column)等。BigTable的鍵有三維,分別是行鍵(Row Key)、列鍵(Column Key)和時間戳(Timestamp)[8]。
HBase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),利用HBase技術可在廉價PC Server上搭建起大規(guī)模結構化存儲集群。HBase是Google Bigtable的開源實現(xiàn),類似Google Bigtable利用GFS作為其文件存儲系統(tǒng),HBase利用Hadoop HDFS作為其文件存儲系統(tǒng)。
HBase的數(shù)據(jù)模型如表1所示。
表1 HBase的數(shù)據(jù)模型
在大數(shù)據(jù)并行處理技術方面,目前使用MapReduce模型來實現(xiàn)。MapReduce任務的執(zhí)行流程對用戶是透明的。當用戶程序調用MapReduce函數(shù),就會引起如下操作,Map Reduce執(zhí)行流程如圖4所示。
從MapReduce的任務執(zhí)行流程可以看出系統(tǒng)框架將大規(guī)模的計算任務進行劃分然后將多個子任務指派到多臺工作機器上并行執(zhí)行,從而實現(xiàn)了計算任務的并行化,進而可以進行大規(guī)模數(shù)據(jù)的處理。
圖4 MapReduce執(zhí)行流程圖
2.1人工神經(jīng)網(wǎng)絡方法分析
人工神經(jīng)網(wǎng)絡對人類神經(jīng)系統(tǒng)的一種模擬,是指由簡單計算單元組成的廣泛并行互聯(lián)的網(wǎng)絡,能模擬生物神經(jīng)系統(tǒng)的結構和功能。組成神經(jīng)網(wǎng)絡的單個神經(jīng)元的結構簡單、功能有限,但是,由大量神經(jīng)元構成的網(wǎng)絡系統(tǒng)可實現(xiàn)強大的功能。盡管人類神經(jīng)系統(tǒng)規(guī)模宏大、結構復雜、功能神奇。但其最基本的處理單元卻只有神經(jīng)元。人類神經(jīng)系統(tǒng)的功能實際上是通過大量生物神經(jīng)元的廣泛互聯(lián),以規(guī)模宏大的并行運算來實現(xiàn)的。構成人工神經(jīng)網(wǎng)絡的基本單元是人工神經(jīng)元。并且,人工神經(jīng)元的不同結構和模型會對人工神經(jīng)網(wǎng)絡產(chǎn)生一定的影響。人工神經(jīng)元是對生物神經(jīng)元的抽象和模擬。所謂抽象是從數(shù)學角度而言的,所謂模擬是從其結構和功能角度而言的[9]。1934年心理學家麥卡洛克和數(shù)理邏輯學家皮茨根據(jù)生物神經(jīng)元的功能和結構,提出了一個將神經(jīng)元看成二進制閾值元件的簡單模型,即MP模型,如圖5所示。
圖5 MP神經(jīng)元模型
在圖5中,x1,x2,…,xn表示某一神經(jīng)元的n個輸入;ωi表示表示第i個輸入的聯(lián)結強度,也稱為聯(lián)結權值;θ為神經(jīng)元的閾值;y為為神經(jīng)元的輸出。可以看出,人工神經(jīng)元是一個具有多輸入,單輸出的非線性器件。它的輸入為
式中,f稱為神經(jīng)元功能函數(shù),也稱作用函數(shù)或激勵函數(shù);θ稱為激活值。
在BP神經(jīng)網(wǎng)絡中,輸入向量為設為X=(x1,x2,…,xn),輸出向量設為Y=(y1,y2,…,ym),輸入層各個輸入到相應神經(jīng)元的聯(lián)結權值設為ωij(i=1,2,…,n;j=1,2,…,m)。若假設各神經(jīng)元的閾值分別是θj(j=1,2,…,m),則各神經(jīng)元的輸出yi(j= 1,2,…,m)分別為
式中,由所有聯(lián)結權值ωij構成的聯(lián)結權值矩陣W為
在實際應用中,該矩陣是通過大量的訓練示例學習而形成的。
2.2基于BP神經(jīng)網(wǎng)絡的庫存銷售預測
本文實驗使用某電子商務網(wǎng)站庫存銷售數(shù)據(jù)為預測值,資料取10年共10萬多組數(shù)據(jù)。實驗數(shù)據(jù)在經(jīng)過大數(shù)據(jù)處理后,形成結構化數(shù)據(jù),部分仿真實驗在MATLAB2012a中實驗。對應的資料數(shù)據(jù)項主要包括倉庫名稱、營業(yè)額、員工人數(shù)、利潤和規(guī)模等.對所有的數(shù)據(jù)使用前需要歸一化處理。數(shù)據(jù)歸一化到[-1,1]區(qū)間的公式為:
式中,xn和x表示歸一化前后的序列值;xmax和xmin分別表示原序列x的最大值和最小值。反歸一化公式為
本文使用如下幾個統(tǒng)計量評價預測模型的預測精度:
1)平均絕對誤差
2)平均相對誤差
把前5年51 000組歷史數(shù)據(jù)作為訓練樣本,每組數(shù)據(jù)包括20個預測因子和一個原始銷售序列值。把后5年共49000組數(shù)據(jù)作為測試樣本,每組數(shù)據(jù)包括20個輸入因子,對每天的銷售的數(shù)據(jù)值進行預測。
通過多次試驗,最終確定的BP神經(jīng)網(wǎng)絡的參數(shù)選擇為:系數(shù)0.65,訓練目標0.002,隱層最大神經(jīng)元數(shù)600,最后測試數(shù)據(jù)的真實值和預測值對比圖如圖6所示。
圖6 神經(jīng)網(wǎng)絡模型真實值與預測值對比圖
經(jīng)過計算,BP神經(jīng)網(wǎng)絡的預測精度指標分別為:MAE= 0.021 2,MPAE=22.32%。從曲線圖和統(tǒng)計指標來看,BP神經(jīng)網(wǎng)絡模型對于銷售序列預測具有一定的預測能力,但是預測的泛化能力還有待提高。
文中以大數(shù)據(jù)處理與挖據(jù)平臺架構為出發(fā)點,研究大數(shù)據(jù)精準挖據(jù)與預測的技術與模型。分析了某電子商務網(wǎng)站庫存銷售數(shù)據(jù),資料取10年共10萬多組數(shù)據(jù)并利用Hadoop技術平臺,應用MapReduce對數(shù)據(jù)進行處理分析,然后應用BP神經(jīng)網(wǎng)絡對數(shù)據(jù)進行了挖據(jù)和預測處理。
[1]戴禮燦.大數(shù)據(jù)檢索及其在圖像標注與重構中的應用[D].合肥:中國科學技術大學,2013:20-50.
[2]Katiuscia Sacco,Valetina Galletto,Enrico Blanzieri.How has the 9/11 terrorist attack influenced decision making[J]. Applied Cognitive Psychology,2002(9):1113-1127.
[3]Sarafidis Y.What have you done for me lately Release of information and strategic manipulation of memories[J].The Economic Journal,2007,117(3):307-326.
[4]Heyn T,Mazhar H,Seidl A,et al.Enabling computational dynamics in distributed computing environments using a heterogeneous computing template[C].ASME 2011 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference,2012(8): 227-236.
[5]陳芳.云計算架構下云政府模式研究[D].武漢:武漢大學,2012.
[6]Howe D,Costanzo M,F(xiàn)ey P,et al.Big data:the future of biocuration[J].2008(9):47-50.
[7]Zhang Feng,Xue Hui-Feng.Big data cleaning algorithms in cloud computing[J].International Journal of Online Engineering,2013,9(3):77-81.
[8]LI Zhong-tao,Weis T.Using zone code to manage a contentaddressable network for distributed simula-tions[C]//Proceedings of 2012 IEEE 14th International Conference on Communication Technology:[s.n.],2012:1350-1358.
[9]Wang Feng,Qiu Jie,Yang Jie,et al.Hadoop high availability through metadata replication[C]//Proceeding of the First International Workshop on Cloud Data Management:[s.n.],2009:37-44.
New mining architecture and prediction model for big data
YANG Fei,AI Xiao-yan,ZHANG Yong-heng,ZHANG Feng
(School of Information Engineering,Yulin University,Yulin 719000,China)
In order to improve the accuracy of big data mining and forecasting ability,to solve the traditional data mining technology cannot adapt to big data processing environment problem,using of cloud services and big data processing technology,a new mining architecture and forecast model for big data model based on BP neural network is proposed.The structure of big data processing platform,big data analysis and expression technology and big data mining and prediction model based on BP neural network is designed.Application results show that the scheme combining cloud service platform and big data mining technology can effectively dealing with massive data processing and expression has a certain predictive ability for the sales data.
big data;data mining;prediction model;BP neural network;sales data
TN391
A
1674-6236(2016)12-0029-04
2015-07-08稿件編號:201507072
榆林學院科研項目(14YK38),榆林市科技計劃項目(2014cxy-09)
楊斐(1982—),男,陜西榆林人,講師。研究方向:復雜系統(tǒng)理論與建模,管理系統(tǒng)工程。