梁 旭 王曉霞
(1.張家口市生產(chǎn)力促進中心,河北 張家口 075000;2.中國人民銀行張家口市中心支行,河北 張家口 075000)
?
數(shù)據(jù)挖掘與基于多維數(shù)據(jù)庫的在線分析系統(tǒng)OLAP淺析
梁旭1王曉霞2
(1.張家口市生產(chǎn)力促進中心,河北 張家口 075000;2.中國人民銀行張家口市中心支行,河北 張家口 075000)
摘要:數(shù)據(jù)挖掘和OLAP都是在商業(yè)智能家族中重要的分析技術(shù).對于能夠?qū)崿F(xiàn)的商業(yè)智能的最深層次,在商業(yè)智能的解決方案中數(shù)據(jù)挖掘處于較為重要的位置.隨著存儲器存儲容量的增長,收集的數(shù)據(jù)變得如此之多,以至對于實際利用中存儲的數(shù)據(jù)開始遭到限制.提煉已有數(shù)據(jù)中的知識,使數(shù)據(jù)的內(nèi)在價值獲得提高是數(shù)據(jù)挖掘的主要目的.數(shù)據(jù)挖掘與OLAP是相輔相成的,并將會獲得進一步分析的能力,彼此之間同時也可以在其特征中得到好處.
關(guān)鍵詞:數(shù)據(jù)挖掘分析技術(shù);數(shù)據(jù)收集;預(yù)測;OLAP;聚類
1數(shù)據(jù)挖掘的商業(yè)應(yīng)用
數(shù)據(jù)挖掘這項技術(shù)幾乎可用于所有商業(yè)應(yīng)用,解決各種商業(yè)問題.事實上,當今并不缺少可用的軟件,只要有使用數(shù)據(jù)挖掘的動機,并掌握了實際技術(shù),就可以采用數(shù)據(jù)挖掘技術(shù).下面列舉了幾種數(shù)據(jù)挖掘的應(yīng)用.
1.1異常檢測
如何知道數(shù)據(jù)是正常的還是有問題呢?數(shù)據(jù)挖掘可以分析數(shù)據(jù),并挑選出那些不同與其余項的項.信用卡公司使用具有異常檢測功能的數(shù)據(jù)挖掘驅(qū)動來對某個特定的交易的有效性進行確定.當有交易異常被數(shù)據(jù)挖掘系統(tǒng)指出后,公司將會給客戶打電話,以使客戶本人是否在使用信用卡得已確認.
1.2客戶流失分析
各個行業(yè)現(xiàn)如今正面臨著的競爭是日趨激烈的,分毫之間,自己的客戶就會成為競爭對手的客戶.據(jù)電信公司統(tǒng)計,發(fā)展一個新客戶需要廣告費用等超過1000元人民幣的市場投資,每流失一個老客戶公司年損失2000元人民幣.各個公司都力所能及的發(fā)展和留住客戶.通過流失性分析,市場部經(jīng)理能夠了解可能會流失哪些客戶以及這些客戶流失的原因.同時可以進一步去地完善、改善公司與客戶的關(guān)系,最后將客戶留下來.
1.3風(fēng)險管理
給某客戶的一項貸款應(yīng)該批準嗎?因為次級抵押貸款有風(fēng)險,所以在銀行業(yè)中出現(xiàn)這樣的問題是很常見的.數(shù)據(jù)挖掘技術(shù)會幫助貸款的提供方,這是為了能確定貸款申請的風(fēng)險,做出正確的決策去保證每一個貸款申請的有效性和成本.
1.4預(yù)測
這個超市下個星期能賣多少瓶可樂?每個月最合理的庫存是多少?數(shù)據(jù)挖掘預(yù)測技術(shù)能夠回答這種與時間相關(guān)的問題.
2數(shù)據(jù)挖掘的任務(wù)
很多任務(wù)問題都可能被涉及到,特別是對于每一個由數(shù)據(jù)挖掘系統(tǒng)所提出的問題.有些時侯,只有應(yīng)用涉及單一任務(wù)于其中時,才會有明顯的解決措施.然而更多時候為可能獲得更完善的解決方案,是需要去研究并整合多個任務(wù)的.下面將要介紹幾類數(shù)據(jù)挖掘任務(wù)都是實際中經(jīng)常見到的.
2.1分類
處于數(shù)據(jù)挖掘任務(wù)之一的分類,是最常見的任務(wù).而分類通常會涉及在像廣告定位、風(fēng)險管理和客戶流失分析這一類的商業(yè)問題之中.
每個事例中自然都會包含有相應(yīng)的一組屬性,在眾多事例的屬性中有一個叫做類別屬性.將按照多個類別區(qū)分每個事例,這樣的行為稱作是分類.貝葉斯算法、神經(jīng)網(wǎng)絡(luò)算法和決策樹算法是典型的分類算法.
2.2關(guān)聯(lián)
關(guān)聯(lián)也被稱作是進行購物籃分析.對銷售事物表作分析,并且在一個購物籃中識別出出現(xiàn)的那些商品是一個相當常見的關(guān)聯(lián)問題.在確定常見規(guī)則集和物品集的過程中,通常采用關(guān)聯(lián),將交叉銷售的目的實現(xiàn).
2.3聚類
聚類分析憑借一組屬性對事例作出分組,也稱作細分.多多少少會有相似的屬性值出現(xiàn)于同一個聚類的事例當中.
聚類分析是沒有任何屬性用于訓(xùn)練過程的指導(dǎo),是一種無監(jiān)督狀態(tài)下的挖掘數(shù)據(jù)的任務(wù).所以,將平等對待任何的輸入屬性.通過多次迭代來構(gòu)建模型是大多數(shù)聚類算法的方法,也就是說,算法停止會在模型收斂時發(fā)生.換言之,當出現(xiàn)穩(wěn)定的細分邊界時算法將會自動停止.
2.4預(yù)測
有一類重要的數(shù)據(jù)挖掘任務(wù)稱為預(yù)測.這些問題可通過預(yù)測幫忙解決:下個季度服裝的銷售量將是多少?而下周蘋果的股票價格又將會多少?采用數(shù)列作為輸入,表示一系列時間值是預(yù)測技術(shù)的常用方法,各種能處理數(shù)據(jù)的噪聲分析、趨勢分析和周期性分析是要運用計算機去完成的,再對這些序列未來的值作出估算則用統(tǒng)計技術(shù)來實現(xiàn)的.
2.5回歸
與分類任務(wù)類似,但并非是查找描述類的模式稱作回歸任務(wù).舉一個例子——回歸中的線性線段擬合技術(shù),輸出是可以通過輸入的值進行確定的,并且是以一個函數(shù)作為結(jié)果.邏輯回歸和線性回歸是回歸最流行的使用技術(shù).查找模式以確定數(shù)值是它的目的.支持數(shù)值輸入以及分類輸入是回歸形式高級表現(xiàn).
3數(shù)據(jù)挖掘項目的生命周期
從最初的商業(yè)問題形成到具體的部署和維護管理,大多數(shù)數(shù)據(jù)挖掘項目都要經(jīng)歷相同的階段:商業(yè)問題的形成,數(shù)據(jù)收集,數(shù)據(jù)轉(zhuǎn)換和清理,模型構(gòu)建,模型評估等.
3.1商業(yè)問題的形成
首先要明白客戶提出的重要問題.開始項目之前遇到了什么問題?解決此問題將采用什么方法?是否能知道如何解決問題?這些都是要考慮的內(nèi)容.如此以來許多商業(yè)問題的結(jié)果是出人意料的.
通常我們會需要確定一些未知的東西并且這些未知東西是以其具有一定價值作為前提的,數(shù)據(jù)挖掘解決方案或預(yù)言方案正是需要如此工作.一般來講可以獲得140%的投資回報,這需要采用成功的數(shù)據(jù)挖掘解決方案.如此一來論證工作將會變得更基礎(chǔ),更簡單.
3.2數(shù)據(jù)收集
企業(yè)的許多系統(tǒng)往往是商業(yè)數(shù)據(jù)存儲的地方.把相關(guān)的數(shù)據(jù)放到一個數(shù)據(jù)集市或者數(shù)據(jù)庫是第一步,同時在數(shù)據(jù)集市或數(shù)據(jù)庫中應(yīng)用數(shù)據(jù)分析.但是在少數(shù)情況下,數(shù)據(jù)倉庫中的現(xiàn)有數(shù)據(jù)可能會出現(xiàn)數(shù)據(jù)殘缺或匱乏的情況,所以一些額外的數(shù)據(jù)還需要被補充進入數(shù)據(jù)倉庫.
3.3數(shù)據(jù)轉(zhuǎn)換和清理
在數(shù)據(jù)的挖掘項目中,最消耗資源的一步是數(shù)據(jù)轉(zhuǎn)換和清理.修改數(shù)據(jù)源是數(shù)據(jù)轉(zhuǎn)換的目的,使它可用于數(shù)據(jù)挖掘.除去數(shù)據(jù)不相關(guān)的信息和集中的“噪聲”則是數(shù)據(jù)清理的目的.目前數(shù)據(jù)轉(zhuǎn)換和清理的技術(shù)有聚集、分組、數(shù)值轉(zhuǎn)換、刪除孤立點和缺失值處理.
3.4模型構(gòu)建
數(shù)據(jù)挖掘任務(wù)的核心就是進行模型的構(gòu)建,資源和時間不密集是它與數(shù)據(jù)轉(zhuǎn)換的差別.接下來會相對容易地選擇合適的算法,尤其在是理解和掌握了數(shù)據(jù)挖掘任務(wù)的類型和常見商業(yè)問題的狀況后.但是在構(gòu)建模型之前有一點情況不可否認,很多時候我們不知道到底哪一種算法是最合適的.而算法精確度是依靠數(shù)據(jù)本身的性質(zhì)作為質(zhì)量保障的.用一些工具評估來這些模型的精確度,然后構(gòu)建多個使用不同算法的模型來作比較則是一種正確的方法.優(yōu)化模型的精確度可以通過參數(shù)設(shè)置的調(diào)整來實現(xiàn),特別是同一算法構(gòu)建的模型.
3.5模型評估
模型進行評估階段時,不僅要確定所發(fā)現(xiàn)模式的意義,將所構(gòu)建模型的精確度進行評估,還必須加以考慮如何將它們?nèi)谌胗跇I(yè)務(wù)中并作出分析模型.模型之中會存在沒有用的模式,正是由于解決業(yè)務(wù)問題所需要的最適合的變量并不是模型中的一組變量.為了可以衍生出的變量更有意義,可能會需要反復(fù)地執(zhí)行步驟如數(shù)據(jù)轉(zhuǎn)換和清理,重新定義問題甚至也會使用到.適合的模型通常要經(jīng)過多次循環(huán)才能找到,而數(shù)據(jù)挖掘就是這樣的一個循環(huán)過程.
4基于多維數(shù)據(jù)庫的OLAP
OLAP和數(shù)據(jù)挖掘都是重要的分析技術(shù),且都會存在于商業(yè)智能家族中.數(shù)據(jù)挖掘與OLAP是相輔相成的,并將會獲得進一步分析的能力,彼此之間同時也可以在其特征中得到好處.數(shù)據(jù)挖掘找出數(shù)據(jù)集的隱藏模式往往是通過分析屬性值之間的相關(guān)性來實現(xiàn)的.它將不同類型的數(shù)據(jù)點分成子組,從而在每個子組中的數(shù)據(jù)點或多或少是類別相同的.數(shù)據(jù)挖掘的基本過程之一是分析屬性和屬性值之間的相關(guān)性.統(tǒng)計學(xué)家對該問題研究了幾個世紀.許多深奧的統(tǒng)計學(xué)理論今天仍然在應(yīng)用.
聚集大量事務(wù)數(shù)據(jù)的OLAP卻是根據(jù)對維的理解來進行的.OLAP服務(wù)器能處理大量的多維數(shù)據(jù),同時其本身也屬于數(shù)據(jù)庫服務(wù)器中的特殊類型.聚集計算是眾所周知OLAP的核心技術(shù).OLAP需要處理RDBMS需要解決的大多數(shù)任務(wù),包括索引、查詢、持久性和數(shù)據(jù)緩存等.然而,因為OLAP服務(wù)器具有多維性,所以它不能在沒有進行重要改進的情況下就簡單的應(yīng)用關(guān)系技術(shù).
使用OLAP來對預(yù)算、金融、銷售和各種其他類型應(yīng)用的聚集信息做分析在決策支持系統(tǒng)中是常見的.立方體是多維的數(shù)據(jù)庫.為快速實現(xiàn)決策支持查詢是構(gòu)建OLAP立方體的目的.典型的立方體包含一組定義明確的維,每個維包含許多成員.查詢聚集的值可以在不同級別層次上得以操作.
存儲預(yù)先計算的聚集于特定的數(shù)據(jù)結(jié)構(gòu)中,依據(jù)不同維的層次作聚集度量是OLAP在線分析系統(tǒng)的主要作用.為獲得實時返回決策支持查詢得到的結(jié)果可以通過這樣的幫助如特殊索引或者預(yù)聚集,并隨時可對聚集的數(shù)據(jù)進行查詢,而在脫機模式和批處理下才能完成這傳統(tǒng)的方式.
5總結(jié)
在企業(yè)中能夠把存有的數(shù)據(jù)轉(zhuǎn)化為知識,并協(xié)助企業(yè)做出有關(guān)業(yè)務(wù)經(jīng)營類決策的工具通常被理解的商業(yè)智能.企業(yè)業(yè)務(wù)系統(tǒng)的交易賬目、庫存、訂單、供應(yīng)商和客戶等競爭對手和企業(yè)本身所處行業(yè)的這些數(shù)據(jù)以及處于外部環(huán)境中的企業(yè)的一些數(shù)據(jù)都是這里所談的數(shù)據(jù).且商業(yè)智能能對業(yè)務(wù)的經(jīng)營決策過程作出幫助,既包括戰(zhàn)略層和戰(zhàn)術(shù)層的決策,也包括操作層面的的決策.聯(lián)機分析處理(OLAP)工具、數(shù)據(jù)倉庫和數(shù)據(jù)挖掘等技術(shù)是商業(yè)智能策略為實現(xiàn)將數(shù)據(jù)轉(zhuǎn)化為知識而需要的能互相支撐的技術(shù).
Analysis on Data mining and OLAP of Multidimensional database-based Online Analysis System
LIANG Xu1,WANG Xiao-xia2
(1.Zhangjiakou Productivity Promotion Center,Zhangjiakou,Hebei 075000;2.Zhangjiakou Central Sub-branch,The People’s Bank of China,Zhangjiakou,Hebei 075000)
Abstract:Data mining and On-line Analytical Processing (OLAP) are two important analysis technologies in the family of business intelligence.Data mining occupies a more important position in business intelligence solutions.Along with the increasing of storage capacity,the collected data has become so large that the actual use of the data stored is beginning limited.It is the main purpose of data mining to refine knowledge in existing data to improve the intrinsic value of data.Data mining and OLAP are complementary to each other,which can gain the ability to further analysis and benefit from each other’s characteristics.
Key words:analysis technology of data mining;data collection;prediction;On-line Analytical Processing(OLAP);clustering
收稿日期:2015-12-06
作者簡介:梁旭(1988-),男,大學(xué)本科,助理工程師,從事計算機應(yīng)用研究.
中圖分類號:TP 3
文獻標識碼:A