□文/霍 亮 楊 柳 霍 烽
(1.河北金融學(xué)院;2.河北大學(xué)經(jīng)濟管理實驗教學(xué)中心;3.保定市科學(xué)技術(shù)協(xié)會 河北·保定)
(一)數(shù)據(jù)挖掘簡介。從技術(shù)角度看,數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機的實際數(shù)據(jù)中提取隱含在其中的、人們所不知道的但又是潛在有用的信息和知識的過程。簡言之,數(shù)據(jù)挖掘?qū)嶋H上是一種深層次的數(shù)據(jù)分析方法。
(二)數(shù)據(jù)挖掘的主要步驟
1、問題定義。數(shù)據(jù)挖掘是指在大量數(shù)據(jù)中發(fā)現(xiàn)有用的令人感興趣的信息,因此哪種信息是我們感興趣的,就成了數(shù)據(jù)挖掘的首要問題。
2、數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備又可分為三個步驟,即數(shù)據(jù)選取、數(shù)據(jù)預(yù)處理和數(shù)據(jù)變換。數(shù)據(jù)選取的目的是根據(jù)用戶的需要從原始數(shù)據(jù)庫中抽取一組數(shù)據(jù)。數(shù)據(jù)預(yù)處理一般包括消除噪聲、消除重復(fù)記錄、完成數(shù)據(jù)類型的轉(zhuǎn)換等。數(shù)據(jù)變換的目的是消減數(shù)據(jù)的維數(shù),即從初始特征中找出真正有用的特征。
3、數(shù)據(jù)挖掘。根據(jù)對問題的定義明確挖掘的任務(wù)或目的,如分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等。
4、結(jié)果解釋和評估。數(shù)據(jù)挖掘的結(jié)果有些是有實際意義的,而有些是沒有意義的,或是與實際情況相違背的,這就需要對結(jié)果進(jìn)行評估。
5、分析決策。數(shù)據(jù)挖掘的最終目的是輔助決策。決策者可以根據(jù)數(shù)據(jù)挖掘的結(jié)果,結(jié)合實際情況,調(diào)整競爭策略等。
總之,以上步驟不是一次完成的,可能其中某些步驟或者全部要反復(fù)進(jìn)行,才有可能達(dá)到預(yù)期的效果。
數(shù)據(jù)挖掘通過預(yù)測未來趨勢及行為,做出前瞻的、基于知識的決策。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)庫中發(fā)現(xiàn)隱含的、有意義的知識,主要有以下五類功能:
1、自動預(yù)測。數(shù)據(jù)挖掘技術(shù)能夠自動在大型數(shù)據(jù)倉庫中尋找到預(yù)測性信息。過去需要進(jìn)行大量手工分析的問題,如今可以迅速直接地由數(shù)據(jù)本身得出結(jié)論。例如,數(shù)據(jù)挖掘技術(shù)能夠使用過去有關(guān)信用卡促銷的數(shù)據(jù)來尋找未來信用卡消費中能使銀行獲取最大盈利的客戶。
2、分析關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是指數(shù)據(jù)倉庫中存在著某類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)可分為簡單關(guān)聯(lián)、時序關(guān)聯(lián)、因果關(guān)聯(lián)。分析是否關(guān)聯(lián)的目的是找出數(shù)據(jù)倉庫中隱藏的關(guān)聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)倉庫中數(shù)據(jù)的關(guān)聯(lián)函數(shù),即使知道也是不確定的,因此由分析數(shù)據(jù)關(guān)聯(lián)度而生成的規(guī)則是具有可信度的,是有價值的知識。
3、劃分聚類。數(shù)據(jù)倉庫中的記錄可被劃分為一系列有意義的子集,即聚類。應(yīng)用聚類技術(shù)可以增強人們對客觀現(xiàn)實的認(rèn)識,是概念描述和偏差分析的先決條件。聚類技術(shù)主要包括傳統(tǒng)的模式識別方法和數(shù)學(xué)分類學(xué)。聚類技術(shù)的核心是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內(nèi)涵描述,從而避免了傳統(tǒng)技術(shù)的某些片面性。
4、概念描述。概念描述就是對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
5、偏差檢測。數(shù)據(jù)倉庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)倉庫中檢測這些偏差很有意義。偏差往往包含很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結(jié)果與模型預(yù)測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結(jié)果與參照值之間有意義的差別。
(一)風(fēng)險管理。數(shù)據(jù)挖掘在銀行業(yè)的重要應(yīng)用之一是風(fēng)險管理,如信用風(fēng)險評估??赏ㄟ^構(gòu)建信用評級模型,評估貸款申請人或信用卡申請人的風(fēng)險。對于銀行賬戶的信用評估,可采用直觀量化的評分技術(shù)。以信用評分為例,通過由數(shù)據(jù)挖掘模型確定的權(quán)重,給每項申請的各指標(biāo)打分,加總得到該申請人的信用評分情況。銀行根據(jù)信用評分決定是否接受申請,確定信用額度。通過數(shù)據(jù)挖掘,還可以偵查異常的信用卡使用情況,確定極端客戶的消費行為。通過建立信用欺詐模型,幫助銀行發(fā)現(xiàn)具有潛在欺詐性的事件,開展欺詐偵查分析,預(yù)防和控制資金非法流失。
(二)客戶管理。在銀行客戶管理生命周期的各個階段都會用到數(shù)據(jù)挖掘技術(shù)。
1、獲取客戶。發(fā)現(xiàn)和開拓新客戶對任何一家銀行來說都至關(guān)重要。通過探索性的數(shù)據(jù)挖掘方法,如自動探測聚類和購物籃分析,可以用來找出客戶數(shù)據(jù)庫中的特征,預(yù)測對于銀行營銷活動的響應(yīng)率??梢园芽蛻暨M(jìn)行聚類分析,讓其自然分群,通過對客戶的服務(wù)收入、風(fēng)險、成本等相關(guān)因素的分析、預(yù)測和優(yōu)化,找到新的可贏利目標(biāo)客戶。
2、保留客戶。通過數(shù)據(jù)挖掘,發(fā)現(xiàn)流失客戶的特征后,銀行可以在具有相似特征的客戶未流失之前,采取額外增值服務(wù)、特殊待遇和激勵忠誠度等措施保留客戶。通過數(shù)據(jù)挖掘技術(shù),可以預(yù)測哪些客戶將停止使用銀行的信用卡,而轉(zhuǎn)用競爭對手的卡。銀行可以采取措施來保持這些客戶的信任。
數(shù)據(jù)挖掘技術(shù)可以識別導(dǎo)致客戶轉(zhuǎn)移的關(guān)聯(lián)因子,用模式找出當(dāng)前客戶中相似的可能轉(zhuǎn)移者,通過孤立點分析法可以發(fā)現(xiàn)客戶的異常行為,從而使銀行避免不必要的客戶流失。數(shù)據(jù)挖掘工具,還可以對大量的客戶資料進(jìn)行分析,建立數(shù)據(jù)模型,確定客戶的交易習(xí)慣、交易額度和交易頻率,分析客戶對某個產(chǎn)品的忠誠程度、持久性等,從而為他們提供個性化定制服務(wù),以提高客戶忠誠度。
3、優(yōu)化客戶服務(wù)。銀行業(yè)競爭日益激烈,客戶服務(wù)的質(zhì)量是關(guān)系到銀行發(fā)展的重要因素。為客戶提供優(yōu)質(zhì)和個性化的服務(wù),是取得客戶信任的重要手段。如,通過分析客戶對產(chǎn)品的應(yīng)用頻率、持續(xù)性等指標(biāo)來判別客戶的忠誠度,通過交易數(shù)據(jù)的詳細(xì)分析來鑒別哪些是銀行希望保持的客戶。找到重點客戶后,銀行就能為客戶提供有針對性的服務(wù)。
[1]Jiawei Han,Mi chel i ne Kamber. 范明,孟小峰譯.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機械工業(yè)出版社,2007.3.
[2]方蕾,王金桃.數(shù)據(jù)挖掘在客戶生命周期中的應(yīng)用研究[J].武漢理工大學(xué)學(xué)報(信息與管理工程版),2008.4.
[3]王實等.銀行業(yè)CRM理論與實務(wù)[M].北京:電子工業(yè)出版社,2005.