胡炎非
在過去10年里,人們使用信息技術處理和收集數(shù)據(jù)的能力得到極大的提高,數(shù)百萬個數(shù)據(jù)庫被廣泛應用于商業(yè)、政府、科學研究和工程實施等領域。但這也帶來了新的挑戰(zhàn),一方面,數(shù)據(jù)過剩幾乎成為每個人都必須面臨的問題;另一方面,各類企業(yè)又往往面臨信息不足的問題。本研究就是從這些問題出發(fā),通過研究數(shù)據(jù)挖掘技術,為系統(tǒng)提供新的知識數(shù)據(jù)庫。金融部門的日常業(yè)務都會產(chǎn)生大量數(shù)據(jù),利用現(xiàn)有的數(shù)據(jù)庫系統(tǒng),可以有效地實現(xiàn)數(shù)據(jù)錄入、查詢、統(tǒng)計等功能,但找不到數(shù)據(jù)中存在的關系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預測未來的發(fā)展趨勢。由于缺乏挖掘數(shù)據(jù)背后隱藏知識的手段,導致出現(xiàn)“數(shù)據(jù)爆炸但知識匱乏”的現(xiàn)象。同時,金融機構(gòu)的經(jīng)營必然存在金融風險,風險管理是各金融機構(gòu)的重要工作。數(shù)據(jù)挖掘技術的使用不僅可以從大量的數(shù)據(jù)中找到隱藏的規(guī)律,還可以降低金融機構(gòu)的風險。學習和應用數(shù)據(jù)挖掘技術對我國的金融機構(gòu)具有重要意義。
金融風險是指可能導致企業(yè)、事業(yè)單位財產(chǎn)損失的風險,即企業(yè)未來收入的不確定性和波動性。根據(jù)金融風險的來源,可分為靜態(tài)風險和動態(tài)風險;按風險范圍可分為微觀風險和宏觀風險;按金融機構(gòu)類別可分為銀行風險、證券風險、保險風險和信托風險等。通過對風險的測量和理解,采取相應的措施和處置方案,使風險最小化,利潤最大化??梢?,金融風險監(jiān)測是一種規(guī)范金融投資安全與盈利能力之間平衡的金融管理方法。
在大數(shù)據(jù)時代,數(shù)據(jù)規(guī)模越來越大,價值密度也越來越低。數(shù)據(jù)挖掘是此背景下產(chǎn)生的一種技術,主要功能是幫助人們挖掘數(shù)據(jù)信息的價值,并被廣泛應用于商業(yè)信息處理領域。數(shù)據(jù)挖掘可以實現(xiàn)對商業(yè)業(yè)務數(shù)據(jù)信息的讀取、轉(zhuǎn)化、分析和智能處理,為商業(yè)決策活動提供強有力的支持。
數(shù)據(jù)挖掘也被稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn),是目前人工智能和數(shù)據(jù)庫領域的一個熱點問題。所謂數(shù)據(jù)挖掘指的是從數(shù)據(jù)庫中的大量數(shù)據(jù)中挖掘隱式的、先前未知的和有潛在價值的信息。數(shù)據(jù)挖掘是一種決策支持過程,主要基于人工智能、機器學習、模式識別、統(tǒng)計學、數(shù)據(jù)庫、可視化技術等。數(shù)據(jù)挖掘?qū)τ诜治銎髽I(yè)數(shù)據(jù)再加以歸納推理,并從中挖掘潛在的信息是高度自動化的,有利于幫助決策者調(diào)整市場策略,降低風險,做出正確的決策。
數(shù)據(jù)分析常用的數(shù)據(jù)挖掘方法有分類、神經(jīng)網(wǎng)絡、回歸分析和偏差分析等,它們分別從不同角度對數(shù)據(jù)進行挖掘。
(1)分類
分類是為了查明數(shù)據(jù)庫中一組數(shù)據(jù)對象的共同特征,并按分類模式分為不同的類,目的是通過分類模型將數(shù)據(jù)庫中的數(shù)據(jù)項映射到某個給定的類別??蓱糜诳蛻舴诸?、客戶屬性和特征分析、顧客滿意度分析、顧客購買趨勢預測等,如汽車零售商根據(jù)客戶的喜好,將汽車分為不同的類別,從而將新車的廣告手冊直接郵寄給具有這些偏好的客戶,從而大大增加交易機會。
(2)神經(jīng)網(wǎng)絡
神經(jīng)網(wǎng)絡具有良好的魯棒性、自組織適應性、并行處理、分布式存儲和高容錯能力,非常適合解決數(shù)據(jù)挖掘問題,近年來引起越來越多人的關注。典型的神經(jīng)網(wǎng)絡模型主要分為三類:以感知機、BP反向傳播模型、函數(shù)型網(wǎng)絡為代表的,用于分類、預測和模式識別的前饋式神經(jīng)網(wǎng)絡模型;以Hopfield的離散模型和連續(xù)模型為代表的,分別用于聯(lián)想記憶和優(yōu)化計算的反饋式神經(jīng)網(wǎng)絡模型;以ART模型、Koholon模型為代表的,用于聚類的自組織映射。神經(jīng)網(wǎng)絡的缺點是“黑盒”性,使人們難以理解網(wǎng)絡的學習和決策過程。
(3)回歸分析
回歸分析反映了數(shù)據(jù)庫中屬性值的特征,產(chǎn)生了將數(shù)據(jù)項映射到實值預測變量,并發(fā)現(xiàn)變量或?qū)傩灾g依賴性的函數(shù)。主要的研究問題包括數(shù)據(jù)序列的趨勢特征、數(shù)據(jù)序列的預測和數(shù)據(jù)之間的相關性。它可以適用于市場營銷的各個方面,如客戶尋求、保持和預防客戶流失活動、產(chǎn)品生命周期分析、銷售趨勢預測以及有針對性的促銷活動等。
數(shù)據(jù)挖掘是為了解決傳統(tǒng)分析方法的不足,并處理大規(guī)模的數(shù)據(jù)分析。數(shù)據(jù)的快速增長和數(shù)據(jù)分析方法的持續(xù)進步,使人們能夠在現(xiàn)有的大量數(shù)據(jù)分析的基礎上提取隱藏在數(shù)據(jù)背后的有用信息。
信用風險的數(shù)據(jù)挖掘評估包括銀行信用卡風險評估和貸款信用評估等。信用風險是指不可抗力和惡意欺詐造成的、使債務人不能或不愿履行已簽訂合同而給銀行造成的損失。銀行對個人和企業(yè)的財務狀況發(fā)生變化的過程往往不能及時了解或者說被循環(huán)信用掩蓋。通過數(shù)據(jù)挖掘技術,對區(qū)域差異、個人知識水平、收入水平、經(jīng)濟環(huán)境狀況、社會地位等客戶信用的影響因素進行挖掘,可以迅速建立用戶信用等級,然后給出不同的信用額度。它還可以全面揭示信用風險的關系和特征,提高信用違約預測的準確性。Frydmann et al(1985)首次將決策樹模型運用于違約企業(yè)和非違約企業(yè)的分類。此后,許多人將決策樹模型、神經(jīng)網(wǎng)絡法和遺傳算法用于違約判斷,以期得到更好的分類效果。目前市場上,數(shù)據(jù)挖掘工具提供了完整的展現(xiàn),如Brio公司的Brio. Enterprise,能全方位、多層次展現(xiàn)數(shù)據(jù)分析結(jié)果。
財務危機的本質(zhì)是財務風險的規(guī)模和高強度的集中爆發(fā),主要表現(xiàn)為財務狀況的極端惡化、支付危機,甚至破產(chǎn)。這些公司都不同程度出現(xiàn)以下狀況:無法償還到期債務、巨額投資沒有回報、現(xiàn)金流不足、產(chǎn)品銷售不良、大量庫存積壓、涉及巨額訴訟賠償,以及主營業(yè)務嚴重收縮。財務危機預警模型的建立可以為企業(yè)經(jīng)營失敗和財務管理錯誤進行早期預警和早期控制,為決策者、投資者和債權人提供重要信息。國內(nèi)外學者利用數(shù)據(jù)挖掘中的主成分分析、邏輯回歸、線性回歸和神經(jīng)網(wǎng)絡等方法,來建立財務危機預警模型。首先根據(jù)特征向量和主成分貢獻率,計算出對于財務狀況影響最大的財務指標;接著以預測期公司的財務狀況為目標變量;然后運用邏輯回歸方法和決策樹方法對公司財務狀況進行預測;最后把各家公司綜合評分作為目標變量,采用線性回歸和神經(jīng)網(wǎng)絡方法進行公司財務危機預警分析。
數(shù)據(jù)挖掘作為一種深度數(shù)據(jù)信息分析方法,對傳統(tǒng)評價方法無法獲得的各種因素之間隱藏的內(nèi)部聯(lián)系進行綜合分析。該技術的應用無疑有利于金融風險監(jiān)測,能夠提供風險預警,使管理者能夠提前準備,提供決策參考信息,大大降低風險,提高企業(yè)競爭力,促進企業(yè)快速發(fā)展。