李清 人民大學(xué)信息學(xué)院 100000
針對于金融數(shù)據(jù)分析工作來說,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到其中能夠有效的提升該項工作的質(zhì)量與效果,同時也能夠確保金融數(shù)據(jù)分析的水平得到優(yōu)化,在此期間需要對于該項工作做出全面的分析與探索,并且確保數(shù)據(jù)挖掘技術(shù)能夠使用在金融分析工作當(dāng)中,從而保證金融分析工作能夠為我國社會的發(fā)展做出更大的貢獻(xiàn)。
所謂的數(shù)據(jù)挖掘,其主要便是通過對于大量數(shù)據(jù)進(jìn)行總結(jié)與分析,從而探索在數(shù)據(jù)背后所隱藏的信息,在這個過程當(dāng)中需要對于計算機(jī)技術(shù)做出綜合應(yīng)用,同時能夠通過數(shù)據(jù)統(tǒng)計、數(shù)據(jù)分析、情報檢索、分析系統(tǒng)以及模式識別等主動方法來實現(xiàn)數(shù)據(jù)挖掘的目標(biāo)。總結(jié)來說,數(shù)據(jù)挖掘期間的一般步驟包括:定義問題、建立數(shù)據(jù)挖掘庫、分析數(shù)據(jù)、準(zhǔn)備數(shù)據(jù)、建立模型、評價模型、實施等方面的過程。
(1)定義問題:在數(shù)據(jù)挖掘期間,最為重要的問題便是對于數(shù)據(jù)進(jìn)行了解,同時明確其中的各項業(yè)務(wù),對于索要挖掘的數(shù)據(jù)具有一個清晰且明確的定義,也就是說,明確在這個過程當(dāng)中需要做什么,例如:在金融數(shù)據(jù)分析期間,想要做的主要事情便是對于金融數(shù)據(jù)做出分析,從而明確金融的走勢以及規(guī)律,隨后便可以基于以上問題建立相應(yīng)的模型,確定所需要分析的問題。
(2)建立數(shù)據(jù)挖掘庫:在建立數(shù)據(jù)挖掘庫期間主要包含以下方面的步驟:數(shù)據(jù)收集、數(shù)據(jù)描述、數(shù)據(jù)選擇、數(shù)據(jù)質(zhì)量評估以及數(shù)據(jù)整理,隨后對于其中的數(shù)據(jù)做出相應(yīng)的合并與整合,同時構(gòu)建出元數(shù)據(jù),加載數(shù)據(jù)挖掘庫,并且在此期間對于數(shù)據(jù)挖掘庫做出維護(hù)。
(3)分析數(shù)據(jù):在實踐當(dāng)中,對于數(shù)據(jù)進(jìn)行分析的目的主要便是預(yù)測數(shù)據(jù)影像最大的數(shù)據(jù)字段,同時決定是否需要定義導(dǎo)出字段,若是數(shù)據(jù)集包括成百上千的字段,在瀏覽分析期間對于以上數(shù)據(jù)的分析將會消耗較大的能力,這時便需要利用計算機(jī)技術(shù)來輔助處理以上數(shù)據(jù)【1】。
(4)數(shù)據(jù)準(zhǔn)備:在建立模型之前該項工作是最后一項數(shù)據(jù)準(zhǔn)備工作,在實踐當(dāng)中,該項工作可以分為以下四個步驟,即:選擇變量、選擇記錄、創(chuàng)建新變量、轉(zhuǎn)換變量。
(5)建立模型:針對于建立模型來說,其屬于一個較為復(fù)雜的過程,同時在此期間需要考量到不同的模型,隨后判斷何種類型的模型比較有用。可以通過部分?jǐn)?shù)據(jù)建立相應(yīng)的模型,隨后用其余的數(shù)據(jù)來對于所建立的模型做出測試與驗證。有時候還有第三個數(shù)據(jù)集,其也被成為驗證集,在此期間測試集可能會受到模型特征的影響,在此期間便需要一個獨立的數(shù)據(jù)集來對于模型的準(zhǔn)確性做出驗證。同時在測試期間還可以將數(shù)據(jù)模型分為兩個部分,一部分用于模型訓(xùn)練、另外一個用于模型測試。
(6)評價模型:在模型構(gòu)建完畢之后,還需要對于得到的結(jié)構(gòu)做出評價,同時對于模型的價值做出解釋。在測試集當(dāng)中所得到的準(zhǔn)確率只對用于建立模型的數(shù)據(jù)有意義【2】。在應(yīng)用期間,需要對于錯誤的類型做出全面的了解,同時明確由此所帶來的相關(guān)費用有多少。通過實踐證明,有效的模型與其正確性之間并沒有必然的聯(lián)系?;诖耍苯釉趯嶋H中的測試模型便顯得尤為重要,首先在小范圍內(nèi)做出應(yīng)用,取得測試數(shù)據(jù)之后,若是其能夠?qū)崿F(xiàn)既定的效果,才能夠在大范圍內(nèi)進(jìn)行推廣。
(7)實施:在模型構(gòu)建成功且驗證有效之后,便可以對其進(jìn)行使用,在一般情況下有兩種使用的方式,第一種便是將其提供給分析人員作為參考,第二種便是將此模型應(yīng)用到不同類型的數(shù)據(jù)集上面。
針對于數(shù)據(jù)挖掘的應(yīng)用來說,其為我國的眾多行業(yè)發(fā)展帶來了較為顯著的提升,這使得人們的生活充滿了智能化。同時,數(shù)據(jù)挖掘在金融行業(yè)當(dāng)中也取得了較為明顯的應(yīng)用,并且其也具有適用性較為廣泛的特點,尤其使在保險、金融、電子商務(wù)以及電信方面取得了較好的效果。下面,本文將針對數(shù)據(jù)挖掘在金融數(shù)據(jù)分析當(dāng)中應(yīng)用的適用性做出系統(tǒng)性的分析闡述。
(1)風(fēng)險控制:在金融數(shù)據(jù)分析當(dāng)中,風(fēng)險控制是其中一項重要的工作。在金融行業(yè)當(dāng)中,不同的因素會對于貸款償還和客戶信用等級計算所產(chǎn)生的影響也不盡相同。針對于數(shù)據(jù)挖掘的方法來說,例如特征選擇以及屬性相關(guān)性計算,這樣能夠?qū)τ谥匾囊蛩睾头窍嚓P(guān)因素有效的識別【3】。例如,與貨款償還風(fēng)險相關(guān)的因素,包括貨款率、貸款期限、負(fù)債率、償還與收入比率、客戶收入水平、受教育程度、居住地區(qū)、信用歷史等等。在這之中償還與收入比率是主導(dǎo)因素,受教育水平和負(fù)債率則不是。在此期間,銀行可以根據(jù)以上方面因素對于貨款發(fā)放政策做出一定的調(diào)整,以便將貨款發(fā)放給那些曾被拒絕但根據(jù)關(guān)鍵因素分析,其基本信息顯示是相對低風(fēng)險的申請者。
(2)交叉銷售:通過關(guān)聯(lián)分析,能夠有效的找出數(shù)據(jù)庫當(dāng)中的隱藏關(guān)聯(lián)網(wǎng),同時在銀行當(dāng)中儲存了大量的客戶交易信息,其能夠?qū)τ诳蛻舻氖杖胨?、消費習(xí)慣、購買物品等方面的指標(biāo)做出系統(tǒng)性的數(shù)據(jù)挖掘與分析,隨后便能夠得到客戶的潛在需求,這樣便能夠以此為據(jù)制定相關(guān)的政策與手段,從而提升銀行的經(jīng)濟(jì)效益。隨后還能夠?qū)τ阢y行的理財產(chǎn)品做出交叉分析,同時在其中找出關(guān)聯(lián)性較強(qiáng)的產(chǎn)品,這樣能夠?qū)τ诳蛻暨M(jìn)行具有針對性的關(guān)聯(lián)營銷,從而提升銀行的業(yè)績,這在金融行業(yè)當(dāng)中具有十分重要的意義。
3.基于數(shù)據(jù)挖掘的金融數(shù)據(jù)分析方法研究
針對于金融數(shù)據(jù)分析工作來說,其需要對于大量的數(shù)據(jù)做出分析與搜集,并且對于以上數(shù)據(jù)做出處理,大部分的銀行以及金融機(jī)構(gòu)都能夠提供豐富的銀行服務(wù)、信用服務(wù)或者是投資服務(wù),例如:個人存款、貸款、個人信用卡或者是基金投資等方面的服務(wù)。在此期間,由于交易的頻繁性,便需要從海量的數(shù)據(jù)當(dāng)中進(jìn)行數(shù)據(jù)的挖掘【4】。數(shù)據(jù)挖掘技術(shù)能夠有效的從這些信息當(dāng)中獲取有效的信息,并且?guī)椭O(jiān)管部門以及投資部門做出有效的監(jiān)督以及投資管理工作,同時也可對銀行部門描述客戶以往的需求趨勢具有幫助,并且能夠預(yù)測客戶的潛在需求,同時能夠?qū)τ跐撛谛抛u(yù)度較差的客戶做出分析,這樣才能夠有效的減少銀行在開展信貸業(yè)務(wù)期間的財產(chǎn)損失。
針對于金融行業(yè)來說,財務(wù)報表舞弊檢測工作具有極為重要的作用,其能夠有效的發(fā)現(xiàn)財務(wù)報表當(dāng)中所存在的問題,從而采取相應(yīng)的措施做出應(yīng)對。在當(dāng)前金融行業(yè)當(dāng)中,財務(wù)報表舞弊現(xiàn)象會造成極大的損失,同時這種情況的出現(xiàn),也逐漸開始引起了行業(yè)內(nèi)的重視。除了金融領(lǐng)域當(dāng)中,在社會保障與福利業(yè)中財務(wù)舞弊行為也是普遍存在的一種現(xiàn)象,這種情況的產(chǎn)生,對于我國的公信力產(chǎn)生了極大的影響。同時在舞弊行為當(dāng)中一般都會存在夸大財產(chǎn)、銷售額、利潤或者是低報債務(wù)以及開支等行為,雖然已經(jīng)有部分企業(yè)開始制定相應(yīng)的措施對于以上問題采取措施,但是仍然有公司已經(jīng)找到可以繞開預(yù)防措施的方法,同時在審計部門當(dāng)中也有可能會存在腐敗的現(xiàn)象,這便使該項工作的開展受到一定的局限【5】。而將數(shù)據(jù)挖掘技術(shù)應(yīng)用在財務(wù)報表舞弊檢測工作當(dāng)中,能夠有效的提升該項工作的質(zhì)量,同時通過對于其中的數(shù)據(jù)進(jìn)行收集,隨后建立相應(yīng)的數(shù)據(jù)模型,確保模型的有效性之后便可以將財務(wù)報表當(dāng)中的數(shù)據(jù)輸入到模型當(dāng)中,隨后便能夠發(fā)現(xiàn)在其中所存在的問題,并且能夠針對問題所產(chǎn)生的原因采取相應(yīng)的措施進(jìn)行規(guī)避,從而全面確保財務(wù)報表的準(zhǔn)確性。
針對于數(shù)據(jù)挖掘來說,其能夠有效的幫助企業(yè)實現(xiàn)對于有效信息的發(fā)掘,同時也能夠保證企業(yè)在發(fā)展期間對于自身的金融實力做出全面的分析與探索,這樣才能夠全面提升企業(yè)財務(wù)管理力度。除此之外,通過數(shù)據(jù)挖掘技術(shù),也能夠?qū)τ谄髽I(yè)財務(wù)在未來的發(fā)展趨勢做出預(yù)測,從而確保企業(yè)所做出的決策具有一定程度的前瞻性,同時也能夠通過數(shù)據(jù)挖掘技術(shù)來對于高性能的計算機(jī)做出利用,通過計算機(jī)來解決傳統(tǒng)領(lǐng)域當(dāng)中耗時耗力的金融問題,這樣才能夠有效的提升企業(yè)財務(wù)管理工作的質(zhì)量與效率,進(jìn)而確保企業(yè)能夠在市場競爭不斷劇烈的今天始終保持其核心競爭力。在數(shù)據(jù)挖掘技術(shù)當(dāng)中有一種基于自適應(yīng)人工神經(jīng)系統(tǒng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘算法,這種算法在實際應(yīng)用期間取得了較好的應(yīng)用,同時也令實際金融數(shù)據(jù)的分析工作當(dāng)中一些棘手的問題得到解決【6】。在一定程度上來說,這種算法屬于一種前饋式算法,能夠在數(shù)據(jù)挖掘期間提供一個非線性的預(yù)測模型,能夠依照神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)且從訓(xùn)練當(dāng)中得到學(xué)習(xí),這種方式相對于傳統(tǒng)的固定神經(jīng)網(wǎng)絡(luò)具有諸多優(yōu)勢,例如:結(jié)構(gòu)規(guī)模大幅度減少、學(xué)習(xí)過程更快,發(fā)展前景更好等。人工神經(jīng)網(wǎng)絡(luò)是一種使用復(fù)雜式識別機(jī)器學(xué)習(xí)算法的電腦程序,同時能夠在大型的數(shù)據(jù)庫中建立預(yù)測模型,在固定式算法當(dāng)中神經(jīng)元激活函數(shù)的選擇,都屬于固定的。在實踐應(yīng)用期間,模型的性能在一定程度上會受到該函數(shù)選擇的影響,所以為了確保性能達(dá)到更佳,便需要在分析期間采用包含自由參數(shù)的自適應(yīng)函數(shù),這樣能夠有效的提升企業(yè)財務(wù)分析的質(zhì)量與效果,從而確保企業(yè)能夠根據(jù)財務(wù)分析的結(jié)構(gòu)來制定相應(yīng)的生產(chǎn)發(fā)展策略,進(jìn)而使企業(yè)能夠?qū)崿F(xiàn)經(jīng)濟(jì)效益穩(wěn)定且高效的提升。
針對于數(shù)據(jù)挖掘來說,由于其在實際當(dāng)中需要對于大規(guī)模的數(shù)據(jù)做出處理,所以在實際應(yīng)用期間其對于運算速度的要求較高,在當(dāng)前的金融行業(yè)當(dāng)中,面臨龐大的數(shù)據(jù)處理需求,尤其是數(shù)據(jù)資料在各個機(jī)構(gòu)之間共享的期間,更加需要做好數(shù)據(jù)處理工作。在傳統(tǒng)的處理方式上面,為了能夠有效的保證數(shù)據(jù)的完整性以及穩(wěn)定性,通常會將數(shù)據(jù)進(jìn)行集中控制。這種方式在一般情況下通過單一單元進(jìn)行,通常為一部機(jī)器,基于此,人們提出了分布式計算來提升數(shù)據(jù)挖掘的效率。例如,在實踐當(dāng)中為一個使用云軟件的開源工作和平臺提供分布式處理的能力。在此期間,數(shù)據(jù)挖掘能夠在大規(guī)模的數(shù)據(jù)當(dāng)中提取或者是挖掘出有效的信息,并且這方面的知識在實踐當(dāng)中具有一定潛在性的特征,只有通過深入的分析與挖掘的手段才能夠發(fā)現(xiàn)其中的有效信息【7】。在所需要處理數(shù)據(jù)數(shù)量較大的情況下,若是可以利用資源有限,便有可能會導(dǎo)致數(shù)據(jù)挖掘的實效性受損。基于此,為了有效的對于市場當(dāng)中的動態(tài)做出相應(yīng)的分析,便需要對于多重的資源做出整合,并且采用云計算的方式,對于互聯(lián)網(wǎng)上面分布的計算能力和儲存資源做出協(xié)調(diào),即能力的不平衡性以及多樣性對于分布式計算的算法構(gòu)架提出了更高的要求,這樣才能全面提升數(shù)據(jù)挖掘工作的質(zhì)量,并且確保金融數(shù)據(jù)分析工作的質(zhì)量達(dá)到更佳。在實踐應(yīng)用期間,其具體可以分為以下兩步:第一,在開源的云平臺上面為真實的金融應(yīng)用運行多個不同類型的虛擬機(jī)器從而對于其分析以及協(xié)處理方式做出調(diào)查 第二,建立能夠向不同終端分別發(fā)送待處理要求的機(jī)制。在以上過程當(dāng)中,需要擁有用戶與用戶之間的通信,所以在實際應(yīng)用期間也有必要建立相應(yīng)的P2P網(wǎng)絡(luò)結(jié)構(gòu)。通過以上方式,能夠有效的減少在數(shù)據(jù)挖掘期間的資源消耗并且能夠縮減數(shù)據(jù)挖掘的實踐,從而為金融行業(yè)提供有力的決策支持。
結(jié)束語:綜上所述,在金融數(shù)據(jù)工作當(dāng)中,為了確保該項工作的質(zhì)量達(dá)到更優(yōu),便需要對于該項工作做出系統(tǒng)性的分析,并且在該項工作當(dāng)中融入數(shù)據(jù)挖掘的方式,這樣便能夠提升金融數(shù)據(jù)分析結(jié)論的可靠性與準(zhǔn)確性,從而確保企業(yè)能夠全面提升對于自身資金的掌控能力。