[摘 要] 本文從數(shù)據(jù)挖掘系統(tǒng)原型架構(gòu)出發(fā),結(jié)合財(cái)務(wù)數(shù)據(jù)的特點(diǎn)分析、財(cái)務(wù)數(shù)據(jù)挖掘的一般過(guò)程和XBRL技術(shù),設(shè)計(jì)出一種基于XBRL的財(cái)務(wù)數(shù)據(jù)挖掘系統(tǒng)模型,為進(jìn)一步深入研究財(cái)務(wù)數(shù)據(jù)挖掘提供了一種較好的方法。
[關(guān)鍵詞] XBRL;財(cái)務(wù);數(shù)據(jù)挖掘
[中圖分類(lèi)號(hào)]F232;F275[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2008)18-0012-04
0 引 言
隨著信息技術(shù)、網(wǎng)絡(luò)技術(shù)和通信技術(shù)的發(fā)展,企業(yè)信息化程度越來(lái)越高,越來(lái)越多的企業(yè)應(yīng)用了電子商務(wù)和ERP系統(tǒng),在越來(lái)越廉價(jià)的存儲(chǔ)設(shè)備配合下,產(chǎn)生了大量的財(cái)務(wù)數(shù)據(jù)。但與之相配合的數(shù)據(jù)分析和知識(shí)提取技術(shù)的發(fā)展卻相對(duì)緩慢,使得存儲(chǔ)的大量財(cái)務(wù)數(shù)據(jù)得不到充分利用,不能轉(zhuǎn)化成指導(dǎo)生產(chǎn)的“知識(shí)”, 數(shù)據(jù)挖掘技術(shù)正是在這樣的背景下產(chǎn)生并迅速興起的。數(shù)據(jù)挖掘(Data Mining,DM)也稱(chēng)為數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD),就是將高級(jí)智能計(jì)算技術(shù)應(yīng)用于大量數(shù)據(jù)中,讓計(jì)算機(jī)在有人或無(wú)人指導(dǎo)的情況下從海量數(shù)據(jù)中發(fā)現(xiàn)潛在的、有用的模式(也叫知識(shí))。數(shù)據(jù)挖掘不但能夠?qū)W習(xí)已有的知識(shí),而且能夠發(fā)現(xiàn)未知的知識(shí),得到的知識(shí)是“顯式”的,既能為人所理解,又便于存儲(chǔ)和應(yīng)用,因此一出現(xiàn)就得到各方面的重視。
數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢(xún)、報(bào)表、聯(lián)機(jī)應(yīng)用分析等)的本質(zhì)區(qū)別是:數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)的。數(shù)據(jù)挖掘所得到的信息應(yīng)具有先前未知、有效和實(shí)用3個(gè)特征。先前未知的信息是指該信息是預(yù)先未曾預(yù)料到的,挖掘出的信息越是出乎意料,就可能越有價(jià)值。
到目前為止,大多數(shù)數(shù)據(jù)挖掘是借用人工智能的各種方法來(lái)挖掘數(shù)據(jù)中存在的知識(shí)。但是,正如人工智能本身的發(fā)展研究現(xiàn)狀一樣,數(shù)據(jù)挖掘還不能很好地理解數(shù)據(jù)中存在的知識(shí)。XML技術(shù)的出現(xiàn),不僅為互聯(lián)網(wǎng)上的電子數(shù)據(jù)交換提供了一個(gè)標(biāo)準(zhǔn),而且XML技術(shù)從數(shù)據(jù)的角度提供了一個(gè)可以更好地表示數(shù)據(jù)內(nèi)容以及數(shù)據(jù)所代表意義的手段??蓴U(kuò)展商業(yè)報(bào)告語(yǔ)言(eXtensible Business Reporting Language,XBRL)作為XML在網(wǎng)絡(luò)財(cái)務(wù)報(bào)告語(yǔ)言上的應(yīng)用,對(duì)財(cái)務(wù)數(shù)據(jù)的表示提供了統(tǒng)一的規(guī)范和標(biāo)準(zhǔn),從而為在大量的財(cái)務(wù)數(shù)據(jù)中挖掘有用的知識(shí)和模式提供了技術(shù)基礎(chǔ)。
1 數(shù)據(jù)挖掘系統(tǒng)原型架構(gòu)
1. 1數(shù)據(jù)挖掘的一般過(guò)程
數(shù)據(jù)挖掘(Data Mining,DM)是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、新穎的和潛在有用的,以及最終可理解的模式的過(guò)程。數(shù)據(jù)挖掘是一種涉及面很廣的技術(shù)手段,包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、模式識(shí)別、粗糙集和模糊數(shù)學(xué)等相關(guān)技術(shù)。
數(shù)據(jù)挖掘的一般過(guò)程可劃分為3個(gè)階段:數(shù)據(jù)準(zhǔn)備(Date Preparation)、數(shù)據(jù)挖掘以及結(jié)果的解釋評(píng)估(Interpretation and Evaluation),如圖1所示。
數(shù)據(jù)挖掘的一般過(guò)程具體包括7個(gè)步驟:①問(wèn)題的定義;②數(shù)據(jù)集成;③數(shù)據(jù)凈化;④數(shù)據(jù)抽??;⑤運(yùn)行數(shù)據(jù)挖掘算法;⑥評(píng)估結(jié)果;⑦知識(shí)表達(dá)。以上步驟可以進(jìn)一步歸入3個(gè)階段中:①~③為數(shù)據(jù)挖掘預(yù)處理,主要進(jìn)行數(shù)據(jù)挖掘前的準(zhǔn)備工作;④~⑤進(jìn)行具體的數(shù)據(jù)挖掘;⑥~⑦則稱(chēng)為數(shù)據(jù)挖掘后的處理,即結(jié)果的解釋評(píng)估。
在數(shù)據(jù)挖掘的3個(gè)階段中,數(shù)據(jù)準(zhǔn)備包括數(shù)據(jù)集成、數(shù)據(jù)凈化和數(shù)據(jù)抽取。在數(shù)據(jù)準(zhǔn)備階段,首先要確定挖掘任務(wù)的操作對(duì)象,即目標(biāo)數(shù)據(jù);再對(duì)所處理的數(shù)據(jù)進(jìn)行消除噪聲、消除重復(fù)記錄、完成數(shù)據(jù)抽取等預(yù)處理工作,然后進(jìn)行降低數(shù)據(jù)維數(shù)等數(shù)據(jù)變換。在數(shù)據(jù)挖掘階段,要確定挖掘的任務(wù),決定采用的挖掘算法和具體的數(shù)據(jù)挖掘操作。在結(jié)果解釋和評(píng)估階段,要根據(jù)數(shù)據(jù)挖掘階段挖掘出來(lái)的模式,經(jīng)過(guò)用戶(hù)或機(jī)器的評(píng)價(jià),發(fā)現(xiàn)存在的冗余或無(wú)關(guān)的模式并將其剔除;判斷是否滿(mǎn)足用戶(hù)要求,如果不滿(mǎn)足用戶(hù)要求,需要重新挖掘,若滿(mǎn)足要求,將其表達(dá)出來(lái),反饋給用戶(hù)。
數(shù)據(jù)挖掘就是從已有的大量數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)的模式和關(guān)系,進(jìn)而形成知識(shí)以供決策時(shí)使用。
1. 2通用數(shù)據(jù)挖掘系統(tǒng)原型架構(gòu)
根據(jù)以上對(duì)數(shù)據(jù)挖掘過(guò)程的論述,現(xiàn)提出一個(gè)通用數(shù)據(jù)挖掘系統(tǒng)原型架構(gòu),如圖2所示。
系統(tǒng)分為用戶(hù)接口模塊和控制實(shí)現(xiàn)模塊。其中,用戶(hù)接口模塊是用戶(hù)使用的接口,通過(guò)它控制數(shù)據(jù)挖掘流程;控制實(shí)現(xiàn)模塊主要用來(lái)完成數(shù)據(jù)處理。系統(tǒng)工作過(guò)程首先從用戶(hù)提出的要求開(kāi)始,用戶(hù)選擇要發(fā)現(xiàn)的知識(shí)模式,并輸入?yún)?shù),選擇數(shù)據(jù)挖掘要使用的數(shù)據(jù)集;然后,系統(tǒng)自動(dòng)選擇算法進(jìn)行數(shù)據(jù)挖掘;最后,系統(tǒng)將挖掘得到的知識(shí)經(jīng)知識(shí)表示模塊轉(zhuǎn)換為用戶(hù)能夠識(shí)別的形式并表現(xiàn)出來(lái)。
在上述數(shù)據(jù)挖掘系統(tǒng)原型中,用戶(hù)模塊要求數(shù)據(jù)挖掘系統(tǒng)的用戶(hù)接口必須簡(jiǎn)單易用;數(shù)據(jù)預(yù)處理模塊是為數(shù)據(jù)挖掘模塊提供干凈、準(zhǔn)確、簡(jiǎn)化的數(shù)據(jù),以減少數(shù)據(jù)噪聲,提高知識(shí)發(fā)現(xiàn)的準(zhǔn)確性;挖掘內(nèi)核模塊是進(jìn)行實(shí)際數(shù)據(jù)挖掘的模塊,從預(yù)處理完的數(shù)據(jù)中發(fā)現(xiàn)模式、規(guī)則;模式表達(dá)與解釋模塊的主要功能是把挖掘模塊得到的知識(shí)轉(zhuǎn)換為普通用戶(hù)能夠理解或識(shí)別的形式;用戶(hù)接口模塊是用戶(hù)與系統(tǒng)交互的接口,用戶(hù)通過(guò)此模塊,控制整個(gè)挖掘流程,直至最后完成挖掘任務(wù)。
2 財(cái)務(wù)數(shù)據(jù)挖掘系統(tǒng)分析與設(shè)計(jì)
2. 1財(cái)務(wù)數(shù)據(jù)特點(diǎn)分析
2. 1. 1數(shù)據(jù)規(guī)范性強(qiáng)
財(cái)務(wù)數(shù)據(jù)處理需采用世界通用的會(huì)計(jì)記賬方法——復(fù)式記賬法,并滿(mǎn)足以下基本處理原則:
(1)有借必有貸,借貸必相等;
(2)資產(chǎn)=負(fù)債+所有者權(quán)益;
(3)總賬余額/發(fā)生額必須等于其所屬明細(xì)賬余額/發(fā)生額之和。
盡管不同的單位由于業(yè)務(wù)量不同,而選擇的會(huì)計(jì)核算程序不同,但最終產(chǎn)生的財(cái)務(wù)數(shù)據(jù)的格式和內(nèi)容基本相同。
2. 1. 2數(shù)據(jù)綜合性強(qiáng)
財(cái)務(wù)數(shù)據(jù)是企業(yè)最主要的信息流,產(chǎn)生于企業(yè)資源計(jì)劃(Enterprise Resource Planning,ERP)的財(cái)務(wù)子系統(tǒng)。相對(duì)于ERP其他子系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù),財(cái)務(wù)數(shù)據(jù)具有很強(qiáng)的綜合性和概括性。財(cái)務(wù)數(shù)據(jù)以貨幣為主要計(jì)量單位,從價(jià)值的視角綜合、全面、系統(tǒng)地反映企業(yè)供產(chǎn)銷(xiāo)和人財(cái)物的信息。
2. 1. 3數(shù)據(jù)實(shí)時(shí)性強(qiáng)
財(cái)務(wù)數(shù)據(jù)是企業(yè)物流和資金流的動(dòng)態(tài)反映,財(cái)務(wù)信息的使用者需要隨時(shí)通過(guò)財(cái)務(wù)數(shù)據(jù)這一信息流來(lái)了解企業(yè)的財(cái)務(wù)狀況和經(jīng)營(yíng)成果。如果財(cái)務(wù)數(shù)據(jù)提供不及時(shí),勢(shì)必影響其使用效果。
2. 1. 4數(shù)據(jù)準(zhǔn)確性要求高
財(cái)務(wù)信息要提供給投資者、債權(quán)人、管理人員、財(cái)政部門(mén)、稅務(wù)部門(mén)和銀行等,因此,必須保證財(cái)務(wù)數(shù)據(jù)處理的正確性,保證財(cái)務(wù)結(jié)果的真實(shí)性。否則,虛假的財(cái)務(wù)信息定會(huì)誤導(dǎo)有關(guān)部門(mén)和人員的決策。
2. 1. 5財(cái)務(wù)數(shù)據(jù)量大
隨著企業(yè)會(huì)計(jì)電算化工作的深入開(kāi)展,電子商務(wù)和ERP系統(tǒng)的廣泛應(yīng)用,企業(yè)的會(huì)計(jì)核算工作越來(lái)越細(xì),這使企業(yè)在管理過(guò)程中積累了大量的財(cái)務(wù)數(shù)據(jù)。要使這些財(cái)務(wù)數(shù)據(jù)的價(jià)值真正得以發(fā)揮,依靠手工或簡(jiǎn)單的數(shù)據(jù)處理工具是做不到的,必須借助于數(shù)據(jù)挖掘工具,才能在大量的財(cái)務(wù)數(shù)據(jù)中,挖掘出財(cái)務(wù)信息“金塊”。
2. 2財(cái)務(wù)數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì)
2. 2. 1財(cái)務(wù)數(shù)據(jù)挖掘的一般過(guò)程
財(cái)務(wù)數(shù)據(jù)挖掘的一般過(guò)程如圖3所示,主要包括財(cái)務(wù)數(shù)據(jù)源、財(cái)務(wù)數(shù)據(jù)的集成和變換、財(cái)務(wù)數(shù)據(jù)倉(cāng)庫(kù)、財(cái)務(wù)數(shù)據(jù)挖掘以及知識(shí)表達(dá)等部分。
各部分的功能與實(shí)現(xiàn)過(guò)程如下:
(1)財(cái)務(wù)數(shù)據(jù)源。財(cái)務(wù)數(shù)據(jù)的來(lái)源可以有多種,可以是本地財(cái)務(wù)數(shù)據(jù),也可以是互聯(lián)網(wǎng)上的財(cái)務(wù)數(shù)據(jù)。財(cái)務(wù)數(shù)據(jù)也可以有多種表現(xiàn)形式,可以是傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)、文本形式的數(shù)據(jù)、面向?qū)ο蟮臄?shù)據(jù)庫(kù)以及Web數(shù)據(jù)庫(kù)等。
(2)財(cái)務(wù)數(shù)據(jù)集成和變換。所有各種形式的財(cái)務(wù)數(shù)據(jù)經(jīng)過(guò)集成和變換,去除冗余,即可轉(zhuǎn)換成符合一定格式的數(shù)據(jù),并準(zhǔn)備裝入財(cái)務(wù)數(shù)據(jù)倉(cāng)庫(kù)。
(3)財(cái)務(wù)數(shù)據(jù)倉(cāng)庫(kù)。財(cái)務(wù)數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)面向主題的、集成的、相對(duì)穩(wěn)定的、反映歷史變化的財(cái)務(wù)數(shù)據(jù)集合,用于支持管理決策。
(4)財(cái)務(wù)數(shù)據(jù)挖掘。財(cái)務(wù)數(shù)據(jù)挖掘是整個(gè)過(guò)程的核心部分,其目的是從大量的財(cái)務(wù)數(shù)據(jù)中挖掘出潛在的、有用的知識(shí)或模式。
(5)知識(shí)表達(dá)。財(cái)務(wù)數(shù)據(jù)挖掘的根本目的是從財(cái)務(wù)數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)或模式,而知識(shí)的表示始終是人工智能領(lǐng)域中一個(gè)重要的、尚未得到很好解決的研究課題。
2. 2. 2基于XBRL的財(cái)務(wù)數(shù)據(jù)挖掘系統(tǒng)模型設(shè)計(jì)
XBRL(eXtensible Business Reporting Language,可擴(kuò)展商業(yè)報(bào)告語(yǔ)言),是基于XML(eXtensible Markup Language,可擴(kuò)展標(biāo)記語(yǔ)言)框架,專(zhuān)為公司發(fā)布財(cái)務(wù)報(bào)告而開(kāi)發(fā)的語(yǔ)言,目前已有越來(lái)越多的公司采用XBRL發(fā)布財(cái)務(wù)報(bào)告。由于XBRL在所有的軟件格式和輸出通道之間提供了更大的互用性,從而使人們能夠進(jìn)行更有效的分析并更快地發(fā)現(xiàn)問(wèn)題。XBRL使用的標(biāo)簽以標(biāo)準(zhǔn)化的會(huì)計(jì)業(yè)內(nèi)定義為基礎(chǔ),以描述和識(shí)別財(cái)務(wù)數(shù)據(jù)的每一個(gè)項(xiàng)目。它為每個(gè)財(cái)務(wù)數(shù)據(jù)項(xiàng)目定義標(biāo)簽,這使財(cái)務(wù)報(bào)告標(biāo)準(zhǔn)趨向統(tǒng)一,而這正是目前的財(cái)務(wù)報(bào)告所缺乏的。憑借出色的搜索性能,XBRL使財(cái)務(wù)數(shù)據(jù)更加一致,更易理解,而且無(wú)需公司改變他們發(fā)布財(cái)務(wù)報(bào)告的方式。
在XBRL格式的文件中,所有數(shù)據(jù)都有相對(duì)應(yīng)的標(biāo)記,這些標(biāo)記不僅對(duì)顯示格式進(jìn)行描述,還對(duì)所要表現(xiàn)的數(shù)據(jù)賦予特定含義,并且相關(guān)數(shù)據(jù)呈現(xiàn)結(jié)構(gòu)性,把有關(guān)的信息互相連接。例如,固定資產(chǎn)與資產(chǎn)負(fù)債表及折舊相連,搜索工具能立刻指向用戶(hù)所需的特定目標(biāo)數(shù)據(jù)。
XBRL不僅能及時(shí)提供準(zhǔn)確的財(cái)務(wù)數(shù)據(jù),而且增強(qiáng)了使用者在不同應(yīng)用程序之間交換電子數(shù)據(jù)的能力。XBRL更具有良好的動(dòng)態(tài)分析功能,當(dāng)搜索引擎找到所需的信息時(shí),它能進(jìn)一步追蹤下去找到數(shù)據(jù)的最初來(lái)源及其他與該信息有關(guān)的資料。例如,用XBRL標(biāo)記的財(cái)務(wù)報(bào)告通過(guò)適當(dāng)運(yùn)用搜索工具,信息使用者可以向下挖掘數(shù)據(jù)源直至相關(guān)的支持這些數(shù)據(jù)的文件。正是這種動(dòng)態(tài)分析功能,實(shí)現(xiàn)了財(cái)務(wù)數(shù)據(jù)的可下載性、可移植性、可分析性和可追蹤性?;赬BRL的財(cái)務(wù)數(shù)據(jù)挖掘可以從不同系統(tǒng)中收集財(cái)務(wù)數(shù)據(jù),進(jìn)行組織和分析,從而使財(cái)務(wù)信息得到更有效的利用。
基于XBRL的財(cái)務(wù)數(shù)據(jù)挖掘模型如圖4所示,主要包括財(cái)務(wù)數(shù)據(jù)獲取模塊、XBRL隧道、財(cái)務(wù)數(shù)據(jù)挖掘以及基于XBRL描述的知識(shí)庫(kù)。各部分之間的信息流動(dòng)和數(shù)據(jù)交換都是基于XBRL進(jìn)行的。
(1)數(shù)據(jù)獲取模塊。數(shù)據(jù)獲取模塊的主要功能是獲取財(cái)務(wù)數(shù)據(jù)源,財(cái)務(wù)數(shù)據(jù)的來(lái)源可以有多種,可以是本地?cái)?shù)據(jù)也可以是互聯(lián)網(wǎng)上的數(shù)據(jù)。財(cái)務(wù)數(shù)據(jù)又可以有多種表現(xiàn)形式,可以是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)、文本形式的數(shù)據(jù)、電子表格、會(huì)計(jì)信息系統(tǒng)報(bào)表格式數(shù)據(jù)、面向?qū)ο髷?shù)據(jù)庫(kù)以及Web數(shù)據(jù)庫(kù)等;從數(shù)據(jù)組織形式上看,可以將財(cái)務(wù)數(shù)據(jù)分為基于XBRL描述的財(cái)務(wù)數(shù)據(jù)源與非XBRL描述的財(cái)務(wù)數(shù)據(jù)源。所有財(cái)務(wù)數(shù)據(jù)經(jīng)過(guò)XBRL隧道的預(yù)處理,轉(zhuǎn)換為符合XBRL規(guī)范的財(cái)務(wù)數(shù)據(jù)。
對(duì)于數(shù)據(jù)挖掘過(guò)程來(lái)說(shuō),可以處理各種可能組織形式的數(shù)據(jù)源,但從數(shù)據(jù)挖掘的意義角度看,對(duì)基于XBRL描述的財(cái)務(wù)數(shù)據(jù)挖掘與對(duì)非XBRL描述的財(cái)務(wù)數(shù)據(jù)挖掘是不可能在同一個(gè)層次上進(jìn)行的。因?yàn)榛赬BRL描述的財(cái)務(wù)數(shù)據(jù)本身就含有一定的描述數(shù)據(jù)自身意義的信息,而一般的財(cái)務(wù)數(shù)據(jù)沒(méi)有這種能力。XBRL已經(jīng)是一種規(guī)范化的網(wǎng)絡(luò)財(cái)務(wù)報(bào)告語(yǔ)言,包括Specification (規(guī)范),Taxonomies(標(biāo)準(zhǔn))、Instance Documents(實(shí)例文檔)、Style Sheets(樣式單)等。因此對(duì)一般財(cái)務(wù)數(shù)據(jù)進(jìn)行挖掘,應(yīng)先作相應(yīng)的處理,將其變?yōu)橐訶BRL描述的財(cái)務(wù)數(shù)據(jù)。
(2)XBRL隧道?;赬BRL的財(cái)務(wù)數(shù)據(jù)挖掘,其數(shù)據(jù)源是符合XBRL規(guī)范的財(cái)務(wù)數(shù)據(jù),因此在進(jìn)行財(cái)務(wù)數(shù)據(jù)挖掘之前,所有財(cái)務(wù)數(shù)據(jù)都要經(jīng)過(guò)預(yù)處理,轉(zhuǎn)換成符合XBRL規(guī)范的形式,這一過(guò)程需要通過(guò)XBRL隧道來(lái)實(shí)現(xiàn)。根據(jù)數(shù)據(jù)的組織形式,XBRL隧道的主要功能分為兩個(gè)部分:一是對(duì)XBRL描述的財(cái)務(wù)數(shù)據(jù)源進(jìn)行規(guī)范性檢測(cè);二是對(duì)非XBRL描述的財(cái)務(wù)數(shù)據(jù)進(jìn)行XBRL封裝。
(3)基于XBRL的財(cái)務(wù)數(shù)據(jù)挖掘模塊。此模塊是財(cái)務(wù)數(shù)據(jù)挖掘的核心部分,通過(guò)采用聚類(lèi)分析、統(tǒng)計(jì)方法、關(guān)聯(lián)規(guī)則、決策樹(shù)方法、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法,從大量的具有統(tǒng)一XBRL格式的財(cái)務(wù)數(shù)據(jù)中挖掘出潛在的、有用的知識(shí)或模式。這一部分的功能主要涉及兩個(gè)方面:一方面是數(shù)據(jù)處理機(jī)制,由于所處理的財(cái)務(wù)數(shù)據(jù)源來(lái)自XBRL隧道,所有的財(cái)務(wù)數(shù)據(jù)格式從表示形式上看具有統(tǒng)一的XBRL格式,處理這種數(shù)據(jù)可以采用文檔對(duì)象模型技術(shù),即Dom處理技術(shù),然后在Dom基礎(chǔ)上進(jìn)行下面的財(cái)務(wù)數(shù)據(jù)挖掘過(guò)程;另一方面是基于XBRL的財(cái)務(wù)數(shù)據(jù)挖掘過(guò)程,既然數(shù)據(jù)源是符合XBRL規(guī)范的財(cái)務(wù)數(shù)據(jù),因此在財(cái)務(wù)數(shù)據(jù)挖掘的過(guò)程中,所使用的處理技術(shù)也是符合XBRL規(guī)范的,其中XBRL本身的Specification(規(guī)范)和Taxonomies(標(biāo)準(zhǔn))為此提供了很好的基礎(chǔ)。
(4)基于XBRL的知識(shí)表達(dá)模塊。知識(shí)表達(dá)模塊的主要功能是對(duì)在數(shù)據(jù)挖掘模塊中發(fā)現(xiàn)的知識(shí)進(jìn)行可視化的表示,以便于非專(zhuān)業(yè)管理人員理解。財(cái)務(wù)數(shù)據(jù)挖掘的根本目的是從財(cái)務(wù)數(shù)據(jù)中發(fā)現(xiàn)有用的知識(shí)或模式,在知識(shí)的表示形式上,目前較好的且應(yīng)用較多的有專(zhuān)家系統(tǒng)知識(shí)規(guī)則、決策樹(shù)規(guī)則和在數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則以及分類(lèi)規(guī)則等。財(cái)務(wù)數(shù)據(jù)挖掘結(jié)果不僅要有利于人的理解,而且更主要的是要有利于計(jì)算機(jī)的理解,因此在數(shù)據(jù)挖掘完成之后,要將所得到的知識(shí),形成符合XBRL規(guī)范的知識(shí)庫(kù)。
3 結(jié)束語(yǔ)
本文從數(shù)據(jù)挖掘系統(tǒng)原型架構(gòu)出發(fā),結(jié)合財(cái)務(wù)數(shù)據(jù)的特點(diǎn)分析、財(cái)務(wù)數(shù)據(jù)挖掘的一般過(guò)程和XBRL技術(shù),設(shè)計(jì)出一種基于XBRL的財(cái)務(wù)數(shù)據(jù)挖掘系統(tǒng)模型,為進(jìn)一步深入研究財(cái)務(wù)數(shù)據(jù)挖掘提供了一種較好的方法。當(dāng)然XBRL技術(shù)本身還在不斷發(fā)展過(guò)程中,數(shù)據(jù)挖掘也是一項(xiàng)復(fù)雜的技術(shù),基于XBRL的財(cái)務(wù)數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)還有一定困難。但隨著信息技術(shù)的飛速發(fā)展以及新的規(guī)范和方法的不斷運(yùn)用,這一經(jīng)濟(jì)而實(shí)用的財(cái)務(wù)數(shù)據(jù)挖掘系統(tǒng)一定能夠?qū)崿F(xiàn)。
主要參考文獻(xiàn)
[1] 安海忠,劉寧,鄭鏈. 數(shù)據(jù)挖掘系統(tǒng)原形架構(gòu)的研究[J]. 無(wú)線(xiàn)電工程,2005(1):56-57.
[2] 衛(wèi)金茂,王石,伊衛(wèi)國(guó). 基于XML的數(shù)據(jù)挖掘[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2003,24(10):106-108.
[3] 曹露燕,孟凡榮,蔣曉云. 煤礦系統(tǒng)數(shù)據(jù)挖掘模型的研究與設(shè)計(jì)[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2006,24(12):4547-4550.
[4] 許淵. 面向XBRL的數(shù)據(jù)挖掘[J]. 中國(guó)管理信息化,2005(10):45-46.
[5] 劉靜. 淺談XBRL與財(cái)務(wù)信息數(shù)據(jù)挖掘[J]. 湖南財(cái)經(jīng)高等專(zhuān)科學(xué)校學(xué)報(bào),2004,20(6):53-55.