李國(guó)慶
(江蘇聯(lián)合職業(yè)技術(shù)學(xué)院徐州財(cái)經(jīng)分院 江蘇 221008)
數(shù)據(jù)庫(kù)技術(shù)是計(jì)算機(jī)數(shù)據(jù)處理與信息管理系統(tǒng)的核心,研究和解決了計(jì)算機(jī)信息處理過(guò)程中大量數(shù)據(jù)有效地組織和存儲(chǔ)的問(wèn)題,其主要作用是通過(guò)技術(shù)實(shí)現(xiàn)在數(shù)據(jù)庫(kù)系統(tǒng)中減少數(shù)據(jù)存儲(chǔ)冗余、實(shí)現(xiàn)數(shù)據(jù)共享、保障數(shù)據(jù)安全以及高效地檢索數(shù)據(jù)和處理數(shù)據(jù),數(shù)據(jù)庫(kù)技術(shù)的根本目標(biāo)是要解決數(shù)據(jù)的共享問(wèn)題。
在數(shù)據(jù)庫(kù)系統(tǒng)中對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行有效計(jì)算是數(shù)據(jù)庫(kù)研究中的重點(diǎn)內(nèi)容,對(duì)數(shù)據(jù)進(jìn)行分類實(shí)際上是發(fā)現(xiàn)數(shù)據(jù)之間存在的聯(lián)系,對(duì)具有共性的數(shù)據(jù)進(jìn)行分類的一個(gè)過(guò)程。目前,在數(shù)據(jù)挖掘中已經(jīng)成功應(yīng)用多種數(shù)據(jù)處理方法,對(duì)數(shù)據(jù)庫(kù)的發(fā)展起到了有效推動(dòng)作用。
貝葉斯(Bayes)分類法是歸于統(tǒng)計(jì)學(xué)的一種分類方法,主要利用概率知識(shí)對(duì)數(shù)據(jù)進(jìn)行計(jì)算。大多數(shù)情況下,這種分類方法在效果上是能夠與神經(jīng)網(wǎng)絡(luò)法與決策樹(shù)分類法相比較的。貝葉斯分類法主要應(yīng)用于較大型數(shù)據(jù)庫(kù)當(dāng)中,在計(jì)算效果上快速準(zhǔn)確,尤其是在分類方面,能夠?qū)?shù)據(jù)進(jìn)行合理分類。但是,在使用貝葉斯(Bayes)分類法算法的過(guò)程中,要對(duì)某一屬性值進(jìn)行假設(shè),假設(shè)它對(duì)相應(yīng)類別的影作用是不受其它屬性值影響的,而這種假設(shè)在實(shí)際情況中并不成立,因此對(duì)計(jì)算的準(zhǔn)確程度上會(huì)產(chǎn)生一定影響。
貝葉斯算法是一種實(shí)用性較強(qiáng)的技術(shù),相對(duì)于決策樹(shù)算法而言,這種算法不僅運(yùn)用起來(lái)較為簡(jiǎn)單,且操作方便,不需要進(jìn)行大量的數(shù)據(jù)搜索。但是,這種算法是基于假設(shè)進(jìn)行的,而這類假設(shè)通常難以滿足實(shí)際情況。基于這種情況,研究者研制出了一種形狀類似網(wǎng)絡(luò)圖形的結(jié)構(gòu),并將其稱為貝葉斯網(wǎng)絡(luò)。貝葉斯網(wǎng)絡(luò)的理論基礎(chǔ)比較穩(wěn)固,在建設(shè)上采用簡(jiǎn)單易懂的圖解法來(lái)表示概率分布變更的情況。在這張圖中,每個(gè)屬性都存在于對(duì)應(yīng)的節(jié)點(diǎn),節(jié)點(diǎn)之間的連接具有方向性,但不能形成環(huán)狀,其工作原理如下:
(1)在統(tǒng)計(jì)學(xué)中,要求每次試驗(yàn)的對(duì)象都相互獨(dú)立,即對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行父輩節(jié)點(diǎn)屬性設(shè)置,保障其父輩以及更高輩分的屬性是相互獨(dú)立的。
(2)在概率論中,存在一條鏈規(guī)則,這種規(guī)則設(shè)定了屬性的數(shù)量,并通過(guò)公式將聯(lián)合概率分解為乘積形式。由于這種網(wǎng)絡(luò)是一種無(wú)法進(jìn)行環(huán)狀連接的排序,因此節(jié)點(diǎn)順序也應(yīng)按照大小進(jìn)行排列。
由于貝葉斯算法的特點(diǎn),其研究重點(diǎn)應(yīng)該放在建立的過(guò)程。面對(duì)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù),研究者必須優(yōu)化計(jì)算方法,將數(shù)據(jù)進(jìn)行合理的屬性設(shè)定,保障其精度的準(zhǔn)確。為此,研究者提出了一種較為折中的方式,被稱為“樹(shù)擴(kuò)張”形式。這種方式的基本思想是將傳統(tǒng)貝葉斯方式的屬性假設(shè)做出合理設(shè)定,及在條件上稍微放松,將其結(jié)構(gòu)進(jìn)行合理擴(kuò)展,讓這種結(jié)構(gòu)能夠?qū)傩灾g原本存在的關(guān)系有效容納。這種方式具體而言是在分類器上加上相應(yīng)連線,并考慮將每個(gè)節(jié)點(diǎn)設(shè)置對(duì)應(yīng)的父輩節(jié)點(diǎn)。通過(guò)實(shí)驗(yàn)不難發(fā)現(xiàn),這種算法的性能是比較優(yōu)異的。
決策樹(shù)(Decision Tree)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,評(píng)價(jià)項(xiàng)目風(fēng)險(xiǎn),判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。
決策樹(shù)在結(jié)構(gòu)上呈現(xiàn)出樹(shù)狀,由一個(gè)根節(jié)點(diǎn)展開(kāi),對(duì)不同屬性的數(shù)據(jù)進(jìn)行測(cè)試,并對(duì)測(cè)試結(jié)果進(jìn)行分類,每個(gè)分類都相當(dāng)于這棵樹(shù)的“分枝”,接著,將內(nèi)個(gè)分類中的樣本劃分為不同的子集,子集的集合相當(dāng)于樹(shù)的節(jié)點(diǎn)。在生成的決策樹(shù)中,每個(gè)葉節(jié)點(diǎn)都應(yīng)該有一個(gè)相應(yīng)的分類與之對(duì)應(yīng),保障從屬關(guān)系能夠被有效挖掘。舉一個(gè)簡(jiǎn)單的例子,對(duì)某個(gè)周日下午是否適合打羽毛球進(jìn)行分析,包含對(duì)戶外三種情況的分析,每種情況又要進(jìn)行具體濕度或是風(fēng)力影響的分析,具體構(gòu)建出的決策樹(shù)如圖。
使用決策樹(shù)方法進(jìn)行數(shù)據(jù)處理過(guò)程中,需要與數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行有效結(jié)合,以此來(lái)保障數(shù)據(jù)挖掘的有效性。數(shù)據(jù)倉(cāng)庫(kù)的存在能夠?qū)?shù)據(jù)進(jìn)行分層次的挖掘,幫助決策樹(shù)能夠更加準(zhǔn)確,且在交互式方面運(yùn)用合理。在概念層次樹(shù)當(dāng)中,與數(shù)據(jù)立方的有效結(jié)合能夠在抽象概念上對(duì)數(shù)據(jù)進(jìn)行有效分類,即在決策樹(shù)建立完成之后還能夠使用樹(shù)中的概念層次將每個(gè)節(jié)點(diǎn)進(jìn)行泛化。
決策樹(shù)的應(yīng)用在數(shù)據(jù)挖掘領(lǐng)域中存在的時(shí)間較長(zhǎng),但仍舊存在著一些亟待解決的問(wèn)題。例如,決策樹(shù)由于是對(duì)抽象概念的分析,因此在精度方面并不完善,提高決策樹(shù)的精度是目前研究的重點(diǎn)。在規(guī)模上,決策樹(shù)的規(guī)模越小,其知識(shí)要點(diǎn)就越簡(jiǎn)潔,人們對(duì)決策樹(shù)的理解就越快捷,但是,結(jié)構(gòu)簡(jiǎn)單并不意味著精度越高,對(duì)決策樹(shù)的研究需要結(jié)合貝葉斯方法等將其進(jìn)一步完善,保障精度的有效性。
關(guān)聯(lián)分類法在分類器的建造上主要分為兩個(gè)步驟,一是將右邊屬性為類別屬性的類別進(jìn)行有效發(fā)現(xiàn),并將其標(biāo)記;二是在已經(jīng)發(fā)現(xiàn)的類別中計(jì)算置信度,置信度最高的規(guī)則可以作為主要規(guī)則,也就是第一規(guī)則,用于將訓(xùn)練集進(jìn)行覆蓋。在這種情況下,當(dāng)類別左邊相同時(shí),若是右邊被分為了不同的類,應(yīng)該選用置信度高的來(lái)作為整個(gè)數(shù)據(jù)對(duì)象的可能規(guī)則。關(guān)聯(lián)規(guī)則分類主要運(yùn)用于大量事務(wù)數(shù)據(jù)的記錄中,尤其是對(duì)數(shù)據(jù)庫(kù)中隱藏在事務(wù)里面的關(guān)聯(lián)規(guī)則具有顯著成效。但是,基于關(guān)聯(lián)規(guī)則的分類也具有一定缺陷,例如在設(shè)計(jì)過(guò)程中,為了確保沒(méi)有規(guī)格被漏掉,設(shè)計(jì)者通常將最小支持度的值設(shè)置為零的狀態(tài),這樣一來(lái),關(guān)聯(lián)規(guī)則法就無(wú)法發(fā)揮其對(duì)對(duì)象進(jìn)行優(yōu)化的作用。這樣一來(lái),系統(tǒng)會(huì)產(chǎn)生大量頻繁的項(xiàng)目集,久之在內(nèi)存上無(wú)法容納,使得程序運(yùn)行緩慢。
傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法是依照數(shù)據(jù)庫(kù)中發(fā)生的具體項(xiàng)目進(jìn)行非常細(xì)節(jié)的挖掘,然而有時(shí)用戶可能想發(fā)現(xiàn)更高層次的規(guī)律,為此,提出了多層次關(guān)聯(lián)規(guī)則的挖掘問(wèn)題,解決了傳統(tǒng)算法很難發(fā)現(xiàn)的數(shù)據(jù)處理規(guī)則,所以在歸納抽象層次上或多層次上挖掘關(guān)聯(lián)規(guī)則具有重要的意義。目前關(guān)聯(lián)規(guī)則發(fā)現(xiàn)已經(jīng)從單一概念層次發(fā)展到多概念層次,在概念層次上一層層向下,從具體到一般,其發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則所提供的信息也更具體,逐步發(fā)展到深化的知識(shí)發(fā)現(xiàn)。以下是幾種數(shù)據(jù)庫(kù)技術(shù)應(yīng)用中常見(jiàn)的數(shù)據(jù)分類方法。
ARCS實(shí)際上是以聚類挖掘?yàn)榛A(chǔ)的一種分類方法,包含關(guān)聯(lián)規(guī)則聚類以及量化挖掘。其準(zhǔn)確性很大程度取決于離散化的程度,并且可擴(kuò)展,在相比之下,C4.5在時(shí)間方面是具有指數(shù)運(yùn)行的,空間方面,要求將所有存放于數(shù)據(jù)庫(kù)中的數(shù)據(jù)全部放入內(nèi)存當(dāng)中。
關(guān)聯(lián)分類方法中,其規(guī)則具有較高的支持度以及置信度,其具體表達(dá)形式如下:
Cond_set=>Y。式中,Y表示一個(gè)類別,cond set指的是對(duì)屬性值對(duì)的集合。這種計(jì)算方式具有以下幾個(gè)特征,一是最小支持度較為頻繁,二是最小置信度較為精確。在計(jì)算過(guò)程中,若是在一個(gè)規(guī)則項(xiàng)集中存在相同屬性值對(duì)的集合,則應(yīng)選取置信度高的作為規(guī)則,并且作為該集合的代表。其規(guī)則主要表現(xiàn)為以下幾個(gè)方面:
(1)系統(tǒng)需要將所有可能會(huì)出現(xiàn)的規(guī)則找到,并將其中頻繁出現(xiàn)以及精度上有所保障的規(guī)則歸為同一集合。在算法方面,系統(tǒng)會(huì)采用迭代方式,將規(guī)則進(jìn)行裁剪再進(jìn)行搜索。
(2)在分類的構(gòu)建方面,可以使用啟發(fā)式方法,將規(guī)則根據(jù)其置信度等方面進(jìn)行先后排序,一般而言,會(huì)將支持度或是置信度較高的規(guī)則排放在前面。
在數(shù)據(jù)挖掘的各項(xiàng)方法中,多數(shù)算法并沒(méi)有有效利用數(shù)據(jù)庫(kù)本身技術(shù)來(lái)進(jìn)行,即數(shù)據(jù)庫(kù)的參與性并不高。但是,研究者們研究的算法對(duì)象是數(shù)據(jù)庫(kù)中的數(shù)據(jù),若是不能夠有效結(jié)合數(shù)據(jù)庫(kù),會(huì)造成資源的無(wú)端浪費(fèi),因此,這個(gè)問(wèn)題已經(jīng)成為了研究者們研究的重點(diǎn)之一。
除了上述分析的四種方法之外,還有一些其它的分類算法,像基于案例的推理方法、后向傳播法、模糊數(shù)據(jù)集方法以及遺傳算法等,都在數(shù)據(jù)庫(kù)算法中發(fā)揮著一定功效。對(duì)數(shù)據(jù)進(jìn)行分類時(shí)數(shù)據(jù)庫(kù)發(fā)展中的重要課題,研究者應(yīng)加大研究力度,在計(jì)算機(jī)技術(shù)不斷發(fā)展的背景下充實(shí)自身能力培養(yǎng),加強(qiáng)對(duì)算法的優(yōu)化策略,并根據(jù)各類不同算法的優(yōu)缺點(diǎn)在計(jì)算中選取適合算法,讓數(shù)據(jù)庫(kù)技術(shù)得以提高。
[1]毛國(guó)君.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究[D].北京工業(yè)大學(xué),2008.
[2]王清毅,張波,蔡慶生.目前數(shù)據(jù)挖掘算法的評(píng)價(jià)[J].小型微型計(jì)算機(jī)系統(tǒng),2009(01).
[3]黃雯.數(shù)據(jù)挖掘算法及其應(yīng)用研究[D].南京郵電大學(xué),2013.
[4]胡斌.基于網(wǎng)格技術(shù)的分布式空間數(shù)據(jù)挖掘算法研究[D].中南大學(xué),2008.
[5]劉長(zhǎng)付.數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則挖掘算法研究[D].江西理工大學(xué),2009.
[6]趙艷芹.關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的研究[D].哈爾濱工程大學(xué),2009.