【摘 要】隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,人們面對(duì)的數(shù)據(jù)量以驚人的速度增長(zhǎng),如何快速有效地從浩瀚的信息資源中提取出有價(jià)值的信息成了迫切需要解決的問題,于是一種綜合了統(tǒng)計(jì)學(xué)、數(shù)學(xué)、數(shù)據(jù)庫(kù)技術(shù)、人工智能、機(jī)器學(xué)習(xí)等多門學(xué)科的數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘中一個(gè)十分活躍的研究領(lǐng)域。本文對(duì)關(guān)聯(lián)規(guī)則挖掘進(jìn)行了論述,并針對(duì)目前網(wǎng)絡(luò)信息檢索效率過低的問題,提出了一種基于關(guān)聯(lián)庫(kù)的查詢擴(kuò)展算法。
【關(guān)鍵詞】關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;信息檢索;查詢擴(kuò)展
一、問題
隨著計(jì)算機(jī)和信息技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們傳遞信息的重要渠道及其主要的信息源。web信息和數(shù)據(jù)庫(kù)規(guī)模的急劇膨脹給人們帶來方便快捷的同時(shí),也為大量雜亂無章的信息所困擾,用戶想從中快速準(zhǔn)確地發(fā)現(xiàn)感興趣的信息變得難上加難,信息過載和詞不匹配等難題也相繼出現(xiàn)。為了更有效地利用一些重要數(shù)據(jù),人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,給決策者提供一個(gè)統(tǒng)一的全局視角,因而在許多領(lǐng)域建立了數(shù)據(jù)倉(cāng)庫(kù)。但海量的數(shù)據(jù)往往使人們無法準(zhǔn)確地辨別潛在的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無法滿足挖掘這些相關(guān)信息的需求。
二、數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中發(fā)現(xiàn)潛在的、新穎的、有價(jià)值的信息和知識(shí)的一門技術(shù),它是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來可能發(fā)生的行為。數(shù)據(jù)挖掘并不是用規(guī)范的數(shù)據(jù)庫(kù)查詢語(yǔ)言進(jìn)行查詢,而是根據(jù)目標(biāo)對(duì)數(shù)據(jù)進(jìn)行檢索和分析,揭示其中隱含的規(guī)律,即對(duì)查詢的內(nèi)容進(jìn)行模式的總結(jié)和內(nèi)在規(guī)律的搜索。
三、關(guān)聯(lián)規(guī)則挖掘
關(guān)聯(lián)規(guī)則挖掘是從大量數(shù)據(jù)中挖掘出相關(guān)項(xiàng)集的有趣的關(guān)聯(lián)或聯(lián)系,反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性。
關(guān)聯(lián)規(guī)則通常是從事務(wù)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中挖掘出的,具體如下:
挖掘關(guān)聯(lián)規(guī)則問題就是產(chǎn)生支持度和可信度分別大于用戶給定的最小支持度和最小置信度的關(guān)聯(lián)規(guī)則,稱為強(qiáng)規(guī)則。關(guān)聯(lián)規(guī)則挖掘的任務(wù)就是要挖掘出數(shù)據(jù)庫(kù)D中所有的強(qiáng)規(guī)則。因此,可以把關(guān)聯(lián)規(guī)則挖掘劃分為兩個(gè)子問題:
①找出所有的頻繁項(xiàng)集:根據(jù)定義,這些項(xiàng)集的每一個(gè)出現(xiàn)的頻繁性至少與預(yù)定義的最小支持計(jì)數(shù)一樣。②由頻繁項(xiàng)集產(chǎn)生的強(qiáng)關(guān)聯(lián)規(guī)則:根據(jù)定義,這些規(guī)則必須滿足最小支持度和最小置信度。
大部分關(guān)聯(lián)規(guī)則都是基于支持度-置信度框架,從而產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則。但有時(shí)仍會(huì)得出對(duì)用戶來說不感興趣的規(guī)則,從而對(duì)產(chǎn)生一定的誤導(dǎo)。管理者通過對(duì)大量關(guān)聯(lián)規(guī)則進(jìn)行篩選,從而得出自己想要的知識(shí)。
四、關(guān)聯(lián)規(guī)則挖掘在網(wǎng)絡(luò)信息檢索中的應(yīng)用
(一)關(guān)聯(lián)庫(kù)結(jié)構(gòu)
為了描述特征詞之間的層次關(guān)系和相關(guān)性,關(guān)聯(lián)庫(kù)中包含以下兩個(gè)結(jié)構(gòu)表:
1.層次關(guān)系表:主要是描述詞或概念之間的層次關(guān)系,基本元素是語(yǔ)詞節(jié)點(diǎn),語(yǔ)詞節(jié)點(diǎn)的屬性用結(jié)構(gòu)體描述如下:
語(yǔ)詞之間的層次關(guān)系主要是根據(jù)關(guān)聯(lián)規(guī)則的置信度來決定:對(duì)于關(guān)聯(lián)規(guī)則A->B,如果C(A->B)>0.8且C(B->A)<0.5,則認(rèn)為B是A的父層次,相應(yīng)的A是B的子層次。因?yàn)樵贏出現(xiàn)的情況下B出現(xiàn)的概率很高,而在B出現(xiàn)的情況下A出現(xiàn)的概率很低,說明B的語(yǔ)義要比A更廣泛些。
2.相關(guān)關(guān)系表:用于描述語(yǔ)詞之間的相關(guān)性,描述如下:
(二)查詢擴(kuò)展
查詢擴(kuò)展指的是利用計(jì)算機(jī)語(yǔ)言學(xué)、信息學(xué)等多種技術(shù)把與原查詢相關(guān)的詞或者詞組添加到原查詢,從而得到比原查詢長(zhǎng)的新查詢,然后檢索文檔。查詢擴(kuò)展主要需要解決以下兩個(gè)問題:1、如何選擇適當(dāng)?shù)恼Z(yǔ)詞進(jìn)行擴(kuò)展;2、如何給擴(kuò)展語(yǔ)詞賦予權(quán)值。
本文提出一種基于關(guān)聯(lián)庫(kù)的查詢擴(kuò)展算法,在擴(kuò)展時(shí)通過引入γ和wmin(s)對(duì)擴(kuò)展語(yǔ)詞進(jìn)行兩次限定,主要分以下幾個(gè)步驟:
⑴建立查詢串q的向量空間模型
將查詢串分割成單個(gè)的語(yǔ)詞,每個(gè)查詢串q表示成其中的一個(gè)范化特征向量V(q) = (i1,w1(q); …,ij, wj(q);…,im, wm(q)),其中ij為語(yǔ)詞項(xiàng),wj(q)為ij在q中的權(quán)值。
設(shè)查詢串包含的語(yǔ)詞項(xiàng)為{q1,q2,…,qn},則語(yǔ)詞項(xiàng)的所有子集s={{q1}, {q2}, …,{qn}, {q1,q2},…,{q1,q2,…,qn}}={s1,s2,…,s2n-1},其中s1={q1},s2={q2},以此類推。根據(jù)關(guān)聯(lián)庫(kù)中概念層次關(guān)系表和相關(guān)關(guān)系表,分別對(duì)子集進(jìn)行相應(yīng)的擴(kuò)展,然后合并運(yùn)算后得到擴(kuò)展語(yǔ)詞項(xiàng)集,記作RS(s),將對(duì)q的擴(kuò)展轉(zhuǎn)化為對(duì)s的擴(kuò)展。
⑵ 找出各個(gè)子集的相關(guān)語(yǔ)詞
從關(guān)聯(lián)庫(kù)中分別找出sk(1≤k≤2n-1)的相關(guān)語(yǔ)詞,并將其置信度從大到小排列,取前m個(gè)相關(guān)語(yǔ)詞,存入到RS(sk)中。
⑶合并相關(guān)語(yǔ)詞
將RS(sk)集合中的所有相關(guān)語(yǔ)詞按照權(quán)值(置信度)大小進(jìn)行排序,如果其中有重復(fù)的語(yǔ)詞項(xiàng),則選取權(quán)值的最大值。取不低于擴(kuò)展詞權(quán)值閾值wmin(s)的相關(guān)語(yǔ)詞并存入到RS(s)集合中。
⑷ 將查詢串q與擴(kuò)展串RS(s)合并后,組成一系列語(yǔ)詞項(xiàng)集合
將所得出的相關(guān)語(yǔ)詞加入到初始的查詢q中,形成新的擴(kuò)展查詢q’。為查詢q’中的每一個(gè)擴(kuò)展語(yǔ)詞分配權(quán)值,擴(kuò)展出來的相關(guān)語(yǔ)詞的權(quán)值由語(yǔ)詞之間的相關(guān)度決定。
(三)算法的不足和改進(jìn)
本文提出的基于關(guān)聯(lián)庫(kù)的查詢擴(kuò)展算法可在一定程度上提高查準(zhǔn)率,克服了傳統(tǒng)信息檢索基于關(guān)鍵字的搜索引擎的簡(jiǎn)單匹配的缺陷,減輕了相關(guān)領(lǐng)域?qū)<覙?gòu)建語(yǔ)義庫(kù)的負(fù)擔(dān)。但由于網(wǎng)絡(luò)上數(shù)據(jù)的龐大性使得語(yǔ)詞或概念之間的語(yǔ)義關(guān)系都相當(dāng)復(fù)雜,采用何種算法以及怎樣對(duì)關(guān)聯(lián)規(guī)則進(jìn)行剪枝等都是決定查詢效率的關(guān)鍵性因素。我覺得可以和其他的技術(shù)相結(jié)合獲得更高的效率,如下:
⑴.關(guān)聯(lián)規(guī)則挖掘與信息過濾技術(shù)相結(jié)合
網(wǎng)絡(luò)及信息技術(shù)的迅猛發(fā)展導(dǎo)致了信息過載等現(xiàn)象,因而可以在網(wǎng)絡(luò)信息挖掘之前對(duì)網(wǎng)絡(luò)文檔中包含的信息進(jìn)行過濾、篩選、分類和歸檔等操作,使網(wǎng)絡(luò)信息挖掘所要處理的數(shù)據(jù)量得以減少,同時(shí)使輸入數(shù)據(jù)的質(zhì)量、網(wǎng)絡(luò)內(nèi)容挖掘的信息挖掘速度及精確度和用戶所得信息的時(shí)效性得以提高。
⑵.關(guān)聯(lián)規(guī)則挖掘與可視化技術(shù)相結(jié)合
可將關(guān)聯(lián)規(guī)則挖掘技術(shù)與可視化完美結(jié)合,互為補(bǔ)充,在信息檢索中利用可視化技術(shù)可將用數(shù)據(jù)挖掘得到的語(yǔ)義關(guān)系用圖像方式顯示,揭示數(shù)據(jù)之間的相互關(guān)系及發(fā)展趨勢(shì),有助于用戶判斷一個(gè)檢索中的相關(guān)信息是否是自己需要的。用形象直觀的圖像來指引檢索過程,可以加快檢索速度,大大縮短用戶的查詢時(shí)間,而且可以加深用戶對(duì)數(shù)據(jù)含義的理解,使挖掘信息的過程和結(jié)果易于理解,便于在發(fā)現(xiàn)知識(shí)過程中進(jìn)行人機(jī)交互。