• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談如何做好建設工程檔案編研工作

      2016-05-30 09:58:40李娜
      卷宗 2016年4期
      關鍵詞:Apriori算法關聯(lián)分析數(shù)據(jù)挖掘

      李娜

      摘 要:介紹了關聯(lián)規(guī)則,應用Apriori算法對圖書館讀者借閱記錄進行分析,發(fā)掘存在其中的關聯(lián)規(guī)則,在圖書館提供的個性化服務中具有很大的價值。

      關鍵詞:數(shù)據(jù)挖掘;關聯(lián)分析;Apriori算法

      緊跟著教育體制的不斷改革深化的步伐,高等院校辦學的規(guī)模也隨之擴大,相應的圖書館藏書也日益豐富起來。不斷擴充的藏書容量在提供大量知識的同時,人們查找自己所需信息的難度也在逐漸增大,在信息時代迅猛發(fā)展的今天如何給讀者提供方便快捷的搜索方式也已擺在管理者眼前。鑒于高校圖書館目前廣泛采用了信息化的管理系統(tǒng),會產生大量借閱數(shù)據(jù)資源,如果發(fā)掘這些海量數(shù)據(jù)資源中的關系和規(guī)則,尋找出背后隱藏的借閱信息,進而可對不同的讀者提供具有針對性的個性化服務。數(shù)據(jù)挖掘經過近些年的逐步發(fā)展,在提供關聯(lián)分析等方面能夠便于發(fā)現(xiàn)隱藏在大量數(shù)據(jù)后的有用資源,可為讀者提供更為主動地服務,提高知識的利用效率。

      1 關聯(lián)規(guī)則的相關概念

      1.1 關聯(lián)規(guī)則

      關聯(lián)規(guī)則(association rule)是是數(shù)據(jù)挖掘的主要技術之一,它對數(shù)據(jù)庫中的數(shù)據(jù)項的依存性和關聯(lián)性進行描述,從而在已知項的基礎上對未知項進行預測,是形如X→ Y的表達式,其中X和Y是不相交的項集,即X ∩ Y= Ф。關聯(lián)規(guī)則的強度可以用它的支持度(support)和置信度(confidence) 來度量。支持度代表該規(guī)則所代表的事例(元組)占全部事例(元組)的百分比;而置信度代表該規(guī)則所代例占滿足前提條件事例的百分比。即:

      使用支持度和置信度是由于一方面支持度是一種重要度量,低支持度概率的規(guī)則可能僅為偶然出現(xiàn),多數(shù)是無意義的,通常可將其刪去。另一方面,置信度度量通過規(guī)則進行推理具有可靠性。對于給定的規(guī)則X Y,置信度越高,Y在包含X的事務中出現(xiàn)的可能性就越大。但由關聯(lián)規(guī)則做出的推論只表示規(guī)則前件和后件中的項明顯地同時出現(xiàn),而不能說明其必然蘊涵因果關系。

      關聯(lián)規(guī)則發(fā)現(xiàn):給定事務的集合T,關聯(lián)規(guī)則發(fā)現(xiàn)是指找出支持度大于等于minsup并且置信度大于等于minconf的所有規(guī)則,其中minsup和minconf是對應的支持度和置信度閾值。

      挖掘關聯(lián)規(guī)則的一種原始方法是:把每個可能存在的規(guī)則的支持度和置信度都計算出來。但是這種方法將會花費相當大的代價,從包含d項的數(shù)據(jù)集提取的規(guī)則的數(shù)目可以達指數(shù)級3395988.png ,但最終大部分規(guī)則將被丟棄。因此,對規(guī)則事先進行剪枝并拆分其支持度和置信度要求可免于將它們計算出來。例如,涉及同一個項集的{甲,乙,丙}的規(guī)則:{甲,乙} {丙},{甲,丙} {乙},{乙,丙} {甲},{甲} {乙,丙},{丙} {甲,乙},{乙} {甲,丙}。如果能夠判斷出項集{甲,乙,丙}是非頻繁的,則可以將這6個候選規(guī)則給剪掉,從而能夠有效地減少算法開銷。因此,通常釆用將挖掘任務分解為如下兩個主要的過程的挖掘算法:

      (1)頻繁項集產生:尋找滿足最小支持度閾值的所有項集作為頻繁項集(frequent itemset)。

      (2)規(guī)則的產生:從上一步發(fā)現(xiàn)的頻繁項集中提取所有高置信度的規(guī)則作為強規(guī)則(strong rule)。

      1.2 Apriori算法

      Apriori算法采用通過候選項集產生頻繁項集的基礎上再由頻繁項集產生關聯(lián)規(guī)則的方法,來達到系統(tǒng)地控制候選項集指數(shù)增長的目的。首先掃描事務數(shù)據(jù)庫,從中尋找出頻繁項集1的集合L1,然后用L1尋找頻繁二項集2的集合L2,再用L2找出L3,直到不能再找到頻繁項集K為止,來完成了頻繁項集的挖掘,其中連接和剪枝是兩個最關鍵的步驟。

      1.2.1連接(join)

      合并篩選后的候選k-項集與L k-1,產生下一個項集支持度。即為尋找L k,通過L k-1與自己合并候選k-項集的集合。

      1.2.2剪枝(prune)

      由于C k是L k的超集,可能有些元素不是頻繁的。C k很大是會帶來巨大的計算量,為減少C k的規(guī)模,Apriori遵從下列性質:任何非頻繁的(k-1)項集必定不是頻繁k-項集的子集。所以,當候選k-項集的某個(k-1)子集不是L k-1中的成員時,則該候選項集不可能是頻繁的,可以從L k-1中移去。

      2 Apriori算法在圖書館推薦服務中的應用

      2.1 數(shù)據(jù)預處理

      對于大量的借閱數(shù)據(jù)來說,借閱次數(shù)較少的讀者產生的借閱記錄對于關聯(lián)分析分析沒有太大的參考價值,因此在錄入數(shù)據(jù)庫時要剔除借閱量少于十本的讀者記錄,而僅將活躍讀者的借閱數(shù)據(jù)信息錄入到數(shù)據(jù)庫中;將在架圖書按標準的中圖法進行編號歸類,分為基于類型的多個借閱記錄來避免出現(xiàn)一個較大的數(shù)據(jù)庫,減少一次數(shù)據(jù)庫掃描的容量;在借閱記錄中出現(xiàn)借閱兩本完全相同的概率很小,關聯(lián)中只考慮到類別的書籍,而推薦出在此類別中借閱記錄最高的一本來處理。設置最小支持度0.0255和最小置信度0.85。

      以下是部分經提取后的讀者借閱信息:

      將獲得到的數(shù)據(jù)進行變換和分類,得出每個讀者的借閱記錄

      2.2 對處理的數(shù)據(jù)通過Apriori算法的處理,可得到以下規(guī)則

      2.3 對規(guī)則作出分析

      查閱書號從關聯(lián)規(guī)則中可知,有2.58%的人同時借閱了O182(數(shù)學建模、控制論、分析基礎類的書籍,而且在這些人中借閱了數(shù)學建模、控制論后有86.5%的人同時借閱了分析基礎類的書籍;有2.55%的人同時借閱了工程力學和機械原理類的書籍,而且在這些人中借閱了機械原理后有88.2%的人同時借閱了工程力學類的書籍;有2.59%的人同時借閱了考古學和世界史類的書籍,而且在這些人中借閱了考古學后有89.1%的人同時借閱了世界史類的書籍……通過對算法處理結果進行分析,我們可以很直觀地發(fā)現(xiàn)讀者借閱信息中存在的某些信息,讀者會傾向于在選擇某類書籍的同時捎帶上另一類或幾類需要的書籍。因此,我們可以建立一種數(shù)字化圖書館的推送業(yè)務,對借閱了數(shù)學建模、控制論后的讀者推送分析基礎;對借閱了機械原理的讀者推送工程力學;對借閱了考古學后的讀者推送世界史等等,這樣雖然可能不適用于小部分群體,但方便了大部分讀者,為他們創(chuàng)造了方便。同時,我們還可以嘗試調整這些書籍的放置位置,將具有關聯(lián)性質的書籍放置在互相靠近的地方,使讀者能夠一次性借閱到自己所需要的書籍,從而減少去各個不同類型的書籍場館借閱所帶來的不便,更好的發(fā)揮出這些數(shù)據(jù)的潛在價值。

      3 總結

      為找出存在于讀者中的譜遍性閱讀習慣,本文對圖書館的讀者借閱記錄采用Apriori算法分析了其中可能存在的關聯(lián)規(guī)則,為圖書館的讀者借閱提供方便的圖書推送業(yè)務和圖書關聯(lián)放置模式;同時,也要發(fā)現(xiàn)存在的某些不足:由于存在讀者幫別人借閱書籍的情況,會使相互關聯(lián)性存在誤差,影響到對個體行為的分析以及總體的關聯(lián)情況,導致降低了數(shù)據(jù)分析的普適性,因此,需要在數(shù)據(jù)的錄入階段需要對這種讀者的節(jié)借閱波動性建立濾波矩陣,予以濾除這種“噪聲”的干擾,以便更加精準的分析可能存在的關聯(lián)規(guī)則。后續(xù)的研究中還可對不同的年級的學生、教員建立單獨的借閱數(shù)據(jù)庫,以便能夠發(fā)現(xiàn)關聯(lián)性更強的準則,做出更加精準的預測,為廣大讀者提供針對性更強的服務。

      參考文獻

      [1] Mehmed Kantardzic 數(shù)據(jù)挖掘:概念、模型、方法和算法[M].閃四清,陳茵,程 雁,等譯.北京:清華大學出版社,2003

      [2]李愛鳳.基于數(shù)據(jù)挖掘技術的課程相關性模式研究與實現(xiàn)[D].華南師范大學,2006

      [3]許成香.基于數(shù)據(jù)挖掘技術的學生信息系統(tǒng)開發(fā)[J].硅谷,2009,16:57

      [4]Han Jiawei,Kamber M.數(shù)據(jù)挖掘:概念與技術[M].北京:機械工業(yè)出版社,2008:150-167endprint

      猜你喜歡
      Apriori算法關聯(lián)分析數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
      基于隨機函數(shù)Petri網的系統(tǒng)動力學關聯(lián)分析模型
      基于Apriori算法的高校學生成績數(shù)據(jù)關聯(lián)規(guī)則挖掘分析
      關聯(lián)分析技術在學生成績分析中的應用
      軟件導刊(2016年11期)2016-12-22 21:58:16
      基于云平臺MapReduce的Apriori算法研究
      關聯(lián)規(guī)則挖掘Apriori算法的一種改進
      中國市場(2016年36期)2016-10-19 04:10:44
      基于關聯(lián)分析的學生活動參與度與高校社團管理實證研究
      科技視界(2016年15期)2016-06-30 12:43:00
      不同的數(shù)據(jù)挖掘方法分類對比研究
      永年县| 山东省| 莱西市| 平罗县| 东乡| 宣化县| 六安市| 松滋市| 红原县| 汉寿县| 柏乡县| 长春市| 龙游县| 聊城市| 嘉义县| 云龙县| 台中市| 花莲市| 红桥区| 镶黄旗| 香港 | 辰溪县| 揭西县| 同心县| 苗栗县| 漳平市| 闵行区| 玉田县| 通海县| 淮滨县| 修武县| 东山县| 乌什县| 荥阳市| 辰溪县| 乐山市| 涿州市| 洛阳市| 讷河市| 周口市| 永顺县|