• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      書(shū)目檢索功能個(gè)性化推薦關(guān)鍵技術(shù)的研究

      2016-12-12 07:34:14張亮
      微型電腦應(yīng)用 2016年11期
      關(guān)鍵詞:項(xiàng)集借書(shū)置信度

      張亮

      書(shū)目檢索功能個(gè)性化推薦關(guān)鍵技術(shù)的研究

      張亮

      高校圖書(shū)館是進(jìn)行學(xué)習(xí)和科研的重要環(huán)境,更是師生獲取參考資源的重要渠道。目前,部分高校的圖書(shū)書(shū)目檢索功能還停留在傳統(tǒng)的線性檢索和僅靠關(guān)鍵字檢索的層面上,隱藏在海量的借閱記錄背后的潛在關(guān)聯(lián)無(wú)法被發(fā)現(xiàn),對(duì)借書(shū)者的需求無(wú)法進(jìn)行預(yù)測(cè)。關(guān)聯(lián)規(guī)則是從大量數(shù)據(jù)中挖掘有價(jià)值的數(shù)據(jù)之間的相關(guān)關(guān)系。擬用等價(jià)的關(guān)聯(lián)規(guī)則在書(shū)目檢索模塊實(shí)現(xiàn)圖書(shū)的個(gè)性化推薦,以便借書(shū)者在海量的圖書(shū)資料中找到自己感興趣的圖書(shū)信息。

      數(shù)據(jù)挖掘;個(gè)性化;關(guān)聯(lián)規(guī)則;書(shū)目檢索

      0 引言

      隨著網(wǎng)絡(luò)化和數(shù)字化圖書(shū)館技術(shù)發(fā)展,借閱圖書(shū)所產(chǎn)生的信息數(shù)據(jù)量越來(lái)越大,高校圖書(shū)館管理系統(tǒng)中存儲(chǔ)著大量的書(shū)目信息、借書(shū)者信息、檢索信息等數(shù)據(jù)。圖書(shū)書(shū)目檢索個(gè)性化推薦功能是圖書(shū)館管理系統(tǒng)中的重要模塊,它的很大程度上簡(jiǎn)化了借書(shū)者檢索借閱等其他相關(guān)業(yè)務(wù)的復(fù)雜性。如何利用數(shù)據(jù)技術(shù)建立借書(shū)者與書(shū)目的關(guān)聯(lián),讓借書(shū)者在第一時(shí)間找到對(duì)自己有用的書(shū)目,實(shí)現(xiàn)書(shū)目的個(gè)性化推薦,是本文研究的內(nèi)容。本文提出了一種基于等價(jià)的關(guān)聯(lián)規(guī)則算法來(lái)實(shí)現(xiàn)書(shū)目檢索的個(gè)性化推薦,以此來(lái)更好的提高圖書(shū)館的服務(wù)水平。

      1 關(guān)聯(lián)規(guī)則挖掘理論及其算法

      1.1 關(guān)聯(lián)規(guī)則

      關(guān)聯(lián)規(guī)則[1,2](Association Rules)是數(shù)據(jù)之間依附關(guān)系的數(shù)據(jù)的自然描述,其主要是研究和發(fā)現(xiàn)實(shí)際應(yīng)用中數(shù)據(jù)屬性之間的關(guān)聯(lián)關(guān)系,對(duì)關(guān)聯(lián)規(guī)則進(jìn)行挖掘是數(shù)據(jù)挖掘中的一項(xiàng)根本性任務(wù)。關(guān)聯(lián)規(guī)則以數(shù)據(jù)源型數(shù)據(jù)庫(kù)為主要對(duì)象,是多個(gè)取值相同概率高的數(shù)據(jù)項(xiàng)之間按照某種規(guī)則建立的聯(lián)系。

      具有支持度support(X→Y),指D中包含X∪Y的概率s%,即式(1):

      具有置信度confidence(X→Y),指D中包含的X∪Y與包含的X比率c%,即式(2):

      同時(shí)滿足用戶給定的最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的關(guān)聯(lián)規(guī)則,即support(X→Y)≥min_sup且confidence(X→Y)≥min_conf,則稱為強(qiáng)關(guān)聯(lián)規(guī)則。通常,只有強(qiáng)關(guān)聯(lián)規(guī)則才是用戶感興趣的,因此,關(guān)

      聯(lián)規(guī)則的挖掘就是要發(fā)現(xiàn)所有滿足用戶定義的最小支持度和最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則。

      挖掘強(qiáng)關(guān)聯(lián)規(guī)則兩個(gè)基本步驟如下:

      (1)找出頻繁項(xiàng)集:通過(guò)用戶給定最小支持度閾值min_sup,尋找所有頻繁項(xiàng)集,即僅保留大于或等于最小支持度閾值的項(xiàng)集;

      (2)生成強(qiáng)關(guān)聯(lián)規(guī)則:通過(guò)用戶給定最小置信度閾值min_conf,在頻繁項(xiàng)集中尋找關(guān)聯(lián)規(guī)則,即刪除不滿足最小置信度閾值的規(guī)則。

      1.2 關(guān)聯(lián)規(guī)則Apriori算法

      由R.Agrawal提出的Apriori算法是最為著名的關(guān)聯(lián)規(guī)則算法[3],它利用頻繁項(xiàng)集性質(zhì)的先驗(yàn)知識(shí)(prior knowledge),通過(guò)層次搜索的迭代方法,逐步完成頻繁項(xiàng)目集的發(fā)現(xiàn),為了發(fā)掘有意義的關(guān)聯(lián),一般需要給定兩個(gè)閾值:最小支持度(min_sup)和最小置信度(min_conf),其中,頻繁項(xiàng)集就是指一個(gè)項(xiàng)目集 X滿足最小支持度(Support(X)>=min_sup)。

      Apriori算法由連接(join)和修剪(prune)兩個(gè)操作步驟[4]-[5]:

      連接(join)步驟:為了找出Lk,可以將Lk-1與自己連接產(chǎn)生候選k項(xiàng)集的集合,該候選k項(xiàng)集記為Ck。Lk-1中的兩個(gè)元素L1和L2可以執(zhí)行連接操作的條件是:

      (2)修剪(prune)步驟:一個(gè)k項(xiàng)集,如果它的一個(gè)k-1項(xiàng)集不是頻繁的,那它本身也不可能是頻繁的。為了減少計(jì)算量,可以使用Apriori性質(zhì),即如果一個(gè)候選k項(xiàng)集任一子集((k-1)項(xiàng)集)不屬于Lk-1,那么該候選k項(xiàng)集不可能成為一個(gè)頻繁k項(xiàng)集,因而可以直接從Ck刪除。

      Apriori算法核心思想如下[6]:

      2 關(guān)鍵技術(shù)及實(shí)現(xiàn)

      2.1 書(shū)目檢索關(guān)聯(lián)規(guī)則的基本定義

      通過(guò)上面對(duì)關(guān)聯(lián)規(guī)則及Apriori算法的介紹,可知,在Apriori算法中,由于多遍掃描事務(wù)數(shù)據(jù)庫(kù),產(chǎn)生數(shù)量巨大的候選項(xiàng)集,支持度計(jì)數(shù)工作十分繁重,這些都會(huì)影響算法的效率,而對(duì)于高校圖書(shū)館中圖書(shū)的海量信息來(lái)說(shuō),書(shū)目檢索功能需要具備高效性,兩者存在沖突矛盾。因此本文提出一種改進(jìn)的關(guān)聯(lián)規(guī)則生成算法,并給出與關(guān)聯(lián)規(guī)則等價(jià)的定義[7]。

      支持度(S):規(guī)則X→Y的支持度是指“H中包含X∪Y的借書(shū)者與全部借書(shū)者的百分比”。

      置信度(C):規(guī)則X→Y的置信度是指:“借閱歷史數(shù)據(jù)庫(kù)中既包含了X又包含了Y的借書(shū)者占所有包含了X的借書(shū)者的百分比”。

      目標(biāo):找出H中所有滿足支持度和置信度分別高于借書(shū)者指定的最小支持度(min_sup)和最小置信度(min_conf)的關(guān)聯(lián)規(guī)則,即頻繁圖書(shū)項(xiàng)目集就是同時(shí)滿足大于閾值α和 β的圖書(shū)項(xiàng)目集。

      2.2 書(shū)目檢索算法的基本思想

      針對(duì)書(shū)目檢索關(guān)聯(lián)規(guī)則算法,本節(jié)主要將其時(shí)間復(fù)雜度降低為冪函數(shù),并給出如下的算法[8,9]:

      (1)依據(jù)歷史借閱記錄,將大于閾值α和β的值無(wú)重復(fù)的添加到H中,產(chǎn)生頻繁圖書(shū)項(xiàng)目集,具體步驟如下所示:

      a.把數(shù)據(jù)庫(kù)中的借閱記錄按照借書(shū)者進(jìn)行排序;

      b.對(duì)每本圖書(shū)的借閱頻率f進(jìn)行掃描,并確定最大借閱頻率F;

      c.對(duì)每本圖書(shū)借閱的借書(shū)者p數(shù)量進(jìn)行掃描,并確定借

      書(shū)者總數(shù)P;

      d.對(duì)同一借書(shū)者借閱的同本圖書(shū)進(jìn)行掃描,并做出記號(hào)flag;

      e.依據(jù)f、F、p、P、flag建立頻繁圖書(shū)項(xiàng)目集。

      (2)依據(jù)頻繁圖書(shū)項(xiàng)目集產(chǎn)生書(shū)目檢索關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(kù),具體步驟如下所示:

      a.對(duì)頻繁圖書(shū)項(xiàng)目集中的借閱記錄按照借書(shū)者進(jìn)行排序;

      b.對(duì)頻繁圖書(shū)項(xiàng)目集中借書(shū)者總數(shù)進(jìn)行掃描;

      c.在借閱的圖書(shū)中,對(duì)于同一借書(shū)者獲取其“前件圖書(shū)”及“后件圖書(shū)”;

      d.在其他同一借書(shū)者借閱的圖書(shū)中檢索相同的“前件圖書(shū)”和“后件圖書(shū)”是否存在;

      e.假如存在,對(duì)同時(shí)持有“前件圖書(shū)”和“后件圖書(shū)”的借書(shū)者數(shù)量進(jìn)行掃描;

      f.參照借書(shū)者人數(shù)和總?cè)藬?shù),進(jìn)行支持度的計(jì)算;

      g.參照借書(shū)者人數(shù)和持有“前件圖書(shū)”的借書(shū)者人數(shù),進(jìn)行置信度的計(jì)算;

      h.在關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(kù)中,對(duì)有相同“前件圖書(shū)”和“后件圖書(shū)”記錄進(jìn)行掃描,掃描其是否存在。若不存在,分兩條書(shū)目檢索規(guī)則增添到關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(kù)中,即一條以“前件圖書(shū)”、“后件圖書(shū)”、支持度、置信度作為檢索關(guān)聯(lián)規(guī)則,另一條以“后件圖書(shū)”、“前件圖書(shū)”、支持度、置信度作為書(shū)目檢索;

      i. 循環(huán)執(zhí)行步驟c-h,直到掃描完所有借書(shū)者借閱所有圖書(shū)。

      (3)在書(shū)目檢索關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(kù)中,利用初始的“前件圖書(shū)”查詢“后件圖書(shū)”;

      (4)假如檢索成功,就以“后件圖書(shū)”作為新的“前件圖書(shū)”進(jìn)行檢索,直到出現(xiàn)相同圖書(shū)或者檢索失敗為止。由此獲得與起始“前件圖書(shū)”直接或者間接相關(guān)的圖書(shū)項(xiàng)目集。

      2.3 數(shù)據(jù)源的選取

      我校圖書(shū)館共計(jì)藏書(shū)282萬(wàn)冊(cè),本文僅對(duì)教師、本科生、碩士和博士研究生的一天借閱量進(jìn)行統(tǒng)計(jì),平均每天可達(dá)2000余冊(cè),一年借閱量在50萬(wàn)余冊(cè)。在這些數(shù)據(jù)背后隱藏著大量有用的、有價(jià)值的信息。因此,本文以圖書(shū)歷史借閱記錄作為書(shū)目檢索功能的研究對(duì)象,開(kāi)展圖書(shū)關(guān)聯(lián)性的挖掘研究。本文選取我校2011年7月-2015年7月的借書(shū)者借閱歷史記錄為書(shū)目檢索模塊進(jìn)行實(shí)例說(shuō)明。

      2.4 數(shù)據(jù)預(yù)處理

      本文從圖書(shū)館管理系統(tǒng)中抽取了一下數(shù)據(jù)集:證件號(hào)、索書(shū)號(hào)、條碼號(hào)、題名、責(zé)任者、借閱日期、應(yīng)還日期、館藏地等信息,原數(shù)據(jù)如圖1所示:

      圖1 借書(shū)者記錄表

      在關(guān)聯(lián)規(guī)則挖掘前,需要對(duì)圖書(shū)借閱數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理[10]就是對(duì)采集到的用戶原始的行為數(shù)據(jù)進(jìn)行分析,清除與挖掘目標(biāo)無(wú)關(guān)的屬性,提供一組干凈準(zhǔn)確的、可以挖掘的、適宜分析的對(duì)象。

      (1)需要完善借書(shū)者記錄表。對(duì)于主屬性(如證件號(hào)、索書(shū)號(hào)、條碼號(hào)、題名)為空的值,將其記錄刪除,部分借書(shū)者屬性值顯示不全的記錄,可以將其補(bǔ)全,保證與關(guān)聯(lián)規(guī)則挖掘相關(guān)的主屬性不能為空。

      (2)刪除借書(shū)者記錄表中無(wú)關(guān)聯(lián)的屬性值。對(duì)于條形碼、責(zé)任者、借閱日期、應(yīng)還日期、館藏地等與關(guān)聯(lián)規(guī)則挖掘無(wú)關(guān)的屬性列,可以直接刪除,以便提高挖掘效率。

      (3)針對(duì)借書(shū)者記錄表中內(nèi)容一致性進(jìn)行檢查。如專業(yè)重組或者重新分類時(shí),造成學(xué)生學(xué)號(hào)(即數(shù)據(jù)庫(kù)中的證件號(hào))反生變化,從而生成錯(cuò)誤的證件號(hào)信息。

      執(zhí)行完(1)-(3)步數(shù)據(jù)清理的操作后,產(chǎn)生的借閱證記錄表如圖2所示:

      圖2 預(yù)處理后的借書(shū)者檢索記錄

      2.5 系統(tǒng)實(shí)現(xiàn)和挖掘分析

      本文通過(guò)多次調(diào)試,采用等價(jià)的關(guān)聯(lián)規(guī)則算法進(jìn)行頻繁項(xiàng)集的挖掘,最后確定α的取值為0.608和β的取值為0.15,在次條件下挖掘的支持度和置信度一定大約α和β,其挖掘結(jié)果如圖3所示:

      圖3 生成的關(guān)聯(lián)規(guī)則

      在圖3中雙擊第1條記錄,可以生產(chǎn)書(shū)目-書(shū)目類別的關(guān)聯(lián)分析圖,生成效果如圖4所示:

      圖4 書(shū)目關(guān)聯(lián)分析圖

      通過(guò)圖書(shū)館書(shū)目檢索平臺(tái)的分析結(jié)果,可以得出,借閱量相對(duì)較高的圖書(shū)是計(jì)算機(jī)類和英語(yǔ)類,由此生成的關(guān)聯(lián)規(guī)則也較多。

      3 總結(jié)

      現(xiàn)代高校圖書(shū)館要面向借書(shū)者提供個(gè)性化的服務(wù),就需要對(duì)借書(shū)者的需求進(jìn)行有效的數(shù)據(jù)挖掘,提供智能化的服務(wù)。相比傳統(tǒng)的現(xiàn)行檢索和僅靠關(guān)鍵字檢索,采用等價(jià)的關(guān)聯(lián)規(guī)則構(gòu)建的書(shū)目檢索個(gè)性化推薦模型,可以找到借閱書(shū)目之間隱藏的關(guān)聯(lián)性,向借書(shū)者推薦的檢索結(jié)果是具有強(qiáng)關(guān)聯(lián)的書(shū)目信息。本文在算法的選擇上雖然采用了等價(jià)的關(guān)聯(lián)規(guī)則算法,提高了檢索效率,但在時(shí)間和空間的復(fù)雜性方面還有一定局限,在今后的研究工作中,可以考慮用其他算法進(jìn)行改進(jìn),進(jìn)一步提高檢索功能的運(yùn)行效率。

      [1] Bing Liu.Web數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2013.

      [2] 曾令明,唐常杰,陰小雄,李川,胡建軍,蔣永光.雙向關(guān)聯(lián)規(guī)則挖掘及其相關(guān)性分析[J].計(jì)算機(jī)工程與設(shè)計(jì),2005,26(10):2585-2588.

      [3] 趙祖應(yīng),丁勇,鄧平.基于Apriori算法的購(gòu)物籃關(guān)聯(lián)規(guī)則分析[J].江西科學(xué),2012,30(01):96-98.

      [4] 陳世保,吳國(guó)鳳.一種改進(jìn)的Apriori算法在試卷評(píng)估中的應(yīng)用研究[J].井岡山大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,33(02):58-62.

      [5] 劉華婷,郭仁祥,姜浩.關(guān)聯(lián)規(guī)則挖掘Apriori算法的研究和改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2014,26(01):1-3.

      [6] 紀(jì)系禹、韓秋明,等.?dāng)?shù)據(jù)挖掘技術(shù)應(yīng)用實(shí)例[M].北京:機(jī)械工業(yè)出版社,2009.

      [7] 張瑞云.基于關(guān)聯(lián)規(guī)則模式的數(shù)字圖書(shū)館智能檢索研究[J].電子技術(shù),2013,(09):73-75.

      [8] 李欣.基于關(guān)聯(lián)規(guī)則的圖書(shū)館圖書(shū)智能查詢系統(tǒng)研究[D].吉林:東北師范大學(xué),2012:20-29.

      [9] Osmar R.Zaiane,Mohammad EI-Hajj,Paul Lu.Fast Parallel Assocation Rule Mining Without Candidate Generation.2001:115-126.

      [10] 況莉莉.?dāng)?shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理在圖書(shū)借閱中的應(yīng)用[J].淮北職業(yè)技術(shù)學(xué)院學(xué)報(bào),2011,10(03):117-119.

      Research on Key Issues in Personalized Recommendation Based on Bibliographic Retrieval Function

      Zhang Liang
      (Network Information Center, China University of Petroleum (East China), Qingdao 266500, China)

      College library provides an important learning and research environment and is also an important channel that teachers and students can access reference resources. Currently, in some colleges and universities bibliographical retrieval function still remains in the traditional linear search and keyword search levels. The hidden massive borrowing records can not be found. Demand for the borrower can not be predicted. Association rules is to mine correlation between the valuable date from the massive data. In bibliographic retrieval module, this paper intends to use the equivalent of association rules to achieve a personalized book recommendation. So that borrowers find their own interest in the mass of book information materials.

      Data mining; Personalized; Association rules; Bibliographic retrieval

      TP311

      A

      1007-757X(2016)11-0039-03

      2016.10.01)

      高等教育研究基金(GJKT201502)

      張 亮(1981-),男,漢族,江蘇啟東,中國(guó)石油大學(xué)(華東),網(wǎng)絡(luò)及教育技術(shù)中心,計(jì)算機(jī)技術(shù)碩士,工程師,研究方向:計(jì)算機(jī)信息和網(wǎng)絡(luò)技術(shù),青島 266500

      猜你喜歡
      項(xiàng)集借書(shū)置信度
      圖圖借書(shū)
      硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
      借書(shū)去
      正負(fù)關(guān)聯(lián)規(guī)則兩級(jí)置信度閾值設(shè)置方法
      借書(shū)
      圖圖借書(shū)
      置信度條件下軸承壽命的可靠度分析
      軸承(2015年2期)2015-07-25 03:51:04
      關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
      卷宗(2014年5期)2014-07-15 07:47:08
      一種頻繁核心項(xiàng)集的快速挖掘算法
      多假設(shè)用于同一結(jié)論時(shí)綜合置信度計(jì)算的新方法?
      望城县| 金昌市| 彰化市| 江城| 房山区| 东丽区| 梧州市| 喀喇| 泽州县| 黄梅县| 广宗县| 保康县| 阿图什市| 伊金霍洛旗| 马关县| 策勒县| 康保县| 永定县| 清徐县| 宁安市| 安仁县| 南江县| 弥勒县| 工布江达县| 苏尼特右旗| 潜江市| 舞阳县| 商水县| 泸溪县| 高州市| 涟源市| 巩义市| 莱芜市| 方城县| 滨海县| 宣化县| 双鸭山市| 壶关县| 城口县| 无棣县| 南川市|