摘 要:對于讀者在不同時間下借閱過之書籍項目,往往也反映出書籍被借閱的次序性,其可能顯示讀者在需求上或是書籍專業(yè)上的次序性。在此章節(jié)中,我們以讀者之借閱資料為探勘的數(shù)據(jù)源,每一筆借閱數(shù)據(jù)包含有曾經(jīng)借閱過的書籍項目,其中的書籍項目都依借閱的時間事先排序過,并以某一讀者為探勘的目標,利用數(shù)據(jù)探勘技術(shù)做為發(fā)掘具有借閱次序之讀者個人化的書籍推薦的依據(jù)。
關(guān)鍵詞:次序;技術(shù);發(fā)掘;讀者;書籍;推薦
中圖分類號:TP311.13
1 次序名詞定義
其實所謂的次序,我們常用比較廣泛的說法也就是時間順序,就如同本文所使用的圖書館推薦系統(tǒng),它包含了讀者的借閱次序,而我們此研究提出了兩個次序方法,也就是利用讀者的借閱時間順序與借閱次數(shù),并依照借閱時間順序或者借閱次數(shù)高低,如果讀者想要探勘出他借閱次數(shù)時間順序或者借閱次數(shù)最高的書籍,那就可以利用次序去分析與探勘,并達到更進一步的推薦方法。
1.1 次序
為有次序性之k個項目組所組成的集合,k≥1,當中以sequencek表示之,例如某讀者先借閱A書籍與C書籍,然后再借閱B書籍、D書籍與E書籍,則以(AC,BDE)來表示一個次序,任何一讀者有次序性之借閱數(shù)據(jù)可視為一次序,但又有另一方法,那就是當讀者借閱A書籍為3次,B書籍3次,C書籍2次,那我們就可以列出(A=3,B=3)以A和B借閱次數(shù)為最高次數(shù)為3下去做推薦判別,也就是以A書籍和B書籍所借閱之關(guān)聯(lián)數(shù)據(jù)去做推薦其他同類型關(guān)聯(lián)的書籍,多出一個讀者使用推薦系統(tǒng)的方法與選擇,達到最有效率的效果。
1.2 次序支持度
包含有某一次序之事務(wù)數(shù)據(jù)的數(shù)量/全部事務(wù)數(shù)據(jù)的數(shù)量。若某一次序的支持度大于或等于最小次序支持度,則稱之為最大次序,一大次序若包含有k個項目組,則稱為大k-次序,以Lsequencek表示之,也就是書籍相似度,我們可以稱為次序支持度,但是這個常常會影響到一個探勘出來的準確度,所以我們常常會考慮是否將此支持度加入系統(tǒng)以防止準確度降低。
2 發(fā)掘讀者個人化之書籍推薦
我們可以知道有關(guān)探勘可以分出好幾種方法去作研究探勘,而傳統(tǒng)的關(guān)聯(lián)規(guī)則只考慮其項目是否出現(xiàn)在此集合中或者是否符合此集合,但并未考慮項目出現(xiàn)的次序性,畢竟借閱次序往往是包含了借閱時間的前后關(guān)系。次序分析是在一群有次序的數(shù)據(jù)集合中,找出其中時常出現(xiàn)的次序關(guān)系,也就是我們先前所提到的次序型樣,藉此可分析出讀者是否有次序性的借閱行為,其特點則是每個集合中的每個項目前后關(guān)系為識別的特征之一,也就是型樣中的項目之間是含有次序性,所以我們可以知道當我們在尋找次序時,會有一個用以決定項目先后次序的衡量方式,如時間因素,所有的項目或項目集合依據(jù)該衡量方式做次序排列,而我們要進一步的去尋找次序關(guān)系就是要在這些有關(guān)次序資料中,找出有趣的探勘規(guī)則。
舉例來說,當某讀者在昨天下午2點借閱了A書籍,又再昨天下午5點借閱了B、C兩本書籍,在昨天晚上7點又借閱了D書籍,經(jīng)過排序與分析所有讀者的借閱數(shù)據(jù)之后,如果ACD是找出的次序型樣,表示讀者在借閱了A書籍之后,會有借閱C、D書籍的傾向。假設(shè)欲探勘之讀者的借閱數(shù)據(jù)為
從上面定義可以再一次討論借閱傾向為:若讀者曾經(jīng)借閱過
而從上面依據(jù)來看,為了配合探勘的需要及避免計算與
(1)從最初對所有讀者之借閱數(shù)據(jù)中的書籍項目中,依借閱時間做遞增或遞減的方式排序。
(2)從
(3)從(2)中組合兩個序列1(Lsequence1)形成序列2(Lsequence2),其中前面項目
(4)找出Lsequencek-1,k>2。
(5)由(4)中排列組合任兩個有k-2項目相同的Lsequencek-1,形成sequencek且其中前面項目
(6)判斷由(5)所找出的sequencek其所有包括的sequencek-1之子集合是否都出現(xiàn)在(4)中,若sequencek-1∩
(7)再檢查由(6)所擷取的sequencek是否滿足最小次序支持度,假如符合就成為Lsequencek,否則就刪除。
(8)跳至(4)找Lsequencek+1,直到無法產(chǎn)生大次序為止。
(9)確認Lsequencek之最大化,即若一大次序包含于另一大次序中,則刪除掉。
從以上算法的(3)步驟開始,我們所擷取出的sequencek,其型樣必定為
因此我們計算出最大次序所形成的型樣
3 實例說明
我們以表1的借閱數(shù)據(jù)庫D3來進行分析,當我們設(shè)定K={A,B,C,D,E}為所有書籍項目的集合,則設(shè)定S={S1,S2,S3,S4}為4筆讀者之借閱數(shù)據(jù)的集合。假設(shè)目前欲探勘之讀者為S4,可以知道其借閱數(shù)據(jù)為,以下我們說明發(fā)掘具有借閱次序之此一讀者最適性書籍推薦的探勘過程。
而我們可以擷取與有相關(guān)之大次序的過程。
刪除被包含于其他大次序的大次序,我們以最大次序為例,其所顯示出的傾向特征,因為讀者R4本身借閱數(shù)據(jù)為,因此可發(fā)掘出具有借閱次序之讀者R4個人化最適性的書籍推薦為
參考文獻:
[1]張海營.圖書館個性化電子期刊訂閱[J].情報雜志,2011(06).
作者簡介:李明(1982-),男,廣西賀州人,助教,學(xué)士學(xué)位,研究方向:圖書館現(xiàn)代化管理。
作者單位:賀州學(xué)院,廣西賀州 542899