金秋萍
(廣西財(cái)經(jīng)學(xué)院,南寧530003)
數(shù)據(jù)挖掘(Data Mining),是指從海量數(shù)據(jù)中提取出能夠更好幫助決策的有用信息。該技術(shù)的發(fā)展為信息的及時(shí)、廣泛傳播創(chuàng)造了良好條件,并產(chǎn)生巨大的經(jīng)濟(jì)效益,越來越受到各行各業(yè)的廣泛關(guān)注和使用。[1]以安全為例,美國國家安全局(NSA)愛德華·斯諾登披露了NSA全方位收集電話和電子郵件記錄之事,引發(fā)了全球關(guān)于信息安全問題的思考。NSA之所以能從海量信息中挖掘出有用信息,除得益于陡然降落的計(jì)算機(jī)存儲和處理價(jià)格,還依賴于數(shù)據(jù)挖掘技術(shù)的使用。同樣,數(shù)據(jù)挖掘技術(shù)在商業(yè)、氣象學(xué)、石油勘探、天文學(xué)等領(lǐng)域發(fā)揮著越來越重要的作用。[2]
本文通過文獻(xiàn)回顧,總結(jié)了幾種關(guān)于讀者閱讀需求偏好的分類方式。在此基礎(chǔ)上,作者利用數(shù)據(jù)挖掘技術(shù),以廣西某高校圖書館為例,根據(jù)C4.5決策樹算法,建立了讀者閱讀需求偏好決策樹,以便全方位、深層次地滿足讀者的多樣化需求,提升圖書館的辦事效率和整體服務(wù)質(zhì)量。
目前,國內(nèi)許多學(xué)者對讀者閱讀需求偏好的分類進(jìn)行了大量研究。總的來講,有以下幾種分類標(biāo)準(zhǔn):徐菊(2011)按讀者閱讀動機(jī)劃分,將讀者閱讀偏好由低到高劃分為四個(gè)層次,即生存型、消遣型、發(fā)展型和研究型;國金榮(2009)按照讀者閱讀興趣、閱讀需要和閱讀能力的不同,將讀者的閱讀類型大致分為四種:專業(yè)型、興趣休閑型、純粹消遣娛樂型(或時(shí)尚型)、隨便翻閱型;姚毓武、董克禮(1988)研究了天津體育學(xué)院學(xué)生的閱讀類型,他們根據(jù)不同年級需求層次,將讀者的閱讀需求分為豐富知識閱讀型、興趣或消遣閱讀型、為作業(yè)或考試閱讀型、經(jīng)常性閱讀型四類。根據(jù)國內(nèi)學(xué)者的研究成果,結(jié)合圖書館數(shù)據(jù)挖掘的實(shí)際情況,本文主要將讀者的閱讀需求偏好分為兩類:社會消遣型(S)和專業(yè)研究型(P)。
現(xiàn)實(shí)世界中的數(shù)據(jù)多種多樣,每一種數(shù)據(jù)都不可能是完美無缺的,單純地利用數(shù)據(jù)挖掘技術(shù),其耗時(shí)長而且數(shù)據(jù)挖掘結(jié)果往往不盡如人意。為保證數(shù)據(jù)的質(zhì)量,可以在數(shù)據(jù)挖掘前使用數(shù)據(jù)預(yù)處理技術(shù),常用的數(shù)據(jù)預(yù)處理方法主要有:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換等。
2.1.1 數(shù)據(jù)的收集、整理及合并
本文以廣西某高校圖書館為例,使用的數(shù)據(jù)均來自于該圖書館的集成管理系統(tǒng)。縱覽數(shù)據(jù)庫的整體內(nèi)容,發(fā)現(xiàn)與讀者需求偏好有關(guān)的可供進(jìn)一步挖掘、分析的數(shù)據(jù)分布于流通數(shù)據(jù)庫的不同表中。流通數(shù)據(jù)庫主要包括讀者信息表(DZXXB)、流通信息表(LTXXB)、流通歷史表(LTLSB)、文獻(xiàn)信息表(WXXXB)、條碼信息表(TMXXB)等,這些表中都不同程度地包含了有關(guān)讀者的基本信息、讀者借閱信息以及讀者借閱書籍的書籍信息。接下來,具體看以下各表所包含的主要字段信息。表1列出了有關(guān)讀者基本信息的主要字段。
表1 讀者信息表中的主要字段
流通信息表顯示了讀者的借閱歷史,表明讀者曾經(jīng)借過哪些書,在什么時(shí)間段借閱過而且顯示了已借閱圖書的館藏狀態(tài)等信息。如表2為流通信息表中的主要字段。
文獻(xiàn)信息表和條碼信息表通過共同的關(guān)鍵字——控制號聯(lián)系在一起,分別顯示了讀者要檢索的文獻(xiàn)信息以及文獻(xiàn)對應(yīng)的條碼信息。查找文獻(xiàn)資料時(shí),可以通過條碼信息找到對應(yīng)的控制號,然后再找到該控制號對應(yīng)的文獻(xiàn)資料。
表2 流通信息表中的主要字段
通過以上讀者信息表、借閱信息表、文獻(xiàn)信息表和條碼信息表的介紹,可以建立圖書館讀者數(shù)據(jù)寬表。具體步驟如下:首先必須建立數(shù)據(jù)源(ODBC),這是建立圖書館讀者數(shù)據(jù)寬表的前提和基礎(chǔ);然后,使用MS QUERY將該數(shù)據(jù)源和流通數(shù)據(jù)庫相連接,同時(shí)添加讀者信息表和流通信息表;依此類推,根據(jù)這幾個(gè)表之間的聯(lián)系,添加條碼信息表、流通歷史表、文獻(xiàn)信息表,最終就可以得到圖書館讀者數(shù)據(jù)寬表。
2.1.2 類標(biāo)簽的界定
類標(biāo)簽是用來標(biāo)志目標(biāo)的分類或內(nèi)容,以便于日后查找和定位,這里的目標(biāo)即讀者的閱讀需求偏好,剛剛建立的數(shù)據(jù)寬表中并不存在這樣一種標(biāo)簽,這就需要重新定義類標(biāo)簽。根據(jù)國內(nèi)學(xué)者對讀者閱讀需求偏好的研究,本文主要將讀者閱讀需求偏好分為兩類,即社會消遣型和專業(yè)研究型,分別記為S和P。
數(shù)據(jù)清理主要解決數(shù)據(jù)文件建立中的人為誤差,以及數(shù)據(jù)文件中一些對統(tǒng)計(jì)分析結(jié)果影響較大的特殊數(shù)值。常用的數(shù)據(jù)清理方法包括可編碼式清理和聯(lián)列式清理。數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識別或刪除離群點(diǎn)并解決不一致性來“清理”數(shù)據(jù)。
數(shù)據(jù)變換是指將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖掘的形式,主要是對數(shù)據(jù)進(jìn)行規(guī)格化操作。為了理清現(xiàn)有變量與類標(biāo)簽之間的關(guān)系,常常要用到數(shù)據(jù)變換這樣一種方法。[3]就本文所選取的讀者閱讀需求偏好來說,可供讀者閱讀的書籍成千上萬,而這些書籍書名各異,可以根據(jù)圖書所屬地域歸類為中國文學(xué)或外國文學(xué)。在此基礎(chǔ)上,可以進(jìn)一步作概念層次提升,即將它們提升為我們要研究的娛樂消遣和專業(yè)研究兩大類。具體如圖1所示:
在數(shù)據(jù)挖掘技術(shù)中,單純依靠數(shù)據(jù)清理和數(shù)據(jù)集成,很難挖掘出數(shù)據(jù)之間的深層次關(guān)系,所以需要對數(shù)據(jù)進(jìn)行變換和合成,找出數(shù)據(jù)之間隱藏的某種聯(lián)系。表3顯示了數(shù)據(jù)合成過程及其結(jié)果。
圖1 概念層次提升
表3 原始寬表數(shù)據(jù)節(jié)選(0表示在借,1表示已還)
根據(jù)表3中原始寬表數(shù)據(jù)節(jié)選的字段,在電子表格中,可以合成如下幾個(gè)變量:最近借閱圖書類別、借閱類別數(shù)、借閱時(shí)間最長圖書類別、借閱頻率、閱讀偏好等,如表4列出了原始寬表聚焦后的數(shù)據(jù)表。
表4 原始寬表聚焦后的數(shù)據(jù)表
其中,借閱次數(shù)表示某一時(shí)期內(nèi),讀者借閱某一本圖書(包括在借圖書)的次數(shù);借閱類別數(shù)表示某一時(shí)期內(nèi),讀者分別借閱專業(yè)研究類書籍和娛樂消遣類書籍的次數(shù);借閱時(shí)間最長圖書類別表示讀者自借出該圖書到實(shí)際還書日期差值最大的圖書所對應(yīng)的圖書類別。如果借閱次數(shù)的值呈離散分布,為便于統(tǒng)計(jì)分析,可以對這些數(shù)據(jù)進(jìn)行處理,即進(jìn)行等頻分箱,箱的密度可以設(shè)為3,分別表示借閱次數(shù)的高、中、低三個(gè)等級。
數(shù)據(jù)庫中存在著大量的數(shù)據(jù),并不是所有數(shù)據(jù)都可以作為數(shù)據(jù)挖掘的對象,否則會影響數(shù)據(jù)挖掘的質(zhì)量。根據(jù)“奧卡姆剃刀”定律,目標(biāo)越簡單,越能將焦點(diǎn)集中于要解決的復(fù)雜問題上。[4]在這里,我們保留一些最能體現(xiàn)讀者借閱信息的變量,剔除相關(guān)性較小的變量,得到讀者信息的最終數(shù)據(jù)表,如下表5:
表5 最終數(shù)據(jù)表字段節(jié)選
表中P和S在上文中已定義,P表示專業(yè)研究讀者的閱讀需求偏好,S表示社會消遣型讀者的閱讀需求偏好。為保證數(shù)據(jù)挖掘的質(zhì)量,應(yīng)剔除一些數(shù)據(jù)量很小、可能會影響數(shù)據(jù)挖掘質(zhì)量的變量,例如:借閱類別中包含的西文圖書、綜合圖書等變量。通過以上數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換和合成,得到16540條適于進(jìn)行數(shù)據(jù)挖掘的條目。
C4.5算法最初是由Quinlan基于ID3算法提出,嚴(yán)格上說C4.5只能是 ID3的一個(gè)改進(jìn)算法。C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對ID3算法進(jìn)行了改進(jìn):用信息增益率來選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的不足;在樹構(gòu)造過程中進(jìn)行剪枝;能夠完成對連續(xù)屬性的離散化處理;能夠?qū)Σ煌暾麛?shù)據(jù)進(jìn)行處理。因此,通過C4.5算法產(chǎn)生的分類規(guī)則易于理解,準(zhǔn)確率和效率也更高。[5]
(2)類別條件熵 infov(T)=-∑jp(vi)∑ip(Cj|vi)log p(Cj|vi)
(3)信息增益,即互信息 gain(V)=info(T)-info(T)
(4)屬性V的信息熵 split-info(V)=-∑ip(vi)log(p(vi))
(5)信息增益率 gain-ratio=gain(V)/splitinfo(V)
為建立讀者需求偏好決策樹,必須借助最終數(shù)據(jù)表中的變量來構(gòu)造。根據(jù)C4.5算法,應(yīng)該選擇能夠帶來最大信息增益率的分類方式,即借助最近借閱圖書類別、借閱類別數(shù)、借閱時(shí)間最長類別、借閱頻率四種分類方式來運(yùn)算。[6]在電子表格中,利用VBA函數(shù)Gain()、Split-info()和Gain()-ratio(),計(jì)算信息增益、固有信息值和信息增益率。具體計(jì)算過程如下:
Gain(最近借閱圖書類別)
=info(10525,5144)-info([8936,1264],[1589,3880])=0.91317-0.65532=0.25785
Split-info(最近借閱圖書類別)
=info([10200,5469])=0.93320
Gain-ratio(最近借閱圖書類別)=0.2763
Gain(借閱類別數(shù))
=info(10525,5144)-info([4741,1396],[5784,3748])=0.91317-0.89114=0.02203
Split-info(借閱類別數(shù))
=info([6137,9532])=0.96587
Gain-ratio(借閱類別數(shù))=0.02281
Gain(借閱時(shí)間最長類別)
=info(10525,5144)-info([9331,1417],[1194,3727])
=0.91317-0.63687=0.2763
Split-info(借閱時(shí)間最長類別)=info([10748,4921])=0.8978
Gain-ratio(借閱時(shí)間最長類別)=0.30775
Gain(借閱頻率)
=info(10525,5144)-info([3353,1711 ],[2893,1393],[4279,2040])=0.91317-0.91303=0.00014
Split-info(借閱頻率)
=info([5064,4266,6319])=1.56657
Gain-ratio(借閱頻率數(shù))=0.000093
分別計(jì)算決策樹上每個(gè)分支的信息增益率,對比計(jì)算出來的各個(gè)信息增益率值,選擇其中數(shù)值最大的作為劃分屬性的依據(jù)。根據(jù)以上計(jì)算過程,可以發(fā)現(xiàn)“借閱時(shí)間最長類別”所對應(yīng)的信息增益率的值最大,因此,可以該屬性作為根節(jié)點(diǎn)的劃分屬性。按照C4.5算法循環(huán)以上計(jì)算過程,最終可得到讀者閱讀需求偏好決策樹,如圖2所示。
圖2 讀者閱讀需求偏好決策樹
為了保證評價(jià)結(jié)果的公正和客觀,以便更好地檢驗(yàn)和反饋圖2中生成的讀者閱讀需求偏好決策樹,利用IF THEN形式生成關(guān)于讀者閱讀需求偏好的評價(jià)規(guī)則:
IF(借閱時(shí)間最長類別=專業(yè)研究類)THEN(類別=P)
IF(借閱時(shí)間最長類別=娛樂消遣類 AND借閱類別數(shù)=1)THEN(類別=S)
IF(借閱時(shí)間最長類別=娛樂消遣類 AND借閱類別數(shù)>1 AND最近借閱類別=娛樂消遣類)THEN(類別=S)
IF(借閱時(shí)間最長類別=娛樂消遣類 AND借閱類別數(shù)>1 AND最近借閱類別=專業(yè)研究類AND借閱頻率<>低)THEN(類別=P)
IF(借閱時(shí)間最長類別=娛樂消遣類 AND借閱類別數(shù)>1AND最近借閱類別=專業(yè)研究類AND借閱頻率=低)THEN(類別=S)共生成5條規(guī)則,準(zhǔn)確率為83%,可以接受。
對評價(jià)規(guī)則作進(jìn)一步的評價(jià)分析,可得出結(jié)論:
(1)閱讀需求偏好專業(yè)研究型的讀者,其借閱專業(yè)書籍的時(shí)間最長,同時(shí)借閱書籍的種類繁多。因此,可以認(rèn)為這種類型的讀者興趣愛好廣泛,但主要還是集中于專業(yè)書籍方面。
(2)閱讀需求偏好社會消遣型的讀者,其借閱文藝書籍的時(shí)間最長,同時(shí)借閱書籍的種類比較少,表明讀者的興趣也比較單一;與此相對應(yīng)的另一種情況是:讀者借閱文藝書籍的時(shí)間最長,借閱書籍種類多種多樣。同樣可以認(rèn)為這種類型的讀者興趣愛好廣泛,借閱時(shí)以專業(yè)書籍為主,但是這種類型的讀者借閱頻率低,表明該種類型的讀者對圖書館圖書的利用率比較低。
隨著現(xiàn)代科學(xué)技術(shù)的發(fā)展,圖書館數(shù)據(jù)的集成和管理必須借助數(shù)據(jù)挖掘技術(shù),才能保證數(shù)據(jù)的可靠、及時(shí)和安全。本文在研究圖書館讀者閱讀需求偏好的基礎(chǔ)上,根據(jù)讀者的閱讀需求偏好建立決策樹,旨在為讀者提供多樣化、深層次的服務(wù),提高服務(wù)的質(zhì)量和水平。需要注意的是,本文所采用的閱讀需求偏好模型只是讀者數(shù)據(jù)挖掘中的一個(gè)方面,如果要全方位地挖掘讀者閱讀需求偏好,必須結(jié)合多種方法和技術(shù),全面、深入地采集和分析與讀者閱讀需求偏好有關(guān)的信息。
[1]M.goebel and L.Gruenwald,A survey of data mining and knowledge discovery software tools[J].SIKDD Explorations,2009,1(1).22-23.
[2]牛根義.國內(nèi)圖書館數(shù)據(jù)挖掘研究[J].現(xiàn)代情報(bào),2010,29(1).128-133.
[3]胡可云,田鳳占等.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:北京交通大學(xué)出版社,2008.165-210.
[4]蔣艷凰.機(jī)器學(xué)習(xí)方法[M].北京:電子工業(yè)出版社,2011.7-8.
[5]J.Quinlan.C4.5 Programs for Machine Learning[M].Morgan Kaufmann Publishers,2008.
[6]姚家奕.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)原理及應(yīng)用[M].北京:電子工業(yè)出版社,2009.200-219.
大學(xué)圖書情報(bào)學(xué)刊2015年1期