林艷鳳 苑吉洋
摘? 要: 為了能夠滿足讀者的個(gè)人興趣特點(diǎn)和應(yīng)用需求,提出基于讀者興趣分類的圖書自動(dòng)推薦系統(tǒng)設(shè)計(jì)思路。介紹了讀者興趣需求的圖書自動(dòng)推薦系統(tǒng)設(shè)計(jì)理論技術(shù)基礎(chǔ),包括數(shù)學(xué)挖掘、2K?means算法及UML語言。詳細(xì)分析了基于讀者興趣分類的圖書自動(dòng)推薦系統(tǒng)需求和性能需求,將讀者的興趣與圖書類別完成聚類分析,并提取最終聚類所獲結(jié)果匹配圖書類別,建立讀者興趣分類圖書自動(dòng)化推薦模型。引入聚類算法、關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)讀者感興趣圖書規(guī)律的統(tǒng)計(jì)分析,從而整合讀者的圖書信息源并充分發(fā)現(xiàn)具有較大價(jià)值的信息,最終將與相似性需求相符的圖書,采用電子郵件或網(wǎng)頁方式,自動(dòng)推薦給讀者。該系統(tǒng)設(shè)計(jì)能夠?yàn)樽x者提供可能感興趣的圖書摘要、館藏類相關(guān)信息,且運(yùn)行性能良好,具有良好的推廣應(yīng)用前景。
關(guān)鍵詞: 讀者興趣分類; 圖書自動(dòng)推薦; 系統(tǒng)設(shè)計(jì); 2K?means算法; 數(shù)據(jù)挖掘; 聚類分析
中圖分類號(hào): TN850.3?34? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A? ? ? ? ? ? ? ? ? ? ? 文章編號(hào): 1004?373X(2020)20?0141?04
Design of 2K?means algorithm based book automatic recommendation system for readers′ interest classification
LIN Yanfeng, YUAN Jiyang
(Qingdao University of Science &Technology, Qingdao 266000, China)
Abstract: An book automatic recommendation system based on readers′interest classification is proposed to meet the individual interest characteristics and application needs of readers. The design theory and technical basis of book automatic recommendation system for readers′ interest needs are introduced, including mathematical mining, 2K?means algorithm and UML language. The requirements and performance requirements of the book automatic recommendation system based on readers′interest classification are analyzed in detail, the clustering analysis of readers′interest and book category is completed, and the results of the obtained final clustering are extracted to match the book category. The book automatic recommendation model of readers′interest classification is established. The clustering algorithm and association rule algorithm are introduced to realize the statistical analysis of the book rule that readers are interested, so as to integrate the book information sources of readers and fully discover the information of greater value. The books that meet the requirements of similarity will be automatically recommended to readers through E?mail or webpage. The design of the system can provide readers with the relevant information of book abstracts and collections that may be interested in. It has good operation performance and good application prospect.
Keywords: readers′interest classification; book automatic recommendation; system design; 2K?means algorithm; data mining; cluster analysis
0? 引? 言
隨著各種類型大量圖書資源出版量的急速增長,讀者可利用資源越來越多,但與此同時(shí)也給讀者在圖書閱讀中,帶來選擇難度較大、無法抉擇、圖書類型多等問題??萍妓降倪M(jìn)步發(fā)展給各行業(yè)帶來較大的本質(zhì)改變,以傳統(tǒng)圖書館為軸心的被動(dòng)式服務(wù)模式,已經(jīng)無法更好地滿足當(dāng)前讀者的個(gè)人需求[1]。由于專業(yè)、水平、興趣、行為等各方面差異,不同的讀者對(duì)于圖書的興趣需求點(diǎn)也就各有不同。并且,近年來為了更好地順應(yīng)信息技術(shù)飛速發(fā)展的需求,圖書館也在原本技術(shù)手段上提供了諸多新型技術(shù)服務(wù),如目錄查詢、借閱服務(wù)、續(xù)借服務(wù)、書刊催還等技術(shù),更是不斷加大個(gè)性化服務(wù)力度,徹底改變了傳統(tǒng)圖書館的服務(wù)模式及內(nèi)容[2]。圖書館擁有海量圖書資源,能夠滿足不同讀者為其提供高品質(zhì)差異化服務(wù)模式,但是在館藏資源日趨增加的當(dāng)下,怎樣才能夠真正從海量圖書資源中,真正為讀者提供感興趣的圖書和個(gè)性化服務(wù),就作為目前需要迫切解決的關(guān)鍵問題[3]。所以提出基于讀者興趣分類的圖書自動(dòng)推薦系統(tǒng)設(shè)計(jì)思路,能夠?qū)D書館圖書資源充分合理利用的同時(shí),還可以有效確保讀者可以對(duì)相關(guān)信息進(jìn)行針對(duì)性的有效檢索,很大程度上提升管理讀者的圖書搜索效率,滿足了讀者的個(gè)性化便捷服務(wù)需求。
1? 相關(guān)理論和關(guān)鍵技術(shù)
1.1? 數(shù)據(jù)挖掘及相關(guān)理論
數(shù)據(jù)擁有大量、隨性、含噪且不安全性等特點(diǎn),數(shù)據(jù)挖掘是提取用戶潛在且有一定價(jià)值的感興趣知識(shí)信息的過程,決策管理人員可以分析處理相關(guān)信息的過程[4?6]。那么在數(shù)字圖書館中的數(shù)據(jù)挖掘技術(shù)是能夠運(yùn)用各類技術(shù)工具,在大型網(wǎng)絡(luò)數(shù)據(jù)庫中提取規(guī)律潛在信息,尋找信息中存在的關(guān)聯(lián)規(guī)則性。目前,數(shù)據(jù)挖掘的主要技術(shù)包括了信息關(guān)聯(lián)分析、聚類分析、分類、預(yù)測、時(shí)序模式、偏差分析等,比較常用的數(shù)據(jù)挖掘方法包括決策樹、聚類、統(tǒng)計(jì)、遺傳算法、神經(jīng)網(wǎng)絡(luò)、近鄰預(yù)測等已被應(yīng)用于不同區(qū)域。
1.2? 2K?means算法
2K?means算法是以輸入均值作為類中心,從而完成的一種聚類分割算法,假設(shè)K表示輸入量,擁有n個(gè)聚類對(duì)象,具體計(jì)算流程如圖1所示[7]。
1) 結(jié)合相應(yīng)需求完成K個(gè)對(duì)象的自動(dòng)化生成,并視不同對(duì)象作為類中心[8];
2) 根據(jù)“距離中心就近”這一原則,尋求最匹配每一個(gè)對(duì)象的類,并且完成各類對(duì)應(yīng),分配剩余對(duì)象;
3) 完全劃分后,對(duì)于各類對(duì)象均值逐一計(jì)算,并行形成全新的類中心;
4) 重新以“距離中心就近”原則劃分所有類對(duì)象;
5) 對(duì)所有類進(jìn)行判斷,假如存在變化則從步驟3)重復(fù),反之結(jié)束算法。
1.3? UML語言
想要成功研發(fā)一個(gè)系統(tǒng)達(dá)到預(yù)期目標(biāo),其關(guān)鍵在于能夠?qū)崿F(xiàn)需求者與系統(tǒng)開發(fā)者之間的溝通,那么UML語言即作為溝通工具,幫助系統(tǒng)開發(fā)者了解、掌握并發(fā)揮想象力。
UML作為可視化建模語言,能夠?qū)崿F(xiàn)系統(tǒng)開發(fā)者輕易理解且統(tǒng)一標(biāo)準(zhǔn)方式,成功建立系統(tǒng)開發(fā)設(shè)計(jì)藍(lán)圖,所提出的統(tǒng)一機(jī)制實(shí)現(xiàn)不同主體之間的交流共享。圖2為UML語言視圖。
由圖2可知,通過用例描述功能行為,UML能夠描述系統(tǒng)用戶的觀點(diǎn),由此派生其他相關(guān)模型視圖。目前比較常用的UML圖包括了用例圖、行為圖、靜態(tài)圖、交互圖、實(shí)現(xiàn)圖[9?11]。通過建立UML語言視圖,主要給出兩類模型元素,分別包括了概念表述模型元素、元素關(guān)系表述。
2? 系統(tǒng)設(shè)計(jì)分析
2.1? 系統(tǒng)需求
結(jié)合前期調(diào)研結(jié)果發(fā)現(xiàn),目前以亞馬遜、當(dāng)當(dāng)?shù)葓D書網(wǎng)站,均可以實(shí)現(xiàn)基于讀者興趣分類個(gè)性化推薦圖書這一服務(wù)功能[12]。本文設(shè)計(jì)思路主要是為了能夠分析數(shù)字圖書館的讀者興趣需求,和圖書館的館藏文獻(xiàn)需求。通過分析讀者的興趣偏好需求情況,能夠更好地掌握讀者的需求借閱特點(diǎn),實(shí)現(xiàn)個(gè)性化需求圖書推薦服務(wù)。
2.2? 讀者興趣需求
以高校數(shù)字圖書館為例,讀者主體主要包括了學(xué)生、教師、教研者。了解以往研究結(jié)果匯總高校數(shù)字圖書館的讀者興趣需求情況,需要數(shù)字圖書館提供圖書預(yù)借、興趣推薦、跨庫互借、定制服務(wù)、引文檢索、學(xué)術(shù)評(píng)價(jià)等需求[13]。了解高校數(shù)字圖書館的讀者,主要知識(shí)集中于大專及以上水平,匯總數(shù)字圖書館圖書數(shù)據(jù)特點(diǎn)如下:
1) 大量性。隨著高校招生數(shù)量擴(kuò)增,圖書館軟硬件水平提升,也隨之不斷增加數(shù)字圖書館的服務(wù)系統(tǒng)數(shù)據(jù)。
2) 關(guān)聯(lián)性。經(jīng)分析讀者的圖書借閱數(shù)據(jù),能夠發(fā)現(xiàn)在差異化讀者借閱圖書時(shí),在一定程度上存在數(shù)據(jù)關(guān)聯(lián)性。
3) 潛在性。圖書館的海量圖書數(shù)據(jù)中,通常包括具備較大價(jià)值的圖書信息,通過運(yùn)用數(shù)據(jù)挖掘技術(shù),對(duì)讀者興趣個(gè)性化需求進(jìn)行分析識(shí)別,從而向讀者推送相應(yīng)的信息手段,能夠真正發(fā)揮圖書館讀者興趣分類的個(gè)性化作用[14]。
2.3? 系統(tǒng)功能需求
在設(shè)計(jì)基于讀者興趣分類的圖書自動(dòng)推薦系統(tǒng)中,勢必要真正以讀者的個(gè)人圖書閱讀興趣為依據(jù),開發(fā)主動(dòng)、個(gè)性、針對(duì)性圖書自動(dòng)推薦平臺(tái)。本文系統(tǒng)主要功能模塊包括讀者登錄管理、讀者信息管理、圖書推薦、后臺(tái)管理等。
2.4? 數(shù)據(jù)流程圖
系統(tǒng)圖書自動(dòng)化推薦架構(gòu)流程如圖3所示。
3? 系統(tǒng)設(shè)計(jì)實(shí)現(xiàn)
3.1? 系統(tǒng)設(shè)計(jì)目標(biāo)及原則
設(shè)計(jì)基于讀者興趣分類的圖書自動(dòng)推薦系統(tǒng),主要是為了能夠滿足讀者的個(gè)性化興趣需求,基于現(xiàn)有數(shù)字圖書館應(yīng)用系統(tǒng)的基礎(chǔ)上優(yōu)化改進(jìn),運(yùn)用B/S三層架構(gòu),經(jīng)UML語言設(shè)計(jì)建模,旨在設(shè)計(jì)安全可靠、美觀便捷、操作簡單的個(gè)性化圖書自動(dòng)推薦系統(tǒng)。
在設(shè)計(jì)該推薦系統(tǒng)過程中,需要確保嚴(yán)格遵循軟件開發(fā)正常流程,同時(shí)還在本次開發(fā)設(shè)計(jì)中引入U(xiǎn)ML建模語言,所以做到了該系統(tǒng)的易學(xué)易用、安全可靠、完整靈活、兼容可拓展性及針對(duì)性。
3.2? 系統(tǒng)開發(fā)環(huán)境
該系統(tǒng)的設(shè)計(jì)開發(fā)環(huán)境如表1所示,運(yùn)用目前新型技術(shù)軟件,均基于Windows系統(tǒng)平臺(tái),確保本次設(shè)計(jì)系統(tǒng)的可拓展性及兼容性[15]。
3.3? 系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
該系統(tǒng)作為滿足讀者興趣個(gè)性所需的圖書自動(dòng)推薦平臺(tái),能夠向讀者主動(dòng)的提供針對(duì)性推送服務(wù),共計(jì)劃分四大模塊,如圖4所示。
1) 讀者登錄管理。該子系統(tǒng)模塊主要保證了用戶應(yīng)用該系統(tǒng)的安全保密性,可以通過輸入用戶名、登錄密碼和驗(yàn)證碼,系統(tǒng)驗(yàn)證用戶權(quán)限后即可決定是否進(jìn)入系統(tǒng)。
2) 讀者信息管理。讀者成功登入該系統(tǒng)后可以自由查看個(gè)人信息,并且進(jìn)行自主編輯修改。顯示讀者的相關(guān)注冊(cè)信息,包括郵箱地址、感興趣圖書類型、急需的新書等信息。
3) 自動(dòng)化推薦。該模塊是向讀者自動(dòng)推薦感興趣圖書的核心功能,能夠讓讀者更加高效、便捷地尋找自己感興趣及所需圖書,包括輸出輸入層、個(gè)性化服務(wù)層、基本數(shù)據(jù)庫層。
4) 后臺(tái)管理。該子系統(tǒng)模塊負(fù)責(zé)對(duì)系統(tǒng)所有功能的后臺(tái)管理,包括添加、修改和刪除管理員信息、感興趣圖書,設(shè)置自動(dòng)化圖書推薦時(shí)間間隔、制定服務(wù)器郵箱等功能。