金利
摘 ?要: 設(shè)計(jì)基于用戶本體的圖書館用戶數(shù)據(jù)挖掘系統(tǒng)的功能及架構(gòu),提高用戶數(shù)據(jù)挖掘的深度。以創(chuàng)建圖書館通用用戶本體為前提,結(jié)合圖書館用戶數(shù)據(jù)挖掘技術(shù)創(chuàng)建圖書館用戶數(shù)據(jù)挖掘本體系統(tǒng)。該系統(tǒng)通過(guò)專用本體功能以及通用本體功能,實(shí)現(xiàn)用戶興趣度、滿意度、可信度等信息的挖掘;且在分析本體系統(tǒng)的本體功能以及應(yīng)用功能的基礎(chǔ)上,設(shè)計(jì)圖書館用戶挖掘系統(tǒng)架構(gòu),在數(shù)據(jù)層采集圖書館用戶各類來(lái)源異構(gòu)數(shù)據(jù)的基礎(chǔ)上,采用用戶本體層創(chuàng)建和更新用戶本體,通過(guò)分析挖掘?qū)硬捎酶黝悢?shù)據(jù)挖掘手段和技術(shù),挖掘用戶本體,并采用用戶背景或領(lǐng)域知識(shí)挖掘高層次的用戶數(shù)據(jù)。實(shí)驗(yàn)結(jié)果說(shuō)明該系統(tǒng)可有效挖掘出用戶的借閱數(shù)據(jù)以及個(gè)人閱讀傾向數(shù)據(jù),且具有較高的挖掘精度。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 用戶本體創(chuàng)建; 信息挖掘; 異構(gòu)數(shù)據(jù); 系統(tǒng)功能分析; 用戶本體挖掘
中圖分類號(hào): TN99?34; G250.76 ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2020)23?0155?04
Abstract: The function and framework of library user data mining system based on user ontology is designed to improve the depth of user data mining. On the premise of creating the general user ontology of library, the library user data mining ontology system is created in combination with the library user data mining technology. The mining of information about users′ interestingness, satisfaction and reliability is realized by the dedicated ontology function and general ontology function of the system. On the basis of analysis of ontology and application functions of the ontology systems, the framework of the library user mining system is designed. On the basis of collecting library users′ heterogeneous data from all kinds of sources in data layer, the user ontology layer is used to create and update the user ontology. All kinds of data mining means and technologies are adopted to mine the user ontology by means of the analysis of mining layer. The user background or domain knowledge is used to mine user data in high level. The experimental results show that the system can mine the borrowing data and personal reading tendency data of library users effectively, and has a high mining accuracy.
Keywords: data mining; user ontology establishment; information mining; heterogeneous data; system function analysis; user behavior mining
0 ?引 ?言
近年來(lái),隨著科學(xué)技術(shù)的發(fā)展,以用戶為核心的發(fā)展模式廣泛應(yīng)用在圖書館發(fā)展進(jìn)程中,因此現(xiàn)代圖書館比較關(guān)鍵的戰(zhàn)略資源之一是用戶資源,圖書館管理的主要環(huán)節(jié)是用戶資源管理。用戶數(shù)據(jù)挖掘是從大量、模糊以及隨機(jī)等多種形式的用戶數(shù)據(jù)中提取有使用價(jià)值的用戶數(shù)據(jù)。用戶數(shù)據(jù)挖掘是用戶資源管理中比較重要的環(huán)節(jié)之一。目前,圖書館比較重要的研究方向是怎樣采用各類技術(shù)深度地挖掘、判斷和分析用戶數(shù)據(jù),讓海量的用戶數(shù)據(jù)成為圖書館計(jì)劃和施展個(gè)性化服務(wù)的重要依據(jù)。
本體(Ontology)是指領(lǐng)域概念的結(jié)構(gòu)化規(guī)范,它表面地概括了領(lǐng)域內(nèi)相關(guān)概念之間的關(guān)系。本體通過(guò)描述概念、術(shù)語(yǔ)和相互關(guān)系的標(biāo)準(zhǔn)化,勾勒出某一領(lǐng)域的基本知識(shí)體系,支持優(yōu)秀的概念層次和邏輯推理。因此將本體融入圖書館用戶的數(shù)據(jù)挖掘系統(tǒng)中是一種很好的嘗試。
本文設(shè)計(jì)基于用戶本體的圖書館用戶數(shù)據(jù)挖掘系統(tǒng),全面、準(zhǔn)確挖掘圖書館用戶數(shù)據(jù),實(shí)現(xiàn)用戶數(shù)據(jù)的深入挖掘。
1 ?圖書館用戶數(shù)據(jù)挖掘系統(tǒng)的功能及架構(gòu)
1.1 ?創(chuàng)建圖書館通用用戶本體
創(chuàng)建圖書館用戶本體的過(guò)程包括三部分:
1) 定義用戶的各類概念、屬性和各類概念、屬性間的關(guān)系。
2) 以成熟的元本體為前提,則用戶本體的概念和概念間的關(guān)系采用自然語(yǔ)言描述,并選取符合的本體描述語(yǔ)言對(duì)自然語(yǔ)言描述的結(jié)果實(shí)行形式化處理。
3) 產(chǎn)生的文件能夠幫助計(jì)算機(jī)識(shí)別和處理。采集、對(duì)比圖書館和用戶交互時(shí)的有關(guān)術(shù)語(yǔ),對(duì)照其他領(lǐng)域用戶本體創(chuàng)建的數(shù)據(jù),獲得一個(gè)通用的圖書館用戶本體概念列表,如表1所示。
能用特定的屬性敘述表1中各個(gè)概念,如用戶行為中 “瀏覽”這個(gè)概念的敘述可用起始時(shí)間、終止時(shí)間、類型和所瀏覽信息的有關(guān)信息(如題目和核心詞)等詞語(yǔ),可用外圍概念中 “文獻(xiàn)信息”的屬性敘述“所瀏覽信息的有關(guān)信息。”另外,在定義有關(guān)概念屬性時(shí),可以調(diào)用已存在的通用專業(yè)領(lǐng)域本體敘述涉及到的學(xué)科和專業(yè)等概念。
1.2 ?圖書館用戶數(shù)據(jù)挖掘系統(tǒng)的功能
1.2.1 ?圖書館用戶數(shù)據(jù)挖掘系統(tǒng)本體功能
將創(chuàng)建的圖書館通用用戶本體結(jié)合圖書館用戶數(shù)據(jù)挖掘技術(shù),創(chuàng)建圖書館用戶數(shù)據(jù)挖掘本體系統(tǒng),能有效描述數(shù)據(jù)挖掘本體的各項(xiàng)信息,主要內(nèi)容如圖1所示。
圖1中,用戶數(shù)據(jù)挖掘本體系統(tǒng)包括挖掘功能、方法、數(shù)據(jù)類型、結(jié)果和執(zhí)行環(huán)境等內(nèi)容。其中方法包括后置條件、前驅(qū)條件和參數(shù),參數(shù)包括參數(shù)類型和約束條件。
用戶數(shù)據(jù)挖掘本體系統(tǒng)的通用本體功能如圖2所示??梢娖溆蓪S帽倔w功能和通用本體功能構(gòu)成,專用本體功能包括:用戶數(shù)據(jù)挖掘系統(tǒng)能夠有效挖掘用戶的興趣度(客觀興趣、主觀興趣)、新奇度和簡(jiǎn)便度。而通用本體功能介紹如下:
查詢:依據(jù)用戶設(shè)置一些查詢要求,從表或其他查詢中選擇所有或個(gè)別數(shù)據(jù),以表的方式顯示數(shù)據(jù)提供用戶瀏覽。
滿意度:描述圖書館用戶對(duì)該系統(tǒng)使用情況的實(shí)際感受。
可信度:描述圖書館用戶對(duì)該系統(tǒng)的信賴程度。
用戶生命周期:描述圖書館用戶使用該系統(tǒng)的期限。
1.2.2 ?圖書館用戶數(shù)據(jù)挖掘系統(tǒng)應(yīng)用功能
除了上述功能外,圖書館用戶數(shù)據(jù)挖掘系統(tǒng)的功能還包括:
1) 創(chuàng)建一個(gè)基于文獻(xiàn)穩(wěn)定供應(yīng)單位或個(gè)人(如圖書館、出版社和一般用戶等)。
2) 從傳統(tǒng)文獻(xiàn)數(shù)據(jù)中挖掘用戶本體的圖書館用戶多樣性信息專業(yè)數(shù)據(jù),如用戶分類數(shù)據(jù)等。
3) 為圖書館用戶提供共享路徑,創(chuàng)建個(gè)性化圖書館,不同類別用戶(圖書館管理員和一般用戶等)都有相應(yīng)的管理資源范圍。
4) 提高不同語(yǔ)言的信息交融,提升數(shù)據(jù)的展現(xiàn)程度和使用范圍,對(duì)外提供更完備的文獻(xiàn)數(shù)據(jù)信息。
1.3 ?圖書館用戶數(shù)據(jù)挖掘系統(tǒng)的總體架構(gòu)
以上述研究和分析為前提,設(shè)計(jì)基于用戶本體的圖書館用戶數(shù)據(jù)挖掘系統(tǒng)的總體架構(gòu),如圖3所示。該系統(tǒng)主要包括數(shù)據(jù)層、用戶本體層和分析挖掘?qū)尤齻€(gè)層次,以下是各層的主要功能:
1) 數(shù)據(jù)層。數(shù)據(jù)層功能主要包括三個(gè)方面:
① 能夠完成各種異構(gòu)資源數(shù)據(jù)庫(kù)的按期采集、全文和索引存儲(chǔ)、提取產(chǎn)生元數(shù)據(jù)、完善數(shù)字化標(biāo)引等多種問(wèn)題;
② 實(shí)現(xiàn)網(wǎng)絡(luò)異構(gòu)資源的分類組織、發(fā)布和保存;
③ 整合各類異構(gòu)數(shù)字資源(包含圖書館內(nèi)外數(shù)據(jù)異構(gòu)),產(chǎn)生一致的查詢?nèi)肟凇?/p>
2) 用戶本體層。該層的功能由三方面組成:
① 創(chuàng)建用戶本體,采用用戶本體預(yù)處理多類來(lái)源異構(gòu)用戶數(shù)據(jù),完成數(shù)據(jù)的聚集,換言之,將異構(gòu)的數(shù)據(jù)轉(zhuǎn)變成一致的數(shù)據(jù)形式,清除數(shù)據(jù)間語(yǔ)法和語(yǔ)義的不同;
② 以用戶數(shù)據(jù)源的改變?yōu)榍疤?,持續(xù)更新用戶本體;
③ 為分析數(shù)據(jù)挖掘?qū)犹峁?shù)據(jù)挖掘依據(jù)。
用戶本體庫(kù)和用戶本體管理器構(gòu)成用戶本體層。用戶本體庫(kù)主要用途是保存各個(gè)用戶的用戶本體;用戶管理器的主要功能是產(chǎn)生用戶本體,依據(jù)用戶使用圖書館各應(yīng)用系統(tǒng)的改變,持續(xù)接納新用戶數(shù)據(jù),更新用戶本體,并將更新后的用戶本體保存到用戶本體庫(kù)中。
3) 分析挖掘?qū)?。該層的核心功能是采用各類?shù)據(jù)挖掘手段和技術(shù),如分類規(guī)則和決策樹等,順著每個(gè)屬性和屬性間的關(guān)系路線挖掘保存在上一層次用戶本體庫(kù)中的用戶本體,采用用戶背景或領(lǐng)域知識(shí)挖掘高層次的數(shù)據(jù),加速數(shù)據(jù)挖掘進(jìn)度,達(dá)到具有深遠(yuǎn)意義挖掘結(jié)果的目的。數(shù)據(jù)分析挖掘?qū)拥闹饕ぷ鲀?nèi)容包含兩方面:
① 分析和提取圖書館中各個(gè)用戶的多維特征。特征提取是實(shí)現(xiàn)用戶模式識(shí)別的基礎(chǔ),盡量多發(fā)現(xiàn)用戶特征,尤其是用戶興趣特征和用戶信息行為特征,用作識(shí)別圖書館和用戶交互時(shí)的特征。用戶興趣特征和用戶信息行為特征分別反映了用戶興趣的專業(yè)限度、類型和語(yǔ)種等以及用戶應(yīng)用信息的習(xí)慣和方式、詢問(wèn)信息的順序、特征和走向等。圖書館用戶管理中涉及到有關(guān)用戶準(zhǔn)則,典范的知識(shí)庫(kù)是用戶本體,可以采用推理、概念歸一化等方法提取用戶本體特征,提升圖書館對(duì)用戶特征獲得的完全性和精確度。
② 創(chuàng)建用戶模型,完成用戶的合理聚類和分類等。對(duì)各個(gè)用戶特征實(shí)行多維分析的關(guān)鍵,是基于用戶本體對(duì)用戶屬性的各個(gè)方向?qū)嵭邢嘞裥苑治龅倪^(guò)程,即從各個(gè)方向分析用戶本體的相像度,不能只對(duì)單個(gè)用戶的有關(guān)數(shù)據(jù)實(shí)行挖掘,對(duì)相像度很高的用戶基于用戶本體建模,完成對(duì)圖書館用戶自各個(gè)方向?qū)嵭泻侠矸诸惡途垲悺榱藢?duì)不同類別的用戶群提供各種各樣獨(dú)特性服務(wù)計(jì)劃,通過(guò)發(fā)覺各種各樣的虛擬用戶社區(qū)實(shí)現(xiàn)服務(wù)計(jì)劃。
2 ?實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證本文設(shè)計(jì)的基于用戶本體的圖書館用戶數(shù)據(jù)挖掘系統(tǒng)的有效性,實(shí)驗(yàn)將選用遼寧省大連市某大學(xué)圖書館作為研究對(duì)象,利用本文系統(tǒng)檢測(cè)該校2019?12?02—2019?12?08期間學(xué)生的圖書借閱情況。本文圖書館用戶數(shù)據(jù)挖掘系統(tǒng)搜索界面如圖4所示。
分析圖4可知,圖書館管理員通過(guò)圖書館用戶數(shù)據(jù)挖掘系統(tǒng)搜索界面輸入想要查詢的圖書借閱項(xiàng)目,如計(jì)算機(jī)科學(xué)與管理,得到圖書館用戶數(shù)據(jù)挖掘信息結(jié)果如圖5所示。
分析圖5可知,圖書館管理員輸入想要查詢的圖書借閱項(xiàng)目,可以檢索到用戶的借閱量(單位:次)、借閱時(shí)間、所屬專業(yè)和年齡等信息結(jié)果,說(shuō)明本文系統(tǒng)可有效實(shí)現(xiàn)圖書館用戶數(shù)據(jù)挖掘。
為了驗(yàn)證本文系統(tǒng)對(duì)圖書館用戶數(shù)據(jù)挖掘的實(shí)際情況,實(shí)驗(yàn)隨機(jī)選擇某大學(xué)大三年級(jí)4個(gè)專業(yè)的87名學(xué)生作為研究對(duì)象,采用本文系統(tǒng)挖掘這些研究對(duì)象在2019年12月2日—8日期間的借閱數(shù)據(jù)整體情況、參與借閱數(shù)據(jù)情況、借閱類目排行情況,結(jié)果分別如表2、表3所示。分析表2和表3說(shuō)明,本文系統(tǒng)不僅可以有效挖掘研究對(duì)象整體借閱數(shù)據(jù),還可以有效挖掘出研究對(duì)象具體借閱類目的借閱次數(shù)。
采用本文系統(tǒng)對(duì)87名學(xué)生中的李某和趙某的個(gè)人閱讀傾向數(shù)據(jù)進(jìn)行深入挖掘分析,結(jié)果見表4、表5。分析表4、表5可知,本文系統(tǒng)可有效挖掘出李某和趙某的借閱類目集合,以及借閱類目對(duì)應(yīng)的冊(cè)數(shù)和平均天數(shù),說(shuō)明本文系統(tǒng)可以有效實(shí)現(xiàn)圖書館讀者個(gè)人閱讀傾向數(shù)據(jù)的全面挖掘。
為了進(jìn)一步驗(yàn)證本文系統(tǒng)的挖掘性能,統(tǒng)計(jì)本文系統(tǒng)挖掘87名實(shí)驗(yàn)對(duì)象針對(duì)表3中11種不同類型借閱類目圖書借閱次數(shù)、借閱時(shí)間以及借閱條數(shù)的挖掘精度,結(jié)果用圖6描述。分析圖6可知,本文系統(tǒng)挖掘11種類型書目的借閱次數(shù)、借閱時(shí)間以及借閱條數(shù)的精度始終高于95.6%,說(shuō)明本文系統(tǒng)是一種高精度的圖書館用戶借閱數(shù)據(jù)挖掘系統(tǒng)。
3 ?結(jié) ?語(yǔ)
本文從用戶本體出發(fā),設(shè)計(jì)圖書館用戶數(shù)據(jù)挖掘系統(tǒng)的功能及架構(gòu),該系統(tǒng)能夠?qū)D書館用戶的借閱數(shù)據(jù)進(jìn)行全面、準(zhǔn)確挖掘,主要是因?yàn)楸疚南到y(tǒng)在充分分析用戶本體概念的基礎(chǔ)上,充分利用用戶數(shù)據(jù)挖掘本體系統(tǒng)具備的專用本體功能和通用本體功能, 通過(guò)數(shù)據(jù)層、用戶本體層以及分析挖掘?qū)拥南到y(tǒng)結(jié)構(gòu),對(duì)用戶數(shù)據(jù)進(jìn)行全方位深入挖掘。
參考文獻(xiàn)
[1] 王紅,袁小舒,雷菊霞.人工智能:圖書館應(yīng)用架構(gòu)和服務(wù)模式的重塑[J].現(xiàn)代情報(bào),2019,39(9):101?108.
[2] 張洪源,劉光輝,王洋,等.基于數(shù)據(jù)挖掘和整合藥理學(xué)對(duì)中藥桃仁治療冠心病的分子機(jī)制探討[J].中華中醫(yī)藥學(xué)刊,2019,37(8):1917?1920.
[3] 高勝,朱建明.基于區(qū)塊鏈技術(shù)的新型分層數(shù)字圖書館體系架構(gòu)[J].圖書情報(bào)工作,2018,62(24):57?64.
[4] 陸康.數(shù)據(jù)圈背景下的智慧圖書館數(shù)據(jù)匯聚研究[J].現(xiàn)代情報(bào),2019,39(10):102?109.
[5] 劉長(zhǎng)良,許濤,王梓齊,等.基于智能電廠大數(shù)據(jù)的關(guān)鍵參數(shù)目標(biāo)值挖掘技術(shù)[J].熱力發(fā)電,2019,48(9):14?21.
[6] 蘇克雷,葉娟,張業(yè)清,等.基于數(shù)據(jù)挖掘的江浙滬名老中醫(yī)膏方醫(yī)案關(guān)聯(lián)解析[J].中華中醫(yī)藥雜志,2019,34(6):2721?2727.
[7] 杜時(shí)勇.基于大數(shù)據(jù)的城軌信號(hào)系統(tǒng)線網(wǎng)智能運(yùn)維平臺(tái)研究[J].都市快軌交通,2019,32(3):13?18.
[8] 王豐.導(dǎo)彈武器系統(tǒng)參數(shù)性能指標(biāo)的可拓?cái)?shù)據(jù)挖掘[J].智能系統(tǒng)學(xué)報(bào),2019,14(3):560?565.
[9] 劉穎超,胡小鋒,劉夢(mèng)湘.多工序下刀具磨損的不完備信息系統(tǒng)數(shù)據(jù)挖掘[J].計(jì)算機(jī)集成制造系統(tǒng),2019,25(5):1055?1061.
[10] 張磐,丁泠允,姜寧,等.基于支持度?置信度?提升度的配網(wǎng)自動(dòng)化系統(tǒng)數(shù)據(jù)挖掘算法及應(yīng)用[J].電測(cè)與儀表,2019,56(10):62?68.
[11] 黃博韜,朱邦賢.基于復(fù)雜系統(tǒng)論的中藥藥對(duì)數(shù)據(jù)挖掘研究進(jìn)展[J].中華中醫(yī)藥雜志,2018,33(6):2485?2487.
[12] 郝艷妮,吳素萍,田維麗.數(shù)據(jù)挖掘算法在葡萄酒信息數(shù)據(jù)分析系統(tǒng)中的研究[J].計(jì)算機(jī)科學(xué),2017,44(z1):491?494.
[13] 王俊波,李慧,邱太洪.基于數(shù)據(jù)挖掘的CVT電容元件擊穿故障分析[J].電力電容器與無(wú)功補(bǔ)償,2019,40(3):96?100.
[14] 歐陽(yáng)劍,彭松林,李臻.數(shù)字人文背景下圖書館人文數(shù)據(jù)組織與重構(gòu)[J].圖書情報(bào)工作,2019,63(11):15?24.
[15] 魏海燕.基于ACRL《高等教育信息素養(yǎng)框架》的大學(xué)信息素養(yǎng)教育生態(tài)系統(tǒng)構(gòu)建:以香港城市大學(xué)圖書館為例[J].圖書情報(bào)工作,2019,63(6):56?63.