張佼 占偉鵬 王乾杰 馮明杰 江曉 吳琪
編者按:知識(shí)圖譜是一種通過(guò)對(duì)大量復(fù)雜信息進(jìn)行處理,對(duì)其內(nèi)在的關(guān)聯(lián)關(guān)系進(jìn)行更加直觀的可視化展示的方法。本文以智能圖書(shū)推薦系統(tǒng)為例進(jìn)行介紹。該智能圖書(shū)推薦系統(tǒng)以知識(shí)圖譜可視化為基礎(chǔ),把用戶搜索關(guān)鍵詞相關(guān)的圖書(shū)信息以知識(shí)體系的方式進(jìn)行展現(xiàn)。該系統(tǒng)能夠給每個(gè)用戶建立自身的知識(shí)圖譜,結(jié)合用戶的歷史搜索、歷史借閱等數(shù)據(jù)的挖掘處理,基于用戶當(dāng)前搜索關(guān)鍵詞,自動(dòng)推薦用戶最可能喜歡的圖書(shū)。圖書(shū)智能推薦系統(tǒng)具備傳統(tǒng)的圖書(shū)管理能力,適用于傳統(tǒng)的線下傳統(tǒng)圖書(shū)館以及電子圖書(shū)館。
引言
隨著信息時(shí)代的快速發(fā)展,快速而高效地獲取知識(shí),成為了每個(gè)人必備的技能。不論是在校學(xué)習(xí)階段還是畢業(yè)后的工作中,查閱圖書(shū)必然是獲取專(zhuān)業(yè)知識(shí)的一個(gè)重要途徑。幾個(gè)世紀(jì)前,同樣的學(xué)科或者專(zhuān)業(yè),其知識(shí)涵蓋的范圍遠(yuǎn)遠(yuǎn)無(wú)法和現(xiàn)在相提并論。在實(shí)際的場(chǎng)景中,人們往往會(huì)花費(fèi)大量的時(shí)間去查閱資料、盲目地搜索、反復(fù)地試錯(cuò),才能獲取到有用的知識(shí)。
近些年快速發(fā)展起來(lái)的一些諸如數(shù)據(jù)挖掘技術(shù)、大數(shù)據(jù)技術(shù)等新技術(shù),提供了很好的解決思路。本文則依托于這些對(duì)海量數(shù)據(jù)進(jìn)行分析、處理及可視化展示的相關(guān)技術(shù),提出并設(shè)計(jì)了一個(gè)基于可視化知識(shí)圖譜的圖書(shū)智能推薦系統(tǒng)。借此,用戶可將自己從海量數(shù)據(jù)中搜尋書(shū)籍的情況中解放出來(lái),把有限精力聚焦到知識(shí)或業(yè)務(wù)本身,從而大大提升自己學(xué)習(xí)效能。
關(guān)鍵技術(shù)
知識(shí)圖譜技術(shù)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)內(nèi)容呈現(xiàn)爆炸式增長(zhǎng)的態(tài)勢(shì)。由于互聯(lián)網(wǎng)內(nèi)容具備規(guī)模大、組織結(jié)構(gòu)松散的特點(diǎn),給人們有效獲取信息和知識(shí)提出了挑戰(zhàn)。知識(shí)圖譜(Knowledge Graph) 以其強(qiáng)大的語(yǔ)義處理能力,為互聯(lián)網(wǎng)時(shí)代的知識(shí)化組織和智能應(yīng)用奠定了基礎(chǔ)。知識(shí)圖譜旨在描述現(xiàn)實(shí)世界中存在的實(shí)體以及實(shí)體之間的關(guān)系。知識(shí)圖譜的提出,是為了提高搜索引擎的能力,改善用戶的搜索質(zhì)量以及搜索體驗(yàn)。隨著人工智能的技術(shù)發(fā)展和應(yīng)用,知識(shí)圖譜作為關(guān)鍵技術(shù)之一,已被廣泛應(yīng)用于智能搜索、智能問(wèn)答、個(gè)性化推薦、內(nèi)容分發(fā)等領(lǐng)域。知識(shí)圖譜一般包含以下節(jié)點(diǎn):實(shí)體、語(yǔ)義類(lèi)概念、內(nèi)容、屬性值、節(jié)點(diǎn)關(guān)系。通過(guò)節(jié)點(diǎn)間的關(guān)系的建立,可建立起基于關(guān)鍵詞的知識(shí)圖譜,利用可視化的方式,即可直觀地展示一個(gè)知識(shí)點(diǎn)的多元結(jié)構(gòu)樹(shù)。知識(shí)圖片的構(gòu)建如下圖所示,一般由知識(shí)提取、知識(shí)標(biāo)識(shí)、實(shí)體對(duì)齊、質(zhì)量評(píng)估等功能域組成,能夠?qū)⑺缮⒂坞x的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、第三方數(shù)據(jù)庫(kù)的數(shù)據(jù)源進(jìn)行數(shù)據(jù)整合處理,形成基于實(shí)體的知識(shí)圖譜進(jìn)行可視化展示。
數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘是人工智能和數(shù)據(jù)庫(kù)領(lǐng)域研究的熱點(diǎn)問(wèn)題,數(shù)據(jù)挖掘是指從數(shù)據(jù)庫(kù)的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的非平凡過(guò)程。數(shù)據(jù)挖掘是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、可視化技術(shù)等,高度自動(dòng)化地分析數(shù)據(jù),做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),做出正確的決策。知識(shí)發(fā)現(xiàn)過(guò)程由以下三個(gè)階段組成:①數(shù)據(jù)準(zhǔn)備;②數(shù)據(jù)挖掘;③結(jié)果表達(dá)和解釋。數(shù)據(jù)挖掘可以與用戶或知識(shí)庫(kù)交互。
數(shù)據(jù)挖掘是通過(guò)分析每個(gè)數(shù)據(jù),從大量數(shù)據(jù)中尋找其規(guī)律的技術(shù),主要有數(shù)據(jù)準(zhǔn)備、規(guī)律尋找和規(guī)律表示三個(gè)步驟。數(shù)據(jù)準(zhǔn)備是從相關(guān)的數(shù)據(jù)源中選取所需的數(shù)據(jù)并整合成用于數(shù)據(jù)挖掘的數(shù)據(jù)集;規(guī)律尋找是用某種方法將數(shù)據(jù)集所含的規(guī)律找出來(lái);規(guī)律表示是盡可能以用戶可理解的方式(如可視化)將找出的規(guī)律表示出來(lái)。數(shù)據(jù)挖掘的任務(wù)有關(guān)聯(lián)分析、聚類(lèi)分析、分類(lèi)分析、異常分析、特異群組分析和演變分析等。
利用詞頻進(jìn)行數(shù)據(jù)分析是一種用于文本挖掘的技術(shù),該方法可以評(píng)估一個(gè)資料庫(kù)中一個(gè)詞語(yǔ)的重復(fù)程度,出現(xiàn)次數(shù)越多說(shuō)明它越受重視。本文使用定量分析方法基于用戶搜索的詞頻分析篩選有意義的關(guān)鍵詞,可推測(cè)當(dāng)前訪問(wèn)用戶的搜索熱點(diǎn),能夠形成基于用戶數(shù)據(jù)的搜索排行。
網(wǎng)絡(luò)數(shù)據(jù)交換技術(shù)
Web Service是一個(gè)平臺(tái)獨(dú)立的、低耦合的,自包含的、基于可編程的web的應(yīng)用程序,可使用開(kāi)放的XML(標(biāo)準(zhǔn)通用標(biāo)記語(yǔ)言下的一個(gè)子集)標(biāo)準(zhǔn)來(lái)描述、發(fā)布、發(fā)現(xiàn)、協(xié)調(diào)和配置這些應(yīng)用程序,用于開(kāi)發(fā)分布式的交互操作的應(yīng)用程序。Web服務(wù)通過(guò)Internet協(xié)議向外提供服務(wù)調(diào)用的接口,并定義了應(yīng)用程序如何在Web服務(wù)上實(shí)現(xiàn)互操作性。由于其具備平臺(tái)的無(wú)關(guān)性和良好的可擴(kuò)展性,目前移動(dòng)端和服務(wù)器端的數(shù)據(jù)交互采用基于REST風(fēng)格的Web服務(wù)技術(shù)來(lái)完成。移動(dòng)平臺(tái)通過(guò)HTTP發(fā)送(GET、POST)請(qǐng)求對(duì)數(shù)據(jù)庫(kù)資源進(jìn)行獲取、創(chuàng)建、修改和刪除等操作。同時(shí),服務(wù)器端和移動(dòng)端之間數(shù)據(jù)交互采用JSON格式,JSON格式是一種輕量級(jí)的數(shù)據(jù)交互方式,易于閱讀和編寫(xiě),效率較高。
系統(tǒng)總體設(shè)計(jì)
系統(tǒng)設(shè)計(jì)原則
智能圖書(shū)推薦系統(tǒng)在設(shè)計(jì)和實(shí)現(xiàn)過(guò)程中遵循以下原則。
1.實(shí)用性
系統(tǒng)設(shè)計(jì)上考慮各類(lèi)數(shù)據(jù)接入的情況,對(duì)于數(shù)據(jù)源來(lái)說(shuō),系統(tǒng)可引接第三方數(shù)據(jù)庫(kù),可挖掘互聯(lián)網(wǎng)上的實(shí)體關(guān)聯(lián)信息等。通過(guò)對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的整理和整合,將實(shí)體-屬性-關(guān)系以可視化的方式進(jìn)行展示,可快速幫助用戶篩選出自己感興趣的圖書(shū)。
2.跨平臺(tái)性
考慮到移動(dòng)終端的快速發(fā)展及應(yīng)用,系統(tǒng)同時(shí)支持PC端和移動(dòng)端的訪問(wèn)和使用,因此系統(tǒng)開(kāi)發(fā)需要考慮Android和IOS等主流操作系統(tǒng)平臺(tái)的兼容性,使得該系統(tǒng)可同時(shí)運(yùn)行在多種移動(dòng)平臺(tái)上。
3.軟件開(kāi)發(fā)框架
系統(tǒng)的架構(gòu)設(shè)計(jì)采用B/S與C/S模式相結(jié)合的方法。用戶既可以使用App終端登錄系統(tǒng),也可以通過(guò)用瀏覽器登錄系統(tǒng),實(shí)現(xiàn)更多豐富功能,滿足不同平臺(tái)用戶的不同使用需求。平臺(tái)應(yīng)用使用MMVC模式進(jìn)行構(gòu)建,分離了視圖、數(shù)據(jù)、邏輯,系統(tǒng)各個(gè)功能模塊相對(duì)獨(dú)立,可降低系統(tǒng)耦合性,降低系統(tǒng)維護(hù)升級(jí)成本。服務(wù)器端包括了Web應(yīng)用服務(wù)器以及數(shù)據(jù)服務(wù)器。數(shù)據(jù)服務(wù)器搭載有Oracle數(shù)據(jù)庫(kù),用于存儲(chǔ)移動(dòng)平臺(tái)用戶信息、權(quán)限信息等。
系統(tǒng)功能設(shè)計(jì)
用戶設(shè)計(jì)
系統(tǒng)用戶設(shè)計(jì)包括兩大類(lèi):瀏覽用戶、后臺(tái)維護(hù)人員。通過(guò)角色完成訪問(wèn)權(quán)限的管理。
瀏覽用戶可使用賬號(hào)管理、信息維護(hù)、查詢(xún)搜索、充值管理、借閱購(gòu)買(mǎi)管理等功能模塊。用戶可注冊(cè)并維護(hù)自己的個(gè)人信息,完成儲(chǔ)值,查詢(xún)自己感興趣的圖書(shū),并完成圖書(shū)電子版的借閱或購(gòu)買(mǎi)操作。而對(duì)于紙質(zhì)圖書(shū),系統(tǒng)則通過(guò)匹配后臺(tái)數(shù)據(jù)庫(kù)的數(shù)據(jù),展示書(shū)籍存放的圖書(shū)館的相應(yīng)信息,如該圖書(shū)館提供預(yù)約授權(quán),可通過(guò)該系統(tǒng)進(jìn)行圖書(shū)預(yù)約操作。同時(shí),系統(tǒng)具備接入電商平臺(tái)的能力,可鏈接到第三方平臺(tái)進(jìn)行書(shū)籍的購(gòu)買(mǎi)。
后臺(tái)維護(hù)人員可使用信息維護(hù)、數(shù)據(jù)接入、數(shù)據(jù)管理、用戶管理等功能模塊,維護(hù)人員可對(duì)后臺(tái)數(shù)據(jù)進(jìn)行維護(hù)管理,包括對(duì)用戶的管理和對(duì)圖書(shū)的管理兩大功能域。
搜索及可視化模塊設(shè)計(jì)
利用知識(shí)圖譜的技術(shù),實(shí)現(xiàn)對(duì)錄入的圖書(shū)的信息整合。本系統(tǒng)的數(shù)據(jù)源以結(jié)構(gòu)化的數(shù)據(jù)為主,通過(guò)對(duì)導(dǎo)入的數(shù)據(jù)庫(kù)數(shù)據(jù)的整合,完成知識(shí)體系的構(gòu)建。
當(dāng)用戶輸入關(guān)鍵詞進(jìn)行搜索時(shí),通過(guò)語(yǔ)義匹配和關(guān)聯(lián)查詢(xún),將該關(guān)鍵詞作為知識(shí)實(shí)體的中心節(jié)點(diǎn),結(jié)合對(duì)用戶歷史搜索數(shù)據(jù)及借閱圖書(shū)數(shù)據(jù)進(jìn)行信息整合處理,完成對(duì)基于該中心節(jié)點(diǎn)的知識(shí)圖譜的構(gòu)建,最終通過(guò)可視化的方式對(duì)其進(jìn)行展示,如下圖所示。同時(shí)給出最多三級(jí)關(guān)聯(lián)節(jié)點(diǎn)的展示,使用戶可不斷點(diǎn)擊新的中心節(jié)點(diǎn)進(jìn)行關(guān)聯(lián)圖書(shū)的查詢(xún)。
當(dāng)用戶選中某個(gè)節(jié)點(diǎn)(圖書(shū))時(shí),如果存在對(duì)應(yīng)的電子版圖書(shū),將會(huì)從下方彈出頁(yè)面對(duì)其簡(jiǎn)述信息進(jìn)行展示,用戶可自行確定是否訂閱或購(gòu)買(mǎi),同時(shí)系統(tǒng)會(huì)保留用戶的閱讀進(jìn)度,以便用戶利用碎片化時(shí)間進(jìn)行閱讀。
用戶信息挖掘管理模塊
用戶信息管理模塊包括用戶基礎(chǔ)信息管理、用戶搜索歷史管理、用戶借閱歷史管理。通過(guò)對(duì)用戶搜索歷史、借閱歷史的存儲(chǔ)和處理,系統(tǒng)可以推薦用戶感興趣的書(shū)籍,并可根據(jù)用戶借閱歷史及借閱習(xí)慣,自動(dòng)形成推薦信息的相關(guān)書(shū)籍組成的知識(shí)圖譜,用戶只需點(diǎn)擊即可進(jìn)行查閱。該模塊能夠使用戶更加系統(tǒng)化地掌握知識(shí)網(wǎng)絡(luò),具備同時(shí)提升用戶體驗(yàn)、增加用戶粘度等優(yōu)勢(shì)。
多元化信息展示模塊
智能圖書(shū)推薦系統(tǒng)具備多元化信息展示功能,通過(guò)書(shū)籍合集展示、借閱排行榜、用戶推薦榜等方式,通過(guò)用戶的內(nèi)驅(qū)力完成對(duì)信息的整合展示。
書(shū)籍合集展示:系統(tǒng)對(duì)錄入系統(tǒng)的圖書(shū)進(jìn)行分類(lèi)管理,通過(guò)對(duì)互聯(lián)網(wǎng)數(shù)據(jù)的挖掘,形成諸如“中國(guó)文學(xué)經(jīng)典合集”“外國(guó)文學(xué)的經(jīng)典合集”等推薦合集,能夠使用戶聚焦“重點(diǎn)”圖書(shū)。
借閱排行展示:通過(guò)對(duì)系統(tǒng)用戶的閱讀數(shù)據(jù)整合處理,形成圖書(shū)搜索和借閱排行榜,讓用戶通過(guò)自己的查詢(xún)及借閱行為對(duì)后臺(tái)數(shù)據(jù)進(jìn)行“加工”,讓用戶自己創(chuàng)造數(shù)據(jù),成為大數(shù)據(jù)的親歷者。
推薦榜展示:用戶在閱讀完書(shū)籍后,可通過(guò)收藏、點(diǎn)贊、評(píng)論的方式對(duì)圖書(shū)內(nèi)容、質(zhì)量等各個(gè)維度進(jìn)行評(píng)價(jià),而系統(tǒng)會(huì)形成針對(duì)圖書(shū)的各類(lèi)榜單,包括收藏排行榜、點(diǎn)贊排行榜、評(píng)論排行榜等,讓獨(dú)自讀書(shū)變成用戶集群參與的一種群體性行為,使枯燥的知識(shí)獲取過(guò)程變得不那么乏味。
后臺(tái)數(shù)據(jù)管理模塊
系統(tǒng)提供對(duì)后臺(tái)數(shù)據(jù)的維護(hù)管理,后臺(tái)維護(hù)人員能夠?qū)ο到y(tǒng)數(shù)據(jù)進(jìn)行管理,包括電子版圖書(shū)管理、圖書(shū)信息錄入、網(wǎng)購(gòu)平臺(tái)信息維護(hù)、數(shù)據(jù)庫(kù)備份、會(huì)員管理、系統(tǒng)日志等功能,維護(hù)人員通過(guò)對(duì)系統(tǒng)后臺(tái)數(shù)據(jù)的維護(hù)管理,確保系統(tǒng)用戶訪問(wèn)系統(tǒng)、搜索圖書(shū)、在線閱讀、購(gòu)買(mǎi)圖書(shū)等功能的正常使用。
結(jié)語(yǔ)
本文設(shè)計(jì)并實(shí)現(xiàn)了基于知識(shí)圖譜的可視化圖書(shū)推薦系統(tǒng),該系統(tǒng)通過(guò)對(duì)大量無(wú)序的數(shù)據(jù)進(jìn)行整合和處理,通過(guò)可視化的方式對(duì)數(shù)據(jù)進(jìn)行了有效的展現(xiàn),體現(xiàn)了較強(qiáng)的用戶交互性。同時(shí)該系統(tǒng)可擴(kuò)展性較強(qiáng),可接入第三方的電子圖書(shū)館數(shù)據(jù)庫(kù)、電商平臺(tái)甚至是傳統(tǒng)的圖書(shū)館,真正做到了大數(shù)據(jù)互聯(lián)互通,讓用戶能夠更加便捷地獲取到自己感興趣的知識(shí)。
參考文獻(xiàn):
[1]王勇,宋增祿,陳亞琳,等.基于知識(shí)圖譜的國(guó)內(nèi)職業(yè)教育改革現(xiàn)狀分析[J].職業(yè)技術(shù),2021,20(05):1-6.
張潔,王紅.基于詞頻分析和可視化共詞網(wǎng)絡(luò)圖的國(guó)內(nèi)外移動(dòng)學(xué)習(xí)研究熱點(diǎn)對(duì)比分析[J].現(xiàn)代遠(yuǎn)距離教育,2014(02):76-83.
[3]鐘良.青年馬克思主義者培養(yǎng)工程研究熱點(diǎn)述評(píng)和前瞻——基于Citespace可視化圖譜分析(2007-2020)[J].新生代,2021(03):4-12.
[4]劉迪.基于CiteSpace圖譜的學(xué)科領(lǐng)域研究發(fā)展歷程分析——以泰國(guó)華文教育為例[J].現(xiàn)代職業(yè)教育,2020(26):32-34.
[5]顏昌武,楊鄭媛.我國(guó)基本公共服務(wù)均等化研究的知識(shí)圖譜——基于Citespace的可視化計(jì)量分析[J].中國(guó)延安干部學(xué)院學(xué)報(bào),2020,13(04):58-67.
[6]楊國(guó)立,李品,劉竟.我國(guó)圖書(shū)館學(xué)研究知識(shí)圖譜分析[J].國(guó)家圖書(shū)館學(xué)刊,2012,21(01):52-59.
作者簡(jiǎn)介:張佼(1989—) ,男,漢族,四川巴中人,工程師,工學(xué)碩士,計(jì)算機(jī)軟件開(kāi)發(fā),西南電子設(shè)備研究所;馮明杰(1988—) ,男,漢族,四川成都人,工程師,工學(xué)碩士,計(jì)算機(jī)軟件開(kāi)發(fā),西南電子設(shè)備研究所;占偉鵬(1990—) ,男,漢族,江西九江人,工程師,工學(xué)碩士,計(jì)算機(jī)軟件開(kāi)發(fā),西南電子設(shè)備研究所;江? 曉(1988—) ,女,漢族,四川達(dá)州人,工程師,工學(xué)碩士,計(jì)算機(jī)軟件開(kāi)發(fā),西南電子設(shè)備研究所;王乾杰(1995—) ,男,漢族,湖北武漢人,助理工程師,工學(xué)碩士,計(jì)算機(jī)軟件開(kāi)發(fā),西南電子設(shè)備研究所;吳? 琪(1990—) ,男,漢族,四川自貢人,工程師,工學(xué)碩士,計(jì)算機(jī)軟件開(kāi)發(fā),西南電子設(shè)備研究所。